Fugu-MT 論文翻訳(概要): See, Infer, Intervene: Proactive World Modeling for Goal-Oriented Social Intelligence

論文の概要: See, Infer, Intervene: Proactive World Modeling for Goal-Oriented Social Intelligence

arxiv url: http://arxiv.org/abs/2606.03371v2
Date: Sun, 07 Jun 2026 02:58:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:04.873591
Title: See, Infer, Intervene: Proactive World Modeling for Goal-Oriented Social Intelligence
Title（参考訳）: See, Infer, Intervene: ゴール指向のソーシャルインテリジェンスのためのプロアクティブな世界モデリング
Authors: Honghui Zhang, Chenmeinian Guo, Yichen Yu, Guanyu Liu, Yujia Zhang, Yongming Qin, Chongguo Song, Mengyue Yang, Lei Yu, Tianyu Shi,
Abstract要約: マルチモーダル小売業者は、顧客が何をしているかを認識するだけでなく、明示的な要求がなされる前に支援するかどうかを判断する必要がある。本稿では、See-Infer-Intervene(SII)フレームワークを用いて、この設定について検討する。我々は、AIDA(Attention, Interest, Desire, Action)購入フェーズとBDI(Belief, desire, intention)心理学領域を持つ顧客状態を表すPIWM(Proactive Intent World Model)を用いてSIIをインスタンス化する。
参考スコア（独自算出の注目度）: 13.373500277660959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal retail agents should not only recognize what a customer is doing, but also decide whether and how to assist before an explicit request is made. We study this setting through the See--Infer--Intervene (SII) framework, where a device must see pre-interaction behavior, infer latent customer intent, and act by selecting an appropriate service intervention or choosing to wait. We instantiate SII with the Proactive Intent World Model (PIWM), which represents customer state with AIDA (Attention, Interest, Desire, Action) purchasing phases and BDI (belief, desire, intention) psychological fields, predicts action-conditioned intent transitions, and selects from five response classes: Greet, Elicit, Inform, Recommend, and Hold. We further construct GuidanceSalesBench, a smart-retail benchmark containing state manifests, pre-interaction videos, candidate responses, action-conditioned outcomes, and best-action labels. When conditioned on ground-truth customer state to isolate action selection, PIWM achieves 0.641 macro F1 on 30 held-out target videos, outperforming a zero-shot Qwen2.5-VL-7B baseline and training variants without balanced action supervision; end-to-end video-only selection drops to 0.295, below the 5-class balanced random baseline of 0.414, identifying video-to-state grounding as the dominant deployment-time bottleneck. A preliminary staged real-store pilot (recorded with paid participants performing scripted customer behaviors) reaches 0.579 action macro F1 on 20 fully annotated videos, with 10 additional accessible videos released with index-level labels.
Abstract（参考訳）: マルチモーダル小売業者は、顧客が何をしているかを認識するだけでなく、明示的な要求がなされる前に支援するかどうかを判断する必要がある。本稿では、See-Infer-Intervene(SII)フレームワークを用いて、この設定について検討する。我々は、AIDA(Attention, Interest, Desire, Action)の購入フェーズとBDI(Belief, desire, intention)の心理的フィールドを持つ顧客状態を表すPIWM(Proactive Intent World Model)を用いてSIIをインスタンス化し、アクション条件の意図遷移を予測し、Greet、Elicit、Inform、Recommend、Holdの5つの応答クラスから選択する。 GuidanceSalesBenchは、状態マニフェスト、プレアクションビデオ、候補応答、アクション条件付き結果、ベストアクションラベルを含むスマートリテールベンチマークである。アクション選択を分離するために接地的顧客状態に条件付けされたPIWMは、30の保持対象ビデオ上の0.641マクロF1を達成し、ゼロショットのQwen2.5-VL-7Bベースラインと、バランスの取れたアクション監督のないトレーニングバリアントを上回り、エンドツーエンドのビデオのみの選択は0.295に減少し、5クラスのバランスの取れたランダムベースラインである0.414を下回り、ビデオ間グラウンドを支配的デプロイメント時のボトルネックとして特定する。事前のステージドリアルストアパイロット(スクリプトされた顧客の振る舞いを実行する有償参加者が記録)は、20の注釈付きビデオで0.579のアクションマクロF1に達し、インデックスレベルのラベル付きで追加で10のアクセス可能なビデオがリリースされた。

関連論文リスト

HOI-aware Adaptive Network for Weakly-supervised Action Segmentation [64.63922024617493]
AdaAct と呼ばれる HOI 対応ネットワークを提案する。我々は、時間的大局的だが空間的局所的な人間-物体相互作用(HOI)をアクションセグメンテーションのためのビデオレベルの事前知識として活用する。
論文参考訳（メタデータ） (2026-04-29T02:11:51Z)
Action-Aware Generative Sequence Modeling for Short Video Recommendation [50.74467504063892]
ショートビデオには様々な部分が含まれており、ユーザーはそれらすべてに対して同じ態度を取ることはできない。従来のバイナリ分類レコメンデーションモデルは、ビデオを単一の全体的エンティティとして扱うが、そのような微妙な好みを正確に捉えるには限界に直面している。本稿では,時間的次元に沿ってユーザアクションを洗練させる行動認識生成系列ネットワーク(A2Gen)を提案する。
論文参考訳（メタデータ） (2026-04-28T16:41:04Z)
The 1st Winner for 5th PVUW MeViS-Text Challenge: Strong MLLMs Meet SAM3 for Referring Video Object Segmentation [65.24213788883016]
本報告では,第5回PVUW MeViS-Text Challengeの優勝ソリューションについて述べる。私たちは、強力なマルチモーダルな大規模言語モデルとSAM3を組み合わせた、完全にトレーニング不要なパイプラインを構築しています。我々の手法はPVUW 2026 MeViS-Textテストセットで第1位であり、最終スコアは0.909064、J&Fスコアは0.7897026である。
論文参考訳（メタデータ） (2026-04-01T02:42:30Z)
SessionIntentBench: A Multi-task Inter-session Intention-shift Modeling Benchmark for E-commerce Customer Behavior Understanding [64.45047674586671]
本稿では,意図木の概念を導入し,データセットキュレーションパイプラインを提案する。我々は,L(V)LMsのセッション間意図シフト理解能力を評価するマルチモーダルベンチマークSessionIntentBenchを構築した。 1,952,177の意図的エントリ,1,132,145のセッション意図軌跡,および10,905のセッションを使用してマイニングされた13,003,664のタスクにより,既存のセッションデータを活用可能なスケーラブルな方法を提供する。
論文参考訳（メタデータ） (2025-07-27T09:04:17Z)
End-to-End Action Segmentation Transformer [13.30372897896507]
本稿では、生のビデオフレームを直接処理するEnd-to-End Action Transformer(EAST)を紹介する。コントリビューションは,(1)大きめのバックボーンを効果的に微調整するための軽量なアダプタ設計,(2)粗いアンサンプで予測されるアクション提案を活用する効率的なセグメンテーション・バイ・ディテクト・フレームワーク,(3)新しいアクション・プロモーサルベースのデータ拡張戦略である。
論文参考訳（メタデータ） (2025-03-08T19:25:16Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)
Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。 1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文参考訳（メタデータ） (2022-08-25T07:42:48Z)
NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation Challenge 2022 [13.603712913129506]
EPIC-Kitchen-100アクション予測課題の技術的詳細について述べる。我々のモデリング、高次の時空変換器、エッジ学習を用いたメッセージパスニューラルネットワークはどちらも、2.5秒の推論コンテキストのみを観測し、アクション予測予測を形成するリカレントベースアーキテクチャである。提案したトレーニングパイプラインでコンパイルされたモデルの予測スコアを平均化することにより、テストセット上で強力なパフォーマンスを実現しました。
論文参考訳（メタデータ） (2022-06-22T06:34:58Z)
Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文参考訳（メタデータ） (2021-06-03T17:57:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。