論文の概要: What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation
- arxiv url: http://arxiv.org/abs/2602.11499v1
- Date: Thu, 12 Feb 2026 02:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.607047
- Title: What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation
- Title(参考訳): エージェントが想像できるとしたら? オープンボキャブラリHOI理解の強化
- Authors: Zhenlong Yuan, Xiangyan Qu, Jing Tang, Rui Chen, Lei Sun, Ruidong Chen, Hongwei Yu, Chengxuan Qian, Xiangxiang Chu, Shuo Li, Yuyin Zhou,
- Abstract要約: 我々は,認知的推論と生成的想像とを調和させて,堅牢な視覚的理解を実現するエージェントフレームワークであるtextbfImagineAgentを提案する。
提案手法は,検出された実体と候補行動との間の可視的関係を明示的にモデル化する認知マップを革新的に構築する。
検索強化、画像トリミング、拡散モデルなどのツールを動的に起動し、ドメイン固有の知識を集め、視覚的証拠を充実させる。
- 参考スコア(独自算出の注目度): 35.62323084880028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models have shown promising capabilities in bridging visual and textual reasoning, yet their reasoning capabilities in Open-Vocabulary Human-Object Interaction (OV-HOI) are limited by cross-modal hallucinations and occlusion-induced ambiguity. To address this, we propose \textbf{ImagineAgent}, an agentic framework that harmonizes cognitive reasoning with generative imagination for robust visual understanding. Specifically, our method innovatively constructs cognitive maps that explicitly model plausible relationships between detected entities and candidate actions. Subsequently, it dynamically invokes tools including retrieval augmentation, image cropping, and diffusion models to gather domain-specific knowledge and enriched visual evidence, thereby achieving cross-modal alignment in ambiguous scenarios. Moreover, we propose a composite reward that balances prediction accuracy and tool efficiency. Evaluations on SWIG-HOI and HICO-DET datasets demonstrate our SOTA performance, requiring approximately 20\% of training data compared to existing methods, validating our robustness and efficiency.
- Abstract(参考訳): マルチモーダル大規模言語モデルは、視覚的およびテキスト的推論をブリッジする有望な能力を示しているが、オープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(OV-HOI)におけるそれらの推論能力は、クロスモーダル・幻覚とオクルージョンによって引き起こされる曖昧さによって制限されている。
そこで我々は,認知的推論と生成的想像とを調和させるエージェント・フレームワークである「textbf{ImagineAgent}」を提案する。
具体的には,検出された実体と候補行動との間の妥当な関係を明示的にモデル化する認知マップを革新的に構築する。
その後、検索強化、画像トリミング、拡散モデルなどのツールを動的に実行し、ドメイン固有の知識を集め、視覚的証拠を豊かにする。
さらに,予測精度とツール効率のバランスをとる複合報酬を提案する。
SWIG-HOIとHICO-DETデータセットの評価は、SOTAのパフォーマンスを示し、既存の手法と比較して約20%のトレーニングデータを必要とし、堅牢性と効率性を検証する。
関連論文リスト
- DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools [41.993750134878766]
Video-STARは、オープン語彙行動認識のためのツール強化学習とコンテキストサブモーション分解を調和させるフレームワークである。
アクションをモノリシックなエンティティとして扱う従来の方法とは異なり、我々のアプローチは、アクションをきめ細かなマッチングのための差別的なサブモーションに革新的に分解する。
本手法は,テキスト中心の推論から視覚的接地推論へ伝達する,明示的な監督を伴わずに,外部ツールを自律的に活用し,サブモーションパターンの優先順位付けを行う。
論文 参考訳(メタデータ) (2025-10-09T17:20:44Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Contextualized Representation Learning for Effective Human-Object Interaction Detection [17.242400169885453]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。
本研究では,条件付き推論と文脈的プロンプトを統合した文脈適応型表現学習を提案する。
提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-16T08:03:16Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。