論文の概要: HOI-R1: Exploring the Potential of Multimodal Large Language Models for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2510.05609v1
- Date: Tue, 07 Oct 2025 06:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.125012
- Title: HOI-R1: Exploring the Potential of Multimodal Large Language Models for Human-Object Interaction Detection
- Title(参考訳): HOI-R1:人間と物体の相互作用検出のための多モーダル大言語モデルの可能性を探る
- Authors: Junwen Chen, Peilin Xiong, Keiji Yanai,
- Abstract要約: 本稿では,HOIDタスクを純粋テキストで解くために,HOI推論プロセスとHOID報酬関数を導入する。
HICO-DETデータセットの結果から,HOI-R1はベースラインの精度を2倍に向上することが示された。
- 参考スコア(独自算出の注目度): 6.608035306614831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Human-object interaction detection (HOID) methods highly require prior knowledge from VLMs to enhance the interaction recognition capabilities. The training strategies and model architectures for connecting the knowledge from VLMs to the HOI instance representations from the object detector are challenging, and the whole framework is complex for further development or application. On the other hand, the inherent reasoning abilities of MLLMs on human-object interaction detection are under-explored. Inspired by the recent success of training MLLMs with reinforcement learning (RL) methods, we propose HOI-R1 and first explore the potential of the language model on the HOID task without any additional detection modules. We introduce an HOI reasoning process and HOID reward functions to solve the HOID task by pure text. The results on the HICO-DET dataset show that HOI-R1 achieves 2x the accuracy of the baseline with great generalization ability. The source code is available at https://github.com/cjw2021/HOI-R1.
- Abstract(参考訳): 近年のHuman-object Interaction Detection (HOID) 法は,対話認識能力を高めるために VLM からの事前知識を必要とする。
VLMからの知識とオブジェクト検出器からのHOIインスタンス表現を結びつけるためのトレーニング戦略とモデルアーキテクチャは困難であり、フレームワーク全体がさらなる開発やアプリケーションのために複雑である。
一方,人間と物体の相互作用検出におけるMLLMの固有の推論能力は未探索である。
近年,強化学習法(RL)によるMLLMのトレーニングの成功に触発されて,HOI-R1を提案し,新たな検出モジュールを使わずにHOIDタスクにおける言語モデルの可能性を探究する。
本稿では,HOIDタスクを純粋テキストで解くために,HOI推論プロセスとHOID報酬関数を導入する。
HICO-DETデータセットの結果から,HOI-R1はベースラインの精度を2倍に向上することが示された。
ソースコードはhttps://github.com/cjw2021/HOI-R1.comで入手できる。
関連論文リスト
- HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model [13.82578761807402]
HOID-R1は,チェーン・オブ・シント(CoT)とグループ相対的ポリシー最適化のファインチューニングを統合した最初のHOI検出フレームワークである。
CoT推論における幻覚を軽減するために,CoT出力を監督するMLLM-as-a-judge機構を導入する。
実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-15T09:28:57Z) - Agentic Episodic Control [16.94652073521156]
強化学習(RL)は、ゲームプレイから科学的発見、AIアライメントに至るまで、AIのブレークスルーを推進してきた。
近年の進歩は、豊かな世界知識と推論能力を持つ大規模言語モデルが、意味的状態モデリングとタスクに依存しない計画を可能にすることで、RLを補完する可能性があることを示唆している。
本稿では,RLを大規模言語モデルと統合して意思決定を促進する新しいアーキテクチャであるエージェント・エピソディクス・コントロール(AEC)を提案する。
論文 参考訳(メタデータ) (2025-06-02T08:57:37Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - O1 Embedder: Let Retrievers Think Before Action [28.583031173137428]
我々は,対象文書の検索に先立って,入力クエリに有用な思考を生成するO1 Embedderを提案する。
私たちのアプローチは、12の一般的なデータセットで大幅に改善される包括的な実験によって評価されます。
これらの結果は、O1 Embedderの顕著な精度と一般化性を強調し、次世代IR基盤モデルの開発への道を開いた。
論文 参考訳(メタデータ) (2025-02-11T13:48:10Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。