論文の概要: HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2508.11350v1
- Date: Fri, 15 Aug 2025 09:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.837092
- Title: HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model
- Title(参考訳): HOID-R1:マルチモーダル大言語モデルを用いたオープンワールドヒューマンオブジェクトインタラクション検出のための強化学習
- Authors: Zhenhao Zhang, Hanqing Wang, Xiangyu Zeng, Ziyu Cheng, Jiaxin Liu, Haoyu Yan, Zhirui Liu, Kaiyang Ji, Tianxiang Gui, Ke Hu, Kangyi Chen, Yahao Fan, Mokai Pan,
- Abstract要約: HOID-R1は,チェーン・オブ・シント(CoT)とグループ相対的ポリシー最適化のファインチューニングを統合した最初のHOI検出フレームワークである。
CoT推論における幻覚を軽減するために,CoT出力を監督するMLLM-as-a-judge機構を導入する。
実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 13.82578761807402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and recognizing human-object interaction (HOI) is a pivotal application in AR/VR and robotics. Recent open-vocabulary HOI detection approaches depend exclusively on large language models for richer textual prompts, neglecting their inherent 3D spatial understanding capabilities. To address this shortcoming, we introduce HOID-R1, the first HOI detection framework that integrates chain-of-thought (CoT) guided supervised fine-tuning (SFT) with group relative policy optimization (GRPO) within a reinforcement learning (RL) paradigm. Specifically, we initially apply SFT to imbue the model with essential reasoning capabilities, forcing the model to articulate its thought process in the output. Subsequently, we integrate GRPO to leverage multi-reward signals for policy optimization, thereby enhancing alignment across diverse modalities. To mitigate hallucinations in the CoT reasoning, we introduce an "MLLM-as-a-judge" mechanism that supervises the CoT outputs, further improving generalization. Extensive experiments show that HOID-R1 achieves state-of-the-art performance on HOI detection benchmarks and outperforms existing methods in open-world generalization to novel scenarios.
- Abstract(参考訳): ヒューマンオブジェクトインタラクション(HOI)の理解と認識は、AR/VRおよびロボット工学における重要な応用である。
最近のオープンボキャブラリHOI検出アプローチは、よりリッチなテキストプロンプトのための大きな言語モデルにのみ依存しており、それら固有の3次元空間理解能力を無視している。
この欠点に対処するため, HOID-R1は, チェーン・オブ・シンク(CoT)ガイドによる教師付き微調整(SFT)とグループ相対政策最適化(GRPO)を統合した最初のHOI検出フレームワークである。
具体的には、まずまずSFTを適用して、本質的な推論能力を持つモデルを構築する。
その後、GRPOを統合し、ポリシー最適化にマルチリワード信号を活用することにより、様々なモダリティ間のアライメントを向上する。
CoT推論における幻覚を軽減するため、CoT出力を監督し、さらに一般化を改善する「MLLM-as-a-judge」機構を導入する。
大規模な実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
関連論文リスト
- Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model [23.56313087226691]
Affordance Groundingは、ロボットが実行するアクションに関連するオブジェクトの特定の領域を予測することに焦点を当てている。
既存のモデルは、しばしば異なるオブジェクト間で共有される余裕を無視する。
Affordance-R1は,認知的CoT誘導グループ相対的政策最適化を統合した,最初の統合型アプライアンス基盤フレームワークである。
論文 参考訳(メタデータ) (2025-08-08T10:39:04Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension [31.952192907460713]
Relation-R1は、テキストファーストの統一関係理解フレームワークである。
認知連鎖(CoT)誘導型微調整(SFT)とグループ相対政策最適化(GRPO)を統合している。
広く使われているPSGデータセットとSWiGデータセットの実験により、リレーショナルR1はバイナリとtextitN-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-20T14:50:49Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。