論文の概要: IMoRe: Implicit Program-Guided Reasoning for Human Motion Q&A
- arxiv url: http://arxiv.org/abs/2508.01984v1
- Date: Mon, 04 Aug 2025 01:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.142495
- Title: IMoRe: Implicit Program-Guided Reasoning for Human Motion Q&A
- Title(参考訳): IMoRe:人間動作Q&Aのためのプログラムガイド推論
- Authors: Chen Li, Chinthani Sugandhika, Yeo Keat Ee, Eric Peh, Hao Zhang, Hong Yang, Deepu Rajan, Basura Fernando,
- Abstract要約: 本稿では,プログラム誘導型動作推論(IMoRe)フレームワークを提案する。
予め訓練されたモーション・ビジョン・トランス(ViT)から動的にマルチレベル・モーション・表現を選択するプログラム誘導型読み出し機構を導入する。
本モデルは,Babel-QA上での最先端性能を実現し,Hummanに基づく新たな動作Q&Aデータセットに一般化する。
- 参考スコア(独自算出の注目度): 25.91990824698619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing human motion Q\&A methods rely on explicit program execution, where the requirement for manually defined functional modules may limit the scalability and adaptability. To overcome this, we propose an implicit program-guided motion reasoning (IMoRe) framework that unifies reasoning across multiple query types without manually designed modules. Unlike existing implicit reasoning approaches that infer reasoning operations from question words, our model directly conditions on structured program functions, ensuring a more precise execution of reasoning steps. Additionally, we introduce a program-guided reading mechanism, which dynamically selects multi-level motion representations from a pretrained motion Vision Transformer (ViT), capturing both high-level semantics and fine-grained motion cues. The reasoning module iteratively refines memory representations, leveraging structured program functions to extract relevant information for different query types. Our model achieves state-of-the-art performance on Babel-QA and generalizes to a newly constructed motion Q\&A dataset based on HuMMan, demonstrating its adaptability across different motion reasoning datasets. Code and dataset are available at: https://github.com/LUNAProject22/IMoRe.
- Abstract(参考訳): 既存の人間の動作 Q\&A メソッドは明示的なプログラム実行に依存しており、手動で定義された機能モジュールの要求はスケーラビリティと適応性を制限する可能性がある。
そこで本研究では,プログラム誘導型動作推論(IMoRe)フレームワークを提案する。
質問語から推論操作を推論する既存の暗黙的推論アプローチとは異なり、我々のモデルは構造化されたプログラム関数に直接条件を定め、推論ステップのより正確な実行を保証する。
さらに,事前学習された視覚変換器(ViT)から動的にマルチレベル動作表現を選択し,高レベルなセマンティクスと細粒度な動作キューの両方をキャプチャするプログラム誘導読影機構を導入する。
推論モジュールはメモリ表現を反復的に洗練し、構造化プログラム関数を利用して異なるクエリタイプの関連情報を抽出する。
提案モデルは,Babel-QA上での最先端性能を実現し,Hummanに基づく新たに構築された動きQ\&Aデータセットに一般化し,異なる動き推論データセット間の適応性を示す。
コードとデータセットは、https://github.com/LUNAProject22/IMoReで入手できる。
関連論文リスト
- Motion-R1: Chain-of-Thought Reasoning and Reinforcement Learning for Human Motion Generation [31.484189825477877]
Motion-R1は、Chain-of-Thoughtメカニズムを統合したモーション言語モデリングフレームワークである。
複雑なテキスト命令を論理的に構造化されたアクションパスに明示的に分解することで、モーションR1はモーション生成のための高レベルなセマンティックガイダンスを提供する。
複数のベンチマークデータセットに対する実験では、Motion-R1は最先端の手法と比較して、競争力や優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-12T05:21:43Z) - Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification [22.871255950998016]
本稿では,MLLMが視覚コンテンツに対して検証者誘導推論を行うことを可能にする,推論時ビジュアルトークンスケーリングのための新しいフレームワークを提案する。
提案手法は,様々な視覚的推論ベンチマークにおいて,既存手法よりも優れていた。
これらの結果は,次世代MLLMにおける微粒でコンテキスト対応の視覚的推論を実現するための動的推論機構の実現を実証するものである。
論文 参考訳(メタデータ) (2025-06-08T17:38:49Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - MoReVQA: Exploring Modular Reasoning Models for Video Question Answering [101.25249395748794]
本稿では,ビデオ質問応答(videoQA)の課題を,分解した多段階モジュラー推論フレームワークを用いて解決する。
従来の単一ステージ計画手法とは異なり、イベント、グラウンドステージ、最終的な推論ステージからなるマルチステージシステムと外部メモリとの組み合わせを提案する。
論文 参考訳(メタデータ) (2024-04-09T17:59:31Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Motion Question Answering via Modular Motion Programs [10.869455692535853]
本研究では,長文の人間の動作列上でのモデルの複雑な多段階推論能力を評価するためのHumanMotionQAタスクを提案する。
イベント発生時を時間的に推測し,特定の動作属性を問合せする,少数の動作推論におけるモータキューの検出を必要とする質問応答対のデータセットを生成する。
我々は,NSPoseのHumanMotionQAタスクに対する適合性を実証し,すべてのベースライン手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-05-15T18:45:55Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - One for All: One-stage Referring Expression Comprehension with Dynamic
Reasoning [11.141645707535599]
推論状態と表現の複雑さに基づいて推論ステップを動的に調整できる動的多段階推論ネットワークを提案する。
この作業は、いくつかのRECデータセットの最先端のパフォーマンスや大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-31T04:51:27Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。