論文の概要: Constructing and Interpreting Digital Twin Representations for Visual Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.12365v1
- Date: Sat, 15 Nov 2025 21:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.991364
- Title: Constructing and Interpreting Digital Twin Representations for Visual Reasoning via Reinforcement Learning
- Title(参考訳): 強化学習による視覚推論のためのディジタル双対表現の構成と解釈
- Authors: Yiqing Shen, Mathias Unberath,
- Abstract要約: 複雑な視覚入力のディジタル双対表現を構築するために,大規模言語モデルを訓練する強化学習フレームワークDT-R1を提案する。
DT-R1は最新のタスク固有モデルよりも一貫して改善されていることを示す。
- 参考スコア(独自算出の注目度): 9.529907786822115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning may require models to interpret images and videos and respond to implicit text queries across diverse output formats, from pixel-level segmentation masks to natural language descriptions. Existing approaches rely on supervised fine-tuning with task-specific architectures. For example, reasoning segmentation, grounding, summarization, and visual question answering each demand distinct model designs and training, preventing unified solutions and limiting cross-task and cross-modality generalization. Hence, we propose DT-R1, a reinforcement learning framework that trains large language models to construct digital twin representations of complex multi-modal visual inputs and then reason over these high-level representations as a unified approach to visual reasoning. Specifically, we train DT-R1 using GRPO with a novel reward that validates both structural integrity and output accuracy. Evaluations in six visual reasoning benchmarks, covering two modalities and four task types, demonstrate that DT-R1 consistently achieves improvements over state-of-the-art task-specific models. DT-R1 opens a new direction where visual reasoning emerges from reinforcement learning with digital twin representations.
- Abstract(参考訳): 視覚的推論は、画像やビデオを解釈し、ピクセルレベルのセグメンテーションマスクから自然言語記述まで、さまざまな出力フォーマットにわたる暗黙のテキストクエリに応答するモデルを必要とする。
既存のアプローチはタスク固有のアーキテクチャによる教師付き微調整に依存している。
例えば、各要求ごとに異なるモデル設計とトレーニングに答える推論のセグメンテーション、グラウンド化、要約、視覚的な質問、統一されたソリューションの防止、クロスタスクとクロスモーダリティの一般化の制限などである。
そこで我々は,大規模言語モデルを用いた強化学習フレームワークDT-R1を提案し,複雑なマルチモーダル視覚入力のディジタル双対表現を構築し,これらのハイレベル表現を視覚的推論への統一的アプローチとして推論する。
具体的には、GRPOを用いてDT-R1をトレーニングし、構造的整合性と出力精度の両方を検証する。
6つの視覚的推論ベンチマークでは、2つのモダリティと4つのタスクタイプをカバーし、DT-R1が最新のタスク固有のモデルよりも一貫して改善されていることを示す。
DT-R1は、デジタル双対表現による強化学習から視覚的推論が出現する新たな方向を開く。
関連論文リスト
- ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations [48.98219448782818]
Reasoning(RS)は、暗黙のテキストクエリに基づいてオブジェクトをセグメント化する必要があるマルチモーダル視覚テキストタスクである。
現在のRSアプローチは、知覚と推論の両方に微調整の視覚言語モデル(VLM)に依存している。
本稿では、Digital Twin表現を中間層として活用し、認識を推論から切り離す新しいRS手法DTwinSegerを紹介する。
論文 参考訳(メタデータ) (2025-06-09T17:05:02Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning [47.592351387052545]
GoT-R1は、視覚生成における意味空間推論を強化するために強化学習を適用するフレームワークである。
本稿では,MLLMを用いた2段階多次元報酬フレームワークを提案する。
実験の結果, T2I-CompBenchベンチマークで有意な改善が認められた。
論文 参考訳(メタデータ) (2025-05-22T17:59:58Z) - R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-13T17:56:05Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。