論文の概要: See, Think, Learn: A Self-Taught Multimodal Reasoner
- arxiv url: http://arxiv.org/abs/2512.02456v1
- Date: Tue, 02 Dec 2025 06:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.746385
- Title: See, Think, Learn: A Self-Taught Multimodal Reasoner
- Title(参考訳): 自己学習型マルチモーダル共振器
- Authors: Sourabh Sharma, Sonam Gupta, Sadbhawna,
- Abstract要約: 本稿では,See-Think-Learnというシンプルな自己学習フレームワークを提案する。
STLの中核となるのは、モデルが考える前に見ることを奨励する構造化推論テンプレートである。
モデルが正しい応答と誤解を招く応答を区別する能力を高めるために、負の有理性でトレーニングデータを増強する。
- 参考スコア(独自算出の注目度): 3.443084677278651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable progress in integrating visual perception with language understanding. However, effective multimodal reasoning requires both accurate perception and robust reasoning, and weakness in either limits the performance of VLMs. Prior efforts to enhance reasoning often depend on high-quality chain-of-thought (CoT) data, obtained via labor-intensive human annotations, costly proprietary models, or self-training methods that overlook perception. To address these limitations, we propose a simple yet effective self-training framework called See-Think-Learn (STL). At its core, STL introduces a structured reasoning template that encourages the model to see before thinking, first extracting visual attributes in textual form, then using them to guide reasoning. The framework jointly improves perception and reasoning by having the model generate and learn from its own structured rationales in a self-training loop. Furthermore, we augment the training data with negative rationales, i.e. explanations that justify why certain answer choices are incorrect, to enhance the model's ability to distinguish between correct and misleading responses. This fosters more discriminative and robust learning. Experiments across diverse domains show that STL consistently outperforms baselines trained directly only on answers or self-generated reasoning, while qualitative analysis confirms the high quality of its rationales. STL thus provides a cost-effective solution to enhance multimodal reasoning ability of VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚と言語理解の統合において顕著な進歩を遂げている。
しかしながら、効果的なマルチモーダル推論には、正確な認識と堅牢な推論の両方が必要である。
推論を強化する以前の取り組みは、労働集約的な人間のアノテーション、コストがかかるプロプライエタリなモデル、知覚を無視する自己学習手法を通じて得られる高品質なチェーン・オブ・シント(CoT)データに依存することが多い。
このような制約に対処するため,See-Think-Learn (STL) というシンプルな自己学習フレームワークを提案する。
中心となるSTLは、構造化推論テンプレートを導入し、まずはテキスト形式で視覚的属性を抽出し、次にそれらを使用して推論をガイドする。
このフレームワークは、自己学習ループにおいて、モデルが自身の構造化された論理から生成および学習することにより、知覚と推論を共同で改善する。
さらに、負の有理性を持つトレーニングデータ、すなわち、ある解選択が間違っている理由を正当化する説明を強化し、正しい解答と誤解を招く解答を区別するモデルの能力を高める。
これにより、より差別的で堅牢な学習が促進される。
様々な領域にわたる実験により、STLは答えや自己生成推論のみに基づいて訓練されたベースラインを一貫して上回り、定性的な分析はその有理性の高さを裏付けている。
したがって、STLはVLMのマルチモーダル推論能力を向上するコスト効率の高いソリューションを提供する。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards [48.55501117313608]
本稿では,視覚言語モデルにおけるステップ推論の連鎖について述べる。
ステップレベルの推論データ、プロセス報酬モデル(PRM)、強化学習トレーニングを含む、シンプルで効果的で完全に透明なフレームワークを提案する。
本稿では、視覚言語モデルのベースラインとして機能し、より複雑なマルチモーダル推論に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-09-23T13:47:32Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。