論文の概要: Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration
- arxiv url: http://arxiv.org/abs/2509.13919v1
- Date: Wed, 17 Sep 2025 11:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.83519
- Title: Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration
- Title(参考訳): Rationale-Answer Alignment of LVLMs through Self-Rationale Calibration (特集 バイオサイバネティックスとバイオサイバネティックス)
- Authors: Yuanchen Wu, Ke Yan, Shouhong Ding, Ziyin Zhou, Xiaoqiang Li,
- Abstract要約: LVLM(Large Vision-Language Models)は、強力な視覚的質問応答能力を示す。
本稿では,理性と答えのアライメントを反復的に調整するセルフレーションキュレーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.53292711142047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have manifested strong visual question answering capability. However, they still struggle with aligning the rationale and the generated answer, leading to inconsistent reasoning and incorrect responses. To this end, this paper introduces the Self-Rationale Calibration (SRC) framework to iteratively calibrate the alignment between rationales and answers. SRC begins by employing a lightweight "rationale fine-tuning" approach, which modifies the model's response format to require a rationale before deriving an answer without explicit prompts. Next, SRC searches for a diverse set of candidate responses from the fine-tuned LVLMs for each sample, followed by a proposed pairwise scoring strategy using a tailored scoring model, R-Scorer, to evaluate both rationale quality and factual consistency of candidates. Based on a confidence-weighted preference curation process, SRC decouples the alignment calibration into a preference fine-tuning manner, leading to significant improvements of LVLMs in perception, reasoning, and generalization across multiple benchmarks. Our results emphasize the rationale-oriented alignment in exploring the potential of LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、強力な視覚的質問応答能力を示す。
しかし、彼らは依然として理性と生成した答えの整合に苦慮しており、矛盾した理性や誤った反応をもたらす。
そこで本稿では,理性と回答の整合性を反復的に校正する自己回帰校正(Self-Rationale Calibration, SRC)フレームワークを提案する。
SRCはライトウェイトな「微調整」アプローチで始まり、明確なプロンプトなしで答えを導き出す前に、モデルの応答形式を変更する。
次に、SRCは、各サンプルについて細調整されたLVLMから多種多様な候補応答を探索し、続いて、R-Scorerという調整されたスコアリングモデルを用いて、候補の合理的な品質と事実整合性の両方を評価する一対のスコアリング戦略を提案する。
信頼度重み付けされた選好キュレーションプロセスに基づいて、SRCはアライメントキャリブレーションを好みの微調整方法に分離し、知覚、推論、一般化においてLVLMを大幅に改善した。
この結果は,LVLMの可能性を探究する上で,合理的指向のアライメントを強調した。
関連論文リスト
- Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning [57.89188317734747]
PrismRAGはこのモデルを、イントラクタを意識したQAペアで訓練し、金の証拠と微妙なイントラクタパスを混合する。
LLMを計画し、合理化し、人間工学的な指示に頼らずに合成する推論中心の習慣を取り入れている。
論文 参考訳(メタデータ) (2025-07-25T00:15:31Z) - SGIC: A Self-Guided Iterative Calibration Framework for RAG [45.17496149653415]
大規模言語モデル(LLM)は、頑健な文脈内推論を生かしている。
ツールとして不確実性スコアを用いる新しいフレームワークを提案する。
また、反復的な自己校正訓練セットを構築するための革新的なアプローチも導入する。
論文 参考訳(メタデータ) (2025-06-19T09:45:13Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
よりあいまいな選好ペアの獲得に焦点を当てた高品質なトレーニングデータセットを構築するための戦略を提案する。
実験により、異なる応答対を選択することで、LSMの直列化が促進されることが示された。
異なるペアにフォーカスすることでラベルエラーを低減し,LLMアライメント効率を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。