論文の概要: Instruction-Following Evaluation of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.23572v1
- Date: Mon, 29 Dec 2025 16:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.573696
- Title: Instruction-Following Evaluation of Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルの指示追従評価
- Authors: Daiki Shiono, Shumpei Miyawaki, Ryota Tanaka, Jun Suzuki,
- Abstract要約: 本研究では,LVLMの指示追従能力が微調整後に低下することを示す。
微調整中の出力形式がLVLMの指示追従能力にどのように影響するかを検討した。
出力フォーマットの命令を含むデータセットでトレーニングされたLVLMは、そうでないモデルよりも正確に命令に従う傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 11.0313831660908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following the initial flourishing of large language models (LLMs), there has been a surge in proposed large vision-language models (LVLMs) that integrate LLMs with vision capabilities. However, it has been observed that LVLMs, after tuning to visual instruction using commonly used training datasets, often fail to exhibit the instruction-following ability that was present in the LLM before integration, leading to results in which they do not follow task instructions as expected. This study quantitatively demonstrates that LVLMs' instruction-following ability declines after fine-tuning and analyzes its underlying causes. In particular, we constructed new training datasets highlighting whether the output format is specified. Then, we investigated how explicitly indicating the output format during fine-tuning affects LVLMs' instruction-following ability. Our quantitative evaluation confirmed that LVLMs' instruction-following ability declines after fine-tuning with commonly used datasets. Furthermore, we found that LVLMs trained with datasets, including instructions on output format, tend to follow instructions more accurately than models that do not. These findings suggest that including samples with instructions on output format during (visual) instruction tuning may help mitigate the decline in instruction-following abilities.
- Abstract(参考訳): 大規模言語モデル (LLM) の初期の発展に続いて、LLMと視覚機能を統合した大規模視覚言語モデル (LVLM) が提案されている。
しかし、LVLMは、一般的に使用されているトレーニングデータセットを使用して視覚指導にチューニングした後、統合前にLLMに存在した指示追従能力の発揮に失敗し、期待通りにタスク指示に従わなかった結果が得られた。
本研究では,LVLMの指示追従能力は微調整後に低下し,その根本原因を定量的に解析する。
特に、出力フォーマットが指定されているかどうかを強調する新しいトレーニングデータセットを構築した。
そして,微調整時の出力形式がLVLMの指示追従能力にどのように影響するかを検討した。
LVLMの命令追従能力は、一般的に使用されるデータセットによる微調整後に低下することを確認した。
さらに、出力フォーマットの命令を含むデータセットで訓練されたLVLMは、そうでないモデルよりも正確に命令に従う傾向にあることがわかった。
これらの結果から、(視覚的な)命令チューニング中に出力形式を指示するサンプルを含めることで、命令追従能力の低下を緩和できる可能性が示唆された。
関連論文リスト
- Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。