Fugu-MT 論文翻訳(概要): Bridging Writing Manner Gap in Visual Instruction Tuning by Creating LLM-aligned Instructions

論文の概要: Bridging Writing Manner Gap in Visual Instruction Tuning by Creating LLM-aligned Instructions

arxiv url: http://arxiv.org/abs/2503.18320v1
Date: Mon, 24 Mar 2025 03:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:17.104488
Title: Bridging Writing Manner Gap in Visual Instruction Tuning by Creating LLM-aligned Instructions
Title（参考訳）: LLM対応インストラクションの作成による視覚インストラクションチューニングにおけるマニナーギャップのブリッジング
Authors: Dong Jing, Nanyi Fei, Zhiwu Lu,
Abstract要約: 視覚的指示とLMMのベース言語モデル(LLM)の間にはかなりの書法差があることを論じる。そこで本研究では,軟式視覚命令の書き方とベースLLM自体の書き方とを整合させるために,ベースLLMを活用することを提案する。
参考スコア（独自算出の注目度）: 20.58878416527427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the realm of Large Multi-modal Models (LMMs), the instruction quality during the visual instruction tuning stage significantly influences the performance of modality alignment. In this paper, we assess the instruction quality from a unique perspective termed \textbf{Writing Manner}, which encompasses the selection of vocabulary, grammar and sentence structure to convey specific semantics. We argue that there exists a substantial writing manner gap between the visual instructions and the base Large Language Models (LLMs) within LMMs. This gap forces the pre-trained base LLMs to deviate from their original writing styles, leading to capability degradation of both base LLMs and LMMs. To bridge the writing manner gap while preserving the original semantics, we propose directly leveraging the base LLM to align the writing manner of soft-format visual instructions with that of the base LLM itself, resulting in novel LLM-aligned instructions. The manual writing manner evaluation results demonstrate that our approach successfully minimizes the writing manner gap. By utilizing LLM-aligned instructions, the baseline models LLaVA-7B and QwenVL demonstrate enhanced resistance to hallucinations and non-trivial comprehensive improvements across all $15$ visual and language benchmarks.
Abstract（参考訳）: LMM(Large Multi-Modal Models)の領域では、視覚的命令チューニング段階における命令品質が、モダリティアライメントのパフォーマンスに大きく影響する。本稿では,特定の意味を伝達するための語彙,文法,文構造の選択を含む「textbf{Writing Manner}」というユニークな視点から,命令品質を評価する。視覚的指示とLMMのベース言語モデル(LLM)の間にはかなりの書法差があることを論じる。このギャップは、事前訓練されたベースLLMを元の書き込みスタイルから逸脱させ、ベースLLMとLMMの両方の性能低下を招いた。原文のセマンティクスを保ちながら書き方ギャップを埋めるため,本論文では,ベースLLMの書き方とベースLLM自体の書き方とを一致させるため,ベースLLMの書き方を直接活用することを提案する。筆記方法の評価結果から,本手法が筆記方法のギャップを最小限に抑えることを示す。 LLM対応の命令を利用することで、LLaVA-7BとQwenVLのベースラインモデルでは、幻覚に対する耐性が強化され、視覚および言語ベンチマークの15ドルに対して非自明な包括的な改善がなされた。

関連論文リスト

Self-Correction Makes LLMs Better Parsers [19.20952673157709]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著な成功を収めている。近年の研究では、深い言語理解に不可欠な基本的なNLPタスクを実行する上で、依然として課題に直面していることが示唆されている。本稿では,既存の木バンクからの文法規則を活かした自己補正手法を提案する。
論文参考訳（メタデータ） (2025-04-19T03:50:59Z)
Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文参考訳（メタデータ） (2024-09-22T14:35:09Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文参考訳（メタデータ） (2024-03-19T13:53:37Z)
RoCoIns: Enhancing Robustness of Large Language Models through Code-Style Instructions [43.19966425619236]
より構造的であいまいなコードスタイルの命令を使用して、典型的には自然言語命令を置き換える。そこで本研究では,クリーンサンプルと逆サンプルの両方を用いて,コンテキスト内デモを構成する新しい手法を提案する。 8つのロバスト性データセットの実験により、我々の手法は自然言語命令によるLLMよりも一貫して優れていた。
論文参考訳（メタデータ） (2024-02-26T09:30:55Z)
Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。 PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文参考訳（メタデータ） (2024-02-17T00:09:32Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文参考訳（メタデータ） (2023-12-04T00:46:11Z)
Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models [91.02730155418699]
大規模言語モデル(LLM)は、自然言語命令に従うことで幅広いタスクを実行できる。 LLMに提供される命令の質を自動改善する新しい手法であるAuto-Instructを導入する。 118のアウトオブドメインタスクの実験では、Auto-Instructは人間による命令と既存のLCM生成命令のベースラインを超越している。
論文参考訳（メタデータ） (2023-10-19T19:52:55Z)
From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。この結果から,指導指導の3つの重要な影響が明らかになった。
論文参考訳（メタデータ） (2023-09-30T21:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。