論文の概要: SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.11909v1
- Date: Sun, 17 Nov 2024 08:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:54.520091
- Title: SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization
- Title(参考訳): SymDPO:シンボル実証直接選好最適化を用いた大規模マルチモーダルモデルの文脈内学習の促進
- Authors: Hongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang,
- Abstract要約: 本稿では,SymDPO(SymDPO)を提案する。
具体的には、SymDPOは、ランダムシンボルを使用してインスタンス内のテキスト回答を置き換えることで、マルチモーダルなデモンストレーションを構築するという従来のパラダイムを破ることを目的としている。
提案手法の有効性を複数のベンチマークで検証し,SymDPOを用いて,実例内のマルチモーダルコンテキストをより効果的に理解し,この知識をよりよい解答に活用できることを実証した。
- 参考スコア(独自算出の注目度): 49.931663904599205
- License:
- Abstract: As language models continue to scale, Large Language Models (LLMs) have exhibited emerging capabilities in In-Context Learning (ICL), enabling them to solve language tasks by prefixing a few in-context demonstrations (ICDs) as context. Inspired by these advancements, researchers have extended these techniques to develop Large Multimodal Models (LMMs) with ICL capabilities. However, existing LMMs face a critical issue: they often fail to effectively leverage the visual context in multimodal demonstrations and instead simply follow textual patterns. This indicates that LMMs do not achieve effective alignment between multimodal demonstrations and model outputs. To address this problem, we propose Symbol Demonstration Direct Preference Optimization (SymDPO). Specifically, SymDPO aims to break the traditional paradigm of constructing multimodal demonstrations by using random symbols to replace text answers within instances. This forces the model to carefully understand the demonstration images and establish a relationship between the images and the symbols to answer questions correctly. We validate the effectiveness of this method on multiple benchmarks, demonstrating that with SymDPO, LMMs can more effectively understand the multimodal context within examples and utilize this knowledge to answer questions better.
- Abstract(参考訳): 言語モデルが拡大を続けるにつれて、LLM(Large Language Models)は、インコンテキストラーニング(ICL)において新たな能力を示し、いくつかのインコンテキストデモ(ICD)をコンテキストとしてプレフィックスすることで、言語タスクの解決を可能にした。
これらの進歩に触発されて、研究者はこれらの技術を拡張し、ICL機能を備えたLMM(Large Multimodal Models)を開発した。
しかし、既存のLMMは重要な問題に直面しており、それらは多モーダルなデモンストレーションで視覚的コンテキストを効果的に活用せず、単にテキストパターンに従うだけである。
このことは、LMMがマルチモーダルな実演とモデル出力の効果的なアライメントを達成できないことを示している。
この問題に対処するため,SymDPO(SymDPO)を提案する。
具体的には、SymDPOは、ランダムシンボルを使用してインスタンス内のテキスト回答を置き換えることで、マルチモーダルなデモンストレーションを構築するという従来のパラダイムを破ることを目的としている。
これにより、モデルがデモイメージを慎重に理解し、画像とシンボルの関係を確立して、質問に正しく答えるように強制する。
提案手法の有効性を複数のベンチマークで検証し,SymDPOを用いて,実例内のマルチモーダルコンテキストをより効果的に理解し,この知識をよりよい解答に活用できることを実証した。
関連論文リスト
- From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.108694010274988]
本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
本手法は,テキストのみの大規模言語モデルで使用されるトークン化戦略を反映して,構造的事前情報を画像トークンに直接組み込む。
論文 参考訳(メタデータ) (2024-10-03T02:34:31Z) - AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning [15.770849688170477]
インコンテキスト学習(ICL)は、数十億のパラメータを更新することなく、下流タスクに創発的な能力を示す大規模言語モデルを容易にする。
ほとんどのMLLMはシングルイメージのデータセットでのみトレーニングされているため、マルチモーダルなデモンストレーションは読めない。
textbfAggregating textbf Image information of textbfMultimodal demonstrations to the dense latent space of the corresponding language part。
論文 参考訳(メタデータ) (2024-06-11T08:12:43Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。