論文の概要: Language Integration in Fine-Tuning Multimodal Large Language Models for Image-Based Regression
- arxiv url: http://arxiv.org/abs/2507.14997v1
- Date: Sun, 20 Jul 2025 15:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.152775
- Title: Language Integration in Fine-Tuning Multimodal Large Language Models for Image-Based Regression
- Title(参考訳): 画像ベース回帰のための微調整多モード大言語モデルにおける言語統合
- Authors: Roy H. Jennings, Genady Paikin, Roy Shaul, Evgeny Soloveichik,
- Abstract要約: 本稿では,トランスフォーマーベース分類(RvTC)が語彙制約型分類を柔軟なビンベースアプローチで置き換える方法を示す。
汎用的なタスク記述とは異なり、特定の画像に関する意味情報を含むプロンプトにより、MLLMはクロスモーダル理解を活用することができる。
- 参考スコア(独自算出の注目度): 2.9998889086656586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) show promise for image-based regression tasks, but current approaches face key limitations. Recent methods fine-tune MLLMs using preset output vocabularies and generic task-level prompts (e.g., "How would you rate this image?"), assuming this mimics human rating behavior. Our analysis reveals these approaches provide no benefit over image-only training. Models using preset vocabularies and generic prompts perform equivalently to image-only models, failing to leverage semantic understanding from textual input. We propose Regression via Transformer-Based Classification (RvTC), which replaces vocabulary-constrained classification with a flexible bin-based approach. Unlike approaches that address discretization errors through complex distributional modeling, RvTC eliminates manual vocabulary crafting through straightforward bin increase, achieving state-of-the-art performance on four image assessment datasets using only images. More importantly, we demonstrate that data-specific prompts dramatically improve performance. Unlike generic task descriptions, prompts containing semantic information about specific images enable MLLMs to leverage cross-modal understanding. On the AVA dataset, adding challenge titles to prompts improves correlations from 0.83 to 0.90, a new state-of-the-art. We demonstrate through empirical evidence from the AVA and AGIQA-3k datasets that MLLMs benefit from semantic prompt information surpassing mere statistical biases. This underscores the importance of incorporating meaningful textual context in multimodal regression tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像ベースの回帰タスクを約束するが、現在のアプローチは重要な制限に直面している。
近年のMLLMの微調整手法は、人間の評価行動を模倣するものとして、予め設定された出力語彙と一般的なタスクレベルのプロンプト(例:「この画像はどのように評価するのか?」)を用いている。
分析の結果,これらの手法は画像のみのトレーニングよりも有益であることがわかった。
プリセット語彙とジェネリックプロンプトを用いたモデルは、画像のみのモデルと同等に機能し、テキスト入力からのセマンティック理解を活用できない。
本稿では,語彙制約付き分類を柔軟なビンベースアプローチで置き換えるRegression via Transformer-Based Classification (RvTC)を提案する。
複雑な分布モデリングによる離散化エラーに対処するアプローチとは異なり、RvTCは、直感的なビン増加による手動語彙作成を排除し、画像のみを使用して4つの画像アセスメントデータセット上で最先端のパフォーマンスを達成する。
さらに重要なことは、データ固有のプロンプトがパフォーマンスを劇的に改善することを示しています。
汎用的なタスク記述とは異なり、特定の画像に関する意味情報を含むプロンプトにより、MLLMはクロスモーダル理解を活用することができる。
AVAデータセットでは、新しい最先端である0.83から0.90までの相関性を改善するためにチャレンジタイトルを追加する。
我々は,AVAおよびAGIQA-3kデータセットから得られた経験的証拠を通じて,MLLMが単なる統計的バイアスを超える意味的情報から恩恵を受けることを示す。
このことは、多モーダル回帰タスクに意味のあるテキストコンテキストを組み込むことの重要性を浮き彫りにする。
関連論文リスト
- Semantic-guided Representation Learning for Multi-Label Recognition [13.046479112800608]
マルチラベル認識(MLR)では、画像内の各データインスタンスに複数のラベルを割り当てる。
近年のビジョンと言語事前学習法は、ゼロショットMLRタスクの処理において大きな進歩を遂げている。
本研究では,セマンティック誘導型表現学習手法(SigRL)を導入し,モデルが効果的な視覚的およびテキスト的表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-04-04T08:15:08Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID [44.372336186832584]
本稿では,提案する大規模データベース上でモデルをトレーニングするReID問題について検討する。
MLLM(Multi-modal Large Language Models)による訓練データを得る。
画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T10:15:04Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。