論文の概要: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.09358v1
- Date: Fri, 10 Oct 2025 13:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.085509
- Title: Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models
- Title(参考訳): 動的チェーン・オブ・サートを用いた視覚・言語モデルによるマルチモーダル・キーフレーズ予測
- Authors: Qihang Ma, Shengyu Li, Jie Tang, Dingkang Yang, Shaodong Chen, Yingyi Zhang, Chao Feng, Jiao Ran,
- Abstract要約: マルチモーダルキーフレーズ予測(MMKP)は、テキストのみの手法を超えて進歩することを目的としている。
従来のマルチモーダルアプローチは、困難な不在と目に見えないシナリオを扱う上で、重大な制限があることが証明されている。
MMKPタスクに視覚言語モデル(VLM)を活用することを提案する。
- 参考スコア(独自算出の注目度): 28.416254061159176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal keyphrase prediction (MMKP) aims to advance beyond text-only methods by incorporating multiple modalities of input information to produce a set of conclusive phrases. Traditional multi-modal approaches have been proven to have significant limitations in handling the challenging absence and unseen scenarios. Additionally, we identify shortcomings in existing benchmarks that overestimate model capability due to significant overlap in training tests. In this work, we propose leveraging vision-language models (VLMs) for the MMKP task. Firstly, we use two widely-used strategies, e.g., zero-shot and supervised fine-tuning (SFT) to assess the lower bound performance of VLMs. Next, to improve the complex reasoning capabilities of VLMs, we adopt Fine-tune-CoT, which leverages high-quality CoT reasoning data generated by a teacher model to finetune smaller models. Finally, to address the "overthinking" phenomenon, we propose a dynamic CoT strategy which adaptively injects CoT data during training, allowing the model to flexibly leverage its reasoning capabilities during the inference stage. We evaluate the proposed strategies on various datasets and the experimental results demonstrate the effectiveness of the proposed approaches. The code is available at https://github.com/bytedance/DynamicCoT.
- Abstract(参考訳): MMKP(Multi-modal keyphrase prediction)は、入力情報の複数のモダリティを組み込んで、一連の決定的なフレーズを生成することで、テキストのみの手法を超えて前進することを目的としている。
従来のマルチモーダルアプローチは、困難な不在と目に見えないシナリオを扱う上で、重大な制限があることが証明されている。
さらに、トレーニングテストで大幅に重複するため、モデル能力を過大評価する既存のベンチマークの欠点を特定します。
本研究では,MMKPタスクに視覚言語モデル(VLM)を活用することを提案する。
まず、VLMの低境界性能を評価するために、ゼロショットと教師付き微調整(SFT)という2つの広く使われている戦略を用いる。
次に,教師モデルによって生成された高品質なCoT推論データを利用して,より小さなモデルを微調整するFine-Tune-CoTを提案する。
最後に、この「過度な」現象に対処するため、トレーニング中にCoTデータを適応的に注入し、推論段階でモデルの推論能力を柔軟に活用する動的CoT戦略を提案する。
提案手法を各種データセット上で評価し,提案手法の有効性を実証した。
コードはhttps://github.com/bytedance/DynamicCoT.comで入手できる。
関連論文リスト
- Planning with Unified Multimodal Models [27.156039833076324]
我々は、統一マルチモーダルモデル(UMM)は、生成した視覚的コンテンツを通して推論を行うことにより、意思決定により大きな可能性を秘めていると論じる。
このフレームワーク内では、単一のモデルがポリシー、ダイナミクスモデル、バリュー関数として同時に機能します。
そこで本研究では, 生成モデルを自己判別器として機能し, 無効な力学予測をフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2025-09-27T00:13:13Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Making Long-Context Language Models Better Multi-Hop Reasoners [42.09676404515287]
本稿では,各アサーションに対するアトリビューションの供給を促す新しいアプローチであるReasoning with Attributionsを紹介する。
我々は,プロプライエタリモデルとオープンソースモデルの両方を用いて,3つのマルチホップデータセットの実験を通じてアプローチを検証する。
本モデルでは,ChatGPT や Claude-Instant などの独自の LM を並列化して,マルチホップ推論ベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-08-06T15:06:40Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。