論文の概要: Chain-of-Description: What I can understand, I can put into words
- arxiv url: http://arxiv.org/abs/2502.16137v1
- Date: Sat, 22 Feb 2025 08:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:32.529711
- Title: Chain-of-Description: What I can understand, I can put into words
- Title(参考訳): Chain-of-Description: 私が理解できることは、言葉に書き込むことができる
- Authors: Jiaxin Guo, Daimeng Wei, Zongyao Li, Hengchao Shang, Yuanchang Luo, Hao Yang,
- Abstract要約: Chain-of-Description (CoD) Promptingはマルチモーダルな大規模言語モデルに最適化されている。
Qwen2-Audio、Qwen2-VL、Qwen2.5-VLといったモデルに適用すると、CoD Promptingは性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 7.788658749216704
- License:
- Abstract: In this paper, we propose a novel strategy defined as Chain-of-Description (CoD) Prompting, tailored for Multi-Modal Large Language Models. This approach involves having the model first provide a detailed description of the multi-modal input before generating an answer to the question. When applied to models such as Qwen2-Audio, Qwen2-VL, and Qwen2.5-VL, CoD Prompting significantly enhances performance compared to standard prompting methods. This is demonstrated by nearly a 4\% improvement in the speech category of the audio benchmark AIR-Bench-Chat and a 5.3\% improvement in the hard-level portion of the vision benchmark MMMU\_Pro. Our ablation study further validates the effectiveness of CoD Prompting.
- Abstract(参考訳): 本稿では,マルチモーダル大言語モデルに適合した,Chain-of-Description (CoD) Promptingとして定義された新しい手法を提案する。
このアプローチでは、質問に対する回答を生成する前に、まずモデルにマルチモーダル入力の詳細な説明を与える。
Qwen2-Audio、Qwen2-VL、Qwen2.5-VLといったモデルに適用すると、CoD Promptingは標準的なプロンプト法に比べて性能を大幅に向上させる。
これは、音声ベンチマークAIR-Bench-Chatの音声カテゴリの約4倍の改善と、ビジョンベンチマークMMMU\_Proのハードレベル部分の5.3倍の改善によって実証される。
我々のアブレーション研究は、CoD Promptingの有効性をさらに検証する。
関連論文リスト
- Qwen2.5 Technical Report [122.13958993185952]
Qwen2.5は多種多様なニーズに対応するように設計された大規模言語モデル(LLM)の包括的シリーズである。
以前のイテレーションと比較して、Qwen 2.5はトレーニング前とトレーニング後の両方で大幅に改善されている。
オープンウェイト製品には、ベースモデルと命令チューニングモデルが含まれており、量子化されたバージョンが利用可能である。
ホスト型ソリューションでは、現在プロプライエタリなモデルには、Qwen2.5-TurboとQwen2.5-Plusの2つの混合型(MoE)が含まれている。
論文 参考訳(メタデータ) (2024-12-19T17:56:09Z) - Chain-of-Thought Prompting for Speech Translation [33.77037760225061]
大規模言語モデル(LLM)は言語理解と生成において顕著な進歩を見せている。
近年の研究では、これらのモデルを音声埋め込みに応用し、高い性能を示す音声-LLMモデルを実現している。
本稿では,エンコーダ-デコーダテキスト LLM 上に構築された音声-LLM において,AST のプロンプトとして ASR 転写を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T20:16:43Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - DynaMaR: Dynamic Prompt with Mask Token Representation [14.255578203772162]
教師なしのアプローチで事前訓練された大規模な言語モデルは、多くの下流タスクで大幅なパフォーマンス向上を達成できる。
プロンプトベースの微調整は、数発のタスクで成功したアプローチであることが証明されている。
本稿では,これら2つの問題に対処するプロンプトベース微調整の改良を提案する。
論文 参考訳(メタデータ) (2022-06-07T02:54:36Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。