論文の概要: Token-Efficient Multimodal Reasoning via Image Prompt Packaging
- arxiv url: http://arxiv.org/abs/2604.02492v1
- Date: Thu, 02 Apr 2026 19:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.193366
- Title: Token-Efficient Multimodal Reasoning via Image Prompt Packaging
- Title(参考訳): イメージ・プロンプト・パッケージングによるトークン効率の良いマルチモーダル推論
- Authors: Joong Ho Choi, Jiayang Zhao, Avani Appalla, Himansh Mukesh, Dhwanil Vasani, Boyi Qian,
- Abstract要約: 我々は、構造化されたテキストを直接イメージに埋め込んで、テキストトークンのオーバーヘッドを減らすプロンプトパラダイムであるImage Prompt Packagingを紹介する。
5つのデータセット、3つのフロンティアモデル、2つのタスクファミリでベンチマークします。
我々はトークン型で貯蓄を分解するコストを導出し、IPPgが35.8~91.0%の推論コスト削減を達成することを示す。
- 参考スコア(独自算出の注目度): 0.6465251961564605
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deploying large multimodal language models at scale is constrained by token-based inference costs, yet the cost-performance behavior of visual prompting strategies remains poorly characterized. We introduce Image Prompt Packaging (IPPg), a prompting paradigm that embeds structured text directly into images to reduce text token overhead, and benchmark it across five datasets, three frontier models (GPT-4.1, GPT-4o, Claude 3.5 Sonnet), and two task families (VQA and code generation). We derive a cost formulation decomposing savings by token type and show IPPg achieves 35.8--91.0\% inference cost reductions. Despite token compression of up to 96\%, accuracy remains competitive in many settings, though outcomes are highly model- and task-dependent: GPT-4.1 achieves simultaneous accuracy and cost gains on CoSQL, while Claude 3.5 incurs cost increases on several VQA benchmarks. Systematic error analysis yields a failure-mode taxonomy: spatial reasoning, non-English inputs, and character-sensitive operations are most vulnerable, while schema-structured tasks benefit most. A 125-configuration rendering ablation reveals accuracy shifts of 10--30 percentage points, establishing visual encoding choices as a first-class variable in multimodal system design.
- Abstract(参考訳): 大規模に大規模なマルチモーダル言語モデルをデプロイすることはトークンベースの推論コストによって制約されるが、視覚的プロンプト戦略のコスト-パフォーマンスの振る舞いは、まだ不十分である。
我々は、構造化されたテキストを直接画像に埋め込んでテキストトークンのオーバーヘッドを減らし、それを5つのデータセット、3つのフロンティアモデル(GPT-4.1、GPT-4o、Claude 3.5 Sonnet)と2つのタスクファミリ(VQAとコード生成)でベンチマークするプロンプトパラダイムである画像プロンプトパッケージング(IPPg)を紹介した。
IPPg が35.8--91.0\% の推論コスト削減を達成することを示す。
GPT-4.1はCoSQL上で同時精度とコストゲインを達成する一方、Claude 3.5はVQAベンチマークでコストが上昇する。
空間的推論、非英語入力、文字に敏感な操作が最も脆弱であり、スキーマ構造化タスクが最も恩恵を受ける。
125-configurationレンダリングアブレーションは10-30ポイントの精度変化を示し、マルチモーダルシステム設計において視覚符号化の選択を第一級変数として確立する。
関連論文リスト
- VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents [1.06378109904813]
VAREXは政府形態からの構造化データ抽出を評価するためのベンチマークである。
ベンチマークは、1,777の文書と1,771のユニークな文書から成っており、3相品質保証を通じて真理を検証している。
結果は、4Bパラメータ以下では、コンプライアンス出力 -- 抽出能力ではなく -- が主要なボトルネックであることを示している。
論文 参考訳(メタデータ) (2026-03-16T11:15:56Z) - Prism-$Δ$: Differential Subspace Steering for Prompt Highlighting in Large Language Models [85.18197548789291]
PRISM-$ (Projection-based Relevance-Informed Steering Method) を提案する。
PRISM-$$は20種中19種で最も優れた方法であり、相対的な利得は+10.6%まで上昇し、ステアリングのコストは半減する。
PRISM-$はFlashAttentionと互換性があり、無視できるメモリオーバーヘッドを追加する。
論文 参考訳(メタデータ) (2026-03-11T12:24:45Z) - Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文 参考訳(メタデータ) (2026-03-10T10:31:58Z) - TernaryCLIP: Efficiently Compressing Vision-Language Models with Ternary Weights and Distilled Knowledge [23.707347449137895]
TernaryCLIPは、CLIPの視覚とテキストエンコーダの接続重みを3次フォーマットに変換する軽量フレームワークである。
本研究は,大規模マルチモーダルモデルの極端量子化の実現可能性を強調し,資源制約されたデバイスへの効果的かつ効率的な展開を支援する。
論文 参考訳(メタデータ) (2025-10-23T14:53:32Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - FRED: Financial Retrieval-Enhanced Detection and Editing of Hallucinations in Language Models [1.9894117371899613]
大規模言語モデルにおける幻覚は、事実的信頼性を必要とするアプリケーションにとって重要な課題である。
本研究は,モデル生成応答における事実的誤りコンテンツの検出と編集に有効な手法を提案する。
論文 参考訳(メタデータ) (2025-07-28T15:41:53Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Expressive Losses for Verified Robustness via Convex Combinations [67.54357965665676]
本研究では, 過近似係数と異なる表現的損失に対する性能分布の関係について検討した。
表現性が不可欠である一方で、最悪の場合の損失のより良い近似は、必ずしも優れた堅牢性-正確性トレードオフに結びついていないことを示す。
論文 参考訳(メタデータ) (2023-05-23T12:20:29Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Efficient conformer: Progressive downsampling and grouped attention for
automatic speech recognition [2.6346614942667235]
計算予算が限られているコンフォーマーアーキテクチャの複雑さを軽減する方法について検討する。
コンフォーマーエンコーダにプログレッシブダウンサンプリングを導入し,グループアテンションと呼ばれる新しいアテンション機構を提案する。
同じコンピューティング予算内では、提案されたアーキテクチャは、より高速なトレーニングとデコードでより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-31T07:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。