論文の概要: One More Glance with Sharp Eyes: Rethinking Lightweight Captioning as a Practical Visual Specialist
- arxiv url: http://arxiv.org/abs/2508.21451v1
- Date: Fri, 29 Aug 2025 09:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.990377
- Title: One More Glance with Sharp Eyes: Rethinking Lightweight Captioning as a Practical Visual Specialist
- Title(参考訳): シャープ・アイズ」の1つ:ライトウェイト・キャプションを現実のビジュアル・スペシャリストとして再考
- Authors: Junha Song, Yongsik Jo, So Yeon Min, Quanting Xie, Taehwan Kim, Yonatan Bisk, Jaegul Choo,
- Abstract要約: 我々はLLaMA-7Bより56倍小さい言語モデルに基づく軽量キャプションモデルを開発した。
我々のモデルは、大規模マルチモーダル・ジェネラリストに匹敵する性能を達成することができる。
シャープ・イード・リファインメント(Sharp-Eyed Refinement, シャープ・イード・リファインメント, シャープ・イード・リファインメント)を開発した。
- 参考スコア(独自算出の注目度): 58.89538703878721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning is fundamental for applications like video instruction systems and exploration robots, yet deploying such models on local devices is challenging due to the high computational demands of multimodal large language models (MLLMs). To address this, we first explore lightweight captioning by implementing a specialist based on a 125M-parameter language model, 56 times smaller than LLaMA-7B, and evaluating its performance on both single-sentence and detailed captioning tasks. Surprisingly, we find that our model can achieve performance comparable to large multimodal generalists, suggesting its potential to serve as a strong visual specialist for on-device applications. While promising, our model also exhibits a limitation: like other MLLMs, it suffers from visual blindness, occasionally resulting in semantic captioning errors. We carry out toy experiments and investigate the underlying causes, where we observe that the problems arise from ineffective attention mechanisms and limited visual representations. To alleviate them, we develop a novel captioning framework, Sharp-Eyed Refinement, which enhances caption quality through improved visual grounding. At its core, our DeepLens extracts detailed visual representations by concentrating on informative regions identified during the initial glance. Our experiments confirm both the advantages of our specialist over prior small captioning models and large generalists and the effectiveness of our framework.
- Abstract(参考訳): 画像キャプションは、ビデオインストラクションシステムや探索ロボットなどのアプリケーションには基本的だが、マルチモーダル大言語モデル(MLLM)の高い計算要求のため、ローカルデバイスにそのようなモデルをデプロイすることは困難である。
そこで我々はまず,LLaMA-7Bの56倍小さい125Mパラメータ言語モデルに基づいて,軽量キャプション機能を実装し,単一文および詳細なキャプションタスクの性能評価を行った。
驚いたことに、我々のモデルは大規模マルチモーダル・ジェネラリストに匹敵する性能を達成でき、デバイス上のアプリケーションの強力なビジュアルスペシャリストとして機能する可能性を示唆している。
他のMLLMと同様、視覚障害に悩まされ、時に意味的なキャプションエラーが発生する。
玩具実験を行い,その根本原因を解明し,非効果的な注意機構と限られた視覚的表現から問題が発生することを観察した。
そこで我々は, シャープ・イード・リファインメント(Sharp-Eyed Refinement, シャープ・イード・リファインメント, シャープ・イード・リファインメント, シャープ・イード・リファインメント)を開発した。
中心となるDeepLensは、最初の一見で特定された情報領域に集中して、詳細な視覚的表現を抽出します。
本実験は, 従来の小キャプションモデルと大規模ジェネラリストに対する専門家の優位性と, フレームワークの有効性を両立させるものである。
関連論文リスト
- Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。
提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。
我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文 参考訳(メタデータ) (2025-10-19T22:12:45Z) - Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。
われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。
本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文 参考訳(メタデータ) (2025-05-08T20:04:27Z) - Multi-LLM Collaborative Caption Generation in Scientific Documents [30.856381292477177]
MLBCAP(Multi-LLM Collaborative Figure Caption Generation)というフレームワークを導入する。
私たちのアプローチは3つの重要なモジュールに展開します。
人間の評価から,我々のアプローチによる情報キャプションは人書きキャプションよりも格段に高いことが示された。
論文 参考訳(メタデータ) (2025-01-05T14:09:12Z) - CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models [16.91226496250909]
マルチモーダルな理解は、粗いものから細かいものへと、2つの段階に分けられる。
第1段階では,MLLMに回答のほぼ面積を特定するよう促す。
第2段階では、視覚的なプロンプトエンジニアリングにより、関連する領域に対するモデルの焦点をさらに強化する。
論文 参考訳(メタデータ) (2024-12-22T05:42:40Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。
これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。
以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-12-04T19:01:06Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [8.526212812623202]
State-of-The-Art (SoTA)イメージキャプションモデルは、しばしばMicroSoft Common Objects in Contextデータセットでトレーニングされる。
本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。