論文の概要: When More Words Say Less: Decoupling Length and Specificity in Image Description Evaluation
- arxiv url: http://arxiv.org/abs/2601.04609v1
- Date: Thu, 08 Jan 2026 05:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.052834
- Title: When More Words Say Less: Decoupling Length and Specificity in Image Description Evaluation
- Title(参考訳): 画像記述評価における長さと特異性の分離
- Authors: Rhea Kapur, Robert Hawkins, Elisa Kreiss,
- Abstract要約: 我々は、記述は簡潔で情報に密接であり、あるいは長くて空白であると主張する。
情報内容が変化しながら長さを制御できるデータセットを構築した。
長さの制御だけでは特異性の違いは説明できない。
- 参考スコア(独自算出の注目度): 2.6857565550281435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly used to make visual content accessible via text-based descriptions. In current systems, however, description specificity is often conflated with their length. We argue that these two concepts must be disentangled: descriptions can be concise yet dense with information, or lengthy yet vacuous. We define specificity relative to a contrast set, where a description is more specific to the extent that it picks out the target image better than other possible images. We construct a dataset that controls for length while varying information content, and validate that people reliably prefer more specific descriptions regardless of length. We find that controlling for length alone cannot account for differences in specificity: how the length budget is allocated makes a difference. These results support evaluation approaches that directly prioritize specificity over verbosity.
- Abstract(参考訳): 視覚言語モデル(VLM)は、テキストベースの記述を通じて視覚的コンテンツをアクセスできるようにするために、ますます使われている。
しかし、現在のシステムでは、記述の特異性はその長さと混同されることが多い。
記述は簡潔で情報に密接であり、長いが空白である。
コントラスト集合に対する特異性を定義し、その記述は、他の可能な画像よりもターゲット画像を選択する範囲に比例する。
我々は,情報内容が変化しながら長さを制御できるデータセットを構築し,長さに関わらず,人々がより具体的な記述を確実に好むことを検証した。
長さの制御だけでは特異性の違いを説明できない。
これらの結果は、冗長性よりも特異性を直接優先する評価手法を支援する。
関連論文リスト
- PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions [55.95282725491425]
PoShは、LLMs-as-a-Judgeをガイドするために、シーングラフを構造化ルーリックとして使用する詳細な画像記述のメトリクスである。
PoShはレプリカ可能で、解釈可能で、既存のメトリクスよりも人間のレーダのプロキシが優れている。
我々は,オープンウェイトな選択肢よりも,DOCENTにおける人間の判断とPoShの相関が強いことを示す。
論文 参考訳(メタデータ) (2025-10-21T20:30:20Z) - OVFact: Measuring and Improving Open-Vocabulary Factuality for Long Caption Models [65.8015696586307]
長字幕の字幕事実性を測定する新しい方法であるOV-Factを紹介する。
提案手法は,人間の判断との一致を改善し,同じ指標におけるキャプタネス(リコール)と事実精度の両方をキャプチャする。
従来のメトリクスとは異なり、参照不要なメソッド設計は、ファクトリティベースのデータフィルタリングに向けた新しいアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-07-25T13:38:06Z) - Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。
Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。
我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文 参考訳(メタデータ) (2025-04-07T22:35:36Z) - Detailed Object Description with Controllable Dimensions [25.34736316558397]
トレーニング不要なオブジェクト記述リファインメントパイプラインであるDmension Tailorを提案する。
このパイプラインには、ディメンション、消去、サプリメントという3つのステップが含まれており、記述をユーザが指定したディメンションに分解する。
制御可能なオブジェクト記述に対する次元タイラーの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-11-28T12:42:14Z) - From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding [52.696422425058245]
視覚的エンコーダを備えた多モード大言語モデル(LLM)は、視覚的理解タスクにおいて有望な性能を示した。
本稿では、静止画像と短い映像の理解と比較して、長いビデオ理解によって生じる実質的な違いと固有の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-09-27T17:38:36Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - Word length-aware text spotting: Enhancing detection and recognition in
dense text image [33.44340604133642]
シーンテキスト画像の検出と認識のための新しい単語長認識スポッターであるWordLenSpotterを提案する。
我々は、特に高密度テキスト画像の尾データにおいて、長短の単語のスポッティング機能を改善する。
論文 参考訳(メタデータ) (2023-12-25T10:46:20Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - CLID: Controlled-Length Image Descriptions with Limited Data [14.857590796528902]
本稿では,字幕の長さ,すなわち簡潔で簡潔な記述,あるいは長くて詳細な記述の制御に焦点を当てる。
既存の画像キャプションデータセットにはほとんど短いキャプションが含まれているため、長いキャプションを生成するのは難しい。
長いトレーニング例の不足に対処するため,様々な長さの自己生成キャプションでデータセットを充実させることを提案する。
論文 参考訳(メタデータ) (2022-11-27T14:18:40Z) - Show, Interpret and Tell: Entity-aware Contextualised Image Captioning
in Wikipedia [10.21762162291523]
本稿では,文脈知識を統合することで,ウィキペディア画像のキャプションを行う新しいタスクを提案する。
具体的には、ウィキペディアの記事やウィキメディアの画像、それに付随する記述を共同で推論するモデルを作成します。
論文 参考訳(メタデータ) (2022-09-21T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。