Fugu-MT 論文翻訳(概要): Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

論文の概要: Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

arxiv url: http://arxiv.org/abs/2602.21175v1
Date: Tue, 24 Feb 2026 18:20:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.879775
Title: Seeing Through Words: Controlling Visual Retrieval Quality with Language Models
Title（参考訳）: 単語を通して見る:言語モデルによる視覚的検索品質の制御
Authors: Jianglin Lu, Simon Jenni, Kushal Kafle, Jing Shi, Handong Zhao, Yun Fu,
Abstract要約: 本稿では,画像品質の明示的な概念を取り入れつつ,文脈的詳細で短いクエリを充実させる,品質制御可能な検索の新たなパラダイムを提案する。我々のキーとなる考え方は、生成言語モデルをクエリ補完関数として活用し、未特定クエリを記述形式に拡張することです。提案手法は,検索結果を大幅に改善し,最新のVLMの表現能力と,短いユーザクエリの未特定特性とのギャップを埋める,効果的な品質管理を提供する。
参考スコア（独自算出の注目度）: 68.49490036960559
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image retrieval is a fundamental task in vision-language learning, yet in real-world scenarios it is often challenged by short and underspecified user queries. Such queries are typically only one or two words long, rendering them semantically ambiguous, prone to collisions across diverse visual interpretations, and lacking explicit control over the quality of retrieved images. To address these issues, we propose a new paradigm of quality-controllable retrieval, which enriches short queries with contextual details while incorporating explicit notions of image quality. Our key idea is to leverage a generative language model as a query completion function, extending underspecified queries into descriptive forms that capture fine-grained visual attributes such as pose, scene, and aesthetics. We introduce a general framework that conditions query completion on discretized quality levels, derived from relevance and aesthetic scoring models, so that query enrichment is not only semantically meaningful but also quality-aware. The resulting system provides three key advantages: 1) flexibility, it is compatible with any pretrained vision-language model (VLMs) without modification; 2) transparency, enriched queries are explicitly interpretable by users; and 3) controllability, enabling retrieval results to be steered toward user-preferred quality levels. Extensive experiments demonstrate that our proposed approach significantly improves retrieval results and provides effective quality control, bridging the gap between the expressive capacity of modern VLMs and the underspecified nature of short user queries. Our code is available at https://github.com/Jianglin954/QCQC.
Abstract（参考訳）: テキスト・ツー・イメージ検索は、視覚言語学習の基本的な課題であるが、現実のシナリオでは、短くて不特定なユーザクエリによってしばしば挑戦される。このようなクエリは通常、1つか2つの単語しか持たず、意味的に曖昧で、様々な視覚的解釈に衝突する傾向があり、取得した画像の品質に対する明確な制御が欠如している。これらの課題に対処するため、画像品質の明示的な概念を取り入れつつ、文脈的詳細で短いクエリを充実させる、品質制御可能な検索の新しいパラダイムを提案する。我々のキーとなるアイデアは、生成言語モデルをクエリ補完関数として活用し、不特定クエリを、ポーズ、シーン、美学などのきめ細かい視覚的属性をキャプチャする記述形式に拡張することです。関連性および美的評価モデルから導かれる,離散化品質レベルでクエリ完了を条件づける一般的なフレームワークを導入し,クエリの充実が意味論的に意味を持つだけでなく,品質を意識する。結果として得られるシステムには3つの利点がある。 1) 柔軟性は,いかなる事前訓練された視覚言語モデル (VLM) とも互換性がある。 2)透明性,充実したクエリは,ユーザによって明示的に解釈される。 3) ユーザが優先する品質レベルに向けて, 検索結果を操ることのできる可制御性。大規模な実験により,提案手法は検索結果を大幅に改善し,効率的な品質管理を提供し,最新のVLMの表現能力と短いユーザクエリの未特定性質とのギャップを埋めることが実証された。私たちのコードはhttps://github.com/Jianglin954/QCQCで利用可能です。

関連論文リスト

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。 VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文参考訳（メタデータ） (2026-02-04T17:48:55Z)
Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions [11.853877966862086]
自由形キャプションからのイベントベースの画像検索は重要な課題である。本稿では,高密度な記事検索,イベント認識言語モデルの再ランク付け,効率的な画像収集を併用した多段階検索フレームワークを提案する。本システムは,EVENTA 2025 Grand Challengeにおけるトラック2のプライベートテストセットにおいて,トップ1のスコアを達成している。
論文参考訳（メタデータ） (2025-08-31T09:03:25Z)
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文参考訳（メタデータ） (2025-06-10T04:04:58Z)
Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T02:36:48Z)
ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。これらのモデルは曖昧さやユーザ命令を必要とするタスクには使用できない。本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文参考訳（メタデータ） (2025-03-01T03:29:02Z)
LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文参考訳（メタデータ） (2023-07-26T12:13:00Z)
DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文参考訳（メタデータ） (2023-06-24T21:05:02Z)
Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文参考訳（メタデータ） (2023-04-04T14:34:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。