論文の概要: Resolving References in Visually-Grounded Dialogue via Text Generation
- arxiv url: http://arxiv.org/abs/2309.13430v1
- Date: Sat, 23 Sep 2023 17:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 19:53:06.328734
- Title: Resolving References in Visually-Grounded Dialogue via Text Generation
- Title(参考訳): テキスト生成による視覚対話における参照の解消
- Authors: Bram Willemsen, Livia Qian, Gabriel Skantze
- Abstract要約: 視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。
本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。
次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
- 参考スコア(独自算出の注目度): 3.8673630752805446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have shown to be effective at image retrieval
based on simple text queries, but text-image retrieval based on conversational
input remains a challenge. Consequently, if we want to use VLMs for reference
resolution in visually-grounded dialogue, the discourse processing capabilities
of these models need to be augmented. To address this issue, we propose
fine-tuning a causal large language model (LLM) to generate definite
descriptions that summarize coreferential information found in the linguistic
context of references. We then use a pretrained VLM to identify referents based
on the generated descriptions, zero-shot. We evaluate our approach on a
manually annotated dataset of visually-grounded dialogues and achieve results
that, on average, exceed the performance of the baselines we compare against.
Furthermore, we find that using referent descriptions based on larger context
windows has the potential to yield higher returns.
- Abstract(参考訳): 視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。
したがって、視覚接地対話における参照解像度にvlmsを使用する場合、これらのモデルの談話処理能力を高める必要がある。
この問題に対処するために,言語コンテキストにおける中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。
次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
我々は,視覚的に接地した対話を手作業でアノテートしたデータセット上でのアプローチを評価し,平均して比較したベースラインのパフォーマンスを上回った結果を得る。
さらに,より大きなコンテキストウインドウに基づく参照記述を用いることで,より高いリターンが得られる可能性が示唆された。
関連論文リスト
- Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models [2.3301643766310374]
視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで,画像の特徴を抽出し,テキストデータに変換する。
従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能が優れていることを示す。
また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。
論文 参考訳(メタデータ) (2024-08-29T06:54:03Z) - Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning? [29.237078890377514]
LVLM(Large Vision-Language Models)は、視覚的コンテキストと言語的コンテキストを統合することで、詳細なコンテンツを生成する。
LVLMを使用して記述を生成すると、出力テキストが入力画像内の実際のオブジェクトを誤って表現するオブジェクト幻覚(OH)の課題に直面します。
本稿では,新しい復号化戦略である微分ビーム復号法(DBD)と信頼性の高い新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:33:56Z) - Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。
対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。
対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文 参考訳(メタデータ) (2024-06-05T16:09:01Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Reference Resolution and Context Change in Multimodal Situated Dialogue
for Exploring Data Visualizations [3.5813777917429515]
マルチモーダル対話における大画面ディスプレイ上での可視化への参照の解決に焦点をあてる。
言語と手振りで大画面に表示される視覚化へのユーザ参照に関するアノテーションについて述べる。
本稿では,参照の検出と解決,モデル上でのコンテキスト情報の有効性,視覚化のための不特定要求について報告する。
論文 参考訳(メタデータ) (2022-09-06T04:43:28Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。