Fugu-MT 論文翻訳(概要): Resolving References in Visually-Grounded Dialogue via Text Generation

論文の概要: Resolving References in Visually-Grounded Dialogue via Text Generation

arxiv url: http://arxiv.org/abs/2309.13430v1
Date: Sat, 23 Sep 2023 17:07:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 19:53:06.328734
Title: Resolving References in Visually-Grounded Dialogue via Text Generation
Title（参考訳）: テキスト生成による視覚対話における参照の解消
Authors: Bram Willemsen, Livia Qian, Gabriel Skantze
Abstract要約: 視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
参考スコア（独自算出の注目度）: 3.8673630752805446
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) have shown to be effective at image retrieval based on simple text queries, but text-image retrieval based on conversational input remains a challenge. Consequently, if we want to use VLMs for reference resolution in visually-grounded dialogue, the discourse processing capabilities of these models need to be augmented. To address this issue, we propose fine-tuning a causal large language model (LLM) to generate definite descriptions that summarize coreferential information found in the linguistic context of references. We then use a pretrained VLM to identify referents based on the generated descriptions, zero-shot. We evaluate our approach on a manually annotated dataset of visually-grounded dialogues and achieve results that, on average, exceed the performance of the baselines we compare against. Furthermore, we find that using referent descriptions based on larger context windows has the potential to yield higher returns.
Abstract（参考訳）: 視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。したがって、視覚接地対話における参照解像度にvlmsを使用する場合、これらのモデルの談話処理能力を高める必要がある。この問題に対処するために,言語コンテキストにおける中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。我々は,視覚的に接地した対話を手作業でアノテートしたデータセット上でのアプローチを評価し,平均して比較したベースラインのパフォーマンスを上回った結果を得る。さらに,より大きなコンテキストウインドウに基づく参照記述を用いることで,より高いリターンが得られる可能性が示唆された。

関連論文リスト

Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
ImageRef-VL: Enabling Contextual Image Referencing in Vision-Language Models [15.907584884933414]
会話コンテキストに基づいた検索文書からの関連画像の適切な参照を可能にするContextual Image Referenceを導入する。本稿では,オープンソースのVLM画像参照機能を大幅に強化するImageRef-VLを提案する。実験により、ImageRef-VLはプロプライエタリなモデルを上回るだけでなく、最先端のオープンソースVLMよりも88%の性能向上を実現していることが示された。
論文参考訳（メタデータ） (2025-01-20T13:43:45Z)
RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。 RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-01-12T13:22:35Z)
Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文参考訳（メタデータ） (2024-12-11T18:37:42Z)
Rethinking Sparse Lexical Representations for Image Retrieval in the Age of Rising Multi-Modal Large Language Models [2.3301643766310374]
視覚的プロンプトをサポートするマルチモーダル大言語モデル(M-LLM)を利用することで,画像の特徴を抽出し,テキストデータに変換する。従来の視覚言語モデルを用いた手法と比較して,画像検索手法の精度とリコール性能が優れていることを示す。また,検索クエリにキーワードを反復的に組み込むことにより,検索性能が向上することを示した。
論文参考訳（メタデータ） (2024-08-29T06:54:03Z)
Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning? [29.237078890377514]
LVLM(Large Vision-Language Models)は、視覚的コンテキストと言語的コンテキストを統合することで、詳細なコンテンツを生成する。 LVLMを使用して記述を生成すると、出力テキストが入力画像内の実際のオブジェクトを誤って表現するオブジェクト幻覚(OH)の課題に直面します。本稿では,新しい復号化戦略である微分ビーム復号法(DBD)と信頼性の高い新しい評価指標を提案する。
論文参考訳（メタデータ） (2024-06-18T14:33:56Z)
Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文参考訳（メタデータ） (2024-06-05T16:09:01Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文参考訳（メタデータ） (2024-04-29T14:46:35Z)
Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文参考訳（メタデータ） (2023-12-15T15:46:02Z)
Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文参考訳（メタデータ） (2023-10-09T07:31:44Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
Reference Resolution and Context Change in Multimodal Situated Dialogue for Exploring Data Visualizations [3.5813777917429515]
マルチモーダル対話における大画面ディスプレイ上での可視化への参照の解決に焦点をあてる。言語と手振りで大画面に表示される視覚化へのユーザ参照に関するアノテーションについて述べる。本稿では,参照の検出と解決,モデル上でのコンテキスト情報の有効性,視覚化のための不特定要求について報告する。
論文参考訳（メタデータ） (2022-09-06T04:43:28Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。