論文の概要: Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models
- arxiv url: http://arxiv.org/abs/2506.21294v1
- Date: Thu, 26 Jun 2025 14:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.121538
- Title: Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models
- Title(参考訳): 自己回帰言語モデルを用いた視覚的対話における参照表現の検出
- Authors: Bram Willemsen, Gabriel Skantze,
- Abstract要約: 本研究の目的は,言語文脈のみが言及の検出にどのような影響を及ぼすかを検討することである。
我々は,事前訓練された大言語モデル (LLM) を用いて,会話の展開における参照スパンの比較的詳細なアノテーションを実行する。
その結果,中程度サイズのLLM,比較的小さなデータセット,パラメータ効率の高い微調整を用いても,テキストのみのアプローチが有効であることが示唆された。
- 参考スコア(独自算出の注目度): 3.8673630752805446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the use of a text-only, autoregressive language modeling approach for the extraction of referring expressions from visually grounded dialogue. More specifically, the aim is to investigate the extent to which the linguistic context alone can inform the detection of mentions that have a (visually perceivable) referent in the visual context of the conversation. To this end, we adapt a pretrained large language model (LLM) to perform a relatively course-grained annotation of mention spans in unfolding conversations by demarcating mention span boundaries in text via next-token prediction. Our findings indicate that even when using a moderately sized LLM, relatively small datasets, and parameter-efficient fine-tuning, a text-only approach can be effective, highlighting the relative importance of the linguistic context for this task. Nevertheless, we argue that the task represents an inherently multimodal problem and discuss limitations fundamental to unimodal approaches.
- Abstract(参考訳): 本稿では,テキストのみの自己回帰型言語モデリング手法を用いて,視覚的接頭辞から参照表現を抽出する方法について検討する。
より具体的には、会話の視覚的文脈において(視覚的に知覚可能な)参照を持つ言及の検出を言語文脈だけで通知できる範囲について調査することを目的とする。
この目的のために,事前訓練された大言語モデル(LLM)を用いて,文中の参照スパン境界を次から次へと予測することで,参照スパンの比較的詳細なアノテーションを実行する。
本研究は,中程度のLLM,比較的小さなデータセット,パラメータ効率の高い微調整を用いても,テキストのみのアプローチが有効であることを示し,この課題に対する言語コンテキストの相対的重要性を強調した。
それでも、このタスクは本質的にマルチモーダルな問題であり、一助的アプローチの基本的制約について議論する。
関連論文リスト
- Graphically Speaking: Unmasking Abuse in Social Media with Conversation Insights [10.188075925271471]
ソーシャルメディアの会話における虐待的言語は、先行するコメントの内容とトポロジによって特徴づけられる会話の文脈に依存する。
従来の乱用言語検出モデルは、しばしばこのコンテキストを見落とし、信頼性の低いパフォーマンス指標につながる可能性がある。
会話コンテキストを統合する最近の自然言語処理(NLP)手法は、しばしば限定的かつ単純化された表現に依存し、一貫性のない結果を報告する。
本稿では,グラフニューラルネットワーク(GNN)を用いてソーシャルメディアの会話をグラフとしてモデル化し,ノードがコメントを表現し,エッジが応答構造をキャプチャする手法を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:03:37Z) - Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction [50.630431647192054]
本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。
対象の音声を抽出するためには、テキストの文脈にのみ依存する。
3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
論文 参考訳(メタデータ) (2025-03-11T18:26:10Z) - Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - Enhancing Semantic Understanding with Self-supervised Methods for
Abstractive Dialogue Summarization [4.226093500082746]
本稿では,対話要約モデルを訓練するための欠点を補う自己教師型手法を提案する。
我々の原理は,対話文表現の文脈化能力を高めるために,前文対話文を用いて不整合情報の流れを検出することである。
論文 参考訳(メタデータ) (2022-09-01T07:51:46Z) - GRASP: Guiding model with RelAtional Semantics using Prompt [3.1275060062551208]
本稿では Prompt (GRASP) を用いたRelAtional Semantics を用いた誘導モデルを提案する。
我々は、プロンプトベースの微調整アプローチを採用し、引数を意識したプロンプトマーカー戦略を用いて、ある対話における関係意味的手がかりをキャプチャする。
実験では、DialogREデータセット上でのF1とF1cのスコアの観点から、GRASPの最先端のパフォーマンスが評価された。
論文 参考訳(メタデータ) (2022-08-26T08:19:28Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。