論文の概要: Making Dialogue Grounding Data Rich: A Three-Tier Data Synthesis Framework for Generalized Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2512.02791v1
- Date: Tue, 02 Dec 2025 14:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.909255
- Title: Making Dialogue Grounding Data Rich: A Three-Tier Data Synthesis Framework for Generalized Referring Expression Comprehension
- Title(参考訳): 対話グラウンドデータリッチ化:汎用参照式理解のための3階層データ合成フレームワーク
- Authors: Juexi Shao, Siyou Li, Yujian Gan, Chris Madge, Vanja Karan, Massimo Poesio,
- Abstract要約: 対話に基づく一般化参照表現(GREC)は、複雑な視覚シーンにおいて、表現と無制限なターゲットを基盤として、長い対話コンテキストにおけるコア参照を解消するモデルを必要とする。
既存のシステムでは、トレーニングと評価ドメイン間の分散シフトにおいて、注釈付き対話グラウンドデータの不足により、ギャップが悪化する。
本稿では,対話条件付きグラウンド化のためのスケーラブルな監視を実現するために,現実性と制御性のバランスをとる3層データ合成手法を用いて,この問題に対処する。
- 参考スコア(独自算出の注目度): 3.898807437481249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue-Based Generalized Referring Expressions Comprehension (GREC) requires models to ground the expression and unlimited targets in complex visual scenes while resolving coreference across a long dialogue context. However, existing systems struggle under distribution shift between training and evaluation domains, a gap exacerbated by the scarcity of annotated dialogue grounding data. We address this challenge with a three-tier data-synthesis method that balances realism and controllability to produce scalable supervision for dialogue-conditioned grounding. Fine-tuning on the synthesized data yields consistent, substantial improvements over prior approaches across standard evaluation metrics.
- Abstract(参考訳): 対話に基づく一般化参照表現理解(GREC)は、複雑な視覚シーンにおいて、表現と無制限なターゲットを基盤として、長い対話コンテキストでコア参照を解消するモデルを必要とする。
しかし,既存のシステムでは,アノテートされた対話グラウンドデータの不足により,学習領域と評価領域の分散シフトに苦慮している。
本稿では,対話条件付きグラウンド化のためのスケーラブルな監視を実現するために,現実性と制御性のバランスをとる3層データ合成手法を用いて,この問題に対処する。
合成されたデータの微調整は、標準評価指標を越えて以前のアプローチよりも一貫性があり、実質的な改善をもたらす。
関連論文リスト
- On Mitigating Data Sparsity in Conversational Recommender Systems [69.70761335240738]
会話レコメンデータシステム(CRS)は、対話中のテキスト情報を通じてユーザの好みをキャプチャする。
対話空間は広大で言語的に多様であり、アイテム空間は長い尾とスパース分布を示す。
既存の手法では,(1)リッチテキストの活用による多様な対話表現の一般化,(2)重度の疎度下での情報表現の学習に苦慮している。
論文 参考訳(メタデータ) (2025-07-01T06:54:51Z) - Scalable Frame-based Construction of Sociocultural NormBases for Socially-Aware Dialogues [66.69453609603875]
社会文化的規範は、社会的相互作用における個人的行為の指針となる。
大規模言語モデル(LLM)を用いた社会文化的ノルム(SCN)ベース構築のためのスケーラブルなアプローチを提案する。
我々は、包括的で広くアクセス可能な中国社会文化ノルムベースを構築した。
論文 参考訳(メタデータ) (2024-10-04T00:08:46Z) - Instructive Dialogue Summarization with Query Aggregations [41.89962538701501]
本稿では,対話要約モデルの能力集合を拡張するために,命令精細言語モデルを提案する。
高品質なクエリベースの要約三重項を合成するための3段階のアプローチを提案する。
多目的インストラクティブトリプルを用いた3つの要約データセット上で、InstructDSと呼ばれる統一モデルをトレーニングすることにより、対話要約モデルの能力を拡大する。
論文 参考訳(メタデータ) (2023-10-17T04:03:00Z) - Grounding Description-Driven Dialogue State Trackers with
Knowledge-Seeking Turns [54.56871462068126]
人または合成スキーマのパラフレーズによるトレーニングセットの強化は、これらのバリエーションに対するモデルの堅牢性を改善するが、コストがかかるか、制御が難しいかのいずれかである。
本稿では,対話コーパスとスキーマから収集した知識探索ターンの状態追跡モデルに基づいて,これらの問題を回避することを提案する。
論文 参考訳(メタデータ) (2023-09-23T18:33:02Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings [33.89889949577356]
本稿では,対話型コントラスト学習手法であるDialogueCSEを提案する。
我々は,Microsoft Dialogue Corpus,Jing Dong Dialogue Corpus,E-Commerce Dialogue Corpusの3つの多ターン対話データセットについて評価を行った。
論文 参考訳(メタデータ) (2021-09-26T13:25:41Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。