論文の概要: J-CRe3: A Japanese Conversation Dataset for Real-world Reference Resolution
- arxiv url: http://arxiv.org/abs/2403.19259v1
- Date: Thu, 28 Mar 2024 09:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:53:18.887653
- Title: J-CRe3: A Japanese Conversation Dataset for Real-world Reference Resolution
- Title(参考訳): J-CRe3 - 実世界の参照解決のための日本語会話データセット
- Authors: Nobuhiro Ueda, Hideko Habe, Yoko Matsui, Akishige Yuguchi, Seiya Kawano, Yasutomo Kawanishi, Sadao Kurohashi, Koichiro Yoshino,
- Abstract要約: 実世界の参照解決において、システムは、エゴセントリックな視点で観察される視覚情報とユーザインタラクションに現れる言語情報を接地しなければならない。
我々は,マルチモーダル参照解決タスクを提案し,実世界参照解決のための日本語会話データセット(J-CRe3)を構築した。
我々のデータセットには、実世界の会話のエゴセントリックなビデオと対話音声が含まれています。
- 参考スコア(独自算出の注目度): 22.911318874589448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding expressions that refer to the physical world is crucial for such human-assisting systems in the real world, as robots that must perform actions that are expected by users. In real-world reference resolution, a system must ground the verbal information that appears in user interactions to the visual information observed in egocentric views. To this end, we propose a multimodal reference resolution task and construct a Japanese Conversation dataset for Real-world Reference Resolution (J-CRe3). Our dataset contains egocentric video and dialogue audio of real-world conversations between two people acting as a master and an assistant robot at home. The dataset is annotated with crossmodal tags between phrases in the utterances and the object bounding boxes in the video frames. These tags include indirect reference relations, such as predicate-argument structures and bridging references as well as direct reference relations. We also constructed an experimental model and clarified the challenges in multimodal reference resolution tasks.
- Abstract(参考訳): 物理的な世界を指す表現を理解することは、現実世界の人間支援システムにとって、ユーザーが期待する行動を実行するロボットとして不可欠である。
実世界の参照解決において、システムは、エゴセントリックな視点で観察される視覚情報とユーザインタラクションに現れる言語情報を接地しなければならない。
そこで本研究では,マルチモーダル参照解決タスクを提案し,実世界参照解決のための日本語会話データセット(J-CRe3)を構築した。
我々のデータセットには、実世界の会話のエゴセントリックなビデオと対話音声が含まれています。
データセットは、発話中のフレーズとビデオフレーム内のオブジェクト境界ボックスの間のクロスモーダルタグで注釈付けされる。
これらのタグには、述語引数構造やブリッジ参照のような間接参照関係と直接参照関係が含まれる。
また、実験モデルを構築し、マルチモーダル参照解決タスクの課題を明らかにした。
関連論文リスト
- 'What are you referring to?' Evaluating the Ability of Multi-Modal
Dialogue Models to Process Clarificational Exchanges [65.03196674816772]
参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。
出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。
ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
論文 参考訳(メタデータ) (2023-07-28T13:44:33Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - A Unified Framework for Slot based Response Generation in a Multimodal
Dialogue System [25.17100881568308]
自然言語理解(NLU)と自然言語生成(NLG)は、すべての会話システムにおいて重要な要素である。
発話から必要なスロット値を抽出できるエンドツーエンドフレームワークを提案する。
事前学習したダイアロGPTを用いたマルチモーダル階層エンコーダを用いて、両方のタスクに対してより強力なコンテキストを提供する。
論文 参考訳(メタデータ) (2023-05-27T10:06:03Z) - Reference Resolution and Context Change in Multimodal Situated Dialogue
for Exploring Data Visualizations [3.5813777917429515]
マルチモーダル対話における大画面ディスプレイ上での可視化への参照の解決に焦点をあてる。
言語と手振りで大画面に表示される視覚化へのユーザ参照に関するアノテーションについて述べる。
本稿では,参照の検出と解決,モデル上でのコンテキスト情報の有効性,視覚化のための不特定要求について報告する。
論文 参考訳(メタデータ) (2022-09-06T04:43:28Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - YouRefIt: Embodied Reference Understanding with Language and Gesture [95.93218436323481]
具体的参照の理解について研究する。
あるエージェントは、言語とジェスチャーの両方を使用して、共有された物理的環境でオブジェクトを別のエージェントに参照する。
クラウドソースされたYouRefItデータセットには、432の屋内シーンで4,195のユニークな参照クリップが含まれている。
論文 参考訳(メタデータ) (2021-09-08T03:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。