論文の概要: Grounding Language in Multi-Perspective Referential Communication
- arxiv url: http://arxiv.org/abs/2410.03959v1
- Date: Fri, 4 Oct 2024 22:42:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:10:07.496274
- Title: Grounding Language in Multi-Perspective Referential Communication
- Title(参考訳): 多視点参照通信における接地言語
- Authors: Zineng Tang, Lingjun Mao, Alane Suhr,
- Abstract要約: マルチエージェント環境における表現生成と理解のためのタスクとデータセットを提案する。
我々は2,970人の人間が書いた参照表現のデータセットを収集し、それぞれが人間の理解的判断と組み合わせる。
自動モデルの性能を人間のパートナーとペアリングした話者とリスナーとして評価し,人間のエージェントのペアよりも遅れた参照生成と理解の遅延の両方におけるモデル性能を確認した。
- 参考スコア(独自算出の注目度): 16.421832484760987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a task and dataset for referring expression generation and comprehension in multi-agent embodied environments. In this task, two agents in a shared scene must take into account one another's visual perspective, which may be different from their own, to both produce and understand references to objects in a scene and the spatial relations between them. We collect a dataset of 2,970 human-written referring expressions, each paired with human comprehension judgments, and evaluate the performance of automated models as speakers and listeners paired with human partners, finding that model performance in both reference generation and comprehension lags behind that of pairs of human agents. Finally, we experiment training an open-weight speaker model with evidence of communicative success when paired with a listener, resulting in an improvement from 58.9 to 69.3% in communicative success and even outperforming the strongest proprietary model.
- Abstract(参考訳): マルチエージェント環境における表現生成と理解のためのタスクとデータセットを提案する。
このタスクでは、共有シーン内の2つのエージェントは、シーン内のオブジェクトへの参照とそれらの間の空間的関係の両方を生成・理解するために、互いに異なる視覚的視点を考慮に入れなければならない。
人間の記述した参照表現2,970のデータセットを収集し、それぞれが人間の理解判断と組み合わせ、自動化されたモデルの性能を、人間のパートナーと組み合わせた話者やリスナーとして評価し、人間のエージェントのペアよりも遅れた参照生成と理解の遅延のモデル性能を見出した。
その結果、58.9から69.3%に改善され、最強のプロプライエタリモデルよりも優れています。
関連論文リスト
- Visual Contexts Clarify Ambiguous Expressions: A Benchmark Dataset [0.39462888523270856]
VAGUEは3.9Kの間接的人間発話と対応するシーンを組み合わせたマルチモーダル・ベンチマークである。
我々の研究は、モデルが間接的なコミュニケーションを理解する能力について深く掘り下げ、より洗練され人間的な対話が可能なモデルの開発に貢献することを目的としています。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words [45.2706444740307]
音声対話理解と生成の多次元評価を目的としたベンチマークデータセットであるSD-Evalを提案する。
我々は3つの異なるモデルを実装し、SD-Evalと同様のプロセスに従ってトレーニングセットを構築する。
トレーニングセットには、1,052.72時間の音声データと724.4kの発話が含まれている。
論文 参考訳(メタデータ) (2024-06-19T08:46:29Z) - DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Dial2vec: Self-Guided Contrastive Learning of Unsupervised Dialogue
Embeddings [41.79937481022846]
教師なし対話の埋め込みを学習するタスクについて紹介する。
事前学習された単語や文の埋め込みや、事前学習された言語モデルによるエンコーディングといったトライアル的なアプローチは、実現可能であることが示されている。
本稿では,Dial2vecという自己指導型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T11:14:06Z) - Reference-Centric Models for Grounded Collaborative Dialogue [42.48421111626639]
本稿では,部分的に観察可能な参照ゲームにおいて,人とのコラボレーションを成功させるニューラルネットワークモデルを提案する。
2人のエージェントがそれぞれ、世界のコンテキストの重なり合う部分を観察し、共有するオブジェクトを識別し、同意する必要がある設定に集中する。
対話エージェントは、構造化された参照レゾルバを用いて相手の発話から、リカレントメモリを用いてこれらのレゾルバの条件を正確に把握し、実用的な生成手順を用いて、相手が生成した参照を確実に解決できるようにする。
論文 参考訳(メタデータ) (2021-09-10T18:03:54Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Emergent Communication with World Models [80.55287578801008]
本稿では,自然言語メッセージを解釈する言語条件生成モデルのクラスであるLanguage World Modelsを紹介する。
我々は、この「観測」を永続記憶状態に組み込んで、リスニングエージェントのポリシーを条件付けします。
これにより、2次元グリッドワールド話者リスナーナビゲーションタスクにおける効果的なコミュニケーションとタスク成功が向上することを示す。
論文 参考訳(メタデータ) (2020-02-22T02:34:51Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。