論文の概要: "Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration
- arxiv url: http://arxiv.org/abs/2409.10525v1
- Date: Fri, 30 Aug 2024 12:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:32:16.745006
- Title: "Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration
- Title(参考訳): 「これですか?」 : 位置的協調のための生態学的検証に向けて
- Authors: Dan Bohus, Sean Andrist, Yuwei Bao, Eric Horvitz, Ann Paradiso,
- Abstract要約: そこで我々は,大規模なマルチモーダルモデルによる協調作業を行う能力を評価するためのベンチマークを開発した。
既存のベンチマークとは対照的に,既存のデータセットや合成データセットに対して,テンプレートや人間のアノテータ,あるいは大規模言語モデルを用いて質問応答ペアを生成する場合,インタラクティブなシステム駆動アプローチを提案し,検討する。
既存のEQA(Embodied Question answering)ベンチマークでよく見られる質問の形式や内容がどう違うのかを説明し、新たな現実的な課題を議論する。
- 参考スコア(独自算出の注目度): 16.25921668308458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report initial work towards constructing ecologically valid benchmarks to assess the capabilities of large multimodal models for engaging in situated collaboration. In contrast to existing benchmarks, in which question-answer pairs are generated post hoc over preexisting or synthetic datasets via templates, human annotators, or large language models (LLMs), we propose and investigate an interactive system-driven approach, where the questions are generated by users in context, during their interactions with an end-to-end situated AI system. We illustrate how the questions that arise are different in form and content from questions typically found in existing embodied question answering (EQA) benchmarks and discuss new real-world challenge problems brought to the fore.
- Abstract(参考訳): 本稿では,大規模なマルチモーダルモデルによる位置的協調作業の能力を評価するため,生態学的に有効なベンチマークの構築に向けた最初の取り組みについて報告する。
既存のベンチマークとは対照的に,既存のデータセットや合成データセットに対して,テンプレートやヒューマンアノテータ,あるいは大規模言語モデル(LLM)を用いて質問応答対を生成する手法では,エンド・ツー・エンドのAIシステムとのインタラクションにおいて,ユーザがコンテキスト内で質問を生成する対話型システム駆動アプローチを提案し,検討する。
既存のEQA(Embodied Question answering)ベンチマークでよく見られる質問の形式や内容がどう違うのかを説明し、新たな現実的な課題を議論する。
関連論文リスト
- QAGCF: Graph Collaborative Filtering for Q&A Recommendation [58.21387109664593]
質問と回答(Q&A)プラットフォームは通常、ユーザの知識獲得のニーズを満たすために質問と回答のペアを推奨する。
これにより、ユーザの振る舞いがより複雑になり、Q&Aレコメンデーションの2つの課題が提示される。
グラフニューラルネットワークモデルであるQ&Answer Graph Collaborative Filtering (QAGCF)を導入する。
論文 参考訳(メタデータ) (2024-06-07T10:52:37Z) - Simulating Task-Oriented Dialogues with State Transition Graphs and Large Language Models [16.94819621353007]
SynTODは、エンドツーエンドのタスク指向対話(TOD)システムを開発するための新しい合成データ生成手法である。
大規模言語モデルを用いたランダムウォークと応答シミュレーションにより多様な構造化された会話を生成する。
実験では,グラフ誘導応答シミュレーションを用いて意図分類,スロット充填,応答関連性を大幅に改善した。
論文 参考訳(メタデータ) (2024-04-23T06:23:34Z) - Question Generation in Knowledge-Driven Dialog: Explainability and Evaluation [5.598219914856067]
質問を直接生成するのではなく,まず質問の事実を逐次予測するモデルを提案する。
KGConvデータセットに適応した37kテストダイアログに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-04-11T15:24:50Z) - OntoChat: a Framework for Conversational Ontology Engineering using Language Models [0.3141085922386211]
textbfOntoChatは、要求の誘導、分析、テストをサポートする会話エンジニアリングのためのフレームワークである。
音楽メタオントロジーのエンジニアリングを再現し,ユーザから各コンポーネントの有効性に関する予備的な指標を収集することにより,OntoChatを評価する。
論文 参考訳(メタデータ) (2024-03-09T14:04:06Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - What should I Ask: A Knowledge-driven Approach for Follow-up Questions
Generation in Conversational Surveys [63.51903260461746]
対話型調査における知識駆動型フォローアップ質問生成のための新しい課題を提案する。
そこで我々は,対話履歴とラベル付き知識を用いた人手によるフォローアップ質問の新しいデータセットを構築した。
次に,その課題に対する2段階の知識駆動モデルを提案する。
論文 参考訳(メタデータ) (2022-05-23T00:57:33Z) - Generating Self-Contained and Summary-Centric Question Answer Pairs via
Differentiable Reward Imitation Learning [7.2745835227138045]
本稿では,質問応答対(QAペア)を自己完結型,要約型,長さ制約型,記事要約型で生成するモデルを提案する。
このデータセットは、回答として要約を生成するQAペア生成モデルを学ぶために使用される。
論文 参考訳(メタデータ) (2021-09-10T06:34:55Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文 参考訳(メタデータ) (2020-12-21T19:01:55Z) - Modeling Topical Relevance for Multi-Turn Dialogue Generation [61.87165077442267]
マルチターン対話におけるトピックドリフト問題に対処する新しいモデルSTAR-BTMを提案する。
バイラルトピックモデルは、トレーニングデータセット全体に基づいて事前トレーニングされ、各コンテキストのトピック表現に基づいてトピックレベルの注意重みが計算される。
中国における顧客サービスデータと英語Ubuntuの対話データの両方の実験結果から、STAR-BTMは最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-09-27T03:33:22Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。