論文の概要: CORECODE: A Common Sense Annotated Dialogue Dataset with Benchmark Tasks
for Chinese Large Language Models
- arxiv url: http://arxiv.org/abs/2312.12853v1
- Date: Wed, 20 Dec 2023 09:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:14:35.484408
- Title: CORECODE: A Common Sense Annotated Dialogue Dataset with Benchmark Tasks
for Chinese Large Language Models
- Title(参考訳): CORECODE:中国語大言語モデルのためのベンチマークタスク付き共通センスアノテーション付き対話データセット
- Authors: Dan Shi, Chaobin You, Jiantao Huang, Taihao Li, Deyi Xiong
- Abstract要約: CORECODEは、ダイアディック対話に手動で注釈付けされた豊富なコモンセンス知識を含むデータセットである。
日常会話における常識知識を,エンティティ,イベント,社会的相互作用の3次元に分類する。
クラウドソーシングを通じて, 76,787のコモンセンス知識アノテーションを19,700の対話から収集した。
- 参考スコア(独自算出の注目度): 42.5532503036805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an indispensable ingredient of intelligence, commonsense reasoning is
crucial for large language models (LLMs) in real-world scenarios. In this
paper, we propose CORECODE, a dataset that contains abundant commonsense
knowledge manually annotated on dyadic dialogues, to evaluate the commonsense
reasoning and commonsense conflict detection capabilities of Chinese LLMs. We
categorize commonsense knowledge in everyday conversations into three
dimensions: entity, event, and social interaction. For easy and consistent
annotation, we standardize the form of commonsense knowledge annotation in
open-domain dialogues as "domain: slot = value". A total of 9 domains and 37
slots are defined to capture diverse commonsense knowledge. With these
pre-defined domains and slots, we collect 76,787 commonsense knowledge
annotations from 19,700 dialogues through crowdsourcing. To evaluate and
enhance the commonsense reasoning capability for LLMs on the curated dataset,
we establish a series of dialogue-level reasoning and detection tasks,
including commonsense knowledge filling, commonsense knowledge generation,
commonsense conflict phrase detection, domain identification, slot
identification, and event causal inference. A wide variety of existing
open-source Chinese LLMs are evaluated with these tasks on our dataset.
Experimental results demonstrate that these models are not competent to predict
CORECODE's plentiful reasoning content, and even ChatGPT could only achieve
0.275 and 0.084 accuracy on the domain identification and slot identification
tasks under the zero-shot setting. We release the data and codes of CORECODE at
https://github.com/danshi777/CORECODE to promote commonsense reasoning
evaluation and study of LLMs in the context of daily conversations.
- Abstract(参考訳): インテリジェンスの必須要素として、現実世界のシナリオにおいて、大規模言語モデル(LLM)にとって常識推論が不可欠である。
本稿では,中国語llmの共通性推論と共通性競合検出能力を評価するために,dyadic対話に手作業でアノテートされた豊富な共通性知識を含むデータセットcorecodeを提案する。
日常会話における常識知識を,エンティティ,イベント,社会的相互作用の3次元に分類する。
容易かつ一貫したアノテーションのために、オープンドメイン対話におけるコモンセンス知識アノテーションの形式を「ドメイン: slot = value」として標準化する。
合計9つのドメインと37のスロットが定義され、様々なコモンセンスの知識を捉える。
これらの定義済みのドメインとスロットにより、クラウドソーシングを通じて、19,700の対話から76,787のコモンセンス知識アノテーションを収集する。
データセット上でのllmsの共通意味推論能力を評価・強化するために,共通意味知識充足,共通意味知識生成,共通意味競合句検出,ドメイン識別,スロット識別,イベント因果推論など,対話レベルの推論と検出タスクを連続的に確立する。
既存のオープンソースの中国語LLMを,これらのタスクをデータセット上で評価する。
実験の結果、これらのモデルはCORECODEの豊富な推論内容の予測には適していないことが示され、ChatGPTでさえゼロショット設定下のドメイン識別およびスロット識別タスクにおいて0.275と0.084の精度しか達成できなかった。
我々は,日常会話の文脈におけるLLMの常識推論評価と研究を促進するために,CORECODEのデータとコードをhttps://github.com/danshi777/CORECODEで公開する。
関連論文リスト
- What Really is Commonsense Knowledge? [58.5342212738895]
我々は、既存のコモンセンス知識の定義を調査し、概念を定義するための3つのフレームワークに基礎を置き、それらをコモンセンス知識の統一的な定義に統合する。
次に、アノテーションと実験のための統合された定義をCommonsenseQAとCommonsenseQA 2.0データセットで使用します。
本研究は,2つのデータセットには非常識知識のインスタンスが多数存在し,これら2つのサブセットに対して大きな性能差があることを示す。
論文 参考訳(メタデータ) (2024-11-06T14:54:19Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - ComFact: A Benchmark for Linking Contextual Commonsense Knowledge [31.19689856957576]
そこで我々は,KGから状況に関連のあるコモンセンス知識を特定するために,モデルにコンテキストを付与し,訓練を行う,コモンセンス事実リンクの新しい課題を提案する。
われわれの新しいベンチマークであるComFactは、4つのスタイリスティックな多様なデータセットにまたがるコモンセンスのための293kのインコンテキスト関連アノテーションを含んでいる。
論文 参考訳(メタデータ) (2022-10-23T09:30:39Z) - Commonsense and Named Entity Aware Knowledge Grounded Dialogue
Generation [20.283091595536835]
大規模コモンセンスと名前付きエンティティベース知識を効果的に活用するオープンドメイン対話生成モデルを提案する。
提案モデルでは,対話履歴と関連する知識の最も正確かつ重要な部分を保存するために,マルチホップアテンション層を利用する。
2つのベンチマークデータセットの実証結果は、我々のモデルが自動評価指標と人的判断の両方で最先端の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-27T12:11:40Z) - Multi-Sentence Knowledge Selection in Open-Domain Dialogue [11.936691632841388]
オープンドメイン会話知識選択の現況を評価する。
We create a augmented dataset based on the Wizard of Wikipedia (WOW) corpus。
WOW++は、対話コンテキストごとに8つの関連する知識文を平均化する。
論文 参考訳(メタデータ) (2022-03-01T22:07:05Z) - Dimensions of Commonsense Knowledge [60.49243784752026]
我々は,その関係に特に焦点をあてて,広く普及しているコモンセンスソースを調査した。
我々はこれらの関係を13の知識次元に集約し、それぞれがソースにあるより具体的な関係を抽象化する。
論文 参考訳(メタデータ) (2021-01-12T17:52:39Z) - Inferential Text Generation with Multiple Knowledge Sources and
Meta-Learning [117.23425857240679]
本研究では,テキストティフ・エルス関係のような多種多様なコモンセンスのイベントの推論テキストを生成する問題について検討する。
既存のアプローチでは、トレーニング例からの限られた証拠を使用して、個々の関係について学習するのが一般的である。
この研究では、モデルのための燃料として複数の知識ソースを使用します。
論文 参考訳(メタデータ) (2020-04-07T01:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。