論文の概要: Beyond the Obvious: Evaluating the Reasoning Ability In Real-life
Scenarios of Language Models on Life Scapes Reasoning
Benchmark~(LSR-Benchmark)
- arxiv url: http://arxiv.org/abs/2307.05113v1
- Date: Tue, 11 Jul 2023 08:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 15:42:28.752776
- Title: Beyond the Obvious: Evaluating the Reasoning Ability In Real-life
Scenarios of Language Models on Life Scapes Reasoning
Benchmark~(LSR-Benchmark)
- Title(参考訳): 必然性を超えて:人生における言語モデルの実生活シナリオにおける推論能力の評価–(LSR-Benchmark)
- Authors: Zhouhong Gu, Zihan Li, Lin Zhang, Zhuozhi Xiong, Sihang Jiang,
Xiaoxuan Zhu, Shusen Wang, Zili Wang, Jianchen Wang, Haoning Ye, Wenhao
Huang, Yikai Zhang, Hongwei Feng, Yanghua Xiao
- Abstract要約: Life Scapes Reasoning Benchmarkは、日々のコンテキストで推論する人工知能の能力のギャップを埋めることを目的としている。
データセットは、オープンソースのオンラインソースから収集された2,162の質問で構成され、手動でアノテートされ、品質が向上する。
- 参考スコア(独自算出の注目度): 27.299108527860223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the Life Scapes Reasoning Benchmark (LSR-Benchmark), a
novel dataset targeting real-life scenario reasoning, aiming to close the gap
in artificial neural networks' ability to reason in everyday contexts. In
contrast to domain knowledge reasoning datasets, LSR-Benchmark comprises
free-text formatted questions with rich information on real-life scenarios,
human behaviors, and character roles. The dataset consists of 2,162 questions
collected from open-source online sources and is manually annotated to improve
its quality. Experiments are conducted using state-of-the-art language models,
such as gpt3.5-turbo and instruction fine-tuned llama models, to test the
performance in LSR-Benchmark. The results reveal that humans outperform these
models significantly, indicating a persisting challenge for machine learning
models in comprehending daily human life.
- Abstract(参考訳): 本稿では,実生活シナリオ推論を対象とした新しいデータセットであるlife scapes reasoning benchmark(lsr-benchmark)について紹介する。
ドメイン知識推論データセットとは対照的に、LSR-Benchmarkは、現実のシナリオ、人間の振る舞い、キャラクターの役割に関する豊富な情報を持つ自由テキスト形式の質問を含んでいる。
データセットは、オープンソースのオンラインソースから収集された2,162の質問で構成され、手動でアノテートされ、品質が向上する。
lsr-benchmarkの性能をテストするために, gpt3.5-turboや命令微調整llamaモデルなどの最先端言語モデルを用いて実験を行った。
その結果、人間はこれらのモデルを大幅に上回る結果となり、機械学習モデルが日々の生活を理解する上での継続的な課題が示唆された。
関連論文リスト
- Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - Claim Detection for Automated Fact-checking: A Survey on Monolingual, Multilingual and Cross-Lingual Research [7.242609314791262]
本稿では,現状の多言語クレーム検出研究を,問題の3つの重要な要因,妥当性,優先性,類似性に分類する。
本稿では,既存の多言語データセットの概要と課題について概説し,今後の発展の可能性を提案する。
論文 参考訳(メタデータ) (2024-01-22T14:17:03Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Out-of-Domain Intent Detection Considering Multi-Turn Dialogue Contexts [91.43701971416213]
我々は,OODインテント検出タスクにおけるマルチターンコンテキストをモデル化するためのコンテキスト認識型OODインテント検出(Caro)フレームワークを提案する。
CaroはF1-OODスコアを29%以上改善することで、マルチターンOOD検出タスクの最先端性能を確立している。
論文 参考訳(メタデータ) (2023-05-05T01:39:21Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Reinforcement Guided Multi-Task Learning Framework for Low-Resource
Stereotype Detection [3.7223111129285096]
ステレオタイプ検出」データセットは主に、大規模な事前学習言語モデルに対する診断アプローチを採用している。
信頼できるデータセットに注釈をつけるには、テキストでステレオタイプがどのように現れるかという微妙なニュアンスを正確に理解する必要がある。
我々は「ステレオタイプ検出」における経験的性能を改善するために、データ豊富な隣接タスクの多元性を活用するマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2022-03-27T17:16:11Z) - Fact-driven Logical Reasoning for Machine Reading Comprehension [82.58857437343974]
私たちは、常識と一時的な知識のヒントの両方を階層的にカバーする動機があります。
具体的には,文の背骨成分を抽出し,知識単位の一般的な定式化を提案する。
次に、事実単位の上にスーパーグラフを構築し、文レベル(事実群間の関係)と実体レベルの相互作用の利点を享受する。
論文 参考訳(メタデータ) (2021-05-21T13:11:13Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。
本研究は,複数回対話を行う対話型MRCに焦点を当てている。
それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文 参考訳(メタデータ) (2020-04-29T07:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。