論文の概要: Piecing Together Clues: A Benchmark for Evaluating the Detective Skills of Large Language Models
- arxiv url: http://arxiv.org/abs/2307.05113v3
- Date: Wed, 20 Mar 2024 11:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 22:57:10.492842
- Title: Piecing Together Clues: A Benchmark for Evaluating the Detective Skills of Large Language Models
- Title(参考訳): 組み合わせる:大規模言語モデルの検出スキル評価のためのベンチマーク
- Authors: Zhouhong Gu, Lin Zhang, Jiangjie Chen, Haoning Ye, Xiaoxuan Zhu, Zihan Li, Zheyu Ye, Yan Gao, Yao Hu, Yanghua Xiao, Hongwei Feng,
- Abstract要約: 検出者は、様々なケースで意思決定を行う際に、情報検出と推論を同時に行うことが多い。
我々は、キー情報検出とマルチホップ推論において、モデルが協調的に機能する能力を評価するために設計された読解理解データセットであるTectBenchを紹介する。
本手法は,モデルが推論の前にコンテキスト内で可能なすべての手がかりを識別することを奨励する。
- 参考スコア(独自算出の注目度): 44.42887452269389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detectives frequently engage in information detection and reasoning simultaneously when making decisions across various cases, especially when confronted with a vast amount of information. With the rapid development of large language models~(LLMs), evaluating how these models identify key information and reason to solve questions becomes increasingly relevant. We introduces the DetectBench, a reading comprehension dataset designed to assess a model's ability to jointly ability in key information detection and multi-hop reasoning when facing complex and implicit information. The DetectBench comprises 3,928 questions, each paired with a paragraph averaging 190 tokens in length. To enhance model's detective skills, we propose the Detective Thinking Framework. These methods encourage models to identify all possible clues within the context before reasoning. Our experiments reveal that existing models perform poorly in both information detection and multi-hop reasoning. However, the Detective Thinking Framework approach alleviates this issue.
- Abstract(参考訳): 検出者は、様々なケース、特に大量の情報に直面する場合において、情報検出と推論を同時に行う。
大規模言語モデル~(LLM)の急速な発展に伴い、これらのモデルがどのように重要な情報を特定し、疑問を解決する理由を特定するかを評価することがますます重要になっている。
我々は,複雑で暗黙的な情報に直面した場合に,重要な情報検出とマルチホップ推論において,モデルが協調的に機能する能力を評価するために設計された読解理解データセットであるTectBenchを紹介した。
DetectBenchは3,928の質問で構成され、それぞれに190のトークンを平均でペアリングする。
モデルの刑事能力を高めるために,検出思考フレームワークを提案する。
これらの手法は、推論の前にコンテキスト内のすべての可能な手がかりを特定することをモデルに推奨する。
実験の結果,既存モデルは情報検出とマルチホップ推論の両方において性能が劣っていることがわかった。
しかし、Dective Thinking Frameworkアプローチはこの問題を軽減する。
関連論文リスト
- Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - Claim Detection for Automated Fact-checking: A Survey on Monolingual, Multilingual and Cross-Lingual Research [7.242609314791262]
本稿では,現状の多言語クレーム検出研究を,問題の3つの重要な要因,妥当性,優先性,類似性に分類する。
本稿では,既存の多言語データセットの概要と課題について概説し,今後の発展の可能性を提案する。
論文 参考訳(メタデータ) (2024-01-22T14:17:03Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Out-of-Domain Intent Detection Considering Multi-Turn Dialogue Contexts [91.43701971416213]
我々は,OODインテント検出タスクにおけるマルチターンコンテキストをモデル化するためのコンテキスト認識型OODインテント検出(Caro)フレームワークを提案する。
CaroはF1-OODスコアを29%以上改善することで、マルチターンOOD検出タスクの最先端性能を確立している。
論文 参考訳(メタデータ) (2023-05-05T01:39:21Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Reinforcement Guided Multi-Task Learning Framework for Low-Resource
Stereotype Detection [3.7223111129285096]
ステレオタイプ検出」データセットは主に、大規模な事前学習言語モデルに対する診断アプローチを採用している。
信頼できるデータセットに注釈をつけるには、テキストでステレオタイプがどのように現れるかという微妙なニュアンスを正確に理解する必要がある。
我々は「ステレオタイプ検出」における経験的性能を改善するために、データ豊富な隣接タスクの多元性を活用するマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2022-03-27T17:16:11Z) - Fact-driven Logical Reasoning for Machine Reading Comprehension [82.58857437343974]
私たちは、常識と一時的な知識のヒントの両方を階層的にカバーする動機があります。
具体的には,文の背骨成分を抽出し,知識単位の一般的な定式化を提案する。
次に、事実単位の上にスーパーグラフを構築し、文レベル(事実群間の関係)と実体レベルの相互作用の利点を享受する。
論文 参考訳(メタデータ) (2021-05-21T13:11:13Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。
本研究は,複数回対話を行う対話型MRCに焦点を当てている。
それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文 参考訳(メタデータ) (2020-04-29T07:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。