論文の概要: Beyond the Obvious: Evaluating the Reasoning Ability In Real-life
Scenarios of Language Models on Life Scapes Reasoning
Benchmark~(LSR-Benchmark)
- arxiv url: http://arxiv.org/abs/2307.05113v1
- Date: Tue, 11 Jul 2023 08:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-07-12 15:42:28.752776
- Title: Beyond the Obvious: Evaluating the Reasoning Ability In Real-life
Scenarios of Language Models on Life Scapes Reasoning
Benchmark~(LSR-Benchmark)
- Title(参考訳): 必然性を超えて:人生における言語モデルの実生活シナリオにおける推論能力の評価–(LSR-Benchmark)
- Authors: Zhouhong Gu, Zihan Li, Lin Zhang, Zhuozhi Xiong, Sihang Jiang,
Xiaoxuan Zhu, Shusen Wang, Zili Wang, Jianchen Wang, Haoning Ye, Wenhao
Huang, Yikai Zhang, Hongwei Feng, Yanghua Xiao
- Abstract要約: Life Scapes Reasoning Benchmarkは、日々のコンテキストで推論する人工知能の能力のギャップを埋めることを目的としている。
データセットは、オープンソースのオンラインソースから収集された2,162の質問で構成され、手動でアノテートされ、品質が向上する。
- 参考スコア(独自算出の注目度): 27.299108527860223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the Life Scapes Reasoning Benchmark (LSR-Benchmark), a
novel dataset targeting real-life scenario reasoning, aiming to close the gap
in artificial neural networks' ability to reason in everyday contexts. In
contrast to domain knowledge reasoning datasets, LSR-Benchmark comprises
free-text formatted questions with rich information on real-life scenarios,
human behaviors, and character roles. The dataset consists of 2,162 questions
collected from open-source online sources and is manually annotated to improve
its quality. Experiments are conducted using state-of-the-art language models,
such as gpt3.5-turbo and instruction fine-tuned llama models, to test the
performance in LSR-Benchmark. The results reveal that humans outperform these
models significantly, indicating a persisting challenge for machine learning
models in comprehending daily human life.
- Abstract(参考訳): 本稿では,実生活シナリオ推論を対象とした新しいデータセットであるlife scapes reasoning benchmark(lsr-benchmark)について紹介する。
ドメイン知識推論データセットとは対照的に、LSR-Benchmarkは、現実のシナリオ、人間の振る舞い、キャラクターの役割に関する豊富な情報を持つ自由テキスト形式の質問を含んでいる。
データセットは、オープンソースのオンラインソースから収集された2,162の質問で構成され、手動でアノテートされ、品質が向上する。
lsr-benchmarkの性能をテストするために, gpt3.5-turboや命令微調整llamaモデルなどの最先端言語モデルを用いて実験を行った。
その結果、人間はこれらのモデルを大幅に上回る結果となり、機械学習モデルが日々の生活を理解する上での継続的な課題が示唆された。
関連論文リスト
- ReasonCD: A Multimodal Reasoning Large Model for Implicit Change-of-Interest Semantic Mining [8.920164654015808]
ユーザのCRoIを検出するためにセマンティックガイダンスを使用する方法は、CRoIの明示的なテキスト記述に依存している。
本稿では,ユーザの暗黙的なタスク意図をマイニング可能なマルチモーダル推論変更検出モデルReasonCDを提案する。
実験結果から,ReasonCDモデルは基本的な推論に基づく変化検出タスクに優れるだけでなく,人間の意思決定を支援するための推論プロセスも説明できることがわかった。
論文 参考訳(メタデータ) (2025-12-22T12:54:26Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Few-Shot Query Intent Detection via Relation-Aware Prompt Learning [14.048513219736543]
モデル事前学習のためのテキストと関係構造情報を統合した新しいフレームワークを提案する。
このフレームワークを基盤として,クエリ適応型アテンションネットワーク(QueryAdapt)を提案する。
論文 参考訳(メタデータ) (2025-09-06T07:41:47Z) - Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis [3.711555701154055]
モデルの推論と実践的なAIチャットボットへの統合は、高度な数学、深い探索、そして抽出された質問応答問題の解決にブレークスルーをもたらした。
しかし、これらのモデルが汎用言語モデル以上の幻覚を与える理由についての完全な理解が欠落している。
本研究では,マルチホップ質問応答タスクにおける現代言語モデルの推論失敗を系統的に解明する。
論文 参考訳(メタデータ) (2025-08-06T17:58:36Z) - Chain of Questions: Guiding Multimodal Curiosity in Language Models [2.0180882714261568]
質問の連鎖 (Chain of Questions, CoQ) は好奇心を駆使した推論手法であり, マルチモーダル言語モデルにより, 周辺環境に関する対象とする質問を生成する。
我々は、WebGPT、ScienceQA、AVSD、ScanQAデータセットを統合した新しいマルチモーダルベンチマークデータセットについて、我々のフレームワークを評価する。
論文 参考訳(メタデータ) (2025-08-06T11:42:54Z) - UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。
目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。
5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-09T17:02:40Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Claim Detection for Automated Fact-checking: A Survey on Monolingual, Multilingual and Cross-Lingual Research [7.242609314791262]
本稿では,現状の多言語クレーム検出研究を,問題の3つの重要な要因,妥当性,優先性,類似性に分類する。
本稿では,既存の多言語データセットの概要と課題について概説し,今後の発展の可能性を提案する。
論文 参考訳(メタデータ) (2024-01-22T14:17:03Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - Out-of-Domain Intent Detection Considering Multi-Turn Dialogue Contexts [91.43701971416213]
我々は,OODインテント検出タスクにおけるマルチターンコンテキストをモデル化するためのコンテキスト認識型OODインテント検出(Caro)フレームワークを提案する。
CaroはF1-OODスコアを29%以上改善することで、マルチターンOOD検出タスクの最先端性能を確立している。
論文 参考訳(メタデータ) (2023-05-05T01:39:21Z) - Probing via Prompting [71.7904179689271]
本稿では,探索をプロンプトタスクとして定式化することで,新しいモデルフリーな探索手法を提案する。
我々は5つの探索課題について実験を行い、我々のアプローチが診断プローブよりも情報抽出に優れていることを示す。
次に,その特性に不可欠な頭部を除去し,言語モデリングにおけるモデルの性能を評価することにより,事前学習のための特定の言語特性の有用性を検討する。
論文 参考訳(メタデータ) (2022-07-04T22:14:40Z) - Reinforcement Guided Multi-Task Learning Framework for Low-Resource
Stereotype Detection [3.7223111129285096]
ステレオタイプ検出」データセットは主に、大規模な事前学習言語モデルに対する診断アプローチを採用している。
信頼できるデータセットに注釈をつけるには、テキストでステレオタイプがどのように現れるかという微妙なニュアンスを正確に理解する必要がある。
我々は「ステレオタイプ検出」における経験的性能を改善するために、データ豊富な隣接タスクの多元性を活用するマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2022-03-27T17:16:11Z) - Fact-driven Logical Reasoning for Machine Reading Comprehension [82.58857437343974]
私たちは、常識と一時的な知識のヒントの両方を階層的にカバーする動機があります。
具体的には,文の背骨成分を抽出し,知識単位の一般的な定式化を提案する。
次に、事実単位の上にスーパーグラフを構築し、文レベル(事実群間の関係)と実体レベルの相互作用の利点を享受する。
論文 参考訳(メタデータ) (2021-05-21T13:11:13Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。
本研究は,複数回対話を行う対話型MRCに焦点を当てている。
それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文 参考訳(メタデータ) (2020-04-29T07:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。