Fugu-MT 論文翻訳(概要): Comparing Human and Large Language Model Interpretation of Implicit Information

論文の概要: Comparing Human and Large Language Model Interpretation of Implicit Information

arxiv url: http://arxiv.org/abs/2604.17085v1
Date: Sat, 18 Apr 2026 17:43:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.325087
Title: Comparing Human and Large Language Model Interpretation of Implicit Information
Title（参考訳）: 意図しない情報の人間と大言語モデルによる解釈の比較
Authors: Antonio De Santis, Tommaso Bonetti, Andrea Tocchetti, Marco Brambilla,
Abstract要約: 入出力情報抽出(IIE)の課題について紹介する。 IIEは、文脈文から構造付き知識グラフを構築し、関係三重項を抽出し、暗黙の推論を検証し、時間的関係を解析する。ヒトは、ほとんどのモデル三重項に同意するが、常に多くの追加を提案しており、現在のLLMベースのIIEに制限があることを示している。
参考スコア（独自算出の注目度）: 5.232306238197686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The interpretation of implicit meanings is an integral aspect of human communication. However, this framework may not transfer to interactions with Large Language Models (LLMs). To investigate this, we introduce the task of Implicit Information Extraction (IIE) and propose an LLM-based IIE pipeline that builds a structured knowledge graph from a context sentence by extracting relational triplets, validating implicit inferences, and analyzing temporal relations. We evaluate two LLMs against crowdsourced human judgments on two datasets. We find that humans agree with most model triplets yet consistently propose many additions, indicating limited coverage in current LLM-based IIE. Moreover, in our experiments, models appear to be more conservative about implicit inferences than humans in socially rich contexts, whereas humans become more conservative in shorter, fact-oriented contexts. Our code is available at https://github.com/Antonio-Dee/IIE_from_LLM.
Abstract（参考訳）: 暗黙の意味の解釈は人間のコミュニケーションの不可欠な側面である。しかし、このフレームワークは、Large Language Models (LLM)との相互作用に移行しないかもしれない。そこで本研究では,インプリシト情報抽出(IIE)の課題を紹介し,文脈文から構造化知識グラフを抽出し,暗黙的推論を検証し,時間的関係を解析して構築するLLMベースのIIEパイプラインを提案する。 2つのデータセットにおいて,クラウドソースによる人的判断に対して2つのLSMを評価する。ヒトは、ほとんどのモデル三重項に同意するが、常に多くの追加を提案しており、現在のLLMベースのIIEに制限があることを示している。さらに、我々の実験では、モデルは社会的に豊かな文脈では人間よりも暗黙の推論の方が保守的であるように見え、一方、人間は短い事実指向の文脈ではより保守的である。私たちのコードはhttps://github.com/Antonio-Dee/IIE_from_LLM.comで公開されています。

関連論文リスト

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
Implicit Causality-biases in humans and LLMs as a tool for benchmarking LLM discourse capabilities [0.0]
モデルサイズの範囲にまたがる単言語LLMと多言語LLMで生成されたデータと、被験者が提供したデータとを比較した。我々は,より一般的な談話理解能力のための堅牢なプロキシとして,談話バイアスを伴うLLMの能力を評価するためのベンチマークを開発することを目的とする。
論文参考訳（メタデータ） (2025-01-22T16:07:24Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。 2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文参考訳（メタデータ） (2022-10-26T19:04:23Z)
Structured, flexible, and robust: benchmarking and improving large language models towards more human-like behavior in out-of-distribution reasoning tasks [39.39138995087475]
言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
論文参考訳（メタデータ） (2022-05-11T18:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。