Fugu-MT 論文翻訳(概要): Belief Revision: The Adaptability of Large Language Models Reasoning

論文の概要: Belief Revision: The Adaptability of Large Language Models Reasoning

arxiv url: http://arxiv.org/abs/2406.19764v1
Date: Fri, 28 Jun 2024 09:09:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 17:20:03.795622
Title: Belief Revision: The Adaptability of Large Language Models Reasoning
Title（参考訳）: Belief Revision: 大規模言語モデルの適合性
Authors: Bryan Wilie, Samuel Cahyawijaya, Etsuko Ishii, Junxian He, Pascale Fung,
Abstract要約: 本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
参考スコア（独自算出の注目度）: 63.0281286287648
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The capability to reason from text is crucial for real-world NLP applications. Real-world scenarios often involve incomplete or evolving data. In response, individuals update their beliefs and understandings accordingly. However, most existing evaluations assume that language models (LMs) operate with consistent information. We introduce Belief-R, a new dataset designed to test LMs' belief revision ability when presented with new evidence. Inspired by how humans suppress prior inferences, this task assesses LMs within the newly proposed delta reasoning ($\Delta R$) framework. Belief-R features sequences of premises designed to simulate scenarios where additional information could necessitate prior conclusions drawn by LMs. We evaluate $\sim$30 LMs across diverse prompting strategies and found that LMs generally struggle to appropriately revise their beliefs in response to new information. Further, models adept at updating often underperformed in scenarios without necessary updates, highlighting a critical trade-off. These insights underscore the importance of improving LMs' adaptiveness to changing information, a step toward more reliable AI systems.
Abstract（参考訳）: テキストから推論する能力は、現実世界のNLPアプリケーションには不可欠である。現実のシナリオは、しばしば不完全または進化的なデータを含む。それに応じて、個人は自分の信念と理解を更新する。しかし、既存の評価の多くは、言語モデル(LM)が一貫した情報で機能していると仮定している。本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論(\Delta R$)フレームワーク内のLMを評価する。 Belief-Rは、LMによる事前の結論を必要とするシナリオをシミュレートするために設計された前提のシーケンスを特徴としている。我々は,様々な促進戦略における$\sim$30 LMを評価し,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。さらに、更新に適したモデルは、必要な更新なしにシナリオで過小評価されることが多く、重要なトレードオフが強調される。これらの洞察は、より信頼性の高いAIシステムへのステップである情報の変更に対するLMの適応性を改善することの重要性を強調している。

関連論文リスト

OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data [42.23843583401247]
実世界の設定では、不完全な情報や不確実性の下での理由を言語モデルで補う必要がある。 OpenEstimateは、数値推定のLMを評価するためのベンチマークである。 LM-elicited priors は不正確で過度に信頼されることが多い。
論文参考訳（メタデータ） (2025-10-16T19:35:22Z)
Investigating LLM Variability in Personalized Conversational Information Retrieval [14.220276130333849]
Moらは、個人用テキスト知識ベース(PTKB)を大規模言語モデル(LLM)に組み込むためのいくつかの戦略を探求した。提案手法を新しいTREC iKAT 2024データセットに適用し,Llama (1B-70B), Qwen-7B, GPT-4o-miniを含む多種多様なモデルの評価を行った。その結果,人間の選択したPTKBは連続的に検索性能を向上する一方,LLMに基づく選択法は手作業による選択を確実に上回るものではないことがわかった。
論文参考訳（メタデータ） (2025-10-04T12:13:19Z)
In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning [10.138497038893096]
LLMの以前の応答を直接編集する新しいインタラクションパラダイムであるin-place feedbackを導入する。推論集約型ベンチマークの実証評価により、インプレースフィードバックは従来のマルチターンフィードバックよりも優れたパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2025-10-01T11:16:04Z)
What-If Analysis of Large Language Models: Explore the Game World Using Proactive Thinking [50.72154186522052]
大規模言語モデル(LLM)は情報処理をリアクティブに行う能力に優れるが、仮説的未来を体系的に探索する能力に欠ける。提案するWiA-LLMは,LLMにプロアクティブな思考能力を持たせる新しいパラダイムである。複雑なマルチプレイヤーゲーム環境であるHonor of KingsにおけるWiA-LLMを検証する。
論文参考訳（メタデータ） (2025-09-05T04:05:27Z)
Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [1.0138329337410974]
大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文参考訳（メタデータ） (2025-08-05T19:20:05Z)
Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
R-TOFU: Unlearning in Large Reasoning Models [5.116399056871577]
この設定に合わせた最初のベンチマークであるReasoning-TOFUを紹介します。 R-TOFUは、既存の未学習タスクを現実的なCoTアノテーションで強化する。本稿では,コヒーレントで不確定な推論を保持する優先最適化変種であるReasoned IDKを提案する。
論文参考訳（メタデータ） (2025-05-21T07:44:30Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文参考訳（メタデータ） (2024-03-05T18:22:33Z)
Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。 1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文参考訳（メタデータ） (2024-02-16T06:29:16Z)
FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文参考訳（メタデータ） (2023-10-01T17:37:31Z)
Information Association for Language Model Updating by Mitigating LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文参考訳（メタデータ） (2023-05-29T19:48:37Z)
Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文参考訳（メタデータ） (2023-05-02T17:59:46Z)
AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文参考訳（メタデータ） (2021-09-24T03:49:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。