Fugu-MT 論文翻訳(概要): A dataset of questions on decision-theoretic reasoning in Newcomb-like problems

論文の概要: A dataset of questions on decision-theoretic reasoning in Newcomb-like problems

arxiv url: http://arxiv.org/abs/2411.10588v3
Date: Sun, 15 Dec 2024 20:39:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.246948
Title: A dataset of questions on decision-theoretic reasoning in Newcomb-like problems
Title（参考訳）: Newcomb-like問題における決定論的推論に関する質問のデータセット
Authors: Caspar Oesterheld, Emery Cooper, Miles Kodama, Linh Chi Nguyen, Ethan Perez,
Abstract要約: いわゆるニューコム型問題の決定理論において,自然言語質問のデータセットを導入する。ニューコムのような問題に対する推論のいくつかの方法は、モデル間のより深い協調を可能にするかもしれない。
参考スコア（独自算出の注目度）: 10.826981264871655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a dataset of natural-language questions in the decision theory of so-called Newcomb-like problems. Newcomb-like problems include, for instance, decision problems in which an agent interacts with a similar other agent, and thus has to reason about the fact that the other agent will likely reason in similar ways. Evaluating LLM reasoning about Newcomb-like problems is important because interactions between foundation-model-based agents will often be Newcomb-like. Some ways of reasoning about Newcomb-like problems may allow for greater cooperation between models. Our dataset contains both capabilities questions (i.e., questions with a unique, uncontroversially correct answer) and attitude questions (i.e., questions about which decision theorists would disagree). We use our dataset for an investigation of decision-theoretical capabilities and expressed attitudes and their interplay in existing models (different models by OpenAI, Anthropic, Meta, GDM, Reka, etc.), as well as models under simple prompt-based interventions. We find, among other things, that attitudes vary significantly between existing models; that high capabilities are associated with attitudes more favorable toward so-called evidential decision theory; and that attitudes are consistent across different types of questions.
Abstract（参考訳）: いわゆるニューコム型問題の決定理論において,自然言語質問のデータセットを導入する。ニューコムのような問題には、例えば、エージェントが他のエージェントと相互作用する決定の問題が含まれており、それゆえ、他のエージェントが同様の方法で推論する可能性が高いという事実を推論する必要がある。基礎モデルに基づくエージェント間の相互作用は、しばしばNewcombのようなものになるため、Newcombのような問題に対するLCM推論を評価することが重要である。ニューコムのような問題に対する推論のいくつかの方法は、モデル間のより深い協調を可能にするかもしれない。私たちのデータセットには、機能に関する質問(すなわち、独特で議論の余地のない正解の質問)と態度に関する質問(すなわち、どの決定論者が反対するかという質問)の両方が含まれています。決定論的能力の調査にデータセットを使用し、既存のモデル(OpenAI、Huhropic、Meta、GDM、Rekaなどによる異なるモデル)での態度と相互作用を表現し、簡単なプロンプトベースの介入によるモデルも使用します。高い能力は、いわゆる顕在的決定論に対してより好意的な態度に結びついており、また、態度は、様々な種類の質問に対して一貫性がある。

関連論文リスト

DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文参考訳（メタデータ） (2024-12-12T18:52:40Z)
Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty? [12.638577140117702]
我々は、質問に答える際の弱点と見なされるような、生成的な大規模モデルの側面を活用する。本研究では、不確実性の2つの異なる指標と実際の学生の反応分布の相関について検討する。
論文参考訳（メタデータ） (2024-07-07T10:48:04Z)
Analyzing Human Questioning Behavior and Causal Curiosity through Natural Queries [91.70689724416698]
NatQuest(ナットクエスト)は、3つの異なるソースから自然発生の質問13,500件のコレクションである。分析の結果,データセット内には因果的疑問(最大42%)が有意な存在であることが判明した。
論文参考訳（メタデータ） (2024-05-30T17:55:28Z)
ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文参考訳（メタデータ） (2023-11-02T22:17:03Z)
A Conceptual Model for End-to-End Causal Discovery in Knowledge Tracing [8.049552839071918]
我々は,知識追跡における因果発見問題の解決に向けて,予備的な一歩を踏み出した。第3回NeurIPS 2022章「教育における学習経路の因果的洞察への挑戦」の項目の1つにその解決策が挙げられた。
論文参考訳（メタデータ） (2023-05-11T21:20:29Z)
Divide and Conquer: Answering Questions with Object Factorization and Compositional Reasoning [30.392986232906107]
本稿では,基本的対象分解法とニューラルモジュールネットワークからなる統合フレームワークを提案する。本手法は, 対象物の特徴に基づいて分解し, 幅広い対象物を表すプロトタイプを自動的に導出する。これらのプロトタイプにより、提案するネットワークは、共通意味空間上でオブジェクトの類似性を測定することによって、オブジェクトを関連付ける。トレーニング中の可利用性に関わらず、多様なオブジェクトで質問に答えることができ、偏りのある質問応答分布の問題を克服することができる。
論文参考訳（メタデータ） (2023-03-18T19:37:28Z)
Modeling Transformative AI Risks (MTAIR) Project -- Summary Report [0.0]
このレポートは、Cottier氏とShah氏による以前の図に基づいており、いくつかの説明とともに、視覚的に重要な不一致(クラックス)をいくつか説明した。このモデルは、アナロジーと人工知能に関する一般的な以前の信念による推論に関する議論から始まる。さまざまなパスのモデルをレイアウトし、ハイレベルなマシンインテリジェンスのためのテクノロジーと、これらのシステムの能力の進歩のモデルを構築している。このモデルは、学習した最適化の問題や、機械学習システムがメザ最適化を作成するかどうかについても特に注目している。
論文参考訳（メタデータ） (2022-06-19T09:11:23Z)
MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文参考訳（メタデータ） (2021-12-03T14:05:52Z)
Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。 2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文参考訳（メタデータ） (2021-04-18T06:17:54Z)
Causal World Models by Unsupervised Deconfounding of Physical Dynamics [20.447000858907646]
世界の精神モデルで内部を想像する能力は、人間の認知にとって極めて重要である。本稿では,相互関係の教師なしモデリングを可能にするCausal World Models(CWMs)を提案する。強化学習タスクの複雑性サンプルの削減と、反実物的推論の改善を示します。
論文参考訳（メタデータ） (2020-12-28T13:44:36Z)
Match$^2$: A Matching over Matching Model for Similar Question Identification [74.7142127303489]
コミュニティ質問回答(Community Question Answering, CQA)は,質問や回答の提出を自由に行う,知識獲得のための主要な手段となっている。類似した質問識別は、CQAの中核的なタスクとなり、新しい質問が尋ねられるたびに、アーカイブされたリポジトリから同様の質問を見つけることを目的としている。自然言語の固有のバリエーション、すなわち、同じ質問をしたり、同じ表現を共有する異なる質問をする方法があるため、この2つの質問の類似性を適切に測定することは、長い間困難であった。従来の手法では片側の使用が一般的であり、答えを拡張された表現として活用する。
論文参考訳（メタデータ） (2020-06-21T05:59:34Z)
SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文参考訳（メタデータ） (2020-01-20T01:02:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。