論文の概要: Can Language Representation Models Think in Bets?
- arxiv url: http://arxiv.org/abs/2210.07519v1
- Date: Fri, 14 Oct 2022 05:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 14:55:34.219532
- Title: Can Language Representation Models Think in Bets?
- Title(参考訳): 言語表現モデルはベットで考えることができるか?
- Authors: Zhisheng Tang, Mayank Kejriwal
- Abstract要約: 変換器に基づく言語表現モデル(LRM)は、難解な自然言語理解問題に対して最先端の結果を得た。
本稿では、慎重に設計された意思決定ベンチマークと実験を通して、LEMの合理的意思決定能力について考察する。
- 参考スコア(独自算出の注目度): 8.185725740857594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, transformer-based language representation models (LRMs) have
achieved state-of-the-art results on difficult natural language understanding
problems, such as question answering and text summarization. As these models
are integrated into real-world applications, evaluating their ability to make
rational decisions is an important research agenda, with practical
ramifications. This article investigates LRMs' rational decision-making ability
through a carefully designed set of decision-making benchmarks and experiments.
Inspired by classic work in cognitive science, we model the decision-making
problem as a bet. We then investigate an LRM's ability to choose outcomes that
have optimal, or at minimum, positive expected gain. Through a robust body of
experiments on four established LRMs, we show that a model is only able to
`think in bets' if it is first fine-tuned on bet questions with an identical
structure. Modifying the bet question's structure, while still retaining its
fundamental characteristics, decreases an LRM's performance by more than 25\%,
on average, although absolute performance remains well above random. LRMs are
also found to be more rational when selecting outcomes with non-negative
expected gain, rather than optimal or strictly positive expected gain. Our
results suggest that LRMs could potentially be applied to tasks that rely on
cognitive decision-making skills, but that more research is necessary before
they can robustly make rational decisions.
- Abstract(参考訳): 近年,トランスフォーマーに基づく言語表現モデル (LRM) は,質問応答やテキスト要約などの難解な自然言語理解問題に対して,最先端の成果を上げている。
これらのモデルが現実世界のアプリケーションに統合されているため、合理的な意思決定を行う能力を評価することは重要な研究課題である。
本稿では,設計した意思決定ベンチマークと実験を通して,lrmsの合理的意思決定能力について検討する。
認知科学における古典的な研究に触発され、我々は意思決定問題を賭けとしてモデル化する。
次に、最適、または少なくとも肯定的な利得を持つ結果を選択するLRMの能力を調査する。
4つの確立されたLEMの頑健な実験体を通して、モデルが最初に同じ構造を持つベット問題に基づいて微調整された場合にのみ「賭けを考える」ことができることを示す。
ベット問題の構造を変更することは、基本的特性を維持しつつも、平均して LRM のパフォーマンスを 25 % 以上減少させるが、絶対的な性能は無作為に残る。
LRMは、最適または厳密な正の利得よりも、非負の利得で結果を選択する際にもより合理的である。
以上の結果から,LRMは認知的意思決定スキルに依存するタスクに適用できる可能性が示唆された。
関連論文リスト
- Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown [20.753374166695494]
本稿では,未確認RM(URM)と未確認RMアンサンブル(URME)を提案し,報酬モデルに不確実性を取り込んで管理する。
URMEはアンサンブルにおける不一致を通じて不確実性を定量化する一方、URMは人間の好みの中で不整合属性の分布をモデル化することができる。
実験結果から,提案したURMは,同じ大きさのモデルと比較して最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-10-01T16:29:59Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Make Your Decision Convincing! A Unified Two-Stage Framework:
Self-Attribution and Decision-Making [24.906886146275127]
自己貢献・意思決定(SADM)として知られる統合された2段階の枠組みを提案する。
我々のフレームワークは、生成した合理性とモデル決定とのより信頼性の高いリンクを確立するだけでなく、タスク性能と合理性の品質の競争結果も達成している。
論文 参考訳(メタデータ) (2023-10-20T15:59:57Z) - Rational Decision-Making Agent with Internalized Utility Judgment [91.80700126895927]
大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。
本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。
ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-08-24T03:11:45Z) - Learning Optimal Features via Partial Invariance [18.552839725370383]
不変リスク最小化(IRM)は、複数の環境から堅牢なモデルを学ぶことを目的とした一般的なフレームワークである。
IRMが予測器を過度に抑制できることを示し、これを補うために、$textitpartial invariance$を介して緩和を提案する。
線形設定と、言語と画像データの両方のタスクにおけるディープニューラルネットワークの両方で実施されたいくつかの実験により、結論の検証が可能になった。
論文 参考訳(メタデータ) (2023-01-28T02:48:14Z) - Invariant Rationalization [84.1861516092232]
典型的な合理化基準、すなわち最大相互情報(MMI)は、合理性のみに基づいて予測性能を最大化する合理性を見つける。
ゲーム理論の不変な有理化基準を導入し、各環境において同じ予測器を最適にするために、有理を制約する。
理論的にも実証的にも、提案された理性は、素早い相関を除外し、異なるテストシナリオをより一般化し、人間の判断とよく一致させることができることを示す。
論文 参考訳(メタデータ) (2020-03-22T00:50:27Z) - Causal Strategic Linear Regression [5.672132510411465]
信用スコアや学術試験のような多くの予測的な意思決定シナリオでは、意思決定者は、決定ルールを「ゲーム」するためにエージェントの正当性を説明するモデルを構築しなければならない。
私たちは、変更可能な属性の関数として、モデリングエージェントの結果の同時処理に参加します。
3つの異なる意思決定目標を最適化する意思決定ルールを学習するための効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-02-24T03:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。