論文の概要: Rationality Report Cards: Assessing the Economic Rationality of Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.09552v1
- Date: Wed, 14 Feb 2024 20:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:07:22.853156
- Title: Rationality Report Cards: Assessing the Economic Rationality of Large
Language Models
- Title(参考訳): 合理性レポートカード:大規模言語モデルの経済合理性の評価
- Authors: Narun Raman, Taylor Lundy, Samuel Amouyal, Yoav Levine, Kevin
Leyton-Brown, Moshe Tennenholtz
- Abstract要約: LLMを意思決定「エージェント」として使うことへの関心が高まっている
LLMエージェントが信頼できるかどうかを決定するには、そのようなエージェントの経済的合理性を評価するための方法論が必要である。
- 参考スコア(独自算出の注目度): 23.224793734694078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is increasing interest in using LLMs as decision-making "agents." Doing
so includes many degrees of freedom: which model should be used; how should it
be prompted; should it be asked to introspect, conduct chain-of-thought
reasoning, etc? Settling these questions -- and more broadly, determining
whether an LLM agent is reliable enough to be trusted -- requires a methodology
for assessing such an agent's economic rationality. In this paper, we provide
one. We begin by surveying the economic literature on rational decision making,
taxonomizing a large set of fine-grained "elements" that an agent should
exhibit, along with dependencies between them. We then propose a benchmark
distribution that quantitatively scores an LLMs performance on these elements
and, combined with a user-provided rubric, produces a "rationality report
card." Finally, we describe the results of a large-scale empirical experiment
with 14 different LLMs, characterizing the both current state of the art and
the impact of different model sizes on models' ability to exhibit rational
behavior.
- Abstract(参考訳): LLMを意思決定の「エージェント」として使うことへの関心が高まっている。
どのモデルを使うべきか、どのように促すべきか、イントロスペクションやチェーン・オブ・シークレットの推論など、多くの自由度が含まれています。
より広義には、LLMエージェントが信頼できるかどうかを判断するためには、そのようなエージェントの経済的合理性を評価するための方法論が必要である。
本稿では,提案する。
まず、合理的な意思決定に関する経済文献を調査し、エージェントが提示すべき大きな粒度の「要素」とそれらの間の依存関係を分類する。
次に、これらの要素に対してLLMの性能を定量的に評価し、ユーザが提供するルーリックと組み合わせて「合理性レポートカード」を生成するベンチマーク分布を提案する。
最後に,14種類の異なるllmを用いた大規模実験の結果について述べる。
関連論文リスト
- Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - How Strategic Agents Respond: Comparing Analytical Models with LLM-Generated Responses in Strategic Classification [9.296248945826084]
我々は,大規模言語モデルによって生成された戦略的アドバイスを用いて,戦略分類における人間のエージェント応答をシミュレートする。
我々は、雇用、ローン申請、学校入学、個人所得、公的支援プログラムの5つの重要なSCシナリオについて検討する。
次に、得られたエージェント応答と、既存の理論モデルによって生成された最良の応答を比較する。
論文 参考訳(メタデータ) (2025-01-20T01:39:03Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。