Fugu-MT 論文翻訳(概要): Rationality Report Cards: Assessing the Economic Rationality of Large Language Models

論文の概要: Rationality Report Cards: Assessing the Economic Rationality of Large Language Models

arxiv url: http://arxiv.org/abs/2402.09552v1
Date: Wed, 14 Feb 2024 20:05:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 18:07:22.853156
Title: Rationality Report Cards: Assessing the Economic Rationality of Large Language Models
Title（参考訳）: 合理性レポートカード:大規模言語モデルの経済合理性の評価
Authors: Narun Raman, Taylor Lundy, Samuel Amouyal, Yoav Levine, Kevin Leyton-Brown, Moshe Tennenholtz
Abstract要約: LLMを意思決定「エージェント」として使うことへの関心が高まっている LLMエージェントが信頼できるかどうかを決定するには、そのようなエージェントの経済的合理性を評価するための方法論が必要である。
参考スコア（独自算出の注目度）: 23.224793734694078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is increasing interest in using LLMs as decision-making "agents." Doing so includes many degrees of freedom: which model should be used; how should it be prompted; should it be asked to introspect, conduct chain-of-thought reasoning, etc? Settling these questions -- and more broadly, determining whether an LLM agent is reliable enough to be trusted -- requires a methodology for assessing such an agent's economic rationality. In this paper, we provide one. We begin by surveying the economic literature on rational decision making, taxonomizing a large set of fine-grained "elements" that an agent should exhibit, along with dependencies between them. We then propose a benchmark distribution that quantitatively scores an LLMs performance on these elements and, combined with a user-provided rubric, produces a "rationality report card." Finally, we describe the results of a large-scale empirical experiment with 14 different LLMs, characterizing the both current state of the art and the impact of different model sizes on models' ability to exhibit rational behavior.
Abstract（参考訳）: LLMを意思決定の「エージェント」として使うことへの関心が高まっている。どのモデルを使うべきか、どのように促すべきか、イントロスペクションやチェーン・オブ・シークレットの推論など、多くの自由度が含まれています。より広義には、LLMエージェントが信頼できるかどうかを判断するためには、そのようなエージェントの経済的合理性を評価するための方法論が必要である。本稿では,提案する。まず、合理的な意思決定に関する経済文献を調査し、エージェントが提示すべき大きな粒度の「要素」とそれらの間の依存関係を分類する。次に、これらの要素に対してLLMの性能を定量的に評価し、ユーザが提供するルーリックと組み合わせて「合理性レポートカード」を生成するベンチマーク分布を提案する。最後に,14種類の異なるllmを用いた大規模実験の結果について述べる。

関連論文リスト

PapersPlease: A Benchmark for Evaluating Motivational Values of Large Language Models Based on ERG Theory [24.290880164707122]
大規模言語モデルの意思決定を調査するために設計された,3700のモラルジレンマからなるベンチマークであるPapersPleaseを紹介する。この設定では,LPMは,人々の短い物語に基づいて入国を承認するか拒否するかを決定する移民検査官として機能する。 6つのLCMを統計的に分析した結果,LSMが暗黙の嗜好を符号化していることが示唆された。
論文参考訳（メタデータ） (2025-06-27T07:09:11Z)
Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences? [5.542420010310746]
批判的だが、未調査の問題は、LLMが明記した嗜好と明らかにした嗜好との潜在的な相違である。この研究は正式に定義され、この選好偏差を測定する方法を提案する。我々の研究は、LDMをサービス、特に人間と直接対話するサービスに統合するために不可欠です。
論文参考訳（メタデータ） (2025-05-31T23:38:48Z)
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文参考訳（メタデータ） (2025-04-22T17:57:14Z)
Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文参考訳（メタデータ） (2025-02-01T04:24:47Z)
How Strategic Agents Respond: Comparing Analytical Models with LLM-Generated Responses in Strategic Classification [9.296248945826084]
我々は,大規模言語モデルによって生成された戦略的アドバイスを用いて,戦略分類における人間のエージェント応答をシミュレートする。我々は、雇用、ローン申請、学校入学、個人所得、公的支援プログラムの5つの重要なSCシナリオについて検討する。次に、得られたエージェント応答と、既存の理論モデルによって生成された最良の応答を比較する。
論文参考訳（メタデータ） (2025-01-20T01:39:03Z)
GLEE: A Unified Framework and Benchmark for Language-based Economic Environments [19.366120861935105]
大規模言語モデル(LLM)は、経済的および戦略的相互作用において大きな可能性を示す。これらの疑問は、LLMベースのエージェントを実世界のデータ駆動システムに統合することの経済的および社会的意味について重要なものとなっている。本稿では,2プレイヤー,シーケンシャル,言語ベースのゲームの研究を標準化するためのベンチマークを紹介する。
論文参考訳（メタデータ） (2024-10-07T17:55:35Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文参考訳（メタデータ） (2024-06-25T06:19:47Z)
Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry [2.4244694855867275]
大規模言語モデル(LLM)は、大量のテキストデータから貴重な洞察を抽出するための強力なツールとして登場した。本研究では,TripAdvisor 投稿から旅行客のニーズを抽出するための LLM の比較分析を行った。特にMistral 7Bは,大規模クローズドモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-04-27T18:28:10Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-29T22:49:43Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。