論文の概要: STEER: Assessing the Economic Rationality of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.09552v2
- Date: Tue, 28 May 2024 16:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 01:28:38.404747
- Title: STEER: Assessing the Economic Rationality of Large Language Models
- Title(参考訳): STEER:大規模言語モデルの経済連帯性を評価する
- Authors: Narun Raman, Taylor Lundy, Samuel Amouyal, Yoav Levine, Kevin Leyton-Brown, Moshe Tennenholtz,
- Abstract要約: LLMを意思決定「エージェント」として使うことへの関心が高まっている
LLMエージェントが信頼できるかどうかを決定するには、そのようなエージェントの経済的合理性を評価するための方法論が必要である。
- 参考スコア(独自算出の注目度): 21.91812661475551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is increasing interest in using LLMs as decision-making "agents." Doing so includes many degrees of freedom: which model should be used; how should it be prompted; should it be asked to introspect, conduct chain-of-thought reasoning, etc? Settling these questions -- and more broadly, determining whether an LLM agent is reliable enough to be trusted -- requires a methodology for assessing such an agent's economic rationality. In this paper, we provide one. We begin by surveying the economic literature on rational decision making, taxonomizing a large set of fine-grained "elements" that an agent should exhibit, along with dependencies between them. We then propose a benchmark distribution that quantitatively scores an LLMs performance on these elements and, combined with a user-provided rubric, produces a "STEER report card." Finally, we describe the results of a large-scale empirical experiment with 14 different LLMs, characterizing the both current state of the art and the impact of different model sizes on models' ability to exhibit rational behavior.
- Abstract(参考訳): LLMを意思決定の「エージェント」として使うことへの関心が高まっている。
どのモデルを使うべきか、どのように促すべきか、イントロスペクションやチェーン・オブ・シークレットの推論など、多くの自由度が含まれています。
より広義には、LLMエージェントが信頼できるかどうかを判断するためには、そのようなエージェントの経済的合理性を評価するための方法論が必要である。
本稿では,提案する。
まず、合理的な意思決定に関する経済文献を調査し、エージェントが提示すべき「要素」の集合を分類し、それら間の依存関係を分類する。
次に、これらの要素に対してLLMの性能を定量的に評価し、ユーザが提供するルーリックと組み合わせて「STEERレポートカード」を生成するベンチマーク分布を提案する。
最後に,14種類のLLMを用いた大規模実験結果について述べる。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
帰属的有理は帰属的有理数よりも人称有理数とよく一致していることを示す。
さらに,従来の研究で特定されたプロンプトベース手法の忠実度制限は,その崩壊予測と関係があることが示唆された。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - On the Brittle Foundations of ReAct Prompting for Agentic Large Language Models [16.701242561345786]
LLM(Large Language Models)のパフォーマンスは、入力の例タスクとクエリの類似性によって駆動される。
本研究は, LLMの知覚的推論能力は, 従来の類似性と近似的検索に起因していることを示す。
論文 参考訳(メタデータ) (2024-05-22T20:05:49Z) - Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry [2.4244694855867275]
大規模言語モデル(LLM)は、大量のテキストデータから貴重な洞察を抽出するための強力なツールとして登場した。
本研究では,TripAdvisor 投稿から旅行客のニーズを抽出するための LLM の比較分析を行った。
特にMistral 7Bは,大規模クローズドモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-27T18:28:10Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。