Fugu-MT 論文翻訳(概要): Skin-in-the-Game: Decision Making via Multi-Stakeholder Alignment in LLMs

論文の概要: Skin-in-the-Game: Decision Making via Multi-Stakeholder Alignment in LLMs

arxiv url: http://arxiv.org/abs/2405.12933v1
Date: Tue, 21 May 2024 17:04:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 12:40:41.950043
Title: Skin-in-the-Game: Decision Making via Multi-Stakeholder Alignment in LLMs
Title（参考訳）: Skin-in-the-Game: LLMにおけるマルチステークホルダアライメントによる意思決定
Authors: Bilgehan Sel, Priya Shanmugasundaram, Mohammad Kachuee, Kun Zhou, Ruoxi Jia, Ming Jin,
Abstract要約: 本稿では,Large Language Models(LLMs)における道徳的推論の強化を目的としたSKIGフレームワークを紹介する。 SKIGのメカニズムは、共感のエクササイズやリスクアセスメントと並んで、行動の説明責任をシミュレートすることであり、その効果に欠かせないものである。
参考スコア（独自算出の注目度）: 39.826514225253355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown remarkable capabilities in tasks such as summarization, arithmetic reasoning, and question answering. However, they encounter significant challenges in the domain of moral reasoning and ethical decision-making, especially in complex scenarios with multiple stakeholders. This paper introduces the Skin-in-the-Game (SKIG) framework, aimed at enhancing moral reasoning in LLMs by exploring decisions' consequences from multiple stakeholder perspectives. Central to SKIG's mechanism is simulating accountability for actions, which, alongside empathy exercises and risk assessment, is pivotal to its effectiveness. We validate SKIG's performance across various moral reasoning benchmarks with proprietary and opensource LLMs, and investigate its crucial components through extensive ablation analyses.
Abstract（参考訳）: 大規模言語モデル(LLM)は、要約、算術的推論、質問応答といったタスクにおいて顕著な能力を示している。しかし、道徳的推論と倫理的意思決定の領域において、特に複数の利害関係者との複雑なシナリオにおいて、大きな課題に直面している。本稿では,複数の利害関係者の視点から意思決定の結果を探索することにより,LLMにおける道徳的推論を強化することを目的としたSkin-in-the-Game(SKIG)フレームワークを紹介する。 SKIGのメカニズムの中心は、共感のエクササイズやリスクアセスメントとともに、行動の説明責任をシミュレートすることである。我々は,SKIGの性能を,プロプライエタリかつオープンソース LLM を用いた様々な道徳的推論ベンチマークで検証し,その重要なコンポーネントを広範囲なアブレーション分析により検討する。

関連論文リスト

Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。 CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。 CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-11-24T02:02:29Z)
How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文参考訳（メタデータ） (2025-09-18T17:56:30Z)
The Ethical Compass of the Machine: Evaluating Large Language Models for Decision Support in Construction Project Management [0.38196178521289315]
本研究では,大規模言語モデル(LLM)の倫理的生存性と信頼性を批判的に評価することを目的とする。建設領域内でのLLMの倫理的推論を実証的に検証した最初の研究の1つである。
論文参考訳（メタデータ） (2025-09-02T13:50:36Z)
LLM-based HSE Compliance Assessment: Benchmark, Performance, and Advancements [26.88382777632026]
HSE-Benchは、大規模言語モデルのHSEコンプライアンス評価能力を評価するために設計された最初のベンチマークデータセットである。規則、裁判、安全試験、フィールドワークビデオから引き出された1000以上の手作業による質問で構成されている。我々は,基礎モデル,推論モデル,マルチモーダル視覚モデルなど,異なるプロンプト戦略と10以上のLLMの評価を行う。
論文参考訳（メタデータ） (2025-05-29T01:02:53Z)
The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas [20.792208554628367]
我々は多段階モラルジレンマデータセットを導入し,3,302個の5段階ジレンマのLLMの進化的道徳的判断を評価する。このフレームワークは、LLMがジレンマをエスカレートする際の道徳的推論をどのように調整するかを、きめ細やかな動的解析を可能にする。我々の研究は、動的で文脈に配慮した評価パラダイムへのシフトを呼びかけ、LLMのより人間らしく価値に敏感な開発への道を開いた。
論文参考訳（メタデータ） (2025-05-23T17:59:50Z)
On the Eligibility of LLMs for Counterfactual Reasoning: A Decompositional Study [15.617243755155686]
対物推論は、大規模言語モデルの推論能力を一般化するための重要な手法として現れてきた。本稿では, 因果関係の構築から, 逆因果関係の介入に対する推論まで, 逆因果関係の生成を分解する分解戦略を提案する。
論文参考訳（メタデータ） (2025-05-17T04:59:32Z)
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文参考訳（メタデータ） (2025-03-23T08:18:51Z)
Do as We Do, Not as You Think: the Conformity of Large Language Models [46.23852835759767]
本稿では,大規模言語モデル(LLM)による協調型AIシステムにおける適合性について述べる。適合性の存在、適合性に影響を与える要因、潜在的な緩和戦略の3つの側面に焦点を当てる。本分析では, 相互作用時間や過半数サイズなど, 適合性に影響を与える要因を解明し, 対象エージェントが適合行動をどのように合理化するかを検討する。
論文参考訳（メタデータ） (2025-01-23T04:50:03Z)
DeFine: Enhancing LLM Decision-Making with Factor Profiles and Analogical Reasoning [35.9909472797192]
複雑なシナリオから確率的因子プロファイルを構築する新しいフレームワークであるDeFineを紹介する。 DeFineは、これらのプロファイルを類似の推論と統合し、同様の過去の経験からの洞察を活用する。このアプローチは医療相談、交渉、政治討論などの分野で特に有用である。
論文参考訳（メタデータ） (2024-10-02T17:29:34Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文参考訳（メタデータ） (2024-06-10T02:14:19Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Comparing Rationality Between Large Language Models and Humans: Insights and Open Questions [6.201550639431176]
本稿では,大規模言語モデル(LLM)の急成長に焦点をあてる。我々は,LLMの合理性と意思決定能力の増強において,人間フィードバックからの強化学習(RLHF)が果たす重要な役割を強調した。
論文参考訳（メタデータ） (2024-03-14T18:36:04Z)
On the Decision-Making Abilities in Role-Playing using Large Language Models [6.550638804145713]
大型言語モデル(LLM)はロールプレイングタスクにますます活用されている。本稿では,LLMのポストロールプレイングにおける意思決定能力の評価に焦点をあてる。
論文参考訳（メタデータ） (2024-02-29T02:22:23Z)
Determinants of LLM-assisted Decision-Making [0.0]
大規模言語モデル(LLM)は、人間の意思決定プロセスを強化するための多面的サポートを提供する。本研究は,LCM支援による意思決定に影響を及ぼす決定因子の構造的概要と詳細な分析を提供する。我々の発見は、人間とAIのコラボレーションにおける意思決定の質向上に不可欠であると見なすことができる。
論文参考訳（メタデータ） (2024-02-27T10:24:50Z)
A Principled Framework for Knowledge-enhanced Large Language Model [58.1536118111993]
大規模言語モデル(LLM)は汎用性があるが、深い信頼性のある推論を必要とするタスクに悩まされることが多い。本稿では、知識を効果的に固定し、閉ループ推論プロセスを用いるLLMを作成するための厳密な設計のフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-18T18:10:02Z)
Rational Decision-Making Agent with Internalized Utility Judgment [91.80700126895927]
大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。 ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
論文参考訳（メタデータ） (2023-08-24T03:11:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。