論文の概要: Are LLMs complicated ethical dilemma analyzers?
- arxiv url: http://arxiv.org/abs/2505.08106v1
- Date: Mon, 12 May 2025 22:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.354901
- Title: Are LLMs complicated ethical dilemma analyzers?
- Title(参考訳): LLMは複雑な倫理ジレンマ分析器か?
- Authors: Jiashen, Du, Jesse Yao, Allen Liu, Zhekai Zhang,
- Abstract要約: 実世界の倫理的ジレンマと専門家の意見からなるベンチマークデータセットを導入する。
BLEU, Damerau-Levenshtein 距離, TF-IDF 類似度, Universal Sentence 類似度に基づく複合計量フレームワークを用いて, マルチフロンティア大言語モデル (LLM) の評価を行った。
GPT-4o-miniは全区間でほぼ一貫した性能を示し,LLMは語彙的,構造的アライメントにおいて非熟練人間よりも優れていた。
- 参考スコア(独自算出の注目度): 6.8995057589960895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One open question in the study of Large Language Models (LLMs) is whether they can emulate human ethical reasoning and act as believable proxies for human judgment. To investigate this, we introduce a benchmark dataset comprising 196 real-world ethical dilemmas and expert opinions, each segmented into five structured components: Introduction, Key Factors, Historical Theoretical Perspectives, Resolution Strategies, and Key Takeaways. We also collect non-expert human responses for comparison, limited to the Key Factors section due to their brevity. We evaluate multiple frontier LLMs (GPT-4o-mini, Claude-3.5-Sonnet, Deepseek-V3, Gemini-1.5-Flash) using a composite metric framework based on BLEU, Damerau-Levenshtein distance, TF-IDF cosine similarity, and Universal Sentence Encoder similarity. Metric weights are computed through an inversion-based ranking alignment and pairwise AHP analysis, enabling fine-grained comparison of model outputs to expert responses. Our results show that LLMs generally outperform non-expert humans in lexical and structural alignment, with GPT-4o-mini performing most consistently across all sections. However, all models struggle with historical grounding and proposing nuanced resolution strategies, which require contextual abstraction. Human responses, while less structured, occasionally achieve comparable semantic similarity, suggesting intuitive moral reasoning. These findings highlight both the strengths and current limitations of LLMs in ethical decision-making.
- Abstract(参考訳): LLM(Large Language Models)の研究における1つのオープンな疑問は、人間の倫理的推論をエミュレートし、人間の判断の可能なプロキシとして振舞うことができるかどうかである。
そこで本研究では,196の現実の倫理的ジレンマと専門家の意見からなるベンチマークデータセットを,導入,鍵要因,歴史的理論的視点,解決戦略,キーテイクウェイの5つの構成要素に区分した。
また,その簡潔さから,キーファクタのセクションに限定して,非専門家の回答を比較対象として収集した。
GPT-4o-mini, Claude-3.5-Sonnet, Deepseek-V3, Gemini-1.5-Flash) をBLEU, Damerau-Levenshtein距離, TF-IDFコサイン類似性, Universal Sentence Encoder類似性に基づく複合計量フレームワークを用いて評価した。
メトリックウェイトは、インバージョンベースのランキングアライメントとペアワイズ AHP 分析によって計算され、モデル出力とエキスパート応答のきめ細かい比較を可能にする。
GPT-4o-miniは全区間でほぼ一貫した性能を示し,LLMは語彙的,構造的アライメントにおいて非熟練人間よりも優れていた。
しかしながら、すべてのモデルは、文脈的抽象化を必要とする、歴史的根拠付けとニュアンス化された解決戦略に苦慮している。
人間の反応は構造化されていないが、時には同等の意味的類似性を達成し、直感的な道徳的推論を示唆する。
これらの結果は、倫理的意思決定におけるLLMの強みと現在の限界の両方を浮き彫りにした。
関連論文リスト
- Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-24T23:02:56Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。