論文の概要: Can Commercial LLMs Be Parliamentary Political Companions? Comparing LLM Reasoning Against Romanian Legislative Expuneri de Motive
- arxiv url: http://arxiv.org/abs/2603.30028v1
- Date: Tue, 31 Mar 2026 17:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.950419
- Title: Can Commercial LLMs Be Parliamentary Political Companions? Comparing LLM Reasoning Against Romanian Legislative Expuneri de Motive
- Title(参考訳): LLMは議会の政治的コンパニオンになり得るか? : ルーマニアの立法機関Expuneri de Motiveとの比較
- Authors: Iulian Lucău, Adelin-George Voicu,
- Abstract要約: 本稿では,商業的大規模言語モデル (LLM) が,そのアウトプットを公式な立法的推論と比較することにより,信頼性の高い政治諮問ツールとして機能するかどうかを評価する。
我々は、ルーマニア上院の15の法律提案と公式の解説覚書を合わせたデータセットを使用する。
全てのモデルはタスク依存の折り畳みを示し、標準化された立法のテンプレートでうまく機能するが、政治的に同調的な提案に対する妥当で根拠のない推論を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper evaluates whether commercial large language models (LLMs) can function as reliable political advisory tools by comparing their outputs against official legislative reasoning. Using a dataset of 15 Romanian Senate law proposals paired with their official explanatory memoranda (expuneri de motive), we test six LLMs spanning three provider families and multiple capability tiers: GPT-5-mini, GPT-5-chat (OpenAI), Claude Haiku 4.5 (Anthropic), and Llama 4 Maverick, Llama 3.3 70B, and Llama 3.1 8B (Meta). Each model generates predicted rationales evaluated through a dual framework combining LLM-as-Judge semantic scoring and programmatic text similarity metrics. We frame the LLM-politician relationship through principal-agent theory and bounded rationality, conceptualizing the legislator as a principal delegating advisory tasks to a boundedly rational agent under structural information asymmetry. Results reveal a sharp two-tier structure: frontier models (Claude Haiku 4.5, GPT-5-chat, GPT-5-mini) achieve statistically indistinguishable semantic closeness scores above 4.6 out of 5.0, while open-weight models cluster a full tier below (Cohen's d larger than 1.4). However, all models exhibit task-dependent confabulation, performing well on standardized legislative templates (e.g., EU directive transpositions) but generating plausible yet unfounded reasoning for politically idiosyncratic proposals. We introduce the concept of cascading bounded rationality to describe how failures compound across bounded principals, agents, and evaluators, and argue that the operative risk for legislators is not stable ideological bias but contextual ignorance shaped by training data coverage.
- Abstract(参考訳): 本稿では,商業的大規模言語モデル (LLM) が,そのアウトプットを公式な立法的推論と比較することにより,信頼性の高い政治諮問ツールとして機能するかどうかを評価する。
GPT-5-mini, GPT-5-chat (OpenAI), Claude Haiku 4.5 (Anthropic), Llama 4 Maverick, Llama 3.3 70B, Llama 3.1 8B (Meta) という,3つのプロバイダファミリーと複数の能力層にまたがる6つのLCMを, 公式な説明的覚書(Expuneri de motivation)と組み合わせた15のルーマニア上院法案のデータセットを用いて検証した。
各モデルは、LLM-as-Judgeセマンティックスコアリングとプログラムテキスト類似度メトリクスを組み合わせた2つのフレームワークを用いて評価された予測的合理性を生成する。
我々は、主エージェント理論と有界有理性(bounded rationality)を通してLLM-politician関係を定式化し、構造情報非対称性の下で有界有理性エージェントに助言タスクを委譲する主要因として議会を概念化した。
その結果、フロンティアモデル(Claude Haiku 4.5, GPT-5-chat, GPT-5-mini)は5.0の4.6以上の統計的に区別できないセマンティック・クローズネススコアを得る一方、オープンウェイトモデル(Cohen's d larger 1.4)はフルティアをクラスタリングする。
しかしながら、すべてのモデルはタスク依存の妥協を示し、標準化された立法のテンプレート(例えば、EU指令の転置)でうまく機能するが、政治的に同調的な提案の根拠のない妥当な推論を生成する。
筆者らは, 障害が主犯, エージェント, 評価者間でどのように複雑になるかを説明するために, カスケード有理性の概念を導入し, 議員の手術的リスクはイデオロギー的バイアスではなく, トレーニングデータカバレッジによって形成される文脈的無知であると主張している。
関連論文リスト
- CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models [0.28258700614488924]
実用的な推論は、大きな言語モデルでは依然として困難である。
我々は、LLMが現実的な複雑な発話をいかに曖昧にするかを評価するために、300の人間検証シナリオをCEIベンチマークで提示する。
データセットは、職場、家族、社会、サービス設定から引き出された5つの実用的サブタイプ(皮肉/匿名、混成信号、戦略的丁寧さ、受動的攻撃、偏向/ミスディレクション)をカバーしている。
論文 参考訳(メタデータ) (2026-02-14T08:31:19Z) - Understanding LLM Evaluator Behavior: A Structured Multi-Evaluator Framework for Merchant Risk Assessment [26.786161923794115]
大規模言語モデル(LLM)は、推論品質の評価手段としてますます使われていますが、その信頼性と支払いリスク設定の偏りはよく分かっていません。
本稿では,Merchant Category Code(MCC)に基づく商業リスク評価において,LCM推論を評価するための構造化マルチ評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T22:55:16Z) - Towards Trustworthy Legal AI through LLM Agents and Formal Reasoning [11.842866992683158]
既存のLLMベースのシステムは、表面レベルのテキスト解析に優れるが、原理的合理性に必要な保証は欠如している。
本稿では,LSM エージェントと SMT ソルバ支援法則を組み合わせた新しいフレームワーク L4M を紹介する。
我々のシステムは、GPT-o4-mini、DeepSeek-V3、Claude 4、最先端の法務AI証明など、先進的なLCMを超えている。
論文 参考訳(メタデータ) (2025-11-26T04:05:06Z) - No-Human in the Loop: Agentic Evaluation at Scale for Recommendation [11.764010898952677]
大規模言語モデル(LLM)を判断として評価することは、スケーラブルで信頼性の高い評価パイプラインを構築する上でますます重要になっている。
我々は、GPT、Gemini、Claude、Llamaを含む36のLLMを体系的に比較する大規模なベンチマーク研究であるScalingEvalを紹介する。
当社のマルチエージェントフレームワークは、パターン監査を集約し、スケーラブルな多数決投票を通じて、地味なラベルにコードを発行します。
論文 参考訳(メタデータ) (2025-11-04T22:49:39Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - Positioning Political Texts with Large Language Models by Asking and Averaging [0.0]
政治文書のツイートや文がどこにあるのかを LLM に問う。
専門家、クラウドワーカー、ロールコール投票によるテキストコーディングに基づく最高のLCMとベンチマークで得られた位置推定値の相関は、90を超えている。
方針空間やイデオロギー空間におけるテキストの配置は、たとえテキストが短く、異なる言語で書かれたとしても、高速で、費用効率が高く、信頼性が高く、再現可能である(オープンなLLMの場合)。
論文 参考訳(メタデータ) (2023-11-28T09:45:02Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。