論文の概要: Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.19621v1
- Date: Mon, 26 May 2025 07:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.249676
- Title: Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
- Title(参考訳): 再考! テスト時間計算が大規模言語モデルの嗜好, 意見, 信念に及ぼす影響
- Authors: George Kour, Itay Nakash, Ateret Anaby-Tavor, Michal Shmueli-Scheuer,
- Abstract要約: 大規模言語モデル(LLM)は、ますます人間の生活に統合され、意思決定に影響を及ぼしている。
主観的嗜好、意見、信念をどの程度、どの程度提示するかを評価することが不可欠である。
本稿では、社会的、文化的、倫理的、個人的領域にまたがるLLMの主観的傾向を評価するために、POB(Preference, Opinion, and Belief Survey)を提案する。
- 参考スコア(独自算出の注目度): 6.9347404883379316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become deeply integrated into human life and increasingly influence decision-making, it's crucial to evaluate whether and to what extent they exhibit subjective preferences, opinions, and beliefs. These tendencies may stem from biases within the models, which may shape their behavior, influence the advice and recommendations they offer to users, and potentially reinforce certain viewpoints. This paper presents the Preference, Opinion, and Belief survey (POBs), a benchmark developed to assess LLMs' subjective inclinations across societal, cultural, ethical, and personal domains. We applied our benchmark to evaluate leading open- and closed-source LLMs, measuring desired properties such as reliability, neutrality, and consistency. In addition, we investigated the effect of increasing the test-time compute, through reasoning and self-reflection mechanisms, on those metrics. While effective in other tasks, our results show that these mechanisms offer only limited gains in our domain. Furthermore, we reveal that newer model versions are becoming less consistent and more biased toward specific viewpoints, highlighting a blind spot and a concerning trend. POBS: https://ibm.github.io/POBS
- Abstract(参考訳): 大規模言語モデル(LLM)が人間の生活に深く統合され、意思決定に影響を及ぼすようになるにつれ、主観的嗜好、意見、信念がどの程度あるかを評価することが不可欠である。
これらの傾向は、モデル内のバイアスに起因し、その振る舞いを形作り、ユーザに提供したアドバイスやレコメンデーションに影響を与え、特定の視点を強化する可能性がある。
本稿では、社会的、文化的、倫理的、個人的領域にまたがるLLMの主観的傾向を評価するために開発されたベンチマークである、Preference, Opinion, and Belief Survey(POBs)を提案する。
提案するベンチマークは,信頼性,中立性,一貫性などの望ましい特性を計測し,オープンソースおよびクローズドソース LLM の評価に応用した。
さらに,これらの測定値に対して,推論や自己回帰機構を通じて,テスト時間計算を増大させる効果について検討した。
他のタスクでは有効であるが、これらのメカニズムはドメイン内の限られた利得しか提供しないことを示す。
さらに、新しいモデルバージョンは、より一貫性が低くなり、特定の視点に偏りが強くなり、盲点と関連する傾向が浮き彫りになっています。
POBS: https://ibm.github.io/POBS
関連論文リスト
- Towards Characterizing Subjectivity of Individuals through Modeling Value Conflicts and Trade-offs [22.588557390720236]
我々は,ソーシャルメディア上での個人の主観性を特徴付け,その道徳的判断を大規模言語モデルを用いて推測する。
本研究では,個人の主観的根拠をよりよく表現するために,ユーザ生成テキストにおける価値相反やトレードオフを観察するフレームワークであるSOLARを提案する。
論文 参考訳(メタデータ) (2025-04-17T04:20:05Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - When Prompting Fails to Sway: Inertia in Moral and Value Judgments of Large Language Models [4.906478894661688]
大規模言語モデル (LLMs) は非決定論的行動を示し、その出力を所望の方向に向けて操る主要な方法としてプロンプトが登場した。
一般的な戦略の一つは、人間の視点で見られる多様性に似た、より多様で文脈に敏感な反応を誘発するために、特定の「ペルソナ」をモデルに割り当てることである。
我々の実験は、LLMが一貫した値配向を維持することを示した。
特に,特定の道徳的・価値的次元,特に回避と公正さが,さまざまなペルソナ設定にもかかわらず,一方向に明確に歪められたままである,持続的慣性を観察する。
論文 参考訳(メタデータ) (2024-08-16T23:24:10Z) - More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness [24.843692458375436]
本研究では,5つの信頼性分野において,汎用的嗜好データに整合したモデルがどのように機能するかを検討する。
ヒトの嗜好に対するRLHFは、自動的に信頼性を保証せず、しばしば逆効果が観察される。
本稿では,RLHF設定に効率的な影響関数に基づくデータ帰属手法を適用し,個々の信頼性ベンチマークに対する微調整データの影響をよりよく理解するために提案する。
論文 参考訳(メタデータ) (2024-04-29T17:00:53Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。