Fugu-MT 論文翻訳(概要): Auditing Support Strategies in LLMs through Grounded Multi-Turn Social Simulation

論文の概要: Auditing Support Strategies in LLMs through Grounded Multi-Turn Social Simulation

arxiv url: http://arxiv.org/abs/2604.17079v1
Date: Sat, 18 Apr 2026 17:36:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.323039
Title: Auditing Support Strategies in LLMs through Grounded Multi-Turn Social Simulation
Title（参考訳）: 接地型マルチターン社会シミュレーションによるLLMの監査方略
Authors: Michelle Star, Andrew Aquilina, Yu-Ru Lin,
Abstract要約: 5つのRedditコミュニティからの支持を求める物語は、順序づけられた断片に分解される。サポート構成は、推定された苦痛とともに体系的にシフトする。コミュニティコンテキストは、人口統計カテゴリーではなく、行動、トピック、談話規範を形作る。
参考スコア（独自算出の注目度）: 2.102846336724103
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When users seek social support from chatbots, they disclose their situation gradually, yet most evaluations of supportive LLMs rely on single-turn, fully specified prompts. We introduce a multi-turn simulation framework that closes this gap. Support-seeking narratives from five Reddit communities are decomposed into ordered fragments and revealed turn by turn to a language model. Each response is coded with the Social Support Behavior Code (SSBC), an established multi-label taxonomy that captures the composition of support, rather than a single quality score. To ask whether support choices track the model's own construal of user distress, we use linear probes on hidden representations to estimate this internal signal without altering the generation context. Across two mid-scale models (Llama-3.1-8B, OLMo-3-7B) and more than 6,200 turns, support composition shifts systematically with estimated distress: teaching declines as estimated distress rises, a finding that replicates across architectures, while increases in affective and esteem-oriented strategies (such as validation) are suggestive but model-specific and rest on noisier annotations. Community context independently shapes behavior, tracking topic and discourse norms rather than demographic categories. These trajectory-level dynamics, invisible to single-turn evaluation, motivate multi-turn auditing frameworks for socially sensitive applications.
Abstract（参考訳）: ユーザがチャットボットからソーシャルサポートを求めると、その状況は徐々に明らかにされるが、サポート型LLMの評価のほとんどは、一ターンで完全に指定されたプロンプトに依存している。このギャップを埋めるマルチターンシミュレーションフレームワークを導入する。 5つのRedditコミュニティからの支持を求める物語は、順序づけられた断片に分解され、言語モデルにターンバイターンで明らかにされる。各応答は、単一の品質スコアではなく、サポートの構成をキャプチャする確立されたマルチラベル分類法である社会サポート行動コード(SSBC)によってコードされる。利用者の苦悩をモデルが追跡するかどうかを問うため、隠れ表現に線形プローブを用いて、生成コンテキストを変更することなく内部信号を推定する。 2つの中規模モデル(Llama-3.1-8B、OLMo-3-7B)と6,200回以上のターンで、サポートコンポジションは、見積の苦悩とともに体系的にシフトする。コミュニティコンテキストは、人口統計カテゴリーではなく、行動、追跡トピック、談話規範を独立に形成する。これらの軌道レベルのダイナミクスは、シングルターン評価には見えないが、社会に敏感なアプリケーションのためのマルチターン監査フレームワークを動機付けている。

関連論文リスト

SCOPE: A Dataset of Stereotyped Prompts for Counterfactual Fairness Assessment of LLMs [45.94124349318317]
SCOPEは241,280のプロンプトを120,640の対物対にまとめている。このリソースは、公正性、堅牢性、および反事実整合性を評価するために、制御され、セマンティックに整合し、意図を意識した基盤を提供する。
論文参考訳（メタデータ） (2026-04-07T07:56:26Z)
Pressure Reveals Character: Behavioural Alignment Evaluation at Depth [3.634215320925722]
正直、安全、非マニピュレーション、ロバスト性、矯正性、スケジューリングの6つのカテゴリで904のシナリオにまたがるアライメントベンチマークを紹介します。我々のシナリオでは、モデルを矛盾する命令、シミュレートされたツールアクセス、マルチターンエスカレーションの下に配置し、シングルターン評価が見逃す振る舞いの傾向を明らかにする。トップパフォーマンスモデルでさえ特定のカテゴリにギャップがあるのに対して、ほとんどのモデルでは一貫性のある弱点が示されています。
論文参考訳（メタデータ） (2026-02-24T11:52:17Z)
Us-vs-Them bias in Large Language Models [0.569978892646475]
基礎的大言語モデル間で、一貫した内集団陽性および外集団陰性な関連を見いだす。調査対象者は,保守的ペルソナは対人関係が強く,リベラルなペルソナは対人関係が強かった。
論文参考訳（メタデータ） (2025-12-03T07:11:22Z)
Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。 LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文参考訳（メタデータ） (2025-10-31T19:40:41Z)
Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-09-16T16:54:35Z)
Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
Emotional Supporters often Use Multiple Strategies in a Single Turn [8.85819119076884]
感情支援会話タスクの既存の定義は、サポート的応答の構造を単純化する。感情的な支持者は、1ターン以内に複数の戦略を連続的に採用することが多い。戦略発話対の完全列を生成することを必要とする改訂形式を提案する。
論文参考訳（メタデータ） (2025-05-21T09:46:19Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T19:01:13Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。