論文の概要: CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants
- arxiv url: http://arxiv.org/abs/2410.21159v1
- Date: Mon, 28 Oct 2024 15:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:30.655431
- Title: CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants
- Title(参考訳): CURATe: 会話型AIアシスタントのパーソナライズアライメントのベンチマーク
- Authors: Lize Alberts, Benjamin Ellis, Andrei Lupu, Jakob Foerster,
- Abstract要約: 5つのシナリオ(いずれも337のユースケース)にわたる10の先行モデルの評価
主要な障害モードには、矛盾する好みの適切な重み付け、症状、コンテキストウィンドウ内の重要なユーザ情報に対する注意力の欠如、ユーザ固有の知識の一貫性のない適用が含まれる。
本稿では,AIアシスタントに自己回帰機能,オンラインユーザモデリング,動的リスク評価を組み込むための研究指針を提案する。
- 参考スコア(独自算出の注目度): 5.7605009639020315
- License:
- Abstract: We introduce a multi-turn benchmark for evaluating personalised alignment in LLM-based AI assistants, focusing on their ability to handle user-provided safety-critical contexts. Our assessment of ten leading models across five scenarios (each with 337 use cases) reveals systematic inconsistencies in maintaining user-specific consideration, with even top-rated "harmless" models making recommendations that should be recognised as obviously harmful to the user given the context provided. Key failure modes include inappropriate weighing of conflicting preferences, sycophancy (prioritising user preferences above safety), a lack of attentiveness to critical user information within the context window, and inconsistent application of user-specific knowledge. The same systematic biases were observed in OpenAI's o1, suggesting that strong reasoning capacities do not necessarily transfer to this kind of personalised thinking. We find that prompting LLMs to consider safety-critical context significantly improves performance, unlike a generic 'harmless and helpful' instruction. Based on these findings, we propose research directions for embedding self-reflection capabilities, online user modelling, and dynamic risk assessment in AI assistants. Our work emphasises the need for nuanced, context-aware approaches to alignment in systems designed for persistent human interaction, aiding the development of safe and considerate AI assistants.
- Abstract(参考訳): 我々は、LLMベースのAIアシスタントにおけるパーソナライズされたアライメントを評価するためのマルチターンベンチマークを導入し、ユーザが提供する安全クリティカルなコンテキストを扱う能力に焦点を当てた。
5つのシナリオ(いずれも337のユースケース)にまたがる10つの主要なモデルを評価すると、ユーザ固有の考慮を維持する上での体系的な不整合が明らかになります。
主要な障害モードには、矛盾する嗜好の適切な重み付け、梅毒(安全よりもユーザの嗜好を優先)、コンテキストウィンドウ内の重要なユーザ情報に対する注意力の欠如、ユーザ固有の知識の一貫性のない適用などがある。
同じ体系的バイアスがOpenAIのo1で観測され、強い推論能力が必ずしもこのような個人化された思考に移行するとは限らないことが示唆された。
汎用的な「無害で役に立つ」命令とは異なり、LLMに安全クリティカルなコンテキストを考慮させると、性能が大幅に向上することがわかった。
これらの知見に基づき、AIアシスタントにおける自己回帰機能、オンラインユーザモデリング、動的リスク評価の組込みに関する研究指針を提案する。
私たちの研究は、安全で考慮されたAIアシスタントの開発を支援するために、永続的なヒューマンインタラクション用に設計されたシステムにおける、ニュアンスでコンテキスト対応のアプローチの必要性を強調しています。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Interpretable Rule-Based System for Radar-Based Gesture Sensing: Enhancing Transparency and Personalization in AI [2.99664686845172]
我々は,レーダに基づくジェスチャー検出に適した,透過的かつ解釈可能な多クラスルールベースアルゴリズムであるMIRAを紹介する。
ユーザ中心のAIエクスペリエンスを提供し、個々のユーザの振る舞いを調整するパーソナライズされたルールセットを通じて、システムの適応性を示す。
我々の研究は、MIRAが高い解釈可能性とパフォーマンスの両方を提供する能力を強調し、安全クリティカルなアプリケーションで解釈可能なAIを広く採用する可能性を強調している。
論文 参考訳(メタデータ) (2024-09-30T16:40:27Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - Trust-Oriented Adaptive Guardrails for Large Language Models [9.719986610417441]
ガードレールは、有害または有害な応答を抑えることで、大きな言語モデル(LLM)が人間の価値と整合することを保証するように設計されている。
既存のガードレールには、さまざまなユーザグループのニーズを満たすための、十分に確立された方法論が欠如している。
ユーザ信頼度に基づいて,機密コンテンツへの動的アクセスを適度に行うための適応ガードレール機構を導入する。
論文 参考訳(メタデータ) (2024-08-16T18:07:48Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - A Systematic Literature Review of User Trust in AI-Enabled Systems: An
HCI Perspective [0.0]
人工知能(AI)のユーザ信頼は、採用を促進する重要な要素として、ますます認識され、証明されてきている。
本総説は, ユーザ信頼の定義, 影響要因, 測定方法の概要を, 実証研究23件から明らかにすることを目的としている。
論文 参考訳(メタデータ) (2023-04-18T07:58:09Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。