論文の概要: CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants
- arxiv url: http://arxiv.org/abs/2410.21159v1
- Date: Mon, 28 Oct 2024 15:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:30.655431
- Title: CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants
- Title(参考訳): CURATe: 会話型AIアシスタントのパーソナライズアライメントのベンチマーク
- Authors: Lize Alberts, Benjamin Ellis, Andrei Lupu, Jakob Foerster,
- Abstract要約: 5つのシナリオ(いずれも337のユースケース)にわたる10の先行モデルの評価
主要な障害モードには、矛盾する好みの適切な重み付け、症状、コンテキストウィンドウ内の重要なユーザ情報に対する注意力の欠如、ユーザ固有の知識の一貫性のない適用が含まれる。
本稿では,AIアシスタントに自己回帰機能,オンラインユーザモデリング,動的リスク評価を組み込むための研究指針を提案する。
- 参考スコア(独自算出の注目度): 5.7605009639020315
- License:
- Abstract: We introduce a multi-turn benchmark for evaluating personalised alignment in LLM-based AI assistants, focusing on their ability to handle user-provided safety-critical contexts. Our assessment of ten leading models across five scenarios (each with 337 use cases) reveals systematic inconsistencies in maintaining user-specific consideration, with even top-rated "harmless" models making recommendations that should be recognised as obviously harmful to the user given the context provided. Key failure modes include inappropriate weighing of conflicting preferences, sycophancy (prioritising user preferences above safety), a lack of attentiveness to critical user information within the context window, and inconsistent application of user-specific knowledge. The same systematic biases were observed in OpenAI's o1, suggesting that strong reasoning capacities do not necessarily transfer to this kind of personalised thinking. We find that prompting LLMs to consider safety-critical context significantly improves performance, unlike a generic 'harmless and helpful' instruction. Based on these findings, we propose research directions for embedding self-reflection capabilities, online user modelling, and dynamic risk assessment in AI assistants. Our work emphasises the need for nuanced, context-aware approaches to alignment in systems designed for persistent human interaction, aiding the development of safe and considerate AI assistants.
- Abstract(参考訳): 我々は、LLMベースのAIアシスタントにおけるパーソナライズされたアライメントを評価するためのマルチターンベンチマークを導入し、ユーザが提供する安全クリティカルなコンテキストを扱う能力に焦点を当てた。
5つのシナリオ(いずれも337のユースケース)にまたがる10つの主要なモデルを評価すると、ユーザ固有の考慮を維持する上での体系的な不整合が明らかになります。
主要な障害モードには、矛盾する嗜好の適切な重み付け、梅毒(安全よりもユーザの嗜好を優先)、コンテキストウィンドウ内の重要なユーザ情報に対する注意力の欠如、ユーザ固有の知識の一貫性のない適用などがある。
同じ体系的バイアスがOpenAIのo1で観測され、強い推論能力が必ずしもこのような個人化された思考に移行するとは限らないことが示唆された。
汎用的な「無害で役に立つ」命令とは異なり、LLMに安全クリティカルなコンテキストを考慮させると、性能が大幅に向上することがわかった。
これらの知見に基づき、AIアシスタントにおける自己回帰機能、オンラインユーザモデリング、動的リスク評価の組込みに関する研究指針を提案する。
私たちの研究は、安全で考慮されたAIアシスタントの開発を支援するために、永続的なヒューマンインタラクション用に設計されたシステムにおける、ニュアンスでコンテキスト対応のアプローチの必要性を強調しています。
関連論文リスト
- On the loss of context-awareness in general instruction fine-tuning [101.03941308894191]
命令応答対における教師付き微調整(SFT)のようなポストトレーニング手法は、事前トレーニング中に学習した既存の能力を損なう可能性がある。
そこで本研究では,ユーザプロンプトに配慮したポストホックアテンション・ステアリングと,コンテキスト依存度指標を用いた条件付きインストラクションの微調整という,インストラクションモデルにおけるコンテキスト認識の損失を軽減する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Interpretable Rule-Based System for Radar-Based Gesture Sensing: Enhancing Transparency and Personalization in AI [2.99664686845172]
我々は,レーダに基づくジェスチャー検出に適した,透過的かつ解釈可能な多クラスルールベースアルゴリズムであるMIRAを紹介する。
ユーザ中心のAIエクスペリエンスを提供し、個々のユーザの振る舞いを調整するパーソナライズされたルールセットを通じて、システムの適応性を示す。
我々の研究は、MIRAが高い解釈可能性とパフォーマンスの両方を提供する能力を強調し、安全クリティカルなアプリケーションで解釈可能なAIを広く採用する可能性を強調している。
論文 参考訳(メタデータ) (2024-09-30T16:40:27Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Adaptive Guardrails For Large Language Models via Trust Modeling and In-Context Learning [9.719986610417441]
ガードレールはLarge Language Model (LLM) の不可欠な部分となっている。
本研究は,信頼モデリングによって支援され,文脈内学習により強化された適応型ガードレール機構を提案する。
ダイレクト・インタラクション・トラストと権限認証・信頼の組み合わせを利用することで、コンテンツモデレーションの厳格さをユーザの信頼性に合わせるように正確に調整する。
論文 参考訳(メタデータ) (2024-08-16T18:07:48Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - RAH! RecSys-Assistant-Human: A Human-Centered Recommendation Framework
with LLM Agents [30.250555783628762]
この研究は、これらの問題に対処することは単にレコメンダシステムの責任ではないと主張している。
本稿では,RAH Recommenderシステム,Assistant,Humanフレームワークを紹介する。
私たちのコントリビューションは、さまざまなレコメンデーションモデルと効果的に連携する、人間中心のレコメンデーションフレームワークを提供します。
論文 参考訳(メタデータ) (2023-08-19T04:46:01Z) - A Systematic Literature Review of User Trust in AI-Enabled Systems: An
HCI Perspective [0.0]
人工知能(AI)のユーザ信頼は、採用を促進する重要な要素として、ますます認識され、証明されてきている。
本総説は, ユーザ信頼の定義, 影響要因, 測定方法の概要を, 実証研究23件から明らかにすることを目的としている。
論文 参考訳(メタデータ) (2023-04-18T07:58:09Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。