論文の概要: AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents
- arxiv url: http://arxiv.org/abs/2409.09013v1
- Date: Fri, 13 Sep 2024 17:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 15:40:23.534923
- Title: AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents
- Title(参考訳): AI-LieDar: LLMエージェントの実用性と真理性のトレードオフを検討する
- Authors: Zhe Su, Xuhui Zhou, Sanketh Rangreji, Anubha Kabra, Julia Mendelsohn, Faeze Brahman, Maarten Sap,
- Abstract要約: マルチターン対話環境において,言語エージェントが実効性と実効性に相反するシナリオをナビゲートする方法について検討した。
エージェントの反応を評価するために,心理文献にヒントを得た真正性検知装置を開発した。
我々の実験は、すべてのモデルが50%未満の真理であることを示したが、真理性と目標達成率(実用性)はモデルによって異なる。
- 参考スコア(独自算出の注目度): 27.10147264744531
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To be safely and successfully deployed, LLMs must simultaneously satisfy truthfulness and utility goals. Yet, often these two goals compete (e.g., an AI agent assisting a used car salesman selling a car with flaws), partly due to ambiguous or misleading user instructions. We propose AI-LieDar, a framework to study how LLM-based agents navigate scenarios with utility-truthfulness conflicts in a multi-turn interactive setting. We design a set of realistic scenarios where language agents are instructed to achieve goals that are in conflict with being truthful during a multi-turn conversation with simulated human agents. To evaluate the truthfulness at large scale, we develop a truthfulness detector inspired by psychological literature to assess the agents' responses. Our experiment demonstrates that all models are truthful less than 50% of the time, although truthfulness and goal achievement (utility) rates vary across models. We further test the steerability of LLMs towards truthfulness, finding that models follow malicious instructions to deceive, and even truth-steered models can still lie. These findings reveal the complex nature of truthfulness in LLMs and underscore the importance of further research to ensure the safe and reliable deployment of LLMs and AI agents.
- Abstract(参考訳): 安全かつうまく展開するには、LLMは真理性と実用目標を同時に満たさなければならない。
しかし、これらの2つの目標(例えば、中古車のセールスマンが欠陥のある車を売っているのを補助するAIエージェント)が競うことも少なくない。
AI-LieDarは,LLMをベースとしたエージェントがマルチターン・インタラクティブな環境において,ユーティリティ・トラスフルネス・コンフリクトを用いてシナリオをナビゲートする方法を研究するフレームワークである。
シミュレーションされたエージェントとのマルチターン会話において,言語エージェントが真理に反する目標を達成するように指示される,現実的なシナリオを設計する。
大規模に真理性を評価するため,心理文献にヒントを得た真理性検知装置を開発し,エージェントの反応を評価する。
我々の実験は、すべてのモデルが50%未満の真理であることを示したが、真理性と目標達成率(実用性)はモデルによって異なる。
我々は、LLMの真偽に対する操縦性をさらに検証し、モデルが偽装する悪意のある指示に従うことを発見し、真偽を判断するモデルでさえもなお嘘をつく可能性があることを発見した。
これらの知見は、LLMの真理性に関する複雑な性質を明らかにし、LLMとAIエージェントの安全で信頼性の高いデプロイを保証するために、さらなる研究の重要性を強調している。
関連論文リスト
- Exploring Accuracy-Fairness Trade-off in Large Language Models [10.5817207739373]
本研究では,大規模言語モデルの拡張において,精度と公平性を調和させることの難しさについて検討する。
1つの計量の過度な最適化は、必然的にもう1つの計量を著しく劣化させる。
本研究は,多目的進化学習(MOEL)手法が,この課題に対処するための有望な方法であることを明らかにした。
論文 参考訳(メタデータ) (2024-11-21T04:40:35Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。