論文の概要: From General to Specific: Utilizing General Hallucation to Automatically Measure the Role Relationship Fidelity for Specific Role-Play Agents
- arxiv url: http://arxiv.org/abs/2411.07965v1
- Date: Tue, 12 Nov 2024 17:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:14.534338
- Title: From General to Specific: Utilizing General Hallucation to Automatically Measure the Role Relationship Fidelity for Specific Role-Play Agents
- Title(参考訳): 一般から特定へ: ロールプレイエージェントにおける役割関係の忠実度を自動測定するための一般教育の利用
- Authors: Chuyi Kong, Ziyang Luo, Hongzhan Lin, Zhiyuan Fan, Yaxin Fan, Yuxi Sun, Jing Ma,
- Abstract要約: ロールプレイングエージェント(RPAs)の開発のための,自動,スケーラブル,一般化可能なパラダイムを提案する。
我々は、一般知識グラフから関係を抽出し、RPA固有の幻覚特性を活用して、役割間の相互作用を促すベンチマークを構築した。
本研究は,これらの指標に影響を及ぼす要因について検討し,関係幻覚と事実とのトレードオフについて考察した。
- 参考スコア(独自算出の注目度): 12.990119925990477
- License:
- Abstract: The advanced role-playing capabilities of Large Language Models (LLMs) have paved the way for developing Role-Playing Agents (RPAs). However, existing benchmarks, such as HPD, which incorporates manually scored character relationships into the context for LLMs to sort coherence, and SocialBench, which uses specific profiles generated by LLMs in the context of multiple-choice tasks to assess character preferences, face limitations like poor generalizability, implicit and inaccurate judgments, and excessive context length. To address the above issues, we propose an automatic, scalable, and generalizable paradigm. Specifically, we construct a benchmark by extracting relations from a general knowledge graph and leverage RPA's inherent hallucination properties to prompt it to interact across roles, employing ChatGPT for stance detection and defining relationship hallucination along with three related metrics. Extensive experiments validate the effectiveness and stability of our metrics. Our findings further explore factors influencing these metrics and discuss the trade-off between relationship hallucination and factuality.
- Abstract(参考訳): LLM(Large Language Models)の高度なロールプレイング能力は、ロールプレイングエージェント(RPAs)の開発の道を開いた。
しかし、手動で獲得した文字関係をLLMのコンテキストに組み込んでコヒーレンスをソートするHPDや、複数選択タスクのコンテキストでLLMが生成する特定のプロファイルを使用するSocialBenchといった既存のベンチマーク、一般化性の低さ、暗黙的かつ不正確な判断、過度なコンテキスト長などの制限がある。
上記の問題に対処するため,我々は,自動的,スケーラブルで一般化可能なパラダイムを提案する。
具体的には、一般知識グラフから関係を抽出し、RPA固有の幻覚特性を活用して、役割間の相互作用を促すベンチマークを構築し、ChatGPTを用いて3つの関連する指標とともに関係幻覚を検出する。
大規模な実験は、我々のメトリクスの有効性と安定性を検証する。
さらに,これらの指標に影響を与える要因について検討し,関係幻覚と事実とのトレードオフについて考察した。
関連論文リスト
- Probing Ranking LLMs: Mechanistic Interpretability in Information Retrieval [22.875174888476295]
我々は最先端の微調整型変圧器ネットワークの動作について検討する。
我々のアプローチは、LLM内のニューロンの探索に基づく層間層解析である。
ネットワークのアクティベーションの中で、既知の人間工学的・意味的な特徴の個人またはグループを特定する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ユーティリティとトピック関連性は、情報検索において重要な手段である。
本稿では,リトリーバル拡張生成のサイクルの各ステップを促進させるために,反復的ユーティリティである JudgmEnt fraMework を提案する。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話におけるサンプル効率のよい対話ポリシー学習を可能にする。
ACTは、教師付き微調整とDPOのための標準的なアプローチよりも、相当な会話モデリングの改善を示す。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Characteristic AI Agents via Large Language Models [40.10858767752735]
本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
論文 参考訳(メタデータ) (2024-03-19T02:25:29Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Evaluation of Latent Space Disentanglement in the Presence of
Interdependent Attributes [78.8942067357231]
深層生成モデルによる制御可能な音楽生成は, ゆがみ学習技術にますます依存している。
セマンティック属性間の固有関係を考慮に入れたMIGのドロップイン代替として,依存性を考慮した情報メトリクスを提案する。
論文 参考訳(メタデータ) (2021-10-11T20:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。