論文の概要: IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization
- arxiv url: http://arxiv.org/abs/2508.08719v1
- Date: Tue, 12 Aug 2025 08:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.343693
- Title: IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization
- Title(参考訳): IROTE:In-Context Self-Reflective Optimizationによる大規模言語モデルの人間的特性の抽出
- Authors: Yuzhuo Bai, Shitong Duan, Muhua Huang, Jing Yao, Zhenghao Liu, Peng Zhang, Tun Lu, Xiaoyuan Yi, Maosong Sun, Xing Xie,
- Abstract要約: IROTEは,安定かつ伝達可能な特性抽出のための新しいインコンテキスト手法である。
IROTEが生成する1つの自己反射は、様々な下流タスクにまたがる目標特性の安定な偽造を LLM が引き起こすことを示す。
- 参考スコア(独自算出の注目度): 66.6349183886101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trained on various human-authored corpora, Large Language Models (LLMs) have demonstrated a certain capability of reflecting specific human-like traits (e.g., personality or values) by prompting, benefiting applications like personalized LLMs and social simulations. However, existing methods suffer from the superficial elicitation problem: LLMs can only be steered to mimic shallow and unstable stylistic patterns, failing to embody the desired traits precisely and consistently across diverse tasks like humans. To address this challenge, we propose IROTE, a novel in-context method for stable and transferable trait elicitation. Drawing on psychological theories suggesting that traits are formed through identity-related reflection, our method automatically generates and optimizes a textual self-reflection within prompts, which comprises self-perceived experience, to stimulate LLMs' trait-driven behavior. The optimization is performed by iteratively maximizing an information-theoretic objective that enhances the connections between LLMs' behavior and the target trait, while reducing noisy redundancy in reflection without any fine-tuning, leading to evocative and compact trait reflection. Extensive experiments across three human trait systems manifest that one single IROTE-generated self-reflection can induce LLMs' stable impersonation of the target trait across diverse downstream tasks beyond simple questionnaire answering, consistently outperforming existing strong baselines.
- Abstract(参考訳): LLM(Large Language Models)は、個人化されたLLMや社会シミュレーションのような応用を推進し、利益をもたらすことによって、特定の人間のような特性(例えば人格や価値観)を反映する特定の能力を実証した。
LLMは、浅く不安定なスタイルパターンを模倣するだけであり、人間のような多様なタスクにおいて、望まれる特性を正確に、一貫して具現化することができません。
この課題に対処するために,安定かつ伝達可能な特徴抽出のための新しいインコンテキスト手法であるIROTEを提案する。
本手法は, 自己認識経験を含むプロンプト内でのテキストの自己反射を自動生成・最適化し, LLMの特性駆動行動を刺激する心理学的理論に基づく。
この最適化は、LLMの挙動と目標特性との接続性を高める情報理論の目的を反復的に最大化し、微調整をせずに反射におけるノイズの冗長性を低減し、刺激的かつコンパクトな特性反射をもたらす。
3つのヒト形質システムにわたる広範囲な実験により、1つのIROTE生成自己回帰は、単純な問合せ応答を超えた様々な下流タスクにおいて、LSMsが目標形質の安定した偽装を誘導し、既存の強いベースラインを一貫して上回ることを示した。
関連論文リスト
- Mind the Gap: The Divergence Between Human and LLM-Generated Tasks [12.96670500625407]
大規模言語モデル(LLM)を用いたエージェントとヒューマンタスク生成の比較を行った。
人間のタスク生成は、個人的価値観や認知スタイルを含む心理的ドライバの影響を一貫して受けている。
我々は,人間の認知の価値観,具体的性質とLLMの統計的パターンとの間には,中核的なギャップが存在すると結論付けた。
論文 参考訳(メタデータ) (2025-08-01T03:00:41Z) - Evaluating the Simulation of Human Personality-Driven Susceptibility to Misinformation with LLMs [0.18416014644193066]
大規模言語モデル(LLM)により、大規模に合成行動データを生成することができる。
我々は,誤情報に対する個人的影響の変動を再現するために,Big-Fiveプロファイルに規定されたLLMエージェントの能力を評価する。
論文 参考訳(メタデータ) (2025-06-30T08:16:07Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Rethinking ChatGPT's Success: Usability and Cognitive Behaviors Enabled by Auto-regressive LLMs' Prompting [5.344199202349884]
本研究では,2種類の大規模言語モデルと6種類のタスク固有チャネルにおけるモーダル性の構造を分析した。
本研究では,LLMにおける多様な認知行動の刺激について,自由形テキストと言語文脈の導入を通して検討する。
論文 参考訳(メタデータ) (2024-05-17T00:19:41Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Tailoring Personality Traits in Large Language Models via
Unsupervisedly-Built Personalized Lexicons [42.66142331217763]
人格は人間の表現パターンを形成する上で重要な役割を果たしている。
従来の手法は、特定のコーパス上の細調整された大規模言語モデル(LLM)に依存していた。
我々は,人格特性を操作するために,Unsupervisedly-Built Personal lexicon (UBPL) をプラガブルな方法で採用した。
論文 参考訳(メタデータ) (2023-10-25T12:16:33Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。