論文の概要: OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.23703v1
- Date: Thu, 31 Oct 2024 07:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:15.026539
- Title: OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models
- Title(参考訳): OCEAN:大規模言語モデルにおけるオフラインの連鎖評価とアライメント
- Authors: Junda Wu, Xintong Li, Ruoyu Wang, Yu Xia, Yuxin Xiong, Jianing Wang, Tong Yu, Xiang Chen, Branislav Kveton, Lina Yao, Jingbo Shang, Julian McAuley,
- Abstract要約: 本研究は,LLMのチェーン・オブ・思想能力のオフライン評価に焦点をあてる。
我々は知識グラフ(例えばWikidata5m)を使って、生成された思考の連鎖に対するフィードバックを提供する。
提案手法に基づいてLCMを最適化する方法を示す。
- 参考スコア(独自算出の注目度): 68.17018458283651
- License:
- Abstract: Offline evaluation of LLMs is crucial in understanding their capacities, though current methods remain underexplored in existing research. In this work, we focus on the offline evaluation of the chain-of-thought capabilities and show how to optimize LLMs based on the proposed evaluation method. To enable offline feedback with rich knowledge and reasoning paths, we use knowledge graphs (e.g., Wikidata5m) to provide feedback on the generated chain of thoughts. Due to the heterogeneity between LLM reasoning and KG structures, direct interaction and feedback from KGs on LLM behavior are challenging, as they require accurate entity linking and grounding of LLM-generated chains of thought in the KG. To address the above challenge, we propose an offline chain-of-thought evaluation framework, OCEAN, which models chain-of-thought reasoning in LLMs as an MDP and evaluate the policy's alignment with KG preference modeling. To overcome the reasoning heterogeneity and grounding problems, we leverage on-policy KG exploration and RL to model a KG policy that generates token-level likelihood distributions for LLM-generated chain-of-thought reasoning paths, simulating KG reasoning preference. Then we incorporate the knowledge-graph feedback on the validity and alignment of the generated reasoning paths into inverse propensity scores and propose KG-IPS estimator. Theoretically, we prove the unbiasedness of the proposed KG-IPS estimator and provide a lower bound on its variance. With the off-policy evaluated value function, we can directly enable off-policy optimization to further enhance chain-of-thought alignment. Our empirical study shows that OCEAN can be efficiently optimized for generating chain-of-thought reasoning paths with higher estimated values without affecting LLMs' general abilities in downstream tasks or their internal knowledge.
- Abstract(参考訳): LLMのオフライン評価は、その能力を理解する上で重要であるが、現在の手法はいまだに研究が過小評価されている。
本研究では,チェーンオブ思考能力のオフライン評価に焦点をあて,提案手法に基づいたLCMの最適化方法を示す。
豊かな知識と推論パスによるオフラインフィードバックを可能にするために、私たちは、生成された思考の連鎖に対するフィードバックを提供するために、知識グラフ(例えば、Wikidata5m)を使用します。
LLM推論とKG構造の不均一性のため、KGの行動に対する直接的な相互作用とフィードバックは、KGにおけるLLM生成された思考の連鎖の正確な実体結合と接地を必要とするため、困難である。
上記の課題に対処するため,LLM における連鎖推論を MDP としてモデル化するオフライン連鎖評価フレームワーク OCEAN を提案し,KG の選好モデルとポリシーの整合性を評価する。
理由付けの不均一性や接地問題を克服するため,我々は,LLMの生成する連鎖推論経路のトークンレベル準位分布を生成するKGポリシーを,KG推論の嗜好をシミュレートしたオンラインKG探索とRLを用いてモデル化した。
次に、生成した推論パスの妥当性とアライメントに関する知識グラフフィードバックを逆確率スコアに組み込み、KG-IPS推定器を提案する。
理論的には、提案したKG-IPS推定器の偏りを証明し、その分散の低い境界を与える。
オフ・ポリティクス評価値関数を用いることで、オフ・ポリティクスの最適化により、チェーン・オブ・ソート・アライメントをさらに強化することができる。
実証実験により,OCEANは下流タスクや内部知識におけるLLMの一般能力に影響を与えることなく,より高い推定値の連鎖推論経路を効率的に生成できることが示された。
関連論文リスト
- Simple is Effective: The Roles of Graphs and Large Language Models in Knowledge-Graph-Based Retrieval-Augmented Generation [9.844598565914055]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚や時代遅れの知識のような制限に直面している。
本稿では、サブグラフを検索する知識グラフ(KG)ベースのRetrieval-Augmented Generation(RAG)フレームワークを拡張するSubgraphRAGを紹介する。
提案手法は,高効率かつフレキシブルなサブグラフ検索を実現するために,並列3重装飾機構を備えた軽量多層パーセプトロンを革新的に統合する。
論文 参考訳(メタデータ) (2024-10-28T04:39:32Z) - Decoding on Graphs: Faithful and Sound Reasoning on Knowledge Graphs through Generation of Well-Formed Chains [66.55612528039894]
知識グラフ(KG)は質問応答(QA)のための信頼できる知識ソースとして機能する。
我々は、LLMとKGの深い相乗効果を促進する新しいフレームワークであるDoG(Decoding on Graphs)を提案する。
様々なKGQAタスクに対して異なるバックグラウンドKGを用いた実験により、DoGが優れた、堅牢なパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-24T04:01:40Z) - GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを統合する新しい推論フレームワークである。
本手法は,ゴールド回答検索ではなく,専門家の問題解決に類似した論理的・段階的推論手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study over Open-ended Question Answering [35.2451096137883]
我々は、知識グラフ(KG)で強化された大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるOKGQAを紹介する。
OKGQAは、様々なタイプの質問を使って実践的なアプリケーションの複雑さを深く反映するように設計されており、幻覚の減少と推論能力の強化の両方を測定するために特定のメトリクスを取り入れている。
また,KGのセマンティクスと構造が意図的に乱れ,汚染された場合のモデル性能を評価するためのOKGQA-Pを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:29:21Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Balancing Exploration and Exploitation in LLM using Soft RLLF for
Enhanced Negation Understanding [4.799288023353623]
NLPにおける微調整のアプローチは、しばしば探索よりも搾取に焦点を当てる。
論理フィードバックからの強化学習を活用して、言語モデルにおける探索と搾取の効果的なバランスを作る。
これは、より正確で信頼性があり、論理的に一貫した言語モデルの開発に意味を持つ。
論文 参考訳(メタデータ) (2024-03-02T11:54:55Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。