論文の概要: Fusing Bidirectional Chains of Thought and Reward Mechanisms A Method for Enhancing Question-Answering Capabilities of Large Language Models for Chinese Intangible Cultural Heritage
- arxiv url: http://arxiv.org/abs/2505.08167v1
- Date: Tue, 13 May 2025 02:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.391677
- Title: Fusing Bidirectional Chains of Thought and Reward Mechanisms A Method for Enhancing Question-Answering Capabilities of Large Language Models for Chinese Intangible Cultural Heritage
- Title(参考訳): 中国無形文化遺産における大規模言語モデルの質問応答能力向上手法
- Authors: Ruilin Liu, Zhixiao Zhao, Jieqiong Li, Chang Liu, Dongbo Wang,
- Abstract要約: 本稿では,思考の双方向連鎖と報酬機構を統合した新しい学習手法を提案する。
この手法は、無形文化財の分野に特化して設計された大きな言語モデルであるICH-Qwenに基づいている。
- 参考スコア(独自算出の注目度): 3.7756107931620666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large language models (LLMs) has provided significant support and opportunities for the advancement of domain-specific LLMs. However, fine-tuning these large models using Intangible Cultural Heritage (ICH) data inevitably faces challenges such as bias, incorrect knowledge inheritance, and catastrophic forgetting. To address these issues, we propose a novel training method that integrates a bidirectional chains of thought and a reward mechanism. This method is built upon ICH-Qwen, a large language model specifically designed for the field of intangible cultural heritage. The proposed method enables the model to not only perform forward reasoning but also enhances the accuracy of the generated answers by utilizing reverse questioning and reverse reasoning to activate the model's latent knowledge. Additionally, a reward mechanism is introduced during training to optimize the decision-making process. This mechanism improves the quality of the model's outputs through structural and content evaluations with different weighting schemes. We conduct comparative experiments on ICH-Qwen, with results demonstrating that our method outperforms 0-shot, step-by-step reasoning, knowledge distillation, and question augmentation methods in terms of accuracy, Bleu-4, and Rouge-L scores on the question-answering task. Furthermore, the paper highlights the effectiveness of combining the bidirectional chains of thought and reward mechanism through ablation experiments. In addition, a series of generalizability experiments are conducted, with results showing that the proposed method yields improvements on various domain-specific datasets and advanced models in areas such as Finance, Wikidata, and StrategyQA. This demonstrates that the method is adaptable to multiple domains and provides a valuable approach for model training in future applications across diverse fields.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発は、ドメイン固有のLLMの発展に重要な支援と機会を与えてきた。
しかし、これらの大きなモデルを無形文化遺産(ICH)データを使って微調整することは、必然的にバイアス、誤った知識継承、破滅的な忘れ込みといった課題に直面している。
これらの課題に対処するために,思考の双方向連鎖と報酬機構を統合した新しいトレーニング手法を提案する。
この手法は、無形文化財の分野に特化して設計された大きな言語モデルであるICH-Qwenに基づいている。
提案手法は,モデルが前方推論を行うだけでなく,逆質問や逆推論を利用して生成した回答の精度を高め,モデルの潜在知識を活性化することを可能にする。
さらに、意思決定プロセスの最適化のために、トレーニング中に報酬メカニズムが導入される。
このメカニズムは、重み付け方式の異なる構造的および内容的評価を通じて、モデルの出力の品質を向上させる。
ICH-Qwenで比較実験を行い,本手法が精度,Bleu-4,Rurge-Lのスコアにおいて0ショット,ステップバイステップの推論,知識蒸留,質問増減法より優れていることを示した。
さらに、アブレーション実験により、思考の双方向連鎖と報酬機構を組み合わせる効果を強調した。
さらに,金融,ウィキデータ,ストラテジーQAなどの分野において,提案手法が様々なドメイン固有データセットや高度なモデルの改善をもたらすことを示す一連の一般化可能性実験を行った。
これは、この手法が複数のドメインに適用可能であることを示し、様々な分野にわたる将来のアプリケーションにおけるモデルトレーニングに価値あるアプローチを提供する。
関連論文リスト
- Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。
広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Multimodal Magic Elevating Depression Detection with a Fusion of Text and Audio Intelligence [4.92323103166693]
本研究では,抑うつ分類の精度を高めるために,教師-学生アーキテクチャに基づく革新的なマルチモーダル融合モデルを提案する。
本設計モデルは,マルチヘッドアテンション機構と重み付きマルチモーダルトランスファー学習を導入することで,特徴融合とモダリティウェイトアロケーションにおける従来の手法の限界に対処する。
アブレーション実験により,提案モデルがF1スコアの99.1%をテストセットで達成し,単調な手法や従来の手法を著しく上回った。
論文 参考訳(メタデータ) (2025-01-28T09:30:29Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Out-of-Distribution Detection via Deep Multi-Comprehension Ensemble [11.542472900306745]
マルチComprehension (MC) Ensemble は,OOD (Out-of-Distribution) 特徴表現を拡大するための戦略として提案されている。
OOD検出におけるMC Ensemble戦略の優れた性能を示す実験結果を得た。
これにより,提案手法がトレーニング分布外のインスタンスを検出できるモデルの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-24T18:43:04Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。