論文の概要: HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context
Learning in Factuality Evaluation
- arxiv url: http://arxiv.org/abs/2402.09390v1
- Date: Wed, 14 Feb 2024 18:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 13:55:48.738907
- Title: HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context
Learning in Factuality Evaluation
- Title(参考訳): hgot: 事実性評価における文脈内学習のための階層的思考グラフ
- Authors: Yihao Fang, Stephen W. Thomas, Xiaodan Zhu
- Abstract要約: 本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
- 参考スコア(独自算出の注目度): 22.67877393864983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread adoption of large language models (LLMs) in numerous
applications, the challenge of factuality and the propensity for hallucinations
raises significant concerns. To address this issue, particularly in
retrieval-augmented in-context learning, we introduce the hierarchical graph of
thoughts (HGOT), a structured, multi-layered graph approach designed to enhance
the retrieval of pertinent passages during in-context learning. The framework
utilizes the emergent planning capabilities of LLMs, employing the
divide-and-conquer strategy to break down complex queries into manageable
sub-queries. It refines self-consistency majority voting for answer selection,
which incorporates the recently proposed citation recall and precision metrics
to assess the quality of thoughts, linking an answer's credibility
intrinsically to the thought's quality. This methodology introduces a weighted
system in majority voting, prioritizing answers based on the citation quality
of their thoughts. Additionally, we propose a scoring mechanism for evaluating
retrieved passages, considering factors such as citation frequency and quality,
self-consistency confidence, and the retrieval module's ranking. Experiments
reveal that HGOT outperforms other retrieval-augmented in-context learning
methods, including Demonstrate-Search-Predict (DSP), ReAct, Self-Ask, and
Retrieve-then-Read on different datasets by as much as $7\%$, demonstrating its
efficacy in enhancing the factuality of LLMs.
- Abstract(参考訳): 多数のアプリケーションで大規模言語モデル(LLM)が広く採用されているため、事実性の課題と幻覚の正当性は重大な懸念を巻き起こす。
この問題に対処するために,特に検索型インコンテキスト学習において,インコンテキスト学習中に関連するパスの検索を強化するように設計された構造化多層グラフアプローチである階層的思考グラフ(hgot)を導入する。
このフレームワークは LLM の創発的な計画機能を活用し、複雑なクエリを管理可能なサブクエリに分割する分断/コンカマー戦略を採用している。
これは、最近提案された引用リコールと精度指標を組み込んで思考の質を評価し、回答の信頼性を本質的に思考の質に結びつけるものである。
この方法論は多数決で重み付けシステムを導入し、彼らの考えの引用品質に基づいて答えを優先順位付けする。
また, 引用頻度, 品質, 自己満足度, 検索モジュールのランキングなどの要因を考慮して, 検索パスの評価のためのスコアリング機構を提案する。
実験により、HGOTは、DSP(Demonstrate-Search-Predict)、ReAct、Self-Ask、Retrieve-then-Readなど、他の検索強化されたコンテキスト内学習手法よりも7\%高い性能を示し、LLMの事実性を高める効果を示している。
関連論文リスト
- Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Benchmarking Large Language Models in Complex Question Answering
Attribution using Knowledge Graphs [35.089203283068635]
属性を測定するための細かなカテゴリのセットを紹介し,CAQA(Complex Attributed Question Answering)ベンチマークを開発する。
分析の結果,既存の評価器は微粒な属性設定では性能が悪く,複雑な引用文の推論に弱点が認められることがわかった。
論文 参考訳(メタデータ) (2024-01-26T04:11:07Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - Policy-Gradient Training of Language Models for Ranking [28.7445517835435]
テキスト検索は、意思決定の事実知識を言語処理パイプラインに組み込む上で重要な役割を担っている。
現在の最先端テキスト検索モデルは、事前訓練された大規模言語モデル(LLM)を活用して、競争性能を達成する。
我々は、LLMをPlanet-Luceランキングポリシーとしてインスタンス化することでランク付けを学ぶ新しいトレーニングアルゴリズムであるNeural PG-RANKを紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:55:23Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z) - An Interpretable and Uncertainty Aware Multi-Task Framework for
Multi-Aspect Sentiment Analysis [15.755185152760083]
文書レベルのマルチアスペクト感性分類(DMSC)は困難かつ差し迫った問題である。
DMSC問題に対して,意図的な自己注意に基づく深層ニューラルネットワークモデル,すなわちFEDARを提案する。
FEDARは、予測を解釈しながら、競争性能を達成することができる。
論文 参考訳(メタデータ) (2020-09-18T22:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。