論文の概要: HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context
Learning in Factuality Evaluation
- arxiv url: http://arxiv.org/abs/2402.09390v1
- Date: Wed, 14 Feb 2024 18:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 13:55:48.738907
- Title: HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context
Learning in Factuality Evaluation
- Title(参考訳): hgot: 事実性評価における文脈内学習のための階層的思考グラフ
- Authors: Yihao Fang, Stephen W. Thomas, Xiaodan Zhu
- Abstract要約: 本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
- 参考スコア(独自算出の注目度): 22.67877393864983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread adoption of large language models (LLMs) in numerous
applications, the challenge of factuality and the propensity for hallucinations
raises significant concerns. To address this issue, particularly in
retrieval-augmented in-context learning, we introduce the hierarchical graph of
thoughts (HGOT), a structured, multi-layered graph approach designed to enhance
the retrieval of pertinent passages during in-context learning. The framework
utilizes the emergent planning capabilities of LLMs, employing the
divide-and-conquer strategy to break down complex queries into manageable
sub-queries. It refines self-consistency majority voting for answer selection,
which incorporates the recently proposed citation recall and precision metrics
to assess the quality of thoughts, linking an answer's credibility
intrinsically to the thought's quality. This methodology introduces a weighted
system in majority voting, prioritizing answers based on the citation quality
of their thoughts. Additionally, we propose a scoring mechanism for evaluating
retrieved passages, considering factors such as citation frequency and quality,
self-consistency confidence, and the retrieval module's ranking. Experiments
reveal that HGOT outperforms other retrieval-augmented in-context learning
methods, including Demonstrate-Search-Predict (DSP), ReAct, Self-Ask, and
Retrieve-then-Read on different datasets by as much as $7\%$, demonstrating its
efficacy in enhancing the factuality of LLMs.
- Abstract(参考訳): 多数のアプリケーションで大規模言語モデル(LLM)が広く採用されているため、事実性の課題と幻覚の正当性は重大な懸念を巻き起こす。
この問題に対処するために,特に検索型インコンテキスト学習において,インコンテキスト学習中に関連するパスの検索を強化するように設計された構造化多層グラフアプローチである階層的思考グラフ(hgot)を導入する。
このフレームワークは LLM の創発的な計画機能を活用し、複雑なクエリを管理可能なサブクエリに分割する分断/コンカマー戦略を採用している。
これは、最近提案された引用リコールと精度指標を組み込んで思考の質を評価し、回答の信頼性を本質的に思考の質に結びつけるものである。
この方法論は多数決で重み付けシステムを導入し、彼らの考えの引用品質に基づいて答えを優先順位付けする。
また, 引用頻度, 品質, 自己満足度, 検索モジュールのランキングなどの要因を考慮して, 検索パスの評価のためのスコアリング機構を提案する。
実験により、HGOTは、DSP(Demonstrate-Search-Predict)、ReAct、Self-Ask、Retrieve-then-Readなど、他の検索強化されたコンテキスト内学習手法よりも7\%高い性能を示し、LLMの事実性を高める効果を示している。
関連論文リスト
- Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。
このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。
実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文 参考訳(メタデータ) (2024-10-09T10:09:11Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Benchmarking Large Language Models in Complex Question Answering
Attribution using Knowledge Graphs [35.089203283068635]
属性を測定するための細かなカテゴリのセットを紹介し,CAQA(Complex Attributed Question Answering)ベンチマークを開発する。
分析の結果,既存の評価器は微粒な属性設定では性能が悪く,複雑な引用文の推論に弱点が認められることがわかった。
論文 参考訳(メタデータ) (2024-01-26T04:11:07Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。