Fugu-MT 論文翻訳(概要): HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation

論文の概要: HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation

arxiv url: http://arxiv.org/abs/2402.09390v2
Date: Tue, 2 Jul 2024 12:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 07:39:17.811795
Title: HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation
Title（参考訳）: HGOT: ファクチュアリティ評価における検索型インコンテキスト学習のための階層的思考グラフ
Authors: Yihao Fang, Stephen W. Thomas, Xiaodan Zhu,
Abstract要約: 本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
参考スコア（独自算出の注目度）: 20.178644251662316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the widespread adoption of large language models (LLMs) in numerous applications, the challenge of factuality and the propensity for hallucinations has emerged as a significant concern. To address this issue, particularly in retrieval-augmented in-context learning, we introduce the hierarchical graph of thoughts (HGOT), a structured, multi-layered graph approach designed to enhance the retrieval of pertinent passages during in-context learning. The framework utilizes the emergent planning capabilities of LLMs, employing the divide-and-conquer strategy to break down complex queries into manageable sub-queries. It refines self-consistency majority voting for answer selection, which incorporates the recently proposed citation recall and precision metrics to assess the quality of thoughts, linking an answer's credibility intrinsically to the thought's quality. This methodology introduces a weighted system in majority voting, prioritizing answers based on the citation quality of their thoughts. Additionally, we propose a scoring mechanism for evaluating retrieved passages, considering factors such as citation frequency and quality, self-consistency confidence, and the retrieval module's ranking. Experiments indicate that HGOT excels as a versatile approach, outperforming competing models in FEVER by up to $7\%$ and matching leading models such as Retrieve-then-Read in Open-SQuAD, and DSP in HotPotQA, demonstrating its efficacy in enhancing LLMs' factuality.
Abstract（参考訳）: 多くのアプリケーションで大規模言語モデル(LLM)が広く採用されているため、事実性の難しさと幻覚の正当性は重要な関心事となっている。この問題に対処するため,特に検索強化した文脈内学習において,階層的思考グラフ(HGOT,hierarchical graph of thoughts)を導入する。このフレームワークは LLM の創発的な計画機能を活用し、複雑なクエリを管理可能なサブクエリに分割する分断とコンカマーの戦略を採用している。それは、最近提案された引用リコールと精度の指標を取り入れて、思考の質を評価し、答えの信頼性を本質的に思考の質に結びつける、自己整合性の過半数投票を洗練させる。この方法論は、多数決において重み付けされたシステムを導入し、彼らの思考の引用品質に基づいて回答を優先順位付けする。さらに,引用頻度や品質,自己整合性信頼度,検索モジュールのランキングなどの要因を考慮して,検索されたパスを評価するためのスコアリング機構を提案する。実験の結果、HGOTは汎用的なアプローチとして優れており、FEVERの競合モデルよりも最大$7\%高い性能を示し、Open-SQuADのRetrieve-then-ReadやHotPotQAのDSPといった主要なモデルと一致する。

関連論文リスト

Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models [4.155649113742267]
ReQUESTAは認知学的に多様な多目的質問(MCQ)を生成するためのハイブリッドマルチエージェントフレームワークである本研究では,学術論文を用いた大規模読解学習における枠組みの評価を行った。その結果、ReQUESTA生成項目は、より困難であり、差別的であり、全体的な読解能力と強く一致していることがわかった。
論文参考訳（メタデータ） (2026-02-03T16:26:47Z)
Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。 EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。 EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文参考訳（メタデータ） (2025-12-23T08:14:44Z)
KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。 KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。 WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-12-10T17:45:42Z)
ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。 ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文参考訳（メタデータ） (2025-11-27T19:01:02Z)
Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models [4.064135211977999]
大規模言語モデル (LLMs) と視覚言語モデル (LVLMs) は複雑で多段階のクロスモーダルな常識推論タスクに苦しむ。我々は,LVLMの共通感覚推論能力を高める新しいアプローチであるコヒーレント・マルチモーダル推論フレームワーク(CMRF)を提案する。 CMRFは複雑なクエリを分解し、ステップバイステップの推論を生成し、エラーを自己修正することで人間の問題解決を模倣する。
論文参考訳（メタデータ） (2025-08-04T20:33:58Z)
Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-09T14:00:57Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs [25.800565994304847]
大きな言語モデルは印象的な推論能力を示してきたが、本質的には知識貯水池によって制限されている。 Retrieval-augmented reasoningは、LCMが外部リソースをクエリできるようにすることによって、この制限を緩和する。本稿では,新しい探索・復調思考のパラダイムを取り入れた強化学習フレームワークであるAutoRefineを提案する。
論文参考訳（メタデータ） (2025-05-16T14:11:29Z)
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文参考訳（メタデータ） (2025-04-07T06:55:15Z)
Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-03-28T17:59:54Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Confidence Diagram of Nonparametric Ranking for Uncertainty Assessment in Large Language Models Evaluation [20.022623972491733]
大きな言語モデル(LLM)のランク付けは、$N$のポリシーに基づいてアライメントを改善する効果的なツールであることが証明されている。本稿では,言語モデルのランキングの中から仮説テストのための新しい推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-07T02:34:30Z)
Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文参考訳（メタデータ） (2024-11-25T06:48:38Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文参考訳（メタデータ） (2024-10-09T10:09:11Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Benchmarking Large Language Models in Complex Question Answering Attribution using Knowledge Graphs [35.089203283068635]
属性を測定するための細かなカテゴリのセットを紹介し,CAQA(Complex Attributed Question Answering)ベンチマークを開発する。分析の結果,既存の評価器は微粒な属性設定では性能が悪く,複雑な引用文の推論に弱点が認められることがわかった。
論文参考訳（メタデータ） (2024-01-26T04:11:07Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは予測分布を用いて最大限の確率で書き起こしを求める最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。細調整されたASRモデルの性能を向上させる復号法を提案する。
論文参考訳（メタデータ） (2022-12-27T06:42:26Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。