論文の概要: Hallucination-Resistant, Domain-Specific Research Assistant with Self-Evaluation and Vector-Grounded Retrieval
- arxiv url: http://arxiv.org/abs/2510.02326v1
- Date: Thu, 25 Sep 2025 21:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.777107
- Title: Hallucination-Resistant, Domain-Specific Research Assistant with Self-Evaluation and Vector-Grounded Retrieval
- Title(参考訳): 自己評価とベクトル囲み検索を併用した幻覚耐性ドメイン特化研究アシスタント
- Authors: Vivek Bhavsar, Joseph Ereifej, Aravanan Gurusami,
- Abstract要約: RA-FSMはGPTベースの研究アシスタントであり、有限状態制御ループで生成をラップする。
コントローラはスコープ外クエリをフィルタリングし、応答可能性を評価し、質問を分解し、必要なときにのみ検索をトリガーする。
本稿では,フォトニクスのためのシステムを実装し,解析的推論,数値解析,方法論的批判,比較合成,事実抽出,アプリケーション設計の6つのカテゴリで評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models accelerate literature synthesis but can hallucinate and mis-cite, limiting their usefulness in expert workflows. We present RA-FSM (Research Assistant - Finite State Machine), a modular GPT-based research assistant that wraps generation in a finite-state control loop: Relevance -> Confidence -> Knowledge. The system is grounded in vector retrieval and a deterministic citation pipeline. The controller filters out-of-scope queries, scores answerability, decomposes questions, and triggers retrieval only when needed, and emits answers with confidence labels and in-corpus, de-duplicated references. A ranked-tier ingestion workflow constructs a domain knowledge base from journals, conferences, indices, preprints, and patents, writing both to a dense vector index and to a relational store of normalized metrics. We implement the system for photonics and evaluate it on six task categories: analytical reasoning, numerical analysis, methodological critique, comparative synthesis, factual extraction, and application design. In blinded A/B reviews, domain experts prefer RA-FSM to both a strong Notebook LM (NLM) and a vanilla Default GPT API call single-pass baseline, citing stronger boundary-condition handling and more defensible evidence use. Coverage and novelty analyses indicate that RA-FSM explores beyond the NLM while incurring tunable latency and cost overheads. The design emphasizes transparent, well-cited answers for high-stakes technical work and is generalizable to other scientific domains.
- Abstract(参考訳): 大規模な言語モデルは文学合成を加速するが、幻覚と誤引用をし、専門家のワークフローにおける有用性を制限できる。
RA-FSM(Research Assistant - Finite State Machine)は,有限状態制御ループで生成をラップするモジュール型GPTベースの研究アシスタントである。
このシステムはベクトル検索と決定論的引用パイプラインに基礎を置いている。
コントローラはスコープ外クエリをフィルタリングし、応答可能性を評価し、質問を分解し、必要なときにのみ検索をトリガーし、信頼ラベルと非重複参照で回答を出力する。
ランク階層の取り込みワークフローは、ジャーナル、会議、インデックス、プレプリント、特許からドメイン知識ベースを構築し、密度の高いベクトルインデックスと正規化されたメトリクスのリレーショナルストアに書き込む。
本稿では,フォトニクスのためのシステムを実装し,解析的推論,数値解析,方法論的批判,比較合成,事実抽出,アプリケーション設計の6つのカテゴリで評価する。
盲目なA/Bレビューでは、ドメインの専門家は、強いノートブックLM(NLM)とバニラのデフォルトGPT APIの両方が単一のパスベースラインを呼び出すのよりもRA-FSMを好む。
カバレッジとノベルティ分析は、RA-FSMがNLMを超えて、調整可能なレイテンシとコストオーバーヘッドを発生していることを示している。
この設計は、高度な技術的作業に対する透明で、よく暗黙の回答を強調し、他の科学分野にも一般化可能である。
関連論文リスト
- Exploratory Semantic Reliability Analysis of Wind Turbine Maintenance Logs using Large Language Models [0.0]
本稿では、より複雑な推論タスクに現代大規模言語モデル(LLM)を活用する際のギャップについて論じる。
我々は,LLMを用いた探索的フレームワークを導入し,分類を超えて意味分析を行う。
以上の結果から,LSMは,テキスト情報や行動可能な専門家レベルの仮説を合成するためにラベル付けを超えて,強力な"信頼性共パイロット"として機能できることが示唆された。
論文 参考訳(メタデータ) (2025-09-26T14:00:20Z) - Learned Hallucination Detection in Black-Box LLMs using Token-level Entropy Production Rate [0.19676943624884313]
大きな言語モデル(LLM)における幻覚は、質問回答タスクの出力が現実世界の信頼性を著しく損なう。
本稿では,データアクセスに制限のあるシナリオに特化して設計された,ロバストでワンショットの幻覚検出のための応用手法を提案する。
提案手法は,非グリーディ復号時に生成したこれらのログ確率から直接不確実性指標を導出する。
論文 参考訳(メタデータ) (2025-09-01T13:34:21Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Causal Retrieval with Semantic Consideration [6.967392207053045]
本稿では,2つの目的(意味と因果関係)で訓練された検索モデルであるCAWAIを提案する。
実験の結果,CAWAIは多様な因果検索タスクにおいて,様々なモデルよりも優れていた。
また,CAWAIは科学領域のQAタスクに対して強いゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-04-07T03:04:31Z) - Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - Prompt-RAG: Pioneering Vector Embedding-Free Retrieval-Augmented
Generation in Niche Domains, Exemplified by Korean Medicine [5.120567378386615]
ニッチドメインにおける生成型大規模言語モデル(LLM)の性能を高めるために,自然言語プロンプトに基づく検索拡張(Prompt-RAG)を提案する。
我々は,韓国医学(KM)および標準医学(CM)文書のベクトル埋め込みを比較し,KM文書埋め込みがトークン重複とより相関し,人為的な文書関連性が低いことを見出した。
その結果,Prompt-RAG は ChatGPT や従来のベクトル埋め込み型RAG などの既存モデルよりも関連性,情報性に優れていた。
論文 参考訳(メタデータ) (2024-01-20T14:59:43Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。