論文の概要: STELLA: Self-Reflective Terminology-Aware Framework for Building an Aerospace Information Retrieval Benchmark
- arxiv url: http://arxiv.org/abs/2601.03496v1
- Date: Wed, 07 Jan 2026 01:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.103993
- Title: STELLA: Self-Reflective Terminology-Aware Framework for Building an Aerospace Information Retrieval Benchmark
- Title(参考訳): STELLA: 航空情報検索ベンチマーク構築のための自己回帰的用語認識フレームワーク
- Authors: Bongmin Kim,
- Abstract要約: STELLAベンチマークはNASA Technical Reports Server (NTRS) の文書から構築された航空宇宙固有のIR評価セットである。
フレームワークは2種類のクエリを生成する: Concordant Query (TCQ)。
STELLAベンチマークにおける7つの埋め込みモデルの評価は、大きなデコーダベースの埋め込みモデルが最も強力なセマンティック理解を示すことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tasks in the aerospace industry heavily rely on searching and reusing large volumes of technical documents, yet there is no public information retrieval (IR) benchmark that reflects the terminology- and query-intent characteristics of this domain. To address this gap, this paper proposes the STELLA (Self-Reflective TErminoLogy-Aware Framework for BuiLding an Aerospace Information Retrieval Benchmark) framework. Using this framework, we introduce the STELLA benchmark, an aerospace-specific IR evaluation set constructed from NASA Technical Reports Server (NTRS) documents via a systematic pipeline that comprises document layout detection, passage chunking, terminology dictionary construction, synthetic query generation, and cross-lingual extension. The framework generates two types of queries: the Terminology Concordant Query (TCQ), which includes the terminology verbatim to evaluate lexical matching, and the Terminology Agnostic Query (TAQ), which utilizes the terminology's description to assess semantic matching. This enables a disentangled evaluation of the lexical and semantic matching capabilities of embedding models. In addition, we combine Chain-of-Density (CoD) and the Self-Reflection method with query generation to improve quality and implement a hybrid cross-lingual extension that reflects real user querying practices. Evaluation of seven embedding models on the STELLA benchmark shows that large decoder-based embedding models exhibit the strongest semantic understanding, while lexical matching methods such as BM25 remain highly competitive in domains where exact lexical matching technical term is crucial. The STELLA benchmark provides a reproducible foundation for reliable performance evaluation and improvement of embedding models in aerospace-domain IR tasks. The STELLA benchmark can be found in https://huggingface.co/datasets/telepix/STELLA.
- Abstract(参考訳): 航空宇宙業界の課題は、大量の技術文書の検索と再利用に大きく依存しているが、この領域の用語とクエリインテントの特徴を反映した公開情報検索(IR)ベンチマークは存在しない。
このギャップに対処するため,本稿ではSTELLA(Self-Reflective TErminoLogy-Aware Framework for BuiLding an Aerospace Information Retrieval Benchmark)フレームワークを提案する。
このフレームワークを用いて,NASA Technical Reports Server (NTRS) 文書から構築された航空宇宙固有のIR評価セットであるSTELLAベンチマークを,文書レイアウトの検出,通過チャンク,用語辞書構築,合成クエリ生成,言語間拡張を含む系統的なパイプラインを通じて導入する。
このフレームワークは2種類のクエリを生成する。Terminology Concordant Query (TCQ) は語彙マッチングを評価するための用語動詞を含むもので、Terminology Agnostic Query (TAQ) は意味マッチングを評価するための用語の記述を利用する。
これにより、埋め込みモデルの語彙的および意味的マッチング能力を非交互に評価することができる。
さらに、Chain-of-Density(CoD)とSelf-Reflection(セルフリフレクション)メソッドを組み合わせてクエリ生成を行い、品質を改善し、実際のユーザクエリのプラクティスを反映したハイブリッドな言語間拡張を実装します。
STELLAベンチマークによる7つの埋め込みモデルの評価は、大きなデコーダベースの埋め込みモデルが最も強力な意味理解を示し、一方、BM25のような語彙マッチング手法は、正確な語彙マッチング技術用語が不可欠である領域において高い競争力を維持していることを示している。
STELLAベンチマークは、信頼性の高い性能評価と航空宇宙領域IRタスクへの埋め込みモデルの改善のための再現可能な基盤を提供する。
STELLAベンチマークはhttps://huggingface.co/datasets/telepix/STELLAで見ることができる。
関連論文リスト
- AgenticTagger: Structured Item Representation for Recommendation with LLM Agents [58.12004213978182]
AgenticTagger は LLM をクエリして,項目をテキスト記述子のシーケンスで表現するフレームワークである。
アイテムコーパス内の語彙を効果的かつ効率的に基底化するために,多エージェント反射機構を設計する。
公開データとプライベートデータの実験では、AgenticTaggerがさまざまなレコメンデーションシナリオに一貫した改善をもたらしている。
論文 参考訳(メタデータ) (2026-02-05T18:01:37Z) - Disco-RAG: Discourse-Aware Retrieval-Augmented Generation [81.53888908988756]
生成プロセスに談話信号を注入する談話認識フレームワークであるディスコRAGを提案する。
提案手法は,チャンク内談話木を構築し,局所階層を捕捉し,クロスパスコヒーレンスをモデル化するためのチャンク間修辞グラフを構築する。
質問応答と長期文書要約ベンチマークの実験から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-07T20:32:50Z) - PROFASR-BENCH: A Benchmark for Context-Conditioned ASR in High-Stakes Professional Speech [0.0]
ProfASR-Benchは、金融、医療、法律、技術全般にわたる高度な応用のためのプロフェッショナルトーク評価スイートである。
それぞれの例は、自然言語プロンプトとエンティティリッチなターゲット発話をペアリングし、コンテキスト条件認識の制御された計測を可能にする。
論文 参考訳(メタデータ) (2025-12-29T18:43:23Z) - Retrieval Augmented Generation (RAG) for Fintech: Agentic Design and Evaluation [0.16754194618631593]
本稿では,ドメイン固有かつ密度の高い用語問題に対処するエージェントRAGアーキテクチャを提案する。
企業知識ベースから85の質問-回答-参照の3分の1をキュレートしたデータセットを用いて,標準的なRAGベースラインに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-10-29T13:41:36Z) - Hallucination-Resistant, Domain-Specific Research Assistant with Self-Evaluation and Vector-Grounded Retrieval [0.0]
RA-FSMはGPTベースの研究アシスタントであり、有限状態制御ループで生成をラップする。
コントローラはスコープ外クエリをフィルタリングし、応答可能性を評価し、質問を分解し、必要なときにのみ検索をトリガーする。
本稿では,フォトニクスのためのシステムを実装し,解析的推論,数値解析,方法論的批判,比較合成,事実抽出,アプリケーション設計の6つのカテゴリで評価する。
論文 参考訳(メタデータ) (2025-09-25T21:35:46Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios [14.336896748878921]
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。
このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。
1)IRSCベンチマーク,2)SSCIとRCCIメトリクス,3)埋め込みモデルの言語間制限に関する洞察などです。
論文 参考訳(メタデータ) (2024-09-24T05:39:53Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。