論文の概要: STELLA: Self-Reflective Terminology-Aware Framework for Building an Aerospace Information Retrieval Benchmark
- arxiv url: http://arxiv.org/abs/2601.03496v1
- Date: Wed, 07 Jan 2026 01:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.103993
- Title: STELLA: Self-Reflective Terminology-Aware Framework for Building an Aerospace Information Retrieval Benchmark
- Title(参考訳): STELLA: 航空情報検索ベンチマーク構築のための自己回帰的用語認識フレームワーク
- Authors: Bongmin Kim,
- Abstract要約: STELLAベンチマークはNASA Technical Reports Server (NTRS) の文書から構築された航空宇宙固有のIR評価セットである。
フレームワークは2種類のクエリを生成する: Concordant Query (TCQ)。
STELLAベンチマークにおける7つの埋め込みモデルの評価は、大きなデコーダベースの埋め込みモデルが最も強力なセマンティック理解を示すことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tasks in the aerospace industry heavily rely on searching and reusing large volumes of technical documents, yet there is no public information retrieval (IR) benchmark that reflects the terminology- and query-intent characteristics of this domain. To address this gap, this paper proposes the STELLA (Self-Reflective TErminoLogy-Aware Framework for BuiLding an Aerospace Information Retrieval Benchmark) framework. Using this framework, we introduce the STELLA benchmark, an aerospace-specific IR evaluation set constructed from NASA Technical Reports Server (NTRS) documents via a systematic pipeline that comprises document layout detection, passage chunking, terminology dictionary construction, synthetic query generation, and cross-lingual extension. The framework generates two types of queries: the Terminology Concordant Query (TCQ), which includes the terminology verbatim to evaluate lexical matching, and the Terminology Agnostic Query (TAQ), which utilizes the terminology's description to assess semantic matching. This enables a disentangled evaluation of the lexical and semantic matching capabilities of embedding models. In addition, we combine Chain-of-Density (CoD) and the Self-Reflection method with query generation to improve quality and implement a hybrid cross-lingual extension that reflects real user querying practices. Evaluation of seven embedding models on the STELLA benchmark shows that large decoder-based embedding models exhibit the strongest semantic understanding, while lexical matching methods such as BM25 remain highly competitive in domains where exact lexical matching technical term is crucial. The STELLA benchmark provides a reproducible foundation for reliable performance evaluation and improvement of embedding models in aerospace-domain IR tasks. The STELLA benchmark can be found in https://huggingface.co/datasets/telepix/STELLA.
- Abstract(参考訳): 航空宇宙業界の課題は、大量の技術文書の検索と再利用に大きく依存しているが、この領域の用語とクエリインテントの特徴を反映した公開情報検索(IR)ベンチマークは存在しない。
このギャップに対処するため,本稿ではSTELLA(Self-Reflective TErminoLogy-Aware Framework for BuiLding an Aerospace Information Retrieval Benchmark)フレームワークを提案する。
このフレームワークを用いて,NASA Technical Reports Server (NTRS) 文書から構築された航空宇宙固有のIR評価セットであるSTELLAベンチマークを,文書レイアウトの検出,通過チャンク,用語辞書構築,合成クエリ生成,言語間拡張を含む系統的なパイプラインを通じて導入する。
このフレームワークは2種類のクエリを生成する。Terminology Concordant Query (TCQ) は語彙マッチングを評価するための用語動詞を含むもので、Terminology Agnostic Query (TAQ) は意味マッチングを評価するための用語の記述を利用する。
これにより、埋め込みモデルの語彙的および意味的マッチング能力を非交互に評価することができる。
さらに、Chain-of-Density(CoD)とSelf-Reflection(セルフリフレクション)メソッドを組み合わせてクエリ生成を行い、品質を改善し、実際のユーザクエリのプラクティスを反映したハイブリッドな言語間拡張を実装します。
STELLAベンチマークによる7つの埋め込みモデルの評価は、大きなデコーダベースの埋め込みモデルが最も強力な意味理解を示し、一方、BM25のような語彙マッチング手法は、正確な語彙マッチング技術用語が不可欠である領域において高い競争力を維持していることを示している。
STELLAベンチマークは、信頼性の高い性能評価と航空宇宙領域IRタスクへの埋め込みモデルの改善のための再現可能な基盤を提供する。
STELLAベンチマークはhttps://huggingface.co/datasets/telepix/STELLAで見ることができる。
関連論文リスト
- PROFASR-BENCH: A Benchmark for Context-Conditioned ASR in High-Stakes Professional Speech [0.0]
ProfASR-Benchは、金融、医療、法律、技術全般にわたる高度な応用のためのプロフェッショナルトーク評価スイートである。
それぞれの例は、自然言語プロンプトとエンティティリッチなターゲット発話をペアリングし、コンテキスト条件認識の制御された計測を可能にする。
論文 参考訳(メタデータ) (2025-12-29T18:43:23Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios [14.336896748878921]
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。
このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。
1)IRSCベンチマーク,2)SSCIとRCCIメトリクス,3)埋め込みモデルの言語間制限に関する洞察などです。
論文 参考訳(メタデータ) (2024-09-24T05:39:53Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。