論文の概要: RATE: An LLM-Powered Retrieval Augmented Generation Technology-Extraction Pipeline
- arxiv url: http://arxiv.org/abs/2507.21125v1
- Date: Sat, 19 Jul 2025 19:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.902974
- Title: RATE: An LLM-Powered Retrieval Augmented Generation Technology-Extraction Pipeline
- Title(参考訳): RATE: LLMを利用した検索型検索生成技術-抽出パイプライン
- Authors: Karan Mirhosseini, Arya Aftab, Alireza Sheikh,
- Abstract要約: 本稿では,RATE(Retrieval Augmented Technology extract)を科学文献から自動抽出するパイプラインとして紹介する。
我々は脳-コンピュータインタフェース(BCI)と拡張現実性(XR)に焦点を当てた678の論文でその使用を実証した。
評価のため,70個のランダムな項目のゴールド標準技術データセットを専門家がキュレートした。
- 参考スコア(独自算出の注目度): 2.2393948001477457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an era of radical technology transformations, technology maps play a crucial role in enhancing decision making. These maps heavily rely on automated methods of technology extraction. This paper introduces Retrieval Augmented Technology Extraction (RATE), a Large Language Model (LLM) based pipeline for automated technology extraction from scientific literature. RATE combines Retrieval Augmented Generation (RAG) with multi-definition LLM-based validation. This hybrid method results in high recall in candidate generation alongside with high precision in candidate filtering. While the pipeline is designed to be general and widely applicable, we demonstrate its use on 678 research articles focused on Brain-Computer Interfaces (BCIs) and Extended Reality (XR) as a case study. Consequently, The validated technology terms by RATE were mapped into a co-occurrence network, revealing thematic clusters and structural features of the research landscape. For the purpose of evaluation, a gold standard dataset of technologies in 70 selected random articles had been curated by the experts. In addition, a technology extraction model based on Bidirectional Encoder Representations of Transformers (BERT) was used as a comparative method. RATE achieved F1-score of 91.27%, Significantly outperforming BERT with F1-score of 53.73%. Our findings highlight the promise of definition-driven LLM methods for technology extraction and mapping. They also offer new insights into emerging trends within the BCI-XR field. The source code is available https://github.com/AryaAftab/RATE
- Abstract(参考訳): 急進的な技術変革の時代において、技術地図は意思決定の強化において重要な役割を担っている。
これらの地図は、技術抽出の自動化方法に大きく依存している。
本稿では,Large Language Model (LLM) に基づく学術文献からの自動抽出のためのパイプラインであるRetrieval Augmented Technology extract (RATE)を紹介する。
RATEは、Retrieval Augmented Generation (RAG)とマルチ定義LDMベースの検証を組み合わせる。
このハイブリッド手法は、候補生成における高いリコールと、候補フィルタリングの高精度化をもたらす。
パイプラインは汎用的で広く適用できるように設計されているが、ケーススタディとしてBrain-Computer Interfaces (BCI)とExtended Reality (XR)に焦点を当てた678の研究論文を実演する。
その結果、RATEによる検証済みの技術用語を共起ネットワークにマッピングし、テーマクラスタと研究ランドスケープの構造的特徴を明らかにした。
評価のため,70個のランダムな項目のゴールド標準技術データセットを専門家がキュレートした。
さらに,変換器の双方向エンコーダ表現(BERT)に基づく技術抽出モデルを比較手法として用いた。
RATEはF1スコアの91.27%を達成し、F1スコアの53.73%でBERTを上回った。
本研究は, 技術抽出・マッピングにおけるLLM法の適用性を明らかにするものである。
また、BCI-XR分野における新興トレンドに関する新たな洞察も提供する。
ソースコードはhttps://github.com/AryaAftab/RATEで入手できる。
関連論文リスト
- Reinforcement Learning-based Feature Generation Algorithm for Scientific Data [6.449769135199048]
特徴生成(FG)は、高次特徴の組み合わせを構築し、冗長な特徴を取り除くことにより、元のデータの予測可能性を高めることを目的としている。
本稿では、マルチエージェント特徴生成(MAFG)フレームワークを提案する。具体的には、マルチエージェントは、協調的に数学的変換方程式を構築し、高情報コンテンツを禁止した特徴組合せを合成し、識別し、強化学習機構を利用して戦略を進化させる。
論文 参考訳(メタデータ) (2025-07-04T11:52:09Z) - HiLO: High-Level Object Fusion for Autonomous Driving using Transformers [0.125828876338076]
高レベル融合法は、より低い計算要求で堅牢性を提供する。
本稿では,適応カルマンフィルタ (AKF) を改良し,HILOと呼ばれる新しいトランスフォーマーに基づく高レベルオブジェクト融合法を提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:35Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - Understanding 6G through Language Models: A Case Study on LLM-aided Structured Entity Extraction in Telecom Domain [55.627646392044824]
本研究では,テレコムの文脈から構造化されたエンティティを抽出することを目的とした,新しい言語モデルに基づく情報抽出手法を提案する。
提案するテレコム構造化エンティティ抽出(TeleSEE)技術は,エンティティタイプと属性キーの予測にトークン効率のよい表現手法を適用し,出力トークンの数を削減し,予測精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2025-05-20T21:00:08Z) - Evaluation of Artificial Intelligence Methods for Lead Time Prediction in Non-Cycled Areas of Automotive Production [1.3499500088995464]
本研究では,自動車生産環境における人工知能適用の有効性について検討した。
データ構造は、コンテキストの特徴を識別するために分析され、ワンホット符号化を使用して前処理される。
この研究は、高度に可変された生産データにAIメソッドを効果的に適用し、ビジネス価値を付加できることを実証している。
論文 参考訳(メタデータ) (2025-01-13T13:28:03Z) - Multimodal large language model for wheat breeding: a new exploration of smart breeding [13.849056190321189]
繁殖の多分野的な性質は、知識採掘に技術的障壁と効率性の課題をもたらした。
本研究では、教師付き微調整(SFT)、検索強化生成(RAG)、人間フィードバック(RLHF)技術による強化学習を用いて、クロスドメイン知識をMLLMに注入した。
WBLMは、表現型推定、環境ストレスアセスメント、ターゲット胚細胞スクリーニング、栽培技術推奨、種価照会タスクのための専門的な意思決定支援回答を生成することができる。
論文 参考訳(メタデータ) (2024-11-20T04:47:42Z) - GenDFIR: Advancing Cyber Incident Timeline Analysis Through Retrieval Augmented Generation and Large Language Models [0.08192907805418582]
デジタル法医学とインシデント応答(DFIR)におけるサイバータイムライン解析の重要性
伝統的な手法は、証拠の識別と特徴抽出のためにログやメタデータのような構造化された成果物に依存している。
本稿では,大規模言語モデル(LLM)を利用したフレームワークであるGenDFIR,特にゼロショットモードのLlama 3.1 8Bについて紹介し,Retrieval-Augmented Generation (RAG)エージェントと統合する。
論文 参考訳(メタデータ) (2024-09-04T09:46:33Z) - Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文 参考訳(メタデータ) (2024-06-13T23:08:06Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。