論文の概要: Using a Human-AI Teaming Approach to Create and Curate Scientific Datasets with the SCILIRE System
- arxiv url: http://arxiv.org/abs/2603.12638v1
- Date: Fri, 13 Mar 2026 04:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.899954
- Title: Using a Human-AI Teaming Approach to Create and Curate Scientific Datasets with the SCILIRE System
- Title(参考訳): SCILIREシステムを用いた人間とAIの連携による科学データセットの作成と評価
- Authors: Necva Bölücü, Jessica Irons, Changhyun Lee, Brian Jin, Maciej Rybinski, Huichen Yang, Andreas Duenser, Stephen Wan,
- Abstract要約: 本稿では,科学文献からデータセットを作成するシステムであるSCILIREを紹介する。
SCILIREは、データの検証とキュレーションのためのHuman-AIコラボレーションの原則に基づいて設計されている。
実世界のケーススタディと組み合わせた内在的なベンチマーク結果を用いて,本設計の評価を行った。
- 参考スコア(独自算出の注目度): 7.533815952513051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of scientific literature has made manual extraction of structured knowledge increasingly impractical. To address this challenge, we introduce SCILIRE, a system for creating datasets from scientific literature. SCILIRE has been designed around Human-AI teaming principles centred on workflows for verifying and curating data. It facilitates an iterative workflow in which researchers can review and correct AI outputs. Furthermore, this interaction is used as a feedback signal to improve future LLM-based inference. We evaluate our design using a combination of intrinsic benchmarking outcomes together with real-world case studies across multiple domains. The results demonstrate that SCILIRE improves extraction fidelity and facilitates efficient dataset creation.
- Abstract(参考訳): 科学文献の急速な成長は、構造化された知識の手作業による抽出をますます非現実的なものにしている。
この課題に対処するために、科学文献からデータセットを作成するシステムであるSCILIREを紹介する。
SCILIREは、データの検証とキュレーションのためのワークフローを中心に、Human-AIコラボレーションの原則を中心に設計されている。
研究者がAI出力をレビューし、修正できる反復的なワークフローを促進する。
さらに、この相互作用は将来のLCMベースの推論を改善するためのフィードバック信号として使用される。
複数のドメインにわたる実世界のケーススタディと、本質的なベンチマーク結果の組み合わせによる設計の評価を行った。
その結果,SCILIREは抽出精度を向上し,効率的なデータセット作成を容易にすることがわかった。
関連論文リスト
- Understanding Usage and Engagement in AI-Powered Scientific Research Tools: The Asta Interaction Dataset [47.98539809308384]
我々は,20万以上のユーザクエリとインタラクションログからなる大規模リソースであるAsta Interactionデータセットを分析した。
クエリパターン、エンゲージメントの振る舞い、使用方法のエクスペリエンスによる進化を特徴付けます。
我々は、匿名化されたデータセットと分析を新しいクエリ分類でリリースし、現実世界のAI研究アシスタントの将来の設計を知らせる。
論文 参考訳(メタデータ) (2026-02-26T18:40:28Z) - Towards Agentic Intelligence for Materials Science [73.4576385477731]
この調査は、コーパスキュレーションからプレトレーニングから、シミュレーションと実験プラットフォームに面した目標条件付きエージェントまで、ユニークなパイプライン中心の視点を推し進める。
コミュニティをブリッジし、参照の共有フレームを確立するために、まず、AIと材料科学をまたいだ用語、評価、ワークフローの段階を整列する統合レンズを提示する。
論文 参考訳(メタデータ) (2026-01-29T23:48:43Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。
多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文 参考訳(メタデータ) (2025-09-14T12:20:39Z) - Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。
我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。
SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文 参考訳(メタデータ) (2025-01-18T22:34:41Z) - Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search [25.108044778194536]
命令を効率的に合成するスケーラブルなフレームワークであるIDEA-MCTS (Instruction Data Enhancement using Monte Carlo Tree Search)を紹介した。
木探索と評価モデルにより、各命令を効率よくガイドして高品質な形式に進化させ、命令の微調整を支援することができる。
実験の結果、IDEA-MCTSはシードインストラクションデータを大幅に向上させ、品質、多様性、複雑さの平均評価スコアを2.19から3.81に引き上げた。
論文 参考訳(メタデータ) (2024-10-14T11:28:30Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - KAXAI: An Integrated Environment for Knowledge Analysis and Explainable
AI [0.0]
本稿では,AutoML,XAI,合成データ生成を統合したシステムの設計について述べる。
このシステムは、複雑度を抽象化し、高いユーザビリティを提供しながら、機械学習のパワーをナビゲートし活用することができる。
論文 参考訳(メタデータ) (2023-12-30T10:20:47Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。