論文の概要: SCI-IDEA: Context-Aware Scientific Ideation Using Token and Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2503.19257v1
- Date: Tue, 25 Mar 2025 01:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 02:13:56.34641
- Title: SCI-IDEA: Context-Aware Scientific Ideation Using Token and Sentence Embeddings
- Title(参考訳): SCI-IDEA:TokenとSentence Embeddingを用いた文脈認識科学思想
- Authors: Farhana Keya, Gollam Rabby, Prasenjit Mitra, Sahar Vahdati, Sören Auer, Yaser Jaradeh,
- Abstract要約: SCI-IDEA は LLM のプロンプト戦略と Aha Moment 検出を, アイデアの洗練に活用するフレームワークである。
実験では、SCI-IDEAの有効性を評価し、6.84、6.86、6.89、および6.84(新規性、興奮、実現可能性、有効性)の平均スコアを達成した。
また、知的信用、潜在的な誤用、人間の創造性とAIによる思考のバランスといった倫理的考察にも取り組んでいます。
- 参考スコア(独自算出の注目度): 3.8267663001364847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every scientific discovery starts with an idea inspired by prior work, interdisciplinary concepts, and emerging challenges. Recent advancements in large language models (LLMs) trained on scientific corpora have driven interest in AI-supported idea generation. However, generating context-aware, high-quality, and innovative ideas remains challenging. We introduce SCI-IDEA, a framework that uses LLM prompting strategies and Aha Moment detection for iterative idea refinement. SCI-IDEA extracts essential facets from research publications, assessing generated ideas on novelty, excitement, feasibility, and effectiveness. Comprehensive experiments validate SCI-IDEA's effectiveness, achieving average scores of 6.84, 6.86, 6.89, and 6.84 (on a 1-10 scale) across novelty, excitement, feasibility, and effectiveness, respectively. Evaluations employed GPT-4o, GPT-4.5, DeepSeek-32B (each under 2-shot prompting), and DeepSeek-70B (3-shot prompting), with token-level embeddings used for Aha Moment detection. Similarly, it achieves scores of 6.87, 6.86, 6.83, and 6.87 using GPT-4o under 5-shot prompting, GPT-4.5 under 3-shot prompting, DeepSeek-32B under zero-shot chain-of-thought prompting, and DeepSeek-70B under 5-shot prompting with sentence-level embeddings. We also address ethical considerations such as intellectual credit, potential misuse, and balancing human creativity with AI-driven ideation. Our results highlight SCI-IDEA's potential to facilitate the structured and flexible exploration of context-aware scientific ideas, supporting innovation while maintaining ethical standards.
- Abstract(参考訳): すべての科学的発見は、先行研究、学際的概念、そして新たな課題にインスパイアされたアイデアから始まります。
科学コーパスで訓練された大規模言語モデル(LLM)の最近の進歩は、AIによるアイデア生成への関心を喚起している。
しかし、コンテキスト対応、高品質、革新的なアイデアを生み出すことは依然として困難である。
SCI-IDEA は LLM のプロンプト戦略と Aha Moment 検出を反復的アイデアの洗練に利用するフレームワークである。
SCI-IDEAは研究出版物から必須のファセットを抽出し、新規性、興奮、実現可能性、有効性に関する創発的アイデアを評価する。
総合的な実験により、SCI-IDEAの有効性が検証され、それぞれ6.84、6.86、6.89、および6.84(それぞれ1-10スケール)が新規性、興奮性、実現可能性、有効性で達成された。
GPT-4o、GPT-4.5、DeepSeek-32B(いずれも2ショットプロンプト)、DeepSeek-70B(3ショットプロンプト)、トークンレベルの埋め込みをAha Moment検出に使用した。
同様に、5ショットプロンプトで6.87, 6.86, 6.83, 6.87, 5ショットプロンプトでGPT-4o, 3ショットプロンプトでGPT-4.5, ゼロショットチェインオブシントプロンプトでDeepSeek-32B, 文レベルの埋め込みで5ショットプロンプトでDeepSeek-70Bを達成している。
また、知的信用、潜在的な誤用、人間の創造性とAIによる思考のバランスといった倫理的考察にも取り組んでいます。
本研究は,SCI-IDEAが環境に配慮した科学的概念の構造化・柔軟な探索を促進し,倫理基準を維持しつつイノベーションを支援する可能性を強調した。
関連論文リスト
- DeepInnovator: Triggering the Innovative Capabilities of LLMs [41.60038455664918]
DeepInnovatorは、大規模言語モデル(LLM)の革新的な機能を引き出すために設計されたトレーニングフレームワークである。
我々は、未ラベルの学術文献の膨大なコーパスから構造化された研究知識を抽出するために、自動データ抽出パイプラインを構築した。
本稿では,研究アイデアを連続的に予測し,評価し,改良する反復的なプロセスとして,研究アイデアの生成をモデル化する,次世代のアイデア予測のトレーニングパラダイムを紹介する。
論文 参考訳(メタデータ) (2026-02-21T18:07:18Z) - Accelerating Scientific Research with Gemini: Case Studies and Common Techniques [105.15622072347811]
大規模言語モデル(LLM)は、科学研究を加速するための新たな道を開いた。
先進的なAIモデルとどのように協力したかを示すケーススタディのコレクションを提示する。
論文 参考訳(メタデータ) (2026-02-03T18:56:17Z) - HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。
HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文 参考訳(メタデータ) (2025-12-28T12:08:05Z) - Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - Deep Ideation: Designing LLM Agents to Generate Novel Research Ideas on Scientific Concept Network [9.317340414316446]
本稿では,キーワード共起関係と文脈関係をキャプチャする科学ネットワークを統合する枠組みを提案する。
現実のレビュアーのフィードバックに基づいて訓練された批評家エンジンは、アイデアの新規性と実現可能性に関する継続的なフィードバックを提供することによって、プロセスをガイドする。
当社のアプローチでは,他の手法に比べて10.67%の品質向上を実現しています。
論文 参考訳(メタデータ) (2025-11-04T04:00:20Z) - The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas [90.26363107905344]
良いアイデアは単に斬新なものではなく、実行後により良い研究がもたらされるべきである。
AIが生み出すアイデアがより良い研究成果をもたらすかどうかをテストするために、我々は実行研究を行う。
実行前後の同じアイデアのレビュースコアを比較すると、LLM生成のアイデアのスコアは専門家によるアイデアよりも大幅に減少する。
論文 参考訳(メタデータ) (2025-06-25T19:47:23Z) - The Budget AI Researcher and the Power of RAG Chains [4.797627592793464]
研究アイデア生成への現在のアプローチは、しばしばジェネリック・大型言語モデル(LLM)に依存している。
私たちのフレームワークであるThe Budget AI Researcherは、検索強化ジェネレーションチェーン、ベクトルデータベース、トピック誘導ペアリングを使用して、数百の機械学習論文の概念を再結合します。
このシステムは、機械学習の広大なサブフィールドにまたがる9つの主要なAIカンファレンスから論文を取り込み、それらを階層的なトピックツリーに整理する。
論文 参考訳(メタデータ) (2025-06-14T02:40:35Z) - Harnessing Large Language Models for Scientific Novelty Detection [49.10608128661251]
科学的ノベルティ検出(ND)のための大規模言語モデル(LLM)を提案する。
そこで本研究では,LLMからアイデアレベルの知識を抽出し,ライトウェイトなレトリバーを訓練することを提案する。
実験の結果,提案手法は,アイデア検索やNDタスクのためのベンチマークデータセットにおいて,常に他よりも優れていた。
論文 参考訳(メタデータ) (2025-05-30T14:08:13Z) - Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。
これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文 参考訳(メタデータ) (2025-02-07T18:26:45Z) - LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。
我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。
我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - Can Large Language Models Unlock Novel Scientific Research Ideas? [21.225042379570365]
大規模言語モデル(LLM)と公開可能なChatGPTは、人工知能を人々の日常生活に組み込む上で、大きな転換点となっている。
本研究は,研究論文からの情報に基づく新たな研究アイデアを創出する上でのLLMの能力について考察する。
論文 参考訳(メタデータ) (2024-09-10T03:26:42Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Interesting Scientific Idea Generation using Knowledge Graphs and LLMs: Evaluations with 100 Research Group Leaders [0.6906005491572401]
我々は,5800万件の研究論文と大規模言語モデルを用いて研究アイデアを生成するSciMuseを紹介した。
我々は、100以上の研究グループのリーダーが興味に基づいて4,400以上のパーソナライズされたアイデアをランク付けする大規模な評価を行う。
このデータにより,(1)人間の評価に基づいて訓練された教師付きニューラルネットワーク,(2)大規模言語モデルを用いた教師なしゼロショットランキングを用いて,研究の関心を予測できる。
論文 参考訳(メタデータ) (2024-05-27T11:00:51Z) - Prompting Diverse Ideas: Increasing AI Idea Variance [0.0]
この論文は、アイデア生成プロセスの生産性と品質を高めるために、人工知能を活用することへの新たな関心を掘り下げるものである。
これまでの研究によると、AIのアイデアの平均品質は非常に高い。
以前の研究では、AIベースのブレインストーミングが、アイデアの十分な分散を生み出すことができないことも指摘されている。
論文 参考訳(メタデータ) (2024-01-27T21:02:50Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Can GPT-4 Perform Neural Architecture Search? [56.98363718371614]
ニューラルアーキテクチャサーチ(NAS)におけるGPT-4の可能性について検討する。
提案手法である textbfGPT-4 textbfEnhanced textbfNeural archtextbfItecttextbfUre textbfSearch (GENIUS)
我々は、いくつかのベンチマークでGENIUSを評価し、既存のNAS技術と比較し、その効果を実証した。
論文 参考訳(メタデータ) (2023-04-21T14:06:44Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。