論文の概要: AI-Based Measurement of Innovation: Mapping Expert Insight into Large Language Model Applications
- arxiv url: http://arxiv.org/abs/2508.02430v1
- Date: Mon, 04 Aug 2025 13:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.366944
- Title: AI-Based Measurement of Innovation: Mapping Expert Insight into Large Language Model Applications
- Title(参考訳): AIによるイノベーションの測定:エキスパートの洞察を大規模言語モデルアプリケーションにマッピングする
- Authors: Robin Nowak, Patrick Figge, Carolin Haeussler,
- Abstract要約: 大規模言語モデル(LLM)は、手作業による専門家評価の制約を克服するために利用することができる。
我々は、構造化されていないテキストデータから、ドメインの専門家によるイノベーション評価を確実に近似するLLMフレームワークを設計する。
本稿は、LLMを効果的に活用するための知識とツールを、企業、研究者、レビュアー、編集者に提供します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Measuring innovation often relies on context-specific proxies and on expert evaluation. Hence, empirical innovation research is often limited to settings where such data is available. We investigate how large language models (LLMs) can be leveraged to overcome the constraints of manual expert evaluations and assist researchers in measuring innovation. We design an LLM framework that reliably approximates domain experts' assessment of innovation from unstructured text data. We demonstrate the performance and broad applicability of this framework through two studies in different contexts: (1) the innovativeness of software application updates and (2) the originality of user-generated feedback and improvement ideas in product reviews. We compared the performance (F1-score) and reliability (consistency rate) of our LLM framework against alternative measures used in prior innovation studies, and to state-of-the-art machine learning- and deep learning-based models. The LLM framework achieved higher F1-scores than the other approaches, and its results are highly consistent (i.e., results do not change across runs). This article equips R&D personnel in firms, as well as researchers, reviewers, and editors, with the knowledge and tools to effectively use LLMs for measuring innovation and evaluating the performance of LLM-based innovation measures. In doing so, we discuss, the impact of important design decisions-including model selection, prompt engineering, training data size, training data distribution, and parameter settings-on performance and reliability. Given the challenges inherent in using human expert evaluation and existing text-based measures, our framework has important implications for harnessing LLMs as reliable, increasingly accessible, and broadly applicable research tools for measuring innovation.
- Abstract(参考訳): イノベーションを測定することは、しばしばコンテキスト固有のプロキシや専門家の評価に依存する。
したがって、実証的なイノベーション研究は、しばしばそのようなデータが利用可能な設定に限られる。
本研究では,手作業による専門家評価の制約を克服し,研究者のイノベーション測定を支援するために,大規模言語モデル(LLM)をどのように活用できるかを検討する。
我々は、構造化されていないテキストデータから、ドメインの専門家によるイノベーション評価を確実に近似するLLMフレームワークを設計する。
1)ソフトウェアアプリケーションの更新の革新性,(2)ユーザ生成フィードバックの独創性,および製品レビューにおけるアイデアの改善,の2つの研究を通して,このフレームワークの性能と適用性を実証する。
LLMフレームワークの性能(F1スコア)と信頼性(一貫性率)を、従来のイノベーション研究で使用される代替手段と、最先端の機械学習およびディープラーニングベースのモデルと比較した。
LLMフレームワークは、他のアプローチよりも高いF1スコアを獲得し、その結果は極めて一貫性がある(すなわち、実行中に結果が変化しない)。
本稿では、LLMを効果的に活用するための知識とツールを、企業、研究者、レビュアー、編集者に提供し、LLMに基づくイノベーション対策の評価と評価を行う。
そこで本研究では、モデル選択、プロンプトエンジニアリング、データサイズ、データ分散のトレーニング、性能と信頼性に関するパラメータ設定など、重要な設計決定の影響について論じる。
人間の専門家による評価や既存のテキストベースの測定に固有の課題を考えると、我々のフレームワークは、イノベーションを測定するための信頼性、アクセス性、および広く適用可能な研究ツールとしてLLMを利用する上で重要な意味を持っている。
関連論文リスト
- Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [11.809732662992982]
本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。
MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - Evaluating the Impact of Advanced LLM Techniques on AI-Lecture Tutors for a Robotics Course [0.35132421583441026]
本研究では,大規模言語モデル(LLM)を人工知能を用いた大学授業用チューターとして評価する。
特に、プロンプトエンジニアリング、Retrieval-Augmented-Generation (RAG)、ファインチューニングなど、様々な高度な技術が利用されている。
以上の結果から,RAGと迅速なエンジニアリングを組み合わせることで,モデル応答が大幅に向上し,より優れた事実解が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-02T19:49:19Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。