論文の概要: MuseScorer: Idea Originality Scoring At Scale
- arxiv url: http://arxiv.org/abs/2505.16232v2
- Date: Fri, 19 Sep 2025 17:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.039005
- Title: MuseScorer: Idea Originality Scoring At Scale
- Title(参考訳): MuseScorer: アイデアのオリジナルさを大規模に表現する
- Authors: Ali Sarosh Bangash, Krish Veera, Ishfat Abrar Islam, Raiyan Abdul Baten,
- Abstract要約: MuseScorerは、完全に自動化され、心理学的に検証された周波数ベースの独創性スコアシステムである。
このシステムは、クリエイティビティ研究のためのスケーラブルで、意図に敏感で、人間に沿った独創性評価を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An objective, face-valid method for scoring idea originality is to measure each idea's statistical infrequency within a population -- an approach long used in creativity research. Yet, computing these frequencies requires manually bucketing idea rephrasings, a process that is subjective, labor-intensive, error-prone, and brittle at scale. We introduce MuseScorer, a fully automated, psychometrically validated system for frequency-based originality scoring. MuseScorer integrates a Large Language Model (LLM) with externally orchestrated retrieval: given a new idea, it retrieves semantically similar prior idea-buckets and zero-shot prompts the LLM to judge whether the idea fits an existing bucket or forms a new one. These buckets enable frequency-based originality scoring without human annotation. Across five datasets N_{participants}=1143, n_{ideas}=16,294), MuseScorer matches human annotators in idea clustering structure (AMI = 0.59) and participant-level scoring (r = 0.89), while demonstrating strong convergent and external validity. The system enables scalable, intent-sensitive, and human-aligned originality assessment for creativity research.
- Abstract(参考訳): アイデアの独創性を評価するための客観的かつ有能な方法は、各アイデアの統計的頻度を集団内で測定することである。
しかし、これらの周波数の計算には、主観的で、労働集約的で、エラーを起こし、大規模に不安定な、アイデアの言い換えを手作業で行う必要がある。
周波数に基づく独創性スコアリングシステムであるMuseScorerを紹介した。
MuseScorerは、LLM(Large Language Model)と外部で編成された検索を統合している。新しいアイデアが与えられたら、セマンティックに類似したアイデアバケットを検索し、ゼロショットがLLMにそのアイデアが既存のバケットに適合するか、あるいは新しいものを形成するかを判断するよう促す。
これらのバケットは、人間のアノテーションなしで周波数ベースの独創性スコアを可能にする。
N_{participants}=1143, n_{ideas}=16,294の5つのデータセットで、MuseScorerはアイデアクラスタリング構造(AMI = 0.59)と参加者レベルのスコア(r = 0.89)で人間のアノテーションと一致し、強い収束性と外部の妥当性を示す。
このシステムは、クリエイティビティ研究のためのスケーラブルで、意図に敏感で、人間に沿った独創性評価を可能にする。
関連論文リスト
- Harnessing Large Language Models for Scientific Novelty Detection [49.10608128661251]
科学的ノベルティ検出(ND)のための大規模言語モデル(LLM)を提案する。
そこで本研究では,LLMからアイデアレベルの知識を抽出し,ライトウェイトなレトリバーを訓練することを提案する。
実験の結果,提案手法は,アイデア検索やNDタスクのためのベンチマークデータセットにおいて,常に他よりも優れていた。
論文 参考訳(メタデータ) (2025-05-30T14:08:13Z) - Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
論文 参考訳(メタデータ) (2025-05-19T07:34:25Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Clone-Robust AI Alignment [20.38824614301761]
Reinforcement Learning with Human Feedback (RLHF)は、人間アノテータのペア比較を用いて報酬関数を訓練する。
我々はRLHFアルゴリズムの望ましい特性である近似クローンにロバスト性を導入する。
我々は、標準正規化最大推定値を変更する新しいRLHFアルゴリズムである重み付きMLEを提案する。
論文 参考訳(メタデータ) (2025-01-16T02:43:44Z) - Reject Threshold Adaptation for Open-Set Model Attribution of Deepfake Audio [37.399771023763485]
本稿では,rejection threshold adapt (ReTA) を用いたディープフェイク音声のオープンセットモデル帰属のための新しいフレームワークを提案する。
ReTAは、システム指紋の表現を、ターゲットクラスまたはランダムに選択された他のクラスラベルに対応するラベルと組み合わせて訓練する。
拒絶しきい値算出モジュールは、ガウス確率推定を利用して、マッチングと非マッチング再構成誤差の分布に適合する。
論文 参考訳(メタデータ) (2024-12-02T12:06:50Z) - SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts [39.47316836096974]
我々は、類似性は必ずしもパナセアではなく、類似性に完全に依存することは、時として検索拡張生成の性能を低下させるであろうと論じている。
我々はMulti layEred ThoughtsEnhanced Retrieval Augmented GenerationフレームワークであるMetRagを提案する。
論文 参考訳(メタデータ) (2024-05-30T09:50:38Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Self-Supervised Learning for Covariance Estimation [3.04585143845864]
推論時に局所的に適用されるニューラルネットワークをグローバルに学習することを提案する。
アーキテクチャは、一般的な注目メカニズムに基づいている。
基礎モデルとして事前訓練し、レーダーやハイパースペクトル画像の適応目標検出など、様々な下流タスクに再利用することができる。
論文 参考訳(メタデータ) (2024-03-13T16:16:20Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Counting Like Human: Anthropoid Crowd Counting on Modeling the
Similarity of Objects [92.80955339180119]
メインストリームの群衆計数法は 密度マップを補強して 計数結果を得るために統合する。
これに触発された我々は,合理的かつ人為的な集団カウントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-02T07:00:53Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Contrastive Learning for Cross-Domain Open World Recognition [17.660958043781154]
進化する能力は、知識が製造者によって注入されるものに限定されない貴重な自律エージェントにとって基本的なものである。
新しいクラスをインクリメンタルに含めるのに適した機能空間を学習し、様々な視覚領域にまたがる知識を捉えることができることを示す。
本手法は,学習エピソードごとの効果的な停止基準を付与し,新たな自己ペースしきい値設定戦略を活用する。
論文 参考訳(メタデータ) (2022-03-17T11:23:53Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Disentangled Sequence Clustering for Human Intention Inference [40.46123013107865]
Disentangled Sequence Clustering Variational Autoencoder (DiSCVAE)
Disentangled Sequence Clustering Variational Autoencoder (DiSCVAE)
論文 参考訳(メタデータ) (2021-01-23T13:39:34Z) - Probabilistic Anchor Assignment with IoU Prediction for Object Detection [9.703212439661097]
オブジェクト検出では、どのアンカーを正または負のサンプルとして割り当てるか、すなわちアンカー代入(アンカー代入)がモデルの性能に大きく影響を与えるコアプロシージャとして明らかにされている。
本稿では,モデルの学習状況に応じて,アンカーを正と負のサンプルに適応的に分離する新しいアンカー代入戦略を提案する。
論文 参考訳(メタデータ) (2020-07-16T04:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。