Fugu-MT 論文翻訳(概要): Introducing Flexible Monotone Multiple Choice Item Response Theory Models and Bit Scales

論文の概要: Introducing Flexible Monotone Multiple Choice Item Response Theory Models and Bit Scales

arxiv url: http://arxiv.org/abs/2410.01480v1
Date: Wed, 2 Oct 2024 12:33:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 17:34:40.170816
Title: Introducing Flexible Monotone Multiple Choice Item Response Theory Models and Bit Scales
Title（参考訳）: フレキシブルモノトン多成分反応モデルとビットスケールの導入
Authors: Joakim Wallmark, Maria Josefsson, Marie Wiberg,
Abstract要約: 本稿では,複数選択データに対する新しいモデルであるモノトーン多重選択(MMC)モデルを提案する。 MMCモデルは、適合性の観点から、従来の名目応答IRTモデルよりも優れていることを実証的に実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Item Response Theory (IRT) is a powerful statistical approach for evaluating test items and determining test taker abilities through response analysis. An IRT model that better fits the data leads to more accurate latent trait estimates. In this study, we present a new model for multiple choice data, the monotone multiple choice (MMC) model, which we fit using autoencoders. Using both simulated scenarios and real data from the Swedish Scholastic Aptitude Test, we demonstrate empirically that the MMC model outperforms the traditional nominal response IRT model in terms of fit. Furthermore, we illustrate how the latent trait scale from any fitted IRT model can be transformed into a ratio scale, aiding in score interpretation and making it easier to compare different types of IRT models. We refer to these new scales as bit scales. Bit scales are especially useful for models for which minimal or no assumptions are made for the latent trait scale distributions, such as for the autoencoder fitted models in this study.
Abstract（参考訳）: 項目応答理論(IRT)は、テスト項目の評価と反応分析によるテストテイカーの能力決定のための強力な統計手法である。データに適合するIRTモデルは、より正確な潜在特性推定をもたらす。本研究では,複数選択データに対する新しいモデルであるモノトーン多重選択(MMC)モデルを提案する。スウェーデンのスコラスタティック適性テストのシミュレーションシナリオと実データの両方を用いて、MCCモデルが従来の名目応答IRTモデルよりも適合性で優れていることを実証的に実証した。さらに,任意のIRTモデルから潜在特性尺度を比例尺度に変換し,スコアの解釈を支援し,IRTモデルの異なるタイプの比較を容易にする方法について述べる。これらの新しいスケールをビットスケールと呼ぶ。ビットスケールは,本研究におけるオートエンコーダ適応モデルのような潜在特性尺度分布に対して最小あるいは無仮定のモデルに特に有用である。

関連論文リスト

From Model Choice to Model Belief: Establishing a New Measure for LLM-Based Research [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするためにますます使われている。 LLMの出力を単一のデータポイントとして扱うことは、LLMの確率的性質に固有の情報を過小評価する。本稿では, LLMのトークンレベルの確率から導かれる「モデル信念」を紹介し, 定式化する。
論文参考訳（メタデータ） (2025-12-29T03:50:40Z)
Generalized Top-k Mallows Model for Ranked Choices [7.389630498367403]
本稿では,トップkのMallowsモデルに適した新しいサンプリングスキームと,選択確率を計算するための効率的なアルゴリズムを提案する。また,観測された選択データからモデルパラメータを推定する能動的学習アルゴリズムを提案する。これらの貢献は、重要な意思決定シナリオの分析と予測のための新しいツールを提供する。
論文参考訳（メタデータ） (2025-10-24T21:49:21Z)
Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。 RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文参考訳（メタデータ） (2025-09-29T01:40:26Z)
Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。 LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
AutoIRT: Calibrating Item Response Theory Models with Automated Machine Learning [8.079755354261328]
本稿では、アウトオブボックス自動機械学習(AutoML)ツールと互換性のある多段階のフィッティング手順を提案する。モンテカルロEM(MCEM)の外ループに2段の内ループがあり、アイテムの特徴を使って非パラメトリックオートMLグレードモデルを訓練し、続いてアイテム固有のパラメトリックモデルを訓練する。結果のモデルは通常より良好で、予測性能が向上し、既存の手法よりも正確なスコアが得られます。
論文参考訳（メタデータ） (2024-09-13T13:36:51Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。 SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文参考訳（メタデータ） (2022-10-23T01:33:16Z)
Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文参考訳（メタデータ） (2022-07-11T04:52:28Z)
Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文参考訳（メタデータ） (2022-01-17T01:26:09Z)
Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文参考訳（メタデータ） (2021-12-30T14:19:27Z)
Model-based micro-data reinforcement learning: what are the crucial model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文参考訳（メタデータ） (2021-07-24T11:38:25Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
One for More: Selecting Generalizable Samples for Generalizable ReID Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文参考訳（メタデータ） (2020-12-10T06:37:09Z)
Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2020-10-12T03:27:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。