Fugu-MT 論文翻訳(概要): The Generalized Turing Test: A Foundation for Comparing Intelligence

論文の概要: The Generalized Turing Test: A Foundation for Comparing Intelligence

arxiv url: http://arxiv.org/abs/2605.10851v1
Date: Mon, 11 May 2026 17:00:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:51.017536
Title: The Generalized Turing Test: A Foundation for Comparing Intelligence
Title（参考訳）: 汎用チューリングテスト - インテリジェンス比較のための基礎
Authors: Daniel Mitropolsky, Susan S. Hong, Riccardo Neumarker, Emanuele Rimoldi, Tomaso Poggio,
Abstract要約: 識別不能性を通じて任意のエージェントの能力を比較するための公式なフレームワークを導入する。エージェント A と B に対し、チューリングコンパレータ A$geq$B を定義して、B が微分器として作用し、A との相互作用と B の他のインスタンスとを確実に区別できないと仮定する。これにより、データセットとタスクに依存しない相対知性の概念が得られる。
参考スコア（独自算出の注目度）: 0.8929189891250133
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce the Generalized Turing Test (GTT), a formal framework for comparing the capabilities of arbitrary agents via indistinguishability. For agents A and B, we define the Turing comparator A $\geq$ B to hold if B, acting as a distinguisher, cannot reliably distinguish between interactions with A (instructed to imitate B) and another instance of B. This yields a dataset- and task-agnostic notion of relative intelligence. We study the comparator's structure, including conditions under which it is transitive and therefore induces an ordering over equivalence classes, and we define and analyze variants with querying, bounded interaction, and fixed distinguishers. To complement the theory, we instantiate the framework on a collection of modern models, empirically evaluating pairwise indistinguishability across thousands of trials. The resulting comparisons exhibit a stratified structure consistent with existing rankings, hinting that the proposed framework yields meaningful empirical orderings. Our results position indistinguishability as a unifying lens for reasoning about intelligence, suggesting a foundation for evaluation and, potentially, training objectives that are inherently independent of fixed datasets or benchmarks.
Abstract（参考訳）: 非識別性により任意のエージェントの能力を比較するための公式なフレームワークである一般チューリングテスト(GTT)を導入する。 A と B のエージェントに対しては、B が区別器として機能し、A と B との相互作用(B を模倣するように指示された)を確実に区別できないかどうかを保とうとするチューリングコンパレータ A $\geq$ B を定義する。本研究では,同値クラスを順序付けする条件を含むコンパレータの構造について検討し,クエリ,有界相互作用,固定微分器を用いて変種を定義し解析する。この理論を補完するため、我々は近代モデルの集合に関する枠組みをインスタンス化し、数千の試行においてペアワイズ不一致性を実証的に評価する。結果として得られた比較は、既存のランキングと整合した階層構造を示し、提案手法が有意義な経験的順序付けをもたらすことを示唆している。我々の結果は、インテリジェンスを推論するための統一レンズとして、不明瞭さを位置づけ、評価の基礎であり、潜在的には、固定されたデータセットやベンチマークに本質的に依存しない訓練目的を示唆している。

関連論文リスト

Cluster-R1: Large Reasoning Models Are Instruction-following Clustering Agents [81.79110139097297]
汎用埋め込みモデルは意味的類似性を認識するのに優れているが、ユーザ命令で指定されたテキストの特徴を捉えることができない。我々は、命令追従クラスタリングを生成タスクとして再編成し、大規模推論モデルを自律的なクラスタリングエージェントとして訓練する。我々の推論駆動学習パイプラインは、LEMがハイレベルクラスタリング命令を解釈し、対応する潜在グループを推測することを可能にする。
論文参考訳（メタデータ） (2026-03-06T10:15:54Z)
IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。 IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文参考訳（メタデータ） (2026-03-05T02:21:17Z)
AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。 AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文参考訳（メタデータ） (2026-01-21T07:35:36Z)
Grouping Nodes With Known Value Differences: A Lossless UCT-based Abstraction Algorithm [64.43268969806098]
モンテカルロ木探索(MCTS)の中核的な課題は、状態-作用ペアをグループ化することで改善できるサンプル効率である。我々は、値等価状態または状態-作用ペアをグループ化し、代わりに異なる値を持つグループ状態と状態-作用ペアをグループ化するパラダイムを破る。我々はこの抽象化フレームワークをKVDA(Known Value difference Abstractions)と呼び、即時報酬の分析によって価値の差を推測する。
論文参考訳（メタデータ） (2025-10-29T11:03:44Z)
ASSESS: A Semantic and Structural Evaluation Framework for Statement Similarity [9.337443482551356]
ASSESS (Semantic and Structure Evaluation Framework for Statement similarity) を導入し、セマンティックおよび構造情報を総合的に統合し、連続的な類似度スコアを提供する。厳密な検証のために,ミニF2F と ProofNet から派生した 524 のエキスパート注釈付き形式文ペアの新しいベンチマーク EPLA を提案する。 EPLAの実験では、TransTEDの類似性は既存の手法よりも優れており、最先端の精度と最高カッパ係数が達成されている。
論文参考訳（メタデータ） (2025-09-26T12:02:58Z)
Multi-Rationale Explainable Object Recognition via Contrastive Conditional Inference [1.2309843977641421]
本稿では,各画像に複数の接頭辞を付加したデータセットを含む多段階的説明可能なオブジェクト認識ベンチマークを提案する。本稿では,画像埋め込み,カテゴリラベル,合理性間の確率的関係を明示的にモデル化するコントラスト的条件推論フレームワークを提案する。提案手法は, 高速ゼロショット性能を含む多段階的説明可能なオブジェクト認識ベンチマークにおいて, 最先端の結果を達成している。
論文参考訳（メタデータ） (2025-08-19T21:28:12Z)
Bhatt Conjectures: On Necessary-But-Not-Sufficient Benchmark Tautology for Human Like Reasoning [0.0]
Bhatt Conjecturesフレームワークは、AI推論と理解を評価するための厳密で階層的なベンチマークを導入している。 Agentreasoning-sdkは実践的な実装を示し、現在のAIモデルが複雑な推論タスクに苦労していることを明らかにする。
論文参考訳（メタデータ） (2025-06-13T02:41:18Z)
Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T15:31:54Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
Machine Reading Comprehension using Case-based Reasoning [92.51061570746077]
本稿では,機械読解における解答抽出の正確かつ解釈可能な手法を提案する。本手法は,類似した質問に対する文脈的回答が相互に意味的類似性を共有するという仮説に基づいている。
論文参考訳（メタデータ） (2023-05-24T07:09:56Z)
Aggregating Pairwise Semantic Differences for Few-Shot Claim Veracity Classification [21.842139093124512]
本稿では,新しいベクトルベース手法であるSEEDを導入する。クラス内のクレーム-エビデンス対の平均意味的差異を捉えるクラス代表ベクトルをシミュレートできるという仮説に基づいて構築する。 FEVERとSCIFACTデータセットで実施された実験では、数ショット設定で競合するベースラインよりも一貫した改善が見られた。
論文参考訳（メタデータ） (2022-05-11T17:23:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。