論文の概要: ChessVision -- A Dataset for Logically Coherent Multi-label
Classification
- arxiv url: http://arxiv.org/abs/2311.12610v1
- Date: Tue, 21 Nov 2023 13:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 00:29:10.869578
- Title: ChessVision -- A Dataset for Logically Coherent Multi-label
Classification
- Title(参考訳): ChessVision -- 論理的コヒーレントなマルチラベル分類のためのデータセット
- Authors: Soumadeep Saha, Utpal Garain
- Abstract要約: 我々は、現在進行中の注釈付きチェスゲームの20万以上の画像からなるChessVisionデータセットを提示する。
これは、一連の予測を「理にかなった」ゲーム状態に制限する一連のルールが伴う。
我々は,この課題におけるアートビジョンモデルの人気と現状を分析し,標準的な測定値の性能は高いが,不整合性のある結果が多数存在することを示す。
- 参考スコア(独自算出の注目度): 2.2299983745857896
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Starting with early successes in computer vision tasks, deep learning based
techniques have since overtaken state of the art approaches in a multitude of
domains. However, it has been demonstrated time and again that these techniques
fail to capture semantic context and logical constraints, instead often relying
on spurious correlations to arrive at the answer. Since application of deep
learning techniques to critical scenarios are dependent on adherence to domain
specific constraints, several attempts have been made to address this issue.
One limitation holding back a thorough exploration of this area, is a lack of
suitable datasets which feature a rich set of rules. In order to address this,
we present the ChessVision Dataset, consisting of 200,000+ images of annotated
chess games in progress, requiring recreation of the game state from its
corresponding image. This is accompanied by a curated set of rules which
constrains the set of predictions to "reasonable" game states, and are designed
to probe key semantic abilities like localization and enumeration. Alongside
standard metrics, additional metrics to measure performance with regards to
logical consistency is presented. We analyze several popular and state of the
art vision models on this task, and show that, although their performance on
standard metrics are laudable, they produce a plethora of incoherent results,
indicating that this dataset presents a significant challenge for future works.
- Abstract(参考訳): コンピュータビジョンタスクの初期の成功から始まり、ディープラーニングベースの技術は、多くの領域で最先端の技術アプローチを追い越してきた。
しかし、これらの手法が意味的文脈や論理的制約を捉えず、答えに到達するには素早い相関に依存することが何度も示されてきた。
批判シナリオへのディープラーニング技術の適用は、ドメイン固有の制約の遵守に依存しているため、この問題に対処するためのいくつかの試みがなされている。
この領域の徹底的な探索を控える制限のひとつは、豊富なルールを特徴とする適切なデータセットの欠如である。
そこで本研究では,現在進行中の20万点以上の画像からなるチェスビジョンデータセットを提示し,対応する画像からゲーム状態の再現を要求できることを示す。
これは、予測のセットを「合理的」なゲーム状態に制限する一連のルールを伴い、ローカライゼーションや列挙のようなキーセマンティックな能力を探索するように設計されている。
標準的なメトリクスに加えて、論理的一貫性に関するパフォーマンスを測定するための追加メトリクスも提示される。
我々は,このタスクにおけるアートビジョンモデルの人気と現状を分析し,標準メトリクスのパフォーマンスは評価可能であるが,無矛盾な結果が多数得られており,このデータセットが今後の作業において重要な課題であることを示す。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Spatio-temporal predictive tasks for abnormal event detection in videos [60.02503434201552]
オブジェクトレベルの正規化パターンを学習するための制約付きプレテキストタスクを提案する。
我々のアプローチは、ダウンスケールの視覚的クエリとそれに対応する正常な外観と運動特性のマッピングを学習することである。
いくつかのベンチマークデータセットの実験では、異常の局所化と追跡のためのアプローチの有効性が示されている。
論文 参考訳(メタデータ) (2022-10-27T19:45:12Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - I Know Therefore I Score: Label-Free Crafting of Scoring Functions using
Constraints Based on Domain Expertise [6.26476800426345]
多次元数値データからスコアリング関数を学習するためのラベルなし実践的手法を提案する。
このアプローチでは、ドメインエキスパートの洞察とビジネスルールを、容易に観察可能で特定可能な制約という形で取り入れています。
このような制約を、スコアリング関数を学習しながら同時に最適化された損失関数に変換する。
論文 参考訳(メタデータ) (2022-03-18T17:51:20Z) - Logic Constraints to Feature Importances [17.234442722611803]
AIモデルの"ブラックボックス"の性質は、診断技術や自律的ガイドなど、高度な分野における信頼性の高い応用の限界であることが多い。
近年の研究では、適切な解釈可能性のレベルが、モデル信頼性というより一般的な概念を強制できることが示されている。
本論文の基本的な考え方は,特定のタスクにおける特徴の重要性に関する人間の事前知識を利用して,モデルの適合のフェーズを整合的に支援することである。
論文 参考訳(メタデータ) (2021-10-13T09:28:38Z) - On the Challenges of Open World Recognitionunder Shifting Visual Domains [23.999211737485812]
本研究では,Open World Recognition (OWR)アルゴリズムがドメインシフトの下で有効かどうかを検討する。
OWRは、初期トレーニングセットに存在するセマンティック制限を破ることのできるシステムを開発することを目標としている。
解析の結果, この劣化は領域一般化手法とOWRの結合によってわずかに緩和されることがわかった。
論文 参考訳(メタデータ) (2021-07-09T14:25:45Z) - Streaming Self-Training via Domain-Agnostic Unlabeled Images [62.57647373581592]
視覚認識モデル学習の過程を民主化することを目的としたストリーミング自己学習(SST)を提案する。
SSTの鍵となるのは、(1)ドメインに依存しない未ラベル画像により、追加の知識や監督なしにいくつかのラベル付き例でより良いモデルを学ぶことができ、(2)学習は継続的なプロセスであり、学習更新のスケジュールを構築することで行うことができる。
論文 参考訳(メタデータ) (2021-04-07T17:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。