このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230711となっている論文です。

PDF登録状況(公開日: 20230711)

TitleAuthorsAbstract論文公表日・翻訳日
# 歩行者セグメンテーションのための非階層変圧器

Non-Hierarchical Transformers for Pedestrian Segmentation ( http://arxiv.org/abs/2311.02506v1 )

ライセンス: Link先を確認
Amani Kiruga, Xi Peng(参考訳) 本稿では,自律システムにおけるインスタンスセグメンテーションの課題,特にアクセシビリティとインクリシティを対象とする手法を提案する。 提案手法では,非階層型視覚変換器のEVA-02とカスケードマスクR-CNNマスクヘッドを併用する。 AVAインスタンスセグメンテーションチャレンジデータセットの微調整により、テストセットで平均精度(mAP)52.68\%の有望な平均値を達成した。 本研究は,視覚能力の向上と,障害者のユニークなニーズに配慮したViTアーキテクチャの有効性を示すものである。

We propose a methodology to address the challenge of instance segmentation in autonomous systems, specifically targeting accessibility and inclusivity. Our approach utilizes a non-hierarchical Vision Transformer variant, EVA-02, combined with a Cascade Mask R-CNN mask head. Through fine-tuning on the AVA instance segmentation challenge dataset, we achieved a promising mean Average Precision (mAP) of 52.68\% on the test set. Our results demonstrate the efficacy of ViT-based architectures in enhancing vision capabilities and accommodating the unique needs of individuals with disabilities.
翻訳日:2024-01-15 16:46:00 公開日:2023-07-11
# マイクロサービスシステムにおける問題,その原因,ソリューションを理解する - 実証的研究

Understanding the Issues, Their Causes and Solutions in Microservices Systems: An Empirical Study ( http://arxiv.org/abs/2302.01894v2 )

ライセンス: Link先を確認
Muhammad Waseem, Peng Liang, Aakash Ahmad, Arif Ali Khan, Mojtaba Shahin, Pekka Abrahamsson, Ali Rezaei Nasab, Tommi Mikkonen(参考訳) 多くの小規模から大規模組織が、コアビジネスの開発と提供にマイクロサービスアーキテクチャ(MSA)スタイルを採用しています。 ソフトウェア産業におけるMSAの人気にもかかわらず、マイクロサービスシステム開発者が経験する問題のタイプ(エラー、障害、障害、バグなど)や問題の原因、問題に対処するための潜在的な修正戦略としてのソリューションについて、証拠に基づいた、徹底した理解が限られている。 このギャップを改善するために,github上の15のオープンソースマイクロサービスシステムのイシュートラッキングシステム,15のインタビュー,そして6大陸42カ国から150人の実践者が実施したオンライン調査から2,641件のイシューを収集した。 我々の分析は、問題、原因、解決策に関する包括的な分類学につながった。 この調査結果は、技術的負債、継続的インテグレーションとデリバリ、例外処理、サービス実行と通信、セキュリティがマイクロサービスシステムにおいて最も重要な問題であることを示している。 さらに、一般的なプログラミングエラー、欠落する特徴とアーティファクト、無効な構成とコミュニケーションが問題の背後にある主な原因です。 最後に、特定された問題を修正するために適用できる177種類のソリューションを見つけました。 研究結果に基づき、研究者や実践者が創発的および次世代のマイクロサービスシステムを開発するのに役立つであろう将来の研究方向を定式化した。

Many small to large organizations have adopted the Microservices Architecture (MSA) style to develop and deliver their core businesses. Despite the popularity of MSA in the software industry, there is a limited evidence-based and thorough understanding of the types of issues (e.g., errors, faults, failures, and bugs) that microservices system developers experience, the causes of the issues, and the solutions as potential fixing strategies to address the issues. To ameliorate this gap, we conducted a mixed-methods empirical study that collected data from 2,641 issues from the issue tracking systems of 15 open-source microservices systems on GitHub, 15 interviews, and an online survey completed by 150 practitioners from 42 countries across 6 continents. Our analysis led to comprehensive taxonomies for the issues, causes, and solutions. The findings of this study inform that Technical Debt, Continuous Integration and Delivery, Exception Handling, Service Execution and Communication, and Security are the most dominant issues in microservices systems. Furthermore, General Programming Errors, Missing Features and Artifacts, and Invalid Configuration and Communication are the main causes behind the issues. Finally, we found 177 types of solutions that can be applied to fix the identified issues. Based on our study results, we formulated future research directions that could help researchers and practitioners to engineer emergent and next-generation microservices systems.
翻訳日:2023-10-24 13:28:07 公開日:2023-07-11
# 機械学習モデルは型チェックのTypeScript型を生成するか?

Do Machine Learning Models Produce TypeScript Types That Type Check? ( http://arxiv.org/abs/2302.12163v2 )

ライセンス: Link先を確認
Ming-Ho Yee, Arjun Guha(参考訳) 型マイグレーションは、コンパイル時に保証を得るために非型付きコードに型を追加するプロセスである。 TypeScriptや他の段階的な型システムは、プログラマが不正確な型から始めて、徐々に強化することで、型マイグレーションを促進する。 しかし、型の追加は手作業であり、大規模な業界コードベースへのいくつかの移行には数年を要したと報告されている。 研究コミュニティでは、TypeScriptの型マイグレーションを自動化するために機械学習を使用することに大きな関心が寄せられている。 既存の機械学習モデルは、個々のTypeScript型アノテーションを予測する際に高い精度を報告している。 自動型マイグレーションツールは、typescriptの型チェッカーをパスするコードを生成することができるのでしょうか? 任意の型予測モデルで使用可能なTypeScriptの型マイグレーションツールであるTypeWeaverを紹介します。 本稿では,リカレントニューラルネットワークであるdeeptyper,グラフニューラルネットワークであるlambdanet,中間タスクをサポートする汎用多言語トランスフォーマーであるincoderの3つのモデルを用いて,typeweaverを評価する。 当社のツールは,(1)プロジェクトの依存関係に対する型インポート,(2)JavaScriptモジュールをTypeScript表記に移行する,(3)TypeScriptを生成するためにプログラムに予測型アノテーションを挿入する,(4)必要であれば非型予測を拒否する,といった,型予測モデルの使用に必要ないくつかのステップを自動化する。 私たちは513のjavascriptパッケージのデータセット上でtypeweaverを評価します。 最良の型予測モデルでは、パッケージの型チェックは21%に過ぎませんが、より奨励的に、ファイルの型チェックの69%が成功しています。

Type migration is the process of adding types to untyped code to gain assurance at compile time. TypeScript and other gradual type systems facilitate type migration by allowing programmers to start with imprecise types and gradually strengthen them. However, adding types is a manual effort and several migrations on large, industry codebases have been reported to have taken several years. In the research community, there has been significant interest in using machine learning to automate TypeScript type migration. Existing machine learning models report a high degree of accuracy in predicting individual TypeScript type annotations. However, in this paper we argue that accuracy can be misleading, and we should address a different question: can an automatic type migration tool produce code that passes the TypeScript type checker? We present TypeWeaver, a TypeScript type migration tool that can be used with an arbitrary type prediction model. We evaluate TypeWeaver with three models from the literature: DeepTyper, a recurrent neural network; LambdaNet, a graph neural network; and InCoder, a general-purpose, multi-language transformer that supports fill-in-the-middle tasks. Our tool automates several steps that are necessary for using a type prediction model, (1) importing types for a project's dependencies; (2) migrating JavaScript modules to TypeScript notation; (3) inserting predicted type annotations into the program to produce TypeScript when needed; and (4) rejecting non-type predictions when needed. We evaluate TypeWeaver on a dataset of 513 JavaScript packages, including packages that have never been typed before. With the best type prediction model, we find that only 21% of packages type check, but more encouragingly, 69% of files type check successfully.
翻訳日:2023-10-24 13:05:57 公開日:2023-07-11
# QB4AIRA: AIリスクアセスメントのための質問銀行

QB4AIRA: A Question Bank for AI Risk Assessment ( http://arxiv.org/abs/2305.09300v2 )

ライセンス: Link先を確認
Sung Une Lee, Harsha Perera, Boming Xia, Yue Liu, Qinghua Lu, Liming Zhu, Olivier Salvado, Jon Whittle(参考訳) ChatGPTが代表する人工知能(AI)の急速な進歩は、AI開発と利用の責任に関する懸念を提起している。 既存のフレームワークには、AIリスク評価質問の包括的な合成がない。 この問題に対処するために,オーストラリアのAI倫理原則に従って分類された,世界5つのAIリスクフレームワークからの質問を精査して開発された,新たな質問銀行であるQB4AIRAを紹介した。 qb4airaは、幅広いaiリスク領域をカバーする293の優先順位付き質問を含み、効果的なリスク評価を促進する。 aiリスクの評価と管理において、ステークホルダーにとって貴重なリソースとなり、新しいリスクフレームワークとガイドラインへの道を開く。 責任あるAIプラクティスを促進することで、QB4AIRAは責任あるAIデプロイメントに貢献し、潜在的なリスクと損害を軽減する。

The rapid advancement of Artificial Intelligence (AI), represented by ChatGPT, has raised concerns about responsible AI development and utilization. Existing frameworks lack a comprehensive synthesis of AI risk assessment questions. To address this, we introduce QB4AIRA, a novel question bank developed by refining questions from five globally recognized AI risk frameworks, categorized according to Australia's AI ethics principles. QB4AIRA comprises 293 prioritized questions covering a wide range of AI risk areas, facilitating effective risk assessment. It serves as a valuable resource for stakeholders in assessing and managing AI risks, while paving the way for new risk frameworks and guidelines. By promoting responsible AI practices, QB4AIRA contributes to responsible AI deployment, mitigating potential risks and harms.
翻訳日:2023-10-24 08:33:49 公開日:2023-07-11
# ConStaBL - ステートマシンによるソフトウェアエンジニアリングの新たな展望

ConStaBL -- A Fresh Look at Software Engineering with State Machines ( http://arxiv.org/abs/2307.03790v2 )

ライセンス: Link先を確認
Karthika Venkatesan, Sujit Kumar Chakrabarti(参考訳) Statechartはシステムのためのビジュアルモデリング言語である。 本稿では,モジュール型状態チャートをローカル変数で拡張し,並行性を持つ状態チャートの操作セマンティクスの更新を行う。 私たちのstatechartの変種はローカル変数を持ち、言語セマンティクスの残りの部分と非常に相互作用します。 私たちのセマンティクスは、シミュレーションにおける遷移競合を許さず、その意味で利用可能なステートチャートの他のほとんどのセマンティクスよりも厳格です。 これにより、同時実行されるアクションコードの任意のインターリーブが可能になり、システムのより正確なモデリングと上流解析が可能になる。 本稿では,シミュレーションアルゴリズムの形式で操作意味論を示す。 また、矛盾する遷移と有効なシミュレーションを定義するためのセマンティクスに基づいた基準を確立する。 私たちのセマンティクスは実行可能で、ステートチャートモデルをシミュレートし、その正確性を検証するために使用できます。 本稿では,前例のない状態チャートモデルのファズテストを行うための予備的な設定を提案する。 私たちはシミュレーターを有名なfuzzerと組み合わせて、非自明なサイズのstatechartモデルのファズテストを行い、検査によって見つけるのが難しい問題を見つけました。

Statechart is a visual modelling language for systems. In this paper, we extend our earlier work on modular statecharts with local variables and present an updated operational semantics for statecharts with concurrency. Our variant of the statechart has local variables, which interact significantly with the remainder of the language semantics. Our semantics does not allow transition conflicts in simulations and is stricter than most other available semantics of statecharts in that sense. It allows arbitrary interleaving of concurrently executing action code, which allows more precise modelling of systems and upstream analysis of the same. We present the operational semantics in the form of the simulation algorithm. We also establish the criteria based on our semantics for defining conflicting transitions and valid simulations. Our semantics is executable and can be used to simulate statechart models and verify their correctness. We present a preliminary setup to carry out fuzz testing of Statechart models, an idea that does not seem to have a precedent in literature. We have used our simulator in conjunction with a well-known fuzzer to do fuzz testing of statechart models of non-trivial sizes and have found issues in them that would have been hard to find through inspection.
翻訳日:2023-10-23 18:04:54 公開日:2023-07-11
# Tests4Py: システムテストのベンチマーク

Tests4Py: A Benchmark for System Testing ( http://arxiv.org/abs/2307.05147v1 )

ライセンス: Link先を確認
Marius Smytzek and Martin Eberlein and Batuhan Serce and Lars Grunske and Andreas Zeller(参考訳) ベンチマークは、特にソフトウェアテストとデバッグにおいて、ソフトウェアエンジニアリング研究の進歩の主要な要因のひとつです。 しかしながら、この分野での現在のベンチマークは、クラッシュ検出のような弱いシステムのオーラクルに依存したり、単体テストのみを伴ったり、より実験的な研究を必要としたり、システムテストの結果を検証することができないため、特定の研究タスクに適している可能性がある。 Tests4Pyベンチマークはこれらの問題に対処します。 5つの現実世界のPythonアプリケーションからの30のバグを含む、人気のあるBugsInPyベンチマークに由来する。 Tests4Pyの各科目は、システム入力の機能的正当性を検証するために、オラクルを伴っている。 さらに、システムテストと単体テストの生成を可能にし、テストセットの本質的な側面と広範な評価を調査して質的な研究を可能にする。 これらの機会はTests4Pyをテスト生成、デバッグ、自動プログラム修復の研究のための次世代ベンチマークにする。

Benchmarks are among the main drivers of progress in software engineering research, especially in software testing and debugging. However, current benchmarks in this field could be better suited for specific research tasks, as they rely on weak system oracles like crash detection, come with few unit tests only, need more elaborative research, or cannot verify the outcome of system tests. Our Tests4Py benchmark addresses these issues. It is derived from the popular BugsInPy benchmark, including 30 bugs from 5 real-world Python applications. Each subject in Tests4Py comes with an oracle to verify the functional correctness of system inputs. Besides, it enables the generation of system tests and unit tests, allowing for qualitative studies by investigating essential aspects of test sets and extensive evaluations. These opportunities make Tests4Py a next-generation benchmark for research in test generation, debugging, and automatic program repair.
翻訳日:2023-10-23 17:54:27 公開日:2023-07-11
# secflow: マルチクラウド環境におけるセキュリティ対応ワークフロー管理システム

SecFlow: Adaptive Security-Aware Workflow Management System in Multi-Cloud Environments ( http://arxiv.org/abs/2307.05137v1 )

ライセンス: Link先を確認
Nafiseh Soveizi and Fatih Turkmen(参考訳) 本稿では,クラウド環境とワークフロー管理システムを組み合わせることの最近の進展と,クラウドベースのワークフローのセキュリティとプライバシを確保するために,そのようなシステムにはまだ不足していることを踏まえて,SecFlowと呼ぶセキュリティ対応ワークフロー管理システム(WfMS)のアーキテクチャを提案する。 SecFlowアーキテクチャは、セキュリティを意識したプロセスを設計するための既存のアプローチに加えて、実行フェーズにおけるワークフローのセキュリティ特性のギャップを埋める必要があるため、完全なワークフローライフサイクルカバレッジに重点を置いている。 このギャップに対処するため、このようなセキュリティを意識したWfMSの要件を導き、これらの要件を満たすシステムアーキテクチャを設計する。 SecFlowは、セキュアなモデル構築、セキュリティ対応サービス選択、セキュリティ違反検出、アダプティブレスポンスメカニズムなどの重要な機能コンポーネントを統合し、マルチテナントおよびクラウドベースのWfMSにおける潜在的な悪意のある関係者をすべて考慮している。

In this paper, we propose an architecture for a security-aware workflow management system (WfMS) we call SecFlow in answer to the recent developments of combining workflow management systems with Cloud environments and the still lacking abilities of such systems to ensure the security and privacy of cloud-based workflows. The SecFlow architecture focuses on full workflow life cycle coverage as, in addition to the existing approaches to design security-aware processes, there is a need to fill in the gap of maintaining security properties of workflows during their execution phase. To address this gap, we derive the requirements for such a security-aware WfMS and design a system architecture that meets these requirements. SecFlow integrates key functional components such as secure model construction, security-aware service selection, security violation detection, and adaptive response mechanisms while considering all potential malicious parties in multi-tenant and cloud-based WfMS.
翻訳日:2023-10-23 17:54:10 公開日:2023-07-11
# ツリーベースシナリオ分類:自動運転車のテストドライブのカバレッジ分析のための形式的フレームワーク

Tree-Based Scenario Classification: A Formal Framework for Coverage Analysis on Test Drives of Autonomous Vehicles ( http://arxiv.org/abs/2307.05106v1 )

ライセンス: Link先を確認
Till Schallau, Stefan Naujokat, Fiona Kullmann, Falk Howar(参考訳) シナリオベースのテストは、自動運転車の安全性を保証するための重要なアプローチとして考えられている。 シナリオベースのテストでは、関連する(運転)シナリオがテストの基礎となる。 最近の多くの作品は、個々のシナリオの仕様、バリエーション、生成、実行に焦点を当てている。 本研究では,一連のシナリオを分類し,記録されたテストドライブにおけるこれらのシナリオのカバレッジを測定するというオープンな課題に対処する。 技術的には、複雑なデータストリーム上のシナリオの特徴を計算するロジックベースの分類器を定義し、これらの分類器をシナリオの集合を記述する機能木に組み合わせます。 都市交通のシナリオ分類器を定義し,シミュレーションから記録したデータに基づいて評価することで,提案手法の表現性と有効性を示す。

Scenario-based testing is envisioned as a key approach for the safety assurance of autonomous vehicles. In scenario-based testing, relevant (driving) scenarios are the basis of tests. Many recent works focus on specification, variation, generation and execution of individual scenarios. In this work, we address the open challenges of classifying sets of scenarios and measuring coverage of theses scenarios in recorded test drives. Technically, we define logic-based classifiers that compute features of scenarios on complex data streams and combine these classifiers into feature trees that describe sets of scenarios. We demonstrate the expressiveness and effectiveness of our approach by defining a scenario classifier for urban driving and evaluating it on data recorded from simulations.
翻訳日:2023-10-23 17:53:51 公開日:2023-07-11
# チャットボットは探索的ソフトウェアテストをサポートできるか? 予備的結果

Can a Chatbot Support Exploratory Software Testing? Preliminary Results ( http://arxiv.org/abs/2307.05807v1 )

ライセンス: Link先を確認
Rubens Copche and Yohan Duarte Pessanha and Vinicius Durelli and Marcelo Medeiros Eler and Andre Takeshi Endo(参考訳) 人間のテスタによって実行されるテストは、まだ広く普及しており、自動化アプローチの制限によって残されたギャップを埋めている。 人間中心のアプローチのうち、探索的テストはアジャイルチームにおける事実上のアプローチである。 テスタの専門性と創造性に重点を置いているが、探索テストのアクティビティは、人間のテスタと対話する自動化エージェントによって提供されるサポートの恩恵を受ける可能性がある。 本稿では,ソフトウェアアプリケーションの探索テストを実施しながらテスタを支援するチャットボットBotExpTestを提案する。 このバージョンには、バグや問題を報告するための機能、テストセッションの時間管理、アプリテストのガイドライン、探索的なテスト戦略の提示が含まれています。 BotExpTestを評価するために、6人のソフトウェアエンジニアリング専門家とユーザスタディを実施しました。 彼らはBotExpTestと一緒に探索テストを行う2つのセッションを行った。 参加者はバグを明らかにすることができ、チャットボットとポジティブに対話する体験を見つけた。 予備的な分析によると、チャットボット対応の探索テストは、同様のアプローチと同じくらい効果的であり、テスタがさまざまなバグを発見するのに役立つ可能性がある。 ボットはソフトウエアエンジニアリングにとって貴重なリソースであることが示されており、BotExpTestのようなイニシアチブは探索テストのようなテストアクティビティの有効性を改善するのに役立つかもしれない。

Tests executed by human testers are still widespread in practice and fill the gap left by limitations of automated approaches. Among the human-centered approaches, exploratory testing is the de facto approach in agile teams. Although it is focused on the expertise and creativity of the tester, the activity of exploratory testing may benefit from support provided by an automated agent that interacts with the human testers. This paper presents a chatbot, called BotExpTest, designed to support testers while performing exploratory tests of software applications. We implemented BotExpTest on top of the instant messaging social platform Discord; this version includes functionalities to report bugs and issues, time management of test sessions, guidelines for app testing, and presentation of exploratory testing strategies. To assess BotExpTest, we conducted a user study with six software engineering professionals. They carried out two sessions performing exploratory tests along with BotExpTest. Participants were capable of revealing bugs and found the experience to interact with the chatbot positive. Preliminary analyses indicate that chatbot-enabled exploratory testing may be as effective as similar approaches and help testers to uncover different bugs. Bots are shown to be valuable resources for Software Engineering, and initiatives like BotExpTest may help to improve the effectiveness of testing activities like exploratory testing.
翻訳日:2023-10-23 17:44:03 公開日:2023-07-11
# pepnet: 頻繁な負荷発生を支援する周期性知覚型ワークロード予測ネットワーク

PePNet: A Periodicity-Perceived Workload Prediction Network Supporting Rare Occurrence of Heavy Workload ( http://arxiv.org/abs/2308.01917v1 )

ライセンス: Link先を確認
Feiyi Chen, Zhen Qin, Hailiang Zhao, Mengchu Zhou, Shuiguang Deng(参考訳) クラウドプロバイダは、正確なワークロード予測の恩恵を受けることができる。 しかし、クラウドサーバのワークロードは非常に可変であり、時には重いワークロードがバーストする。 これにより、ワークロードの予測が難しくなる。 主に、統計的手法とニューラルネットワークに基づく方法の2つのカテゴリがある。 前者は強い数学的仮定に依存し、高度に可変なワークロードを予測する際に低い精度を報告している。 後者は全体的な精度が高いが、重いワークロードと一般的なワークロードの間のデータ不均衡に弱い。 これにより、重負荷時のニューラルネットワークベースのモデルの予測精度が低下する。 統計手法の全体的な不正確さや、ニューラルネットワークベースのモデルの重負荷不正確さは、サービスレベルの合意違反を引き起こす可能性がある。 そこで我々は,特に負荷予測の精度を向上させるためにPePNetを提案する。 特徴は2つある。 (一)事前の知識なしに、周期性の有無及び一周期の長さを自動的に検出する周期性知覚機構 さらに、周期的・ラックス的・非周期的時系列に適した周期的情報を適応的に融合する。 (ii)アキレスヒール損失関数は、各ステップの予測シーケンスにおいて最も不適合な部分を反復的に最適化し、重荷の予測精度を大幅に向上させる。 Alibaba2018、SMDデータセット、Dindaのデータセットで実施された大規模な実験によると、PePNetは、最先端の方法と比較して、全体のワークロードのMAPEを平均で20.0%改善している。 特にPePNetは、重労働負荷に対するMAPEを平均23.9%改善している。

Cloud providers can greatly benefit from accurate workload prediction. However, the workload of cloud servers is highly variable, with occasional heavy workload bursts. This makes workload prediction challenging. There are mainly two categories of workload prediction methods: statistical methods and neural-network-based ones. The former ones rely on strong mathematical assumptions and have reported low accuracy when predicting highly variable workload. The latter ones offer higher overall accuracy, yet they are vulnerable to data imbalance between heavy workload and common one. This impairs the prediction accuracy of neural network-based models on heavy workload. Either the overall inaccuracy of statistic methods or the heavy-workload inaccuracy of neural-network-based models can cause service level agreement violations. Thus, we propose PePNet to improve overall especially heavy workload prediction accuracy. It has two distinctive characteristics: (i) A Periodicity-Perceived Mechanism to detect the existence of periodicity and the length of one period automatically, without any priori knowledge. Furthermore, it fuses periodic information adaptively, which is suitable for periodic, lax periodic and aperiodic time series. (ii) An Achilles' Heel Loss Function iteratively optimizing the most under-fitting part in predicting sequence for each step, which significantly improves the prediction accuracy of heavy load. Extensive experiments conducted on Alibaba2018, SMD dataset and Dinda's dataset demonstrate that PePNet improves MAPE for overall workload by 20.0% on average, compared with state-of-the-art methods. Especially, PePNet improves MAPE for heavy workload by 23.9% on average.
翻訳日:2023-08-14 02:06:19 公開日:2023-07-11
# オフラインテキスト認識のための文字適応:ニューラルネットワークに基づく手法の探索

Writer adaptation for offline text recognition: An exploration of neural network-based methods ( http://arxiv.org/abs/2307.15071v1 )

ライセンス: Link先を確認
Tobias van der Werff, Maruf A. Dhali, Lambert Schomaker(参考訳) 筆跡認識はディープラーニングを用いることで大きな成功を収めた。 しかし、ニューラルネットワークの永続的な欠点は、シフトするデータ分布を扱うのに十分な装備がないことである。 手書きテキスト認識(htr)の分野では、これは訓練中に見たものと似ていない作家の認識精度が低いことを示している。 理想的なhtrモデルは、可能な膨大な書き込みスタイルを扱うために、新しい書き込みスタイルに適応する必要がある。 本稿では,新しい書き手(例16例など)からのサンプルのみを用いて,htrモデルを用いて書き手適応を実現する方法について検討する。 2つのHTRアーキテクチャはベースモデルとして使われ、LSTMまたはTransformerシーケンスデコーダと共にResNetのバックボーンを使用している。 これらの基本モデルを用いることで,2つの手法が文字適応化を図っている。 1)モデル非依存型メタラーニング(maml)は,マイトショット分類などのタスクに一般的に使用されるアルゴリズムである。 2)書き手符号は自動音声認識から派生した概念である。 その結果,MetaHTRとして知られるHTR固有のMAMLでは,単語誤り率(WER)が1.4~2.0向上したベースラインに比べて性能が向上した。 ライター適応による改善は0.2から0.7 werの間であり、より深いモデルはより浅いモデルよりもmetahtrを使った適応に向いているようである。 しかし、MetaHTRをより大きなHTRモデルや文レベルのHTRに適用することは、高い計算とメモリ要求のために禁止される可能性がある。 最後に,学習特徴やヒンジ統計特徴に基づく書き手符号は,認識性能の向上には至らなかった。

Handwriting recognition has seen significant success with the use of deep learning. However, a persistent shortcoming of neural networks is that they are not well-equipped to deal with shifting data distributions. In the field of handwritten text recognition (HTR), this shows itself in poor recognition accuracy for writers that are not similar to those seen during training. An ideal HTR model should be adaptive to new writing styles in order to handle the vast amount of possible writing styles. In this paper, we explore how HTR models can be made writer adaptive by using only a handful of examples from a new writer (e.g., 16 examples) for adaptation. Two HTR architectures are used as base models, using a ResNet backbone along with either an LSTM or Transformer sequence decoder. Using these base models, two methods are considered to make them writer adaptive: 1) model-agnostic meta-learning (MAML), an algorithm commonly used for tasks such as few-shot classification, and 2) writer codes, an idea originating from automatic speech recognition. Results show that an HTR-specific version of MAML known as MetaHTR improves performance compared to the baseline with a 1.4 to 2.0 improvement in word error rate (WER). The improvement due to writer adaptation is between 0.2 and 0.7 WER, where a deeper model seems to lend itself better to adaptation using MetaHTR than a shallower model. However, applying MetaHTR to larger HTR models or sentence-level HTR may become prohibitive due to its high computational and memory requirements. Lastly, writer codes based on learned features or Hinge statistical features did not lead to improved recognition performance.
翻訳日:2023-08-06 11:31:17 公開日:2023-07-11
# スポーツベッティング : ニューラルネットと現代ポートフォリオ理論のイングランド・プレミアリーグへの適用

Sports Betting: an application of neural networks and modern portfolio theory to the English Premier League ( http://arxiv.org/abs/2307.13807v1 )

ライセンス: Link先を確認
V\'elez Jim\'enez, Rom\'an Alberto, Lecuanda Ontiveros, Jos\'e Manuel, Edgar Possani(参考訳) 本稿では,Von Neumann-Morgensternが期待するユーティリティ理論,ディープラーニング技術,ケリー基準の高度な定式化を統合することで,スポーツギャンブルにおけるベッティング戦略を最適化するための新しいアプローチを提案する。 ニューラルネットワークモデルとポートフォリオ最適化を組み合わせることで,イングランド・プレミアリーグ20/21シーズン後半の初期富に対して,135.8%の利益を得た。 完全かつ制限された戦略を探求し、パフォーマンス、リスク管理、多様化を評価します。 深層ニューラルネットワークモデルは、限られた変数のような課題に対処しながら、結果の一致を予測するために開発されている。 本研究はスポーツ賭けと予測モデリングの分野で有用な洞察と実践的応用を提供する。

This paper presents a novel approach for optimizing betting strategies in sports gambling by integrating Von Neumann-Morgenstern Expected Utility Theory, deep learning techniques, and advanced formulations of the Kelly Criterion. By combining neural network models with portfolio optimization, our method achieved remarkable profits of 135.8% relative to the initial wealth during the latter half of the 20/21 season of the English Premier League. We explore complete and restricted strategies, evaluating their performance, risk management, and diversification. A deep neural network model is developed to forecast match outcomes, addressing challenges such as limited variables. Our research provides valuable insights and practical applications in the field of sports betting and predictive modeling.
翻訳日:2023-07-30 03:56:45 公開日:2023-07-11
# GPTを用いた類似企業識別のための名前付きエンティティ認識

Named entity recognition using GPT for identifying comparable companies ( http://arxiv.org/abs/2307.07420v1 )

ライセンス: Link先を確認
Eurico Covas(参考訳) 上場企業と民間企業の両方において、比較会社分析は企業評価の方法として広く使われている。 特に、この方法はプライベートエクイティ企業の評価額にとって大きな価値があります。 比較会社法に対するいくつかのアプローチは、通常、確立された業界分類スキームやアナリストの直観と知識を使う傾向がある類似の企業を特定するための定性的なアプローチに依存している。 しかし、文学やプライベートエクイティ業界、特に機械学習クラスタリングや自然言語処理(NLP)において、より定量的な手法が使われ始めている。 nlp法の場合、そのプロセスは、例えば、会社のウェブサイトや、いくつかの金融データベースシステムからの企業説明から製品エンティティを抽出し、類似性分析を行う。 ここでは、公開企業のウィキペディアウェブサイトの企業記述や要約を用いて、openaAIのGPTのような大規模言語モデル(LLM)を使用することで、手動アノテーションを使用する標準的なエンティティ認識(NER)よりもはるかに精度と成功率が高いことを示す。 定量的に高い精度を実証し、質的に、適切な競合する企業同士のピアグループを作成するために使用し、その上で株式評価に使用できることを示す。

For both public and private firms, comparable companies analysis is widely used as a method for company valuation. In particular, the method is of great value for valuation of private equity companies. The several approaches to the comparable companies method usually rely on a qualitative approach to identifying similar peer companies, which tends to use established industry classification schemes and/or analyst intuition and knowledge. However, more quantitative methods have started being used in the literature and in the private equity industry, in particular, machine learning clustering, and natural language processing (NLP). For NLP methods, the process consists of extracting product entities from e.g., the company's website or company descriptions from some financial database system and then to perform similarity analysis. Here, using companies descriptions/summaries from publicly available companies' Wikipedia websites, we show that using large language models (LLMs), such as GPT from openaAI, has a much higher precision and success rate than using the standard named entity recognition (NER) which uses manual annotation. We demonstrate quantitatively a higher precision rate, and show that, qualitatively, it can be used to create appropriate comparable companies peer groups which can then be used for equity valuation.
翻訳日:2023-07-23 12:39:11 公開日:2023-07-11
# 深さ結合型てんかん論理

Depth-bounded Epistemic Logic ( http://arxiv.org/abs/2307.07448v1 )

ライセンス: Link先を確認
Farid Arthaud (Massachusetts Institute of Technology), Martin Rinard (Massachusetts Institute of Technology)(参考訳) 疫学論理は、エージェントが彼らの信念と他のエージェントの信念をどう考えるかをモデル化する。 既存の論理学は、通常、エージェントが非有界様相の深さの命題について完全に推論する能力を持つ。 s5の拡張であるdbelは、特定のモーダル深さまでしか認識論的公式を推論できないエージェントをモデル化する。 エージェント深さの明確な推論をサポートするため、dbelは深さ原子ead(エージェントaは深さd)とパッド(エージェントaは深さd)を含む。 我々はDBELの完全公理化を行う。 我々はDBELを拡張して,有界深度エージェントの公開告知をサポートし,結果のDPAL論理が公開告知ロジックから標準公理をどのように一般化するかを示す。 我々は2つの代替拡張を提示し、2つの望ましくない性質であるアムネシアとナレッジリークを識別し、これらの拡張はDPALにはない。 これらの論理の公理化と、満足度とモデルチェックのための複雑さの結果を提供する。 最後に、これらの論理を用いて、古典的泥質児問題において、エージェントがこの問題をうまく解くために必要な深層知識の上層と下層を含む、有界な様相の深さを持つエージェントについて説明する。

Epistemic logics model how agents reason about their beliefs and the beliefs of other agents. Existing logics typically assume the ability of agents to reason perfectly about propositions of unbounded modal depth. We present DBEL, an extension of S5 that models agents that can reason about epistemic formulas only up to a specific modal depth. To support explicit reasoning about agent depths, DBEL includes depth atoms Ead (agent a has depth exactly d) and Pad (agent a has depth at least d). We provide a sound and complete axiomatization of DBEL. We extend DBEL to support public announcements for bounded depth agents and show how the resulting DPAL logic generalizes standard axioms from public announcement logic. We present two alternate extensions and identify two undesirable properties, amnesia and knowledge leakage, that these extensions have but DPAL does not. We provide axiomatizations of these logics as well as complexity results for satisfiability and model checking. Finally, we use these logics to illustrate how agents with bounded modal depth reason in the classical muddy children problem, including upper and lower bounds on the depth knowledge necessary for agents to successfully solve the problem.
翻訳日:2023-07-23 12:26:47 公開日:2023-07-11
# 長期covid-19患者の感情的・精神的幸福感のtwitter解析による探究

Exploring the Emotional and Mental Well-Being of Individuals with Long COVID Through Twitter Analysis ( http://arxiv.org/abs/2307.07558v1 )

ライセンス: Link先を確認
Guocheng Feng, Huaiyu Cai, Wei Quan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、感染後に持続する症状の集団であるLong COVIDの出現につながった。 長期のcovid-19患者はメンタルヘルスの問題も経験する可能性があり、個人の感情的および精神的健康を理解することが不可欠である。 本研究は、長期COVID-19患者の感情的・精神的幸福感をより深く理解し、最も関心のあるトピックを特定し、彼らの感情とソーシャルメディア活動の潜在的な相関について検討することを目的とする。 具体的には、ツイートをコンテンツに基づいて4つのカテゴリに分類し、6つの基本的な感情の存在を検出し、一般的なトピックを抽出する。 分析の結果, 研究期間を通じて負の感情が支配的であり, 新たな新型ウイルスの出現など, 臨界期間に2つのピークがあることが明らかとなった。 本研究は,Long COVIDの患者のメンタルヘルス問題に対処するための政策や対策に影響を及ぼし,今後の研究の基盤となるものと考えられる。

The COVID-19 pandemic has led to the emergence of Long COVID, a cluster of symptoms that persist after infection. Long COVID patients may also experience mental health challenges, making it essential to understand individuals' emotional and mental well-being. This study aims to gain a deeper understanding of Long COVID individuals' emotional and mental well-being, identify the topics that most concern them, and explore potential correlations between their emotions and social media activity. Specifically, we classify tweets into four categories based on the content, detect the presence of six basic emotions, and extract prevalent topics. Our analyses reveal that negative emotions dominated throughout the study period, with two peaks during critical periods, such as the outbreak of new COVID variants. The findings of this study have implications for policy and measures for addressing the mental health challenges of individuals with Long COVID and provide a foundation for future work.
翻訳日:2023-07-23 12:16:56 公開日:2023-07-11
# 今、機械は考えることができますか?

Can I say, now machines can think? ( http://arxiv.org/abs/2307.07526v1 )

ライセンス: Link先を確認
Nitisha Aggarwal, Geetika Jain Saxena, Sanjeev Singh, Amit Pundir(参考訳) 生成的AI技術は、さまざまな領域における新しい世代のマシンの道を開いた。 これらのマシンは、例えば、画像を生成し、回答やストーリーを生成し、ユーザが提供する"prompts"に基づいてコードを書くことができる。 これらの機械は人間のような反応を発生させる能力があるので「心を考える」と考えられる。 本研究では,人工知能を活用した機械の能力を分析し,検討した。 我々はチューリングの思考機械の概念を再考し、最近の技術進歩と比較した。 本研究は,思考機械の認識能力を評価するための利用可能な技術とともに,思考機械の異論と結果についても論じる。 我々はチューリングテストが機械の能力を評価する重要な側面であると結論付けている。 しかし、インテリジェンスには他にも側面があり、AIマシンはこれらの側面の多くを表現している。

Generative AI techniques have opened the path for new generations of machines in diverse domains. These machines have various capabilities for example, they can produce images, generate answers or stories, and write codes based on the "prompts" only provided by users. These machines are considered 'thinking minds' because they have the ability to generate human-like responses. In this study, we have analyzed and explored the capabilities of artificial intelligence-enabled machines. We have revisited on Turing's concept of thinking machines and compared it with recent technological advancements. The objections and consequences of the thinking machines are also discussed in this study, along with available techniques to evaluate machines' cognitive capabilities. We have concluded that Turing Test is a critical aspect of evaluating machines' ability. However, there are other aspects of intelligence too, and AI machines exhibit most of these aspects.
翻訳日:2023-07-23 12:16:14 公開日:2023-07-11
# HistoColAi - AI駆動予測統合によるコラボレーション型デジタルヒストロジーイメージアノテーションのためのオープンソースのWebプラットフォーム

HistoColAi: An Open-Source Web Platform for Collaborative Digital Histology Image Annotation with AI-Driven Predictive Integration ( http://arxiv.org/abs/2307.07525v1 )

ライセンス: Link先を確認
Cristian Camilo Pulgar\'in-Ospina, Roc\'io del Amor, Adri\'an Colomera, Julio Silva-Rodr\'iguez and Valery Naranjo(参考訳) デジタル病理学は、多くの利点があるため、病理ワークフローの標準となっている。 これには、生成されたスライド画像全体の詳細レベル、病院間でのケースの即時共有が含まれる。 深層学習に基づく画像解析手法の最近の進歩は、デジタル病理学の潜在的助けとなる。 しかしながら、病理診断のためのコンピュータ支援診断システムの開発における大きな制限は、直感的でオープンなデータアノテーションアプリケーションがないことである。 本稿では,デジタル化ヒストロジー画像の可視化と注釈作成を効率的に行うwebサービスを提案する。 また,本論文では,複数の注釈者を対象としたスピンドル細胞皮膚腫瘍の診断を中心としたユースケースについて述べる。 また,開発ツールの有用性を示すツールのユーザビリティスタディも提示した。

Digital pathology has become a standard in the pathology workflow due to its many benefits. These include the level of detail of the whole slide images generated and the potential immediate sharing of cases between hospitals. Recent advances in deep learning-based methods for image analysis make them of potential aid in digital pathology. However, a major limitation in developing computer-aided diagnostic systems for pathology is the lack of an intuitive and open web application for data annotation. This paper proposes a web service that efficiently provides a tool to visualize and annotate digitized histological images. In addition, to show and validate the tool, in this paper we include a use case centered on the diagnosis of spindle cell skin neoplasm for multiple annotators. A usability study of the tool is also presented, showing the feasibility of the developed tool.
翻訳日:2023-07-23 12:16:01 公開日:2023-07-11
# 構造モデルによる関数の因果性の低減

Reducing Causality to Functions with Structural Models ( http://arxiv.org/abs/2307.07524v1 )

ライセンス: Link先を確認
Tianyi Miao(参考訳) 因果関係の正確な定義は、現在哲学と統計学においてオープンな問題となっている。 因果性は(数学において)作用をマップする関数として定義されるべきだと考えています。 本研究では,構造機能モデル(SFM)に基づく因果関係の還元的定義を提案する。 デルタ圧縮と対照的な前方推論を用いることで、SFMは「X が Y の原因」や「X が Y の原因である」といった因果発話を生成できる。 因果シナリオのデータセットをコンパイルし、それらすべてにSFMを使用します。 SFMは確率論とは互換性があるが、再現できない。 また、SFMを他の因果関係の理論と比較し、自由意志、因果説明、精神的因果関係などの下流問題に適用する。

The precise definition of causality is currently an open problem in philosophy and statistics. We believe causality should be defined as functions (in mathematics) that map causes to effects. We propose a reductive definition of causality based on Structural Functional Model (SFM). Using delta compression and contrastive forward inference, SFM can produce causal utterances like "X causes Y" and "X is the cause of Y" that match our intuitions. We compile a dataset of causal scenarios and use SFM in all of them. SFM is compatible with but not reducible to probability theory. We also compare SFM with other theories of causation and apply SFM to downstream problems like free will, causal explanation, and mental causation.
翻訳日:2023-07-23 12:15:48 公開日:2023-07-11
# 中国はAI研究で米国に追いついたのか? 後期工業化剤のモデルとしてのミメティック同型の探索

Has China caught up to the US in AI research? An exploration of mimetic isomorphism as a model for late industrializers ( http://arxiv.org/abs/2307.10198v1 )

ライセンス: Link先を確認
Chao Min, Yi Zhao, Yi Bu, Ying Ding, Caroline S. Wagner(参考訳) 21世紀のテクノロジーの基盤である人工知能(AI)は、中国で著しく成長している。 本稿では,中国のai開発過程を考察し,早期学習と差別化が特徴であり,初期のアジアの工業化企業に見られる対外直接投資によって推進される輸出指向の成長を上回っていることを示す。 われわれのデータは、中国が現在米国をAI関連の研究論文の量でリードしていることを示している。 しかし、特定の指標に基づいてこれらの論文の品質を考察すると、米国は若干の差を残している。 それでも、中国のAI開発のペースと規模は注目に値する。 中国の加速aiの進展を、アルゴリズムや研究論文へのオープンアクセスを好む世界的なトレンド、中国の幅広いdiasporaとreturneesからの貢献、比較的緩やかなデータ保護ポリシーなど、いくつかの要因に分類した。 本研究は,中国による米国研究の模倣を調査するための新しい手段を開発してきた。 我々の分析によると、2018年までに、AI研究のトピックに対処する中国と米国の間の時間ラグが蒸発した。 この発見は、中国が重要な知識ギャップを効果的に橋渡しし、独立した研究の軌道に乗り出している可能性を示唆している。 この研究は中国と米国を排他的に比較するが、両国間の研究協力が、どちらの国も独自に作ったものよりも高い評価を受けていることに留意する必要がある。 このことは、AIの科学的進歩を促進するための国際協力の力を強調している。

Artificial Intelligence (AI), a cornerstone of 21st-century technology, has seen remarkable growth in China. In this paper, we examine China's AI development process, demonstrating that it is characterized by rapid learning and differentiation, surpassing the export-oriented growth propelled by Foreign Direct Investment seen in earlier Asian industrializers. Our data indicates that China currently leads the USA in the volume of AI-related research papers. However, when we delve into the quality of these papers based on specific metrics, the USA retains a slight edge. Nevertheless, the pace and scale of China's AI development remain noteworthy. We attribute China's accelerated AI progress to several factors, including global trends favoring open access to algorithms and research papers, contributions from China's broad diaspora and returnees, and relatively lax data protection policies. In the vein of our research, we have developed a novel measure for gauging China's imitation of US research. Our analysis shows that by 2018, the time lag between China and the USA in addressing AI research topics had evaporated. This finding suggests that China has effectively bridged a significant knowledge gap and could potentially be setting out on an independent research trajectory. While this study compares China and the USA exclusively, it's important to note that research collaborations between these two nations have resulted in more highly cited work than those produced by either country independently. This underscores the power of international cooperation in driving scientific progress in AI.
翻訳日:2023-07-23 11:26:50 公開日:2023-07-11
# 複雑システムにおける教師なし学習

Unsupervised Learning in Complex Systems ( http://arxiv.org/abs/2307.10993v1 )

ライセンス: Link先を確認
Hugo Cisneros(参考訳) 本論では,自然・人工システムにおける学習・適応研究における複雑なシステムの利用について考察する。 目標は、監視なしで学び、独自に開発し、時間とともにますます複雑になる自律的なシステムを開発することだ。 複雑なシステムは、複雑さの成長を示す能力のため、これらの現象を理解するための適切なフレームワークとして識別される。 監視を一切必要としない学習アルゴリズムを構築することで、さまざまなアプリケーションの柔軟性と適応性が向上する。 複雑なシステムにおける学習の基本原則を理解することで、我々は、将来、実用的な学習アルゴリズムを設計、実装する能力を前進させることを望んでいる。 この論文は、複雑性の増大を示す複雑なシステムの探索に応用する一般的な複雑性指標の開発、大規模複雑システムの計算を研究するための粗粒法の導入、学習効率の指標の開発、学習アルゴリズムの速度を評価するためのベンチマークデータセットの開発などに寄与する。 本研究は,自然・人工システムにおける学習と適応の理解に大きく寄与する。 さらに,本手法は,この分野の研究に有望な新たな方向性をもたらす。 これらの発見が今後,より効率的かつ効率的な学習アルゴリズムの開発を促すことを願っている。

In this thesis, we explore the use of complex systems to study learning and adaptation in natural and artificial systems. The goal is to develop autonomous systems that can learn without supervision, develop on their own, and become increasingly complex over time. Complex systems are identified as a suitable framework for understanding these phenomena due to their ability to exhibit growth of complexity. Being able to build learning algorithms that require limited to no supervision would enable greater flexibility and adaptability in various applications. By understanding the fundamental principles of learning in complex systems, we hope to advance our ability to design and implement practical learning algorithms in the future. This thesis makes the following key contributions: the development of a general complexity metric that we apply to search for complex systems that exhibit growth of complexity, the introduction of a coarse-graining method to study computations in large-scale complex systems, and the development of a metric for learning efficiency as well as a benchmark dataset for evaluating the speed of learning algorithms. Our findings add substantially to our understanding of learning and adaptation in natural and artificial systems. Moreover, our approach contributes to a promising new direction for research in this area. We hope these findings will inspire the development of more effective and efficient learning algorithms in the future.
翻訳日:2023-07-23 11:09:19 公開日:2023-07-11
# AnuraSet:受動的音響モニタリングにおけるNeotropical anuranコールの識別をベンチマークするデータセット

AnuraSet: A dataset for benchmarking Neotropical anuran calls identification in passive acoustic monitoring ( http://arxiv.org/abs/2307.06860v1 )

ライセンス: Link先を確認
Juan Sebasti\'an Ca\~nas, Maria Paula Toro-G\'omez, Larissa Sayuri Moreira Sugai, Hern\'an Dar\'io Ben\'itez Restrepo, Jorge Rudas, Breyner Posso Bautista, Lu\'is Felipe Toledo, Simone Dena, Ad\~ao Henrique Rosa Domingos, Franco Leandro de Souza, Selvino Neckel-Oliveira, Anderson da Rosa, V\'itor Carvalho-Rocha, Jos\'e Vin\'icius Bernardy, Jos\'e Luiz Massao Moreira Sugai, Carolina Em\'ilia dos Santos, Rog\'erio Pereira Bastos, Diego Llusia, Juan Sebasti\'an Ulloa(参考訳) 地球環境の変化は、受動的音響モニタリング(PAM)によって研究できる、オーロラの音響挙動の変化を引き起こすと予測されている。 呼出行動の変化を理解するには、異方性音環境の特徴から難解なアヌラン種を特定する必要がある。 本稿では,ブラジルの2つの生物群と42種の異なる種に対する27時間の専門家アノテーションを含む,PAMが記録した大規模な両生類呼び出しの多種データセットを紹介する。 我々は、生記録、実験的なセットアップコード、細粒度分類問題のベースラインモデルを用いたベンチマークを含むデータセットへのオープンアクセスを提供する。 さらに,データセットの課題を強調し,機械学習研究者に対して,保護政策に対する匿名呼び出し識別の課題を解決するように促す。 実験とリソースはすべてGitHubリポジトリhttps://github.com/soundclim/anuraset.comにある。

Global change is predicted to induce shifts in anuran acoustic behavior, which can be studied through passive acoustic monitoring (PAM). Understanding changes in calling behavior requires the identification of anuran species, which is challenging due to the particular characteristics of neotropical soundscapes. In this paper, we introduce a large-scale multi-species dataset of anuran amphibians calls recorded by PAM, that comprises 27 hours of expert annotations for 42 different species from two Brazilian biomes. We provide open access to the dataset, including the raw recordings, experimental setup code, and a benchmark with a baseline model of the fine-grained categorization problem. Additionally, we highlight the challenges of the dataset to encourage machine learning researchers to solve the problem of anuran call identification towards conservation policy. All our experiments and resources can be found on our GitHub repository https://github.com/soundclim/anuraset.
翻訳日:2023-07-14 14:10:18 公開日:2023-07-11
# 開放型世代における自己一貫性

Self-consistency for open-ended generations ( http://arxiv.org/abs/2307.06857v1 )

ライセンス: Link先を確認
Siddhartha Jain, Xiaofei Ma, Anoop Deoras, Bing Xiang(参考訳) 本稿では,大規模事前学習言語モデル(LLM)から生成した出力の品質と一貫性を改善するための新しい手法を提案する。 自己一貫性は、固定された回答を持つプロンプトに対して効果的なアプローチとして現れ、最も投票数の多い回答を選択する。 本稿では,固定解答を持つ問題を超えてその適用性を拡張する自己一貫性のための一般化フレームワークを提案する。 広範なシミュレーションにより,提案手法は候補群から最適あるいは至近の最適生成を一貫して回復することを示す。 また、トークンログの確率がなくても、コード生成、オートフォーマライゼーション、要約タスク間で顕著で一貫した改善を示す軽量なパラメータフリー類似関数を提案する。 提案手法は最小の計算オーバーヘッドを伴い,補助的なリランクモデルや既存モデルへの修正を必要としない。

In this paper, we present a novel approach for improving the quality and consistency of generated outputs from large-scale pre-trained language models (LLMs). Self-consistency has emerged as an effective approach for prompts with fixed answers, selecting the answer with the highest number of votes. In this paper, we introduce a generalized framework for self-consistency that extends its applicability beyond problems that have fixed-answer answers. Through extensive simulations, we demonstrate that our approach consistently recovers the optimal or near-optimal generation from a set of candidates. We also propose lightweight parameter-free similarity functions that show significant and consistent improvements across code generation, autoformalization, and summarization tasks, even without access to token log probabilities. Our method incurs minimal computational overhead, requiring no auxiliary reranker models or modifications to the existing model.
翻訳日:2023-07-14 14:10:00 公開日:2023-07-11
# 多クラス分類における便益オーバーフィッティング:全ての道路が補間に繋がる

Benign Overfitting in Multiclass Classification: All Roads Lead to Interpolation ( http://arxiv.org/abs/2106.10865v3 )

ライセンス: Link先を確認
Ke Wang, Vidya Muthukumar, Christos Thrampoulidis(参考訳) 過パラメータ化モデルにおける「良性過剰適合」に関する文献は、回帰や二分分類に限られているが、現代の機械学習は多クラス設定で動作する。 この相違により、多クラス線形分類における良性過剰適合について検討した。 具体的には,分離可能なデータのトレーニングアルゴリズムについて考察する。 (i)クロスエントロピー損失を伴う経験的リスク最小化(ERM)は、マルチクラスサポートベクターマシン(SVM)ソリューションに収束する。 (二)最小二乗損失のERMは、min-norm補間(MNI)溶液に収束する。 (iii) 1-vs-all SVM 分類器。 まず,3つのアルゴリズムが学習データを補間し,同じ精度の分類器に導かれる,簡単な決定論的条件を提案する。 ガウス混合または多項ロジスティックモデルからデータが生成される場合、この条件は十分に有効パラメータ化される。 また,この条件が,深層ニューラルネットワークの訓練において観察される「神経崩壊」現象の下で満足できることを示す。 第2に、MNI分類器の精度に基づいた新しい境界を導出し、3つのトレーニングアルゴリズムが十分な過パラメータ化の下で良性オーバーフィットすることを示した。 最終的に、我々の分析は、典型的なマージンベース境界が適用される領域を超えて、SVMソリューションに良い一般化が可能であることを示している。

The literature on "benign overfitting" in overparameterized models has been mostly restricted to regression or binary classification; however, modern machine learning operates in the multiclass setting. Motivated by this discrepancy, we study benign overfitting in multiclass linear classification. Specifically, we consider the following training algorithms on separable data: (i) empirical risk minimization (ERM) with cross-entropy loss, which converges to the multiclass support vector machine (SVM) solution; (ii) ERM with least-squares loss, which converges to the min-norm interpolating (MNI) solution; and, (iii) the one-vs-all SVM classifier. First, we provide a simple sufficient deterministic condition under which all three algorithms lead to classifiers that interpolate the training data and have equal accuracy. When the data is generated from Gaussian mixtures or a multinomial logistic model, this condition holds under high enough effective overparameterization. We also show that this sufficient condition is satisfied under "neural collapse", a phenomenon that is observed in training deep neural networks. Second, we derive novel bounds on the accuracy of the MNI classifier, thereby showing that all three training algorithms lead to benign overfitting under sufficient overparameterization. Ultimately, our analysis shows that good generalization is possible for SVM solutions beyond the realm in which typical margin-based bounds apply.
翻訳日:2023-07-13 20:57:02 公開日:2023-07-11
# 自己監視型異常検出:調査と展望

Self-Supervised Anomaly Detection: A Survey and Outlook ( http://arxiv.org/abs/2205.05173v3 )

ライセンス: Link先を確認
Hadi Hojjati, Thi Kieu Khanh Ho, Narges Armanfard(参考訳) 異常検出(AD)は、通常の行動から逸脱するパターンや事象を特定することによって、サイバーセキュリティ、金融、医療など様々な領域において重要な役割を果たす。 近年,深層学習モデルの顕著な成長により,この分野において大きな進歩を遂げている。 特に、自己教師付き学習の出現は、既存の最先端のアプローチをかなりの差で上回る新しい広告アルゴリズムの開発を促した。 本稿では,自己監督型異常検出における現在の手法を概観する。 標準手法の技術的詳細を説明し,その強みと欠点について考察する。 また,これらのモデルの性能を,他の最先端の異常検出モデルと比較した。 最後に、より効率的かつ効率的なアルゴリズムの開発や、これらの手法をマルチモーダル学習などの他の関連分野と統合することを含む、自己教師付き異常検出の今後の方向性について論じる。

Anomaly detection (AD) plays a crucial role in various domains, including cybersecurity, finance, and healthcare, by identifying patterns or events that deviate from normal behaviour. In recent years, significant progress has been made in this field due to the remarkable growth of deep learning models. Notably, the advent of self-supervised learning has sparked the development of novel AD algorithms that outperform the existing state-of-the-art approaches by a considerable margin. This paper aims to provide a comprehensive review of the current methodologies in self-supervised anomaly detection. We present technical details of the standard methods and discuss their strengths and drawbacks. We also compare the performance of these models against each other and other state-of-the-art anomaly detection models. Finally, the paper concludes with a discussion of future directions for self-supervised anomaly detection, including the development of more effective and efficient algorithms and the integration of these techniques with other related fields, such as multi-modal learning.
翻訳日:2023-07-13 20:48:01 公開日:2023-07-11
# 無線ネットワーク上でのグリーンな量子化フェデレーション学習:エネルギー効率の良い設計

Green, Quantized Federated Learning over Wireless Networks: An Energy-Efficient Design ( http://arxiv.org/abs/2207.09387v3 )

ライセンス: Link先を確認
Minsu Kim, Walid Saad, Mohammad Mozaffari, Merouane Debbah(参考訳) 本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限精度のデータを表現する,グリーン量子化flフレームワークを提案する。 ここでは、有限精度レベルは、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用してキャプチャされる。 検討されたFLモデルでは、各デバイスがQNNを訓練し、量子化されたトレーニング結果を基地局に送信する。 局所学習のためのエネルギーモデルと量子化を伴う伝達は厳格に導出される。 エネルギー消費と通信ラウンドの数を同時に最小化するため、目標精度制約の下で収束を確保しつつ、局所的なイテレーション数、選択されたデバイス数、ローカルトレーニングと送信の両方の精度レベルについて多目的最適化問題を定式化する。 この問題を解決するために,提案するFLシステムの収束速度をシステム制御変数に対して解析的に導出する。 そこで, 問題のパレート境界は, 正規境界検査法を用いて効率的な解を提供する。 目標精度を達成する上での2つの目標間のトレードオフのバランスに関する設計洞察をnash交渉溶液を用いて抽出し、導出収束率の解析から導出する。 シミュレーションの結果,提案するFLフレームワークは,収束率を損なうことなく完全精度でデータを表現したベースラインFLアルゴリズムと比較して,収束までエネルギー消費量を最大70 %削減できることがわかった。

In this paper, a green-quantized FL framework, which represents data with a finite precision level in both local training and uplink transmission, is proposed. Here, the finite precision level is captured through the use of quantized neural networks (QNNs) that quantize weights and activations in fixed-precision format. In the considered FL model, each device trains its QNN and transmits a quantized training result to the base station. Energy models for the local training and the transmission with quantization are rigorously derived. To minimize the energy consumption and the number of communication rounds simultaneously, a multi-objective optimization problem is formulated with respect to the number of local iterations, the number of selected devices, and the precision levels for both local training and transmission while ensuring convergence under a target accuracy constraint. To solve this problem, the convergence rate of the proposed FL system is analytically derived with respect to the system control variables. Then, the Pareto boundary of the problem is characterized to provide efficient solutions using the normal boundary inspection method. Design insights on balancing the tradeoff between the two objectives while achieving a target accuracy are drawn from using the Nash bargaining solution and analyzing the derived convergence rate. Simulation results show that the proposed FL framework can reduce energy consumption until convergence by up to 70\% compared to a baseline FL algorithm that represents data with full precision without damaging the convergence rate.
翻訳日:2023-07-13 20:37:26 公開日:2023-07-11
# 識別モデルによる知覚分析における生成モデルの性能向上

Discriminative Models Can Still Outperform Generative Models in Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2206.02892v2 )

ライセンス: Link先を確認
Dhruv Mullick, Alona Fyshe, Bilal Ghanem(参考訳) アスペクトベースの知覚分析(ABSA)は、製品やサービスに対する顧客の意見を説明するのに役立つ。 過去にはABSAモデルは差別的だったが、近年ではテキストから直接アスペクトや極性を生成するために生成モデルが使われている。 対照的に、識別モデルはまずテキストからアスペクトを選択し、次にアスペクトの極性を分類する。 以前の結果から、生成モデルはいくつかの英語のABSAデータセットにおいて差別モデルよりも優れていた。 本稿では,言語間,言語間,言語間および言語間およびドメインという,英語のモノリンガル内ドメイン以外の設定における一般化可能性を理解するために,2つの最先端の判別モデルと生成モデルを評価し,対比する。 我々のより徹底的な評価は、以前の研究とは対照的に、差別的モデルは、ほとんど全ての設定で生成モデルよりも優れていることを示している。

Aspect-based Sentiment Analysis (ABSA) helps to explain customers' opinions towards products and services. In the past, ABSA models were discriminative, but more recently generative models have been used to generate aspects and polarities directly from text. In contrast, discriminative models commonly first select aspects from the text, and then classify the aspect's polarity. Previous results showed that generative models outperform discriminative models on several English ABSA datasets. Here, we evaluate and contrast two state-of-the-art discriminative and generative models in several settings: cross-lingual, cross-domain, and cross-lingual and domain, to understand generalizability in settings other than English mono-lingual in-domain. Our more thorough evaluation shows that, contrary to previous studies, discriminative models can still outperform generative models in almost all settings.
翻訳日:2023-07-13 20:35:12 公開日:2023-07-11
# リプシッツ非線形単一ニューロンモデルの能動的学習

Active Learning for Single Neuron Models with Lipschitz Non-Linearities ( http://arxiv.org/abs/2210.13601v2 )

ライセンス: Link先を確認
Aarshvi Gajjar, Chinmay Hegde, Christopher Musco(参考訳) 単一ニューロンモデルのアクティブラーニングの問題(しばしば「リッジ関数」とも呼ばれる)を、不可知な設定(逆ラベル雑音下で)において検討する。 このようなモデルは、物理現象のモデリングや偏微分方程式の代理データ駆動モデルの構築に広く有効であることが示されている。 驚くべきことに、任意のリプシッツ非線形性(relu、sgmoid、絶対値、低次多項式など)を持つ単一ニューロンモデルの場合、無依存な設定で \emph{linear function} を満たすための有名なアクティブ学習戦略を用いて、強い証明可能な近似保証が得られる。 % --すなわち、非線形性が存在しない場合である。 すなわち、他のアクティブな学習シナリオでほぼ最適であることが示されている統計値 \emph{leverage score sampling} によってサンプルを収集できる。 実験的なシミュレーションにより,単一ニューロンモデルに適合する場合に,スコアサンプリング法(通常)に匹敵する一様サンプリングを活用し,アクティブラーニング戦略を提案する。

We consider the problem of active learning for single neuron models, also sometimes called ``ridge functions'', in the agnostic setting (under adversarial label noise). Such models have been shown to be broadly effective in modeling physical phenomena, and for constructing surrogate data-driven models for partial differential equations. Surprisingly, we show that for a single neuron model with any Lipschitz non-linearity (such as the ReLU, sigmoid, absolute value, low-degree polynomial, among others), strong provable approximation guarantees can be obtained using a well-known active learning strategy for fitting \emph{linear functions} in the agnostic setting. % -- i.e. for the case when there is no non-linearity. Namely, we can collect samples via statistical \emph{leverage score sampling}, which has been shown to be near-optimal in other active learning scenarios. We support our theoretical results with empirical simulations showing that our proposed active learning strategy based on leverage score sampling outperforms (ordinary) uniform sampling when fitting single neuron models.
翻訳日:2023-07-13 20:26:46 公開日:2023-07-11
# 超固体スピン軌道結合ボースガス中のStripeパターンのダイナミクス

Dynamics of Stripe Patterns in Supersolid Spin-Orbit-Coupled Bose Gases ( http://arxiv.org/abs/2210.10064v2 )

ライセンス: Link先を確認
Kevin T. Geier, Giovanni I. Martone, Philipp Hauke, Wolfgang Ketterle and Sandro Stringari(参考訳) スピン軌道結合したボース=アインシュタイン凝縮における超固体の地上での観測にもかかわらず、現在まで、出現する空間周期密度変調のダイナミクスは明らかに解明されていない。 本稿では,超固体凝縮系における密度帯の非剛性を示し,スピン摂動による動的挙動を探究する。 無限系において解析的にも、高調波トラップの存在下でも、スピン波が結晶波の形で超固体の密度プロファイルにどのように影響するかを数値的に示し、周期性の振動とフリンジの配向を誘導することを示した。 これらの特徴はどちらも、現在の実験の範囲内にある。 このシステムは, 完全に動的結晶構造とともに超流動性を有する, パラダイム的な超固体であることを示す。

Despite ground-breaking observations of supersolidity in spin-orbit-coupled Bose-Einstein condensates, until now the dynamics of the emerging spatially periodic density modulations has been vastly unexplored. Here, we demonstrate the nonrigidity of the density stripes in such a supersolid condensate and explore their dynamic behavior subject to spin perturbations. We show both analytically in infinite systems and numerically in the presence of a harmonic trap how spin waves affect the supersolid's density profile in the form of crystal waves, inducing oscillations of the periodicity as well as the orientation of the fringes. Both these features are well within reach of present-day experiments. Our results show that this system is a paradigmatic supersolid, featuring superfluidity in conjunction with a fully dynamic crystalline structure.
翻訳日:2023-07-13 20:26:15 公開日:2023-07-11
# マルチビュー知覚と3次元多目的追跡に基づく温室トマトにおける全果実の自動局在と全果実の再構築に関する研究

Development and evaluation of automated localisation and reconstruction of all fruits on tomato plants in a greenhouse based on multi-view perception and 3D multi-object tracking ( http://arxiv.org/abs/2211.02760v2 )

ライセンス: Link先を確認
David Rapado Rincon, Eldert J. van Henten, Gert Kootstra(参考訳) ロボットがタスクを効果的に実行するためには、関連オブジェクトを正確に表現し、ローカライズする能力が不可欠である。 従来のアプローチでは、ロボットは単に画像をキャプチャし、その画像を処理してアクションを取り、その情報を忘れる。 これらの問題に対処する可能性を持つ多視点知覚を用いた手法は、複数の視点から情報の収集、統合、抽出を導く世界モデルを必要とする。 さらに,様々な環境やタスクに適用可能な汎用表現の構築も困難である。 本稿では,多視点認識と3次元多物体追跡を用いた閉鎖されたアグロフード環境における汎用表現構築手法を提案する。 この方法は、検出対象毎に部分的点雲を生成する検出アルゴリズムと、時間とともに表現を更新する3dマルチオブジェクト追跡アルゴリズムに基づいている。 表象の精度は実環境において評価され, トマト植物におけるトマトの表現と局在は, 高い包接度にもかかわらず達成され, トマトの総数5.08%, トマトは71.47%と推定された。 新たな追跡指標を導入し、果実のローカライズおよび表現におけるエラーに対する貴重な洞察が、それらの使用によって提供できることを実証した。 このアプローチは、閉鎖されたアグロフード環境における表現を構築するための新しいソリューションを示し、ロボットがこれらの困難な環境で効果的にタスクを実行できる可能性を示す。

The ability to accurately represent and localise relevant objects is essential for robots to carry out tasks effectively. Traditional approaches, where robots simply capture an image, process that image to take an action, and then forget the information, have proven to struggle in the presence of occlusions. Methods using multi-view perception, which have the potential to address some of these problems, require a world model that guides the collection, integration and extraction of information from multiple viewpoints. Furthermore, constructing a generic representation that can be applied in various environments and tasks is a difficult challenge. In this paper, a novel approach for building generic representations in occluded agro-food environments using multi-view perception and 3D multi-object tracking is introduced. The method is based on a detection algorithm that generates partial point clouds for each detected object, followed by a 3D multi-object tracking algorithm that updates the representation over time. The accuracy of the representation was evaluated in a real-world environment, where successful representation and localisation of tomatoes in tomato plants were achieved, despite high levels of occlusion, with the total count of tomatoes estimated with a maximum error of 5.08% and the tomatoes tracked with an accuracy up to 71.47%. Novel tracking metrics were introduced, demonstrating that valuable insight into the errors in localising and representing the fruits can be provided by their use. This approach presents a novel solution for building representations in occluded agro-food environments, demonstrating potential to enable robots to perform tasks effectively in these challenging environments.
翻訳日:2023-07-13 20:16:40 公開日:2023-07-11
# IoCを超えて見る:外部CTIから攻撃パターンを自動的に抽出する

Looking Beyond IoCs: Automatically Extracting Attack Patterns from External CTI ( http://arxiv.org/abs/2211.01753v2 )

ライセンス: Link先を確認
Md Tanvirul Alam, Dipkamal Bhusal, Youngja Park and Nidhi Rastogi(参考訳) 公共および商業組織は、サイバー脅威インテリジェンス(CTI)を広く共有し、既存および新興のサイバー攻撃に対して防御するシステムを準備している。 しかし、従来のCTIは主にIPアドレスやドメイン名などの既知の脅威指標を追跡することに重点を置いている。 この課題に対処するために、攻撃パターンと呼ばれるより堅牢な脅威情報信号を使用することを提案する。 LADDERは、CTIレポートからテキストベースの攻撃パターンを大規模に抽出できる知識抽出フレームワークである。 このフレームワークは、Androidおよびエンタープライズネットワークにおける攻撃のフェーズをキャプチャして、それらをMITRE ATT\&CKパターンフレームワークに体系的にマッピングすることで、攻撃パターンを特徴付ける。 LADDERはセキュリティアナリストによって、既存の脅威や出現する脅威に関連する攻撃ベクトルの存在を判断するために使用することができる。 また,実世界のシナリオにおけるsladerの適用例をいくつか紹介する。 最後に、将来のサイバー脅威インテリジェンスモデルをトレーニングするための、新しいオープンアクセスベンチマークマルウェアデータセットを提供する。

Public and commercial organizations extensively share cyberthreat intelligence (CTI) to prepare systems to defend against existing and emerging cyberattacks. However, traditional CTI has primarily focused on tracking known threat indicators such as IP addresses and domain names, which may not provide long-term value in defending against evolving attacks. To address this challenge, we propose to use more robust threat intelligence signals called attack patterns. LADDER is a knowledge extraction framework that can extract text-based attack patterns from CTI reports at scale. The framework characterizes attack patterns by capturing the phases of an attack in Android and enterprise networks and systematically maps them to the MITRE ATT\&CK pattern framework. LADDER can be used by security analysts to determine the presence of attack vectors related to existing and emerging threats, enabling them to prepare defenses proactively. We also present several use cases to demonstrate the application of LADDER in real-world scenarios. Finally, we provide a new, open-access benchmark malware dataset to train future cyberthreat intelligence models.
翻訳日:2023-07-13 20:16:13 公開日:2023-07-11
# インクリメンタルトレーニングにおける説明力の調和--LIMEに基づくアプローチ

Harnessing the Power of Explanations for Incremental Training: A LIME-Based Approach ( http://arxiv.org/abs/2211.01413v2 )

ライセンス: Link先を確認
Arnab Neelim Mazumder, Niall Lyons, Ashutosh Pandey, Avik Santra, and Tinoosh Mohsenin(参考訳) ニューラルネットワークの予測の説明可能性は、特徴の重要性を理解し、ニューラルネットワークのパフォーマンスに関する解釈可能な洞察を得るために不可欠である。 しかし、ニューラルネットワークの結果の説明はほとんど可視化に限られており、モデルの性能を改善するためにこれらの説明をフィードバックとして利用する研究はほとんどない。 本研究では,モデル説明をフィードフォワードトレーニングにフィードバックすることで,モデルの一般化を支援する。 そこで本研究では, 実LIME(Local Interpretable Model-Agnostic Explanations)説明とモデル予測LIME説明とのユークリッド距離を考慮し, 重みを発生させる独自の重み付き損失を提案する。 また、実践的なトレーニングシナリオでは、トレーニングデータの全てを一度に利用できないため、以前のデータ分布に関する情報を失うことなく、モデルを逐次学習できるソリューションを開発することが不可欠である。 このように、このフレームワークは、シーケンシャルなテストセットのパフォーマンスを維持するために、Elastic Weight Consolidation (EWC)と独自の重み付き損失を組み込んでいる。 提案するカスタムトレーニング手順は,google speech commandデータセットを用いたキーワードスポッティングタスクの従来のロスベーストレーニング手法と比較して,インクリメンタル学習のすべてのフェーズで0.5%から1.5%の精度を一貫して向上させる。

Explainability of neural network prediction is essential to understand feature importance and gain interpretable insight into neural network performance. However, explanations of neural network outcomes are mostly limited to visualization, and there is scarce work that looks to use these explanations as feedback to improve model performance. In this work, model explanations are fed back to the feed-forward training to help the model generalize better. To this extent, a custom weighted loss where the weights are generated by considering the Euclidean distances between true LIME (Local Interpretable Model-Agnostic Explanations) explanations and model-predicted LIME explanations is proposed. Also, in practical training scenarios, developing a solution that can help the model learn sequentially without losing information on previous data distribution is imperative due to the unavailability of all the training data at once. Thus, the framework incorporates the custom weighted loss with Elastic Weight Consolidation (EWC) to maintain performance in sequential testing sets. The proposed custom training procedure results in a consistent enhancement of accuracy ranging from 0.5% to 1.5% throughout all phases of the incremental learning setup compared to traditional loss-based training methods for the keyword spotting task using the Google Speech Commands dataset.
翻訳日:2023-07-13 20:15:54 公開日:2023-07-11
# 準結晶ポテンシャルにおける二次元ボソンの熱力学的相図

Thermodynamic Phase Diagram of Two-Dimensional Bosons in a Quasicrystal Potential ( http://arxiv.org/abs/2210.15526v2 )

ライセンス: Link先を確認
Zhaoxuan Zhu, Hepeng Yao, Laurent Sanchez-Palencia(参考訳) 合成ボソニック物質中の準結晶の量子シミュレーションは、これらの興味深い系を広いパラメータ範囲で探索する道を開いた。 しかし、そのような系の熱揺らぎは量子コヒーレンスと競合し、ゼロ温度の量子位相に大きな影響を及ぼす。 ここでは2次元等質準結晶ポテンシャルにおける相互作用ボソンの熱力学的位相図を決定する。 結果は量子モンテカルロシミュレーションを用いて得られた。 有限サイズのスケーリングは慎重に検討され、量子相は熱相と体系的に区別される。 特に, 実ボースガラス相を一定パラメータの範囲で通常の流体に対して安定化させることを実証する。 フェミオン化図を用いて強い相互作用を解釈し,実験的妥当性について考察した。

Quantum simulation of quasicrystals in synthetic bosonic matter now paves the way to the exploration of these intriguing systems in wide parameter ranges. Yet thermal fluctuations in such systems compete with quantum coherence, and significantly affect the zero-temperature quantum phases. Here we determine the thermodynamic phase diagram of interacting bosons in a two-dimensional, homogeneous quasicrystal potential. Our results are found using quantum Monte Carlo simulations. Finite-size scaling is carefully considered and the quantum phases are systematically distinguished from thermal phases. In particular, we demonstrate stabilization of a genuine Bose glass phase against the normal fluid in sizable parameter ranges. Our results for strong interactions are interpreted using a fermionization picture and experimental relevance is discussed.
翻訳日:2023-07-13 20:15:10 公開日:2023-07-11
# 航空機の皮膚検査 : デント評価の新しいモデルに向けて

Aircraft Skin Inspections: Towards a New Model for Dent Evaluation ( http://arxiv.org/abs/2301.10473v2 )

ライセンス: Link先を確認
Pasquale Lafiosca, Ip-Shing Fan, Nicolas P. Avdelidis(参考訳) 航空機のメンテナンス、修理およびオーバーホール産業は、徐々にデント検査のために3Dスキャンに切り替えている。 高精度なデバイスは、迅速かつ反復可能な測定を可能にし、効率的な報告とより客観的な損傷評価に繋がる。 しかし、3Dスキャナーの可能性は、決して悪用されない。 これは、構造修復マニュアルがデントを扱う伝統的な方法、すなわち長さ、幅、深さを唯一関連する手段として考慮しているためである。 箱のようにデントを記述するのと同じであり、現在のアプローチは実際の形状に関する情報を破棄する。 これにより、非常に異なる形状(およびそれに対応する疲労寿命)を同一に分類した曖昧さが高まり、高精度な3dスキャナから大量の情報を取得する労力を省くことができる。 本論文では, デント形状を記述するために7パラメータモデルを提案し, 3dスキャナが生成する高忠実度データの活用を可能にした。 コンパクトな値集合は、同じモデルに基づいて歴史的データと構造的評価と比較することができる。 提案手法は8treeのdentCHECKツールによって生成されたシミュレーションとポイントクラウドデータの両方で評価されており、損傷を評価する能力が向上し、より標的となる介入が可能となり、最終的にはコストを削減できる。

Aircraft maintenance, repair and overhaul industry is gradually switching to 3D scanning for dent inspection. High-accuracy devices allow quick and repeatable measurements, which translate into efficient reporting and more objective damage evaluations. However, the potential of 3D scanners is far from being exploited. This is due to the traditional way in which the structural repair manual deals with dents, that is, considering length, width and depth as the only relevant measures. Being equivalent to describing a dent similarly to a box, the current approach discards any information about the actual shape. This causes high degrees of ambiguity, with very different shapes (and corresponding fatigue life) being classified as the same, and nullifies the effort of acquiring such great amount of information from high-accuracy 3D scanners. In this paper a 7-parameter model is proposed to describe the actual dent shape, thus enabling the exploitation of the high fidelity data produced by 3D scanners. The compact set of values can then be compared against historical data and structural evaluations based on the same model. The proposed approach has been evaluated in both simulations and point cloud data generated by 8tree's dentCHECK tool, suggesting increased capability to evaluate damage, enabling more targeted interventions and, ultimately, saving costs.
翻訳日:2023-07-13 19:57:31 公開日:2023-07-11
# 量子レペラ上の共鳴の平均局在化

Average localization of resonances on the quantum repeller ( http://arxiv.org/abs/2301.04135v2 )

ライセンス: Link先を確認
J. Montes, Gabriel G. Carlo and F. Borondo(参考訳) マイクロレーザーなどの共振器のキャビティの研究において、部分的に開放された(散乱)システムに関連する共鳴の局在性への関心が高まっている。 ごく最近になって、これらの状態のスケールした形式に局所化が存在しないことが判明した。 さらに、非スケール共鳴では周期軌道とは異なる構造に新しいタイプの傷跡が記述される。 本稿では,非ユニタリ進化作用素の左および右共振への分解に基づく,量子lr表現に対応する分布関数の局在を,パラダイムシステムである半開量子トライベーカー写像に対して解析する。 最短周期軌道上の位置を求める。 また、スケールされた状態は周期軌道に関連付けられない拡張を示し、LR表現を見ればより明確になる。 これらの発見は、最近の理論的発展に対する新しい視点の扉を開く。

There has been a very recent surge in the interest on the localization properties of resonances associated to partially open (scattering) systems, which are of great relevance when studying resonant cavities such as those used in microlasers. Very recently, it has been found that no localization is present in a scaled form of these states. Moreover, a new kind of scarring on structures different from periodic orbits is described for non scaled resonances. In this paper, we analyze the localization of a distribution function corresponding to the quantum LR representation -- based on the non unitary evolution operator decomposition into left and right resonances -- for the partially open quantum tribaker map, a paradigmatic system. We find localization on the shortest periodic orbits. Also, scaled states present enhancements that could not be associated to periodic orbits and that become more evident when looking at the LR representation. These findings open the door for new perspectives on recent theoretical developments.
翻訳日:2023-07-13 19:57:10 公開日:2023-07-11
# the algonauts project 2023 challenge: 人間の脳が自然の場面をどのように理解するか

The Algonauts Project 2023 Challenge: How the Human Brain Makes Sense of Natural Scenes ( http://arxiv.org/abs/2301.03198v4 )

ライセンス: Link先を確認
A. T. Gifford, B. Lahner, S. Saba-Sadiya, M. G. Vilas, A. Lascelles, A. Oliva, K. Kay, G. Roig, R. M. Cichy(参考訳) 生物学と人工知能の科学はいっそう絡み合っている。 ニューラルコンピューティングの原理は、脳の理論的理解を進めるために使われる新しいインテリジェントマシンを刺激する。 生物と人工知能の研究者間のさらなるアイデアの交換とコラボレーションを促進するために、我々は2023年のalgonauts project challenge: how the human brain makes sense of natural scene (http://algonauts.csail.mit.edu)の設置を紹介する。 このインストールは、視覚シーンに対するfMRI応答の最大かつ最もリッチなデータセットであるNatural Scenes Dataset(NSD)を使用して、視覚脳の計算モデルを構築するために、人工知能と生物学的インテリジェンス分野の協力を促す。 nsdは73,000の異なる自然色シーンに対して高品質なfmri応答を提供し、2023年のチャレンジで推進されたデータ駆動モデル構築アプローチの理想的な候補となっている。 課題はすべてオープンであり、公開リーダボードを通じて結果を直接比較し、透過的に各提出後に自動的に更新することで、迅速なモデル開発が可能になる。 2023年の設置は、生物と人工知能の科学者の間で共生的なコラボレーションを引き起こし、最先端の計算モデルを通じて脳をより深く理解し、生物学的システムからの帰納的バイアスを通じて人工知能エージェントをエンジニアリングする新しい方法につながると信じている。

The sciences of biological and artificial intelligence are ever more intertwined. Neural computational principles inspire new intelligent machines, which are in turn used to advance theoretical understanding of the brain. To promote further exchange of ideas and collaboration between biological and artificial intelligence researchers, we introduce the 2023 installment of the Algonauts Project challenge: How the Human Brain Makes Sense of Natural Scenes (http://algonauts.csail.mit.edu). This installment prompts the fields of artificial and biological intelligence to come together towards building computational models of the visual brain using the largest and richest dataset of fMRI responses to visual scenes, the Natural Scenes Dataset (NSD). NSD provides high-quality fMRI responses to ~73,000 different naturalistic colored scenes, making it the ideal candidate for data-driven model building approaches promoted by the 2023 challenge. The challenge is open to all and makes results directly comparable and transparent through a public leaderboard automatically updated after each submission, thus allowing for rapid model development. We believe that the 2023 installment will spark symbiotic collaborations between biological and artificial intelligence scientists, leading to a deeper understanding of the brain through cutting-edge computational models and to novel ways of engineering artificial intelligent agents through inductive biases from biological systems.
翻訳日:2023-07-13 19:56:56 公開日:2023-07-11
# ラベル平滑化によるドメイン内およびドメイン外テキスト競合ロバスト性

In and Out-of-Domain Text Adversarial Robustness via Label Smoothing ( http://arxiv.org/abs/2212.10258v2 )

ライセンス: Link先を確認
Yahan Yang, Soham Dan, Dan Roth, Insup Lee(参考訳) 近年、最先端のNLPモデルは敵攻撃に弱いことが示されており、モデルの予測は入力へのわずかな変更(シノニム置換など)によって劇的に変更可能である。 テキスト敵攻撃の個別性に対して,いくつかの防御手法が提案され,適用されてきたが,言語モデルに対するラベルスムーシングなどの汎用正規化手法の利点は研究されていない。 本稿では,ドメイン内およびドメイン外の両方における多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的堅牢性について検討する。 実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対する対向的堅牢性を著しく向上することが示された。 また,予測信頼度とロバスト性との関係を解析し,ラベル平滑化が敵対例の信頼度過大な誤りを減少させることを示した。

Recently it has been shown that state-of-the-art NLP models are vulnerable to adversarial attacks, where the predictions of a model can be drastically altered by slight modifications to the input (such as synonym substitutions). While several defense techniques have been proposed, and adapted, to the discrete nature of text adversarial attacks, the benefits of general-purpose regularization methods such as label smoothing for language models, have not been studied. In this paper, we study the adversarial robustness provided by various label smoothing strategies in foundational models for diverse NLP tasks in both in-domain and out-of-domain settings. Our experiments show that label smoothing significantly improves adversarial robustness in pre-trained models like BERT, against various popular attacks. We also analyze the relationship between prediction confidence and robustness, showing that label smoothing reduces over-confident errors on adversarial examples.
翻訳日:2023-07-13 19:56:08 公開日:2023-07-11
# リアルタイム車両軌道予測のためのコンテキスト対応時空間VAE

Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction ( http://arxiv.org/abs/2302.10873v3 )

ライセンス: Link先を確認
Pei Xu, Jean-Bernard Hayet and Ioannis Karamouzas(参考訳) 人間の操舵行動のリアルタイムで正確な予測には、インテリジェントな交通システムの開発から、実世界とシミュレーション世界の両方における自律運転システムの導入まで、幅広い応用がある。 本稿では,マルチモーダル車両軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。 時間的に変動するオートエンコーダのバックボーンアーキテクチャに基づいて、ContextVAE観測エンコーディングは、環境コンテキストと動的エージェントの状態を統一的に考慮した二重アテンション機構を採用している。 エージェント状態符号化中の意味マップから抽出した特徴を生かして,現場のエージェントが提示する社会的特徴と物理的環境制約の両方を考慮し,地図に適合した,社会的に認識された軌跡を生成する。 私たちは、nuscenes prediction challenge、lyft level 5 dataset、waymo open motion datasetの広範なテストを行い、このアプローチの有効性と最先端のパフォーマンスを示しています。 すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。 私たちのコードは、https://github.com/xupei0610/contextvaeで利用可能です。

Real-time, accurate prediction of human steering behaviors has wide applications, from developing intelligent traffic systems to deploying autonomous driving systems in both real and simulated worlds. In this paper, we present ContextVAE, a context-aware approach for multi-modal vehicle trajectory prediction. Built upon the backbone architecture of a timewise variational autoencoder, ContextVAE observation encoding employs a dual attention mechanism that accounts for the environmental context and the dynamic agents' states, in a unified way. By utilizing features extracted from semantic maps during agent state encoding, our approach takes into account both the social features exhibited by agents on the scene and the physical environment constraints to generate map-compliant and socially-aware trajectories. We perform extensive testing on the nuScenes prediction challenge, Lyft Level 5 dataset and Waymo Open Motion Dataset to show the effectiveness of our approach and its state-of-the-art performance. In all tested datasets, ContextVAE models are fast to train and provide high-quality multi-modal predictions in real-time. Our code is available at: https://github.com/xupei0610/ContextVAE.
翻訳日:2023-07-13 19:47:32 公開日:2023-07-11
# MonoFlow: Wassersteinグラディエントフローの観点からの多様性GANの再考

MonoFlow: Rethinking Divergence GANs via the Perspective of Wasserstein Gradient Flows ( http://arxiv.org/abs/2302.01075v4 )

ライセンス: Link先を確認
Mingxuan Yi, Zhanxing Zhu, Song Liu(参考訳) GAN(Generative Adversarial Network)における対人訓練の従来の理解は、判別器が分散を推定するために訓練され、生成器はこの分散を最小化する。 GANの多くの変種がこのパラダイムに従って開発されたという事実にもかかわらず、GANとその実践的アルゴリズムの現在の理論的理解は矛盾している。 本稿では,サンプル空間における粒子の進化を特徴づけるwasserstein勾配流を利用して,ganの理論的洞察とアルゴリズム的インスピレーションを得る。 粒子の進化は単調に増大する対数密度比のマッピングによって再スケールされる。 本手法では, 識別器の訓練によりモノフローのベクトル場を得る手順として, 相手のベクトル場によって定義される粒子流を描画することを学ぶ。 また,変動発散最小化と逆行訓練の基本的な違いを明らかにする。 この解析は,ganの学習にどのような種類のジェネレータ損失関数が寄与するかを明らかにするのに役立ち,モノフローを実現する限り,ganは文献以上の損失設計(例えば,不飽和損失)を持つ可能性があることを示唆する。 本フレームワークの有効性を検証するため, 一貫性のある実証研究を含む。

The conventional understanding of adversarial training in generative adversarial networks (GANs) is that the discriminator is trained to estimate a divergence, and the generator learns to minimize this divergence. We argue that despite the fact that many variants of GANs were developed following this paradigm, the current theoretical understanding of GANs and their practical algorithms are inconsistent. In this paper, we leverage Wasserstein gradient flows which characterize the evolution of particles in the sample space, to gain theoretical insights and algorithmic inspiration of GANs. We introduce a unified generative modeling framework - MonoFlow: the particle evolution is rescaled via a monotonically increasing mapping of the log density ratio. Under our framework, adversarial training can be viewed as a procedure first obtaining MonoFlow's vector field via training the discriminator and the generator learns to draw the particle flow defined by the corresponding vector field. We also reveal the fundamental difference between variational divergence minimization and adversarial training. This analysis helps us to identify what types of generator loss functions can lead to the successful training of GANs and suggest that GANs may have more loss designs beyond the literature (e.g., non-saturated loss), as long as they realize MonoFlow. Consistent empirical studies are included to validate the effectiveness of our framework.
翻訳日:2023-07-13 19:46:08 公開日:2023-07-11
# 相対エントロピー境界を用いた異方性ランゲヴィンダイナミクスのプライバシーリスク

Privacy Risk for anisotropic Langevin dynamics using relative entropy bounds ( http://arxiv.org/abs/2302.00766v2 )

ライセンス: Link先を確認
Anastasia Borovykh, Nikolas Kantas, Panos Parpas, Greg Pavliotis(参考訳) 付加的等方性ノイズを伴うランジュバンダイナミクスのプライバシー保護特性は広く研究されている。 しかし、等方性ノイズの仮定は非常に制限的です。 (a) 既存の学習アルゴリズムに雑音を加えることで、プライバシーを保ち、出力の相対的な大きさとその相関性を考慮して可能な限りの精度を維持すること。 (b)確率勾配降下(およびその連続時間限界)のような一般的なアルゴリズムは異方性共分散特性を持つように見える。 異方性雑音の場合のプライバシーリスクを調べるには、ドリフトと拡散係数の異なる2つの確率微分方程式の法則間の相対エントロピーに関する一般的な結果が必要である。 我々の主な貢献は、関数的不等式によるフォッカー・プランク方程式の解に対する安定性推定を用いてそのような境界を確立することである。 追加の仮定では、相対エントロピー境界は$(\epsilon,\delta)$-differential privacy boundを意味するか、またはメンバーシップ推論攻撃の成功のバウンドを意味する。 最後に、2次損失とニューラルネットワーク設定の数値結果を用いて、異方性雑音の利点を示す。

The privacy preserving properties of Langevin dynamics with additive isotropic noise have been extensively studied. However, the isotropic noise assumption is very restrictive: (a) when adding noise to existing learning algorithms to preserve privacy and maintain the best possible accuracy one should take into account the relative magnitude of the outputs and their correlations; (b) popular algorithms such as stochastic gradient descent (and their continuous time limits) appear to possess anisotropic covariance properties. To study the privacy risks for the anisotropic noise case, one requires general results on the relative entropy between the laws of two Stochastic Differential Equations with different drifts and diffusion coefficients. Our main contribution is to establish such a bound using stability estimates for solutions to the Fokker-Planck equations via functional inequalities. With additional assumptions, the relative entropy bound implies an $(\epsilon,\delta)$-differential privacy bound or translates to bounds on the membership inference attack success and we show how anisotropic noise can lead to better privacy-accuracy trade-offs. Finally, the benefits of anisotropic noise are illustrated using numerical results in quadratic loss and neural network setups.
翻訳日:2023-07-13 19:45:44 公開日:2023-07-11
# CCTV-Gun:CCTV画像におけるハンドガン検出のベンチマーク

CCTV-Gun: Benchmarking Handgun Detection in CCTV Images ( http://arxiv.org/abs/2303.10703v3 )

ライセンス: Link先を確認
Srikar Yellapragada, Zhenghong Li, Kevin Bhadresh Doshi, Purva Makarand Mhasakar, Heng Fan, Jie Wei, Erik Blasch, Bin Zhang, Haibin Ling(参考訳) 銃暴力は重要なセキュリティ問題であり、特にCCTV監視データにおいて、現実のシナリオに有効な銃検出アルゴリズムを開発することがコンピュータビジョンコミュニティにとって必須である。 視覚的物体検出の大幅な進歩にもかかわらず、現実のCCTV画像における銃の検出は困難で未調査の課題である。 銃器、特に拳銃は、通常、非常に小さいサイズであり、外観が不十分であり、しばしば他の小物と酷く遮蔽されるか、区別できない。 さらに、標準ベンチマークの欠如と関連するデータセットの収集がアルゴリズム開発を妨げている。 本稿では,実世界のCCTV画像における拳銃検出の課題に対処する,巧妙に製作された注釈付きベンチマーク「textbf{CCTV-Gun}」を提案する。 私たちの貢献は3倍です。 まず,3つのデータセットから実世界のCCTV画像を慎重に選択,分析し,手動で拳銃とその保持者をアノテートし,各画像にぼやけや閉塞などの課題因子を割り当てる。 第2に,実用環境で銃の検知に不可欠な標準データセット内プロトコルに加えて,新たなクロスデータセット評価プロトコルを提案する。 最後に,古典的および最先端の物体検出アルゴリズムを包括的に評価し,一般化能力の詳細な分析を行った。 このベンチマークは、このトピックに関するさらなる研究と開発を促進し、最終的にはセキュリティを強化する。 コード、アノテーション、トレーニングされたモデルはhttps://github.com/srikarym/CCTV-Gun.orgで入手できる。

Gun violence is a critical security problem, and it is imperative for the computer vision community to develop effective gun detection algorithms for real-world scenarios, particularly in Closed Circuit Television (CCTV) surveillance data. Despite significant progress in visual object detection, detecting guns in real-world CCTV images remains a challenging and under-explored task. Firearms, especially handguns, are typically very small in size, non-salient in appearance, and often severely occluded or indistinguishable from other small objects. Additionally, the lack of principled benchmarks and difficulty collecting relevant datasets further hinder algorithmic development. In this paper, we present a meticulously crafted and annotated benchmark, called \textbf{CCTV-Gun}, which addresses the challenges of detecting handguns in real-world CCTV images. Our contribution is three-fold. Firstly, we carefully select and analyze real-world CCTV images from three datasets, manually annotate handguns and their holders, and assign each image with relevant challenge factors such as blur and occlusion. Secondly, we propose a new cross-dataset evaluation protocol in addition to the standard intra-dataset protocol, which is vital for gun detection in practical settings. Finally, we comprehensively evaluate both classical and state-of-the-art object detection algorithms, providing an in-depth analysis of their generalizing abilities. The benchmark will facilitate further research and development on this topic and ultimately enhance security. Code, annotations, and trained models are available at https://github.com/srikarym/CCTV-Gun.
翻訳日:2023-07-13 19:38:50 公開日:2023-07-11
# 階層構造概念の学習 II: 重なり合う概念とフィードバックによるネットワーク

Learning Hierarchically-Structured Concepts II: Overlapping Concepts, and Networks With Feedback ( http://arxiv.org/abs/2304.09540v2 )

ライセンス: Link先を確認
Nancy Lynch and Frederik Mallmann-Trenn(参考訳) Lynch と Mallmann-Trenn (Neural Networks, 2021) による研究を継続し、階層構造を持つ概念が脳のようなニューラルネットワークでどのように表現されるか、これらの表現が概念の認識にどのように使用されるか、そしてこれらの表現がどのように学習されるかについて研究する。 lynch and mallmann-trenn (neural networks, 2021) では,単純な木構造概念とフィードフォワード層ネットワークを検討した。 ここではモデルを2つの方法で拡張する: 異なる概念を持つ子供たちの間のオーバーラップを制限し、ネットワークがフィードバックのエッジを含むようにする。 より一般的なケースでは、認識のためのアルゴリズムと学習のためのアルゴリズムを記述し分析する。

We continue our study from Lynch and Mallmann-Trenn (Neural Networks, 2021), of how concepts that have hierarchical structure might be represented in brain-like neural networks, how these representations might be used to recognize the concepts, and how these representations might be learned. In Lynch and Mallmann-Trenn (Neural Networks, 2021), we considered simple tree-structured concepts and feed-forward layered networks. Here we extend the model in two ways: we allow limited overlap between children of different concepts, and we allow networks to include feedback edges. For these more general cases, we describe and analyze algorithms for recognition and algorithms for learning.
翻訳日:2023-07-13 19:28:47 公開日:2023-07-11
# あらゆるものを一度にセグメンテーションする

Segment Everything Everywhere All at Once ( http://arxiv.org/abs/2304.06718v4 )

ライセンス: Link先を確認
Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Wang, Lijuan Wang, Jianfeng Gao, Yong Jae Lee(参考訳) 本稿では,SEEMについて述べる。SEEMは,図1に示すように,すべてのものを一斉に画像に分割する,迅速かつインタラクティブなモデルである。 我々は,あらゆる種類のセグメンテーションタスクに対して多様なプロンプトを可能にする新しいデコード機構を提案し,大規模言語モデル (llm) のように振る舞うユニバーサルセグメンテーションインタフェースを目標とした。 より具体的には、SEEMは4つのデシラタで設計されている。 i) 汎用性。 我々は,ポイント,ボックス,スクリブル,マスクを含む異なる空間クエリを統一する新しい視覚的プロンプトを導入し,さらに別の参照画像に一般化する。 ii) 構成性。 様々なセグメンテーションタスクに必要な2つのプロンプトタイプの動的構成を容易にするテキストと視覚プロンプトの合同視覚意味空間を学習する。 iii) 対話性。 さらに学習可能なメモリプロンプトをデコーダに組み込んで,デコーダから画像特徴へのマスクガイドによるクロスアテンションを通じてセグメンテーション履歴を保持する。 四) 意味認識。 我々はテキストエンコーダを用いてテキストクエリとマスクラベルを同じ意味空間にエンコードし、オープン語彙セグメンテーションを行う。 多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。 特に,本モデルでは,対話型セグメンテーション,ジェネリックセグメンテーション,参照セグメンテーション,ビデオオブジェクトセグメンテーションの9つのデータセットにおける最小1/100の監視を行う。 さらに、SEEMは新規プロンプトやそれらの組み合わせを一般化するための顕著な能力を示し、容易に普遍的なイメージセグメンテーションインタフェースとなる。

In this work, we present SEEM, a promptable and interactive model for segmenting everything everywhere all at once in an image, as shown in Fig.1. In SEEM, we propose a novel decoding mechanism that enables diverse prompting for all types of segmentation tasks, aiming at a universal segmentation interface that behaves like large language models (LLMs). More specifically, SEEM is designed with four desiderata: i) Versatility. We introduce a new visual prompt to unify different spatial queries including points, boxes, scribbles and masks, which can further generalize to a different referring image; ii) Compositionality. We learn a joint visual-semantic space between text and visual prompts, which facilitates the dynamic composition of two prompt types required for various segmentation tasks; iii) Interactivity. We further incorporate learnable memory prompts into the decoder to retain segmentation history through mask-guided cross-attention from decoder to image features; and iv) Semantic-awareness. We use a text encoder to encode text queries and mask labels into the same semantic space for open-vocabulary segmentation. We conduct a comprehensive empirical study to validate the effectiveness of SEEM across diverse segmentation tasks. Notably, our single SEEM model achieves competitive performance across interactive segmentation, generic segmentation, referring segmentation, and video object segmentation on 9 datasets with minimum 1/100 supervision. Furthermore, SEEM showcases a remarkable capacity for generalization to novel prompts or their combinations, rendering it a readily universal image segmentation interface.
翻訳日:2023-07-13 19:27:35 公開日:2023-07-11
# ダイス損失勾配とそれを模倣する方法について

On the dice loss gradient and the ways to mimic it ( http://arxiv.org/abs/2304.04319v2 )

ライセンス: Link先を確認
Hoel Kervadec, Marleen de Bruijne(参考訳) 完全に教師されたセマンティックセグメンテーションの文脈では、ニューラルネットワークを監督するデファクトスタンダードとして、クロスエントロピーやサイコロのようないくつかの損失が生まれている。 diceの損失は、一般的なdice係数の緩和に起因する興味深いケースである。 本稿では,まず,ダイス損失の勾配を理論的に検討し,特に地上の真理の重み付けされた負の値であり,非常に小さなダイナミックレンジであることを示す。 これにより、本論文の第2部では、基底真理の負のネットワーク出力の単純な要素的乗算により、ダイス損失の監督を模倣することができる。 このかなり驚くべき結果は、勾配降下時のサイコロ損失によって実行される実践的な監督に光を当てる。 これは、新しい損失を設計する際に研究者を指導しながら結果を理解し、解釈するのに役立ちます。

In the past few years, in the context of fully-supervised semantic segmentation, several losses -- such as cross-entropy and dice -- have emerged as de facto standards to supervise neural networks. The Dice loss is an interesting case, as it comes from the relaxation of the popular Dice coefficient; one of the main evaluation metric in medical imaging applications. In this paper, we first study theoretically the gradient of the dice loss, showing that concretely it is a weighted negative of the ground truth, with a very small dynamic range. This enables us, in the second part of this paper, to mimic the supervision of the dice loss, through a simple element-wise multiplication of the network output with a negative of the ground truth. This rather surprising result sheds light on the practical supervision performed by the dice loss during gradient descent. This can help the practitioner to understand and interpret results while guiding researchers when designing new losses.
翻訳日:2023-07-13 19:26:26 公開日:2023-07-11
# RL4F: モデル出力の修復のための強化学習による自然言語フィードバックの生成

RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs ( http://arxiv.org/abs/2305.08844v2 )

ライセンス: Link先を確認
Afra Feyza Aky\"urek, Ekin Aky\"urek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon(参考訳) 前例のない成功にもかかわらず、大きな言語モデルでさえ間違いを犯します。 人間がフィードバックを使って学習し、改善する方法と同様に、以前の研究は、アウトプットを修復するための自然言語フィードバックを備えた言語モデルを提案した。 人為的な批判は高いので、研究者は人間の批判に代えて学習した批評生成装置を考案し、下流のモデルを訓練して生成されたフィードバックを活用できると仮定した。 しかし、このアプローチは微調整できないため、ブラックボックスやchatgptのような限定アクセスモデルには適用されない。 さらに,大規模汎用言語エージェントの時代には,ネットワークの複数コピーの結果,微調整は計算的にも空間的にも効率的ではない。 本稿では,200倍以上の大きさの固定モデルであるGPT-3のエンドタスク性能を最大化するために,批判生成器をトレーニングするマルチエージェント協調フレームワークであるRL4F(Reinforcement Learning for Feedback)を紹介する。 RL4Fは、GPT-3の出力の修正を支援する批評を生成する。 動作計画,要約,アルファベット化の3つのデータセットについて検討し,他の学習的,検索的,即興的な批判生成装置と比較して,複数のテキスト類似度指標において最大10%の改善を示した。

Despite their unprecedented success, even the largest language models make mistakes. Similar to how humans learn and improve using feedback, previous work proposed providing language models with natural language feedback to guide them in repairing their outputs. Because human-generated critiques are expensive to obtain, researchers have devised learned critique generators in lieu of human critics while assuming one can train downstream models to utilize generated feedback. However, this approach does not apply to black-box or limited access models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of large general-purpose language agents, fine-tuning is neither computationally nor spatially efficient as it results in multiple copies of the network. In this work, we introduce RL4F (Reinforcement Learning for Feedback), a multi-agent collaborative framework where the critique generator is trained to maximize end-task performance of GPT-3, a fixed model more than 200 times its size. RL4F produces critiques that help GPT-3 revise its outputs. We study three datasets for action planning, summarization and alphabetization and show relative improvements up to 10% in multiple text similarity metrics over other learned, retrieval-augmented or prompting-based critique generators.
翻訳日:2023-07-13 19:19:09 公開日:2023-07-11
# codegen2: プログラミングと自然言語に関するllmトレーニングの教訓

CodeGen2: Lessons for Training LLMs on Programming and Natural Languages ( http://arxiv.org/abs/2305.02309v2 )

ライセンス: Link先を確認
Erik Nijkamp, Hiroaki Hayashi, Caiming Xiong, Silvio Savarese, Yingbo Zhou(参考訳) 大規模言語モデル(LLM)は、プログラム合成および理解タスクの表現学習において顕著な能力を示した。 学習された表現の質は、モデルのパラメータ数と観測値の関数としてのニューラルネットワークのスケーリング則によって決定され、モデルの性能の上限は利用可能なデータ量と計算コストによって決定される。 本研究では,(1)モデルアーキテクチャ,(2)学習方法,(3)インフィルサンプリング,(4)データ分散の4つの主要コンポーネントを統合することで,プログラム合成のためのLCMのトレーニングをより効率的に行うことを試みる。 具体的には、モデルアーキテクチャにおいて、エンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一しようと試みる。 学習方法です (i)因果言語モデリング (ii)汚職をまねる。 (iii)インフィルは単純な学習アルゴリズムに統合される。 インフィルサンプリングのために、我々は「フリーランチ」仮説の主張を探求する。 データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。 我々は1B LLMの総合的な実験を行い、この探索の失敗と成功を5つの教訓に抽出した。 CodeGen2モデルをサイズ1B、3.7B、7B、16Bパラメータでトレーニングしリリースするための最後のレシピと、オープンソースとしてトレーニングフレームワークを提供する。

Large language models (LLMs) have demonstrated remarkable abilities in representation learning for program synthesis and understanding tasks. The quality of the learned representations appears to be dictated by the neural scaling laws as a function of the number of model parameters and observations, while imposing upper bounds on the model performance by the amount of available data and compute, which is costly. In this study, we attempt to render the training of LLMs for program synthesis more efficient by unifying four key components: (1) model architectures, (2) learning methods, (3) infill sampling, and, (4) data distributions. Specifically, for the model architecture, we attempt to unify encoder and decoder-based models into a single prefix-LM. For learning methods, (i) causal language modeling, (ii) span corruption, (iii) infilling are unified into a simple learning algorithm. For infill sampling, we explore the claim of a "free lunch" hypothesis. For data distributions, the effect of a mixture distribution and multi-epoch training of programming and natural languages on model performance is explored. We conduct a comprehensive series of empirical experiments on 1B LLMs, for which failures and successes of this exploration are distilled into five lessons. We will provide a final recipe for training and release CodeGen2 models in size 1B, 3.7B, 7B, and, 16B parameters, along with the training framework as open-source: https://github.com/salesforce/CodeGen.
翻訳日:2023-07-13 19:17:59 公開日:2023-07-11
# カメラのない分光感度推定

Spectral Sensitivity Estimation Without a Camera ( http://arxiv.org/abs/2304.11549v2 )

ライセンス: Link先を確認
Grigory Solomatov and Derya Akkaynak(参考訳) コンピュータビジョンや関連分野における多くの問題は、カメラのスペクトル感度が分かっていれば緩和される。 コンシューマーカメラは高精度な視覚タスクのために設計されていないため、メーカーはスペクトル感度を開示しない。 これらの推定にはコストのかかる光学的セットアップが必要であり、研究者はカラーターゲットを使用することでコストと複雑さを低減しようとする多数の間接的手法を考案した。 しかし、色標的を用いると、推定がより困難になる新しい複雑さが生じ、その結果、スペクトル感度推定のための単純で低コストで堅牢なゴート手法が存在しない。 さらに、ハードウェアやコストに制限されない場合でも、研究者はしばしば、所有していない複数のカメラの画像を扱う。 この問題に対する実用的な解法を提供するため,我々は,ハードウェアを必要とせず,カメラ自体への物理的アクセスも必要としないスペクトル感度推定の枠組みを提案する。 他の仕事と同様に、2項の目的関数を最小化する最適化問題を定式化する: 方程式系からのカメラ固有項と、解空間を束縛する普遍項である。 他の作業とは異なり、我々は両方の用語を構築するために利用可能な高品質な校正データを使用します。 我々はAdobe DNG Converterによって提供されるカラーマッピング行列を用いて、カメラ固有の方程式系を定式化し、地上構造曲線のデータベースでトレーニングされたオートエンコーダを用いて解を制約する。 平均して、同じカメラの2つのコピー間の不完全な製造により発生するものよりも、復元誤差が低い。 1000以上のカメラに対して、コードと予測感度を提供し、カメラ応答が利用可能になるとどのタスクが自明になるかについて議論します。

A number of problems in computer vision and related fields would be mitigated if camera spectral sensitivities were known. As consumer cameras are not designed for high-precision visual tasks, manufacturers do not disclose spectral sensitivities. Their estimation requires a costly optical setup, which triggered researchers to come up with numerous indirect methods that aim to lower cost and complexity by using color targets. However, the use of color targets gives rise to new complications that make the estimation more difficult, and consequently, there currently exists no simple, low-cost, robust go-to method for spectral sensitivity estimation. Furthermore, even if not limited by hardware or cost, researchers frequently work with imagery from multiple cameras that they do not have in their possession. To provide a practical solution to this problem, we propose a framework for spectral sensitivity estimation that not only does not require any hardware, but also does not require physical access to the camera itself. Similar to other work, we formulate an optimization problem that minimizes a two-term objective function: a camera-specific term from a system of equations, and a universal term that bounds the solution space. Different than other work, we use publicly available high-quality calibration data to construct both terms. We use the colorimetric mapping matrices provided by the Adobe DNG Converter to formulate the camera-specific system of equations, and constrain the solutions using an autoencoder trained on a database of ground-truth curves. On average, we achieve reconstruction errors as low as those that can arise due to manufacturing imperfections between two copies of the same camera. We provide our code and predicted sensitivities for 1,000+ cameras, and discuss which tasks can become trivial when camera responses are available.
翻訳日:2023-07-13 19:16:54 公開日:2023-07-11
# Polyak-{\L}ojasiewicz条件下での2レベル学習のための一般化交替法

A Generalized Alternating Method for Bilevel Learning under the Polyak-{\L}ojasiewicz Condition ( http://arxiv.org/abs/2306.02422v3 )

ライセンス: Link先を確認
Quan Xiao, Songtao Lu, Tianyi Chen(参考訳) ハイパーパラメータ最適化、メタラーニング、強化学習といった新しい機械学習分野への応用により、最近、バイレベル最適化への関心が高まっている。 近年の研究では,単純交互(簡易)勾配に基づくアルゴリズムが,強凸低レベル目標を持つ2レベル問題に対して,単段勾配降下 (gd) の収束率を同一にできることを示した。 しかし、この結果がこの基本的な設定を超えた双レベル問題に一般化できるかどうかは不明である。 本稿では,ポリアック-{\L}ojasiewicz (PL) 条件を満たす非凸な低レベル目的を持つ二値オプティミゼーション(GALET)のための一般化アルテネートmEthodを提案する。 まず,既存の計量を一般化した二値問題を考えるための定常計量を導入する。 次に、galet は、滑らかな非凸問題に対する gd の反復複雑性と一致する $\tilde{\cal o}(\epsilon^{-1})$ の反復内で、考慮された問題に対して $\epsilon$-stationary metric を達成する。

Bilevel optimization has recently regained interest owing to its applications in emerging machine learning fields such as hyperparameter optimization, meta-learning, and reinforcement learning. Recent results have shown that simple alternating (implicit) gradient-based algorithms can achieve the same convergence rate of single-level gradient descent (GD) for bilevel problems with a strongly convex lower-level objective. However, it remains unclear whether this result can be generalized to bilevel problems beyond this basic setting. In this paper, we propose a Generalized ALternating mEthod for bilevel opTimization (GALET) with a nonconvex lower-level objective that satisfies the Polyak-{\L}ojasiewicz (PL) condition. We first introduce a stationary metric for the considered bilevel problems, which generalizes the existing metric. We then establish that GALET achieves an $\epsilon$-stationary metric for the considered problem within $\tilde{\cal O}(\epsilon^{-1})$ iterations, which matches the iteration complexity of GD for smooth nonconvex problems.
翻訳日:2023-07-13 19:08:50 公開日:2023-07-11
# mBERTはロマンシュを理解していますか。 単語アライメントを用いた単語埋め込みの評価

Does mBERT understand Romansh? Evaluating word embeddings using word alignment ( http://arxiv.org/abs/2306.08702v2 )

ライセンス: Link先を確認
Eyal Liron Dolev(参考訳) 類似度に基づく単語アライメントモデル(SimAlign と Super-Align )と mBERT と XLM-R の単語埋め込みを,ドイツ語とロマンシュ語の並行文に組み合わせて検証する。 romanshは目に見えない言語なので、ゼロショットの設定を扱う。 mBERT からの埋め込みを用いて、両方のモデルがアライメントエラー率 0.22 に達し、統計モデルである fast_align を上回り、類似性に基づく単語アライメントと同等である。 我々はこれらの結果を,mBERTが意味があり,ロマンシュに適用可能な情報を含んでいるという証拠として解釈する。 性能を評価するため,過去25年間のドイツ語,ロマンシュ語,イタリア語のCanton of Grisonsによるプレスリリースを含む,DERMIT(DE-RM-IT)コーパスを新たに発表した。 コーパスは4,547の並列文書と約10000の文対を言語の組み合わせに含む。 さらに、ドイツ・ルーマニア語のアライメントの金本位制も提示する。 データはhttps://github.com/eyldlv/DERMIT-Corpusで公開されている。

We test similarity-based word alignment models (SimAlign and awesome-align) in combination with word embeddings from mBERT and XLM-R on parallel sentences in German and Romansh. Since Romansh is an unseen language, we are dealing with a zero-shot setting. Using embeddings from mBERT, both models reach an alignment error rate of 0.22, which outperforms fast_align, a statistical model, and is on par with similarity-based word alignment for seen languages. We interpret these results as evidence that mBERT contains information that can be meaningful and applicable to Romansh. To evaluate performance, we also present a new trilingual corpus, which we call the DERMIT (DE-RM-IT) corpus, containing press releases made by the Canton of Grisons in German, Romansh and Italian in the past 25 years. The corpus contains 4 547 parallel documents and approximately 100 000 sentence pairs in each language combination. We additionally present a gold standard for German-Romansh word alignment. The data is available at https://github.com/eyldlv/DERMIT-Corpus.
翻訳日:2023-07-13 18:59:31 公開日:2023-07-11
# 回路量子力学のための広帯域帯域通過パーセルフィルタ

Broadband Bandpass Purcell Filter for Circuit Quantum Electrodynamics ( http://arxiv.org/abs/2306.06258v2 )

ライセンス: Link先を確認
Haoxiong Yan and Xuntao Wu and Andrew Lingenfelter and Yash J. Joshi and Gustav Andersson and Christopher R. Conner and Ming-Han Chou and Joel Grebel and Jacob M. Miller and Rhys G. Povey and Hong Qiao and Aashish A. Clerk and Andrew N. Cleland(参考訳) 回路量子電磁力学(qed)では、量子ビットは通常分散結合した読み出し共振器を用いて測定される。 それぞれのリードアウト共振器と電気環境の結合は、パーセル効果によってクビット寿命を減少させる。 Purcellフィルタの挿入は、高い読み出し精度を維持しながらこの効果に対処するが、測定帯域幅を減らし、多重読み出し容量を制限する。 本稿では,帯域幅と多重化容量を増加させながら,より優れた量子ビット保護を実現する多段帯域通過パーセルフィルタを開発し実装する。 提案手法の伝送ラインベース実装の実験的性能について報告する。このフレキシブルな設計は、現在のスケールアップで長いコヒーレンス時間超伝導量子プロセッサと容易に統合できる。

In circuit quantum electrodynamics (QED), qubits are typically measured using dispersively-coupled readout resonators. Coupling between each readout resonator and its electrical environment however reduces the qubit lifetime via the Purcell effect. Inserting a Purcell filter counters this effect while maintaining high readout fidelity, but reduces measurement bandwidth and thus limits multiplexing readout capacity. In this letter, we develop and implement a multi-stage bandpass Purcell filter that yields better qubit protection while simultaneously increasing measurement bandwidth and multiplexed capacity. We report on the experimental performance of our transmission-line--based implementation of this approach, a flexible design that can easily be integrated with current scaled-up, long coherence time superconducting quantum processors.
翻訳日:2023-07-13 18:58:35 公開日:2023-07-11
# 多波長導波路量子電磁力学における電磁誘導透過性:線形および非線形導波路分散

Electromagnetically induced transparency in many-emitter waveguide quantum electrodynamics: linear versus nonlinear waveguide dispersions ( http://arxiv.org/abs/2307.03836v2 )

ライセンス: Link先を確認
Tiberius Berndsen and Imran M. Mirza(参考訳) 線形および非線形導波路分散関係を持つ多波長導波路量子電磁力学(wQED)における単一光子誘起電磁誘導透過(EIT)について検討した。 単一エミッタ問題において,wqedの過剰結合状態におけるeitスペクトル特性のロバスト性に加えて,非線形分散により,非線形性が向上したことにより,共振eit周波数よりも小さい周波数の側ピークが出現することが分かった。 その結果,多くの場合において,非線形性の高いバンド構造が,対応する線形分散の場合と比較して狭帯域ギャップを生じさせることを示す。 量子メモリを用いた長距離量子ネットワークは、この研究の標的となる応用の1つである。

We study single-photon induced electromagnetically induced transparency (EIT) in many-emitter waveguide quantum electrodynamics (wQED) with linear and nonlinear waveguide dispersion relations. In the single-emitter problem, in addition to the robustness of the EIT spectral features in the over-coupled regime of wQED, we find that the nonlinear dispersion results in the appearance of a side peak for frequencies smaller than the resonant EIT frequency which turns into a pronounced plateau as the nonlinearity is enhanced. Consequently, for many-emitter scenarios, our results indicate the formation of band structure which for higher values of nonlinearity leads to narrow band gaps as compared to the corresponding linear dispersion case. Long-distance quantum networking aided with quantum memories can serve as one of the targeted applications of this work.
翻訳日:2023-07-13 18:39:41 公開日:2023-07-11
# 蒸留プルーニング: 合成データを使って宝くじを勝ち取る

Distilled Pruning: Using Synthetic Data to Win the Lottery ( http://arxiv.org/abs/2307.03364v2 )

ライセンス: Link先を確認
Luke McDermott, Daniel Cummings(参考訳) この研究は、蒸留データを用いてディープラーニングモデルを刈り取る新しいアプローチを導入する。 アーキテクチャやアルゴリズムの最適化を主眼とする従来の戦略とは異なり、我々の手法はこれらのシナリオにおけるデータの役割を再考する。 蒸留データセットは、より大きなデータセットから必須パターンをキャプチャし、この能力を活用して、計算効率の良いプルーニングプロセスを実現する方法を実証する。 我々のアプローチでは、CIFAR-10で同等の間隔でイテレーティブマグニチュード・プルーニング(Iterative Magnitude Pruning)よりも5倍高速な、スパースでトレーニング可能なサブネットワーク(Lottery Tickets)を見つけることができる。 実験結果は,資源効率のよいニューラルネットワークのプルーニング,モデル圧縮,ニューラルネットワークの探索に蒸留データを利用する可能性を強調した。

This work introduces a novel approach to pruning deep learning models by using distilled data. Unlike conventional strategies which primarily focus on architectural or algorithmic optimization, our method reconsiders the role of data in these scenarios. Distilled datasets capture essential patterns from larger datasets, and we demonstrate how to leverage this capability to enable a computationally efficient pruning process. Our approach can find sparse, trainable subnetworks (a.k.a. Lottery Tickets) up to 5x faster than Iterative Magnitude Pruning at comparable sparsity on CIFAR-10. The experimental results highlight the potential of using distilled data for resource-efficient neural network pruning, model compression, and neural architecture search.
翻訳日:2023-07-13 18:39:11 公開日:2023-07-11
# 量子絡み合いと純度テスト:グラフゼータ関数の観点から

Quantum Entanglement & Purity Testing: A Graph Zeta Function Perspective ( http://arxiv.org/abs/2307.03321v2 )

ライセンス: Link先を確認
Zachary P. Bradshaw and Margarite L. LaBorde(参考訳) 我々は、任意の密度行列を重み付きグラフに割り当て、それを、イハラゼータ関数の一般化とエッジゼータ関数の特別な場合の両方であるグラフゼータ関数に関連付ける。 最近開発された対称群に基づく双分極純状態分離性アルゴリズムは、このゼータ関数の指数展開における係数がユニティであるという条件に等価であることを示す。 さらに、密度行列の非零固有値とゼータ関数の特異点との間には1対1の対応がある。 これらの発見を説明するためにいくつかの例がある。

We assign an arbitrary density matrix to a weighted graph and associate to it a graph zeta function that is both a generalization of the Ihara zeta function and a special case of the edge zeta function. We show that a recently developed bipartite pure state separability algorithm based on the symmetric group is equivalent to the condition that the coefficients in the exponential expansion of this zeta function are unity. Moreover, there is a one-to-one correspondence between the nonzero eigenvalues of a density matrix and the singularities of its zeta function. Several examples are given to illustrate these findings.
翻訳日:2023-07-13 18:38:56 公開日:2023-07-11
# データサイエンスと機械学習によるシェイクスピア劇の連続分析

A data science and machine learning approach to continuous analysis of Shakespeare's plays ( http://arxiv.org/abs/2301.06024v3 )

ライセンス: Link先を確認
Charles Swisher, Lior Shamir(参考訳) 量的テキスト分析の手法が利用可能になったことにより、事前情報時代には利用できなかった文学の分析方法が新たに提供された。 ここでは,ウィリアム・シェイクスピアの著作に包括的機械学習分析を適用する。 分析の結果,文章の長さ,形容詞と副詞の頻度,文章で表される感情など,文章のスタイルが時間とともに明らかに変化することがわかった。 機械学習を適用して戯曲の年を幾何学的に予測すると、実際の年と予測年のピアソンの相関は0.71であり、シェイクスピアの筆跡が時間とともに変化したことを示唆している。 また、一部の戯曲の体裁は、その作年前後に書かれたものに近いことが示されている。 例えば、ロミオとジュリエットは1596年にさかのぼるが、1600年以降のシェイクスピアの戯曲に類似している。 この分析のソースコードは無料でダウンロードできる。

The availability of quantitative text analysis methods has provided new ways of analyzing literature in a manner that was not available in the pre-information era. Here we apply comprehensive machine learning analysis to the work of William Shakespeare. The analysis shows clear changes in the style of writing over time, with the most significant changes in the sentence length, frequency of adjectives and adverbs, and the sentiments expressed in the text. Applying machine learning to make a stylometric prediction of the year of the play shows a Pearson correlation of 0.71 between the actual and predicted year, indicating that Shakespeare's writing style as reflected by the quantitative measurements changed over time. Additionally, it shows that the stylometrics of some of the plays is more similar to plays written either before or after the year they were written. For instance, Romeo and Juliet is dated 1596, but is more similar in stylometrics to plays written by Shakespeare after 1600. The source code for the analysis is available for free download.
翻訳日:2023-07-13 16:55:23 公開日:2023-07-11
# マシンにとって記憶に残る画像は?

What Images are More Memorable to Machines? ( http://arxiv.org/abs/2211.07625v2 )

ライセンス: Link先を確認
Junlin Han, Huangying Zhan, Jie Hong, Pengfei Fang, Hongdong Li, Lars Petersson, Ian Reid(参考訳) 本稿では、画像がパターン認識マシンにどれだけ記憶可能かを測定し予測する問題を、機械学習を探索するための経路として検討する。 まず, 「MachineMem measurer'」 と呼ばれる自己教師型マシンメモリ量子化パイプラインを提案し, 画像の記憶可能性スコアを収集する。 人間と同様に、機械は特定の種類の画像を記憶する傾向があるが、機械と人間が記憶する画像の種類は異なる。 詳細な分析と包括的可視化を通じて、我々は「複雑な」画像が通常機械にとって記憶に残るものであることを徐々に明らかにした。 さらに11の異なるマシン(線形分類器から現代のViTまで)と9つの事前学習手法を用いてマシンメモリの解析と理解を行う。 本研究は,機械記憶可能性の概念を提案し,マシンメモリと視覚データとのインタフェースに新たな研究方向を開く。

This paper studies the problem of measuring and predicting how memorable an image is to pattern recognition machines, as a path to explore machine intelligence. Firstly, we propose a self-supervised machine memory quantification pipeline, dubbed ``MachineMem measurer'', to collect machine memorability scores of images. Similar to humans, machines also tend to memorize certain kinds of images, whereas the types of images that machines and humans memorize are different. Through in-depth analysis and comprehensive visualizations, we gradually unveil that``complex" images are usually more memorable to machines. We further conduct extensive experiments across 11 different machines (from linear classifiers to modern ViTs) and 9 pre-training methods to analyze and understand machine memory. This work proposes the concept of machine memorability and opens a new research direction at the interface between machine memory and visual data.
翻訳日:2023-07-13 16:55:08 公開日:2023-07-11
# 反復型自己更新型コントラスト学習による複数インスタンス学習

Multiple Instance Learning via Iterative Self-Paced Supervised Contrastive Learning ( http://arxiv.org/abs/2210.09452v2 )

ライセンス: Link先を確認
Kangning Liu, Weicheng Zhu, Yiqiu Shen, Sheng Liu, Narges Razavian, Krzysztof J. Geras, Carlos Fernandez-Granda(参考訳) バッグレベルのラベルのみが利用可能な個々のインスタンスの表現を学習することは、複数のインスタンス学習(mil)において基本的な課題である。 最近の研究は、2つの異なるランダム選択されたインスタンスに対応する表現を分割することを学ぶコントラッシブ自己教師学習(CSSL)を用いて有望な結果を示している。 残念ながら、医用画像分類のような現実世界のアプリケーションでは、しばしばクラス不均衡があり、ランダムに選択されたインスタンスは、ほとんど同じ多数派に属するため、csslがクラス間の違いを学ぶことを妨げる。 この問題に対処するため,本研究では,バッグレベルのラベルから派生したインスタンスレベルの擬似ラベルを活用することで,学習表現を改善する新しいフレームワークであるIterative Self-paced Supervised Convistive Learning for MIL Representations (ItS2CLR)を提案する。 このフレームワークは、擬似ラベルの精度を確保するために、新しい自己ペースのサンプリング戦略を採用している。 我々は,3つの医療データセット上でItS2CLRを評価し,インスタンスレベルの擬似ラベルと表現の質を改善し,バッグレベルの精度とインスタンスレベルの精度の両方で既存のMILメソッドより優れていることを示す。 コードはhttps://github.com/Kangningthu/ItS2CLRで入手できる。

Learning representations for individual instances when only bag-level labels are available is a fundamental challenge in multiple instance learning (MIL). Recent works have shown promising results using contrastive self-supervised learning (CSSL), which learns to push apart representations corresponding to two different randomly-selected instances. Unfortunately, in real-world applications such as medical image classification, there is often class imbalance, so randomly-selected instances mostly belong to the same majority class, which precludes CSSL from learning inter-class differences. To address this issue, we propose a novel framework, Iterative Self-paced Supervised Contrastive Learning for MIL Representations (ItS2CLR), which improves the learned representation by exploiting instance-level pseudo labels derived from the bag-level labels. The framework employs a novel self-paced sampling strategy to ensure the accuracy of pseudo labels. We evaluate ItS2CLR on three medical datasets, showing that it improves the quality of instance-level pseudo labels and representations, and outperforms existing MIL methods in terms of both bag and instance level accuracy. Code is available at https://github.com/Kangningthu/ItS2CLR
翻訳日:2023-07-13 16:54:31 公開日:2023-07-11
# 実世界のバイタルサインデータに基づく多変量時系列クラスタリングアルゴリズムを用いたICU患者のサブグループ同定

Identifying Subgroups of ICU Patients Using End-to-End Multivariate Time-Series Clustering Algorithm Based on Real-World Vital Signs Data ( http://arxiv.org/abs/2306.02121v2 )

ライセンス: Link先を確認
Tongyue Shi, Zhilong Zhang, Wentie Liu, Junhua Fang, Jianguo Hao, Shuai Jin, Huiying Zhao and Guilan Kong(参考訳) 本研究では,icu滞在時の最初の8時間データを監視するために,温度,心拍数,平均血圧,呼吸速度,spo2など,動的,高頻度,多変量多変量バイタルサインデータの利用をデータソースとして検討した。 様々なクラスタリングアルゴリズムを比較し,K-Meansと組み合わせたTime2Featと呼ばれるエンドツーエンドの時系列クラスタリングシステムを,ICUの患者をクラスタリングする最も効果的な方法として選択した。 クラスタリング分析では,2008年から2016年までの8,080人の患者と,2017年から2019年までの2,038人のモデル検証を行った。 異なるカテゴリーで臨床死亡率の差を分析することにより,ICU死亡率と病院死亡率の変動リスクがサブグループによって異なることがわかった。 さらに、バイタルサインの変化の軌跡を可視化した。 本研究は, ICU設定における患者管理とモニタリングにおける多変量時系列クラスタリングシステムの有用性に関する貴重な知見を提供する。

This study employed the MIMIC-IV database as data source to investigate the use of dynamic, high-frequency, multivariate time-series vital signs data, including temperature, heart rate, mean blood pressure, respiratory rate, and SpO2, monitored first 8 hours data in the ICU stay. Various clustering algorithms were compared, and an end-to-end multivariate time series clustering system called Time2Feat, combined with K-Means, was chosen as the most effective method to cluster patients in the ICU. In clustering analysis, data of 8,080 patients admitted between 2008 and 2016 was used for model development and 2,038 patients admitted between 2017 and 2019 for model validation. By analyzing the differences in clinical mortality prognosis among different categories, varying risks of ICU mortality and hospital mortality were found between different subgroups. Furthermore, the study visualized the trajectory of vital signs changes. The findings of this study provide valuable insights into the potential use of multivariate time-series clustering systems in patient management and monitoring in the ICU setting.
翻訳日:2023-07-13 16:47:59 公開日:2023-07-11
# フルオログラフェンにおける色中心候補の群理論的および抽象的記述

Group theoretical and ab-initio description of color center candidates in fluorographene ( http://arxiv.org/abs/2307.05091v1 )

ライセンス: Link先を確認
M. S. Tacca and M. B. Plenio(参考訳) 我々は、中性および負の$\text{V}_{\text{CF}}$ vacanciesに焦点をあてて、フルオログラフェンの格子点欠陥の群論的およびab-initio分析を行う。 密度汎関数理論計算と群理論解析の組み合わせを用いて, 欠陥の多体構成を調査し, 励起状態の垂直吸収とゼロフォノン線エネルギーとひずみ依存性を計算した。 欠陥の記述は、それらの生成エネルギーを計算し、中立な$\text{V}_{\text{CF}}$に対するヤーン・テラーエネルギーや負の$\text{V}_{\text{CF}}$ vacanciesに対するゼロ場分割など、関連するパラメータを計算することによって拡張される。 そこで本研究では,これらの色中心の量子的応用を,ホスト型2次元材料の機械振動モードと組み合わせることで論じる。 欠陥の対称性と活性軌道は、ダイヤモンドの広範に研究されたNV中心と平行性を示す。 この文脈において、研究された欠陥は、フルオログラフェンに基づく二次元量子デバイスの開発に興味深い候補として現れる。

We present a group theoretical and ab-initio analysis of lattice point defects in fluorographene, with a focus on neutral and negative $\text{V}_{\text{CF}}$ vacancies. By using a combination of density functional theory calculations and group theory analysis, we investigate the many-body configurations of the defects and calculate the vertical absorption and zero-phonon line energies of the excited states and their dependence with strain. The description of the defects is extended by computing their formation energy, as well as further relevant parameters as the Jahn-Teller energy for neutral $\text{V}_{\text{CF}}$ and the zero field splitting for negative $\text{V}_{\text{CF}}$ vacancies. Based on our results, we discuss possible quantum applications of these color centers when coupled to mechanical oscillation modes of the hosting two-dimensional material. The symmetry and active orbitals of the defects exhibit a parallelism with those of the extensively studied NV centers in diamond. In this context, the studied defects emerge as interesting candidates for the development of two-dimensional quantum devices based on fluorographene.
翻訳日:2023-07-13 16:38:30 公開日:2023-07-11
# フロンティアai規制 - 公共安全に対する新たなリスク管理

Frontier AI Regulation: Managing Emerging Risks to Public Safety ( http://arxiv.org/abs/2307.03718v2 )

ライセンス: Link先を確認
Markus Anderljung, Joslyn Barnhart, Anton Korinek, Jade Leung, Cullen O'Keefe, Jess Whittlestone, Shahar Avin, Miles Brundage, Justin Bullock, Duncan Cass-Beggs, Ben Chang, Tantum Collins, Tim Fist, Gillian Hadfield, Alan Hayes, Lewis Ho, Sara Hooker, Eric Horvitz, Noam Kolt, Jonas Schuett, Yonadav Shavit, Divya Siddarth, Robert Trager, Kevin Wolf(参考訳) 高度なAIモデルは人類にとって大きな利益をもたらすと約束しているが、社会はそれに伴うリスクを積極的に管理する必要がある。 本稿では,公共の安全に重大なリスクをもたらすのに十分な危険能力を有するような,高度な能力を持つ基盤モデルについて述べる。 危険な能力が予期せず出現する可能性があり、デプロイされたモデルが誤用されることを堅牢に防止することは困難であり、モデルの能力が広範囲に普及することを止めるのは難しい。 これらの課題に対処するには、(1)フロンティアAI開発者の適切な要件を特定するための標準設定プロセス、(2)フロンティアAI開発プロセスの可視性を提供するための規制当局の登録および報告要件、(3)フロンティアAIモデルの開発と展開のための安全基準の遵守を保証するメカニズムの3つが必要である。 業界の自己規制は重要な第一歩です。 しかし、より広範な社会的な議論と政府の介入は、標準の作成とコンプライアンスの確保のために必要となる。 我々は、規制当局への執行権限の付与やフロンティアaiモデルのライセンス制度など、この目的へのいくつかの選択肢を検討します。 最後に,安全基準の第一セットを提案する。 これには、デプロイ前のリスクアセスメントの実行、モデルの振る舞いの外部的検査、デプロイメント決定にリスクアセスメントを使用すること、モデルの能力とデプロイ後の使用に関する新しい情報に関する監視と応答が含まれる。 この議論が、ai開発のフロンティアにおける公衆安全のリスクとイノベーションのメリットのバランスのとり方に関する幅広い議論に貢献できることを願っている。

Advanced AI models hold the promise of tremendous benefits for humanity, but society needs to proactively manage the accompanying risks. In this paper, we focus on what we term "frontier AI" models: highly capable foundation models that could possess dangerous capabilities sufficient to pose severe risks to public safety. Frontier AI models pose a distinct regulatory challenge: dangerous capabilities can arise unexpectedly; it is difficult to robustly prevent a deployed model from being misused; and, it is difficult to stop a model's capabilities from proliferating broadly. To address these challenges, at least three building blocks for the regulation of frontier models are needed: (1) standard-setting processes to identify appropriate requirements for frontier AI developers, (2) registration and reporting requirements to provide regulators with visibility into frontier AI development processes, and (3) mechanisms to ensure compliance with safety standards for the development and deployment of frontier AI models. Industry self-regulation is an important first step. However, wider societal discussions and government intervention will be needed to create standards and to ensure compliance with them. We consider several options to this end, including granting enforcement powers to supervisory authorities and licensure regimes for frontier AI models. Finally, we propose an initial set of safety standards. These include conducting pre-deployment risk assessments; external scrutiny of model behavior; using risk assessments to inform deployment decisions; and monitoring and responding to new information about model capabilities and uses post-deployment. We hope this discussion contributes to the broader conversation on how to balance public safety risks and innovation benefits from advances at the frontier of AI development.
翻訳日:2023-07-13 16:38:06 公開日:2023-07-11
# テキストとモーメントの同時最適化によるゼロショット映像キャプション

Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment ( http://arxiv.org/abs/2307.02682v2 )

ライセンス: Link先を確認
Yongrae Jo, Seongyun Lee, Aiden SJ Lee, Hyunji Lee, Hanseok Oh, Minjoon Seo(参考訳) 意味のある瞬間をローカライズし、ビデオの関連キャプションを生成するタスクであるデンスビデオキャプションは、しばしば、テキストと組み合わせた注釈付きビデオセグメントの大規模で高価なコーパスを必要とする。 アノテーションのコストを最小限に抑えるため,ゼロショット方式で高密度動画キャプションを実現するZeroTAを提案する。 本手法では,ビデオやアノテーションを一切必要とせず,入力のみを最適化することで,テスト時に各入力ビデオ内のイベントをローカライズし,記述する。 これは、ビデオ内の時間的セグメントを表すソフトモーメントマスクを導入し、それを言語モデルのプレフィックスパラメータと共同で最適化することで実現される。 この共同最適化は、生成したテキストとビデオ内のモーメントとのマッチングスコアを最大化することにより、凍結した言語生成モデル(GPT-2)と凍結した視覚言語コントラストモデル(CLIP)とを一致させる。 また,一対の時間的iou損失を導入することで,ソフトモーメントマスクのセットがビデオ内の複数の異なるイベントをキャプチャできる。 本手法では,映像内で様々な重要なイベントを効果的に発見し,その結果得られたキャプションを適切に記述する。 実証実験の結果、ZeroTAはゼロショットベースラインを超え、広く使用されているベンチマークであるCystoNet Captionsの最先端の数ショットメソッドよりも優れていた。 さらに,提案手法は,ドメイン外のシナリオで評価した場合の教師あり手法に比べ,より頑健性を示す。 この研究は、言語生成モデルや視覚言語モデルといった広く使われているモデルが、ビデオの時間的側面を理解するという新しい能力を解き放つ可能性に関する洞察を提供する。

Dense video captioning, a task of localizing meaningful moments and generating relevant captions for videos, often requires a large, expensive corpus of annotated video segments paired with text. In an effort to minimize the annotation cost, we propose ZeroTA, a novel method for dense video captioning in a zero-shot manner. Our method does not require any videos or annotations for training; instead, it localizes and describes events within each input video at test time by optimizing solely on the input. This is accomplished by introducing a soft moment mask that represents a temporal segment in the video and jointly optimizing it with the prefix parameters of a language model. This joint optimization aligns a frozen language generation model (i.e., GPT-2) with a frozen vision-language contrastive model (i.e., CLIP) by maximizing the matching score between the generated text and a moment within the video. We also introduce a pairwise temporal IoU loss to let a set of soft moment masks capture multiple distinct events within the video. Our method effectively discovers diverse significant events within the video, with the resulting captions appropriately describing these events. The empirical results demonstrate that ZeroTA surpasses zero-shot baselines and even outperforms the state-of-the-art few-shot method on the widely-used benchmark ActivityNet Captions. Moreover, our method shows greater robustness compared to supervised methods when evaluated in out-of-domain scenarios. This research provides insight into the potential of aligning widely-used models, such as language generation models and vision-language models, to unlock a new capability: understanding temporal aspects of videos.
翻訳日:2023-07-13 16:37:09 公開日:2023-07-11
# 破滅的なAIリスクの概観

An Overview of Catastrophic AI Risks ( http://arxiv.org/abs/2306.12001v3 )

ライセンス: Link先を確認
Dan Hendrycks, Mantas Mazeika, Thomas Woodside(参考訳) 人工知能(AI)の急速な進歩は、専門家、政策立案者、そして世界のリーダーの間で、ますます高度なAIシステムが破滅的なリスクをもたらす可能性を懸念する声が高まっている。 多数のリスクが別々に詳述されているが、組織的な議論と、それらを軽減する努力をより良い情報化するための潜在的な危険の例示の必要性が差し迫っている。 This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. リスクのカテゴリごとに,特定のハザードを記述し,図解的なストーリーを提示し,理想的なシナリオを想定し,これらのハザードを緩和するための実践的提案を提案する。 私たちの目標は、これらのリスクを包括的に理解し、AIが安全な方法で開発され、デプロイされることを保証するために、集団的かつ積極的な取り組みを促すことです。 最終的には、破滅的な結果の可能性を最小化しながら、この強力な技術のメリットを実現することができることを願っています。

Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose catastrophic risks. Although numerous risks have been detailed separately, there is a pressing need for a systematic discussion and illustration of the potential dangers to better inform efforts to mitigate them. This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. For each category of risk, we describe specific hazards, present illustrative stories, envision ideal scenarios, and propose practical suggestions for mitigating these dangers. Our goal is to foster a comprehensive understanding of these risks and inspire collective and proactive efforts to ensure that AIs are developed and deployed in a safe manner. Ultimately, we hope this will allow us to realize the benefits of this powerful technology while minimizing the potential for catastrophic outcomes.
翻訳日:2023-07-13 16:36:19 公開日:2023-07-11
# 条件条件下におけるAGM信頼収縮の評価

Characterization of AGM Belief Contraction in Terms of Conditionals ( http://arxiv.org/abs/2307.05629v1 )

ライセンス: Link先を確認
Giacomo Bonanno (University of California, Davis)(参考訳) Kripke の信念関係と Stalnaker-Lewis 選択関数からなるフレームに基づく AGM の信念収縮のセマンティックキャラクタリゼーションを提案する。 中心となる考え方は次のとおりである。 K を初期信念集合とし、K-A を公式 A によるK の縮約とし、B が集合 K-A に属するとき、エージェントが実際の状態において B を信じ、もし not-A がケースであるならば、B はケースである(そうである)。

We provide a semantic characterization of AGM belief contraction based on frames consisting of a Kripke belief relation and a Stalnaker-Lewis selection function. The central idea is as follows. Let K be the initial belief set and K-A be the contraction of K by the formula A; then B belongs to the set K-A if and only if, at the actual state, the agent believes B and believes that if not-A is (were) the case then B is (would be) the case.
翻訳日:2023-07-13 15:58:39 公開日:2023-07-11
# DNAGPT: 複数のDNA配列解析タスクのための汎用事前訓練ツール

DNAGPT: A Generalized Pretrained Tool for Multiple DNA Sequence Analysis Tasks ( http://arxiv.org/abs/2307.05628v1 )

ライセンス: Link先を確認
Daoan Zhang, Weitong Zhang, Bing He, Jianguo Zhang, Chenchen Qin, Jianhua Yao(参考訳) GPTシリーズの成功は、GPTがシーケンスから一般的な情報を抽出できることを証明している。 これは、事前訓練されたモデルを使用して、DNA配列に隠された情報を探索する動機となります。 しかし、dna配列解析におけるデータとタスクの要件は、dnaに関連するデータにはシーケンス、発現レベルなどの異なる種類の情報が含まれているため、複雑さと多様性である。 そこで我々は、9種から100億以上の塩基対を前もって訓練した汎用基礎モデルであるdnagpt(dnagpt)を提案する。 我々のモデルは同時にDNA配列と番号を処理または出力することができる。 さらに、我々のユニークなトークンデザインにより、ユーザーは自身のタスク要求に応じてプロンプトを設計でき、あらゆる種類のタスクに適用できる。 我々は,分類,回帰,生成タスクに関するモデルを評価した。 我々は,dnagptが事前学習の利点を享受し,ダウンストリームタスクにパフォーマンス向上をもたらすことを実証する。 我々のモデルはゲノム解析の分野での新しい試みであるだけでなく、生物学における基礎モデルの適用に新たな方向性を与えている。

The success of the GPT series proves that GPT can extract general information from sequences, thereby benefiting all downstream tasks. This motivates us to use pre-trained models to explore the hidden information in DNA sequences. However, data and task requirements in DNA sequence analysis are complexity and diversity as DNA relevant data includes different types of information, such as sequences, expression levels, etc, while there is currently no model specifically designed for these characteristics. Hereby, we present DNAGPT, a generalized foundation model pre-trained on over 10 billion base pairs from 9 species which can be fine-tuned for any DNA sequence analysis task. Our model can simultaneously process or output DNA sequences and numbers. In addition, our unique token design allows users to design prompts according to their own task requirements, making it applicable to any type of task. We have evaluated our model on classification, regression, and generation tasks. We demonstrate that DNAGPT benefits from pre-training, and therefore can bring performance gains to any downstream task. Our model is not only a new attempt in the field of genomes analysis, but also provides a new direction for the application of foundation models in biology.
翻訳日:2023-07-13 15:58:25 公開日:2023-07-11
# Separate-and-Aggregate:知識グラフ補完のためのトランスフォーマーベースのパッチリファインメントモデル

Separate-and-Aggregate: A Transformer-based Patch Refinement Model for Knowledge Graph Completion ( http://arxiv.org/abs/2307.05627v1 )

ライセンス: Link先を確認
Chen Chen, Yufei Wang, Yang Zhang, Quan Z. Sheng, and Kwok-Yan Lam(参考訳) 知識グラフ補完(KGC)は、特定の知識グラフ(KG)から行方不明の事実を参照するタスクである。 従来のKGCメソッドは、知識グラフのエンティティとリレーションをトレーニング可能な連続的な埋め込みとして表現し、エンティティ $h$ (or $t$) とリレーション $r$ の埋め込みをクエリ $(h, r, ?)$ (or $(?, r, t$)) の隠れ表現に融合して、欠落したエンティティを近似する。 これを達成するために、浅い線形変換や深い畳み込み加群を使う。 しかし、線形変換は表現性の問題に苦しみ、深い畳み込み加群は不要な帰納的バイアスをもたらし、モデルの性能を低下させる可能性がある。 そこで本研究では,新しい変圧器型パッチリファインメントモデル(patreformer)を提案する。 PatReFormerはまず、埋め込みをパッチのシーケンスに分割し、次にクロスアテンションモジュールを使用してエンティティとリレーション間の双方向の埋め込み機能インタラクションを可能にし、基礎となるKGをよりよく理解する。 我々は4つのKGCベンチマーク(WN18RR, FB15k-237, YAGO37, DB100K)で実験を行った。 実験の結果,MRR や H@n などの標準 KGC 評価指標を用いた既存の KGC 手法による性能改善が見られた。 分析はまず,patreformerにおけるモデル設計選択の有効性を検証する。 その後、PatReFormerは、大きな関係埋め込み次元からKG情報をよりよくキャプチャできることがわかった。 最後に、PatReFormerの強みは他のKGCモデルと比較して複雑な関係型であることを示す。

Knowledge graph completion (KGC) is the task of inferencing missing facts from any given knowledge graphs (KG). Previous KGC methods typically represent knowledge graph entities and relations as trainable continuous embeddings and fuse the embeddings of the entity $h$ (or $t$) and relation $r$ into hidden representations of query $(h, r, ?)$ (or $(?, r, t$)) to approximate the missing entities. To achieve this, they either use shallow linear transformations or deep convolutional modules. However, the linear transformations suffer from the expressiveness issue while the deep convolutional modules introduce unnecessary inductive bias, which could potentially degrade the model performance. Thus, we propose a novel Transformer-based Patch Refinement Model (PatReFormer) for KGC. PatReFormer first segments the embedding into a sequence of patches and then employs cross-attention modules to allow bi-directional embedding feature interaction between the entities and relations, leading to a better understanding of the underlying KG. We conduct experiments on four popular KGC benchmarks, WN18RR, FB15k-237, YAGO37 and DB100K. The experimental results show significant performance improvement from existing KGC methods on standard KGC evaluation metrics, e.g., MRR and H@n. Our analysis first verifies the effectiveness of our model design choices in PatReFormer. We then find that PatReFormer can better capture KG information from a large relation embedding dimension. Finally, we demonstrate that the strength of PatReFormer is at complex relation types, compared to other KGC models
翻訳日:2023-07-13 15:58:06 公開日:2023-07-11
# cilf:配車車車路予測のためのcausality inspired learning framework

CILF:Causality Inspired Learning Framework for Out-of-Distribution Vehicle Trajectory Prediction ( http://arxiv.org/abs/2307.05624v1 )

ライセンス: Link先を確認
Shengyi Li, Qifan Xue, Yezhuo Zhang, and Xuanpeng Li(参考訳) 軌道予測は自動運転車にとって重要である。 ほとんどの既存手法は、履歴軌道(入力)と将来の軌道(出力)との相関をモデル化する傾向がある。 相関は単に現実の表面的な記述であるので、これらの手法はi.d.仮定に大きく依存し、分布外データへの感受性を高める。 この問題に対処するため,データの基本因果構造を3つの係り受け特性で明確に定義したOOD-CG(Out-of- Distribution Causal Graph)を提案する。 1)ドメイン不変因果的特徴(IC) 2)ドメイン変種因果的特徴(VC)及び 3) ドメイン変種非因果的特徴(VN)。 これらの機能は、confounder (c) と domain selector (d) が共同設立している。 因果的特徴を予測に活用するために,3つのステップを含むCausal Inspired Learning Framework(CILF)を提案する。 1) 変分損失によるドメイン不変因数特徴の抽出 2)ドメインコントラスト学習によるドメイン変種の特徴抽出,及び 3) 因果関係と非因果関係の分離は因果関係の促進による。 主要データセットNGSIMとInterACTIONの異なる車両軌道予測モデルにおけるCILFの性能を評価する。 実験では、ドメイン一般化におけるCILFの有望な改善が示されている。

Trajectory prediction is critical for autonomous driving vehicles. Most existing methods tend to model the correlation between history trajectory (input) and future trajectory (output). Since correlation is just a superficial description of reality, these methods rely heavily on the i.i.d. assumption and evince a heightened susceptibility to out-of-distribution data. To address this problem, we propose an Out-of- Distribution Causal Graph (OOD-CG), which explicitly defines the underlying causal structure of the data with three entangled latent features: 1) domain-invariant causal feature (IC), 2) domain-variant causal feature (VC), and 3) domain-variant non-causal feature (VN ). While these features are confounded by confounder (C) and domain selector (D). To leverage causal features for prediction, we propose a Causal Inspired Learning Framework (CILF), which includes three steps: 1) extracting domain-invariant causal feature by means of an invariance loss, 2) extracting domain variant feature by domain contrastive learning, and 3) separating domain-variant causal and non-causal feature by encouraging causal sufficiency. We evaluate the performance of CILF in different vehicle trajectory prediction models on the mainstream datasets NGSIM and INTERACTION. Experiments show promising improvements in CILF on domain generalization.
翻訳日:2023-07-13 15:57:34 公開日:2023-07-11
# 原位置列の動的推定のためのDeepLearningフレームワーク

A DeepLearning Framework for Dynamic Estimation of Origin-Destination Sequence ( http://arxiv.org/abs/2307.05623v1 )

ライセンス: Link先を確認
Zheli Xiong, Defu Lian, Enhong Chen, Gang Chen and Xiaomin Cheng(参考訳) OD行列推定は輸送領域において重要な問題である。 本方式では,交通量などの交通センサ計測情報を用いて,OD行列で表される交通需要を推定する。 この問題は静的od行列推定と動的od行列列(略してod系列)推定の2つのカテゴリに分けられる。 上記の2つは、豊富な推定パラメータと不十分な制約情報によって引き起こされる下決定問題に直面している。 また、渋滞などの交通状況が異なるため、同一の車両が同じ観測期間に異なる区間に現れるため、同一のod要求が異なるトリップに対応する。 そこで本研究では,ODシーケンスの構造を推論する深層学習手法と,従来の数値最適化を導く構造的制約を用いた統合手法を提案する。 実験により,ニューラルネットワーク(nn)はod系列の構造を効果的に推定し,数値最適化のための実用的な制約を提供し,よりよい結果を得ることができることを示した。 さらに, 得られた構造情報は, OD行列の空間構造に制約を含むだけでなく, OD配列の時間構造にも制約を与え, 遅延問題の効果をよく解決することを示した。

OD matrix estimation is a critical problem in the transportation domain. The principle method uses the traffic sensor measured information such as traffic counts to estimate the traffic demand represented by the OD matrix. The problem is divided into two categories: static OD matrix estimation and dynamic OD matrices sequence(OD sequence for short) estimation. The above two face the underdetermination problem caused by abundant estimated parameters and insufficient constraint information. In addition, OD sequence estimation also faces the lag challenge: due to different traffic conditions such as congestion, identical vehicle will appear on different road sections during the same observation period, resulting in identical OD demands correspond to different trips. To this end, this paper proposes an integrated method, which uses deep learning methods to infer the structure of OD sequence and uses structural constraints to guide traditional numerical optimization. Our experiments show that the neural network(NN) can effectively infer the structure of the OD sequence and provide practical constraints for numerical optimization to obtain better results. Moreover, the experiments show that provided structural information contains not only constraints on the spatial structure of OD matrices but also provides constraints on the temporal structure of OD sequence, which solve the effect of the lagging problem well.
翻訳日:2023-07-13 15:57:13 公開日:2023-07-11
# LS-PIE(Latent Space Perspicacity and Interpretation Enhancement)フレームワーク

Latent Space Perspicacity and Interpretation Enhancement (LS-PIE) Framework ( http://arxiv.org/abs/2307.05620v1 )

ライセンス: Link先を確認
Jesse Stevens, Daniel N. Wilke, Itumeleng Setshedi(参考訳) 主成分分析(PCA)、独立成分分析(ICA)、正準相関解析(CCA)、因子分析(FA)といった線形潜在変数モデルでは、順序付けまたは非順序付けのいずれかの遅延方向(または負荷)を識別する。 データは潜在方向へ投影され、投影された表現(またはスコア)を得る。 例えば、PCAソルバは、最も最も少なくともばらつきを説明することで、主方向をランク付けするが、ICAソルバは通常、独立方向を無秩序に返却し、しばしば複数のサブソースとして複数の方向をまたがる単一のソースを持つ。 本稿では,線形潜在空間の解釈性を改善するために,潜在空間表現を強化する汎用フレームワークを提案する。 この論文のコンセプトは言語に依存しないが、フレームワークはpythonで書かれている。 このフレームワークは潜在ベクトルのクラスタリングとランク付けを自動化し、潜在ベクトル毎の潜時情報を強化するとともに、潜時ベクトルの解釈も強化する。 潜時ランキング(lr)、潜時スケーリング(ls)、潜時クラスタリング(lc)、潜時凝縮(lcon)など、いくつかの革新的な機能拡張が組み込まれている。 特定線形潜時変モデルにおいて、LRは指定された計量に従って潜時方向をランク付けし、LSは指定された計量に従って潜時方向をスケールし、LCは自動的に潜時方向を所定の数のクラスタにクラスタし、LCONは所定の計量に対して潜時方向をコンデンスする適切な数のクラスタを自動的に決定する。 フレームワークの追加機能には、単一チャネルとマルチチャネルのデータソース、線形潜在変数モデル(LLVM)の適用性を幅広いデータにシームレスに拡張するHankelisationのようなデータ前処理戦略が含まれる。 LR,LS,LCON の有効性は,PCA と ICA の2つの潜在変数モデルを用いた2つの工芸的基礎問題に対して示される。

Linear latent variable models such as principal component analysis (PCA), independent component analysis (ICA), canonical correlation analysis (CCA), and factor analysis (FA) identify latent directions (or loadings) either ordered or unordered. The data is then projected onto the latent directions to obtain their projected representations (or scores). For example, PCA solvers usually rank the principal directions by explaining the most to least variance, while ICA solvers usually return independent directions unordered and often with single sources spread across multiple directions as multiple sub-sources, which is of severe detriment to their usability and interpretability. This paper proposes a general framework to enhance latent space representations for improving the interpretability of linear latent spaces. Although the concepts in this paper are language agnostic, the framework is written in Python. This framework automates the clustering and ranking of latent vectors to enhance the latent information per latent vector, as well as, the interpretation of latent vectors. Several innovative enhancements are incorporated including latent ranking (LR), latent scaling (LS), latent clustering (LC), and latent condensing (LCON). For a specified linear latent variable model, LR ranks latent directions according to a specified metric, LS scales latent directions according to a specified metric, LC automatically clusters latent directions into a specified number of clusters, while, LCON automatically determines an appropriate number of clusters into which to condense the latent directions for a given metric. Additional functionality of the framework includes single-channel and multi-channel data sources, data preprocessing strategies such as Hankelisation to seamlessly expand the applicability of linear latent variable models (LLVMs) to a wider variety of data. The effectiveness of LR, LS, and LCON are showcased on two crafted foundational problems with two applied latent variable models, namely, PCA and ICA.
翻訳日:2023-07-13 15:56:54 公開日:2023-07-11
# $\mathrm{SAM^{Med}}$:大きなビジョンモデルに基づく医用画像アノテーションフレームワーク

$\mathrm{SAM^{Med}}$: A medical image annotation framework based on large vision model ( http://arxiv.org/abs/2307.05617v1 )

ライセンス: Link先を確認
Chenglong Wang, Dexuan Li, Sucheng Wang, Chengxiu Zhang, Yida Wang, Yun Liu, Guang Yang(参考訳) 近年,大規模な視覚モデルであるSAM(Seegment Anything Model)がコンピュータビジョン分野,特に画像セグメンテーションに革命をもたらした。 SAMは、その顕著なゼロショット一般化能力を示す新しいプロンプト可能なセグメンテーションパラダイムを提示した。 様々な下流タスクにおけるSAMの可能性と限界について広範な研究がなされている。 本研究では、SAMの能力を生かした医療画像アノテーションのための拡張フレームワークである$\mathrm{SAM^{Med}}$を提示する。 $\mathrm{SAM^{Med}}$ frameworkは2つのサブモジュール、すなわち$\mathrm{SAM^{assist}}$と$\mathrm{SAM^{auto}}$から成る。 この$\mathrm{sam^{assist}}$ は、プロンプトラーニングアプローチを用いたダウンストリーム医療セグメンテーションタスクへのsamの一般化能力を示している。 その結果,約5点の入力点でセグメント化精度が有意に向上した。 $\mathrm{sam^{auto}}$モデルは、自動的に入力プロンプトを生成してアノテーションプロセスを加速することを目的としている。 提案したSAP-Netモデルでは,5つのアノテートスライスのみを用いて,腎臓と肝臓のセグメンテーションにおいて平均Dice係数0.80と0.82を達成し,優れたセグメンテーション性能を実現する。 全体として、$\mathrm{SAM^{Med}}$は医療画像アノテーションで有望な結果を示す。 これらの結果は,医用画像アノテーションタスクに大規模視覚モデルを活用する可能性を示している。

Recently, large vision model, Segment Anything Model (SAM), has revolutionized the computer vision field, especially for image segmentation. SAM presented a new promptable segmentation paradigm that exhibit its remarkable zero-shot generalization ability. An extensive researches have explore the potential and limits of SAM in various downstream tasks. In this study, we presents $\mathrm{SAM^{Med}}$, an enhanced framework for medical image annotation that leverages the capabilities of SAM. $\mathrm{SAM^{Med}}$ framework consisted of two submodules, namely $\mathrm{SAM^{assist}}$ and $\mathrm{SAM^{auto}}$. The $\mathrm{SAM^{assist}}$ demonstrates the generalization ability of SAM to the downstream medical segmentation task using the prompt-learning approach. Results show a significant improvement in segmentation accuracy with only approximately 5 input points. The $\mathrm{SAM^{auto}}$ model aims to accelerate the annotation process by automatically generating input prompts. The proposed SAP-Net model achieves superior segmentation performance with only five annotated slices, achieving an average Dice coefficient of 0.80 and 0.82 for kidney and liver segmentation, respectively. Overall, $\mathrm{SAM^{Med}}$ demonstrates promising results in medical image annotation. These findings highlight the potential of leveraging large-scale vision models in medical image annotation tasks.
翻訳日:2023-07-13 15:56:16 公開日:2023-07-11
# 拡張視覚変換器を用いた画像再構成

Image Reconstruction using Enhanced Vision Transformer ( http://arxiv.org/abs/2307.05616v1 )

ライセンス: Link先を確認
Nikhil Verma, Deepkamal Kaur, Lydia Chau(参考訳) 画像からノイズを取り除くことは、コンピュータビジョンの分野で挑戦的で根本的な問題である。 現代のカメラで撮影された画像はノイズによって必然的に劣化し、画像の定量的測定の精度が制限される。 そこで本研究では,画像のデノイジング,デブラリング,インパインティングなどのタスクに使用できる新しい画像再構成フレームワークを提案する。 このプロジェクトで提案されたモデルは、視覚トランスフォーマー(vit)に基づいて2d画像を入力とし、分節化画像の再構成に使用できる埋め込みを出力する。 そこで我々は, モデル再構成機能を改善するために, 局所性感性注意(LSA), シフトパッチトークン化(SPT), 回転位置埋め込み(RoPE), GAN(Generative Adversarial Networks)にインスパイアされた対向損失関数の4つの最適化手法を組み込んだ。 LSA、SPT、RoPEは変換器をデータセットからより効率的に学習し、対向損失関数は再構成画像の解像度を高める。 提案したアーキテクチャは, 画像のデノイングとインペイントの再構成作業において, 3.5 %以上の構造類似性(SSIM)でベンチマークU-Netモデルより優れている。 提案する拡張により、両タスクのベンチマークより \textasciitilde5\% ssimが改善された。

Removing noise from images is a challenging and fundamental problem in the field of computer vision. Images captured by modern cameras are inevitably degraded by noise which limits the accuracy of any quantitative measurements on those images. In this project, we propose a novel image reconstruction framework which can be used for tasks such as image denoising, deblurring or inpainting. The model proposed in this project is based on Vision Transformer (ViT) that takes 2D images as input and outputs embeddings which can be used for reconstructing denoised images. We incorporate four additional optimization techniques in the framework to improve the model reconstruction capability, namely Locality Sensitive Attention (LSA), Shifted Patch Tokenization (SPT), Rotary Position Embeddings (RoPE) and adversarial loss function inspired from Generative Adversarial Networks (GANs). LSA, SPT and RoPE enable the transformer to learn from the dataset more efficiently, while the adversarial loss function enhances the resolution of the reconstructed images. Based on our experiments, the proposed architecture outperforms the benchmark U-Net model by more than 3.5\% structural similarity (SSIM) for the reconstruction tasks of image denoising and inpainting. The proposed enhancements further show an improvement of \textasciitilde5\% SSIM over the benchmark for both tasks.
翻訳日:2023-07-13 15:55:55 公開日:2023-07-11
# 変圧器型深層強化学習による多目的水力貯水池運転最適化

Multiobjective Hydropower Reservoir Operation Optimization with Transformer-Based Deep Reinforcement Learning ( http://arxiv.org/abs/2307.05643v1 )

ライセンス: Link先を確認
Rixin Wu, Ran Wang, Jie Hao, Qiang Wu, Ping Wang(参考訳) 水資源の不足と水需要の増加により、発電・環境保護・住宅水供給のバランスをとる多貯留層システムの共同運用が水力管理において重要な課題となっている。 しかし、複数の貯水池の多くの制約と非線形性は、この問題を時間を要する。 この課題に対処するために,トランスフォーマーフレームワークを組み込んだ深層強化学習手法を提案する。 エンコーダのマルチヘッドアテンション機構は、貯水池や住宅地から情報を効果的に抽出し、デコーダのマルチレザーバアテンションネットワークは、適切な運用決定を生成する。 提案手法はコロラド川流域のミード湖とパウエル湖に適用される。 実験の結果, トランスフォーマによる深層強化学習手法が適切な操作結果をもたらすことが示された。 現状の手法と比較して,提案手法により得られた運転戦略は10.11%の電力を発生させ,修正年次比例流量偏差を39.69%低減し,水道収入を4.10%増加させる。 提案手法は,多水力貯水池システムの多目的運用に有効な手法を提供する。

Due to shortage of water resources and increasing water demands, the joint operation of multireservoir systems for balancing power generation, ecological protection, and the residential water supply has become a critical issue in hydropower management. However, the numerous constraints and nonlinearity of multiple reservoirs make solving this problem time-consuming. To address this challenge, a deep reinforcement learning approach that incorporates a transformer framework is proposed. The multihead attention mechanism of the encoder effectively extracts information from reservoirs and residential areas, and the multireservoir attention network of the decoder generates suitable operational decisions. The proposed method is applied to Lake Mead and Lake Powell in the Colorado River Basin. The experimental results demonstrate that the transformer-based deep reinforcement learning approach can produce appropriate operational outcomes. Compared to a state-of-the-art method, the operation strategies produced by the proposed approach generate 10.11% more electricity, reduce the amended annual proportional flow deviation by 39.69%, and increase water supply revenue by 4.10%. Consequently, the proposed approach offers an effective method for the multiobjective operation of multihydropower reservoir systems.
翻訳日:2023-07-13 15:49:22 公開日:2023-07-11
# confl: 機械学習フレームワークのための制約付きファジング

ConFL: Constraint-guided Fuzzing for Machine Learning Framework ( http://arxiv.org/abs/2307.05642v1 )

ライセンス: Link先を確認
Zhao Liu, Quanchen Zou, Tian Yu, Xuan Wang, Guozhu Meng, Kai Chen, Deyue Zhang(参考訳) 機械学習が自動意思決定のために社会の様々な分野で注目されるようになるにつれ、機械学習(ML)フレームワークの潜在的な脆弱性に関する懸念が高まっている。 それでも、複雑な実装のため、これらのフレームワークをテストするのは大変な作業です。 ファジィングMLフレームワークに関するこれまでの研究は、入力制約を効果的に抽出し、有効な入力を生成するのに苦労している。 本稿では,MLフレームワーク用の制約誘導ファザであるConFLを提案する。 ConFLは、事前の知識を必要とせずに、カーネルコードから制約を自動的に抽出する。 制約によってガイドされたConFLは、検証をパスし、カーネルコードのより深いパスを探索できる有効な入力を生成することができる。 さらに,ファジリング効率を向上させるためにグループ化手法を設計する。 ConFLの有効性を実証するため, 主にTensorflowを用いて評価を行った。 ConFLは、より多くのコード行をカバーし、最先端(SOTA)ファジィよりも有効な入力を生成することができる。 さらに重要なことに、conflは以前不明だった84の脆弱性をtensorflowのさまざまなバージョンで発見し、それぞれに新しいcve idが割り当てられた。 また、PyTorchとPaddleをテストするためにConFLを拡張しました。

As machine learning gains prominence in various sectors of society for automated decision-making, concerns have risen regarding potential vulnerabilities in machine learning (ML) frameworks. Nevertheless, testing these frameworks is a daunting task due to their intricate implementation. Previous research on fuzzing ML frameworks has struggled to effectively extract input constraints and generate valid inputs, leading to extended fuzzing durations for deep execution or revealing the target crash. In this paper, we propose ConFL, a constraint-guided fuzzer for ML frameworks. ConFL automatically extracting constraints from kernel codes without the need for any prior knowledge. Guided by the constraints, ConFL is able to generate valid inputs that can pass the verification and explore deeper paths of kernel codes. In addition, we design a grouping technique to boost the fuzzing efficiency. To demonstrate the effectiveness of ConFL, we evaluated its performance mainly on Tensorflow. We find that ConFL is able to cover more code lines, and generate more valid inputs than state-of-the-art (SOTA) fuzzers. More importantly, ConFL found 84 previously unknown vulnerabilities in different versions of Tensorflow, all of which were assigned with new CVE ids, of which 3 were critical-severity and 13 were high-severity. We also extended ConFL to test PyTorch and Paddle, 7 vulnerabilities are found to date.
翻訳日:2023-07-13 15:49:02 公開日:2023-07-11
# ガウスラジアル基底関数ニューラルネットワークによるアクティブ部分空間の学習と重要な特徴の発見

Learning Active Subspaces and Discovering Important Features with Gaussian Radial Basis Functions Neural Networks ( http://arxiv.org/abs/2307.05639v1 )

ライセンス: Link先を確認
Danny D'Agostino, Ilija Ilievski, Christine Annette Shoemaker(参考訳) 強力な予測性能を達成し、同時に人間によって解釈可能なモデルを提供することは、これら2つの目的の相反する性質のため、機械学習研究における最も難しい課題の1つである。 この課題に対処するために,ガウス核に学習可能な精度行列を組み込むことにより,ラジアル基底関数ニューラルネットワークモデルの修正を提案する。 モデルのトレーニングが完了したら抽出できる精度行列のスペクトルに貴重な情報が含まれていることを示す。 特に固有ベクトルは、活性部分空間を明らかにするモデルの最大感度の方向を説明し、教師付き次元減少への潜在的応用を提案する。 同時に、固有ベクトルは入力変数と潜在変数の絶対変動の観点からの関係を強調し、モデル解釈可能性を高める予測タスクの重要性に基づいて入力変数のランキングを抽出することができる。 回帰,分類,特徴選択に関する数値実験を行い,一般的な機械学習モデルと最先端のディープラーニングに基づく埋め込み特徴選択手法との比較を行った。 本結果は,提案モデルが競合相手に対して魅力的な予測性能をもたらすだけでなく,現実のアプリケーションにおける意思決定プロセスを支援する可能性のある有意義で解釈可能な結果をもたらすことを示す。 このモデルのPyTorch実装は、次のリンクでGitHubで公開されている。 https://github.com/dannyzx/GRBF-NNs

Providing a model that achieves a strong predictive performance and at the same time is interpretable by humans is one of the most difficult challenges in machine learning research due to the conflicting nature of these two objectives. To address this challenge, we propose a modification of the Radial Basis Function Neural Network model by equipping its Gaussian kernel with a learnable precision matrix. We show that precious information is contained in the spectrum of the precision matrix that can be extracted once the training of the model is completed. In particular, the eigenvectors explain the directions of maximum sensitivity of the model revealing the active subspace and suggesting potential applications for supervised dimensionality reduction. At the same time, the eigenvectors highlight the relationship in terms of absolute variation between the input and the latent variables, thereby allowing us to extract a ranking of the input variables based on their importance to the prediction task enhancing the model interpretability. We conducted numerical experiments for regression, classification, and feature selection tasks, comparing our model against popular machine learning models and the state-of-the-art deep learning-based embedding feature selection techniques. Our results demonstrate that the proposed model does not only yield an attractive prediction performance with respect to the competitors but also provides meaningful and interpretable results that potentially could assist the decision-making process in real-world applications. A PyTorch implementation of the model is available on GitHub at the following link. https://github.com/dannyzx/GRBF-NNs
翻訳日:2023-07-13 15:48:39 公開日:2023-07-11
# 産業時系列における異常検出のためのDeep Transfer Learningに関する総合的調査:方法,応用,方向性

A Comprehensive Survey of Deep Transfer Learning for Anomaly Detection in Industrial Time Series: Methods, Applications, and Directions ( http://arxiv.org/abs/2307.05638v1 )

ライセンス: Link先を確認
Peng Yan, Ahmed Abdulkadir, Matthias Rosenthal, Gerrit A. Schatte, Benjamin F. Grewe, Thilo Stadelmann(参考訳) 産業プロセスの監視を自動化することは、異常な事象を迅速に検出し、タイムリーな介入を促進することにより、効率を高め、品質を最適化する可能性を秘めている。 大規模データセット内の非自明なパターンを識別する能力を持つディープラーニングは、このプロセスにおいて重要な役割を果たす。 標準的なディープラーニング手法は、特定の種類のデータに与えられた特定のタスクを解決するのに適している。 トレーニング中、アルゴリズムは大量のラベル付きトレーニングデータを要求する。 しかし,プロセスと環境の動的な性質のため,異なるケースごとに,標準的な深層学習訓練に必要なデータを取得することは不可能である。 deep transfer learningは、この問題に対する解決策を提供する。 この学習フレームワークは、関連するタスクからの知識を活用し、データ分散のバリエーションを説明することにより、ラベル付きデータをほとんどあるいは全く追加することなく、新しいタスクを解決する。 このアプローチは、新しいセットアップ毎にモデルをスクラッチから再トレーニングする必要を回避し、ラベル付きデータ要件を劇的に削減する。 本調査は,ディープトランスファー学習の詳細なレビューを行い,トランスファー学習の問題点を検証し,広く普及しているディープトランスファー学習手法を分類する。 さらに, 製造プロセス監視, 予測保守, エネルギー管理, インフラ設備監視など, 主要産業領域で普及している幅広い時系列異常検出タスクの文脈において, ディープトランスファー学習を適用することを検討する。 本調査は,産業文脈における深層移動学習の課題と限界を概説して結論づける。 また、これらのタスクのソリューション設計と実装のための実践的な指示を提供し、具体的かつ実行可能な提案へと導く。

Automating the monitoring of industrial processes has the potential to enhance efficiency and optimize quality by promptly detecting abnormal events and thus facilitating timely interventions. Deep learning, with its capacity to discern non-trivial patterns within large datasets, plays a pivotal role in this process. Standard deep learning methods are suitable to solve a specific task given a specific type of data. During training, the algorithms demand large volumes of labeled training data. However, due to the dynamic nature of processes and the environment, it is impractical to acquire the needed data for standard deep learning training for every slightly different case anew. Deep transfer learning offers a solution to this problem. By leveraging knowledge from related tasks and accounting for variations in data distributions, this learning framework solves new tasks even with little or no additional labeled data. The approach bypasses the need to retrain a model from scratch for every new setup and dramatically reduces the labeled data requirement. This survey provides an in-depth review of deep transfer learning, examining the problem settings of transfer learning and classifying the prevailing deep transfer learning methods. Moreover, we delve into applying deep transfer learning in the context of a broad spectrum of time series anomaly detection tasks prevalent in primary industrial domains, e.g., manufacturing process monitoring, predictive maintenance, energy management, and infrastructure facility monitoring. We conclude this survey by underlining the challenges and limitations of deep transfer learning in industrial contexts. We also provide practical directions for solution design and implementation for these tasks, leading to specific, actionable suggestions.
翻訳日:2023-07-13 15:48:15 公開日:2023-07-11
# GMMを用いた音声ダイアリゼーションとASR

Speech Diarization and ASR with GMM ( http://arxiv.org/abs/2307.05637v1 )

ライセンス: Link先を確認
Aayush Kumar Sharma, Vineet Bhavikatti, Amogh Nidawani, Dr. Siddappaji, Sanath P, Dr Geetishree Mishra(参考訳) 本稿では,音声ダイアリゼーションと自動音声認識(ASR)について検討する。 音声ダイアリゼーションは、音声ストリーム内の個々の話者の分離を伴う。 ダイアリゼーションプロセスは、ASR transcriptを利用することで、各話者の発話を分離し、それぞれの独特の音声特性に基づいてグループ化する。 一方、自動音声認識(Automatic Speech Recognition)とは、機械やプログラムが話し言葉やフレーズを機械可読形式に識別・変換する能力である。 音声ダイアリゼーション手法では,ガウス混合モデル(GMM)を用いて音声セグメントを表現する。 クラスタ間距離はGMMパラメータに基づいて計算され、距離閾値は停止基準として機能する。 ASRは未知の音声波形を対応する書き起こしに変換する。 ピッチ周波数を考慮した同期アルゴリズムを用いて音声信号の解析を行う。 我々の主な目的は、音声の書き起こし中にワード誤り率(WER)を最小化するモデルを開発することである。

In this research paper, we delve into the topics of Speech Diarization and Automatic Speech Recognition (ASR). Speech diarization involves the separation of individual speakers within an audio stream. By employing the ASR transcript, the diarization process aims to segregate each speaker's utterances, grouping them based on their unique audio characteristics. On the other hand, Automatic Speech Recognition refers to the capability of a machine or program to identify and convert spoken words and phrases into a machine-readable format. In our speech diarization approach, we utilize the Gaussian Mixer Model (GMM) to represent speech segments. The inter-cluster distance is computed based on the GMM parameters, and the distance threshold serves as the stopping criterion. ASR entails the conversion of an unknown speech waveform into a corresponding written transcription. The speech signal is analyzed using synchronized algorithms, taking into account the pitch frequency. Our primary objective typically revolves around developing a model that minimizes the Word Error Rate (WER) metric during speech transcription.
翻訳日:2023-07-13 15:47:45 公開日:2023-07-11
# 教師あり学習のための過パラメータ浅層ニューラルネットワークの基本限界

Fundamental limits of overparametrized shallow neural networks for supervised learning ( http://arxiv.org/abs/2307.05635v1 )

ライセンス: Link先を確認
Francesco Camilli, Daria Tieplova, Jean Barbier(参考訳) 教師ネットワークで生成した入力出力対から学習した2層ニューラルネットワークを,過パラメータ化手法を用いて情報理論的に解析する。 私たちの結果は 境界という形で 一 訓練データとネットワークの重み付けの相互情報 二 明示的な表現が厳密に知られているより単純な(一般化された)線形モデルに対して、ベイズ最適一般化誤差を同じ量とする。 私たちの境界は、トレーニングサンプルの数、入力寸法、隠れた単位の数で表され、これにより、2層ニューラルネットワークモデルに基づいて生成された限られたデータからトレーニングされた任意のニューラルネットワーク(および実際に学習手順)に対して、基本的な性能限界が生じる。 この証明はスピングラスの厳密な道具に依存しており、近年のニューラルネットワークの分析の核心にある「ガウシアン同値原理」に導かれる。 既存の文献では,読み出し重みの学習のみに制限されるか非リゴラスであるか,あるいは制限されているが,本研究の結果は情報理論的(学習アルゴリズムに特化していない)であり,最も重要なのは,ネットワークパラメータがすべてトレーニングされる環境をカバーすることである。

We carry out an information-theoretical analysis of a two-layer neural network trained from input-output pairs generated by a teacher network with matching architecture, in overparametrized regimes. Our results come in the form of bounds relating i) the mutual information between training data and network weights, or ii) the Bayes-optimal generalization error, to the same quantities but for a simpler (generalized) linear model for which explicit expressions are rigorously known. Our bounds, which are expressed in terms of the number of training samples, input dimension and number of hidden units, thus yield fundamental performance limits for any neural network (and actually any learning procedure) trained from limited data generated according to our two-layer teacher neural network model. The proof relies on rigorous tools from spin glasses and is guided by ``Gaussian equivalence principles'' lying at the core of numerous recent analyses of neural networks. With respect to the existing literature, which is either non-rigorous or restricted to the case of the learning of the readout weights only, our results are information-theoretic (i.e. are not specific to any learning algorithm) and, importantly, cover a setting where all the network parameters are trained.
翻訳日:2023-07-13 15:47:30 公開日:2023-07-11
# 点雲完成のための超球面埋め込み

Hyperspherical Embedding for Point Cloud Completion ( http://arxiv.org/abs/2307.05634v1 )

ライセンス: Link先を確認
Junming Zhang, Haomeng Zhang, Ram Vasudevan, Matthew Johnson-Roberson(参考訳) 深度センサーからの現実世界の3d計測のほとんどは不完全であり、この問題に対処するためpoint cloud completionタスクは、部分的な観測から物体の完全な形状を予測することを目的としている。 エンコーダは入力として使用される埋め込みを抽出してデコーダから予測を生成するために訓練される。 しかし、学習された埋め込みは特徴空間にスパース分布を持ち、テスト中の一般化結果が悪化する。 これらの問題に対処するために,エンコーダからの埋め込みを単位超球上へ変換・正規化する超球形モジュールを提案する。 提案モジュールでは,出力超球面埋め込みの大きさと方向を分離し,方向情報のみを最適化する。 超球面埋め込みを理論的に解析し、より広い学習率とよりコンパクトな埋め込み分布でより安定したトレーニングを可能にすることを示した。 実験の結果,シングルタスク学習とマルチタスク学習の両方において,一貫したポイントクラウド補完の改善が示され,提案手法の有効性が示された。

Most real-world 3D measurements from depth sensors are incomplete, and to address this issue the point cloud completion task aims to predict the complete shapes of objects from partial observations. Previous works often adapt an encoder-decoder architecture, where the encoder is trained to extract embeddings that are used as inputs to generate predictions from the decoder. However, the learned embeddings have sparse distribution in the feature space, which leads to worse generalization results during testing. To address these problems, this paper proposes a hyperspherical module, which transforms and normalizes embeddings from the encoder to be on a unit hypersphere. With the proposed module, the magnitude and direction of the output hyperspherical embedding are decoupled and only the directional information is optimized. We theoretically analyze the hyperspherical embedding and show that it enables more stable training with a wider range of learning rates and more compact embedding distributions. Experiment results show consistent improvement of point cloud completion in both single-task and multi-task learning, which demonstrates the effectiveness of the proposed method.
翻訳日:2023-07-13 15:47:10 公開日:2023-07-11
# 適応型グラフニューラルネットワークによるトランザクション不正検出

Transaction Fraud Detection via an Adaptive Graph Neural Network ( http://arxiv.org/abs/2307.05633v1 )

ライセンス: Link先を確認
Yue Tian, Guanjun Liu, Jiacun Wang, Mengchu Zhou(参考訳) 多くの機械学習手法が、個人や銀行の金融安全に不可欠な、正確な取引不正検出を実現するために提案されている。 しかし、既存のほとんどのメソッドはオリジナルの機能のみを利用するか、手動の機能工学を必要とする。 トランザクションデータから識別表現を学ぶ能力が欠けている。 さらに、犯罪者はカード所有者の行動を模倣して詐欺を犯すことが多く、既存の検知モデルの性能が劣る。 本稿では,トランザクション不正検出の性能を向上させるために,識別表現を学習する適応的サンプリング・集約型グラフニューラルネットワーク(asa-gnn)を提案する。 隣接サンプリング戦略により、ノイズノードをフィルタリングし、不正ノードの情報を補足する。 具体的には、コサイン類似性とエッジ重みを利用して、ターゲットノードに類似した行動パターンを持つ隣人を適応的に選択し、不正ノードに対するマルチホップ隣人を見つける。 近隣の多様性指標は、隣人のエントロピーを計算し、詐欺師の迷彩問題に対処し、過密現象を明示的に緩和することで設計される。 3つのファイナンシャルデータセットに対する大規模な実験により、提案手法のASA-GNNは最先端のものよりも優れていることが示された。

Many machine learning methods have been proposed to achieve accurate transaction fraud detection, which is essential to the financial security of individuals and banks. However, most existing methods leverage original features only or require manual feature engineering. They lack the ability to learn discriminative representations from transaction data. Moreover, criminals often commit fraud by imitating cardholders' behaviors, which causes the poor performance of existing detection models. In this paper, we propose an Adaptive Sampling and Aggregation-based Graph Neural Network (ASA-GNN) that learns discriminative representations to improve the performance of transaction fraud detection. A neighbor sampling strategy is performed to filter noisy nodes and supplement information for fraudulent nodes. Specifically, we leverage cosine similarity and edge weights to adaptively select neighbors with similar behavior patterns for target nodes and then find multi-hop neighbors for fraudulent nodes. A neighbor diversity metric is designed by calculating the entropy among neighbors to tackle the camouflage issue of fraudsters and explicitly alleviate the over-smoothing phenomena. Extensive experiments on three real financial datasets demonstrate that the proposed method ASA-GNN outperforms state-of-the-art ones.
翻訳日:2023-07-13 15:46:50 公開日:2023-07-11
# 確率からの信念

Belief Revision from Probability ( http://arxiv.org/abs/2307.05632v1 )

ライセンス: Link先を確認
Jeremy Goodman (University of Southern California), Bernhard Salow (University of Oxford)(参考訳) これまでの研究("Knowledge from Probability", TARK 2021)において、我々は信念の疑問にかかわる確率論的考察を発展させた。 この点において、ある質問に対する相対的な信念は、 (i)係りの閉店 (ii)その証拠を考えると十分あり得ること、及び (iii)質問に対する回答の相対的確率に敏感である。 ここでは、信念のダイナミクスに対するこの説明の意味を考察する。 検証した原理は、AGMのような正統的な信念修正の理論よりもはるかに弱いが、一般的なロッキーン信仰理論によれば、信念を高い主観的確率と同一視する理論よりも依然として強いことが示される。 そして、多くのアプリケーションに適しているが全てのアプリケーションに適している制限されたモデルのクラスを検討し、このクラスで有効ないくつかの自然な原則を特定します。 結論として,本フレームワークは,leitgeb と lin と kelly によって開発された,ライバルの確率論的信念と好意的に比較される。

In previous work ("Knowledge from Probability", TARK 2021) we develop a question-relative, probabilistic account of belief. On this account, what someone believes relative to a given question is (i) closed under entailment, (ii) sufficiently probable given their evidence, and (iii) sensitive to the relative probabilities of the answers to the question. Here we explore the implications of this account for the dynamics of belief. We show that the principles it validates are much weaker than those of orthodox theories of belief revision like AGM, but still stronger than those valid according to the popular Lockean theory of belief, which equates belief with high subjective probability. We then consider a restricted class of models, suitable for many but not all applications, and identify some further natural principles valid on this class. We conclude by arguing that the present framework compares favorably to the rival probabilistic accounts of belief developed by Leitgeb and by Lin and Kelly.
翻訳日:2023-07-13 15:46:30 公開日:2023-07-11
# 因果クリプケモデル

Causal Kripke Models ( http://arxiv.org/abs/2307.05631v1 )

ライセンス: Link先を確認
Yiwen Ding (Vrije Universiteit Amsterdam), Krishna Manoorkar (Vrije Universiteit Amsterdam), Apostolos Tzimoulis (Vrije Universiteit Amsterdam), Ruoding Wang (Vrije Universiteit Amsterdam), Xiaolong Wang (Vrije Universiteit Amsterdam)(参考訳) この研究は、実際の因果関係に関するハルパーンとパールの因果関係モデルを、可能な世界意味論環境にまで拡張する。 この枠組みを用いて,複数の可能性,時間性,知識,不確実性を含むシナリオにおける因果関係の推論を可能にするモダリティ演算子との実際の因果関係の論理を導入する。 いくつかの例でこれを解説し、今後の研究の方向性について論じる。

This work extends Halpern and Pearl's causal models for actual causality to a possible world semantics environment. Using this framework we introduce a logic of actual causality with modal operators, which allows for reasoning about causality in scenarios involving multiple possibilities, temporality, knowledge and uncertainty. We illustrate this with a number of examples, and conclude by discussing some future directions for research.
翻訳日:2023-07-13 15:46:16 公開日:2023-07-11
# 連続長距離モニタリングにおける絡み合い遷移と量子分岐

Entanglement transitions and quantum bifurcations\\ under continuous long-range monitoring ( http://arxiv.org/abs/2307.05685v1 )

ライセンス: Link先を確認
Angelo Russomanno and Giulia Piccitto and Davide Rossini(参考訳) 連続的な非局所モニタリングを行う場合, 自由フェルミオン系における量子軌道の漸近的二部交絡エントロピーについて検討する。 この測定はガウス保存二点作用素によって説明され、その強みは指数$\alpha$のパワーローとして崩壊する。 エンタングルメントエントロピーとシステムサイズとの異なる挙動が出現する:$\alpha$ 所定のしきい値以下ではボリュームローの振る舞いがセットされ、さらに$\alpha$ ではサブボリュームからエリアローへの遷移が観察され、正確な位置は測定率とハミルトン力学の存在に依存する。 また,測定演算子の期待確率分布を考察し,この分布が単様形から双様形への遷移を特徴付けることを見出した。 この分布の定性的変化と絡み合い遷移点との接続について論じる。

We study the asymptotic bipartite entanglement entropy of the quantum trajectories of a free-fermionic system, when subject to a continuous nonlocal monitoring. The measurements are described by Gaussian-preserving two-point operators, whose strength decays as a power-law with exponent $\alpha$. Different behaviors of the entanglement entropy with the system size emerge: for $\alpha$ below a given threshold value a volume-law behavior sets in, while for larger $\alpha$ we observe a transition from subvolume to area-law, whose exact location depends on the measurements rate and on the presence of a Hamiltonian dynamics. We also consider the expectation probability distribution of the measurement operators, and find that this distribution features a transition from a unimodal to a bimodal shape. We discuss the possible connections between this qualitative change of the distribution and the entanglement transition points.
翻訳日:2023-07-13 15:39:03 公開日:2023-07-11
# 多体スピン系の緩和ダイナミクスに対する量子古典的対応:エネルギーシェルにおける線形カオスと拡散

Quantum-Classical Correspondence for the Relaxation Dynamics of Many-Body Spin Systems: Linear Chaos and Diffusion in the Energy Shell ( http://arxiv.org/abs/2307.05681v1 )

ライセンス: Link先を確認
Fausto Borgonovi, Felix M. Izrailev, Lea F. Santos(参考訳) 古典的および量子領域において強いカオスである1次元相互作用スピンモデルにおけるクエンチダイナミクスについて検討する。 我々は, [phys. rev. b 107, 155143 (2023)] で開発された量子古典的対応の知識を用いて, 系の緩和過程のメカニズムを解明した。 実際には、線形パラメトリック不安定性と非線形性による2つのメカニズムを含んでいる。 我々は、非相互作用エネルギー(球状量)とオンサイト磁化(局所観測可能)の緩和は主に、線形カオスと呼ばれる最初のメカニズムによるものであることを示す。 古典的エルゴード性に基づく半解析的アプローチにより、両方の量の緩和時間スケールは古典的および量子的なケースのシステムサイズとは独立であることが分かる。 また, エネルギー殻内の非相互作用エネルギーの拡散が拡散的であることを検証した。 これらの結果とは対照的に、初期状態が多体ヒルベルト空間にどのように拡散するかを定量化し、古典的空間を持たない主成分の数は指数関数的に増加し、スピンの数に依存する緩和時間を持つ。

We study quench dynamics in a one-dimensional interacting spin model that is strongly chaotic in the classical and quantum domain. We use the knowledge of the quantum-classical correspondence developed in [Phys. Rev. B 107, 155143 (2023)] to elucidate the mechanism of the system relaxation process. It actually involves two mechanisms, one due to linear parametric instability and the other caused by nonlinearity. We show that the relaxation of the noninteracting energy (global quantity) and of the onsite magnetization (local observable) is mainly due to the first mechanism, referred to as linear chaos. With a semi-analytical approach based on classical ergodicity, we find that the relaxation timescale of both quantities is independent of the system size for both the classical and the quantum case. We also verify that the spread of the noninteracting energy in the energy shell is diffusive-like. In contrast to these results, the number of principal components, which quantifies how the initial state spreads in the many-body Hilbert space and does not have a classical counterpart, grows exponentially in time and has a relaxation time that depends on the number of spins.
翻訳日:2023-07-13 15:38:34 公開日:2023-07-11
# 非エルミート系の実スペクトルに課されるヒルベルト空間の断片化

Hilbert space fragmentation imposed real spectrum of a non-Hermitian system ( http://arxiv.org/abs/2307.05679v1 )

ライセンス: Link先を確認
Somsubhra Ghosh, K. Sengupta, and Indranil Paul(参考訳) 我々は、強いヒルベルト空間断片化(HSF)とある種の大域対称性の存在によって課される制約が、非エルミート量子系の固有スペクトルの現実に十分な条件を与えることを示した。 相互作用する有限フェルミオンネルソン-ハタノ鎖に対するこの知見を示す。 系が十分に大域対称性を持つならば,HSFと実スペクトルはどちらも大きな相互作用の限界における同じ動的制約の結果であることを示す。 スペクトルは有限臨界値を超える相互作用に対して実数であり、系は多体例外点に遭遇する。 局所的等時相関関数を用いてこの例外点を検出する方法を提案する。

We show that constraints imposed by strong Hilbert space fragmentation (HSF) along with the presence of certain global symmetries can provide a sufficient condition for the reality of eigenspectra of non-Hermitian quantum systems; such a reality cannot be guaranteed by global symmetries alone. We demonstrate this insight for an interacting finite fermionic Nelson-Hatano chain. We show analytically that strong HSF and real spectrum are both consequences of the same dynamical constraints in the limit of large interaction, provided the system has sufficient global symmetries. The spectrum stays real for interactions above a finite critical value, where the system encounters a many-body exceptional point. We provide a method to detect this exceptional point using a local equal-time correlation function.
翻訳日:2023-07-13 15:37:40 公開日:2023-07-11
# 近位二量子ドットにおけるフェルミオンパリティ量子ビット

A fermion-parity qubit in a proximitized double quantum dot ( http://arxiv.org/abs/2307.05678v1 )

ライセンス: Link先を確認
Max Geier, Rub\'en Seoane Souto, Jens Schulenborg, Serwan Asaad, Martin Leijnse, Karsten Flensberg(参考訳) 超伝導体に結合した量子ドットの束縛状態は、異なる電子数を持つが同じ数パリティを持つ状態のコヒーレントな重ね合わせである。 静電ゲーティングは、この重ね合わせを、電子数パリティとは無関係に同じ平均電荷を持つ量子ドットのスイートスポットに調整することができる。 ここでは,ジョセフソン接合に埋め込まれた2つのトンネル結合量子ドットの局所フェルミオンパリティの量子情報を符号化する。 スイートスポットでは、クォービット状態は電荷双極子モーメントがゼロである。 これにより、電場ゆらぎによる量子ビットの強調を防げる。 ドット間のトンネル結合の強さによって、システムは各量子ドットに別々に結合するノイズから緩和(弱トンネル)または脱落(強トンネル)へとさらに保護される。 ゲート電圧をパルスすることで、初期化と読み出し、および1量子および2量子ゲートを記述する。

Bound states in quantum dots coupled to superconductors can be in a coherent superposition of states with different electron number but with the same number parity. Electrostatic gating can tune this superposition to a sweet spot, where the quantum dot has the same mean electric charge independent of its electron-number parity. Here, we propose to encode quantum information in the local fermion parity of two tunnel-coupled quantum dots embedded in a Josephson junction. At the sweet spot, the qubit states have zero charge dipole moment. This protects the qubit from dephasing due to electric field fluctuations. Depending on the strength of the tunnel coupling between the dots, the system is further protected towards either relaxation (weak tunneling) or dephasing (strong tunneling) from noise coupling separately to each quantum dot. We describe initialization and readout as well as single-qubit and two-qubit gates by pulsing gate voltages.
翻訳日:2023-07-13 15:37:17 公開日:2023-07-11
# 開ディックモデルにおけるカオスと規則性の解析

Analysis of Chaos and Regularity in the Open Dicke Model ( http://arxiv.org/abs/2307.05675v1 )

ライセンス: Link先を確認
David Villase\~nor and Pablo Barberis-Blostein(参考訳) 本研究では,開ディッケモデルの複素スペクトルを数値的に求めるための基準を導入し,空洞損失による散逸を詳細に解析する。 古典的な孤立系が規則性を示し、カオスが現れるケーススタディを2つ選択する。 オープンシステムを正則あるいはカオスと特徴づけるために、スペクトルの領域を固有値の絶対値からウィンドウを取ることを研究する。 我々の結果は、マルコフ散逸性開量子系に対するGrobe-Haake-Sommers(GHS)予想と一致し、通常の状態に対して期待される2次元ポアソン分布と、カオス的な状態に対するジニブレユニタリアンサンブル(GinUE)の分布を発見した。

We introduce a criteria to numerically find the complex spectrum of the open Dicke model and present a detailed analysis when dissipation is due to cavity losses. We select two case studies where the classical isolated system shows regularity and where chaos appears. To characterize the open system as regular or chaotic we study regions of the spectrum taking windows over the absolute value of its eigenvalues. Our results agree with the Grobe-Haake-Sommers (GHS) conjecture for Markovian dissipative open quantum systems, finding the expected 2D Poisson distribution for regular regimes, and the distribution of the Ginibre unitary ensemble (GinUE) for the chaotic ones, respectively.
翻訳日:2023-07-13 15:37:01 公開日:2023-07-11
# オブジャバースXL:10M以上の3Dオブジェクトの宇宙

Objaverse-XL: A Universe of 10M+ 3D Objects ( http://arxiv.org/abs/2307.05663v1 )

ライセンス: Link先を確認
Matt Deitke, Ruoshi Liu, Matthew Wallingford, Huong Ngo, Oscar Michel, Aditya Kusupati, Alan Fan, Christian Laforte, Vikram Voleti, Samir Yitzhak Gadre, Eli VanderBilt, Aniruddha Kembhavi, Carl Vondrick, Georgia Gkioxari, Kiana Ehsani, Ludwig Schmidt, Ali Farhadi(参考訳) 自然言語処理と2次元視覚モデルは、主にトレーニングデータの規模を拡大することによって、多くのタスクにおいて顕著な熟練を達成した。 しかし、高品質な3Dデータを取得することの難しさもあって、3Dビジョンタスクは同じ進歩を見せていない。 本研究では,1000万以上の3dオブジェクトのデータセットobjaverse-xlを提案する。 我々のデータセットは、手動でデザインされたオブジェクト、ランドマークや日常のアイテムのフォトグラムスキャン、歴史的、古美術品のプロのスキャンを含む、さまざまなソースから3Dオブジェクトを分離する。 Objaverse-XLは3Dデータセットの領域で最大のスケールと多様性を表現し、3Dビジョンのための大きな新しい可能性を提供します。 実験はobjaverse-xlのスケールで実現された改善を示す。 1億以上のマルチビューレンダリング画像を用いて,ゼロ123を新規なビュー合成にトレーニングすることで,強力なゼロショット一般化能力が得られることを示す。 Objaverse-XLをリリースすることで、大規模な3Dビジョンの分野でさらなるイノベーションが可能になることを願っています。

Natural language processing and 2D vision models have attained remarkable proficiency on many tasks primarily by escalating the scale of training data. However, 3D vision tasks have not seen the same progress, in part due to the challenges of acquiring high-quality 3D data. In this work, we present Objaverse-XL, a dataset of over 10 million 3D objects. Our dataset comprises deduplicated 3D objects from a diverse set of sources, including manually designed objects, photogrammetry scans of landmarks and everyday items, and professional scans of historic and antique artifacts. Representing the largest scale and diversity in the realm of 3D datasets, Objaverse-XL enables significant new possibilities for 3D vision. Our experiments demonstrate the improvements enabled with the scale provided by Objaverse-XL. We show that by training Zero123 on novel view synthesis, utilizing over 100 million multi-view rendered images, we achieve strong zero-shot generalization abilities. We hope that releasing Objaverse-XL will enable further innovations in the field of 3D vision at scale.
翻訳日:2023-07-13 15:36:45 公開日:2023-07-11
# 層間依存による混合精度量子化

Mixed-Precision Quantization with Cross-Layer Dependencies ( http://arxiv.org/abs/2307.05657v1 )

ライセンス: Link先を確認
Zihao Deng, Xin Wang, Sayeh Sharify, Michael Orshansky(参考訳) 量子化はディープニューラルネットワークの圧縮と加速に一般的に用いられる。 同じビット幅を全ての層に割り当てる量子化は、低い精度で大きな精度劣化をもたらし、高精度な設定では無駄になる。 混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。 既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。 この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。 量子化誤差の層間依存性を捕捉する最初のMPQアルゴリズムを提案する。 提案手法(clado)は,少ないデータ量でネットワークの前方評価のみを必要とする線形方程式を解くことで,ペアワイズクロスレイヤー誤差項の高速近似を可能にする。 階層的なビット幅割り当ての決定は、整数二次プログラム(iqp)を介してこれらのクロスレイヤー量子化誤差に依存する新しいmpq定式化を数秒で解くことで決定される。 imagenetデータセット上で複数のネットワーク上で実験を行い、トップ1分類精度で、均一な精度量子化よりも最大27%、既存のmpq法よりも最大15%の改善を示す。

Quantization is commonly used to compress and accelerate deep neural networks. Quantization assigning the same bit-width to all layers leads to large accuracy degradation at low precision and is wasteful at high precision settings. Mixed-precision quantization (MPQ) assigns varied bit-widths to layers to optimize the accuracy-efficiency trade-off. Existing methods simplify the MPQ problem by assuming that quantization errors at different layers act independently. We show that this assumption does not reflect the true behavior of quantized deep neural networks. We propose the first MPQ algorithm that captures the cross-layer dependency of quantization error. Our algorithm (CLADO) enables a fast approximation of pairwise cross-layer error terms by solving linear equations that require only forward evaluations of the network on a small amount of data. Decisions on layerwise bit-width assignments are then determined by optimizing a new MPQ formulation dependent on these cross-layer quantization errors via the Integer Quadratic Program (IQP), which can be solved within seconds. We conduct experiments on multiple networks on the Imagenet dataset and demonstrate an improvement, in top-1 classification accuracy, of up to 27% over uniform precision quantization, and up to 15% over existing MPQ methods.
翻訳日:2023-07-13 15:36:28 公開日:2023-07-11
# 量子拡散1d鎖におけるデコヒーレンスに対する普遍的安定性

Universal stability towards decoherence in quantum diffusive 1D chains ( http://arxiv.org/abs/2307.05656v1 )

ライセンス: Link先を確認
Fabricio S. Lozano-Negro and Emilio Alvarez Navarro and Nahum C. Ch\'avez and Francesco Mattiotti and Fausto Borgonovi and Horacio M. Pastawski and G. Luca Celardo(参考訳) コヒーレント拡散は通常、局所化と弾道状態の間に生じ、そこでは通常金属絶縁体転移が起こる。 Harper-Hofstadter-Aubry-Andr\'e と Fibonacci と Power-Banded Random Matrices の3つの異なるパラダイムシステムを研究することにより、コヒーレント拡散が存在する場合、輸送はデコヒーレンスに対して例外的に安定であることを示す。 これは、拡散係数がデコヒーレントなノイズに強く依存する弾道的および局所的な力学で起こることと全く正反対である。 拡散係数は、コヒーレンス時間が平均弾性散乱時間に匹敵するまでほぼデコヒーレンス非依存のままであるので、デコヒーレンス強度と拡散係数の普遍的な依存性を解析的に導出する。 したがって、量子拡散系は安定な量子線の設計や、弾道と局所的な領域の境界でしばしば機能する多くの生物学的系の機能を説明するのに使うことができる。

Coherent diffusion usually arises between the localized and the ballistic regime, where typically Metal-Insulator Transitions emerge. By studying three different paradigmatic systems, the Harper-Hofstadter-Aubry-Andr\'e, the Fibonacci and the Power-Banded Random Matrices model, we show that in presence of coherent diffusion, transport is exceptionally stable towards decoherence. This is completely at odds with what happens for ballistic and localized dynamics, where the diffusion coefficient strongly depends on the decoherent noise. A universal dependence of the diffusion coefficient with the decoherence strength is analytically derived: the diffusion coefficient remains almost decoherence-independent until the coherence time becomes comparable with the mean elastic scattering time. Thus quantum diffusive systems could be used to design stable quantum wires and explain the functionality of many biological systems, which often operate at the border between the ballistic and localized regime.
翻訳日:2023-07-13 15:36:07 公開日:2023-07-11
# 根拠に基づく手衛生。 蛍光評価法を信頼できますか?

Evidence-based Hand Hygiene. Can You Trust the Fluorescent-based Assessment Methods? ( http://arxiv.org/abs/2307.05650v1 )

ライセンス: Link先を確認
Sz\'ava B\'ans\'aghi, Viola S\'ari, P\'eter Szer\'emy, \'Akos Lehotsky, Bence Tak\'acs, Brigitta K. T\'oth and Tam\'as Haidegger(参考訳) 医療関連感染症は世界中の患者の安全にとって大きな脅威となる。 研究によると、HAIの50%以上が適切な手衛生によって予防できるという。 ウルトラ紫外(UV)蛍光マーカーを含むハンドルーブで手衛生を行う蛍光法において、手衛生の有効性を定期的に評価する。 通常、人間の専門家はUV-A光の下で手を評価し、適用されたハンドルーブが手の表面全体を覆っているかどうかを判断する。 本研究の目的は、異なる専門家が同じUVパターンをどう判断するかを調査し、客観的な検証のための微生物学と比較することであった。 被験者の手はstaphylococcus epidermidisサスペンションの高濃度で汚染された。 手はUV標識ハンドルーブで完全に消毒された。 4つの異なるUVボックス型デバイスがUV光の下で手のCCD撮影に使用された。 不適切な消毒部位の大きさは2つの異なる方法で決定された。 まず、微生物学に基づいて、コロニーが栽培された地域を測定した。 第二に、4人の独立系高齢者感染管理の専門家が、紫外線の下で撮影されたプリント画像に欠落したエリアをマークするよう求められた。 健常者8名を対象に調査を行った。 専門家の評価は、相互信頼を尊重する)非常に相関が低く、矛盾していた。 微生物学の結果は専門家の評価と弱い相関を示した。 半数の症例では, 細菌学とヒトの細菌学では, 適切な消毒部位の大きさに10%以上の差が認められた。 専門家評価の結果を踏まえると, 変動性は著しく高かった。 高度経験者でも蛍光法の評価は困難である。 これらのデータ品質に基づいて患者安全品質保証システムを構築することはできない。

Healthcare-Associated Infections present a major threat to patient safety globally. According to studies, more than 50% of HAI could be prevented by proper hand hygiene. Effectiveness of hand hygiene is regularly evaluated with the fluorescent method: performing hand hygiene with a handrub containing an ultra violet (UV) fluorescent marker. Typically, human experts evaluate the hands under UV-A light, and decide whether the applied handrub covered the whole hand surface. The aim of this study was to investigate how different experts judge the same UV-pattern, and compare that to microbiology for objective validation. Hands of volunteer participants were contaminated with high concentration of a Staphylococcus epidermidis suspension. Hands were incompletely disinfected with UV-labeled handrub. Four different UV-box type devices were used to take CCD pictures of the hands under UV light. Size of inadequately disinfected areas on the hands were determined in two different ways. First, based on microbiology; the areas where colonies were grown were measured. Second, four independent senior infection control specialists were asked to mark the missed areas on printed image, captured under UV light. 8 hands of healthy volunteers were examined. Expert evaluations were highly uncorrelated (regarding interrater reliability) and inconsistent. Microbiology results weakly correlated with the expert evaluations. In half of the cases, there were more than 10% difference in the size of properly disinfected area, as measured by microbiology versus human experts. Considering the result of the expert evaluations, variability was disconcertingly high. Evaluating the fluorescent method is challenging, even for highly experienced professionals. A patient safety quality assurance system cannot be built on these data quality.
翻訳日:2023-07-13 15:35:47 公開日:2023-07-11
# 微調整言語モデルによるアスペクトレベル感性分類における整合性の改善

Better Handling Coreference Resolution in Aspect Level Sentiment Classification by Fine-Tuning Language Models ( http://arxiv.org/abs/2307.05646v1 )

ライセンス: Link先を確認
Dhruv Mullick, Bilal Ghanem, Alona Fyshe(参考訳) 顧客からのフィードバックは、製品を洗練する企業にとって貴重なことです。 顧客フィードバックの監視は、アスペクトレベルの感情分類(alsc)によって自動化され、レビュー中の製品の特定の側面を分析することができます。 大規模言語モデル(llm)は多くの最先端のalscソリューションの中心であるが、いくつかのシナリオではコリファレンスレゾリューション(cr)を必要とする。 本研究では,crを含むレビューにおけるllmの性能を向上させるためのフレームワークを提案する。 性能改善は、改善されたモデルCR能力によるものと考えられる。 また、ALSCのCRに焦点を当てた新しいデータセットもリリースしています。

Customer feedback is invaluable to companies as they refine their products. Monitoring customer feedback can be automated with Aspect Level Sentiment Classification (ALSC) which allows us to analyse specific aspects of the products in reviews. Large Language Models (LLMs) are the heart of many state-of-the-art ALSC solutions, but they perform poorly in some scenarios requiring Coreference Resolution (CR). In this work, we propose a framework to improve an LLM's performance on CR-containing reviews by fine tuning on highly inferential tasks. We show that the performance improvement is likely attributed to the improved model CR ability. We also release a new dataset that focuses on CR in ALSC.
翻訳日:2023-07-13 15:35:25 公開日:2023-07-11
# MoP-CLIP:ドメインインクリメンタル学習のための Prompt-Tuned CLIP モデルの混合

MoP-CLIP: A Mixture of Prompt-Tuned CLIP Models for Domain Incremental Learning ( http://arxiv.org/abs/2307.05707v1 )

ライセンス: Link先を確認
Julien Nicolas, Florent Chiaroni, Imtiaz Ziko, Ola Ahmad, Christian Desrosiers, Jose Dolz(参考訳) 近年の漸進的な学習の進歩にもかかわらず、分布的ドリフト下での破滅的な忘れに対処することは、依然としてオープンで重要な問題である。 実際、最先端のドメインインクリメンタルラーニング(DIL)手法は既知のドメインで十分に機能するが、その性能は新規ドメインの存在下で大きく低下する。 この制限は一般化性を阻害し、トレーニングデータとテストデータが異なるディストリビューションから引き出されるような、より現実的な設定に拡張性を制限する。 これらの制約に対処するために、S-Promptingのパラダイムを一般化し、推論における分布内データと分布外データの両方を扱う、プロンプト調整型CLIPモデル(MoP-CLIP)の混合に基づく新しいDIL手法を提案する。 特に、トレーニング段階では、各ドメインの各クラスの特徴分布をモデル化し、個々のテキストと視覚的プロンプトを学習して、特定のドメインに適応させます。 学習した分布は、与えられたテストサンプルが既知のドメインに属しているかどうかを識別し、分類タスクの正しいプロンプトを選択するか、あるいは未確認ドメインから、プロンプトチューニングされたCLIPモデルの混合を利用する。 実験により,ドメインシフト中の既存のDIL手法の性能が低下していることが明らかとなり,提案手法は標準DIL設定において競合的に動作し,OODシナリオでは最先端の手法よりも優れていたことが示唆された。 これらの結果はMoP-CLIPの優位性を示し、ドメインインクリメンタル学習の問題に対する堅牢で一般的な解決策を提供する。

Despite the recent progress in incremental learning, addressing catastrophic forgetting under distributional drift is still an open and important problem. Indeed, while state-of-the-art domain incremental learning (DIL) methods perform satisfactorily within known domains, their performance largely degrades in the presence of novel domains. This limitation hampers their generalizability, and restricts their scalability to more realistic settings where train and test data are drawn from different distributions. To address these limitations, we present a novel DIL approach based on a mixture of prompt-tuned CLIP models (MoP-CLIP), which generalizes the paradigm of S-Prompting to handle both in-distribution and out-of-distribution data at inference. In particular, at the training stage we model the features distribution of every class in each domain, learning individual text and visual prompts to adapt to a given domain. At inference, the learned distributions allow us to identify whether a given test sample belongs to a known domain, selecting the correct prompt for the classification task, or from an unseen domain, leveraging a mixture of the prompt-tuned CLIP models. Our empirical evaluation reveals the poor performance of existing DIL methods under domain shift, and suggests that the proposed MoP-CLIP performs competitively in the standard DIL settings while outperforming state-of-the-art methods in OOD scenarios. These results demonstrate the superiority of MoP-CLIP, offering a robust and general solution to the problem of domain incremental learning.
翻訳日:2023-07-13 15:29:29 公開日:2023-07-11
# 確率的スライシングとマッチングによる測度移動

Measure transfer via stochastic slicing and matching ( http://arxiv.org/abs/2307.05705v1 )

ライセンス: Link先を確認
Shiying Li and Caroline Moosmueller(参考訳) 本稿では,スライシング・アンド・マッチング手順によって定義される測度移動と近似問題の反復スキームについて検討する。 スライスされたワッサーシュタイン距離と同様に、これらのスキームは1次元の最適輸送問題に対する閉形式解と関連する計算上の利点の恩恵を受ける。 このようなスキームはすでにデータサイエンスのアプリケーションでうまく利用されていますが、その収束に関する結果はあまり多くありません。 本論文の主な貢献は確率的スライシング・アンド・マッチングスキームに対するほぼ確実な収束証明である。 この証明は、ワッサーシュタイン空間上の確率勾配降下スキームとして解釈に基づいている。 ステップワイズ画像の変形に関する数値例も示す。

This paper studies iterative schemes for measure transfer and approximation problems, which are defined through a slicing-and-matching procedure. Similar to the sliced Wasserstein distance, these schemes benefit from the availability of closed-form solutions for the one-dimensional optimal transport problem and the associated computational advantages. While such schemes have already been successfully utilized in data science applications, not too many results on their convergence are available. The main contribution of this paper is an almost sure convergence proof for stochastic slicing-and-matching schemes. The proof builds on an interpretation as a stochastic gradient descent scheme on the Wasserstein space. Numerical examples on step-wise image morphing are demonstrated as well.
翻訳日:2023-07-13 15:28:56 公開日:2023-07-11
# 教師なし表現学習のための因果順序付け

A Causal Ordering Prior for Unsupervised Representation Learning ( http://arxiv.org/abs/2307.05704v1 )

ライセンス: Link先を確認
Avinash Kori, Pedro Sanchez, Konstantinos Vilouras, Ben Glocker, Sotirios A. Tsaftaris(参考訳) 変分推論を用いた教師なし表現学習は、潜在変数に対する独立性仮定に大きく依存する。 しかし、因果表現学習(crl)は、データセットにおける変動の要因は、実際には因果関係にあると主張する。 因果関係の結果、潜在変数を相関させることはより現実的で一般化可能である。 現時点では、証明可能なメソッドは、補助情報、弱いラベル、介入的データ、さらには偽りのデータに依存する。 機能的因果モデルによる因果発見に着想を得て,潜在付加雑音モデル(ANM)を用いたデータ生成過程を考慮した,教師なし表現学習手法を提案する。 我々は,潜在分布のヘッシアンに基づく損失関数による因果順序を潜在空間に従わせることを推奨する。

Unsupervised representation learning with variational inference relies heavily on independence assumptions over latent variables. Causal representation learning (CRL), however, argues that factors of variation in a dataset are, in fact, causally related. Allowing latent variables to be correlated, as a consequence of causal relationships, is more realistic and generalisable. So far, provably identifiable methods rely on: auxiliary information, weak labels, and interventional or even counterfactual data. Inspired by causal discovery with functional causal models, we propose a fully unsupervised representation learning method that considers a data generation process with a latent additive noise model (ANM). We encourage the latent space to follow a causal ordering via loss function based on the Hessian of the latent distribution.
翻訳日:2023-07-13 15:28:45 公開日:2023-07-11
# 絡み合い蒸留におけるクビットリサイクル

Qubit Recycling in Entanglement Distillation ( http://arxiv.org/abs/2307.05702v1 )

ライセンス: Link先を確認
Stuart Pelletier, Ruozhou Yu, George Rouskas, Jianqing Liu(参考訳) 量子エンタングルメント蒸留(quantum entanglement distillation)は、少数の高忠実度エンタングルメントを、多数の低忠実度エンタングルメントから抽出するプロセスである。 既存の蒸留アプローチの中で、ギシンの局所フィルタリングプロトコルは、偏光基底で絡み合った光子を蒸留するフォトニック量子システムで一般的に採用されている。 しかし、ジシンのフィルターのパフォーマンスは、忠実さと利得のトレードオフによって呪われている。 この課題に対処するため,本研究では,配置された光子をリサイクルし,設計された(かつ最適化された)局所演算子による忠実性を向上させるプロトコルを提案する。 提案プロトコルの鍵パラメータは制約付き最適化問題を解くことで算出される。 これにより,高忠実度エンタングルメント対の収率を著しく向上する。 さらに,Gensinのフィルタ,すなわち完全フィルタと部分フィルタの2つの共通構成の下で,設計したプロトコルの性能を評価する。 既存の蒸留プロトコルと比較すると,提案手法はハードウェアの投資や同期のための余分なシグナリングの点でのみ適度なシステム複雑性を生じる一方で,同じ忠実度で最大31.2%の利得が得られることが示されている。

Quantum entanglement distillation is a process to extract a small number of high-fidelity entanglement from a large number of low-fidelity ones, which in essence is to trade yield (or survival rate) for fidelity. Among existing distillation approaches, Gisin's local filtering protocol is commonly adopted in photonic quantum systems for distilling entangled photons in polarization basis. Yet, the performance of Gisin's filter is cursed by the same fundamental trade-off between fidelity and yield. To address this challenge, in this work, we propose a protocol to recycle the disposed photons and improve their fidelity by a designed (and optimized) local operator. The key parameters of the proposed protocol are calculated by solving a constrained optimization problem. In so doing, we achieve significantly higher yield of high-fidelity entanglement pairs. We further evaluate the performance of our designed protocol under two common configurations of Gisin's filter, namely full filter and partial filter. Compared with existing distillation protocols, the results demonstrate that our design achieves as much as 31.2% gain in yield under the same fidelity, while only incurring moderate system complexity in terms of invested hardware and extra signaling for synchronization.
翻訳日:2023-07-13 15:28:32 公開日:2023-07-11
# SepHRNet:分離畳み込み型HRNetを用いたリモートセンシング画像から高分解能クロップマップを生成する

SepHRNet: Generating High-Resolution Crop Maps from Remote Sensing imagery using HRNet with Separable Convolution ( http://arxiv.org/abs/2307.05700v1 )

ライセンス: Link先を確認
Priyanka Goyal, Sohan Patnaik, Adway Mitra, Manjira Sinha(参考訳) 作物生産の正確なマッピングは、食料安全保障、効率的な資源管理、持続可能な農業慣行の確保に不可欠である。 これを実現する一つの方法は、高解像度衛星画像を分析することである。 Deep Learningはリモートセンシング画像を含む画像の解析に成功している。 しかし、複雑な作物パターンの捕獲は、その複雑さと変動性のために困難である。 本稿では,hrnetを分離可能な畳み込み層と統合し,空間的パターンと自己アテンションを捉え,データの時間的パターンを捉える新しいディープラーニング手法を提案する。 HRNetモデルはバックボーンとして機能し、作物の画像から高解像度の特徴を抽出する。 hrnetモデルの浅い層における空間分離可能な畳み込みは、計算コストを低減しつつ、複雑な作物パターンをより効果的に捉える。 マルチヘッドアテンション機構は、画像の符号化ベクトル表現から長期の時間的依存関係をキャプチャする。 最後に、cnnデコーダは、集約表現から作物マップを生成する。 adaboostは、さらに精度を向上させるために使用される。 提案アルゴリズムは,作物マップの生成において,97.5\%と55.2\%のIoUを高い分類精度で達成する。 Zuericropデータセット上でのパイプラインの性能を評価し,U-Net++,ResNet50,VGG19,InceptionV3,DenseNet,EfficientNetなどの最先端モデルよりも優れていることを示す。 本研究では,地球観測システムの深層学習の可能性を示す。

The accurate mapping of crop production is crucial for ensuring food security, effective resource management, and sustainable agricultural practices. One way to achieve this is by analyzing high-resolution satellite imagery. Deep Learning has been successful in analyzing images, including remote sensing imagery. However, capturing intricate crop patterns is challenging due to their complexity and variability. In this paper, we propose a novel Deep learning approach that integrates HRNet with Separable Convolutional layers to capture spatial patterns and Self-attention to capture temporal patterns of the data. The HRNet model acts as a backbone and extracts high-resolution features from crop images. Spatially separable convolution in the shallow layers of the HRNet model captures intricate crop patterns more effectively while reducing the computational cost. The multi-head attention mechanism captures long-term temporal dependencies from the encoded vector representation of the images. Finally, a CNN decoder generates a crop map from the aggregated representation. Adaboost is used on top of this to further improve accuracy. The proposed algorithm achieves a high classification accuracy of 97.5\% and IoU of 55.2\% in generating crop maps. We evaluate the performance of our pipeline on the Zuericrop dataset and demonstrate that our results outperform state-of-the-art models such as U-Net++, ResNet50, VGG19, InceptionV3, DenseNet, and EfficientNet. This research showcases the potential of Deep Learning for Earth Observation Systems.
翻訳日:2023-07-13 15:28:11 公開日:2023-07-11
# Stack More Layers:低ランク更新によるハイランクトレーニング

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates ( http://arxiv.org/abs/2307.05695v1 )

ライセンス: Link先を確認
Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky(参考訳) スケールの優位性と有効性にもかかわらず、数十億のパラメータを持つ大規模なネットワークは、過度にパラメータ化されたモデルをトレーニングする必要性を十分に理解しておらず、代替アプローチは必ずしも高性能モデルのトレーニングを安くするとは限らない。 本稿では,大規模ニューラルネットワークのトレーニングのための代替手法として,低ランクトレーニング手法を検討する。 高速ネットワークのトレーニングに低ランク更新を利用するReLoRAという新しい手法を提案する。 最大350mのパラメータを持つプレトレーニングトランス言語モデルにreloraを適用し,通常のニューラルネットワークトレーニングと同等の性能を示す。 さらに,ReLoRAの効率はモデルサイズとともに向上し,マルチビリオンパラメータネットワークを効率的にトレーニングする上で有望なアプローチとなる。 その結果,低ランクトレーニング技術の可能性と,その拡張法への影響が明らかになった。

Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.
翻訳日:2023-07-13 15:27:11 公開日:2023-07-11
# 非慣習的ディッケモデル:多重安定性と非平衡ダイナミクス

Unconventional Dicke model: Multistabilities and nonequilibrium dynamics ( http://arxiv.org/abs/2307.05686v1 )

ライセンス: Link先を確認
Farokh Mivehvar(参考訳) ディックモデルは、キャビティの単一の量子化された放射場と同一に相互作用する2レベル原子(スピン-1/2)のサブ波長サイズアンサンブルの集合的挙動を記述する。 臨界結合強度の他に、磁場が集まる常温状態から超ラディアン相へのゼロ温度相転移を示し、集合スピンは非ゼロの$x$成分を取得し、これはx$に沿って原子スピンの強磁性秩序として想像できる。 ここでは、スピンの2つのサブ波長サイズのアンサンブルが、反対の強度を持つ単一の量子化された放射場と相互作用する、このモデルの変種を紹介する。 一般的な$x$-強磁性超放射能に加えて、大きなパラメータ状態において、$x$-強磁性秩序を持つエキゾチックな超放射能状態が、$x$-強磁性秩序を持つ。 熱力学限界における系の安定性と力学を半古典的手法を用いて検討し、乗算性による非定常挙動を予測する。 最終的には、半古典的な計算と一致して、小型の完全量子力学計算も行います。

The Dicke model describes the collective behavior of a sub-wavelength--size ensemble of two-level atoms (i.e., spin-1/2) interacting identically with a single quantized radiation field of a cavity. Across a critical coupling strength it exhibits a zero-temperature phase transition from the normal state to the superradian phase where the field is populated and and the collective spin acquires a nonzero $x$-component, which can be imagined as ferromagnetic ordering of the atomic spins along $x$. Here we introduce a variant of this model where two sub-wavelength--size ensembles of spins interact with a single quantized radiation field with opposite strengths. In addition to the common $x$-ferromagnetic superradiance, we analytically find an exotic superradiant state with $x$-ferrimagnetic ordering, coexisting with $x$-ferromagnetically ordered superradiant state in large parameter regimes. The stability and dynamics of the system in the thermodynamic limit are then examined using a semiclassical approach, which predicts non-stationary behaviors due to the multistabilities. At the end, we also perform small-scale full quantum-mechanical calculations, with results consistent with the semiclassical ones.
翻訳日:2023-07-13 15:26:43 公開日:2023-07-11
# ロバストで効果的な継続的言語学習を目指して

Towards Robust and Efficient Continual Language Learning ( http://arxiv.org/abs/2307.05741v1 )

ライセンス: Link先を確認
Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, J\"org Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato(参考訳) 言語モデルのアプリケーション領域が進化を続ける中で、疑問視すべき自然な疑問は、モデルを新しいタスクに迅速に適応する方法である。 我々は,この古典的な質問を連続的な学習の観点からアプローチし,関連する知識を"伝達する"ことを目的として,過去のタスクで訓練された微調整モデルを継続することを目指す。 しかし、この戦略は、善、すなわち負の移動よりも多くの害を与えるリスクも負う。 本稿では,正の伝達確率の高いタスク列,負の転送確率の高いタスク列,期待しない効果,あるいはそれぞれの混合といった,直面する可能性のある転送シナリオを対象とするタスクシーケンスの新たなベンチマークを構築する。 理想的な学習者は、ポジティブな伝達の可能性のある全てのタスクから情報を最大限に活用できると同時に、それを混乱させる可能性のある邪魔なタスクのネガティブな影響を回避できるべきである。 次に、過去のタスクチェックポイントから新しいモデルを初期化するための選択戦略を活用するだけで、多くのデシデラータを満たすシンプルで効果的な学習者を提案する。 それでも制限は残っており、このベンチマークによってコミュニティがこのような学習者をさらに構築し、分析できることを期待しています。

As the application space of language models continues to evolve, a natural question to ask is how we can quickly adapt models to new tasks. We approach this classic question from a continual learning perspective, in which we aim to continue fine-tuning models trained on past tasks on new tasks, with the goal of "transferring" relevant knowledge. However, this strategy also runs the risk of doing more harm than good, i.e., negative transfer. In this paper, we construct a new benchmark of task sequences that target different possible transfer scenarios one might face, such as a sequence of tasks with high potential of positive transfer, high potential for negative transfer, no expected effect, or a mixture of each. An ideal learner should be able to maximally exploit information from all tasks that have any potential for positive transfer, while also avoiding the negative effects of any distracting tasks that may confuse it. We then propose a simple, yet effective, learner that satisfies many of our desiderata simply by leveraging a selective strategy for initializing new models from past task checkpoints. Still, limitations remain, and we hope this benchmark can help the community to further build and analyze such learners.
翻訳日:2023-07-13 15:17:55 公開日:2023-07-11
# GOKU-UI: 連続生成モデルのための注意と複数撮影によるユビキタス推論

GOKU-UI: Ubiquitous Inference through Attention and Multiple Shooting for Continuous-time Generative Models ( http://arxiv.org/abs/2307.05735v1 )

ライセンス: Link先を確認
Germ\'an Abrevaya, Mahta Ramezanian-Panahi, Jean-Christophe Gagnon-Audet, Irina Rish, Pablo Polosecki, Silvina Ponce Dawson, Guillermo Cecchi, Guillaume Dumas(参考訳) scientific machine learning(sciml)は、ドメイン認識と解釈可能なモデルと不可知な機械学習技術を組み合わせた、急成長する分野である。 本稿では,SciML生成モデルの進化であるGOKU-UIを紹介する。 GOKU-UIは、SDE(Stochastic Differential Equations)のような他の微分方程式のクラスを組み込むために原モデルのスペクトルを拡張し、分散的、すなわち、注意機構による推論と、潜在空間における新しい多重射撃訓練戦略を統合する。 これらの改善により、シミュレーションデータと経験データの評価により、再構成タスクと予測タスクの両方のパフォーマンスが大幅に向上した。 特に、悟空井は32倍のトレーニングセットでも合成データセットのベースラインモデルをすべて上回っており、その優れたデータ効率を強調している。 さらに、経験的脳データに適用すると、確率的スチュアート・ランダウ振動子を動的コアに組み込むと同時に、再構築作業における最先端のベースライン法を上回っただけでなく、さらに12秒前までの将来の脳活動の予測も向上した。 休息状態のfmriデータで極井を訓練することにより,脳全体のダイナミクスを潜在表現に符号化し,脳の機能や精神状態や精神疾患の分類といった実用的応用への道筋を示唆する効果的な低次元力学系モデルを学習した。 最終的に、我々の研究は科学機械学習の分野をさらに推進し、確立された科学的洞察が現代の機械学習に織り込まれているときの進歩の可能性を示している。

Scientific Machine Learning (SciML) is a burgeoning field that synergistically combines domain-aware and interpretable models with agnostic machine learning techniques. In this work, we introduce GOKU-UI, an evolution of the SciML generative model GOKU-nets. The GOKU-UI broadens the original model's spectrum to incorporate other classes of differential equations, such as Stochastic Differential Equations (SDEs), and integrates a distributed, i.e. ubiquitous, inference through attention mechanisms and a novel multiple shooting training strategy in the latent space. These enhancements have led to a significant increase in its performance in both reconstruction and forecast tasks, as demonstrated by our evaluation of simulated and empirical data. Specifically, GOKU-UI outperformed all baseline models on synthetic datasets even with a training set 32-fold smaller, underscoring its remarkable data efficiency. Furthermore, when applied to empirical human brain data, while incorporating stochastic Stuart-Landau oscillators into its dynamical core, it not only surpassed state-of-the-art baseline methods in the reconstruction task, but also demonstrated better prediction of future brain activity up to 12 seconds ahead. By training GOKU-UI on resting-state fMRI data, we encoded whole-brain dynamics into a latent representation, learning an effective low-dimensional dynamical system model that could offer insights into brain functionality and open avenues for practical applications such as mental state or psychiatric condition classification. Ultimately, our research provides further impetus for the field of Scientific Machine Learning, showcasing the potential for advancements when established scientific insights are interwoven with modern machine learning.
翻訳日:2023-07-13 15:17:34 公開日:2023-07-11
# 細胞中心治療の量子化に向けて

Towards quantum-enabled cell-centric therapeutics ( http://arxiv.org/abs/2307.05734v1 )

ライセンス: Link先を確認
Saugata Basu, Jannis Born, Aritra Bose, Sara Capponi, Dimitra Chalkia, Timothy A Chan, Hakan Doga, Mark Goldsmith, Tanvi Gujarati, Aldo Guzman-Saenz, Dimitrios Iliopoulos, Gavin O. Jones, Stefan Knecht, Dhiraj Madan, Sabrina Maniscalco, Nicola Mariella, Joseph A. Morrone, Khadijeh Najafi, Pushpak Pati, Daniel Platt, Maria Anna Rapsomaniki, Anupama Ray, Kahn Rhrissorrakrai, Omar Shehab, Ivano Tavernelli, Meltem Tolunay, Filippo Utro, Stefan Woerner, Sergiy Zhuk, Jeannette M. Garcia, and Laxmi Parida(参考訳) 近年、量子コンピュータのハードウェア、アルゴリズム、サービスの開発は著しく進展しており、近い将来、量子コンピュータは自然科学の応用、運用研究、機械学習のシミュレーションを、主に古典的コンピュータにはアクセスできない規模で実行できるようになると期待されている。 量子コンピューティングの影響は既に、暗号解析、自然科学シミュレーション、最適化などの分野で認識され始めているが、医療と生命科学(HCLS)の領域における量子コンピューティングシミュレーションや機械学習の可能性についてはほとんど知られていない。 本稿では、HCLS研究、特に細胞中心療法の分野における量子計算の利用から期待される変化について論じる。 さらに, 細胞工学, 組織モデリング, 摂動モデリング, バイオトポロジーにおけるオープンな問題を特定し, 研究のための量子アルゴリズムの候補と, 古典的な計算手法に対する潜在的な優位性を議論する。

In recent years, there has been tremendous progress in the development of quantum computing hardware, algorithms and services leading to the expectation that in the near future quantum computers will be capable of performing simulations for natural science applications, operations research, and machine learning at scales mostly inaccessible to classical computers. Whereas the impact of quantum computing has already started to be recognized in fields such as cryptanalysis, natural science simulations, and optimization among others, very little is known about the potential of quantum computing simulations and machine learning in the realm of healthcare and life science (HCLS). Herein, we discuss the transformational changes we expect from the use of quantum computation for HCLS research, more specifically in the field of cell-centric therapeutics. Moreover, we identify and elaborate open problems in cell engineering, tissue modeling, perturbation modeling, and bio-topology while discussing candidate quantum algorithms for research on these topics and their potential advantages over classical computational approaches.
翻訳日:2023-07-13 15:17:03 公開日:2023-07-11
# 構成分類におけるマルチグループフェアネス改善のためのスケーラブルなソリューションを目指して

Towards A Scalable Solution for Improving Multi-Group Fairness in Compositional Classification ( http://arxiv.org/abs/2307.05728v1 )

ライセンス: Link先を確認
James Atwood, Tina Tian, Ben Packer, Meghana Deodhar, Jilin Chen, Alex Beutel, Flavien Prost, Ahmad Beirami(参考訳) 機械学習の公正性に関する豊富な文献にもかかわらず、複数の分類器の組み合わせと複数のグループが存在するという予測が最終的な予測である複雑なシステムの更新には、比較的注意が払われていない。 本稿では,まず,再媒介群数と再媒介予測ラベル数の積とを線形に比較して等機会公平性尺度を改善するための自然なベースライン手法を示し,実用的でないことを示す。 次に、このマルチグループマルチラベル構成において、一定のスケーリングを実現するために、タスクオーバーコンディショニングとグループインターリービングという2つの簡単な手法を導入する。 学術的・実世界の環境における実験結果から,提案手法の有効性を実証した。

Despite the rich literature on machine learning fairness, relatively little attention has been paid to remediating complex systems, where the final prediction is the combination of multiple classifiers and where multiple groups are present. In this paper, we first show that natural baseline approaches for improving equal opportunity fairness scale linearly with the product of the number of remediated groups and the number of remediated prediction labels, rendering them impractical. We then introduce two simple techniques, called {\em task-overconditioning} and {\em group-interleaving}, to achieve a constant scaling in this multi-group multi-label setup. Our experimental results in academic and real-world environments demonstrate the effectiveness of our proposal at mitigation within this environment.
翻訳日:2023-07-13 15:16:46 公開日:2023-07-11
# 生命科学のためのオープンソースの知識グラフエコシステム

An Open-Source Knowledge Graph Ecosystem for the Life Sciences ( http://arxiv.org/abs/2307.05727v1 )

ライセンス: Link先を確認
Tiffany J. Callahan, Ignacio J. Tripodi, Adrianne L. Stefanski, Luca Cappelletti, Sanya B. Taneja, Jordan M. Wyrwa, Elena Casiraghi, Nicolas A. Matentzoglu, Justin Reese, Jonathan C. Silverstein, Charles Tapley Hoyt, Richard D. Boyce, Scott A. Malec, Deepak R. Unni, Marcin P. Joachimiak, Peter N. Robinson, Christopher J. Mungall, Emanuele Cavalleri, Tommaso Fontana, Giorgio Valentini, Marco Mesiti, Lucas A. Gillenwater, Brook Santangelo, Nicole A. Vasilevsky, Robert Hoehndorf, Tellen D. Bennett, Patrick B. Ryan, George Hripcsak, Michael G. Kahn, Michael Bada, William A. Baumgartner Jr, Lawrence E. Hunter(参考訳) 翻訳研究は、生物組織の複数のスケールのデータを必要とする。 シークエンシングとマルチオミクス技術の進歩はこれらのデータの可用性を高めているが、研究者は重要な統合課題に直面している。 知識グラフ(KG)は複雑な現象をモデル化するために使われ、それらを自動的に構築する手法が存在する。 しかし、複雑なバイオメディカルな統合問題に取り組むには、知識のモデル化方法の柔軟性が必要である。 さらに、既存のkg構築手法は、知識表現モデルの中で固定あるいは制限された選択のコストで堅牢なツールを提供する。 PheKnowLator (Phenotype Knowledge Translator) は、完全にカスタマイズ可能な知識表現を持つ存在論的基盤を持つKGのFAIR (Findable, Accessible, Interoperable and Reusable) 構築を自動化するセマンティックエコシステムである。 エコシステムには、KG構築リソース(データ準備APIなど)、分析ツール(SPARQLエンドポイントや抽象化アルゴリズムなど)、ベンチマーク(KGや組み込みなど)が含まれている。 本研究では,オープンソースのkg構成法を調査し,その計算性能を解析し,そのエコシステムを評価する。 柔軟な知識表現により、pheknowlatorは性能やユーザビリティを損なうことなく、完全にカスタマイズ可能なkgsを実現する。

Translational research requires data at multiple scales of biological organization. Advancements in sequencing and multi-omics technologies have increased the availability of these data but researchers face significant integration challenges. Knowledge graphs (KGs) are used to model complex phenomena, and methods exist to automatically construct them. However, tackling complex biomedical integration problems requires flexibility in the way knowledge is modeled. Moreover, existing KG construction methods provide robust tooling at the cost of fixed or limited choices among knowledge representation models. PheKnowLator (Phenotype Knowledge Translator) is a semantic ecosystem for automating the FAIR (Findable, Accessible, Interoperable, and Reusable) construction of ontologically grounded KGs with fully customizable knowledge representation. The ecosystem includes KG construction resources (e.g., data preparation APIs), analysis tools (e.g., SPARQL endpoints and abstraction algorithms), and benchmarks (e.g., prebuilt KGs and embeddings). We evaluate the ecosystem by surveying open-source KG construction methods and analyzing its computational performance when constructing 12 large-scale KGs. With flexible knowledge representation, PheKnowLator enables fully customizable KGs without compromising performance or usability.
翻訳日:2023-07-13 15:16:33 公開日:2023-07-11
# 大規模言語モデル

Large Language Models ( http://arxiv.org/abs/2307.05782v1 )

ライセンス: Link先を確認
Michael R. Douglas(参考訳) 人工知能は目覚ましい進歩を遂げており、その好例の1つはOpenAIのGPTシリーズのような大規模言語モデル(LLM)の開発である。 数学や物理学のバックグラウンドを持つ読者向けに書かれたこれらの講義では、芸術の状況に関する簡単な歴史と調査を行い、基礎となるトランスフォーマーアーキテクチャを詳細に記述する。 次に、LLMの動作方法と、テキスト中の次の単語を予測するためにトレーニングされたモデルが、インテリジェンスを表示する他のタスクを実行できる、という現在のアイデアについて調べる。

Artificial intelligence is making spectacular progress, and one of the best examples is the development of large language models (LLMs) such as OpenAI's GPT series. In these lectures, written for readers with a background in mathematics or physics, we give a brief history and survey of the state of the art, and describe the underlying transformer architecture in detail. We then explore some current ideas on how LLMs work and how models trained to predict the next word in a text are able to perform other tasks displaying intelligence.
翻訳日:2023-07-13 15:10:06 公開日:2023-07-11
# シックル細胞病患者の超広視野撮影における自動アーティファクト検出

Automated Artifact Detection in Ultra-widefield Fundus Photography of Patients with Sickle Cell Disease ( http://arxiv.org/abs/2307.05780v1 )

ライセンス: Link先を確認
Anqi Feng, Dimitri Johnson, Grace R. Reilly, Loka Thangamathesvaran, Ann Nampomba, Mathias Unberath, Adrienne W. Scott, Craig Jones(参考訳) 重要:ultra-widefield fundus photography (uwf-fp)は、シックル細胞網膜症スクリーニングに有用であるが、画像アーティファクトは画像の品質とグレードビリティを低下させる可能性がある。 目的:UWF-FPアーティファクト分類のための自動アルゴリズムを作成する。 設計: ニューラルネットワークに基づく自動アーティファクト検出アルゴリズムは、患者uwf-fpの断面に遭遇する一般的なuwf-fpアーティファクトを識別するために設計された。 プレトレーニングされたresnet-50ニューラルネットワークを画像のサブセットでトレーニングし,ホールドアウトテストセットで分類精度,感度,特異性を定量化した。 設定: この研究は、第三次医療病院の現場の患者に基づいている。 参加者: 病原性細胞疾患(SCD)患者243名からUWF-FPを取得し, アイラッシュ現像, 下部アイライド閉塞, 上アイライド閉塞, イメージトゥーダーク, ダークアーティファクト, 画像非中心のアーティファクトラベリングを行った。 結果: 各分類の精度は, 83.7%, 下部のアイライダーが83.7%, 上部のアイライダーが98.0%, 画像が77.6%, ダークアーティファクト93.9%, 画像が91.8%であった。 結論と関連性: この自動アルゴリズムは、SCD患者のOptos UWF-FPのサブセット上で、一般的な画像アーティファクトを特定することを約束している。 画像再取得の必要性から, 医用写真のリアルタイムフィードバックを提供することにより, 病原細胞網膜症(SCR)における遠隔網膜スクリーニングの効率向上を目標に, さらなる改良が進められている。 このアルゴリズムは、UWF-FPの画像取得の品質と効率を向上させることにより、他の網膜疾患にも将来応用できる可能性がある。

Importance: Ultra-widefield fundus photography (UWF-FP) has shown utility in sickle cell retinopathy screening; however, image artifact may diminish quality and gradeability of images. Objective: To create an automated algorithm for UWF-FP artifact classification. Design: A neural network based automated artifact detection algorithm was designed to identify commonly encountered UWF-FP artifacts in a cross section of patient UWF-FP. A pre-trained ResNet-50 neural network was trained on a subset of the images and the classification accuracy, sensitivity, and specificity were quantified on the hold out test set. Setting: The study is based on patients from a tertiary care hospital site. Participants: There were 243 UWF-FP acquired from patients with sickle cell disease (SCD), and artifact labelling in the following categories was performed: Eyelash Present, Lower Eyelid Obstructing, Upper Eyelid Obstructing, Image Too Dark, Dark Artifact, and Image Not Centered. Results: Overall, the accuracy for each class was Eyelash Present at 83.7%, Lower Eyelid Obstructing at 83.7%, Upper Eyelid Obstructing at 98.0%, Image Too Dark at 77.6%, Dark Artifact at 93.9%, and Image Not Centered at 91.8%. Conclusions and Relevance: This automated algorithm shows promise in identifying common imaging artifacts on a subset of Optos UWF-FP in SCD patients. Further refinement is ongoing with the goal of improving efficiency of tele-retinal screening in sickle cell retinopathy (SCR) by providing a photographer real-time feedback as to the types of artifacts present, and the need for image re-acquisition. This algorithm also may have potential future applicability in other retinal diseases by improving quality and efficiency of image acquisition of UWF-FP.
翻訳日:2023-07-13 15:09:58 公開日:2023-07-11
# ChatGPTを用いたニューラル機械翻訳データ生成と拡張

Neural Machine Translation Data Generation and Augmentation using ChatGPT ( http://arxiv.org/abs/2307.05779v1 )

ライセンス: Link先を確認
Wayne Yang, Garrett Nicolai(参考訳) ニューラルモデルは機械翻訳の分野に革命をもたらしたが、並列コーパスの作成は高価で時間がかかる。 手動並列コーパスの代替として,生成言語モデルを用いて生成した幻覚並列コーパスについて検討する。 これらのモデルは、それ自体は並列データに基づいてトレーニングされているが、多言語ベクトル空間を利用してデータを作成し、小さなコーパスを補うことができる。 出力の多様性の欠如にもかかわらず、幻覚データによって元のデータセットとドメインが衝突しても翻訳信号が改善される。

Neural models have revolutionized the field of machine translation, but creating parallel corpora is expensive and time-consuming. We investigate an alternative to manual parallel corpora - hallucinated parallel corpora created by generative language models. Although these models are themselves trained on parallel data, they can leverage a multilingual vector space to create data, and may be able to supplement small manually-procured corpora. Our experiments highlight two key findings - despite a lack of diversity in their output, the hallucinated data improves the translation signal, even when the domain clashes with the original dataset.
翻訳日:2023-07-13 15:09:18 公開日:2023-07-11
# 開量子系ダイナミクスの確率的ユニタリ定式化

Probabilistic Unitary Formulation of Open Quantum System Dynamics ( http://arxiv.org/abs/2307.05776v1 )

ライセンス: Link先を確認
Le Hu and Andrew N. Jordan(参考訳) 連続的に進化する任意の開量子系に対して、有限(d$-次元)あるいは可算無限次元であるならば、その力学は、d^2-1$の時間依存ユニタリ作用素の代わりに、最大$d-1$(d \to \infty$)の時間依存ハミルトンおよび確率的組合せによって記述でき、シミュレーション資源の2次改善をもたらす。 重要なことは、どちらの操作も一般に初期状態に依存しなければならないため、シミュレーションはその初期状態に合わせて調整される。 そのような記述はすべての場合において正確であり、密度行列の連続性と微分可能性以外の仮定に依存しない。 一般化すると、形式主義は一般的な量子チャネルを記述するのにも使えることが判明し、これは完全正あるいは正でないかもしれないし、クラウスのような表現をもたらす。 実験的に、形式論は設計された量子軌道に沿って進化するための量子状態を制御するスキームを提供し、実装のためにユニタリリソースのみを必要とするため、量子コンピューティングや量子シミュレーションシーンで特に有用である。 哲学的には、これは開量子系の力学とデコヒーレンスや量子測定といった関連する問題を理解するための新しい視点を提供する。すなわち、量子状態の非一意進化は、状態依存的決定論的進化とユニタリ作用素の確率論的応用の組合せ効果とみなすことができる。

We show explicitly that for any continuously evolving open quantum system, be it finite ($d$-dimensional) or countably infinite dimensional, its dynamics can be described by a time-dependent Hamiltonian and probabilistic combinations of up to $d-1$ ($d \to \infty$ for infinite dimensional case), instead of $d^2-1$, time-dependent unitary operators, resulting in a quadratic improvement in simulation resources. Importantly, both types of operations must be initial state-dependent in general, and thus the simulation is tailored to that initial state. Such description is exact under all cases, and does not rely on any assumptions other than the continuity and differentiability of the density matrix. It turns out that upon generalizations, the formalism can also be used to describe general quantum channels, which may not be complete positive or even positive, and results in a Kraus-like representation. Experimentally, the formalism provides a scheme to control a quantum state to evolve along designed quantum trajectories, and can be particularly useful in quantum computing and quantum simulation scenes since only unitary resources are needed for implementation. Philosophically, it provides us with a new perspective to understand the dynamics of open quantum systems and related problems such as decoherence and quantum measurement, i.e. the non-unitary evolution of quantum states can thereby be regarded as the combined effect of state-dependent deterministic evolutions and probabilistic applications of unitary operators
翻訳日:2023-07-13 15:09:06 公開日:2023-07-11
# Weisfeiler と Lehman Go の測定モデル: WL テストの有効性の検証

Weisfeiler and Lehman Go Measurement Modeling: Probing the Validity of the WL Test ( http://arxiv.org/abs/2307.05775v1 )

ライセンス: Link先を確認
Arjun Subramonian, Adina Williams, Maximilian Nickel, Yizhou Sun, Levent Sagun(参考訳) グラフニューラルネットワークの表現力は、通常、アーキテクチャが何対のグラフやノードを、k$-dimensional weisfeiler-lehman (k$-wl) テストによって区別できるものと非同型と区別できるかを比較することによって測定される。 本稿では,実践者の表現力概念と$k$-WLとの相違点を明らかにするために,$k$-WLの信頼性と妥当性の体系的解析を行った。 さらに、表現力の概念化と約$k$-WLの仮定を明らかにするために、実践者の調査(n = 18$)を行う。 実践者の意見とは対照的に、我々の分析(グラフ理論とベンチマーク監査から導かれる)では、$k$-WLは等尺性を保証せず、現実世界のグラフタスクとは無関係であり、一般化や信頼性を促進できない。 我々は、グラフ機械学習の進歩に不可欠である、ベンチマークに基づいた拡張定義と表現力の測定について議論する。

The expressive power of graph neural networks is usually measured by comparing how many pairs of graphs or nodes an architecture can possibly distinguish as non-isomorphic to those distinguishable by the $k$-dimensional Weisfeiler-Lehman ($k$-WL) test. In this paper, we uncover misalignments between practitioners' conceptualizations of expressive power and $k$-WL through a systematic analysis of the reliability and validity of $k$-WL. We further conduct a survey ($n = 18$) of practitioners to surface their conceptualizations of expressive power and their assumptions about $k$-WL. In contrast to practitioners' opinions, our analysis (which draws from graph theory and benchmark auditing) reveals that $k$-WL does not guarantee isometry, can be irrelevant to real-world graph tasks, and may not promote generalization or trustworthiness. We argue for extensional definitions and measurement of expressive power based on benchmarks; we further contribute guiding questions for constructing such benchmarks, which is critical for progress in graph machine learning.
翻訳日:2023-07-13 15:08:36 公開日:2023-07-11
# てんかん深層学習のためのランダムセット畳み込みニューラルネットワーク(RS-CNN)

Random-Set Convolutional Neural Network (RS-CNN) for Epistemic Deep Learning ( http://arxiv.org/abs/2307.05772v1 )

ライセンス: Link先を確認
Shireen Kudukkil Manchingal, Muhammad Mubashar, Kaizheng Wang, Keivan Shariatmadar, Fabio Cuzzolin(参考訳) 機械学習は、敵の攻撃に対する堅牢性が不可欠であり、誤った予測が破滅的な結果をもたらす可能性がある安全クリティカルな領域にますます展開されている。 これは、その予測に対するモデルの信頼度とそれに関連する認識論的不確実性を決定する手段を備えた学習システムの必要性を強調している。 本稿では,ランダム集合の数学,すなわちサンプル空間のパワー集合上の分布を用いて,クラス集合上の確率ベクトルよりも信念関数を推定する新しいランダムセット畳み込みニューラルネットワーク(RS-CNN)を提案する。 認識的深層学習アプローチに基づいて、ランダムセットモデルは、限られたトレーニングセットによって機械学習で誘導される「緊急」不確実性を表現することができる。 予測された信念関数に付随するクレダル集合のサイズを近似することにより,疫学的な不確実性を推定し,古典的な評価設定において,我々のアプローチが競合する不確実性認識アプローチよりも優れていることを示す。 RS-CNNの性能は、標準のCNNが失敗しながら真の予測を捉えたOODサンプルで最もよく示されている。

Machine learning is increasingly deployed in safety-critical domains where robustness against adversarial attacks is crucial and erroneous predictions could lead to potentially catastrophic consequences. This highlights the need for learning systems to be equipped with the means to determine a model's confidence in its prediction and the epistemic uncertainty associated with it, 'to know when a model does not know'. In this paper, we propose a novel Random-Set Convolutional Neural Network (RS-CNN) for classification which predicts belief functions rather than probability vectors over the set of classes, using the mathematics of random sets, i.e., distributions over the power set of the sample space. Based on the epistemic deep learning approach, random-set models are capable of representing the 'epistemic' uncertainty induced in machine learning by limited training sets. We estimate epistemic uncertainty by approximating the size of credal sets associated with the predicted belief functions, and experimentally demonstrate how our approach outperforms competing uncertainty-aware approaches in a classical evaluation setting. The performance of RS-CNN is best demonstrated on OOD samples where it manages to capture the true prediction while standard CNNs fail.
翻訳日:2023-07-13 15:08:15 公開日:2023-07-11
# Rad-ReStruct: 構造化ラジオロジーレポートのための新しいVQAベンチマークと方法

Rad-ReStruct: A Novel VQA Benchmark and Method for Structured Radiology Reporting ( http://arxiv.org/abs/2307.05766v1 )

ライセンス: Link先を確認
Chantal Pellegrini, Matthias Keicher, Ege \"Ozsoy, Nassir Navab(参考訳) 放射線医学の報告は、放射線医と他の医療専門家の間でのコミュニケーションにおいて重要な部分であるが、時間とエラーの危険性がある。 これを軽減する1つのアプローチは構造化レポートであり、これは時間を節約し、自由テキストレポートよりも正確な評価を可能にする。 しかし、構造化レポートの自動化に関する研究は限られており、異なる方法を評価し比較するための公開ベンチマークは提供されていない。 このギャップを埋めるために、X線画像の構造化レポートの形式で微細で階層的に順序付けられたアノテーションを提供する新しいベンチマークデータセットRad-ReStructを導入する。 本稿では,階層的視覚的質問応答 (VQA) として構造化された報告課題をモデル化し,従来質問されていた質問や回答の形式で事前の文脈を考察する手法であるhi-VQAを提案する。 実験の結果,Hu-VQAは,医用VQAベンチマークVQARADにおいて,ドメイン固有の視覚言語事前学習を伴わない手法の中で最高の性能を示し,Rad-Reructの強力なベースラインを提供する。 我々の研究は、構造化放射線学レポートの自動化に向けた重要な一歩であり、この分野における将来の研究のための貴重な第1のベンチマークを提供する。 アノテーションの生成、モデル評価、トレーニングのためのすべてのアノテーションとコードを、受け入れ次第公開します。 データセットとコードはhttps://github.com/ChantalMP/Rad-ReStruct.comから入手可能です。

Radiology reporting is a crucial part of the communication between radiologists and other medical professionals, but it can be time-consuming and error-prone. One approach to alleviate this is structured reporting, which saves time and enables a more accurate evaluation than free-text reports. However, there is limited research on automating structured reporting, and no public benchmark is available for evaluating and comparing different methods. To close this gap, we introduce Rad-ReStruct, a new benchmark dataset that provides fine-grained, hierarchically ordered annotations in the form of structured reports for X-Ray images. We model the structured reporting task as hierarchical visual question answering (VQA) and propose hi-VQA, a novel method that considers prior context in the form of previously asked questions and answers for populating a structured radiology report. Our experiments show that hi-VQA achieves competitive performance to the state-of-the-art on the medical VQA benchmark VQARad while performing best among methods without domain-specific vision-language pretraining and provides a strong baseline on Rad-ReStruct. Our work represents a significant step towards the automated population of structured radiology reports and provides a valuable first benchmark for future research in this area. We will make all annotations and our code for annotation generation, model evaluation, and training publicly available upon acceptance. Our dataset and code is available at https://github.com/ChantalMP/Rad-ReStruct.
翻訳日:2023-07-13 15:07:54 公開日:2023-07-11
# 強化学習によるリアルタイムスペクトルモニタリング -q学習とヒューリスティック手法の比較-

Realtime Spectrum Monitoring via Reinforcement Learning -- A Comparison Between Q-Learning and Heuristic Methods ( http://arxiv.org/abs/2307.05763v1 )

ライセンス: Link先を確認
Tobias Braun, Tobias Korzyzkowske, Larissa Putzar, Jan Mietzner, Peter A. Hoeher(参考訳) 電波技術の分野での技術進歩とその利用により、電波スペクトルにおける干渉信号の数は継続的に増加している。 干渉信号は、標準を維持し、緊急周波数を開放し続けるために、タイムリーに検出されなければならない。 この目的のために、特殊な(マルチチャネル)受信機がスペクトル監視に使用される。 本稿では、利用可能な受信リソースを制御するための2つの異なるアプローチの性能を比較する。 資源管理(ReMa)に用いる手法は、ヒューリスティックアプローチとしての線形周波数チューニングと強化学習分野からのQ-ラーニングアルゴリズムである。 検討する手法をテストするために,信号アクティビティが一様でない10個の非重なり周波数帯域を監視する2つの受信チャネルを用いた簡易シナリオを考案した。 このことから,使用したQ-ラーニングアルゴリズムは,より少ない探索率を犠牲にして,ヒューリスティック手法よりも検出率が高いことを示した。 特に、Q-ラーニングアプローチは、検出と探索率の間の適切なトレードオフを可能にするためにパラメータ化することができる。

Due to technological advances in the field of radio technology and its availability, the number of interference signals in the radio spectrum is continuously increasing. Interference signals must be detected in a timely fashion, in order to maintain standards and keep emergency frequencies open. To this end, specialized (multi-channel) receivers are used for spectrum monitoring. In this paper, the performances of two different approaches for controlling the available receiver resources are compared. The methods used for resource management (ReMa) are linear frequency tuning as a heuristic approach and a Q-learning algorithm from the field of reinforcement learning. To test the methods to be investigated, a simplified scenario was designed with two receiver channels monitoring ten non-overlapping frequency bands with non-uniform signal activity. For this setting, it is shown that the Q-learning algorithm used has a significantly higher detection rate than the heuristic approach at the expense of a smaller exploration rate. In particular, the Q-learning approach can be parameterized to allow for a suitable trade-off between detection and exploration rate.
翻訳日:2023-07-13 15:07:26 公開日:2023-07-11
# 生成逆ニューラルネットワークを用いたフェイクモンのラインアートカラー化

Line Art Colorization of Fakemon using Generative Adversarial Neural Networks ( http://arxiv.org/abs/2307.05760v1 )

ライセンス: Link先を確認
Erick Oliveira Rodrigues and Esteban Clua and Giovani Bernardes Vitor(参考訳) 本研究は、アニメのような怪獣の像を彩色する完全な手法を提案する。 また,カラー画像からラインアートを抽出し,カラーヒントを抽出するアルゴリズムを提案する。 我々の研究は、自動的な色のヒント抽出を使い、アニメスタイルの生物とネットワークを訓練し、Pix2PixとCycleGANのアプローチを組み合わせ、単一の最終結果を生み出す2つの異なる生成的敵ネットワークである。 カラー化の視覚的な結果は実現可能だが、改善の余地はまだある。

This work proposes a complete methodology to colorize images of Fakemon, anime-style monster-like creatures. In addition, we propose algorithms to extract the line art from colorized images as well as to extract color hints. Our work is the first in the literature to use automatic color hint extraction, to train the networks specifically with anime-styled creatures and to combine the Pix2Pix and CycleGAN approaches, two different generative adversarial networks that create a single final result. Visual results of the colorizations are feasible but there is still room for improvement.
翻訳日:2023-07-13 15:07:09 公開日:2023-07-11
# シリコンにおけるプログラマブル量子エミッタ形成

Programmable quantum emitter formation in silicon ( http://arxiv.org/abs/2307.05759v1 )

ライセンス: Link先を確認
K. Jhuria, V. Ivanov, D. Polley, W. Liu, A. Persaud, Y. Zhiyenbayev, W. Redjem, W. Qarony, P. Parajuli, Qing Ji, A. J. Gonsalves, J. Bokor, L. Z. Tan, B. Kante, and T. Schenkel(参考訳) シリコン系量子エミッタは、単一光子放出特性と長いスピンコヒーレンス時間を持つスピン光子界面のポテンシャルのため、大規模な量子ビット積分の候補である。 本稿では,fsレーザーパルスと水素系欠陥の活性化とパーシベーションを併用して,選択した発光欠陥の局所書き込みと消去を示す。 炭素を添加したシリコンの熱アニール中、ガス(N2/H2)を形成することにより、より一般的なG中心を通過させながらCi中心を形成する。 Ci中心は、シリコン格子内の1つの間質炭素原子からなる非常に有望なスピン特性を持つ通信Sバンドエミッタである。 密度汎関数理論の計算は、ci中心の明るさが水素の存在下で数桁増加することを示している。 fsレーザーパルスは、水素による量子エミッタの受動または活性化に局所的に影響を与え、量子エミッタ形成を量子ビット・バイ・デザインのパラダイムで可能としている。

Silicon-based quantum emitters are candidates for large-scale qubit integration due to their single-photon emission properties and potential for spin-photon interfaces with long spin coherence times. Here, we demonstrate local writing and erasing of selected light-emitting defects using fs laser pulses in combination with hydrogen-based defect activation and passivation. By selecting forming gas (N2/H2) during thermal annealing of carbon-implanted silicon, we form Ci centers while passivating the more common G-centers. The Ci center is a telecom S-band emitter with very promising spin properties that consists of a single interstitial carbon atom in the silicon lattice. Density functional theory calculations show that the Ci center brightness is enhanced by several orders of magnitude in the presence of hydrogen. Fs-laser pulses locally affect the passivation or activation of quantum emitters with hydrogen and enable programmable quantum emitter formation in a qubit-by-design paradigm.
翻訳日:2023-07-13 15:06:58 公開日:2023-07-11
# x線ct用微分可能な前方プロジェクタ

Differentiable Forward Projector for X-ray Computed Tomography ( http://arxiv.org/abs/2307.05801v1 )

ライセンス: Link先を確認
Hyojin Kim and Kyle Champley(参考訳) データ駆動型深層学習は、様々な計算トモグラフィー再構成問題にうまく適用されている。 深部推論モデルは、既存の解析的および反復的アルゴリズム、特に不良なCT再構成においてより優れている。 しかし、これらの方法は計測された投影データと一致しない画像を予測することが多い。 本稿では,予測画像と実測値との一貫性を確保するため,高精度な前方および後方投影ソフトウェアライブラリを提案する。 このソフトウェアライブラリは、GPUメモリフットプリント要件を最小化しながら、様々な投影幾何学タイプを効率的にサポートし、既存のディープラーニングトレーニングと推論パイプラインとのシームレスな統合を容易にする。 提案されたソフトウェアは、オープンソースとして利用可能である。

Data-driven deep learning has been successfully applied to various computed tomographic reconstruction problems. The deep inference models may outperform existing analytical and iterative algorithms, especially in ill-posed CT reconstruction. However, those methods often predict images that do not agree with the measured projection data. This paper presents an accurate differentiable forward and back projection software library to ensure the consistency between the predicted images and the original measurements. The software library efficiently supports various projection geometry types while minimizing the GPU memory footprint requirement, which facilitates seamless integration with existing deep learning training and inference pipelines. The proposed software is available as open source: https://github.com/LLNL/LEAP.
翻訳日:2023-07-13 14:59:23 公開日:2023-07-11
# 肝細胞癌の全スライド画像上の腫瘍の分画を改善する階層的トランスフォーマエンコーダ

A Hierarchical Transformer Encoder to Improve Entire Neoplasm Segmentation on Whole Slide Image of Hepatocellular Carcinoma ( http://arxiv.org/abs/2307.05800v1 )

ライセンス: Link先を確認
Zhuxian Guo, Qitong Wang, Henning M\"uller, Themis Palpanas, Nicolas Lom\'enie, Camille Kurtz(参考訳) デジタル病理学では、肝細胞癌(HCC)の全スライド画像(WSI)上の新生物のセグメンテーションは、特に正常な組織を自動的に除去する前処理フィルターとして重要な役割を担っている。 セグメンテーションタスクは、hcc固有の高いヘテロゲニティと大きな視野での依存性学習の欠如のため、依然として困難である。 本稿では,拡張4096$\times$4096wsiパッチ内のグローバル依存性を学ぶために階層型トランスフォーマエンコーダであるhitransを用いた新しいディープラーニングアーキテクチャを提案する。 HiTransは、最先端のFCNN(Fully Convolutional Neural Network)と比較して、より大きな受信フィールドと学習したグローバル依存関係でパッチをエンコードしてデコードするように設計されている。 実証評価の結果,HiTransは地域依存情報やグローバル依存情報を考慮し,セグメンテーション性能の向上につながることが示された。

In digital histopathology, entire neoplasm segmentation on Whole Slide Image (WSI) of Hepatocellular Carcinoma (HCC) plays an important role, especially as a preprocessing filter to automatically exclude healthy tissue, in histological molecular correlations mining and other downstream histopathological tasks. The segmentation task remains challenging due to HCC's inherent high-heterogeneity and the lack of dependency learning in large field of view. In this article, we propose a novel deep learning architecture with a hierarchical Transformer encoder, HiTrans, to learn the global dependencies within expanded 4096$\times$4096 WSI patches. HiTrans is designed to encode and decode the patches with larger reception fields and the learned global dependencies, compared to the state-of-the-art Fully Convolutional Neural networks (FCNN). Empirical evaluations verified that HiTrans leads to better segmentation performance by taking into account regional and global dependency information.
翻訳日:2023-07-13 14:59:11 公開日:2023-07-11
# マルチスケールmpu-netによる3次元医用画像分割

3D Medical Image Segmentation based on multi-scale MPU-Net ( http://arxiv.org/abs/2307.05799v1 )

ライセンス: Link先を確認
Zeqiu.Yu, Shuo.Han(参考訳) 癌治療率の上昇は医師の診断と治療の正確さと不可分に結びついているため,多くの医療分野において,高精度の腫瘍分画を実現できるモデルが求められている。 誤診率を効果的に下げると同時に、臨床医の負担を大幅に軽減することができる。 しかし, 3次元容積臓器の立体構造が不規則であるため, 全自動目標臓器分割が問題となる。 このクラスの実際のアプリケーションの基本モデルとして、U-Netは優れている。 グローバルな特徴や局所的な特徴を学習できるが、空間的長距離関係や文脈情報を複数のスケールで把握する能力は乏しい。 本稿では,大域的注意機構を持つ Transformer にインスパイアされたCT画像に対する腫瘍分割モデル MPU-Net を提案する。 画像のシリアライゼーションと位置注意モジュールを組み合わせることで、より深いコンテキスト依存を理解し、正確な位置決めを実現する。 デコーダの各レイヤには、マルチスケールモジュールとクロスアテンション機構も備えられている。 異なるレベルにおける特徴抽出と統合の能力が向上し,本研究で開発されたハイブリッド損失関数は,高分解能特性情報をより活用することができる。 さらに, 肝腫瘍分画チャレンジ2017(lits 2017)データセットを用いて, 提案アーキテクチャをテストし, 評価した。 ベンチマークモデルであるU-Netと比較して、MPU-Netは優れたセグメンテーション結果を示す。 最良のモデルのセグメンテーション結果に対するdice、精度、特異度、iou、mccの指標はそれぞれ92.17%、99.08%、91.91%、99.52%、85.91%、そして91.74%である。 さまざまな面で優れた指標は、このフレームワークが自動医療画像セグメンテーションにおける例外的な性能を示している。

The high cure rate of cancer is inextricably linked to physicians' accuracy in diagnosis and treatment, therefore a model that can accomplish high-precision tumor segmentation has become a necessity in many applications of the medical industry. It can effectively lower the rate of misdiagnosis while considerably lessening the burden on clinicians. However, fully automated target organ segmentation is problematic due to the irregular stereo structure of 3D volume organs. As a basic model for this class of real applications, U-Net excels. It can learn certain global and local features, but still lacks the capacity to grasp spatial long-range relationships and contextual information at multiple scales. This paper proposes a tumor segmentation model MPU-Net for patient volume CT images, which is inspired by Transformer with a global attention mechanism. By combining image serialization with the Position Attention Module, the model attempts to comprehend deeper contextual dependencies and accomplish precise positioning. Each layer of the decoder is also equipped with a multi-scale module and a cross-attention mechanism. The capability of feature extraction and integration at different levels has been enhanced, and the hybrid loss function developed in this study can better exploit high-resolution characteristic information. Moreover, the suggested architecture is tested and evaluated on the Liver Tumor Segmentation Challenge 2017 (LiTS 2017) dataset. Compared with the benchmark model U-Net, MPU-Net shows excellent segmentation results. The dice, accuracy, precision, specificity, IOU, and MCC metrics for the best model segmentation results are 92.17%, 99.08%, 91.91%, 99.52%, 85.91%, and 91.74%, respectively. Outstanding indicators in various aspects illustrate the exceptional performance of this framework in automatic medical image segmentation.
翻訳日:2023-07-13 14:58:50 公開日:2023-07-11
# データ拡張による自然, 臨床音声のPOSタグ付けの改善

Improved POS tagging for spontaneous, clinical speech using data augmentation ( http://arxiv.org/abs/2307.05796v1 )

ライセンス: Link先を確認
Seth Kulick, Neville Ryant, David J. Irwin, Naomi Nevler, Sunghye Cho(参考訳) 本稿では,臨床における音声のPOSタグ付け改善の課題について論じる。 書き起こされた音声の構文解析とPOSタグ付けに関する先行研究とは対照的に、私たちはトレーニングにドメインツリーバンクを使用しない。 代わりに、これらの構造を自然に自然に聞こえるようにするために、データ拡張技術を用いて、ニュースワイヤのドメインツリーバンクでトレーニングする。 種々の神経変性疾患を有する患者によって生成された臨床音声において,拡張データの有無に関わらずパーサーを訓練し,手作業で検証したposタグを用いてその性能を検証した。

This paper addresses the problem of improving POS tagging of transcripts of speech from clinical populations. In contrast to prior work on parsing and POS tagging of transcribed speech, we do not make use of an in domain treebank for training. Instead, we train on an out of domain treebank of newswire using data augmentation techniques to make these structures resemble natural, spontaneous speech. We trained a parser with and without the augmented data and tested its performance using manually validated POS tags in clinical speech produced by patients with various types of neurodegenerative conditions.
翻訳日:2023-07-13 14:58:22 公開日:2023-07-11
# 痛覚関連電位依存性ナトリウムチャネルによる拡張薬物標的相互作用ネットワークの機械学習による研究

Machine Learning Study of the Extended Drug-target Interaction Network informed by Pain Related Voltage-Gated Sodium Channels ( http://arxiv.org/abs/2307.05794v1 )

ライセンス: Link先を確認
Long Chen, Jian Jiang, Bozheng Dou, Hongsong Feng, Jie Liu, Yueying Zhu, Bengong Zhang, Tianshou Zhou, and Guo-Wei Wei(参考訳) 痛みは重要な世界的な健康問題であり、現在の痛み管理の治療法は、効果、副作用、中毒の可能性を制限している。 痛みの治療の改善や新薬の開発には、強いニーズがある。 電圧調節ナトリウムチャネル、特にnav1.3、nav1.7、nav1.8、nav1.9は神経細胞の興奮性において重要な役割を果たす。 これらのチャネルを標的にすることで、中心的および心的副作用を最小限に抑えながら痛みを治療できる。 本研究では、痛み関連ナトリウムチャネルに基づくタンパク質-タンパク質相互作用(PPI)ネットワークを構築し、痛み管理のための潜在的鉛化合物を特定するための対応する薬物-標的相互作用(DTI)ネットワークを開発する。 信頼性の高い機械学習予測を保証するため、PPIネットワーク内の1000以上のターゲットのプールから111個のインヒビターデータセットを慎重に選択する。 我々は3つの異なる機械学習アルゴリズムと高度な自然言語処理(NLP)ベースの埋め込み、特に事前学習されたトランスフォーマーとオートエンコーダ表現を組み合わせた。 組織的スクリーニングにより,Nav1.7およびNav1.8ナトリウムチャネルを標的とした15万以上の薬物候補の副作用と再資源化の可能性を評価する。 さらに,これらの候補のADMET特性 (吸収, 分布, 代謝, 排ガス, 毒性) を評価し, ほぼ最適特性の鉛を同定した。 我々の戦略は、痛み治療の薬理学的発展のための革新的なプラットフォームを提供し、改善効果と副作用の低減の可能性を提供する。

Pain is a significant global health issue, and the current treatment options for pain management have limitations in terms of effectiveness, side effects, and potential for addiction. There is a pressing need for improved pain treatments and the development of new drugs. Voltage-gated sodium channels, particularly Nav1.3, Nav1.7, Nav1.8, and Nav1.9, play a crucial role in neuronal excitability and are predominantly expressed in the peripheral nervous system. Targeting these channels may provide a means to treat pain while minimizing central and cardiac adverse effects. In this study, we construct protein-protein interaction (PPI) networks based on pain-related sodium channels and develop a corresponding drug-target interaction (DTI) network to identify potential lead compounds for pain management. To ensure reliable machine learning predictions, we carefully select 111 inhibitor datasets from a pool of over 1,000 targets in the PPI network. We employ three distinct machine learning algorithms combined with advanced natural language processing (NLP)-based embeddings, specifically pre-trained transformer and autoencoder representations. Through a systematic screening process, we evaluate the side effects and repurposing potential of over 150,000 drug candidates targeting Nav1.7 and Nav1.8 sodium channels. Additionally, we assess the ADMET (absorption, distribution, metabolism, excretion, and toxicity) properties of these candidates to identify leads with near-optimal characteristics. Our strategy provides an innovative platform for the pharmacological development of pain treatments, offering the potential for improved efficacy and reduced side effects.
翻訳日:2023-07-13 14:58:11 公開日:2023-07-11
# フラグメンテーションとリコールによる高効率地図構築

Neuro-Inspired Efficient Map Building via Fragmentation and Recall ( http://arxiv.org/abs/2307.05793v1 )

ライセンス: Link先を確認
Jaedong Hwang, Zhang-Wei Hong, Eric Chen, Akhilan Boopathy, Pulkit Agrawal, Ila Fiete(参考訳) 動物とロボットは、空間の地図を構築し、精製することで環境をナビゲートします。 これらのマップは、自宅へのナビゲート、計画、探索、採餌などの機能を可能にする。 大規模な環境では、エージェントが局所的に立ち往生することがあるため、宇宙の探索は難しい問題である。 本稿では,脳科学からの洞察を活かして,空間探索のためのサブゴール設定に使用する空間のサプリサルベースクラスタリングによる局所地図構築によるマッピング問題を解くエージェントを用いて,フラグメンテーション・アンド・リコール(farmap)の概念を提案し,応用する。 エージェントはローカルマップを構築して、観測結果を予測します。 これらのイベントでは、最近のローカルマップを長期メモリ(LTM)に配置し、異なるローカルマップを初期化する。 フラクチャーポイントでの観測が保存されたローカルマップの1つでの観測と一致した場合、そのマップはLTMからリコールされる(再利用される)。 断片化ポイントは、大きな空間の自然なオンラインクラスタリングを誘導し、トポロジカルグラフとしてLTMに格納される固有のポテンシャルサブゴールの集合を形成する。 エージェントは、それぞれの次のサブゴールを、現在のローカルマップまたはLTM内から、近縁および遠縁のサブゴールのセットから選択する。 したがって、ローカルマップは地域探検をガイドし、ltmはグローバルな探検を促進する。 複雑なプロシージャ生成空間環境におけるfarmapの評価を行い、このマッピング戦略がより迅速に環境(エージェントステップ数とウォールクロック時間)をカバーし、パフォーマンスを損なうことなく、アクティブメモリ使用においてより効率的であることを実証する。

Animals and robots navigate through environments by building and refining maps of the space. These maps enable functions including navigating back to home, planning, search, and foraging. In large environments, exploration of the space is a hard problem: agents can become stuck in local regions. Here, we use insights from neuroscience to propose and apply the concept of Fragmentation-and-Recall (FarMap), with agents solving the mapping problem by building local maps via a surprisal-based clustering of space, which they use to set subgoals for spatial exploration. Agents build and use a local map to predict their observations; high surprisal leads to a ``fragmentation event'' that truncates the local map. At these events, the recent local map is placed into long-term memory (LTM), and a different local map is initialized. If observations at a fracture point match observations in one of the stored local maps, that map is recalled (and thus reused) from LTM. The fragmentation points induce a natural online clustering of the larger space, forming a set of intrinsic potential subgoals that are stored in LTM as a topological graph. Agents choose their next subgoal from the set of near and far potential subgoals from within the current local map or LTM, respectively. Thus, local maps guide exploration locally, while LTM promotes global exploration. We evaluate FarMap on complex procedurally-generated spatial environments to demonstrate that this mapping strategy much more rapidly covers the environment (number of agent steps and wall clock time) and is more efficient in active memory usage, without loss of performance.
翻訳日:2023-07-13 14:57:43 公開日:2023-07-11
# 確率勾配降下におけるインプシット正則化 : 単目的ゲームから2プレーヤゲームへ

Implicit regularisation in stochastic gradient descent: from single-objective to two-player games ( http://arxiv.org/abs/2307.05789v1 )

ライセンス: Link先を確認
Mihaela Rosca, Marc Peter Deisenroth(参考訳) 近年、一般的な勾配型光子による暗黙的正規化効果の発見により、ディープラーニングの最適化に関する多くの知見がもたらされている。 暗黙の正規化を理解することは、最適化のダイナミクスに光を当てるだけでなく、教師付き学習から生成的敵ネットワークのような2プレイヤーゲームまで、問題領域全体のパフォーマンスと安定性を改善するためにも使用できる。 このような暗黙的な正則化効果を見出すための手段は、後方誤差解析(BEA)によって構築された連続時間流によって離散オプティマイザの離散化誤差を定量化することである。 BEA を使用した連続時間フローのベクトル場はすべて勾配として記述できる訳ではなく、暗黙の正則性を示す修正された損失の構成を妨げるため、現在の BEA の使用には制限がない。 本稿では,beaを利用するための新しいアプローチを提案し,勾配として記述可能なベクトル場を用いた連続時間フローの構築に,我々のアプローチがどのように役立つかを示す。 これを使って,複数の確率的勾配降下ステップによって引き起こされるような,未知の暗黙の正規化効果を,更新で使用される正確なデータバッチや,一般的に区別可能な2人プレイゲームで考慮しながら発見する。

Recent years have seen many insights on deep learning optimisation being brought forward by finding implicit regularisation effects of commonly used gradient-based optimisers. Understanding implicit regularisation can not only shed light on optimisation dynamics, but it can also be used to improve performance and stability across problem domains, from supervised learning to two-player games such as Generative Adversarial Networks. An avenue for finding such implicit regularisation effects has been quantifying the discretisation errors of discrete optimisers via continuous-time flows constructed by backward error analysis (BEA). The current usage of BEA is not without limitations, since not all the vector fields of continuous-time flows obtained using BEA can be written as a gradient, hindering the construction of modified losses revealing implicit regularisers. In this work, we provide a novel approach to use BEA, and show how our approach can be used to construct continuous-time flows with vector fields that can be written as gradients. We then use this to find previously unknown implicit regularisation effects, such as those induced by multiple stochastic gradient descent steps while accounting for the exact data batches used in the updates, and in generally differentiable two-player games.
翻訳日:2023-07-13 14:57:14 公開日:2023-07-11
# トラクトグラムフィルタリングのためのディープニューラルネットワークにおける複数入力記述子とスーパーバイザの融合

Merging multiple input descriptors and supervisors in a deep neural network for tractogram filtering ( http://arxiv.org/abs/2307.05786v1 )

ライセンス: Link先を確認
Daniel J\"orgens, Pierre-Marc Jodoin, Maxime Descoteaux, Rodrigo Moreno(参考訳) 現在のトラクトグラフィー法の主な課題の1つは、その高い偽陽性率である。 トラクトグラムフィルタリングは、トラクトグラフィーデータから偽陽性のストリーニングを後処理ステップで除去するオプションである。 本稿では, トラクトグラフィーデータのフィルタリングを行うディープニューラルネットワークをトレーニングし, トラクトグラムのすべてのストリームラインを, 可算性, 不確定性, あるいは不決定性に分類する。 このために、TractQuerier、RecobundlesX、TractSeg、解剖学的インスパイアされたフィルタの4つの異なるトラクトグラムフィルタリング戦略をスーパーバイザーとして使用しています。 それらの出力を組み合わせて、ストリームラインの分類ラベルを得る。 本研究は, 流線形の座標, 拡散データ, ランドマーク, T1重み付き情報, 脳のパーセラレーションなど, この分類作業を行うための流線型に沿った様々な情報の重要性を評価した。 その結果, 流線座標が最も関連性が高いこと, そして, この特定分類課題における拡散データについて検討した。

One of the main issues of the current tractography methods is their high false-positive rate. Tractogram filtering is an option to remove false-positive streamlines from tractography data in a post-processing step. In this paper, we train a deep neural network for filtering tractography data in which every streamline of a tractogram is classified as {\em plausible, implausible}, or {\em inconclusive}. For this, we use four different tractogram filtering strategies as supervisors: TractQuerier, RecobundlesX, TractSeg, and an anatomy-inspired filter. Their outputs are combined to obtain the classification labels for the streamlines. We assessed the importance of different types of information along the streamlines for performing this classification task, including the coordinates of the streamlines, diffusion data, landmarks, T1-weighted information, and a brain parcellation. We found that the streamline coordinates are the most relevant followed by the diffusion data in this particular classification task.
翻訳日:2023-07-13 14:56:52 公開日:2023-07-11
# 低ランク近似に対するnystr\"om法の高精度化

Making the Nystr\"om method highly accurate for low-rank approximations ( http://arxiv.org/abs/2307.05785v1 )

ライセンス: Link先を確認
Jianlin Xia(参考訳) Nystr\"om法は、ほぼ線形な複雑さでカーネル行列に対する低ランク近似を得るための便利なヒューリスティック法である。 現存する研究は、通常、正の半定値行列を低いあるいは控えめな精度で近似するためにこの方法を用いる。 本研究ではNystr\"om法を非対称行列および/または長方行列に対して高い精度に到達させるための一連のヒューリスティック戦略を提案する。 結果として得られる方法(高速Nystr\"om method)は、進行的交互方向精錬プロセスにおいて高速なピボット戦略として、Nystr\"om methodとskinny rank-revealing factorizationを扱います。 ランダムに選択された列の小さなセットから始まる行と列のピボットを交互に行い、所望のランクや精度に到達するまでサンプルの数を適応的に増加させる。 シュア補体のプログレッシブサンプリングに基づく高速部分集合更新戦略が提案され,改良プロセスの高速化が図られた。 効率的なランダム化精度制御も提供する。 関連する精度と特異値解析は、いくつかのヒューリスティックをサポートするために与えられる。 様々なカーネル関数とデータセットによる広範囲なテストは、いくつかのプログレッシブサンプリングステップのみを使用して、時にはSVDに近い品質で、メソッドが事前に規定された高い精度に迅速に到達できることを示す。

The Nystr\"om method is a convenient heuristic method to obtain low-rank approximations to kernel matrices in nearly linear complexity. Existing studies typically use the method to approximate positive semidefinite matrices with low or modest accuracies. In this work, we propose a series of heuristic strategies to make the Nystr\"om method reach high accuracies for nonsymmetric and/or rectangular matrices. The resulting methods (called high-accuracy Nystr\"om methods) treat the Nystr\"om method and a skinny rank-revealing factorization as a fast pivoting strategy in a progressive alternating direction refinement process. Two refinement mechanisms are used: alternating the row and column pivoting starting from a small set of randomly chosen columns, and adaptively increasing the number of samples until a desired rank or accuracy is reached. A fast subset update strategy based on the progressive sampling of Schur complements is further proposed to accelerate the refinement process. Efficient randomized accuracy control is also provided. Relevant accuracy and singular value analysis is given to support some of the heuristics. Extensive tests with various kernel functions and data sets show how the methods can quickly reach prespecified high accuracies in practice, sometimes with quality close to SVDs, using only small numbers of progressive sampling steps.
翻訳日:2023-07-13 14:56:32 公開日:2023-07-11
# EgoAdapt: 現実の自己中心型ユーザビデオへの適応に関するマルチストリーム評価研究

EgoAdapt: A multi-stream evaluation study of adaptation to real-world egocentric user video ( http://arxiv.org/abs/2307.05784v1 )

ライセンス: Link先を確認
Matthias De Lange, Hamid Eghbalzadeh, Reuben Tan, Michael Iuzzolino, Franziska Meier, Karl Ridgeway(参考訳) エゴセントリックな行動認識では、単一の集団モデルは通常訓練され、拡張現実ヘッドセットのようなヘッドマウントデバイスに具体化される。 このモデルは、新しいユーザや環境にはまだ静的だが、2段階の適応パラダイムを導入し、人口モデルを事前訓練した後、デバイス上で適応し、ユーザエクスペリエンスにオンライン化する。 この設定は、人口からユーザドメインへの変化と、ユーザのデータストリームにおける分散シフトのため、非常に難しい。 ストリーム内分散シフトの後者とのコピングは、継続的な学習の焦点であり、制御されたベンチマークに進歩が根ざしているが、現実世界のアプリケーションで直面する課題は、しばしば未適応のままである。 EgoAdaptは実世界のエゴセントリックな行動認識のベンチマークであり、我々の二相適応パラダイムを促進し、Ego4dのエゴセントリックな行動分布や2740以上のアクションの大規模分類など、実世界の課題が自然に発生する。 本稿では,ユーザのデータストリームを直接活用して,人口モデル,オンライン一般化,後見的パフォーマンスの順応性を評価するための評価フレームワークを提案する。 既存の作業におけるシングルストリーム評価とは対照的に,50個の独立したユーザストリームから結果を集約するメタ評価を提案する。 ファインタニングと経験リプレイのための広範な実証的研究を行った。

In egocentric action recognition a single population model is typically trained and subsequently embodied on a head-mounted device, such as an augmented reality headset. While this model remains static for new users and environments, we introduce an adaptive paradigm of two phases, where after pretraining a population model, the model adapts on-device and online to the user's experience. This setting is highly challenging due to the change from population to user domain and the distribution shifts in the user's data stream. Coping with the latter in-stream distribution shifts is the focus of continual learning, where progress has been rooted in controlled benchmarks but challenges faced in real-world applications often remain unaddressed. We introduce EgoAdapt, a benchmark for real-world egocentric action recognition that facilitates our two-phased adaptive paradigm, and real-world challenges naturally occur in the egocentric video streams from Ego4d, such as long-tailed action distributions and large-scale classification over 2740 actions. We introduce an evaluation framework that directly exploits the user's data stream with new metrics to measure the adaptation gain over the population model, online generalization, and hindsight performance. In contrast to single-stream evaluation in existing works, our framework proposes a meta-evaluation that aggregates the results from 50 independent user streams. We provide an extensive empirical study for finetuning and experience replay.
翻訳日:2023-07-13 14:56:07 公開日:2023-07-11
# 経験共有による分散マルチタスク強化学習のスケールアップ

Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing ( http://arxiv.org/abs/2307.05834v1 )

ライセンス: Link先を確認
Sanae Amani, Khushbu Pahwa, Vladimir Braverman, Lin F. Yang(参考訳) darpaが最近立ち上げたshellプログラムは、経験共有が分散生涯学習エージェントに新しい課題への適応にどのように役立つかを探求することを目的としている。 本稿では,分散マルチタスク強化学習(rl)に関する理論的および実証的な研究を行い,n$エージェントの集団が,事前に身元を知らずに共同で$m$タスクを解く。 我々は,線形パラメータ化された文脈マルコフ決定プロセス(mdps)を定式化し,各タスクを遷移ダイナミクスと報酬を規定するコンテキストで表現することでこの問題にアプローチする。 そこで本研究では,DistMT-LSVIというアルゴリズムを提案する。 まず、エージェントはタスクを識別し、次に中央サーバーを介して情報を交換し、タスクに対する$\epsilon$-optimal Policyを導出する。 我々の研究は、$\epsilon$-optimal Policy for all $M$を達成するためには、DistMT-LSVIを使用する単一のエージェントが、最大で$\tilde{\mathcal{O}}({d^3H^6(\epsilon^{-2}+c_{\rm sep}^{-2})}\cdot M/N)$, where $c_{\rm sep}>0$はタスク分離性の定数表現であり、$H$は各エピソードの水平線であり、$d$はダイナミックスと報酬の特徴次元である。 DistMT-LSVIは、$\tilde{\mathcal{O}}(d^3H^6M\epsilon^{-2})$ episodesを使って、各エージェントが独立してすべての$M$タスクに対して$\epsilon$-optimal Policyを学習するため、非分散設定のサンプル複雑性を1/N$で改善する。 また,OpenAI Gym Atari環境における数値実験を行い,理論的な知見を検証した。

Recently, DARPA launched the ShELL program, which aims to explore how experience sharing can benefit distributed lifelong learning agents in adapting to new challenges. In this paper, we address this issue by conducting both theoretical and empirical research on distributed multi-task reinforcement learning (RL), where a group of $N$ agents collaboratively solves $M$ tasks without prior knowledge of their identities. We approach the problem by formulating it as linearly parameterized contextual Markov decision processes (MDPs), where each task is represented by a context that specifies the transition dynamics and rewards. To tackle this problem, we propose an algorithm called DistMT-LSVI. First, the agents identify the tasks, and then they exchange information through a central server to derive $\epsilon$-optimal policies for the tasks. Our research demonstrates that to achieve $\epsilon$-optimal policies for all $M$ tasks, a single agent using DistMT-LSVI needs to run a total number of episodes that is at most $\tilde{\mathcal{O}}({d^3H^6(\epsilon^{-2}+c_{\rm sep}^{-2})}\cdot M/N)$, where $c_{\rm sep}>0$ is a constant representing task separability, $H$ is the horizon of each episode, and $d$ is the feature dimension of the dynamics and rewards. Notably, DistMT-LSVI improves the sample complexity of non-distributed settings by a factor of $1/N$, as each agent independently learns $\epsilon$-optimal policies for all $M$ tasks using $\tilde{\mathcal{O}}(d^3H^6M\epsilon^{-2})$ episodes. Additionally, we provide numerical experiments conducted on OpenAI Gym Atari environments that validate our theoretical findings.
翻訳日:2023-07-13 14:51:06 公開日:2023-07-11
# ビューの袋:3次元再構築のための次回のベストビュー計画への外観ベースアプローチ

Bag of Views: An Appearance-based Approach to Next-Best-View Planning for 3D Reconstruction ( http://arxiv.org/abs/2307.05832v1 )

ライセンス: Link先を確認
Sara Hatami Gazani, Matthew Tucsok, Iraj Mantegh, Homayoun Najjaran(参考訳) インフラストラクチャの3次元再構築とモニタリングのためのUAVベースのインテリジェントなデータ取得は、画像処理とディープラーニングベースの技術が最近進歩しているために、関心が高まっている。 ビュー計画(view planning)は、情報収集戦略を決定し、取得したデータから生成された3dモデルの品質に大きく影響する、このタスクの重要な部分である。 近年の手法では、目標の事前知識や部分的な再構築を用いて、アクティブな再構築のためのビュープランニングを実現している。 本稿では,オフラインデータセットの改良とオンライン次善ビュー(nbv)計画アプリケーションの3次元再構築を目標とした,キャプチャしたビューにユーティリティを割り当てるための,完全な外観ベースモデルであるbag-of-views(bov)を提案する。 この貢献により、機械学習ベースのビュープランニングフレームワークのトレーニングとテストのための軽量パッケージであるview planning toolbox(vpt)、任意の3dシーンのカスタムビューデータセット生成、および3d再構成も開発しました。 本稿では,BVベースの強化学習モデルとVPTを組み合わせた実験により,データセットの洗練とNBV計画における高品質な再構築に必要なビュー数を削減できることを示す。

UAV-based intelligent data acquisition for 3D reconstruction and monitoring of infrastructure has been experiencing an increasing surge of interest due to the recent advancements in image processing and deep learning-based techniques. View planning is an essential part of this task that dictates the information capture strategy and heavily impacts the quality of the 3D model generated from the captured data. Recent methods have used prior knowledge or partial reconstruction of the target to accomplish view planning for active reconstruction; the former approach poses a challenge for complex or newly identified targets while the latter is computationally expensive. In this work, we present Bag-of-Views (BoV), a fully appearance-based model used to assign utility to the captured views for both offline dataset refinement and online next-best-view (NBV) planning applications targeting the task of 3D reconstruction. With this contribution, we also developed the View Planning Toolbox (VPT), a lightweight package for training and testing machine learning-based view planning frameworks, custom view dataset generation of arbitrary 3D scenes, and 3D reconstruction. Through experiments which pair a BoV-based reinforcement learning model with VPT, we demonstrate the efficacy of our model in reducing the number of required views for high-quality reconstructions in dataset refinement and NBV planning.
翻訳日:2023-07-13 14:50:17 公開日:2023-07-11
# サンプル周辺における損失関数の曲率レンズによる記憶

Memorization Through the Lens of Curvature of Loss Function Around Samples ( http://arxiv.org/abs/2307.05831v1 )

ライセンス: Link先を確認
Isha Garg and Kaushik Roy(参考訳) ニューラルネットワークは過度にパラメータ化され、トレーニングするデータセットに簡単に適合する。 極端な場合には、完全にランダム化されたラベルでトレーニングセットを記憶できることが示される。 そこで本研究では,トレーニングサンプル周辺における損失関数の曲率を,その記憶力の尺度として用いることを提案する。 これを用いて,一般的な画像データセットにおける異なるサンプルの一般化と記憶特性について検討する。 我々は,その周囲の損失率が最も高い試料を可視化し,これらが長尾,誤ラベル,あるいは矛盾する試料と視覚的に一致することを示す。 この分析は、私たちの知る限り、CIFAR100データセット上の新しい障害モデル、ラベルの異なる重複画像を見つけるのに役立ちます。 また,いくつかのサンプルのラベルをランダムに分解してデータセットの比率を合成的に誤ってラベル付けし,曲率によるソートによって高いオーロラ値が得られることを示した。

Neural networks are overparametrized and easily overfit the datasets they train on. In the extreme case, it is shown that they can memorize a training set with fully randomized labels. We propose using the curvature of loss function around the training sample as a measure of its memorization, averaged over all training epochs. We use this to study the generalization versus memorization properties of different samples in popular image datasets. We visualize samples with the highest curvature of loss around them, and show that these visually correspond to long-tailed, mislabeled or conflicting samples. This analysis helps us find a, to the best of our knowledge, novel failure model on the CIFAR100 dataset, that of duplicated images with different labels. We also synthetically mislabel a proportion of the dataset by randomly corrupting the labels of a few samples, and show that sorting by curvature yields high AUROC values for identifying the mislabeled samples.
翻訳日:2023-07-13 14:49:53 公開日:2023-07-11
# 畳み込みとメモリネットワークを用いたwikipedia表上の関係抽出

Relational Extraction on Wikipedia Tables using Convolutional and Memory Networks ( http://arxiv.org/abs/2307.05827v1 )

ライセンス: Link先を確認
Arif Shahriar, Rohan Saha, Denilson Barbosa(参考訳) 関係抽出(re)は、テキスト中のエンティティ間の関係を抽出するタスクである。 ほとんどのREメソッドは、自由形式の実行中のテキストから関係を抽出し、テーブルのような他のリッチなデータソースを除外する。 グラフ化されたデータにニューラル手法を適用する観点からREを探索する。 本稿では,CNN(Convolutional Neural Network)とBidirectional-Long Short Term Memory(BiLSTM)で構成される新しいモデルを紹介し,エンティティをエンコードし,それらの依存関係を学習する。 我々は,我々のモデルを大規模かつ最近のデータセットで評価し,従来のニューラル手法と比較した。 実験の結果,本モデルは表データにおける関係抽出のタスクにおいて,前モデルよりも一貫して優れていた。 本モデルにおける各種成分の寄与を示すため,包括的誤り解析およびアブレーション研究を行う。 最後に,本手法の有用性とトレードオフを議論し,さらなる研究の促進に向けた提案を行う。

Relation extraction (RE) is the task of extracting relations between entities in text. Most RE methods extract relations from free-form running text and leave out other rich data sources, such as tables. We explore RE from the perspective of applying neural methods on tabularly organized data. We introduce a new model consisting of Convolutional Neural Network (CNN) and Bidirectional-Long Short Term Memory (BiLSTM) network to encode entities and learn dependencies among them, respectively. We evaluate our model on a large and recent dataset and compare results with previous neural methods. Experimental results show that our model consistently outperforms the previous model for the task of relation extraction on tabular data. We perform comprehensive error analyses and ablation study to show the contribution of various components of our model. Finally, we discuss the usefulness and trade-offs of our approach, and provide suggestions for fostering further research.
翻訳日:2023-07-13 14:49:35 公開日:2023-07-11
# モード数推定のためのベイズタウトスプライン

Bayesian taut splines for estimating the number of modes ( http://arxiv.org/abs/2307.05825v1 )

ライセンス: Link先を確認
Jos\'e E. Chac\'on, Javier Fern\'andez Serrano(参考訳) 確率密度関数のモード数はモデルの複雑さを表すものであり、既存のサブ集団の数と見なすこともできる。 その関連性にもかかわらず、その推定にはほとんど研究がなされていない。 単変量設定に焦点をあて,問題の見過ごされた側面に着想を得た予測精度を目標とした新しい手法を提案する。 我々は, 解の構造の必要性, モードの主観的かつ不確かな性質, 大域的および局所的な密度特性を混合した全体的視点の利便性について論じる。 本手法は, フレキシブルカーネル推定器と擬似合成スプラインを組み合わせて構築する。 特徴探索、モデル選択、モードテストはベイズ推論パラダイムで実装され、ソフトソリューションを提供し、プロセスに専門家の判断を組み込むことができる。 本提案の有用性は,複数のコンパニオンビジュアライゼーションツールを紹介するスポーツアナリティクスのケーススタディを通して示す。 徹底的なシミュレーション研究は、伝統的なモダリティ駆動アプローチがパラドックス的に正確な結果を提供するのに苦労していることを示している。 この文脈では、我々の手法はアナリストに革新的なソリューションを提供する最上位の代替手段として現れる。

The number of modes in a probability density function is representative of the model's complexity and can also be viewed as the number of existing subpopulations. Despite its relevance, little research has been devoted to its estimation. Focusing on the univariate setting, we propose a novel approach targeting prediction accuracy inspired by some overlooked aspects of the problem. We argue for the need for structure in the solutions, the subjective and uncertain nature of modes, and the convenience of a holistic view blending global and local density properties. Our method builds upon a combination of flexible kernel estimators and parsimonious compositional splines. Feature exploration, model selection and mode testing are implemented in the Bayesian inference paradigm, providing soft solutions and allowing to incorporate expert judgement in the process. The usefulness of our proposal is illustrated through a case study in sports analytics, showcasing multiple companion visualisation tools. A thorough simulation study demonstrates that traditional modality-driven approaches paradoxically struggle to provide accurate results. In this context, our method emerges as a top-tier alternative offering innovative solutions for analysts.
翻訳日:2023-07-13 14:49:16 公開日:2023-07-11
# 組合せ最適化のための量子緩和・ラウンドアルゴリズム

Quantum Relax-and-Round Algorithm for Combinatorial Optimization ( http://arxiv.org/abs/2307.05821v1 )

ライセンス: Link先を確認
Maxime Dupont, Bhuvanesh Sundar(参考訳) 量子近似最適化アルゴリズム (QAOA) を$p\geq 1$ の層に埋め込む。 Sherrington-Kirkpatrick スピングラスを含む多くの問題に対して、$p=1$ は古典的問題と同程度に正確であり、すべての$p$ に対して QAOA よりも優れていることを示す。 異なる丸めスキームを用いて、あるグラフ上の最大カット問題に対するゴーマンス・ウィリアムソンアルゴリズムの性能を共有することを証明した。 古典的アルゴリズムに匹敵するパフォーマンスで、量子リラクゼーションとラウンドを網羅するフレームワークの道を開いた。

We introduce a relax-and-round approach embedding the quantum approximate optimization algorithm (QAOA) with $p\geq 1$ layers. We show for many problems, including Sherrington-Kirkpatrick spin glasses, that at $p=1$, it is as accurate as its classical counterpart and better than the QAOA for all $p$. Employing a different rounding scheme, we prove the method shares the performance of the Goemans-Williamson algorithm for the maximum cut problem on certain graphs. We pave the way for an overarching quantum relax-and-round framework with performance on par with some of the best classical algorithms.
翻訳日:2023-07-13 14:48:46 公開日:2023-07-11
# 対称性分解エンタングルメント:対称性保護位相に対する一般的な考察、相関関数からの計算、および境界

Symmetry-Resolved Entanglement: General considerations, calculation from correlation functions, and bounds for symmetry-protected topological phases ( http://arxiv.org/abs/2307.05820v1 )

ライセンス: Link先を確認
K. Monkman, J. Sirker(参考訳) 粒子数保存系における対称解von-Neumannエンタングルメントエントロピーの一般的な性質について論じ、ガウス系の相関関数からエンタングルメント成分を得る方法について述べる。 エンタングルメント境界を導出するための重要なツールとして、偏化を導入する。 一例として、キラル位相とcn対称位相相の数と配置エントロピーの両方について下界を導出する。 場合によっては、そのような系における絡み合いエントロピーの既知下界の改善にも繋がる。

We discuss some general properties of the symmetry-resolved von-Neumann entanglement entropy in systems with particle number conservation and describe how to obtain the entanglement components from correlation functions for Gaussian systems. We introduce majorization as an important tool to derive entanglement bounds. As an application, we derive lower bounds both for the number and the configurational entropy for chiral and Cn-symmetric topological phases. In some cases, our considerations also lead to an improvement of the previously known lower bounds for the entanglement entropy in such systems.
翻訳日:2023-07-13 14:48:27 公開日:2023-07-11
# 昼頭市場における仮想発電所の戦略的入札のための安全強化学習

Safe Reinforcement Learning for Strategic Bidding of Virtual Power Plants in Day-Ahead Markets ( http://arxiv.org/abs/2307.05812v1 )

ライセンス: Link先を確認
Ognjen Stanojev, Lesia Mitridati, Riccardo de Nardis di Prata, Gabriela Hug(参考訳) 本稿では,電力市場における仮想発電プラント(vpps)の戦略的入札のための安全強化学習アルゴリズムを提案する。 提案アルゴリズムは,Deep Deterministic Policy Gradient (DDPG) 法を用いて,正確な市場モデルを必要としない競争入札政策を学習する。 さらに,vppsの複雑な内部物理的制約を考慮し,ddpg法の2つの拡張を導入する。 第一に、エージェントの動作を非線形の電力フロー方程式と分散エネルギー資源の運転制約によって定義される実現可能な空間に制限するプロジェクションベースの安全シールドを導出する。 次に、より安全なポリシーを学ぶためにエージェントにインセンティブを与える報酬機能におけるシールドアクティベーションに対するペナルティを導入する。 IEEE 13バスネットワークに基づくケーススタディでは、エージェントが高度に競争力のある安全な戦略方針を学習できるようにするための提案手法の有効性が示されている。

This paper presents a novel safe reinforcement learning algorithm for strategic bidding of Virtual Power Plants (VPPs) in day-ahead electricity markets. The proposed algorithm utilizes the Deep Deterministic Policy Gradient (DDPG) method to learn competitive bidding policies without requiring an accurate market model. Furthermore, to account for the complex internal physical constraints of VPPs we introduce two enhancements to the DDPG method. Firstly, a projection-based safety shield that restricts the agent's actions to the feasible space defined by the non-linear power flow equations and operating constraints of distributed energy resources is derived. Secondly, a penalty for the shield activation in the reward function that incentivizes the agent to learn a safer policy is introduced. A case study based on the IEEE 13-bus network demonstrates the effectiveness of the proposed approach in enabling the agent to learn a highly competitive, safe strategic policy.
翻訳日:2023-07-13 14:47:56 公開日:2023-07-11
# n$-qubit clifford group のクリフォード理論

The Clifford theory of the $n$-qubit Clifford group ( http://arxiv.org/abs/2307.05810v1 )

ライセンス: Link先を確認
Kieran Mastel(参考訳) $n$-qubit Pauli 群とその正規化器である $n$-qubit Clifford 群は、量子エラー補正とデバイス特徴づけに応用できる。 近年の応用ではクリフォード群の表現論が用いられている。 クリフォード群の表現論をパウリ群のより単純な表現論を用いて検討するために、クリフォード理論のツール(偶然に命名された)を適用する。 我々は、$n$-qubit Clifford 群の既約文字と$(n+1)$-qubit Clifford 群の既約文字との予期しない対応を見つける。

The $n$-qubit Pauli group and its normalizer the $n$-qubit Clifford group have applications in quantum error correction and device characterization. Recent applications have made use of the representation theory of the Clifford group. We apply the tools of (the coincidentally named) Clifford theory to examine the representation theory of the Clifford group using the much simpler representation theory of the Pauli group. We find an unexpected correspondence between irreducible characters of the $n$-qubit Clifford group and those of the $(n+1)$-qubit Clifford group.
翻訳日:2023-07-13 14:47:28 公開日:2023-07-11
# 強度分布スーパービジョンを用いたCTスキャンにおける病変の分離と検出の改善

Improving Segmentation and Detection of Lesions in CT Scans Using Intensity Distribution Supervision ( http://arxiv.org/abs/2307.05804v1 )

ライセンス: Link先を確認
Seung Yeon Shin, Thomas C. Shen, Ronald M. Summers(参考訳) 訓練用セグメンテーションと検出ネットワークにおいて,ctスキャンに標的病変の強度情報を組み込む手法を提案する。 まず,対象病変の強度ヒストグラムからilp(tension-based lesion probability)関数を構築する。 強度に基づいて各ボクセルの病変となる確率を計算するために用いられる。 最後に、各入力CTスキャンの計算したILPマップをネットワークトレーニングのための追加の監視として提供し、追加のラベリングコストを伴わずに、強度値の観点で病変箇所をネットワークに通知することを目的とする。 本法は, 小腸カルチノイド, 腎腫瘍, 肺結節の3種類の病変の分節化を改善するために応用された。 また,提案手法が検出タスクに与える影響についても検討した。 分枝性小腸カルチノイド腫瘍,腎腫瘍,肺結節における41.3% -> 47.8%,74.2% -> 76.0%,26.4% -> 32.7%の改善を認めた。 64.6%~75.5%の改善は腎臓腫瘍を平均的精度で検出した。 また, ilpマップの異なる使用方法の結果と, トレーニングデータの多種多様化の効果について述べる。

We propose a method to incorporate the intensity information of a target lesion on CT scans in training segmentation and detection networks. We first build an intensity-based lesion probability (ILP) function from an intensity histogram of the target lesion. It is used to compute the probability of being the lesion for each voxel based on its intensity. Finally, the computed ILP map of each input CT scan is provided as additional supervision for network training, which aims to inform the network about possible lesion locations in terms of intensity values at no additional labeling cost. The method was applied to improve the segmentation of three different lesion types, namely, small bowel carcinoid tumor, kidney tumor, and lung nodule. The effectiveness of the proposed method on a detection task was also investigated. We observed improvements of 41.3% -> 47.8%, 74.2% -> 76.0%, and 26.4% -> 32.7% in segmenting small bowel carcinoid tumor, kidney tumor, and lung nodule, respectively, in terms of per case Dice scores. An improvement of 64.6% -> 75.5% was achieved in detecting kidney tumors in terms of average precision. The results of different usages of the ILP map and the effect of varied amount of training data are also presented.
翻訳日:2023-07-13 14:47:16 公開日:2023-07-11
# PIGEON:画像位置情報の予測

PIGEON: Predicting Image Geolocations ( http://arxiv.org/abs/2307.05845v1 )

ライセンス: Link先を確認
Lukas Haas, Silas Alberti, Michal Skreta(参考訳) 本稿では,外部ベンチマークと人的評価の両面において,最先端の性能を実現するマルチタスク・エンド・ツー・エンド・システムであるPIGEONを紹介する。 本研究は,ラベルの平滑化によるセマンティックジオセル生成を取り入れ,地理情報を用いた画像上でのビジョントランスフォーマーの事前学習を行い,ジオセルの候補集合をまたいだProtoNetによる位置予測を洗練する。 まず、任意の地理空間データセットに適合可能なオープンソースのデータに基づいて、セマンティックなジオセルの作成と分割アルゴリズムを設計する。 第2に,非教師なしクラスタリングとProtNetのタスクへの適用性について検討した。 最後に,我々の事前学習型CLIPトランスフォーマーモデルであるStreetCLIPを,気候変動対策や都市・農村の景観理解への応用として,近隣のドメインで一般に利用可能にしている。

We introduce PIGEON, a multi-task end-to-end system for planet-scale image geolocalization that achieves state-of-the-art performance on both external benchmarks and in human evaluation. Our work incorporates semantic geocell creation with label smoothing, conducts pretraining of a vision transformer on images with geographic information, and refines location predictions with ProtoNets across a candidate set of geocells. The contributions of PIGEON are three-fold: first, we design a semantic geocells creation and splitting algorithm based on open-source data which can be adapted to any geospatial dataset. Second, we show the effectiveness of intra-geocell refinement and the applicability of unsupervised clustering and ProtNets to the task. Finally, we make our pre-trained CLIP transformer model, StreetCLIP, publicly available for use in adjacent domains with applications to fighting climate change and urban and rural scene understanding.
翻訳日:2023-07-13 14:37:32 公開日:2023-07-11
# AIフェアネスとバイアスにおける蝶効果

The Butterfly Effect in AI Fairness and Bias ( http://arxiv.org/abs/2307.05842v1 )

ライセンス: Link先を確認
Emilio Ferrara(参考訳) カオス理論を起源とするバタフライ効果は、小さな変化が複雑なシステムに対して、いかに重要かつ予測不能な影響をもたらすかを強調するものだ。 AIフェアネスとバイアスの文脈では、バタフライエフェクトは、アルゴリズム開発中の小さなバイアスや歪んだデータ入力、トレーニング中のサドルポイント、トレーニングとテストフェーズ間のデータの分散シフトなど、さまざまなソースに由来する可能性がある。 これらの一見小さな変化は、予期せぬ、実質的な不公平な結果をもたらす可能性がある。 さらに、バタフライエフェクトは、データやアルゴリズム内の固有のバイアスを増幅し、フィードバックループを悪化させ、敵攻撃の脆弱性を作成することができる。 AIシステムの複雑な性質とその社会的意味を考えると、意図しない結果をもたらす可能性のあるアルゴリズムや入力データの変更を徹底的に検討することが不可欠である。 本稿では,aiシステムにおけるバタフライ効果の検出,定量化,緩和のためのアルゴリズム的戦略と経験的戦略の両方を想定し,公平性を促進し,責任あるai開発を確実にするためにこれらの課題に取り組むことの重要性を強調する。

The Butterfly Effect, a concept originating from chaos theory, underscores how small changes can have significant and unpredictable impacts on complex systems. In the context of AI fairness and bias, the Butterfly Effect can stem from a variety of sources, such as small biases or skewed data inputs during algorithm development, saddle points in training, or distribution shifts in data between training and testing phases. These seemingly minor alterations can lead to unexpected and substantial unfair outcomes, disproportionately affecting underrepresented individuals or groups and perpetuating pre-existing inequalities. Moreover, the Butterfly Effect can amplify inherent biases within data or algorithms, exacerbate feedback loops, and create vulnerabilities for adversarial attacks. Given the intricate nature of AI systems and their societal implications, it is crucial to thoroughly examine any changes to algorithms or input data for potential unintended consequences. In this paper, we envision both algorithmic and empirical strategies to detect, quantify, and mitigate the Butterfly Effect in AI systems, emphasizing the importance of addressing these challenges to promote fairness and ensure responsible AI development.
翻訳日:2023-07-13 14:37:13 公開日:2023-07-11
# 単純畳み込みネットワークによるインフルエンシャル単純マイニング

Influential Simplices Mining via Simplicial Convolutional Network ( http://arxiv.org/abs/2307.05841v1 )

ライセンス: Link先を確認
Yujie Zeng, Yiming Huang, Qiang Wu, Linyuan L\"u(参考訳) 単純複体は、ネットワークの不均一性に起因する構造や機能において、少数の単純化が重要な役割を果たす高次ネットワーク分析の典型的存在である。 影響力のあるノードと単純さの区別には大きな矛盾がある。 したがって、影響力のあるノード (0-simplices) の識別に関する研究が比較的成熟しているにもかかわらず、いかにして単純なノードの影響を特徴付け、影響力のある単純化を識別するかはいまだに不明である。 一方、グラフニューラルネットワーク(gnn)は、ネットワークトポロジーとノード機能を同時に活用できる強力なツールだが、高次タスクに取り組むのに苦労している。 本稿では,ニューラルネットワーク(ismnet)と呼ばれる高次グラフ学習モデルを提案する。 階層的双部グラフ(hierarchical bipartite graph)と高階階層ラプラシアン(high-order hierarchical Laplacians)は、目的とする単純化がハブセットにグループ化され、他の単純化と相互作用できる。 さらに、ISMnetは、各HoH Laplacian領域の学習可能なグラフ畳み込み演算子を用いて、単純化間の相互作用をキャプチャし、ハブ集合を変更することで任意の順序の影響力のある単純化を識別することができる。 実験の結果、ismnet は 0-simplices (nodes) と 2-simplices のランク付けにおいて、既存のメソッドを大幅に上回っている。 一般に、このフレームワークは影響力のある単純化を識別し、高次ネットワーク分析において強力なツールとして機能することを約束する。

Simplicial complexes have recently been in the limelight of higher-order network analysis, where a minority of simplices play crucial roles in structures and functions due to network heterogeneity. We find a significant inconsistency between identifying influential nodes and simplices. Therefore, it remains elusive how to characterize simplices' influence and identify influential simplices, despite the relative maturity of research on influential nodes (0-simplices) identification. Meanwhile, graph neural networks (GNNs) are potent tools that can exploit network topology and node features simultaneously, but they struggle to tackle higher-order tasks. In this paper, we propose a higher-order graph learning model, named influential simplices mining neural network (ISMnet), to identify vital h-simplices in simplicial complexes. It can tackle higher-order tasks by leveraging novel higher-order presentations: hierarchical bipartite graphs and higher-order hierarchical (HoH) Laplacians, where targeted simplices are grouped into a hub set and can interact with other simplices. Furthermore, ISMnet employs learnable graph convolutional operators in each HoH Laplacian domain to capture interactions among simplices, and it can identify influential simplices of arbitrary order by changing the hub set. Empirical results demonstrate that ISMnet significantly outperforms existing methods in ranking 0-simplices (nodes) and 2-simplices. In general, this novel framework excels in identifying influential simplices and promises to serve as a potent tool in higher-order network analysis.
翻訳日:2023-07-13 14:36:51 公開日:2023-07-11
# 現場作業におけるロボットアシスタントとの直感的対話のための自然言語指導

Natural Language Instructions for Intuitive Human Interaction with Robotic Assistants in Field Construction Work ( http://arxiv.org/abs/2307.04195v2 )

ライセンス: Link先を確認
Somin Park, Xi Wang, Carol C. Menassa, Vineet R. Kamat, Joyce Y. Chai(参考訳) ロボットの導入は、建設産業に支障をきたす労働者不足や生産性の停滞を緩和する大きな可能性を秘めていると考えられている。 しかし、複雑で非構造な建設現場で完全自動化されたロボットを使うことは困難である。 ヒューマンロボットコラボレーション(HRC)は、建設作業に固有の不確実性に共同で対処するために、人間の労働者の柔軟性とロボットアシスタントの身体能力を組み合わせることを約束している。 建設にHRCを導入する際には、現場建設におけるチームワークと監督の重要性を認識し、ヒューマンワーカーとロボットアシスタントの自然な直感的なコミュニケーションシステムを確立することが重要である。 自然言語に基づく対話は、ロボットプログラミングの非熟練者のために、直感的で親しみやすいロボットとのコミュニケーションを可能にする。 しかし、この話題に関する限定的な研究が建設中である。 本稿では,人間の作業者が自然言語に基づく建設ロボットと対話できる枠組みを提案する。 提案手法は,自然言語理解(NLU),情報マッピング(IM),ロボット制御(RC)の3段階からなる。 自然言語命令は言語モデルに入力され、NLUモジュール内の各単語のタグを予測する。 IMモジュールは、NLUモジュールの結果とコンポーネント情報を用いて、ロボットが建設作業を認識し実行するために必要となる最終命令出力を生成する。 提案手法を評価するために, ドライウォール設置の事例検討を行った。 その結果,人間ロボットチームのコンテキスト内での作業者間のコミュニケーションを再現するために,自然言語によるインタラクションを利用する可能性を強調した。

The introduction of robots is widely considered to have significant potential of alleviating the issues of worker shortage and stagnant productivity that afflict the construction industry. However, it is challenging to use fully automated robots in complex and unstructured construction sites. Human-Robot Collaboration (HRC) has shown promise of combining human workers' flexibility and robot assistants' physical abilities to jointly address the uncertainties inherent in construction work. When introducing HRC in construction, it is critical to recognize the importance of teamwork and supervision in field construction and establish a natural and intuitive communication system for the human workers and robotic assistants. Natural language-based interaction can enable intuitive and familiar communication with robots for human workers who are non-experts in robot programming. However, limited research has been conducted on this topic in construction. This paper proposes a framework to allow human workers to interact with construction robots based on natural language instructions. The proposed method consists of three stages: Natural Language Understanding (NLU), Information Mapping (IM), and Robot Control (RC). Natural language instructions are input to a language model to predict a tag for each word in the NLU module. The IM module uses the result of the NLU module and building component information to generate the final instructional output essential for a robot to acknowledge and perform the construction task. A case study for drywall installation is conducted to evaluate the proposed approach. The obtained results highlight the potential of using natural language-based interaction to replicate the communication that occurs between human workers within the context of human-robot teams.
翻訳日:2023-07-13 10:33:20 公開日:2023-07-11
# 鳥眼視における物体検出とセグメンテーションのためのパラメトリック奥行きに基づく特徴表現学習

Parametric Depth Based Feature Representation Learning for Object Detection and Segmentation in Bird's Eye View ( http://arxiv.org/abs/2307.04106v2 )

ライセンス: Link先を確認
Jiayu Yang, Enze Xie, Miaomiao Liu, Jose M. Alvarez(参考訳) 近年の自律走行のための視覚のみの知覚モデルは、多視点画像特徴をバードアイビュー(BEV)空間に符号化することで有望な結果を得た。 これらの手法の主なボトルネックは、画像特徴をBEV座標フレームに変換することである。 本稿では,そのような特徴変換をモデル化するために,深度などの幾何学情報を活用することに焦点を当てる。 既存の研究は、メモリ消費に繋がる非パラメトリックな深さ分布モデリングや、この問題に対処する幾何情報を無視している。 対照的に、特徴変換にパラメトリック深度分布モデルを用いることを提案する。 まず2次元画像の特徴をego車両で定義された3次元空間に持ち上げ,各ビューにおける各画素のパラメトリック深度分布を予測した。 次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴量を集約する。 最後に、オブジェクト検出やセマンティクスセグメンテーションといった下流タスクに変換された機能を使用します。 既存のセマンティックセグメンテーション手法は、視覚的な情報を考慮に入れないため、幻覚的な問題にも悩まされる。 この幻覚は、制御や計画といった後続のモジュールでは特に問題となる。 この問題を軽減するため,本手法は深度不確実性と信頼性の高い可視性評価を行う。 我々はさらにパラメトリック深度モデルを用いて、幻覚の問題を緩和できる新しい可視性を考慮した評価指標を提案する。 nuscenesデータセットにおけるオブジェクト検出とセマンティクスセグメンテーションに関する広範な実験により,提案手法が両タスクにおいて既存の手法よりも優れていることが証明された。

Recent vision-only perception models for autonomous driving achieved promising results by encoding multi-view image features into Bird's-Eye-View (BEV) space. A critical step and the main bottleneck of these methods is transforming image features into the BEV coordinate frame. This paper focuses on leveraging geometry information, such as depth, to model such feature transformation. Existing works rely on non-parametric depth distribution modeling leading to significant memory consumption, or ignore the geometry information to address this problem. In contrast, we propose to use parametric depth distribution modeling for feature transformation. We first lift the 2D image features to the 3D space defined for the ego vehicle via a predicted parametric depth distribution for each pixel in each view. Then, we aggregate the 3D feature volume based on the 3D space occupancy derived from depth to the BEV frame. Finally, we use the transformed features for downstream tasks such as object detection and semantic segmentation. Existing semantic segmentation methods do also suffer from an hallucination problem as they do not take visibility information into account. This hallucination can be particularly problematic for subsequent modules such as control and planning. To mitigate the issue, our method provides depth uncertainty and reliable visibility-aware estimations. We further leverage our parametric depth modeling to present a novel visibility-aware evaluation metric that, when taken into account, can mitigate the hallucination problem. Extensive experiments on object detection and semantic segmentation on the nuScenes datasets demonstrate that our method outperforms existing methods on both tasks.
翻訳日:2023-07-13 10:32:06 公開日:2023-07-11
# 効率的なシーケンスモデリングのためのスパースモジュラーアクティベーション

Sparse Modular Activation for Efficient Sequence Modeling ( http://arxiv.org/abs/2306.11197v3 )

ライセンス: Link先を確認
Liliang Ren, Yang Liu, Shuohang Wang, Yichong Xu, Chenguang Zhu, ChengXiang Zhai(参考訳) 線形状態空間モデル(SSM)は、繰り返し構造を効率的に符号化するため、様々なシーケンスモデリングタスクにおいて強い性能を示した。 しかし、言語モデリングや機械翻訳といったより包括的なタスクでは、自己注意に基づくモデルは依然としてSSMよりも優れています。 SSMと自己注意の両方を併用したハイブリッドモデルは一般に有望な性能を示すが、現在のアプローチでは、入力シーケンスのすべての要素に対して静的かつ均一に注意モジュールを適用し、準最適品質と効率のトレードオフをもたらす。 本研究では,ニューラルネットワークが配列要素のサブモジュールを分離的かつ動的に動的に活性化する機構であるスパースモジュール活性化(SMA)を紹介する。 各要素が非アクティブなサブモジュールをスキップできるようにすることで、SMAはシーケンスモデリングのトレーニングと推論の段階で計算とメモリ消費を減らす。 SMAの特定のインスタンス化として、SMAを用いて、SSMから学んだ状態表現に基づいて、GAU(Gated Attention Unit)をスパースに活性化する新しいニューラルネットワークSeqBoatを設計する。 GAUが活性化された入力にのみ局所的な注意を集中させることで、セックボートは理論上無限の注意範囲を持つ線形推論複雑性を達成でき、チャンキングベースモデルよりもはるかに優れた品質と効率のトレードオフを提供できる。 言語モデリング、音声分類、長距離アリーナを含む幅広いタスクの実験により、SeqBoatは線形複雑性を持つハイブリッドモデルに新しい最先端の結果をもたらし、学習されたスパースアクティベーションパターンを通じて各タスクに必要な注意の量を明らかにする。

Linear State Space Models (SSMs) have demonstrated strong performance in a variety of sequence modeling tasks due to their efficient encoding of the recurrent structure. However, in more comprehensive tasks like language modeling and machine translation, self-attention-based models still outperform SSMs. Hybrid models employing both SSM and self-attention generally show promising performance, but current approaches apply attention modules statically and uniformly to all elements in the input sequences, leading to sub-optimal quality-efficiency trade-offs. In this work, we introduce Sparse Modular Activation (SMA), a general mechanism enabling neural networks to sparsely and dynamically activate sub-modules for sequence elements in a differentiable manner. Through allowing each element to skip non-activated sub-modules, SMA reduces computation and memory consumption at both training and inference stages of sequence modeling. As a specific instantiation of SMA, we design a novel neural architecture, SeqBoat, which employs SMA to sparsely activate a Gated Attention Unit (GAU) based on the state representations learned from an SSM. By constraining the GAU to only conduct local attention on the activated inputs, SeqBoat can achieve linear inference complexity with theoretically infinite attention span, and provide substantially better quality-efficiency trade-off than the chunking-based models. With experiments on a wide range of tasks, including language modeling, speech classification and long-range arena, SeqBoat brings new state-of-the-art results among hybrid models with linear complexity and reveals the amount of attention needed for each task through the learned sparse activation patterns.
翻訳日:2023-07-13 10:31:05 公開日:2023-07-11
# 大規模言語モデルを破壊的にする鍵としてのドメイン特化 - 総合的な調査

Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey ( http://arxiv.org/abs/2305.18703v4 )

ライセンス: Link先を確認
Chen Ling, Xujiang Zhao, Jiaying Lu, Chengyuan Deng, Can Zheng, Junxiang Wang, Tanmoy Chowdhury, Yun Li, Hejie Cui, Xuchao Zhang, Tianjiao Zhao, Amit Panalkar, Wei Cheng, Haoyu Wang, Yanchi Liu, Zhengzhang Chen, Haifeng Chen, Chris White, Quanquan Gu, Jian Pei, Carl Yang, and Liang Zhao(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の分野を著しく進歩させ、広範囲のアプリケーションに非常に有用なタスクに依存しない基盤を提供する。 しかし、特定のドメインにおける高度な問題を解決するために直接LLMを適用することは、ドメインデータの異質性、ドメイン知識の高度化、ドメインの目的の独自性、制約の多様性(例えば、様々な社会的規範、文化的適合性、宗教的信念、ドメインアプリケーションにおける倫理的基準)によって引き起こされる多くのハードルを満たす。 ドメイン仕様技術は多くのアプリケーションで大きな言語モデルを破壊的にする鍵となる。 特に、これらのハードルを解決するために、近年、LLMの領域特化に関する研究や実践が顕著に増加している。 この新たな研究分野は、影響の実質的な可能性を秘めており、この領域で進行中の研究をより要約し指導するために、包括的かつ体系的なレビューを必要としている。 本稿では,大規模言語モデルアプリケーションに不可欠な新たな方向性である,大規模言語モデルのドメイン仕様技術に関する包括的調査を紹介する。 まず, LLM のアクセシビリティに基づいた LLM ドメイン特殊化手法を分類し, 各サブカテゴリの枠組み, 相互の関係, 相違点を要約する系統分類法を提案する。 第二に、専門的なllmから劇的に利益を得られる重要なアプリケーションドメインの広範な分類を提示し、それらの実用的意義とオープンな課題について論じる。 最後に、この分野の現在の研究状況と今後のトレンドについて考察する。

Large language models (LLMs) have significantly advanced the field of natural language processing (NLP), providing a highly useful, task-agnostic foundation for a wide range of applications. However, directly applying LLMs to solve sophisticated problems in specific domains meets many hurdles, caused by the heterogeneity of domain data, the sophistication of domain knowledge, the uniqueness of domain objectives, and the diversity of the constraints (e.g., various social norms, cultural conformity, religious beliefs, and ethical standards in the domain applications). Domain specification techniques are key to make large language models disruptive in many applications. Specifically, to solve these hurdles, there has been a notable increase in research and practices conducted in recent years on the domain specialization of LLMs. This emerging field of study, with its substantial potential for impact, necessitates a comprehensive and systematic review to better summarize and guide ongoing work in this area. In this article, we present a comprehensive survey on domain specification techniques for large language models, an emerging direction critical for large language model applications. First, we propose a systematic taxonomy that categorizes the LLM domain-specialization techniques based on the accessibility to LLMs and summarizes the framework for all the subcategories as well as their relations and differences to each other. Second, we present an extensive taxonomy of critical application domains that can benefit dramatically from specialized LLMs, discussing their practical significance and open challenges. Last, we offer our insights into the current research status and future trends in this area.
翻訳日:2023-07-13 10:30:06 公開日:2023-07-11
# GOTHICによる二重核銀河の自動検出とDual AGNの大規模サンプル発見

Automated Detection of Double Nuclei Galaxies using GOTHIC and the Discovery of a Large Sample of Dual AGN ( http://arxiv.org/abs/2011.12177v4 )

ライセンス: Link先を確認
Anwesh Bhattacharya, Nehal C. P., Mousumi Das, Abhishek Paswan, Snehanshu Saha, Francoise Combes(参考訳) 本稿では,2つ以上の近接した核を持つ銀河の像を検出する,GOTHIC(Graph BOosted Iterated HIll Climbing)と呼ばれる2つの核銀河(DNG)を検出するアルゴリズムを提案する。 我々の目標は、銀河の二重または多重活動銀河核(agn)のサンプルを検出することである。 銀河の融合は一般的であるが、二重AGNの検出は稀である。 これらの検出は、複数の核系における超大質量ブラックホール(SMBH)双対の形成、SMBH成長、AGNフィードバック効果を理解する上で非常に重要である。 したがって、DNGと2重AGNの発見のために既存の画像データの体系的な調査を行うアルゴリズムが必要である。 我々は、既知のDNGのサンプルでGOTHICを試験し、約0から0.75の赤方偏移範囲にある100万個のSDSS DR16銀河のサンプルに適用した。 このサンプルから159個のAGNを検出し,そのうち2つは3重AGN系である。 以上の結果から,2重 AGN は一般的ではなく,3重 AGN はさらに稀であることがわかった。 DNGsの色(u-r)のプロットは、原子核が近づき、AGNが増加するにつれて星形成が焼成されることを示している。 クエンチングは、赤系列の極端に位置する2重三重AGN銀河に特に顕著である。

We present a novel algorithm to detect double nuclei galaxies (DNG) called GOTHIC (Graph BOosted iterated HIll Climbing) - that detects whether a given image of a galaxy has two or more closely separated nuclei. Our aim is to detect samples of dual or multiple active galactic nuclei (AGN) in galaxies. Although galaxy mergers are common, the detection of dual AGN is rare. Their detection is very important as they help us understand the formation of supermassive black hole (SMBH) binaries, SMBH growth and AGN feedback effects in multiple nuclei systems. There is thus a need for an algorithm to do a systematic survey of existing imaging data for the discovery of DNGs and dual AGN. We have tested GOTHIC on a known sample of DNGs and subsequently applied it to a sample of a million SDSS DR16 galaxies lying in the redshift range of 0 to 0.75 approximately, and have available spectroscopic data. We have detected 159 dual AGN in this sample, of which 2 are triple AGN systems. Our results show that dual AGN are not common, and triple AGN even rarer. The color (u-r) magnitude plots of the DNGs indicate that star formation is quenched as the nuclei come closer and as the AGN fraction increases. The quenching is especially prominent for dual/triple AGN galaxies that lie in the extreme end of the red sequence.
翻訳日:2023-07-12 19:43:40 公開日:2023-07-11
# 高分解能セマンティックビデオセグメンテーションのためのタメドワーピングネットワーク

Tamed Warping Network for High-Resolution Semantic Video Segmentation ( http://arxiv.org/abs/2005.01344v4 )

ライセンス: Link先を確認
Songyuan Li, Junyi Feng, and Xi Li(参考訳) 最近の高速セマンティックビデオセグメンテーションのアプローチでは、隣接するフレームに特徴マップをゆがめることで冗長性が低下し、推論フェーズが大幅にスピードアップしている。 しかし、ワープによる誤差のため、精度は著しく低下する。 本稿では,新しい枠組みを提案し,ワーピング後の簡易かつ効果的な補正段階を設計する。 具体的には、非キーフレームCNNを構築し、現在の空間的詳細と共に歪んだコンテキスト特徴を融合させる。 特徴の融合に基づいて、私たちのContext Feature Rectification~(CFR)モジュールは、フレームごとのモデルの違いを学習し、歪んだ特徴を修正する。 さらに、我々のResidual-Guided Attention~(RGA)モジュールは圧縮された領域の残留マップを利用して、CRFがエラーが発生しやすい領域にフォーカスするのを助ける。 Cityscapesの結果、精度は67.3\%から71.6\%に大幅に向上し、スピードエッジは65.5$ FPSから61.8$ FPSへ低下し、解像度は1024\times 2048$となった。 例えば ``human'' や ``object'' といった非厳なカテゴリでは、改善点は18パーセンテージ以上である。

Recent approaches for fast semantic video segmentation have reduced redundancy by warping feature maps across adjacent frames, greatly speeding up the inference phase. However, the accuracy drops seriously owing to the errors incurred by warping. In this paper, we propose a novel framework and design a simple and effective correction stage after warping. Specifically, we build a non-key-frame CNN, fusing warped context features with current spatial details. Based on the feature fusion, our Context Feature Rectification~(CFR) module learns the model's difference from a per-frame model to correct the warped features. Furthermore, our Residual-Guided Attention~(RGA) module utilizes the residual maps in the compressed domain to help CRF focus on error-prone regions. Results on Cityscapes show that the accuracy significantly increases from $67.3\%$ to $71.6\%$, and the speed edges down from $65.5$ FPS to $61.8$ FPS at a resolution of $1024\times 2048$. For non-rigid categories, e.g., ``human'' and ``object'', the improvements are even higher than 18 percentage points.
翻訳日:2023-07-12 19:43:12 公開日:2023-07-11
# 対話的意思決定の統計的複雑性

The Statistical Complexity of Interactive Decision Making ( http://arxiv.org/abs/2112.13487v3 )

ライセンス: Link先を確認
Dylan J. Foster and Sham M. Kakade and Jian Qian and Alexander Rakhlin(参考訳) バンディット問題から強化学習まで,インタラクティブな学習と意思決定における基本的な課題は,サンプル効率が高く適応的な学習アルゴリズムを提供することである。 この問題は、学習の統計的複雑さを管理するよく知られた複雑性尺度(VC次元やラデマチャー複雑性など)が存在する、最適(教師付き)統計学習という古典的な問題に類似している。 しかし,対話型学習の統計的複雑性を特徴付けることは,問題に適応性があることから,かなり困難である。 この研究の主な結果は、サンプル効率の良い対話型学習に必要かつ十分であることが証明された、複雑性尺度、決定・推定係数を提供する。 特に、1) 対話的な意思決定問題に対する最適後悔の限界を低くし、決定推定係数を基本的な限界として確立する。 2. 統合されたアルゴリズム設計原則である推定決定(E2D)は、教師付き推定のための任意のアルゴリズムを意思決定のためのオンラインアルゴリズムに変換する。 E2Dは,推定性能の概念に従属する低境界に一致した後悔境界に達し,決定推定係数を特徴とする最適なサンプル効率学習を実現する。 これらの結果は,対話型意思決定における学習可能性の理論を構成する。 強化学習設定に適用すると、決定推定係数は本質的に既存のハードネス結果と下限値を回復する。 より広くは、このアプローチは古典的なル・カム理論の統計的推定における決定論的類似と見なすことができる。

A fundamental challenge in interactive learning and decision making, ranging from bandit problems to reinforcement learning, is to provide sample-efficient, adaptive learning algorithms that achieve near-optimal regret. This question is analogous to the classical problem of optimal (supervised) statistical learning, where there are well-known complexity measures (e.g., VC dimension and Rademacher complexity) that govern the statistical complexity of learning. However, characterizing the statistical complexity of interactive learning is substantially more challenging due to the adaptive nature of the problem. The main result of this work provides a complexity measure, the Decision-Estimation Coefficient, that is proven to be both necessary and sufficient for sample-efficient interactive learning. In particular, we provide: 1. a lower bound on the optimal regret for any interactive decision making problem, establishing the Decision-Estimation Coefficient as a fundamental limit. 2. a unified algorithm design principle, Estimation-to-Decisions (E2D), which transforms any algorithm for supervised estimation into an online algorithm for decision making. E2D attains a regret bound that matches our lower bound up to dependence on a notion of estimation performance, thereby achieving optimal sample-efficient learning as characterized by the Decision-Estimation Coefficient. Taken together, these results constitute a theory of learnability for interactive decision making. When applied to reinforcement learning settings, the Decision-Estimation Coefficient recovers essentially all existing hardness results and lower bounds. More broadly, the approach can be viewed as a decision-theoretic analogue of the classical Le Cam theory of statistical estimation; it also unifies a number of existing approaches -- both Bayesian and frequentist.
翻訳日:2023-07-12 19:40:02 公開日:2023-07-11
# 運用環境におけるディープラーニングモデルのデプロイのためのレスポンシブ並列化アーキテクチャ

Responsive parallelized architecture for deploying deep learning models in production environments ( http://arxiv.org/abs/2112.08933v2 )

ライセンス: Link先を確認
Nikhil Verma and Krishna Prasad(参考訳) リクルーターは、カリキュラムヴィタエ(CV)文書を閲覧することで、求職者の候補を簡単にショートリストできる。 非構造化文書 cv は候補者のポートフォリオと名前付きエンティティの詳細を保持する。 本研究の主な目的は,階層的なラベルアテンションネットワークを用いてcvエンティティを体系的に予測する,web指向,高応答性,計算パイプラインの設計と提案である。 名前付きエンティティ認識に特化したディープラーニングモデルは、関連するフィールドを予測するために大きなデータセットでトレーニングされた。 この記事では、複数のディープラーニングモデルを並列に使用し、リアルタイムで予測する最適な戦略を提案する。 分析階層処理アルゴリズムを用いた軽量マイクロwebフレームワークの選択を実証し,マイクロサービスを用いた大規模ディープラーニングモデルベースパイプラインの運用環境への展開に有用なアプローチに注目した。 デプロイされたモデルとアーキテクチャは、リクエストのシーケンシャルフローに対して700ミリ秒未満で通常のCVを解析するのに役立った。

Recruiters can easily shortlist candidates for jobs via viewing their curriculum vitae (CV) document. Unstructured document CV beholds candidate's portfolio and named entities listing details. The main aim of this study is to design and propose a web oriented, highly responsive, computational pipeline that systematically predicts CV entities using hierarchically-refined label attention networks. Deep learning models specialized for named entity recognition were trained on large dataset to predict relevant fields. The article suggests an optimal strategy to use a number of deep learning models in parallel and predict in real time. We demonstrate selection of light weight micro web framework using Analytical Hierarchy Processing algorithm and focus on an approach useful to deploy large deep learning model-based pipelines in production ready environments using microservices. Deployed models and architecture proposed helped in parsing normal CV in less than 700 milliseconds for sequential flow of requests.
翻訳日:2023-07-12 19:39:30 公開日:2023-07-11
# 生成化学と薬物設計のためのハイブリッド量子古典機械学習

Hybrid quantum-classical machine learning for generative chemistry and drug design ( http://arxiv.org/abs/2108.11644v2 )

ライセンス: Link先を確認
A.I. Gircha, A.S. Boev, K. Avchaciov, P.O. Fedichev, A.K. Fedorov(参考訳) 深層生成化学モデルは、創薬を促進する強力なツールとして出現する。 しかし、可能な全ての薬物様分子の構造空間の膨大なサイズと複雑さは、量子コンピュータと深い古典的ネットワークを組み合わせたハイブリッドアーキテクチャで克服できるような大きな障害を引き起こす。 この目標に向けた第1ステップとして,制限ボルツマンマシン(RBM)を潜在層に縮小した小型離散分散変分オートエンコーダ(DVAE)を開発した。 提案したモデルのサイズは、最先端のD-Wave量子アニールに適合するほど小さく、生物活性化合物のChEMBLデータセットのサブセットのトレーニングが可能であった。 最後に,ChEMBLの分子に典型的な薬品化学および合成アクセシビリティ特性を有する2331の新規な化学構造を作成した。 本研究は,すでに存在する,あるいは間もなく利用可能になる量子コンピューティングデバイスを,将来の薬物発見応用のためのテストベッドとして使用できることを示す。

Deep generative chemistry models emerge as powerful tools to expedite drug discovery. However, the immense size and complexity of the structural space of all possible drug-like molecules pose significant obstacles, which could be overcome with hybrid architectures combining quantum computers with deep classical networks. As the first step toward this goal, we built a compact discrete variational autoencoder (DVAE) with a Restricted Boltzmann Machine (RBM) of reduced size in its latent layer. The size of the proposed model was small enough to fit on a state-of-the-art D-Wave quantum annealer and allowed training on a subset of the ChEMBL dataset of biologically active compounds. Finally, we generated 2331 novel chemical structures with medicinal chemistry and synthetic accessibility properties in the ranges typical for molecules from ChEMBL. The presented results demonstrate the feasibility of using already existing or soon-to-be-available quantum computing devices as testbeds for future drug discovery applications.
翻訳日:2023-07-12 19:39:14 公開日:2023-07-11
# 高次元コヒーレント一方向量子鍵分布

High-dimensional coherent one-way quantum key distribution ( http://arxiv.org/abs/2105.04733v5 )

ライセンス: Link先を確認
Kfir Sulimany, Guy Pelc, Rom Dudkiewicz, Simcha Korenblit, Hagai S. Eisenberg, Yaron Bromberg, Michael Ben-Or(参考訳) 高次元量子鍵分布(QKD)は、2次元符号化を利用したQKDプロトコルによって達成可能なものを上回るセキュアな鍵レートを持つセキュアな通信を提供する。 しかし、既存の高次元QKDプロトコルは、マルチポート干渉計や複数の検出器などの追加の実験資源を必要とするため、実用的な高次元システムのコストが上がり、使用が制限される。 本稿では,標準的な2次元システムのハードウェアのみを必要とする任意の次元QKDのための新しいプロトコルを提示し,解析する。 個々の攻撃やコヒーレント攻撃に対するセキュリティ証明を提供し、セキュアな鍵レートの上限を上下に設定します。 そして,40kmのファイバーリンク上の標準2次元QKDシステムにおいて,新しい高次元プロトコルをテストする。 新しいプロトコルは、ハードウェアの変更をシステムに導入することなく、標準の2次元コヒーレントなワンウェイプロトコルと比較して、セキュアなキーレートを2倍に向上させる。 したがって、この作業はソフトウェアアップデートだけで、既にデプロイされた時間単位のQKDシステムの性能を向上させる大きな可能性を秘めている。 さらに、その応用はQKDクォーディットの様々な符号化スキームにまたがる。

High-dimensional quantum key distribution (QKD) offers secure communication, with secure key rates that surpass those achievable by QKD protocols utilizing two-dimensional encoding. However, existing high-dimensional QKD protocols require additional experimental resources, such as multiport interferometers and multiple detectors, thus raising the cost of practical high-dimensional systems and limiting their use. Here, we present and analyze a novel protocol for arbitrary-dimensional QKD, that requires only the hardware of a standard two-dimensional system. We provide security proofs against individual attacks and coherent attacks, setting an upper and lower bound on the secure key rates. Then, we test the new high-dimensional protocol in a standard two-dimensional QKD system over a 40 km fiber link. The new protocol yields a two-fold enhancement of the secure key rate compared to the standard two-dimensional coherent one-way protocol, without introducing any hardware modifications to the system. This work, therefore, holds great potential to enhance the performance of already deployed time-bin QKD systems through a software update alone. Furthermore, its applications extend across different encoding schemes of QKD qudits.
翻訳日:2023-07-12 19:37:46 公開日:2023-07-11
# ZH計算の完全性

Completeness of the ZH-calculus ( http://arxiv.org/abs/2103.06610v2 )

ライセンス: Link先を確認
Miriam Backens, Aleks Kissinger, Hector Miller-Bakewell, John van de Wetering, Sal Wolffs(参考訳) 量子計算を記述するための様々なゲートセットがある。 特に人気のあるものはクリフォードゲートと任意の単一キュービット位相ゲートからなる。 このゲート集合の計算は、キュービット間の線型写像を記述する文字列ダイアグラムのクラスのためのグラフィカル言語 zx-calculus によってエレガントに記述することができる。 ZX-計算は様々な量子情報領域で有用であることが証明されているが、トフォリゲートのような多線形ブール演算のような自然ゲート集合の外での演算の推論には適していない。 本稿では, toffoli ゲートや他の複雑なブール論理回路の簡単なエンコーディングを可能にする文字列図の代替グラフィカル言語 zh-calculus について検討する。 この計算の単純な書き直し規則を見つけ、ほぼ普遍的な toffoli+hadamard ゲート集合に対応する $\mathbb{z}[\frac12]$ 上の行列に関して完備であることを示す。 さらに、1+1$ が零因子でない任意の環 $r$ 上の行列に関して完備である zh-計算の拡張版を構築する。

There are various gate sets used for describing quantum computation. A particularly popular one consists of Clifford gates and arbitrary single-qubit phase gates. Computations in this gate set can be elegantly described by the ZX-calculus, a graphical language for a class of string diagrams describing linear maps between qubits. The ZX-calculus has proven useful in a variety of areas of quantum information, but is less suitable for reasoning about operations outside its natural gate set such as multi-linear Boolean operations like the Toffoli gate. In this paper we study the ZH-calculus, an alternative graphical language of string diagrams that does allow straightforward encoding of Toffoli gates and other more complicated Boolean logic circuits. We find a set of simple rewrite rules for this calculus and show it is complete with respect to matrices over $\mathbb{Z}[\frac12]$, which correspond to the approximately universal Toffoli+Hadamard gateset. Furthermore, we construct an extended version of the ZH-calculus that is complete with respect to matrices over any ring $R$ where $1+1$ is not a zero-divisor.
翻訳日:2023-07-12 19:37:26 公開日:2023-07-11
# IP-ICN共存のセキュリティとプライバシ:包括的調査

Security and Privacy of IP-ICN Coexistence: A Comprehensive Survey ( http://arxiv.org/abs/2209.02835v2 )

ライセンス: Link先を確認
Enkeleda Bardhi, Mauro Conti, Riccardo Lazzeretti, Eleonora Losiouk(参考訳) 今日、インターネットは膨大な数のユーザーを抱えており、データの需要が継続的に増加している。 これらの制限を克服するために、ホスト中心からデータ中心への移行を提案し、この文脈では、ICN(Information-Centric Networking)は有望なソリューションである。 それでも、インターネットサービスプロバイダ(isp)、バックボーン、自律サービス(as)の世界的な調整を必要とするため、現在のインターネットネットワーク層、すなわちip(internet protocol)をicnと統合することは困難かつ高価な作業である。 したがって、現在のインターネットの代替プロセスは、IPとICNの共存によって遷移すると予想される。 この観点では、新しいアーキテクチャはIPとICNプロトコルを組み合わせている。 しかし、提案されたアーキテクチャのいくつかだけがセキュリティ・バイ・デザインの機能を備えている。 そこで本論文では,3つのデプロイメントアプローチ,すなわちオーバーレイ,アンダーレイ,ハイブリッドのSP機能を水平に比較し,検討対象のSP機能と垂直に比較することにより,最先端のIP-ICN共存アーキテクチャの総合的なセキュリティとプライバシ(SP)分析を行う。 最後に、この記事はオープンな問題とIP-ICN共存の可能性について光を当てている。 分析の結果、ほとんどのアーキテクチャはデータやトラフィックフローの機密性、可用性、コミュニケーションの匿名性など、いくつかのsp機能を提供していないことがわかった。 本稿は、インターネットが確実に横断する共存段階における、現在のプロトコルスタックと将来のプロトコルスタックの安全な組み合わせを示す。

Today Internet is experiencing a massive number of users with a continuously increasing need for data, which is the leading cause of introduced limitations among security and privacy issues. To overcome these limitations, a shift from host-centric to data-centric is proposed, and in this context, Information-Centric Networking (ICN) represents a promising solution. Nevertheless, unsettling the current Internet network layer, i.e., Internet Protocol (IP), with ICN is a challenging, expensive task since it requires worldwide coordination among Internet Service Providers (ISPs), backbone, and Autonomous Services (AS). Therefore, researchers foresee that the replacement process of the current Internet will transition through the coexistence of IP and ICN. In this perspective, novel architectures combine IP and ICN protocols. However, only a few of the proposed architectures place the security-by-design feature. Therefore, this article provides the first comprehensive Security and Privacy (SP) analysis of the state-of-the-art IP-ICN coexistence architectures by horizontally comparing the SP features among three deployment approaches, i.e., overlay, underlay, and hybrid, and vertically comparing among the ten considered SP features. Lastly, the article sheds light on the open issues and possible future directions for IP-ICN coexistence. Our analysis shows that most architectures fail to provide several SP features, including data and traffic flow confidentiality, availability, and anonymity of communication. Thus, this article shows the secure combination of current and future protocol stacks during the coexistence phase that the Internet will definitely walk across.
翻訳日:2023-07-12 19:30:18 公開日:2023-07-11
# 因果フェルミオン系の絡み合った量子状態とユニタリ群積分

Entangled Quantum States of Causal Fermion Systems and Unitary Group Integrals ( http://arxiv.org/abs/2207.13157v2 )

ライセンス: Link先を確認
Felix Finster, Niky Kamran and Moritz Reintjes(参考訳) 本稿では,因果フェルミオン系の量子状態の詳細な解析と計算について述べる。 数学的核は、群の大きな次元に対して漸近的にユニタリ群上の積分を計算することである。 十分定義された極限の場合において、局所化された洗練された前状態は正であり、一般の絡み合った状態を記述することができる。

This paper is dedicated to a detailed analysis and computation of quantum states of causal fermion systems. The mathematical core is to compute integrals over the unitary group asymptotically for a large dimension of the group, for various integrands with a specific scaling behavior in this dimension. It is shown that, in a well-defined limiting case, the localized refined pre-state is positive and allows for the description of general entangled states.
翻訳日:2023-07-12 19:29:50 公開日:2023-07-11
# legonn: モジュラーエンコーダ-デコーダモデルの構築

LegoNN: Building Modular Encoder-Decoder Models ( http://arxiv.org/abs/2206.03318v2 )

ライセンス: Link先を確認
Siddharth Dalmia, Dmytro Okhonko, Mike Lewis, Sergey Edunov, Shinji Watanabe, Florian Metze, Luke Zettlemoyer, and Abdelrahman Mohamed(参考訳) 最先端エンコーダデコーダモデル(例えば、機械翻訳(MT)や自動音声認識(ASR))は、原子単位として構築され、訓練されたエンドツーエンドである。 モデルのコンポーネントを他のコンポーネントなしで(再)使用することはできないため、高リソースデコーダなどの部品をタスク間で共有することは不可能である。 LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。 この再利用性を達成するために、エンコーダモジュールとデコーダモジュールの間のインタフェースは、事前定義された離散語彙上の境界分布の列に接する。 我々は,これらの辺縁を摂取するための2つのアプローチを提案する。1つは微分可能であり,ネットワーク全体の勾配の流れを許容し,もう1つは勾配分離である。 異なるソース言語やASRなどのタスク間でのMTタスク間のデコーダモジュールのポータビリティを実現するために,事前学習したデコーダの入力長範囲に合わせるために,エンコーダの出力長を動的に適応する長さ制御機構からなるモダリティ非依存エンコーダを導入する。 また,europarl english asrとルーマニア英語(ro-en)mtタスクを微調整することなく,ドイツ語-英語(de-en)mtタスクから学習した言語生成legonnデコーダモジュールを再利用し,ベースラインのパフォーマンスを一致させたり,打ち負かしたりすることが可能である。 微調整後、LegoNNモデルはRo-En MTタスクを1.5 BLEUポイント改善し、Europarl ASRタスクで12.5%のWER削減を達成した。 このアプローチの一般化を示すために、3つのモジュールからLegoNN ASRモデルを構成します。それぞれが3つの異なるデータセット上で、さまざまなエンドツーエンドトレーニングモデル内で学習されており、全体的なWERの削減率は19.5%に達しています。

State-of-the-art encoder-decoder models (e.g. for machine translation (MT) or automatic speech recognition (ASR)) are constructed and trained end-to-end as an atomic unit. No component of the model can be (re-)used without the others, making it impossible to share parts, e.g. a high resourced decoder, across tasks. We describe LegoNN, a procedure for building encoder-decoder architectures in a way so that its parts can be applied to other tasks without the need for any fine-tuning. To achieve this reusability, the interface between encoder and decoder modules is grounded to a sequence of marginal distributions over a pre-defined discrete vocabulary. We present two approaches for ingesting these marginals; one is differentiable, allowing the flow of gradients across the entire network, and the other is gradient-isolating. To enable the portability of decoder modules between MT tasks for different source languages and across other tasks like ASR, we introduce a modality agnostic encoder which consists of a length control mechanism to dynamically adapt encoders' output lengths in order to match the expected input length range of pre-trained decoders. We present several experiments to demonstrate the effectiveness of LegoNN models: a trained language generation LegoNN decoder module from German-English (De-En) MT task can be reused without any fine-tuning for the Europarl English ASR and the Romanian-English (Ro-En) MT tasks, matching or beating the performance of baseline. After fine-tuning, LegoNN models improve the Ro-En MT task by 1.5 BLEU points and achieve 12.5% relative WER reduction on the Europarl ASR task. To show how the approach generalizes, we compose a LegoNN ASR model from three modules -- each has been learned within different end-to-end trained models on three different datasets -- achieving an overall WER reduction of 19.5%.
翻訳日:2023-07-12 19:28:46 公開日:2023-07-11
# オープンソースプラットフォームを用いた光検出磁気共鳴

Optically detected magnetic resonance with an open source platform ( http://arxiv.org/abs/2205.00005v4 )

ライセンス: Link先を確認
Hossein Babashah, Hoda Shirzad, Elena Losero, Valentin Goblot, Christophe Galland, Mayeul Chipaux(参考訳) 固体環境における局在電子スピンは、量子センシング、気象学、量子情報処理のための汎用的で堅牢なプラットフォームを形成する。 光によって検出された磁気共鳴(ODMR)により、高コヒーレントなスピン系を最大室温まで準備および読み出しが可能となり、誘導法に比べて感度と空間分解能が大幅に向上し、単一のスピン操作が可能となった。 ODMRは初めて有機分子で観測されたが、その後多くの他の系が同定された。 そのうちの1つは、ダイヤモンド中の窒素空孔(NV)中心であり、外部磁場のナノスケール量子センサーやスピン量子ビットとして使われている。 odmrを許容する他のシステムは、量子記憶として使われる希土類イオンや、バルクまたは2次元ホスト材料に閉じ込められた多くの色中心である。 研究者や技術者のコミュニティが、新しいODMRベースの材料や応用を研究・開発できるようにするため、商用ハードウェアを用いたODMR実験のセットアップについて概説する。 また、qudiという専用のオープンソースインターフェースの詳細を説明し、データ取得のスピードアップ、機器要件の緩和、アンサンブル測定への適用性の拡張のために追加した機能について説明します。 本稿では、ハードウェアとソフトウェア開発の両方をカバーし、様々な科学的背景からODMRの初心者の学習曲線を絞り込み、実験開発時間を最適化し、共通の計測落とし穴を回避し、革新的な実験を実施するための効率的でポータブルで協調的なインターフェースを提供することを目的とする。

Localized electronic spins in solid-state environments form versatile and robust platforms for quantum sensing, metrology and quantum information processing. With optically detected magnetic resonance (ODMR), it is possible to prepare and readout highly coherent spin systems, up to room temperature, with orders of magnitude enhanced sensitivities and spatial resolutions compared to induction-based techniques, allowing for single spin manipulations. While ODMR was first observed in organic molecules, many other systems have since then been identified. Among them is the nitrogen-vacancy (NV) center in diamond, which is used both as a nanoscale quantum sensor for external fields and as a spin qubit. Other systems permitting ODMR are rare earth ions used as quantum memories and many other color centers trapped in bulk or 2-dimensional host materials. In order to allow the broadest possible community of researchers and engineers to investigate and develop novel ODMR-based materials and applications, we review here the setting up of ODMR experiments using commercially available hardware. We also present in detail the dedicated collaborative open-source interface named Qudi and describe the features we added to speed-up data acquisition, relax instrument requirements and extend its applicability to ensemble measurements. Covering both hardware and software development, this article aims to steepen the learning curve of newcomers in ODMR from a variety of scientific backgrounds, optimize the experimental development time, preempt the common measurement pitfalls, and provide an efficient, portable and collaborative interface to implement innovative experiments.
翻訳日:2023-07-12 19:28:04 公開日:2023-07-11
# 小型量子コンピュータを用いた高次元量子機械学習

High Dimensional Quantum Machine Learning With Small Quantum Computers ( http://arxiv.org/abs/2203.13739v3 )

ライセンス: Link先を確認
Simon C. Marshall, Casper Gyurik and Vedran Dunjko(参考訳) 量子コンピュータは機械学習を強化するという大きな約束を持っているが、現在の量子ビット数は、この約束の実現を制限する。 この制限を定式化するために、この制限技術は、必要な回路よりも少ないキュービットのマシンを用いて量子回路を評価するために適用することができる。 これらの手法は、小さなマシン上の多数の小さな回路を評価し、それを多項式に組み合わせてより大きなマシンの出力を再現する。 この方式は一般的な回路よりも多くの回路評価を必要とする。 しかし,これらのサブ回路の多くは超流動的であり,全回路を見積もるのに十分な総和が十分である可能性について検討する。 我々は、回路評価をはるかに少なくして、より大きな回路の出力を近似できる機械学習モデルを構築する。 データ次元よりもはるかに小さいシミュレーション量子コンピュータを用いて、我々のモデルを数値認識のタスクに適用することに成功した。 このモデルは、5量子ビットコンピュータへのシミュレーションアクセスでランダムな10量子PQCを近似するタスクにも適用され、比較的控えめな数の回路であっても、ニューラルネットワークの試みよりも10量子PQCの出力を正確に近似することができる。 提案手法は, NISQ 時代を通じて大規模データに量子モデルを実装するのに有用である。

Quantum computers hold great promise to enhance machine learning, but their current qubit counts restrict the realisation of this promise. In an attempt to placate this limitation techniques can be applied for evaluating a quantum circuit using a machine with fewer qubits than the circuit naively requires. These techniques work by evaluating many smaller circuits on the smaller machine, that are then combined in a polynomial to replicate the output of the larger machine. This scheme requires more circuit evaluations than are practical for general circuits. However, we investigate the possibility that for certain applications many of these subcircuits are superfluous, and that a much smaller sum is sufficient to estimate the full circuit. We construct a machine learning model that may be capable of approximating the outputs of the larger circuit with much fewer circuit evaluations. We successfully apply our model to the task of digit recognition, using simulated quantum computers much smaller than the data dimension. The model is also applied to the task of approximating a random 10 qubit PQC with simulated access to a 5 qubit computer, even with only relatively modest number of circuits our model provides an accurate approximation of the 10 qubit PQCs output, superior to a neural network attempt. The developed method might be useful for implementing quantum models on larger data throughout the NISQ era.
翻訳日:2023-07-12 19:27:37 公開日:2023-07-11
# BTPKを用いたTalmudic Public Announcement Logicに基づくNERタスクの解釈法

BTPK-based interpretable method for NER tasks based on Talmudic Public Announcement Logic ( http://arxiv.org/abs/2201.09523v2 )

ライセンス: Link先を確認
Yulin Chen, Beishui Liao, Bruno Bentzen, Bo Yuan, Zelai Yao, Haixiao Chi, and Dov Gabbay(参考訳) 自然言語処理における基本的なタスクの1つとして、エンティティ認識(NER)は、情報抽出、構文解析、機械翻訳など、NLPの下流タスクのための重要な基本ツールである。 現在の名前エンティティ認識モデルの内部操作ロジックは、ユーザにはブラックボックスであるため、ユーザはどの名前エンティティがより意味のあるものかを判断する根拠がない。 したがって、ユーザフレンドリーな説明可能な認識プロセスは、多くの人にとって非常に有用である。 本稿では,新しい解釈可能な手法であるbtpk(binary talmudic public announcement logic model)を提案する。 BTPKモデルは、入力文、すなわち文の文脈依存性における意味情報をキャプチャすることができる。 我々は,BTPKの公開発表がBRNNの内部決定ロジックを示し,BTPKモデルから得られた説明は,BRNNが本質的にNERタスクをどのように扱うかを示す。

As one of the basic tasks in natural language processing (NLP), named entity recognition (NER) is an important basic tool for downstream tasks of NLP, such as information extraction, syntactic analysis, machine translation and so on. The internal operation logic of current name entity recognition model is black-box to the user, so the user has no basis to determine which name entity makes more sense. Therefore, a user-friendly explainable recognition process would be very useful for many people. In this paper, we propose a novel interpretable method, BTPK (Binary Talmudic Public Announcement Logic model), to help users understand the internal recognition logic of the name entity recognition tasks based on Talmudic Public Announcement Logic. BTPK model can also capture the semantic information in the input sentences, that is, the context dependency of the sentence. We observed the public announcement of BTPK presents the inner decision logic of BRNNs, and the explanations obtained from a BTPK model show us how BRNNs essentially handle NER tasks.
翻訳日:2023-07-12 19:27:15 公開日:2023-07-11
# スケールフリーオンラインラーニングへの応用による等質化

Isotuning With Applications To Scale-Free Online Learning ( http://arxiv.org/abs/2112.14586v2 )

ライセンス: Link先を確認
Laurent Orseau, Marcus Hutter(参考訳) 我々は、高速で適応的で、いつでも、スケールフリーなオンライン学習アルゴリズムを設計するために、文学のいくつかのツールを拡張し、組み合わせます。 スケールフリーの後悔境界は、大きな損失と非常に小さな損失の両方に対して、最大損失とともに直線的にスケールしなければならない。 適応的後悔境界(Adaptive regret bounds)は、アルゴリズムが簡単なデータを利用して、繰り返し後悔する可能性があることを示す。 我々は、できるだけ少数のパラメータに依存する高速なアルゴリズム、特にそれらはいつでも存在すべきであり、したがって時間軸に依存しないアルゴリズムの開発を目指している。 私たちの最初の主要なツールは、後悔のトレードオフのバランスをとるという考え方の一般化です。 このような学習率の設計と分析を容易にするツールセットを開発し,後悔率(定数,$o(\log t)$,$o(\sqrt{t})$など)に自動的に適応することを示す。 ) 同一の観測量に対する後視における最適学習率の2因子以内であった。 2つめのツールはオンライン修正で、多くのアルゴリズムで中心境界を得ることができ、ドメインが大きすぎるか、一部しか制約されていない場合に、後悔境界が空白になることを防ぐ。 最後のツールであるnull updateは、アルゴリズムが過度に大規模な更新を実行できないようにする。 我々はこれらのツールを用いて一般的な理論を開発し、いくつかの標準アルゴリズムに適用する。 特に、(ほぼ完全に)非有界領域に対するFTRLの小さな損失に対する適応性を復元し、ミラー・ディクセントの変種に対するスケールフリー適応保証(少なくとも第2引数においてブレグマン偏差が凸である場合)を設計し、証明し、Adapt-ML-Prodをスケールフリー保証に拡張し、Prod、AdaHedge、BOA、Soft-Bayesに関するいくつかの小さな貢献を提供する。

We extend and combine several tools of the literature to design fast, adaptive, anytime and scale-free online learning algorithms. Scale-free regret bounds must scale linearly with the maximum loss, both toward large losses and toward very small losses. Adaptive regret bounds demonstrate that an algorithm can take advantage of easy data and potentially have constant regret. We seek to develop fast algorithms that depend on as few parameters as possible, in particular they should be anytime and thus not depend on the time horizon. Our first and main tool, isotuning, is a generalization of the idea of balancing the trade-off of the regret. We develop a set of tools to design and analyze such learning rates easily and show that they adapts automatically to the rate of the regret (whether constant, $O(\log T)$, $O(\sqrt{T})$, etc.) within a factor 2 of the optimal learning rate in hindsight for the same observed quantities. The second tool is an online correction, which allows us to obtain centered bounds for many algorithms, to prevent the regret bounds from being vacuous when the domain is overly large or only partially constrained. The last tool, null updates, prevents the algorithm from performing overly large updates, which could result in unbounded regret, or even invalid updates. We develop a general theory using these tools and apply it to several standard algorithms. In particular, we (almost entirely) restore the adaptivity to small losses of FTRL for unbounded domains, design and prove scale-free adaptive guarantees for a variant of Mirror Descent (at least when the Bregman divergence is convex in its second argument), extend Adapt-ML-Prod to scale-free guarantees, and provide several other minor contributions about Prod, AdaHedge, BOA and Soft-Bayes.
翻訳日:2023-07-12 19:26:56 公開日:2023-07-11
# RELDEC: 正規長LDPC符号の強化学習に基づく復号化

RELDEC: Reinforcement Learning-Based Decoding of Moderate Length LDPC Codes ( http://arxiv.org/abs/2112.13934v2 )

ライセンス: Link先を確認
Salman Habib, Allison Beemer, and Joerg Kliewer(参考訳) 本研究では,中等長低密度パリティチェック(LDPC)符号の逐次復号化手法であるRELDECを提案する。 RELDECの背景にある主要な考え方は、マルコフ決定プロセス(MDP)に基づいた強化学習によって最適化された復号法が得られたことである。 エージェントがひとつのグループ(クラスタ)内の1つのチェックノード(cn)だけをスケジュールすることを学ぶ以前の作業とは対照的に、この作業では、エージェントにクラスタ内のすべてのcnと、イテレーション毎にすべてのクラスタをスケジュールするようにトレーニングします。 すなわち、RELDECの各学習ステップにおいて、エージェントは特定のクラスタのスケジューリング結果に関連する報酬に応じて、CNクラスタを順次スケジュールすることを学ぶ。 また、MPPの状態空間の表現も変更し、RELDECが以前の研究よりも大きなブロック長LDPC符号に適合できるようにした。 さらに,様々なチャネル条件下での復号化に対処するために,メタ強化学習を用いたアジャイルメタRELDEC(AM-RELDEC)を提案する。 提案したRELDEC方式は,5G新無線用に設計されたコードを含む様々なLDPC符号に対して,標準的なフラッディングとランダムなシーケンシャルデコーディングを著しく上回っている。

In this work we propose RELDEC, a novel approach for sequential decoding of moderate length low-density parity-check (LDPC) codes. The main idea behind RELDEC is that an optimized decoding policy is subsequently obtained via reinforcement learning based on a Markov decision process (MDP). In contrast to our previous work, where an agent learns to schedule only a single check node (CN) within a group (cluster) of CNs per iteration, in this work we train the agent to schedule all CNs in a cluster, and all clusters in every iteration. That is, in each learning step of RELDEC an agent learns to schedule CN clusters sequentially depending on a reward associated with the outcome of scheduling a particular cluster. We also modify the state space representation of the MDP, enabling RELDEC to be suitable for larger block length LDPC codes than those studied in our previous work. Furthermore, to address decoding under varying channel conditions, we propose agile meta-RELDEC (AM-RELDEC) that employs meta-reinforcement learning. The proposed RELDEC scheme significantly outperforms standard flooding and random sequential decoding for a variety of LDPC codes, including codes designed for 5G new radio.
翻訳日:2023-07-12 19:26:18 公開日:2023-07-11
# 分散連合学習 : 基礎, 現状, フレームワーク, トレンド, 課題

Decentralized Federated Learning: Fundamentals, State of the Art, Frameworks, Trends, and Challenges ( http://arxiv.org/abs/2211.08413v3 )

ライセンス: Link先を確認
Enrique Tom\'as Mart\'inez Beltr\'an, Mario Quiles P\'erez, Pedro Miguel S\'anchez S\'anchez, Sergio L\'opez Bernal, G\'er\^ome Bovet, Manuel Gil P\'erez, Gregorio Mart\'inez P\'erez, Alberto Huertas Celdr\'an(参考訳) 過去10年間で、フェデレートラーニング(FL)は、機密データを共有せずにコラボレーティブモデルのトレーニングに関連がある。 中央集権FL(CFL)は、その誕生以来、中央の実体が大域的なモデルを作成する文学において最も一般的なアプローチである。 しかしながら、集中的なアプローチはボトルネックによるレイテンシの増加、システムの障害に対する脆弱性の増大、グローバルモデル作成に責任を持つエンティティに対する信頼性の懸念などにつながります。 DFL(Decentralized Federated Learning)は、分散モデルの集約を促進し、集中型アーキテクチャへの依存を最小限にすることで、これらの問題に対処するために登場した。 しかし、DFLでの作業にもかかわらず、文献は残っていない。 (i)DFLとCFLを区別する主な側面の研究。 (二)新しいソリューションを作成し評価するためのDFLフレームワークの分析、及び 3)DFLを用いたアプリケーションシナリオのレビュー。 本稿では,フェデレーションアーキテクチャ,トポロジ,通信機構,セキュリティアプローチ,主要なパフォーマンス指標といった観点から,dflの主な基礎を特定し,分析する。 さらに、論文は重要なdflの基本を最適化するための既存のメカニズムを探求している。 次に、現在のdflフレームワークの最も関連するフィーチャをレビューして比較する。 その後、最もよく使われるDFLアプリケーションシナリオを分析し、以前定義された基本とフレームワークに基づいたソリューションを特定します。 最後に、既存のDFLソリューションの進化について研究し、トレンド、学んだ教訓、オープンな課題のリストを提供する。

In the last decade, Federated Learning (FL) has gained relevance in training collaborative models without sharing sensitive data. Since its birth, Centralized FL (CFL) has been the most common approach in the literature, where a central entity creates a global model. However, a centralized approach leads to increased latency due to bottlenecks, heightened vulnerability to system failures, and trustworthiness concerns affecting the entity responsible for the global model creation. Decentralized Federated Learning (DFL) emerged to address these concerns by promoting decentralized model aggregation and minimizing reliance on centralized architectures. However, despite the work done in DFL, the literature has not (i) studied the main aspects differentiating DFL and CFL; (ii) analyzed DFL frameworks to create and evaluate new solutions; and (iii) reviewed application scenarios using DFL. Thus, this article identifies and analyzes the main fundamentals of DFL in terms of federation architectures, topologies, communication mechanisms, security approaches, and key performance indicators. Additionally, the paper at hand explores existing mechanisms to optimize critical DFL fundamentals. Then, the most relevant features of the current DFL frameworks are reviewed and compared. After that, it analyzes the most used DFL application scenarios, identifying solutions based on the fundamentals and frameworks previously defined. Finally, the evolution of existing DFL solutions is studied to provide a list of trends, lessons learned, and open challenges.
翻訳日:2023-07-12 19:20:06 公開日:2023-07-11
# 視覚スキャンパス予測のためのobserver間一貫性のあるディープ・コンバーサル・トレーニング

An Inter-observer consistent deep adversarial training for visual scanpath prediction ( http://arxiv.org/abs/2211.07336v2 )

ライセンス: Link先を確認
Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Alessandro Bruno(参考訳) 視覚スキャンパス(visual scanpath)は、シーンを探索しながら人間の視線が動く点のシーケンスである。 視覚的注意研究の基盤となる基本的な概念である。 その結果,近年,これらの予測能力が重要な課題となっている。 本稿では,軽量深層ニューラルネットワークによるスキャニングパス予測のための,オブザーバ間の一貫性のある逆向学習手法を提案する。 本手法は、異なる観測者によって横断される走査パスの主観的性質に関する分布間の整合性を維持しつつ、自然な確率現象をモデル化するのに適した動的損失として識別ニューラルネットワークを用いる。 広範なテストを通じて、最先端の手法に対する我々のアプローチの競争力を示す。

The visual scanpath is a sequence of points through which the human gaze moves while exploring a scene. It represents the fundamental concepts upon which visual attention research is based. As a result, the ability to predict them has emerged as an important task in recent years. In this paper, we propose an inter-observer consistent adversarial training approach for scanpath prediction through a lightweight deep neural network. The adversarial method employs a discriminative neural network as a dynamic loss that is better suited to model the natural stochastic phenomenon while maintaining consistency between the distributions related to the subjective nature of scanpaths traversed by different observers. Through extensive testing, we show the competitiveness of our approach in regard to state-of-the-art methods.
翻訳日:2023-07-12 19:19:37 公開日:2023-07-11
# 短時間量子力学の古典シミュレーション

Classical simulation of short-time quantum dynamics ( http://arxiv.org/abs/2210.11490v2 )

ライセンス: Link先を確認
Dominik S. Wild, \'Alvaro M. Alhambra(参考訳) 近年の量子技術の発展は、ますます複雑な量子多体系のダイナミクスの直接的調査を可能にした。 これにより、量子シミュレータをベンチマークし、量子アドバンテージの仕組みを記述するために、この問題の古典的アルゴリズムの複雑さの研究が動機づけられる。 ここでは、局所観測可能量の力学とロシミットエコーのような非局所量とを近似する古典的アルゴリズムを提案する。 短期的には、計算コストはシステムのサイズと近似誤差の逆数と多項式的にスケールする。 局所可観測器の場合、提案アルゴリズムはリーブ・ロビンソン境界に基づくアルゴリズムよりも近似誤差に依存している。 本研究では,動的設定に適応したクラスタ拡張手法を用いて,その収束の新たな証明を行う。 これは、効率的なアルゴリズム以外にも重要な物理的結果をもたらす。 特に、新しい量子速度限界、動的相転移の束縛、および生成状態の束縛された濃度が短期間に進化した。

Recent progress in the development of quantum technologies has enabled the direct investigation of dynamics of increasingly complex quantum many-body systems. This motivates the study of the complexity of classical algorithms for this problem in order to benchmark quantum simulators and to delineate the regime of quantum advantage. Here we present classical algorithms for approximating the dynamics of local observables and nonlocal quantities such as the Loschmidt echo, where the evolution is governed by a local Hamiltonian. For short times, their computational cost scales polynomially with the system size and the inverse of the approximation error. In the case of local observables, the proposed algorithm has a better dependence on the approximation error than algorithms based on the Lieb-Robinson bound. Our results use cluster expansion techniques adapted to the dynamical setting, for which we give a novel proof of their convergence. This has important physical consequences besides our efficient algorithms. In particular, we establish a novel quantum speed limit, a bound on dynamical phase transitions, and a concentration bound for product states evolved for short times.
翻訳日:2023-07-12 19:19:26 公開日:2023-07-11
# 説明可能な異常検出に関する調査

A Survey on Explainable Anomaly Detection ( http://arxiv.org/abs/2210.06959v2 )

ライセンス: Link先を確認
Zhong Li, Yuxuan Zhu, Matthijs van Leeuwen(参考訳) 過去20年間、異常検出に関するほとんどの研究は、検出の精度の向上に焦点を合わせ、対応する方法の説明可能性を無視し、実践者に結果の説明を残してきた。 安全クリティカルなドメインでは、異常検出アルゴリズムがますます使われているため、これらのドメインでなされる高リスク決定の説明が倫理的かつ規制的な要件となっている。 そこで本研究では,最先端の異常検出技術に関する包括的かつ構造化された調査を行う。 そこで本研究では,各診断手法を特徴付ける主要な側面に基づく分類法を提案し,そのニーズに最も適した診断手法を実践者や研究者が発見することを目的とする。

In the past two decades, most research on anomaly detection has focused on improving the accuracy of the detection, while largely ignoring the explainability of the corresponding methods and thus leaving the explanation of outcomes to practitioners. As anomaly detection algorithms are increasingly used in safety-critical domains, providing explanations for the high-stakes decisions made in those domains has become an ethical and regulatory requirement. Therefore, this work provides a comprehensive and structured survey on state-of-the-art explainable anomaly detection techniques. We propose a taxonomy based on the main aspects that characterize each explainable anomaly detection technique, aiming to help practitioners and researchers find the explainable anomaly detection method that best suits their needs.
翻訳日:2023-07-12 19:19:11 公開日:2023-07-11
# Kochen-Specker定理の再検討:完全性仮定の緩和

Reexamination of the Kochen-Specker theorem: Relaxation of the completeness assumption ( http://arxiv.org/abs/2210.06822v2 )

ライセンス: Link先を確認
Kelvin Onggadinata, Dagomir Kaszlikowski, Pawel Kurzynski(参考訳) Kochen-Specker定理(Kochen-Specker theorem)は、Kochen-Specker (KS) と呼ばれるある種の測定セットに対して排他的かつ完全な決定論的結果割り当ては不可能である、という定理である。 直接的な結果として、KS 集合はそのような分布に対する合同結果の集合を構築することができないので、合同確率分布を持たない。 しかし、完全性仮定を緩和することで任意の ks 集合上の合同準確率分布を構成できることを示す。 興味深いことに、完備性はまだ測定可能な限界確率分布のレベルで観測可能である。 これは観測可能な完全性が基本的な特徴ではなく、二次的な性質であることを示唆している。

The Kochen-Specker theorem states that exclusive and complete deterministic outcome assignments are impossible for certain sets of measurements, called Kochen-Specker (KS) sets. A straightforward consequence is that KS sets do not have joint probability distributions because no set of joint outcomes over such a distribution can be constructed. However, we show it is possible to construct a joint quasiprobability distribution over any KS set by relaxing the completeness assumption. Interestingly, completeness is still observable at the level of measurable marginal probability distributions. This suggests the observable completeness might not be a fundamental feature, but a secondary property.
翻訳日:2023-07-12 19:18:59 公開日:2023-07-11
# 重み付き非対称損失関数を用いたニューラルネットワークモデルの予測間隔

Prediction intervals for neural network models using weighted asymmetric loss functions ( http://arxiv.org/abs/2210.04318v4 )

ライセンス: Link先を確認
Milo Grillo, Yunpeng Han and Agnieszka Werpachowska(参考訳) 本稿では,予測間隔(pi)を近似・予測する簡易かつ効率的な手法を提案する。 本手法は重み付き非対称損失関数を利用してpiの下限と上限を推定し,その被覆確率によって重み付けを決定する。 本稿では,パラメトリド関数に対するPIの導出にどのように拡張できるかを示し,従属変数のPIの予測になぜ有効なのかを論じる。 ニューラルネットワークモデルを用いた実世界の予測タスクにおける提案手法のテストにより,複雑な機械学習シナリオにおいて信頼性の高いpiを生成できることが示された。

We propose a simple and efficient approach to generate a prediction intervals (PI) for approximated and forecasted trends. Our method leverages a weighted asymmetric loss function to estimate the lower and upper bounds of the PI, with the weights determined by its coverage probability. We provide a concise mathematical proof of the method, show how it can be extended to derive PIs for parametrised functions and argue why the method works for predicting PIs of dependent variables. The presented tests of the method on a real-world forecasting task using a neural network-based model show that it can produce reliable PIs in complex machine learning scenarios.
翻訳日:2023-07-12 19:18:47 公開日:2023-07-11
# 動的量子相転移の解剖

Anatomy of Dynamical Quantum Phase Transitions ( http://arxiv.org/abs/2210.02453v2 )

ライセンス: Link先を確認
Maarten Van Damme, Jean-Yves Desaules, Zlatko Papi\'c, Jad C. Halimeh(参考訳) 量子多体モデルの大域的クエンチは、ランダウ順序パラメータ(OP)の零点に直接接続された周期的動的量子相転移(DQPT)を引き起こす。 関連する力学は、2レベル系の特徴的なラビ振動によく似ていると論じられている。 ここでは、このDQPTの挙動が、有効な2レベルシステムの限界の顕在化であるのか、あるいはより複雑な力学の一部として生じるのかという問題に対処する。 我々は、量子多体スカーリングを有用なおもちゃモデルとして重視し、それ以外はカオスシステムにおける状態移動を自然に研究できる。 DQPTは、退化初期状態多様体の波動関数に対する支配的寄与の変化を、均一な退化多様体の中間点で発生する特別な場合のみOP零点に直接関係していることを示す。 我々の研究は過去の結果を一般化し、概して、周期的なDQPTは2段階系のそれを超える複雑な多体ダイナミクスから構成されていることを明らかにする。

Global quenches of quantum many-body models can give rise to periodic dynamical quantum phase transitions (DQPTs) directly connected to the zeros of a Landau order parameter (OP). The associated dynamics has been argued to bear close resemblance to Rabi oscillations characteristic of two-level systems. Here, we address the question of whether this DQPT behavior is merely a manifestation of the limit of an effective two-level system or if it can arise as part of a more complex dynamics. We focus on quantum many-body scarring as a useful toy model allowing us to naturally study state transfer in an otherwise chaotic system. We find that a DQPT signals a change in the dominant contribution to the wave function in the degenerate initial-state manifold, with a direct relation to an OP zero only in the special case of occurring at the midpoint of an evenly degenerate manifold. Our work generalizes previous results and reveals that, in general, periodic DQPTs comprise complex many-body dynamics fundamentally beyond that of two-level systems.
翻訳日:2023-07-12 19:18:34 公開日:2023-07-11
# 無線ネットワークにおける可変ビット幅フェデレーション学習の性能最適化

Performance Optimization for Variable Bitwidth Federated Learning in Wireless Networks ( http://arxiv.org/abs/2209.10200v3 )

ライセンス: Link先を確認
Sihua Wang and Mingzhe Chen and Christopher G. Brinton and Changchuan Yin and Walid Saad and Shuguang Cui(参考訳) 本稿では,モデル量子化による統合学習(FL)における無線通信と計算効率の向上について考察する。 提案したビット幅FL方式では,エッジデバイスは局所FLモデルパラメータの量子化バージョンを調整し,コーディネートサーバに送信し,それらを量子化されたグローバルモデルに集約し,デバイスを同期させる。 目標は、ローカルflモデルの量子化に使用されるビット幅と、各イテレーションでflトレーニングに参加するデバイスの集合を共同で決定することである。 本稿では,音素化flの学習損失を最小限に抑えるための最適化問題として,音素化装置ごとのサンプリング予算と遅延要件を提案する。 しかし 定式化問題は 解決が困難で (i)量子化がグローバルml性能に与える影響の具体的理解 (ii)このプロセスの見積もりを効率的に構築できるサーバの能力。 最初の課題に対処するため,提案手法では,無線リソースの制限と量子化誤差が性能に与える影響を解析的に評価した。 この結果から,2回連続するイテレーション間のflトレーニング損失の定量化は,デバイス選択と量子化のスキームと,学習対象モデルに固有のパラメータに依存することがわかった。 そこで本研究では,FL学習過程をマルコフ決定過程として記述し,反復よりも行動選択を最適化するためのモデルベース強化学習(RL)手法を提案する。 モデルフリーRLと比較して、このモデルベースRLアプローチは、FLトレーニングプロセスの導出した数学的特徴を利用して、追加のデバイス通信オーバーヘッドを伴わずに効果的なデバイス選択と量子化スキームを発見する。 シミュレーションの結果,提案アルゴリズムは収束時間を短縮できることがわかった。

This paper considers improving wireless communication and computation efficiency in federated learning (FL) via model quantization. In the proposed bitwidth FL scheme, edge devices train and transmit quantized versions of their local FL model parameters to a coordinating server, which aggregates them into a quantized global model and synchronizes the devices. The goal is to jointly determine the bitwidths employed for local FL model quantization and the set of devices participating in FL training at each iteration. We pose this as an optimization problem that aims to minimize the training loss of quantized FL under a per-iteration device sampling budget and delay requirement. However, the formulated problem is difficult to solve without (i) a concrete understanding of how quantization impacts global ML performance and (ii) the ability of the server to construct estimates of this process efficiently. To address the first challenge, we analytically characterize how limited wireless resources and induced quantization errors affect the performance of the proposed FL method. Our results quantify how the improvement of FL training loss between two consecutive iterations depends on the device selection and quantization scheme as well as on several parameters inherent to the model being learned. Then, we show that the FL training process can be described as a Markov decision process and propose a model-based reinforcement learning (RL) method to optimize action selection over iterations. Compared to model-free RL, this model-based RL approach leverages the derived mathematical characterization of the FL training process to discover an effective device selection and quantization scheme without imposing additional device communication overhead. Simulation results show that the proposed FL algorithm can reduce the convergence time.
翻訳日:2023-07-12 19:18:16 公開日:2023-07-11
# 二重確率スケーリングによる多様体密度と幾何学のロバスト推定

Robust Inference of Manifold Density and Geometry by Doubly Stochastic Scaling ( http://arxiv.org/abs/2209.08004v2 )

ライセンス: Link先を確認
Boris Landa and Xiuyuan Cheng(参考訳) ガウス核とその伝統的な正規化(例えば行確率)は、データポイント間の類似性を評価するための一般的なアプローチである。 しかし、高次元雑音下では不正確であり、特にヘテロスケダスティック性や外れ値の下では、データ間でノイズの等級がかなり異なる場合である。 本研究では,ガウス核の2倍確率正規化という,より堅牢な方法を検討する。 高次元空間に埋もれた低次元多様体上の未知の密度から点をサンプリングし、おそらく強く、非同定的に分布する部分ガウス雑音によって崩壊する設定を考える。 二重確率的親和性行列とそのスケーリング因子は、ある集団形式の周りに集中し、対応する有限個の確率的誤差境界を与える。 これらの結果を用いて,高次元雑音下でのロバスト推論のためのツールを開発した。 まず,基礎となるサンプリング密度を確実に推定するロバストな密度推定器を導出し,標準核密度推定器をヘテロスケキスティック性および異常値下で実質的に上回ることができる。 第2に, クリーンデータ点間における点音の大きさ, 点音信号の大きさ, 対方向ユークリッド距離に対する推定値を求める。 最後に、Laplace Beltrami演算子を含む様々な多様体ラプラシアンを正確に近似するロバストグラフラプラシアン正規化を導出し、ノイズのある設定で従来の正規化よりも改善する。 シミュレーションや実単細胞rnaシークエンシングデータでの結果を例示する。 後者の場合、従来の手法とは対照的に、我々のアプローチはセルタイプ間での技術的ノイズレベルの変化に対して堅牢であることを示す。

The Gaussian kernel and its traditional normalizations (e.g., row-stochastic) are popular approaches for assessing similarities between data points. Yet, they can be inaccurate under high-dimensional noise, especially if the noise magnitude varies considerably across the data, e.g., under heteroskedasticity or outliers. In this work, we investigate a more robust alternative -- the doubly stochastic normalization of the Gaussian kernel. We consider a setting where points are sampled from an unknown density on a low-dimensional manifold embedded in high-dimensional space and corrupted by possibly strong, non-identically distributed, sub-Gaussian noise. We establish that the doubly stochastic affinity matrix and its scaling factors concentrate around certain population forms, and provide corresponding finite-sample probabilistic error bounds. We then utilize these results to develop several tools for robust inference under general high-dimensional noise. First, we derive a robust density estimator that reliably infers the underlying sampling density and can substantially outperform the standard kernel density estimator under heteroskedasticity and outliers. Second, we obtain estimators for the pointwise noise magnitudes, the pointwise signal magnitudes, and the pairwise Euclidean distances between clean data points. Lastly, we derive robust graph Laplacian normalizations that accurately approximate various manifold Laplacians, including the Laplace Beltrami operator, improving over traditional normalizations in noisy settings. We exemplify our results in simulations and on real single-cell RNA-sequencing data. For the latter, we show that in contrast to traditional methods, our approach is robust to variability in technical noise levels across cell types.
翻訳日:2023-07-12 19:17:49 公開日:2023-07-11
# コントラスト特徴学習を用いた行動に基づく早期自閉症診断

Action-based Early Autism Diagnosis Using Contrastive Feature Learning ( http://arxiv.org/abs/2209.05379v3 )

ライセンス: Link先を確認
Asha Rani, Pankaj Yadav, Yashaswi Verma(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder, ASD)は、神経疾患である。 その主な症状は、(言語および/または非言語)コミュニケーションの困難さ、堅固で反復的な行動である。 これらの症状は、通常(コントロール)個体と区別できないことが多いが、この疾患は、治療が遅れる早期に診断されないためである。 初期年齢では学習曲線が急なため、自閉症の早期診断は適切なタイミングで適切な介入が可能であり、自閉症児の成長に正の影響を与える可能性がある。 さらに、伝統的な自閉症診断の方法は、専門の精神科医を複数回訪問する必要があるが、このプロセスは時間がかかる可能性がある。 本稿では,簡単なアクションビデオクリップを用いて,自閉症の診断を自動化するための学習ベースアプローチを提案する。 このタスクは、利用可能な注釈付きデータの量は少なく、2つのカテゴリ(ASDとコントロール)のサンプル間のばらつきは一般的に区別できないため、特に難しい。 これは、ベースラインエンコーダの上のクロスエントロピー損失を用いて学習したバイナリ分類器の低性能からも明らかである。 そこで我々は,自己指導型と教師型両方の学習フレームワークにおいて,対照的な特徴学習を導入し,これらが2値分類器の予測精度を大幅に向上させることを示す。 さらに,2つの公開データセット上で異なるセットアップの下で徹底的な実験分析を行うことで,この検証を行う。

Autism, also known as Autism Spectrum Disorder (or ASD), is a neurological disorder. Its main symptoms include difficulty in (verbal and/or non-verbal) communication, and rigid/repetitive behavior. These symptoms are often indistinguishable from a normal (control) individual, due to which this disorder remains undiagnosed in early childhood leading to delayed treatment. Since the learning curve is steep during the initial age, an early diagnosis of autism could allow to take adequate interventions at the right time, which might positively affect the growth of an autistic child. Further, the traditional methods of autism diagnosis require multiple visits to a specialized psychiatrist, however this process can be time-consuming. In this paper, we present a learning based approach to automate autism diagnosis using simple and small action video clips of subjects. This task is particularly challenging because the amount of annotated data available is small, and the variations among samples from the two categories (ASD and control) are generally indistinguishable. This is also evident from poor performance of a binary classifier learned using the cross-entropy loss on top of a baseline encoder. To address this, we adopt contrastive feature learning in both self supervised and supervised learning frameworks, and show that these can lead to a significant increase in the prediction accuracy of a binary classifier on this task. We further validate this by conducting thorough experimental analyses under different set-ups on two publicly available datasets.
翻訳日:2023-07-12 19:17:19 公開日:2023-07-11
# 故障アークを有する非巡回重み付き有限状態オートマタのアルゴリズム

Algorithms for Acyclic Weighted Finite-State Automata with Failure Arcs ( http://arxiv.org/abs/2301.06862v2 )

ライセンス: Link先を確認
Anej Svete, Benjamin Dayan, Tim Vieira, Ryan Cotterell, Jason Eisner(参考訳) 重み付き有限状態オートマトン(WSFA)は一般的にNLPで使用される。 障害遷移は、wfsasの特別なケースであるn$-gramモデルとcrfsのバックオフや補間をコンパクトに表現するための便利な拡張である。 通常の非巡回 wfsas のパスサムは、逆アルゴリズムで時刻 $o(|e|)$ で計算され、ここで $e$ は遷移の集合である。 しかし、これは障害遷移を許さず、WFSAを前処理して障害遷移をなくすことで、$|E|$が大幅に増加する可能性がある。 後方アルゴリズムを拡張して、障害遷移を直接処理します。 我々のアプローチは、平均状態がアルファベット$\Sigma$の小さな分数$s \ll 1$に対して弧を出力する場合に効率的である。 O{\left(|E| + s |\Sigma| |Q| T_\text{max} \log{|\Sigma|}\right)}$, $Q$は状態の集合であり、$T_\text{max}$は障害遷移の最大の連結成分のサイズである。 故障遷移位相がcrfsによって例示される条件を満たすとき、$t_\text{max}$ factor を落とすことができ、ウェイトセミリングが環であれば$\log{|\sigma|}$ factor を落とすことができる。 後者の場合 (ring-weighted acyclic wfsas) は、複雑性を$\displaystyle o{\left(|e| + |\sigma| |q| \min(1,s\pi_\text{max}) \right)} とする別のアルゴリズムを与える(ただし、$\pi_\text{max}$ は最長の障害パスの大きさである)。

Weighted finite-state automata (WSFAs) are commonly used in NLP. Failure transitions are a useful extension for compactly representing backoffs or interpolation in $n$-gram models and CRFs, which are special cases of WFSAs. The pathsum in ordinary acyclic WFSAs is efficiently computed by the backward algorithm in time $O(|E|)$, where $E$ is the set of transitions. However, this does not allow failure transitions, and preprocessing the WFSA to eliminate failure transitions could greatly increase $|E|$. We extend the backward algorithm to handle failure transitions directly. Our approach is efficient when the average state has outgoing arcs for only a small fraction $s \ll 1$ of the alphabet $\Sigma$. We propose an algorithm for general acyclic WFSAs which runs in $O{\left(|E| + s |\Sigma| |Q| T_\text{max} \log{|\Sigma|}\right)}$, where $Q$ is the set of states and $T_\text{max}$ is the size of the largest connected component of failure transitions. When the failure transition topology satisfies a condition exemplified by CRFs, the $T_\text{max}$ factor can be dropped, and when the weight semiring is a ring, the $\log{|\Sigma|}$ factor can be dropped. In the latter case (ring-weighted acyclic WFSAs), we also give an alternative algorithm with complexity $\displaystyle O{\left(|E| + |\Sigma| |Q| \min(1,s\pi_\text{max}) \right)}$, where $\pi_\text{max}$ is the size of the longest failure path.
翻訳日:2023-07-12 19:09:39 公開日:2023-07-11
# 情報ロックとその資源効率的な抽出

Information locking and its resource efficient extraction ( http://arxiv.org/abs/2301.02287v3 )

ライセンス: Link先を確認
Suchetana Goswami and Saronath Halder(参考訳) 局所的な識別不能状態は、情報がロックされているような空間的に分離された当事者間で情報を分配するのに有用である。 これは、当事者はローカル操作や古典的コミュニケーション(LOCC)を通じて情報を完全に抽出できないが、当事者が絡み合いを共有している場合、LOCCによって可能かもしれないことを意味する。 本研究では,m >= 3 の直交状態を用いた情報配信プロトコルについて検討し,k <= (m-1) の関係者が協力しても情報を完全には明らかにできないようにした。 このようなプロトコルは、エンコードされた情報がどの程度ロックされているかを理解するのに役立ちます。 しかし、必要であれば、関係者は絡み合いを共有し、LOCCによって情報を抽出することができる。 プロセスリソースを効率的にするためには、絡み合った状態の数を減らす必要がある。 各2部構成で局所的に区別できない状態の集合は、上記のプロトコルでは十分であるが、完全な情報抽出を目指す場合、より多くの絡み合った状態が消費される可能性がある。 上記のプロトコルを達成するために使用できる局所的に区別不能な直交状態の集合のクラスを構築し、これら集合は、完全な情報抽出のために前者の集合と比較して、より少ないエンタングル状態を使用する。 実際、完全な情報抽出に必要な絡み合った状態の数におけるこの差は、パーティーの数とともに直線的に増加する。 本研究は,量子状態の局所的識別可能性特性を資源として適切に利用することに光を当て,効率的な情報分布の方法を示す。

Locally indistinguishable states are useful to distribute information among spatially separated parties such that the information is locked. This implies that the parties are not able to extract the information completely via local operations and classical communication (LOCC) while it might be possible via LOCC when the parties share entanglement. In this work, we consider an information distribution protocol using orthogonal states for m >= 3 spatially separated parties such that even if any k <= (m-1) parties collaborate still the information cannot be revealed completely. Such a protocol is useful to understand up to what extent the encoded information remains locked. However, if required, the parties can share entanglement and extract the information completely by LOCC. To make the process resource efficient, it should consume less number of entangled states. We show that though the set of states, which are locally indistinguishable across every bipartition, are sufficient for the above protocol, they may consume higher number of entangled states when aiming for complete information extraction. We establish this by constructing a class of locally indistinguishable sets of orthogonal states which can be employed to accomplish the above protocol and these sets consume less number of entangled states, compared to the former sets, for complete information extraction. In fact, this difference in the number of required entangled states for complete information extraction grows linearly with the number of parties. This study sheds light on suitable use of local indistinguishability property of quantum states as resource and thus, we demonstrate an efficient way of information distribution.
翻訳日:2023-07-12 19:08:46 公開日:2023-07-11
# 微調整言語モデルに対する比較誤差属性

Contrastive Error Attribution for Finetuned Language Models ( http://arxiv.org/abs/2212.10722v2 )

ライセンス: Link先を確認
Faisal Ladhak, Esin Durmus, Tatsunori Hashimoto(参考訳) 最近の研究は、自然言語生成(nlg)タスクにおける幻覚と不適切なアウトプットの中心的な原因として、ノイズと誤記のデータを特定している。 したがって、これらの例を特定して取り除くことは、信頼性の高いNLGシステムを作成する上で重要な課題である。 本研究では,テキスト要約における忠実度エラーなど,望ましくない出力につながる低品質トレーニングインスタンスを識別・削除するフレームワークを提案する。 グラデーションに基づく影響測定などの既存の誤り追跡手法は,nlgデータセットにおける忠実性エラーの検出には適さないことを示す。 我々は、望ましくない世代と人間の補正された出力を比較する新しいコントラストに基づく推定によって、既存のエラー追跡手法の欠点を克服した。 提案手法は, 既知基底真理を用いて, 既知データ誤りを検出できる平均精度0.93を達成でき, 既存の手法よりもかなり優れている。 このアプローチとクリーンデータの再トレーニングモデルを使用することで、NYTデータセットにおけるエンティティ幻覚の70%削減と、E2Eデータセットにおけるセマンティックエラーの55%削減につながる。

Recent work has identified noisy and misannotated data as a core cause of hallucinations and unfaithful outputs in Natural Language Generation (NLG) tasks. Consequently, identifying and removing these examples is a key open challenge in creating reliable NLG systems. In this work, we introduce a framework to identify and remove low-quality training instances that lead to undesirable outputs, such as faithfulness errors in text summarization. We show that existing approaches for error tracing, such as gradient-based influence measures, do not perform reliably for detecting faithfulness errors in NLG datasets. We overcome the drawbacks of existing error tracing methods through a new, contrast-based estimate that compares undesired generations to human-corrected outputs. Our proposed method can achieve a mean average precision of 0.93 at detecting known data errors across synthetic tasks with known ground truth, substantially outperforming existing approaches. Using this approach and re-training models on cleaned data leads to a 70% reduction in entity hallucinations on the NYT dataset and a 55% reduction in semantic errors on the E2E dataset.
翻訳日:2023-07-12 19:08:21 公開日:2023-07-11
# 情報ボトルネックによる説明再生

Explanation Regeneration via Information Bottleneck ( http://arxiv.org/abs/2212.09603v2 )

ライセンス: Link先を確認
Qintong Li, Zhiyong Wu, Lingpeng Kong, Wei Bi(参考訳) NLPモデルのブラックボックス予測を自然かつ正確に記述することは、自然言語生成において重要なオープン問題である。 これらのフリーテキストの説明は、予測に対する支持的な議論を形成するのに十分な、慎重に選択された証拠を含むことが期待されている。 大規模な事前学習型言語モデルの生成能力が優れているため,最近の技術開発により,特定の訓練を伴わない説明生成が可能となった。 しかし、シングルパスによる説明は、しばしば十分で簡潔さに欠ける。 この問題に対処するために,情報ボトルネック手法 EIB を開発し,十分かつ簡潔な説明文を生成する。 本手法は,事前学習した言語モデルから単一パス出力を洗練し,説明内容を支援する情報を保持することにより,自由テキスト説明を再生する。 2つの領域外タスクの実験は、自動評価と徹底した人的評価により、ERBの有効性を検証する。

Explaining the black-box predictions of NLP models naturally and accurately is an important open problem in natural language generation. These free-text explanations are expected to contain sufficient and carefully-selected evidence to form supportive arguments for predictions. Due to the superior generative capacity of large pretrained language models, recent work built on prompt engineering enables explanation generation without specific training. However, explanation generated through single-pass prompting often lacks sufficiency and conciseness. To address this problem, we develop an information bottleneck method EIB to produce refined explanations that are sufficient and concise. Our approach regenerates the free-text explanation by polishing the single-pass output from the pretrained language model but retaining the information that supports the contents being explained. Experiments on two out-of-domain tasks verify the effectiveness of EIB through automatic evaluation and thoroughly-conducted human evaluation.
翻訳日:2023-07-12 19:07:42 公開日:2023-07-11
# Tencent Pretrain: さまざまなモードの事前トレーニングモデルのためのスケーラブルで柔軟なツールキット

TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities ( http://arxiv.org/abs/2212.06385v2 )

ライセンス: Link先を確認
Zhe Zhao and Yudong Li and Cheng Hou and Jing Zhao and Rong Tian and Weijie Liu and Yiren Chen and Ningyuan Sun and Haoyan Liu and Weiquan Mao and Han Guo and Weigang Guo and Taiqiang Wu and Tao Zhu and Wenhang Shi and Chen Chen and Shan Huang and Sihong Chen and Liqun Liu and Feifei Li and Xiaoshuai Chen and Xingwu Sun and Zhanhui Kang and Xiaoyong Du and Linlin Shen and Kimmo Yan(参考訳) 近年、テキストドメインでの事前トレーニングの成功は、視覚、音声、およびクロスモーダルシナリオに完全に拡張されている。 異なるモダリティの事前学習モデルの提案は、モデル構造における均質性の上昇傾向を示しており、一様フレームワーク内で異なる事前学習モデルを実装する機会を与えている。 本稿では,さまざまなモダリティの事前学習モデルをサポートするツールキットtencentpretrainを提案する。 TencentPretrainの中核となる機能はモジュラーデザインである。 ツールキットはトレーニング済みモデルを、埋め込み、エンコーダ、ターゲット埋め込み、デコーダ、ターゲットの5つのコンポーネントに一様に分割する。 共通モジュールのほとんどすべてが各コンポーネントで提供されているため、ユーザはさまざまなコンポーネントから希望するモジュールを選択して、完全な事前トレーニングモデルを構築することができる。 モジュラーデザインにより、既存のトレーニング済みモデルを効率的に再現したり、新しいモデルを構築することができる。 私たちは、テキスト、視覚、オーディオベンチマークでツールキットをテストし、オリジナルの実装のパフォーマンスにマッチできることを示します。

Recently, the success of pre-training in text domain has been fully extended to vision, audio, and cross-modal scenarios. The proposed pre-training models of different modalities are showing a rising trend of homogeneity in their model structures, which brings the opportunity to implement different pre-training models within a uniform framework. In this paper, we present TencentPretrain, a toolkit supporting pre-training models of different modalities. The core feature of TencentPretrain is the modular design. The toolkit uniformly divides pre-training models into 5 components: embedding, encoder, target embedding, decoder, and target. As almost all of common modules are provided in each component, users can choose the desired modules from different components to build a complete pre-training model. The modular design enables users to efficiently reproduce existing pre-training models or build brand-new one. We test the toolkit on text, vision, and audio benchmarks and show that it can match the performance of the original implementations.
翻訳日:2023-07-12 19:07:28 公開日:2023-07-11
# フェデレーション学習における小さなニューラルネットワークへの分散pruning

Distributed Pruning Towards Tiny Neural Networks in Federated Learning ( http://arxiv.org/abs/2212.01977v2 )

ライセンス: Link先を確認
Hong Huang, Lan Zhang, Chaoyue Sun, Ruogu Fang, Xiaoyong Yuan, Dapeng Wu(参考訳) ニューラルネットワークのプルーニングは、ディープニューラルネットワークのサイズと複雑さを低減し、リソースの少ないデバイス上での大規模モデルを可能にするために必要な技術である。 しかしながら、既存のpruningアプローチは、pruning戦略を導くためのトレーニングデータに大きく依存しており、分散および機密データセットよりもフェデレーション学習に有効ではない。 さらに、メモリおよび計算集約的なプルーニングプロセスは、フェデレート学習において、リコース制約されたデバイスに対して実現不可能となる。 これらの課題に対処するために,我々は,メモリおよびコンピューティングに制約のあるデバイスのための専用小モデルを生成するフェデレーション学習のための分散プルーニングフレームワークであるfeedtinyを提案する。 fedtinyに2つの重要なモジュールを導入して,粗粒および細粒度の特殊モデルを適応的に検索し,分散および安価に局所計算可能なデプロイメントシナリオに適合させる。 まず、適応バッチ正規化選択モジュールは、局所データの不均一性に起因するプルーニングのバイアスを軽減するように設計されている。 第二に、軽量なプログレッシブプルーニングモジュールは、厳密なメモリと計算予算の下でモデルを微調整することを目的としており、全体的なモデル構造を評価するのではなく、各層に対するプルーニングポリシーを徐々に決定することができる。 実験の結果,特に深層モデルを極小モデルに圧縮する場合において,最先端のアプローチに勝るfeedtinyの有効性が示された。 FedTinyは2.61%の精度向上を実現し、計算コストを95.91%、メモリフットプリントを94.01%削減した。

Neural network pruning is an essential technique for reducing the size and complexity of deep neural networks, enabling large-scale models on devices with limited resources. However, existing pruning approaches heavily rely on training data for guiding the pruning strategies, making them ineffective for federated learning over distributed and confidential datasets. Additionally, the memory- and computation-intensive pruning process becomes infeasible for recourse-constrained devices in federated learning. To address these challenges, we propose FedTiny, a distributed pruning framework for federated learning that generates specialized tiny models for memory- and computing-constrained devices. We introduce two key modules in FedTiny to adaptively search coarse- and finer-pruned specialized models to fit deployment scenarios with sparse and cheap local computation. First, an adaptive batch normalization selection module is designed to mitigate biases in pruning caused by the heterogeneity of local data. Second, a lightweight progressive pruning module aims to finer prune the models under strict memory and computational budgets, allowing the pruning policy for each layer to be gradually determined rather than evaluating the overall model structure. The experimental results demonstrate the effectiveness of FedTiny, which outperforms state-of-the-art approaches, particularly when compressing deep models to extremely sparse tiny models. FedTiny achieves an accuracy improvement of 2.61% while significantly reducing the computational cost by 95.91% and the memory footprint by 94.01% compared to state-of-the-art methods.
翻訳日:2023-07-12 19:07:12 公開日:2023-07-11
# resnerf: 室内シーン新規視点合成のための幾何誘導残留神経放射場

ResNeRF: Geometry-Guided Residual Neural Radiance Field for Indoor Scene Novel View Synthesis ( http://arxiv.org/abs/2211.16211v3 )

ライセンス: Link先を確認
Yuting Xiao, Yiqun Zhao, Yanyu Xu, Shenghua Gao(参考訳) ResNeRFは,屋内シーンの新規ビュー合成のための幾何学誘導型2段階フレームワークである。 良質な幾何学が新規な視点合成の性能を著しく高めることに留意し,幾何学的曖昧さの問題を回避すべく,シーンの密度分布を,シーン形状から推定されたベース密度と、この幾何学でパラメータ化された残留密度に基づいて特徴付けることを提案する。 第1段階では, sdf表現に基づく幾何学的再構成に焦点をあて, シーンの良好な幾何学的表面と鋭い密度をもたらす。 第2段階では、残差密度は第1段階で学んだSDFに基づいて学習し、外観の詳細を符号化する。 このように,3次元構造を維持しつつ,高忠実度な新規ビュー合成に先立って,幾何の密度分布をよりよく学習することができる。 観察が困難でテクスチャのない領域が多い大規模室内シーンにおける実験により,良好な3次元表面において,新しい視点合成のための最先端の性能が得られることを示した。

We represent the ResNeRF, a novel geometry-guided two-stage framework for indoor scene novel view synthesis. Be aware of that a good geometry would greatly boost the performance of novel view synthesis, and to avoid the geometry ambiguity issue, we propose to characterize the density distribution of the scene based on a base density estimated from scene geometry and a residual density parameterized by the geometry. In the first stage, we focus on geometry reconstruction based on SDF representation, which would lead to a good geometry surface of the scene and also a sharp density. In the second stage, the residual density is learned based on the SDF learned in the first stage for encoding more details about the appearance. In this way, our method can better learn the density distribution with the geometry prior for high-fidelity novel view synthesis while preserving the 3D structures. Experiments on large-scale indoor scenes with many less-observed and textureless areas show that with the good 3D surface, our method achieves state-of-the-art performance for novel view synthesis.
翻訳日:2023-07-12 19:06:41 公開日:2023-07-11
# 敵対的安価トーク

Adversarial Cheap Talk ( http://arxiv.org/abs/2211.11030v4 )

ライセンス: Link先を確認
Chris Lu, Timon Willi, Alistair Letcher, Jakob Foerster(参考訳) 強化学習(RL)における敵対的攻撃は、しばしば被害者のパラメータ、環境、データへの高い特権的アクセスを前提としている。 そこで本稿では,Victim の観察に決定論的メッセージを単に付加するだけで,最小限の影響が生じる,Cheap Talk MDP という新たな敵設定を提案する。 Adversaryは、根底にある環境力学や報奨信号の影響、非定常性の導入、確率性の追加、ヴィクティムの行動の確認、パラメータへのアクセスを防げない。 さらに,本手法では,adversarial cheap talk (act) と呼ばれる単純なメタ学習アルゴリズムを提案する。 我々は,行為を訓練した敵が,非常に制約された設定にもかかわらず,被害者の訓練やテスト性能に大きな影響を与えることを実証する。 列車時のパフォーマンスへの影響は、新たな攻撃ベクトルを明らかにし、既存のRLアルゴリズムの成功と失敗モードに関する洞察を提供する。 具体的には、ACT Adversaryは学習者の関数近似に干渉することで性能を損なうことができ、代わりに有用な機能を出力することで、Victimのパフォーマンスを支援することができることを示す。 最後に、ACT Adversaryが列車中のメッセージを操作して、テスト時にVictimを直接任意に制御できることを示す。 プロジェクトビデオとコードはhttps://sites.google.com/view/adversarial-cheap-talkで入手できる。

Adversarial attacks in reinforcement learning (RL) often assume highly-privileged access to the victim's parameters, environment, or data. Instead, this paper proposes a novel adversarial setting called a Cheap Talk MDP in which an Adversary can merely append deterministic messages to the Victim's observation, resulting in a minimal range of influence. The Adversary cannot occlude ground truth, influence underlying environment dynamics or reward signals, introduce non-stationarity, add stochasticity, see the Victim's actions, or access their parameters. Additionally, we present a simple meta-learning algorithm called Adversarial Cheap Talk (ACT) to train Adversaries in this setting. We demonstrate that an Adversary trained with ACT still significantly influences the Victim's training and testing performance, despite the highly constrained setting. Affecting train-time performance reveals a new attack vector and provides insight into the success and failure modes of existing RL algorithms. More specifically, we show that an ACT Adversary is capable of harming performance by interfering with the learner's function approximation, or instead helping the Victim's performance by outputting useful features. Finally, we show that an ACT Adversary can manipulate messages during train-time to directly and arbitrarily control the Victim at test-time. Project video and code are available at https://sites.google.com/view/adversarial-cheap-talk
翻訳日:2023-07-12 19:06:21 公開日:2023-07-11
# 量子散逸とヴィリアル定理

Quantum dissipation and the virial theorem ( http://arxiv.org/abs/2302.12008v2 )

ライセンス: Link先を確認
Aritra Ghosh, Malay Bandyopadhyay(参考訳) 本稿では,古典系と量子系の両方の散逸系に対する有望な仮想定理について考察する。 古典的な定式化を議論し、ランダムな力(ノイズ)の興味深い効果をヴィリアル定理の文脈で明示する。 その後、散逸量子発振器、すなわち量子熱浴と結合した量子発振器に対する一般化されたビリアル定理を導出する。 このような熱浴は、初期状態の一定の分布を持つ独立量子発振器の無限の集合としてモデル化される。 この状況では、量子ノイズの非マルコフ的性質は、ヴィリアル定理において新しい入浴誘導項をもたらす。 また、熱雑音を伴う電気回路の場合についても検討し、ウイルス定理の文脈における非マルコフノイズの役割を分析する。

In this note, we study the celebrated virial theorem for dissipative systems, both classical and quantum. The classical formulation is discussed and an intriguing effect of the random force (noise) is made explicit in the context of the virial theorem. Subsequently, we derive a generalized virial theorem for a dissipative quantum oscillator, i.e. a quantum oscillator coupled with a quantum heat bath. Such a heat bath is modeled as an infinite collection of independent quantum oscillators with a certain distribution of initial conditions. In this situation, the non-Markovian nature of the quantum noise leads to novel bath-induced terms in the virial theorem. We also consider the case of an electrical circuit with thermal noise and analyze the role of non-Markovian noise in the context of the virial theorem.
翻訳日:2023-07-12 19:01:21 公開日:2023-07-11
# 高速多成分状態生成のための超伝導回路の断熱性への近道

Shortcuts to adiabaticity in superconducting circuits for fast multi-partite state generation ( http://arxiv.org/abs/2302.07762v2 )

ライセンス: Link先を確認
F. A. C\'ardenas-L\'opez, J. C. Retamal, and Xi. Chen(参考訳) adiabaticityへのショートカットは、adiabatic criteriaを超えて量子制御タスクを加速し、改善する柔軟な方法を提供する。 本稿では,複数のフィールドモードに結合した量子ビット群間の長手結合を設計するためのリバースエンジニアリング手法を提案し,フォトニックや量子ビットベースのアーキテクチャにおけるマルチパーティタイト量子ゲートの高速生成を実現する。 その結果、生成時間の増大はナノ秒スケールであり、システムコンポーネントの数ではスケールしないことがわかった。 また, 本プロトコルは, 散逸のダイナミクスにより, 明らかに有害な影響を及ぼさない。 最後に、実装は最先端の量子電磁力学アーキテクチャで議論される。

Shortcuts to adiabaticity provides a flexible method to accelerate and improve a quantum control task beyond adiabatic criteria. Here we propose the reverse-engineering approach to design the longitudinal coupling between a set of qubits coupled to several field modes, for achieving a fast generation of multi-partite quantum gates in photonic or qubit-based architecture. We show that the enhancing generation time is at the nanosecond scale that does not scale with the number of system components. In addition, our protocol does not suffer noticeable detrimental effects due to the dissipative dynamics. Finally, the possible implementation is discussed with the state-of-the-art circuit quantum electrodynamics architecture.
翻訳日:2023-07-12 19:01:10 公開日:2023-07-11
# パルス形状と人工神経ネットワークを用いたPMTの飽和応答の復元

Restoring the saturation response of a PMT using pulse-shape and artificial-neural-networks ( http://arxiv.org/abs/2302.06170v3 )

ライセンス: Link先を確認
Hyun-Gi Lee and Jungsic Park(参考訳) 光増倍管(PMT)の線形応答は、ニュートリノエネルギーの光子計数と再構成に必要な性質である。 線形アルキルベンゼン (LAB) 系液体シンチレータを用いて, PMTの線形性有効領域と飽和応答を検討した。 2種類の飽和反応の間にはパルス形状歪みとパルス面積減少の相関が認められた。 観測されたパルス形状は、パルス領域に対する線形領域の推定に有用な情報を提供する。 この相関に基づく診断は、以前に困難であった線型性範囲の${in}$-${situ}$推定を可能にする。 この2つの飽和応答の相関関係を人工神経ネットワーク(ann)の訓練に応用し,観察したパルス形状からパルス面積の低下を予測した。 ANN予測パルス領域減少により、飽和挙動とは無関係に理想的な光電子数の予測が可能となる。 このパルス形状に基づく機械学習技術は、PMTの飽和応答を復元する新しい方法を提供する。

The linear response of a photomultiplier tube (PMT) is a required property for photon counting and reconstruction of the neutrino energy. The linearity valid region and the saturation response of PMT were investigated using a linear-alkyl-benzene (LAB)-based liquid scintillator. A correlation was observed between the two different saturation responses, with pulse-shape distortion and pulse-area decrease. The observed pulse-shape provides useful information for the estimation of the linearity region relative to the pulse-area. This correlation-based diagnosis allows an ${in}$-${situ}$ estimation of the linearity range, which was previously challenging. The measured correlation between the two saturation responses was employed to train an artificial-neural-network (ANN) to predict the decrease in pulse-area from the observed pulse-shape. The ANN-predicted pulse-area decrease enables the prediction of the ideal number of photoelectrons irrelevant to the saturation behavior. This pulse-shape-based machine learning technique offers a novel method for restoring the saturation response of PMTs.
翻訳日:2023-07-12 19:01:00 公開日:2023-07-11
# 動的補正非線形幾何量子計算

Dynamical-Corrected Nonadiabatic Geometric Quantum Computation ( http://arxiv.org/abs/2302.04167v2 )

ライセンス: Link先を確認
Cheng-Yun Ding, Li Chen, Li-Hua Zhang and Zheng-Yuan Xue(参考訳) 近年,非断熱的幾何量子計算は,その動作速度と固有誤差のレジリエンスから大きな注目を集めている。 しかし, 従来の単ループ方式を基本とした非断熱的幾何ゲートのロバスト性は, 厳密なマルチセグメント幾何制御を必要とするため, いまだに同じ大きさであり, 固有の幾何的耐故障特性は十分に解明されていない。 本稿では,従来の単一ループおよび2ループ複合パルス戦略,すなわち$\sigma_x$ 誤差に抵抗する手法を用いて,超ロバスト非断熱幾何ゲートを構成できる汎用力学補正手法と組み合わせた効率的な幾何学スキームを提案する。 さらに、デコヒーレンスフリー部分空間(DFS)符号化と組み合わせることで、結果として得られる幾何ゲートは、集合的デフォーカスによる$\sigma_z$エラーを効果的に抑制することができる。 特に、我々のプロトコルは、単純な実験的なセットアップを持つ一般的なプロトコルであり、rydberg原子、閉じ込められたイオン、超伝導量子ビットなど、異なる量子システムで実装できる可能性がある。 これらの結果から,本手法は大規模フォールトトレラント量子計算において有望な手法であることが示唆された。

Recently, nonadiabatic geometric quantum computation has been received great attentions, due to its fast operation and intrinsic error resilience. However, compared with the corresponding dynamical gates, the robustness of implemented nonadiabatic geometric gates based on the conventional single-loop scheme still has the same order of magnitude due to the requirement of strict multi-segment geometric controls, and the inherent geometric fault-tolerance characteristic is not fully explored. Here, we present an effective geometric scheme combined with a general dynamical-corrected technique, with which the super-robust nonadiabatic geometric quantum gates can be constructed over the conventional single-loop and two-loop composite-pulse strategies, in terms of resisting the systematic error, i.e., $\sigma_x$ error. In addition, combined with the decoherence-free subspace (DFS) coding, the resulting geometric gates can also effectively suppress the $\sigma_z$ error caused by the collective dephasing. Notably, our protocol is a general one with simple experimental setups, which can be potentially implemented in different quantum systems, such as Rydberg atoms, trapped ions and superconducting qubits. These results indicate that our scheme represents a promising way to explore large-scale fault-tolerant quantum computation.
翻訳日:2023-07-12 19:00:45 公開日:2023-07-11
# 深層学習を用いた「科学ウェブ」における研究分野の階層的分類

Hierarchical Classification of Research Fields in the "Web of Science" Using Deep Learning ( http://arxiv.org/abs/2302.00390v2 )

ライセンス: Link先を確認
Susie Xi Rao, Peter H. Egger, Ce Zhang(参考訳) 本稿では,その抽象概念を用いて学術出版物を自動的に3階層の階層ラベルセット(ディシプリン,フィールド,サブフィールド)に分類する階層分類システムを提案する。 本システムでは, 研究活動の包括的分類を, 論文による知識生産, 引用による影響の観点から実現し, それらの活動が複数のカテゴリに分類できる。 分類システムは、Microsoft Academic Graph(バージョン2018-05-17)の1億6000万の抽象スニペットのうち、44の規律、718のフィールド、1,485のサブフィールドを区別する。 バッチトレーニングをモジュール化された分散方式で実施し,単一ラベルおよび複数ラベル設定における学際的および分野間分類を可能にした。 総じて,すべての検討モデル(畳み込みニューラルネットワーク,リカレントニューラルネットワーク,トランスフォーマー)で3,140実験を行った。 分類精度は77.13%で90%、シングルラベルとマルチラベルの分類では78.19%である。 本分類の利点は,研究テキストとアウトプットを規律とよく整合させ,それらを適切に分類し,学際性の程度を把握できる点にある。 提案システム(事前学習されたモデルの集合)は,将来,学術出版物の索引付けを行うインタラクティブシステムのバックボーンとして機能する。

This paper presents a hierarchical classification system that automatically categorizes a scholarly publication using its abstract into a three-tier hierarchical label set (discipline, field, subfield) in a multi-class setting. This system enables a holistic categorization of research activities in the mentioned hierarchy in terms of knowledge production through articles and impact through citations, permitting those activities to fall into multiple categories. The classification system distinguishes 44 disciplines, 718 fields and 1,485 subfields among 160 million abstract snippets in Microsoft Academic Graph (version 2018-05-17). We used batch training in a modularized and distributed fashion to address and allow for interdisciplinary and interfield classifications in single-label and multi-label settings. In total, we have conducted 3,140 experiments in all considered models (Convolutional Neural Networks, Recurrent Neural Networks, Transformers). The classification accuracy is > 90% in 77.13% and 78.19% of the single-label and multi-label classifications, respectively. We examine the advantages of our classification by its ability to better align research texts and output with disciplines, to adequately classify them in an automated way, and to capture the degree of interdisciplinarity. The proposed system (a set of pre-trained models) can serve as a backbone to an interactive system for indexing scientific publications in the future.
翻訳日:2023-07-12 19:00:20 公開日:2023-07-11
# データ効率の良い複雑問合せ解に対するニューラルネットワーク予測器の適用

Adapting Neural Link Predictors for Data-Efficient Complex Query Answering ( http://arxiv.org/abs/2301.12313v3 )

ライセンス: Link先を確認
Erik Arakelyan, Pasquale Minervini, Daniel Daza, Michael Cochez, Isabelle Augenstein(参考訳) 不完全な知識グラフに複雑なクエリを答えることは、モデルが不足する知識が存在する場合、複雑な論理的クエリに答える必要があるという課題である。 文献の先行研究は、データとリソース集約的なトレーニングを必要とする一方で解釈が難しい推論プロセスで、複雑なクエリ応答タスクに対してエンドツーエンドでトレーニングされたアーキテクチャを設計することで、この問題に対処することを提案している。 他の研究では、複雑なクエリに対する単純なニューラルネットワーク予測器の再使用を提案し、解釈可能な回答を提供しながら、トレーニングデータの桁数を削減している。 このような手法で使用されるニューラルネットワーク予測器は、複雑なクエリ応答タスクに対して明示的に最適化されていない。 cqd$^{\mathcal{a}}$、パラメータ効率の高いスコア \emph{adaptation}モデルを用いて、複雑なクエリ応答タスクに対するニューラルネットワークの予測スコアを再調整することを提案する。 ニューラルネットワーク予測器は凍結されているが、モデルのパラメータの数を0.03\%$だけ増加させる適応コンポーネントは、下流の複雑なクエリ応答タスクでトレーニングされる。 さらに,キャリブレーションコンポーネントによって,従来リンク予測では不可能だったアトミックネグレーションを含むクエリの推論もサポートできる。 私たちの実験では、cqd$^{\mathcal{a}}$は現在の最先端のメソッドよりもかなり正確な結果をもたらし、利用可能なトレーニングクエリタイプのうち$\leq 30\%$を使いながら、すべてのデータセットとクエリタイプの平均的な相互ランク値34.4$から35.1$に改善しました。 さらに、CQD$^{\mathcal{A}}$はデータ効率が高く、トレーニング複雑なクエリのたった1\%の値で競合する結果が得られ、ドメイン外の評価が堅牢であることを示す。

Answering complex queries on incomplete knowledge graphs is a challenging task where a model needs to answer complex logical queries in the presence of missing knowledge. Prior work in the literature has proposed to address this problem by designing architectures trained end-to-end for the complex query answering task with a reasoning process that is hard to interpret while requiring data and resource-intensive training. Other lines of research have proposed re-using simple neural link predictors to answer complex queries, reducing the amount of training data by orders of magnitude while providing interpretable answers. The neural link predictor used in such approaches is not explicitly optimised for the complex query answering task, implying that its scores are not calibrated to interact together. We propose to address these problems via CQD$^{\mathcal{A}}$, a parameter-efficient score \emph{adaptation} model optimised to re-calibrate neural link prediction scores for the complex query answering task. While the neural link predictor is frozen, the adaptation component -- which only increases the number of model parameters by $0.03\%$ -- is trained on the downstream complex query answering task. Furthermore, the calibration component enables us to support reasoning over queries that include atomic negations, which was previously impossible with link predictors. In our experiments, CQD$^{\mathcal{A}}$ produces significantly more accurate results than current state-of-the-art methods, improving from $34.4$ to $35.1$ Mean Reciprocal Rank values averaged across all datasets and query types while using $\leq 30\%$ of the available training query types. We further show that CQD$^{\mathcal{A}}$ is data-efficient, achieving competitive results with only $1\%$ of the training complex queries, and robust in out-of-domain evaluations.
翻訳日:2023-07-12 18:59:39 公開日:2023-07-11
# 物理インフォーメーションニューラルネットワークを用いたソフトセンサの繰り返し予測を用いた計測不能なpsd解法

Solving PDEs with Unmeasurable Source Terms Using Coupled Physics-Informed Neural Network with Recurrent Prediction for Soft Sensors ( http://arxiv.org/abs/2301.08618v3 )

ライセンス: Link先を確認
Aina Wang, Pan Qin, Xi-Ming Sun(参考訳) 偏微分方程式(pdes)は、時空間依存性を持つ産業プロセスにおけるソフトセンサーのモデル候補である。 物理インフォームドニューラルネットワーク(PINN)はPDEを解くための有望な機械学習手法であるが、測定不可能なソース項を持つ不均一なPDEには適用できない。 この目的のために、繰り返し予測(RP)学習戦略(CPINN-RP)を備えた結合PINN(CPINN)を提案する。 まず、NetUとNetGで構成されるCPINNを提案する。 NetUはPDEソリューションの近似用であり、NetGはNetUのトレーニングを規則化するためのものだ。 2つのネットワークはデータフィジカルハイブリッド損失関数に統合される。 そこで,提案したCPINNは,不等質PDEに対して,測定不能なソース項を持つ解に対して満足な近似能力を有することを理論的に証明する。 理論的側面に加えて,NetUとNetGを最適化・結合する階層的学習戦略を提案する。 次に,よく訓練されたcpinnとハードセンサの繰り返し遅延出力であるrpについて,データサンプリングにおける情報損失を補償し,予測性能を向上させるnetu-rpを提案する。 最後に、人工的および実用的なデータセットを使用して、ソフトセンサーに対するCPINN-RPの有効性と有効性を検証する。

Partial differential equations (PDEs) are a model candidate for soft sensors in industrial processes with spatiotemporal dependence. Although physics-informed neural networks (PINNs) are a promising machine learning method for solving PDEs, they are infeasible for the nonhomogeneous PDEs with unmeasurable source terms. To this end, a coupled PINN (CPINN) with a recurrent prediction (RP) learning strategy (CPINN- RP) is proposed. First, CPINN composed of NetU and NetG is proposed. NetU is for approximating PDEs solutions and NetG is for regularizing the training of NetU. The two networks are integrated into a data-physics-hybrid loss function. Then, we theoretically prove that the proposed CPINN has a satisfying approximation capability for solutions to nonhomogeneous PDEs with unmeasurable source terms. Besides the theoretical aspects, we propose a hierarchical training strategy to optimize and couple NetU and NetG. Secondly, NetU-RP is proposed for compensating information loss in data sampling to improve the prediction performance, in which RP is the recurrently delayed outputs of well-trained CPINN and hard sensors. Finally, the artificial and practical datasets are used to verify the feasibility and effectiveness of CPINN-RP for soft sensors.
翻訳日:2023-07-12 18:58:27 公開日:2023-07-11
# クラスター構造をもつ潜在バンディットの最適アルゴリズム

Optimal Algorithms for Latent Bandits with Cluster Structure ( http://arxiv.org/abs/2301.07040v3 )

ライセンス: Link先を確認
Soumyabrata Pal, Arun Sai Suggala, Karthikeyan Shanmugam, Prateek Jain(参考訳) 本稿では,複数のユーザが存在するクラスタ構造を持つ潜伏包帯問題と関連するマルチアーム包帯問題とを考察する。 これらのユーザは,同一クラスタ内のユーザの平均報酬ベクトルが同一になるように,\emph{latent}クラスタにグループ化される。 各ラウンドにおいて、ランダムに選択されたユーザは、腕を引っ張り、対応する騒がしい報酬を観察する。 ユーザーの目標は累積報酬を最大化することだ。 この問題は実用的なレコメンデーションシステムの中心であり、late \cite{gentile2014online, maillard2014latent} の注目を集めている。 さて、もし各ユーザーが独立して振る舞うなら、それぞれの腕を独立に探索し、$\omega(\sqrt{\mathsf{mnt}})$の後悔は避けられない、ただし$\mathsf{m} と \mathsf{n}$ はそれぞれ腕の数とユーザ数である。 代わりに、潜在クラスタ構造の活用により、クラスタ数が$\widetilde{o}(1)$である場合に、$\widetilde{o}(\sqrt{o}(\mathsf{m}+\mathsf{n})\mathsf{t}})$の最小の最適後悔を与える格子(行列完了によるラテンバンド)を提案する。 これはそのような強い後悔の束縛を保証する最初のアルゴリズムである。 latticeは、ユーザをクラスタリングしながら、クラスタ内のarm情報の慎重な活用に基づいている。 さらに、計算効率が良く、すべての$\mathsf{T}$ラウンドでオフライン行列補完オラクルを呼び出すのに$O(\log{\mathsf{T}})$しか必要としない。

We consider the problem of latent bandits with cluster structure where there are multiple users, each with an associated multi-armed bandit problem. These users are grouped into \emph{latent} clusters such that the mean reward vectors of users within the same cluster are identical. At each round, a user, selected uniformly at random, pulls an arm and observes a corresponding noisy reward. The goal of the users is to maximize their cumulative rewards. This problem is central to practical recommendation systems and has received wide attention of late \cite{gentile2014online, maillard2014latent}. Now, if each user acts independently, then they would have to explore each arm independently and a regret of $\Omega(\sqrt{\mathsf{MNT}})$ is unavoidable, where $\mathsf{M}, \mathsf{N}$ are the number of arms and users, respectively. Instead, we propose LATTICE (Latent bAndiTs via maTrIx ComplEtion) which allows exploitation of the latent cluster structure to provide the minimax optimal regret of $\widetilde{O}(\sqrt{(\mathsf{M}+\mathsf{N})\mathsf{T}})$, when the number of clusters is $\widetilde{O}(1)$. This is the first algorithm to guarantee such strong regret bound. LATTICE is based on a careful exploitation of arm information within a cluster while simultaneously clustering users. Furthermore, it is computationally efficient and requires only $O(\log{\mathsf{T}})$ calls to an offline matrix completion oracle across all $\mathsf{T}$ rounds.
翻訳日:2023-07-12 18:57:46 公開日:2023-07-11
# BBOBを用いた高次元ベイズ最適化アルゴリズムの比較

Comparison of High-Dimensional Bayesian Optimization Algorithms on BBOB ( http://arxiv.org/abs/2303.00890v2 )

ライセンス: Link先を確認
Maria Laura Santoni, Elena Raponi, Renato De Leone, Carola Doerr(参考訳) ベイズ最適化(英: bayesian optimization、bo)は、評価に費用がかかる問題を効率的に最適化できるブラックボックスベースのヒューリスティックである。 BOは特に、目的関数の評価が時間を要するシミュレーションや物理実験に依存する産業における数値最適化問題の解法として人気がある。 しかし、多くの産業問題は多くのパラメータに依存している。 BOアルゴリズムは、次元が15変数を超えると、しばしば性能が損なわれると報告される。 この問題に対処するために多くの新しいアルゴリズムが提案されているが、どの最適化シナリオが最適かはよく分かっていない。 本研究では,COCO環境の24BBOB関数に対するバニラBOとCMA-ESの5つの高次元BOアルゴリズムを10から60変数の範囲で比較した。 以上の結果から, CMA-ESよりもBOを優先的に評価し, BO改善の最も有望なアプローチは信頼領域の利用であることが示唆された。 しかし,異なる関数ランドスケープや予算活用フェーズにおいて,アルゴリズムコンポーネントのハイブリダイゼーションによる改善可能性を示す重要な性能差も観察した。

Bayesian Optimization (BO) is a class of black-box, surrogate-based heuristics that can efficiently optimize problems that are expensive to evaluate, and hence admit only small evaluation budgets. BO is particularly popular for solving numerical optimization problems in industry, where the evaluation of objective functions often relies on time-consuming simulations or physical experiments. However, many industrial problems depend on a large number of parameters. This poses a challenge for BO algorithms, whose performance is often reported to suffer when the dimension grows beyond 15 variables. Although many new algorithms have been proposed to address this problem, it is not well understood which one is the best for which optimization scenario. In this work, we compare five state-of-the-art high-dimensional BO algorithms, with vanilla BO and CMA-ES on the 24 BBOB functions of the COCO environment at increasing dimensionality, ranging from 10 to 60 variables. Our results confirm the superiority of BO over CMA-ES for limited evaluation budgets and suggest that the most promising approach to improve BO is the use of trust regions. However, we also observe significant performance differences for different function landscapes and budget exploitation phases, indicating improvement potential, e.g., through hybridization of algorithmic components.
翻訳日:2023-07-12 18:49:40 公開日:2023-07-11
# 指数ヒルベルト空間を持たない多体マヨラナブレイディング

Many-body Majorana braiding without an exponential Hilbert space ( http://arxiv.org/abs/2303.00761v2 )

ライセンス: Link先を確認
Eric Mascot, Themba Hodge, Dan Crawford, Jasmin Bedow, Dirk K. Morr, Stephan Rachel(参考訳) majorana zero modes (mzms) で構築された量子ビットは、位相的に保護された量子コンピューティングへの主要な経路である。 複数のMZMのブレイディング過程のシミュレーションは超伝導多体系の量子力学に対応する。 マヨラナ力学は、他の全ての準粒子の存在と、合理的に大きなシステムサイズの両方で研究することが重要である。 本稿では,任意の多体波動関数とその期待値,相関値,重なりを超伝導体の時間発展単粒子状態から計算する方法を提案する。 ブレイディングプロセスの品質を追跡するために,マヨラナペアの忠実性,遷移確率,ジョイントパリティを計算する。 ブレイディングの成功はブレイドの速度にどのように依存するかを示す。 さらに, トポロジカルCNOT2量子ゲートを2量子絡みの例として示す。 我々の研究は、Majorana qubitsの多くの理論的実装をテストし分析する道を開く。 さらに、この方法は任意の非相互作用超伝導体の動力学を研究するのに使うことができる。

Qubits built out of Majorana zero modes (MZMs) constitute the primary path towards topologically protected quantum computing. Simulating the braiding process of multiple MZMs corresponds to the quantum dynamics of a superconducting many-body system. It is crucial to study the Majorana dynamics both in the presence of all other quasiparticles and for reasonably large system sizes. We present a method to calculate arbitrary many-body wavefunctions as well as their expectation values, correlators and overlaps from time evolved single-particle states of a superconductor, allowing for significantly larger system sizes. We calculate the fidelity, transition probabilities, and joint parities of Majorana pairs to track the quality of the braiding process. We show how the braiding success depends on the speed of the braid. Moreover, we demonstrate the topological CNOT two-qubit gate as an example of two-qubit entanglement. Our work opens the path to test and analyze the many theoretical implementations of Majorana qubits. Moreover, this method can be used to study the dynamics of any non-interacting superconductor.
翻訳日:2023-07-12 18:49:17 公開日:2023-07-11
# 双極子中心を含むダイヤモンドを用いた相互関連量子温度測定

Cross-correlated quantum thermometry using diamond containing dual-defect centers ( http://arxiv.org/abs/2303.00073v2 )

ライセンス: Link先を確認
Madhav Gupta, Tongtong Zhang, Lambert Yeung, Jiahua Zhang, Yayin Tan, Yau Chuen Yiu, Shuxiang Zhang, Qi Wang, Zhongqiang Wang, Zhiqin Chu(参考訳) マイクロ/ナノスケールでの非接触温度測定は、近代科学技術の幅広い分野において不可欠である。 窒素空隙(nv)中心は、スピン依存光発光を持つダイヤモンド欠陥の一種であり、最も有望なナノ温度計の1つとして認識されている。 しかし、この量子温度測定技術は摂動の可能性があり、その実際の温度感度は避けられないほど低下する。 そこで本研究では,nv中心とシリコン空孔(siv)中心の両方を含むバルクダイヤモンド試料を用いたクロスバリデーテッド光熱測定法を初めて開発した。 特に、全光学法を許容する後者は、nvベースの量子温度測定の摂動に影響を与えるものに対して本質的に免疫があり、そのためリアルタイムのクロス検証システムとして機能する。 概念実証として, 様々な磁場の影響を受けながら, 信頼性の高い温度測定を行った。 この多モード性アプローチは、生体細胞のような複雑な環境でのマイクロ/ナノスケールの量子温度測定に必要とされる測定温度の同期クロスバリデーションを可能にする。

The contactless temperature measurement at micro/nanoscale is vital to a broad range of fields in modern science and technology. The nitrogen vacancy (NV) center, a kind of diamond defect with unique spin-dependent photoluminescence, has been recognized as one of the most promising nanothermometers. However, this quantum thermometry technique has been prone to a number of possible perturbations, which will unavoidably degrade its actual temperature sensitivity. Here, for the first time, we have developed a cross-validated optical thermometry method using a bulk diamond sample containing both NV centers and silicon vacancy (SiV) centers. Particularly, the latter allowing all-optical method has been intrinsically immune to those influencing perturbations for the NV-based quantum thermometry, hence serving as a real-time cross validation system. As a proof-of-concept demonstration, we have shown a trustworthy temperature measurement under the influence of varying magnetic fields. This multi-modality approach allows a synchronized cross-validation of the measured temperature, which is required for micro/nanoscale quantum thermometry in complicated environments such as a living cell.
翻訳日:2023-07-12 18:49:00 公開日:2023-07-11
# 軸流電気力学におけるゼロカシミール力と新しい力の探索

Zero Casimir Force in Axion Electrodynamics and the Search for a New Force ( http://arxiv.org/abs/2302.14676v3 )

ライセンス: Link先を確認
Yohei Ema, Masashi Hazumi, Hideo Iizuka, Kyohei Mukaida, Kazunori Nakayama(参考訳) カシミール力がアクシオン電気力学で消滅している金属板の安定な構成が指摘されている。 カシミール力に対するアキシオン効果の測定に向けて、電磁気に対するアキシオン様効果をホストするワイル半金属を含むコンクリートの構成を考察する。 我々の装置は金属間のゼロカシミール力を実現し、微小スケールの光粒子による新しい力の探索に有用かもしれない。

We point out that there is a stable configuration of metal plates where the Casimir force is vanishing in axion electrodynamics. We consider a concrete setup involving Weyl semimetals, which hosts an axion-like effect on the electromagnetism, towards the measurement of the axionic effect on the Casimir force. Our setup realizes zero Casimir force between metals and may be useful for the search for new force mediated by light particles at the micrometer scale.
翻訳日:2023-07-12 18:48:42 公開日:2023-07-11
# saine: 科学的注釈と推論エンジン

SAINE: Scientific Annotation and Inference Engine of Scientific Research ( http://arxiv.org/abs/2302.14468v2 )

ライセンス: Link先を確認
Susie Xi Rao, Yilei Tu, Peter H. Egger(参考訳) 本稿では, Label Studio や MLflow などの標準オープンソースソフトウェアをベースとした,Scientific Annotation and Inference ENgine について紹介する。 アノテーションエンジンはより正確な分類のさらなる発展に有効であることを示す。 階層的分野分類に関するこれまでの研究に基づいて,SAINEを用いた学術出版分野の理解を実証した。 注記結果のユーザスタディは,システムの助けを借りて収集したユーザ入力が,分類プロセスの理解を深める上で有用であることを示す。 私たちの研究は、より透明性を高め、科学的研究をより理解するのに役立ちます。 アノテーションと推論エンジンは、下流のメタサイエンスプロジェクトをさらにサポートします。 これらのプロジェクトに関する科学コミュニティからの協力とフィードバックを歓迎します。 デモビデオはhttps://youtu.be/ytoo-g9yqk4からアクセスできる。 ライブデモサイトはhttps://app.heartex.com/user/signup/? token=e2435a2f97449fa1 無料登録。

We present SAINE, an Scientific Annotation and Inference ENgine based on a set of standard open-source software, such as Label Studio and MLflow. We show that our annotation engine can benefit the further development of a more accurate classification. Based on our previous work on hierarchical discipline classifications, we demonstrate its application using SAINE in understanding the space for scholarly publications. The user study of our annotation results shows that user input collected with the help of our system can help us better understand the classification process. We believe that our work will help to foster greater transparency and better understand scientific research. Our annotation and inference engine can further support the downstream meta-science projects. We welcome collaboration and feedback from the scientific community on these projects. The demonstration video can be accessed from https://youtu.be/yToO-G9YQK4. A live demo website is available at https://app.heartex.com/user/signup/?token=e2435a2f97449fa1 upon free registration.
翻訳日:2023-07-12 18:48:34 公開日:2023-07-11
# 周波数領域における逆数拡大によるモデル一般化の改善

Improving Model Generalization by On-manifold Adversarial Augmentation in the Frequency Domain ( http://arxiv.org/abs/2302.14302v2 )

ライセンス: Link先を確認
Chang Liu, Wenzhao Xiang, Yuan He, Hui Xue, Shibao Zheng, Hang Su(参考訳) 深層ニューラルネットワーク(DNN)は、トレーニングデータとテストデータが異なる基盤分布である場合、大幅に劣化する。 オフ・オブ・ディストリビューション(OOD)データへのモデル一般化の重要性にもかかわらず、OODデータ上の最先端(SOTA)モデルの精度は低下する可能性がある。 近年の研究では、OODの一般化を改善するために、データ拡張の特別な例として、正規あるいはオフマニフォールドの逆数例が利用可能であることが示されている。 これに触発されて、理論上、on-manifold adversarial examples は ood の一般化に役立つことを証明している。 それでも、実多様体は概して複素であるため、多様体上の逆例を生成することは自明ではない。 この問題に対処するため,我々は,実装が容易なon-manifoldadversarialデータ拡張手法であるwavelet module (advwavaug) を用いて,逆行例によるデータ拡張手法を提案する。 特に、良性画像をウェーブレット領域に投影する。 ウェーブレット変換の空間特性を補助することにより、推定したデータ多様体上の画像を修正できる。 我々は,advprop トレーニングフレームワークを基盤とした敵意強化を行う。 ImageNetとその歪みバージョンを含む、異なるモデルと異なるデータセットに対する大規模な実験により、本手法がモデル一般化、特にOODデータにおいて改善できることが実証された。 トレーニングプロセスにAdvWavAugを統合することで、最近のトランスフォーマーモデルでSOTAの結果を得た。

Deep neural networks (DNNs) may suffer from significantly degenerated performance when the training and test data are of different underlying distributions. Despite the importance of model generalization to out-of-distribution (OOD) data, the accuracy of state-of-the-art (SOTA) models on OOD data can plummet. Recent work has demonstrated that regular or off-manifold adversarial examples, as a special case of data augmentation, can be used to improve OOD generalization. Inspired by this, we theoretically prove that on-manifold adversarial examples can better benefit OOD generalization. Nevertheless, it is nontrivial to generate on-manifold adversarial examples because the real manifold is generally complex. To address this issue, we proposed a novel method of Augmenting data with Adversarial examples via a Wavelet module (AdvWavAug), an on-manifold adversarial data augmentation technique that is simple to implement. In particular, we project a benign image into a wavelet domain. With the assistance of the sparsity characteristic of wavelet transformation, we can modify an image on the estimated data manifold. We conduct adversarial augmentation based on AdvProp training framework. Extensive experiments on different models and different datasets, including ImageNet and its distorted versions, demonstrate that our method can improve model generalization, especially on OOD data. By integrating AdvWavAug into the training process, we have achieved SOTA results on some recent transformer-based models.
翻訳日:2023-07-12 18:48:19 公開日:2023-07-11
# 一次元における同一フェルミオンの3体散乱超体積

The three-body scattering hypervolume of identical fermions in one dimension ( http://arxiv.org/abs/2302.13685v2 )

ライセンス: Link先を確認
Zipeng Wang and Shina Tan(参考訳) 1次元に短距離相互作用を持つ3つの同一スピン偏極フェルミオンのゼロエネルギー衝突について検討した。 我々は、3つのフェルミオンが遠く、または1対のフェルミオンと3つのフェルミオンが遠く離れているときの3体波動関数の漸近膨張を導出し、そのような膨張係数に3体散乱超体積$D_F$が現れる。 2体相互作用が魅力的で2体束縛状態をサポートする場合、$d_f$は、結果の束縛対と残りの自由フェルミオンの離脱を記述する出射波の振幅に関する負の虚部を取得する。 弱い相互作用ポテンシャルに対しては、ボルン展開を用いて超体積の近似式を導出する。 正方形バリア、正方形ウェルポテンシャル、ガウスポテンシャルに対して、3体シュレーディンガー方程式を解くことにより、数値的に$D_F$を計算する。 また, スピン偏極型1次元フェルミガスの非零$D_F$と3体組換え率によるエネルギー変化と圧力を1次元で計算した。

We study the zero-energy collision of three identical spin-polarized fermions with short-range interactions in one dimension. We derive the asymptotic expansions of the three-body wave function when the three fermions are far apart or one pair and the third fermion are far apart, and the three-body scattering hypervolume $D_F$ appears in the coefficients of such expansions. If the two-body interaction is attractive and supports two-body bound states, $D_F$ acquires a negative imaginary part related to the amplitudes of the outgoing waves describing the departure of the resultant bound pair and the remaining free fermion. For weak interaction potentials, we derive an approximate formula of the hypervolume by using the Born expansion. For the square-barrier and the square-well potentials and the Gaussian potential, we solve the three-body Schr\"{o}dinger equation to compute $D_F$ numerically. We also calculate the shifts of energy and of pressure of spin-polarized one-dimensional Fermi gases due to a nonzero $D_F$ and the three-body recombination rate in one dimension.
翻訳日:2023-07-12 18:47:56 公開日:2023-07-11
# ビデオグラフ変換器によるコントラスト映像質問応答

Contrastive Video Question Answering via Video Graph Transformer ( http://arxiv.org/abs/2302.13668v2 )

ライセンス: Link先を確認
Junbin Xiao, Pan Zhou, Angela Yao, Yicong Li, Richang Hong, Shuicheng Yan and Tat-Seng Chua(参考訳) 本稿では,ビデオグラフ変換器モデル(CoVGT)を用いて,ビデオ質問応答(VideoQA)をコントラスト的に行うことを提案する。 CoVGTの独自性と優越性は3倍である。 1) 複雑な時空間推論のために, 視覚オブジェクト, それらの関係, ダイナミクスを明示的に捉えて映像を符号化する動的グラフトランスフォーマモジュールを提案する。 2) 応答分類のためのマルチモーダル変換器ではなく,ビデオとテキスト間のコントラスト学習のためのビデオとテキストの変換器を設計する。 詳細なビデオテキスト通信は、追加のクロスモーダルインタラクションモジュールによって行われる。 3) 正解と誤答, 関連質問と無関係質問の間には, 完全かつ自己監督的な対照的目標が一致し, それぞれ最適化された。 優れたビデオエンコーディングとQAソリューションにより、CoVGTは従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。 そのパフォーマンスは、何百万もの外部データで事前訓練されたモデルを上回る。 さらに、CoVGTは、桁違いに小さなデータで、クロスモーダル事前学習の恩恵を受けることができることを示す。 その結果、CoVGTの有効性と優位性を示し、さらにデータ効率のよい事前学習の可能性を明らかにした。 われわれの成功が、粗い認識/記述を超えて、ビデオコンテンツの微粒な関連性推論へと進むことを願っている。 私たちのコードはhttps://github.com/doc-doc/covgtで利用可能です。

We propose to perform video question answering (VideoQA) in a Contrastive manner via a Video Graph Transformer model (CoVGT). CoVGT's uniqueness and superiority are three-fold: 1) It proposes a dynamic graph transformer module which encodes video by explicitly capturing the visual objects, their relations and dynamics, for complex spatio-temporal reasoning. 2) It designs separate video and text transformers for contrastive learning between the video and text to perform QA, instead of multi-modal transformer for answer classification. Fine-grained video-text communication is done by additional cross-modal interaction modules. 3) It is optimized by the joint fully- and self-supervised contrastive objectives between the correct and incorrect answers, as well as the relevant and irrelevant questions respectively. With superior video encoding and QA solution, we show that CoVGT can achieve much better performances than previous arts on video reasoning tasks. Its performances even surpass those models that are pretrained with millions of external data. We further show that CoVGT can also benefit from cross-modal pretraining, yet with orders of magnitude smaller data. The results demonstrate the effectiveness and superiority of CoVGT, and additionally reveal its potential for more data-efficient pretraining. We hope our success can advance VideoQA beyond coarse recognition/description towards fine-grained relation reasoning of video contents. Our code is available at https://github.com/doc-doc/CoVGT.
翻訳日:2023-07-12 18:47:35 公開日:2023-07-11
# 指向拡散:注意誘導による物体配置の直接制御

Directed Diffusion: Direct Control of Object Placement through Attention Guidance ( http://arxiv.org/abs/2302.13153v2 )

ライセンス: Link先を確認
Wan-Duo Kurt Ma, J.P. Lewis, Avisek Lahiri, Thomas Leung, W. Bastiaan Kleijn(参考訳) DALLE-2、Imagen、Stable Diffusionなどのテキスト誘導拡散モデルでは、所望の画像内容を記述する短いテキストプロンプトのみを与えられた、事実上無限の多様な画像を生成することができる。 多くの場合、画像は非常に高品質である。 しかし、これらのモデルは、特定の位置関係にある文字など、いくつかの重要なオブジェクトを含むシーンを構成するのに苦労することが多い。 映画やアニメーション理論の文献で認識されているように、画像内と画像間の文字や物体の配置を"直接"する能力はストーリーテリングにおいて不可欠である。 この作業では、特に簡単なアプローチで必要な方向を提供しています。 そこで我々は,これらの単語が示す対象の空間的レイアウトを反映した単語のクロスアテンションマップの観察に基づいて,これらのクロスアテンションマップにおいて所望の位置に'アクティベーション'を生成する最適化目標を提案する。 結果として得られたアプローチは、ストーリーブックのように、単一の画像から関連する画像のコレクションへのテキスト誘導拡散モデルの適用性を一般化するためのステップである。 我々の知識を最大限に活用するため,本手法は,既存の事前学習モデルを利用し,位置決めされた物体と背景とのコヒーレントブレンドを維持しつつ,複数の物体の位置制御を行う最初の拡散手法である。 さらに、実装には数行しか必要ありません。

Text-guided diffusion models such as DALLE-2, Imagen, and Stable Diffusion are able to generate an effectively endless variety of images given only a short text prompt describing the desired image content. In many cases the images are of very high quality. However, these models often struggle to compose scenes containing several key objects such as characters in specified positional relationships. The missing capability to "direct" the placement of characters and objects both within and across images is crucial in storytelling, as recognized in the literature on film and animation theory. In this work, we take a particularly straightforward approach to providing the needed direction. Drawing on the observation that the cross-attention maps for prompt words reflect the spatial layout of objects denoted by those words, we introduce an optimization objective that produces ``activation'' at desired positions in these cross-attention maps. The resulting approach is a step toward generalizing the applicability of text-guided diffusion models beyond single images to collections of related images, as in storybooks. To the best of our knowledge, our Directed Diffusion method is the first diffusion technique that provides positional control over multiple objects, while making use of an existing pre-trained model and maintaining a coherent blend between the positioned objects and the background. Moreover, it requires only a few lines to implement.
翻訳日:2023-07-12 18:47:13 公開日:2023-07-11
# 逆ロバストモデルに対するハイパーパラメータチューニング

Hyper-parameter Tuning for Adversarially Robust Models ( http://arxiv.org/abs/2304.02497v2 )

ライセンス: Link先を確認
Pedro Mendes, Paolo Romano, David Garlan(参考訳) この研究は、ロバストモデルのためのハイパーパラメータチューニング(HPT)の問題に焦点を当て、ロバストモデルのためのHPTプロセス中に生じる新しい課題と機会に光を当てる。 この目的のために、我々は3つの一般的なディープモデルに基づく広範な実験研究を行い、合計19208構成(500,000gpu時間に対応する)で、9つの(離散化された)hp、2つの忠実度寸法、2つのアタック境界を徹底的に調査した。 本研究により,HPT問題の複雑性は,標準および逆行訓練で使用するHPを独立的に調整する必要があるため,逆行訓練においてさらに悪化することを示し,その成功(両相で異なるHP設定を採用する)は,クリーン入力と逆行入力のエラーの最大80%と43%の削減につながることを示した。 一方、ロバストモデルにおけるHPTのコスト削減のための新たな機会についても検討する。 具体的には、安価な対人訓練手法を活用して、最先端の手法を用いて達成可能な品質の推定を行う。 我々は、この新しいアイデアを最近の多相最適化器(taKG)と組み合わせることで、HPTプロセスの効率を最大2.1倍に向上させることができることを示した。

This work focuses on the problem of hyper-parameter tuning (HPT) for robust (i.e., adversarially trained) models, shedding light on the new challenges and opportunities arising during the HPT process for robust models. To this end, we conduct an extensive experimental study based on 3 popular deep models, in which we explore exhaustively 9 (discretized) HPs, 2 fidelity dimensions, and 2 attack bounds, for a total of 19208 configurations (corresponding to 50 thousand GPU hours). Through this study, we show that the complexity of the HPT problem is further exacerbated in adversarial settings due to the need to independently tune the HPs used during standard and adversarial training: succeeding in doing so (i.e., adopting different HP settings in both phases) can lead to a reduction of up to 80% and 43% of the error for clean and adversarial inputs, respectively. On the other hand, we also identify new opportunities to reduce the cost of HPT for robust models. Specifically, we propose to leverage cheap adversarial training methods to obtain inexpensive, yet highly correlated, estimations of the quality achievable using state-of-the-art methods. We show that, by exploiting this novel idea in conjunction with a recent multi-fidelity optimizer (taKG), the efficiency of the HPT process can be enhanced by up to 2.1x.
翻訳日:2023-07-12 18:41:07 公開日:2023-07-11
# 古典的な量子非シグナリングボックス

Classical-to-quantum non-signalling boxes ( http://arxiv.org/abs/2303.17268v2 )

ライセンス: Link先を確認
Carolina Moreira Ferrera, Robin Simmons, James Purcell, Daniel Collins and Sandu Popescu(参考訳) ここでは古典的入力-量子出力(C-Q)非シグナリングボックスの概念、古典的入力-古典的出力(C-C)非シグナリングボックスの一般化を紹介する。 このような対象を研究することで、量子力学を超えた量子非局所性と非局所性との関係をよりよく理解できるようになると論じる。 論文で論じられている主な問題は、C-Qボックスが存在するか、またはC-Qボックスが既に知られている物体から構築できるかどうかである。 C-Qボックスの大規模クラスは真のものではないことを示し、解答がまだオープンである一般問題に対処するための様々な戦略を示す。 このアプローチに従う三成分量子絡み合いに関する結果も提示する。

Here we introduce the concept of classical input - quantum output (C-Q) non-signalling boxes, a generalisation of the classical input - classical output (C-C) non-signalling boxes. We argue that studying such objects leads to a better understanding of the relation between quantum nonlocality and non-locality beyond quantum mechanics. The main issue discussed in the paper is whether there exist "genuine" C-Q boxes or all C-Q boxes can be built from objects already known, namely C-C boxes acting on pre-shared entangled quantum particles. We show that large classes of C-Q boxes are non genuine, and present various strategies for addressing the general problem, whose answer is still open. Results concerning tri-partite quantum entanglement that follow from this approach are also presented.
翻訳日:2023-07-12 18:40:30 公開日:2023-07-11
# 不確実性誘導型Next-Best-View最適化を用いたアクティブインシシットオブジェクト再構成

Active Implicit Object Reconstruction using Uncertainty-guided Next-Best-View Optimziation ( http://arxiv.org/abs/2303.16739v2 )

ライセンス: Link先を確認
Dongyu Yan, Jianheng Liu, Fengyu Quan, Haoyao Chen and Mengmeng Fu(参考訳) オブジェクト再構築時のセンサビューのアクティブな計画は、自律移動ロボットにとって不可欠である。 有効な方法は、正確性と効率のバランスをとることができるべきである。 本稿では,新たな暗黙表現とアクティブ再構築タスクをシームレスに統合することを提案する。 私たちは幾何学的プロキシとして暗黙の占有領域を構築します。 トレーニング中、事前のオブジェクトバウンディングボックスを補助情報として活用し、クリーンで詳細な再構築を生成する。 視点の不確実性を評価するために,再構成された占有確率場から直接エントロピーを抽出するサンプリングベースアプローチを,視点情報獲得の尺度として採用する。 これにより、さらなる不確実性マップや学習の必要性がなくなる。 有限個の候補集合内のビューの不確実性を比較する従来の方法とは異なり、連続多様体上の次のベストビュー(NBV)を求める。 暗黙的表現の微分可能性を活用することで、NBVは勾配降下を用いたビューの不確実性を最大化することで直接最適化することができる。 異なるシナリオに対するメソッドの適応性を大幅に向上させる。 シミュレーションおよび実世界の実験により,本手法はアクティブな再構築作業におけるビュープランニングの精度と効率を効果的に向上することを示した。 提案されたシステムはhttps://github.com/HITSZ-NRSL/ActiveImplicitRecon.gitでオープンソース化される。

Actively planning sensor views during object reconstruction is crucial for autonomous mobile robots. An effective method should be able to strike a balance between accuracy and efficiency. In this paper, we propose a seamless integration of the emerging implicit representation with the active reconstruction task. We build an implicit occupancy field as our geometry proxy. While training, the prior object bounding box is utilized as auxiliary information to generate clean and detailed reconstructions. To evaluate view uncertainty, we employ a sampling-based approach that directly extracts entropy from the reconstructed occupancy probability field as our measure of view information gain. This eliminates the need for additional uncertainty maps or learning. Unlike previous methods that compare view uncertainty within a finite set of candidates, we aim to find the next-best-view (NBV) on a continuous manifold. Leveraging the differentiability of the implicit representation, the NBV can be optimized directly by maximizing the view uncertainty using gradient descent. It significantly enhances the method's adaptability to different scenarios. Simulation and real-world experiments demonstrate that our approach effectively improves reconstruction accuracy and efficiency of view planning in active reconstruction tasks. The proposed system will open source at https://github.com/HITSZ-NRSL/ActiveImplicitRecon.git.
翻訳日:2023-07-12 18:40:15 公開日:2023-07-11
# 不完全ラベルを用いた複数ラベル認識のための構造化セマンティック先行探索

Exploring Structured Semantic Prior for Multi Label Recognition with Incomplete Labels ( http://arxiv.org/abs/2303.13223v5 )

ライセンス: Link先を確認
Zixuan Ding, Ao Wang, Hui Chen, Qiang Zhang, Pengzhang Liu, Yongjun Bao, Weipeng Yan, Jungong Han(参考訳) 不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。 近年、視覚言語モデルである \ie, clip で画像とラベルの対応を探求し、アノテーションの不足を補う研究が進められている。 有望なパフォーマンスにもかかわらず、彼らは一般にラベルとラベルの対応について価値ある事前を見落としている。 本稿では,semantic prior prompter によるラベル間対応の構造化された意味を導出することにより,不完全なラベルを持つmlrのラベル管理の欠如を解消することを推奨する。 次に、構造化されたセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティックス・ネットワーク(SCPNet)を提案する。 さらに,事前学習の促進を図るために,事前学習法が導入された。 ベンチマークデータセットの総合的な実験と解析により,提案手法が既存の手法を全データセットで大幅に上回っており,提案手法の有効性と優越性が実証されている。 私たちのコードはhttps://github.com/jameslahm/scpnetで利用可能です。

Multi-label recognition (MLR) with incomplete labels is very challenging. Recent works strive to explore the image-to-label correspondence in the vision-language model, \ie, CLIP, to compensate for insufficient annotations. In spite of promising performance, they generally overlook the valuable prior about the label-to-label correspondence. In this paper, we advocate remedying the deficiency of label supervision for the MLR with incomplete labels by deriving a structured semantic prior about the label-to-label correspondence via a semantic prior prompter. We then present a novel Semantic Correspondence Prompt Network (SCPNet), which can thoroughly explore the structured semantic prior. A Prior-Enhanced Self-Supervised Learning method is further introduced to enhance the use of the prior. Comprehensive experiments and analyses on several widely used benchmark datasets show that our method significantly outperforms existing methods on all datasets, well demonstrating the effectiveness and the superiority of our method. Our code will be available at https://github.com/jameslahm/SCPNet.
翻訳日:2023-07-12 18:39:55 公開日:2023-07-11
# DiffMIC:医療画像分類のためのデュアルガイド拡散ネットワーク

DiffMIC: Dual-Guidance Diffusion Network for Medical Image Classification ( http://arxiv.org/abs/2303.10610v3 )

ライセンス: Link先を確認
Yijun Yang, Huazhu Fu, Angelica I. Aviles-Rivero, Carola-Bibiane Sch\"onlieb, Lei Zhu(参考訳) 拡散確率モデルは最近、生成的画像モデリングにおいて顕著な性能を示し、コンピュータビジョンコミュニティで大きな注目を集めている。 しかしながら、多くの拡散に基づく研究が生成タスクに焦点をあてているが、一般的な医用画像分類に拡散モデルを適用した研究はほとんどない。 本稿では,医用画像における予期せぬノイズや摂動を除去し,ロバストに意味表現を捉えることで,一般医用画像分類に対応する最初の拡散ベースモデル(diffmic)を提案する。 この目的を達成するために,各拡散ステップを複数の粒度で条件付けし,段階的な局所的注意力を向上させる2条件誘導戦略を考案する。 さらに,拡散前進過程における最大平均離散度正規化を強制することにより,各粒度の相互情報を学習することを提案する。 超音波画像における胎盤成熟度評価,皮膚病変分類,眼底画像を用いた糖尿病網膜症評価の3つの医用分類課題におけるdiffmicの有用性について検討した。 実験の結果,DiffMICは最先端手法よりも高い性能を示し,提案モデルの普遍性と有効性を示した。 私たちのコードはhttps://github.com/scott-yjyang/DiffMIC.comで公開されます。

Diffusion Probabilistic Models have recently shown remarkable performance in generative image modeling, attracting significant attention in the computer vision community. However, while a substantial amount of diffusion-based research has focused on generative tasks, few studies have applied diffusion models to general medical image classification. In this paper, we propose the first diffusion-based model (named DiffMIC) to address general medical image classification by eliminating unexpected noise and perturbations in medical images and robustly capturing semantic representation. To achieve this goal, we devise a dual conditional guidance strategy that conditions each diffusion step with multiple granularities to improve step-wise regional attention. Furthermore, we propose learning the mutual information in each granularity by enforcing Maximum-Mean Discrepancy regularization during the diffusion forward process. We evaluate the effectiveness of our DiffMIC on three medical classification tasks with different image modalities, including placental maturity grading on ultrasound images, skin lesion classification using dermatoscopic images, and diabetic retinopathy grading using fundus images. Our experimental results demonstrate that DiffMIC outperforms state-of-the-art methods by a significant margin, indicating the universality and effectiveness of the proposed model. Our code will be publicly available at https://github.com/scott-yjyang/DiffMIC.
翻訳日:2023-07-12 18:39:34 公開日:2023-07-11
# 共同行動と共通信念

Joint Behavior and Common Belief ( http://arxiv.org/abs/2303.07185v2 )

ライセンス: Link先を確認
Meir Friedenberg, Joseph Y. Halpern(参考訳) 25年以上にわたり、共通の信念は共同行動に必要なものとみなされてきた。 しかし、これは必ずしも正しくない。 共同行動として自然に考えられるものは、共通の信念なしに起こりうることを示す。 次に, 共通信念の2つの変種を提示し, 標準的共通信念が達成されることなく, 共同行動に繋がる可能性を示し, そのうちの1つ, 行動規範的共通信念は, 共同行動に必要かつ十分であることを示す。 これらの観察は、よく知られたように、共通の信念は実際に達成することは極めて困難であるが、これらの変異はより容易に達成できる。

For over 25 years, common belief has been widely viewed as necessary for joint behavior. But this is not quite correct. We show by example that what can naturally be thought of as joint behavior can occur without common belief. We then present two variants of common belief that can lead to joint behavior, even without standard common belief ever being achieved, and show that one of them, action-stamped common belief, is in a sense necessary and sufficient for joint behavior. These observations are significant because, as is well known, common belief is quite difficult to achieve in practice, whereas these variants are more easily achievable.
翻訳日:2023-07-12 18:39:10 公開日:2023-07-11
# 超疎視型cbct再構成のための深部強度場学習

Learning Deep Intensity Field for Extremely Sparse-View CBCT Reconstruction ( http://arxiv.org/abs/2303.06681v2 )

ライセンス: Link先を確認
Yiqun Lin, Zhongjin Luo, Wei Zhao, and Xiaomeng Li(参考訳) Sparse-view cone-beam CT (CBCT) 再建は放射線線量削減と臨床応用のための重要な方向である。 従来のボクセルベースの生成方法はCTを離散ボクセルとして表現しており、3Dデコーダの使用により高いメモリ要求と空間解像度が制限される。 本稿では,ctボリュームを連続的な強度場として定式化し,超高速で超疎射影から高品質なcbct再構成を行う新しいdif-netを開発した。 CTの強度場は3次元空間点の連続関数と見なすことができる。 これにより、任意の3D点の強度値を所定のスパース投影から引き戻すように再構成することができる。 特に、DIF-Netは、異なる2Dプロジェクションビューからビュー特有の特徴を抽出する。 これらの特徴はその後、強度推定のための融合モジュールによって集約される。 特に、トレーニングやテストの効率を改善するために、何千ものポイントを並行して処理することができる。 実際に膝CBCTデータセットを収集し,DIF-Netのトレーニングと評価を行う。 広範な実験により,高画質,高空間解像度のcbctを1.6秒以内で再現できることが判明した。 私たちのコードはhttps://github.com/xmed-lab/dif-netで利用可能です。

Sparse-view cone-beam CT (CBCT) reconstruction is an important direction to reduce radiation dose and benefit clinical applications. Previous voxel-based generation methods represent the CT as discrete voxels, resulting in high memory requirements and limited spatial resolution due to the use of 3D decoders. In this paper, we formulate the CT volume as a continuous intensity field and develop a novel DIF-Net to perform high-quality CBCT reconstruction from extremely sparse (fewer than 10) projection views at an ultrafast speed. The intensity field of a CT can be regarded as a continuous function of 3D spatial points. Therefore, the reconstruction can be reformulated as regressing the intensity value of an arbitrary 3D point from given sparse projections. Specifically, for a point, DIF-Net extracts its view-specific features from different 2D projection views. These features are subsequently aggregated by a fusion module for intensity estimation. Notably, thousands of points can be processed in parallel to improve efficiency during training and testing. In practice, we collect a knee CBCT dataset to train and evaluate DIF-Net. Extensive experiments show that our approach can reconstruct CBCT with high image quality and high spatial resolution from extremely sparse views within 1.6 seconds, significantly outperforming state-of-the-art methods. Our code will be available at https://github.com/xmed-lab/DIF-Net.
翻訳日:2023-07-12 18:38:57 公開日:2023-07-11
# FAC: 前景認識特徴コントラストによる3次元表現学習

FAC: 3D Representation Learning via Foreground Aware Feature Contrast ( http://arxiv.org/abs/2303.06388v2 )

ライセンス: Link先を確認
Kangcheng Liu, Aoran Xiao, Xiaoqin Zhang, Shijian Lu, Ling Shao(参考訳) コントラスト学習は3次元シーン理解タスクにおける教師なし事前学習に大きな可能性を示した。 しかし、既存のほとんどの作業は、コントラストを構築しながらアンカーとしてポイントの特徴をランダムに選び、しばしば3Dシーンで支配される背景点に対して明確なバイアスをもたらす。 また、物体認識と前景間識別は無視され、対照的な学習がより効果的になる。 これらの課題に対処するために,事前学習においてより効果的なポイントクラウド表現を学習するための,一般のフォアグラウンド対応機能コントラスト(FAC)フレームワークを提案する。 FACは2つの新しいコントラスト設計で構成され、より効果的で情報的なコントラストペアを構築する。 1つは、ポイントが同じ意味を持つ傾向にある同じ前景セグメント内で正のペアを構築することである。 2つ目は,3次元セグメント/オブジェクト間の過度な識別を防止し,セグメンテーションレベルでの背景と背景の区別をシムズ対応ネットワークの適応的特徴学習により促進することである。 点アクティベーションマップを用いた可視化により, コントラストペアが事前学習中に前景領域間の明確な対応を捉えることを示す。 定量的実験により、FACは様々な下流3次元セマンティックセグメンテーションやオブジェクト検出タスクにおいて、優れた知識伝達とデータ効率を達成することが示された。

Contrastive learning has recently demonstrated great potential for unsupervised pre-training in 3D scene understanding tasks. However, most existing work randomly selects point features as anchors while building contrast, leading to a clear bias toward background points that often dominate in 3D scenes. Also, object awareness and foreground-to-background discrimination are neglected, making contrastive learning less effective. To tackle these issues, we propose a general foreground-aware feature contrast (FAC) framework to learn more effective point cloud representations in pre-training. FAC consists of two novel contrast designs to construct more effective and informative contrast pairs. The first is building positive pairs within the same foreground segment where points tend to have the same semantics. The second is that we prevent over-discrimination between 3D segments/objects and encourage foreground-to-background distinctions at the segment level with adaptive feature learning in a Siamese correspondence network, which adaptively learns feature correlations within and across point cloud views effectively. Visualization with point activation maps shows that our contrast pairs capture clear correspondences among foreground regions during pre-training. Quantitative experiments also show that FAC achieves superior knowledge transfer and data efficiency in various downstream 3D semantic segmentation and object detection tasks.
翻訳日:2023-07-12 18:38:38 公開日:2023-07-11
# 歪みの異なるコントラスト学習

Distortion-Disentangled Contrastive Learning ( http://arxiv.org/abs/2303.05066v2 )

ライセンス: Link先を確認
Jinfeng Wang, Sifan Song, Jionglong Su, and S. Kevin Zhou(参考訳) 自己教師付き学習は、表現学習と様々な下流コンピュータビジョンタスクにおける顕著な性能で有名である。 近年,Positive-pair-Only Contrastive Learning (POCL) は,正負のトレーニングセットを構築することなく信頼性の高いパフォーマンスを実現している。 バッチサイズへの依存性を少なくすることで、メモリ要件を削減する。 POCL法は通常、1つの損失関数を用いて歪み不変表現(DIR)を抽出し、異なる歪みに影響を受ける正対表現の近接を記述する。 この損失関数は、異なる歪みに影響を受ける歪み変動表現(DVR)を暗黙的にフィルタリングまたは無視することができる。 しかし、既存のPOCL法は、実際に価値のあるDVRの混乱と利用を明示的に強制するものではない。 さらに,これらのPOCL法は拡張戦略に敏感であることが観察されている。 これらの制約に対処するため、DCL(Distortion-Disentangled Contrastive Learning)とDDL(Distortion-Disentangled Loss)という新しいPOCLフレームワークを提案する。 我々のアプローチは、モデルと特徴ストリーム内のDVRを明示的に切り離し、活用して、全体的な表現利用効率、堅牢性、表現能力を改善する最初の方法です。 実験により、いくつかのベンチマークデータセットにおける収束性、表現品質、堅牢性の観点から、Barlow Twins と Simsiam に対する我々のフレームワークの優位性を実証した。

Self-supervised learning is well known for its remarkable performance in representation learning and various downstream computer vision tasks. Recently, Positive-pair-Only Contrastive Learning (POCL) has achieved reliable performance without the need to construct positive-negative training sets. It reduces memory requirements by lessening the dependency on the batch size. The POCL method typically uses a single loss function to extract the distortion invariant representation (DIR) which describes the proximity of positive-pair representations affected by different distortions. This loss function implicitly enables the model to filter out or ignore the distortion variant representation (DVR) affected by different distortions. However, existing POCL methods do not explicitly enforce the disentanglement and exploitation of the actually valuable DVR. In addition, these POCL methods have been observed to be sensitive to augmentation strategies. To address these limitations, we propose a novel POCL framework named Distortion-Disentangled Contrastive Learning (DDCL) and a Distortion-Disentangled Loss (DDL). Our approach is the first to explicitly disentangle and exploit the DVR inside the model and feature stream to improve the overall representation utilization efficiency, robustness and representation ability. Experiments carried out demonstrate the superiority of our framework to Barlow Twins and Simsiam in terms of convergence, representation quality, and robustness on several benchmark datasets.
翻訳日:2023-07-12 18:38:13 公開日:2023-07-11
# 生成事前学習された自己回帰トランスフォーマグラフニューラルネットワークによる新規タンパク質の解析と発見

Generative Pretrained Autoregressive Transformer Graph Neural Network applied to the Analysis and Discovery of Novel Proteins ( http://arxiv.org/abs/2305.04934v2 )

ライセンス: Link先を確認
Markus J. Buehler(参考訳) 本稿では,トランスフォーマーとグラフ畳み込みアーキテクチャを因果的多頭グラフ機構に統合した注意ニューラルネットワークを基盤として,タンパク質モデリングにおける複雑な前方および逆問題を解くために適用した,柔軟な言語モデルに基づくディープラーニング戦略を報告する。 本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクを予測する。 逆タスクでさらに訓練されたモデルでは、これらの特性を標的としてタンパク質を設計することができる。 このモデルは汎用フレームワークとして定式化されており、完全にプロンプトベースであり、様々な下流タスクに適応することができる。 追加のタスクを追加することで、モデルが全体的なパフォーマンス改善に利用する創発的なシナジーが得られることが分かりました。 ケーススタディは、構造タンパク質に特異的に焦点をあてたタンパク質設計と、可溶性抗菌性生体材料の設計への適用性について検証する。 私たちのモデルは最終的に8つの異なるタスクを実行するように訓練されていますが、利用可能なデータセットでは、追加の問題を解決するために拡張することができます。 より広い意味では、この研究は、一連の究極のビルディングブロック(手元にある物理系の性質を定義するバイトレベルのutf8文字)を複雑な出力に関連付けるマルチスケールモデリングの形式を描いている。 この体系は、普遍的なビルディングブロックと結果として生じる性質の間の複雑な創発的な関係を相乗学習能力を通じて捉え、普遍性と多様性の相互作用を通じて、訓練で使われる知識に埋め込まれた一連の可能性を表現する。

We report a flexible language-model based deep learning strategy, applied here to solve complex forward and inverse problems in protein modeling, based on an attention neural network that integrates transformer and graph convolutional architectures in a causal multi-headed graph mechanism, to realize a generative pretrained model. The model is applied to predict secondary structure content (per-residue level and overall content), protein solubility, and sequencing tasks. Further trained on inverse tasks, the model is rendered capable of designing proteins with these properties as target features. The model is formulated as a general framework, completely prompt-based, and can be adapted for a variety of downstream tasks. We find that adding additional tasks yields emergent synergies that the model exploits in improving overall performance, beyond what would be possible by training a model on each dataset alone. Case studies are presented to validate the method, yielding protein designs specifically focused on structural proteins, but also exploring the applicability in the design of soluble, antimicrobial biomaterials. While our model is trained to ultimately perform 8 distinct tasks, with available datasets it can be extended to solve additional problems. In a broader sense, this work illustrates a form of multiscale modeling that relates a set of ultimate building blocks (here, byte-level utf8 characters that define the nature of the physical system at hand) to complex output. This materiomic scheme captures complex emergent relationships between universal building block and resulting properties via a synergizing learning capacity to express a set of potentialities embedded in the knowledge used in training, via the interplay of universality and diversity.
翻訳日:2023-07-12 18:30:41 公開日:2023-07-11
# 不確実性を考慮した因果モデルによる画像ベース精密医療の改善

Improving Image-Based Precision Medicine with Uncertainty-Aware Causal Models ( http://arxiv.org/abs/2305.03829v2 )

ライセンス: Link先を確認
Joshua Durso-Finley, Jean-Pierre Falet, Raghav Mehta, Douglas L. Arnold, Nick Pawlowski, Tal Arbel(参考訳) 画像に基づく精密医療は、個人の独自の画像特徴に基づいて治療決定をパーソナライズし、臨床結果を改善することを目的としている。 治療レコメンデーションの一部として不確実性推定を統合する機械学習フレームワークは、より安全で信頼性が高い。 しかし,不確実性推定手法や検証基準を精度医学に適用する作業はほとんど行われていない。 本稿では,ベイズ深層学習を用いて,いくつかの治療における実結果と偽結果の後方分布を推定する。 これにより、各治療オプションに対する不確実性や、2つの治療法間の個々の治療効果(ite)の推定が可能になる。 このモデルを用いて,多発性硬化症患者のmr脳画像の大規模多施設データセットにおけるt2病変数を予測し,ランダム化比較試験中に複数の治療を行った。 我々は,不確実性推定と事実誤差の相関性を評価し,実測結果の欠如を踏まえて,ITT予測の不確実性がITT誤差の境界とどのように関係しているかを示す。 最後に、不確実性に関する知識が、患者個人および臨床試験結果を改善するために臨床意思決定をどう変えるかを示す。

Image-based precision medicine aims to personalize treatment decisions based on an individual's unique imaging features so as to improve their clinical outcome. Machine learning frameworks that integrate uncertainty estimation as part of their treatment recommendations would be safer and more reliable. However, little work has been done in adapting uncertainty estimation techniques and validation metrics for precision medicine. In this paper, we use Bayesian deep learning for estimating the posterior distribution over factual and counterfactual outcomes on several treatments. This allows for estimating the uncertainty for each treatment option and for the individual treatment effects (ITE) between any two treatments. We train and evaluate this model to predict future new and enlarging T2 lesion counts on a large, multi-center dataset of MR brain images of patients with multiple sclerosis, exposed to several treatments during randomized controlled trials. We evaluate the correlation of the uncertainty estimate with the factual error, and, given the lack of ground truth counterfactual outcomes, demonstrate how uncertainty for the ITE prediction relates to bounds on the ITE error. Lastly, we demonstrate how knowledge of uncertainty could modify clinical decision-making to improve individual patient and clinical trial outcomes.
翻訳日:2023-07-12 18:30:08 公開日:2023-07-11
# 超高分解能リモートセンシングシーン分類のためのマルチレベル機能強化

Enhanced Multi-level Features for Very High Resolution Remote Sensing Scene Classification ( http://arxiv.org/abs/2305.00679v2 )

ライセンス: Link先を確認
Chiranjibi Sitaula, Sumesh KC, Jagannath Aryal(参考訳) 超高分解能(VHR)リモートセンシング(RS)シーン分類は、クラス間類似度とクラス内変動性の問題により難しい課題である。 近年,既存の深層学習(dl)に基づく手法がvhr rsのシーン分類に大きな期待を寄せている。 しかし、それらは依然として不安定な分類性能を提供している。 このような問題に対処するため,我々は新たなDLベースのアプローチを提案する。 そこで我々は,拡張VHRアテンションモジュール (EAM) を考案し,その後にアトラス空間ピラミッドプール (ASPP) とグローバル平均プール (GAP) を開発した。 この手順は、強化された特徴を対応するレベルから付与する。 そして、マルチレベル特徴融合を行う。 2つの広く利用されているVHR RSデータセットによる実験結果から,提案手法は最小標準偏差0.001で,競争性と安定性,ロバストな分類性能が得られることが示された。 さらに、AIDとNWPUのデータセットにおける最も高い総合的な精度は、それぞれ95.39%と93.04%である。

Very high-resolution (VHR) remote sensing (RS) scene classification is a challenging task due to the higher inter-class similarity and intra-class variability problems. Recently, the existing deep learning (DL)-based methods have shown great promise in VHR RS scene classification. However, they still provide an unstable classification performance. To address such a problem, we, in this letter, propose a novel DL-based approach. For this, we devise an enhanced VHR attention module (EAM), followed by the atrous spatial pyramid pooling (ASPP) and global average pooling (GAP). This procedure imparts the enhanced features from the corresponding level. Then, the multi-level feature fusion is performed. Experimental results on two widely-used VHR RS datasets show that the proposed approach yields a competitive and stable/robust classification performance with the least standard deviation of 0.001. Further, the highest overall accuracies on the AID and the NWPU datasets are 95.39% and 93.04%, respectively.
翻訳日:2023-07-12 18:29:19 公開日:2023-07-11
# 畳み込みとして表される境界を持つウィグナー関数ダイナミクス

Wigner function dynamics with boundaries expressed as convolution ( http://arxiv.org/abs/2304.14928v2 )

ライセンス: Link先を確認
S. S. Seidov(参考訳) 本稿では,無限量子井戸における粒子のウィグナー関数のダイナミクスの探索法を開発した。 計算不能な壁からの反射の問題から始め、得られた解は任意の次元において無限の井戸に閉じ込められた粒子の場合に一般化される。 量子力学の位相空間の定式化における境界値問題は驚くほど難しいことが知られている。 この合併症は、ウィグナー関数の計算にかかわる表現の非局所性から生じる。 このような問題を扱ういくつかの方法が提案された。 それらはかなり複雑でエキゾチックであり、例えばディラックデルタ関数の微分に比例する運動エネルギーの補正を含む。 解析的視点と数値計算の両面から,本手法による提案はより単純である。 解は、井戸の形状によって定義されるある種の関数を持つ自由粒子溶液の畳み込みの形に導かれる。 この手順には積分の計算が必要であり、解析的および数値的手法が開発されている。

In the present paper a method of finding the dynamics of the Wigner function of a particle in an infinite quantum well is developed. Starting with the problem of a reflection from an impenetrable wall, the obtained solution is then generalized to the case of a particle confined in an infinite well in arbitrary dimensions. It is known, that boundary value problems in the phase space formulation of the quantum mechanics are surprisingly tricky. The complications arise from nonlocality of the expression involved in calculation of the Wigner function. Several ways of treating such problems were proposed. They are rather complicated and even exotic, involving, for example, corrections to the kinetic energy proportional to the derivatives of the Dirac delta--function. The presented in the manuscript approach is simpler both from analytical point of view and regarding numerical calculation. The solution is brought to a form of convolution of the free particle solution with some function, defined by the shape of the well. This procedure requires calculation of an integral, which can be done by developed analytical and numerical methods.
翻訳日:2023-07-12 18:28:43 公開日:2023-07-11
# 非エルミート系における非断熱幾何量子計算

Nonadiabatic Geometric Quantum Computation in Non-Hermitian Systems ( http://arxiv.org/abs/2304.06209v2 )

ライセンス: Link先を確認
Tian-Xiang Hou and Wei Li(参考訳) nonadiabatic geometric quantum computation (ngqc) は、制御エラーに対して高速かつ堅牢な量子制御を実現するための優れた提案である。 しかし、以前のngqcプロトコルは現実のシステムにおける素状態の減衰によるノイズに対して強い回復力を持たず、これは非エルミート・ハミルトニアンによって等価に記述できる。 ここでは,非エルミート量子系におけるNGQCの実行方法を示す。 システムの非単体進化によって生じる新しい幾何学的位相を利用することで、均一な幾何学的ゲートの集合を高い忠実度で実現できる。 さらに, 非断熱過程が崩壊による忠実性の喪失に繋がらないことを示す。

Nonadiabatic geometric quantum computation (NGQC) has emerged as an excellent proposal for achieving fast and robust quantum control against control errors. However, previous NGQC protocols could not be strongly resilient against the noise from decay of bare states in a realistic system, which can be equivalently described by a non-Hermitian Hamiltonian. Here, we show how to perform NGQC in non-Hermitian quantum systems. By utilizing a novel geometric phase generated by non-unitary evolution of the system, a universal set of geometric gates can be realized with a high fidelity. Moreover, we demonstrate that the nonadiabatic process does not lead to the loss of fidelity from decay.
翻訳日:2023-07-12 18:27:30 公開日:2023-07-11
# ユニタリランダム操作下での量子ビットネットワークから時間結晶相が出現する

The time crystal phase emerges from the qubit network under unitary random operations ( http://arxiv.org/abs/2304.02884v3 )

ライセンス: Link先を確認
He Wang and Jin Wang(参考訳) 本稿では,オープン量子システム理論におけるランダムユニタリ進化モデルを用いて,完全連結量子ビットネットワークで観測される非定常挙動について報告する。 環境効果は、ある確率で1組の量子ビット間の部分スワップ(PSW)相互作用に反映される。 我々の研究は単純なイジング型ハミルトニアンから始まり、ランダムユニタリ進化の多くの反復を通じて、初期状態の特定の記憶を符号化する非定常振動状態が発生するかもしれない。 いくつかの局所観測対象の非自明な周期運動は、連続時間結晶相を示す。 また,本研究の他のタイプのハミルトニアンへの拡張についても検討し,この非定常挙動が一般化された力学対称性によりモデルに広く分布することを示した。 驚くべきことに、理論と数値解析の両方が、構築された時間結晶相のほとんどの種類のノイズに対するロバスト性を支持している。 本研究は,オープンシステムモデルにおける時間結晶相構築のための新たな展望を提供する。

In this paper, we report findings of non-stationary behavior observed in a fully connected qubit network, utilizing a random unitary evolution model in open quantum system theory. The environmental effect is reflected in the partial swap (PSW) interaction between pairs of qubits with a certain probability. Our study begins with a simple Ising-type Hamiltonian and through many iterations of random unitary evolution, a non-stationary oscillatory state may arise, which encodes certain memory of the initial state. The non-trivial periodic motion of some local observables is indicative of a continuous time crystal phase. We also explore the extension of our study to other types of Hamiltonians and demonstrate that this non-stationary behavior is widespread in our model due to the generalized dynamical symmetry. Remarkably, both theoretical and numerical analysis support the robustness of the constructed time crystal phase to most types of noise. Our research provides a new perspective for constructing the time crystal phase in an open system model.
翻訳日:2023-07-12 18:27:16 公開日:2023-07-11
# RAPHAEL: 大きな拡散経路によるテキスト・画像生成

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths ( http://arxiv.org/abs/2305.18295v2 )

ライセンス: Link先を確認
Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo(参考訳) テキストから画像への生成は、最近目覚ましい成果を上げている。 我々は,複数の名詞,形容詞,動詞を含む文のプロンプトを正確に表現し,高度に芸術的な画像を生成するために,RAPHAELと呼ばれるテキスト条件画像拡散モデルを導入する。 これは、ネットワーク入力から出力への数十億の拡散経路(ルート)を可能にする、空間-MoE層と時間-MoE層を積み重ねることによって達成される。 各パスは、拡散時間ステップで特定の画像領域に特定のテキスト概念を記述するための「ページ」として直感的に機能する。 総合的な実験により、RAPHAELは画像の品質と美的魅力の両方の観点から、最近の最先端モデル、例えばStable Diffusion、ERNIE-ViLG 2.0、DeepFloyd、DALL-E 2を上回っていることが明らかになった。 第一に、RAPHAELは日本の漫画、リアリズム、サイバーパンク、インクイラストのような様々なスタイルの画像を切り替える際の優れたパフォーマンスを示す。 第二に、30億のパラメータを持つ単一のモデルで、2ヶ月間1,000A100 GPUでトレーニングされ、COCOデータセットで最先端のゼロショットFIDスコア6.61を達成する。 さらに、RAPHAELはViLG-300ベンチマークの人間による評価において、その性能を大幅に上回っている。 我々は、ラファエルが学界と産業の両方における画像生成研究のフロンティアを促進する可能性を秘めており、この急速に発展する分野における将来のブレークスルーへの道を開くと信じている。 詳細はWebページにある。 https://miaohua.sensetime.com/en.com/en.com/s

Text-to-image generation has recently witnessed remarkable achievements. We introduce a text-conditional image diffusion model, termed RAPHAEL, to generate highly artistic images, which accurately portray the text prompts, encompassing multiple nouns, adjectives, and verbs. This is achieved by stacking tens of mixture-of-experts (MoEs) layers, i.e., space-MoE and time-MoE layers, enabling billions of diffusion paths (routes) from the network input to the output. Each path intuitively functions as a "painter" for depicting a particular textual concept onto a specified image region at a diffusion timestep. Comprehensive experiments reveal that RAPHAEL outperforms recent cutting-edge models, such as Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd, and DALL-E 2, in terms of both image quality and aesthetic appeal. Firstly, RAPHAEL exhibits superior performance in switching images across diverse styles, such as Japanese comics, realism, cyberpunk, and ink illustration. Secondly, a single model with three billion parameters, trained on 1,000 A100 GPUs for two months, achieves a state-of-the-art zero-shot FID score of 6.61 on the COCO dataset. Furthermore, RAPHAEL significantly surpasses its counterparts in human evaluation on the ViLG-300 benchmark. We believe that RAPHAEL holds the potential to propel the frontiers of image generation research in both academia and industry, paving the way for future breakthroughs in this rapidly evolving field. More details can be found on a webpage: https://miaohua.sensetime.com/en.
翻訳日:2023-07-12 18:22:38 公開日:2023-07-11
# toast: 注意ステアリングによる転校学習

TOAST: Transfer Learning via Attention Steering ( http://arxiv.org/abs/2305.15542v2 )

ライセンス: Link先を確認
Baifeng Shi, Siyu Gai, Trevor Darrell, Xin Wang(参考訳) トランスファーラーニングでは、トレーニング済みのモデルを下流タスクに適応させる。 しかし,現在の移動学習手法はタスク関連機能に焦点を合わせないことが多い。 本研究では,転帰学習のための再焦点モデルに着目した。 本稿では,事前学習したバックボーンを凍結したまま保存し,タスク関連機能を抽出し,それらの特徴をモデルにフィードバックし,タスク固有の特徴に注意を向ける新しい転送学習アルゴリズムであるTop-Down Attention Steering(TOAST)を紹介する。 注意のみに焦点を合わせることで、TOASTは、少数の調整可能なパラメータを持ちながら、多くの移行学習ベンチマークで最先端の結果を達成する。 完全な微調整、LoRA、即時チューニングと比較すると、TOASTは様々な細かい視覚分類データセット(例えばFGVCでは81.1%から86.2%)のパフォーマンスを大幅に向上させる。 TOASTはまた、命令追従言語生成において、完全に調整されたAlpacaとVicunaモデルよりも優れている。 コードはhttps://github.com/bfshi/TOASTで入手できる。

Transfer learning involves adapting a pre-trained model to novel downstream tasks. However, we observe that current transfer learning methods often fail to focus on task-relevant features. In this work, we explore refocusing model attention for transfer learning. We introduce Top-Down Attention Steering (TOAST), a novel transfer learning algorithm that keeps the pre-trained backbone frozen, selects task-relevant features in the output, and feeds those features back to the model to steer the attention to the task-specific features. By refocusing the attention only, TOAST achieves state-of-the-art results on a number of transfer learning benchmarks, while having a small number of tunable parameters. Compared to fully fine-tuning, LoRA, and prompt tuning, TOAST substantially improves performance across a range of fine-grained visual classification datasets (e.g., 81.1% -> 86.2% on FGVC). TOAST also outperforms the fully fine-tuned Alpaca and Vicuna models on instruction-following language generation. Code is available at https://github.com/bfshi/TOAST.
翻訳日:2023-07-12 18:20:18 公開日:2023-07-11
# gpt4graph: 大きな言語モデルは、グラフ構造化データを理解できますか? 経験的評価とベンチマーク

GPT4Graph: Can Large Language Models Understand Graph Structured Data ? An Empirical Evaluation and Benchmarking ( http://arxiv.org/abs/2305.15066v2 )

ライセンス: Link先を確認
Jiayan Guo, Lun Du, Hengyu Liu, Mengyu Zhou, Xinyi He, Shi Han(参考訳) chatgptのような大規模言語モデル(llm)は、人工知能(agi)にとって不可欠となり、様々な自然言語処理タスクにおいて優れた性能を示している。 現実の世界では、グラフデータはユビキタスであり、AGIの重要な部分であり、ソーシャルネットワーク分析、バイオインフォマティクス、レコメンデーションシステムといった領域で広く利用されている。 大規模言語モデルのトレーニングコーパスにはアルゴリズム的な要素が含まれており、グラフデータに関連する問題に対して一定の効果を達成できる。 しかし、グラフ構造化データでのパフォーマンスについてはまだほとんど研究されていない。 本研究では,多種多様な構造的・意味的タスクを用いて,グラフデータの理解におけるllmの習熟度評価を行う。 本分析は,グラフ理解におけるLLMの能力を評価する10のタスクを含む。 本研究は,グラフ構造理解における言語モデルの現在の限界を明らかにするだけでなく,さらなる発展とグラフ処理能力向上のための新しいアプローチの必要性を強調するものである。 本研究は,言語モデルとグラフ理解のギャップを埋める上で,より効果的なグラフマイニングと知識抽出の道を開く上での貴重な知見である。

Large language models~(LLM) like ChatGPT have become indispensable to artificial general intelligence~(AGI), demonstrating excellent performance in various natural language processing tasks. In the real world, graph data is ubiquitous and an essential part of AGI and prevails in domains like social network analysis, bioinformatics and recommender systems. The training corpus of large language models often includes some algorithmic components, which allows them to achieve certain effects on some graph data-related problems. However, there is still little research on their performance on a broader range of graph-structured data. In this study, we conduct an extensive investigation to assess the proficiency of LLMs in comprehending graph data, employing a diverse range of structural and semantic-related tasks. Our analysis encompasses 10 distinct tasks that evaluate the LLMs' capabilities in graph understanding. Through our study, we not only uncover the current limitations of language models in comprehending graph structures and performing associated reasoning tasks but also emphasize the necessity for further advancements and novel approaches to enhance their graph processing capabilities. Our findings contribute valuable insights towards bridging the gap between language models and graph understanding, paving the way for more effective graph mining and knowledge extraction.
翻訳日:2023-07-12 18:19:59 公開日:2023-07-11
# サイクルトレーニングによる忠実な低リソースデータ・テキスト生成

Faithful Low-Resource Data-to-Text Generation through Cycle Training ( http://arxiv.org/abs/2305.14793v2 )

ライセンス: Link先を確認
Zhuoer Wang, Marcus Collins, Nikhita Vedula, Simone Filice, Shervin Malmasi, Oleg Rokhlenko(参考訳) 近年、構造化データからテキストを生成する方法は、主に大規模データセット上で事前訓練された言語モデルの微調整によって大きく進歩している。 しかし、そのようなモデルは入力データ、特にドメイン外のデータに忠実な出力を生成することができない。 十分な注釈付きデータは特定のドメインでは利用できないことが多いため、出力テキストの忠実性を改善するための教師なしのアプローチが求められます。 この課題は構造化データとテキストの表現の一貫性の1つであるので,本研究におけるサイクルトレーニングの有効性を評価した。 サイクルトレーニングでは、構造化されたデータからテキストを生成するモデルと、自然言語のテキストから構造化されたデータを生成するモデルである。 我々は,webnlg,e2e,wtq,wsqlのデータセットにおけるデータ対テキスト生成タスクの完全教師ありアプローチとほぼ同じ性能を,少量の教師ありデータ(本事例では100サンプル)で初期化するサイクルトレーニングによって達成することを示す。 本研究では,自動評価メトリクスと新たに設計された人間評価スキーマを用いて,多種多様な生成エラーを低減できるサイクルトレーニング戦略の有効性を明らかにする。 私たちのコードはhttps://github.com/Edillower/CycleNLG.comで公開されています。

Methods to generate text from structured data have advanced significantly in recent years, primarily due to fine-tuning of pre-trained language models on large datasets. However, such models can fail to produce output faithful to the input data, particularly on out-of-domain data. Sufficient annotated data is often not available for specific domains, leading us to seek an unsupervised approach to improve the faithfulness of output text. Since the problem is fundamentally one of consistency between the representations of the structured data and text, we evaluate the effectiveness of cycle training in this work. Cycle training uses two models which are inverses of each other: one that generates text from structured data, and one which generates the structured data from natural language text. We show that cycle training, when initialized with a small amount of supervised data (100 samples in our case), achieves nearly the same performance as fully supervised approaches for the data-to-text generation task on the WebNLG, E2E, WTQ, and WSQL datasets. We perform extensive empirical analysis with automated evaluation metrics and a newly designed human evaluation schema to reveal different cycle training strategies' effectiveness of reducing various types of generation errors. Our code is publicly available at https://github.com/Edillower/CycleNLG.
翻訳日:2023-07-12 18:19:38 公開日:2023-07-11
# パラメータ分離による動的グラフの連続学習

Continual Learning on Dynamic Graphs via Parameter Isolation ( http://arxiv.org/abs/2305.13825v2 )

ライセンス: Link先を確認
Peiyan Zhang, Yuchen Yan, Chaozhuo Li, Senzhang Wang, Xing Xie, Guojie Song, Sunghun Kim(参考訳) 実世界のグラフ学習タスクの多くは、新しいノードとエッジが出現する動的グラフの処理を必要とする。 動的グラフ学習法は一般に、過去のグラフで学んだ知識が新しいグラフの更新によって上書きされる破滅的な忘れ問題に悩まされる。 問題を緩和するため,連続グラフ学習法を提案する。 しかし、既存の連続グラフ学習手法は、新しいパターンを学習し、同じパラメータセットの固定サイズで古いパターンを維持することを目的としており、したがって両目標の根本的なトレードオフに直面している。 本稿では,パラメータ分離と拡張によるトレードオフを回避する動的グラフの連続学習のためのパラメータ分離GNN(PI-GNN)を提案する。 私たちのモチベーションは、異なるパラメータが異なるグラフパターンの学習に寄与することにあります。 このアイデアに基づいて,モデルパラメータを拡張して,新たなグラフパターンを継続的に学習する。 一方、影響のないパターンの知識を効果的に保存するために、最適化によってそれらに対応するパラメータを見つけ、それらを凍結して書き換えるのを防ぐ。 8つの実世界のデータセットの実験は、最先端のベースラインと比較してPI-GNNの有効性を裏付ける。

Many real-world graph learning tasks require handling dynamic graphs where new nodes and edges emerge. Dynamic graph learning methods commonly suffer from the catastrophic forgetting problem, where knowledge learned for previous graphs is overwritten by updates for new graphs. To alleviate the problem, continual graph learning methods are proposed. However, existing continual graph learning methods aim to learn new patterns and maintain old ones with the same set of parameters of fixed size, and thus face a fundamental tradeoff between both goals. In this paper, we propose Parameter Isolation GNN (PI-GNN) for continual learning on dynamic graphs that circumvents the tradeoff via parameter isolation and expansion. Our motivation lies in that different parameters contribute to learning different graph patterns. Based on the idea, we expand model parameters to continually learn emerging graph patterns. Meanwhile, to effectively preserve knowledge for unaffected patterns, we find parameters that correspond to them via optimization and freeze them to prevent them from being rewritten. Experiments on eight real-world datasets corroborate the effectiveness of PI-GNN compared to state-of-the-art baselines.
翻訳日:2023-07-12 18:19:16 公開日:2023-07-11
# RGB-Dと熱センサーフュージョン:システム文献レビュー

RGB-D And Thermal Sensor Fusion: A Systematic Literature Review ( http://arxiv.org/abs/2305.11427v2 )

ライセンス: Link先を確認
Martin Brenner, Napoleon H. Reyes, Teo Susnjak, Andre L.C. Barczak(参考訳) 過去10年間、コンピュータビジョン分野は、深度、赤外線、視覚を含む複数のセンサーが様々な範囲の環境を捉えるために使用されるマルチモーダルデータ融合と学習において、大きな進歩を遂げてきた。 これらの進歩にもかかわらず、これまでRGB-Dと熱モダリティを融合させる体系的かつ包括的な評価は行われていない。 ライダー、レーダー、rgb、その他のセンサーを用いた自律運転は、rgbと深度モードの融合と共に、かなりの研究の関心を集めているが、サーマルカメラ、特にrgb-dとサーマルデータの融合は、比較的注目されていない。 これは部分的には、そのようなアプリケーションで利用可能な公開データセットの数が限られているためかもしれない。 本稿では,rgb-dデータとサーマルカメラデータを用いて,現場検査や人的追跡,障害検出など,様々な用途に適用する手法について概観する。 レビューされた文献は、3次元再構成、セグメンテーション、オブジェクト検出、利用可能なデータセット、その他の関連するトピックに分類されている。 方法論の簡単な紹介と概要に続いて,本研究はキャリブレーションと登録手法を掘り下げ,熱可視化と3次元再構成を考察し,古典的特徴に基づく手法と近代的な深層学習アプローチの応用について論じる。 この論文は、現在の限界と将来の研究方向に関する談話で締めくくっている。 この調査は、最新の進歩に精通し、RGB-DT研究分野に貢献することを目指す研究者にとって貴重な参考となるものと期待されている。

In the last decade, the computer vision field has seen significant progress in multimodal data fusion and learning, where multiple sensors, including depth, infrared, and visual, are used to capture the environment across diverse spectral ranges. Despite these advancements, there has been no systematic and comprehensive evaluation of fusing RGB-D and thermal modalities to date. While autonomous driving using LiDAR, radar, RGB, and other sensors has garnered substantial research interest, along with the fusion of RGB and depth modalities, the integration of thermal cameras and, specifically, the fusion of RGB-D and thermal data, has received comparatively less attention. This might be partly due to the limited number of publicly available datasets for such applications. This paper provides a comprehensive review of both, state-of-the-art and traditional methods used in fusing RGB-D and thermal camera data for various applications, such as site inspection, human tracking, fault detection, and others. The reviewed literature has been categorised into technical areas, such as 3D reconstruction, segmentation, object detection, available datasets, and other related topics. Following a brief introduction and an overview of the methodology, the study delves into calibration and registration techniques, then examines thermal visualisation and 3D reconstruction, before discussing the application of classic feature-based techniques as well as modern deep learning approaches. The paper concludes with a discourse on current limitations and potential future research directions. It is hoped that this survey will serve as a valuable reference for researchers looking to familiarise themselves with the latest advancements and contribute to the RGB-DT research field.
翻訳日:2023-07-12 18:19:01 公開日:2023-07-11
# ディープニューラルネットワークのための逐次アフィン学習

Successive Affine Learning for Deep Neural Networks ( http://arxiv.org/abs/2305.07996v2 )

ライセンス: Link先を確認
Yuesheng Xu(参考訳) 本稿では,深層ニューラルネットワーク構築のための逐次アフィン学習(SAL)モデルを提案する。 伝統的に、DNNは非凸最適化問題の解決によって構築される。 このような問題を非凸性や多数の層を持つため数値的に解くことはしばしば困難である。 本論文の著者らにより,人間教育システムに触発されたこの課題に対処するため,近年,多段階深層学習(MGDL)モデルが始められた。 MGDLモデルはいくつかのグレードでDNNを学習し、それぞれが比較的少数の層からなる浅いDNNを構築する。 MGDLモデルは、まだいくつかの非凸最適化問題を解く必要がある。 提案したSALモデルはMGDLモデルから変異する。 DNNの各層がアフィン写像とアクティベーション関数から構成されていることに注意し、活性化関数を重み行列と現在の層のバイアスベクトルのみを含む二次凸最適化問題を解くことでアフィン写像を学習することを提案する。 関数近似の文脈では、与えられた関数に対して、SALモデルはDNNの形式で適応基底関数を持つ関数の拡張を生成する。 SALモデルにより生成されたシステムに対して,ピタゴラスのアイデンティティとParsevalのアイデンティティを確立する。 さらに、SAL過程の収束定理は、有限個のグレードの後に終了するか、その最適誤差関数のノルムが、階数数が無限大に増加するにつれて、極限まで厳密に減少することを意味する。 さらに,提案したSALモデルが従来のディープラーニングモデルよりも優れていることを示す概念実証の数値例を示す。

This paper introduces a successive affine learning (SAL) model for constructing deep neural networks (DNNs). Traditionally, a DNN is built by solving a non-convex optimization problem. It is often challenging to solve such a problem numerically due to its non-convexity and having a large number of layers. To address this challenge, inspired by the human education system, the multi-grade deep learning (MGDL) model was recently initiated by the author of this paper. The MGDL model learns a DNN in several grades, in each of which one constructs a shallow DNN consisting of a relatively small number of layers. The MGDL model still requires solving several non-convex optimization problems. The proposed SAL model mutates from the MGDL model. Noting that each layer of a DNN consists of an affine map followed by an activation function, we propose to learn the affine map by solving a quadratic/convex optimization problem which involves the activation function only {\it after} the weight matrix and the bias vector for the current layer have been trained. In the context of function approximation, for a given function the SAL model generates an expansion of the function with adaptive basis functions in the form of DNNs. We establish the Pythagorean identity and the Parseval identity for the system generated by the SAL model. Moreover, we provide a convergence theorem of the SAL process in the sense that either it terminates after a finite number of grades or the norms of its optimal error functions strictly decrease to a limit as the grade number increases to infinity. Furthermore, we present numerical examples of proof of concept which demonstrate that the proposed SAL model significantly outperforms the traditional deep learning model.
翻訳日:2023-07-12 18:18:31 公開日:2023-07-11
# 大規模言語モデルは本当に優れた論理型推論器か? 総合的な評価とそれ以上

Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond ( http://arxiv.org/abs/2306.09841v2 )

ライセンス: Link先を確認
Fangzhi Xu, Qika Lin, Jiawei Han, Tianzhe Zhao, Jun Liu, Erik Cambria(参考訳) 論理的推論は、知識工学と人工知能の分野において、一貫して基本的で重要な役割を果たす。 近年、Large Language Models (LLMs) は自然言語処理(NLP)における注目すべき革新として現れ、様々な古典的NLPタスクにおいて顕著な成果を発揮している。 しかし、LLMが人間の知性に類似した段階的な認知推論を必要とする論理的推論の課題に効果的に対処できるかどうかという問題は未解決のままである。 この目的のために,本論文では,このギャップを橋渡しし,包括的評価を行う。 まず,システマティックな評価を行うために,15の典型的な論理推論データセットを選択し,推論,帰納的,帰納的,混合形式の推論設定に整理する。 評価の包括性を考慮すると、3つの代表的なLCM(text-davinci-003, ChatGPT, BARD)を含み、ゼロショット、ワンショット、3ショット設定で選択されたすべてのデータセットで評価する。 第二に,単純な指標(例えば正確性)のみに依存する従来の評価と異なり,客観的・主観的評価を行い,回答と説明の両方をカバーする。 さらに、LLMの論理的欠陥を明らかにするために、問題のあるケースは2次元から5つのエラータイプ、すなわちエビデンス選択プロセスと推論プロセスに起因する。 第三に、知識バイアスの影響を回避し、LLMの論理的推論能力のベンチマークに純粋に集中するため、中立性のある新しいデータセットを提案する。 サンプルは3,000種類あり、デダクティブ、インダクティブ、アブダクティブの設定をカバーしている。 本論文は,詳細な評価に基づいて,6次元から論理推論能力の一般的な評価手法を提案する。 LLMの長所と短所を反映し、将来の作品の指針を与える。

Logical reasoning consistently plays a fundamental and significant role in the domains of knowledge engineering and artificial intelligence. Recently, Large Language Models (LLMs) have emerged as a noteworthy innovation in natural language processing (NLP), exhibiting impressive achievements across various classic NLP tasks. However, the question of whether LLMs can effectively address the task of logical reasoning, which requires gradual cognitive inference similar to human intelligence, remains unanswered. To this end, we aim to bridge this gap and provide comprehensive evaluations in this paper. Firstly, to offer systematic evaluations, we select fifteen typical logical reasoning datasets and organize them into deductive, inductive, abductive and mixed-form reasoning settings. Considering the comprehensiveness of evaluations, we include three representative LLMs (i.e., text-davinci-003, ChatGPT and BARD) and evaluate them on all selected datasets under zero-shot, one-shot and three-shot settings. Secondly, different from previous evaluations relying only on simple metrics (e.g., accuracy), we propose fine-level evaluations from objective and subjective manners, covering both answers and explanations. Additionally, to uncover the logical flaws of LLMs, problematic cases will be attributed to five error types from two dimensions, i.e., evidence selection process and reasoning process. Thirdly, to avoid the influences of knowledge bias and purely focus on benchmarking the logical reasoning capability of LLMs, we propose a new dataset with neutral content. It contains 3,000 samples and covers deductive, inductive and abductive settings. Based on the in-depth evaluations, this paper finally forms a general evaluation scheme of logical reasoning capability from six dimensions. It reflects the pros and cons of LLMs and gives guiding directions for future works.
翻訳日:2023-07-12 18:11:36 公開日:2023-07-11
# 超音波画像認識におけるマスク付きオートエンコーダの劣化

Deblurring Masked Autoencoder is Better Recipe for Ultrasound Image Recognition ( http://arxiv.org/abs/2306.08249v2 )

ライセンス: Link先を確認
Qingbo Kang, Jun Gao, Kang Li, Qicheng Lao(参考訳) masked autoencoder (mae) は前例のない注目を集め、多くの視覚タスクで顕著なパフォーマンスを達成している。 事前トレーニング中にランダムにマスクされたイメージパッチ(プロキシタスクと呼ばれる)を再構築し、下流タスクに転送できる意味のある意味表現を学ぶ。 しかし、超音波画像では、MAEは十分に調査されていない。 本研究では,超音波画像認識におけるMAEの可能性を検討する。 超音波画像の高雑音/信号比に特有の特徴を生かして,プリトレーニング中のプロキシタスクにデブラーリングを組み込んだ新しいデブラーリングMAE手法を提案する。 デブロアリングの追加により、超音波画像に表示される微妙な細部をよりよく復元し、下流分類タスクの性能を向上させることができる。 超音波画像分類における最新の性能を実現するため, 脱毛性maeの有効性を実証した。 全体としては,超音波画像認識におけるmaeの可能性に注目し,デブラリングを組み込んだ新しい手法を提案する。

Masked autoencoder (MAE) has attracted unprecedented attention and achieves remarkable performance in many vision tasks. It reconstructs random masked image patches (known as proxy task) during pretraining and learns meaningful semantic representations that can be transferred to downstream tasks. However, MAE has not been thoroughly explored in ultrasound imaging. In this work, we investigate the potential of MAE for ultrasound image recognition. Motivated by the unique property of ultrasound imaging in high noise-to-signal ratio, we propose a novel deblurring MAE approach that incorporates deblurring into the proxy task during pretraining. The addition of deblurring facilitates the pretraining to better recover the subtle details presented in the ultrasound images, thus improving the performance of the downstream classification task. Our experimental results demonstrate the effectiveness of our deblurring MAE, achieving state-of-the-art performance in ultrasound image classification. Overall, our work highlights the potential of MAE for ultrasound image recognition and presents a novel approach that incorporates deblurring to further improve its effectiveness.
翻訳日:2023-07-12 18:11:03 公開日:2023-07-11
# カモフラージュ物体検出の参照

Referring Camouflaged Object Detection ( http://arxiv.org/abs/2306.07532v2 )

ライセンス: Link先を確認
Xuying Zhang, Bowen Yin, Zheng Lin, Qibin Hou, Deng-Ping Fan, Ming-Ming Cheng(参考訳) そこで本稿では,対象対象物体の少ない参照画像群に基づいて,特定対象物体を分割することを目的とした新しいタスクであるcamouflaged object detection (ref-cod) について考察する。 R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。 次に、r2cnetと呼ばれる単純かつ強力なデュアルブランチフレームワークを開発し、参照画像から対象オブジェクトの共通表現を埋め込んだ参照ブランチと、共通の表現の指導のもとに迷彩されたオブジェクトの識別とセグメント化を行うセグメンテーションブランチを組み込む。 特に,画素レベルの先行マスクを生成する参照マスク生成モジュールと,特定の迷彩物体を識別する能力を高める参照機能強化モジュールを設計した。 ref-cod法が特定のカモフラージュ対象のセグメンテーションや対象対象対象オブジェクトの本体の識別において,cod法よりも優れていることを示す広範な実験を行った。 私たちのコードとデータセットはhttps://github.com/zhangxuying1004/refcodで公開されています。

We consider the problem of referring camouflaged object detection (Ref-COD), a new task that aims to segment specified camouflaged objects based on a small set of referring images with salient target objects. We first assemble a large-scale dataset, called R2C7K, which consists of 7K images covering 64 object categories in real-world scenarios. Then, we develop a simple but strong dual-branch framework, dubbed R2CNet, with a reference branch embedding the common representations of target objects from referring images and a segmentation branch identifying and segmenting camouflaged objects under the guidance of the common representations. In particular, we design a Referring Mask Generation module to generate pixel-level prior mask and a Referring Feature Enrichment module to enhance the capability of identifying specified camouflaged objects. Extensive experiments show the superiority of our Ref-COD methods over their COD counterparts in segmenting specified camouflaged objects and identifying the main body of target objects. Our code and dataset are publicly available at https://github.com/zhangxuying1004/RefCOD.
翻訳日:2023-07-12 18:10:35 公開日:2023-07-11
# 最終層インバージョンによる生成モデルの単一モデル属性

Single-Model Attribution of Generative Models Through Final-Layer Inversion ( http://arxiv.org/abs/2306.06210v2 )

ライセンス: Link先を確認
Mike Laszkiewicz, Jonas Ricker, Johannes Lederer, Asja Fischer(参考訳) 生成モデルに関する最近の画期的な発展は、実用的な単一モデル属性への関心を喚起している。 このような方法は、サンプルが特定のジェネレータによって生成されたかどうかを予測し、例えば知的財産の盗難を証明する。 しかし、以前の作品はクローズドワールドの設定に限られるか、生成モデルの望ましくない変更を必要とする。 最終層逆転と異常検出に基づくオープンワールド環境における単一モデル属性に対する新しいアプローチであるFLIPADを提案することで、これらの欠点に対処する。 得られた最終層インバージョンを凸ラッソ最適化問題に還元し,理論的に健全で計算効率がよいことを示す。 提案手法の有効性を実験的に検証し,既存手法よりも優れた結果を得た。

Recent groundbreaking developments on generative modeling have sparked interest in practical single-model attribution. Such methods predict whether a sample was generated by a specific generator or not, for instance, to prove intellectual property theft. However, previous works are either limited to the closed-world setting or require undesirable changes of the generative model. We address these shortcomings by proposing FLIPAD, a new approach for single-model attribution in the open-world setting based on final-layer inversion and anomaly detection. We show that the utilized final-layer inversion can be reduced to a convex lasso optimization problem, making our approach theoretically sound and computationally efficient. The theoretical findings are accompanied by an experimental study demonstrating the effectiveness of our approach, outperforming the existing methods.
翻訳日:2023-07-12 18:10:00 公開日:2023-07-11
# クリフォード摂動理論による量子回路期待値のシミュレーション

Simulating quantum circuit expectation values by Clifford perturbation theory ( http://arxiv.org/abs/2306.04797v2 )

ライセンス: Link先を確認
Tomislav Begu\v{s}i\'c and Kasra Hejazi and Garnet Kin-Lic Chan(参考訳) 量子回路の古典的シミュレーションは、短期の量子デバイスのベンチマークにおいて重要となる。 クリフォード群に属するゲートが古典的コンピュータ上で効率的にシミュレートできるという事実は、非クリフォードゲートの数でのみ指数関数的にスケールする様々な方法の動機となった。 ここでは、クリフォードゲートと非クリフォードパウリ回転からなる回路の期待値問題を考察し、ハイゼンベルク図における指数的に増大するパウリ項の和のトランケーションに基づくヒューリスティックな摂動的アプローチを導入する。 e3lin2問題に対する量子近似最適化アルゴリズム (qaoa) ベンチマークで数値計算を行い, クリフォード回路における局所可観測器のコヒーレントおよび非コヒーレント誤差の定量化に本手法が有効であることを示す。 以上の結果から,本手法は大規模ニアクリフォード回路の期待値の近似化に有効な代替手段であることが示唆された。

The classical simulation of quantum circuits is of central importance for benchmarking near-term quantum devices. The fact that gates belonging to the Clifford group can be simulated efficiently on classical computers has motivated a range of methods that scale exponentially only in the number of non-Clifford gates. Here, we consider the expectation value problem for circuits composed of Clifford gates and non-Clifford Pauli rotations, and introduce a heuristic perturbative approach based on the truncation of the exponentially growing sum of Pauli terms in the Heisenberg picture. Numerical results are shown on a Quantum Approximate Optimization Algorithm (QAOA) benchmark for the E3LIN2 problem and we also demonstrate how this method can be used to quantify coherent and incoherent errors of local observables in Clifford circuits. Our results indicate that this systematically improvable perturbative method offers a viable alternative to exact methods for approximating expectation values of large near-Clifford circuits.
翻訳日:2023-07-12 18:09:48 公開日:2023-07-11
# フィルタの重量分布による精度とロバストさのトレードオフの再検討

Revisiting the Trade-off between Accuracy and Robustness via Weight Distribution of Filters ( http://arxiv.org/abs/2306.03430v2 )

ライセンス: Link先を確認
Xingxing Wei, and Shiji Zhao(参考訳) 敵の攻撃はディープニューラルネットワーク(DNN)の潜在的な脅威であることが証明されており、敵の攻撃に対して多くの方法が提案されている。 しかし、ロバスト性を高める一方で、クリーンな精度はある程度低下し、精度とロバスト性の間にトレードオフがあったことを意味する。 本稿では,まず,同一アーキテクチャのフィルタの重み分布における標準モデルとロバストモデルとの明らかな区別を見出した上で,この現象を勾配正規化の観点から理論的に説明し,この差がdnnに固有の特性であることを示し,静的ネットワークアーキテクチャは,同時に精度と頑健性を向上させることは困難である。 第二に,本研究では,「分割と規則」の重み戦略を用いて,クリーンかつ逆の例を扱うことに焦点を当てた,Adversarial Weight-Varied Network (AW-Net) という動的ネットワークアーキテクチャを提案する。 AW-Netは、入力サンプルに直接影響される対向検出器によって生成された制御信号に基づいて、ネットワークの重みを動的に調整する。 動的ネットワークアーキテクチャの利点は、クリーンで逆の例を異なるネットワーク重みで処理することで、精度と堅牢性を同時に向上する可能性を提供する。 一連の実験により、我々のAW-Netはクリーンな例と敵対的な例の両方を扱うのにアーキテクチャに優しいことが示され、最先端のロバストモデルよりも優れたトレードオフ性能が得られる。

Adversarial attacks have been proven to be potential threats to Deep Neural Networks (DNNs), and many methods are proposed to defend against adversarial attacks. However, while enhancing the robustness, the clean accuracy will decline to a certain extent, implying a trade-off existed between the accuracy and robustness. In this paper, we firstly empirically find an obvious distinction between standard and robust models in the filters' weight distribution of the same architecture, and then theoretically explain this phenomenon in terms of the gradient regularization, which shows this difference is an intrinsic property for DNNs, and thus a static network architecture is difficult to improve the accuracy and robustness at the same time. Secondly, based on this observation, we propose a sample-wise dynamic network architecture named Adversarial Weight-Varied Network (AW-Net), which focuses on dealing with clean and adversarial examples with a ``divide and rule" weight strategy. The AW-Net dynamically adjusts network's weights based on regulation signals generated by an adversarial detector, which is directly influenced by the input sample. Benefiting from the dynamic network architecture, clean and adversarial examples can be processed with different network weights, which provides the potentiality to enhance the accuracy and robustness simultaneously. A series of experiments demonstrate that our AW-Net is architecture-friendly to handle both clean and adversarial examples and can achieve better trade-off performance than state-of-the-art robust models.
翻訳日:2023-07-12 18:09:28 公開日:2023-07-11
# 合成能動推論エージェントの実現, その2: 変動型メッセージ更新

Realising Synthetic Active Inference Agents, Part II: Variational Message Updates ( http://arxiv.org/abs/2306.02733v2 )

ライセンス: Link先を確認
Thijs van de Laar, Magnus Koudahl and Bert de Vries(参考訳) 自由エネルギー原則(FEP)は、(生物学的)エージェントを、環境の生成モデルに関する変動自由エネルギー(FE)を最小化するものとして記述している。 アクティブ推論(英: Active Inference、AIF)は、エージェントが期待されるFE目標を最小化することによって環境を探索し、活用する方法を記述するFEPのまとめである。 2つの関連論文において、自由形Forney-style Factor Graphs (FFGs) 上のメッセージパッシングによるAIFエージェントのスケーラブルでエピステマティックなアプローチについて述べる。 共用紙(第1部)は、AFFのFE目標を視覚的に(一般化)する制約付きFFG(CFFG)表記法を導入する。 現在の論文(パートII)は、変分法によりCFFG上のFE目的を最小化(一般化)するメッセージパッシングアルゴリズムを導出する。 シミュレーションBetheと一般化FEエージェントの比較は、人工AIFがT迷路ナビゲーションタスクにおいてどのようにててんかん行動を引き起こすかを示している。 合成AIFエージェントの完全なメッセージパッシングアカウントにより、モデル間でのメッセージ更新を導出し再利用し、合成AIFの産業的応用に近づくことができる。

The Free Energy Principle (FEP) describes (biological) agents as minimising a variational Free Energy (FE) with respect to a generative model of their environment. Active Inference (AIF) is a corollary of the FEP that describes how agents explore and exploit their environment by minimising an expected FE objective. In two related papers, we describe a scalable, epistemic approach to synthetic AIF agents, by message passing on free-form Forney-style Factor Graphs (FFGs). A companion paper (part I) introduces a Constrained FFG (CFFG) notation that visually represents (generalised) FE objectives for AIF. The current paper (part II) derives message passing algorithms that minimise (generalised) FE objectives on a CFFG by variational calculus. A comparison between simulated Bethe and generalised FE agents illustrates how synthetic AIF induces epistemic behaviour on a T-maze navigation task. With a full message passing account of synthetic AIF agents, it becomes possible to derive and reuse message updates across models and move closer to industrial applications of synthetic AIF.
翻訳日:2023-07-12 18:08:56 公開日:2023-07-11
# 1クエリによる効率的な量子状態合成

Efficient Quantum State Synthesis with One Query ( http://arxiv.org/abs/2306.01723v2 )

ライセンス: Link先を確認
Gregory Rosenthal(参考訳) 我々は、多項式時間量子アルゴリズムを古典オラクルに(重ね合わせで)1つのクエリを作成し、すべての状態に対して$|\psi\rangle$という指数関数的に近似するオラクルの選択が存在することを示す。 この問題の以前のアルゴリズムでは、線形数のクエリと多項式時間(arXiv:1607.05256)、あるいは定数数のクエリと多項式数のアンシラを使用していた。 statePSPACE $\subseteq$ stateQIP [arXiv:2108.07192] (PSPACE $\subseteq$ IPの量子状態類似体) の証明を単純化し、相互作用のラウンドの一定数が十分であることを示す。 qac$\mathsf{_f^0}$下限は明示的なブール関数を計算するための画期的な回路下限であることを示す。 各$n$-qubit状態は、適切な有限ゲート集合上の$o(2^n/n)$-size回路によって0.01エラー以内に構築できることを証明します。 より一般的には、カウントする引数によって任意の有限ゲート集合に対して最適である大きさエラートレードオフを与える。

We present a polynomial-time quantum algorithm making a single query (in superposition) to a classical oracle, such that for every state $|\psi\rangle$ there exists a choice of oracle that makes the algorithm construct an exponentially close approximation of $|\psi\rangle$. Previous algorithms for this problem either used a linear number of queries and polynomial time [arXiv:1607.05256], or a constant number of queries and polynomially many ancillae but no nontrivial bound on the runtime [arXiv:2111.02999]. As corollaries we do the following: - We simplify the proof that statePSPACE $\subseteq$ stateQIP [arXiv:2108.07192] (a quantum state analogue of PSPACE $\subseteq$ IP) and show that a constant number of rounds of interaction suffices. - We show that QAC$\mathsf{_f^0}$ lower bounds for constructing explicit states would imply breakthrough circuit lower bounds for computing explicit boolean functions. - We prove that every $n$-qubit state can be constructed to within 0.01 error by an $O(2^n/n)$-size circuit over an appropriate finite gate set. More generally we give a size-error tradeoff which, by a counting argument, is optimal for any finite gate set.
翻訳日:2023-07-12 18:08:32 公開日:2023-07-11
# 滑らかな単調ネットワーク

Smooth Monotonic Networks ( http://arxiv.org/abs/2306.01147v2 )

ライセンス: Link先を確認
Christian Igel(参考訳) 単調性制約は統計モデリングにおける強力な正則化器である。 コンピュータが支援する意思決定の公平性をサポートし、データ駆動科学モデルにおける可能性を高めることができる。 セミナル min-max (MM) ニューラルネットワークアーキテクチャは、単調性を保証するが、勾配が消えるため、トレーニング中に望ましくない局所最適状態に陥ることがしばしばある。 本稿では,この問題を緩和するスムーズな非線形性を用いたMMネットワークの簡易な修正を提案する。 結果として生じるスムーズなmin-max(SMM)ネットワークモジュールは、MMアーキテクチャから漸近近似特性を継承する。 エンドツーエンドでトレーニングされた大規模なディープラーニングシステムで使用することができる。 SMMモジュールは、モノトニックモデリングのための最先端のニューラルネットワークよりもはるかにシンプルで、計算量も少ない。 それでも我々の実験では、一般化性能の観点からは、代替神経および非神経アプローチに好適な比較を行いました。

Monotonicity constraints are powerful regularizers in statistical modelling. They can support fairness in computer supported decision making and increase plausibility in data-driven scientific models. The seminal min-max (MM) neural network architecture ensures monotonicity, but often gets stuck in undesired local optima during training because of vanishing gradients. We propose a simple modification of the MM network using strictly-increasing smooth non-linearities that alleviates this problem. The resulting smooth min-max (SMM) network module inherits the asymptotic approximation properties from the MM architecture. It can be used within larger deep learning systems trained end-to-end. The SMM module is considerably simpler and less computationally demanding than state-of-the-art neural networks for monotonic modelling. Still, in our experiments, it compared favorably to alternative neural and non-neural approaches in terms of generalization performance.
翻訳日:2023-07-12 18:08:05 公開日:2023-07-11
# マトリックス・メカニックス:マックス・ボルンがノーベル賞受賞

Matrix Mechanics Mis-Prized: Max Born's Belated Nobelization ( http://arxiv.org/abs/2306.00842v2 )

ライセンス: Link先を確認
John L. Heilbron and Carlo Rovelli(参考訳) 1925年のハイゼンベルクのヘルゴラント論文から1954年のボルンノーベル賞まで、量子力学の定式化への行列力学とマックス・ボルンの貢献の評価について検討した。 波動関数の重要性を強調する理論の最近の解釈に照らして評価の過程が続いていることを指摘する。

We examine evaluations of the contributions of Matrix Mechanics and Max Born to the formulation of quantum mechanics from Heisenberg's Helgoland paper of 1925 to Born's Nobel Prize of 1954. We point out that the process of evaluation is continuing in the light of recent interpretations of the theory that deemphasize the importance of the wave function.
翻訳日:2023-07-12 18:07:52 公開日:2023-07-11
# 散逸フェルミオン系に対する局所非エルミットハミルトン形式とフェルミ超流動系の損失誘起人口増加

Local Non-Hermitian Hamiltonian Formalism for Dissipative Fermionic Systems and Loss-Induced Population Increase in Fermi Superfluids ( http://arxiv.org/abs/2306.16235v2 )

ライセンス: Link先を確認
Teng Xiao and Gentaro Watanabe(参考訳) 非エルミートハミルトニアン(Non-Hermitian Hamiltonian、NHH)は、開量子系に対する効果的な形式主義である。 共通認識では、リンドブラッドマスター方程式で系を記述するとき、そのジャンプ項を無視して得られるnhhは散逸率の逆よりも十分に短い時間スケールのよい近似であると考えられている。 この共通知恵に挑戦し、散逸性フェルミオン系に対する元のマスター方程式から適切なNHHを得るためのスキームを開発する。 この NHH は局所的な NHH と呼ばれ、各モードにおける損失過程を局所的に記述する。 具体例として、フェミオン超流動を用いた新しいスキームを1体損失下で正当化する。 さらに, ペアリングギャップと異常電界との間の散逸誘起位相ロックにより, 長期的進化における損失による個体増加がみられた。

Non-Hermitian Hamiltonian (NHH) is an effective formalism for open quantum systems. In common wisdom, when the system is described by the Lindblad master equation, the NHH obtained by neglecting its jump term is believed to be a good approximation for a timescale sufficiently shorter than the inverse of the dissipation rate. We challenge this common wisdom and develop a scheme to obtain an appropriate NHH from the original master equation for dissipative fermionic systems. This NHH, called the local NHH, describes the loss process in each individual mode locally. As a concrete example, we justify our new scheme using fermionic superfluid under one-body loss. Furthermore, we find loss-induced population increase in the long time evolution due to the dissipation-induced phase locking between the pairing gap and the anomalous field.
翻訳日:2023-07-12 18:01:51 公開日:2023-07-11
# データサイエンスを定義する: 探究の新しい分野

Defining data science: a new field of inquiry ( http://arxiv.org/abs/2306.16177v2 )

ライセンス: Link先を確認
Michael L Brodie(参考訳) データサイエンスは科学ではない。 それは研究パラダイムです。 その力、範囲、スケールは、我々の最も強力な研究パラダイムである科学を越え、知識の発見と世界を変えることができるでしょう。 私たちはまだそれを理解し定義しておらず、その可能性を認識し、リスクを管理するために不可欠です。 現代のデータサイエンスは始まったばかりです。 1962年から徐々に発展し、2000年から急速に発展し、21世紀の最も活発で強力な革新の1つであり、基本的に新しい調査分野である。 その価値、パワー、適用性のために、40以上の規律、何百もの研究領域、何千ものアプリケーションに現れています。 何百万ものデータサイエンス出版物には、データサイエンスとデータサイエンスの問題解決の無数の定義が含まれている。 幼少期のため、多くの定義は独立性、アプリケーション固有性、相互不完全性、冗長性、矛盾性がある。 本研究では,データサイエンスコミュニティのためのデータサイエンスジャーナルを用いた,データサイエンス参照フレームワークに基づくコヒーレントで統一的な定義の開発を提案することにより,このデータサイエンスの多重定義の課題を解決する。 本稿では、そのような定義を議論するために必要なデータサイエンスアーティファクトの候補定義を提供する。 データサイエンスの哲学、データサイエンスの問題解決パラダイム、およびデータサイエンスを定義し、統一し、発展させるためのフレームワークとしてしばしば呼ばれる6つの要素データサイエンス参照フレームワーク(公理学、オントロジ、認識論、方法論、手法、技術)からなる古典的な研究パラダイムの概念に基づいている。 データ科学を定義するための課題、すなわち、データ科学を定義するための手段、そして包括的ソリューションの基盤としてのそれらの要求と利益を示す。

Data science is not a science. It is a research paradigm. Its power, scope, and scale will surpass science, our most powerful research paradigm, to enable knowledge discovery and change our world. We have yet to understand and define it, vital to realizing its potential and managing its risks. Modern data science is in its infancy. Emerging slowly since 1962 and rapidly since 2000, it is a fundamentally new field of inquiry, one of the most active, powerful, and rapidly evolving 21st century innovations. Due to its value, power, and applicability, it is emerging in 40+ disciplines, hundreds of research areas, and thousands of applications. Millions of data science publications contain myriad definitions of data science and data science problem solving. Due to its infancy, many definitions are independent, application-specific, mutually incomplete, redundant, or inconsistent, hence so is data science. This research addresses this data science multiple definitions challenge by proposing the development of coherent, unified definition based on a data science reference framework using a data science journal for the data science community to achieve such a definition. This paper provides candidate definitions for essential data science artifacts that are required to discuss such a definition. They are based on the classical research paradigm concept consisting of a philosophy of data science, the data science problem solving paradigm, and the six component data science reference framework (axiology, ontology, epistemology, methodology, methods, technology) that is a frequently called for unifying framework with which to define, unify, and evolve data science. It presents challenges for defining data science, solution approaches, i.e., means for defining data science, and their requirements and benefits as the basis of a comprehensive solution.
翻訳日:2023-07-12 18:01:36 公開日:2023-07-11
# マルチテラー逆蒸留による精度・ロバスト性トレードオフの緩和

Mitigating the Accuracy-Robustness Trade-off via Multi-Teacher Adversarial Distillation ( http://arxiv.org/abs/2306.16170v2 )

ライセンス: Link先を確認
Shiji Zhao, Xizhe Wang, Xingxing Wei(参考訳) 敵対的トレーニングは、敵対的攻撃に対するディープニューラルネットワークの堅牢性を改善するための実践的なアプローチである。 信頼性の高いロバスト性をもたらすが、クリーンな例に対する性能は敵の訓練後に負の影響を受ける。 近年, 対人訓練に知識蒸留法を応用し, 堅牢性向上に競争力を発揮する研究も行われているが, 清浄な試料の精度はいまだに限られている。 本稿では, 高いクリーンな教師と強いロバストな教師を用いて, クリーンな事例と敵対的な事例をそれぞれ扱うことで, モデルの逆トレーニングプロセスの指導を行うマルチTeacher Adversarial Robustness Distillation (MTARD)を導入する。 最適化の過程では,異なる教師が同様の知識尺度を示すことを保証するために,教師の温度を調整し,教師の情報エントロピーを一定に保つエントロピーベースバランスアルゴリズムを設計する。 また,生徒が複数の教師から比較的一貫した学習速度を持つことを保証するため,異なる種類の知識の学習重みを調整できる正規化損失バランスアルゴリズムを提案する。 公開データセット上で行われた一連の実験は、MTARDが様々な敵攻撃に対して最先端の敵の訓練と蒸留法より優れていることを示した。

Adversarial training is a practical approach for improving the robustness of deep neural networks against adversarial attacks. Although bringing reliable robustness, the performance toward clean examples is negatively affected after adversarial training, which means a trade-off exists between accuracy and robustness. Recently, some studies have tried to use knowledge distillation methods in adversarial training, achieving competitive performance in improving the robustness but the accuracy for clean samples is still limited. In this paper, to mitigate the accuracy-robustness trade-off, we introduce the Multi-Teacher Adversarial Robustness Distillation (MTARD) to guide the model's adversarial training process by applying a strong clean teacher and a strong robust teacher to handle the clean examples and adversarial examples, respectively. During the optimization process, to ensure that different teachers show similar knowledge scales, we design the Entropy-Based Balance algorithm to adjust the teacher's temperature and keep the teachers' information entropy consistent. Besides, to ensure that the student has a relatively consistent learning speed from multiple teachers, we propose the Normalization Loss Balance algorithm to adjust the learning weights of different types of knowledge. A series of experiments conducted on public datasets demonstrate that MTARD outperforms the state-of-the-art adversarial training and distillation methods against various adversarial attacks.
翻訳日:2023-07-12 18:01:08 公開日:2023-07-11
# バナッハ代数における指数和と一般化リートラッター公式の鈴木型推定

Suzuki Type Estimates for Exponentiated Sums and Generalized Lie-Trotter Formulas in Banach Algebras ( http://arxiv.org/abs/2306.13791v2 )

ライセンス: Link先を確認
Zhenhua Wang(参考訳) リートローター公式は、量子力学、量子コンピューティング、量子シミュレーションにおける基本的なツールである。 リートロータ積公式の誤差推定は、スケーラビリティと計算効率を達成する上で重要な役割を果たす。 本稿では,バナッハ代数におけるジョルダン積を利用したリートロータ積公式の誤差推定について述べる。 さらに, 2 つの一般化リー-トロッター公式を導入し, 2 つの明示的な推定式を提供する。 したがって、指数和 \cite[Formula 3, Equation (1.15)]{Suzuki 1985} の有名なスズキ対称性は、定理 2.3 から直接従う。

The Lie-Trotter formula has been a fundamental tool in quantum mechanics, quantum computing, and quantum simulations. The error estimations for the Lie-Trotter product formula play a crucial role in achieving scalability and computational efficiency. In this note, we present two error estimates of Lie-Trotter product formulas, utilizing Jordan product within Banach algebras. Additionally, we introduce two generalized Lie-Trotter formula and provide two explicit estimation formulas. Consequently, the renowned Suzuki symmetrized approximation for the exponentiated sums \cite[Formula 3, Equation (1.15)]{Suzuki1985} follows directly from Theorem 2.3.
翻訳日:2023-07-12 18:00:27 公開日:2023-07-11
# 乱流モデル不確実性推定のための物理制約ランダムフォレスト

Physics-constrained Random Forests for Turbulence Model Uncertainty Estimation ( http://arxiv.org/abs/2306.13370v2 )

ライセンス: Link先を確認
Marcel Matha and Christian Morsbach(参考訳) 産業設計の仮想認証を実現するためには,シミュレーション駆動プロセスの不確かさの定量化が重要である。 本稿では,乱流モデルのエピステミック不確実性を考慮した物理制約手法について論じる。 ユーザ入力を排除するため,データ駆動型機械学習戦略を取り入れた。 さらに,正確なデータが不足している場合の予測信頼度を事前推定する手法の開発に焦点をあてた。

To achieve virtual certification for industrial design, quantifying the uncertainties in simulation-driven processes is crucial. We discuss a physics-constrained approach to account for epistemic uncertainty of turbulence models. In order to eliminate user input, we incorporate a data-driven machine learning strategy. In addition to it, our study focuses on developing an a priori estimation of prediction confidence when accurate data is scarce.
翻訳日:2023-07-12 18:00:17 公開日:2023-07-11
# 確率量子回路における対称性保護長距離絡みの安定化

Stabilization of symmetry-protected long-range entanglement in stochastic quantum circuits ( http://arxiv.org/abs/2306.13008v2 )

ライセンス: Link先を確認
Iosifina Angelidi, Marcin Szyniszewski, Arijeet Pal(参考訳) 長距離の絡み合った状態は、量子情報処理と量子計測に不可欠である。 このような絡み合った状態をユニタリゲートと組み合わせることで、有限深さ量子回路を用いた効率的なプロトコルの新たな可能性を開いた。 これらのアルゴリズムの複雑さは、量子デバイス上のリソース要求に不可欠である。 摂動に対する準備プロトコルの安定性は、大規模な雑音量子デバイスにおける実装の運命を決定する。 本研究では, 1次元と2次元の確率量子回路を, ランダムに応用されたユニタリゲートと局所測定により検討する。 これらの量子演算は離散局所対称性のクラスを保存し、タイミングとゲートの不完全性から生じる確率性のために分解することができる。 ランダム性がない場合、プロトコルは有限深さ回路において対称に保護された長距離絡み合い状態を生成することが知られている。 一般に、このハイブリッド量子回路下での時間発展を研究することで、対象の絡み合った状態に到達する時間を分析する。 対称性生成器の出現と関連する2つの重要な時間尺度が見つかる。 量子軌道はシステムサイズと対数的にスケールする時間で局所対称性を具現化するが、大域対称性は指数的に長い時間を要する。 時間スケールの両方において大きな改善をもたらす誤り緩和プロトコルを考案し、実験で自然に発生する摂動に対するアルゴリズムの安定性について検討する。 また,2次元のトーリック符号とxu-ムーア状態を実現するプロトコルを一般化し,それらのシステムに存在するエノニック励起の今後の研究への道を開く。 我々の研究は、量子状態形成のための効率的な誤り訂正の道を開く。

Long-range entangled states are vital for quantum information processing and quantum metrology. Preparing such entangled states by combining measurements with unitary gates has opened new possibilities for efficient protocols with finite-depth quantum circuits. The complexity of these algorithms is crucial for the resource requirements on a quantum device. The stability of the preparation protocols to perturbations decides the fate of their implementation in large-scale noisy quantum devices. In this work, we consider stochastic quantum circuits in one and two dimensions consisting of randomly applied unitary gates and local measurements. These quantum operations preserve a class of discrete local symmetries, which can be broken due to the stochasticity arising from timing and gate imperfections. In the absence of randomness, the protocol is known to generate a symmetry-protected long-range entangled state in a finite-depth circuit. In the general case, by studying the time evolution under this hybrid quantum circuit, we analyze the time to reach the target entangled state. We find two important time scales which we associate with the emergence of certain symmetry generators. The quantum trajectories embody the local symmetry with a time that scales logarithmically with system size, whereas global symmetries require exponentially long times to appear. We devise error-mitigation protocols that provide significant improvement on both time scales and investigate the stability of the algorithm to perturbations that naturally arise in experiments. We also generalize the protocol to realize the toric code and Xu-Moore states in two dimensions, and open avenues for future studies of anyonic excitations present in those systems. Our work paves the way for efficient error correction for quantum state preparation.
翻訳日:2023-07-12 18:00:11 公開日:2023-07-11
# 自然視覚シーンに対する神経反応の時間的コンディショニングスパイク潜在変数モデル

Temporal Conditioning Spiking Latent Variable Models of the Neural Response to Natural Visual Scenes ( http://arxiv.org/abs/2306.12045v2 )

ライセンス: Link先を確認
Gehua Ma, Runhao Jiang, Rui Yan, Huajin Tang(参考訳) 神経応答の計算モデルの開発は、感覚処理と神経計算を理解する上で重要である。 現在の最先端のニューラルネットワーク手法は、時間的依存関係を処理するために時間的フィルタを使用し、非現実的で柔軟性のない処理フローをもたらす。 一方、これらの方法は試験的な平均射撃率を目標とし、スパイク列車の重要な特徴を捉えられなかった。 本研究は, 時間条件付潜時変動モデル(TeCoS-LVM)を提示し, 自然視覚刺激に対する神経応答をシミュレートする。 我々はスパイキングニューロンを用いて、記録された列車と直接一致するスパイク出力を生成する。 このアプローチは、オリジナルのスパイク列車に埋め込まれた情報を失うのを避けるのに役立つ。 モデルパラメータ空間から時間次元を除外し、時間条件付き操作を導入し、モデルが自然パラダイムにおける刺激配列の時間依存性を適応的に探索し活用できるようにする。 tecos-lvmモデルはより現実的なスパイクアクティビティを生成でき、強力な代替品よりもスパイク統計に正確に適合する。 さらに、学習したTeCoS-LVMモデルは、より長い時間スケールでうまく一般化することができる。 全体として、計算可能でありながら、我々のモデルは、ニューラルネットワークシステムの重要な特徴を効果的に捉えている。 これにより、様々な知覚知覚回路の正確な予測計算アカウントを構築するための有用なツールを提供する。

Developing computational models of neural response is crucial for understanding sensory processing and neural computations. Current state-of-the-art neural network methods use temporal filters to handle temporal dependencies, resulting in an unrealistic and inflexible processing flow. Meanwhile, these methods target trial-averaged firing rates and fail to capture important features in spike trains. This work presents the temporal conditioning spiking latent variable models (TeCoS-LVM) to simulate the neural response to natural visual stimuli. We use spiking neurons to produce spike outputs that directly match the recorded trains. This approach helps to avoid losing information embedded in the original spike trains. We exclude the temporal dimension from the model parameter space and introduce a temporal conditioning operation to allow the model to adaptively explore and exploit temporal dependencies in stimuli sequences in a natural paradigm. We show that TeCoS-LVM models can produce more realistic spike activities and accurately fit spike statistics than powerful alternatives. Additionally, learned TeCoS-LVM models can generalize well to longer time scales. Overall, while remaining computationally tractable, our model effectively captures key features of neural coding systems. It thus provides a useful tool for building accurate predictive computational accounts for various sensory perception circuits.
翻訳日:2023-07-12 17:59:46 公開日:2023-07-11
# 線形モデルと2層線形畳み込みニューラルネットワークにおけるバッチ正規化の必然的バイアス

The Implicit Bias of Batch Normalization in Linear Models and Two-layer Linear Convolutional Neural Networks ( http://arxiv.org/abs/2306.11680v2 )

ライセンス: Link先を確認
Yuan Cao, Difan Zou, Yuanzhi Li, Quanquan Gu(参考訳) 勾配降下によって訓練されたバッチ正規化の暗黙的バイアスについて検討する。 2進分類のためのバッチ正規化を伴う線形モデルを学ぶとき、勾配勾配は$\exp(-\Omega(\log^2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束する。 これは、バッチ正規化を伴う線形モデルと、暗黙バイアスのタイプと収束率の両方の観点から、バッチ正規化のないモデルとを区別する。 さらに、この結果を2層線形畳み込みニューラルネットワークのクラスに拡張し、バッチ正規化がパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。 2つの例に基づいて,パッチワイズ一様マージン分類器は,特定の学習問題において最大マージン分類器よりも優れることを示す。 この結果は,バッチ正規化の理論的理解に寄与する。

We study the implicit bias of batch normalization trained by gradient descent. We show that when learning a linear model with batch normalization for binary classification, gradient descent converges to a uniform margin classifier on the training data with an $\exp(-\Omega(\log^2 t))$ convergence rate. This distinguishes linear models with batch normalization from those without batch normalization in terms of both the type of implicit bias and the convergence rate. We further extend our result to a class of two-layer, single-filter linear convolutional neural networks, and show that batch normalization has an implicit bias towards a patch-wise uniform margin. Based on two examples, we demonstrate that patch-wise uniform margin classifiers can outperform the maximum margin classifiers in certain learning problems. Our results contribute to a better theoretical understanding of batch normalization.
翻訳日:2023-07-12 17:59:09 公開日:2023-07-11
# 公正な分類がノイズ保護属性と出会うとき

When Fair Classification Meets Noisy Protected Attributes ( http://arxiv.org/abs/2307.03306v2 )

ライセンス: Link先を確認
Avijit Ghosh, Pablo Kvitca, Christo Wilson(参考訳) アルゴリズムの公平性の運用には、データセットの保護属性の可用性や信頼性など、いくつかの実用的な課題が伴う。 現実の文脈では、実用的および法的障害は人口統計データの収集と使用を妨げ、アルゴリズムの公平性を保証することが困難になる。 初期フェアネスアルゴリズムはこれらの制限を考慮しなかったが、最近の提案は保護属性にノイズを組み込むか、保護属性を全く使わないことで分類のアルゴリズム的フェアネスを達成することを目的としている。 我々の知る限りでは、これは、予測と公正性の二重軸に沿った属性耐性、耐雑音性、および属性ブラインドアルゴリズムを比較するための、公平な分類アルゴリズムの直接的研究である。 これらのアルゴリズムを実世界の4つのデータセットと合成摂動のケーススタディを通じて評価した。 本研究は,保護された属性がノイズである場合でも,属性依存型アルゴリズムと同等の性能を達成できることを示す。 しかし、実際に実施するには注意深いニュアンスが必要である。 本研究は,保護属性がうるさく,部分的に使用可能なシナリオにおいて,公平な分類アルゴリズムを使用することの実際的な意義について考察する。

The operationalization of algorithmic fairness comes with several practical challenges, not the least of which is the availability or reliability of protected attributes in datasets. In real-world contexts, practical and legal impediments may prevent the collection and use of demographic data, making it difficult to ensure algorithmic fairness. While initial fairness algorithms did not consider these limitations, recent proposals aim to achieve algorithmic fairness in classification by incorporating noisiness in protected attributes or not using protected attributes at all. To the best of our knowledge, this is the first head-to-head study of fair classification algorithms to compare attribute-reliant, noise-tolerant and attribute-blind algorithms along the dual axes of predictivity and fairness. We evaluated these algorithms via case studies on four real-world datasets and synthetic perturbations. Our study reveals that attribute-blind and noise-tolerant fair classifiers can potentially achieve similar level of performance as attribute-reliant algorithms, even when protected attributes are noisy. However, implementing them in practice requires careful nuance. Our study provides insights into the practical implications of using fair classification algorithms in scenarios where protected attributes are noisy or partially available.
翻訳日:2023-07-12 17:51:37 公開日:2023-07-11
# フレームスキップによるフェイスアンチスプーフィングのための深層アンサンブル学習

Deep Ensemble Learning with Frame Skipping for Face Anti-Spoofing ( http://arxiv.org/abs/2307.02858v2 )

ライセンス: Link先を確認
Usman Muhammad, Md Ziaul Hoque, Mourad Oussalah and Jorma Laaksonen(参考訳) 顔提示攻撃 (PA) は、スプーフィング攻撃(英語版)としても知られ、アクセス制御システム、モバイル支払い、身元確認システムなど、顔認識システムに依存する生体認証システムに重大な脅威をもたらす。 スプーフィングリスクを軽減するために、連続するビデオフレームにおける顔の動きを分析するいくつかのビデオベースの手法が文献で紹介されている。 しかし、隣接するフレーム間の動きを推定することは困難であり、計算コストが高い。 本稿では,顔のスプーフィング防止タスクを動作予測問題として再現し,フレームスキップ機構を備えた深層アンサンブル学習モデルを提案する。 特に,提案したフレームスキップは,オリジナル映像を固定サイズのビデオクリップに分割することで一様サンプリング方式を採用する。 これにより、クリップのすべてのnフレームが選択され、3つの異なるリカレントニューラルネットワーク(RNN)のトレーニング中に、時間パターンが容易に認識できるようにする。 個々のRNNの性能に動機づけられたメタモデルは、個々のRNNの予測を組み合わせることで全体的な検出性能を向上させる。 4つのデータセットで広範な実験が行われ、msu-mfsd(3.12%)、replay-attack(11.19%)、oulu-npu(12.23%)データベースにおいて、最も困難なクロスデータセットテストシナリオで半分のエラーレート(hter)を使用して最新性能が報告された。

Face presentation attacks (PA), also known as spoofing attacks, pose a substantial threat to biometric systems that rely on facial recognition systems, such as access control systems, mobile payments, and identity verification systems. To mitigate the spoofing risk, several video-based methods have been presented in the literature that analyze facial motion in successive video frames. However, estimating the motion between adjacent frames is a challenging task and requires high computational cost. In this paper, we rephrase the face anti-spoofing task as a motion prediction problem and introduce a deep ensemble learning model with a frame skipping mechanism. In particular, the proposed frame skipping adopts a uniform sampling approach by dividing the original video into video clips of fixed size. By doing so, every nth frame of the clip is selected to ensure that the temporal patterns can easily be perceived during the training of three different recurrent neural networks (RNNs). Motivated by the performance of individual RNNs, a meta-model is developed to improve the overall detection performance by combining the prediction of individual RNNs. Extensive experiments were performed on four datasets, and state-of-the-art performance is reported on MSU-MFSD (3.12%), Replay-Attack (11.19%), and OULU-NPU (12.23%) databases by using half total error rates (HTERs) in the most challenging cross-dataset testing scenario.
翻訳日:2023-07-12 17:50:20 公開日:2023-07-11
# 量子調和振動子と相互作用する重力波のルイス位相とベリー位相

Lewis and Berry phases for a gravitational wave interacting with a quantum harmonic oscillator ( http://arxiv.org/abs/2307.00901v3 )

ライセンス: Link先を確認
Soham Sen, Manjari Dutta and Sunandan Gangopadhyay(参考訳) 本研究では、横トラスレスゲージにおける量子調和振動子と相互作用する重力波について考察する。 重力波は、最初はプラス偏光とクロス偏光の両方のシグネチャを持っている。 次に、位置変数と運動量変数の両方からの二次次寄与のみを考慮しつつ、可能な限り一般的な形式を用いてルイス不変量の適切な形式を求める。 さらに進むために、第1と第2の空間座標の観点で分離可能なハミルトニアンを得るクロス項をドロップする。 次に、系のハミルトニアン全体の分離可能部分に対応する2つのルイス不変量を得る。 両方のルイス不変量を用いて、エルマコフ・ピンニー方程式を2つ得ることができ、そこから対応するルイス相と最終的にシステム全体のベリー相が得られる。 最後に、高調波発振器周波数の異なる平面偏極重力波に対するベリー位相の明示的な表現を得る。

In this work, we consider a gravitational wave interacting with a quantum harmonic oscillator in the transverse-traceless gauge. We take the gravitational wave to be carrying the signatures of both plus and cross polarization at first. We then try to obtain a suitable form of the Lewis invariant using the most general form possible while considering only quadratic order contributions from both position and momentum variables. In order to progress further, we then drop the cross terms obtaining a separable Hamiltonian in terms of the first and the second spatial coordinates. We then obtain two Lewis invariants corresponding to each separable parts of the entire Hamiltonian of the system. Using both Lewis invariants, one can obtain two Ermakov-Pinney equations, from which we finally obtain the corresponding Lewis phase and eventually the Berry phase for the entire system. Finally, we obtain some explicit expressions of the Berry phase for a plane polarized gravitational wave with different choices of the harmonic oscillator frequency.
翻訳日:2023-07-12 17:49:18 公開日:2023-07-11
# 医療意思決定におけるマイクロバイオームデータの課題へのデータ工学的アプローチの適用

Application of data engineering approaches to address challenges in microbiome data for optimal medical decision-making ( http://arxiv.org/abs/2307.00033v2 )

ライセンス: Link先を確認
Isha Thombre, Pavan Kumar Perepu, Shyam Kumar Sudhakar(参考訳) ヒトの腸内微生物は、身体の多くの生理機能に寄与し、また無数の病態に関係していることが知られている。 過去数十年にわたる多作な研究は、腸内微生物の相対的分類学的分布に関する貴重な情報をもたらした。 残念ながら、マイクロバイオームデータはクラス不均衡と対処しなければならない高次元の問題に悩まされている。 本研究では,マイクロバイオームデータ固有の問題に対処するために,データ工学アルゴリズムを実装した。 4つの標準機械学習分類器(論理回帰(LR)、サポートベクターマシン(SVM)、ランダムフォレスト(RF)、極端な勾配向上(XGB)決定木)が、以前に公開されたデータセット上に実装された。 データのクラス不均衡と高次元性の問題は、合成マイノリティオーバーサンプリング技術(SMOTE)と主成分分析(PCA)によって解決された。 以上の結果から,エンサンブル分類器 (RF, XGB決定木) はホスト表現型の予測に優れた分類精度を示した。 PCAの応用は高い分類精度を維持しながら試験時間を著しく短縮した。 最も高い分類精度は,ほとんどの分類器の種レベルで得られた。 この研究で使用されたプロトタイプは、マイクロバイオームのデータセットに固有の問題に対処し、パーソナライズされた医療を提供するのに非常に有益である。

The human gut microbiota is known to contribute to numerous physiological functions of the body and also implicated in a myriad of pathological conditions. Prolific research work in the past few decades have yielded valuable information regarding the relative taxonomic distribution of gut microbiota. Unfortunately, the microbiome data suffers from class imbalance and high dimensionality issues that must be addressed. In this study, we have implemented data engineering algorithms to address the above-mentioned issues inherent to microbiome data. Four standard machine learning classifiers (logistic regression (LR), support vector machines (SVM), random forests (RF), and extreme gradient boosting (XGB) decision trees) were implemented on a previously published dataset. The issue of class imbalance and high dimensionality of the data was addressed through synthetic minority oversampling technique (SMOTE) and principal component analysis (PCA). Our results indicate that ensemble classifiers (RF and XGB decision trees) exhibit superior classification accuracy in predicting the host phenotype. The application of PCA significantly reduced testing time while maintaining high classification accuracy. The highest classification accuracy was obtained at the levels of species for most classifiers. The prototype employed in the study addresses the issues inherent to microbiome datasets and could be highly beneficial for providing personalized medicine.
翻訳日:2023-07-12 17:49:04 公開日:2023-07-11
# i.i.d.行列の散逸スペクトル形式因子

The Dissipative Spectral Form Factor for I.I.D. Matrices ( http://arxiv.org/abs/2306.16262v2 )

ライセンス: Link先を確認
Giorgio Cipolloni and Nicolo Grometto(参考訳) ジニブレアンサンブルの[arXiv:2103.05001]に最近導入された散逸スペクトル形因子(DSFF)は、散逸量子系の普遍的性質を研究するための鍵となるツールである。 本研究では,実数や複素数を中間時間スケールまで含む大きな乱数行列のdsffを計算し, [arxiv:2103.05001] からの予測を確認した。 実例におけるDSFFの解析式は以前不明であった。 さらに,DSFFの連結成分は,短時間で成分の4次累積に依存する非普遍的補正を示すことを示した。 これらの結果は、非エルミート確率行列[arXiv:2002.02438, arXiv:1912.04100]の線形固有値統計に対する中心極限定理に基づいている。

The Dissipative Spectral Form Factor (DSFF), recently introduced in [arXiv:2103.05001] for the Ginibre ensemble, is a key tool to study universal properties of dissipative quantum systems. In this work we compute the DSFF for a large class of random matrices with real or complex entries up to an intermediate time scale, confirming the predictions from [arXiv:2103.05001]. The analytic formula for the DSFF in the real case was previously unknown. Furthermore, we show that for short times the connected component of the DSFF exhibits a non-universal correction depending on the fourth cumulant of the entries. These results are based on the central limit theorem for linear eigenvalue statistics of non-Hermitian random matrices [arXiv:2002.02438, arXiv:1912.04100].
翻訳日:2023-07-12 17:48:26 公開日:2023-07-11
# 曲面時空における質量スピンハーフ粒子の幾何学的ポストニュートン的記述

Geometric post-Newtonian description of massive spin-half particles in curved spacetime ( http://arxiv.org/abs/2307.04743v2 )

ライセンス: Link先を確認
Ashkan Alibabaei, Philip K. Schwartz, Domenico Giulini(参考訳) 曲線四次元時空における外部電磁場に結合したディラック方程式を、古典時計を表す時間的ワールドライン$\gamma$とみなす。 一般化されたフェルミ正規座標を$\gamma$の管状近傍で使用し、ディラック方程式を最大に拡張し、時空曲率で定義される半径と測地距離の比、$\gamma$の線形加速度、および使用した空間参照フレームの$\gamma$に沿った角速度によって与えられる次元のないパラメータの2次を含む。 時計 $\gamma$ で測定された時間に関して、我々はディラック・ハミルトニアンをその順序に計算する。 この「弱重力」展開に加えて、ニュートンの後の展開を、$\gamma$に関する「スロー速度」展開に対応する1/c$の2階まで実行します。 これらの組み合わせにより、外部電磁場におけるスピン半粒子のパウリ・ハミルトニアンに対するニュートン後の弱い重力式を与える。 このことは、最近の文献の結果を拡張し、部分的に修正し、議論し、いくつかの詳細で比較する。

We consider the Dirac equation coupled to an external electromagnetic field in curved four-dimensional spacetime with a given timelike worldline $\gamma$ representing a classical clock. We use generalised Fermi normal coordinates in a tubular neighbourhood of $\gamma$ and expand the Dirac equation up to, and including, the second order in the dimensionless parameter given by the ratio of the geodesic distance to the radii defined by spacetime curvature, linear acceleration of $\gamma$, and angular velocity of rotation of the employed spatial reference frame along $\gamma$. With respect to the time measured by the clock $\gamma$, we compute the Dirac Hamiltonian to that order. On top of this `weak-gravity' expansion we then perform a post-Newtonian expansion up to, and including, the second order of $1/c$, corresponding to a `slow-velocity' expansion with respect to $\gamma$. As a result of these combined expansions we give the weak-gravity post-Newtonian expression for the Pauli Hamiltonian of a spin-half particle in an external electromagnetic field. This extends and partially corrects recent results from the literature, which we discuss and compare in some detail.
翻訳日:2023-07-12 17:43:26 公開日:2023-07-11
# 先端AIのための国際機関

International Institutions for Advanced AI ( http://arxiv.org/abs/2307.04699v2 )

ライセンス: Link先を確認
Lewis Ho, Joslyn Barnhart, Robert Trager, Yoshua Bengio, Miles Brundage, Allison Carnegie, Rumman Chowdhury, Allan Dafoe, Gillian Hadfield, Margaret Levi, Duncan Snidal(参考訳) 国際機関は、高度なAIシステムが人類に利益をもたらすために重要な役割を果たすかもしれない。 国際協力は、AIのさらなる持続可能な開発能力を解き放ち、規制努力の調整はイノベーションの障害と利益の拡散を減少させる。 逆に、強力で汎用的なaiシステムの潜在的な危険な能力は、彼らの開発と展開においてグローバルな外部性を生み出します。 本稿は、フロンティアAIシステムへのアクセス支援から国際安全基準設定まで、これらの課題に対処するために国際レベルで実施可能な一連のガバナンス機能を特定する。 これらの機能を、内部のシナジーを示し、既存の組織に先例を持つ4つの機関モデルに分類する。 1)先進的AIの機会及びリスクに関する専門家のコンセンサスを促進するフロンティアAI委員会 2)先進モデルからグローバル脅威を管理するための国際標準を設定し、それらの実装をサポートし、将来的なガバナンス体制へのコンプライアンスを監視する先進的なaiガバナンス組織。 3)最先端AIへのアクセスを促進するフロンティアAIコラボレーション。 4)aiの安全性研究に先導的な研究者とエンジニアを集結させるaiの安全性プロジェクト。 これらのモデルの実用性を探求し、その実現可能性に関するオープンな質問を特定します。

International institutions may have an important role to play in ensuring advanced AI systems benefit humanity. International collaborations can unlock AI's ability to further sustainable development, and coordination of regulatory efforts can reduce obstacles to innovation and the spread of benefits. Conversely, the potential dangerous capabilities of powerful and general-purpose AI systems create global externalities in their development and deployment, and international efforts to further responsible AI practices could help manage the risks they pose. This paper identifies a set of governance functions that could be performed at an international level to address these challenges, ranging from supporting access to frontier AI systems to setting international safety standards. It groups these functions into four institutional models that exhibit internal synergies and have precedents in existing organizations: 1) a Commission on Frontier AI that facilitates expert consensus on opportunities and risks from advanced AI, 2) an Advanced AI Governance Organization that sets international standards to manage global threats from advanced models, supports their implementation, and possibly monitors compliance with a future governance regime, 3) a Frontier AI Collaborative that promotes access to cutting-edge AI, and 4) an AI Safety Project that brings together leading researchers and engineers to further AI safety research. We explore the utility of these models and identify open questions about their viability.
翻訳日:2023-07-12 17:43:05 公開日:2023-07-11
# 一般オラクルを用いた統計的学習のための一階法一般化誤差

Generalization Error of First-Order Methods for Statistical Learning with Generic Oracles ( http://arxiv.org/abs/2307.04679v2 )

ライセンス: Link先を確認
Kevin Scaman, Mathieu Even and Laurent Massouli\'e(参考訳) 本稿では,oracle が与える部分的観測によってのみグラデーションにアクセス可能な場合,統計学習のための一階最適化アルゴリズムの一般化誤差解析のための新しい枠組みを提案する。 本分析は,データサンプルの勾配 w.r.t. の正則性に依存し,教師付き学習,転送学習,ロバスト学習,分散学習,勾配量子化を用いたコミュニケーション効率の良い学習など,複数の学習問題の一般化誤差の上限付近を導出する。 これらの結果は、滑らかで強凸な最適化問題と、Polyak-Lojasiewicz仮定を検証する滑らかな非凸最適化問題に成り立つ。 特に、我々の上界と下界は条件付き標準偏差の概念を拡張する新しい量に依存しており、オラクルへのアクセスによって勾配が近似できる範囲の尺度である。 その結果,統計的学習目標の最適化は,その勾配の推定と同等に難しいという直観への正確な意味が得られた。 最後に、標準的な教師付き学習の場合、バッチサイズの増加とウォームスタートを伴うミニバッチ勾配勾配は、乗算係数に最適化された一般化誤差に到達し、この最適化手法を実用的な応用に活用する動機となることを示す。

In this paper, we provide a novel framework for the analysis of generalization error of first-order optimization algorithms for statistical learning when the gradient can only be accessed through partial observations given by an oracle. Our analysis relies on the regularity of the gradient w.r.t. the data samples, and allows to derive near matching upper and lower bounds for the generalization error of multiple learning problems, including supervised learning, transfer learning, robust learning, distributed learning and communication efficient learning using gradient quantization. These results hold for smooth and strongly-convex optimization problems, as well as smooth non-convex optimization problems verifying a Polyak-Lojasiewicz assumption. In particular, our upper and lower bounds depend on a novel quantity that extends the notion of conditional standard deviation, and is a measure of the extent to which the gradient can be approximated by having access to the oracle. As a consequence, our analysis provides a precise meaning to the intuition that optimization of the statistical learning objective is as hard as the estimation of its gradient. Finally, we show that, in the case of standard supervised learning, mini-batch gradient descent with increasing batch sizes and a warm start can reach a generalization error that is optimal up to a multiplicative factor, thus motivating the use of this optimization scheme in practical applications.
翻訳日:2023-07-12 17:42:43 公開日:2023-07-11
# 自己拡張型ニューラルネットワーク

Self Expanding Neural Networks ( http://arxiv.org/abs/2307.04526v2 )

ライセンス: Link先を確認
Rupert Mitchell, Martin Mundt, Kristian Kersting(参考訳) ニューラルネットワークのトレーニングの結果は、選択したアーキテクチャに大きく依存しており、ネットワークのサイズのみの変更であっても、通常はトレーニングプロセスを再開する必要があった。 これとは対照的に、我々は小さなアーキテクチャでトレーニングを始め、問題に必要なキャパシティを増大させるだけであり、それを行う際に以前の最適化に干渉することを避ける。 そこで本研究では,ニューラルネットワークの幅と深さを直感的に拡張する自然勾配に基づく手法を提案する。 我々は、ニューロンが加算される「レート」上の上限を証明し、拡張スコアに対する計算コストの低い上限を証明した。 分類問題と回帰問題の両方において,このような自己拡張型ニューラルネットワークの利点を説明する。

The results of training a neural network are heavily dependent on the architecture chosen; and even a modification of only the size of the network, however small, typically involves restarting the training process. In contrast to this, we begin training with a small architecture, only increase its capacity as necessary for the problem, and avoid interfering with previous optimization while doing so. We thereby introduce a natural gradient based approach which intuitively expands both the width and depth of a neural network when this is likely to substantially reduce the hypothetical converged training loss. We prove an upper bound on the "rate" at which neurons are added, and a computationally cheap lower bound on the expansion score. We illustrate the benefits of such Self-Expanding Neural Networks in both classification and regression problems, including those where the appropriate architecture size is substantially uncertain a priori.
翻訳日:2023-07-12 17:42:19 公開日:2023-07-11
# MR誘導蒸留学習による変形性膝関節症のCT下骨組織解析

CT-based Subchondral Bone Microstructural Analysis in Knee Osteoarthritis via MR-Guided Distillation Learning ( http://arxiv.org/abs/2307.04390v2 )

ライセンス: Link先を確認
Yuqi Hu, Xiangyu Zhao, Gaowei Qing, Kai Xie, Chenglei Liu, Lichi Zhang(参考訳) 背景:MRベースの軟骨下骨は膝関節症を効果的に予測する。 本研究の目的は, 簡便に獲得したct画像を用いた軟骨下骨組織解析のための新しい蒸留学習法であるsrrdの開発であり, 訓練中のctベース解析モデルを強化するために, 対mr画像を活用することにある。 材料と方法:2020年10月から2021年5月までにCTとMRの両方の膝関節像を収集した。 まず, MR画像からCT画像へ変換するGANを用いた生成モデルを構築し, 両者の解剖学的対応性を確立した。 次に,MRI画像の軟骨下骨領域の多数のパッチと,それに対応するCT画像パッチから,そのトラベキュラーパラメータ(BV/TV,Tb.Th,Tb.Sp,Tb.N)を回帰的に取得した。 蒸留学習法は回帰モデルを訓練し, MR構造情報をCTモデルに転送するために用いられた。 逆行性トラベクラーパラメータは膝関節症分類にさらに用いられた。 結果: 参加者は80名であった。 ctによるトラベクラーパラメータの回帰結果から,bv/tv,tbのクラス内相関係数 (iccs) は0.804, 0.773, 0.711, 0.622であった。 T, Tb。 Sp, Tb。 Nであった。 蒸留学習は, cnn法を用いて, 0.658 (95% ci, 0.574-0.742) (p<.001) ではなく0.767 (95% ci, 0.681-0.853) のaucスコアを得た。 結論: SRRD法はMR-CTの登録, 回帰, 膝関節炎分類において高い信頼性と妥当性を示し, CT画像による軟骨下骨組織解析の可能性を示した。

Background: MR-based subchondral bone effectively predicts knee osteoarthritis. However, its clinical application is limited by the cost and time of MR. Purpose: We aim to develop a novel distillation-learning-based method named SRRD for subchondral bone microstructural analysis using easily-acquired CT images, which leverages paired MR images to enhance the CT-based analysis model during training. Materials and Methods: Knee joint images of both CT and MR modalities were collected from October 2020 to May 2021. Firstly, we developed a GAN-based generative model to transform MR images into CT images, which was used to establish the anatomical correspondence between the two modalities. Next, we obtained numerous patches of subchondral bone regions of MR images, together with their trabecular parameters (BV / TV, Tb. Th, Tb. Sp, Tb. N) from the corresponding CT image patches via regression. The distillation-learning technique was used to train the regression model and transfer MR structural information to the CT-based model. The regressed trabecular parameters were further used for knee osteoarthritis classification. Results: A total of 80 participants were evaluated. CT-based regression results of trabecular parameters achieved intra-class correlation coefficients (ICCs) of 0.804, 0.773, 0.711, and 0.622 for BV / TV, Tb. Th, Tb. Sp, and Tb. N, respectively. The use of distillation learning significantly improved the performance of the CT-based knee osteoarthritis classification method using the CNN approach, yielding an AUC score of 0.767 (95% CI, 0.681-0.853) instead of 0.658 (95% CI, 0.574-0.742) (p<.001). Conclusions: The proposed SRRD method showed high reliability and validity in MR-CT registration, regression, and knee osteoarthritis classification, indicating the feasibility of subchondral bone microstructural analysis based on CT images.
翻訳日:2023-07-12 17:42:05 公開日:2023-07-11
# 窒素イオンLasingにおける軌道角運動量(OAM)による光パルス増幅

Amplification of light pulses with orbital angular momentum (OAM) in nitrogen ions lasing ( http://arxiv.org/abs/2307.04282v2 )

ライセンス: Link先を確認
Haicheng Mei, Jingsong Gao, Kailu Wang, Jiahao Dong, Qihuang Gong, Chengyin Wu, Yunquan Liu, Hongbing Jiang, and Yi Liu(参考訳) 強いフェムト秒レーザーパルスで励起された窒素イオンは、紫外域の光増幅を引き起こす。 ここでは,軌道角運動量(OAM)を有するシード光パルスが,ガウスフェムト秒レーザーパルスによって励起される窒素プラズマにおいて顕著に増幅できることを実証した。 トポロジカル電荷 +1 と -1 では、シード光パルスの2桁のエネルギー増幅が観測され、増幅パルスはインシデントシードパルスと同じOAMを担っている。 さらに,oamシードビームを用いたプラズマ増幅器の空間的不一致は,ドーナツ形状の強度分布を示すoamシードパルスの特別な空間的プロファイルにより,oamを介さずにガウスモードの増幅を生じさせることを示した。 この誤解を利用して、ガウスモードとoamモードの間で出力信号をトグルする光スイッチを実装できる。 この研究は、シード光から増幅信号への位相移動を認証するだけでなく、OAMビーム増幅の達成のために、ドーナツ形状のシードビームと窒素プラズマのゲイン領域との空間的重なりが重要であることも強調している。

Nitrogen ions pumped by intense femtosecond laser pulses give rise to optical amplification in the ultraviolet range. Here, we demonstrated that a seed light pulse carrying orbital angular momentum (OAM) can be significantly amplified in nitrogen plasma excited by a Gaussian femtosecond laser pulse. With the topological charge of +1 and -1, we observed an energy amplification of the seed light pulse by two orders of magnitude, while the amplified pulse carries the same OAM as the incident seed pulse. Moreover, we show that a spatial misalignment of the plasma amplifier with the OAM seed beam leads to an amplified emission of Gaussian mode without OAM, due to the special spatial profile of the OAM seed pulse that presents a donut-shaped intensity distribution. Utilizing this misalignment, we can implement an optical switch that toggles the output signal between Gaussian mode and OAM mode. This work not only certifies the phase transfer from the seed light to the amplified signal, but also highlights the important role of spatial overlap of the donut-shaped seed beam with the gain region of the nitrogen plasma for the achievement of OAM beam amplification.
翻訳日:2023-07-12 17:41:29 公開日:2023-07-11
# DIFF-NST: 変形可能な神経伝達のための拡散インターリーブ

DIFF-NST: Diffusion Interleaving For deFormable Neural Style Transfer ( http://arxiv.org/abs/2307.04157v2 )

ライセンス: Link先を確認
Dan Ruta, Gemma Canet Tarr\'es, Andrew Gilbert, Eli Shechtman, Nicholas Kolkin, John Collomosse(参考訳) ニューラルスタイル転送(Neural Style Transfer, NST)は、コンテンツイメージの芸術的外観を、参照スタイルイメージのスタイルに合わせるために、ニューラルテクニックを適用した研究分野である。 伝統的に、NST法はテクスチャベースの画像編集に重点を置いており、ほとんどの低レベル情報に影響を与え、ほとんどの画像構造を同じに保っている。 しかし、特にそのスタイルが抽象的である場合や、スタイルの主要な概念が、一部のコンテンツの変形したレンドレーションにある場合など、一部のスタイルには、スタイルに基づく変形が望ましい。 安定拡散など最近の拡散モデルの導入により、より強力な画像生成技術にアクセスでき、新しい可能性を可能にしている。 本研究では,従来のモデルにおいて,変形可能なスタイル転送を実現しつつ,スタイル転送を行うために,この新しいモデルのクラスを提案する。 我々は,これらのモデルの先行的活用が推論時に新たな芸術的制御を顕在化できることを示すとともに,この新たなスタイル伝達の方向性を探究する上での知見を文書化する。

Neural Style Transfer (NST) is the field of study applying neural techniques to modify the artistic appearance of a content image to match the style of a reference style image. Traditionally, NST methods have focused on texture-based image edits, affecting mostly low level information and keeping most image structures the same. However, style-based deformation of the content is desirable for some styles, especially in cases where the style is abstract or the primary concept of the style is in its deformed rendition of some content. With the recent introduction of diffusion models, such as Stable Diffusion, we can access far more powerful image generation techniques, enabling new possibilities. In our work, we propose using this new class of models to perform style transfer while enabling deformable style transfer, an elusive capability in previous models. We show how leveraging the priors of these models can expose new artistic controls at inference time, and we document our findings in exploring this new direction for the field of style transfer.
翻訳日:2023-07-12 17:41:08 公開日:2023-07-11
# 関連バイオマーカー感受性急性リンパ性白血病の新しい診断パイプライン

Novel Pipeline for Diagnosing Acute Lymphoblastic Leukemia Sensitive to Related Biomarkers ( http://arxiv.org/abs/2307.04014v2 )

ライセンス: Link先を確認
Amirhossein Askari-Farsangi, Ali Sharifi-Zarchi, Mohammad Hossein Rohban(参考訳) 急性リンパ芽球性白血病(ALL)は小児の血液型で最も多い。 治療プロセスの早期開始は、患者の命を救えるために重要であり、そのため、この疾患の早期診断が不可欠である。 これらの患者の血液スミア画像を調べることは、専門医がこの病気を診断するために使う方法の1つである。 深層学習に基づく手法は医学分野に多くの応用があり、近年大きく進歩している。 この分野ではall診断は例外ではなく、この問題に対する機械学習に基づくいくつかの手法が提案されている。 従来の方法では高い診断精度が報告されていたが,本研究は,ショートカットを行うモデルが意味のある決定を下さないため,これだけでは不十分であることを示した。 この問題は、医療訓練データセットが小さいためである。 これを解決するために、私たちはモデルを専門家の作業にインスパイアされたパイプラインに従うように制約しました。 また,1つの画像のみに基づく判断が不十分であるため,現実的な結果を得るためには,マルチインスタンス学習問題として問題を再定義する必要があることを示した。 私たちのモデルは、マルチインスタンス学習セットアップでこの問題に対するソリューションを提供する最初のモデルです。 我々は、血液学者が使用するプロセスに近似し、疾患バイオマーカーに敏感であり、96.15%の精度、F1スコア94.24%の感度、97.56%の感度、ALL IDB 1の90.91%の特異性を実現する新しいall診断パイプラインを導入した。 提案手法は, 難解なテストを行い, 許容できる性能を持つ分散型データセット上でさらに評価された。 特に、私たちのモデルは比較的小さなデータセットでトレーニングされており、データ可用性が制限された他の医療データセットにアプローチを適用する可能性を強調しています。

Acute Lymphoblastic Leukemia (ALL) is one of the most common types of childhood blood cancer. The quick start of the treatment process is critical to saving the patient's life, and for this reason, early diagnosis of this disease is essential. Examining the blood smear images of these patients is one of the methods used by expert doctors to diagnose this disease. Deep learning-based methods have numerous applications in medical fields, as they have significantly advanced in recent years. ALL diagnosis is not an exception in this field, and several machine learning-based methods for this problem have been proposed. In previous methods, high diagnostic accuracy was reported, but our work showed that this alone is not sufficient, as it can lead to models taking shortcuts and not making meaningful decisions. This issue arises due to the small size of medical training datasets. To address this, we constrained our model to follow a pipeline inspired by experts' work. We also demonstrated that, since a judgement based on only one image is insufficient, redefining the problem as a multiple-instance learning problem is necessary for achieving a practical result. Our model is the first to provide a solution to this problem in a multiple-instance learning setup. We introduced a novel pipeline for diagnosing ALL that approximates the process used by hematologists, is sensitive to disease biomarkers, and achieves an accuracy of 96.15%, an F1-score of 94.24%, a sensitivity of 97.56%, and a specificity of 90.91% on ALL IDB 1. Our method was further evaluated on an out-of-distribution dataset, which posed a challenging test and had acceptable performance. Notably, our model was trained on a relatively small dataset, highlighting the potential for our approach to be applied to other medical datasets with limited data availability.
翻訳日:2023-07-12 17:40:49 公開日:2023-07-11
# 効果的な人間-AIコラボレーション開発における人間中心AIの適用:人間-AI共同認知システムの観点から

Applying human-centered AI in developing effective human-AI teaming: A perspective of human-AI joint cognitive systems ( http://arxiv.org/abs/2307.03913v2 )

ライセンス: Link先を確認
Wei Xu, Zaifeng Gao(参考訳) 研究と応用は、AIシステムを開発するための新しいパラダイムとして、HAT(Human-AI Teaming)を使用している。 HATは、AIが単なるツールではなく、チームメイトとして機能することを認識している。 効果的な人間-AIチームは、各メンバの既知の課題と制限を克服しつつ、人間とAIの両方のユニークな能力を活用でき、人間の能力を増強し、どちらのエンティティよりも共同パフォーマンスを高める必要がある。 National AI Research and Strategic Plan 2023アップデートは、AIシステムの独立したパフォーマンスに重点を置く研究プログラムが、動的、適応的、協力的なチームの中でAIが提供しなければならない機能を考慮するのに失敗し、人間とAIのコラボレーションとコラボレーションに関するさらなる研究を求めることを認識している。 しかし、AIが人間とチームメイトとして機能するかどうかについては議論がある。 第一の懸念は、"チーム"パラダイムを採用することは、人間中心のAI(HCAI)アプローチと矛盾するため、AIシステムのコントロールを失うことである。 本稿では、HATパラダイムと議論をさらに分析する。 具体的には,人間とAIの協調認知システム(HAIJCS)の概念枠組みを詳述し,HCAI傘の下でのHAT表現に適用する。 HAIJCSはHCAIを有効化しながらHAIを採用するのに役立つと考えている。 HAIJCSの意義と今後の課題についても論じる。 洞察:aiは新しい形の人間-機械関係の出現につながった:人間-aiチーム(hat)、人間-aiシステムにおけるパラダイムシフト、新しいデザインパラダイムとして帽子を適用する際に人間中心のai(hcai)アプローチに従うこと、効果的な人間-aiチームを作るための帽子を表現・実装するための人間-ai合同認知システム(haijcs)の概念的枠組みを提案する。

Research and application have used human-AI teaming (HAT) as a new paradigm to develop AI systems. HAT recognizes that AI will function as a teammate instead of simply a tool in collaboration with humans. Effective human-AI teams need to be capable of taking advantage of the unique abilities of both humans and AI while overcoming the known challenges and limitations of each member, augmenting human capabilities, and raising joint performance beyond that of either entity. The National AI Research and Strategic Plan 2023 update has recognized that research programs focusing primarily on the independent performance of AI systems generally fail to consider the functionality that AI must provide within the context of dynamic, adaptive, and collaborative teams and calls for further research on human-AI teaming and collaboration. However, there has been debate about whether AI can work as a teammate with humans. The primary concern is that adopting the "teaming" paradigm contradicts the human-centered AI (HCAI) approach, resulting in humans losing control of AI systems. This article further analyzes the HAT paradigm and the debates. Specifically, we elaborate on our proposed conceptual framework of human-AI joint cognitive systems (HAIJCS) and apply it to represent HAT under the HCAI umbrella. We believe that HAIJCS may help adopt HAI while enabling HCAI. The implications and future work for HAIJCS are also discussed. Insights: AI has led to the emergence of a new form of human-machine relationship: human-AI teaming (HAT), a paradigmatic shift in human-AI systems; We must follow a human-centered AI (HCAI) approach when applying HAT as a new design paradigm; We propose a conceptual framework of human-AI joint cognitive systems (HAIJCS) to represent and implement HAT for developing effective human-AI teaming
翻訳日:2023-07-12 17:40:18 公開日:2023-07-11
# DEFT: スケーラブルなGradient Sparsificationのためのモデル層間のグラディエントノルムの爆発的違い

DEFT: Exploiting Gradient Norm Difference between Model Layers for Scalable Gradient Sparsification ( http://arxiv.org/abs/2307.03500v2 )

ライセンス: Link先を確認
Daegun Yoon, Sangyoon Oh(参考訳) 分散深層学習における過剰な通信トラフィックを減らすため、勾配スペーシフィケーションが広く採用されている。 しかしながら、既存の勾配分離器の多くは、勾配選択のかなりの計算コストと勾配構築による通信トラフィックの増加のため、スケーラビリティが比較的低い。 これらの課題に対処するため,我々は,勾配選択タスクをサブタスクに分割し,それらをワーカーに分散する,新しい勾配スパーシフィケーションスキームdeftを提案する。 DEFTは既存のスパシファイアと異なり、すべてのワーカーがすべての勾配の中から勾配を選択する。 これにより、作業者数の増加に伴って計算コストを低減できる。 さらに、DEFTでは、非交差(ワーカー間)のパーティションの勾配を選択することができるため、グラデーションのビルドを排除できる。 したがって、労働者数が増えても、通信トラフィックをユーザ要求に応じて維持することができる。 勾配選択の重要さの喪失を避けるため、DEFTは他の層よりも大きな勾配ノルムを持つ層の勾配を選択する。 すべての層が異なる計算負荷を持つため、DEFTは、労働者間の勾配選択のバランスの取れた負荷を維持するために、bin-packingアルゴリズムを使用して、労働者にレイヤを割り当てる。 我々の経験的評価では、DFTは、既存のスパリファイアよりも勾配選択の速度において、高い収束性能を達成しつつ、トレーニング性能が大幅に向上したことを示す。

Gradient sparsification is a widely adopted solution for reducing the excessive communication traffic in distributed deep learning. However, most existing gradient sparsifiers have relatively poor scalability because of considerable computational cost of gradient selection and/or increased communication traffic owing to gradient build-up. To address these challenges, we propose a novel gradient sparsification scheme, DEFT, that partitions the gradient selection task into sub tasks and distributes them to workers. DEFT differs from existing sparsifiers, wherein every worker selects gradients among all gradients. Consequently, the computational cost can be reduced as the number of workers increases. Moreover, gradient build-up can be eliminated because DEFT allows workers to select gradients in partitions that are non-intersecting (between workers). Therefore, even if the number of workers increases, the communication traffic can be maintained as per user requirement. To avoid the loss of significance of gradient selection, DEFT selects more gradients in the layers that have a larger gradient norm than the other layers. Because every layer has a different computational load, DEFT allocates layers to workers using a bin-packing algorithm to maintain a balanced load of gradient selection between workers. In our empirical evaluation, DEFT shows a significant improvement in training performance in terms of speed in gradient selection over existing sparsifiers while achieving high convergence performance.
翻訳日:2023-07-12 17:39:42 公開日:2023-07-11
# 大規模言語モデルにおけるRLHFの秘密(1):PPO

Secrets of RLHF in Large Language Models Part I: PPO ( http://arxiv.org/abs/2307.04964v1 )

ライセンス: Link先を確認
Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu, Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang(参考訳) 大規模言語モデル(llm)は、人工知能の進歩のための青写真を形成する。 主な目的は、人間中心(人間中心、正直で無害な)アシスタントとして機能することである。 人間とのアライメントが最重要視され、人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。 現在の技術ルートには、人間の好みを測定するための \textbf{reward models}、ポリシーモデルの出力を最適化する \textbf{proximal policy optimization} (ppo)、ステップバイステップの推論能力を改善するための \textbf{process supervisor}が含まれる。 しかし、報酬設計、環境相互作用、エージェントトレーニングといった課題と、大規模な言語モデルの巨大な試行とエラーコストが相まって、ai研究者が技術的アライメントとllmの安全なランディングの開発を動機付けるための大きな障壁がある。 RLHFの安定した訓練は未だにパズルである。 第1報では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。 PPOアルゴリズムの効果的な実装の鍵となる要因は政策制約である。 そこで我々は,PPOアルゴリズムの高度なバージョンであるPPO-maxを探索し,政策モデルのトレーニング安定性を効率的に向上する。 本研究の主な成果に基づき,SFTモデルやChatGPTと比較して,RLHF能力の包括的解析を行う。 オープンソース実装の欠如は、LCMのアライメントの調査に重大な課題をもたらした。 したがって、私たちは技術レポート、報酬モデル、PPOコードをリリースすることを熱望しています。

Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include \textbf{reward models} to measure human preferences, \textbf{Proximal Policy Optimization} (PPO) to optimize policy model outputs, and \textbf{process supervision} to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes
翻訳日:2023-07-12 16:44:03 公開日:2023-07-11
# DyCL:動的ニューラルネットワークコンパイルによるプログラム書き換えとグラフ最適化

DyCL: Dynamic Neural Network Compilation Via Program Rewriting and Graph Optimization ( http://arxiv.org/abs/2307.04963v1 )

ライセンス: Link先を確認
Simin Chen, Shiyi Wei, Cong Liu, Wei Yang(参考訳) DLコンパイラの主要な機能は、PyTorchやTensorFlowといった高レベルのDLフレームワークで記述されたDNNプログラムを、ポータブルな実行可能ファイルに変換することである。 これらの実行ファイルはデプロイされたホストプログラムによって柔軟に実行される。 しかし、既存のdlコンパイラは、ニューラルネットワークプログラムにランタイム入力を供給し、プログラムの実行パスをトレースし、コンパイルに必要な計算グラフを生成するトレースメカニズムに依存している。 残念なことに、このメカニズムは入力に応じて異なる計算グラフを持つ現代の動的ニューラルネットワーク(DyNN)を扱う際には不十分である。 そのため、従来のDLコンパイラはDyNNを正確に実行可能なコードにコンパイルするのに苦労している。 この制限に対処するため、既存のDLコンパイラがDyNNを正常にコンパイルできる一般的なアプローチである \tool を提案する。 コンパイルプロセス中にオリジナルのDNNプログラムの制御とデータフローを再配布するコンパイルメカニズムを導入することで、DyNNの動的な性質に取り組む。 具体的には、動的ニューラルネットワークを複数のサブニューラルネットワークに変換するプログラム解析とプログラム変換技術を開発する。 各サブニューラルネットワークは条件文がなく、独立してコンパイルされる。 さらに、 \toolはDyNNの制御フローをモデル化し、サブニューラルネットワークの呼び出しを容易にするホストモジュールを合成する。 本評価では,すべての動的ニューラルネットワークのコンパイルにおいて,100倍の成功率を達成した。 さらに、 \toolが生成したコンパイル実行ファイルはパフォーマンスが大幅に向上し、汎用DLフレームワーク上で実行されるオリジナルのDyNNよりも1.12\times$から20.21\times$が高速になった。

DL compiler's primary function is to translate DNN programs written in high-level DL frameworks such as PyTorch and TensorFlow into portable executables. These executables can then be flexibly executed by the deployed host programs. However, existing DL compilers rely on a tracing mechanism, which involves feeding a runtime input to a neural network program and tracing the program execution paths to generate the computational graph necessary for compilation. Unfortunately, this mechanism falls short when dealing with modern dynamic neural networks (DyNNs) that possess varying computational graphs depending on the inputs. Consequently, conventional DL compilers struggle to accurately compile DyNNs into executable code. To address this limitation, we propose \tool, a general approach that enables any existing DL compiler to successfully compile DyNNs. \tool tackles the dynamic nature of DyNNs by introducing a compilation mechanism that redistributes the control and data flow of the original DNN programs during the compilation process. Specifically, \tool develops program analysis and program transformation techniques to convert a dynamic neural network into multiple sub-neural networks. Each sub-neural network is devoid of conditional statements and is compiled independently. Furthermore, \tool synthesizes a host module that models the control flow of the DyNNs and facilitates the invocation of the sub-neural networks. Our evaluation demonstrates the effectiveness of \tool, achieving a 100\% success rate in compiling all dynamic neural networks. Moreover, the compiled executables generated by \tool exhibit significantly improved performance, running between $1.12\times$ and $20.21\times$ faster than the original DyNNs executed on general-purpose DL frameworks.
翻訳日:2023-07-12 16:43:35 公開日:2023-07-11
# 人間好奇心のネットワーク理論を用いた本質的動機付けグラフ探索

Intrinsically motivated graph exploration using network theories of human curiosity ( http://arxiv.org/abs/2307.04962v1 )

ライセンス: Link先を確認
Shubhankar P. Patankar, Mathieu Ouellet, Juan Cervino, Alejandro Ribeiro, Kieran A. Murphy and Dani S. Bassett(参考訳) 本質的に動機づけられた探索は、追加の外部報酬なしでも強化学習に役立つことが証明されている。 環境が自然にグラフとして表現される場合、探索を導く最善の方法は未解決の問題だ。 本研究では,情報ギャップ理論と圧縮進行理論という,人間の好奇心の2つの理論によるグラフ構造データ探索手法を提案する。 これらの理論は、好奇心を、環境の訪問ノードによって引き起こされるサブグラフの位相的特徴を最適化する本質的な動機であると考えている。 これらの特徴をグラフニューラルネットワークに基づく強化学習の報奨として利用する。 複数の合成グラフのクラスにおいて、訓練されたエージェントは、トレーニング中に見られるよりも広い環境と長い探索ウォークに一般化する。 本手法は, トポロジ特性のグリーディ評価よりも効率的に計算する。 提案される本質的動機は、レコメンダシステムに対して特に関連がある。 好奇心に基づくリコメンデーションは、MovieLens、Amazon Books、Wikispeediaなど、いくつかの実世界のグラフデータセットにおいて、PageRank中心性よりも人間の行動を予測することが実証された。

Intrinsically motivated exploration has proven useful for reinforcement learning, even without additional extrinsic rewards. When the environment is naturally represented as a graph, how to guide exploration best remains an open question. In this work, we propose a novel approach for exploring graph-structured data motivated by two theories of human curiosity: the information gap theory and the compression progress theory. The theories view curiosity as an intrinsic motivation to optimize for topological features of subgraphs induced by the visited nodes in the environment. We use these proposed features as rewards for graph neural-network-based reinforcement learning. On multiple classes of synthetically generated graphs, we find that trained agents generalize to larger environments and to longer exploratory walks than are seen during training. Our method computes more efficiently than the greedy evaluation of the relevant topological properties. The proposed intrinsic motivations bear particular relevance for recommender systems. We demonstrate that curiosity-based recommendations are more predictive of human behavior than PageRank centrality for several real-world graph datasets, including MovieLens, Amazon Books, and Wikispeedia.
翻訳日:2023-07-12 16:43:07 公開日:2023-07-11
# 非累積目的による強化学習

Reinforcement Learning with Non-Cumulative Objective ( http://arxiv.org/abs/2307.04957v1 )

ライセンス: Link先を確認
Wei Cui and Wei Yu(参考訳) 強化学習では、目的はほとんど常にプロセスに沿った報酬に対して \emph{cumulative} 関数として定義される。 しかしながら、さまざまなアプリケーション分野、特にコミュニケーションやネットワークには、目標が報酬の要約として自然に表現されないような、最適制御と強化学習の問題が多く存在する。 本稿では,様々な問題における非累積目的の有意性を認識し,その目的を最適化するための既存アルゴリズムの修正を提案する。 具体的には、多くの最適制御と強化学習アルゴリズムのための基本的な構築ブロック、すなわちベルマン最適性方程式に目を向ける。 非累積目的を最適化するために、ベルマン更新規則における元の和演算を目的に対応する一般化演算に置き換える。 さらに、一般化された操作の形式に関する十分な条件と、一般化されたベルマン更新の最適収束が保証されるマルコフ決定過程に関する仮定を提供する。 そこで本研究では,従来の最適制御と強化学習タスク,および流量最大化のための2つのネットワークルーティング問題に関して,最小報酬によって決定される目標を,ボトルネック目標として実験的に提示する。

In reinforcement learning, the objective is almost always defined as a \emph{cumulative} function over the rewards along the process. However, there are many optimal control and reinforcement learning problems in various application fields, especially in communications and networking, where the objectives are not naturally expressed as summations of the rewards. In this paper, we recognize the prevalence of non-cumulative objectives in various problems, and propose a modification to existing algorithms for optimizing such objectives. Specifically, we dive into the fundamental building block for many optimal control and reinforcement learning algorithms: the Bellman optimality equation. To optimize a non-cumulative objective, we replace the original summation operation in the Bellman update rule with a generalized operation corresponding to the objective. Furthermore, we provide sufficient conditions on the form of the generalized operation as well as assumptions on the Markov decision process under which the globally optimal convergence of the generalized Bellman updates can be guaranteed. We demonstrate the idea experimentally with the bottleneck objective, i.e., the objectives determined by the minimum reward along the process, on classical optimal control and reinforcement learning tasks, as well as on two network routing problems on maximizing the flow rates.
翻訳日:2023-07-12 16:42:50 公開日:2023-07-11
# PKU-GoodsAD:教師なし異常検出とセグメンテーションのためのスーパーマーケットグッズデータセット

PKU-GoodsAD: A Supermarket Goods Dataset for Unsupervised Anomaly Detection and Segmentation ( http://arxiv.org/abs/2307.04956v1 )

ライセンス: Link先を確認
Jian Zhang, Ge Yang, Miaoju Ban, Runwei Ding(参考訳) 視覚異常検出はコンピュータビジョンの分野で多くのタスクに必須であり、一般的に用いられる。 最近の異常検出データセットは主に産業自動化検査、医療画像分析、ビデオ監視に焦点を当てている。 無人のスーパーマーケットやスマート製造における異常検出の適用範囲を広げ,研究するために,スーパーマーケット商品の異常検出(GoodsAD)データセットを導入する。 484種類の外見品を6つのカテゴリに分けた6124枚の高解像度画像を含んでいる。 各カテゴリには、変形、表面損傷、開口など、いくつかの一般的な種類の異常が含まれている。 異常はテクスチャ変化と構造変化の両方を含む。 教師なしの設定に従い、通常の(欠陥のない)画像のみをトレーニングに使用する。 画素精度の基底真理領域は、全ての異常に対して提供される。 また,現在最先端の教師なし異常検出手法を徹底的に評価する。 この最初のベンチマークは、産業的異常検出データセット(例えばMVTec AD)でうまく機能するいくつかのメソッドが、我々のデータセットで性能が悪いことを示している。 これは、現実世界のアプリケーションに焦点を当てたスーパーマーケット商品異常検出のための包括的でマルチオブジェクトデータセットである。

Visual anomaly detection is essential and commonly used for many tasks in the field of computer vision. Recent anomaly detection datasets mainly focus on industrial automated inspection, medical image analysis and video surveillance. In order to broaden the application and research of anomaly detection in unmanned supermarkets and smart manufacturing, we introduce the supermarket goods anomaly detection (GoodsAD) dataset. It contains 6124 high-resolution images of 484 different appearance goods divided into 6 categories. Each category contains several common different types of anomalies such as deformation, surface damage and opened. Anomalies contain both texture changes and structural changes. It follows the unsupervised setting and only normal (defect-free) images are used for training. Pixel-precise ground truth regions are provided for all anomalies. Moreover, we also conduct a thorough evaluation of current state-of-the-art unsupervised anomaly detection methods. This initial benchmark indicates that some methods which perform well on the industrial anomaly detection dataset (e.g., MVTec AD), show poor performance on our dataset. This is a comprehensive, multi-object dataset for supermarket goods anomaly detection that focuses on real-world applications.
翻訳日:2023-07-12 16:42:31 公開日:2023-07-11
# 短期交通流予測のためのハイブリッド隠れマルコフLSTM

Hybrid hidden Markov LSTM for short-term traffic flow prediction ( http://arxiv.org/abs/2307.04954v1 )

ライセンス: Link先を確認
Agnimitra Sengupta, Adway Das, S. Ilgin Guler(参考訳) 深層学習(DL)法は,交通管理に不可欠な交通変数の短期的・短期的な予測において,過去の平均値,ARIMA,変種などのパラメトリックモデルよりも優れている。 具体的には、リカレントニューラルネットワーク(RNN)とその変種(例えば長期記憶)は、長期の時間的相関を維持するように設計されているため、モデリングシーケンスに適している。 しかし、マルチレジームモデルは、異なる特徴を持つ複数の状態(例えば、自由フロー、トラフィックの混雑)を通して交通システムを進化させると仮定し、それぞれの状態内の交通力学を特徴付けるために個別のモデルを訓練する。 例えば、構造同定のための隠れマルコフモデル(HMM)を用いたマルコフスイッチングモデルは、複雑な動的パターンと非定常性を捉えることができる。 興味深いことに、HMMとLSTMの両方は、潜伏状態変数の集合から観測シーケンスをモデル化するのに使うことができる。 LSTMでは、潜時変数は現在の観測値と以前の潜時変数から決定論的に計算されるが、HMMでは潜時変数の集合はマルコフ連鎖である。 自然言語処理の研究に触発されて,交通データに補完的な特徴を学習可能なハイブリッド隠れマルコフ-LSTMモデルが提案されている。 その結果,markov switching arima や lstm といった従来の手法と比較して,ハイブリッドアーキテクチャによる性能向上がみられた。

Deep learning (DL) methods have outperformed parametric models such as historical average, ARIMA and variants in predicting traffic variables into short and near-short future, that are critical for traffic management. Specifically, recurrent neural network (RNN) and its variants (e.g. long short-term memory) are designed to retain long-term temporal correlations and therefore are suitable for modeling sequences. However, multi-regime models assume the traffic system to evolve through multiple states (say, free-flow, congestion in traffic) with distinct characteristics, and hence, separate models are trained to characterize the traffic dynamics within each regime. For instance, Markov-switching models with a hidden Markov model (HMM) for regime identification is capable of capturing complex dynamic patterns and non-stationarity. Interestingly, both HMM and LSTM can be used for modeling an observation sequence from a set of latent or, hidden state variables. In LSTM, the latent variable is computed in a deterministic manner from the current observation and the previous latent variable, while, in HMM, the set of latent variables is a Markov chain. Inspired by research in natural language processing, a hybrid hidden Markov-LSTM model that is capable of learning complementary features in traffic data is proposed for traffic flow prediction. Results indicate significant performance gains in using hybrid architecture compared to conventional methods such as Markov switching ARIMA and LSTM.
翻訳日:2023-07-12 16:42:15 公開日:2023-07-11
# エッジ検出のためのコンパクト2重融合ネットワーク

Compact Twice Fusion Network for Edge Detection ( http://arxiv.org/abs/2307.04952v1 )

ライセンス: Link先を確認
Yachuan Li, Zongmin Li, Xavier Soria P., Chaozhi Yang, Qian Xiao, Yun Bai, Hua Li, Xiangdong Wang(参考訳) エッジ検出コミュニティでは,マルチスケール機能の重要性が徐々に認識されている。 しかし、マルチスケールな特徴の融合はモデルの複雑さを増し、実際的な応用には適さない。 本研究では,モデルのコンパクト性を維持しつつ,マルチスケール機能を完全に統合するCTFN(Compact Twice Fusion Network)を提案する。 ctfnには2つの軽量なマルチスケール機能融合モジュールが含まれている。sem(semantic enhancement module)は、粗大機能に含まれるセマンティクス情報を活用し、細かな機能の学習を導くもので、ppw(pseudo pixel-level weighting)モジュールは、すべての機能に重みを割り当てることで、マルチスケール機能の補完的なメリットを集約する。 それにもかかわらず、テクスチャノイズの干渉は、いくつかのピクセルの正しい分類を依然として困難にしている。 これらのハードサンプルに対して, 標準的なクロスエントロピー損失を再現し, 重量を動的に調整し, ハードサンプルの分布を補正する新しい損失関数Dynamic Focal Lossを提案する。 提案手法をBSDS500,NYUDv2,BIPEDv2の3つのデータセット上で評価する。 最先端の手法と比較して、CTFNはより少ないパラメータと計算コストで競合精度を達成する。 バックボーンとは別に、CTFNは0.1Mの追加パラメータしか必要とせず、計算コストを他の最先端手法の60%に削減している。 コードはhttps://github.com/li-yachuan/ctfn-pytorch-masterで入手できる。

The significance of multi-scale features has been gradually recognized by the edge detection community. However, the fusion of multi-scale features increases the complexity of the model, which is not friendly to practical application. In this work, we propose a Compact Twice Fusion Network (CTFN) to fully integrate multi-scale features while maintaining the compactness of the model. CTFN includes two lightweight multi-scale feature fusion modules: a Semantic Enhancement Module (SEM) that can utilize the semantic information contained in coarse-scale features to guide the learning of fine-scale features, and a Pseudo Pixel-level Weighting (PPW) module that aggregate the complementary merits of multi-scale features by assigning weights to all features. Notwithstanding all this, the interference of texture noise makes the correct classification of some pixels still a challenge. For these hard samples, we propose a novel loss function, coined Dynamic Focal Loss, which reshapes the standard cross-entropy loss and dynamically adjusts the weights to correct the distribution of hard samples. We evaluate our method on three datasets, i.e., BSDS500, NYUDv2, and BIPEDv2. Compared with state-of-the-art methods, CTFN achieves competitive accuracy with less parameters and computational cost. Apart from the backbone, CTFN requires only 0.1M additional parameters, which reduces its computation cost to just 60% of other state-of-the-art methods. The codes are available at https://github.com/Li-yachuan/CTFN-pytorch-master.
翻訳日:2023-07-12 16:41:48 公開日:2023-07-11
# 双対koopman回路による多体カオスの可解モデル

Solvable models of many-body chaos from dual-Koopman circuits ( http://arxiv.org/abs/2307.04950v1 )

ライセンス: Link先を確認
Arul Lakshminarayan(参考訳) 双対ユニタリ回路は、相関関数や状態の時間発展について正確に解くことができる多体量子カオスのモデルとして活発に研究されている。 ここでは、それらの古典的対応を双対カノニカル変換と関連する双対コオプマン作用素と定義する。 それらの量子対と同様に、相関は光円錐上を除いて至る所で消え、そこでは単純な縮約写像によって支配される速度で崩壊する。 このような双対カノニカル変換の大きなクラスを提供し、結合標準写像の例を詳細に研究し、系が混合している熱力学的極限において可積分の場合から任意に離れた解析的に示す。 また、光円錐上を含む至る所で相関が消滅する「完全」クープマン作用素を定義し、エルゴード階層の頂点においてベルヌーイ系となるような猫写像格子の例を示す。

Dual-unitary circuits are being vigorously studied as models of many-body quantum chaos that can be solved exactly for correlation functions and time evolution of states. Here we define their classical counterparts as dual-canonical transformations and associated dual-Koopman operators. Like their quantum counterparts, the correlations vanish everywhere except on the light cone, on which they decay with rates governed by a simple contractive map. Providing a large class of such dual-canonical transformations, we study in detail the example of a coupled standard map and show analytically that arbitrarily away from the integrable case, in the thermodynamic limit the system is mixing. We also define ``perfect" Koopman operators that lead to the correlation vanishing everywhere including on the light cone and provide an example of a cat-map lattice which would qualify to be a Bernoulli system at the apex of the ergodic hierarchy.
翻訳日:2023-07-12 16:41:23 公開日:2023-07-11
# DDGM:勾配に基づく最小化の難解化による逆問題の解法

DDGM: Solving inverse problems by Diffusive Denoising of Gradient-based Minimization ( http://arxiv.org/abs/2307.04946v1 )

ライセンス: Link先を確認
Kyle Luther, H. Sebastian Seung(参考訳) 逆問題は通常、良い解に対して正則化子または事前を必要とする。 最近のトレンドは、畳み込みネットを訓練して画像をデノベーションし、逆問題を解く際にこのネットを前もって使用することである。 いくつかの提案はフォワード演算子の特異値分解に依存し、他のいくつかは実行時にデノナイジングネットを通してバックプロパゲートする。 本稿では,従来の勾配に基づく再構成誤差の最小化と雑音化を組み合わせた簡易化手法を提案する。 ノイズも各ステップで追加されるので、反復力学はランゲヴィンや拡散過程に似ている。 付加雑音のレベルとデノナイジングステップのサイズは時間とともに指数関数的に減衰する。 本手法は,複数の傾角で取得した電子マイクログラフからの断層像再構成問題に適用する。 チルトビューシミュレーションを用いた実験により,良好な結果が得られるパラメータ設定が得られた。 最大50段のデノナイジングステップで高い精度を達成できることが示される。 また,上記の種類のより複雑な拡散法であるddrmとdpsとの比較を行った。 これらの手法は, 生成ハイパーパラメーターを最適化した後でも, トモグラフィー問題に対して精度が低い(MSEとSSIMで測定した)。 最後に,この手法を任意のサイズの画像の再構成に拡張し,128$\times$ 1568 ピクセル画像に結果を表示する。

Inverse problems generally require a regularizer or prior for a good solution. A recent trend is to train a convolutional net to denoise images, and use this net as a prior when solving the inverse problem. Several proposals depend on a singular value decomposition of the forward operator, and several others backpropagate through the denoising net at runtime. Here we propose a simpler approach that combines the traditional gradient-based minimization of reconstruction error with denoising. Noise is also added at each step, so the iterative dynamics resembles a Langevin or diffusion process. Both the level of added noise and the size of the denoising step decay exponentially with time. We apply our method to the problem of tomographic reconstruction from electron micrographs acquired at multiple tilt angles. With empirical studies using simulated tilt views, we find parameter settings for our method that produce good results. We show that high accuracy can be achieved with as few as 50 denoising steps. We also compare with DDRM and DPS, more complex diffusion methods of the kinds mentioned above. These methods are less accurate (as measured by MSE and SSIM) for our tomography problem, even after the generation hyperparameters are optimized. Finally we extend our method to reconstruction of arbitrary-sized images and show results on 128 $\times$ 1568 pixel images
翻訳日:2023-07-12 16:41:06 公開日:2023-07-11
# フェデレーションドメイン一般化のためのベンチマークアルゴリズム

Benchmarking Algorithms for Federated Domain Generalization ( http://arxiv.org/abs/2307.04942v1 )

ライセンス: Link先を確認
Ruqi Bai, Saurabh Bagchi, David I. Inouye(参考訳) 事前のドメイン一般化(DG)ベンチマークでは,データセットの不均一性を考慮しながら,フェデレートDGの評価を行った。 さらに、クライアントのローカルデータセットにおけるドメインベースの異種性について検討する。 事前のフェデレートDG評価は、クライアントの数や不均一性やデータセットの多様性の点で制限されている。 このギャップに対処するために,我々は,クライアントの数と不均一性を制御し,データセットの難易度を示す指標を提供するフェデレーションdgベンチマーク手法を提案する。 次に, FLコンテキストに適応した集中型DGメソッド, クライアントの不均一性を処理するFLメソッド, フェデレートDG専用に設計されたメソッドを含む13のフェデレーションDGメソッドを評価する手法を適用した。 以上の結果から,フェデレーションdgでは,多くのクライアント,高いクライアントの不均一性,あるいはより現実的なデータセットで評価する場合に,かなりの性能ギャップが残ることが示唆された。 拡張可能なベンチマークコードについては、https://github.com/inouye-lab/FedDG_Benchmarkを参照してください。

While prior domain generalization (DG) benchmarks consider train-test dataset heterogeneity, we evaluate Federated DG which introduces federated learning (FL) specific challenges. Additionally, we explore domain-based heterogeneity in clients' local datasets - a realistic Federated DG scenario. Prior Federated DG evaluations are limited in terms of the number or heterogeneity of clients and dataset diversity. To address this gap, we propose an Federated DG benchmark methodology that enables control of the number and heterogeneity of clients and provides metrics for dataset difficulty. We then apply our methodology to evaluate 13 Federated DG methods, which include centralized DG methods adapted to the FL context, FL methods that handle client heterogeneity, and methods designed specifically for Federated DG. Our results suggest that despite some progress, there remain significant performance gaps in Federated DG particularly when evaluating with a large number of clients, high client heterogeneity, or more realistic datasets. Please check our extendable benchmark code here: https://github.com/inouye-lab/FedDG_Benchmark.
翻訳日:2023-07-12 16:40:45 公開日:2023-07-11
# 自動生成知識グラフと強化学習を用いた推薦システム

Empowering recommender systems using automatically generated Knowledge Graphs and Reinforcement Learning ( http://arxiv.org/abs/2307.04996v1 )

ライセンス: Link先を確認
Ghanshyam Verma, Shovon Sengupta, Simon Simanta, Huan Chen, Janos A. Perge, Devishree Pillai, John P. McCrae, Paul Buitelaar(参考訳) パーソナライズされたレコメンデーションは、知識グラフ(KG)アプリケーションによる顧客エクスペリエンスを高める研究の動機となるダイレクトマーケティングにおいて、ますます重要になっている。 例えば、金融サービスでは、企業は関係を育むために関連する金融商品を顧客に提供し、顧客エンゲージメントを育み、インフォームドファイナンシャルなファイナンシャル判断を促進することで利益を享受することができる。 本研究では,コンテンツ改善のためのkgベースのレコメンダシステムを中心に,意思決定のための解釈可能なkgベースのレコメンダシステムを中心に,多国籍金融企業の顧客に対してパーソナライズされた記事レコメンデーションを行うための2つのナレッジグラフベースのアプローチを提案する。 第1のアプローチは強化学習を採用し、第2のアプローチはXGBoostアルゴリズムを使って顧客に記事を推薦する。 どちらのアプローチも構造化データ(表データ)と非構造化データ(大量のテキストデータ)の両方から生成されるkgを使用する。 Reinforcement Learningベースのレコメンダシステムを使用することで、レコメンデーションを解釈を生成する手段としてグラフトラバースパスを活用することができる(Path Directed Reasoning (PDR))。 XGBoostベースのアプローチでは、SHAP(SHapley Additive exPlanations)やELI5(Explain Like I am Five)といったポストホックメソッドを使って、説明可能な結果を提供することもできる。 重要なことは、私たちのアプローチが説明可能な結果をもたらし、より良い意思決定を促進することです。 本研究は、高度な機械学習技術とkgによる洞察を組み合わせることによって、顧客関係管理の経験を高める可能性の核心である。

Personalized recommendations have a growing importance in direct marketing, which motivates research to enhance customer experiences by knowledge graph (KG) applications. For example, in financial services, companies may benefit from providing relevant financial articles to their customers to cultivate relationships, foster client engagement and promote informed financial decisions. While several approaches center on KG-based recommender systems for improved content, in this study we focus on interpretable KG-based recommender systems for decision making.To this end, we present two knowledge graph-based approaches for personalized article recommendations for a set of customers of a large multinational financial services company. The first approach employs Reinforcement Learning and the second approach uses the XGBoost algorithm for recommending articles to the customers. Both approaches make use of a KG generated from both structured (tabular data) and unstructured data (a large body of text data).Using the Reinforcement Learning-based recommender system we could leverage the graph traversal path leading to the recommendation as a way to generate interpretations (Path Directed Reasoning (PDR)). In the XGBoost-based approach, one can also provide explainable results using post-hoc methods such as SHAP (SHapley Additive exPlanations) and ELI5 (Explain Like I am Five).Importantly, our approach offers explainable results, promoting better decision-making. This study underscores the potential of combining advanced machine learning techniques with KG-driven insights to bolster experience in customer relationship management.
翻訳日:2023-07-12 16:33:59 公開日:2023-07-11
# PowerFusion: 明示的なデータ移動記述とインストラクションレベルのグラフIRを備えたテンソルコンパイラ

PowerFusion: A Tensor Compiler with Explicit Data Movement Description and Instruction-level Graph IR ( http://arxiv.org/abs/2307.04995v1 )

ライセンス: Link先を確認
Zixuan Ma, Haojie Wang, Jingze Xing, Liyan Zheng, Chen Zhang, Huanqi Cao, Kezhao Huang, Shizhi Tang, Penghan Wang and Jidong Zhai(参考訳) ディープニューラルネットワーク(DNN)は、異なるドメインで重要な用途である。 DNN計算を高速化するために、異なるドメイン固有のアクセラレーター上で効率的なコードを生成するためにテンソルコンパイラを提案する。 既存のテンソルコンパイラは主に計算効率の最適化に重点を置いている。 しかし、アクセラレーションの計算性能がメモリ性能よりもはるかに速くなっているため、メモリアクセスが重要なパフォーマンスボトルネックになっている。 現在のテンソルコンパイラの中間表現(ir)におけるメモリアクセスとデータ依存の直接記述の欠如は、メモリ効率のよいコードを生成する上で大きな課題をもたらす。 本稿では,計算とデータ移動の最適化を両立させて,メモリ集約演算子の高性能コードを生成するテンソルコンパイラintelligenを提案する。 IntelliGenは、計算、データ移動、並列戦略を示すプリミティブを含むGIRを使ったDNNプログラムを表す。 この情報は命令レベルのデータフローグラフとして構成され、異なるメモリアクセスパターンと計算操作を検索し、異なるハードウェア上でメモリ効率の良いコードを生成することにより、総合的な最適化を行う。 NVIDIA GPU,AMD GPU,Cambricon MLUでIntelliGenを評価し,現在のパフォーマンスフレームワークと比較して,それぞれ1.97x,2.93x,16.91x(1.28x,1.23x,2.31x)のスピードアップを示した。

Deep neural networks (DNNs) are of critical use in different domains. To accelerate DNN computation, tensor compilers are proposed to generate efficient code on different domain-specific accelerators. Existing tensor compilers mainly focus on optimizing computation efficiency. However, memory access is becoming a key performance bottleneck because the computational performance of accelerators is increasing much faster than memory performance. The lack of direct description of memory access and data dependence in current tensor compilers' intermediate representation (IR) brings significant challenges to generate memory-efficient code. In this paper, we propose IntelliGen, a tensor compiler that can generate high-performance code for memory-intensive operators by considering both computation and data movement optimizations. IntelliGen represent a DNN program using GIR, which includes primitives indicating its computation, data movement, and parallel strategies. This information will be further composed as an instruction-level dataflow graph to perform holistic optimizations by searching different memory access patterns and computation operations, and generating memory-efficient code on different hardware. We evaluate IntelliGen on NVIDIA GPU, AMD GPU, and Cambricon MLU, showing speedup up to 1.97x, 2.93x, and 16.91x(1.28x, 1.23x, and 2.31x on average), respectively, compared to current most performant frameworks.
翻訳日:2023-07-12 16:33:28 公開日:2023-07-11
# 共形予測によるビリアルブラックホール質量の不確かさの定量化

Uncertainty Quantification of the Virial Black Hole Mass with Conformal Prediction ( http://arxiv.org/abs/2307.04993v1 )

ライセンス: Link先を確認
Suk Yee Yong and Cheng Soon Ong(参考訳) ブラックホール質量の精密な測定は、ブラックホールと宿主銀河の共進化の洞察を得るために不可欠である。 ブラックホール質量の直接測定はしばしば最寄りの銀河に制限され、代わりに高赤方偏移の天体に対して、単周型ビリアルブラックホール質量推定を用いた間接的な方法が用いられる。 しかし、この手法は、局所的な活動銀河核の小さなサンプルからのスケーリング関係に依存するため、バイアスと不確実性を受ける。 本研究では,機械学習環境におけるブラックホール予測の不確かさを定量化するために,共形量子回帰(CQR)の適用を提案する。 我々はCQRを様々な予測区間技術と比較し、CQRがより有用な予測区間指標を提供できることを示した。 予測間隔推定のためのベースラインアプローチとは対照的に,CQR法はブラックホール質量とその関連特性に適応する予測間隔を提供する。 つまり、より大きなブラックホール質量の予測間隔(より確実な値)に厳密な制約を与え、従って、明るく広いスペクトル線幅の源となる。 ニューラルネットワークモデルとCQRフレームワークを組み合わせることで、回復した仮想ブラックホール質量予測と不確実性は、Sloan Digital Sky Surveyで測定されたものと同等である。 コードはhttps://github.com/yongsukyee/uncertain_blackholemass.comで公開されている。

Precise measurements of the black hole mass are essential to gain insight on the black hole and host galaxy co-evolution. A direct measure of the black hole mass is often restricted to nearest galaxies and instead, an indirect method using the single-epoch virial black hole mass estimation is used for objects at high redshifts. However, this method is subjected to biases and uncertainties as it is reliant on the scaling relation from a small sample of local active galactic nuclei. In this study, we propose the application of conformalised quantile regression (CQR) to quantify the uncertainties of the black hole predictions in a machine learning setting. We compare CQR with various prediction interval techniques and demonstrated that CQR can provide a more useful prediction interval indicator. In contrast to baseline approaches for prediction interval estimation, we show that the CQR method provides prediction intervals that adjust to the black hole mass and its related properties. That is it yields a tighter constraint on the prediction interval (hence more certain) for a larger black hole mass, and accordingly, bright and broad spectral line width source. Using a combination of neural network model and CQR framework, the recovered virial black hole mass predictions and uncertainties are comparable to those measured from the Sloan Digital Sky Survey. The code is publicly available at https://github.com/yongsukyee/uncertain_blackholemass.
翻訳日:2023-07-12 16:33:06 公開日:2023-07-11
# モノトンディープボルツマンマシン

Monotone deep Boltzmann machines ( http://arxiv.org/abs/2307.04990v1 )

ライセンス: Link先を確認
Zhili Feng, Ezra Winston, J. Zico Kolter(参考訳) ディープ・ボルツマン・マシン(Deep Boltzmann Machine、DBMs)は、ネットワーク内の全ての変数/ノードの確率を記述するペアエネルギー関数によって制御される多層確率モデルである。 実際には、DBMはより効率的な推論を可能にするために(層内接続を許可しない) \emph{restricted} Boltzmann machine (RBM) アーキテクチャを介して制約されることが多い。 この作業では、汎用dbmアプローチを再検討し、次のような質問をする。 効率的な(ほぼ)推論を可能にする設計に、他に可能な制限はありますか? 特に、各層における任意の自己接続を可能にするモノトンDBMという新しい制限モデルのクラスを開発するが、平均場固定点の存在と大域的一意性を保証する方法として \emph{weights} を制限する。 そこで本研究では,最近提案したモノトンディープ平衡モデルのツールを活用し,アクティベーションの特定の選択が一定点反復の結果,変動平均場解を与えることを示す。 このアプローチはまだほとんど概念的だが、DBMの完全な重み構造における効率的な近似推論を可能にする最初のアーキテクチャである。 このアプローチを単純な深部畳み込み型ボルツマンアーキテクチャに適用し、従来のRBMにおける平均場推論の落とし穴を回避しつつ、単一の深部確率的設定において、画像の連成補完や分類などのタスクを可能にすることを実証する。

Deep Boltzmann machines (DBMs), one of the first ``deep'' learning methods ever studied, are multi-layered probabilistic models governed by a pairwise energy function that describes the likelihood of all variables/nodes in the network. In practice, DBMs are often constrained, i.e., via the \emph{restricted} Boltzmann machine (RBM) architecture (which does not permit intra-layer connections), in order to allow for more efficient inference. In this work, we revisit the generic DBM approach, and ask the question: are there other possible restrictions to their design that would enable efficient (approximate) inference? In particular, we develop a new class of restricted model, the monotone DBM, which allows for arbitrary self-connection in each layer, but restricts the \emph{weights} in a manner that guarantees the existence and global uniqueness of a mean-field fixed point. To do this, we leverage tools from the recently-proposed monotone Deep Equilibrium model and show that a particular choice of activation results in a fixed-point iteration that gives a variational mean-field solution. While this approach is still largely conceptual, it is the first architecture that allows for efficient approximate inference in fully-general weight structures for DBMs. We apply this approach to simple deep convolutional Boltzmann architectures and demonstrate that it allows for tasks such as the joint completion and classification of images, within a single deep probabilistic setting, while avoiding the pitfalls of mean-field inference in traditional RBMs.
翻訳日:2023-07-12 16:32:42 公開日:2023-07-11
# 下流治療効果推定のためのベイズ因果発見手法のベンチマーク

Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment Effect Estimation ( http://arxiv.org/abs/2307.04988v1 )

ライセンス: Link先を確認
Chris Chinenye Emezue, Alexandre Drouin, Tristan Deleu, Stefan Bauer, Yoshua Bengio(参考訳) 因果関係の意思決定における実用的有用性は広く認識され、因果関係の発見と推論は本質的に絡み合っている。 それでも、下流推論に不十分な重点を置く因果発見手法の評価において、顕著なギャップが存在する。 このギャップを解消するために,GFlowNetsに基づく6つの確立された基本因果探索法と新しい手法を,治療効果推定の下流課題に基づいて評価した。 本研究は,ロバストな評価手法の実装を通じて,総合的および実世界のシナリオと低データシナリオの両方を考慮した,治療効果推定における因果的発見手法の有効性に関する貴重な知見を提供する。 さらに,本研究の結果から,GFlowNetsは多種多様なATEモードを効果的に捕捉する能力を有することが示された。

The practical utility of causality in decision-making is widely recognized, with causal discovery and inference being inherently intertwined. Nevertheless, a notable gap exists in the evaluation of causal discovery methods, where insufficient emphasis is placed on downstream inference. To address this gap, we evaluate six established baseline causal discovery methods and a newly proposed method based on GFlowNets, on the downstream task of treatment effect estimation. Through the implementation of a robust evaluation procedure, we offer valuable insights into the efficacy of these causal discovery methods for treatment effect estimation, considering both synthetic and real-world scenarios, as well as low-data scenarios. Furthermore, the results of our study demonstrate that GFlowNets possess the capability to effectively capture a wide range of useful and diverse ATE modes.
翻訳日:2023-07-12 16:32:13 公開日:2023-07-11
# 発生因子を用いた流行モデル

Epidemic Modeling with Generative Agents ( http://arxiv.org/abs/2307.04986v1 )

ライセンス: Link先を確認
Ross Williams, Niyousha Hosseinichimeh, Aritra Majumdar, Navid Ghaffarzadegan(参考訳) 本研究は、ヒトの行動を疫病モデルに組み込むという大きな課題に対処するために、個人レベルのモデリングの新しいパラダイムを提供する。 エージェントベースの流行モデルで生成人工知能を使用することで、各エージェントはChatGPTのような大きな言語モデルに接続することで、独自の推論と決定を行うことができる。 様々なシミュレーション実験を通じて, 発生剤が病気時の隔離や症例発生時の自己同化といった現実世界の行動を模倣する証拠を提示する。 近年のパンデミックで観察された複数の波に類似したパターンを総合的に示す。 さらに,感染拡大曲線の平坦化にも成功している。 この研究は、人間の脳、推論、意思決定を表現する方法を提供することで、動的システムモデリングを改善する可能性がある。

This study offers a new paradigm of individual-level modeling to address the grand challenge of incorporating human behavior in epidemic models. Using generative artificial intelligence in an agent-based epidemic model, each agent is empowered to make its own reasonings and decisions via connecting to a large language model such as ChatGPT. Through various simulation experiments, we present compelling evidence that generative agents mimic real-world behaviors such as quarantining when sick and self-isolation when cases rise. Collectively, the agents demonstrate patterns akin to multiple waves observed in recent pandemics followed by an endemic period. Moreover, the agents successfully flatten the epidemic curve. This study creates potential to improve dynamic system modeling by offering a way to represent human brain, reasoning, and decision making.
翻訳日:2023-07-12 16:31:57 公開日:2023-07-11
# 前頭側頭側認知症診断のための多視点不偏決定ネットワーク

A Multi-view Impartial Decision Network for Frontotemporal Dementia Diagnosis ( http://arxiv.org/abs/2307.04981v1 )

ライセンス: Link先を確認
Guoyao Deng, Ke Zou, Meng Wang, Xuedong Yuan, Sancong Ying, and Huazhu Fu(参考訳) 前頭側頭型認知症 (FTD) の診断は深層学習技術を用いて順調に進んでいる。 しかし、現在のFTD識別法には2つの制限がある。 第一に、彼らはFTDの分類にマルチビュー機能的磁気共鳴イメージング(fMRI)の可能性を利用していない。 第2に,多視点FTD診断の信頼性を考慮しない。 これらの制約に対処するために、fMRIにおけるFTD診断のための信頼性のあるマルチビュー公平決定ネットワーク(MID-Net)を提案する。 我々のMID-Netは、それぞれの見解に信頼を与え、矛盾なく信頼できる予測を生成する。 これを実現するために,複数のエキスパートモデルを用いて,fmri画像に含まれる豊富なニューラルネットワーク情報から証拠を抽出する。 次に、エビデンスレベルから専門家クラスの確率分布を特徴付けるためにディリクレ分布を導入する。 さらに,新たなImpartial Decision Maker (IDer) が提案され,新たな計算コストを伴わずに不偏予測に到達するために,異なる意見を組み合わせることができる。 MID-Netは、特に多視点高コンフリクトケースを扱う場合、FTD病の専門家による決定を動的に統合する。 高品質FTD fMRIデータセットの大規模な実験により、我々のモデルは従来の手法よりも優れており、分類の難しい例に対して高い不確実性をもたらすことが示された。 提案手法は,マルチエキスパート条件下での信頼性FTD意思決定の展開に向けた重要な一歩であると考えられる。 受け入れ後、再生のためのコードをリリースします。

Frontotemporal Dementia (FTD) diagnosis has been successfully progress using deep learning techniques. However, current FTD identification methods suffer from two limitations. Firstly, they do not exploit the potential of multi-view functional magnetic resonance imaging (fMRI) for classifying FTD. Secondly, they do not consider the reliability of the multi-view FTD diagnosis. To address these limitations, we propose a reliable multi-view impartial decision network (MID-Net) for FTD diagnosis in fMRI. Our MID-Net provides confidence for each view and generates a reliable prediction without any conflict. To achieve this, we employ multiple expert models to extract evidence from the abundant neural network information contained in fMRI images. We then introduce the Dirichlet Distribution to characterize the expert class probability distribution from an evidence level. Additionally, a novel Impartial Decision Maker (IDer) is proposed to combine the different opinions inductively to arrive at an unbiased prediction without additional computation cost. Overall, our MID-Net dynamically integrates the decisions of different experts on FTD disease, especially when dealing with multi-view high-conflict cases. Extensive experiments on a high-quality FTD fMRI dataset demonstrate that our model outperforms previous methods and provides high uncertainty for hard-to-classify examples. We believe that our approach represents a significant step toward the deployment of reliable FTD decision-making under multi-expert conditions. We will release the codes for reproduction after acceptance.
翻訳日:2023-07-12 16:31:45 公開日:2023-07-11
# 回路実行ランタイムモデルとその実用的なデータセットサイズにおける量子カーネルへの応用

A Model for Circuit Execution Runtime And Its Implications for Quantum Kernels At Practical Data Set Sizes ( http://arxiv.org/abs/2307.04980v1 )

ライセンス: Link先を確認
Travis L. Scholten, Derrick Perry II, Joseph Washington, Jennifer R. Glick, Thomas Ward(参考訳) 量子機械学習(QML)は、量子コンピューティングにおいて急速に成長する分野である。 一般的なqmlアルゴリズムである量子カーネル推定は、量子回路を用いて2つの古典的特徴ベクトル間の類似度測度(カーネル)を推定する。 このような回路の集合が与えられた場合、最近導入された量子コンピュータの速度の測度に基づいて、必要な回路実行時間全体のヒューリスティックな予測モデルを与える。 また、「回路の量子体積層の有効数」という概念も導入するが、これは独立した関心事かもしれない。 我々は,Qiskit Runtimeサービスを用いて,IBM Quantumコンピュータから収集した経験的実行データと比較し,合成データと実データを用いて本モデルの性能を検証する。 今日の量子コンピュータの現在の速度で、我々のモデルは何百もの特徴ベクトルからなるデータセットを数時間で処理できると予測している。 大規模ワークフローの場合、ランタイムに対するモデルの予測は、アルゴリズム自体と同様に、回路実行速度がさらに改善されることを意味します。

Quantum machine learning (QML) is a fast-growing discipline within quantum computing. One popular QML algorithm, quantum kernel estimation, uses quantum circuits to estimate a similarity measure (kernel) between two classical feature vectors. Given a set of such circuits, we give a heuristic, predictive model for the total circuit execution time required, based on a recently-introduced measure of the speed of quantum computers. In doing so, we also introduce the notion of an "effective number of quantum volume layers of a circuit", which may be of independent interest. We validate the performance of this model using synthetic and real data by comparing the model's predictions to empirical runtime data collected from IBM Quantum computers through the use of the Qiskit Runtime service. At current speeds of today's quantum computers, our model predicts data sets consisting of on the order of hundreds of feature vectors can be processed in order a few hours. For a large-data workflow, our model's predictions for runtime imply further improvements in the speed of circuit execution -- as well as the algorithm itself -- are necessary.
翻訳日:2023-07-12 16:31:18 公開日:2023-07-11
# アート生成のための拡散アイデア探索

Diffusion idea exploration for art generation ( http://arxiv.org/abs/2307.04978v1 )

ライセンス: Link先を確認
Nikhil Verma(参考訳) クロスモーダルな学習タスクは近年ペースを増している。 多様な分野の応用が多種多様であり、複数のデータを用いた新しいコンテンツの生成は依然として困難な問題である。 これに対処するために、特定のタスクに対して様々な生成モデリング技術が提案されている。 新規で創造的な画像生成は、新しいコンテンツ生成の腕として役立つ産業アプリケーションにとって重要な側面である。 提案手法では, GAN(Generative Adversarial Network), 自己回帰モデル, 変分オートエンコーダ(VAE)を用いて, 同様の作業を行う。 これらのアプローチは、テキスト命令または粗いスケッチ画像によって誘導される画像を生成する能力に制限されている。 我々は,最先端のアート拡散モデルを用いて,大まかなスケッチを補助するテキストを主に活用し,創造的アートを創造的に生成した。 拡散はランダムドットのパターンから始まり、モデルに供給されるガイド情報を使用して、ゆっくりとそのパターンをデザインイメージに変換する。 拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおける他の生成モデルよりも優れています。 このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。

Cross-Modal learning tasks have picked up pace in recent times. With plethora of applications in diverse areas, generation of novel content using multiple modalities of data has remained a challenging problem. To address the same, various generative modelling techniques have been proposed for specific tasks. Novel and creative image generation is one important aspect for industrial application which could help as an arm for novel content generation. Techniques proposed previously used Generative Adversarial Network(GAN), autoregressive models and Variational Autoencoders (VAE) for accomplishing similar tasks. These approaches are limited in their capability to produce images guided by either text instructions or rough sketch images decreasing the overall performance of image generator. We used state of the art diffusion models to generate creative art by primarily leveraging text with additional support of rough sketches. Diffusion starts with a pattern of random dots and slowly converts that pattern into a design image using the guiding information fed into the model. Diffusion models have recently outperformed other generative models in image generation tasks using cross modal data as guiding information. The initial experiments for this task of novel image generation demonstrated promising qualitative results.
翻訳日:2023-07-12 16:30:49 公開日:2023-07-11
# SAM-U:医療画像における信頼性SAMの不確実性推定を誘発するマルチボックス

SAM-U: Multi-box prompts triggered uncertainty estimation for reliable SAM in medical image ( http://arxiv.org/abs/2307.04973v1 )

ライセンス: Link先を確認
Guoyao Deng, Ke Zou, Kai Ren, Meng Wang, Xuedong Yuan, Sancong Ying and Huazhu Fu(参考訳) 最近、Segmenting Anythingは汎用人工知能への重要な一歩を踏み出した。 同時に、その信頼性と公平性も特に医療の分野で大きな注目を集めている。 本研究では, SAM cues の不確実性評価を誘発するマルチボックスプロンプトを提案し, セグメント状病変や組織に対する信頼性を実証する。 テスト時間拡張の定式化として異なるプロンプトを用いて,モンテカルロによるSAM予測の分布を事前分布パラメータで推定する。 実験の結果,マルチボックスによりSAM性能が向上し,各画素に不確かさが認められた。 これは、信頼性のあるSAMの最初のパラダイムを提供する。

Recently, Segmenting Anything has taken an important step towards general artificial intelligence. At the same time, its reliability and fairness have also attracted great attention, especially in the field of health care. In this study, we propose multi-box prompts triggered uncertainty estimation for SAM cues to demonstrate the reliability of segmented lesions or tissues. We estimate the distribution of SAM predictions via Monte Carlo with prior distribution parameters, which employs different prompts as formulation of test-time augmentation. Our experimental results found that multi-box prompts augmentation improve the SAM performance, and endowed each pixel with uncertainty. This provides the first paradigm for a reliable SAM.
翻訳日:2023-07-12 16:30:15 公開日:2023-07-11
# 雑音ラベル学習における正規化戦略の可能性

Unleashing the Potential of Regularization Strategies in Learning with Noisy Labels ( http://arxiv.org/abs/2307.05025v1 )

ライセンス: Link先を確認
Hui Kang, Sheng Liu, Huaxi Huang, Jun Yu, Bo Han, Dadong Wang, Tongliang Liu(参考訳) 近年,ノイズラベルを用いた学習の研究は,ノイズラベルに対する堅牢性を実現し,データのクリーン化を一般化する新しいアルゴリズムの開発に重点を置いている。 これらのアルゴリズムにはノイズモデリング、ラベル補正、コトレーニングといった高度な技術が組み込まれていることが多い。 本研究では,クロスエントロピー損失を用いた単純なベースラインと,学習速度の減衰,モデル重み付け平均,データ拡張といった広く使われる正規化戦略が組み合わさることで,最先端の手法よりも優れることを示す。 以上の結果から,規則化戦略の組み合わせは,ノイズラベルを用いた学習の課題に取り組むための複雑なアルゴリズムよりも効果的であることが示唆された。 これらの規則化戦略のいくつかは、これまでの騒がしいラベル学習研究で活用されてきたが、その潜在能力は十分に検討されていない。 本研究は,ノイズラベルを用いた学習のためのベンチマークの再評価と,ノイズラベルを用いた学習のための専門的学習アルゴリズムの役割の再検討を促す。

In recent years, research on learning with noisy labels has focused on devising novel algorithms that can achieve robustness to noisy training labels while generalizing to clean data. These algorithms often incorporate sophisticated techniques, such as noise modeling, label correction, and co-training. In this study, we demonstrate that a simple baseline using cross-entropy loss, combined with widely used regularization strategies like learning rate decay, model weights average, and data augmentations, can outperform state-of-the-art methods. Our findings suggest that employing a combination of regularization strategies can be more effective than intricate algorithms in tackling the challenges of learning with noisy labels. While some of these regularization strategies have been utilized in previous noisy label learning research, their full potential has not been thoroughly explored. Our results encourage a reevaluation of benchmarks for learning with noisy labels and prompt reconsideration of the role of specialized learning algorithms designed for training with noisy labels.
翻訳日:2023-07-12 16:24:39 公開日:2023-07-11
# 特徴活性化マップ:画像分類のためのディープラーニングモデルの視覚的説明

Feature Activation Map: Visual Explanation of Deep Learning Models for Image Classification ( http://arxiv.org/abs/2307.05017v1 )

ライセンス: Link先を確認
Yi Liao, Yongsheng Gao, Weichuan Zhang(参考訳) 画像上の識別領域を可視化することにより、畳み込みニューラルネットワーク(CNN)による決定を理解することができる。 この目的のために、クラスアクティベーションマップ(CAM)ベースの手法を強力な解釈ツールとして提案し、ディープラーニングモデルの予測をより説明しやすく、透明で、信頼性の高いものにした。 しかし、camベースの手法(例えばcam、grad-cam、 associated-cam)はすべて、完全接続(fc)層を分類器としてcnnモデルを解釈するためにのみ使用できる。 多くのディープラーニングモデルは、FC層を持たない画像、例えば、少数ショットの学習画像分類、対照的な学習画像分類、画像検索タスクを分類する。 本研究では,FC層を含まないディープラーニングモデルを分類器として解釈可能な,機能活性化マップ(FAM)と呼ばれるポストホック解釈ツールを提案する。 提案したFAMアルゴリズムでは、2つの画像埋め込みの類似点からチャネルワイド寄与重みが導出される。 活性化マップは対応する正規化寄与重みと線形に結合され、可視化のための説明マップを形成する。 数点画像分類,コントラスト学習画像分類,および画像検索タスクのための10の深層学習モデルを用いた定量的・定性的実験により,famアルゴリズムの有効性が示された。

Decisions made by convolutional neural networks(CNN) can be understood and explained by visualizing discriminative regions on images. To this end, Class Activation Map (CAM) based methods were proposed as powerful interpretation tools, making the prediction of deep learning models more explainable, transparent, and trustworthy. However, all the CAM-based methods (e.g., CAM, Grad-CAM, and Relevance-CAM) can only be used for interpreting CNN models with fully-connected (FC) layers as a classifier. It is worth noting that many deep learning models classify images without FC layers, e.g., few-shot learning image classification, contrastive learning image classification, and image retrieval tasks. In this work, a post-hoc interpretation tool named feature activation map (FAM) is proposed, which can interpret deep learning models without FC layers as a classifier. In the proposed FAM algorithm, the channel-wise contribution weights are derived from the similarity scores between two image embeddings. The activation maps are linearly combined with the corresponding normalized contribution weights, forming the explanation map for visualization. The quantitative and qualitative experiments conducted on ten deep learning models for few-shot image classification, contrastive learning image classification and image retrieval tasks demonstrate the effectiveness of the proposed FAM algorithm.
翻訳日:2023-07-12 16:24:22 公開日:2023-07-11
# TRansPose:透明オブジェクトのための大規模マルチスペクトルデータセット

TRansPose: Large-Scale Multispectral Dataset for Transparent Object ( http://arxiv.org/abs/2307.05016v1 )

ライセンス: Link先を確認
Jeongyun Kim, Myung-Hwan Jeon, Sangwoo Jung, Wooseong Yang, Minwoo Jung, Jaeho Shin, Ayoung Kim(参考訳) 透明な物体は私たちの日常生活で頻繁に遭遇するが、RGBや奥行きカメラでは認識されない、独特の物質特性のため、従来の視覚センサーには課題が生じる。 この制限を克服するため、サーマル赤外線カメラがソリューションとして登場し、透明物体の視界と形状情報を改善した。 本稿では,ステレオRGB-D,熱赤外(TIR)画像とオブジェクトのポーズを組み合わせて,透明物体の研究を促進する,最初の大規模マルチスペクトルデータセットTRansPoseを提案する。 データセットには、43の家庭用品、27のリサイクル可能なゴミ、29の化学実験室相当品、12の非透明物体を含む99の透明物体が含まれている。 333,819の画像と4,000,056のアノテーションの膨大なコレクションで構成されており、インスタンスレベルのセグメンテーションマスク、地対地ポーズ、完成度情報を提供している。 このデータはFLIR A65熱赤外カメラ、2台のIntel RealSense L515 RGB-Dカメラ、そしてフランカ・エミカ・パンダのロボットマニピュレータを用いて取得された。 Spanning 87 sequences, TRansPoseは、水で満たされたオブジェクト、多様な照明条件、重いクラッタ、透明で半透明な容器、ビニール袋の中のオブジェクト、マルチスタックオブジェクトなど、さまざまな困難な現実シナリオをカバーしている。 TRansPoseデータセットは以下のリンクからアクセスできる。

Transparent objects are encountered frequently in our daily lives, yet recognizing them poses challenges for conventional vision sensors due to their unique material properties, not being well perceived from RGB or depth cameras. Overcoming this limitation, thermal infrared cameras have emerged as a solution, offering improved visibility and shape information for transparent objects. In this paper, we present TRansPose, the first large-scale multispectral dataset that combines stereo RGB-D, thermal infrared (TIR) images, and object poses to promote transparent object research. The dataset includes 99 transparent objects, encompassing 43 household items, 27 recyclable trashes, 29 chemical laboratory equivalents, and 12 non-transparent objects. It comprises a vast collection of 333,819 images and 4,000,056 annotations, providing instance-level segmentation masks, ground-truth poses, and completed depth information. The data was acquired using a FLIR A65 thermal infrared (TIR) camera, two Intel RealSense L515 RGB-D cameras, and a Franka Emika Panda robot manipulator. Spanning 87 sequences, TRansPose covers various challenging real-life scenarios, including objects filled with water, diverse lighting conditions, heavy clutter, non-transparent or translucent containers, objects in plastic bags, and multi-stacked objects. TRansPose dataset can be accessed from the following link: https://sites.google.com/view/transpose-dataset
翻訳日:2023-07-12 16:24:01 公開日:2023-07-11
# CGLMP不等式に基づく局所フィルタリング操作による隠れ非局所性の活性化

Activation of hidden nonlocality using local filtering operations based on CGLMP inequality ( http://arxiv.org/abs/2307.05015v1 )

ライセンス: Link先を確認
Asmita Kumari(参考訳) 絡み合いは必要だが、ベルの不等式に違反しない局所絡み状態が存在するため、非局所性を示すには不十分である。 近年,局所フィルタリング操作による非局所性(隠れ非局所性)の活性化が注目されている。 popescu の当初の提案 (phys. rev. lett. 74, 2619 (1995)) では、隠れた非局所性が werner 状態のクラスに対して$d \geq 5$ で示されていた。 本稿では,適切な局所フィルタリング操作を用いた任意の$d$次元システムにおいて,混合絡み合い状態(純状態とカラーノイズの凸混合)のクラスに対する非局所性を示す。 実演では、この目的のために考慮されていないコリンズ・リンデン・ギシン・マッサー・ペスク不等式(CGLMP)の量子違反を考慮する。 上記混合絡み合い状態の純状態が最大絡み合い状態である場合,非局所性を隠すための混合パラメータの範囲は,システムの次元を増加させるにつれて増加することを示す。 重要なことに、$d \geq 8$の場合、混合パラメータ全体に対して隠れた非局所性を明らかにすることができる。 さらに, 最大cglmp違反状態である他の純状態を考慮して, 同一の局所フィルタリング操作を用いて非局所性の活性化を示す。

Entanglement is necessary but not sufficient to demonstrate nonlocality as there exist local entangled states which do not violate any Bell inequality. In recent years, the activation of nonlocality (known as hidden nonlocality) by using local filtering operations has gained considerable interest. In the original proposal of Popescu [Phys. Rev. Lett. 74, 2619 (1995)] the hidden nonlocality was demonstrated for the Werner class of states in $d \geq 5$. In this paper, we demonstrate the hidden nonlocality for a class of mixed entangled states (convex mixture of a pure state and color noise) in an arbitrary $d$-dimensional system using suitable local filtering operations. For our demonstration, we consider the quantum violation of Collins-Linden-Gisin-Masser-Popescu (CGLMP) inequality which has hitherto not been considered for this purpose. We show that when the pure state in the aforementioned mixed entangled state is a maximally entangled state, the range of the mixing parameter for revealing hidden nonlocality increases with increasing the dimension of the system. Importantly, we find that for $d \geq 8$, hidden non-locality can be revealed for the whole range of mixing parameter. Further, by considering another pure state, the maximally CGLMP-violating state, we demonstrate the activation of nonlocality by using the same local filtering operation.
翻訳日:2023-07-12 16:23:33 公開日:2023-07-11
# ビデオストリームにおけるテスト時間トレーニング

Test-Time Training on Video Streams ( http://arxiv.org/abs/2307.05014v1 )

ライセンス: Link先を確認
Renhao Wang, Yu Sun, Yossi Gandelsman, Xinlei Chen, Alexei A. Efros, Xiaolong Wang(参考訳) テスト時間トレーニング(TTT)は、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークである。 各テストインスタンスで予測を行う前に、モデルは同じインスタンス上で、マスク付きオートエンコーダによるイメージ再構成などの自己監督タスクを使用してトレーニングされる。 TTTをストリーミング設定に拡張し、複数のテストインスタンス(私たちの場合はビデオフレーム)が一時的な順序で到着します。 現在のモデルは、以前のモデルから初期化され、その後、現在のフレームと、直前に小さなフレームのウィンドウでトレーニングされます。 オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。 相対的な改善は、例えばパンオプティカルセグメンテーションの45%と66%である。 驚いたことに、オンラインtttはオフライン版よりも多くの情報にアクセスし、時間順に関わらずテストビデオ全体から全てのフレームをトレーニングする。 これは以前の合成ビデオによる発見とは異なる。 我々は、オフラインTTTよりもオンラインの方が有利であると概念化している。 アブレーションによる局所性の役割とバイアス分散トレードオフに基づく理論を解析した。

Prior work has established test-time training (TTT) as a general framework to further improve a trained model at test time. Before making a prediction on each test instance, the model is trained on the same instance using a self-supervised task, such as image reconstruction with masked autoencoders. We extend TTT to the streaming setting, where multiple test instances - video frames in our case - arrive in temporal order. Our extension is online TTT: The current model is initialized from the previous model, then trained on the current frame and a small window of frames immediately before. Online TTT significantly outperforms the fixed-model baseline for four tasks, on three real-world datasets. The relative improvement is 45% and 66% for instance and panoptic segmentation. Surprisingly, online TTT also outperforms its offline variant that accesses more information, training on all frames from the entire test video regardless of temporal order. This differs from previous findings using synthetic videos. We conceptualize locality as the advantage of online over offline TTT. We analyze the role of locality with ablations and a theory based on bias-variance trade-off.
翻訳日:2023-07-12 16:23:08 公開日:2023-07-11
# 原子アンサンブルにおける任意の完全ポアンカー状態に対する光メモリ

Optical Memory for Arbitrary Perfect Poincar\'e States in an Atomic Ensemble ( http://arxiv.org/abs/2307.05008v1 )

ライセンス: Link先を確認
Lei Zeng, Ying-Hao Ye, Ming-Xin Dong, Wei-Hang Zhang, En-Ze Li, Dong-Sheng Ding and Bao-Sen Shi(参考訳) 固有スピン角運動量 (sam) と軌道角運動量 (oam) は、光子の偏光と空間自由度 (dof) として表され、古典的および量子的な情報処理への応用において大きな能力を持つ。 これらのフォトニックスピンと軌道力学特性を相互に強く結合させるため、poincar\'{e}状態が提案され、データの多重化、情報暗号化、精密計測、量子メモリの利点を提供している。 しかし、ラゲール・ガウスビームの逆サイズは、その位相電荷数$\left| l \right|$に強く依存するため、異なる空間モードの光-物質相互作用によって非対称なポアンカー='{e}状態を保存することは困難である。 ここでは, 任意のOAM量子を用いた完全 Poincar\'{e} 状態の保存を, 任意に選択した 121 個の完全 Poincar\'{e} 状態が高忠実度で保存された完全光渦を用いて実験的に実現した。 報告された研究は、情報のエンコーディングの柔軟性を劇的に高めるために、光通信と量子ネットワークにおいて大きな期待を持っている。

Inherent spin angular momentum (SAM) and orbital angular momentum (OAM) which manifest as polarization and spatial degrees of freedom (DOF) of photons, hold a promise of large capability for applications in classical and quantum information processing. To enable these photonic spin and orbital dynamic properties strongly coupled with each other, Poincar\'{e} states have been proposed and offer advantages in data multiplexing, information encryption, precision metrology, and quantum memory. However, since the transverse size of Laguerre Gaussian beams strongly depends on their topological charge numbers $\left| l \right|$, it is difficult to store asymmetric Poincar\'{e} states due to the significantly different light-matter interaction for distinct spatial modes. Here, we experimentally realize the storage of perfect Poincar\'{e} states with arbitrary OAM quanta using the perfect optical vortex, in which 121 arbitrarily-selected perfect Poincar\'{e} states have been stored with high fidelity. The reported work has great prospects in optical communication and quantum networks for dramatically increased encoding flexibility of information.
翻訳日:2023-07-12 16:22:51 公開日:2023-07-11
# 音響ルックアヘッドを用いたRNNトランスデューサの改良

Improving RNN-Transducers with Acoustic LookAhead ( http://arxiv.org/abs/2307.05006v1 )

ライセンス: Link先を確認
Vinit S. Unni, Ashish Mittal, Preethi Jyothi, Sunita Sarawagi(参考訳) RNN-Transducers (RNN-Ts) は音声からテキストへの変換のエンドツーエンドモデルとして広く受け入れられている。 典型的なRNN-Tは入力オーディオとテキストコンテキストを独立に符号化し、2つのエンコーディングを薄いジョイントネットワークで結合する。 このアーキテクチャはSOTAストリーミングの精度を提供するが、アコースティック・エビデンスなしでテキストの多段階幻覚として現れる強いLMバイアスに弱いモデルにする。 本稿では,音声入力における未来を先取りして,テキスト表現をより音響的に基礎づけるLookAheadを提案する。 この手法は、ドメイン内およびドメイン外の評価セットにおいて、単語誤り率を5%-20%削減する。

RNN-Transducers (RNN-Ts) have gained widespread acceptance as an end-to-end model for speech to text conversion because of their high accuracy and streaming capabilities. A typical RNN-T independently encodes the input audio and the text context, and combines the two encodings by a thin joint network. While this architecture provides SOTA streaming accuracy, it also makes the model vulnerable to strong LM biasing which manifests as multi-step hallucination of text without acoustic evidence. In this paper we propose LookAhead that makes text representations more acoustically grounded by looking ahead into the future within the audio input. This technique yields a significant 5%-20% relative reduction in word error rate on both in-domain and out-of-domain evaluation sets.
翻訳日:2023-07-12 16:22:27 公開日:2023-07-11
# 多エージェント強化学習における創発的コミュニケーションメカニズムとしての確率的推論としての制御

Control as Probabilistic Inference as an Emergent Communication Mechanism in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2307.05004v1 )

ライセンス: Link先を確認
Tomoaki Nakamura, Akira Taniguchi, Tadahiro Taniguchi(参考訳) 本稿では,創発的コミュニケーションとマルチエージェント強化学習を組み合わせた生成確率モデルを提案する。 エージェントは確率的推論によってアクションを計画し、制御を推論と呼び、遅延変数であり、計画されたアクションに基づいて推定されるメッセージを使って通信する。 これらのメッセージを通じて、各エージェントはそのアクションに関する情報を送信し、他のエージェントのアクションに関する情報を知ることができる。 そのため、エージェントは、推定されたメッセージに従ってアクションを変更して協調作業を行う。 このメッセージの推論は通信と見なすことができ、この手順はメトロポリス・ハスティング命名ゲームによって定式化することができる。 グリッド環境における実験を通して,提案したPGMは,協調作業を実現するために有意義なメッセージを推測できることを示す。

This paper proposes a generative probabilistic model integrating emergent communication and multi-agent reinforcement learning. The agents plan their actions by probabilistic inference, called control as inference, and communicate using messages that are latent variables and estimated based on the planned actions. Through these messages, each agent can send information about its actions and know information about the actions of another agent. Therefore, the agents change their actions according to the estimated messages to achieve cooperative tasks. This inference of messages can be considered as communication, and this procedure can be formulated by the Metropolis-Hasting naming game. Through experiments in the grid world environment, we show that the proposed PGM can infer meaningful messages to achieve the cooperative task.
翻訳日:2023-07-12 16:22:13 公開日:2023-07-11
# ニューラルポイントに基づく容積アバター:高効率で光現実的な容積ヘッドアバターのための表面誘導ニューラルポイント

Neural Point-based Volumetric Avatar: Surface-guided Neural Points for Efficient and Photorealistic Volumetric Head Avatar ( http://arxiv.org/abs/2307.05000v1 )

ライセンス: Link先を確認
Cong Wang, Di Kang, Yanpei Cao, Linchao Bao, Ying Shan, Song-Hai Zhang(参考訳) ar/vrおよびビデオ会議アプリケーションにおける快適で没入的な体験を確保するには、フォトリアリスティックで動的に動く人間の頭部のレンダリングが不可欠である。 しかし、既存の方法は、しばしば挑戦的な顔領域(例えば、口内、目、髪、ひげ)をモデル化するのに苦労し、非現実的でぼやけた結果をもたらす。 本稿では,ニューラルポイント表現とニューラルボリュームレンダリングを併用し,メッシュベースアプローチによって課される事前定義された接続性とハード対応を破棄する手法である {\fullname} ({\name})を提案する。 具体的には、高分解能uv変位マップを介してターゲット式の表面を戦略的に制約し、モデリング能力の向上とより正確な制御を実現する。 本稿では3つの技術革新を導入してレンダリングとトレーニングの効率化を図る: パッチワイド深度誘導(シェーディングポイント)サンプリング戦略、軽量ラディアンス復号法、およびトレーニング中のグリッド・エラー・パッチ(GEP)レイサンプリング戦略である。 設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を処理できる。 また,Multifaceデータセットから得られた3つの実験により,従来の最先端手法,特に難易度の高い顔領域の処理において,設計の有効性を実証した。

Rendering photorealistic and dynamically moving human heads is crucial for ensuring a pleasant and immersive experience in AR/VR and video conferencing applications. However, existing methods often struggle to model challenging facial regions (e.g., mouth interior, eyes, hair/beard), resulting in unrealistic and blurry results. In this paper, we propose {\fullname} ({\name}), a method that adopts the neural point representation as well as the neural volume rendering process and discards the predefined connectivity and hard correspondence imposed by mesh-based approaches. Specifically, the neural points are strategically constrained around the surface of the target expression via a high-resolution UV displacement map, achieving increased modeling capacity and more accurate control. We introduce three technical innovations to improve the rendering and training efficiency: a patch-wise depth-guided (shading point) sampling strategy, a lightweight radiance decoding process, and a Grid-Error-Patch (GEP) ray sampling strategy during training. By design, our {\name} is better equipped to handle topologically changing regions and thin structures while also ensuring accurate expression control when animating avatars. Experiments conducted on three subjects from the Multiface dataset demonstrate the effectiveness of our designs, outperforming previous state-of-the-art methods, especially in handling challenging facial regions.
翻訳日:2023-07-12 16:22:01 公開日:2023-07-11
# オンライン回帰による選択的サンプリングと模倣学習

Selective Sampling and Imitation Learning via Online Regression ( http://arxiv.org/abs/2307.04998v1 )

ライセンス: Link先を確認
Ayush Sekhari, Karthik Sridharan, Wen Sun, Runzhe Wu(参考訳) 雑音の多い専門家にフィードバックを求めることで,Imitation Learning (IL) の問題を考える。 模倣学習は実証的に成功したが、先行研究の多くは、多くのアプリケーションでは実用的ではないノイズレス専門家のフィードバックへのアクセスを前提としている。 実際、ノイズの多い専門家のフィードバックのみにアクセスできる場合、純粋にオフラインデータ(非対話型il)に依存するアルゴリズムは、成功するためには膨大な数のサンプルを必要とすることが示される。 対照的に、本研究では、選択的サンプリングを用いて、ノイズの多い専門家にフィードバックを求めるための対話的アルゴリズムを提供する。 まず、一般的な関数クラスと複数のアクションで動作する新しい選択的サンプリングアルゴリズムを提供し、後悔とクエリの数に対して最もよく知られた境界を得る。 次に,この解析をエキスパートフィードバックによるil問題に適用し,限定的なクエリを行う新しいilアルゴリズムを提案する。 選択的サンプリングのためのアルゴリズムは関数近似を利用しており、与えられたモデルクラスが行動を予測するためにオンライン回帰オラクル w.r.t. に依存する。 理論的には、我々のアルゴリズムの後悔の束縛は、オンライン回帰オラクルの後悔によって上限されるが、クエリの複雑さは、さらにモデルクラスのeluder次元に依存する。 私たちはこれを、結果が厳密であることを示す低い境界で補完します。 一般関数近似によるilの選択的サンプリングアルゴリズムを拡張し,ノイズの少ない専門家に対して,後悔と問い合わせ数の両方に境界を与える。 ここでの重要な新規性は、我々の後悔とクエリの複雑さが、最適なポリシー(ノイズの多い専門家や学習者ではない)の回数にのみ依存していることです。

We consider the problem of Imitation Learning (IL) by actively querying noisy expert for feedback. While imitation learning has been empirically successful, much of prior work assumes access to noiseless expert feedback which is not practical in many applications. In fact, when one only has access to noisy expert feedback, algorithms that rely on purely offline data (non-interactive IL) can be shown to need a prohibitively large number of samples to be successful. In contrast, in this work, we provide an interactive algorithm for IL that uses selective sampling to actively query the noisy expert for feedback. Our contributions are twofold: First, we provide a new selective sampling algorithm that works with general function classes and multiple actions, and obtains the best-known bounds for the regret and the number of queries. Next, we extend this analysis to the problem of IL with noisy expert feedback and provide a new IL algorithm that makes limited queries. Our algorithm for selective sampling leverages function approximation, and relies on an online regression oracle w.r.t.~the given model class to predict actions, and to decide whether to query the expert for its label. On the theoretical side, the regret bound of our algorithm is upper bounded by the regret of the online regression oracle, while the query complexity additionally depends on the eluder dimension of the model class. We complement this with a lower bound that demonstrates that our results are tight. We extend our selective sampling algorithm for IL with general function approximation and provide bounds on both the regret and the number of queries made to the noisy expert. A key novelty here is that our regret and query complexity bounds only depend on the number of times the optimal policy (and not the noisy expert, or the learner) go to states that have a small margin.
翻訳日:2023-07-12 16:21:34 公開日:2023-07-11
# コントラスト・デモとサリエンシー・マップを用いた文脈内学習の理解に向けて

Towards Understanding In-Context Learning with Contrastive Demonstrations and Saliency Maps ( http://arxiv.org/abs/2307.05052v1 )

ライセンス: Link先を確認
Zongxia Li, Paiheng Xu, Fuxiao Liu, Hyemi Song(参考訳) 大規模言語モデル(LLM)のテキスト内学習(ICL)性能における様々な実演要素の役割について検討する。 具体的には, 接地ラベル, 入力分布, 補完的説明, 特に, 変化や摂動時の影響について検討する。 これらの要素がICLにどのように影響するかについて、さまざまな知見を提供する。 これらの問題を探索するために,説明可能なNLP(XNLP)法を用い,定性解析と定量的解析の両方に対照的な実演のサリエンシマップを用いた。 以上の結果から,大きなLSMではより顕著であるが,地平線ラベルの反転は唾液濃度に大きな影響を及ぼすことが明らかとなった。 粒度レベルでの入力分布の解析により,感情分析タスクにおける感情表出語の変化は,表層ラベルの変更ほど大きな影響を及ぼさないことが明らかとなった。 最後に、ICLの性能向上における補完的説明の有効性は、シンボリック推論タスクと比較して感情分析タスクで見られるメリットが限定的であることが判明した。 これらの知見は,ChatGPT などのアプリケーションで LLM の利用が増加していることを踏まえ,LLM の機能を理解し,効果的な実演の開発を導く上で重要である。 我々の研究コードはhttps://github.com/paihengxu/XICL.comで公開されています。

We investigate the role of various demonstration components in the in-context learning (ICL) performance of large language models (LLMs). Specifically, we explore the impacts of ground-truth labels, input distribution, and complementary explanations, particularly when these are altered or perturbed. We build on previous work, which offers mixed findings on how these elements influence ICL. To probe these questions, we employ explainable NLP (XNLP) methods and utilize saliency maps of contrastive demonstrations for both qualitative and quantitative analysis. Our findings reveal that flipping ground-truth labels significantly affects the saliency, though it's more noticeable in larger LLMs. Our analysis of the input distribution at a granular level reveals that changing sentiment-indicative terms in a sentiment analysis task to neutral ones does not have as substantial an impact as altering ground-truth labels. Finally, we find that the effectiveness of complementary explanations in boosting ICL performance is task-dependent, with limited benefits seen in sentiment analysis tasks compared to symbolic reasoning tasks. These insights are critical for understanding the functionality of LLMs and guiding the development of effective demonstrations, which is increasingly relevant in light of the growing use of LLMs in applications such as ChatGPT. Our research code is publicly available at https://github.com/paihengxu/XICL.
翻訳日:2023-07-12 16:14:31 公開日:2023-07-11
# ポートフォリオ最適化:比較研究

Portfolio Optimization: A Comparative Study ( http://arxiv.org/abs/2307.05048v1 )

ライセンス: Link先を確認
Jaydip Sen, Subhasis Dasgupta(参考訳) ポートフォリオ最適化は、金融研究コミュニティからかなりの注目を集めている分野である。 利益率のポートフォリオを設計することは、将来の株価リターンとリスクの正確な予測を含む難しい課題である。 この章では、3つのポートフォリオ設計アプローチ、平均分散ポートフォリオ(MVP)、階層的リスクパリティ(HRP)ベースのポートフォリオ、オートエンコーダベースのポートフォリオを比較します。 これら3つのポートフォリオデザインアプローチは、インドのNSE(National Stock Exchange)に記載されている10のテーマセクターから選択された株式の歴史的価格に適用される。 ポートフォリオは2018年1月1日から2021年12月31日までの株価データを用いて設計され、パフォーマンスは2022年1月1日から2022年12月31日までのサンプル外データでテストされている。 ポートフォリオのパフォーマンスに関する詳細な結果が分析されている。 mvpポートフォリオのパフォーマンスは、リスク調整されたリターンのサンプル外データで最高のものであることが観察されます。 しかし、オートエンコーダのポートフォリオは年間リターンでそのポートフォリオを上回った。

Portfolio optimization has been an area that has attracted considerable attention from the financial research community. Designing a profitable portfolio is a challenging task involving precise forecasting of future stock returns and risks. This chapter presents a comparative study of three portfolio design approaches, the mean-variance portfolio (MVP), hierarchical risk parity (HRP)-based portfolio, and autoencoder-based portfolio. These three approaches to portfolio design are applied to the historical prices of stocks chosen from ten thematic sectors listed on the National Stock Exchange (NSE) of India. The portfolios are designed using the stock price data from January 1, 2018, to December 31, 2021, and their performances are tested on the out-of-sample data from January 1, 2022, to December 31, 2022. Extensive results are analyzed on the performance of the portfolios. It is observed that the performance of the MVP portfolio is the best on the out-of-sample data for the risk-adjusted returns. However, the autoencoder portfolios outperformed their counterparts on annual returns.
翻訳日:2023-07-12 16:14:07 公開日:2023-07-11
# てんかんの臨床 : 第一段階

Epistemic Syllogistic: First Steps ( http://arxiv.org/abs/2307.05043v1 )

ライセンス: Link先を確認
Yipu Li (Peking University), Yanjing Wang (Peking University)(参考訳) アリストテレスのモジュラー・シロメティクスに関する議論は、しばしば誤りが原因と見なされ、歴史や哲学的な関心から文学に大きな注目を集めた。 しかし、現代の観点からは、一階の様相論理の自然な断片を導入し、包括的な技術的分析を保証した。 本稿では,自然論理プログラムから着想を得て,認識論的文脈におけるモーダル・シロジクスの変種をいくつか提案・検討し,認識論的シロジクスという用語を生み出した。 具体的には、「a であることが知られているすべてのものは b ではない」というような非自明だが自然な表現を含む認識論的音節論の de re 解釈に集中する。 我々は,より複雑な用語を包含する認識論的アポジックな音韻学とその拡張について検討する。 私たちの主な貢献には、これらの論理のいくつかの公理化が含まれており、完全性証明は独立した関心を持つかもしれない。

Aristotle's discussions on modal syllogistic have often been viewed as error-prone and have garnered significant attention in the literature due to historical and philosophical interests. However, from a contemporary standpoint, they also introduced natural fragments of first-order modal logic, warranting a comprehensive technical analysis. In this paper, drawing inspiration from the natural logic program, we propose and examine several variants of modal syllogistic within the epistemic context, thereby coining the term Epistemic Syllogistic. Specifically, we concentrate on the de re interpretation of epistemic syllogisms containing non-trivial yet natural expressions such as "all things known to be A are also known to be not B." We explore the epistemic apodeictic syllogistic and its extensions, which accommodate more complex terms. Our main contributions include several axiomatizations of these logics, with completeness proofs that may be of independent interest.
翻訳日:2023-07-12 16:13:46 公開日:2023-07-11
# 夜間監視のための不連続コントラスト画像翻訳

Disentangled Contrastive Image Translation for Nighttime Surveillance ( http://arxiv.org/abs/2307.05038v1 )

ライセンス: Link先を確認
Guanzhou Lan, Bin Zhao, Xuelong Li(参考訳) 夜間監視は、照明の悪さと厳しい人間のアノテーションによる劣化に悩まされる。 取り締まりが難しく、夜間はセキュリティ上のリスクが残る。 既存の手法では、暗黒の物体を知覚するためにマルチスペクトル画像に依存しており、低解像度とカラーの欠如が問題となっている。 夜間監視の究極の解決策は、夜間から昼までの監視シーンを、セマンティックな一貫性を維持しつつ、夜間から昼までの監視シーンを翻訳することを目的としている。 そこで本研究では,Distangled Contrastive (DiCo) 学習法を提案する。 具体的には,夜間場面における可哀相で複雑な照明に対処するために,高度にダイナミックな夜間環境の安定な知覚を提供し,ニューラルネットワークの学習パイプラインに組み込むことのできる,学習可能な物理前駆体,すなわち色不変性を提案する。 監視シーンをターゲットとして,監視シーンを前景と背景に分離し,コントラスト学習を行う補助的前提課題である,アンタングル表現を開発する。 このような戦略は、監視なしでセマンティクスを抽出し、インスタンス対応翻訳を達成するためにモデルを強化できます。 最後に、上記の全てのモジュールを生成的敵ネットワークに組み込んで高忠実度翻訳を行う。 本論文はNightSuRと呼ばれる新しい監視データセットにも貢献する。 夜間の監視研究を支援する6つのシーンが含まれている。 このデータセットは、フレアや極暗といった夜間環境の特性の異なる夜間画像を収集する。 大規模な実験により,本手法は既存手法よりも優れた性能を示した。 データセットとソースコードはもうすぐgithubでリリースされる。

Nighttime surveillance suffers from degradation due to poor illumination and arduous human annotations. It is challengable and remains a security risk at night. Existing methods rely on multi-spectral images to perceive objects in the dark, which are troubled by low resolution and color absence. We argue that the ultimate solution for nighttime surveillance is night-to-day translation, or Night2Day, which aims to translate a surveillance scene from nighttime to the daytime while maintaining semantic consistency. To achieve this, this paper presents a Disentangled Contrastive (DiCo) learning method. Specifically, to address the poor and complex illumination in the nighttime scenes, we propose a learnable physical prior, i.e., the color invariant, which provides a stable perception of a highly dynamic night environment and can be incorporated into the learning pipeline of neural networks. Targeting the surveillance scenes, we develop a disentangled representation, which is an auxiliary pretext task that separates surveillance scenes into the foreground and background with contrastive learning. Such a strategy can extract the semantics without supervision and boost our model to achieve instance-aware translation. Finally, we incorporate all the modules above into generative adversarial networks and achieve high-fidelity translation. This paper also contributes a new surveillance dataset called NightSuR. It includes six scenes to support the study on nighttime surveillance. This dataset collects nighttime images with different properties of nighttime environments, such as flare and extreme darkness. Extensive experiments demonstrate that our method outperforms existing works significantly. The dataset and source code will be released on GitHub soon.
翻訳日:2023-07-12 16:13:31 公開日:2023-07-11
# グラフエンハンス情報を用いたニューラルシンボリックレコメンデーション

Neural-Symbolic Recommendation with Graph-Enhanced Information ( http://arxiv.org/abs/2307.05036v1 )

ライセンス: Link先を確認
Bang Chen, Wei Peng, Maonian Wu, Bo Zheng, Shaojun Zhu(参考訳) レコメンデーションシステムは、データからの帰納的統計だけでなく、推論能力を必要とする認知的タスクの問題でもある。 最も高度なグラフニューラルネットワークは、グラフ構造化データから暗黙的な構造化情報をキャプチャできるため、レコメンデーションシステムで広く使われている。 しかし、ほとんどのニューラルネットワークアルゴリズムと同様に、認識の観点からのみマッチングパターンを学習する。 一部の研究者は、認知的推論の観点からレコメンデーション予測を達成するために、論理的推論にユーザ行動を用いるが、この種の推論は局所的であり、グローバルスケールにおける暗黙的な情報を無視する。 本研究では,グラフニューラルネットワークと命題論理演算の利点を組み合わせることで,大域的暗黙的推論能力と局所的明示的論理推論能力の両方を備えたニューロシンボリックレコメンデーションモデルを構築する。 まず、隣接する相互作用の原理に基づいてアイテム-イムグラフを構築し、グラフニューラルネットワークを用いてグローバルデータ中の暗黙的な情報をキャプチャする。 そして,ユーザの振る舞いを命題論理表現に変換し,認知的推論の観点からレコメンデーションを実現する。 5つの公開データセットに対する大規模な実験により、提案したモデルはいくつかの最先端の手法より優れており、ソースコードは[https://github.com/hanzo2020/GNNLR]で評価可能であることが示された。

The recommendation system is not only a problem of inductive statistics from data but also a cognitive task that requires reasoning ability. The most advanced graph neural networks have been widely used in recommendation systems because they can capture implicit structured information from graph-structured data. However, like most neural network algorithms, they only learn matching patterns from a perception perspective. Some researchers use user behavior for logic reasoning to achieve recommendation prediction from the perspective of cognitive reasoning, but this kind of reasoning is a local one and ignores implicit information on a global scale. In this work, we combine the advantages of graph neural networks and propositional logic operations to construct a neuro-symbolic recommendation model with both global implicit reasoning ability and local explicit logic reasoning ability. We first build an item-item graph based on the principle of adjacent interaction and use graph neural networks to capture implicit information in global data. Then we transform user behavior into propositional logic expressions to achieve recommendations from the perspective of cognitive reasoning. Extensive experiments on five public datasets show that our proposed model outperforms several state-of-the-art methods, source code is avaliable at [https://github.com/hanzo2020/GNNLR].
翻訳日:2023-07-12 16:13:08 公開日:2023-07-11
# ディープニューラルネットワークアーキテクチャのための数値システム:調査

Number Systems for Deep Neural Network Architectures: A Survey ( http://arxiv.org/abs/2307.05035v1 )

ライセンス: Link先を確認
Ghada Alsuhli, Vasileios Sakellariou, Hani Saleh, Mahmoud Al-Qutayri, Baker Mohammad, Thanos Stouraitis(参考訳) ディープニューラルネットワーク(DNN)は、無数の人工知能アプリケーションで実現可能なコンポーネントとなっている。 DNNは、自動運転車や健康アプリケーションなどのケースにおいて、人間よりも優れたパフォーマンスを示すことがある。 計算複雑性のため、リソース制限されたデバイスにDNNをデプロイすることは、計算複雑性、エネルギー効率、レイテンシ、コストに関連する多くの課題に直面している。 この目的のために、DNNを迅速かつ効率的に実装するために、学術と産業の両方がいくつかの研究方向を追求している。 1つの重要な方向は、DNN処理に関わる大量のデータの適切なデータ表現を決定することである。 従来の数系はDNNに準最適であることが判明した。 あるいは、多くの研究が適切な数系を探索することに焦点を当てている。 本稿では、DNNデータのより効率的な表現のための代替番号システムに関する総合的な調査と議論を行う。 DNNに活用される各種の数値システムについて論じる。 これらの数系がDNNの性能とハードウェア設計に与える影響を考察する。 さらに,本論文では,各数値システムに関わる課題と,それに対応するための様々なソリューションについて述べる。 読者は、DNNの効率的な数値システムの重要性を理解し、DNNの広く使われている数値システムについて学び、様々な数値システム間のトレードオフを理解し、DNNの性能への影響に影響を及ぼす様々な設計側面を考えることができる。 また、近年の動向や関連する研究機会も注目される。

Deep neural networks (DNNs) have become an enabling component for a myriad of artificial intelligence applications. DNNs have shown sometimes superior performance, even compared to humans, in cases such as self-driving, health applications, etc. Because of their computational complexity, deploying DNNs in resource-constrained devices still faces many challenges related to computing complexity, energy efficiency, latency, and cost. To this end, several research directions are being pursued by both academia and industry to accelerate and efficiently implement DNNs. One important direction is determining the appropriate data representation for the massive amount of data involved in DNN processing. Using conventional number systems has been found to be sub-optimal for DNNs. Alternatively, a great body of research focuses on exploring suitable number systems. This article aims to provide a comprehensive survey and discussion about alternative number systems for more efficient representations of DNN data. Various number systems (conventional/unconventional) exploited for DNNs are discussed. The impact of these number systems on the performance and hardware design of DNNs is considered. In addition, this paper highlights the challenges associated with each number system and various solutions that are proposed for addressing them. The reader will be able to understand the importance of an efficient number system for DNN, learn about the widely used number systems for DNN, understand the trade-offs between various number systems, and consider various design aspects that affect the impact of number systems on DNN performance. In addition, the recent trends and related research opportunities will be highlighted
翻訳日:2023-07-12 16:12:44 公開日:2023-07-11
# 自然言語推論のための複合合成知識評価のための合成データセット

Synthetic Dataset for Evaluating Complex Compositional Knowledge for Natural Language Inference ( http://arxiv.org/abs/2307.05034v1 )

ライセンス: Link先を確認
Sushma Anand Akoju, Robert Vacareanu, Haris Riaz, Eduardo Blanco, Mihai Surdeanu(参考訳) 本稿では,SICCK(Sentences Involving Complex Compositional Knowledge)と呼ばれる合成データセットと,自然言語推論(NLI)モデルの性能を解析して,論理における構成性を理解する新しい分析手法を提案する。 SICKデータセット(Marelli et al., 2014)から15個の例を修正して1,304個の文対を生成する。 この目的のために,自然論理 (nl) における普遍量化子,存在量化子,否定,その他の概念修飾子に対応する修飾子 (maccartney, 2009) の組を用いて原文を修正した。 我々はこれらのフレーズを用いて、前提と仮説の主題、動詞、および対象部分を変更する。 最後に、これらの修正テキストに、NLルールに従って対応するエンテーメントラベルをアノテートする。 我々は、ゼロショットと微調整の両方のシナリオにおいて、ニューラルネットワークNLIモデルによって構造的および意味的構成の変化がどの程度うまく捉えられるかを予備検証する。 ゼロショット設定下でのnliモデルの性能は,特に否定文と存在量化子を用いた修正文では低かった。 このデータセットを微調整した後、モデルが否定、存在的、普遍的な修飾子よりも性能が低いことを観察する。

We introduce a synthetic dataset called Sentences Involving Complex Compositional Knowledge (SICCK) and a novel analysis that investigates the performance of Natural Language Inference (NLI) models to understand compositionality in logic. We produce 1,304 sentence pairs by modifying 15 examples from the SICK dataset (Marelli et al., 2014). To this end, we modify the original texts using a set of phrases - modifiers that correspond to universal quantifiers, existential quantifiers, negation, and other concept modifiers in Natural Logic (NL) (MacCartney, 2009). We use these phrases to modify the subject, verb, and object parts of the premise and hypothesis. Lastly, we annotate these modified texts with the corresponding entailment labels following NL rules. We conduct a preliminary verification of how well the change in the structural and semantic composition is captured by neural NLI models, in both zero-shot and fine-tuned scenarios. We found that the performance of NLI models under the zero-shot setting is poor, especially for modified sentences with negation and existential quantifiers. After fine-tuning this dataset, we observe that models continue to perform poorly over negation, existential and universal modifiers.
翻訳日:2023-07-12 16:12:24 公開日:2023-07-11
# イベントカメラを用いた常時光流量推定

Towards Anytime Optical Flow Estimation with Event Cameras ( http://arxiv.org/abs/2307.05033v1 )

ライセンス: Link先を確認
Yaozu Ye, Hao Shi, Kailun Yang, Ze Wang, Xiaoting Yin, Yaonan Wang, Kaiwei Wang(参考訳) イベントカメラはマイクロ秒のログブライトネス変化に対応できる。 変化領域のみに応答する特性は光流量推定に特に適している。 イベントカメラの超低遅延応答速度とは対照的に、イベントカメラで収集された既存のデータセットは、フレームレートの光学フローグランド真実(例えば10hz)しか提供せず、イベント駆動光フローの可能性を著しく制限している。 この課題に対処するため、我々は高フレームレートで低レイテンシなイベント表現であるUnified Voxel Gridをネットワークビンにビンで順次送り込みました。 次に,低フレームレートの光フロー基盤のみを監督対象とする高フレームレートのイベント光フローを生成する,イベントベースのanytime flow推定ネットワークであるeva-flowを提案する。 eva-flowの重要なコンポーネントは、時空拡散光流を予測し、空間-時空間運動微細化により精度を向上させるstacked spatiotemporal motionfine(smr)モジュールです。 SMRモジュールで使用される時差特性のワープは、中間光学フローを暗黙的に監視する。 さらに, 基底真理の欠如による中間光流の教師なし評価のために, RFWL (Rectified Flow Warp Loss) を導入する。 これは、私たちの知る限りでは、イベントカメラによる任意の時間光フロー推定に焦点を当てた最初の仕事です。 MVSEC, DESC, およびEVA-FlowSetの総合的な実験により, EVA-Flowは競争性能, 超低レイテンシ (5ms), 高速推論 (9.2ms) , 時差運動推定 (200Hz) , 強い一般化を実現することが示された。 私たちのコードはhttps://github.com/Yaozhuwa/EVA-Flowで公開されます。

Event cameras are capable of responding to log-brightness changes in microseconds. Its characteristic of producing responses only to the changing region is particularly suitable for optical flow estimation. In contrast to the super low-latency response speed of event cameras, existing datasets collected via event cameras, however, only provide limited frame rate optical flow ground truth, (e.g., at 10Hz), greatly restricting the potential of event-driven optical flow. To address this challenge, we put forward a high-frame-rate, low-latency event representation Unified Voxel Grid, sequentially fed into the network bin by bin. We then propose EVA-Flow, an EVent-based Anytime Flow estimation network to produce high-frame-rate event optical flow with only low-frame-rate optical flow ground truth for supervision. The key component of our EVA-Flow is the stacked Spatiotemporal Motion Refinement (SMR) module, which predicts temporally-dense optical flow and enhances the accuracy via spatial-temporal motion refinement. The time-dense feature warping utilized in the SMR module provides implicit supervision for the intermediate optical flow. Additionally, we introduce the Rectified Flow Warp Loss (RFWL) for the unsupervised evaluation of intermediate optical flow in the absence of ground truth. This is, to the best of our knowledge, the first work focusing on anytime optical flow estimation via event cameras. A comprehensive variety of experiments on MVSEC, DESC, and our EVA-FlowSet demonstrates that EVA-Flow achieves competitive performance, super-low-latency (5ms), fastest inference (9.2ms), time-dense motion estimation (200Hz), and strong generalization. Our code will be available at https://github.com/Yaozhuwa/EVA-Flow.
翻訳日:2023-07-12 16:12:00 公開日:2023-07-11
# 高分子フォトニックチップ上の単光子量子ウォークの圧縮単画素読み出し

Compressive single-pixel read-out of single-photon quantum walks on a polymer photonic chip ( http://arxiv.org/abs/2307.05031v1 )

ライセンス: Link先を確認
Aveek Chandra, Shuin Jian Wu, Angelina Frank and James A. Grieve(参考訳) 単一光子状態で動作する量子フォトニックデバイスは、光の量子状態の検出とキャラクタリゼーションを必要とする。 チップスケールの導波管ベースのデバイスは、そのようなシステムのスケールと複雑さを高めるための重要な技術である。 このようなチップの端部で複数の出力から単一光子を集めることはコアタスクであり、特に出力ポートが密に空間化されている場合、しばしば非自明である。 高分子フォトニックチップの個々の出力モードを効率よく画像化し、ルーティングする、新しい安価な方法を示し、単一の光子が量子ウォークを行う。 デジタルマイクロミラー装置(DMD)を用いた単画素イメージング(SPI)を利用する。 dmd上に一連のマスクを実装し、反射信号を単一光子検出器に集めることで、単一光子の空間分布を高精度に再構成することができる。 また,圧縮センシングに基づく最適化戦略の実現可能性を示す。

Quantum photonic devices operating in the single photon regime require the detection and characterization of quantum states of light. Chip-scale, waveguide-based devices are a key enabling technology for increasing the scale and complexity of such systems. Collecting single photons from multiple outputs at the end-face of such a chip is a core task that is frequently non-trivial, especially when output ports are densely spaced. We demonstrate a novel, inexpensive method to efficiently image and route individual output modes of a polymer photonic chip, where single photons undergo a quantum walk. The method makes use of single-pixel imaging (SPI) with a digital micromirror device (DMD). By implementing a series of masks on the DMD and collecting the reflected signal into single-photon detectors, the spatial distribution of the single photons can be reconstructed with high accuracy. We also demonstrate the feasibility of optimization strategies based on compressive sensing.
翻訳日:2023-07-12 16:11:28 公開日:2023-07-11
# FairLay-ML: データ駆動型社会批判アルゴリズムの不公平対策

FairLay-ML: Intuitive Remedies for Unfairness in Data-Driven Social-Critical Algorithms ( http://arxiv.org/abs/2307.05029v1 )

ライセンス: Link先を確認
Normen Yu, Gang Tan, Saeid Tizpaz-Niari(参考訳) この論文では、機械学習(ML)モデル説明ツールをオープンソースにすることで、機械学習ベースの意思決定支援システムにおいて、レイマンが不公平を可視化し、理解し、直感的に改善できるかどうかを理解する。 マイノリティグループに偏りのあるデータセットでトレーニングされた機械学習モデルは、人生を変える社会的決定を導くためにますます使われており、不公平さの論理を急務的に研究する必要がある。 この問題が一般大衆に与えた影響から、社会正義や機械学習の専門家だけでなく、一般大衆にとって、これらのアルゴリズムにおける不公平の性質と潜在的なトレードオフを理解することは重要である。 機械学習における公正性に関する既存の研究は、主に不公平なモデルを理解し、治療するための数学的定義とツールに焦点を当てている。 この論文では、FairLay-MLについて紹介する。FairLay-MLは、既存の研究ツール(Local Interpretable Model-Agnostic Explanationsなど)と既存のML中心のGUI(Python Streamlitなど)を統合することで、MLモデルで不公平なロジックの直感的な説明を提供する、最も有望なツールを統合した概念実証GUIである。 本研究では,不公平検出ツールであるParfait-MLが生成した様々な精度と公平性のモデルを用いてFairLay-MLをテストする。 本研究は,FairLay-MLで使用される技術スタックによって,事前学習したモデルのリアルタイムなブラックボックス説明をユーザに提供する。 さらに、説明は実行可能な治療に翻訳された。

This thesis explores open-sourced machine learning (ML) model explanation tools to understand whether these tools can allow a layman to visualize, understand, and suggest intuitive remedies to unfairness in ML-based decision-support systems. Machine learning models trained on datasets biased against minority groups are increasingly used to guide life-altering social decisions, prompting the urgent need to study their logic for unfairness. Due to this problem's impact on vast populations of the general public, it is critical for the layperson -- not just subject matter experts in social justice or machine learning experts -- to understand the nature of unfairness within these algorithms and the potential trade-offs. Existing research on fairness in machine learning focuses mostly on the mathematical definitions and tools to understand and remedy unfair models, with some directly citing user-interactive tools as necessary for future work. This thesis presents FairLay-ML, a proof-of-concept GUI integrating some of the most promising tools to provide intuitive explanations for unfair logic in ML models by integrating existing research tools (e.g. Local Interpretable Model-Agnostic Explanations) with existing ML-focused GUI (e.g. Python Streamlit). We test FairLay-ML using models of various accuracy and fairness generated by an unfairness detector tool, Parfait-ML, and validate our results using Themis. Our study finds that the technology stack used for FairLay-ML makes it easy to install and provides real-time black-box explanations of pre-trained models to users. Furthermore, the explanations provided translate to actionable remedies.
翻訳日:2023-07-12 16:11:15 公開日:2023-07-11
# サンプル認識プロンプトと動的リビジョンチェーンを備えた検索型gpt-3.5ベースのtext-to-sqlフレームワーク

Retrieval-augmented GPT-3.5-based Text-to-SQL Framework with Sample-aware Prompting and Dynamic Revision Chain ( http://arxiv.org/abs/2307.05074v1 )

ライセンス: Link先を確認
Chunxi Guo, Zhiliang Tian, Jintao Tang, Shasha Li, Zhihua Wen, Kaixuan Wang and Ting Wang(参考訳) text-to-sqlは、自然言語の質問に対してsqlクエリを生成することを目的としている。 大規模言語モデル(LLM)によるプロンプト学習は、入力問題を理解し、対応するSQLを生成するためにLLMを導くように設計する最近のアプローチとして現れている。 しかし、厳格なSQL構文要求で問題に直面している。 既存の作業は、SQLを生成するための実演例のリスト(例えば、質問とSQLのペア)でLLMに促すが、固定プロンプトは、検索された実演と入力された質問の間の意味的なギャップが大きいシナリオをほとんど扱えない。 本稿では、サンプル認識プロンプトと動的リビジョンチェーンを含むLLMベースのText-to-SQLフレームワークの検索強化プロンプト手法を提案する。 提案手法では,SQL演算子の合成と質問内容に関する詳細な情報を含むサンプル認識型実演を取り入れた。 類似した意図を入力質問と共有する質問を検索するために,検索を支援する2つの戦略を提案する。 まず,最初の質問を単純化し,構文を統一し,ユーザの意図を明確化するために,llmを活用する。 人間の介入なしに実行可能で正確なSQLを生成するために、我々は以前生成されたSQLからのきめ細かいフィードバックを反復的に適応する動的リビジョンチェーンを設計する。 3つのtext-to-sqlベンチマークにおける実験結果は、強力なベースラインモデルよりも優れた方法を示している。

Text-to-SQL aims at generating SQL queries for the given natural language questions and thus helping users to query databases. Prompt learning with large language models (LLMs) has emerged as a recent approach, which designs prompts to lead LLMs to understand the input question and generate the corresponding SQL. However, it faces challenges with strict SQL syntax requirements. Existing work prompts the LLMs with a list of demonstration examples (i.e. question-SQL pairs) to generate SQL, but the fixed prompts can hardly handle the scenario where the semantic gap between the retrieved demonstration and the input question is large. In this paper, we propose a retrieval-augmented prompting method for a LLM-based Text-to-SQL framework, involving sample-aware prompting and a dynamic revision chain. Our approach incorporates sample-aware demonstrations, which include the composition of SQL operators and fine-grained information related to the given question. To retrieve questions sharing similar intents with input questions, we propose two strategies for assisting retrieval. Firstly, we leverage LLMs to simplify the original questions, unifying the syntax and thereby clarifying the users' intentions. To generate executable and accurate SQLs without human intervention, we design a dynamic revision chain which iteratively adapts fine-grained feedback from the previously generated SQL. Experimental results on three Text-to-SQL benchmarks demonstrate the superiority of our method over strong baseline models.
翻訳日:2023-07-12 16:04:22 公開日:2023-07-11
# クリーデンスを信念に集約する:不合理な結果に対するアジェンダ条件

Aggregating Credences into Beliefs: Agenda Conditions for Impossibility Results ( http://arxiv.org/abs/2307.05072v1 )

ライセンス: Link先を確認
Minkyung Wang, Chisu Kim(参考訳) 二元化信念アグリゲーションは、個々の確率的信念を合理的に2元的信念にまとめる方法に対処する。 判断集約理論の発展と同様に、公理的要求の定式化、不合理性定理の証明、不合理性定理の正確なアジェンダ条件の特定は、二項化信念アグリゲーションにおける自然かつ重要な研究テーマである。 既往の非可算定理の研究に基づいて, 結果を一般化し, 問題間の論理的相互接続の必要十分レベルを決定するためのアジェンダ理論的手法を用いて, 可換定理を発生させるアジェンダについて検討した。 We demonstrate that (1) path-connectedness and even-negatability constitute the exact agenda condition for the oligarchy result stating that binarizing belief aggregation satisfying proposition-wise independence and deductive closure of collective beliefs yields the oligarchies under minor conditions; (2) negation-connectedness is the condition for the triviality result obtained by adding anonymity to the oligarchy result; and (3) blockedness is the condition for the impossibility result, which follows by adding completeness and consistency of collective beliefs. さらに,これらの新たな知見を,判断アグリゲーションと信念バイナライゼーションにおける既存のアジェンダ理論的評価定理と比較した。

Binarizing belief aggregation addresses how to rationally aggregate individual probabilistic beliefs into collective binary beliefs. Similar to the development of judgment aggregation theory, formulating axiomatic requirements, proving impossibility theorems, and identifying exact agenda conditions of impossibility theorems are natural and important research topics in binarizing belief aggregation. Building on our previous research on impossibility theorems, we use an agenda-theoretic approach to generalize the results and to determine the necessary and sufficient level of logical interconnection between the issues in an agenda for the impossibility theorems to arise. We demonstrate that (1) path-connectedness and even-negatability constitute the exact agenda condition for the oligarchy result stating that binarizing belief aggregation satisfying proposition-wise independence and deductive closure of collective beliefs yields the oligarchies under minor conditions; (2) negation-connectedness is the condition for the triviality result obtained by adding anonymity to the oligarchy result; and (3) blockedness is the condition for the impossibility result, which follows by adding completeness and consistency of collective beliefs. Moreover, we compare these novel findings with existing agenda-theoretic characterization theorems in judgment aggregation and belief binarization.
翻訳日:2023-07-12 16:03:54 公開日:2023-07-11
# 未知の未知の地雷

Mining for Unknown Unknowns ( http://arxiv.org/abs/2307.05071v1 )

ライセンス: Link先を確認
Bernard Sinclair-Desgagn\'e(参考訳) 未知の未知は、前述のない将来の関連する事象である。 多くの振り返りの証言では、大きな利益や損失が達成されたり、避けられたりしたことがあったが、そのような事態は以前は発見されていなかった。 本稿では,データマイニングや整理にますます応用される格子理論のサブフィールドであるFCA(Formal Concept Analysis)を用いて,ボックスから体系的に思考し,未知の未知を探索する簡単な枠組みを提案する。

Unknown unknowns are future relevant contingencies that lack an ex ante description. While there are numerous retrospective accounts showing that significant gains or losses might have been achieved or avoided had such contingencies been previously uncovered, getting hold of unknown unknowns still remains elusive, both in practice and conceptually. Using Formal Concept Analysis (FCA) - a subfield of lattice theory which is increasingly applied for mining and organizing data - this paper introduces a simple framework to systematically think out of the box and direct the search for unknown unknowns.
翻訳日:2023-07-12 16:03:32 公開日:2023-07-11
# 認知バイアスと信念修正

Cognitive Bias and Belief Revision ( http://arxiv.org/abs/2307.05069v1 )

ライセンス: Link先を確認
Panagiotis Papadamos (Technical University of Denmark), Nina Gierasimczuk (Technical University of Denmark)(参考訳) 本稿では, 信念修正の枠組みの中で, 確認バイアス, フレーミングバイアス, 定着バイアスの3種類の認知バイアスを定式化する。 我々は,これらを反復修正のプロセスの制約として解釈し,条件付け,語彙修正,最小限の修正という,よく知られた3つの信条修正手法に適用する。 真理追跡における偏見的信念修正手法の信頼性について検討する。 また,ランダムなシナリオにおける偏見的信念修正の性能を評価するために,コンピュータシミュレーションを実施している。

In this paper we formalise three types of cognitive bias within the framework of belief revision: confirmation bias, framing bias, and anchoring bias. We interpret them generally, as restrictions on the process of iterated revision, and we apply them to three well-known belief revision methods: conditioning, lexicographic revision, and minimal revision. We investigate the reliability of biased belief revision methods in truth tracking. We also run computer simulations to assess the performance of biased belief revision in random scenarios.
翻訳日:2023-07-12 16:03:21 公開日:2023-07-11
# 有界帰納的合理性の理論

A Theory of Bounded Inductive Rationality ( http://arxiv.org/abs/2307.05068v1 )

ライセンス: Link先を確認
Caspar Oesterheld (Carnegie Mellon University), Abram Demski (Machine Intelligence Research Institute), Vincent Conitzer (Carnegie Mellon University)(参考訳) 合理的選択の有力な理論は論理的な全科学を仮定する。 すなわち、決定問題に直面した場合、エージェントはすべての関連する計算を実行し、関連する論理/数学的主張の真理値を決定することができると仮定する。 この仮定は、例えば、piのリモート桁に賭けたり、エージェントが計算的に難解な計画問題に直面したときに、非現実的である。 さらに、論理的全科学の仮定は、環境がエージェント自体の記述を含むことができる場合に矛盾を生じさせる。 ゲーム理論における戦略的相互作用は、合理的エージェントが環境(他のプレイヤー)によって予測される決定問題である。 本稿では,論理的全理性を前提としない合理的意思決定の理論を考案する。 決定問題(piの桁に賭けたり、他のエージェントと対戦するゲームなどを含む)に何度も直面するエージェントについて検討する。 この論文の主な貢献は、そのようなエージェントに対して合理的な理論を提供することである。 概して、有界に有理な帰納的エージェントは、それぞれ効率的に計算可能な仮説を無限にテストし、高い報酬の約束を守る仮説に従う必要がある。 そして、この意味で合理的なエージェントが他の望ましい性質を持つことを証明する。 例えば、期待される報酬でランダムで擬似ランダムな宝くじを価値付けすることを学ぶ。 最後に、異なるエージェント間の戦略的相互作用を考察し、有理誘導的エージェントが収束できる戦略の民間定理を証明する。

The dominant theories of rational choice assume logical omniscience. That is, they assume that when facing a decision problem, an agent can perform all relevant computations and determine the truth value of all relevant logical/mathematical claims. This assumption is unrealistic when, for example, we offer bets on remote digits of pi or when an agent faces a computationally intractable planning problem. Furthermore, the assumption of logical omniscience creates contradictions in cases where the environment can contain descriptions of the agent itself. Importantly, strategic interactions as studied in game theory are decision problems in which a rational agent is predicted by its environment (the other players). In this paper, we develop a theory of rational decision making that does not assume logical omniscience. We consider agents who repeatedly face decision problems (including ones like betting on digits of pi or games against other agents). The main contribution of this paper is to provide a sensible theory of rationality for such agents. Roughly, we require that a boundedly rational inductive agent tests each efficiently computable hypothesis infinitely often and follows those hypotheses that keep their promises of high rewards. We then prove that agents that are rational in this sense have other desirable properties. For example, they learn to value random and pseudo-random lotteries at their expected reward. Finally, we consider strategic interactions between different agents and prove a folk theorem for what strategies bounded rational inductive agents can converge to.
翻訳日:2023-07-12 16:03:13 公開日:2023-07-11
# 論理パズルにおける爆発的非対称性:動的エピステミック論理のシンボリックモデルにおけるZDDの利用

Exploiting Asymmetry in Logic Puzzles: Using ZDDs for Symbolic Model Checking Dynamic Epistemic Logic ( http://arxiv.org/abs/2307.05067v1 )

ライセンス: Link先を確認
Daniel Miedema (Bernoulli Institute, University of Groningen), Malvin Gattinger (ILLC, University of Amsterdam)(参考訳) バイナリ意思決定図(BDD)は、モデルチェックにおける状態展開の問題を軽減するために広く使われます。 BDDのバリエーションはゼロ抑圧決定図(ZDD)で、重要でない変数を省略するのではなく、偽でなければならない変数を省略する。 我々はZDDを用いて、マルチエージェントシステムにおける知識と情報力学を推論するフレームワークであるDynamic Epistemic Logicで使用されるKripkeモデルを象徴的に符号化する。 文献からよく知られた3つの例(Muddy Children, the Sum and Product puzzle, the Dining Cryptographers)に対して、異なるZDDのメモリ使用率を比較した。 本実装は,既存のモデルチェッカーSMCDELとCUDDライブラリをベースとしている。 その結果,BDDを適切なZDDに置き換えることで,メモリ使用量を大幅に削減できることがわかった。 これはZDDがマルチエージェントシステムのモデル検査に有用なツールであることを示唆している。

Binary decision diagrams (BDDs) are widely used to mitigate the state-explosion problem in model checking. A variation of BDDs are Zero-suppressed Decision Diagrams (ZDDs) which omit variables that must be false, instead of omitting variables that do not matter. We use ZDDs to symbolically encode Kripke models used in Dynamic Epistemic Logic, a framework to reason about knowledge and information dynamics in multi-agent systems. We compare the memory usage of different ZDD variants for three well-known examples from the literature: the Muddy Children, the Sum and Product puzzle and the Dining Cryptographers. Our implementation is based on the existing model checker SMCDEL and the CUDD library. Our results show that replacing BDDs with the right variant of ZDDs can significantly reduce memory usage. This suggests that ZDDs are a useful tool for model checking multi-agent systems.
翻訳日:2023-07-12 16:02:49 公開日:2023-07-11
# 戦略的知識の論理学のためのテーブルロー

Tableaux for the Logic of Strategically Knowing How ( http://arxiv.org/abs/2307.05066v1 )

ライセンス: Link先を確認
Yanjun Li(参考訳) ゴール指向知識の論理は、標準認識論的論理を知識の演算子で拡張する。 ノウハウ演算子は、エージェントが戦略がpを確実にすることができることを知っている戦略が存在すると解釈される。 本稿では,戦略的ノウハウの論理のマルチエージェント版のための表計算手順を提案し,この表処理の健全性と完全性を示す。 本稿では,論理の充足可能性問題を pspace で決定できることを示す。

The logic of goal-directed knowing-how extends the standard epistemic logic with an operator of knowing-how. The knowing-how operator is interpreted as that there exists a strategy such that the agent knows that the strategy can make sure that p. This paper presents a tableau procedure for the multi-agent version of the logic of strategically knowing-how and shows the soundness and completeness of this tableau procedure. This paper also shows that the satisfiability problem of the logic can be decided in PSPACE.
翻訳日:2023-07-12 16:02:33 公開日:2023-07-11
# 球面型2レベル信頼度制限リビジョンシステム

System of Spheres-based Two Level Credibility-limited Revisions ( http://arxiv.org/abs/2307.05062v1 )

ライセンス: Link先を確認
Marco Garapa (University of Madeira), Eduardo Ferme (University of Madeira), Maur\'icio D.L. Reis (University of Madeira)(参考訳) 2段階信頼性限定リビジョンは非優先リビジョンオペレーションである。 2段階の信頼度制限リビジョンにより修正する場合、2段階の信頼度と1段階の信頼度が考慮される。 高い信頼度で文によって改訂されるとき、オペレータは標準的な改訂として振る舞うが、もし文が第2の信頼度レベルであるなら、その文の否定によって、その修正プロセスの結果は標準の収縮と一致する。 文が信頼できない場合、元の信念は変わらない。 本稿では,Groveの球系に基づく2レベル信頼度制限付きリビジョン演算子の構築と,これらの演算子に対する公理的特性について述べる。

Two level credibility-limited revision is a non-prioritized revision operation. When revising by a two level credibility-limited revision, two levels of credibility and one level of incredibility are considered. When revising by a sentence at the highest level of credibility, the operator behaves as a standard revision, if the sentence is at the second level of credibility, then the outcome of the revision process coincides with a standard contraction by the negation of that sentence. If the sentence is not credible, then the original belief set remains unchanged. In this paper, we propose a construction for two level credibility-limited revision operators based on Grove's systems of spheres and present an axiomatic characterization for these operators.
翻訳日:2023-07-12 16:02:24 公開日:2023-07-11
# マルチエージェント影響図における不完全なリコールについて

On Imperfect Recall in Multi-Agent Influence Diagrams ( http://arxiv.org/abs/2307.05059v1 )

ライセンス: Link先を確認
James Fox, Matt MacDermott, Lewis Hammond, Paul Harrenstein, Alessandro Abate, Michael Wooldridge(参考訳) マルチエージェント・インフルエンス・ダイアグラム(MAID)はベイズネットワークに基づくゲーム理論モデルである。 いくつかの設定では、MAIDは広範な形式のゲーム表現よりも大きなアドバンテージを提供する。 MAIDに関する以前の研究では、エージェントは行動ポリシーを採用しており、それぞれの決定に対するアクションに対して独立した条件付き確率分布を設定する。 しかし、不完全なリコールのある環境では、行動政策におけるナッシュ均衡は存在しないかもしれない。 我々は、混合ポリシーと2種類の相関平衡を用いて、忘れられた、不注意なエージェントによるMAIDの解法を示すことで、この問題を克服する。 また,maidsにおける鍵決定問題の計算複雑性を分析し,扱いやすいケースを探索する。 最後に,不完全なリコールがしばしば避けられないマルコフゲームやチーム状況へのMAIDの適用について述べる。

Multi-agent influence diagrams (MAIDs) are a popular game-theoretic model based on Bayesian networks. In some settings, MAIDs offer significant advantages over extensive-form game representations. Previous work on MAIDs has assumed that agents employ behavioural policies, which set independent conditional probability distributions over actions for each of their decisions. In settings with imperfect recall, however, a Nash equilibrium in behavioural policies may not exist. We overcome this by showing how to solve MAIDs with forgetful and absent-minded agents using mixed policies and two types of correlated equilibrium. We also analyse the computational complexity of key decision problems in MAIDs, and explore tractable cases. Finally, we describe applications of MAIDs to Markov games and team situations, where imperfect recall is often unavoidable.
翻訳日:2023-07-12 16:02:12 公開日:2023-07-11
# モーダル論理における整合性強化

Strengthening Consistency Results in Modal Logic ( http://arxiv.org/abs/2307.05053v1 )

ライセンス: Link先を確認
Samuel Allen Alexander (US Securities and Exchange Commission), Arthur Paul Pedersen (City University of New York)(参考訳) モーダル論理の基本的な疑問は、与えられた理論が一貫したものであるかどうかである。 何と一致してるの? この問題に対処する典型的な方法は、背景知識公理(例えば、s4、dなど)の選択を特定し、その背景公理と一致するように問題理論によって体系化された仮定を示すことである。 しかし、背景公理の特定の選択と分割を決定することは、少なくとも時には伝統にすぎません。 本稿では、より堅牢な方法で整合性に対処する命題のモーダル論理について**生成理論*を紹介する。 背景知識の構成要素として、総称理論は一貫性のカテゴリー決定の標準を提供する。 本論文の結果と手法は,認識論における問題を解明し,判断・推論・意思決定のモダリティにかかわる問題に対して十分な範囲とパワーを享受する上で有効である。

A fundamental question asked in modal logic is whether a given theory is consistent. But consistent with what? A typical way to address this question identifies a choice of background knowledge axioms (say, S4, D, etc.) and then shows the assumptions codified by the theory in question to be consistent with those background axioms. But determining the specific choice and division of background axioms is, at least sometimes, little more than tradition. This paper introduces **generic theories** for propositional modal logic to address consistency results in a more robust way. As building blocks for background knowledge, generic theories provide a standard for categorical determinations of consistency. We argue that the results and methods of this paper help to elucidate problems in epistemology and enjoy sufficient scope and power to have purchase on problems bearing on modalities in judgement, inference, and decision making.
翻訳日:2023-07-12 16:01:59 公開日:2023-07-11
# スパース一般化線形モデルの等角化

Conformalization of Sparse Generalized Linear Models ( http://arxiv.org/abs/2307.05109v1 )

ライセンス: Link先を確認
Etash Kumar Guha and Eugene Ndiaye and Xiaoming Huo(参考訳) 観測可能な変数の列$\{(x_1, y_1), \ldots, (x_n, y_n)\}$ が与えられると、共形予測法は、データのジョイント分布が置換不変であると単純に仮定することによって、任意の有限サンプルサイズに対して有効である$y_{n+1}$に対する信頼度を推定する。 魅力的ではあるが、そのような集合の計算は多くの回帰問題において計算不可能である。 実際、これらの場合、未知変数 $y_{n+1}$ は無限個の候補値を取ることができ、共形集合を生成するには各候補に対する予測モデルを再訓練する必要がある。 本稿では,予測のための変数のサブセットのみを持つスパース線形モデルに注目し,解経路を効率的に近似するために数値継続法を用いる。 私たちが活用する重要な特性は、選択された変数の集合が入力データの小さな摂動の下で不変であることです。 したがって、アクティブな特徴の集合の変化点のみモデルを列挙・修正し、予測-補正機構を介して他の解をスムーズに補間するのに十分である。 経路追従アルゴリズムは、コンフォメーション予測セットを正確に近似し、その性能を合成および実データ例を用いて示す。

Given a sequence of observable variables $\{(x_1, y_1), \ldots, (x_n, y_n)\}$, the conformal prediction method estimates a confidence set for $y_{n+1}$ given $x_{n+1}$ that is valid for any finite sample size by merely assuming that the joint distribution of the data is permutation invariant. Although attractive, computing such a set is computationally infeasible in most regression problems. Indeed, in these cases, the unknown variable $y_{n+1}$ can take an infinite number of possible candidate values, and generating conformal sets requires retraining a predictive model for each candidate. In this paper, we focus on a sparse linear model with only a subset of variables for prediction and use numerical continuation techniques to approximate the solution path efficiently. The critical property we exploit is that the set of selected variables is invariant under a small perturbation of the input data. Therefore, it is sufficient to enumerate and refit the model only at the change points of the set of active features and smoothly interpolate the rest of the solution via a Predictor-Corrector mechanism. We show how our path-following algorithm accurately approximates conformal prediction sets and illustrate its performance using synthetic and real data examples.
翻訳日:2023-07-12 15:54:35 公開日:2023-07-11
# 時系列XAIの評価手法としての摂動の深化

A Deep Dive into Perturbations as Evaluation Technique for Time Series XAI ( http://arxiv.org/abs/2307.05104v1 )

ライセンス: Link先を確認
Udo Schlegel, Daniel A. Keim(参考訳) 説明可能な人工知能(XAI)は、機械学習モデルの透明性と解釈可能性の需要が増大するにつれて、近年大きな注目を集めている。 特に、時系列データのためのXAIは、金融、医療、気候科学においてますます重要になっている。 しかし、XAI技術による属性などの説明の質を評価することは依然として困難である。 本稿では,時系列モデルから抽出した帰属度を評価するために摂動を用いた詳細な解析を行う。 摂動解析では、入力データを体系的に修正し、XAI法で生成された属性への影響を評価する。 このアプローチを最先端のxai技術に適用し,3つの時系列分類データセット上での性能評価を行う。 以上の結果から,摂動解析手法は属性の質を効果的に評価し,XAI手法の強度と限界に関する洞察を与えることができることがわかった。 このようなアプローチは、例えば、精度よりも返却時間に焦点を当てた時系列データのためのXAIメソッドの選択をガイドし、時系列分析のためのより信頼性が高く解釈可能な機械学習モデルの開発を促進する。

Explainable Artificial Intelligence (XAI) has gained significant attention recently as the demand for transparency and interpretability of machine learning models has increased. In particular, XAI for time series data has become increasingly important in finance, healthcare, and climate science. However, evaluating the quality of explanations, such as attributions provided by XAI techniques, remains challenging. This paper provides an in-depth analysis of using perturbations to evaluate attributions extracted from time series models. A perturbation analysis involves systematically modifying the input data and evaluating the impact on the attributions generated by the XAI method. We apply this approach to several state-of-the-art XAI techniques and evaluate their performance on three time series classification datasets. Our results demonstrate that the perturbation analysis approach can effectively evaluate the quality of attributions and provide insights into the strengths and limitations of XAI techniques. Such an approach can guide the selection of XAI methods for time series data, e.g., focusing on return time rather than precision, and facilitate the development of more reliable and interpretable machine learning models for time series analysis.
翻訳日:2023-07-12 15:54:07 公開日:2023-07-11
# ATWM:敵の訓練に基づく敵のマルウェアに対する防御

ATWM: Defense against adversarial malware based on adversarial training ( http://arxiv.org/abs/2307.05095v1 )

ライセンス: Link先を確認
Kun Li and Fan Zhang and Wei Guo(参考訳) 深層学習技術は画像の分野で大きな成果を上げてきた。 マルウェア攻撃を防ぐため、研究者はディープラーニングに基づく多くのWindowsマルウェア検出モデルを提案してきた。 しかし、ディープラーニングモデルは敵のサンプル攻撃に対して脆弱である。 マルウェアは、同じ悪意のある機能を持つ敵のマルウェアを生成して、マルウェア検出モデルを攻撃し、モデルの検出を回避できる。 現在、多くの敵防御研究が提案されているが、既存の敵防御研究は画像サンプルに基づいており、マルウェアのサンプルに直接適用することはできない。 そこで本研究では,対人訓練に基づく対人マルウェア防御手法を提案する。 本手法では,前処理を用いて単純な対向例を保護し,対向訓練の難しさを軽減する。 さらに, 本手法は, 対人訓練により, モデルの対人防御能力を向上する。 そこで本研究では,2組のデータセットで3つの攻撃手法を実験し,本手法がモデルの精度を低下させることなく,モデルの防御能力を向上できることを示す。

Deep learning technology has made great achievements in the field of image. In order to defend against malware attacks, researchers have proposed many Windows malware detection models based on deep learning. However, deep learning models are vulnerable to adversarial example attacks. Malware can generate adversarial malware with the same malicious function to attack the malware detection model and evade detection of the model. Currently, many adversarial defense studies have been proposed, but existing adversarial defense studies are based on image sample and cannot be directly applied to malware sample. Therefore, this paper proposes an adversarial malware defense method based on adversarial training. This method uses preprocessing to defend simple adversarial examples to reduce the difficulty of adversarial training. Moreover, this method improves the adversarial defense capability of the model through adversarial training. We experimented with three attack methods in two sets of datasets, and the results show that the method in this paper can improve the adversarial defense capability of the model without reducing the accuracy of the model.
翻訳日:2023-07-12 15:53:49 公開日:2023-07-11
# 奥行き映像圧縮のためのオフラインおよびオンライン光フロー強調

Offline and Online Optical Flow Enhancement for Deep Video Compression ( http://arxiv.org/abs/2307.05092v1 )

ライセンス: Link先を確認
Chuanbo Tang, Xihua Sheng, Zhuoyuan Li, Haotian Zhang, Li Li, Dong Liu(参考訳) ビデオ圧縮はビデオフレーム間の時間的冗長性を活用することに大きく依存している。 モーション情報は、既存のディープビデオ圧縮ネットワークの多くで光学フローとして表現されている。 実際、これらのネットワークは、運動推定のために事前訓練された光フロー推定ネットワークを採用することが多い。 しかし、光学的流れは以下の2つの要因により、ビデオ圧縮には適さないかもしれない。 第一に、光学フロー推定ネットワークは、フレーム間予測をできるだけ正確に行うように訓練されたが、光学フロー自体がエンコードするには多くのビットがかかる可能性がある。 第二に、光学フロー推定ネットワークは合成データに基づいて訓練され、実世界のビデオに十分一般化できない可能性がある。 我々は、光学フローをオフラインとオンラインの2段階に拡張することで、2つの制限に対処する。 オフラインの段階では、H.266/VVCの動画情報により、従来の(非深度)ビデオ圧縮方式(例えばH.266/VVC)によって提供される動き情報により、トレーニングされた光フロー推定ネットワークを微調整する。 オンラインの段階では,映像を圧縮するための勾配降下に基づくアルゴリズムを用いて,光流の潜伏特性をさらに最適化し,光流の適応性を高める。 我々は現在最先端のディープビデオ圧縮方式であるDCVCの実験を行っている。 実験結果から,提案手法は,デコーダ側のモデルや計算複雑性を増大させることなく,平均12.8%のビットレート削減を達成できることがわかった。

Video compression relies heavily on exploiting the temporal redundancy between video frames, which is usually achieved by estimating and using the motion information. The motion information is represented as optical flows in most of the existing deep video compression networks. Indeed, these networks often adopt pre-trained optical flow estimation networks for motion estimation. The optical flows, however, may be less suitable for video compression due to the following two factors. First, the optical flow estimation networks were trained to perform inter-frame prediction as accurately as possible, but the optical flows themselves may cost too many bits to encode. Second, the optical flow estimation networks were trained on synthetic data, and may not generalize well enough to real-world videos. We address the twofold limitations by enhancing the optical flows in two stages: offline and online. In the offline stage, we fine-tune a trained optical flow estimation network with the motion information provided by a traditional (non-deep) video compression scheme, e.g. H.266/VVC, as we believe the motion information of H.266/VVC achieves a better rate-distortion trade-off. In the online stage, we further optimize the latent features of the optical flows with a gradient descent-based algorithm for the video to be compressed, so as to enhance the adaptivity of the optical flows. We conduct experiments on a state-of-the-art deep video compression scheme, DCVC. Experimental results demonstrate that the proposed offline and online enhancement together achieves on average 12.8% bitrate saving on the tested videos, without increasing the model or computational complexity of the decoder side.
翻訳日:2023-07-12 15:53:35 公開日:2023-07-11
# SAR-NeRF:合成開口レーダマルチビュー表現のためのニューラルレーダ場

SAR-NeRF: Neural Radiance Fields for Synthetic Aperture Radar Multi-View Representation ( http://arxiv.org/abs/2307.05087v1 )

ライセンス: Link先を確認
Zhengxin Lei, Feng Xu, Jiangtao Wei, Feng Cai, Feng Wang, and Ya-Qiu Jin(参考訳) SAR画像は観測構成に非常に敏感であり、様々な角度で大きな変化を示しており、異方性の特徴を表現および学習することは困難である。 結果として、深層学習法は、視角の異なる部分でよく一般化される。 神経放射場(NeRF)の概念に触発された本研究では,SARイメージング機構とニューラルネットワークを組み合わせて,SAR画像生成のための新しいNeRFモデルを提案する。 マッピングおよび投影ピンプルに続いて、一組のSAR画像は、微分可能なレンダリング方程式を通して、3次元画像空間における減衰係数と散乱強度の関数として暗黙的にモデル化される。 次に、3DボクセルSARレンダリング方程式のベクトル化形式と、3D空間ボクセルと2Dビューレイグリッドのサンプリング関係を解析的に導出したボクセルの減衰係数と散乱強度の分布を学習するためにSAR-NeRFを構築した。 各種データセットの定量的実験を通じて,SAR-NeRFの多視点表現と一般化能力を徹底的に評価する。 さらに,SAR-NeRFオーグメンテーションデータセットは,SAR目標分類性能を,クラス毎に12画像のみを用いることで,10種類の分類精度91.6\%の精度で向上させることができることがわかった。

SAR images are highly sensitive to observation configurations, and they exhibit significant variations across different viewing angles, making it challenging to represent and learn their anisotropic features. As a result, deep learning methods often generalize poorly across different view angles. Inspired by the concept of neural radiance fields (NeRF), this study combines SAR imaging mechanisms with neural networks to propose a novel NeRF model for SAR image generation. Following the mapping and projection pinciples, a set of SAR images is modeled implicitly as a function of attenuation coefficients and scattering intensities in the 3D imaging space through a differentiable rendering equation. SAR-NeRF is then constructed to learn the distribution of attenuation coefficients and scattering intensities of voxels, where the vectorized form of 3D voxel SAR rendering equation and the sampling relationship between the 3D space voxels and the 2D view ray grids are analytically derived. Through quantitative experiments on various datasets, we thoroughly assess the multi-view representation and generalization capabilities of SAR-NeRF. Additionally, it is found that SAR-NeRF augumented dataset can significantly improve SAR target classification performance under few-shot learning setup, where a 10-type classification accuracy of 91.6\% can be achieved by using only 12 images per class.
翻訳日:2023-07-12 15:53:07 公開日:2023-07-11
# Vacaspati:バングラ文学の多彩なコーパス

Vacaspati: A Diverse Corpus of Bangla Literature ( http://arxiv.org/abs/2307.05083v1 )

ライセンス: Link先を確認
Pramit Bhattacharyya, Joydeep Mondal, Subhadip Maji, Arnab Bhattacharya(参考訳) Bangla(またはBengali)は世界で5番目に話されている言語である。しかしながら、Banglaの最先端のNLPは、補題化やPOSタグ付けといった単純なタスクでも遅れている。 これは、品質の異なるコーパスが欠けていることによる。 このニーズを緩和するために、我々は、バングラデシュ文学の多様なコーパスであるvacaspatiを構築します。 著作物は様々なウェブサイトから収集され、著作権違反や制限のない公開作品のみが収集される。 私たちは、出版された文学は、特定の文学的パターンのみに従う傾向がある新聞、ブログ、ソーシャルメディアの投稿よりもはるかに優れた言語の特徴を捉えていると信じている。 私たちのコーパスvacaspatiは、構成の種類、トピック、著者、時間、空間など、さまざまな側面から異なります。 1100万以上の文と1億5500万の単語が含まれている。 我々はまた、VacspatiのFastTextを使った単語埋め込みモデルVac-FTを構築し、コーパスを使用してElectraモデルVac-BERTをトレーニングした。 Vac-BERTはパラメータがはるかに少なく、他の最先端のトランスフォーマーモデルに比べて限られたリソースしか必要としないが、様々なダウンストリームタスクではより良く、または類似している。 複数の下流タスクでは、Vac-FTは他のFastTextベースのモデルよりも優れている。 また,他のコーパスから構築した類似モデルほど効果的ではないことを示すことにより,コーパスとしてのvacaspatiの有効性を示す。 モデルはhttps://bangla.iitk.ac.in/で入手できる。

Bangla (or Bengali) is the fifth most spoken language globally; yet, the state-of-the-art NLP in Bangla is lagging for even simple tasks such as lemmatization, POS tagging, etc. This is partly due to lack of a varied quality corpus. To alleviate this need, we build Vacaspati, a diverse corpus of Bangla literature. The literary works are collected from various websites; only those works that are publicly available without copyright violations or restrictions are collected. We believe that published literature captures the features of a language much better than newspapers, blogs or social media posts which tend to follow only a certain literary pattern and, therefore, miss out on language variety. Our corpus Vacaspati is varied from multiple aspects, including type of composition, topic, author, time, space, etc. It contains more than 11 million sentences and 115 million words. We also built a word embedding model, Vac-FT, using FastText from Vacaspati as well as trained an Electra model, Vac-BERT, using the corpus. Vac-BERT has far fewer parameters and requires only a fraction of resources compared to other state-of-the-art transformer models and yet performs either better or similar on various downstream tasks. On multiple downstream tasks, Vac-FT outperforms other FastText-based models. We also demonstrate the efficacy of Vacaspati as a corpus by showing that similar models built from other corpora are not as effective. The models are available at https://bangla.iitk.ac.in/.
翻訳日:2023-07-12 15:52:42 公開日:2023-07-11
# OntoChatGPT情報システム:ChatGPTメタラーニングのためのオントロジー駆動型構造化プロンプト

OntoChatGPT Information System: Ontology-Driven Structured Prompts for ChatGPT Meta-Learning ( http://arxiv.org/abs/2307.05082v1 )

ライセンス: Link先を確認
Oleksandr Palagin, Vladislav Kaverinskiy, Anna Litvin and Kyrylo Malakhov(参考訳) 本研究では,大規模言語モデル(LLM)であるChatGPTと相互作用するオントロジー駆動型構造化プロンプトシステムを利用するための包括的方法論を提案する。 この研究は、情報と機能の両方の形式モデルを開発し、ChatGPTのメタ学習機能とオントロジー駆動のプロンプトを統合するための方法論の基礎を確立する。 得られた生産性トリアドは、方法論の基礎、高度な情報技術、チャットボットシステムの有効性と性能を総合的に向上するOntoChatGPTシステムから構成される。 この技術の実装は、リハビリテーション領域内のウクライナ語を用いて実証されている。 提案手法を適用することにより,OntoChatGPTシステムはコンテキストからエンティティを効果的に抽出し,それらを分類し,関連する応答を生成する。 この研究は、この方法論の汎用性を強調し、ChatGPTだけでなく、PaLM 2 LLMを利用するGoogleのBardなど、LLMに基づいた他のチャットボットシステムにも適用性を強調した。 メタラーニング、構造化プロンプト、オントロジ駆動情報検索の基本的な原則は、提案手法の中核を形成し、様々なllmベースのシステムでその適応と利用を可能にする。 この汎用的なアプローチは、NLPと対話システムの新たな可能性を開き、開発者はさまざまなドメインや言語にわたるチャットボットシステムの性能と機能を向上させることができる。

This research presents a comprehensive methodology for utilizing an ontology-driven structured prompts system in interplay with ChatGPT, a widely used large language model (LLM). The study develops formal models, both information and functional, and establishes the methodological foundations for integrating ontology-driven prompts with ChatGPT's meta-learning capabilities. The resulting productive triad comprises the methodological foundations, advanced information technology, and the OntoChatGPT system, which collectively enhance the effectiveness and performance of chatbot systems. The implementation of this technology is demonstrated using the Ukrainian language within the domain of rehabilitation. By applying the proposed methodology, the OntoChatGPT system effectively extracts entities from contexts, classifies them, and generates relevant responses. The study highlights the versatility of the methodology, emphasizing its applicability not only to ChatGPT but also to other chatbot systems based on LLMs, such as Google's Bard utilizing the PaLM 2 LLM. The underlying principles of meta-learning, structured prompts, and ontology-driven information retrieval form the core of the proposed methodology, enabling their adaptation and utilization in various LLM-based systems. This versatile approach opens up new possibilities for NLP and dialogue systems, empowering developers to enhance the performance and functionality of chatbot systems across different domains and languages.
翻訳日:2023-07-12 15:52:16 公開日:2023-07-11
# 法的要約のための議論的セグメンテーション強化

Argumentative Segmentation Enhancement for Legal Summarization ( http://arxiv.org/abs/2307.05081v1 )

ライセンス: Link先を確認
Huihui Xu, Kevin Ashley(参考訳) 我々は、議論的ゾーニング[1]と法的議論的スキームの組み合わせを用いて、法的議論的セグメントを作成する。 議論的セグメンテーションに基づいて,判例決定の議論的セグメンテーションを分類する新しいタスクを提案する。 GPT-3.5は、引数セグメントに基づいて要約を生成するために使用される。 自動評価尺度では,GPT-4や非GPTモデルに比べ,文脈が劣る一方で,高い品質の議論的要約を生成する。

We use the combination of argumentative zoning [1] and a legal argumentative scheme to create legal argumentative segments. Based on the argumentative segmentation, we propose a novel task of classifying argumentative segments of legal case decisions. GPT-3.5 is used to generate summaries based on argumentative segments. In terms of automatic evaluation metrics, our method generates higher quality argumentative summaries while leaving out less relevant context as compared to GPT-4 and non-GPT models.
翻訳日:2023-07-12 15:51:50 公開日:2023-07-11
# 任意のモデルによる意味的セグメンテーションデータのラベル品質と誤りの推定

Estimating label quality and errors in semantic segmentation data via any model ( http://arxiv.org/abs/2307.05080v1 )

ライセンス: Link先を確認
Vedang Lad, Jonas Mueller(参考訳) セマンティックセグメンテーションデータセットの労働集約的なアノテーションプロセスは、人間がすべてのピクセルを正しくラベル付けするのに苦労するため、エラーを起こしやすい。 このようなアノテーションエラーを自動的に検出するアルゴリズム、特にラベル品質をスコアする手法について検討し、スコアの低い画像が正しくラベル付けされる可能性が低かった。 これは、医療画像や自動運転車のようなセンシティブなアプリケーションで不可欠な高品質なトレーニング/評価データセットを確保するために、どのデータをレビューすべきかを優先するのに役立つ。 広く適用可能なラベルの品質スコアは、トレーニングされたセグメンテーションモデルからの確率的予測に依存している。 本稿では,DeepLabV3+やFPNセグメンテーションモデルと併用して,SynTHIAデータセットのバージョンにおけるアノテーションエラーを検出する7種類のラベル品質評価手法について検討する。 精度・リコール評価では、各ピクセルの注釈付きクラスにおけるモデル推定可能性のソフト最小値であるスコアが示され、複数のタイプのアノテーションエラーでラベルを間違えた画像を特定するのに特に効果的である。

The labor-intensive annotation process of semantic segmentation datasets is often prone to errors, since humans struggle to label every pixel correctly. We study algorithms to automatically detect such annotation errors, in particular methods to score label quality, such that the images with the lowest scores are least likely to be correctly labeled. This helps prioritize what data to review in order to ensure a high-quality training/evaluation dataset, which is critical in sensitive applications such as medical imaging and autonomous vehicles. Widely applicable, our label quality scores rely on probabilistic predictions from a trained segmentation model -- any model architecture and training procedure can be utilized. Here we study 7 different label quality scoring methods used in conjunction with a DeepLabV3+ or a FPN segmentation model to detect annotation errors in a version of the SYNTHIA dataset. Precision-recall evaluations reveal a score -- the soft-minimum of the model-estimated likelihoods of each pixel's annotated class -- that is particularly effective to identify images that are mislabeled, across multiple types of annotation error.
翻訳日:2023-07-12 15:51:43 公開日:2023-07-11
# Uni-Demoval: リアルタイム画像における多重劣化の同時対応のための半スーパービジョンフレームワーク

Uni-Removal: A Semi-Supervised Framework for Simultaneously Addressing Multiple Degradations in Real-World Images ( http://arxiv.org/abs/2307.05075v1 )

ライセンス: Link先を確認
Yongheng Zhang, Danfeng Yan, Yuanqiang Cai(参考訳) 迷路、雨、ぼやけなどの複数の劣化を現実のイメージから取り除くことは、困難な問題を引き起こす。 近年, 異なる劣化を処理可能な統一モデルが提案され, 有望な結果が得られた。 しかし,これらの手法は合成画像に焦点を合わせ,実世界の画像に適用した場合に顕著な性能低下を経験する。 本稿では,実世界の画像における複数の劣化の解消を統一モデルとパラメータを用いて解決する2段階半教師付きフレームワークであるuni-removalを提案する。 知識伝達段階において、単回移動は、知識伝達段階における教師と学生アーキテクチャを活用し、異なる劣化タイプに特化した事前学習された教師ネットワークからの学習を容易にする。 特徴空間と画像空間からの学習を促進するために、多粒のコントラスト損失を導入する。 ドメイン適応段階において、実世界画像に逆判別器を組み込むことにより、教師なし微調整を行う。 拡張された多元的コントラスト損失と生成的敵対的損失の統合は、学生ネットワークを合成から現実世界への適応を可能にする。 実世界の劣化データセットに対する大規模な実験により,提案手法の有効性が示された。 我々は,最先端の教師なしおよび教師なしの手法と比較し,実世界の画像デハジング,デバランシング,デブラリングの有望な結果を示す。

Removing multiple degradations, such as haze, rain, and blur, from real-world images poses a challenging and illposed problem. Recently, unified models that can handle different degradations have been proposed and yield promising results. However, these approaches focus on synthetic images and experience a significant performance drop when applied to realworld images. In this paper, we introduce Uni-Removal, a twostage semi-supervised framework for addressing the removal of multiple degradations in real-world images using a unified model and parameters. In the knowledge transfer stage, Uni-Removal leverages a supervised multi-teacher and student architecture in the knowledge transfer stage to facilitate learning from pretrained teacher networks specialized in different degradation types. A multi-grained contrastive loss is introduced to enhance learning from feature and image spaces. In the domain adaptation stage, unsupervised fine-tuning is performed by incorporating an adversarial discriminator on real-world images. The integration of an extended multi-grained contrastive loss and generative adversarial loss enables the adaptation of the student network from synthetic to real-world domains. Extensive experiments on real-world degraded datasets demonstrate the effectiveness of our proposed method. We compare our Uni-Removal framework with state-of-the-art supervised and unsupervised methods, showcasing its promising results in real-world image dehazing, deraining, and deblurring simultaneously.
翻訳日:2023-07-12 15:51:23 公開日:2023-07-11
# 自発音声合成における自己教師あり音声表現の利用について

On the Use of Self-Supervised Speech Representations in Spontaneous Speech Synthesis ( http://arxiv.org/abs/2307.05132v1 )

ライセンス: Link先を確認
Siyang Wang, Gustav Eje Henter, Joakim Gustafson, \'Eva Sz\'ekely(参考訳) 書き起こしのない多種多様な混合品質音声データから学習した自己教師付き学習(SSL)音声表現は、多くの音声技術応用において基礎を成している。 従来の研究によると、SSLは2段階のテキスト音声(TTS)において、読み書きと自然発話の両方に有効な中間表現である。 しかしながら、SSLのどの層と各SSLモデルのどの層が自発的TSに最も適しているかは、まだ明らかではない。 我々は、自発TLSにおけるSSLの比較範囲を、各SSL内の6つの異なるSSLと3つのレイヤに拡張することで、この欠点に対処する。 さらに、SSLは合成音声の平均世論スコア(MOS)を予測する可能性も示したが、これは読み書きMOS予測でしか行われていない。 本研究では,読解音声合成のためのsslベースのmos予測フレームワークを拡張し,合成音声におけるその性能評価を行う。 すべての実験は、一般化可能な傾向を見つけるために、2つの異なる自発的なコーパスで2回行われる。 本研究は,自発性TTSにおけるSSLの使用に関する総合的な実験結果と,自発性TTSにおけるSSLの使用方法の定量化と理解について述べる。 音声サンプル: https://www.speech.kth.se/tts-demos/sp_ssl_tts

Self-supervised learning (SSL) speech representations learned from large amounts of diverse, mixed-quality speech data without transcriptions are gaining ground in many speech technology applications. Prior work has shown that SSL is an effective intermediate representation in two-stage text-to-speech (TTS) for both read and spontaneous speech. However, it is still not clear which SSL and which layer from each SSL model is most suited for spontaneous TTS. We address this shortcoming by extending the scope of comparison for SSL in spontaneous TTS to 6 different SSLs and 3 layers within each SSL. Furthermore, SSL has also shown potential in predicting the mean opinion scores (MOS) of synthesized speech, but this has only been done in read-speech MOS prediction. We extend an SSL-based MOS prediction framework previously developed for scoring read speech synthesis and evaluate its performance on synthesized spontaneous speech. All experiments are conducted twice on two different spontaneous corpora in order to find generalizable trends. Overall, we present comprehensive experimental results on the use of SSL in spontaneous TTS and MOS prediction to further quantify and understand how SSL can be used in spontaneous TTS. Audios samples: https://www.speech.kth.se/tts-demos/sp_ssl_tts
翻訳日:2023-07-12 15:46:35 公開日:2023-07-11
# BioASQ 2023: 大規模バイオメディカルセマンティックインデクシングと質問回答における第11回BioASQチャレンジの概要

Overview of BioASQ 2023: The eleventh BioASQ challenge on Large-Scale Biomedical Semantic Indexing and Question Answering ( http://arxiv.org/abs/2307.05131v1 )

ライセンス: Link先を確認
Anastasios Nentidis, Georgios Katsimpras, Anastasia Krithara, Salvador Lima L\'opez, Eul\'alia Farr\'e-Maduell, Luis Gasco, Martin Krallinger, Georgios Paliouras(参考訳) CLEF (Conference and Labs of the Evaluation Forum) 2023の文脈におけるBioASQチャレンジの第11版の概要である。 BioASQは、大規模バイオメディカルセマンティックインデックスと質問応答の進歩を促進する一連の国際的な課題である。 今年、BioASQは、確立された2つのタスクbとSynergyの新しいエディションと、医療行為において重要な役割を果たすスペイン語の臨床的内容の意味的アノテーションに関する新しいタスク(MedProcNER)で構成された。 このバージョンのBioASQでは、競合する28のチームが、チャレンジの3つの異なる共有タスクに対して合計150以上の異なるシステムの結果を提出した。 以前の版と同様に、参加するシステムのほとんどは競争性能を達成し、この分野における最先端の継続的な進歩を示唆した。

This is an overview of the eleventh edition of the BioASQ challenge in the context of the Conference and Labs of the Evaluation Forum (CLEF) 2023. BioASQ is a series of international challenges promoting advances in large-scale biomedical semantic indexing and question answering. This year, BioASQ consisted of new editions of the two established tasks b and Synergy, and a new task (MedProcNER) on semantic annotation of clinical content in Spanish with medical procedures, which have a critical role in medical practice. In this edition of BioASQ, 28 competing teams submitted the results of more than 150 distinct systems in total for the three different shared tasks of the challenge. Similarly to previous editions, most of the participating systems achieved competitive performance, suggesting the continuous advancement of the state-of-the-art in the field.
翻訳日:2023-07-12 15:46:16 公開日:2023-07-11
# DFR: 縦方向運動推定による非校正的画像整形による回転深度

DFR: Depth from Rotation by Uncalibrated Image Rectification with Latitudinal Motion Assumption ( http://arxiv.org/abs/2307.05129v1 )

ライセンス: Link先を確認
Yongcong Zhang, Yifei Xue, Ming Liao, Huiqing Zhang, Yizhen Lao(参考訳) 回転式撮影(監視カメラなど)の普及にもかかわらず、従来のステレオ整流技術は、回転支配運動とビュー間のベースラインが小さいため、しばしば失敗する。 本稿では,非校正回転カメラにおけるステレオ補正の課題に対処する。 そこで我々は,2点対応で2つの画像を解析的に修正し,さらなる深度推定を行う新しい画像修正ソリューションDfRを提案する。 具体的には、カメラが一定の緯度で回転するときに回転するカメラの動きをモデル化する。 カメラの光学軸は球面に対して垂直である。 これを緯度運動仮定(latitudinal motion assumption)と呼ぶ。 次に、2つの画像の整流変換を直接計算することで2点解析解法を導出する。 また,修正後の幾何学的歪みを低減するための自己適応戦略を提案する。 大規模な合成および実データ実験により,提案手法は既存の作業の有効性と効率を著しく向上させることを示した。

Despite the increasing prevalence of rotating-style capture (e.g., surveillance cameras), conventional stereo rectification techniques frequently fail due to the rotation-dominant motion and small baseline between views. In this paper, we tackle the challenge of performing stereo rectification for uncalibrated rotating cameras. To that end, we propose Depth-from-Rotation (DfR), a novel image rectification solution that analytically rectifies two images with two-point correspondences and serves for further depth estimation. Specifically, we model the motion of a rotating camera as the camera rotates on a sphere with fixed latitude. The camera's optical axis lies perpendicular to the sphere's surface. We call this latitudinal motion assumption. Then we derive a 2-point analytical solver from directly computing the rectified transformations on the two images. We also present a self-adaptive strategy to reduce the geometric distortion after rectification. Extensive synthetic and real data experiments demonstrate that the proposed method outperforms existing works in effectiveness and efficiency by a significant margin.
翻訳日:2023-07-12 15:45:59 公開日:2023-07-11
# 近視認識のためのワンショット学習 : ドメイン適応とデータバイアスが深部表現に及ぼす影響を探る

One-Shot Learning for Periocular Recognition: Exploring the Effect of Domain Adaptation and Data Bias on Deep Representations ( http://arxiv.org/abs/2307.05128v1 )

ライセンス: Link先を確認
Kevin Hernandez-Diaz, Fernando Alonso-Fernandez, Josef Bigun(参考訳) 機械学習アルゴリズムの弱点のひとつは、新しいタスクのためにモデルをトレーニングする必要があることだ。 これは、データベースの動的な性質と、場合によってはデータ収集のための主題コラボレーションに依存するため、生体認証に特有の課題を示す。 本稿では,広範に用いられているcnnモデルにおいて,生体認証タスクであるone-shot periocular recognitionの限界データ不足下での深部表現の挙動について検討する。 CNN層の出力を特徴ベクトルとして解析する。 ドメイン適応が未取得データに対するネットワーク層の出力に与える影響を検証し、最良処理層のデータの正規化と一般化に関するロバスト性を評価する。 我々は,imagenet 認識課題や標準コンピュータビジョンアルゴリズムでトレーニングされたアウト・オブ・ボックス cnn を利用して,数百万の画像を用いたバイオメトリックデータセットでトレーニングされたネットワークを使用し,ターゲットのペオクチュアルデータセットに微調整された最新結果を改善した。 例えば、Cross-Eyedデータセットの場合、眼周囲のケースでは、EERを67%、EERを79%(それぞれ1.70%と3.41%から0.56%と0.71%)削減できる。 また、SIFTのような従来のアルゴリズムは、限られたデータや、Open-Worldモードのようなテストクラスでネットワークが訓練されていないシナリオでCNNを上回ります。 sift単独では、eerを64%、71.6%削減し(3.41%から0.6%、0.97%)、open-worldおよびopen-worldプロトコルでは4.6%(3.94%から3.76%)、open-worldおよびsingle biometricケースでは4.6%削減できた。

One weakness of machine-learning algorithms is the need to train the models for a new task. This presents a specific challenge for biometric recognition due to the dynamic nature of databases and, in some instances, the reliance on subject collaboration for data collection. In this paper, we investigate the behavior of deep representations in widely used CNN models under extreme data scarcity for One-Shot periocular recognition, a biometric recognition task. We analyze the outputs of CNN layers as identity-representing feature vectors. We examine the impact of Domain Adaptation on the network layers' output for unseen data and evaluate the method's robustness concerning data normalization and generalization of the best-performing layer. We improved state-of-the-art results that made use of networks trained with biometric datasets with millions of images and fine-tuned for the target periocular dataset by utilizing out-of-the-box CNNs trained for the ImageNet Recognition Challenge and standard computer vision algorithms. For example, for the Cross-Eyed dataset, we could reduce the EER by 67% and 79% (from 1.70% and 3.41% to 0.56% and 0.71%) in the Close-World and Open-World protocols, respectively, for the periocular case. We also demonstrate that traditional algorithms like SIFT can outperform CNNs in situations with limited data or scenarios where the network has not been trained with the test classes like the Open-World mode. SIFT alone was able to reduce the EER by 64% and 71.6% (from 1.7% and 3.41% to 0.6% and 0.97%) for Cross-Eyed in the Close-World and Open-World protocols, respectively, and a reduction of 4.6% (from 3.94% to 3.76%) in the PolyU database for the Open-World and single biometric case.
翻訳日:2023-07-12 15:45:42 公開日:2023-07-11
# 遅延ODE-LSTMアプローチによる連続時系列モデリングの強化

Enhancing Continuous Time Series Modelling with a Latent ODE-LSTM Approach ( http://arxiv.org/abs/2307.05126v1 )

ライセンス: Link先を確認
C. Coelho, M. Fernanda P. Costa, L.L. Ferr\'as(参考訳) 不規則サンプリングや高周波サンプリングなどの動的特性のため、多くのアプリケーションで連続時間系列(CTS)が見られる。 不規則サンプリングレートのCTSは標準リカレントニューラルネットワーク(RNN)ではモデル化が難しいため、RNNはニューラル正規微分方程式(Neural ODE)によって定義された連続時間隠れ力学を持つように一般化され、ODE-RNNモデルが導かれる。 よりよいモデリングを提供するもう1つのアプローチは、潜時状態が常に定義されている連続時間モデルを構築する潜時ODEモデルである。 Latent ODEモデルは、標準のRNNをエンコーダとして、Neural ODEをデコーダとして使用する。 しかし、RNNエンコーダは欠落データや未定義の潜伏変数に問題をもたらすため、最近、ODE-RNNモデルをエンコーダとして使用する遅延ODE-RNNモデルが提案されている。 ラテントODEとラテントODE-RNNはどちらも、勾配問題や爆発的な問題のために訓練が難しい。 この問題を解決するために,本論文の主な貢献は,ODE-LSTM(Long Short-Term Memory)ネットワークをエンコーダとして,Latent ODE-LSTMモデルを用いた新しいLatent ODEに基づく新しいモデルを提案することである。 勾配の増大を制限するため、Norm Gradient Clipping戦略をLatent ODE-LSTMモデルに組み込んだ。 次に, 正規および不規則なサンプリングレートでCTSをモデル化するためのLatent ODE-LSTM(Norm Gradient Clippingなし)の性能評価を行った。 数値実験により、新しいLatent ODE-LSTMはLatent ODE-RNNよりも優れた性能を示し、トレーニング中に消失し爆発する勾配を回避することができる。

Due to their dynamic properties such as irregular sampling rate and high-frequency sampling, Continuous Time Series (CTS) are found in many applications. Since CTS with irregular sampling rate are difficult to model with standard Recurrent Neural Networks (RNNs), RNNs have been generalised to have continuous-time hidden dynamics defined by a Neural Ordinary Differential Equation (Neural ODE), leading to the ODE-RNN model. Another approach that provides a better modelling is that of the Latent ODE model, which constructs a continuous-time model where a latent state is defined at all times. The Latent ODE model uses a standard RNN as the encoder and a Neural ODE as the decoder. However, since the RNN encoder leads to difficulties with missing data and ill-defined latent variables, a Latent ODE-RNN model has recently been proposed that uses a ODE-RNN model as the encoder instead. Both the Latent ODE and Latent ODE-RNN models are difficult to train due to the vanishing and exploding gradients problem. To overcome this problem, the main contribution of this paper is to propose and illustrate a new model based on a new Latent ODE using an ODE-LSTM (Long Short-Term Memory) network as an encoder -- the Latent ODE-LSTM model. To limit the growth of the gradients the Norm Gradient Clipping strategy was embedded on the Latent ODE-LSTM model. The performance evaluation of the new Latent ODE-LSTM (with and without Norm Gradient Clipping) for modelling CTS with regular and irregular sampling rates is then demonstrated. Numerical experiments show that the new Latent ODE-LSTM performs better than Latent ODE-RNNs and can avoid the vanishing and exploding gradients during training.
翻訳日:2023-07-12 15:44:55 公開日:2023-07-11
# 量子インターネットにおける絡み合い分布:いつ止まるかを知る!

Entanglement Distribution in the Quantum Internet: Knowing when to Stop! ( http://arxiv.org/abs/2307.05123v1 )

ライセンス: Link先を確認
Angela Sara Cacciapuoti, Michele Viscardi, Jessica Illiano, Marcello Caleffi(参考訳) エンタングルメント分布は量子インターネットの重要な機能である。 しかし、量子エンタングルメントは非常に脆弱であり、デコヒーレンスによって容易に劣化し、分布内の時間的水平線を厳密に制限する。 このことは、エンタングルメント分布に使用されるチャネルに不必要に干渉する量子ノイズと相まって、ターゲットネットワークノードが所望のエンタングルド状態を共有する前に、複数回配信プロセスを試みなければならないことを意味する。 そして、これはコヒーレンス時間によって決定された時間軸内で達成されるという保証はない。 結果として、複数の分散試行を必要とするノイズの多いシナリオでは、配布プロセスの早期停止が便利である。 本稿では,量子ノイズ効果を捉えるための理論的枠組みを開発し,絡み合い分布をいつ止めるかを知るための一歩を踏み出す。 具体的には、絡み合い分布過程がマルコフ決定過程としてモデル化できることを最初に証明する。 そして、最適な決定方針が魅力的な特徴を示し、計算の複雑さを減らすために活用することを示す。 量子ネットワーク設計者は、エンタングルメント分散プロセスの設計パラメータを最適に設計するための柔軟なツールを提供する。

Entanglement distribution is a key functionality of the Quantum Internet. However, quantum entanglement is very fragile, easily degraded by decoherence, which strictly constraints the time horizon within the distribution has to be completed. This, coupled with the quantum noise irremediably impinging on the channels utilized for entanglement distribution, may imply the need to attempt the distribution process multiple times before the targeted network nodes successfully share the desired entangled state. And there is no guarantee that this is accomplished within the time horizon dictated by the coherence times. As a consequence, in noisy scenarios requiring multiple distribution attempts, it may be convenient to stop the distribution process early. In this paper, we take steps in the direction of knowing when to stop the entanglement distribution by developing a theoretical framework, able to capture the quantum noise effects. Specifically, we first prove that the entanglement distribution process can be modeled as a Markov decision process. Then, we prove that the optimal decision policy exhibits attractive features, which we exploit to reduce the computational complexity. The developed framework provides quantum network designers with flexible tools to optimally engineer the design parameters of the entanglement distribution process.
翻訳日:2023-07-12 15:44:17 公開日:2023-07-11
# 時空間対応グラフ変換器によるトランザクション不正検出

Transaction Fraud Detection via Spatial-Temporal-Aware Graph Transformer ( http://arxiv.org/abs/2307.05121v1 )

ライセンス: Link先を確認
Yue Tian, Guanjun Liu(参考訳) 金融安全確保の鍵となるのは、取引の情報表現を取得して不正取引の識別を行う方法である。 近年,トランザクション不正検出問題にグラフニューラルネットワーク(GNN)を適用している。 それでも、構造的制約によって空間的時間的情報を効果的に学習する際の課題に直面する。 さらに、GNNに基づく従来の検出器では、同様の行動パターンを包含し、識別表現学習に有用な洞察を提供するグローバル情報の導入の重要性を認識していない。 そこで本研究では,トランザクション不正検出問題に対するSTA-GT(Spatial-Temporal-Aware Graph Transformer)と呼ばれる異種グラフニューラルネットワークを提案する。 具体的には,時間的依存関係をキャプチャし,グラフニューラルネットワークフレームワークに組み込む時間的符号化戦略を設計し,時間的情報モデリングを強化し,表現能力を向上させる。 さらに,ローカルおよびグローバルな情報学習のためのトランスフォーマーモジュールを導入する。 対向ノード-ノード間相互作用はgnn構造の制限を克服し、対象ノードと長距離ノードとの相互作用を構築する。 一般的なGNNモデルとGNNベースの不正検知器と比較して,2つの財務データセットの実験結果から,提案手法がトランザクション不正検出タスクに有効であることを実証した。

How to obtain informative representations of transactions and then perform the identification of fraudulent transactions is a crucial part of ensuring financial security. Recent studies apply Graph Neural Networks (GNNs) to the transaction fraud detection problem. Nevertheless, they encounter challenges in effectively learning spatial-temporal information due to structural limitations. Moreover, few prior GNN-based detectors have recognized the significance of incorporating global information, which encompasses similar behavioral patterns and offers valuable insights for discriminative representation learning. Therefore, we propose a novel heterogeneous graph neural network called Spatial-Temporal-Aware Graph Transformer (STA-GT) for transaction fraud detection problems. Specifically, we design a temporal encoding strategy to capture temporal dependencies and incorporate it into the graph neural network framework, enhancing spatial-temporal information modeling and improving expressive ability. Furthermore, we introduce a transformer module to learn local and global information. Pairwise node-node interactions overcome the limitation of the GNN structure and build up the interactions with the target node and long-distance ones. Experimental results on two financial datasets compared to general GNN models and GNN-based fraud detectors demonstrate that our proposed method STA-GT is effective on the transaction fraud detection task.
翻訳日:2023-07-12 15:43:56 公開日:2023-07-11
# 任意分割通信モデルにおける$\ell_p$-regression

$\ell_p$-Regression in the Arbitrary Partition Model of Communication ( http://arxiv.org/abs/2307.05117v1 )

ライセンス: Link先を確認
Yi Li, Honghao Lin, David P. Woodruff(参考訳) コーディネータモデルにおける分散$\ell_p$-regression問題のランダム化通信複雑性を$p\in (0,2]$とみなす。 この問題では、コーディネータと$s$サーバーがあります。 $i$-thサーバは$A^i\in\{-M, -M+1, \ldots, M\}^{n\times d}$および$b^i\in\{-M, -M+1, \ldots, M\}^n$を受け取り、コーディネータは$(1+\epsilon)$-approximate Solution to $\min_{x\in\mathbb{R}^n} \|(\sum_i A^i)x - (\sum_i b^i)\|_p$を求める。 ここで、利便性のために$m \leq \mathrm{poly}(nd)$ である。 このモデルでは、データはサーバ間で付加的に共有され、一般に任意のパーティションモデルと呼ばれる。 この問題の限界は大幅に改善されている。 p = 2$、すなわち最小二乗回帰に対して、最初の最適境界は$\tilde{\Theta}(sd^2 + sd/\epsilon)$ bitsである。 p \in (1,2) に対して、$\tilde{O}(sd^2/\epsilon + sd/\mathrm{poly}(\epsilon))$上界を得る。 特に、$d$十分に大きい場合は、先頭の項は2次ではなく1/\epsilon$にのみ依存する。 また、$\Omega(sd^2 + sd/\epsilon^2)$ for $p\in (0,1]$と$\Omega(sd^2 + sd/\epsilon)$ for $p\in (1,2]$の通信下界を示す。 我々の限界は、Woodruff et al. COLT, 2013) と (Vempala et al., SODA, 2020) により、以前の限界を大幅に改善する。

We consider the randomized communication complexity of the distributed $\ell_p$-regression problem in the coordinator model, for $p\in (0,2]$. In this problem, there is a coordinator and $s$ servers. The $i$-th server receives $A^i\in\{-M, -M+1, \ldots, M\}^{n\times d}$ and $b^i\in\{-M, -M+1, \ldots, M\}^n$ and the coordinator would like to find a $(1+\epsilon)$-approximate solution to $\min_{x\in\mathbb{R}^n} \|(\sum_i A^i)x - (\sum_i b^i)\|_p$. Here $M \leq \mathrm{poly}(nd)$ for convenience. This model, where the data is additively shared across servers, is commonly referred to as the arbitrary partition model. We obtain significantly improved bounds for this problem. For $p = 2$, i.e., least squares regression, we give the first optimal bound of $\tilde{\Theta}(sd^2 + sd/\epsilon)$ bits. For $p \in (1,2)$,we obtain an $\tilde{O}(sd^2/\epsilon + sd/\mathrm{poly}(\epsilon))$ upper bound. Notably, for $d$ sufficiently large, our leading order term only depends linearly on $1/\epsilon$ rather than quadratically. We also show communication lower bounds of $\Omega(sd^2 + sd/\epsilon^2)$ for $p\in (0,1]$ and $\Omega(sd^2 + sd/\epsilon)$ for $p\in (1,2]$. Our bounds considerably improve previous bounds due to (Woodruff et al. COLT, 2013) and (Vempala et al., SODA, 2020).
翻訳日:2023-07-12 15:43:36 公開日:2023-07-11
# 全対一駆動散逸モデルにおける臨界定常状態:解析的アプローチ

Critical steady states of all-to-all driven-dissipative models: An analytic approach ( http://arxiv.org/abs/2307.05115v1 )

ライセンス: Link先を確認
Diego Barberena, Ana Maria Rey(参考訳) 光キャビティ内のn個の2準位系のダイナミクスを記述した2つの全対全散逸スピンモデルの定常相転移特性を解析した。 ボソニック変数の観点からスピン作用素のホルシュタイン・プリマコフ表現における関連する非線型性を慎重に同定することにより、臨界点の周りの有限サイズ挙動を正確に捉えることができることを示す。 これらのツールを用いて、位相遷移の様々な観測可能量を解析的に計算し、数値的プレファクタを含む有限サイズスケールを得る。 特に, 定常状態によるスピンスクイーズ量, 量子力学の関連性について検討し, 最適スピンスクイーズ法がシステムサイズに依存する対数補正を行うメカニズムを解析的に詳細に述べる。 また、これらの補正の対数的性質は、実験的に現実的かつ/またはシミュレート可能な粒子数の数値計算によって特徴づけることが困難であることを示す。 解析的議論をすべて数値的なベンチマークで補完する。

We analyse the properties across steady state phase transitions of two all-to-all driven-dissipative spin models that describe possible dynamics of N two-level systems inside an optical cavity. We show that the finite size behaviour around the critical points can be captured correctly by carefully identifying the relevant non-linearities in the Holstein-Primakoff representation of spin operators in terms of bosonic variables. With these tools, we calculate analytically various observables across the phase transitions and obtain their finite size scalings, including numerical prefactors. In particular, we look at the amount of spin squeezing carried by the steady states, of relevance for quantum metrology applications, and describe in analytical detail the mechanism by which the optimal spin squeezing acquires logarithmic corrections that depend on the system size. We also demonstrate that the logarithmic nature of these corrections is difficult to characterize through numerical procedures for any experimentally realistic and/or simulable values of particle number. We complement all of our analytical arguments with numerical benchmarks.
翻訳日:2023-07-12 15:42:45 公開日:2023-07-11
# 必然性を超えて:人生における言語モデルの実生活シナリオにおける推論能力の評価–(LSR-Benchmark)

Beyond the Obvious: Evaluating the Reasoning Ability In Real-life Scenarios of Language Models on Life Scapes Reasoning Benchmark~(LSR-Benchmark) ( http://arxiv.org/abs/2307.05113v1 )

ライセンス: Link先を確認
Zhouhong Gu, Zihan Li, Lin Zhang, Zhuozhi Xiong, Sihang Jiang, Xiaoxuan Zhu, Shusen Wang, Zili Wang, Jianchen Wang, Haoning Ye, Wenhao Huang, Yikai Zhang, Hongwei Feng, Yanghua Xiao(参考訳) 本稿では,実生活シナリオ推論を対象とした新しいデータセットであるlife scapes reasoning benchmark(lsr-benchmark)について紹介する。 ドメイン知識推論データセットとは対照的に、LSR-Benchmarkは、現実のシナリオ、人間の振る舞い、キャラクターの役割に関する豊富な情報を持つ自由テキスト形式の質問を含んでいる。 データセットは、オープンソースのオンラインソースから収集された2,162の質問で構成され、手動でアノテートされ、品質が向上する。 lsr-benchmarkの性能をテストするために, gpt3.5-turboや命令微調整llamaモデルなどの最先端言語モデルを用いて実験を行った。 その結果、人間はこれらのモデルを大幅に上回る結果となり、機械学習モデルが日々の生活を理解する上での継続的な課題が示唆された。

This paper introduces the Life Scapes Reasoning Benchmark (LSR-Benchmark), a novel dataset targeting real-life scenario reasoning, aiming to close the gap in artificial neural networks' ability to reason in everyday contexts. In contrast to domain knowledge reasoning datasets, LSR-Benchmark comprises free-text formatted questions with rich information on real-life scenarios, human behaviors, and character roles. The dataset consists of 2,162 questions collected from open-source online sources and is manually annotated to improve its quality. Experiments are conducted using state-of-the-art language models, such as gpt3.5-turbo and instruction fine-tuned llama models, to test the performance in LSR-Benchmark. The results reveal that humans outperform these models significantly, indicating a persisting challenge for machine learning models in comprehending daily human life.
翻訳日:2023-07-12 15:42:28 公開日:2023-07-11
# 流体の量子コンピューティング:我々はどこに立つのか?

Quantum computing for fluids: where do we stand? ( http://arxiv.org/abs/2307.05157v1 )

ライセンス: Link先を確認
Sauro Succi, Wael Itani, Katepalli Sreenivasan and Ren\'e Steijl(参考訳) 本稿では,古典流体シミュレーションのための量子コンピューティングアルゴリズムの現状について紹介する。 異なる戦略とその潜在的なメリットと負債が議論され、コメントされている。

We present a pedagogical introduction to the current state of quantum computing algorithms for the simulation of classical fluids. Different strategies, along with their potential merits and liabilities, are discussed and commented on.
翻訳日:2023-07-12 15:34:26 公開日:2023-07-11
# 安定な規範的説明:論証からデオン論理へ

Stable Normative Explanations: From Argumentation to Deontic Logic ( http://arxiv.org/abs/2307.05156v1 )

ライセンス: Link先を確認
Cecilia Di Florio, Guido Governatori, Antonino Rotolo, Giovanni Sartor(参考訳) 本稿では,Dedeasible Logicの他の場所で開発された安定な説明概念が,形式的議論の文脈でどのように表現できるかを検討する。 そこで本研究では,この再構築のデオン的意味を論じ,この説明を特徴付けることができるデオン論理の議論近傍構造から構築する方法を示す。 直接的な複雑さの結果が提供されます。

This paper examines how a notion of stable explanation developed elsewhere in Defeasible Logic can be expressed in the context of formal argumentation. With this done, we discuss the deontic meaning of this reconstruction and show how to build from argumentation neighborhood structures for deontic logic where this notion of explanation can be characterised. Some direct complexity results are offered.
翻訳日:2023-07-12 15:34:24 公開日:2023-07-11
# なぜボームと唯一のボーム?

Why Bohm and Only Bohm? ( http://arxiv.org/abs/2307.05153v1 )

ライセンス: Link先を確認
Jean Bricmont(参考訳) しばしば、ド・ブロイ=ボーム理論(de Broglie-Bohm theory)またはボヘミア力学(Bohmian mechanics)、自然崩壊理論、多くの世界の解釈の3つの「現実主義」バージョンが存在すると主張されている。 後者の2つの提案がオントロジー(またはその欠如)から生じる重大な欠陥に苦しむ理由と、多くの世界の解釈がボルン規則で符号化された統計を説明できない理由を説明します。 一方、ド・ブロイ=ボーム理論はオントロジーに問題はなく、自然に生まれながらの規則を説明する。

It is often claimed that there are three "realist" versions of quantum mechanics: the de Broglie-Bohm theory or Bohmian mechanics, the spontaneous collapse theories and the many worlds interpretation. We will explain why the two latter proposals suffer from serious defects coming from their ontology (or lack thereof) and that the many worlds interpretation is unable to account for the statistics encoded in the Born rule. The de Broglie-Bohm theory, on the other hand, has no problem of ontology and accounts naturally for the Born rule.
翻訳日:2023-07-12 15:34:16 公開日:2023-07-11
# 衝突による長寿命粒子のトリガリングのためのFPGAの高速ニューラルネットワーク推論

Fast Neural Network Inference on FPGAs for Triggering on Long-Lived Particles at Colliders ( http://arxiv.org/abs/2307.05152v1 )

ライセンス: Link先を確認
Andrea Coccaro, Francesco Armando Di Bello, Stefano Giagu, Lucrezia Rambelli, Nicola Stocchetti(参考訳) 実験粒子物理学は、さらなる研究のために興味の衝突を効率的に維持できる洗練されたトリガー・取得システムを必要とする。 fpgaカードの雇用に伴う異種コンピューティングはcernの大型ハドロン衝突型加速器の高輝度プログラムのトリガー戦略のトレンド技術として出現するかもしれない。 そこで本研究では,Xilinx FPGAアクセラレーションカードにおいて,中性長寿命粒子が検出ボリューム内で崩壊する事象を選択するための2つの機械学習アルゴリズムを提案する。 推論時間は、CPUとGPUベースのハードウェアセットアップにも直面する。 提案アルゴリズムは, ベンチマークのシナリオにおいて有効であることが証明され, FPGAカード上での高速化では精度が劣化しないことがわかった。 その結果、テストされたアーキテクチャはすべて、第2レベルのトリガーファームのレイテンシ要件に適合し、粒子・物理衝突のリアルタイム処理にアクセラレータ技術を活用することは、特に多くのトレーニング可能なパラメータを持つ機械学習モデルにおいて、さらなる調査に値する有望な研究分野であることが示されている。

Experimental particle physics demands a sophisticated trigger and acquisition system capable to efficiently retain the collisions of interest for further investigation. Heterogeneous computing with the employment of FPGA cards may emerge as a trending technology for the triggering strategy of the upcoming high-luminosity program of the Large Hadron Collider at CERN. In this context, we present two machine-learning algorithms for selecting events where neutral long-lived particles decay within the detector volume studying their accuracy and inference time when accelerated on commercially available Xilinx FPGA accelerator cards. The inference time is also confronted with a CPU- and GPU-based hardware setup. The proposed new algorithms are proven efficient for the considered benchmark physics scenario and their accuracy is found to not degrade when accelerated on the FPGA cards. The results indicate that all tested architectures fit within the latency requirements of a second-level trigger farm and that exploiting accelerator technologies for real-time processing of particle-physics collisions is a promising research field that deserves additional investigations, in particular with machine-learning models with a large number of trainable parameters.
翻訳日:2023-07-12 15:34:02 公開日:2023-07-11
# exfacegan:ganの学習した潜在空間におけるアイデンティティの方向性を探る

ExFaceGAN: Exploring Identity Directions in GAN's Learned Latent Space for Synthetic Identity Generation ( http://arxiv.org/abs/2307.05151v1 )

ライセンス: Link先を確認
Fadi Boutros, Marcel Klemt, Meiling Fang, Arjan Kuijper, Naser Damer(参考訳) 深層生成モデルは、最近、ランダムな合成アイデンティティの現実的な顔画像を生成する素晴らしい結果を示した。 特定の合成アイデンティティの複数のサンプルを生成するために、GANの潜伏空間を、追加の監督や規則化を取り入れ、アイデンティティ、髪型、ポーズ、表現などの特定の属性の操作を可能にすることで、拡張するいくつかの以前の研究が提案された。 これらの作業の多くは、特別な損失関数の設計と専用のネットワークアーキテクチャのトレーニングを必要とする。 他の者は、非条件で事前訓練されたGANの潜在空間内の特定の因子をアンタングルして出力を制御することを提案した。 さらに、これらの属性はganの潜在空間に絡み合っており、識別情報に影響を与えることなくそれらを操作することが困難である。 本稿では,最先端のgans潜在空間におけるid情報を分離し,任意の合成idの複数のサンプルを生成するためのフレームワークexfaceganを提案する。 生成した画像のバリエーションは特定の属性に限ったものではなく、ExFaceGANは識別情報をアンタングルすることを目的としており、他の視覚属性は学習されたGANラテント空間からランダムに描画される。 ExFaceGANの実用的な利点の例として、ExFaceGANが生成したデータが顔認識モデルのトレーニングに成功できることを実証的に証明する。

Deep generative models have recently presented impressive results in generating realistic face images of random synthetic identities. To generate multiple samples of a certain synthetic identity, several previous works proposed to disentangle the latent space of GANs by incorporating additional supervision or regularization, enabling the manipulation of certain attributes, e.g. identity, hairstyle, pose, or expression. Most of these works require designing special loss functions and training dedicated network architectures. Others proposed to disentangle specific factors in unconditional pretrained GANs latent spaces to control their output, which also requires supervision by attribute classifiers. Moreover, these attributes are entangled in GAN's latent space, making it difficult to manipulate them without affecting the identity information. We propose in this work a framework, ExFaceGAN, to disentangle identity information in state-of-the-art pretrained GANs latent spaces, enabling the generation of multiple samples of any synthetic identity. The variations in our generated images are not limited to specific attributes as ExFaceGAN explicitly aims at disentangling identity information, while other visual attributes are randomly drawn from a learned GAN latent space. As an example of the practical benefit of our ExFaceGAN, we empirically prove that data generated by ExFaceGAN can be successfully used to train face recognition models.
翻訳日:2023-07-12 15:33:43 公開日:2023-07-11
# グラフニューラルネットワークを説明するための様相論理

A Modal Logic for Explaining some Graph Neural Networks ( http://arxiv.org/abs/2307.05150v1 )

ライセンス: Link先を確認
Pierre Nunn and Fran\c{c}ois Schwarzentruber(参考訳) 本稿では,線形不等式に数える様相が現れる様相論理を提案する。 各式は等価グラフニューラルネットワーク(GNN)に変換可能であることを示す。 また、各GNNを式に変換することも示している。 満足度問題は決定可能であることを示す。 PSPACEに含まれるいくつかの変種についても論じる。

In this paper, we propose a modal logic in which counting modalities appear in linear inequalities. We show that each formula can be transformed into an equivalent graph neural network (GNN). We also show that each GNN can be transformed into a formula. We show that the satisfiability problem is decidable. We also discuss some variants that are in PSPACE.
翻訳日:2023-07-12 15:33:20 公開日:2023-07-11
# de broglie-bohm theory {\it is} と {\it is not} は隠れ変数理論である

The De Broglie-Bohm theory {\it is} and {\it is not} a hidden variable theory ( http://arxiv.org/abs/2307.05148v1 )

ライセンス: Link先を確認
Jean Bricmont(参考訳) 最初に ``hidden variable" で意味するものを定義する。 次に、このような変数を導入する理論の不可能性を証明する様々な定理を考察し、ド・ブロイ=ボーム理論がそれらの定理に反論されないことを示す。 また、ベルの不等式を導入するか否かに関わらず、これらの定理と非局所性との関係についても説明する。

We will first define what is meant by ``hidden variables". Then, we will review various theorems proving the impossibility of theories introducing such variables and then show that the de Broglie-Bohm theory is not refuted by those theorems. We will also explain the relation between those theorems and nonlocality, with or without introducing Bell's inequalities.
翻訳日:2023-07-12 15:33:16 公開日:2023-07-11
# ベイズアグリゲータを用いた深部確率的運動プリミティブ

Deep Probabilistic Movement Primitives with a Bayesian Aggregator ( http://arxiv.org/abs/2307.05141v1 )

ライセンス: Link先を確認
Michael Przystupa, Faezeh Haghverd, Martin Jagersand, Samuele Tosatto(参考訳) 運動プリミティブは、限られたデモから始まるロボットの動きを再現する訓練可能なパラメトリックモデルである。 従来の研究では、動作の時間的変調(より早いか遅いか)、混合(2つの動きを1つにマージする)、介在点条件付け(ある特定の介在点を満たす運動を制限する)、文脈条件付け(例えば、観測変数に基づく動きの生成)を可能とし、高いサンプル効率と一般化力を示す単純な線形モデルが提案されていた。 従来の研究では、入力条件や時間変調表現でタスクを実行する能力を示したニューラルネットワークベースのモータープリミティブモデルが提案されていた。 しかしながら、ニューラルネットワークプリミティブの潜在的な用途を制限し、以前のすべての操作が可能な単一の統一されたディープモータープリミティブモデルが提案されていない。 本稿では,上述のすべての操作をエンコードし,より健全なコンテキストコンディショニングとブレンドを可能にするベイズコンテキストアグリゲータを用いたディープムーブメントプリミティブアーキテクチャを提案する。 提案手法は, 線形移動プリミティブの操作を維持しながら, ベースラインと比較して, 多様な入力選択の複雑な動作を再現できることを示す。

Movement primitives are trainable parametric models that reproduce robotic movements starting from a limited set of demonstrations. Previous works proposed simple linear models that exhibited high sample efficiency and generalization power by allowing temporal modulation of movements (reproducing movements faster or slower), blending (merging two movements into one), via-point conditioning (constraining a movement to meet some particular via-points) and context conditioning (generation of movements based on an observed variable, e.g., position of an object). Previous works have proposed neural network-based motor primitive models, having demonstrated their capacity to perform tasks with some forms of input conditioning or time-modulation representations. However, there has not been a single unified deep motor primitive's model proposed that is capable of all previous operations, limiting neural motor primitive's potential applications. This paper proposes a deep movement primitive architecture that encodes all the operations above and uses a Bayesian context aggregator that allows a more sound context conditioning and blending. Our results demonstrate our approach can scale to reproduce complex motions on a larger variety of input choices compared to baselines while maintaining operations of linear movement primitives provide.
翻訳日:2023-07-12 15:33:08 公開日:2023-07-11
# 非教師なしセンシングアルゴリズムと3次元拡張現実を用いた太陽電池モジュールの非表示領域の可視化と解析

Unveiling the invisible: Enhanced detection and analysis deteriorated areas in solar PV modules using unsupervised sensing algorithms and 3D augmented reality ( http://arxiv.org/abs/2307.05136v1 )

ライセンス: Link先を確認
Adel Oulefki, Yassine Himeur, Thaweesak Trongtiraku, Kahina Amara, Sos Agaian, Samir, Benbelkacem, Mohamed Amine Guerroudji, Mohamed Zemmouri, Sahla Ferhat, Nadia Zenati, Shadi Atalla, Wathiq Mansoor(参考訳) 太陽光発電(pv)は、エネルギー安全保障の世界的な懸念に対処するためにますます使われている。 しかし、主にクレークに起因するPVモジュールのホットスポットとスネールトレイルは、効率と電力容量を低下させる。 本稿では,太陽太陽光発電(PV)モジュールにおけるホットスポットやスネールトレイルなどの異常を自動的に検出し,解析する基盤となる手法について述べる。 従来の診断法と修復法を変換することにより,効率を高めるだけでなく,PVシステムのメンテナンスコストを大幅に削減する。 提案手法は,コンピュータシミュレーションと実世界の画像データセットを用いて検証し,太陽電池モジュールの電力容量を最適化する上での定期的なメンテナンスの重要性を強調する。 当面の目標は、ドローン技術を利用してソーラーパネルの自動検出を行い、pvメンテナンスの有効性を大幅に向上させることです。 提案手法は太陽電池の保守に革命をもたらす可能性があり、人間の介入なしに迅速かつ正確な異常検出を可能にする。 これは大幅なコスト削減、エネルギー生産の強化、ソーラーPVシステム全体の性能向上をもたらす可能性がある。 さらに、教師なしセンシングアルゴリズムと3次元AR可視化アルゴリズムを組み合わせることで、太陽電池のメンテナンスにおけるさらなる研究と開発のための新たな機会がもたらされる。

Solar Photovoltaic (PV) is increasingly being used to address the global concern of energy security. However, hot spot and snail trails in PV modules caused mostly by crakes reduce their efficiency and power capacity. This article presents a groundbreaking methodology for automatically identifying and analyzing anomalies like hot spots and snail trails in Solar Photovoltaic (PV) modules, leveraging unsupervised sensing algorithms and 3D Augmented Reality (AR) visualization. By transforming the traditional methods of diagnosis and repair, our approach not only enhances efficiency but also substantially cuts down the cost of PV system maintenance. Validated through computer simulations and real-world image datasets, the proposed framework accurately identifies dirty regions, emphasizing the critical role of regular maintenance in optimizing the power capacity of solar PV modules. Our immediate objective is to leverage drone technology for real-time, automatic solar panel detection, significantly boosting the efficacy of PV maintenance. The proposed methodology could revolutionize solar PV maintenance, enabling swift, precise anomaly detection without human intervention. This could result in significant cost savings, heightened energy production, and improved overall performance of solar PV systems. Moreover, the novel combination of unsupervised sensing algorithms with 3D AR visualization heralds new opportunities for further research and development in solar PV maintenance.
翻訳日:2023-07-12 15:32:42 公開日:2023-07-11
# TIAM -- テキスト・画像生成におけるアライメント評価基準

TIAM -- A Metric for Evaluating Alignment in Text-to-Image Generation ( http://arxiv.org/abs/2307.05134v1 )

ライセンス: Link先を確認
Paul Grimal, Herv\'e Le Borgne, Olivier Ferret, Julien Tourille(参考訳) 合成画像の生成の進歩は,その品質を評価する上で重要である。 画像のレンダリングを評価するためにいくつかの指標が提案されているが、プロンプトに基づいて画像を生成するtext-to-image (t2i)モデルでは、生成された画像がプロンプトの重要なコンテンツとどの程度一致するかといった追加的な側面を考慮することが重要である。 さらに、生成された画像は通常ランダムな開始点から生じるが、この画像の影響は一般に考慮されない。 本稿では,プロンプトで指定されたコンテンツと対応する画像のアラインメントを研究するために,プロンプトテンプレートに基づく新しい指標を提案する。 これにより、指定されたオブジェクトの型、その数、色の観点から、アライメントをよりよく特徴づけることができます。 様々な側面に関する最近のT2Iモデルについて検討した。 我々のアプローチで得られた別の興味深い結果は、画像の品質が画像のシードとして使用される潜時雑音によって大きく変化することである。 また、プロンプトにおける概念の数、それらの順序、およびそれらの(色)属性の影響を定量化する。 最後に,本手法により,他の種よりも優れた画像を生成する潜在種子を同定し,その研究の新たな方向性を明らかにする。

The progress in the generation of synthetic images has made it crucial to assess their quality. While several metrics have been proposed to assess the rendering of images, it is crucial for Text-to-Image (T2I) models, which generate images based on a prompt, to consider additional aspects such as to which extent the generated image matches the important content of the prompt. Moreover, although the generated images usually result from a random starting point, the influence of this one is generally not considered. In this article, we propose a new metric based on prompt templates to study the alignment between the content specified in the prompt and the corresponding generated images. It allows us to better characterize the alignment in terms of the type of the specified objects, their number, and their color. We conducted a study on several recent T2I models about various aspects. An additional interesting result we obtained with our approach is that image quality can vary drastically depending on the latent noise used as a seed for the images. We also quantify the influence of the number of concepts in the prompt, their order as well as their (color) attributes. Finally, our method allows us to identify some latent seeds that produce better images than others, opening novel directions of research on this understudied topic.
翻訳日:2023-07-12 15:32:22 公開日:2023-07-11
# 視覚提示型視覚言語埋め込みによるロボット手術における局所的回答

Co-Attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery ( http://arxiv.org/abs/2307.05182v1 )

ライセンス: Link先を確認
Long Bai, Mobarakol Islam, Hongliang Ren(参考訳) 医学生やジュニア外科医は、手術を学ぶ際に、上級外科医や専門医に質問に答える。 しかし、専門家はしばしば臨床や学術的な研究に忙しく、指導する時間はほとんどない。 一方、既存のディープラーニング(DL)ベースの手術用視覚質問応答システム(VQA)では、答えの場所を指定せずに簡単な回答しか得られない。 加えて、視覚言語(ViL)の埋め込みは、この種のタスクでは研究されていない研究である。 したがって、VQLA(Visual Question Localized-Answering)システムは、医学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。 本稿では,VQLAの終端変換器(CAT-ViL)を提案するが,検出モデルによる特徴抽出は不要である。 CAT-ViL組み込みモジュールは、視覚的およびテキスト的ソースから異種機能を融合するよう設計されている。 融合埋め込みは、結合予測のための並列分類器と検出器の前に、標準データ効率のよいイメージトランスフォーマー(deit)モジュールを供給する。 我々は,MICCAI EndoVis Challenge 2017と2018の公開手術ビデオに対する実験的検証を行った。 実験の結果,提案モデルの性能とロバスト性は,最先端のアプローチと比較して高い評価を得た。 アブレーション研究は、提案された全てのコンポーネントの優れた性能をさらに証明している。 提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。 私たちのコードは公開されています。

Medical students and junior surgeons often rely on senior surgeons and specialists to answer their questions when learning surgery. However, experts are often busy with clinical and academic work, and have little time to give guidance. Meanwhile, existing deep learning (DL)-based surgical Visual Question Answering (VQA) systems can only provide simple answers without the location of the answers. In addition, vision-language (ViL) embedding is still a less explored research in these kinds of tasks. Therefore, a surgical Visual Question Localized-Answering (VQLA) system would be helpful for medical students and junior surgeons to learn and understand from recorded surgical videos. We propose an end-to-end Transformer with Co-Attention gaTed Vision-Language (CAT-ViL) for VQLA in surgical scenarios, which does not require feature extraction through detection models. The CAT-ViL embedding module is designed to fuse heterogeneous features from visual and textual sources. The fused embedding will feed a standard Data-Efficient Image Transformer (DeiT) module, before the parallel classifier and detector for joint prediction. We conduct the experimental validation on public surgical videos from MICCAI EndoVis Challenge 2017 and 2018. The experimental results highlight the superior performance and robustness of our proposed model compared to the state-of-the-art approaches. Ablation studies further prove the outstanding performance of all the proposed components. The proposed method provides a promising solution for surgical scene understanding, and opens up a primary step in the Artificial Intelligence (AI)-based VQLA system for surgical training. Our code is publicly available.
翻訳日:2023-07-12 15:26:39 公開日:2023-07-11
# ResMatch: ローカルな特徴マッチングのための残留注意学習

ResMatch: Residual Attention Learning for Local Feature Matching ( http://arxiv.org/abs/2307.05180v1 )

ライセンス: Link先を確認
Yuxin Deng and Jiayi Ma(参考訳) 注意に基づくグラフニューラルネットワークは、特徴マッチング学習において大きな進歩を遂げている。 しかし,特徴マッチングのための注意機構の仕組みに関する知見は文献に欠落している。 本稿では,従来の特徴マッチングとフィルタリングの観点から,クロス・アンド・セルフアテンションを再考する。 マッチングとフィルタリングの学習を容易にするために,記述子と相対位置の類似度を,それぞれクロス・アテンションスコアと自己アテンションスコアに注入する。 このようにして,視覚と空間の相関を計測する基本的な機能に着目して,残差マッチングとフィルタリング関数の学習に注目することができる。 さらに,記述子と相対位置の類似性により,中間層間および中間層間を採掘する。 すると、各点に対する注意は、その近傍でのみ行え、高い計算効率を得ることができる。 完全注意学習戦略とスパース注意学習戦略を備えた特徴マッチングネットワークをそれぞれresmatchとsresmatchと呼ぶ。 特徴マッチング,ポーズ推定,視覚定位など広範な実験を行い,ネットワークの優位性を確認した。

Attention-based graph neural networks have made great progress in feature matching learning. However, insight of how attention mechanism works for feature matching is lacked in the literature. In this paper, we rethink cross- and self-attention from the viewpoint of traditional feature matching and filtering. In order to facilitate the learning of matching and filtering, we inject the similarity of descriptors and relative positions into cross- and self-attention score, respectively. In this way, the attention can focus on learning residual matching and filtering functions with reference to the basic functions of measuring visual and spatial correlation. Moreover, we mine intra- and inter-neighbors according to the similarity of descriptors and relative positions. Then sparse attention for each point can be performed only within its neighborhoods to acquire higher computation efficiency. Feature matching networks equipped with our full and sparse residual attention learning strategies are termed ResMatch and sResMatch respectively. Extensive experiments, including feature matching, pose estimation and visual localization, confirm the superiority of our networks.
翻訳日:2023-07-12 15:26:11 公開日:2023-07-11
# mao-zedong at semeval-2023 task 4: label representationion multi-head attention model with contrastive learning-enhanced nearby mechanism for multi-label text classification

Mao-Zedong At SemEval-2023 Task 4: Label Represention Multi-Head Attention Model With Contrastive Learning-Enhanced Nearest Neighbor Mechanism For Multi-Label Text Classification ( http://arxiv.org/abs/2307.05174v1 )

ライセンス: Link先を確認
Che Zhang and Ping'an Liu and Zhenyang Xiao and Haojun Fei(参考訳) 人的価値の研究は実用領域と理論領域の両方において不可欠である。 計算言語学の発展により、大規模なデータセットの作成により、人間の値を正確に認識できるようになった。 SemEval 2023 Task 4\cite{kiesel:2023} は引数のセットと、各引数で暗黙的に表現される20種類の人間の値を提供する。 本稿では,チームのソリューションについて述べる。 我々は, roberta\cite{liu_roberta_2019} モデルを用いて文書の単語ベクトル符号化を求め,特定のラベルと意味成分との接続を確立するマルチヘッドアテンション機構を提案する。 さらに,コントラスト学習エンハンスドk-nearest近傍機構\cite{su_contrastive_2022}を用いて,既存のインスタンス情報を予測に活用する。 テストセットではF1スコア0.533を獲得し,リーダーボードでは4位となった。

The study of human values is essential in both practical and theoretical domains. With the development of computational linguistics, the creation of large-scale datasets has made it possible to automatically recognize human values accurately. SemEval 2023 Task 4\cite{kiesel:2023} provides a set of arguments and 20 types of human values that are implicitly expressed in each argument. In this paper, we present our team's solution. We use the Roberta\cite{liu_roberta_2019} model to obtain the word vector encoding of the document and propose a multi-head attention mechanism to establish connections between specific labels and semantic components. Furthermore, we use a contrastive learning-enhanced K-nearest neighbor mechanism\cite{su_contrastive_2022} to leverage existing instance information for prediction. Our approach achieved an F1 score of 0.533 on the test set and ranked fourth on the leaderboard.
翻訳日:2023-07-12 15:25:55 公開日:2023-07-11
# ユーザビリティテストによる言語フィードバックの強化:アイトラッキングとマウスデータを用いた思考音声と刺激の自動リンク

Enriching Verbal Feedback from Usability Testing: Automatic Linking of Thinking-Aloud Recordings and Stimulus using Eye Tracking and Mouse Data ( http://arxiv.org/abs/2307.05171v1 )

ライセンス: Link先を確認
Supriya Murali, Tina Walber, Christoph Schaefer, Sezen Lim(参考訳) Think Aloud法はユーザビリティ最適化のための重要かつ一般的なツールである。 しかし、音声分析は時間を要する可能性がある。 本稿では,言語プロトコルの自動分析を行い,視線追跡とマウス追跡を用いて音声フィードバックと刺激の関係を検証した。 得られたデータ – 刺激の特定の領域に関連付けられたユーザフィードバック – は、専門家が特定のWebページ要素に関するフィードバックをレビューしたり、フィードバックが与えられたWebページのどの部分を視覚化するために使用することができる。 具体的には、参加者が口頭で話しているWebページの内容にマウスを固定したり、指さしたりするかどうかをテストする。 テスト中、参加者は3つのウェブサイトを見せられ、口頭で意見を述べるように求められた。 眼球運動やカーソル運動とともに口頭反応が記録された。 視線で固定したりマウスで指さしたりした言語的に言及された関心領域(AOIs)の比率として定義されるヒット率を比較した。 その結果、マウスのデータに比べて視線に対する打撃率が有意に高かった。 さらなる調査により、マウスは主に受動的にスクロールに使われたが、視線はしばしば関連したアオオイに向けられ、話し言葉と刺激の間に強い関連が確立された。 したがって、視線追跡データは、マウスのデータと比較して、より詳細な情報と言語化に関する貴重な洞察を提供する可能性がある。

The think aloud method is an important and commonly used tool for usability optimization. However, analyzing think aloud data could be time consuming. In this paper, we put forth an automatic analysis of verbal protocols and test the link between spoken feedback and the stimulus using eye tracking and mouse tracking. The gained data - user feedback linked to a specific area of the stimulus - could be used to let an expert review the feedback on specific web page elements or to visualize on which parts of the web page the feedback was given. Specifically, we test if participants fixate on or point with the mouse to the content of the webpage that they are verbalizing. During the testing, participants were shown three websites and asked to verbally give their opinion. The verbal responses, along with the eye and cursor movements were recorded. We compared the hit rate, defined as the percentage of verbally mentioned areas of interest (AOIs) that were fixated with gaze or pointed to with the mouse. The results revealed a significantly higher hit rate for the gaze compared to the mouse data. Further investigation revealed that, while the mouse was mostly used passively to scroll, the gaze was often directed towards relevant AOIs, thus establishing a strong association between spoken words and stimuli. Therefore, eye tracking data possibly provides more detailed information and more valuable insights about the verbalizations compared to the mouse data.
翻訳日:2023-07-12 15:25:36 公開日:2023-07-11
# エッジクラウドコンピューティングのためのニューラルクォンタイル最適化

Neural Quantile Optimization for Edge-Cloud Computing ( http://arxiv.org/abs/2307.05170v1 )

ライセンス: Link先を確認
Bin Du, He Zhang, Xiangle Cheng, Lei Zhang(参考訳) 我々は,バースト可能な課金に基づくコストを最小化し,制約を満たすエッジ・クラウド・コンピューティング・ネットワークの最適なトラフィック割り当て方式を求める。 まず、固定されたネットワークトポロジーに対して、様々なトラフィック要求を記述するランダムパラメータを持つ整数計画問題群を定式化する。 次に,問題の離散的特徴による難易度を克服するために,gumbel-softmax再パラメータ化法を一般化し,離散問題の正規化継続として無拘束連続最適化問題を引き起こす。 最後に,教師なし学習による最適化問題を解決するため,Gumbel-softmaxサンプリングネットワークを導入する。 ネットワーク構造はエッジクラウドコンピューティングのトポロジを反映しており、制約のない連続最適化問題に対するコスト関数の期待を最小化するために訓練されている。 トレーニングされたネットワークは、効率的なトラフィック割当スキームサンプリングとして機能し、実現可能性およびコスト関数値のランダム戦略を著しく上回る。 出力割り当て方式の質をテストすることに加えて、時間ステップとユーザ数を増やすことにより、ネットワークの一般化特性を検討する。 また,既存の整数最適化問題の解法を初期条件として提供し,ウォームスタートが短時間の反復処理を高速化できることを示す。 このフレームワークは一般に堅実な性能を持ち、ランダムニューラルネットワークの分離機能は実用的な実装に適しています。

We seek the best traffic allocation scheme for the edge-cloud computing network that satisfies constraints and minimizes the cost based on burstable billing. First, for a fixed network topology, we formulate a family of integer programming problems with random parameters describing the various traffic demands. Then, to overcome the difficulty caused by the discrete feature of the problem, we generalize the Gumbel-softmax reparameterization method to induce an unconstrained continuous optimization problem as a regularized continuation of the discrete problem. Finally, we introduce the Gumbel-softmax sampling network to solve the optimization problems via unsupervised learning. The network structure reflects the edge-cloud computing topology and is trained to minimize the expectation of the cost function for unconstrained continuous optimization problems. The trained network works as an efficient traffic allocation scheme sampler, remarkably outperforming the random strategy in feasibility and cost function value. Besides testing the quality of the output allocation scheme, we examine the generalization property of the network by increasing the time steps and the number of users. We also feed the solution to existing integer optimization solvers as initial conditions and verify the warm-starts can accelerate the short-time iteration process. The framework is general with solid performance, and the decoupled feature of the random neural networks is adequate for practical implementations.
翻訳日:2023-07-12 15:25:09 公開日:2023-07-11
# CBDC用非Custodial Walletの設計課題と機会

A Non-Custodial Wallet for CBDC: Design Challenges and Opportunities ( http://arxiv.org/abs/2307.05167v1 )

ライセンス: Link先を確認
Ryan Bowler, Chris Speed, Geoffrey Goodell, Joe Revans(参考訳) 中央銀行デジタル通貨(CBDC、Central Bank Digital Currency)は、中央銀行が発行・規制し、プログラム可能性、セキュリティ、プライバシーなどの利点を提供する新しい形態の通貨である。 しかし,CBDCシステムの設計には技術的・社会的課題が数多く存在する。 本稿では,CBDCを様々な状況で保存・使用可能な非カセット型ウォレットの設計と試作について述べる。 cbdcシステムの設計の課題に対処するため,我々は,ストーリーテリングやメタファ,プロボタイプといった手法を用いて,内部や外部の利害関係者と一連のワークショップを実施し,cbdcの概念を伝え,ユーザからのフィードバックや批判を導き,規範的な価値を技術設計に取り入れた。 我々は,技術的な側面と社会的側面のバランスをとり,ユーザニーズと価値を反映したcbdcシステム設計のための基本ガイドラインを導出した。 本稿は,cbdcを日常生活でどのように活用できるかを実例で示し,ユーザ中心のアプローチの重要性を強調することで,cbdcの談話に寄与する。

Central Bank Digital Currency (CBDC) is a novel form of money that could be issued and regulated by central banks, offering benefits such as programmability, security, and privacy. However, the design of a CBDC system presents numerous technical and social challenges. This paper presents the design and prototype of a non-custodial wallet, a device that enables users to store and spend CBDC in various contexts. To address the challenges of designing a CBDC system, we conducted a series of workshops with internal and external stakeholders, using methods such as storytelling, metaphors, and provotypes to communicate CBDC concepts, elicit user feedback and critique, and incorporate normative values into the technical design. We derived basic guidelines for designing CBDC systems that balance technical and social aspects, and reflect user needs and values. Our paper contributes to the CBDC discourse by demonstrating a practical example of how CBDC could be used in everyday life and by highlighting the importance of a user-centred approach.
翻訳日:2023-07-12 15:24:48 公開日:2023-07-11
# 鉛蓄電池の余寿命推定のための機械学習手法のマッピング

A Mapping Study of Machine Learning Methods for Remaining Useful Life Estimation of Lead-Acid Batteries ( http://arxiv.org/abs/2307.05163v1 )

ライセンス: Link先を確認
S\'ergio F Chevtchenko, Elisson da Silva Rocha, Bruna Cruz, Ermeson Carneiro de Andrade, Danilo Ricardo Barbosa de Ara\'ujo(参考訳) エネルギー貯蔵ソリューションは、現代のインフラにおいてますます重要な役割を担い、鉛蓄電池は、充電可能なカテゴリーで最もよく使われる。 時間とともに正常に劣化するため、バッテリーの状態(SoH)と寿命(Remaining Useful Life、RUL)を正確に判定することは、バッテリーシステムの予測保守、信頼性、寿命の向上に寄与する。 コスト削減に加えて、sohの正確な推定は、引退した電池の再利用によって汚染を減少させる可能性がある。 本稿では,鉛蓄電池のSoHとRULを推定するための機械学習手法における最先端のマッピング手法を提案する。 これら2つの指標は、電気自動車、再生可能エネルギーシステム、およびこのバッテリー技術に大きく依存する他のアプリケーションにおけるバッテリー管理システムにおいて重要である。 本研究では,sohとrulの推定に使用される機械学習アルゴリズムの種類を分析し,その性能を精度と推論時間の観点から評価した。 さらに、このマッピングは、車体バッテリーのような特定の用途で最もよく使われるセンサーの組み合わせを特定し、分析する。 このマッピングは、将来研究の潜在的なギャップと機会を強調して締めくくっており、この分野のさらなる進歩の基礎を築いている。

Energy storage solutions play an increasingly important role in modern infrastructure and lead-acid batteries are among the most commonly used in the rechargeable category. Due to normal degradation over time, correctly determining the battery's State of Health (SoH) and Remaining Useful Life (RUL) contributes to enhancing predictive maintenance, reliability, and longevity of battery systems. Besides improving the cost savings, correct estimation of the SoH can lead to reduced pollution though reuse of retired batteries. This paper presents a mapping study of the state-of-the-art in machine learning methods for estimating the SoH and RUL of lead-acid batteries. These two indicators are critical in the battery management systems of electric vehicles, renewable energy systems, and other applications that rely heavily on this battery technology. In this study, we analyzed the types of machine learning algorithms employed for estimating SoH and RUL, and evaluated their performance in terms of accuracy and inference time. Additionally, this mapping identifies and analyzes the most commonly used combinations of sensors in specific applications, such as vehicular batteries. The mapping concludes by highlighting potential gaps and opportunities for future research, which lays the foundation for further advancements in the field.
翻訳日:2023-07-12 15:24:27 公開日:2023-07-11
# SuryaKiran at MEDIQA-Sum 2023: Leveraging LoRA for Clinical Dialogue Summarization (英語)

SuryaKiran at MEDIQA-Sum 2023: Leveraging LoRA for Clinical Dialogue Summarization ( http://arxiv.org/abs/2307.05162v1 )

ライセンス: Link先を確認
Kunal Suri, Prakhar Mishra, Saumajit Saha, Atul Singh(参考訳) 大規模言語モデルの微調整は、ドメイン固有のユースケースの結果を改善するのに役立つ。 大規模言語モデルのエンドツーエンドの微調整は時間と資源集約であり、大規模言語モデルの微調整されたバージョンを格納するための高いストレージ要求がある。 パラメータ効率の良いファインチューニング(PEFT)メソッドは、大きな言語モデルを固定ベースとして保持し、PEFTメソッドが微調整する追加レイヤを追加することで、時間とリソースの問題に対処する。 本稿では,臨床対話要約のためのpeft法(low rank adaptation:lora)の評価結果を示す。 評価の結果,LoRAは大規模言語モデルのエンドツーエンドファインタニングと同等に機能することがわかった。 本稿では,ImageCLEFmedical {https://www.imageclef.org/2023/medical} からSubtask A と B の両問題を解くための評価について述べる。

Finetuning Large Language Models helps improve the results for domain-specific use cases. End-to-end finetuning of large language models is time and resource intensive and has high storage requirements to store the finetuned version of the large language model. Parameter Efficient Fine Tuning (PEFT) methods address the time and resource challenges by keeping the large language model as a fixed base and add additional layers, which the PEFT methods finetune. This paper demonstrates the evaluation results for one such PEFT method Low Rank Adaptation (LoRA), for Clinical Dialogue Summarization. The evaluation results show that LoRA works at par with end-to-end finetuning for a large language model. The paper presents the evaluations done for solving both the Subtask A and B from ImageCLEFmedical {https://www.imageclef.org/2023/medical}
翻訳日:2023-07-12 15:24:08 公開日:2023-07-11
# 音楽における自己指導型音声学習の有効性について

On the Effectiveness of Speech Self-supervised Learning for Music ( http://arxiv.org/abs/2307.05161v1 )

ライセンス: Link先を確認
Yinghao Ma, Ruibin Yuan, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Ruibo Liu, Gus Xia, Roger Dannenberg, Yike Guo, Jie Fu(参考訳) 自己教師付き学習(SSL)は、様々な音声および自然言語処理アプリケーションで有望な結果を示している。 しかし、音楽情報検索(MIR)における有効性はいまだに未解明のままである。 以前のSSLモデルは音楽録音で事前訓練されたが、wav2vec2.0のような最近の音声モデルは、音楽モデリングにおいて有望であることを示している。 それにもかかわらず、音声SSLモデルを音楽録音に適用する研究は限られている。 本稿では,2つの特徴ある音声モデルである data2vec1.0 と Hubert を用いてSSL の音楽適応について検討し,これらを music2vec と musicHuBERT と呼ぶ。 我々は、様々な事前トレーニング構成の下で、95Mパラメータを持つ12ドルのSSLモデルをトレーニングし、13の異なるMIRタスクでMIRタスクのパフォーマンスを体系的に評価する。 この結果から,音楽データを用いた学習は,モデルが音声のためのパラダイムを用いて訓練された場合でも,一般的にMIRタスクの性能を向上させることが示唆された。 しかし,既存の音声指向設計,特にポリフォニック情報のモデル化において,その限界を明らかにする。 実験結果に基づき、将来の音楽的ssl戦略とパラダイムを設計するための経験的提案も与えられている。

Self-supervised learning (SSL) has shown promising results in various speech and natural language processing applications. However, its efficacy in music information retrieval (MIR) still remains largely unexplored. While previous SSL models pre-trained on music recordings may have been mostly closed-sourced, recent speech models such as wav2vec2.0 have shown promise in music modelling. Nevertheless, research exploring the effectiveness of applying speech SSL models to music recordings has been limited. We explore the music adaption of SSL with two distinctive speech-related models, data2vec1.0 and Hubert, and refer to them as music2vec and musicHuBERT, respectively. We train $12$ SSL models with 95M parameters under various pre-training configurations and systematically evaluate the MIR task performances with 13 different MIR tasks. Our findings suggest that training with music data can generally improve performance on MIR tasks, even when models are trained using paradigms designed for speech. However, we identify the limitations of such existing speech-oriented designs, especially in modelling polyphonic information. Based on the experimental results, empirical suggestions are also given for designing future musical SSL strategies and paradigms.
翻訳日:2023-07-12 15:23:47 公開日:2023-07-11
# ゲズターゲット予測のためのモジュール型マルチモーダルアーキテクチャ:プライバシー感性設定への応用

A Modular Multimodal Architecture for Gaze Target Prediction: Application to Privacy-Sensitive Settings ( http://arxiv.org/abs/2307.05158v1 )

ライセンス: Link先を確認
Anshul Gupta, Samy Tafasca, Jean-Marc Odobez(参考訳) 人の視線やシーンの内容だけでなく、3Dシーンの構造や状況(操作されているか、他人を観察しているか? 本稿では, 深さやポーズなどのマルチモーダルな手がかりを明示的に導出することにより, 事前の同定と活用がより良く達成できると仮定する。 そこで我々は,これらのキューをアテンション機構を用いて組み合わせるモジュール型マルチモーダルアーキテクチャを提案する。 アーキテクチャは、個人が特定可能な情報を公開できない監視や健康といったプライバシーに敏感な状況において、自然に活用することができる。 GazeFollowとVideoAttentionTargetの公開データセットについて広範な実験を行い、最先端のパフォーマンスを取得し、プライバシー設定ケースで非常に競争力のある結果を示す。

Predicting where a person is looking is a complex task, requiring to understand not only the person's gaze and scene content, but also the 3D scene structure and the person's situation (are they manipulating? interacting or observing others? attentive?) to detect obstructions in the line of sight or apply attention priors that humans typically have when observing others. In this paper, we hypothesize that identifying and leveraging such priors can be better achieved through the exploitation of explicitly derived multimodal cues such as depth and pose. We thus propose a modular multimodal architecture allowing to combine these cues using an attention mechanism. The architecture can naturally be exploited in privacy-sensitive situations such as surveillance and health, where personally identifiable information cannot be released. We perform extensive experiments on the GazeFollow and VideoAttentionTarget public datasets, obtaining state-of-the-art performance and demonstrating very competitive results in the privacy setting case.
翻訳日:2023-07-12 15:23:28 公開日:2023-07-11
# ビデオ分類における段階的知識蒸留:補足的弱監視フレームワークによる学生の進歩の調和

The Staged Knowledge Distillation in Video Classification: Harmonizing Student Progress by a Complementary Weakly Supervised Framework ( http://arxiv.org/abs/2307.05201v1 )

ライセンス: Link先を確認
Chao Wang, Zheng Tang(参考訳) ビデオデータにおけるラベル効率学習の文脈では, 蒸留法と教師-学生アーキテクチャの構造設計が知識蒸留に大きな影響を及ぼす。 しかし、これらの要因の関係は以前の研究では見過ごされている。 このギャップに対処するために,学生モデルの効率と精度を向上させるために,ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。 本手法は,サブステージ学習の概念を活用し,学生サブステージとそれに対応するサブステージの相関関係に基づいて知識を蒸留する。 また,教師と生徒の容量差が大きいことによって生じる精度損失に対処するために,プログレッシブ・カスケード・トレーニング手法を用いた。 さらに,初期データラベルを改善するための擬似ラベル最適化戦略を提案する。 訓練過程における蒸留サブステージの損失関数を最適化するために,特徴分布に基づく新しい損失法を提案する。 実データとシミュレーションデータの両方について広範な実験を行い,ビデオ分類作業における知識蒸留の観点から,提案手法が既存の蒸留方法より優れていることを示す。 提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。

In the context of label-efficient learning on video data, the distillation method and the structural design of the teacher-student architecture have a significant impact on knowledge distillation. However, the relationship between these factors has been overlooked in previous research. To address this gap, we propose a new weakly supervised learning framework for knowledge distillation in video classification that is designed to improve the efficiency and accuracy of the student model. Our approach leverages the concept of substage-based learning to distill knowledge based on the combination of student substages and the correlation of corresponding substages. We also employ the progressive cascade training method to address the accuracy loss caused by the large capacity gap between the teacher and the student. Additionally, we propose a pseudo-label optimization strategy to improve the initial data label. To optimize the loss functions of different distillation substages during the training process, we introduce a new loss method based on feature distribution. We conduct extensive experiments on both real and simulated data sets, demonstrating that our proposed approach outperforms existing distillation methods in terms of knowledge distillation for video classification tasks. Our proposed substage-based distillation approach has the potential to inform future research on label-efficient learning for video data.
翻訳日:2023-07-12 15:17:18 公開日:2023-07-11
# 低エネルギー分散の量子状態に対する行列積状態近似

Matrix product state approximations to quantum states of low energy variance ( http://arxiv.org/abs/2307.05200v1 )

ライセンス: Link先を確認
Kshiti Sneh Rai, J. Ignacio Cirac, \'Alvaro M. Alhambra(参考訳) 有限エネルギー密度と消滅する小さなエネルギーゆらぎを持つ一次元系の純粋量子状態を効率的にシミュレートする方法を示す。 結合次元が大きくなるにつれてエネルギー差が減少する行列積状態を生成するテンソルネットワークアルゴリズムの性能について検討する。 我々の結果は、$\propto 1/\log N$ 程度の分散は多項式結合次元で達成できることを示唆している。 これに対し、体積法則を示す典型的な固有状態とは対照的に、スペクトルの大部分にまだ適度な絡み合いエントロピーを持つ状態が非常に狭い状態が存在することを証明している。 我々の主要な技術ツールはスピン系に対するベリー・エッシーの定理であり、積状態のエネルギー分布に対する中心極限定理の強化である。 また、この定理のより単純な証明と、独立した関心を持つべき誤差スケーリングのわずかな改善も与えている。

We show how to efficiently simulate pure quantum states in one dimensional systems that have both finite energy density and vanishingly small energy fluctuations. We do so by studying the performance of a tensor network algorithm that produces matrix product states whose energy variance decreases as the bond dimension increases. Our results imply that variances as small as $\propto 1/\log N$ can be achieved with polynomial bond dimension. With this, we prove that there exist states with a very narrow support in the bulk of the spectrum that still have moderate entanglement entropy, in contrast with typical eigenstates that display a volume law. Our main technical tool is the Berry-Esseen theorem for spin systems, a strengthening of the central limit theorem for the energy distribution of product states. We also give a simpler proof of that theorem, together with slight improvements in the error scaling, which should be of independent interest.
翻訳日:2023-07-12 15:16:59 公開日:2023-07-11
# out-of-distribution detection を含む reject オプションモデル

Reject option models comprising out-of-distribution detection ( http://arxiv.org/abs/2307.05199v1 )

ライセンス: Link先を確認
Vojtech Franc, Daniel Prusa, Jakub Paplham(参考訳) out-of-distribution(ood)セットアップの最適予測戦略は、機械学習の基本的な問題である。 本稿では,この問題に対処し,いくつかの貢献を行う。 我々は,コストベースモデル,境界TPR-FPRモデル,境界精度-リコールモデルという,OOD設定に対する3つの拒否オプションモデルを提案する。 これらのモデルは、非OODセットアップで使用される標準のリジェクションオプションモデルを拡張し、最適なOOD選択分類器の概念を定義する。 提案したモデルがそれぞれ異なる定式化にもかかわらず、最適戦略の共通クラスを共有していることを確立する。 本手法は,OOD/IDの識別と誤分類検出に焦点をあてた2つのOOD検出器からの不確かさのスコアを利用する二重スコアOOD手法を提案する。 実験結果は,最先端手法と比較して,この単純な戦略の優れた性能を一貫して示している。 さらに,提案したOOD拒絶モデルに基づく最適戦略の定義から得られた新しい評価指標を提案する。 これらの新しい指標は、既存の評価手法で観察される欠陥を伴わない、包括的で信頼性の高いOOD手法の評価を提供する。

The optimal prediction strategy for out-of-distribution (OOD) setups is a fundamental question in machine learning. In this paper, we address this question and present several contributions. We propose three reject option models for OOD setups: the Cost-based model, the Bounded TPR-FPR model, and the Bounded Precision-Recall model. These models extend the standard reject option models used in non-OOD setups and define the notion of an optimal OOD selective classifier. We establish that all the proposed models, despite their different formulations, share a common class of optimal strategies. Motivated by the optimal strategy, we introduce double-score OOD methods that leverage uncertainty scores from two chosen OOD detectors: one focused on OOD/ID discrimination and the other on misclassification detection. The experimental results consistently demonstrate the superior performance of this simple strategy compared to state-of-the-art methods. Additionally, we propose novel evaluation metrics derived from the definition of the optimal strategy under the proposed OOD rejection models. These new metrics provide a comprehensive and reliable assessment of OOD methods without the deficiencies observed in existing evaluation approaches.
翻訳日:2023-07-12 15:16:34 公開日:2023-07-11
# 核殻モデルにおける原子核の構造における量子絡み合いパターン

Quantum entanglement patterns in the structure of atomic nuclei within the nuclear shell model ( http://arxiv.org/abs/2307.05197v1 )

ライセンス: Link先を確認
A. P\'erez-Obiol, S. Masot-Llima, A.M. Romero, J. Men\'endez, A. Rios, A. Garc\'ia-S\'aez, B. Juli\'a-D\'iaz(参考訳) 量子絡み合いは原子核のような強相関系の基盤構造にユニークな視点を与える。 本稿では, 原子核モデル内の光・中質量ベリリウム, 酸素, ネオン, カルシウム同位体の構造を解析するために, 量子情報ツールを用いる。 我々は、シェルモデル価数空間の異なる等価性のために、シングル軌道の絡み合い、相互情報、フォン・ノイマンエントロピーを含む異なる絡み合いメトリックを使用し、核単粒子軌道のエネルギー、角運動量、イソスピンに関連するモード/絡み合いパターンを同定する。 単軌道エンタングルメントは原子価核子の数と殻のエネルギー構造と直接関係しているのに対し、相互情報は陽子-陽子-中性子対と中性子-中性子対の符号を強調する。 陽子と中性子の軌道は全ての測度で弱く絡み合っており、実際に原子価空間の全ての同分量の中でフォン・ノイマンのエントロピーが最も低い。 対照的に、反対角運動量射影を持つ軌道は比較的大きなエントロピーを持つ。 この分析は、ノイズの多い中間スケール量子時代のより効率的な量子アルゴリズムを設計するためのガイドを提供する。

Quantum entanglement offers a unique perspective into the underlying structure of strongly-correlated systems such as atomic nuclei. In this paper, we use quantum information tools to analyze the structure of light and medium mass berillyum, oxygen, neon and calcium isotopes within the nuclear shell model. We use different entanglement metrics, including single-orbital entanglement, mutual information, and von Neumann entropies for different equipartitions of the shell-model valence space and identify mode/entanglement patterns related to the energy, angular momentum and isospin of the nuclear single-particle orbitals. We observe that the single-orbital entanglement is directly related to the number of valence nucleons and the energy structure of the shell, while the mutual information highlights signatures of proton-proton and neutron-neutron pairing. Proton and neutron orbitals are weakly entangled by all measures, and in fact have the lowest von Neumann entropies among all possible equipartitions of the valence space. In contrast, orbitals with opposite angular momentum projection have relatively large entropies. This analysis provides a guide for designing more efficient quantum algorithms for the noisy intermediate-scale quantum era.
翻訳日:2023-07-12 15:16:03 公開日:2023-07-11
# $\beta$-divergence One Posterior Smpling による個人統計的推測

Differentially Private Statistical Inference through $\beta$-Divergence One Posterior Sampling ( http://arxiv.org/abs/2307.05194v1 )

ライセンス: Link先を確認
Jack Jewson, Sahra Ghalebikesabi, Chris Holmes(参考訳) ディファレンシャルプライバシの保証により、機密データを含む統計分析の結果が、参加する個人のプライバシを損なうことなく解放される。 このような保証を達成するには、一般にパラメータ推定や推定プロセスに直接ノイズを注入する必要がある。 摂動を人工的に導入する代わりに、ベイズ後方分布からのサンプリングは指数関数機構の特別な場合であり、データ生成過程を変更することなく、一貫性があり、効率的なプライベートな推定を生成することが示されている。 しかし、現在のアプローチの適用は、単純な線形回帰器のような基本モデルに当てはまらない強い有界な仮定によって制限されている。 これを改善するために、モデルとデータ生成プロセス間の$\beta$-divergenceの最小化を目的とした一般化後部からの後部サンプリングスキームである$\beta$D-Bayesを提案する。 これは、基礎となるモデルの変更を必要とせず、一般的に適用可能なプライベートな推定を提供し、一貫してデータ生成パラメータを学習する。 我々は,$\beta$d-bayes が同一のプライバシ保証に対してより正確な推定を行い,さらに,複雑な分類器やニューラルネットワークなどの連続回帰モデルに対する後方サンプリングによる差分プライベート推定を促進することを示した。

Differential privacy guarantees allow the results of a statistical analysis involving sensitive data to be released without compromising the privacy of any individual taking part. Achieving such guarantees generally requires the injection of noise, either directly into parameter estimates or into the estimation process. Instead of artificially introducing perturbations, sampling from Bayesian posterior distributions has been shown to be a special case of the exponential mechanism, producing consistent, and efficient private estimates without altering the data generative process. The application of current approaches has, however, been limited by their strong bounding assumptions which do not hold for basic models, such as simple linear regressors. To ameliorate this, we propose $\beta$D-Bayes, a posterior sampling scheme from a generalised posterior targeting the minimisation of the $\beta$-divergence between the model and the data generating process. This provides private estimation that is generally applicable without requiring changes to the underlying model and consistently learns the data generating parameter. We show that $\beta$D-Bayes produces more precise inference estimation for the same privacy guarantees, and further facilitates differentially private estimation via posterior sampling for complex classifiers and continuous regression models such as neural networks for the first time.
翻訳日:2023-07-12 15:15:26 公開日:2023-07-11
# 逆摂動を用いたDNNの会員推測攻撃

Membership Inference Attacks on DNNs using Adversarial Perturbations ( http://arxiv.org/abs/2307.05193v1 )

ライセンス: Link先を確認
Hassan Ali, Adnan Qayyum, Ala Al-Fuqaha, Junaid Qadir(参考訳) いくつかのメンバーシップ推論(MI)攻撃は、ターゲットのDNNを監査するために提案されている。 一連の対象が与えられた場合、MI攻撃は訓練中にターゲットのDNNが見た対象を識別する。 This work focuses on the post-training MI attacks emphasizing high confidence membership detection -- True Positive Rates (TPR) at low False Positive Rates (FPR). Current works in this category -- likelihood ratio attack (LiRA) and enhanced MI attack (EMIA) -- only perform well on complex datasets (e.g., CIFAR-10 and Imagenet) where the target DNN overfits its train set, but perform poorly on simpler datasets (0% TPR by both attacks on Fashion-MNIST, 2% and 0% TPR respectively by LiRA and EMIA on MNIST at 1% FPR). これに対処するため、まず、準備、指示、決定という3つの段階に分かれたフレームワークを提示することで、現在のmi攻撃を統合する。 第2に,(1)新規損失関数の最小化を図りつつ,対象者のメンバシップと非メンバシップ情報を効率よく活用し,(1)Fashion-MNISTデータセットとMNISTデータセットの両方で6%TPRを達成し,(2)E-AMIAはEMIAとAMIAを組み合わせて、Fashion-MNISTデータセットとMNISTデータセットの8%と4%TPRをそれぞれ1%FPRで達成する。 第3に,被験者のガウス近傍における損失情報を積極的に活用する2つの新しい拡張指標を提案する。 これにより、Fashion-MNISTデータセットとMNISTデータセットでそれぞれ1% FPRで平均2.5%と0.25%のTPRが改善される。 最後に,低FPR領域におけるMI攻撃をよりよく区別する,単純で斬新な評価指標であるRTA(TPR average)を提案する。 また、AMIAとE-AMIAは未知のDNN(ターゲットDNN以外の)に転送可能であり、LiRAとEMIAと比較してDP-SGD訓練に堅牢であることを示す。

Several membership inference (MI) attacks have been proposed to audit a target DNN. Given a set of subjects, MI attacks tell which subjects the target DNN has seen during training. This work focuses on the post-training MI attacks emphasizing high confidence membership detection -- True Positive Rates (TPR) at low False Positive Rates (FPR). Current works in this category -- likelihood ratio attack (LiRA) and enhanced MI attack (EMIA) -- only perform well on complex datasets (e.g., CIFAR-10 and Imagenet) where the target DNN overfits its train set, but perform poorly on simpler datasets (0% TPR by both attacks on Fashion-MNIST, 2% and 0% TPR respectively by LiRA and EMIA on MNIST at 1% FPR). To address this, firstly, we unify current MI attacks by presenting a framework divided into three stages -- preparation, indication and decision. Secondly, we utilize the framework to propose two novel attacks: (1) Adversarial Membership Inference Attack (AMIA) efficiently utilizes the membership and the non-membership information of the subjects while adversarially minimizing a novel loss function, achieving 6% TPR on both Fashion-MNIST and MNIST datasets; and (2) Enhanced AMIA (E-AMIA) combines EMIA and AMIA to achieve 8% and 4% TPRs on Fashion-MNIST and MNIST datasets respectively, at 1% FPR. Thirdly, we introduce two novel augmented indicators that positively leverage the loss information in the Gaussian neighborhood of a subject. This improves TPR of all four attacks on average by 2.5% and 0.25% respectively on Fashion-MNIST and MNIST datasets at 1% FPR. Finally, we propose simple, yet novel, evaluation metric, the running TPR average (RTA) at a given FPR, that better distinguishes different MI attacks in the low FPR region. We also show that AMIA and E-AMIA are more transferable to the unknown DNNs (other than the target DNN) and are more robust to DP-SGD training as compared to LiRA and EMIA.
翻訳日:2023-07-12 15:14:45 公開日:2023-07-11
# 多成分状態に対する近似およびアンサンブル局所絡み合い変換

Approximate and ensemble local entanglement transformations for multipartite states ( http://arxiv.org/abs/2307.05192v1 )

ライセンス: Link先を確認
David Gunn, Martin Hebenstreit, Cornelia Spee, Julio I. de Vicente and Barbara Kraus(参考訳) 多成分の絡み合いを理解することは、量子情報の重要なゴールである。 純粋な状態における絡み合いは、古典通信(LOCC)によって支援される局所的な操作の下での変換を考えることで特徴づけられる。 しかし、n\ge5$パーティでは、多成分純粋状態は総じて孤立しており、loccでは到達も変換もできないことが示されている。 しかしながら、実際の実験室では、純粋な初期状態が完全に純粋なターゲット状態に決定論的に変換されることは決してない。 代わりに、初期状態に近い混合状態を、目標状態に近い平均的なアンサンブルに変換する。 これは近似LOCC変換の研究を動機付けている。 両部類の場合の既知結果を詳細に検討した後、多部類では未開のギャップを示す。 異なるSLOCCクラスが存在するため、多部構成の分析はより技術的に関与するが、いくつかの特徴は近似的な設定で単純化される。 特に、純粋な初期状態を考えるだけで十分であり、有限個の通信を持つLOCCプロトコルを考えるだけで十分であり、近似変換はSLOCCクラス内のアンサンブル変換によって近似できることを示す。 次に、物理的観点から関連する近似変換の異なる形式の階層を形式的に定義する。 この階層は双党の場合で崩壊するが、これは本質的によりリッチな多重党の設定の場合ではないことを示す。 まず,SLOCCクラス内のアンサンブル変換は,SLOCCクラス内の決定論的変換よりも高い忠実性を達成することができ,近傍に決定論的変換のない近似変換が存在することを示す。

Understanding multipartite entanglement is a key goal in quantum information. Entanglement in pure states can be characterised by considering transformations under Local Operations assisted by Classical Communication (LOCC). However, it has been shown that, for $n\ge5$ parties, multipartite pure states are generically isolated, i.e., they can neither be reached nor transformed under LOCC. Nonetheless, in any real lab, one never deterministically transforms a pure initial state exactly to a pure target state. Instead, one transforms a mixed state near the initial state to an ensemble that is on average close to the target state. This motivates studying approximate LOCC transformations. After reviewing in detail the known results in the bipartite case, we present the gaps that remain open in the multipartite case. While the analysis of the multipartite setting is much more technically involved due to the existence of different SLOCC classes, certain features simplify in the approximate setting. In particular, we show that it is sufficient to consider pure initial states, that it is sufficient to consider LOCC protocols with finitely-many rounds of communication and that approximate transformations can be approximated by ensemble transformations within an SLOCC class. Then, we formally define a hierarchy of different forms of approximate transformations that are relevant from a physical point of view. Whereas this hierarchy collapses in the bipartite case, we show that this is not the case for the multipartite setting, which is fundamentally richer. To wit, we show that optimal multipartite approximate transformations are not generally deterministic, that ensemble transformations within an SLOCC class can achieve a higher fidelity than deterministic transformations within an SLOCC class, and that there are approximate transformations with no deterministic transformations nearby.
翻訳日:2023-07-12 15:14:00 公開日:2023-07-11
# 線形回帰を用いたニューラルネットワークの反復学習

Using Linear Regression for Iteratively Training Neural Networks ( http://arxiv.org/abs/2307.05189v1 )

ライセンス: Link先を確認
Harshad Khadilkar(参考訳) ニューラルネットワークの重みとバイアスを学習するための単純な線形回帰に基づくアプローチを,標準勾配に基づくバックプロパゲーションの代替として提案する。 本研究は自然界において探索的であり,説明と実験に限定する。 (i)単純なフィードフォワードニューラルネットワーク。 (ii)スカラー(単一出力)回帰問題、及び (iii)可逆活性化機能。 しかし、このアプローチはより大きな、より複雑なアーキテクチャに拡張可能であることを意図している。 重要なアイデアは、ニューラルネットワーク内の各ニューロンへの入力が、前層におけるニューロンの活性化と、その層のパラメータ(重みとバイアス)の線形結合である、という観察である。 出力から逆向きに処理することで、各ニューロンに対する理想的な総入力値を計算することができれば、学習問題をパラメータの更新とアクティベーション値を繰り返す線形最小二乗問題として定式化することができる。 我々は,このアイデアを実装した明示的なアルゴリズムを示し,(少なくとも単純な問題に対しては)そのアプローチが勾配に基づくバックプロパゲーションよりも安定かつ高速であることを示す。

We present a simple linear regression based approach for learning the weights and biases of a neural network, as an alternative to standard gradient based backpropagation. The present work is exploratory in nature, and we restrict the description and experiments to (i) simple feedforward neural networks, (ii) scalar (single output) regression problems, and (iii) invertible activation functions. However, the approach is intended to be extensible to larger, more complex architectures. The key idea is the observation that the input to every neuron in a neural network is a linear combination of the activations of neurons in the previous layer, as well as the parameters (weights and biases) of the layer. If we are able to compute the ideal total input values to every neuron by working backwards from the output, we can formulate the learning problem as a linear least squares problem which iterates between updating the parameters and the activation values. We present an explicit algorithm that implements this idea, and we show that (at least for simple problems) the approach is more stable and faster than gradient-based backpropagation.
翻訳日:2023-07-12 15:13:33 公開日:2023-07-11
# 最適輸送を用いたデコレーション

Decorrelation using Optimal Transport ( http://arxiv.org/abs/2307.05187v1 )

ライセンス: Link先を確認
Malte Algren, John Andrew Raine and Tobias Golling(参考訳) 特徴空間と保護属性を区別できる領域は、倫理学、公正性、そして自然科学の活発な研究と研究の分野である。 本稿では,保護属性に対する連続的特徴空間を最適伝達で分離できるconvex neural optimal transport solvers(cnots)を用いた新しい相関法を提案する。 高エネルギー物理学におけるジェットの分類の文脈において、ジェットの質量と非相関性を持つように分類器のスコアが望ましいことを実証する。 二項分類で達成された非相関は条件付き正規化フローを用いて最先端の技術によって達成されたレベルに近づく。 マルチクラス出力に移行する際には、最適輸送手法は最先端技術よりも大幅に向上し、多次元特徴空間のデコレーションにおいてかなりの利益が期待できる。

Being able to decorrelate a feature space from protected attributes is an area of active research and study in ethics, fairness, and also natural sciences. We introduce a novel decorrelation method using Convex Neural Optimal Transport Solvers (Cnots), that is able to decorrelate continuous feature space against protected attributes with optimal transport. We demonstrate how well it performs in the context of jet classification in high energy physics, where classifier scores are desired to be decorrelated from the mass of a jet. The decorrelation achieved in binary classification approaches the levels achieved by the state-of-the-art using conditional normalising flows. When moving to multiclass outputs the optimal transport approach performs significantly better than the state-of-the-art, suggesting substantial gains at decorrelating multidimensional feature spaces.
翻訳日:2023-07-12 15:13:17 公開日:2023-07-11
# マイクロ波ドレッシングリドバーグ原子を用いた量子エンハンス型電磁計

Quantum-enhanced Electrometer based on Microwave-dressed Rydberg Atoms ( http://arxiv.org/abs/2307.05183v1 )

ライセンス: Link先を確認
Shuhe Wu, Dong Zhang, Zhengchun Li, Minwei Shi, Peiyu Yang, Jinxian Guo, Wei Du, Guzhi Bao and Weiping Zhang(参考訳) ライドバーグ原子はマイクロ波を感知する点で顕著な性能を示す。 原子アンサンブルの光学的読み出しに基づくこのような電気計の感度は、光子ショットノイズ限界に近づくことが示されている。 しかし、衝突速度の増加とパワー拡大によりプローブ光のパワーを増大させることで感度を無限に向上させることはできない。 古典光と比べて、量子光の利用は光子数が少ないほど感度が向上する可能性がある。 本稿では,マイクロ波式Rydberg電磁計の絡み合いを利用して雑音の変動を抑制する。 その結果, 冷間および熱間ともにショットノイズ限界を超える感度向上効果が認められた。 光学的読み出しの伝送を最適化することにより、原子蒸気の吸収率の異なる量子優位性を維持することができるので、吸収電位計に量子光源を適用することができる。

Rydberg atoms have been shown remarkable performance in sensing microwave field. The sensitivity of such an electrometer based on optical readout of atomic ensemble has been demonstrated to approach the photon-shot-noise limit. However, the sensitivity can not be promoted infinitely by increasing the power of probe light due to the increased collision rates and power broadening. Compared with classical light, the use of quantum light may lead to a better sensitivity with lower number of photons. In this paper, we exploit entanglement in a microwave-dressed Rydberg electrometer to suppress the fluctuation of noise. The results show a sensitivity enhancement beating the shot noise limit in both cold and hot atom schemes. Through optimizing the transmission of optical readout, our quantum advantage can be maintained with different absorptive index of atomic vapor, which makes it possible to apply quantum light source in the absorptive electrometer.
翻訳日:2023-07-12 15:13:01 公開日:2023-07-11
# 分散機械学習から分散ディープラーニングへの調査

A Survey From Distributed Machine Learning to Distributed Deep Learning ( http://arxiv.org/abs/2307.05232v1 )

ライセンス: Link先を確認
Mohammad Dehghani, Zahra Yazdanparast(参考訳) 近年、人工知能は複雑なタスクの処理で大きな成功を収めている。 この成功は、機械学習アルゴリズムとハードウェアアクセラレーションの進歩によるものだ。 より正確な結果を取得し、より複雑な問題を解決するためには、より多くのデータでアルゴリズムを訓練する必要がある。 この膨大なデータが処理に時間がかかり、大量の計算を必要とする可能性がある。 このソリューションは、分散機械学習として知られる複数のマシンにデータとアルゴリズムを分散させることで実現できる。 分散機械学習アルゴリズムにはかなりの労力が費やされており、これまで様々な方法が提案されてきた。 本稿では,これらのアルゴリズムのレビューを通じて,この分野の最先端技術の概要について概説する。 このアルゴリズムを分類とクラスタリング(従来の機械学習)、深層学習、深層強化学習グループに分割する。 近年、分散ディープラーニングが注目され、ほとんどの研究がこのアルゴリズムに取り組んできた。 その結果、本稿で論じる記事の大部分は、このカテゴリに属している。 アルゴリズムの調査に基づいて、今後の研究で対処すべき制限を強調します。

Artificial intelligence has achieved significant success in handling complex tasks in recent years. This success is due to advances in machine learning algorithms and hardware acceleration. In order to obtain more accurate results and solve more complex problems, algorithms must be trained with more data. This huge amount of data could be time-consuming to process and require a great deal of computation. This solution could be achieved by distributing the data and algorithm across several machines, which is known as distributed machine learning. There has been considerable effort put into distributed machine learning algorithms, and different methods have been proposed so far. In this article, we present a comprehensive summary of the current state-of-the-art in the field through the review of these algorithms. We divide this algorithms in classification and clustering (traditional machine learning), deep learning and deep reinforcement learning groups. Distributed deep learning has gained more attention in recent years and most of studies worked on this algorithms. As a result, most of the articles we discussed here belong to this category. Based on our investigation of algorithms, we highlight limitations that should be addressed in future research.
翻訳日:2023-07-12 15:06:51 公開日:2023-07-11
# 属性制御対話プロンプト

Attribute Controlled Dialogue Prompting ( http://arxiv.org/abs/2307.05228v1 )

ライセンス: Link先を確認
Runcheng Liu, Ahmad Rashid, Ivan Kobyzev, Mehdi Rezagholizadeh and Pascal Poupart(参考訳) プロンプトチューニングは、大きな事前学習された言語モデルを下流タスクに適応させるためのパラメータ効率の高い手法として、ますます人気が高まっている。 しかしながら、離散的なプロンプトと連続的なプロンプトは、タスク内のすべてのデータサンプルに対して固定的なプロンプトを前提としており、入力がオープンドメインの対話生成などいくつかのタスクで大きく異なるという事実を無視している。 本稿では,対話生成のためのインスタンス固有のプロンプトチューニングアルゴリズムを提案する。 具体的には、会話履歴ではなく、インスタンスレベルの制御コードに基づくプロンプトを生成し、それらが制御された対話生成に与える影響を探索する。 自動計測と人的評価の両方で評価された一般的なオープンドメイン対話データセットを用いた実験では,本手法がベースラインの起動よりも優れており,パラメータの5%~6%の微調整に匹敵することを示した。

Prompt-tuning has become an increasingly popular parameter-efficient method for adapting large pretrained language models to downstream tasks. However, both discrete prompting and continuous prompting assume fixed prompts for all data samples within a task, neglecting the fact that inputs vary greatly in some tasks such as open-domain dialogue generation. In this paper, we present a novel, instance-specific prompt-tuning algorithm for dialogue generation. Specifically, we generate prompts based on instance-level control code, rather than the conversation history, to explore their impact on controlled dialogue generation. Experiments on popular open-domain dialogue datasets, evaluated on both automated metrics and human evaluation, demonstrate that our method is superior to prompting baselines and comparable to fine-tuning with only 5%-6% of total parameters.
翻訳日:2023-07-12 15:06:38 公開日:2023-07-11
# マルチモダリティにおける生成前訓練

Generative Pretraining in Multimodality ( http://arxiv.org/abs/2307.05222v1 )

ライセンス: Link先を確認
Quan Sun, Qiying Yu, Yufeng Cui, Fan Zhang, Xiaosong Zhang, Yueze Wang, Hongcheng Gao, Jingjing Liu, Tiejun Huang, Xinlong Wang(参考訳) マルチモーダルな文脈で画像やテキストをシームレスに生成できるトランスフォーマティブベースのマルチモーダル基礎モデルであるemuを提案する。 このオムニボアモデルは、単一のモダリティまたはマルチモーダルなデータ(例えば、インターリーブされた画像、テキスト、ビデオ)を1つのモデルから全ての自己回帰訓練プロセスを通じて無差別に入力することができる。 まず、視覚信号は埋め込みにエンコードされ、テキストトークンと共にインターリーブされた入力シーケンスを形成する。 次にEmuは、次のテキストトークンの分類や、マルチモーダルシーケンスへの次のビジュアル埋め込みの回帰という統一された目的で、エンドツーエンドでトレーニングされる。 この多彩なマルチモダリティは、フレーム間とテキスト間を繋ぐビデオ、画像とテキストをインターリーブしたウェブページ、webスケールの画像テキストペアとビデオテキストペアなど、大規模にトレーニングされたさまざまなデータソースの探索を可能にする。 emuは、画像からテキストへのタスクとテキストへのタスクの両方の汎用的なマルチモーダルインターフェイスとして機能し、コンテキスト内イメージとテキスト生成をサポートする。 画像キャプション、ビジュアル質問応答、ビデオ質問応答、テキスト対画像生成など、幅広いゼロショット/フェーショットタスクにわたって、emuは最先端の大規模マルチモーダルモデルと比較して、素晴らしいパフォーマンスを示している。 命令チューニングによるマルチモーダルアシスタントなどの拡張機能も、優れたパフォーマンスで実証されている。

We present Emu, a Transformer-based multimodal foundation model, which can seamlessly generate images and texts in multimodal context. This omnivore model can take in any single-modality or multimodal data input indiscriminately (e.g., interleaved image, text and video) through a one-model-for-all autoregressive training process. First, visual signals are encoded into embeddings, and together with text tokens form an interleaved input sequence. Emu is then end-to-end trained with a unified objective of classifying the next text token or regressing the next visual embedding in the multimodal sequence. This versatile multimodality empowers the exploration of diverse pretraining data sources at scale, such as videos with interleaved frames and text, webpages with interleaved images and text, as well as web-scale image-text pairs and video-text pairs. Emu can serve as a generalist multimodal interface for both image-to-text and text-to-image tasks, and supports in-context image and text generation. Across a broad range of zero-shot/few-shot tasks including image captioning, visual question answering, video question answering and text-to-image generation, Emu demonstrates superb performance compared to state-of-the-art large multimodal models. Extended capabilities such as multimodal assistants via instruction tuning are also demonstrated with impressive performance.
翻訳日:2023-07-12 15:06:22 公開日:2023-07-11
# グラフニューラルネットワークにおけるホモフィリーを用いた監視注意

Supervised Attention Using Homophily in Graph Neural Networks ( http://arxiv.org/abs/2307.05217v1 )

ライセンス: Link先を確認
Michail Chatzianastasis, Giannis Nikolentzos, Michalis Vazirgiannis(参考訳) グラフニューラルネットワークは、グラフ上の学習問題を扱う標準的なアプローチとなっている。 グラフニューラルネットワークのさまざまなバリエーションの中で、グラフアテンションネットワーク(GAT)は様々なタスクに大きく成功している。 GATモデルでは、各ノードはアテンションメカニズムを使用して、隣人に重要なスコアを割り当てる。 しかし、他のグラフニューラルネットワークと同様に、GATは異なるクラスに属するノードからのメッセージを集約するため、異なるクラスに対して十分に分離されていないノード表現を生成し、パフォーマンスを損なう可能性がある。 そこで本研究では,この問題を解決するために,同じクラスラベルを共有するノード間の注意スコアを高めるために,任意のグラフ注意度モデルに組み込むことができる新しい手法を提案する。 提案手法を,標準ベースラインモデルよりも高い性能を示すノード分類データセット上で評価した。

Graph neural networks have become the standard approach for dealing with learning problems on graphs. Among the different variants of graph neural networks, graph attention networks (GATs) have been applied with great success to different tasks. In the GAT model, each node assigns an importance score to its neighbors using an attention mechanism. However, similar to other graph neural networks, GATs aggregate messages from nodes that belong to different classes, and therefore produce node representations that are not well separated with respect to the different classes, which might hurt their performance. In this work, to alleviate this problem, we propose a new technique that can be incorporated into any graph attention model to encourage higher attention scores between nodes that share the same class label. We evaluate the proposed method on several node classification datasets demonstrating increased performance over standard baseline models.
翻訳日:2023-07-12 15:05:54 公開日:2023-07-11
# パルスのコヒーレント相互作用フリー検出の理論

Theory of coherent interaction-free detection of pulses ( http://arxiv.org/abs/2307.05214v1 )

ライセンス: Link先を確認
John J. McCord, Shruti Dogra, and Gheorghe Sorin Paraoanu(参考訳) 量子物理学では、いわゆる相互作用のない測定によって、光子吸収がなくても物体を検出できる。 本稿では、検出対象がパルス結合された第2遷移である3レベルシステムを用いて、このプロトコルを定式化する。 相互作用のない測定の最初の定式化では、吸収は3番目の状態への射影演算子に関連付けられる。 我々は、オブジェクトと検出器間のコヒーレント相互作用が射影演算子を置き換えるコヒーレントプロトコルの深い解析および数値解析を行い、より高い検出効率を実現する。 我々はこの発見を支持するために近似漸近分析結果を提供する。 標準量子限界にしか到達できない射影プロトコルとは対照的に、我々のプロトコルは、検出しようとするパルスの小さな強度でフィッシャー情報を評価する際にハイゼンベルク限界に達することが分かっています。 また, このコヒーレントプロトコルは, パルス回転位相や強度, 緩和速度やデチューニングの影響, 熱的初期状態の違いといった誤差下でも極めて頑健であることを示した。

Quantum physics allows an object to be detected even in the absence of photon absorption, by the use of so-called interaction-free measurements. We provide a formulation of this protocol using a three-level system, where the object to be detected is a pulse coupled resonantly into the second transition. In the original formulation of interaction-free measurements, the absorption is associated with a projection operator onto the third state. We perform an in-depth analytical and numerical analysis of the coherent protocol, where coherent interaction between the object and the detector replaces the projective operators, resulting in higher detection efficiencies. We provide approximate asymptotic analytical results to support this finding. We find that our protocol reaches the Heisenberg limit when evaluating the Fisher information at small strengths of the pulses we aim to detect -- in contrast to the projective protocol that can only reach the standard quantum limit. We also demonstrate that the coherent protocol remains remarkably robust under errors such as pulse rotation phases and strengths, the effect of relaxation rates and detunings, as well as different thermalized initial states.
翻訳日:2023-07-12 15:05:41 公開日:2023-07-11
# 決定焦点学習の適用性を高めるためのスコア関数勾配推定

Score Function Gradient Estimation to Widen the Applicability of Decision-Focused Learning ( http://arxiv.org/abs/2307.05213v1 )

ライセンス: Link先を確認
Mattia Silvestri, Senne Berden, Jayanta Mandi, Ali \.Irfan Mahmuto\u{g}ullar{\i}, Maxime Mulamba, Allegra De Filippo, Tias Guns, Michele Lombardi(参考訳) 多くの実世界の最適化問題は、解決前に予測しなければならない未知のパラメータを含んでいる。 関連する予測機械学習(ML)モデルをトレーニングするために、一般的に採用されているアプローチは、予測精度の最大化に焦点を当てている。 しかし、このアプローチが必ずしも下流のタスク損失を最小化するわけではない。 決定中心学習(DFL)は、タスク損失を直接最小化し、MLモデルをトレーニングすることを目的として、最近提案されたパラダイムである。 しかし、最先端のdfl法は最適化問題(例えば、問題は線形である)の構造に関する仮定と、目的関数に現れるパラメータしか予測できないという事実によって制限される。 本研究では,パラメータ上でのtextit{distributions} の予測とスコア関数勾配推定(SFGE)の適用により,予測モデルに対する決定中心の更新を計算し,DFLの適用性を拡大することで,これらの制約に対処する。 本実験は,sfgeを用いて,(1)目的関数と制約条件の両方において発生する予測を扱うこと,(2)2段階確率最適化問題に効果的に取り組むこと,の2つを示す。

Many real-world optimization problems contain unknown parameters that must be predicted prior to solving. To train the predictive machine learning (ML) models involved, the commonly adopted approach focuses on maximizing predictive accuracy. However, this approach does not always lead to the minimization of the downstream task loss. Decision-focused learning (DFL) is a recently proposed paradigm whose goal is to train the ML model by directly minimizing the task loss. However, state-of-the-art DFL methods are limited by the assumptions they make about the structure of the optimization problem (e.g., that the problem is linear) and by the fact that can only predict parameters that appear in the objective function. In this work, we address these limitations by instead predicting \textit{distributions} over parameters and adopting score function gradient estimation (SFGE) to compute decision-focused updates to the predictive model, thereby widening the applicability of DFL. Our experiments show that by using SFGE we can: (1) deal with predictions that occur both in the objective function and in the constraints; and (2) effectively tackle two-stage stochastic optimization problems.
翻訳日:2023-07-12 15:05:25 公開日:2023-07-11
# 深層強化学習における報酬機械抽象化の文脈的事前計画

Contextual Pre-Planning on Reward Machine Abstractions for Enhanced Transfer in Deep Reinforcement Learning ( http://arxiv.org/abs/2307.05209v1 )

ライセンス: Link先を確認
Guy Azran, Mohamad H. Danesh, Stefano V. Albrecht, Sarah Keren(参考訳) 近年の研究では、深層強化学習(DRL)エージェントは、訓練されたタスクに過度に適合し、小さな環境変化に適応できない傾向が示されている。 未確認タスクへの移行時の学習の迅速化を目的として,現在のタスクの報酬とダイナミクスに基づいてサブタスクを誘導する状態機械抽象化(RM)を用いて,現在のタスクを表現する新しいアプローチを提案する。 本手法は,現在の抽象状態からの最適遷移の象徴表現をエージェントに与え,それらの遷移を達成するための報酬を与える。 これらの表現はタスク間で共有され、エージェントは以前に遭遇したシンボルや遷移の知識を活用できるため、転送が促進される。 実験結果から, 様々な領域におけるサンプル効率, 数発移動率の向上が確認された。

Recent studies show that deep reinforcement learning (DRL) agents tend to overfit to the task on which they were trained and fail to adapt to minor environment changes. To expedite learning when transferring to unseen tasks, we propose a novel approach to representing the current task using reward machines (RM), state machine abstractions that induce subtasks based on the current task's rewards and dynamics. Our method provides agents with symbolic representations of optimal transitions from their current abstract state and rewards them for achieving these transitions. These representations are shared across tasks, allowing agents to exploit knowledge of previously encountered symbols and transitions, thus enhancing transfer. Our empirical evaluation shows that our representations improve sample efficiency and few-shot transfer in a variety of domains.
翻訳日:2023-07-12 15:05:05 公開日:2023-07-11
# ランダム二量体不規則SSH格子における再侵入金属絶縁体転移の観察

Observation of reentrant metal-insulator transition in a random-dimer disordered SSH lattice ( http://arxiv.org/abs/2307.05207v1 )

ライセンス: Link先を確認
Ze-Sheng Xu, Jun Gao, Adrian Iovan, Ivan M. Khaymovich, Val Zwiller, Ali W. Elshaari(参考訳) 局在化、量子輸送、障害の相互関係は、科学研究において魅力的な焦点となっている。 伝統的に、一次元の系では、乱れが増すにつれて局在性が強くなり、金属-絶縁体遷移を引き起こすことが物理学界で広く受け入れられてきた。 しかし、最近の理論的研究 (Phys. Lett. 126, 106803] により、二量体化と障害の相互作用が再帰的な局所化遷移をもたらし、この分野における顕著な理論的進展をもたらすことが明らかとなった。 本稿では, ランダム二量体障害を有するフォトニックSSH格子を用いて, 合成電位を漸進的に調整した再帰的局所化実験を行った。 関連したオンサイト電位の存在下では、特定の固有状態は、障害が増加し続けるにつれて、局在遷移の後に拡張行動を示す。 我々は,不規則格子内の波動関数を励起特異格子サイトを用いて直接観測し,光分布を記録する。 正規化参加率の異常ピークを観測することにより、この再突入現象をさらに検証する。 本研究は、不規則媒質中の輸送の理解を深め、複雑な凝縮物質物理現象のシミュレーションのための集積光学の実質的なポテンシャルを強調する。

The interrelationship between localization, quantum transport, and disorder has remained a fascinating focus in scientific research. Traditionally, it has been widely accepted in the physics community that in one-dimensional systems, as disorder increases, localization intensifies, triggering a metal-insulator transition. However, a recent theoretical investigation [Phys. Rev. Lett. 126, 106803] has revealed that the interplay between dimerization and disorder leads to a reentrant localization transition, constituting a remarkable theoretical advancement in the field. Here, we present the experimental observation of reentrant localization using an experimentally friendly model, a photonic SSH lattice with random-dimer disorder, achieved by incrementally adjusting synthetic potentials. In the presence of correlated on-site potentials, certain eigenstates exhibit extended behavior following the localization transition as the disorder continues to increase. We directly probe the wave function in disordered lattices by exciting specific lattice sites and recording the light distribution. This reentrant phenomenon is further verified by observing an anomalous peak in the normalized participation ratio. Our study enriches the understanding of transport in disordered mediums and accentuates the substantial potential of integrated photonics for the simulation of intricate condensed matter physics phenomena.
翻訳日:2023-07-12 15:04:49 公開日:2023-07-11
# 多部系における絡み合いとエントロピー : 有用アプローチ

Entanglement and entropy in multipartite systems: a useful approach ( http://arxiv.org/abs/2307.05205v1 )

ライセンス: Link先を確認
A. Bernal, J. A. Casas and J.M. Moreno(参考訳) 量子エンタングルメントと量子エントロピーは、多部量子系の研究において重要な概念である。 本稿では,特に有用な形で再表現された共起ベクトルの概念が,両者の分析に新たな洞察と計算ツールを提供する方法を示す。 特に、このアプローチを一般的な多部純状態に対して用いることで、既知の関係を容易な方法で証明し、異なる二部分割に関連付けられた共起関係を新たに構築することができる。 この手法は多項式時間で計算可能な一般多部系における真の絡み合いの十分な条件を導出するのにも有用である。 エントロピー・オブ・エンタングルメントの観点から、このアプローチは、サブ加法のような tsallis-$2$ のエントロピーの性質を証明し、新しいもの(例えば、常に満たされる強部分加法の改良版)を導出するために強力である。

Quantum entanglement and quantum entropy are crucial concepts in the study of multipartite quantum systems. In this work we show how the notion of concurrence vector, re-expressed in a particularly useful form, provides new insights and computational tools for the analysis of both. In particular, using this approach for a general multipartite pure state, one can easily prove known relations in an easy way and to build up new relations between the concurrences associated with the different bipartitions. The approach is also useful to derive sufficient conditions for genuine entanglement in generic multipartite systems that are computable in polynomial time. From an entropy-of-entanglement perspective, the approach is powerful to prove properties of the Tsallis-$2$ entropy, such as the subadditivity, and to derive new ones, e.g. a modified version of the strong subadditivity which is always fulfilled; thanks to the purification theorem these results hold for any multipartite state, whether pure or mixed.
翻訳日:2023-07-12 15:04:26 公開日:2023-07-11
# APRF:イメージングにおける逆問題に対する抗エイリアス射影表現場

APRF: Anti-Aliasing Projection Representation Field for Inverse Problem in Imaging ( http://arxiv.org/abs/2307.05270v1 )

ライセンス: Link先を確認
Zixuan Chen, Lingxiao Yang, Jianhuang Lai and Xiaohua Xie(参考訳) Sparse-view Computed Tomography (SVCT) 再構成は画像の逆問題であり、スパースサンプリングによる高画質CT画像の取得を目的としている。 近年の研究では、インプリシット・ニューラル・リ表現(INR)を用いて、シングラムとCT画像の座標に基づくマッピングを構築している。 しかし、これらの手法は隣接する投影ビュー間の相関を考慮せず、svシングラム上のアーティファクトをエイリアスする結果となった。 そこで本研究では,隣接投影ビュー間の連続的な表現を空間的制約によって構築する,自己教師型SVCT再構成手法であるAnti-Aliasing Projection Representation Field (APRF)を提案する。 具体的には、APRFは、まず、局所領域における投影ビューの分布を推定するために線分サンプリングモジュールを使用し、次にセンターベースライン積分モジュールを使用して対応するシングラム値を合成する。 1つのSVシングラムでAPRFをトレーニングした後、対応する密度ビュー(DV)シングラムを一貫した連続性で合成することができる。 予測されたdvシンノグラムに再投影技術を適用することで高品質のct画像が得られる。 CT画像の大規模な実験により、APRFは最先端の手法よりも優れており、より正確な細部と少ないアーティファクトが得られることが示された。 私たちのコードはまもなく公開されます。

Sparse-view Computed Tomography (SVCT) reconstruction is an ill-posed inverse problem in imaging that aims to acquire high-quality CT images based on sparsely-sampled measurements. Recent works use Implicit Neural Representations (INRs) to build the coordinate-based mapping between sinograms and CT images. However, these methods have not considered the correlation between adjacent projection views, resulting in aliasing artifacts on SV sinograms. To address this issue, we propose a self-supervised SVCT reconstruction method -- Anti-Aliasing Projection Representation Field (APRF), which can build the continuous representation between adjacent projection views via the spatial constraints. Specifically, APRF only needs SV sinograms for training, which first employs a line-segment sampling module to estimate the distribution of projection views in a local region, and then synthesizes the corresponding sinogram values using center-based line integral module. After training APRF on a single SV sinogram itself, it can synthesize the corresponding dense-view (DV) sinogram with consistent continuity. High-quality CT images can be obtained by applying re-projection techniques on the predicted DV sinograms. Extensive experiments on CT images demonstrate that APRF outperforms state-of-the-art methods, yielding more accurate details and fewer artifacts. Our code will be publicly available soon.
翻訳日:2023-07-12 14:56:37 公開日:2023-07-11
# U-CREAT: Events ExtrAcTion を用いた教師なしケース検索

U-CREAT: Unsupervised Case Retrieval using Events extrAcTion ( http://arxiv.org/abs/2307.05260v1 )

ライセンス: Link先を確認
Abhinav Joshi and Akshat Sharma and Sai Kiran Tanikella and Ashutosh Modi(参考訳) 法律領域における先行事例検索(PCR)の課題は、所定のクエリーケースにおいて、関連する(事実と優先に基づく)先行事例を自動的に引用することである。 PCRにおける研究をさらに促進するため,本研究では,PCRタスクのための新しい大規模ベンチマークであるIL-PCR(Indian Legal Prior Case Retrieval)コーパスを提案する。 判例関係の複雑な性質と法的文書の長大さを考えると、bm25は引用された先行文書をランク付けするための強力なベースラインである。 本研究では,訴訟検索におけるイベントの役割を探求し,イベント抽出を用いた教師なし検索手法に基づくパイプライン U-CREAT (Unsupervised Case Retrieval) を提案する。 その結果,提案手法はbm25に比べて性能が著しく向上し,検索速度が大幅に向上し,リアルタイム事例検索システムに適用できることがわかった。 提案するシステムは汎用的であり,2つの異なる法体系(インド語とカナダ語)にまたがって一般化し,法体系(il-pcrおよび大腸菌コーパス)のベンチマークにおいて最先端のパフォーマンスを示す。

The task of Prior Case Retrieval (PCR) in the legal domain is about automatically citing relevant (based on facts and precedence) prior legal cases in a given query case. To further promote research in PCR, in this paper, we propose a new large benchmark (in English) for the PCR task: IL-PCR (Indian Legal Prior Case Retrieval) corpus. Given the complex nature of case relevance and the long size of legal documents, BM25 remains a strong baseline for ranking the cited prior documents. In this work, we explore the role of events in legal case retrieval and propose an unsupervised retrieval method-based pipeline U-CREAT (Unsupervised Case Retrieval using Events Extraction). We find that the proposed unsupervised retrieval method significantly increases performance compared to BM25 and makes retrieval faster by a considerable margin, making it applicable to real-time case retrieval systems. Our proposed system is generic, we show that it generalizes across two different legal systems (Indian and Canadian), and it shows state-of-the-art performance on the benchmarks for both the legal systems (IL-PCR and COLIEE corpora).
翻訳日:2023-07-12 14:56:11 公開日:2023-07-11
# 病院における総合計画の展望

Integrated Planning in Hospitals: A Review ( http://arxiv.org/abs/2307.05258v1 )

ライセンス: Link先を確認
Sebastian Rachuba, Melanie Reuter-Oppermann, Clemens Thielen(参考訳) 病院における資源不足の効率的な計画は、1950年代から様々な運用研究・管理科学のアプローチが開発されてきた課題である。 作業室やベッド、特定のタイプのスタッフといった単一資源の効率的な計画は既に膨大な効率向上につながる可能性があるが、いくつかの資源の統合計画がさらに大きな可能性を秘めていることが示されており、過去数十年にわたって多くの統合計画アプローチが文献に提示されてきた。 本稿では,病院における各種資源の統合計画に関する運用研究と管理科学文献を中心に,第1回文献レビューを行う。 関連文献を収集し,不確実性モデリングや実生活データの利用など,さまざまな側面について分析する。 いくつかのクロス比較は、例えば、モデリングと使用するソリューションメソッドと、開発されたアプローチの実践的実装との関係に関する興味深い洞察を示している。 さらに,異なる資源集中型統合アプローチを分類し,文献のギャップを指摘し,今後の研究に有望な方向性を示すための高レベル分類法を提案する。

Efficient planning of scarce resources in hospitals is a challenging task for which a large variety of Operations Research and Management Science approaches have been developed since the 1950s. While efficient planning of single resources such as operating rooms, beds, or specific types of staff can already lead to enormous efficiency gains, integrated planning of several resources has been shown to hold even greater potential, and a large number of integrated planning approaches have been presented in the literature over the past decades. This paper provides the first literature review that focuses specifically on the Operations Research and Management Science literature related to integrated planning of different resources in hospitals. We collect the relevant literature and analyze it regarding different aspects such as uncertainty modeling and the use of real-life data. Several cross comparisons reveal interesting insights concerning, e.g., relations between the modeling and solution methods used and the practical implementation of the approaches developed. Moreover, we provide a high-level taxonomy for classifying different resource-focused integration approaches and point out gaps in the literature as well as promising directions for future research.
翻訳日:2023-07-12 14:55:49 公開日:2023-07-11
# 量子動的応答に基づくnv-diamond磁力計 : デコヒーレンスに対するロバスト性と磁性ナノ粒子の運動検出への応用

Quantum dynamic response-based NV-diamond magnetometry: Robustness to decoherence and applications in motion detection of magnetic nanoparticles ( http://arxiv.org/abs/2307.05255v1 )

ライセンス: Link先を確認
Wenkui Ding, Xingyu Zhang, Jing Liu, and Xiaoguang Wang(参考訳) 本稿では,量子システムにおける物理観測器の動的応答を利用した新しい量子センシングプロトコルを提案する。 具体的には、ダイヤモンドの窒素空白(nv)色中心を用いて、量子応答によるスカラーとベクトル磁気測定を実現する。 さらに,従来の干渉型センサでは難しい磁性ナノ粒子の運動を検出する手法を提案する。 これを実現するために,nv中心に対応するベリー曲率の閉形式を導出し,動的応答によりベリー曲率を抽出するためのクエンチプロトコルを設計する。 非線型方程式の構築と解法により、磁性ナノ粒子の磁場と瞬時運動速度を推定することができる。 我々は,デコヒーレンスの存在下でのセンシング方式の実現可能性について検討し,デコヒーレンスに対して頑健な数値シミュレーションにより示す。 興味深いことに、ダイヤモンドにおける消滅する核スピン分極は、従来のラムゼー方式とは対照的に、我々の動的センシングスキームの恩恵を受けている。 ラムゼーに基づくセンシング方式と比較して,提案手法は時間依存がほぼ断熱的である限り,任意の時間依存磁界を感知することができる。

We propose a novel quantum sensing protocol that leverages the dynamical response of physical observables to quenches in quantum systems. Specifically, we use the nitrogen-vacancy (NV) color center in diamond to realize both scalar and vector magnetometry via quantum response. Furthermore, we suggest a method for detecting the motion of magnetic nanoparticles, which is challenging with conventional interference-based sensors. To achieve this, we derive the closed exact form of the Berry curvature corresponding to NV centers and design quenching protocols to extract the Berry curvature via dynamical response. By constructing and solving non-linear equations, the magnetic field and instantaneous motion velocity of the magnetic nanoparticle can be deduced. We investigate the feasibility of our sensing scheme in the presence of decoherence and show through numerical simulations that it is robust to decoherence. Intriguingly, we have observed that a vanishing nuclear spin polarization in diamond actually benefits our dynamic sensing scheme, which stands in contrast to conventional Ramsey-based schemes. In comparison to Ramsey-based sensing schemes, our proposed scheme can sense an arbitrary time-dependent magnetic field, as long as its time dependence is nearly adiabatic.
翻訳日:2023-07-12 14:55:31 公開日:2023-07-11
# OpenAL: オープンセット画像分類のための効率的な深層能動的学習フレームワーク

OpenAL: An Efficient Deep Active Learning Framework for Open-Set Pathology Image Classification ( http://arxiv.org/abs/2307.05254v1 )

ライセンス: Link先を確認
Linhao Qu, Yingfan Ma, Zhiwei Yang, Manning Wang, Zhijian Song(参考訳) アクティブラーニング(al)は、アノテーションコストを削減するためにラベル付けする最も有益なサンプルを選択する効果的なアプローチである。 既存のALメソッドは通常、クローズドセットの仮定の下で機能する。つまり、ラベルなしサンプルプールに存在するすべてのクラスはターゲットモデルによって分類する必要がある。 しかしながら、いくつかの実践的な臨床的タスクでは、ラベルのないプールは、きめ細かな分類が必要なターゲットクラスだけでなく、臨床タスクとは無関係なターゲットクラスも含んでいる可能性がある。 既存のalメソッドは、多くの非ターゲットサンプルを選択する傾向があるため、このシナリオではうまく機能しない。 本稿では、このシナリオをオープンセットAL問題として定式化し、ターゲットクラスと非ターゲットクラスの両方のサンプルをラベル付けしたプールからサンプルをクエリする際の課題に対処する効率的なフレームワークOpenALを提案する。 病理画像の細粒度分類実験により,openalは対象クラスの問合せ品質を著しく向上させ,現在のal法よりも高い性能を得ることができた。 コードはhttps://github.com/miccaiif/openalで入手できる。

Active learning (AL) is an effective approach to select the most informative samples to label so as to reduce the annotation cost. Existing AL methods typically work under the closed-set assumption, i.e., all classes existing in the unlabeled sample pool need to be classified by the target model. However, in some practical clinical tasks, the unlabeled pool may contain not only the target classes that need to be fine-grainedly classified, but also non-target classes that are irrelevant to the clinical tasks. Existing AL methods cannot work well in this scenario because they tend to select a large number of non-target samples. In this paper, we formulate this scenario as an open-set AL problem and propose an efficient framework, OpenAL, to address the challenge of querying samples from an unlabeled pool with both target class and non-target class samples. Experiments on fine-grained classification of pathology images show that OpenAL can significantly improve the query quality of target class samples and achieve higher performance than current state-of-the-art AL methods. Code is available at https://github.com/miccaiif/OpenAL.
翻訳日:2023-07-12 14:55:09 公開日:2023-07-11
# 雑音量子コンピューティングデバイスにおける高精度画像生成

Precise Image Generation on Current Noisy Quantum Computing Devices ( http://arxiv.org/abs/2307.05253v1 )

ライセンス: Link先を確認
Florian Rehm, Sofia Vallecorsa, Kerstin Borras, Michele Grossi, Dirk Kruecker, Valle Varo(参考訳) 量子アングルジェネレータ(QAG)は、現在のノイズ中間スケール(NISQ)量子デバイス上で正確な画像を生成するために設計された、新しいフル量子機械学習モデルである。 変動量子回路はQAGモデルのコアを形成し、様々な回路アーキテクチャを評価する。 いわゆるMERA-upsamplingアーキテクチャと組み合わせて、QAGモデルは優れた結果を得ることができ、詳細な分析と評価を行う。 我々の知る限り、量子モデルがそのような正確な結果を得たのはこれが初めてである。 モデルから雑音へのロバスト性を調べるために、広範囲な量子ノイズ研究を行う。 本稿では,物理量子デバイスでトレーニングしたモデルがハードウェアのノイズ特性を学習し,優れた結果が得られることを示す。 トレーニング中に最大8%の量子ハードウェアマシンキャリブレーションが変更しても、十分に許容できることが確認された。 このモデルは、粒子エネルギーを測定するために必要となる高エネルギー物理学における不必要なシミュレーションや、最終的にCERNの大型ハドロン衝突型加速器で未知の粒子を発見するために用いられる。

The Quantum Angle Generator (QAG) is a new full Quantum Machine Learning model designed to generate accurate images on current Noise Intermediate Scale (NISQ) Quantum devices. Variational quantum circuits form the core of the QAG model, and various circuit architectures are evaluated. In combination with the so-called MERA-upsampling architecture, the QAG model achieves excellent results, which are analyzed and evaluated in detail. To our knowledge, this is the first time that a quantum model has achieved such accurate results. To explore the robustness of the model to noise, an extensive quantum noise study is performed. In this paper, it is demonstrated that the model trained on a physical quantum device learns the noise characteristics of the hardware and generates outstanding results. It is verified that even a quantum hardware machine calibration change during training of up to 8% can be well tolerated. For demonstration, the model is employed in indispensable simulations in high energy physics required to measure particle energies and, ultimately, to discover unknown particles at the Large Hadron Collider at CERN.
翻訳日:2023-07-12 14:54:49 公開日:2023-07-11
# MAPとMLEに基づく教育

MAP- and MLE-Based Teaching ( http://arxiv.org/abs/2307.05252v1 )

ライセンス: Link先を確認
Hans Ulrich Simon, Jan Arne Telle(参考訳) 観測の集合から隠れた概念を推論しようとする学習者Lを想像してください。 Building on the work [4] of Ferri et al., we assume the learner to be parameterized by priors P(c) and by c-conditional likelihoods P(z|c) where c ranges over all concepts in a given class C and z ranges over all observations in an observation set Z. L is called a MAP-learner (resp. an MLE-learner) if it thinks of a collection S of observations as a random sample and returns the concept with the maximum a-posteriori probability (resp. the concept which maximizes the c-conditional likelihood of S). L は S が順序付きサンプリング resp から得られると仮定する。 置換の有無に関わらず,4種類のサンプリングモードを識別できる。 C の目標概念 c が与えられたとき、MAP-学習者 L の教師は、L が c を返す原因となる観測の最小の集合を見つけることを目的としている。 このアプローチは、概念クラス C のMAP-あるいはMLE-Teaching dimension の様々な概念に自然に導かれる。 4つのサンプリングモードが相互にどのように関連しているかを明らかにする。 重要な!)特別なケースでは、概念がドメインのサブセットであり、観察が0,1ラベルの例である場合、追加の結果が得られる。 まず、最適パラメータ化されたMAPラーナーグラフに付随するMAPとMLEの学習次元を理論的に特徴づける。 この中心的な結果から、他のいくつかは容易に導出できる。 例えば、MLE-Teaching 次元がMAP-Teaching 次元と等しいか、後者を 1 で上回っていることが示される。 さらに、これらの次元は、いわゆるアンチチェーン数、vc次元および関連する組合せパラメータによって上から境界化できることを示した。 さらに多項式時間で計算することもできる。

Imagine a learner L who tries to infer a hidden concept from a collection of observations. Building on the work [4] of Ferri et al., we assume the learner to be parameterized by priors P(c) and by c-conditional likelihoods P(z|c) where c ranges over all concepts in a given class C and z ranges over all observations in an observation set Z. L is called a MAP-learner (resp. an MLE-learner) if it thinks of a collection S of observations as a random sample and returns the concept with the maximum a-posteriori probability (resp. the concept which maximizes the c-conditional likelihood of S). Depending on whether L assumes that S is obtained from ordered or unordered sampling resp. from sampling with or without replacement, we can distinguish four different sampling modes. Given a target concept c in C, a teacher for a MAP-learner L aims at finding a smallest collection of observations that causes L to return c. This approach leads in a natural manner to various notions of a MAP- or MLE-teaching dimension of a concept class C. Our main results are: We show that this teaching model has some desirable monotonicity properties. We clarify how the four sampling modes are related to each other. As for the (important!) special case, where concepts are subsets of a domain and observations are 0,1-labeled examples, we obtain some additional results. First of all, we characterize the MAP- and MLE-teaching dimension associated with an optimally parameterized MAP-learner graph-theoretically. From this central result, some other ones are easy to derive. It is shown, for instance, that the MLE-teaching dimension is either equal to the MAP-teaching dimension or exceeds the latter by 1. It is shown furthermore that these dimensions can be bounded from above by the so-called antichain number, the VC-dimension and related combinatorial parameters. Moreover they can be computed in polynomial time.
翻訳日:2023-07-12 14:54:29 公開日:2023-07-11
# 一般パラメトリック密度モデルのためのロバスト密度パワーに基づく発散を最小化する確率的最適化手法

A stochastic optimization approach to minimize robust density power-based divergences for general parametric density models ( http://arxiv.org/abs/2307.05251v1 )

ライセンス: Link先を確認
Akifumi Okuno(参考訳) 観測の基盤となる分布を頑健に推定するために設計された密度パワー分散(DPD) [Basu et al. (1998), Biometrika] は、推定されるパラメトリック密度モデルのパワーの積分項を含む。 積分項の明示的な形式は、ある特定の密度(正規密度や指数密度など)に対して得られるが、その計算的難易度は、PDの提案から4分の1以上にわたって、より一般的なパラメトリック密度へのPDに基づく推定の適用を禁止している。 本研究では,一般パラメトリック密度モデルに対するDPDの最小化のための確率最適化手法を提案し,その妥当性を従来の確率最適化理論を参照して説明する。 提案手法は,非正規化モデル (kanamori and fujisawa (2015), biometrika) の助けを借りて,別の密度パワーベース$\gamma$-divergenceの最小化にも応用できる。

Density power divergence (DPD) [Basu et al. (1998), Biometrika], designed to estimate the underlying distribution of the observations robustly, comprises an integral term of the power of the parametric density models to be estimated. While the explicit form of the integral term can be obtained for some specific densities (such as normal density and exponential density), its computational intractability has prohibited the application of DPD-based estimation to more general parametric densities, over a quarter of a century since the proposal of DPD. This study proposes a stochastic optimization approach to minimize DPD for general parametric density models and explains its adequacy by referring to conventional theories on stochastic optimization. The proposed approach also can be applied to the minimization of another density power-based $\gamma$-divergence with the aid of unnormalized models [Kanamori and Fujisawa (2015), Biometrika].
翻訳日:2023-07-12 14:53:59 公開日:2023-07-11
# DRMC:マルチセンターPET画像合成のための動的ルーティング付きジェネリストモデル

DRMC: A Generalist Model with Dynamic Routing for Multi-Center PET Image Synthesis ( http://arxiv.org/abs/2307.05249v1 )

ライセンス: Link先を確認
Zhiwen Yang and Yang Zhou and Hui Zhang and Bingzheng Wei and Yubo Fan and Yan Xu(参考訳) 多心ポジトロンエミッショントモグラフィ(PET)画像合成は、複数の中心から低線量PET画像を取得することを目的としている。 既存の手法の一般化性は、異なるイメージングシステム/プロトコールを持つセンター間での非同一データ分布による、ドメインシフトによるマルチセンタ研究に依然として最適である。 特定のモデルを各センターで訓練することでドメインシフトに対処するアプローチもあるが、パラメータ非効率であり、センター間で共有される知識を十分に活用していない。 これを解決するために,共有知識を利用するために,センター間でアーキテクチャとパラメータを共有する汎用モデルを開発した。 しかし、ジェネラリストモデルは中心干渉問題に悩まされうる、すなわち、異なる中心の勾配方向は、非同一データ分布のため、矛盾する、あるいは反対である。 このような干渉を軽減するために、異なるセンターから異なる専門家にデータをルーティングする層間接続による新しい動的ルーティング戦略を導入する。 実験により, 動的ルーティング(DRMC)を用いた一般化モデルでは, センター間において優れた一般化性が示された。 コードとデータは、https://github.com/Yaziwel/Multi-Center-PET-Image-Synthesisで入手できる。

Multi-center positron emission tomography (PET) image synthesis aims at recovering low-dose PET images from multiple different centers. The generalizability of existing methods can still be suboptimal for a multi-center study due to domain shifts, which result from non-identical data distribution among centers with different imaging systems/protocols. While some approaches address domain shifts by training specialized models for each center, they are parameter inefficient and do not well exploit the shared knowledge across centers. To address this, we develop a generalist model that shares architecture and parameters across centers to utilize the shared knowledge. However, the generalist model can suffer from the center interference issue, \textit{i.e.} the gradient directions of different centers can be inconsistent or even opposite owing to the non-identical data distribution. To mitigate such interference, we introduce a novel dynamic routing strategy with cross-layer connections that routes data from different centers to different experts. Experiments show that our generalist model with dynamic routing (DRMC) exhibits excellent generalizability across centers. Code and data are available at: https://github.com/Yaziwel/Multi-Center-PET-Image-Synthesis.
翻訳日:2023-07-12 14:53:39 公開日:2023-07-11
# 脳関連タスクの事前トレーニングは、より深い学習に基づく脳年齢バイオマーカーをもたらすか?

Does pre-training on brain-related tasks results in better deep-learning-based brain age biomarkers? ( http://arxiv.org/abs/2307.05241v1 )

ライセンス: Link先を確認
Bruno Machado Pacheco, Victor Hugo Rocha de Oliveira, Augusto Braga Fernandes Antunes, Saulo Domingos de Souza Pedro, and Danilo Silva(参考訳) 神経画像データを用いた脳年齢予測は、脳の健康と老化の成功、および疾患バイオマーカーの指標として大きな可能性を示している。 深層学習モデルは信頼性が高く効率的な脳年齢推定器として確立され、健康な被験者の時系列年齢を予測するために訓練されている。 本稿では,脳年齢予測のための深層学習モデルに対する事前学習段階の影響について検討する。 より正確には、自然画像分類の事前学習の一般的なアプローチに代えて、脳関連課題の事前学習を提案し、adniデータ実験における最新結果を導いた。 さらに,軽度認知障害およびアルツハイマー病患者の画像から得られた脳年齢バイオマーカーを検証した。 興味深いことに、健康な患者の脳年齢予測において、より優れた深層学習モデルがより信頼性の高いバイオマーカーをもたらすことが示唆されている。

Brain age prediction using neuroimaging data has shown great potential as an indicator of overall brain health and successful aging, as well as a disease biomarker. Deep learning models have been established as reliable and efficient brain age estimators, being trained to predict the chronological age of healthy subjects. In this paper, we investigate the impact of a pre-training step on deep learning models for brain age prediction. More precisely, instead of the common approach of pre-training on natural imaging classification, we propose pre-training the models on brain-related tasks, which led to state-of-the-art results in our experiments on ADNI data. Furthermore, we validate the resulting brain age biomarker on images of patients with mild cognitive impairment and Alzheimer's disease. Interestingly, our results indicate that better-performing deep learning models in terms of brain age prediction on healthy patients do not result in more reliable biomarkers.
翻訳日:2023-07-12 14:53:19 公開日:2023-07-11
# 量子誤差緩和における不確実性下でのロバスト設計

Robust design under uncertainty in quantum error mitigation ( http://arxiv.org/abs/2307.05302v1 )

ライセンス: Link先を確認
Piotr Czarnik, Michael McKerns, Andrew T. Sornborger, Lukasz Cincio(参考訳) 短期的な量子優位を達成するには、エラー緩和技術が不可欠である。 量子計算結果の古典的な後処理は、ゼロノイズ外挿、仮想蒸留、学習に基づく誤り軽減などの手法を含む、エラー軽減の一般的なアプローチである。 しかし、これらの手法は量子測定の有限ショット数から生じる不確実性の伝播によって制限を受ける。 この制限を克服するために,誤差緩和結果のサンプリングによる誤差緩和観測値の不確かさと誤差の定量化手法を提案する。 これらの方法は、後処理に基づくエラー緩和アプローチに適用できる。 さらに,不確実性を考慮した誤り軽減手法の性能とロバスト性を最適化するための体系的手法を提案し,不確実性定量化手法を構築した。 提案手法の有効性を説明するため,IBMのトロントノイズモデルを用いてシミュレーションしたXYモデルの基底状態におけるClifford Data Regressionに適用する。

Error mitigation techniques are crucial to achieving near-term quantum advantage. Classical post-processing of quantum computation outcomes is a popular approach for error mitigation, which includes methods such as Zero Noise Extrapolation, Virtual Distillation, and learning-based error mitigation. However, these techniques have limitations due to the propagation of uncertainty resulting from a finite shot number of the quantum measurement. To overcome this limitation, we propose general and unbiased methods for quantifying the uncertainty and error of error-mitigated observables by sampling error mitigation outcomes. These methods are applicable to any post-processing-based error mitigation approach. In addition, we present a systematic approach for optimizing the performance and robustness of these error mitigation methods under uncertainty, building on our proposed uncertainty quantification methods. To illustrate the effectiveness of our methods, we apply them to Clifford Data Regression in the ground state of the XY model simulated using IBM's Toronto noise model.
翻訳日:2023-07-12 14:47:42 公開日:2023-07-11
# 大規模言語モデルにおける認知シナジーの解き放つ:マルチペソナ・セルフコラボレーションによるタスクソルビングエージェント

Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration ( http://arxiv.org/abs/2307.05300v1 )

ライセンス: Link先を確認
Zhenhailong Wang, Shaoguang Mao, Wenshan Wu, Tao Ge, Furu Wei, Heng Ji(参考訳) 人間の知性は認知シナジーの概念に基づいて成長し、異なる認知プロセス間の協調と情報統合が、独立した認知プロセスよりも優れた結果をもたらす。 大規模言語モデル(LLM)は一般的なタスク解決エージェントとして有望な性能を示してきたが、ドメイン知識の集中と複雑な推論を必要とするタスクに苦戦している。 本研究では,Solo Performance Prompting(SPP)を提案し,複数のペルソナと多ターンの自己コラボレーションを行うことにより,単一のLLMを認知的シナジストに変換する。 認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決と全体的なパフォーマンスを高めるために、複数の心と協調し、個々の強みと知識を組み合わせるインテリジェントエージェントである。 タスク入力に基づいて異なるペルソナを動的に識別し、シミュレーションすることにより、SPPはLLMにおける認知シナジーの可能性を解き放つ。 LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナよりも優れた問題解決能力が得られることがわかった。 我々は,3つの課題 – Trivia Creative Writing, Codenames Collaborative, Logic Grid Puzzle – について,知識集約型と推論集約型の両方を含む評価を行った。 llmの推論能力を単に強化するchain-of-thoughtのような以前の作品とは異なり、sppは内部知識獲得能力を効果的に導き、幻覚を減少させ、強力な推論能力を維持する。 コード、データ、プロンプトはhttps://github.com/MikeWangWZHL/Solo-Performance-Prompting.gitにある。

Human intelligence thrives on the concept of cognitive synergy, where collaboration and information integration among different cognitive processes yield superior outcomes compared to individual cognitive processes in isolation. Although Large Language Models (LLMs) have demonstrated promising performance as general task-solving agents, they still struggle with tasks that require intensive domain knowledge and complex reasoning. In this work, we propose Solo Performance Prompting (SPP), which transforms a single LLM into a cognitive synergist by engaging in multi-turn self-collaboration with multiple personas. A cognitive synergist refers to an intelligent agent that collaborates with multiple minds, combining their individual strengths and knowledge, to enhance problem-solving and overall performance in complex tasks. By dynamically identifying and simulating different personas based on task inputs, SPP unleashes the potential of cognitive synergy in LLMs. We have discovered that assigning multiple, fine-grained personas in LLMs elicits better problem-solving abilities compared to using a single or fixed number of personas. We evaluate SPP on three challenging tasks: Trivia Creative Writing, Codenames Collaborative, and Logic Grid Puzzle, encompassing both knowledge-intensive and reasoning-intensive types. Unlike previous works, such as Chain-of-Thought, that solely enhance the reasoning abilities in LLMs, SPP effectively elicits internal knowledge acquisition abilities, reduces hallucination, and maintains strong reasoning capabilities. Code, data, and prompts can be found at: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
翻訳日:2023-07-12 14:47:26 公開日:2023-07-11
# ハミルトニアングラフニューラルネットワークを用いた軌道から直接記号法則の発見

Discovering Symbolic Laws Directly from Trajectories with Hamiltonian Graph Neural Networks ( http://arxiv.org/abs/2307.05299v1 )

ライセンス: Link先を確認
Suresh Bishnoi, Ravinder Bhattoo, Jayadeva, Sayan Ranu, N M Anoop Krishnan(参考訳) 物理系の時間進化は、エネルギーや力のような抽象的な量に依存する微分方程式によって記述される。 伝統的に、これらの量は位置や速度のような観測可能な関数に基づいて導出される。 これらの象徴的法則の発見は、自然界の相互作用を理解するための鍵である。 ここでは、物理強化されたGNNであるハミルトングラフニューラルネットワーク(HGNN)について、その軌道から系の力学を直接学習する。 我々は,n-springs,n-pendulums,重力系,および2元レナード・ジョーンズ系におけるHGNNの性能を示す。 また,HGNNがより大きなシステムサイズに一般化する能力と,モデルが独立して訓練される2つの元のシステム(スプリングと振り子)を組み合わせたハイブリッドスプリング・振り子システムについても検討した。 最後に、学習したHGNNのシンボリック回帰を用いて、二項レナード・ジョーンズ液体のような複雑な系に対してもエネルギー汎関数に関する基礎となる方程式を推測する。 本フレームワークは,物理系軌跡から直接相互作用法則の解釈を容易にする。 さらに、このアプローチは、細胞、多分散ゲル、変形可能な体など、トポロジー依存のダイナミクスを持つ他のシステムにも拡張することができる。

The time evolution of physical systems is described by differential equations, which depend on abstract quantities like energy and force. Traditionally, these quantities are derived as functionals based on observables such as positions and velocities. Discovering these governing symbolic laws is the key to comprehending the interactions in nature. Here, we present a Hamiltonian graph neural network (HGNN), a physics-enforced GNN that learns the dynamics of systems directly from their trajectory. We demonstrate the performance of HGNN on n-springs, n-pendulums, gravitational systems, and binary Lennard Jones systems; HGNN learns the dynamics in excellent agreement with the ground truth from small amounts of data. We also evaluate the ability of HGNN to generalize to larger system sizes, and to hybrid spring-pendulum system that is a combination of two original systems (spring and pendulum) on which the models are trained independently. Finally, employing symbolic regression on the learned HGNN, we infer the underlying equations relating the energy functionals, even for complex systems such as the binary Lennard-Jones liquid. Our framework facilitates the interpretable discovery of interaction laws directly from physical system trajectories. Furthermore, this approach can be extended to other systems with topology-dependent dynamics, such as cells, polydisperse gels, or deformable bodies.
翻訳日:2023-07-12 14:46:56 公開日:2023-07-11
# 非平衡デバイスにおけるAb initio自己整合GW計算:オージェ再結合と電子-電子散乱

Ab initio Self-consistent GW Calculations in Non-Equilibrium Devices: Auger Recombination and Electron-Electron Scattering ( http://arxiv.org/abs/2307.05297v1 )

ライセンス: Link先を確認
Leonard Deuschle, Jonathan Backman, Mathieu Luisier, and Jiang Cao(参考訳) 自己整合gw近似におけるキャリアーキャリア相互作用を含む単層カーボンナノチューブの第一原理量子輸送シミュレーションについて述べる。 1次元システムにおける荷電担体間の相互作用の特長の増大により, 開発フレームワークはオージェ再結合, 熱キャリア緩和, ナノ構造への衝撃イオン化を予測できることがわかった。 計算された散乱速度を用いて、様々なデバイス構成の異なるオージェ過程の逆電子-ホール対の寿命を推算する。

We present first-principles quantum transport simulations of single-walled carbon nanotubes based on the NEGF method and including carrier-carrier interactions within the self-consistent GW approximation. Motivated by the characteristic enhancement of interaction between charge carriers in one-dimensional systems, we show that the developed framework can predict Auger recombination, hot carrier relaxation, and impact ionization in this type of nanostructures. Using the computed scattering rates, we infer the inverse electron-hole pair lifetimes for different Auger processes in several device configurations.
翻訳日:2023-07-12 14:46:14 公開日:2023-07-11
# 走行不確実性:自動運転車の安全における短期軌道予測の役割

Navigating Uncertainty: The Role of Short-Term Trajectory Prediction in Autonomous Vehicle Safety ( http://arxiv.org/abs/2307.05288v1 )

ライセンス: Link先を確認
Sushil Sharma, Ganesh Sistu, Lucie Yahiaoui, Arindam Das, Mark Halton, Ciar\'an Eising(参考訳) 自動運転車は安全かつ効率的な運転のために、正確で信頼性の高い短期軌道予測を必要とする。 ほとんどの商用自動運転車は、現在軌道予測にステートマシンベースのアルゴリズムを使用しているが、最近の取り組みはエンドツーエンドのデータ駆動システムに焦点を当てている。 これらのモデルの設計は、一般的に一般的なシナリオに限定されるデータセットの可用性によって制限されることが多い。 この制限に対処するために,carlaシミュレータを用いた短期軌道予測タスクのための合成データセットを開発した。 このデータセットには複雑なシナリオ – 道路を横断する歩行者,車両のオーバーテイク – が組み込まれており,対応するIMUを備えた6000の視点ビューイメージと,フレーム毎の計測情報を備えている。 さらに,畳み込みニューラルネットワーク(CNN)と長寿命メモリ(LSTM)を用いた終端から終端までの短期軌道予測モデルも開発されている。 このモデルは、シマウマの交差点付近の減速や、歩行者が道路を横断するときに、周囲の環境を明示的にエンコードすることなく停止するといったコーナーケースを扱うことができる。 この研究を加速し、他の人を助けるために、私たちはデータセットとモデルを研究コミュニティにリリースします。 データセットはhttps://github.com/navigatinguncertainty.comで公開されています。

Autonomous vehicles require accurate and reliable short-term trajectory predictions for safe and efficient driving. While most commercial automated vehicles currently use state machine-based algorithms for trajectory forecasting, recent efforts have focused on end-to-end data-driven systems. Often, the design of these models is limited by the availability of datasets, which are typically restricted to generic scenarios. To address this limitation, we have developed a synthetic dataset for short-term trajectory prediction tasks using the CARLA simulator. This dataset is extensive and incorporates what is considered complex scenarios - pedestrians crossing the road, vehicles overtaking - and comprises 6000 perspective view images with corresponding IMU and odometry information for each frame. Furthermore, an end-to-end short-term trajectory prediction model using convolutional neural networks (CNN) and long short-term memory (LSTM) networks has also been developed. This model can handle corner cases, such as slowing down near zebra crossings and stopping when pedestrians cross the road, without the need for explicit encoding of the surrounding environment. In an effort to accelerate this research and assist others, we are releasing our dataset and model to the research community. Our datasets are publicly available on https://github.com/navigatinguncertainty.
翻訳日:2023-07-12 14:46:02 公開日:2023-07-11
# 分散シフトを記述する言語の必要性について:表型データセットのイラスト

On the Need for a Language Describing Distribution Shifts: Illustrations on Tabular Datasets ( http://arxiv.org/abs/2307.05284v1 )

ライセンス: Link先を確認
Jiashuo Liu, Tianyu Wang, Peng Cui, Hongseok Namkoong(参考訳) 異なる分散シフトは異なるアルゴリズムと運用の介入を必要とする。 方法論的な研究は、彼らが対処する特定のシフトに基づかなければならない。 初期のベンチマークは有望な実証的基盤を提供するが、彼らは暗黙的に共変量シフトに焦点を当てており、実証的発見の妥当性はシフトの種類に依存する。 我々は86,000モデル構成の5つの表形式のデータセットの自然なシフトを徹底的に調査し、$Y|X$-shiftsが最も多いことを発見した。 研究者に分散シフトのための洗練された言語を開発するように促すために、私たちは、パフォーマンスをベンチマークするシフトのタイプを特徴付ける、実世界のシフトをキュレートした経験的なテストベッドであるwhyshiftを構築します。 Y|X$-shiftsは表の設定でよく見られるので、最大の$Y|X$-shiftsに苦しむ共変量領域を特定し、アルゴリズムやデータに基づく介入の影響について議論する。 私たちのテストベッドは、分布の違いを理解するための将来の研究の重要性を強調しています。

Different distribution shifts require different algorithmic and operational interventions. Methodological research must be grounded by the specific shifts they address. Although nascent benchmarks provide a promising empirical foundation, they implicitly focus on covariate shifts, and the validity of empirical findings depends on the type of shift, e.g., previous observations on algorithmic performance can fail to be valid when the $Y|X$ distribution changes. We conduct a thorough investigation of natural shifts in 5 tabular datasets over 86,000 model configurations, and find that $Y|X$-shifts are most prevalent. To encourage researchers to develop a refined language for distribution shifts, we build WhyShift, an empirical testbed of curated real-world shifts where we characterize the type of shift we benchmark performance over. Since $Y|X$-shifts are prevalent in tabular settings, we identify covariate regions that suffer the biggest $Y|X$-shifts and discuss implications for algorithmic and data-based interventions. Our testbed highlights the importance of future research that builds an understanding of how distributions differ.
翻訳日:2023-07-12 14:45:42 公開日:2023-07-11
# サイバーセキュリティスキルの適応学習のためのスマート環境

Smart Environment for Adaptive Learning of Cybersecurity Skills ( http://arxiv.org/abs/2307.05281v1 )

ライセンス: Link先を確認
Jan Vykopal, Pavel Seda, Valdemar \v{S}v\'abensk\'y, Pavel \v{C}eleda(参考訳) ハンズオンコンピューティング教育は、学生が自分のスキルを習得し、より深くするための現実的な学習環境を必要とする。 仮想および物理ラボを含む利用可能な学習環境は、学生に現実世界のコンピュータシステムを提供するが、様々な技能と背景を持つ個々の学生に学習環境を適用することは滅多にない。 我々は、サイバーセキュリティスキルを適応的に訓練するためのユニークな新しいスマート環境を設計した。 環境は様々な学生データを収集し、トレーニングを通じて適切な学習経路を割り当てる。 このような適応性を実現するため、我々は新しいチューターモデルとトレーニングフォーマットを提案し、開発し、展開した。 様々な習熟度を持つ114名の学生による2つの適応訓練を用いて,学習環境の評価を行った。 その結果、学生はより適切な難易度でタスクを割り当てられ、訓練を成功させることができた。 学生はトレーニングを楽しんだと報告し、トレーニングの難しさは適切に設計されており、このようなトレーニングセッションにもっと出席するだろうと感じた。 インストラクタはこの環境を利用して、現実世界のコンピュータネットワークやシステムに関わるあらゆるトピックを教えることができる。 私たちはこのソフトウェアを模範的なトレーニングとともに自由にリリースし、他のインストラクターが彼らの教育実践にイノベーションを取り入れられるようにしました。

Hands-on computing education requires a realistic learning environment that enables students to gain and deepen their skills. Available learning environments, including virtual and physical labs, provide students with real-world computer systems but rarely adapt the learning environment to individual students of various proficiency and background. We designed a unique and novel smart environment for adaptive training of cybersecurity skills. The environment collects a variety of student data to assign a suitable learning path through the training. To enable such adaptiveness, we proposed, developed, and deployed a new tutor model and a training format. We evaluated the learning environment using two different adaptive trainings attended by 114 students of various proficiency. The results show students were assigned tasks with a more appropriate difficulty, which enabled them to successfully complete the training. Students reported that they enjoyed the training, felt the training difficulty was appropriately designed, and would attend more training sessions like these. Instructors can use the environment for teaching any topic involving real-world computer networks and systems because it is not tailored to particular training. We freely released the software along with exemplary training so that other instructors can adopt the innovations in their teaching practice.
翻訳日:2023-07-12 14:45:23 公開日:2023-07-11
# 2段階因果モデルによる未バイアスシーングラフ生成

Unbiased Scene Graph Generation via Two-stage Causal Modeling ( http://arxiv.org/abs/2307.05276v1 )

ライセンス: Link先を確認
Shuzhou Sun, Shuaifeng Zhi, Qing Liao, Janne Heikkil\"a, Li Liu(参考訳) 最近の非バイアス付きシーングラフ生成(SGG)手法の顕著な性能にもかかわらず、現在のデバイアスング文献は主に長い尾の分布問題に焦点をあてているが、一方で別のバイアス源、すなわち意味的混乱を見落としており、SGGモデルは類似の関係について誤った予測をしがちである。 本稿では,因果推論を利用したSGGタスクのデバイアス処理について検討する。 我々の中心的な洞察は、因果関係におけるスパースメカニズムシフト(SMS)は、複数のバイアスに独立して介入することが可能であり、高いインフォーマルな尾関係の予測を追求しながら、ヘッドカテゴリのパフォーマンスを維持できるということである。 しかし、ノイズの多いデータセットは、SGGタスクの保存されていない共同創設者につながるため、構築された因果モデルは常にSMSの恩恵を受けるのに十分な因果関係である。 そこで本稿では,SGGタスクの2段階因果モデリング(TsCM)を提案する。これは,SCM(Structure Causal Model)の創設者としての長期分布と意味的混乱を,因果的介入を2段階に分解するものである。 最初の段階は因果表現学習(causal representation learning)で、新しい集団損失(p-loss)を使用して意味的混乱に介入する。 第2段階は適応ロジット調整(アダプティブロジット調整)を導入し、ロングテールの分散共同設立者が因果的校正学習を完了するのをなくす。 これら2つのステージはモデル非依存であり、偏りのない予測を求める任意のsggモデルで使用できる。 一般的なSGGバックボーンとベンチマークで実施した総合的な実験は、我々のTsCMが平均リコール率で最先端のパフォーマンスを達成できることを示している。 さらに,tscmは,他のデバイアス法よりも高いリコール率を維持することができ,本手法が頭と尾の関係をよりよくトレードオフできることを示す。

Despite the impressive performance of recent unbiased Scene Graph Generation (SGG) methods, the current debiasing literature mainly focuses on the long-tailed distribution problem, whereas it overlooks another source of bias, i.e., semantic confusion, which makes the SGG model prone to yield false predictions for similar relationships. In this paper, we explore a debiasing procedure for the SGG task leveraging causal inference. Our central insight is that the Sparse Mechanism Shift (SMS) in causality allows independent intervention on multiple biases, thereby potentially preserving head category performance while pursuing the prediction of high-informative tail relationships. However, the noisy datasets lead to unobserved confounders for the SGG task, and thus the constructed causal models are always causal-insufficient to benefit from SMS. To remedy this, we propose Two-stage Causal Modeling (TsCM) for the SGG task, which takes the long-tailed distribution and semantic confusion as confounders to the Structural Causal Model (SCM) and then decouples the causal intervention into two stages. The first stage is causal representation learning, where we use a novel Population Loss (P-Loss) to intervene in the semantic confusion confounder. The second stage introduces the Adaptive Logit Adjustment (AL-Adjustment) to eliminate the long-tailed distribution confounder to complete causal calibration learning. These two stages are model agnostic and thus can be used in any SGG model that seeks unbiased predictions. Comprehensive experiments conducted on the popular SGG backbones and benchmarks show that our TsCM can achieve state-of-the-art performance in terms of mean recall rate. Furthermore, TsCM can maintain a higher recall rate than other debiasing methods, which indicates that our method can achieve a better tradeoff between head and tail relationships.
翻訳日:2023-07-12 14:45:03 公開日:2023-07-11
# CareFall:ウェアラブルデバイスとAIメソッドによる自動転倒検出

CareFall: Automatic Fall Detection through Wearable Devices and AI Methods ( http://arxiv.org/abs/2307.05275v1 )

ライセンス: Link先を確認
Juan Carlos Ruiz-Garcia, Ruben Tolosana, Ruben Vera-Rodriguez, Carlos Moro(参考訳) 高齢化が社会の減少を招き、世界中の公衆衛生に影響を及ぼしている。 本稿では,ウェアラブルデバイスと人工知能(ai)手法に基づく自動転倒検出システム(fds)carefallを提案する。 carefallは加速度計とジャイロスコープのタイムシグナルをスマートウォッチから抽出する。 特徴抽出と分類には2つの異なるアプローチがある。 i)しきい値に基づく、及び ii) 機械学習に基づく。 2つの公開データベースの実験結果は、加速度計とジャイロスコープ情報を組み合わせた機械学習ベースのアプローチが、精度、感度、特異性の点でしきい値ベースのアプローチより優れていることを示している。 本研究は,高齢者の転倒のネガティブな影響を軽減するため,スマートでユーザフレンドリーなソリューションの設計に寄与する。

The aging population has led to a growing number of falls in our society, affecting global public health worldwide. This paper presents CareFall, an automatic Fall Detection System (FDS) based on wearable devices and Artificial Intelligence (AI) methods. CareFall considers the accelerometer and gyroscope time signals extracted from a smartwatch. Two different approaches are used for feature extraction and classification: i) threshold-based, and ii) machine learning-based. Experimental results on two public databases show that the machine learning-based approach, which combines accelerometer and gyroscope information, outperforms the threshold-based approach in terms of accuracy, sensitivity, and specificity. This research contributes to the design of smart and user-friendly solutions to mitigate the negative consequences of falls among older people.
翻訳日:2023-07-12 14:44:25 公開日:2023-07-11
# ProgGP:ギタープロのタブラチュアニューラルジェネレーションからプログレッシブメタル生産へ

ProgGP: From GuitarPro Tablature Neural Generation To Progressive Metal Production ( http://arxiv.org/abs/2307.05328v1 )

ライセンス: Link先を確認
Jackson Loth, Pedro Sarmento, CJ Carr, Zack Zukowski and Mathieu Barthet(参考訳) シンボリック・ミュージック・ジェネレーションの分野における最近の研究は、ギター表現属性をサポートするシンボリック表現であるGuitarProフォーマットに基づくトークン化を入力および出力表現として用いることに価値を示している。 我々は,そのジャンルから人間とAIのパートナーシップを通じて作曲を作成するために,プログレッシブメタルの173曲のカスタムデータセットであるProgGP上で,事前学習されたトランスフォーマーモデルを微調整することによって,この作業を拡張する。 私たちのモデルは、複数のギター、ベースギター、ドラム、ピアノ、オーケストラパートを生成できます。 計算音楽学パラダイムによる定量的分析と,実践に基づく研究パラダイムによる定性的な分析を組み合わせ,混合手法を用いて生成音楽の有効性を検証した。 最後に,ai生成した音楽に基づいて,人間の金属生産者が完全生産し混合したプログレッシブメタルソングを作成するためのツールとして,モデルの価値を実証する。

Recent work in the field of symbolic music generation has shown value in using a tokenization based on the GuitarPro format, a symbolic representation supporting guitar expressive attributes, as an input and output representation. We extend this work by fine-tuning a pre-trained Transformer model on ProgGP, a custom dataset of 173 progressive metal songs, for the purposes of creating compositions from that genre through a human-AI partnership. Our model is able to generate multiple guitar, bass guitar, drums, piano and orchestral parts. We examine the validity of the generated music using a mixed methods approach by combining quantitative analyses following a computational musicology paradigm and qualitative analyses following a practice-based research paradigm. Finally, we demonstrate the value of the model by using it as a tool to create a progressive metal song, fully produced and mixed by a human metal producer based on AI-generated music.
翻訳日:2023-07-12 14:36:41 公開日:2023-07-11
# 3dポイントクラウド表現学習のための自己教師あり逆マスキング

Self-supervised adversarial masking for 3D point cloud representation learning ( http://arxiv.org/abs/2307.05325v1 )

ライセンス: Link先を確認
Micha{\l} Szachniewicz, Wojciech Koz{\l}owski, Micha{\l} Stypu{\l}kowski and Maciej Zi\k{e}ba(参考訳) 自己教師付き手法は3Dポイントクラウドデータの深部表現を学習するのに有効であることが証明されている。 この領域における最近の手法は、しばしば入力のランダムマスキングに依存するが、このアプローチの結果は改善できる。 本稿では,点雲のマスキング関数を学習するための新しい逆法であるPointCAMを紹介する。 このモデルは3dポイントクラウド用のオンライントークン化器を備えた自己蒸留フレームワークを利用している。 パッチレベルとオブジェクトレベルの目的を最適化する従来の手法と比較して、ランダムにマスクを選択する代わりにマスクを選択する方法を学ぶ補助的なネットワークを適用することを仮定する。 その結果,学習したマスキング関数は,ダウンストリームタスクにおいて最先端あるいは競争性能を達成できることがわかった。 ソースコードはhttps://github.com/szacho/pointcamで入手できる。

Self-supervised methods have been proven effective for learning deep representations of 3D point cloud data. Although recent methods in this domain often rely on random masking of inputs, the results of this approach can be improved. We introduce PointCAM, a novel adversarial method for learning a masking function for point clouds. Our model utilizes a self-distillation framework with an online tokenizer for 3D point clouds. Compared to previous techniques that optimize patch-level and object-level objectives, we postulate applying an auxiliary network that learns how to select masks instead of choosing them randomly. Our results show that the learned masking function achieves state-of-the-art or competitive performance on various downstream tasks. The source code is available at https://github.com/szacho/pointcam.
翻訳日:2023-07-12 14:35:38 公開日:2023-07-11
# 擬似ドット球面閉じ込めを伴う精密および近似シナリオに基づくクライン・ゴードン粒子の量子状態の存在

Existence of quantum states for Klein-Gordon particles based on exact and approximate scenarios with pseudo-dot spherical confinement ( http://arxiv.org/abs/2307.05323v1 )

ライセンス: Link先を確認
Sami Ortakaya(参考訳) 本研究では、$r^2+1/r^2$の球面擬似ドットに位置する荷電スピンレス粒子からのクマーの固有値スペクトルを報告する。 ここでは、収束超幾何関数が空間閉じ込めを考慮した主量子数を持つかを示す。 定常静止質量、$m_{0}c^2$および放射分布の空間変化質量を体系的に研究するために、Klein-Gordon方程式は、それぞれ一定の質量と変数の使用の正確な場合と近似シナリオで解く。 クライン・ゴルドン粒子の運動球面空間の相対論的固有値に関する知見は、質量分布の依存性を示し、正確なシナリオにおいてエネルギースペクトルは$m_{0}=1$ fm$^{-1}$よりも大きな固有値を持つことがわかった。 次の分析では、固有値は近似シナリオを通して$E<m_{0}$の範囲を満たす。

In the present study, Kummer's eigenvalue spectra from a charged spinless particle located at spherical pseudo-dot of the form $r^2+1/r^2$ is reported. Here, it is shown how confluent hypergeometric functions have principal quantum numbers for considered spatial confinement. To study systematically both constant rest-mass, $m_{0}c^2$ and spatial-varying mass of the radial distribution $m_{0}c^2+S(r)$, the Klein-Gordon equation is solved under exact case and approximate scenario for a constant mass and variable usage, respectively. The findings related to the relativistic eigenvalues of the Klein-Gordon particle moving spherical space show the dependence of mass distribution, so it has been obtained that the energy spectra has bigger eigenvalues than $m_{0}=1$ fm$^{-1}$ in exact scenario. Following analysis shows eigenvalues satisfy the range of $E<m_{0}$ through approximate scenario.
翻訳日:2023-07-12 14:35:24 公開日:2023-07-11
# ロングテール分類のためのクラスインスタンスバランス学習

Class Instance Balanced Learning for Long-Tailed Classification ( http://arxiv.org/abs/2307.05322v1 )

ライセンス: Link先を確認
Marc-Antoine Lavoie, Steven Waslander(参考訳) ロングテール画像分類タスクは、トレーニングデータのクラス周波数における大きな不均衡を明示的に処理するため、ディープニューラルネットワークの開発において重要な役割を担っている。 エンジニアリングデータセットでは珍しくないが、この不均衡はほとんど常に現実世界のデータに存在する。 これまでのアプローチでは、クロスエントロピーとコントラスト学習を組み合わせることで、ロングテールタスクのパフォーマンスを向上させることが示されているが、頭と尾のクラス間のトレードオフは検討されていない。 学習バッチにおけるクラスインスタンスの頻度の関数として,クロスエントロピーと対照的な損失の相対的寄与を重み付けする新しいクラスインスタンス平衡損失(CIBL)を提案する。 このバランスは、より一般的なクラスで対照的な損失を好み、全てのクラス周波数でよりバランスの取れたパフォーマンスを持つ学習された分類器へと繋がる。 さらに、コントラストヘッドの相対的な重みを増加させることで、パフォーマンスを一般的な(ヘッド)クラスからレア(テール)クラスにシフトさせ、必要に応じてこれらのクラスに対してパフォーマンスを歪めることができる。 また,線形分類器ヘッドをコサイン分類器で変更することで,ほぼ少ないエポックで同様の性能を訓練できるネットワークが得られることを示す。 CIFAR-100-LT と ImageNet-LT の競合結果を得た。

The long-tailed image classification task remains important in the development of deep neural networks as it explicitly deals with large imbalances in the class frequencies of the training data. While uncommon in engineered datasets, this imbalance is almost always present in real-world data. Previous approaches have shown that combining cross-entropy and contrastive learning can improve performance on the long-tailed task, but they do not explore the tradeoff between head and tail classes. We propose a novel class instance balanced loss (CIBL), which reweights the relative contributions of a cross-entropy and a contrastive loss as a function of the frequency of class instances in the training batch. This balancing favours the contrastive loss for more common classes, leading to a learned classifier with a more balanced performance across all class frequencies. Furthermore, increasing the relative weight on the contrastive head shifts performance from common (head) to rare (tail) classes, allowing the user to skew the performance towards these classes if desired. We also show that changing the linear classifier head with a cosine classifier yields a network that can be trained to similar performance in substantially fewer epochs. We obtain competitive results on both CIFAR-100-LT and ImageNet-LT.
翻訳日:2023-07-12 14:35:06 公開日:2023-07-11
# ディープアンサンブルニューラルネットワークを用いたエンドポイントデバイス上の微小分子可溶性予測

Predicting small molecules solubilities on endpoint devices using deep ensemble neural networks ( http://arxiv.org/abs/2307.05318v1 )

ライセンス: Link先を確認
Mayk Caldas Ramos and Andrew D. White(参考訳) 水溶性は、予測する価値のあるが難しい性質である。 第一原理法による溶解度計算はエントロピーとエンタルピーの競合する効果を考慮しなければならず、結果として長い計算が比較的精度が低い。 ディープラーニングのようなデータ駆動アプローチは、精度と計算効率が向上するが、一般的に不確かさの定量化が欠如している。 さらに、使いやすさはいかなる計算手法にも懸念され続けており、グループベースのコントリビューション手法が持続的に普及している。 本研究では,静的Webサイト上で(サーバなしで)実行される予測の不確実性のあるディープラーニングモデルを用いて,これらの問題に対処する。 このアプローチは、コンピューティングニーズをインストールを必要とせずにwebサイト訪問者に移し、サーバの支払いとメンテナンスを不要にする。 このモデルは溶解度予測に十分な結果が得られる。 さらに,不確実性と使いやすさのバランスをとる分子特性予測モデルの作成方法を示す。 コードは \url{https://github.com/ur-whitelab/mol.dev} で、モデルは \url{https://mol.dev} で利用できる。

Aqueous solubility is a valuable yet challenging property to predict. Computing solubility using first-principles methods requires accounting for the competing effects of entropy and enthalpy, resulting in long computations for relatively poor accuracy. Data-driven approaches, such as deep learning, offer improved accuracy and computational efficiency but typically lack uncertainty quantification. Additionally, ease of use remains a concern for any computational technique, resulting in the sustained popularity of group-based contribution methods. In this work, we addressed these problems with a deep learning model with predictive uncertainty that runs on a static website (without a server). This approach moves computing needs onto the website visitor without requiring installation, removing the need to pay for and maintain servers. Our model achieves satisfactory results in solubility prediction. Furthermore, we demonstrate how to create molecular property prediction models that balance uncertainty and ease of use. The code is available at \url{https://github.com/ur-whitelab/mol.dev}, and the model is usable at \url{https://mol.dev}.
翻訳日:2023-07-12 14:34:43 公開日:2023-07-11
# 顔画像合成のための意味部分の自動生成

Automatic Generation of Semantic Parts for Face Image Synthesis ( http://arxiv.org/abs/2307.05317v1 )

ライセンス: Link先を確認
Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati(参考訳) セマンティック画像合成(英: Semantic image synthesis, SIS)とは、オブジェクトの空間的レイアウトを定義するセグメンテーションマスクを与えられた現実的な画像を生成する問題である。 文学におけるほとんどのアプローチは、生成した画像の品質以外は、スタイル、すなわちテクスチャの観点から、生成の多様性を高めるための解決策を見つけることに努力した。 しかし、それらはすべて異なる特徴を無視しており、マスクによって提供されるレイアウトを操作する可能性がある。 現時点では,グラフィカルユーザインターフェースを使って手作業で行う唯一の方法です。 本稿では,人間の顔に焦点を当てたセグメンテーションマスクにおいて,オブジェクトクラスの形状を自動操作したり生成したりする問題に対処するネットワークアーキテクチャについて述べる。 提案するモデルでは,マスクをクラスごとに潜在空間に埋め込み,各クラスを独立に編集することができる。 そして、双方向LSTMブロックと畳み込みデコーダが、新たに局所的に操作されたマスクを出力する。 celebmask-hqデータセットの定量的・定性的な結果について報告する。このモデルでは,セグメンテーションマスクをクラスレベルで忠実に再構築し,修正することができる。 また、私たちのモデルはSIS発生器の前に配置でき、形状とテクスチャの完全な自動生成制御への道を開くことができる。 コードはhttps://github.com/tfonta/semantic-vae。

Semantic image synthesis (SIS) refers to the problem of generating realistic imagery given a semantic segmentation mask that defines the spatial layout of object classes. Most of the approaches in the literature, other than the quality of the generated images, put effort in finding solutions to increase the generation diversity in terms of style i.e. texture. However, they all neglect a different feature, which is the possibility of manipulating the layout provided by the mask. Currently, the only way to do so is manually by means of graphical users interfaces. In this paper, we describe a network architecture to address the problem of automatically manipulating or generating the shape of object classes in semantic segmentation masks, with specific focus on human faces. Our proposed model allows embedding the mask class-wise into a latent space where each class embedding can be independently edited. Then, a bi-directional LSTM block and a convolutional decoder output a new, locally manipulated mask. We report quantitative and qualitative results on the CelebMask-HQ dataset, which show our model can both faithfully reconstruct and modify a segmentation mask at the class level. Also, we show our model can be put before a SIS generator, opening the way to a fully automatic generation control of both shape and texture. Code available at https://github.com/TFonta/Semantic-VAE.
翻訳日:2023-07-12 14:34:24 公開日:2023-07-11
# 医用視覚質問応答のための一様・多様コントラストによるマスクドビジョンと言語事前学習

Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answering ( http://arxiv.org/abs/2307.05314v1 )

ライセンス: Link先を確認
Pengfei Li, Gang Liu, Jinlong He, Zixu Zhao and Shenjun Zhong(参考訳) 医学的視覚的質問応答(medical visual question answering, vqa)は、視覚情報と言語情報の両方を考慮して、所定の医療画像の臨床的質問に答えることを必要とする課題である。 しかし、医療用VQAの訓練データが少ないため、モデル一般化性能を改善するために、事前学習の微調整パラダイムが一般的に用いられている。 本稿では,医療画像キャプションデータセットを用いて,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習し,非モーダル・マルチモーダルのコントラスト損失とマスク付き言語モデリングと画像テキストマッチングを事前学習目的として活用する,新たな自己教師型アプローチを提案する。 トレーニング済みのモデルは、下流の医療用VQAタスクに転送される。 提案手法は,それぞれ2.2%,14.7%,1.7%の大幅な精度向上を実現した3つの医用VQAデータセットに対して,最先端(SOTA)性能を実現する。 さらに,アプローチの異なるコンポーネントの有効性を検証するための包括的な分析を行い,トレーニング設定の相違について検討する。 私たちのコードとモデルはhttps://github.com/pengfeiliheu/mumcで利用可能です。

Medical visual question answering (VQA) is a challenging task that requires answering clinical questions of a given medical image, by taking consider of both visual and language information. However, due to the small scale of training data for medical VQA, pre-training fine-tuning paradigms have been a commonly used solution to improve model generalization performance. In this paper, we present a novel self-supervised approach that learns unimodal and multimodal feature representations of input images and text using medical image caption datasets, by leveraging both unimodal and multimodal contrastive losses, along with masked language modeling and image text matching as pretraining objectives. The pre-trained model is then transferred to downstream medical VQA tasks. The proposed approach achieves state-of-the-art (SOTA) performance on three publicly available medical VQA datasets with significant accuracy improvements of 2.2%, 14.7%, and 1.7% respectively. Besides, we conduct a comprehensive analysis to validate the effectiveness of different components of the approach and study different pre-training settings. Our codes and models are available at https://github.com/pengfeiliHEU/MUMC.
翻訳日:2023-07-12 14:34:01 公開日:2023-07-11
# 部分移動モーメントによる2量子状態の可視化

Visualization of all two-qubit states via partial-transpose-moments ( http://arxiv.org/abs/2307.05305v1 )

ライセンス: Link先を確認
Lin Zhang and Yi Shen and Hua Xiang and Quan Qian and Bo Li(参考訳) 測定可能な量に基づく絡み合いを効率的に検出することは、量子情報処理の基本的な問題である。 近年, 部分転位(pt)モーメントと呼ばれる測定可能な量が, 絡み合いの検出と特徴付けのために提案されている。 最近発表された論文[L。 Zhang \emph{et al. 英語) \href{https://doi.org/10.1002/andp.202200289}{Ann。 Phys (berlin) \textbf{534}, 2200289 (2022)}], 2次元(2d)領域は2量子ビットの絡み合った状態に対応する第2および第3のptモーメントで構成されており、全ての2量子ビット状態の領域全体を記述している。 本稿では,4番目のPTモーメント(最後の2キュービット状態)を包含することで,全2キュービット状態に対応する3次元領域を可視化する。 この3次元領域の特性は、いくつかの多項式を最適化することで最終的に達成できる。 さらに、エンタングル状態と分離状態に対応する3d領域全体の2つの部分をそれぞれ分離する分割面を特定する。 PTモーメントの可測性から,2量子エンタングルメント検出のための完全かつ操作的基準が得られた。

Efficiently detecting entanglement based on measurable quantities is a basic problem for quantum information processing. Recently, the measurable quantities called partial-transpose (PT)-moments have been proposed to detect and characterize entanglement. In the recently published paper [L. Zhang \emph{et al.}, \href{https://doi.org/10.1002/andp.202200289}{Ann. Phys.(Berlin) \textbf{534}, 2200289 (2022)}], we have already identified the 2-dimensional (2D) region, comprised of the second and third PT-moments, corresponding to two-qubit entangled states, and described the whole region for all two-qubit states. In the present paper, we visualize the 3D region corresponding to all two-qubit states by further involving the fourth PT-moment (the last one for two-qubit states). The characterization of this 3D region can finally be achieved by optimizing some polynomials. Furthermore, we identify the dividing surface which separates the two parts of the whole 3D region corresponding to entangled and separable states respectively. Due to the measurability of PT-moments, we obtain a complete and operational criterion for the detection of two-qubit entanglement.
翻訳日:2023-07-12 14:33:36 公開日:2023-07-11
# デュアルレギュレータを用いたフェデレーション半教師あり学習におけるデータ不均衡

Combating Data Imbalances in Federated Semi-supervised Learning with Dual Regulators ( http://arxiv.org/abs/2307.05358v1 )

ライセンス: Link先を確認
Sikai Bai, Shuaicheng Li, Weiming Zhuang, Kunlin Yang, Jun Hou, Shuai Yi, Shuai Zhang, Junyu Gao, Jie Zhang, Song Guo(参考訳) 分散学習は分散異種データから学ぶための一般的な方法となっている。 フェデレーション半教師付き学習(FSSL)は、分散クライアントのラベル不足により、ラベル付きデータのごく一部からモデルをトレーニングするために現れる。 既存のFSSLメソッドは、クライアント間で独立および同一に分散された(IID)ラベル付きデータと、クライアント内でラベル付きおよび未ラベル付きデータ間の一貫性のあるクラス分散を前提としている。 この研究は、クライアント間だけでなく、ラベル付きデータとラベルなしデータの間でデータ分散が異なる、FSSLのより実践的で困難なシナリオを研究する。 この課題に対処するために、デュアルレギュレータであるFedDureを用いた新しいFSSLフレームワークを提案する。 c-regはラベル付きデータ分散の学習効果を追跡することでローカルモデルの更新を規則化し、f-regは各クライアントのラベル付きインスタンス用に調整された適応重み付けスキームを学習する。 さらに,2つのレギュレータを用いてクライアント内のモデルを適応的に最適化するバイレベル最適化として,クライアントモデルのトレーニングを定式化する。 理論的には、二重レギュレータの収束保証を示す。 CIFAR-10 と CINIC-10 データセットでは,FedDure が既存の手法よりも幅広い設定で優れていることが実証されている。

Federated learning has become a popular method to learn from decentralized heterogeneous data. Federated semi-supervised learning (FSSL) emerges to train models from a small fraction of labeled data due to label scarcity on decentralized clients. Existing FSSL methods assume independent and identically distributed (IID) labeled data across clients and consistent class distribution between labeled and unlabeled data within a client. This work studies a more practical and challenging scenario of FSSL, where data distribution is different not only across clients but also within a client between labeled and unlabeled data. To address this challenge, we propose a novel FSSL framework with dual regulators, FedDure.} FedDure lifts the previous assumption with a coarse-grained regulator (C-reg) and a fine-grained regulator (F-reg): C-reg regularizes the updating of the local model by tracking the learning effect on labeled data distribution; F-reg learns an adaptive weighting scheme tailored for unlabeled instances in each client. We further formulate the client model training as bi-level optimization that adaptively optimizes the model in the client with two regulators. Theoretically, we show the convergence guarantee of the dual regulators. Empirically, we demonstrate that FedDure is superior to the existing methods across a wide range of settings, notably by more than 11% on CIFAR-10 and CINIC-10 datasets.
翻訳日:2023-07-12 14:29:12 公開日:2023-07-11
# GujiBERTとGujiGPT:古代テキストのための知的情報処理基礎言語モデルの構築

GujiBERT and GujiGPT: Construction of Intelligent Information Processing Foundation Language Models for Ancient Texts ( http://arxiv.org/abs/2307.05354v1 )

ライセンス: Link先を確認
Dongbo Wang, Chang Liu, Zhixiao Zhao, Si Shen, Liu Liu, Bin Li, Haotian Hu, Mengcheng Wu, Litao Lin, Xue Zhao, Xiyu Wang(参考訳) 大規模言語モデルの急速な発展の背景には,古文書の知的情報処理に特化して設計された基礎モデルであるGujiBERTとGujiGPT言語モデルを導入し,慎重に訓練してきた。 これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範囲なデータセットに基づいて訓練されており、自動文分割、句読解、単語分割、部分音声タグ付け、エンティティ認識、自動翻訳など、古代の書籍に関連する様々な自然言語処理タスクを効果的に扱うことができる。 特に、これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示している。 本研究は,従来のテキストコーパスを用いてモデルをさらに訓練する自己指導手法の有効性を強調し,下流タスクに対処する能力を高めることを目的とした。 さらに、フォントの選択、コーパスのスケール、初期モデルの選択が、究極的な実験結果に大きな影響を与えることを強調する価値がある。 デジタル人文科学と言語学の研究者による多種多様なテキスト処理の嗜好を満たすために,9つのモデルバリエーションからなる3つの異なるカテゴリを開発した。 古代テキストの領域に特化しているこれらの基礎言語モデルを共有することで、古代文学作品のインテリジェントな処理と学術的な探索を促進し、この新時代における中国の豊かで尊厳ある伝統文化の世界的な普及に寄与できると信じている。

In the context of the rapid development of large language models, we have meticulously trained and introduced the GujiBERT and GujiGPT language models, which are foundational models specifically designed for intelligent information processing of ancient texts. These models have been trained on an extensive dataset that encompasses both simplified and traditional Chinese characters, allowing them to effectively handle various natural language processing tasks related to ancient books, including but not limited to automatic sentence segmentation, punctuation, word segmentation, part-of-speech tagging, entity recognition, and automatic translation. Notably, these models have exhibited exceptional performance across a range of validation tasks using publicly available datasets. Our research findings highlight the efficacy of employing self-supervised methods to further train the models using classical text corpora, thus enhancing their capability to tackle downstream tasks. Moreover, it is worth emphasizing that the choice of font, the scale of the corpus, and the initial model selection all exert significant influence over the ultimate experimental outcomes. To cater to the diverse text processing preferences of researchers in digital humanities and linguistics, we have developed three distinct categories comprising a total of nine model variations. We believe that by sharing these foundational language models specialized in the domain of ancient texts, we can facilitate the intelligent processing and scholarly exploration of ancient literary works and, consequently, contribute to the global dissemination of China's rich and esteemed traditional culture in this new era.
翻訳日:2023-07-12 14:28:20 公開日:2023-07-11
# パラメータ化MMSEチャネル推定のための変分オートエンコーダの活用

Leveraging Variational Autoencoders for Parameterized MMSE Channel Estimation ( http://arxiv.org/abs/2307.05352v1 )

ライセンス: Link先を確認
Michael Baur, Benedikt Fesl, Wolfgang Utschick(参考訳) 本稿では,生成ニューラルネットワークに基づく変分オートエンコーダを用いたチャネル推定手法を提案する。 変分オートエンコーダは、真だが未知のチャネル分布を条件付きガウス分布として新しい方法でモデル化する。 導出チャネル推定器は、変分オートエンコーダの内部構造を利用して、条件付きガウスチャネルモデルから得られた平均二乗誤差最適推定器の近似をパラメータ化する。 変分オートエンコーダに基づく推定器が平均二乗誤差最適である条件下での厳密な解析を提供する。 そこで我々は,変分自己エンコーダに基づく推定器を実用化し,訓練・評価段階におけるチャネル知識へのアクセスに異なる3つの異なる推定器変種を提案する。 特に、ノイズのない地上の海峡データへのアクセスを必要としないため、ノイズの多いパイロット観測のみに基づいて訓練された推定器が特に注目すべきである。 大規模数値シミュレーションは,まず変分自己エンコーダに基づく推定器の内部挙動を解析し,関連する古典的および機械学習に基づく評価器と比較して優れたチャネル推定性能を示す。

In this manuscript, we propose to utilize the generative neural network-based variational autoencoder for channel estimation. The variational autoencoder models the underlying true but unknown channel distribution as a conditional Gaussian distribution in a novel way. The derived channel estimator exploits the internal structure of the variational autoencoder to parameterize an approximation of the mean squared error optimal estimator resulting from the conditional Gaussian channel models. We provide a rigorous analysis under which conditions a variational autoencoder-based estimator is mean squared error optimal. We then present considerations that make the variational autoencoder-based estimator practical and propose three different estimator variants that differ in their access to channel knowledge during the training and evaluation phase. In particular, the proposed estimator variant trained solely on noisy pilot observations is particularly noteworthy as it does not require access to noise-free, ground-truth channel data during training or evaluation. Extensive numerical simulations first analyze the internal behavior of the variational autoencoder-based estimators and then demonstrate excellent channel estimation performance compared to related classical and machine learning-based state-of-the-art channel estimators.
翻訳日:2023-07-12 14:27:52 公開日:2023-07-11
# 光トラップにおけるレーザー冷却分子の高密度負荷と衝突損失

High density loading and collisional loss of laser cooled molecules in an optical trap ( http://arxiv.org/abs/2307.05347v1 )

ライセンス: Link先を確認
Varun Jorapur, Thomas K. Langin, Qian Wang, Geoffrey Zheng, David DeMille(参考訳) バルクガス中で初めて分子-分子衝突を観測するのに十分な密度でのレーザー冷却分子の光トラップについて報告する。 赤色変調磁気光学トラップ(MOT)からのSrF分子は、青色変調MOTで圧縮冷却される。 これらの分子の約30%は、ピーク番号密度$n_0 \approx 3\times 10^{10} \text{cm}^{-3}$および温度$T\approx40$$\mu$Kの光双極子トラップにロードされる。 レート係数$\beta = 2.7^{+1.2}_{-0.8}\times 10^{-10} \text{ cm}^3 \text{ s}^{-1}$の2体損失を観測した。 この密度と温度を達成することで、レーザー冷却分子の量子縮退への蒸発冷却への道を開く。

We report optical trapping of laser-cooled molecules at sufficient density to observe molecule-molecule collisions for the first time in a bulk gas. SrF molecules from a red-detuned magneto-optical trap (MOT) are compressed and cooled in a blue-detuned MOT. Roughly 30% of these molecules are loaded into an optical dipole trap with peak number density $n_0 \approx 3\times 10^{10} \text{ cm}^{-3}$ and temperature $T\approx40$ $\mu$K. We observe two-body loss with rate coefficient $\beta = 2.7^{+1.2}_{-0.8}\times 10^{-10} \text{ cm}^3 \text{ s}^{-1}$. Achieving this density and temperature opens a path to evaporative cooling towards quantum degeneracy of laser-cooled molecules.
翻訳日:2023-07-12 14:27:06 公開日:2023-07-11
# 雑音ボソンサンプリングの古典的サンプリングと負の確率

Classical sampling from noisy Boson Sampling and the negative probabilities ( http://arxiv.org/abs/2307.05344v1 )

ライセンス: Link先を確認
Valery Shchesnovich(参考訳) 雑音として機能するボソンの識別性を持つ雑音ボソンサンプリングの出力分布は、有限次までの多重ボソン干渉を考慮に入れることで、ボソンの総数の時間多項式からおよそサンプリングできることが知られている。 このアプローチの欠点は、完全に区別可能なボソン、すなわち全く干渉しないボソンの結合確率も計算しなければならないことである。 単一ボソン確率のみの計算で区別可能なボソンからサンプリングする能力を復元しようとすると、凸-サム式における量子確率因子が有限個の多重ボソン干渉に切り替わる場合、ランダム干渉計において平均的に有限量の負性を持つという問題に直面している。 切り離された分布は適切なものとなり、多項式時間でサンプリングできるが、完全に区別可能なボソンに近い消滅した領域に限られる。 それにもかかわらず、ネガティビティ問題はノイズボソンサンプリングに対する全ての効率的な古典近似に固有のものであるという結論は早すぎるかもしれない。 私は、ソリューションを示すように思える、全く新しいプログラムの方向性を概説します。 しかし、その成功は対称群キャラクタの漸近的振舞いに依存し、それは未知である。

It is known that, by accounting for the multiboson interferences up to a finite order, the output distribution of noisy Boson Sampling, with distinguishability of bosons serving as noise, can be approximately sampled from in a time polynomial in the total number of bosons. The drawback of this approach is that the joint probabilities of completely distinguishable bosons, i.e., those that do not interfere at all, have to be computed also. In trying to restore the ability to sample from the distinguishable bosons with computation of only the single-boson probabilities, one faces the following issue: the quantum probability factors in a convex-sum expression, if truncated to a finite order of multiboson interference, have, on average, a finite amount of negativity in a random interferometer. The truncated distribution does become a proper one, while allowing for sampling from it in a polynomial time, only in a vanishing domain close to the completely distinguishable bosons. Nevertheless, the conclusion that the negativity issue is inherent to all efficient classical approximations to noisy Boson Sampling may be premature. I outline the direction for a whole new program, which seem to point to a solution. However its success depends on the asymptotic behavior of the symmetric group characters, which is not known.
翻訳日:2023-07-12 14:26:48 公開日:2023-07-11
# 非パラメトリックな帯域における最も重要なシフトの追跡

Tracking Most Significant Shifts in Nonparametric Contextual Bandits ( http://arxiv.org/abs/2307.05341v1 )

ライセンス: Link先を確認
Joe Suk and Samory Kpotufe(参考訳) リプシッツが報酬関数を意味する非パラメトリックな文脈帯域について、時間とともに変化する可能性がある。 まず、この最小限のダイナミックな後悔率を、変更数で$L$と総変量$V$で理解されていない設定で確立し、どちらも文脈空間上の分布のすべての変化を捉え、この設定では最先端の手続きが最適でないと主張する。 次に、私たちはこの設定に対する適応性の問題、すなわち$l$ や $v$ を知らずにminimaxレートを達成する傾向がある。 極めて重要なことは、与えられたコンテキストで局所的に見られるbandit問題は、他のコンテキスト空間の報酬変更である$\cal x$の影響を受けるべきではない、ということです。 したがって、我々は変化の概念を提案し、これは大きな変化を経験し、局所性をうまく考慮し、したがって$L$や$V$よりもかなり少ない変化を数えている。 さらに、非定常MAB(Suk & Kpotufe, 2022)に関する最近の研究と同様に、大きな変化は平均報酬の最も重要な変化(例えば、観測された文脈に関連する深刻なベストアームの変化)を数えることしかなかった。 私たちの主な成果は、このより寛容な変化の概念が実際に適応可能であることを示すことです。

We study nonparametric contextual bandits where Lipschitz mean reward functions may change over time. We first establish the minimax dynamic regret rate in this less understood setting in terms of number of changes $L$ and total-variation $V$, both capturing all changes in distribution over context space, and argue that state-of-the-art procedures are suboptimal in this setting. Next, we tend to the question of an adaptivity for this setting, i.e. achieving the minimax rate without knowledge of $L$ or $V$. Quite importantly, we posit that the bandit problem, viewed locally at a given context $X_t$, should not be affected by reward changes in other parts of context space $\cal X$. We therefore propose a notion of change, which we term experienced significant shifts, that better accounts for locality, and thus counts considerably less changes than $L$ and $V$. Furthermore, similar to recent work on non-stationary MAB (Suk & Kpotufe, 2022), experienced significant shifts only count the most significant changes in mean rewards, e.g., severe best-arm changes relevant to observed contexts. Our main result is to show that this more tolerant notion of change can in fact be adapted to.
翻訳日:2023-07-12 14:26:10 公開日:2023-07-11
# LLMを用いた競合レベルプログラミングソリューションの解説

Explaining Competitive-Level Programming Solutions using LLMs ( http://arxiv.org/abs/2307.05337v1 )

ライセンス: Link先を確認
Jierui Li, Szymon Tworkowski, Yingying Wu and Raymond Mooney(参考訳) 本稿では,推論とコード生成の複合タスクとして,競争レベルのプログラミング問題解決にアプローチする。 本稿では,自然言語を<problem, solution>}ペアに自動アノテートする新しい手法を提案する。 競合レベルのプログラミング問題では性能が劣るにもかかわらず、最先端のLLMは、ソリューションの説明と説明に強い能力を持っていることを示す。 説明生成手法は,説明と分析を含む問題の構造化解法を生成することができる。 注釈付き説明の質を評価するために,その効果を2つの側面から検討する。 1) 託宣ソリューションを作成した人間プログラミング専門家を満足させ, 2) LLM の問題解決を効果的に支援する。 CodeContestsデータセットの実験結果は、ソリューションを記述する上でLCM GPT3.5とGPT-4の能力は同等であるが、GPT-4はソリューションの背後にある重要なアイデアをよりよく理解していることを示している。

In this paper, we approach competitive-level programming problem-solving as a composite task of reasoning and code generation. We propose a novel method to automatically annotate natural language explanations to \textit{<problem, solution>} pairs. We show that despite poor performance in solving competitive-level programming problems, state-of-the-art LLMs exhibit a strong capacity in describing and explaining solutions. Our explanation generation methodology can generate a structured solution explanation for the problem containing descriptions and analysis. To evaluate the quality of the annotated explanations, we examine their effectiveness in two aspects: 1) satisfying the human programming expert who authored the oracle solution, and 2) aiding LLMs in solving problems more effectively. The experimental results on the CodeContests dataset demonstrate that while LLM GPT3.5's and GPT-4's abilities in describing the solution are comparable, GPT-4 shows a better understanding of the key idea behind the solution.
翻訳日:2023-07-12 14:24:36 公開日:2023-07-11
# 拡散モデルによるディープフェイク検知器の攻撃に対する脆弱性について

On the Vulnerability of DeepFake Detectors to Attacks Generated by Denoising Diffusion Models ( http://arxiv.org/abs/2307.05397v1 )

ライセンス: Link先を確認
Marija Ivanovska, Vitomir \v{S}truc(参考訳) 悪意のあるDeepfakesの検出は、最新のモデルによって生成された画像操作を確実に検出するために、検出器の継続的な監視を必要とする、常に進化する問題である。 本稿では,DDM(Denoising Diffusion Models)の最新の生成手法の代表者による攻撃に対して,単一像のDeepfake検出器の脆弱性を調査する予備的研究を行う。 私たちの実験は、一般的に使用されているベンチマークデータセットであるfaceforensics++上で行われます。 解析の結果,既存のディープフェイクの再現は,視覚的に知覚可能な画像変化を伴わずに,すべての検出器の精度を著しく低下させることがわかった。

The detection of malicious Deepfakes is a constantly evolving problem, that requires continuous monitoring of detectors, to ensure they are able to detect image manipulations generated by the latest emerging models. In this paper, we present a preliminary study that investigates the vulnerability of single-image Deepfake detectors to attacks created by a representative of the newest generation of generative methods, i.e. Denoising Diffusion Models (DDMs). Our experiments are run on FaceForensics++, a commonly used benchmark dataset, consisting of Deepfakes generated with various techniques for face swapping and face reenactment. The analysis shows, that reconstructing existing Deepfakes with only one denoising diffusion step significantly decreases the accuracy of all tested detectors, without introducing visually perceptible image changes.
翻訳日:2023-07-12 14:17:14 公開日:2023-07-11
# 畳み込みニューラルネットワークを用いた手書きテキスト認識

Handwritten Text Recognition Using Convolutional Neural Network ( http://arxiv.org/abs/2307.05396v1 )

ライセンス: Link先を確認
Atman Mishra, A. Sharath Ram, Kavyashree C(参考訳) OCR(Optical Character Recognition)は、文書を単にスキャンするだけで手書き文字や印刷文字を電子的速度で包括的に認識する技術である。 近年,視覚データの理解を知能文字認識(ICR)と呼ぶようになった。 Intelligent Character Recognition (ICR)は、手書き文字や印刷文字のスキャンをASCIIテキストに変換するOCRモジュールである。 ASCIIデータは、電子通信におけるデータ符号化の標準フォーマットである。 ASCIIは標準的な数値を文字、数字、シンボル、空白などの文字に割り当てる。 より技術的な意味では、OCRは2次元のテキスト情報を機械エンコードされたテキストに変換するために電子機器を使用するプロセスである。 機械または手書きのテキストを含むものは、スキャナーまたは単にテキストの画像をスキャンするだけで、認識システムがテキストを識別するのに十分である。 本論文の目的は,10万以上の画像を含むNational Institute of Science and Technology (NIST)データセットでトレーニングされた畳み込みニューラルネットワークモデルの結果を示すことである。 ネットワークは、画像から抽出された特徴から学習し、それを用いて、画像が属する各クラスの確率を生成する。 精度は90.54%、損失は2.53%でした。

OCR (Optical Character Recognition) is a technology that offers comprehensive alphanumeric recognition of handwritten and printed characters at electronic speed by merely scanning the document. Recently, the understanding of visual data has been termed Intelligent Character Recognition (ICR). Intelligent Character Recognition (ICR) is the OCR module that can convert scans of handwritten or printed characters into ASCII text. ASCII data is the standard format for data encoding in electronic communication. ASCII assigns standard numeric values to letters, numeral, symbols, white-spaces and other characters. In more technical terms, OCR is the process of using an electronic device to transform 2-Dimensional textual information into machine-encoded text. Anything that contains text both machine written or handwritten can be scanned either through a scanner or just simply a picture of the text is enough for the recognition system to distinguish the text. The goal of this papers is to show the results of a Convolutional Neural Network model which has been trained on National Institute of Science and Technology (NIST) dataset containing over a 100,000 images. The network learns from the features extracted from the images and use it to generate the probability of each class to which the picture belongs to. We have achieved an accuracy of 90.54% with a loss of 2.53%.
翻訳日:2023-07-12 14:16:59 公開日:2023-07-11
# ロバスト特徴学習のための確率ネスト構成二レベル最適化

Stochastic Nested Compositional Bi-level Optimization for Robust Feature Learning ( http://arxiv.org/abs/2307.05384v1 )

ライセンス: Link先を確認
Xuxing Chen, Krishnakumar Balasubramanian, Saeed Ghadimi(参考訳) ネスト型合成二段階最適化問題に対する確率近似アルゴリズムの開発と解析を行う。 これらの問題には、上層階における$t$ の非凸滑らかな関数の入れ子構成と、下層階における滑らかで強い凸関数が含まれる。 提案するアルゴリズムは行列の反転やミニバッチに依存しず、約$\tilde{o}_t(1/\epsilon^{2})$というoracleの複雑さを持つ$\epsilon$-stationaryソリューションを実現できる。 ここで$\tilde{o}_t$は、$t$に依存するポリログ因子と定数を隠蔽する。 この結果の確立における重要な課題は、確率勾配において3つの異なるバイアス源を扱うことである。 第1の源は上階の組成の性質から生まれ、第2の源は二階構造から始まり、第3の源は行列の反転を避けるためにノイマン級数近似を用いることによって現れる。 提案手法の有効性を実証するために,共変量シフト下でのディープニューラルネットワークの堅牢な特徴学習問題に適用し,その文脈における方法論の利点と利点を示す。

We develop and analyze stochastic approximation algorithms for solving nested compositional bi-level optimization problems. These problems involve a nested composition of $T$ potentially non-convex smooth functions in the upper-level, and a smooth and strongly convex function in the lower-level. Our proposed algorithm does not rely on matrix inversions or mini-batches and can achieve an $\epsilon$-stationary solution with an oracle complexity of approximately $\tilde{O}_T(1/\epsilon^{2})$, assuming the availability of stochastic first-order oracles for the individual functions in the composition and the lower-level, which are unbiased and have bounded moments. Here, $\tilde{O}_T$ hides polylog factors and constants that depend on $T$. The key challenge we address in establishing this result relates to handling three distinct sources of bias in the stochastic gradients. The first source arises from the compositional nature of the upper-level, the second stems from the bi-level structure, and the third emerges due to the utilization of Neumann series approximations to avoid matrix inversion. To demonstrate the effectiveness of our approach, we apply it to the problem of robust feature learning for deep neural networks under covariate shift, showcasing the benefits and advantages of our methodology in that context.
翻訳日:2023-07-12 14:16:22 公開日:2023-07-11
# 量子近似最適化アルゴリズムにおける類似性に基づくパラメータ転送可能性

Similarity-Based Parameter Transferability in the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2307.05420v1 )

ライセンス: Link先を確認
Alexey Galda, Eesh Gupta, Jose Falla, Xiaoyuan Liu, Danylo Lykov, Yuri Alexeev, and Ilya Safro(参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子強化組合せ最適化による量子優位性を達成するための最も有望な候補の1つである。 組合せ最適化問題に対する近似最適解は、量子回路パラメータの最適化を通じて量子状態を作成することによって得られる。 特殊MaxCut問題インスタンスに対する最適QAOAパラメータ濃度効果が観測されているが、厳密な研究はいまだ不十分である。 本研究では,特定の値を中心に最適なqaoaパラメータのクラスタリングを示す。その結果,グラフを構成するサブグラフ(ライトコーン)の種類やグラフ内のノードの全体度(パリティ)など,グラフの局所的な特性に基づいて,異なるqaoaインスタンス間のパラメータの転送可能性を説明し,予測することができる。 提案手法はノード数やパリティの異なるランダムグラフのいくつかのインスタンスに適用し、近似比の大きい大きなアクセプタグラフに対して最適なドナーグラフQAOAパラメータをほぼ最適パラメータとして使用できることを示す。 この研究は、QAOAのような変分量子アルゴリズムを著しく加速できる組合せ最適化インスタンスのクラスを特定するための経路を示す。

The quantum approximate optimization algorithm (QAOA) is one of the most promising candidates for achieving quantum advantage through quantum-enhanced combinatorial optimization. A near-optimal solution to the combinatorial optimization problem is achieved by preparing a quantum state through the optimization of quantum circuit parameters. Optimal QAOA parameter concentration effects for special MaxCut problem instances have been observed, but a rigorous study of the subject is still lacking. In this work we show clustering of optimal QAOA parameters around specific values; consequently, successful transferability of parameters between different QAOA instances can be explained and predicted based on local properties of the graphs, including the type of subgraphs (lightcones) from which graphs are composed as well as the overall degree of nodes in the graph (parity). We apply this approach to several instances of random graphs with a varying number of nodes as well as parity and show that one can use optimal donor graph QAOA parameters as near-optimal parameters for larger acceptor graphs with comparable approximation ratios. This work presents a pathway to identifying classes of combinatorial optimization instances for which variational quantum algorithms such as QAOA can be substantially accelerated.
翻訳日:2023-07-12 14:07:49 公開日:2023-07-11
# 非共鳴条件、ランダム行列および量子カオスモデル

No-resonance conditions, random matrices, and quantum chaotic models ( http://arxiv.org/abs/2307.05417v1 )

ライセンス: Link先を確認
Jonathon Riddell and Nathan Pagliaroli(参考訳) 本稿では,量子カオスおよびランダム行列モデルに対する非共鳴条件について検討する。 非共鳴条件はモデルのスペクトル上の特性であり、通常は遅延時間力学の解析において理論的な道具として用いられる。 第1次非共振条件はスペクトルが非退化であるときに成り立つが、高次非共振条件は、同じ数のエネルギーの和が指数の置換の外側で非退化することを暗示する。 この条件は通常、量子カオスモデルに当てはまると仮定される。 この研究では、ランダム行列理論からのいくつかのテストを用いて、1つ以上のエネルギーを含む全ての等しい和に対して非共鳴条件が違反することを示す。 これは、適切な対称性を解いた後にスペクトルのレベル移動が存在するためである。 この結果は量子カオスハミルトンモデルと2つのランダム行列モデルの両方で生成される。 次に、量子平衡理論における重要な境界を、条件が破られた場合、およびランダム行列モデルの場合に一般化する。

In this article we investigate no-resonance conditions for quantum chaotic and random matrix models. No-resonance conditions are properties on the spectrum of a model, usually employed as a theoretical tool in the analysis of late time dynamics. The first order no-resonance condition holds when a spectrum is non-degenerate, while higher order no-resonance conditions imply sums of an equal number of energies are non-degenerate outside of permutations of the indices. The condition is usually assumed to hold for quantum chaotic models. In this work we use several tests from random matrix theory to demonstrate that no-resonance conditions are likely to be violated for all equal sums containing greater than one energy. This is due to the presence of level-attraction in the spectra after resolving appropriate symmetries. This result is produced for both a quantum chaotic Hamiltonian and two random matrix models. We then generalize important bounds in quantum equilibration theory to a case where the conditions are violated, and to the case of random matrix models.
翻訳日:2023-07-12 14:07:27 公開日:2023-07-11
# Duncodeキャラクタの短縮

Duncode Characters Shorter ( http://arxiv.org/abs/2307.05414v1 )

ライセンス: Link先を確認
Changshang Xue(参考訳) 本稿では,文字をバイトに変換するテキスト変換における各種エンコーダの利用について検討する。 特定の文字を短いバイトにエンコードするASCIIやGB-2312といったローカルエンコーダや、より広いスペースでUnicodeセットをエンコードし広く受け入れられるUTF-8やUTF-16といったユニバーサルエンコーダについて議論している。 しかし、SCSU、BOCU-1、バイナリエンコーダなど他のエンコーダには自己同期機能がない。 Duncodeは、ローカルエンコーダに似た高空間効率でUnicode文字セット全体をエンコードすることを目的とした革新的なエンコーダ方式として導入された。 文字列の複数の文字を少ないバイトでダンコード単位に圧縮することができる。 識別情報の自己同期は少ないが、Duncodeは宇宙効率の点でUTF8を上回っている。 アプリケーションは \url{https://github.com/laohur/duncode} で入手できる。 さらに,様々な言語で文字エンコーダを評価するためのベンチマークも開発した。 179の言語を含み、 \url{https://github.com/laohur/wiki2txt}でアクセスできる。

This paper investigates the employment of various encoders in text transformation, converting characters into bytes. It discusses local encoders such as ASCII and GB-2312, which encode specific characters into shorter bytes, and universal encoders like UTF-8 and UTF-16, which can encode the complete Unicode set with greater space requirements and are gaining widespread acceptance. Other encoders, including SCSU, BOCU-1, and binary encoders, however, lack self-synchronizing capabilities. Duncode is introduced as an innovative encoding method that aims to encode the entire Unicode character set with high space efficiency, akin to local encoders. It has the potential to compress multiple characters of a string into a Duncode unit using fewer bytes. Despite offering less self-synchronizing identification information, Duncode surpasses UTF8 in terms of space efficiency. The application is available at \url{https://github.com/laohur/duncode}. Additionally, we have developed a benchmark for evaluating character encoders across different languages. It encompasses 179 languages and can be accessed at \url{https://github.com/laohur/wiki2txt}.
翻訳日:2023-07-12 14:07:11 公開日:2023-07-11
# 条件付きエントロピースクイージングは正規化されたエントロピーの不確実性関係を判断するだろうか?

Is the conditional entropy squeezing indicts the normalized entropic uncertainty relations steering? ( http://arxiv.org/abs/2307.05412v1 )

ライセンス: Link先を確認
A-S. F. Obada, M. Y. Abd-Rabbou and Saeed Haddadi(参考訳) 2量子ビット系の一方向正規化エントロピー不確かさ関係(neur)ステアリングを条件エントロピー平均スクイージングを用いて評価する新しい手法を提案する。 条件付きエントロピースクイージングと神経ステアリングの数学的表現を導出して提示する。 2つの測度間の関係をよりよく理解するために、2量子状態の集合上で比較分析を行う。 以上の結果から,両尺度は最大絡み合った状態に適用した場合に完全類似性を示す一方で,一部絡み合った状態に対して,小さな偏差で同等の挙動を示すことが明らかとなった。 さらに、この2つの測度は加速度、ノイズチャネル、スワッピングなどの量子過程によって比例的に影響を受けることが観察された。 その結果,条件付きエントロピースクイーズの平均値がNEURステアリングの有効な指標であることが判明した。

A novel approach is introduced to assess one-way Normalized Entropic Uncertainty Relations (NEUR)-steering in a two-qubit system by utilizing an average of conditional entropy squeezing. The mathematical expressions of conditional entropy squeezing and NEUR-steering are derived and presented. To gain a better understanding of the relationship between the two measures, a comparative analysis is conducted on a set of two-qubit states. Our results reveal that the two measures exhibit complete similarity when applied to a maximally entangled state, while they display comparable behavior with minor deviations for partially entangled states. Additionally, it is observed that the two measures are proportionally affected by some quantum processes such as acceleration, noisy channels, and swapping. As a result, the average of conditional entropy squeezing proves to be an effective indicator of NEUR-steering.
翻訳日:2023-07-12 14:06:54 公開日:2023-07-11
# BLUEX:ブラジルの先進大学入学eXamsに基づくベンチマーク

BLUEX: A benchmark based on Brazilian Leading Universities Entrance eXams ( http://arxiv.org/abs/2307.05410v1 )

ライセンス: Link先を確認
Thales Sales Almeida, Thiago Laitz, Giovana K. Bon\'as, Rodrigo Nogueira(参考訳) 最近の言語モデル(LM)の研究でよく見られる傾向は、評価に標準化されたテストを使うことである。 しかし、世界第5位の言語であるにもかかわらず、そのような評価はポルトガル語ではほとんど行われていない。 これは主に、ポルトガルでの評価を行うためにコミュニティが利用できる高品質なデータセットが欠如しているためである。 このギャップに対処するため,ブラジルの2大大学(UNICAMPとUSP)の入学試験データセットであるBLUEX(Leading Universities Entrance eXams)を紹介した。 データセットには、さまざまな主題におけるNLPモデルの性能を評価するための注釈付きメタデータが含まれている。 さらに、BLUEXは2023年現在、多くの人気のあるLMのトレーニングデータに含まれない、最近管理された試験のコレクションを含んでいる。 データセットはまた、各質問における画像の位置を示すように注釈付けされており、マルチモーダル言語理解と推論の最先端化に有用なリソースを提供する。 我々は、BLUEXの作成と特徴を説明し、最先端のLMによる実験を通じてベンチマークを確立し、ポルトガル語の自然言語理解と推論における最先端の進歩の可能性を示す。 データと関連するコードはhttps://github.com/Portuguese-Benchmark-Datasets/BLUEXで確認できる。

One common trend in recent studies of language models (LMs) is the use of standardized tests for evaluation. However, despite being the fifth most spoken language worldwide, few such evaluations have been conducted in Portuguese. This is mainly due to the lack of high-quality datasets available to the community for carrying out evaluations in Portuguese. To address this gap, we introduce the Brazilian Leading Universities Entrance eXams (BLUEX), a dataset of entrance exams from the two leading universities in Brazil: UNICAMP and USP. The dataset includes annotated metadata for evaluating the performance of NLP models on a variety of subjects. Furthermore, BLUEX includes a collection of recently administered exams that are unlikely to be included in the training data of many popular LMs as of 2023. The dataset is also annotated to indicate the position of images in each question, providing a valuable resource for advancing the state-of-the-art in multimodal language understanding and reasoning. We describe the creation and characteristics of BLUEX and establish a benchmark through experiments with state-of-the-art LMs, demonstrating its potential for advancing the state-of-the-art in natural language understanding and reasoning in Portuguese. The data and relevant code can be found at https://github.com/Portuguese-Benchmark-Datasets/BLUEX
翻訳日:2023-07-12 14:06:38 公開日:2023-07-11
# 単一衛星画像からの屋根断面の3次元検出とLOD2再建への応用

3D detection of roof sections from a single satellite image and application to LOD2-building reconstruction ( http://arxiv.org/abs/2307.05409v1 )

ライセンス: Link先を確認
Johann Lussange, Mulin Yu, Yuliya Tarabalka, Florent Lafarge(参考訳) 衛星ラスター画像から3Dで都市部を再構築することは、学術研究と産業研究の両方の長年の目標である。 現在この目的を達成するためのレアな方法は、幾何学に基づく手続き的アプローチに依存しており、入力にはステレオ画像やLIDARデータが必要である。 本稿では,2つの新しい特徴からなるkibs(\textit{keypoints inference by segmentation})と呼ばれる都市3次元再構成手法を提案する。 一 屋根部分の3次元検出のための完全な深層学習方法、及び 二 モデル入力として単一の(直交しない)衛星ラスター画像のみ。 これは2つのステップで達成される。 一 建物の屋根部分の2次元セグメンテーションを行うマスクr−cnnモデルにより、rgb衛星ラスター画像にこれらの後者のセグメンテーション画素を混合した後。 二 屋根の角の高さをパン光学的セグメンテーションにより推定する別の同一のマスクR-CNNモデルにより、建物及び都市の完全な3次元再構築を行う。 そこで本研究では,2つのデータセットrespに対して85.55\%$と75.21\%$の個別屋根断面の2dセグメンテーションのためのjaccardインデックスを用いて,各市街地を数分で再構成することで,kibs法の可能性を示す。 2つのデータセットで1.60$mと2.06$mの3D再構成のための、そのような正確なセグメント化ピクセルの平均誤差。 その結果,LOD2精度範囲内であった。

Reconstructing urban areas in 3D out of satellite raster images has been a long-standing and challenging goal of both academical and industrial research. The rare methods today achieving this objective at a Level Of Details $2$ rely on procedural approaches based on geometry, and need stereo images and/or LIDAR data as input. We here propose a method for urban 3D reconstruction named KIBS(\textit{Keypoints Inference By Segmentation}), which comprises two novel features: i) a full deep learning approach for the 3D detection of the roof sections, and ii) only one single (non-orthogonal) satellite raster image as model input. This is achieved in two steps: i) by a Mask R-CNN model performing a 2D segmentation of the buildings' roof sections, and after blending these latter segmented pixels within the RGB satellite raster image, ii) by another identical Mask R-CNN model inferring the heights-to-ground of the roof sections' corners via panoptic segmentation, unto full 3D reconstruction of the buildings and city. We demonstrate the potential of the KIBS method by reconstructing different urban areas in a few minutes, with a Jaccard index for the 2D segmentation of individual roof sections of $88.55\%$ and $75.21\%$ on our two data sets resp., and a height's mean error of such correctly segmented pixels for the 3D reconstruction of $1.60$ m and $2.06$ m on our two data sets resp., hence within the LOD2 precision range.
翻訳日:2023-07-12 14:06:18 公開日:2023-07-11
# Trotter24: ハミルトンシミュレーションのための高精度適応段階化

Trotter24: A precision-guaranteed adaptive stepsize Trotterization for Hamiltonian simulations ( http://arxiv.org/abs/2307.05406v1 )

ライセンス: Link先を確認
Tatsuhiko N. Ikeda, Keisuke Fujii(参考訳) 最適な時間ステップを$\delta t$を選択することは、トロッター化に基づく効率的なハミルトンシミュレーションには不可欠であるが、トロッター誤差の複雑な構造のため難しい。 ここでは,2階および4階のトロッタ化を数学的誤差境界に照らさずに組み合わせてトロッタ誤差を測定する手法を提案する。 この手法を実装して,約最大段数である$\delta t$ を適応的に使用するために trotter24 というアルゴリズムを構築し,誤差許容値 $\epsilon$ preset 内で量子回路を最も浅く保ちます。 トロッター24は時間依存のハミルトニアンを含む一般のハミルトニアンに適用され、任意のトロッター化の順序に一般化することができる。 量子スピンチェーンでベンチマークすると、適応的に選択された$\delta t$は、既知のトロッター誤差の上限から推定されるものより約10倍大きいことが分かる。 trotter24では、測定コストを支払う代わりに、量子回路をエラー許容範囲内で浅く保つことができます。

Choosing an optimal time step $\delta t$ is crucial for an efficient Hamiltonian simulation based on Trotterization but difficult due to the complex structure of the Trotter error. Here we develop a method measuring the Trotter error by combining the second- and fourth-order Trotterizations rather than consulting with mathematical error bounds. Implementing this method, we construct an algorithm, which we name Trotter24, for adaptively using almost the largest stepsize $\delta t$, which keeps quantum circuits shallowest, within an error tolerance $\epsilon$ preset for our purpose. Trotter24 applies to generic Hamiltonians, including time-dependent ones, and can be generalized to any orders of Trotterization. Benchmarking it in a quantum spin chain, we find the adaptively chosen $\delta t$ to be about ten times larger than that inferred from known upper bounds of Trotter errors. Trotter24 allows us to keep the quantum circuit thus shallower within the error tolerance in exchange for paying the cost of measurements.
翻訳日:2023-07-12 14:05:48 公開日:2023-07-11
# スコアからの適応学習による相互強化学習のフィードバック効率の向上

Boosting Feedback Efficiency of Interactive Reinforcement Learning by Adaptive Learning from Scores ( http://arxiv.org/abs/2307.05405v1 )

ライセンス: Link先を確認
Shukai Liu, Chenming Wu, Ying Li, Liangjun Zhang(参考訳) インタラクティブ強化学習は、複雑なロボットタスクの学習に有望である。 しかし、対話的なフィードバックが大量に必要となるため、このプロセスは人間に重くなりうる。 本稿では,対話型強化学習のフィードバック効率を向上させるために,人間によるスコアを用いた新しい手法を提案する。 私たちの重要な洞察は、スコアはペアの好みよりもはるかに多くのデータが得られるということです。 具体的には,スパース報酬環境下での行動方針を訓練するためには,エージェントの全軌道を対話的に得点する必要がある。 人間の不安定なスコアがトレーニングプロセスに悪影響を及ぼすのを避けるために,適応学習方式を提案する。 これにより、学習パラダイムは不完全なスコアや信頼できないスコアに敏感になる。 ロボットの移動と操作作業において,本手法を広範囲に評価した。 提案手法は, 相互選好学習法と比較して, フィードバックを少なくしながら, スコアから適応学習することで, 最適に近い政策を効率的に学習できることを示す。 ソースコードはhttps://github.com/SSKKai/Interactive-Scoring-IRLで公開されている。

Interactive reinforcement learning has shown promise in learning complex robotic tasks. However, the process can be human-intensive due to the requirement of large amount of interactive feedback. This paper presents a new method that uses scores provided by humans, instead of pairwise preferences, to improve the feedback efficiency of interactive reinforcement learning. Our key insight is that scores can yield significantly more data than pairwise preferences. Specifically, we require a teacher to interactively score the full trajectories of an agent to train a behavioral policy in a sparse reward environment. To avoid unstable scores given by human negatively impact the training process, we propose an adaptive learning scheme. This enables the learning paradigm to be insensitive to imperfect or unreliable scores. We extensively evaluate our method on robotic locomotion and manipulation tasks. The results show that the proposed method can efficiently learn near-optimal policies by adaptive learning from scores, while requiring less feedback compared to pairwise preference learning methods. The source codes are publicly available at https://github.com/SSKKai/Interactive-Scoring-IRL.
翻訳日:2023-07-12 14:05:27 公開日:2023-07-11
# 文書処理プラットフォームにおけるクラスインクリメンタル連続学習のためのドメインに依存しないニューラルアーキテクチャ

Domain-Agnostic Neural Architecture for Class Incremental Continual Learning in Document Processing Platform ( http://arxiv.org/abs/2307.05399v1 )

ライセンス: Link先を確認
Mateusz W\'ojcik, Witold Ko\'sciukiewicz, Mateusz Baran, Tomasz Kajdanowicz, Adam Gonczarek(参考訳) 複雑なシステムにおけるプロダクションデプロイメントでは、MLアーキテクチャは、複数のタスクに対して非常に効率的で有用である必要がある。 特に要求されるのは、データがストリーミング形式で到着し、各クラスが別々に提示される分類問題である。 確率的勾配学習を用いた最近の手法では、そのような設定に苦労したり、メモリバッファのような制限があったり、現実世界のシナリオでの使用を無効にする特定の領域に限定されていることが示されている。 そこで,我々は,各クラスからのサンプルが別々に提示された場合に,高性能分類器の訓練を可能にするエキスパートモデルの混合に基づく完全微分可能なアーキテクチャを提案する。 各種ドメインに適用可能であること,実運用環境でオンライン学習できることを実証する徹底的な実験を行った。 提案手法は,メモリバッファを使わずにSOTA結果が得られ,参照手法よりも明らかに優れている。

Production deployments in complex systems require ML architectures to be highly efficient and usable against multiple tasks. Particularly demanding are classification problems in which data arrives in a streaming fashion and each class is presented separately. Recent methods with stochastic gradient learning have been shown to struggle in such setups or have limitations like memory buffers, and being restricted to specific domains that disable its usage in real-world scenarios. For this reason, we present a fully differentiable architecture based on the Mixture of Experts model, that enables the training of high-performance classifiers when examples from each class are presented separately. We conducted exhaustive experiments that proved its applicability in various domains and ability to learn online in production environments. The proposed technique achieves SOTA results without a memory buffer and clearly outperforms the reference methods.
翻訳日:2023-07-12 14:05:10 公開日:2023-07-11
# 回折光による量子気体の長距離相互作用

Long-range interactions in a quantum gas mediated by diffracted light ( http://arxiv.org/abs/2307.05398v1 )

ライセンス: Link先を確認
Gordon Robb, Josh Walker, Gian-Luca Oppo and Thorsten Ackemann(参考訳) フィードバックミラーを介して光学場と相互作用するBECは、量子系における長距離相互作用のパラダイムモデルである量子ハミルトン平均場(HMF)モデルの実現である。 初期一様becで示される自己構造不安定性は、量子hmfモデルによって予測されるように進化し、強い駆動のために準周期的「ケボロン」ダイナミクスを示す。 弱駆動自己構造化では、BECと光学場は2状態量子系として振る舞い、空間的に均一な状態と空間的に周期的な状態の間を定期的に振動する。 また、安定な最適液滴の幅と、光ポンプ強度に対する液滴幅の依存性を予測する。 以上の結果から,bec中の原子間の光回折による相互作用は,量子hmfダイナミクスの実験的実現への道筋であり,長距離相互作用を含む量子系の研究に有用であることが示唆された。

A BEC interacting with an optical field via a feedback mirror can be a realisation of the quantum Hamiltonian Mean Field (HMF) model, a paradigmatic model of long-range interactions in quantum systems. We demonstrate that the self-structuring instability displayed by an initially uniform BEC can evolve as predicted by the quantum HMF model, displaying quasiperiodic "chevron" dynamics for strong driving. For weakly driven self-structuring, the BEC and optical field behave as a two-state quantum system, regularly oscillating between a spatially uniform state and a spatially periodic state. It also predicts the width of stable optomechanical droplets and the dependence of droplet width on optical pump intensity. The results presented suggest that optical diffraction-mediated interactions between atoms in a BEC may be a route to experimental realisation of quantum HMF dynamics and a useful analogue for studying quantum systems involving long-range interactions.
翻訳日:2023-07-12 14:04:55 公開日:2023-07-11
# コントラスト強調と発声に基づくバイオインスパイアされた夜間画像強調

Bio-Inspired Night Image Enhancement Based on Contrast Enhancement and Denoising ( http://arxiv.org/abs/2307.05447v1 )

ライセンス: Link先を確認
Xinyi Bai, Steffi Agino Priyanka, Hsiao-Jung Tung, and Yuankai Wang(参考訳) 夜間における多数の知的監視システムにおける物体検出と認識の精度が低いため、夜間画像の品質が重要である。 対応する昼間画像と比較すると、夜間画像は低輝度、低コントラスト、高ノイズとして特徴付けられる。 本稿では,低照度画像をより明るく鮮明なものに変換するために,バイオインスパイアされた画像強調アルゴリズムを提案する。 既存のバイオインスパイアされたアルゴリズムと異なり、提案手法はトレーニングシーケンスを一切使用せず、再帰関数の形式を使わずに、新しいコントラスト拡張とデノナイズアルゴリズムの連鎖に依存している。 本手法は夜間画像の明るさとコントラストを大幅に向上させることができる。 そして、実際の実験を行い、シミュレーション実験を行い、アルゴリズムをテストする。 両結果は, コントラスト対, meylan および retinex に対するアルゴリズムの利点を示す。

Due to the low accuracy of object detection and recognition in many intelligent surveillance systems at nighttime, the quality of night images is crucial. Compared with the corresponding daytime image, nighttime image is characterized as low brightness, low contrast and high noise. In this paper, a bio-inspired image enhancement algorithm is proposed to convert a low illuminance image to a brighter and clear one. Different from existing bio-inspired algorithm, the proposed method doesn't use any training sequences, we depend on a novel chain of contrast enhancement and denoising algorithms without using any forms of recursive functions. Our method can largely improve the brightness and contrast of night images, besides, suppress noise. Then we implement on real experiment, and simulation experiment to test our algorithms. Both results show the advantages of proposed algorithm over contrast pair, Meylan and Retinex.
翻訳日:2023-07-12 13:56:20 公開日:2023-07-11
# ISLTranslate:インド手話翻訳のためのデータセット

ISLTranslate: Dataset for Translating Indian Sign Language ( http://arxiv.org/abs/2307.05440v1 )

ライセンス: Link先を確認
Abhinav Joshi and Susmit Agrawal and Ashutosh Modi(参考訳) 手話は世界中の多くの難聴者にとって主要なコミュニケーション手段である。 近年,難聴者コミュニティと住民のコミュニケーションギャップを埋めるために,統計手話翻訳システムの開発を目的とした手話翻訳データセットがいくつか提案されている。 しかし、インド手話には手話の資源が不足している。 本論文では,31kのisl英語文/フレーズからなる連続インド手話用翻訳データセットisltranslateを紹介する。 私たちの知る限りでは、継続的なインド手話のための最大の翻訳データセットです。 データセットの詳細な分析を提供する。 音声言語翻訳システムにおける既存のエンドツーエンド手話の性能を検証するため,ISL翻訳のためのトランスフォーマーベースモデルを用いて,作成したデータセットをベンチマークした。

Sign languages are the primary means of communication for many hard-of-hearing people worldwide. Recently, to bridge the communication gap between the hard-of-hearing community and the rest of the population, several sign language translation datasets have been proposed to enable the development of statistical sign language translation systems. However, there is a dearth of sign language resources for the Indian sign language. This resource paper introduces ISLTranslate, a translation dataset for continuous Indian Sign Language (ISL) consisting of 31k ISL-English sentence/phrase pairs. To the best of our knowledge, it is the largest translation dataset for continuous Indian Sign Language. We provide a detailed analysis of the dataset. To validate the performance of existing end-to-end Sign language to spoken language translation systems, we benchmark the created dataset with a transformer-based model for ISL translation.
翻訳日:2023-07-12 13:55:47 公開日:2023-07-11
# 制限拡散モデルのためのメトロポリスサンプリング

Metropolis Sampling for Constrained Diffusion Models ( http://arxiv.org/abs/2307.05439v1 )

ライセンス: Link先を確認
Nic Fishman, Leo Klarner, Emile Mathieu, Michael Hutchinson, Valentin de Bortoli(参考訳) 拡散モデルは、最近、生成的モデリングの主要なパラダイムとして現れている。 リーマン多様体へのそれらの拡張は、自然科学における一連の問題への応用を促進した。 しかし、多くの実践的な設定において、そのような多様体は制約の集合によって定義され、既存の(リーマン)拡散モデル方法論ではカバーされない。 最近の研究は、対数障壁法や反射ブラウン運動に基づく新しいノーミングプロセスを用いることでこの問題に対処しようと試みている。 しかし、制約の複雑さが増大するにつれて、関連するサンプルは計算的に重荷となる。 本稿では,メトロポリスのサンプリングをベースとした,従来のサンプリング手法と比較して計算効率と経験的性能を大幅に向上させる手法を提案する。 独立利害関係において、この新しい過程は反射ブラウン運動の正当な離散化に対応することが証明される。 我々は,空間モデリング,ロボット工学,タンパク質設計などの応用を含む,凸制約や非凸制約を伴う様々な問題設定に対するアプローチのスケーラビリティと柔軟性を実証する。

Denoising diffusion models have recently emerged as the predominant paradigm for generative modelling. Their extension to Riemannian manifolds has facilitated their application to an array of problems in the natural sciences. Yet, in many practical settings, such manifolds are defined by a set of constraints and are not covered by the existing (Riemannian) diffusion model methodology. Recent work has attempted to address this issue by employing novel noising processes based on logarithmic barrier methods or reflected Brownian motions. However, the associated samplers are computationally burdensome as the complexity of the constraints increases. In this paper, we introduce an alternative simple noising scheme based on Metropolis sampling that affords substantial gains in computational efficiency and empirical performance compared to the earlier samplers. Of independent interest, we prove that this new process corresponds to a valid discretisation of the reflected Brownian motion. We demonstrate the scalability and flexibility of our approach on a range of problem settings with convex and non-convex constraints, including applications from geospatial modelling, robotics and protein design.
翻訳日:2023-07-12 13:55:36 公開日:2023-07-11
# ダイヤモンド磁気センサを用いたテンソルgradiometry

Tensor gradiometry with a diamond magnetometer ( http://arxiv.org/abs/2307.05438v1 )

ライセンス: Link先を確認
A. J. Newman, S. M. Graham, A. M. Edmonds, D. J. Twitchen, M. L. Markham and G. W. Morley(参考訳) ベクトル磁気学は、空間、防衛、医学、地質学、産業用途で使用される磁気探査のスカラー測定よりも多くの情報を提供する。 これらの領域は、極端な条件下で動作可能な移動ベクトル磁力計の恩恵を受ける。 ここでは, 走査繊維結合型窒素空洞(NV)中心ベクトル磁気センサを提案する。 マイクロ波励起周波数のフィードバック制御を用いて、センサヘッドの移動中にダイナミックレンジを改善し、感度を維持する。 nv中心の4つの方向の励起周波数シフトを追跡することで、損傷した鋼板のベクトル磁場を画像化することができる。 磁気テンソルgradiometryの画像をリアルタイムで計算し,ベクトル画像やスカラー画像よりも小さな損傷を検出できることを示した。

Vector magnetometry provides more information than scalar measurements for magnetic surveys utilized in space, defense, medical, geological and industrial applications. These areas would benefit from a mobile vector magnetometer that can operate in extreme conditions. Here we present a scanning fiber-coupled nitrogen vacancy (NV) center vector magnetometer. Feedback control of the microwave excitation frequency is employed to improve dynamic range and maintain sensitivity during movement of the sensor head. Tracking of the excitation frequency shifts for all four orientations of the NV center allow us to image the vector magnetic field of a damaged steel plate. We calculate the magnetic tensor gradiometry images in real time, and they allow us to detect smaller damage than is possible with vector or scalar imaging.
翻訳日:2023-07-12 13:55:20 公開日:2023-07-11
# ディープラーニングによるスマートウォッチ支払いのセキュリティ向上

Improving the Security of Smartwatch Payment with Deep Learning ( http://arxiv.org/abs/2307.05437v1 )

ライセンス: Link先を確認
George Webber(参考訳) スマートウォッチを使った非接触支払いはますます普及しているが、この支払い媒体は顔認証や指紋認証のような従来の生体認証手段を欠いている。 2022年、Sturgessらが開発したWatchAuthは、支払い端末に手を伸ばす物理的なジェスチャーを使ってスマートウォッチの支払いを認証するシステムだ。 有効ではあるが、システムはユーザーが許容できるエラーレベルを達成するために負担のかかるエンロラメント期間を経なければならない。 この論文では、ユーザーがスマートウォッチ決済の認証システムにエンロールするために必要なジェスチャーの数を減らすことができるかどうかを考察する。 まず,対象ユーザが限られた数のジェスチャを提供するシナリオを含む,最先端技術に勝る深層認証システムを構築する。 次に,合成ユーザ固有のジェスチャを生成するための正規化オートエンコーダモデルを開発した。 これらのジェスチャーをトレーニングで使用すると、認証システムの分類能力が向上することを示す。 この手法により,ユーザをwatchauthライクなシステムに取り込むのに必要なジェスチャの数を,エラー率に悪影響を与えることなく削減することができる。

Making contactless payments using a smartwatch is increasingly popular, but this payment medium lacks traditional biometric security measures such as facial or fingerprint recognition. In 2022, Sturgess et al. proposed WatchAuth, a system for authenticating smartwatch payments using the physical gesture of reaching towards a payment terminal. While effective, the system requires the user to undergo a burdensome enrolment period to achieve acceptable error levels. In this dissertation, we explore whether applications of deep learning can reduce the number of gestures a user must provide to enrol into an authentication system for smartwatch payment. We firstly construct a deep-learned authentication system that outperforms the current state-of-the-art, including in a scenario where the target user has provided a limited number of gestures. We then develop a regularised autoencoder model for generating synthetic user-specific gestures. We show that using these gestures in training improves classification ability for an authentication system. Through this technique we can reduce the number of gestures required to enrol a user into a WatchAuth-like system without negatively impacting its error rates.
翻訳日:2023-07-12 13:55:09 公開日:2023-07-11
# One-Versus-Othersの注意:スケーラブルなマルチモーダル統合

One-Versus-Others Attention: Scalable Multimodal Integration ( http://arxiv.org/abs/2307.05435v1 )

ライセンス: Link先を確認
Michal Golovanevsky, Eva Schiller, Akira Nair, Ritambhara Singh, Carsten Eickhoff(参考訳) マルチモーダル学習モデルは、質問応答から自動運転まで、さまざまなタスクにおける単一モダリティアプローチを上回ってますます重要になっている。 マルチモーダル学習の重要性にもかかわらず、既存の取り組みはNLPアプリケーションに焦点を合わせており、モダリティの数は典型的には4つ未満である(オーディオ、ビデオ、テキスト、画像)。 しかし、医療分野などの他の分野のデータ入力には、X線、PETスキャン、MRI、遺伝子スクリーニング、臨床ノートなどが含まれ、効率的かつ正確な情報融合の必要性が生じる可能性がある。 多くの最先端モデルは、ペアワイズ・クロスモーダル・アテンションに依存しており、3つ以上のモダリティを持つアプリケーションではうまくスケールしない。 n$モダリティの場合、コンピューティングの注意はn \choose 2$オペレーションとなり、かなりの量の計算リソースが必要になる可能性がある。 そこで本研究では,モダリティ数に線形にスケールし,n$の注意操作しか必要とせず,既存のクロスモーダル注意アルゴリズムと比較して計算量を大幅に削減する,新たなドメイン中立的注意機構であるone-versus-others(ovo) attentionを提案する。 3つの多様な実世界のデータセットと追加のシミュレーション実験を用いて,本手法は計算コストを低減しつつ,一般的な融合技術と比較して性能を向上することを示した。

Multimodal learning models have become increasingly important as they surpass single-modality approaches on diverse tasks ranging from question-answering to autonomous driving. Despite the importance of multimodal learning, existing efforts focus on NLP applications, where the number of modalities is typically less than four (audio, video, text, images). However, data inputs in other domains, such as the medical field, may include X-rays, PET scans, MRIs, genetic screening, clinical notes, and more, creating a need for both efficient and accurate information fusion. Many state-of-the-art models rely on pairwise cross-modal attention, which does not scale well for applications with more than three modalities. For $n$ modalities, computing attention will result in $n \choose 2$ operations, potentially requiring considerable amounts of computational resources. To address this, we propose a new domain-neutral attention mechanism, One-Versus-Others (OvO) attention, that scales linearly with the number of modalities and requires only $n$ attention operations, thus offering a significant reduction in computational complexity compared to existing cross-modal attention algorithms. Using three diverse real-world datasets as well as an additional simulation experiment, we show that our method improves performance compared to popular fusion techniques while decreasing computation costs.
翻訳日:2023-07-12 13:54:51 公開日:2023-07-11
# 偏微分方程式に対するリー対称性をもつ自己教師付き学習

Self-Supervised Learning with Lie Symmetries for Partial Differential Equations ( http://arxiv.org/abs/2307.05432v1 )

ライセンス: Link先を確認
Gr\'egoire Mialon, Quentin Garrido, Hannah Lawrence, Danyal Rehman, Yann LeCun, Bobak T. Kiani(参考訳) 微分方程式の機械学習は、計算的に効率的な数値解法に代わる方法であり、科学や工学に幅広い影響を及ぼす可能性がある。 現在のアルゴリズムは通常、所定の設定に合わせたシミュレーショントレーニングデータを必要とするが、代わりに不均一なソースから有用な情報や、乱雑で不完全な実際の力学系観測から学ぶことができる。 本研究では、コンピュータビジョンにおいて顕著な成功を収めた教師なし表現学習のフレームワークである自己教師付き学習(SSL)のための共同埋め込み手法を実装することにより、異種データからPDEの汎用表現を学習する。 我々の表現は、PDEの係数の回帰などの不変タスクに対するベースラインアプローチよりも優れており、ニューラルソルバのタイムステッピング性能も向上している。 提案手法がPDEの汎用基盤モデルの開発に有効であることを期待する。

Machine learning for differential equations paves the way for computationally efficient alternatives to numerical solvers, with potentially broad impacts in science and engineering. Though current algorithms typically require simulated training data tailored to a given setting, one may instead wish to learn useful information from heterogeneous sources, or from real dynamical systems observations that are messy or incomplete. In this work, we learn general-purpose representations of PDEs from heterogeneous data by implementing joint embedding methods for self-supervised learning (SSL), a framework for unsupervised representation learning that has had notable success in computer vision. Our representation outperforms baseline approaches to invariant tasks, such as regressing the coefficients of a PDE, while also improving the time-stepping performance of neural solvers. We hope that our proposed methodology will prove useful in the eventual development of general-purpose foundation models for PDEs.
翻訳日:2023-07-12 13:54:24 公開日:2023-07-11
# 幾何学的神経拡散過程

Geometric Neural Diffusion Processes ( http://arxiv.org/abs/2307.05431v1 )

ライセンス: Link先を確認
Emile Mathieu, Vincent Dutordoir, Michael J. Hutchinson, Valentin De Bortoli, Yee Whye Teh, Richard E. Turner(参考訳) デノイジング拡散モデルは、生成的モデリングの柔軟かつ効果的なパラダイムであることが証明されている。 最近の無限次元ユークリッド空間への拡張は確率過程のモデリングを可能にした。 しかし、自然科学における多くの問題は対称性を含み、非ユークリッド空間に住むデータを含んでいる。 本研究では、拡散モデルの枠組みを拡張し、無限次元モデリングに一連の幾何学的先行要素を組み込む。 私たちはそうします a) 制限分布として、関心の対称性群の下で変換する幾何学的ガウス過程を許容するノージング過程を構築すること、及び b) スコアを同変w.r.t.のニューラルネットワークで近似すること。 これらの条件で、生成関数モデルが同じ対称性を持つことを示す。 ユークリッドおよび球面コドメインを含む複雑なスカラー場とベクトル場を合成および実世界の気象データに適合させるため,新しいランゲヴィンベースの条件付きサンプル装置を用いて,モデルのスケーラビリティとキャパシティを実証する。

Denoising diffusion models have proven to be a flexible and effective paradigm for generative modelling. Their recent extension to infinite dimensional Euclidean spaces has allowed for the modelling of stochastic processes. However, many problems in the natural sciences incorporate symmetries and involve data living in non-Euclidean spaces. In this work, we extend the framework of diffusion models to incorporate a series of geometric priors in infinite-dimension modelling. We do so by a) constructing a noising process which admits, as limiting distribution, a geometric Gaussian process that transforms under the symmetry group of interest, and b) approximating the score with a neural network that is equivariant w.r.t. this group. We show that with these conditions, the generative functional model admits the same symmetry. We demonstrate scalability and capacity of the model, using a novel Langevin-based conditional sampler, to fit complex scalar and vector fields, with Euclidean and spherical codomain, on synthetic and real-world weather data.
翻訳日:2023-07-12 13:54:09 公開日:2023-07-11
# ブラックボックスdnnバックドア検出のためのトリガーと良性特徴の差分解析

Differential Analysis of Triggers and Benign Features for Black-Box DNN Backdoor Detection ( http://arxiv.org/abs/2307.05422v1 )

ライセンス: Link先を確認
Hao Fu, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami(参考訳) 本稿では,ブラックボックスシナリオ下でのバックドア攻撃に対するディープニューラルネットワークのデータ効率検出手法を提案する。 提案手法は,トリガに対応する特徴が他の良質な特徴よりもバックドア付きネットワークアウトプットを決定する上で大きな影響を与えるという直観性に動機づけられている。 バックドアネットワーク出力の決定におけるトリガーと良性特徴の影響を定量的に測定するために,5つの指標を紹介した。 与えられた入力の5次元値を計算するために,まず,入力の部分的内容をクリーンな検証サンプルに注入することにより,複数の合成サンプルを生成する。 そして、対応する合成サンプルの出力ラベルを用いて、5つのメトリクスを算出する。 この研究の貢献の1つは、小さなクリーンなバリデーションデータセットの使用である。 計算された5つのメトリクスを持つ5つの新しい検出器は、検証データセットからトレーニングされる。 メタノベルティ検出器は、5つの訓練されたノベルティ検出器の出力を融合してメタ信頼度スコアを生成する。 オンラインテスト中,メタノベルティ検出器が生成するメタ信頼度スコアを評価することにより,オンラインサンプルが有毒かどうかを判定する。 我々は,アブレーション研究や既存手法との比較など,幅広いバックドア攻撃による方法論の有効性を示す。 提案した5つの指標は, 清潔な試料と有毒な試料との違いを定量化する。 さらに、将来の高度な攻撃に対処するために提案される可能性のあるメトリクスを追加することにより、検出方法を段階的に改善することができる。

This paper proposes a data-efficient detection method for deep neural networks against backdoor attacks under a black-box scenario. The proposed approach is motivated by the intuition that features corresponding to triggers have a higher influence in determining the backdoored network output than any other benign features. To quantitatively measure the effects of triggers and benign features on determining the backdoored network output, we introduce five metrics. To calculate the five-metric values for a given input, we first generate several synthetic samples by injecting the input's partial contents into clean validation samples. Then, the five metrics are computed by using the output labels of the corresponding synthetic samples. One contribution of this work is the use of a tiny clean validation dataset. Having the computed five metrics, five novelty detectors are trained from the validation dataset. A meta novelty detector fuses the output of the five trained novelty detectors to generate a meta confidence score. During online testing, our method determines if online samples are poisoned or not via assessing their meta confidence scores output by the meta novelty detector. We show the efficacy of our methodology through a broad range of backdoor attacks, including ablation studies and comparison to existing approaches. Our methodology is promising since the proposed five metrics quantify the inherent differences between clean and poisoned samples. Additionally, our detection method can be incrementally improved by appending more metrics that may be proposed to address future advanced attacks.
翻訳日:2023-07-12 13:53:54 公開日:2023-07-11
# 開量子系におけるフラクトニック高次位相

Fractonic Higher-Order Topological Phases in Open Quantum Systems ( http://arxiv.org/abs/2307.05474v1 )

ライセンス: Link先を確認
Jian-Hao Zhang, Ke Ding, Shuo Yang, Zhen Bi(参考訳) 本研究では,非共役平均対称性保護位相(ASPT)位相の開放量子系への一般化を,サブシステム対称性と大域対称性の組み合わせで検討する。 特に、平均サブシステム対称性を持つ2種類の固有平均高次位相位相相の例を示す。 平均対称性の一般化された異常キャンセル基準に基づくこれらの位相の分類手法についても論じる。

In this work, we study the generalization of decohered average symmetry-protected topological (ASPT) phases to open quantum systems with a combination of subsystem symmetries and global symmetries. In particular, we provide examples of two types of intrinsic average higher-order topological phases with average subsystem symmetries. A classification scheme for these phases based on generalized anomaly cancellation criteria of average symmetry is also discussed.
翻訳日:2023-07-12 13:47:59 公開日:2023-07-11
# 微分可能なブロックの世界:プリミティブのレンダリングによる質的3d分解

Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives ( http://arxiv.org/abs/2307.05473v1 )

ライセンス: Link先を確認
Tom Monnier, Jake Austin, Angjoo Kanazawa, Alexei A. Efros, Mathieu Aubry(参考訳) シーンのキャリブレーションされた画像が与えられた場合、3Dプリミティブを用いてシンプルでコンパクトで動作可能な3D世界表現を生成するアプローチを提案する。 多くのアプローチは高忠実度3Dシーンの復元に重点を置いているが、我々はシーンを小さなテクスチャ化されたプリミティブからなる中級3D表現にパースすることに重点を置いている。 このような表現は解釈可能であり、操作が容易であり、物理ベースのシミュレーションに適している。 さらに,従来の3次元入力データに依存したプリミティブ分解法とは異なり,本手法は画像を直接操作する。 具体的には、プリミティブをテクスチャ化されたスーパークアッドリックメッシュとしてモデル化し、画像レンダリング損失でパラメータをスクラッチから最適化する。 我々は,各プリミティブに対する透明性のモデリングの重要性を強調し,最適化に欠かせないと同時に,プリミティブの数に応じた処理を可能にする。 その結果、テクスチャ化されたプリミティブは、入力画像を忠実に再構成し、視認可能な3dポイントを正確にモデル化し、被写体領域のアモーダル形状補完を提供する。 我々は,DTUの様々なシーンにおける芸術の状況と比較し,BlendedMVSとNerfstudioのリアルライフキャプチャの堅牢性を示す。 また、この結果を用いてシーンの編集や物理シミュレーションを行う方法についても紹介する。 コードとビデオの結果はhttps://www.tmonnier.com/dbwで入手できる。

Given a set of calibrated images of a scene, we present an approach that produces a simple, compact, and actionable 3D world representation by means of 3D primitives. While many approaches focus on recovering high-fidelity 3D scenes, we focus on parsing a scene into mid-level 3D representations made of a small set of textured primitives. Such representations are interpretable, easy to manipulate and suited for physics-based simulations. Moreover, unlike existing primitive decomposition methods that rely on 3D input data, our approach operates directly on images through differentiable rendering. Specifically, we model primitives as textured superquadric meshes and optimize their parameters from scratch with an image rendering loss. We highlight the importance of modeling transparency for each primitive, which is critical for optimization and also enables handling varying numbers of primitives. We show that the resulting textured primitives faithfully reconstruct the input images and accurately model the visible 3D points, while providing amodal shape completions of unseen object regions. We compare our approach to the state of the art on diverse scenes from DTU, and demonstrate its robustness on real-life captures from BlendedMVS and Nerfstudio. We also showcase how our results can be used to effortlessly edit a scene or perform physical simulations. Code and video results are available at https://www.tmonnier.com/DBW .
翻訳日:2023-07-12 13:47:52 公開日:2023-07-11
# スケールアローンはビジョンモデルにおける機械的解釈性を改善しない

Scale Alone Does not Improve Mechanistic Interpretability in Vision Models ( http://arxiv.org/abs/2307.05471v1 )

ライセンス: Link先を確認
Roland S. Zimmermann, Thomas Klein, Wieland Brendel(参考訳) 最近のAIシステムの普及により、ニューラルネットワークの内部情報処理を理解することがますます重要になっている。 最近では、ニューラルネットワークをデータセットやモデルサイズの前例のないレベルまで拡張することで、マシンビジョンが著しく進歩している。 ここでは、この異常なスケールの増加が機械的解釈可能性の分野にプラスの影響を及ぼすかどうかを問う。 言い換えれば、スケールドニューラルネットワークの内部動作に関する理解も改善されているのか? ここでは、心理物理学のパラダイムを用いて、多様なモデルのメカニスティックな解釈可能性の定量化と、解釈可能性に対するスケーリング効果を見出さない。 具体的には、調査された9つの最先端モデルは、ほぼ10年前のGoogLeNetモデルよりも容易に解釈できる。 最新世代のビジョンモデルは、古いアーキテクチャよりも解釈可能ではなさそうで、改善よりもレグレッションを示唆している。 これらの結果は、機械的に解釈できるように設計されたモデルの必要性と、原子レベルでのネットワークの理解を高めるためのより有用な解釈可能性手法の必要性を強調している。 我々は、9つのモデルにわたる767ユニットの精神物理学的評価から120万以上の人間の反応を含むデータセットを公表した。 このデータセットは、最終的にモデルの機械的な解釈可能性を直接最適化するために活用できる、人間ベースの解釈可能性評価ではなく、自動化の研究を容易にすることを目的としている。

In light of the recent widespread adoption of AI systems, understanding the internal information processing of neural networks has become increasingly critical. Most recently, machine vision has seen remarkable progress by scaling neural networks to unprecedented levels in dataset and model size. We here ask whether this extraordinary increase in scale also positively impacts the field of mechanistic interpretability. In other words, has our understanding of the inner workings of scaled neural networks improved as well? We here use a psychophysical paradigm to quantify mechanistic interpretability for a diverse suite of models and find no scaling effect for interpretability - neither for model nor dataset size. Specifically, none of the nine investigated state-of-the-art models are easier to interpret than the GoogLeNet model from almost a decade ago. Latest-generation vision models appear even less interpretable than older architectures, hinting at a regression rather than improvement, with modern models sacrificing interpretability for accuracy. These results highlight the need for models explicitly designed to be mechanistically interpretable and the need for more helpful interpretability methods to increase our understanding of networks at an atomic level. We release a dataset containing more than 120'000 human responses from our psychophysical evaluation of 767 units across nine models. This dataset is meant to facilitate research on automated instead of human-based interpretability evaluations that can ultimately be leveraged to directly optimize the mechanistic interpretability of models.
翻訳日:2023-07-12 13:47:28 公開日:2023-07-11
# My3DGen:軽量パーソナライズされた3D生成モデルの構築

My3DGen: Building Lightweight Personalized 3D Generative Model ( http://arxiv.org/abs/2307.05468v1 )

ライセンス: Link先を確認
Luchao Qi, Jiaye Wu, Shengze Wang, Soumyadip Sengupta(参考訳) 本稿では,10枚の画像を用いてパーソナライズされた軽量な3d生成システムmy3dgenを提案する。 My3DGenは、入力されたテスト画像から多視点一貫した画像を再構成し、同一人物の任意の2つの画像を補間することにより、新しい外観を生成する。 近年の研究では、高品質な2次元像再構成と合成を創出する上で、パーソナライズド・ジェネレーティブ・プレファレンスの有効性が実証されているが、私たちの知る限りでは、パーソナライズド・ジェネレーティブ・プレファレンスの開発は初めてである。 パーソナライズを実現するために,数百万のパラメータで事前学習された大規模生成モデルを微調整する代わりに,パラメータ効率のよい手法を提案する。 提案手法では,各畳み込み層と完全連結層における重みの低ランク分解により,個別の個別化事前を訓練しながら,固定重み付き事前学習モデルを利用する。 しかし、パラメーター効率の良いマイナルショットの微調整は、しばしば過剰フィッティングに繋がる。 そこで本研究では,人間の顔の対称性に基づく正規化手法を提案する。 この正規化は、対称的なポーズからレンダリングされたトレーニングサンプルの新しいビューレンダリングが同一のアイデンティティを示すことを強制する。 この対称性を事前に組み込むことにより、特に非面的(プロファイル)顔に対して、再構成と合成の質を高める。 我々の最終システムは低ランク微調整と対称性の正則化を組み合わせ、例えばEG3Dのような事前学習モデルの性能を大幅に上回る。 1単位あたりのパラメータはわずか0.6百万で、オリジナルのモデルの完全な微調整は31百万である。 その結果, 生成した3次元面の品質を犠牲にすることなく, モデルサイズを50倍に削減できることがわかった。 コードはこちらのプロジェクトページから利用できます。

Our paper presents My3DGen, a practical system for creating a personalized and lightweight 3D generative prior using as few as 10 images. My3DGen can reconstruct multi-view consistent images from an input test image, and generate novel appearances by interpolating between any two images of the same individual. While recent studies have demonstrated the effectiveness of personalized generative priors in producing high-quality 2D portrait reconstructions and syntheses, to the best of our knowledge, we are the first to develop a personalized 3D generative prior. Instead of fine-tuning a large pre-trained generative model with millions of parameters to achieve personalization, we propose a parameter-efficient approach. Our method involves utilizing a pre-trained model with fixed weights as a generic prior, while training a separate personalized prior through low-rank decomposition of the weights in each convolution and fully connected layer. However, parameter-efficient few-shot fine-tuning on its own often leads to overfitting. To address this, we introduce a regularization technique based on symmetry of human faces. This regularization enforces that novel view renderings of a training sample, rendered from symmetric poses, exhibit the same identity. By incorporating this symmetry prior, we enhance the quality of reconstruction and synthesis, particularly for non-frontal (profile) faces. Our final system combines low-rank fine-tuning with symmetry regularization and significantly surpasses the performance of pre-trained models, e.g. EG3D. It introduces only approximately 0.6 million additional parameters per identity compared to 31 million for full finetuning of the original model. As a result, our system achieves a 50-fold reduction in model size without sacrificing the quality of the generated 3D faces. Code will be available at our project page: https://luchaoqi.github.io/my3dgen.
翻訳日:2023-07-12 13:46:56 公開日:2023-07-11
# 非線形パルス伝搬における量子ノイズダイナミクス

Quantum noise dynamics in nonlinear pulse propagation ( http://arxiv.org/abs/2307.05464v1 )

ライセンス: Link先を確認
Edwin Ng, Ryotatsu Yanagimoto, Marc Jankowski, M. M. Fejer, Hideo Mabuchi(参考訳) 分散波動導波路における超高速パルスの伝搬は、空間と時間の両方で強い磁場閉じ込めを示すが、全光プラットフォームにおける単一光子非線形性への有望な道である。 しかし、そのようなシステムの量子工学は、複雑な多重モードと非線形量子力学を利用するために、新しい数値ツールと物理的な洞察を必要とする。 本研究では,広帯域量子揺らぎと絡み合いを含む相関の非線形ダイナミクスを捉えるために,自己整合型マルチモードガウス状態モデルを用いた。 特に、ガウス状態によるパラメトリゼーションにもかかわらず、このモデルは平均場と量子相関の両方において非線形ダイナミクスを示し、従来の量子ノイズの線形化処理、特に利得飽和と強い非線形性を示すシステムに対して顕著な利点を与える。 古典的超高速非線形光学で用いられる高効率なSSF法を自然に一般化するガウス分割ステップフーリエ法(GSSF)の形式をとり、GSSFの方程式は$O(M^2\log M)$時間と$O(M^2)$量子相関を持つ$M$モード系で評価する。 GSSFの広範適用性を示すため,超高速システムにおける量子ノイズダイナミクスとマルチモードエンタングルメントを,3次(\chi^{(3)}$)導波路の正準ソリトン伝搬から飽和$\chi^{(2)}$ブロードバンドパラメトリック生成および超連続生成,例えば近年のニオブ酸リチウムナノフォトニクスで実証されたような超高速システムにおいて,数値的に検討した。

The propagation of ultrafast pulses in dispersion-engineered waveguides, exhibiting strong field confinement in both space and time, is a promising avenue towards single-photon nonlinearities in an all-optical platform. However, quantum engineering in such systems requires new numerical tools and physical insights to harness their complicated multimode and nonlinear quantum dynamics. In this work, we use a self-consistent, multimode Gaussian-state model to capture the nonlinear dynamics of broadband quantum fluctuations and correlations, including entanglement. Notably, despite its parametrization by Gaussian states, our model exhibits nonlinear dynamics in both the mean field and the quantum correlations, giving it a marked advantage over conventional linearized treatments of quantum noise, especially for systems exhibiting gain saturation and strong nonlinearities. Numerically, our approach takes the form of a Gaussian split-step Fourier (GSSF) method, naturally generalizing highly efficient SSF methods used in classical ultrafast nonlinear optics; the equations for GSSF evaluate in $O(M^2\log M)$ time for an $M$-mode system with $O(M^2)$ quantum correlations. To demonstrate the broad applicability of GSSF, we numerically study quantum noise dynamics and multimode entanglement in several ultrafast systems, from canonical soliton propagation in third-order ($\chi^{(3)}$) waveguides to saturated $\chi^{(2)}$ broadband parametric generation and supercontinuum generation, e.g., as recently demonstrated in thin-film lithium niobate nanophotonics.
翻訳日:2023-07-12 13:46:23 公開日:2023-07-11
# egocentric video-language pre-training with fusion in the backbone

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone ( http://arxiv.org/abs/2307.05463v1 )

ライセンス: Link先を確認
Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, and Pengchuan Zhang(参考訳) ビデオ言語事前学習(VLP)は、様々な視覚や言語タスクに一般化できるため、ますます重要になっている。 しかし、既存の自我中心のVLPフレームワークでは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学習し、統一システムの開発を制限している。 本研究では,ビデオと言語のバックボーンに直接クロスモーダル融合を組み込むことにより,前世代から大幅に改善された,エゴセントリックなビデオ言語事前学習(EgoVLPv2)の第2世代を紹介する。 egovlpv2は事前トレーニング中に強いビデオテキスト表現を学び、異なる下流タスクを柔軟かつ効率的な方法でサポートするためにクロスモーダルアテンションモジュールを再利用し、微調整コストを削減する。 さらに、バックボーン戦略の融合は、追加の融合固有の層を積み重ねるよりも軽量で計算効率が高い。 幅広いVLタスクに対する広範な実験は、全下流の強いベースラインに対して一貫した最先端性能を達成することで、EgoVLPv2の有効性を示す。 プロジェクトのページはhttps://shramanpramanick.github.io/egovlpv2/で閲覧できます。

Video-language pre-training (VLP) has become increasingly important due to its ability to generalize to various vision and language tasks. However, existing egocentric VLP frameworks utilize separate video and language encoders and learn task-specific cross-modal information only during fine-tuning, limiting the development of a unified system. In this work, we introduce the second generation of egocentric video-language pre-training (EgoVLPv2), a significant improvement from the previous generation, by incorporating cross-modal fusion directly into the video and language backbones. EgoVLPv2 learns strong video-text representation during pre-training and reuses the cross-modal attention modules to support different downstream tasks in a flexible and efficient manner, reducing fine-tuning costs. Moreover, our proposed fusion in the backbone strategy is more lightweight and compute-efficient than stacking additional fusion-specific layers. Extensive experiments on a wide range of VL tasks demonstrate the effectiveness of EgoVLPv2 by achieving consistent state-of-the-art performance over strong baselines across all downstream. Our project page can be found at https://shramanpramanick.github.io/EgoVLPv2/.
翻訳日:2023-07-12 13:45:49 公開日:2023-07-11
# 層状表面積を有する高能率3次元Articulated Human Generation

Efficient 3D Articulated Human Generation with Layered Surface Volumes ( http://arxiv.org/abs/2307.05462v1 )

ライセンス: Link先を確認
Yinghao Xu, Wang Yifan, Alexander W. Bergman, Menglei Chai, Bolei Zhou, Gordon Wetzstein(参考訳) 高品質で多様な3d関節付きデジタルヒューマンアセットへのアクセスは、仮想現実からソーシャルプラットフォームまで、さまざまなアプリケーションにおいて不可欠である。 3D生成敵ネットワーク(GAN)のような生成的アプローチは、手作業によるコンテンツ作成ツールを急速に置き換えている。 しかし、既存の3D GANフレームワークは一般的に、高速だが品質が限られているテンプレートメッシュや、高キャパシティを提供するがレンダリングが遅いボリュームを利用するシーン表現に依存しているため、GAN設定における3D忠実度が制限される。 本研究では,デジタル人間のための新しい3次元オブジェクト表現として,層状表面体積(LSV)を導入する。 LSVは、従来のテンプレートの周りの複数のテクスチャメッシュ層を使用して、人間の体を表現する。 これらの層は、高速微分可能なラスタ化を伴うアルファ合成を用いてレンダリングされ、テンプレートの周りの有限厚の多様体にその容量を割り当てる体積表現として解釈することができる。 従来の単層テンプレートは、毛髪やアクセサリーのような表面の細かい細部を表現するのに苦労していました。 2Dジェネレータは個々のレイヤのRGBAテクスチャを合成することを学ぶ。 LSV-GANは、構造化されていない単一の2D画像データセットに基づいて、ビュー一貫性のない2Dアップサンプリングネットワークを必要とせず、高品質でビュー一貫性のあるデジタル人間を生成する。

Access to high-quality and diverse 3D articulated digital human assets is crucial in various applications, ranging from virtual reality to social platforms. Generative approaches, such as 3D generative adversarial networks (GANs), are rapidly replacing laborious manual content creation tools. However, existing 3D GAN frameworks typically rely on scene representations that leverage either template meshes, which are fast but offer limited quality, or volumes, which offer high capacity but are slow to render, thereby limiting the 3D fidelity in GAN settings. In this work, we introduce layered surface volumes (LSVs) as a new 3D object representation for articulated digital humans. LSVs represent a human body using multiple textured mesh layers around a conventional template. These layers are rendered using alpha compositing with fast differentiable rasterization, and they can be interpreted as a volumetric representation that allocates its capacity to a manifold of finite thickness around the template. Unlike conventional single-layer templates that struggle with representing fine off-surface details like hair or accessories, our surface volumes naturally capture such details. LSVs can be articulated, and they exhibit exceptional efficiency in GAN settings, where a 2D generator learns to synthesize the RGBA textures for the individual layers. Trained on unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality and view-consistent 3D articulated digital humans without the need for view-inconsistent 2D upsampling networks.
翻訳日:2023-07-12 13:45:26 公開日:2023-07-11
# 連続体における多体境界状態

Many-Body Bound States in the Continuum ( http://arxiv.org/abs/2307.05456v1 )

ライセンス: Link先を確認
Shoki Sugimoto, Yuto Ashida, Masahito Ueda(参考訳) 連続体(BIC)の有界状態は、拡張された固有状態の連続スペクトルにある空間的に有界なエネルギー固有状態である。 文献には様々な種類の単粒子BICが発見されているが、BICが真に多体系に存在するか否かは決定的ではない。 ここでは,2粒子セクターでBICをホストすることが知られていた魅力的な不純物ポテンシャルを持つ1次元Bose-Hubbard鎖に多体BICが存在することの数値的および解析的な証拠を提供する。 また,多体BICは,実験的に調製できる単純な初期状態から始めると,系の熱化を防止できることを示した。

A bound state in the continuum (BIC) is a spatially bounded energy eigenstate lying in a continuous spectrum of extended eigenstates. While various types of single-particle BICs have been found in the literature, whether or not BICs can exist in genuinely many-body systems remains inconclusive. Here, we provide numerical and analytical pieces of evidence for the existence of many-body BICs in a one-dimensional Bose-Hubbard chain with an attractive impurity potential, which was previously known to host a BIC in the two-particle sector. We also demonstrate that the many-body BICs prevent the system from thermalization when one starts from simple initial states that can be prepared experimentally.
翻訳日:2023-07-12 13:45:01 公開日:2023-07-11
# 類型的特徴を持つNLPモデルの言語間挙動試験の強化

Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features ( http://arxiv.org/abs/2307.05454v1 )

ライセンス: Link先を確認
Ester Hlavnova, Sebastian Ruder(参考訳) 世界の言語のためのnlpシステムを開発するための課題は、現実世界のアプリケーションに関連するタイプ論的差異にどのように一般化するかを理解することである。 そこで本研究では,NLPモデルの動作テストのための形態的認識フレームワークであるM2Cを提案する。 我々は、M2Cを用いて、12の類型的多様言語における特定の言語的特徴に照らして、モデルの振る舞いを探索するテストを生成する。 生成したテストで最先端の言語モデルを評価する。 モデルは英語のほとんどのテストで優れているが、スワヒリ語の時相表現や完了時の複合所有物のような特定のタイプ的特徴に対する一般化の失敗を強調する。 我々の発見は、これらの盲点に対処するモデルの開発を動機付けている。

A challenge towards developing NLP systems for the world's languages is understanding how they generalize to typological differences relevant for real-world applications. To this end, we propose M2C, a morphologically-aware framework for behavioral testing of NLP models. We use M2C to generate tests that probe models' behavior in light of specific linguistic features in 12 typologically diverse languages. We evaluate state-of-the-art language models on the generated tests. While models excel at most tests in English, we highlight generalization failures to specific typological characteristics such as temporal expressions in Swahili and compounding possessives in Finish. Our findings motivate the development of models that address these blind spots.
翻訳日:2023-07-12 13:44:48 公開日:2023-07-11