このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230621となっている論文です。

PDF登録状況(公開日: 20230621)

TitleAuthorsAbstract論文公表日・翻訳日
# HirGenによるディープラーニングコンパイラのファジィ化

Fuzzing Deep Learning Compilers with HirGen ( http://arxiv.org/abs/2208.02193v5 )

ライセンス: Link先を確認
Haoyang Ma, Qingchao Shen, Yongqiang Tian, Junjie Chen, Shing-Chi Cheung(参考訳) ディープラーニング(DL)コンパイラは、多様なハードウェアへの効率的なデプロイメントのために、高度なDLモデルを最適化するために広く採用されている。 それらの品質は、コンパイルされたDLモデルの品質に大きな影響を与えます。 最近のバグスタディでは、ハイレベル中間表現(ir)の最適化が最もエラーやすいコンパイルステージであることが示されている。 この段階でのバグは全体の44.92%を占める。 しかし、既存のテスト技術は、ハイレベル最適化に関連する機能(例えば、ハイレベルir)を考慮していないため、この段階でのバグの露見には弱い。 このギャップを埋めるために,高レベルirの最適化において,コーディングミスを効果的に顕在化することを目的とした自動テスト技術であるhirgenを提案する。 HirGenの設計には 1) 多様な有効な計算グラフを生成するための3つのカバレッジ基準 2) 多様なIRを生成するために高レベルIR言語の特徴をフル活用すること。 3) 差分テストとメタモルフィックテストの両方からインスパイアされた3つのテストオラクル。 hirgenは、tvmで発生した21のバグを検出し、17のバグが確認された。 さらに,最先端のDLコンパイラファジィを用いて,高レベル最適化段階をカバーする4つのベースラインを構築する。 実験の結果,HirGenは48時間以内にベースラインで検出できない10のクラッシュや不整合を検出することができた。 さらに,提案するカバレッジ基準の有用性を検証し,評価中のオラクルをテストする。

Deep Learning (DL) compilers are widely adopted to optimize advanced DL models for efficient deployment on diverse hardware. Their quality has profound effect on the quality of compiled DL models. A recent bug study shows that the optimization of high-level intermediate representation (IR) is the most error-prone compilation stage. Bugs in this stage are accountable for 44.92% of the whole collected ones. However, existing testing techniques do not consider high-level optimization related features (e.g. high-level IR), and are therefore weak in exposing bugs at this stage. To bridge this gap, we propose HirGen, an automated testing technique that aims to effectively expose coding mistakes in the optimization of high-level IR. The design of HirGen includes 1) three coverage criteria to generate diverse and valid computational graphs; 2) full use of high-level IRs language features to generate diverse IRs; 3) three test oracles inspired from both differential testing and metamorphic testing. HirGen has successfully detected 21 bugs that occur at TVM, with 17 bugs confirmed and 12 fixed. Further, we construct four baselines using the state-of-the-art DL compiler fuzzers that can cover the high-level optimization stage. Our experiment results show that HirGen can detect 10 crashes and inconsistencies that cannot be detected by the baselines in 48 hours. We further validate the usefulness of our proposed coverage criteria and test oracles in evaluation.
翻訳日:2023-10-24 15:19:39 公開日:2023-06-21
# ソースコードのニューラルモデルにおけるトロイの木馬の調査:分類学と技術

A Survey of Trojans in Neural Models of Source Code: Taxonomy and Techniques ( http://arxiv.org/abs/2305.03803v4 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Toufique Ahmed, Navid Ayoobi, Bowen Xu, Prem Devanbu, Mohammad Amin Alipour(参考訳) 本研究では,説明可能なaiと安全なaiで文献を研究し,コードのニューラルモデルの毒殺を理解する。 そこで我々はまず,コードに対するトロイの木馬aiの新しい分類法を確立し,ニューラルモデルにおけるトリガーのアスペクトに基づく新しい分類法を提案する。 次に、これらのモデルがどのようにソフトウェアコードを理解するかという概念を深めるのに役立つ最近の作業について強調する。 そして、そのようなモデルを操作するのに使用できる最近の最先端の毒殺戦略をいくつか取り上げる。 私たちが描く洞察は、コードのためのトロイの木馬AI領域における将来の研究を促進するのに役立つでしょう。

In this work, we study literature in Explainable AI and Safe AI to understand poisoning of neural models of code. In order to do so, we first establish a novel taxonomy for Trojan AI for code, and present a new aspect-based classification of triggers in neural models of code. Next, we highlight recent works that help us deepen our conception of how these models understand software code. Then we pick some of the recent, state-of-art poisoning strategies that can be used to manipulate such models. The insights we draw can potentially help to foster future research in the area of Trojan AI for code.
翻訳日:2023-10-24 12:03:31 公開日:2023-06-21
# マイクロサービスの採用は開発速度に影響を与えるか? コホート研究。 登録済みのレポート

Does Microservices Adoption Impact the Development Velocity? A Cohort Study. A Registered Report ( http://arxiv.org/abs/2306.02034v2 )

ライセンス: Link先を確認
Nyyti Saarimaki and Mikel Robredo and Sira vegas and Natalia Juristo and David Taibi and Valentina Lenarduzzi(参考訳) [コンテキスト] マイクロサービスはアプリケーションの小さな独立したサービスへの分解を可能にします。 サービス間の独立性はプロジェクトの開発速度に肯定的な影響を与える可能性がある。 しかし、マイクロサービスと開発速度の関係についての研究は行われていない。 目的と方法] この研究計画の目的は、マイクロサービスが開発速度に与える影響を調べることです。 この調査では、最初からマイクロサービスを採用するgithubプロジェクトと、モノリシックアーキテクチャを使用した同様のプロジェクトを比較している。 本研究は,コホート研究手法を用いて,高いレベルのエビデンスを得るために考案した。 結果] この作業の結果、マイクロサービスの開発速度が効果的に向上することを確認できます。 さらに,本研究では,コホート研究手法を取り入れた最初の研究である経験的手法の知識の体系に寄与する。

[Context] Microservices enable the decomposition of applications into small and independent services connected together. The independence between services could positively affect the development velocity of a project, which is considered an important metric measuring the time taken to implement features and fix bugs. However, no studies have investigated the connection between microservices and development velocity. [Objective and Method] The goal of this study plan is to investigate the effect microservices have on development velocity. The study compares GitHub projects adopting microservices from the beginning and similar projects using monolithic architectures. We designed this study using a cohort study method, to enable obtaining a high level of evidence. [Results] The result of this work enables the confirmation of the effective improvement of the development velocity of microservices. Moreover, this study will contribute to the body of knowledge of empirical methods being among the first works adopting the cohort study methodology.
翻訳日:2023-10-24 04:34:19 公開日:2023-06-21
# デジタル双生児の発達, 維持, 運用の現況: インタビュー研究

Current Trends in Digital Twin Development, Maintenance, and Operation: An Interview Study ( http://arxiv.org/abs/2306.10085v2 )

ライセンス: Link先を確認
Hossain Muhammad Muctadir, David A. Manrique Negrin, Raghavendran Gunasekaran, Loek Cleophas, Mark van den Brand, Boudewijn R. Haverkort(参考訳) デジタルツイン(DT)はしばしば、物理エンティティと対応する仮想エンティティのペアリングとして定義され、ユースケースに応じて前者の特定の側面を模倣する。 近年、この概念は、設計から検証、大規模および小規模のハイテクシステムの予測保守まで、数多くのユースケースを促進している。 産学界でも学界でも人気があるが、デジタル双生児の発達と維持の方法論は大きく異なる。 これらの相違点と類似点をよりよく理解するために、産業・学界の専門家19人と、対応するデジタル双生児のライフサイクルステージに密接な関係を持つ半構造化インタビュー研究を行った。 本稿では,8つの研究課題(RQ)に基づいて,本研究から得られた分析と知見について述べる。 本研究の結果について述べる。 一般に,デジタル双生児の理解の観点からは,全体的な統一性の欠如が指摘され,その発達と維持のためのツール,技法,方法論が用いられた。 さらに、デジタル双生児がソフトウェア集約システムであることを考えると、デジタル双生児のライフサイクルの様々な段階において、ソフトウェア工学のプラクティス、プロセス、専門知識をより多く採用する上で、大きな成長の可能性を認識します。

Digital twins (DT) are often defined as a pairing of a physical entity and a corresponding virtual entity mimicking certain aspects of the former depending on the use-case. In recent years, this concept has facilitated numerous use-cases ranging from design to validation and predictive maintenance of large and small high-tech systems. Although growing in popularity in both industry and academia, digital twins and the methodologies for developing and maintaining them differ vastly. To better understand these differences and similarities, we performed a semi-structured interview research study with 19 professionals from industry and academia who are closely associated with different lifecycle stages of the corresponding digital twins. In this paper, we present our analysis and findings from this study, which is based on eight research questions (RQ). We present our findings per research question. In general, we identified an overall lack of uniformity in terms of the understanding of digital twins and used tools, techniques, and methodologies for their development and maintenance. Furthermore, considering that digital twins are software intensive systems, we recognize a significant growth potential for adopting more software engineering practices, processes, and expertise in various stages of a digital twin's lifecycle.
翻訳日:2023-10-23 19:25:55 公開日:2023-06-21
# クラウドネイティブなアーキテクチャ特性とソフトウェア品質への影響:バリデーション調査

Cloud-Native Architectural Characteristics and their Impacts on Software Quality: A Validation Survey ( http://arxiv.org/abs/2306.12532v1 )

ライセンス: Link先を確認
Robin Lichtenth\"aler, Jonas Fritzsch, Guido Wirtz(参考訳) クラウドネイティブアーキテクチャは、しばしばマイクロサービスに基づいており、ソフトウェア開発にクラウドプラットフォームの能力を活用しようとするさまざまな側面を組み合わせる。 パターンやベストプラクティスのようなクラウドネイティブなアーキテクチャ特性は、システムの設計、開発、デプロイ、運用を最小限の時間と労力で効率的に行うことを目的としています。 しかし、アーキテクトや開発者は、選択された品質特性を改善するために、そのような特徴をターゲットとして適用するという課題に直面している。 したがって、クラウドネイティブアプリケーションのアーキテクチャ特性と品質面の関係、あるいはより具体的には影響について検討することを目指している。 アーキテクチャの特徴は、最近提案したクラウドネイティブソフトウェアアーキテクチャの品質モデルに基づいています。 その要素を検証し,文献に基づく品質モデルを改訂するために,42人のソフトウェア専門家を対象にアンケート調査を行った。 調査の結果は品質モデルをある程度強化する一方で、修正が必要な部分も示している。 そこで,追加の貢献として,調査結果を組み込んだ品質モデルの更新版を提案する。 クラウドネイティブアプリケーションを品質指向で設計し、開発する場合、実践者は私たちの仕事の恩恵を受けるでしょう。 さらに、研究者たちは、階層的品質モデルのような複雑な構造を調査できる、特別に開発したアンケートベースの調査ツールから利益を得るでしょう。

Cloud-native architectures are often based on microservices and combine different aspects that aim to leverage the capabilities of cloud platforms for software development. Cloud-native architectural characteristics like patterns and best practices aim to design, develop, deploy, and operate such systems efficiently with minimal time and effort. However, architects and developers are faced with the challenge of applying such characteristics in a targeted manner to improve selected quality attributes. Hence, we aim to investigate relationships, or more specifically impacts, between architectural characteristics of cloud-native applications, and quality aspects. The architectural characteristics in consideration are based on our recently proposed quality model for cloud-native software architectures. To validate its elements and revise this literature-based quality model, we conducted a questionnaire-based survey among 42 software professionals. While the survey results reinforce the quality model to a fair extent, they also indicate parts requiring a revision. Thus, as an additional contribution, we present an updated version of the quality model incorporating the survey results. Practitioners will benefit from our work when designing and developing cloud-native applications in a quality-oriented way. Researchers will moreover profit from our specifically developed questionnaire-based survey tool, which allows surveying complex structures like a hierarchical quality model.
翻訳日:2023-10-23 19:06:12 公開日:2023-06-21
# ユーザストーリー品質評価ツールとしてのChatGPT:信頼に値するアウトオブザボックス?

ChatGPT as a tool for User Story Quality Evaluation: Trustworthy Out of the Box? ( http://arxiv.org/abs/2306.12132v1 )

ライセンス: Link先を確認
Krishna Ronanki, Beatriz Cabrero-Daniel, and Christian Berger(参考訳) アジャイルソフトウェア開発では、エンドユーザのニーズを捉えて伝達し、機能を優先順位付けし、開発チーム内のコミュニケーションとコラボレーションを促進する上で、ユーザストーリが重要な役割を果たします。 しかし、ユーザーストーリーを評価する自動化手法は、NLPツールでのトレーニングを必要とし、開発と統合に時間がかかる。 本研究では,ユーザストーリーの品質評価にChatGPTを用い,その性能を既存のベンチマークと比較する。 本研究は,ChatGPTの評価が人間の評価とよく一致していることを示し,出力安定性を向上させるための「3つのうちのベスト」戦略を提案する。 また、AIにおける信頼性の概念と、ChatGPTの未処理出力を用いた非専門家への影響についても論じる。 本研究は,ユーザストーリー評価におけるAIの信頼性と適用性を理解することに貢献し,今後の研究に推奨する。

In Agile software development, user stories play a vital role in capturing and conveying end-user needs, prioritizing features, and facilitating communication and collaboration within development teams. However, automated methods for evaluating user stories require training in NLP tools and can be time-consuming to develop and integrate. This study explores using ChatGPT for user story quality evaluation and compares its performance with an existing benchmark. Our study shows that ChatGPT's evaluation aligns well with human evaluation, and we propose a ``best of three'' strategy to improve its output stability. We also discuss the concept of trustworthiness in AI and its implications for non-experts using ChatGPT's unprocessed outputs. Our research contributes to understanding the reliability and applicability of AI in user story evaluation and offers recommendations for future research.
翻訳日:2023-10-23 19:05:36 公開日:2023-06-21
# prompt sapper:aiチェーン構築のためのllm組み込み生産ツール

Prompt Sapper: A LLM-Empowered Production Tool for Building AI Chains ( http://arxiv.org/abs/2306.12028v1 )

ライセンス: Link先を確認
Yu Cheng, Jieshan Chen, Qing Huang, Zhenchang Xing, Xiwei Xu and Qinghua Lu(参考訳) 大規模言語モデル(LLM) GPT-4 やテキスト・ツー・イメージモデル DALL-E といった基礎モデルの出現は、様々な領域に可能性を広げている。 自然言語(即ちプロンプト)を使ってAIとコミュニケーションしてタスクを実行できるようになった。 チャットボット(例えばChatGPT)を通じて基礎モデルを使用できるが、基礎となるモデルの能力に関係なく、チャットは再利用可能なAIサービスを構築するための生産ツールではない。 LangChainのようなAPIは、LLMベースのアプリケーション開発を可能にするが、かなりのプログラミング知識を必要とするため、障壁となる。 これを緩和するために、AIチェーンの概念を提案し、AIチェーンエンジニアリング方法論を体系化するために、ソフトウェア工学で何十年にもわたって蓄積されてきたベストプラクティスとプラクティスを導入します。 また、AIチェーンの構築プロセスにおいて、これらのAIチェーンのエンジニアリング原則とパターンを自然に具現化したコード統合開発環境であるPrompt Sapperを開発し、AIチェーンのパフォーマンスと品質を改善します。 Prompt Sapperを使用することで、AIチェーンエンジニアは、チャットベースの要求分析とビジュアルプログラミングを通じて、基礎モデルの上にプロンプトベースのAIサービスを構成できる。 本研究は,Prompt Sapperの有効性と妥当性について検討した。

The emergence of foundation models, such as large language models (LLMs) GPT-4 and text-to-image models DALL-E, has opened up numerous possibilities across various domains. People can now use natural language (i.e. prompts) to communicate with AI to perform tasks. While people can use foundation models through chatbots (e.g., ChatGPT), chat, regardless of the capabilities of the underlying models, is not a production tool for building reusable AI services. APIs like LangChain allow for LLM-based application development but require substantial programming knowledge, thus posing a barrier. To mitigate this, we propose the concept of AI chain and introduce the best principles and practices that have been accumulated in software engineering for decades into AI chain engineering, to systematise AI chain engineering methodology. We also develop a no-code integrated development environment, Prompt Sapper, which embodies these AI chain engineering principles and patterns naturally in the process of building AI chains, thereby improving the performance and quality of AI chains. With Prompt Sapper, AI chain engineers can compose prompt-based AI services on top of foundation models through chat-based requirement analysis and visual programming. Our user study evaluated and demonstrated the efficiency and correctness of Prompt Sapper.
翻訳日:2023-10-23 19:05:22 公開日:2023-06-21
# 部分符号におけるFQNの解法と構文誤差の修正のためのAIベースの解の連鎖

A Chain of AI-based Solutions for Resolving FQNs and Fixing Syntax Errors in Partial Code ( http://arxiv.org/abs/2306.11981v1 )

ライセンス: Link先を確認
Qing Huang, Jiahui Zhu, Zhenchang Xing, Huan Jin, Changjing Wang, Xiwei Xu(参考訳) APIドキュメント、テクニカルブログ、プログラミングQ&Aサイトには、プログラミングタスクで再利用できる多数の部分的なコードが含まれているが、多くの場合、未解決の名前と構文エラーのためにコンパイルできない。 部分的コードの再利用を容易にするために,完全修飾名(FQN)の解決とChatGPTのような巨大言語モデル(LLM)に基づく部分的コードにおける最終マイル構文エラーの修正のための部分的コード再利用チェーン(PCR-Chain)を提案する。 PCR-Chainは、基本的なグローバルレベルのプロンプトアーキテクチャ(階層的なタスクの分解、プロンプト構成、そしてプロンプトベースのAIと非AIユニットの混合)とローカルレベルのプロンプト設計によって支えられている。 技術的には,シンボリックでコストのかかる訓練手法ではなく,文脈内学習を用いたPCR-Chainを提案する。 実験の結果、動的型付け言語(Python)では、PCR-ChainはRINGのように現在の最先端(SOTA)の精度を5%上回ることがわかった。 静的型言語(Java)では,非FQNとラストマイル構文エラーの解決において80.5%の精度を実現し,ラストマイル構文エラーにのみ対応可能なSOTAメソッド(RING)を超越した。 ユニット、モジュール、PCR-Chainの正しい実行は、迅速な設計、構成、アーキテクチャの有効性を示し、従来のプログラム分析手法を置き換えるLLMに基づいたソフトウェアエンジニアリングツールを構築する可能性を開く。

API documentation, technical blogs and programming Q&A sites contain numerous partial code that can be reused in programming tasks, but often these code are uncompilable due to unresolved names and syntax errors. To facilitate partial code reuse, we propose the Partial Code Reuse Chain (PCR-Chain) for resolving fully-qualified names (FQNs) and fixing last-mile syntax errors in partial code based on a giant large language model (LLM) like ChatGPT. Methodologically, PCR-Chain is backed up by the underlying global-level prompt architecture (which combines three design ideas: hierarchical task breakdown, prompt composition, and a mix of prompt-based AI and non-AI units) and the local-level prompt design. Technically, we propose PCR-Chain, which employs in-context learning rather than symbolic, costly training methods. Experimental results demonstrate that in dynamically-typed languages (Python), PCR-Chain outperforms current state-of-the-art (SOTA) 5% accuracy like RING. For statically-type languages (Java), our approach achieves high accuracy of 80.5% in resolving both non-FQNs and last-mile syntax errors, surpassing SOTA methods (RING) that can only address last-mile syntax errors. The correct execution of the unit, module, and PCR-Chain demonstrates the effectiveness of the prompt design, composition, and architecture and opens up possibilities for building software engineering tools based on LLMs, replacing traditional program analysis methods.
翻訳日:2023-10-23 19:05:02 公開日:2023-06-21
# 言語モデルを用いたフレークテスト修正カテゴリのブラックボックス予測

Black-Box Prediction of Flaky Test Fix Categories Using Language Models ( http://arxiv.org/abs/2307.00012v1 )

ライセンス: Link先を確認
Sakina Fatima, Hadi Hemmati, Lionel Briand(参考訳) 不安定なテストは、非決定的に同じソフトウェアバージョンをテスト中にパスまたは失敗し、混乱と開発者の時間の浪費を引き起こすため、問題となる。 機械学習モデルは、フレキネスとその根本原因を予測するために使用されているが、問題を解決するためのサポートを提供する作業は少ない。 このギャップに対処するために、13の修正カテゴリのラベル付きデータセットを自動的に生成するフレームワークを提案し、テストコードのみを分析して、不安定なテストの修正カテゴリを予測するモデルを訓練する。 この段階では、修正自体を正確に予測することは非現実的だが、これらのカテゴリは、テストコードのどの部分を見るべきかの正確なガイダンスを提供する。 我々のアプローチは言語モデル、すなわちCodeBERTとUniXcoderに基づいており、その出力はFeed Forward Neural Network(FNN)またはSiamese NetworkベースのFew Shot Learning(FSL)で微調整されている。 実験の結果、UnixcoderはCodeBERTよりも優れており、開発者が適用すべき修正のカテゴリの大部分を正しく予測する。 さらに、FSLは大きな効果を示さない。 ほとんどの修正カテゴリで得られた高い精度を考えると、提案されたフレームワークは、開発者が不安定なテストを迅速かつ正確に修正するのに役立つ可能性があります。将来の研究を支援するために、自動ラベリングツール、データセット、予測モデル、実験インフラストラクチャを一般公開します。

Flaky tests are problematic because they non-deterministically pass or fail for the same software version under test, causing confusion and wasting developer time. While machine learning models have been used to predict flakiness and its root causes, there is less work on providing support to fix the problem. To address this gap, we propose a framework that automatically generates labeled datasets for 13 fix categories and train models to predict the fix category of a flaky test by analyzing the test code only. Though it is unrealistic at this stage to accurately predict the fix itself, the categories provide precise guidance about what part of the test code to look at. Our approach is based on language models, namely CodeBERT and UniXcoder, whose output is fine-tuned with a Feed Forward Neural Network (FNN) or a Siamese Network-based Few Shot Learning (FSL). Our experimental results show that UniXcoder outperforms CodeBERT, in correctly predicting most of the categories of fixes a developer should apply. Furthermore, FSL does not appear to have any significant effect. Given the high accuracy obtained for most fix categories, our proposed framework has the potential to help developers to fix flaky tests quickly and accurately.To aid future research, we make our automated labeling tool, dataset, prediction models, and experimental infrastructure publicly available.
翻訳日:2023-07-09 14:03:12 公開日:2023-06-21
# サブグラフ定置ハードウェア推論共同設計

Subgraph Stationary Hardware-Software Inference Co-Design ( http://arxiv.org/abs/2306.17266v1 )

ライセンス: Link先を確認
Payman Behnam, Jianming Tong, Alind Khare, Yangyu Chen, Yue Pan, Pranav Gadikar, Abhimanyu Rajeshkumar Bambhaniya, Tushar Krishna, Alexey Tumanov(参考訳) 多くのアプリケーションは機械学習(ML)機能に依存しており、高品質なML予測とより良いタイムライン(レイテンシ)の両方から恩恵を受けている。 コンピュータアーキテクチャ、ML、システムソフトウェアに関する研究の活発化は、MLモデルのレイテンシ-精度トレードオフの改善に焦点を当てている。 圧縮、量子化、プルーニング、アーリーエグジットモデル、混合DNN精度、納入精度を保ちながらレイテンシとエネルギを最小化するML推論アクセラレーション設計などである。 しかし、これらすべてがレイテンシー-精度トレードオフ空間における単一の静的ポイントの改善をもたらす。 ひとつの静的ポイントが最適でない動的に変化するデプロイメントシナリオで動作しているアプリケーションのケースを作成します。 我々は、最近提案された重み付きSuperNetメカニズムを利用して、重み付き構造内で異なるSubNetを使用するクエリのストリームを提供する。 これにより、提案したSubGraph Stationary (SGS) 最適化により、時間的局所性を利用する機会が生まれる。 我々は、SushiAccelにおけるSGSの実実装と、どのSubNetを提供するか、何をリアルタイムにキャッシュするかを制御するソフトウェアスケジューラSushiSchedを実装したハードウェア-ソフトウェア共同設計アプローチを採用する。 合わせて寿司屋に垂直に統合される。 問合せのストリームでは、寿司のレイテンシが最大25%向上し、サービス精度が0.98%向上している。 SUSHIは最大78.7%のオフチップエネルギーを節約できる。

A growing number of applications depend on Machine Learning (ML) functionality and benefits from both higher quality ML predictions and better timeliness (latency) at the same time. A growing body of research in computer architecture, ML, and systems software literature focuses on reaching better latency-accuracy tradeoffs for ML models. Efforts include compression, quantization, pruning, early-exit models, mixed DNN precision, as well as ML inference accelerator designs that minimize latency and energy, while preserving delivered accuracy. All of them, however, yield improvements for a single static point in the latency-accuracy tradeoff space. We make a case for applications that operate in dynamically changing deployment scenarios, where no single static point is optimal. We draw on a recently proposed weight-shared SuperNet mechanism to enable serving a stream of queries that uses (activates) different SubNets within this weight-shared construct. This creates an opportunity to exploit the inherent temporal locality with our proposed SubGraph Stationary (SGS) optimization. We take a hardware-software co-design approach with a real implementation of SGS in SushiAccel and the implementation of a software scheduler SushiSched controlling which SubNets to serve and what to cache in real-time. Combined, they are vertically integrated into SUSHI-an inference serving stack. For the stream of queries, SUSHI yields up to 25% improvement in latency, 0.98% increase in served accuracy. SUSHI can achieve up to 78.7% off-chip energy savings.
翻訳日:2023-07-09 13:59:50 公開日:2023-06-21
# 塩分に基づく説明法の総合的感度評価

Evaluating the overall sensitivity of saliency-based explanation methods ( http://arxiv.org/abs/2306.13682v1 )

ライセンス: Link先を確認
Harshinee Sriram and Cristina Conati(参考訳) 我々は「ブラックボックス」ディープラーニングモデルの忠実な説明を作成する必要性に対処する。 説明手法の忠実性の側面を決定するためにいくつかの試験が提案されているが、ドメイン間の適用性や厳密な方法論は欠如している。 したがって,複数の説明法の忠実性(すなわち,感度)の1つの側面を比較するのに適したモデル非依存で既存のテストを選択し,形式的なthresh-oldsの指定と,説明法の過度な感度を決定するための基準の構築により,それを拡張する。 本稿では,この拡張手法を用いて畳み込みニューラルネットワークの複数の説明手法を比較できる例を示す。 最後に,感度と忠実性の関係を考察し,他の領域における異なる説明方法を評価するためにテストをどのように適用できるかを検討する。

We address the need to generate faithful explanations of "black box" Deep Learning models. Several tests have been proposed to determine aspects of faithfulness of explanation methods, but they lack cross-domain applicability and a rigorous methodology. Hence, we select an existing test that is model agnostic and is well-suited for comparing one aspect of faithfulness (i.e., sensitivity) of multiple explanation methods, and extend it by specifying formal thresh-olds and building criteria to determine the over-all sensitivity of the explanation method. We present examples of how multiple explanation methods for Convolutional Neural Networks can be compared using this extended methodology. Finally, we discuss the relationship between sensitivity and faithfulness and consider how the test can be adapted to assess different explanation methods in other domains.
翻訳日:2023-07-02 13:36:02 公開日:2023-06-21
# 証拠に基づく意思決定の価値の推定

Estimating the Value of Evidence-Based Decision Making ( http://arxiv.org/abs/2306.13681v1 )

ライセンス: Link先を確認
Alberto Abadie, Anish Agarwal, Guido Imbens, Siwei Jia, James McQueen and Serguei Stepaniants(参考訳) ビジネス/政治の決定は、しばしばランダムな実験や観察的な研究の証拠に基づいている。 本稿では,エビデンスに基づく意思決定(EBDM)の価値と,統計的精度に対する投資の回帰を推定する実証的枠組みを提案する。

Business/policy decisions are often based on evidence from randomized experiments and observational studies. In this article we propose an empirical framework to estimate the value of evidence-based decision making (EBDM) and the return on the investment in statistical precision.
翻訳日:2023-07-02 13:35:47 公開日:2023-06-21
# GPTモデルとシミュレーション:シミュレーションタスク全体にわたって大規模事前学習言語モデルを効果的に活用する方法

GPT-Based Models Meet Simulation: How to Efficiently Use Large-Scale Pre-Trained Language Models Across Simulation Tasks ( http://arxiv.org/abs/2306.13679v1 )

ライセンス: Link先を確認
Philippe J. Giabbanelli(参考訳) ChatGPTやGPT-4のような大規模事前学習言語モデル(LLM)によって提供される破壊的技術は、いくつかのアプリケーション領域において大きな注目を集めており、多くの場合、高いレベルの機会や関心事に重点を置いている。 本論文は,科学シミュレーションにおけるLSMの使用に関する最初の考察である。 我々は4つのモデリングタスクとシミュレーションタスクに注目し,各ステップに関するモデラーに実践的なガイダンスを提供しながら,llmの期待する利益と限界を評価する。 最初の課題は、モデリングプロセスにおける参加者の関与を促進する概念モデルの構造を説明することである。 第2のタスクはシミュレーション出力の要約に重点を置いており、モデルユーザーが望ましいシナリオを識別できるようにしている。 第3のタスクは、テキストによるシミュレーション可視化の洞察を伝えることによって、シミュレーションプラットフォームへのアクセシビリティの拡大を目指している。 最後に、最後のタスクは、シミュレーションエラーを説明し、それらを解決するためのガイダンスを提供する可能性を引き起こす。

The disruptive technology provided by large-scale pre-trained language models (LLMs) such as ChatGPT or GPT-4 has received significant attention in several application domains, often with an emphasis on high-level opportunities and concerns. This paper is the first examination regarding the use of LLMs for scientific simulations. We focus on four modeling and simulation tasks, each time assessing the expected benefits and limitations of LLMs while providing practical guidance for modelers regarding the steps involved. The first task is devoted to explaining the structure of a conceptual model to promote the engagement of participants in the modeling process. The second task focuses on summarizing simulation outputs, so that model users can identify a preferred scenario. The third task seeks to broaden accessibility to simulation platforms by conveying the insights of simulation visualizations via text. Finally, the last task evokes the possibility of explaining simulation errors and providing guidance to resolve them.
翻訳日:2023-07-02 13:35:43 公開日:2023-06-21
# 自然言語処理を活用した授業会議の自動評価

Utilizing Natural Language Processing for Automated Assessment of Classroom Discussion ( http://arxiv.org/abs/2306.14918v1 )

ライセンス: Link先を確認
Nhat Tran, Benjamin Pierce, Diane Litman, Richard Correnti and Lindsay Clare Matsumura(参考訳) 高レベルの思考と推論を行う学生を支援する厳密で対話的なクラスディスカッションは、学習に不可欠であり、ほとんどの授業介入の中心的な要素である。 しかし、議論の質を正式に評価することは、多くの研究者にとって高価で実現不可能である。 本研究では,授業テキストの質の個々の次元に対するルーリックスコアを自動生成する,最新の自然言語処理(NLP)技術を実験した。 具体的には, ATM (Analyzing Teaching Moves) コードに注釈を付した18000回以上からなる90の教室での議論書のデータセットを作成し, 4つの授業品質評価 (IQA) に焦点をあてた。 限られたデータ量にもかかわらず、我々の研究はいくつかのルーブリックの結果を奨励し、他のものに改善の余地があることを示唆しています。 また、あるNLPアプローチが、あるルーブリックに対してよりうまく動作することも見出した。

Rigorous and interactive class discussions that support students to engage in high-level thinking and reasoning are essential to learning and are a central component of most teaching interventions. However, formally assessing discussion quality 'at scale' is expensive and infeasible for most researchers. In this work, we experimented with various modern natural language processing (NLP) techniques to automatically generate rubric scores for individual dimensions of classroom text discussion quality. Specifically, we worked on a dataset of 90 classroom discussion transcripts consisting of over 18000 turns annotated with fine-grained Analyzing Teaching Moves (ATM) codes and focused on four Instructional Quality Assessment (IQA) rubrics. Despite the limited amount of data, our work shows encouraging results in some of the rubrics while suggesting that there is room for improvement in the others. We also found that certain NLP approaches work better for certain rubrics.
翻訳日:2023-07-02 13:28:59 公開日:2023-06-21
# 教育用質問生成における制御性向上に向けて

Towards Enriched Controllability for Educational Question Generation ( http://arxiv.org/abs/2306.14917v1 )

ライセンス: Link先を確認
Bernardo Leite and Henrique Lopes Cardoso(参考訳) 質問生成(QG)は自然言語処理(NLP)のタスクで、入力された質問を自動的に生成する。 近年のQG研究は、学習ニーズを満たすために生成された質問の種類を制御することを目的としている。 教育用QGにおける制御可能性の顕著な例は、因果関係、結果解決、予測といった特定の物語要素に基づく質問の生成である。 本研究は,qgにおける制御可能性を高めることを目的として,新たなガイダンス属性である質問明示性を導入する。 子どもに親しみやすい物語から明示的かつ暗黙的なホイク・クエストの生成を制御することを提案する。 質問の明示性のみを通じてqgを制御する予備的な証拠と,質問のナラティブ要素である別のターゲット属性を同時に示す。 コードはgithub.com/bernardoleite/question-generation-controlで公開されている。

Question Generation (QG) is a task within Natural Language Processing (NLP) that involves automatically generating questions given an input, typically composed of a text and a target answer. Recent work on QG aims to control the type of generated questions so that they meet educational needs. A remarkable example of controllability in educational QG is the generation of questions underlying certain narrative elements, e.g., causal relationship, outcome resolution, or prediction. This study aims to enrich controllability in QG by introducing a new guidance attribute: question explicitness. We propose to control the generation of explicit and implicit wh-questions from children-friendly stories. We show preliminary evidence of controlling QG via question explicitness alone and simultaneously with another target attribute: the question's narrative element. The code is publicly available at github.com/bernardoleite/question-generation-control.
翻訳日:2023-07-02 13:28:43 公開日:2023-06-21
# ECG-QA:心電図と総合的質問応答データ

ECG-QA: A Comprehensive Question Answering Dataset Combined With Electrocardiogram ( http://arxiv.org/abs/2306.15681v1 )

ライセンス: Link先を確認
Jungwoo Oh, Seongsu Bae, Gyubok Lee, Joon-myoung Kwon, Edward Choi(参考訳) 医療分野における質問応答(QA)は,自然言語処理の進歩により注目されている。 しかし、既存の医療QAデータセットは主に医療画像、臨床ノート、構造化された電子健康記録表に焦点を当てている。 このことは、心電図(ECG)データをこれらのシステムに組み込む大きな可能性を残している。 このギャップに対処するため,ECG分析用に設計された最初のQAデータセットであるECG-QAを提案する。 データセットには70の質問テンプレートが含まれており、それぞれがECGの専門家によって臨床的有用性を保証するために検証されている。 その結果、我々のデータセットは2つの異なるECGの比較分析を必要とするものを含む多様なECG解釈質問を含んでいる。 また,今後の研究に有用な知見を提供するために,数多くの実験を行った。 我々は,心電図の解釈において臨床医を支援する知的QAシステムの開発において,心電図QAが貴重な資源となると考えている。

Question answering (QA) in the field of healthcare has received much attention due to significant advancements in natural language processing. However, existing healthcare QA datasets primarily focus on medical images, clinical notes, or structured electronic health record tables. This leaves the vast potential of combining electrocardiogram (ECG) data with these systems largely untapped. To address this gap, we present ECG-QA, the first QA dataset specifically designed for ECG analysis. The dataset comprises a total of 70 question templates that cover a wide range of clinically relevant ECG topics, each validated by an ECG expert to ensure their clinical utility. As a result, our dataset includes diverse ECG interpretation questions, including those that require a comparative analysis of two different ECGs. In addition, we have conducted numerous experiments to provide valuable insights for future research directions. We believe that ECG-QA will serve as a valuable resource for the development of intelligent QA systems capable of assisting clinicians in ECG interpretations.
翻訳日:2023-07-02 13:16:56 公開日:2023-06-21
# AI生成テキストの検出ツールのテスト

Testing of Detection Tools for AI-Generated Text ( http://arxiv.org/abs/2306.15666v1 )

ライセンス: Link先を確認
Debora Weber-Wulff (University of Applied Sciences HTW Berlin, Germany), Alla Anohina-Naumeca (Riga Technical University, Latvia), Sonja Bjelobaba (Uppsala University, Sweden), Tom\'a\v{s} Folt\'ynek (Masaryk University, Czechia), Jean Guerrero-Dib (Universidad de Monterrey, Mexico), Olumide Popoola (Queen Mary's University, UK), Petr \v{S}igut (Masaryk University, Czechia), Lorna Waddington (University of Leeds, UK)(参考訳) 近年の大量言語モデルでは,人工知能(ai)生成コンテンツの学術環境における不公平利用の潜在的リスクが強調され,その検出方法の探索への取り組みが強化されている。 本稿では,人工知能生成テキストの検出ツールの汎用性を検証し,精度とエラータイプ分析に基づいて評価する。 具体的には、既存の検出ツールが人書きテキストとChatGPT生成テキストを確実に区別できるかどうか、機械翻訳とコンテンツ難読化技術がAI生成テキストの検出に影響を及ぼすかどうか、といった研究課題に答えようとしている。 この研究は、12の公開ツールと2つの商用システム(TurnitinとPlagiarismCheck)をカバーし、学術的に広く使われている。 研究者たちは、利用可能な検出ツールは正確でも信頼性もなく、AI生成テキストを検出するのではなく、アウトプットを人間書きと分類する主なバイアスがある、と結論付けている。 さらに、コンテンツの難読化技術はツールのパフォーマンスを著しく悪化させる。 この研究にはいくつかの大きな貢献がある。 第一に、この分野における最新の科学的、非科学的努力を要約する。 第二に、これまで行われた最も包括的なテストのうちの1つで、厳密な研究方法論、オリジナルのドキュメントセット、ツールの広範囲にわたる結果を示す。 第3に、学術的環境におけるAI生成テキストの検出ツールの使用の意味と欠点について論じる。

Recent advances in generative pre-trained transformer large language models have emphasised the potential risks of unfair use of artificial intelligence (AI) generated content in an academic environment and intensified efforts in searching for solutions to detect such content. The paper examines the general functionality of detection tools for artificial intelligence generated text and evaluates them based on accuracy and error type analysis. Specifically, the study seeks to answer research questions about whether existing detection tools can reliably differentiate between human-written text and ChatGPT-generated text, and whether machine translation and content obfuscation techniques affect the detection of AIgenerated text. The research covers 12 publicly available tools and two commercial systems (Turnitin and PlagiarismCheck) that are widely used in the academic setting. The researchers conclude that the available detection tools are neither accurate nor reliable and have a main bias towards classifying the output as human-written rather than detecting AIgenerated text. Furthermore, content obfuscation techniques significantly worsen the performance of tools. The study makes several significant contributions. First, it summarises up-to-date similar scientific and non-scientific efforts in the field. Second, it presents the result of one of the most comprehensive tests conducted so far, based on a rigorous research methodology, an original document set, and a broad coverage of tools. Third, it discusses the implications and drawbacks of using detection tools for AI-generated text in academic settings.
翻訳日:2023-07-02 13:15:15 公開日:2023-06-21
# 言語モデルを用いた言語モデルにおける社会的推論の理解

Understanding Social Reasoning in Language Models with Language Models ( http://arxiv.org/abs/2306.15448v1 )

ライセンス: Link先を確認
Kanishk Gandhi, Jan-Philipp Fr\"anken, Tobias Gerstenberg, Noah D. Goodman(参考訳) 大きな言語モデル(LLM)が私たちの日常生活にますます統合されるにつれて、人間の精神状態を理解する能力を理解することが、効果的な相互作用の確保に不可欠になる。 しかし、最近のLSMの理論的推論能力の評価の試みにもかかわらず、これらのモデルが人間のToMと整合できる程度は、いまだに調査の対象となっている。 これは,(1)先行評価の矛盾した結果の存在,(2)既存の評価手法の有効性に関する懸念,の2つの異なる課題が主な原因である。 これらの課題に対処するため,我々は,因果テンプレートを投入することで,llmによる評価を手続き的に生成する新しいフレームワークを提案する。 このフレームワークを用いて、25の制御と5000のモデル記述評価からなるLLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成する。 人間の参加者は、以前のクラウドソースによる評価よりもベンチマークの品質を高く評価し、専門家による評価と同等であることが分かりました。 BigToM を用いて,様々な LLM の社会的推論能力を評価し,モデル性能と人的性能を比較した。 以上の結果から,GPT4には人間の推論パターンを反映するToM機能があるが,信頼性は低い。

As Large Language Models (LLMs) become increasingly integrated into our everyday lives, understanding their ability to comprehend human mental states becomes critical for ensuring effective interactions. However, despite the recent attempts to assess the Theory-of-Mind (ToM) reasoning capabilities of LLMs, the degree to which these models can align with human ToM remains a nuanced topic of exploration. This is primarily due to two distinct challenges: (1) the presence of inconsistent results from previous evaluations, and (2) concerns surrounding the validity of existing evaluation methodologies. To address these challenges, we present a novel framework for procedurally generating evaluations with LLMs by populating causal templates. Using our framework, we create a new social reasoning benchmark (BigToM) for LLMs which consists of 25 controls and 5,000 model-written evaluations. We find that human participants rate the quality of our benchmark higher than previous crowd-sourced evaluations and comparable to expert-written evaluations. Using BigToM, we evaluate the social reasoning capabilities of a variety of LLMs and compare model performances with human performance. Our results suggest that GPT4 has ToM capabilities that mirror human inference patterns, though less reliable, while other LLMs struggle.
翻訳日:2023-07-02 13:14:51 公開日:2023-06-21
# OBELISC: インターリーブされた画像テキストドキュメントのオープンなWebスケールフィルタリングデータセット

OBELISC: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents ( http://arxiv.org/abs/2306.16527v1 )

ライセンス: Link先を確認
Hugo Lauren\c{c}on, Lucile Saulnier, L\'eo Tronchon, Stas Bekman, Amanpreet Singh, Anton Lozhkov, Thomas Wang, Siddharth Karamcheti, Alexander M. Rush, Douwe Kiela, Matthieu Cord, Victor Sanh(参考訳) 画像とテキストをインターリーブする自然文書に基づいてトレーニングされた大規模マルチモーダルモデルは、テキストを生成するために1つまたは複数のイメージを推論する必要がある様々なマルチモーダルベンチマークで、画像-テキストペアでトレーニングされたモデルを上回っている。 しかし、これらのモデルのトレーニングに使われるデータセットはリリースされておらず、収集プロセスは完全に特定されていない。 我々は,Common Crawlから抽出された1億1100万のWebページ,3億3300万の関連画像,および1150億のテキストトークンからなる,オープンなWebスケールの画像テキスト文書のフィルタリングデータセットであるOBELISCデータセットを紹介する。 本稿では,データセット作成プロセスを説明し,包括的フィルタリングルールを提示し,データセットの内容の分析を行う。 OBELISCの有効性を示すために,データセット上に800億のパラメータビジョンと言語モデルをトレーニングし,様々なマルチモーダルベンチマーク上での競合性能を得る。 データセット自体と一緒にデータセットを再生するコードをリリースします。

Large multimodal models trained on natural documents, which interleave images and text, outperform models trained on image-text pairs on various multimodal benchmarks that require reasoning over one or multiple images to generate a text. However, the datasets used to train these models have not been released, and the collection process has not been fully specified. We introduce the OBELISC dataset, an open web-scale filtered dataset of interleaved image-text documents comprising 141 million web pages extracted from Common Crawl, 353 million associated images, and 115 billion text tokens. We describe the dataset creation process, present comprehensive filtering rules, and provide an analysis of the dataset's content. To show the viability of OBELISC, we train an 80 billion parameters vision and language model on the dataset and obtain competitive performance on various multimodal benchmarks. We release the code to reproduce the dataset along with the dataset itself.
翻訳日:2023-07-02 13:06:28 公開日:2023-06-21
# 自己教師付き多言語モデルのコントラスト学習による音声認識のための参照なし品質指標

A Reference-less Quality Metric for Automatic Speech Recognition via Contrastive-Learning of a Multi-Language Model with Self-Supervision ( http://arxiv.org/abs/2306.13114v1 )

ライセンス: Link先を確認
Kamer Ali Yuksel, Thiago Ferreira, Ahmet Gunduz, Mohamed Al-Badrashiny, Golara Javadi(参考訳) 自動音声認識(ASR)システムの品質評価の一般的な標準は、Word Error Rate (WER) のような参照ベースのメトリクスであり、手動の接地真実の書き起こしを用いて計算され、時間と費用がかかる。 本研究は,音声データセット上での異なるASRモデルの性能を,基礎的な真偽の書き起こしなしに比較できる多言語基準品質指標を提案する。 ASR仮説の質を推定するために、事前訓練された言語モデル(LM)を自己教師付き学習方式でコントラスト学習により微調整する。 各種言語における上位の商用ASRエンジンからの出力からなるいくつかの未確認試験データセットで実施された実験において、提案手法は、全ての実験において最先端の多言語LMからWERスコアとそれらのランクとの相関がはるかに高く、また、仮説を組み込む場合、WERを7.5%以上削減する。 微調整されたモデルと実験は再現性のために利用可能である。

The common standard for quality evaluation of automatic speech recognition (ASR) systems is reference-based metrics such as the Word Error Rate (WER), computed using manual ground-truth transcriptions that are time-consuming and expensive to obtain. This work proposes a multi-language referenceless quality metric, which allows comparing the performance of different ASR models on a speech dataset without ground truth transcriptions. To estimate the quality of ASR hypotheses, a pre-trained language model (LM) is fine-tuned with contrastive learning in a self-supervised learning manner. In experiments conducted on several unseen test datasets consisting of outputs from top commercial ASR engines in various languages, the proposed referenceless metric obtains a much higher correlation with WER scores and their ranks than the perplexity metric from the state-of-art multi-lingual LM in all experiments, and also reduces WER by more than $7\%$ when used for ensembling hypotheses. The fine-tuned model and experiments are made available for the reproducibility: https://github.com/aixplain/NoRefER
翻訳日:2023-06-26 14:46:05 公開日:2023-06-21
# 注意に基づくディープニューラルネットワークによるキーフレーム抽出

Key Frame Extraction with Attention Based Deep Neural Networks ( http://arxiv.org/abs/2306.13176v1 )

ライセンス: Link先を確認
Samed Arslan, Senem Tanberk(参考訳) ビデオからのキーフレームの自動検出は、長いビデオのコンテンツを最も要約できるシーンを選択するための運動である。 ビデオの要約を提供することは、迅速な閲覧とコンテンツの要約を容易にする重要なタスクである。 得られた写真は、様々な産業における自動作業(例えば、セキュリティ映像の要約、音楽クリップで使用される異なるシーンの検出など)に使用される。 さらに、高度な機械学習手法で高ボリュームビデオを処理することで、リソースコストも生じる。 キーフレームが取得されます。使用するメソッドやモデルの入力機能として使用することができます。 本研究では,注意層を有する深層オートエンコーダモデルを用いて,キーフレーム検出のためのディープラーニング手法を提案する。 提案手法は,まずオートエンコーダのエンコーダ部分を用いてビデオフレームから特徴を抽出し,k-meansクラスタリングアルゴリズムを用いたセグメンテーションを適用し,類似のフレームと特徴をグループ化する。 そして、各クラスタの中心に最も近いフレームを選択して、各クラスタからキーフレームを選択する。 この手法をTVSUMビデオデータセットで評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。 提案手法は,映像解析におけるキーフレーム抽出のための有望な解であり,映像要約やビデオ検索などの様々な応用に適用できる。

Automatic keyframe detection from videos is an exercise in selecting scenes that can best summarize the content for long videos. Providing a summary of the video is an important task to facilitate quick browsing and content summarization. The resulting photos are used for automated works (e.g. summarizing security footage, detecting different scenes used in music clips) in different industries. In addition, processing high-volume videos in advanced machine learning methods also creates resource costs. Keyframes obtained; It can be used as an input feature to the methods and models to be used. In this study; We propose a deep learning-based approach for keyframe detection using a deep auto-encoder model with an attention layer. The proposed method first extracts the features from the video frames using the encoder part of the autoencoder and applies segmentation using the k-means clustering algorithm to group these features and similar frames together. Then, keyframes are selected from each cluster by selecting the frames closest to the center of the clusters. The method was evaluated on the TVSUM video dataset and achieved a classification accuracy of 0.77, indicating a higher success rate than many existing methods. The proposed method offers a promising solution for key frame extraction in video analysis and can be applied to various applications such as video summarization and video retrieval.
翻訳日:2023-06-26 14:26:27 公開日:2023-06-21
# サービスロボティクスにおける知識表現に関する調査

A Survey of Knowledge Representation in Service Robotics ( http://arxiv.org/abs/1807.02192v4 )

ライセンス: Link先を確認
David Paulius and Yu Sun(参考訳) サービスロボティクスの領域では、研究者たちはロボットによるタスク実行の操作として、動きの学習、理解、表現に多大な努力を払ってきた。 ロボットの学習と問題解決のタスクは、オブジェクト検出、アクティビティ認識、タスク/モーション計画、ローカライゼーション、知識表現と検索、知覚/ビジョンと機械学習技術の相互結合など、さまざまなタスクを統合しているため、非常に幅広い。 本稿では,知識表現,特に知識が一般に収集され,表現され,再現され,研究者が過去数十年に行なった問題を解決する方法についてのみ注目する。 知識表現の定義に従って,機械学習,ディープラーニング,確率的モデリング,意味的グラフィカル構造など,近年広く導入・研究されている,そのような表現と有用な学習モデルの主な違いについて論じる。 このようなツールの概要とともに、ロボット学習に存在した問題と、その解決に寄与したソリューション、技術、あるいは(もしあれば)開発としてどのように構築、利用されたかについて議論する。 最後に,効果的な知識表現を設計する際に考慮すべき重要な原則について議論する。

Within the realm of service robotics, researchers have placed a great amount of effort into learning, understanding, and representing motions as manipulations for task execution by robots. The task of robot learning and problem-solving is very broad, as it integrates a variety of tasks such as object detection, activity recognition, task/motion planning, localization, knowledge representation and retrieval, and the intertwining of perception/vision and machine learning techniques. In this paper, we solely focus on knowledge representations and notably how knowledge is typically gathered, represented, and reproduced to solve problems as done by researchers in the past decades. In accordance with the definition of knowledge representations, we discuss the key distinction between such representations and useful learning models that have extensively been introduced and studied in recent years, such as machine learning, deep learning, probabilistic modelling, and semantic graphical structures. Along with an overview of such tools, we discuss the problems which have existed in robot learning and how they have been built and used as solutions, technologies or developments (if any) which have contributed to solving them. Finally, we discuss key principles that should be considered when designing an effective knowledge representation.
翻訳日:2023-06-23 18:34:46 公開日:2023-06-21
# EmTract:ソーシャルメディアから感情を抽出する

EmTract: Extracting Emotions from Social Media ( http://arxiv.org/abs/2112.03868v3 )

ライセンス: Link先を確認
Domonkos F. Vamossy and Rolf Skog(参考訳) 金融状況に適したソーシャルメディアテキストから感情を抽出するオープンソースツール(emtract)を開発した。 そのために、金融ソーシャルメディアプラットフォーム(StockTwits)から1万の短いメッセージを注釈付けし、それをオープンソースの感情データと組み合わせます。 次に、事前に調整されたNLPモデルであるDistilBERTを使用し、4,861トークン(絵文字とエモティコン)を含む埋め込みスペースを拡張し、まずオープンソースの感情データに適合させ、アノテーション付き金融ソーシャルメディアデータに転送します。 Emotion English DistilRoBERTa-base などのオープンソース感情分類器を人間とチャットGPTのアノテートデータで比較した。 辞書ベースの手法と比較して,金融研究には3つの大きな利点がある。 第一に、我々のモデルは、金融ソーシャルメディアのテキストに合わせたもので、第二に、非標準句、絵文字、エモティコンといったソーシャルメディアデータの重要な側面を取り入れ、第三に、単語順、単語使用、ローカルコンテキストなどの特徴を含む潜在表現を逐次学習することで機能する。 EmTractを用いて、ソーシャルメディア上で表現される投資家の感情と資産価格の関係を検討する。 企業固有の投資家感情が日々の価格変動を予測していることを示す。 その結果、感情と市場のダイナミクスは密接に関連していることを示し、金融市場で感情が果たす役割を研究するためのツールを提供する。

We develop an open-source tool (EmTract) that extracts emotions from social media text tailed for financial context. To do so, we annotate ten thousand short messages from a financial social media platform (StockTwits) and combine it with open-source emotion data. We then use a pre-tuned NLP model, DistilBERT, augment its embedding space by including 4,861 tokens (emojis and emoticons), and then fit it first on the open-source emotion data, then transfer it to our annotated financial social media data. Our model outperforms competing open-source state-of-the-art emotion classifiers, such as Emotion English DistilRoBERTa-base on both human and chatGPT annotated data. Compared to dictionary based methods, our methodology has three main advantages for research in finance. First, our model is tailored to financial social media text; second, it incorporates key aspects of social media data, such as non-standard phrases, emojis, and emoticons; and third, it operates by sequentially learning a latent representation that includes features such as word order, word usage, and local context. Using EmTract, we explore the relationship between investor emotions expressed on social media and asset prices. We show that firm-specific investor emotions are predictive of daily price movements. Our findings show that emotions and market dynamics are closely related, and we provide a tool to help study the role emotions play in financial markets.
翻訳日:2023-06-23 18:33:54 公開日:2023-06-21
# ライドバーグ電子のアンダーソン局在

Anderson localization of a Rydberg electron ( http://arxiv.org/abs/2111.10345v2 )

ライセンス: Link先を確認
Matthew T. Eiles, Alexander Eisfeld, Jan M. Rost(参考訳) 高励起リドベルグ原子はその準位構造、対称性、水素原子からのスケーリング挙動を継承する。 これらの基本的な性質により、近傍の基底状態原子との相互作用を受ける単一のrydberg原子の熱力学的限界が実現できることを実証する。 この限界は、基底状態原子の数と、クーロンポテンシャルが無限に多くの高縮退励起状態を供給するrydberg原子の励起レベルを同時に増加させることによって達成される。 我々の研究は、Rydberg原子の電子スペクトルと強結合ハミルトニアンのスペクトルとの直接マッピングによって促進される、凝縮物質物理学の古来の概念であるアンダーソン局在と驚くべき関係を明らかにした。 この密結合系のホッピング振幅は基底状態原子の配置によって決定され、振動や長距離から近距離まで幅広い。 後者では、ライドバーグ電子のアンダーソン局在の明確なシグネチャを同定する。

Highly excited Rydberg atoms inherit their level structure, symmetries, and scaling behavior from the hydrogen atom. We demonstrate that these fundamental properties enable a thermodynamic limit of a single Rydberg atom subjected to interactions with nearby ground state atoms. The limit is reached by simultaneously increasing the number of ground state atoms and the level of excitation of the Rydberg atom, for which the Coulomb potential supplies infinitely many and highly degenerate excited states. Our study reveals a surprising connection to an archetypal concept of condensed matter physics, Anderson localization, facilitated by a direct mapping between the Rydberg atom's electronic spectrum and the spectrum of a tight-binding Hamiltonian. The hopping amplitudes of this tight-binding system are determined by the arrangement of ground state atoms and can range from oscillatory and long-ranged to nearest-neighbor. In the latter we identify clear signatures of the Anderson localization of the Rydberg electron.
翻訳日:2023-06-23 18:33:26 公開日:2023-06-21
# ペナリゼーションによる分散スパース回帰

Distributed Sparse Regression via Penalization ( http://arxiv.org/abs/2111.06530v2 )

ライセンス: Link先を確認
Yao Ji, Gesualdo Scutari, Ying Sun, and Harsha Honnappa(参考訳) エージェントのネットワーク上での疎線形回帰を非指向グラフ(集中ノードを持たない)としてモデル化する。 推定問題は、局所的なLASSO損失関数の和の最小化とコンセンサス制約の2次ペナルティとして定式化され、後者は分散解法を得るのに役立つ。 ペナルティに基づくコンセンサス法は最適化文献で広く研究されているが、高次元設定における統計的および計算的保証は未だ不明である。 この作品は、このオープンな問題に対する答えを提供する。 私たちの貢献は2倍です。 まず、ペナルティパラメータの適切な選択の下で、ペナルティ化された問題の最適解は、最適なミニマックスレート $\mathcal{O}(s \log d/N)$ in $\ell_2$-loss, ここで、$s$は空間値、$d$は周辺次元、$N$はネットワーク内の全サンプルサイズである。 第2に, 分散実装を自然に導くペナル化問題に適用した近似勾配アルゴリズムは, 集中統計誤差の順序の耐性に線形に収束し, 速度は$\mathcal{O}(d)$とスケールし, 避けられない速度精度ジレンマを示す。

We study sparse linear regression over a network of agents, modeled as an undirected graph (with no centralized node). The estimation problem is formulated as the minimization of the sum of the local LASSO loss functions plus a quadratic penalty of the consensus constraint -- the latter being instrumental to obtain distributed solution methods. While penalty-based consensus methods have been extensively studied in the optimization literature, their statistical and computational guarantees in the high dimensional setting remain unclear. This work provides an answer to this open problem. Our contribution is two-fold. First, we establish statistical consistency of the estimator: under a suitable choice of the penalty parameter, the optimal solution of the penalized problem achieves near optimal minimax rate $\mathcal{O}(s \log d/N)$ in $\ell_2$-loss, where $s$ is the sparsity value, $d$ is the ambient dimension, and $N$ is the total sample size in the network -- this matches centralized sample rates. Second, we show that the proximal-gradient algorithm applied to the penalized problem, which naturally leads to distributed implementations, converges linearly up to a tolerance of the order of the centralized statistical error -- the rate scales as $\mathcal{O}(d)$, revealing an unavoidable speed-accuracy dilemma.Numerical results demonstrate the tightness of the derived sample rate and convergence rate scalings.
翻訳日:2023-06-23 18:32:39 公開日:2023-06-21
# ノイズ状態観測に対する分散強化学習の学習ロバスト性の検討

Exploring the Training Robustness of Distributional Reinforcement Learning against Noisy State Observations ( http://arxiv.org/abs/2109.08776v5 )

ライセンス: Link先を確認
Ke Sun, Yingnan Zhao, Shangling Jui, Linglong Kong(参考訳) 実際のシナリオでは、エージェントが観察する状態観察には、測定エラーや逆向きのノイズが含まれ、エージェントが最適でない行動をとるように誤解したり、トレーニング中に崩壊することがある。 本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。 まず,無作為な状態観測ノイズと対向的な状態観測ノイズを含む典型的な表形式であるSN-MDP(State-Noisy Markov Decision Process)における分布ベルマン作用素の収縮を検証する。 関数近似を用いた雑音条件では、線形あるいは非線形の関数近似を用いて予測に基づくRLの最小二乗損失の脆弱性を解析する。 対照的に,kl 発散を考慮した分類的パラメータ化に基づく分布 rl 損失の有界勾配ノルムを理論的に特徴付ける。 分布RLの最適化中に生じる安定した勾配は、状態観測ノイズに対するより優れたトレーニングロバスト性の原因となる。 最後に、一連の環境における広範な実験により、分布RLは予測に基づく観測に比べてランダムおよび逆ノイズ状態の観測に対して脆弱でないことが確認された。

In real scenarios, state observations that an agent observes may contain measurement errors or adversarial noises, misleading the agent to take suboptimal actions or even collapse while training. In this paper, we study the training robustness of distributional Reinforcement Learning (RL), a class of state-of-the-art methods that estimate the whole distribution, as opposed to only the expectation, of the total return. Firstly, we validate the contraction of distributional Bellman operators in the State-Noisy Markov Decision Process (SN-MDP), a typical tabular case that incorporates both random and adversarial state observation noises. In the noisy setting with function approximation, we then analyze the vulnerability of least squared loss in expectation-based RL with either linear or nonlinear function approximation. By contrast, we theoretically characterize the bounded gradient norm of distributional RL loss based on the categorical parameterization equipped with the KL divergence. The resulting stable gradients while the optimization in distributional RL accounts for its better training robustness against state observation noises. Finally, extensive experiments on the suite of environments verified that distributional RL is less vulnerable against both random and adversarial noisy state observations compared with its expectation-based counterpart.
翻訳日:2023-06-23 18:31:54 公開日:2023-06-21
# サンプリング方式におけるプライバシロスの制御:階層化およびクラスタサンプリングの解析

Controlling Privacy Loss in Sampling Schemes: an Analysis of Stratified and Cluster Sampling ( http://arxiv.org/abs/2007.12674v2 )

ライセンス: Link先を確認
Mark Bun and J\"org Drechsler and Marco Gaboardi and Audra McMillan and Jayshree Sarathy(参考訳) サンプリングスキームは統計、サーベイデザイン、アルゴリズム設計における基本的なツールである。 ディファレンシャルプライバシの基本的な結果は、人口の単純なランダムなサンプル上で実行される差分プライベートなメカニズムは、人口全体で動作する同じアルゴリズムよりも強力なプライバシ保証を提供する。 しかし、実際には、サンプリング設計は、事前の作業で対処される単純なデータに依存しないサンプリングスキームよりも複雑であることが多い。 本研究では,プライバシ増幅結果の研究を,より複雑なデータ依存サンプリング方式に拡張する。 これらのサンプリングスキームは、しばしばプライバシーの強化に失敗するだけでなく、実際にはプライバシーの劣化をもたらす可能性がある。 広く普及するクラスタサンプリングと階層化されたサンプリングパラダイムのプライバシーへの影響を分析し、より一般的なサンプリング設計の研究に関する洞察を提供する。

Sampling schemes are fundamental tools in statistics, survey design, and algorithm design. A fundamental result in differential privacy is that a differentially private mechanism run on a simple random sample of a population provides stronger privacy guarantees than the same algorithm run on the entire population. However, in practice, sampling designs are often more complex than the simple, data-independent sampling schemes that are addressed in prior work. In this work, we extend the study of privacy amplification results to more complex, data-dependent sampling schemes. We find that not only do these sampling schemes often fail to amplify privacy, they can actually result in privacy degradation. We analyze the privacy implications of the pervasive cluster sampling and stratified sampling paradigms, as well as provide some insight into the study of more general sampling designs.
翻訳日:2023-06-23 18:30:43 公開日:2023-06-21
# 制御されたmather-thurston定理

Controlled Mather-Thurston theorems ( http://arxiv.org/abs/2006.00374v6 )

ライセンス: Link先を確認
Michael Freedman(参考訳) ミルナー、ウッド、マザー、サーストンの古典的な結果は驚くべき場所で平坦なつながりを生み出している。 Milnor-Woodの不等式は曲面上の円束に対して、Mather-Thurston Theorem は一般多様体束を平坦な接続を許容するものに共役するものである。 この予想は、チャーン=ワイル理論やボット類やゴッドビリオン・ヴェイ不変量のような他の滑らかな障害との密接な出会いから来ている。 前者は$\operatorname{PSL}(2,\mathbb{R})$対$\operatorname{U}(1)$、後者は$C^1$対$C^2$である。 本報告では,(1) 半$s$-cobordism (ssc) でmather-thurstonコボルディズムを洗練できる場合が多く,(2) 初期構造群から大規模構造群への遷移関数の移動がどの程度必要か,さらにどの程度詳細に述べる。 その動機は、物理プログラムに数学的基礎を置くことである。 哲学は、あるバンドルに対して、それが曲率を持つか、平坦であるかどうかは、ベースに存在するかもしれない微細なトポロジーを解決できないため、sscや微小対称性が繊維の歪みに反するので、我々が期待することができないというものである。 小さいスケール、紫外線、基本トポロジーと構造群の「歪み」により、フラット接続はより大きなスケールで曲率をシミュレートできる。 目標は、マクスウェルの$f \wedge f^\ast$やヒルベルトの$\int r\ dvol$のような曲率項がそのような「歪曲」を測定する作用に置き換えられるような双対性を見つけることである。 この見方では、曲率は離散的、群論的な構造を再正規化する結果となる。

Classical results of Milnor, Wood, Mather, and Thurston produce flat connections in surprising places. The Milnor-Wood inequality is for circle bundles over surfaces, whereas the Mather-Thurston Theorem is about cobording general manifold bundles to ones admitting a flat connection. The surprise comes from the close encounter with obstructions from Chern-Weyl theory and other smooth obstructions such as the Bott classes and the Godbillion-Vey invariant. Contradiction is avoided because the structure groups for the positive results are larger than required for the obstructions, e.g. $\operatorname{PSL}(2,\mathbb{R})$ versus $\operatorname{U}(1)$ in the former case and $C^1$ versus $C^2$ in the latter. This paper adds two types of control strengthening the positive results: In many cases we are able to (1) refine the Mather-Thurston cobordism to a semi-$s$-cobordism (ssc) and (2) provide detail about how, and to what extent, transition functions must wander from an initial, small, structure group into a larger one. The motivation is to lay mathematical foundations for a physical program. The philosophy is that living in the IR we cannot expect to know, for a given bundle, if it has curvature or is flat, because we can't resolve the fine scale topology which may be present in the base, introduced by a ssc, nor minute symmetry violating distortions of the fiber. Small scale, UV, "distortions" of the base topology and structure group allow flat connections to simulate curvature at larger scales. The goal is to find a duality under which curvature terms, such as Maxwell's $F \wedge F^\ast$ and Hilbert's $\int R\ dvol$ are replaced by an action which measures such "distortions." In this view, curvature results from renormalizing a discrete, group theoretic, structure.
翻訳日:2023-06-23 18:30:33 公開日:2023-06-21
# 量子相転移におけるニューラルネットワークによる位相欠陥の学習

Learning topological defects formation with neural networks in a quantum phase transition ( http://arxiv.org/abs/2204.06769v2 )

ライセンス: Link先を確認
Han-Qing Shi and Hai-Qing Zhang(参考訳) ニューラルネットワークは強い表現力を持ち、複雑な量子多体系を解くのに役立ちます。 静的解の解析に優れる一方で、量子相転移中の臨界ダイナミクスを含む非平衡過程は、ニューラルネットワークにとって大きな課題となる。 これに対処するために、ニューラルネットワークと機械学習アルゴリズムを用いて、一次元横場量子イジングモデルにおける位相的欠陥の時間発展、普遍統計、相関を調べる。 具体的には, 量子相転移中の系のエネルギーを横磁場強度の線形クエンチに追従して計算する。 励起エネルギーはクエンチ率とのパワーロー関係を満たし、励起エネルギーとキンク数との比例関係を示す。 さらに,キンク数の最初の3つの積とクエンチ率との間の普遍的パワーロー関係を確立し,キンクの二項分布を示す。 最後に, 正規化キンク・キンク相関についても検討し, 数値が解析式と一致していることを見いだした。

Neural networks possess formidable representational power, rendering them invaluable in solving complex quantum many-body systems. While they excel at analyzing static solutions, nonequilibrium processes, including critical dynamics during a quantum phase transition, pose a greater challenge for neural networks. To address this, we utilize neural networks and machine learning algorithms to investigate the time evolutions, universal statistics, and correlations of topological defects in a one-dimensional transverse-field quantum Ising model. Specifically, our analysis involves computing the energy of the system during a quantum phase transition following a linear quench of the transverse magnetic field strength. The excitation energies satisfy a power-law relation to the quench rate, indicating a proportional relationship between the excitation energy and the kink numbers. Moreover, we establish a universal power-law relationship between the first three cumulants of the kink numbers and the quench rate, indicating a binomial distribution of the kinks. Finally, the normalized kink-kink correlations are also investigated and it is found that the numerical values are consistent with the analytic formula.
翻訳日:2023-06-23 18:21:45 公開日:2023-06-21
# 領域適応を用いた道路側LiDAR内リアルタイム・ロバスト3次元物体検出

Real-Time and Robust 3D Object Detection Within Road-Side LiDARs Using Domain Adaptation ( http://arxiv.org/abs/2204.00132v2 )

ライセンス: Link先を確認
Walter Zimmer, Marcus Grabler and Alois Knoll(参考訳) 本研究は,インフラLiDARを用いた3次元オブジェクト検出の領域適応における課題を解決することを目的とする。 インフラベースLiDARの車両をリアルタイムで検出できるモデルDASE-ProPillarsを設計する。 我々のモデルは、3D検出性能を改善するために追加モジュールを備えたベースラインモデルとしてPointPillarsを使用します。 DASE-ProPillarsにおける提案するモジュールの有効性を証明するため,Regensburg Nextプロジェクトで開発されたオープンソースのA9-Datasetと半合成インフラストラクチャデータセットという,2つのデータセット上でモデルをトレーニングし,評価する。 dase-propillars検出器の各モジュールについて,本モデルが実a9テストセットと半合成a9テストセットのse-propillarsベースラインを上回り,45hz (22ms) の推論速度を維持していることを示す実験を行った。 半合成A9データセットから半合成データセットへのドメイン適応を、転送学習を適用して、40のリコール位置を用いた目標テストセットのCarクラスで93.49%の3D mAP@0.25を達成する。

This work aims to address the challenges in domain adaptation of 3D object detection using infrastructure LiDARs. We design a model DASE-ProPillars that can detect vehicles in infrastructure-based LiDARs in real-time. Our model uses PointPillars as the baseline model with additional modules to improve the 3D detection performance. To prove the effectiveness of our proposed modules in DASE-ProPillars, we train and evaluate the model on two datasets, the open source A9-Dataset and a semi-synthetic infrastructure dataset created within the Regensburg Next project. We do several sets of experiments for each module in the DASE-ProPillars detector that show that our model outperforms the SE-ProPillars baseline on the real A9 test set and a semi-synthetic A9 test set, while maintaining an inference speed of 45 Hz (22 ms). We apply domain adaptation from the semi-synthetic A9-Dataset to the semi-synthetic dataset from the Regensburg Next project by applying transfer learning and achieve a 3D mAP@0.25 of 93.49% on the Car class of the target test set using 40 recall positions.
翻訳日:2023-06-23 18:21:04 公開日:2023-06-21
# SNAP: 中毒による個人資産の効率的な抽出

SNAP: Efficient Extraction of Private Properties with Poisoning ( http://arxiv.org/abs/2208.12348v2 )

ライセンス: Link先を確認
Harsh Chaudhari, John Abascal, Alina Oprea, Matthew Jagielski, Florian Tram\`er, Jonathan Ullman(参考訳) プロパティ推論攻撃により、敵は機械学習モデルからトレーニングデータセットのグローバルプロパティを抽出できる。 このような攻撃は、データセットを共有するデータ所有者が機械学習モデルをトレーニングする上で、プライバシに影響を及ぼす。 ディープニューラルネットワークに対するプロパティ推論攻撃に対する既存のアプローチはいくつか提案されているが、それらはすべて攻撃者が大量のシャドーモデルをトレーニングすることに依存している。 本稿では,攻撃者がトレーニングデータセットのサブセットに毒を塗布し,訓練対象モデルに問い合わせるプロパティ推論攻撃の設定について考察する。 筆者らは, 毒性下でのモデル信頼度を理論的に解析し, 攻撃成功率が高く, マカルージファールらによる有害性推論攻撃よりも低量の毒性を必要とするSNAPを設計した。 例えば、国勢調査データセットでは、SNAPはMahloujifarらよりも34%高い成功率を達成し、56.5倍高速である。 また、トレーニング中に特定のプロパティが存在するかどうかを推測するために攻撃を拡張し、興味のあるプロパティの正確な割合を効率的に見積もる。 4つのデータセットから異なる割合のいくつかの特性に対する攻撃を評価し,SNAPの汎用性と有効性を示す。 SNAPのオープンソース実装はhttps://github.com/johnmath/snap-sp23で見ることができる。

Property inference attacks allow an adversary to extract global properties of the training dataset from a machine learning model. Such attacks have privacy implications for data owners sharing their datasets to train machine learning models. Several existing approaches for property inference attacks against deep neural networks have been proposed, but they all rely on the attacker training a large number of shadow models, which induces a large computational overhead. In this paper, we consider the setting of property inference attacks in which the attacker can poison a subset of the training dataset and query the trained target model. Motivated by our theoretical analysis of model confidences under poisoning, we design an efficient property inference attack, SNAP, which obtains higher attack success and requires lower amounts of poisoning than the state-of-the-art poisoning-based property inference attack by Mahloujifar et al. For example, on the Census dataset, SNAP achieves 34% higher success rate than Mahloujifar et al. while being 56.5x faster. We also extend our attack to infer whether a certain property was present at all during training and estimate the exact proportion of a property of interest efficiently. We evaluate our attack on several properties of varying proportions from four datasets and demonstrate SNAP's generality and effectiveness. An open-source implementation of SNAP can be found at https://github.com/johnmath/snap-sp23.
翻訳日:2023-06-23 18:13:42 公開日:2023-06-21
# 抗対称神経アンサッツ分離に向けて

Towards Antisymmetric Neural Ansatz Separation ( http://arxiv.org/abs/2208.03264v3 )

ライセンス: Link先を確認
Aaron Zweig, Joan Bruna(参考訳) 反対称関数の2つの基本モデル (または \emph{Ans\"atze}) の分離、すなわち $f(x_{\sigma(1)}, \ldots, x_{\sigma(N)}) = \text{sign}(\sigma)f(x_1, \ldots, x_N)$ の形の関数 $f$ について検討する。 これらは量子化学の文脈で発生し、フェルミオン系の波動関数の基本的なモデリングツールである。 具体的には、行列式の交互構造を利用するスレーター表現と、任意の対称関数で積でスレーター行列式を拡大するジャストロウアンザッツという2つの一般的な反対称Ans\atzeを考える。 我々は、ジャストロー形式で効率的に表現できるが、指数関数的な(N^2$)多くの項がない限り、スレーター行列式によって確実に近似できない、$N$次元の反対称関数を構築する。 これは、これらの2つのAns\atzeの間の最初の明示的な定量的分離を表す。

We study separations between two fundamental models (or \emph{Ans\"atze}) of antisymmetric functions, that is, functions $f$ of the form $f(x_{\sigma(1)}, \ldots, x_{\sigma(N)}) = \text{sign}(\sigma)f(x_1, \ldots, x_N)$, where $\sigma$ is any permutation. These arise in the context of quantum chemistry, and are the basic modeling tool for wavefunctions of Fermionic systems. Specifically, we consider two popular antisymmetric Ans\"atze: the Slater representation, which leverages the alternating structure of determinants, and the Jastrow ansatz, which augments Slater determinants with a product by an arbitrary symmetric function. We construct an antisymmetric function in $N$ dimensions that can be efficiently expressed in Jastrow form, yet provably cannot be approximated by Slater determinants unless there are exponentially (in $N^2$) many terms. This represents the first explicit quantitative separation between these two Ans\"atze.
翻訳日:2023-06-23 18:12:55 公開日:2023-06-21
# シリコンにおける単一光子エミッタのパーセル増強

Purcell enhancement of single-photon emitters in silicon ( http://arxiv.org/abs/2301.07753v2 )

ライセンス: Link先を確認
Andreas Gritsch, Alexander Ulanowski, Andreas Reiserer(参考訳) 通信光子と結合した個々のスピンは、コヒーレントで効率的なスピン光子インターフェースを大規模に構築できると、分散量子情報処理にユニークな期待を与える。 我々は、エルビウムドーパントをナノフォトニックシリコン共振器に統合して、そのようなインタフェースを実装した。 0.1ghzのスペクトル拡散線幅を持つ個々のエミッタのスピン分解励起を実現する。 共振駆動では、78倍のパーセル増感で光ラビ振動と単一光子放射を観測する。 我々の結果は量子ネットワークのための有望な新しいプラットフォームを確立する。

Individual spins that are coupled to telecommunication photons offer unique promise for distributed quantum information processing once a coherent and efficient spin-photon interface can be fabricated at scale. We implement such an interface by integrating erbium dopants into a nanophotonic silicon resonator. We achieve spin-resolved excitation of individual emitters with < 0.1 GHz spectral diffusion linewidth. Upon resonant driving, we observe optical Rabi oscillations and single-photon emission with a 78-fold Purcell enhancement. Our results establish a promising new platform for quantum networks.
翻訳日:2023-06-23 17:53:30 公開日:2023-06-21
# 状態空間変換器を用いた効率的な映画シーン検出

Efficient Movie Scene Detection using State-Space Transformers ( http://arxiv.org/abs/2212.14427v2 )

ライセンス: Link先を確認
Md Mohaiminul Islam, Mahmudul Hasan, Kishan Shamsundar Athrey, Tony Braskich, Gedas Bertasius(参考訳) 異なる映画シーンを区別する能力は、映画のストーリーラインを理解する上で重要である。 しかし、映画シーンを正確に検出することは、非常に長いセグメントを推論する能力を必要とするため、しばしば困難である。 これは、通常短距離ビデオ分析用に設計された、既存のほとんどのビデオ認識モデルとは対照的である。 本研究は,長期映像の依存関係を効率的にキャプチャし,正確なシーン検出を行う状態空間変換器モデルを提案する。 我々のモデルはTranS4merと呼ばれ、構造化状態空間列(S4)と自己注意層(A)の強みを組み合わせた新しいS4Aビルディングブロックを用いて構築されている。 フレームのシーケンスがフィルムショット(カメラ位置が変化しない中断期間)に分割されると、S4Aブロックはまず、短距離のショット内依存関係をキャプチャするために自己アテンションを適用する。 その後、S4Aブロック内の状態空間操作を使用して、長距離ショット間キューを集約する。 最終TranS4merモデルは、エンドツーエンドで訓練が可能で、S4Aブロックを次々と積み重ねることで得られる。 提案したTranS4merは、MovieNet、BBC、OVSDを含む3つの映画シーン検出データセットにおいて、以前の方法よりも優れています。 コードとモデルをリリースします。

The ability to distinguish between different movie scenes is critical for understanding the storyline of a movie. However, accurately detecting movie scenes is often challenging as it requires the ability to reason over very long movie segments. This is in contrast to most existing video recognition models, which are typically designed for short-range video analysis. This work proposes a State-Space Transformer model that can efficiently capture dependencies in long movie videos for accurate movie scene detection. Our model, dubbed TranS4mer, is built using a novel S4A building block, which combines the strengths of structured state-space sequence (S4) and self-attention (A) layers. Given a sequence of frames divided into movie shots (uninterrupted periods where the camera position does not change), the S4A block first applies self-attention to capture short-range intra-shot dependencies. Afterward, the state-space operation in the S4A block is used to aggregate long-range inter-shot cues. The final TranS4mer model, which can be trained end-to-end, is obtained by stacking the S4A blocks one after the other multiple times. Our proposed TranS4mer outperforms all prior methods in three movie scene detection datasets, including MovieNet, BBC, and OVSD, while also being $2\times$ faster and requiring $3\times$ less GPU memory than standard Transformer models. We will release our code and models.
翻訳日:2023-06-23 17:52:51 公開日:2023-06-21
# 大規模状態空間におけるマルチエージェントの呪いを破る:独立線型関数近似を持つマルコフゲームにおけるrl

Breaking the Curse of Multiagents in a Large State Space: RL in Markov Games with Independent Linear Function Approximation ( http://arxiv.org/abs/2302.03673v3 )

ライセンス: Link先を確認
Qiwen Cui, Kaiqing Zhang, Simon S. Du(参考訳) 本研究では,大規模状態空間と多数のエージェントを有するマルチエージェント強化学習のための独立線形マルコフゲームを提案する。 これは独立線型関数近似を持つマルコフゲームの一種であり、各エージェントは他のプレイヤーのポリシーによって疎外される状態-作用値関数に対して独自の関数近似を持つ。 マルコフ粗相関平衡(cce)とマルコフ相関平衡(ce)と、各エージェントの関数クラスの複雑性と多項式的にしかスケールしないサンプル複雑性境界を学習するための新しいアルゴリズムを設計し、マルチエージェントの呪いを破る。 対照的に、関数近似を持つマルコフゲームに対する既存の研究は、エージェント数で指数関数的に大きい正準タブ状マルコフゲームセッティングに特化する場合、サンプル複雑性は \emph{joint action space} のサイズと一致する。 我々のアルゴリズムは、2つの重要な技術革新に依存している: 1)複数のエージェントによって引き起こされる非定常性に取り組むポリシーリプレイと関数近似の使用。2)学習マルコフ平衡とマルコフゲームでの探索を分離することで、オラクルを学習するフル情報の非回帰を、より強固なバンディットフィードバックを学習するオラクルの代わりに使用できる。 さらに,独立線形マルコフポテンシャルゲームにおいて純粋マルコフナッシュ平衡を学習できる反復的最良応答型アルゴリズムを提案する。 図表の場合、独立線型マルコフゲームに対するポリシー再生機構を適応させることで、マルコフ CCE を学習するためのサンプル複雑性を$\widetilde{O}(\epsilon^{-2}) とするアルゴリズムを提案し、ダスカラキスらで $\widetilde{O}(\epsilon^{-3})$ と $\epsilon$ は所望の精度であり、他の問題パラメータも大幅に改善する。

We propose a new model, independent linear Markov game, for multi-agent reinforcement learning with a large state space and a large number of agents. This is a class of Markov games with independent linear function approximation, where each agent has its own function approximation for the state-action value functions that are marginalized by other players' policies. We design new algorithms for learning the Markov coarse correlated equilibria (CCE) and Markov correlated equilibria (CE) with sample complexity bounds that only scale polynomially with each agent's own function class complexity, thus breaking the curse of multiagents. In contrast, existing works for Markov games with function approximation have sample complexity bounds scale with the size of the \emph{joint action space} when specialized to the canonical tabular Markov game setting, which is exponentially large in the number of agents. Our algorithms rely on two key technical innovations: (1) utilizing policy replay to tackle non-stationarity incurred by multiple agents and the use of function approximation; (2) separating learning Markov equilibria and exploration in the Markov games, which allows us to use the full-information no-regret learning oracle instead of the stronger bandit-feedback no-regret learning oracle used in the tabular setting. Furthermore, we propose an iterative-best-response type algorithm that can learn pure Markov Nash equilibria in independent linear Markov potential games. In the tabular case, by adapting the policy replay mechanism for independent linear Markov games, we propose an algorithm with $\widetilde{O}(\epsilon^{-2})$ sample complexity to learn Markov CCE, which improves the state-of-the-art result $\widetilde{O}(\epsilon^{-3})$ in Daskalakis et al. 2022, where $\epsilon$ is the desired accuracy, and also significantly improves other problem parameters.
翻訳日:2023-06-23 17:43:16 公開日:2023-06-21
# 線形結合の力:ランダム畳み込みによる学習

The Power of Linear Combinations: Learning with Random Convolutions ( http://arxiv.org/abs/2301.11360v2 )

ライセンス: Link先を確認
Paul Gavrikov and Janis Keuper(参考訳) 従来の畳み込みニューラルネットワーク(CNN)のパラダイムに従って、現代のCNNは、モデル深さと幅を増大させるだけでなく、カーネルサイズを拡大することで、例えばトランスフォーマーベースのモデルのように、より最近のモデルとペースを維持することができる。 これにより、トレーニング中に扱う必要のある学習可能なモデルパラメータが大量に発生します。 空間帰納バイアスによる畳み込みのパラダイムに従う一方で, \emph{learned} 畳み込みフィルタの重要性を疑問視する。 実際,現代のCNNアーキテクチャの多くは,ランダムに初期化(空間的)畳み込みフィルタを更新することなく高い精度でテストを行うことができる。 代わりに、単純な線形結合(効率の良い$1\times 1$ convolutionsによって実装される)は、ランダムフィルタを効率よく表現力のあるネットワーク演算子に再結合するのに十分である。 さらに、これらのランダムフィルタの組み合わせは、結果の操作を暗黙的に規則化し、オーバーフィッティングを緩和し、全体的なパフォーマンスと堅牢性を向上させる。 逆に、フィルタ更新を学習する能力を保持することは、ネットワーク性能を損なう可能性がある。 最後に、$3\times 3$ convolutionsの学習による比較的小さなゲインのみを観察するが、デフォルト初期化技法の非理想性(\textit{i.d.})のため、学習のゲインはカーネルサイズに比例して増加する。

Following the traditional paradigm of convolutional neural networks (CNNs), modern CNNs manage to keep pace with more recent, for example transformer-based, models by not only increasing model depth and width but also the kernel size. This results in large amounts of learnable model parameters that need to be handled during training. While following the convolutional paradigm with the according spatial inductive bias, we question the significance of \emph{learned} convolution filters. In fact, our findings demonstrate that many contemporary CNN architectures can achieve high test accuracies without ever updating randomly initialized (spatial) convolution filters. Instead, simple linear combinations (implemented through efficient $1\times 1$ convolutions) suffice to effectively recombine even random filters into expressive network operators. Furthermore, these combinations of random filters can implicitly regularize the resulting operations, mitigating overfitting and enhancing overall performance and robustness. Conversely, retaining the ability to learn filter updates can impair network performance. Lastly, although we only observe relatively small gains from learning $3\times 3$ convolutions, the learning gains increase proportionally with kernel size, owing to the non-idealities of the independent and identically distributed (\textit{i.i.d.}) nature of default initialization techniques.
翻訳日:2023-06-23 17:41:20 公開日:2023-06-21
# 連続および離散空間における疎ガウス過程による回帰からの効率的なセンサ配置

Efficient Sensor Placement from Regression with Sparse Gaussian Processes in Continuous and Discrete Spaces ( http://arxiv.org/abs/2303.00028v2 )

ライセンス: Link先を確認
Kalvik Jakkala, Srinivas Akella(参考訳) 本研究では,空間的(あるいは時空間的に)相関する温度や降水現象を監視するセンサ配置問題に対処するために,スパースガウス過程(SGP)に基づく新しいアプローチを提案する。 既存のガウス過程(GP)に基づくセンサ配置アプローチでは、既知のカーネル関数パラメータを持つGPを用いて現象をモデル化し、環境の離散化された表現におけるセンサ位置を最適化する。 提案手法では,SGPを既知のカーネル関数パラメータに適合させて環境中のラベルのない場所をランダムにサンプリングし,学習したSGPの誘導点が連続空間におけるセンサ配置問題を本質的に解くことを示す。 SGPは環境の離散化を回避し、計算コストを3乗から線形に削減する。 センサ配置の候補集合に制限された場合、SGPの最適化で厳密な逐次選択アルゴリズムを用いて良い解を求めることができる。 また、割当問題を用いて、連続空間の解を離散解空間に効率的にマッピングし、一斉に最適化された離散センサ配置を与える手法を提案する。 さらに,GPとSGPの固有特性を活用して,非視点場を用いたモデルセンサへのアプローチを一般化する。 実世界の3つのデータセットに対する実験結果から,我々の手法は,従来の最先端の手法に比べて常に同等かそれ以上の再現品質が得られるようなソリューション配置を生成する。 提案手法は, 大規模センサ配置と高速センサ配置を両立させることにより, 情報経路計画問題に対して有効である。

We present a novel approach based on sparse Gaussian processes (SGPs) to address the sensor placement problem for monitoring spatially (or spatiotemporally) correlated phenomena such as temperature and precipitation. Existing Gaussian process (GP) based sensor placement approaches use GPs with known kernel function parameters to model a phenomenon and subsequently optimize the sensor locations in a discretized representation of the environment. In our approach, we fit an SGP with known kernel function parameters to randomly sampled unlabeled locations in the environment and show that the learned inducing points of the SGP inherently solve the sensor placement problem in continuous spaces. Using SGPs avoids discretizing the environment and reduces the computation cost from cubic to linear complexity. When restricted to a candidate set of sensor placement locations, we can use greedy sequential selection algorithms on the SGP's optimization bound to find good solutions. We also present an approach to efficiently map our continuous space solutions to discrete solution spaces using the assignment problem, which gives us discrete sensor placements optimized in unison. Moreover, we generalize our approach to model sensors with non-point field-of-view and integrated observations by leveraging the inherent properties of GPs and SGPs. Our experimental results on three real-world datasets show that our approaches generate solution placements that result in reconstruction quality that is consistently on par or better than the prior state-of-the-art approach while being significantly faster. Our computationally efficient approaches will enable both large-scale sensor placement, and fast sensor placement for informative path planning problems.
翻訳日:2023-06-23 17:32:49 公開日:2023-06-21
# igb: ディープラーニング研究のための公開グラフデータセットのラベル付け,特徴,多様性,サイズの違いに対処する

IGB: Addressing The Gaps In Labeling, Features, Heterogeneity, and Size of Public Graph Datasets for Deep Learning Research ( http://arxiv.org/abs/2302.13522v2 )

ライセンス: Link先を確認
Arpandeep Khatua and Vikram Sharma Mailthody and Bhagyashree Taleka and Tengfei Ma and Xiang Song and Wen-mei Hwu(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな現実的かつ挑戦的なアプリケーションに対して高い可能性を示しているが、GNN研究の大きな障害のひとつは、大規模なフレキシブルデータセットの欠如である。 GNNの既存の公開データセットは比較的小さく、GNNが見えないデータに一般化する能力を制限する。 数少ない大規模グラフデータセットは非常に限られたラベル付きデータを提供する。 これにより、未確認データに対するGNNモデルの低い精度が本質的に不十分なトレーニングデータによるものなのか、あるいはモデルを一般化できなかったのかを判断することが困難になる。 さらに、GNNのトレーニングに使用されるデータセットは、GNNモデルをトレーニングしている間に、さまざまな要因の影響を徹底的に調査するための柔軟性を提供する必要がある。 In this work, we introduced the Illinois Graph Benchmark (IGB)は、開発者が高い忠実度でGNNモデルをトレーニング、精査、体系的に評価するために使用できる研究データセットツールである。 IGBには、巨大なサイズの均質グラフと異質グラフの両方が含まれており、その40%以上がラベル付けされている。 IGBは、一般公開されている最大のグラフデータセットと比較して、ディープラーニングの実践者や開発者がより高い精度でモデルを作成し評価するためのラベル付きデータ162倍以上を提供する。 igbデータセットはフレキシブルに設計された学術グラフの集合であり、様々なgnnアーキテクチャの研究、組み込み生成技術、ノード分類タスクにおけるシステムパフォーマンス問題の解析を可能にする。 IGBはオープンソースで、DGLとPyGフレームワークをサポートしています。 IGBの初期公開版はhttps://github.com/IllinoisGraphBenchmark/IGB-Datasetsで入手できる。

Graph neural networks (GNNs) have shown high potential for a variety of real-world, challenging applications, but one of the major obstacles in GNN research is the lack of large-scale flexible datasets. Most existing public datasets for GNNs are relatively small, which limits the ability of GNNs to generalize to unseen data. The few existing large-scale graph datasets provide very limited labeled data. This makes it difficult to determine if the GNN model's low accuracy for unseen data is inherently due to insufficient training data or if the model failed to generalize. Additionally, datasets used to train GNNs need to offer flexibility to enable a thorough study of the impact of various factors while training GNN models. In this work, we introduce the Illinois Graph Benchmark (IGB), a research dataset tool that the developers can use to train, scrutinize and systematically evaluate GNN models with high fidelity. IGB includes both homogeneous and heterogeneous academic graphs of enormous sizes, with more than 40% of their nodes labeled. Compared to the largest graph datasets publicly available, the IGB provides over 162X more labeled data for deep learning practitioners and developers to create and evaluate models with higher accuracy. The IGB dataset is a collection of academic graphs designed to be flexible, enabling the study of various GNN architectures, embedding generation techniques, and analyzing system performance issues for node classification tasks. IGB is open-sourced, supports DGL and PyG frameworks, and comes with releases of the raw text that we believe foster emerging language models and GNN research projects. An early public version of IGB is available at https://github.com/IllinoisGraphBenchmark/IGB-Datasets.
翻訳日:2023-06-23 17:31:48 公開日:2023-06-21
# アダプティブフローサンプリングを用いたエネルギーベースモデルのバランストレーニング

Balanced Training of Energy-Based Models with Adaptive Flow Sampling ( http://arxiv.org/abs/2306.00684v2 )

ライセンス: Link先を確認
Louis Grenioux, \'Eric Moulines, Marylou Gabri\'e(参考訳) エネルギーベースモデル(EBMs)は、非正規化ログ密度を直接パラメータ化する汎用密度推定モデルである。 非常に柔軟であるが、ebmsはモデルの特定の正規化定数を欠いているため、モデルの可能性は計算的に難解である。 いくつかの近似サンプルと変分推論手法が提案され、トレーニングの確率勾配を推定している。 これらの手法はサンプル生成に有望な結果を示しているが、データセット内の異なるクラスの相対的重要性を決定するなど、推定密度の統計的精度にはほとんど注意が払われていない。 そこで本研究では, サンプリングを容易にするために最近提案されているNF(正規化フロー)という, 異なる種類の生成モデルを用いたESMの新しい最大格トレーニングアルゴリズムを提案する。 本手法はトレーニング中にNFをEMMに適合させることで,NFを用いたサンプリング方式によりESMの正確な勾配が常に得られ,最終的には新しいデータを生成するための高速サンプリング装置となる。

Energy-based models (EBMs) are versatile density estimation models that directly parameterize an unnormalized log density. Although very flexible, EBMs lack a specified normalization constant of the model, making the likelihood of the model computationally intractable. Several approximate samplers and variational inference techniques have been proposed to estimate the likelihood gradients for training. These techniques have shown promising results in generating samples, but little attention has been paid to the statistical accuracy of the estimated density, such as determining the relative importance of different classes in a dataset. In this work, we propose a new maximum likelihood training algorithm for EBMs that uses a different type of generative model, normalizing flows (NF), which have recently been proposed to facilitate sampling. Our method fits an NF to an EBM during training so that an NF-assisted sampling scheme provides an accurate gradient for the EBMs at all times, ultimately leading to a fast sampler for generating new data.
翻訳日:2023-06-23 17:14:48 公開日:2023-06-21
# 中性原子配列におけるomg-architectureを用いた中回路演算

Mid-circuit operations using the omg-architecture in neutral atom arrays ( http://arxiv.org/abs/2305.19266v2 )

ライセンス: Link先を確認
Joanna W. Lis, Aruku Senoo, William F. McGrew, Felix R\"onchen, Alec Jenkins, Adam M. Kaufman(参考訳) 我々は,${}^{171}$yb にある$\textit{omg}$ (optical-metastable-ground state qubit) アーキテクチャを制御するための新しい方法によって,中性原子の48箇所の配列に中回路演算を実装した。 レーザーによる1量子ビット当たり平均$f_{g} = 99.968(3)$, $f_{m} = 99.12(4)$, $f_{o} = 99.804(8)$の地上・準安定・光量子ビットの制御を示す。 基底状態と準安定状態の間の状態感知シェルヴィングにより、$^{171}$Ybの非破壊状態検出を実現し、大域的な制御と局所的なフィードフォワード操作で地上状態を再起動する。 我々は、光時計遷移の局所的なアドレス付けを用いて、測定、スピンリセット、運動リセットなどの中間回路動作を地中冷却の形で行う。 基底状態の量子ビットにおける中循環の測定を特徴付けるため、ancilla qubitsでは1.8(6)%$、データキュービットでは4.5(1.0)\%$であり、前者(ラッター)は$1.0(2)\%$ (2.0(2)\%$)の準備と測定エラーで訂正されない。 この$\textit{omg}$アーキテクチャとmid-circuit操作の実現は、量子エラー訂正、絡み合い生成、メトロロジーなど、量子情報科学における多くのタスクのドア・オープンである。

We implement mid-circuit operations in a 48-site array of neutral atoms, enabled by new methods for control of the $\textit{omg}$ (optical-metastable-ground state qubit) architecture present in ${}^{171}$Yb. We demonstrate laser-based control of ground, metastable and optical qubits with average single-qubit fidelities of $F_{g} = 99.968(3)$, $F_{m} = 99.12(4)$ and $F_{o} = 99.804(8)$. With state-sensitive shelving between the ground and metastable states, we realize a non-destructive state-detection for $^{171}$Yb, and reinitialize in the ground state with either global control or local feed-forward operations. We use local addressing of the optical clock transition to perform mid-circuit operations, including measurement, spin reset, and motional reset in the form of ground-state cooling. In characterizing mid-circuit measurement on ground-state qubits, we observe raw errors of $1.8(6)\%$ on ancilla qubits and $4.5(1.0)\%$ on data qubits, with the former (latter) uncorrected for $1.0(2)\%$ ($2.0(2)\%$) preparation and measurement error; we observe similar performance for mid-circuit reset operations. The reported realization of the $\textit{omg}$ architecture and mid-circuit operations are door-opening for many tasks in quantum information science, including quantum error-correction, entanglement generation, and metrology.
翻訳日:2023-06-23 17:14:22 公開日:2023-06-21
# 位相結合干渉計を用いたパラドックス

Paradox with Phase-Coupled Interferometers ( http://arxiv.org/abs/2305.14241v2 )

ライセンス: Link先を確認
Saba Etezad-Razavi and Lucien Hardy(参考訳) 一対の干渉計は、それぞれから1つの経路が重なり合うように結合することができ、この重なり合う領域で粒子が交わると消滅する。 30年以上前の我々の一人は、このような消滅結合干渉計が明らかにパラドックス的な振る舞いを示すことを示した。 最近では、BoseらとMarlettoとVedralは、位相カップリングされた2つの干渉計(重力相互作用による結合)を検討した。 この場合、各干渉計からの1つの経路が位相結合相互作用を受ける。 これらの位相結合型干渉計は消滅結合型干渉計と同じ明らかなパラドックスを示すが、奇妙な双対的な方法である。

A pair of interferometers can be coupled by allowing one path from each to overlap such that if the particles meet in this overlap region, they annihilate. It was shown by one of us over thirty years ago that such annihilation-coupled interferometers can exhibit apparently paradoxical behaviour. More recently, Bose et al. and Marletto and Vedral have considered a pair of interferometers that are phase-coupled (where the coupling is through gravitational interaction). In this case one path from each interferometer undergoes a phase-coupling interaction. We show that these phase-coupled interferometers exhibit the same apparent paradox as the annihilation-coupled interferometers, though in a curiously dual manner.
翻訳日:2023-06-23 17:13:21 公開日:2023-06-21
# 離散グラフ拡散における異なる収束前駆体の複素選好

Complex Preferences for Different Convergent Priors in Discrete Graph Diffusion ( http://arxiv.org/abs/2306.02957v2 )

ライセンス: Link先を確認
Alex M. Tseng, Nathaniel Diamant, Tommaso Biancalani, Gabriele Scalia(参考訳) 拡散モデルは、画像、テキスト、ビデオなど、さまざまな種類のデータを生成することで、最先端のパフォーマンスを達成した。 それらの成功にもかかわらず、基礎となる拡散過程と最終収束前の収束が生成性能に与える影響についての研究は限られており、この研究は連続データ型やスコアベースの拡散フレームワークにも制限されている。 このギャップを埋めるために、異なる離散拡散核(先行分布に収束する)がグラフの拡散モデルの性能にどのように影響するかを考察する。 そこで我々は,異なるベルヌーイ前駆体に収束し易い離散拡散核群を新規に定式化し,これら異なる核群が生成性能に及ぼす影響について検討した。 生成したグラフの品質は、以前使用したグラフに敏感であり、その最適な選択は、過去の研究が示唆した直観に挑戦する明らかな統計やメトリクスによって説明できないことを示す。

Diffusion models have achieved state-of-the-art performance in generating many different kinds of data, including images, text, and videos. Despite their success, there has been limited research on how the underlying diffusion process and the final convergent prior can affect generative performance; this research has also been limited to continuous data types and a score-based diffusion framework. To fill this gap, we explore how different discrete diffusion kernels (which converge to different prior distributions) affect the performance of diffusion models for graphs. To this end, we developed a novel formulation of a family of discrete diffusion kernels which are easily adjustable to converge to different Bernoulli priors, and we study the effect of these different kernels on generative performance. We show that the quality of generated graphs is sensitive to the prior used, and that the optimal choice cannot be explained by obvious statistics or metrics, which challenges the intuitions which previous works have suggested.
翻訳日:2023-06-23 17:01:49 公開日:2023-06-21
# Explore, Establish, Exploit: Scratchのレッドチーム言語モデル

Explore, Establish, Exploit: Red Teaming Language Models from Scratch ( http://arxiv.org/abs/2306.09442v2 )

ライセンス: Link先を確認
Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan Hadfield-Menell(参考訳) 大規模言語モデル(llm)のデプロイは、有害な音声や不正な音声などの有害なアウトプットから危険をもたらす可能性がある。 以前の作業では、これらのリスクを特定し軽減するために有害なアウトプットを引き出すツールが導入されていた。 これは言語モデルを保護するための貴重なステップであるが、これらのアプローチは通常、望ましくない出力に対して既存の分類器に依存している。 これにより、有害な行動の種類が事前に正確に知られている状況に制限される。 しかし、これはred teamingの中心的な課題をスキップする:モデルが示すことのできる振る舞いのコンテキスト理解を開発する。 さらに、そのような分類器がすでに存在する場合、レッド・チーム化は訓練データやモデル出力のフィルタリングに単純に使用できるため、限界値に制限がある。 この研究では、敵が望ましくない行動の高レベルで抽象的な仕様から動いているという仮定の下でレッドチームを考える。 redチームは、この仕様を洗練/拡張し、モデルからこの振る舞いを引き出すメソッドを特定することが期待されている。 当社のred teamingフレームワークは3つのステップで構成されています。 1) 所望の文脈でモデルの振る舞いを探索すること。 2 望ましくない行動の測定(例えば、人間の評価を反映するように訓練された分類器)の確立及び 3) この尺度と確立されたレッドチーム編成手法を用いて,モデルの欠陥を悪用する。 本手法をレッドチーム GPT-2 および GPT-3 モデルに適用し,毒性および不正直な記述を誘発するプロンプトのクラスを系統的に発見する。 その際、人間の被験者がcommon-knowledge-true、common-knowledge-falseとラベル付けした2万文のcommonclaimデータセットを構築して公開します。 コードはhttps://github.com/thestephencasper/explore_establish_exploit_llmsで入手できる。 CommonClaimはhttps://github.com/Algorithmic-Alignment-Lab/CommonClaimで入手できる。

Deploying Large language models (LLMs) can pose hazards from harmful outputs such as toxic or dishonest speech. Prior work has introduced tools that elicit harmful outputs in order to identify and mitigate these risks. While this is a valuable step toward securing language models, these approaches typically rely on a pre-existing classifier for undesired outputs. This limits their application to situations where the type of harmful behavior is known with precision beforehand. However, this skips a central challenge of red teaming: developing a contextual understanding of the behaviors that a model can exhibit. Furthermore, when such a classifier already exists, red teaming has limited marginal value because the classifier could simply be used to filter training data or model outputs. In this work, we consider red teaming under the assumption that the adversary is working from a high-level, abstract specification of undesired behavior. The red team is expected to refine/extend this specification and identify methods to elicit this behavior from the model. Our red teaming framework consists of three steps: 1) Exploring the model's behavior in the desired context; 2) Establishing a measurement of undesired behavior (e.g., a classifier trained to reflect human evaluations); and 3) Exploiting the model's flaws using this measure and an established red teaming methodology. We apply this approach to red team GPT-2 and GPT-3 models to systematically discover classes of prompts that elicit toxic and dishonest statements. In doing so, we also construct and release the CommonClaim dataset of 20,000 statements that have been labeled by human subjects as common-knowledge-true, common-knowledge-false, or neither. Code is available at https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is available at https://github.com/Algorithmic-Alignment-Lab/CommonClaim.
翻訳日:2023-06-23 16:52:47 公開日:2023-06-21
# 情報汚染としての誤情報

Misinformation as Information Pollution ( http://arxiv.org/abs/2306.12466v1 )

ライセンス: Link先を確認
Ashkan Kazemi, Rada Mihalcea(参考訳) ソーシャルメディアフィードアルゴリズムは、広告利益を最大化するために、オンラインソーシャルエンゲージメントを最適化するために設計されており、したがって、誤情報を含む議論を呼ぶ投稿を促進するインセンティブがある。 誤報を情報汚染として考えることで,炭素税などの公害対策の環境政策と並行して考えることができる。 汚染と同様に、pigouvian tax on misinformationは、ソーシャルメディア企業が偽情報の拡散をより効果的に制御し、偽情報税を回避または軽減し、プラットフォームの反応の自由度をある程度保ちながら、経済的なインセンティブを提供する。 本稿では,シロイヌナズナの誤情報税に対する鳥の視点に注目し,このような税制導入の鍵となる課題と次のステップについて論じる。

Social media feed algorithms are designed to optimize online social engagements for the purpose of maximizing advertising profits, and therefore have an incentive to promote controversial posts including misinformation. By thinking about misinformation as information pollution, we can draw parallels with environmental policy for countering pollution such as carbon taxes. Similar to pollution, a Pigouvian tax on misinformation provides economic incentives for social media companies to control the spread of misinformation more effectively to avoid or reduce their misinformation tax, while preserving some degree of freedom in platforms' response. In this paper, we highlight a bird's eye view of a Pigouvian misinformation tax and discuss the key questions and next steps for implementing such a taxing scheme.
翻訳日:2023-06-23 16:44:27 公開日:2023-06-21
# 乗法フリー推論による高効率深スパイキング多層パーセプトロン

Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference ( http://arxiv.org/abs/2306.12465v1 )

ライセンス: Link先を確認
Boyan Li, Luziwei Leng, Ran Cheng, Shuaijie Shen, Kaixuan Zhang, Jianguo Zhang, Jianxing Liao(参考訳) スパイキングニューラルネットワーク(SNN)に対する深層畳み込みアーキテクチャの適用の進歩は、画像分類性能を大幅に向上させ、計算負荷を低減させた。 しかし、高分解能ビジョンタスクの性能向上に重要な注意と変圧器機構を調和させるMFI(Multiplication-Free Inference)が存在しないため、これらの利得に制限が課せられる。 そこで本研究では,MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て,新たな経路を探索する。 本稿では,MFIの互換性を維持するためにバッチ正規化を利用する革新的なスパイクMLPアーキテクチャを提案し,ローカル特徴抽出機能を強化するためのスパイクパッチ符号化層を提案する。 その結果,グローバルレセプティブフィールドと局所特徴抽出を効果的に融合し,スパイクに基づく包括的計算を行うマルチステージスパイクmlpネットワークを構築した。 我々のネットワークは、事前トレーニングや洗練されたSNNトレーニング技術に頼ることなく、ImageNet-1Kデータセットで66.39%のトップ1精度を確保し、直接訓練されたResNet-34を2.67%上回る。 さらに,計算コスト,モデル容量,シミュレーションステップを削減した。 我々のネットワークの拡張版は、モデル容量2.1倍の容量で運用しながら、71.64%の精度でスパイクするVGG-16ネットワークの性能に挑戦する。 我々の発見は、グローバルとローカルの学習能力をシームレスに統合する深層SNNアーキテクチャの可能性を強調した。 興味深いことに、我々のネットワークの訓練された受容野は皮質細胞の活動パターンを反映している。

Advancements in adapting deep convolution architectures for Spiking Neural Networks (SNNs) have significantly enhanced image classification performance and reduced computational burdens. However, the inability of Multiplication-Free Inference (MFI) to harmonize with attention and transformer mechanisms, which are critical to superior performance on high-resolution vision tasks, imposes limitations on these gains. To address this, our research explores a new pathway, drawing inspiration from the progress made in Multi-Layer Perceptrons (MLPs). We propose an innovative spiking MLP architecture that uses batch normalization to retain MFI compatibility and introduces a spiking patch encoding layer to reinforce local feature extraction capabilities. As a result, we establish an efficient multi-stage spiking MLP network that effectively blends global receptive fields with local feature extraction for comprehensive spike-based computation. Without relying on pre-training or sophisticated SNN training techniques, our network secures a top-1 accuracy of 66.39% on the ImageNet-1K dataset, surpassing the directly trained spiking ResNet-34 by 2.67%. Furthermore, we curtail computational costs, model capacity, and simulation steps. An expanded version of our network challenges the performance of the spiking VGG-16 network with a 71.64% top-1 accuracy, all while operating with a model capacity 2.1 times smaller. Our findings accentuate the potential of our deep SNN architecture in seamlessly integrating global and local learning abilities. Interestingly, the trained receptive field in our network mirrors the activity patterns of cortical cells.
翻訳日:2023-06-23 16:44:14 公開日:2023-06-21
# 精密精神医学 : 予測可能性

Precision psychiatry: predicting predictability ( http://arxiv.org/abs/2306.12462v1 )

ライセンス: Link先を確認
Edwin van Dellen(参考訳) 精密精神医学(precision psychiatry)は、精神医療に個別のアプローチを提供することを目的とした、新興分野である。 多変量解析と機械学習は、人口統計、症状評価、遺伝情報、脳画像などの臨床データに基づく結果予測モデルを作成するために用いられる。 技術革新に多くの重点が置かれているが、メンタルヘルスの複雑で多様な性質は、これらのモデルの実装の成功に重大な課題をもたらす。 この観点から、実社会の人口調査や現実的な臨床結果定義の必要性、プラセボ効果などの治療関連要因の考察、処方薬の順守など、精密精神医学の分野における10の課題を概観する。 公正さ、現在の実践との比較、予測モデルの実装研究は、現在検討されている他の重要な問題である。 病気の線形および静的概念に基づくふりかえり研究から、文脈的要因の重要性と精神健康の動的かつ複雑な性質を考慮した将来の研究へのシフトが提案されている。

Precision psychiatry is an ermerging field that aims to provide individualized approaches to mental health care. Multivariate analysis and machine learning are used to create outcome prediction models based on clinical data such as demographics, symptom assessments, genetic information, and brain imaging. While much emphasis has been placed on technical innovation, the complex and varied nature of mental health presents significant challenges to the successful implementation of these models. From this perspective, I review ten challenges in the field of precision psychiatry, including the need for studies on real-world populations and realistic clinical outcome definitions, consideration of treatment-related factors such as placebo effects and non-adherence to prescriptions. Fairness, prospective validation in comparison to current practice and implementation studies of prediction models are other key issues that are currently understudied. A shift is proposed from retrospective studies based on linear and static concepts of disease towards prospective research that considers the importance of contextual factors and the dynamic and complex nature of mental health.
翻訳日:2023-06-23 16:43:44 公開日:2023-06-21
# 衛星画像のラベル比による軽量学習

Lightweight learning from label proportions on satellite imagery ( http://arxiv.org/abs/2306.12461v1 )

ライセンス: Link先を確認
Ra\'ul Ramos-Poll\'an, Fabio A. Gonz\'alez(参考訳) この研究は、一般に行政部門(自治体やコミューンなど)の統計データや集約データから、粗い空間幾何学におけるラベルの比率のみを利用できる場合、衛星画像上でチップレベルの予測を作成するという課題に対処する。 この種の表型データは通常、世界中の多くの地域で利用可能であり、その利用は地球観測(EO)における細粒度ラベル付きデータの固有不足の活用に寄与する可能性がある。 これは、LLP(Learning from Label Proportions)問題設定として表すことができる。 EOデータに適用されたLPはいまだ発展途上であり、標準化されたデータセットがないため、適用シナリオにおける比較研究は依然として課題である。 本稿では,まず,単純な深層学習と確率的手法が,標準的より複雑なものよりも一般的にどのように機能するかを示す。 第2に,既存の行政区分に従って,細粒度ラベルと集約データの両方を提供するEOに適用可能なベンチマークデータセットのセットを提供する。 最後に、軌道上での推論とトレーニングを考慮して、このアプローチがいかに価値があるかについて議論する。 ソースコードはhttps://github.com/rramosp/llpeoで入手できる。

This work addresses the challenge of producing chip level predictions on satellite imagery when only label proportions at a coarser spatial geometry are available, typically from statistical or aggregated data from administrative divisions (such as municipalities or communes). This kind of tabular data is usually widely available in many regions of the world and application areas and, thus, its exploitation may contribute to leverage the endemic scarcity of fine grained labelled data in Earth Observation (EO). This can be framed as a Learning from Label Proportions (LLP) problem setup. LLP applied to EO data is still an emerging field and performing comparative studies in applied scenarios remains a challenge due to the lack of standardized datasets. In this work, first, we show how simple deep learning and probabilistic methods generally perform better than standard more complex ones, providing a surprising level of finer grained spatial detail when trained with much coarser label proportions. Second, we provide a set of benchmarking datasets enabling comparative LLP applied to EO, providing both fine grained labels and aggregated data according to existing administrative divisions. Finally, we argue how this approach might be valuable when considering on-orbit inference and training. Source code is available at https://github.com/rramosp/llpeo
翻訳日:2023-06-23 16:43:29 公開日:2023-06-21
# 多レベル地域におけるcovid-19予測のための深部動的疫学モデル

Deep Dynamic Epidemiological Modelling for COVID-19 Forecasting in Multi-level Districts ( http://arxiv.org/abs/2306.12457v1 )

ライセンス: Link先を確認
Ruhan Liu, Jiajia Li, Yang Wen, Huating Li, Ping Zhang, Bin Sheng, David Dagan Feng(参考訳) 目的:新型コロナウイルスは世界中に広がり、世界中で大きな影響を与えた。 新型コロナウイルスの感染拡大状況のモデル化は、現在の状況を理解し、介入測定を定式化する上で不可欠である。 SEIRモデルに基づく疫学方程式は疾患の発生をシミュレートする。 セイル方程式を解く従来のパラメータ推定法は, 社会的分散政策や介入戦略など, 様々な状況から実世界データに正確に適合することができなかった。 さらに、学習ベースのモデルは優れた適合性能を達成するが、メカニズムを可視化することはできない。 方法:本論文では,疫学方程式と深層学習の利点を組み合わせた深層動的疫学(DDE)法を提案する。 DDEには効果関数に適合する深いネットワークが含まれており、変分方程式の解法におけるニューラルODE法に基づいて、常に変化する状況をシミュレートし、マルチレベル領域の適合性能を確保する。 結果: 異なる国や地域で異なる状況に適合する4つのSEIR変異体を紹介した。 我々は,DDE法と従来のパラメータ推定法(Nelder-Mead, BFGS, Powell, Truncated Newton Conjugate-Gradient, Neural ODE)を比較し,実世界のデータ(米国,コロンビア,南アフリカ)と地域(中国の武漢,イタリアのピードモント)とを比較した。 DDE法は,全5領域における平均正方形誤差とピアソン係数を達成する。 さらに、最先端の学習ベースアプローチと比較して、DDEはLSTM、RNN、GRU、Random Forest、Extremely Random Trees、Decision Treeなど、すべての技術より優れている。 結論:ddeは優れた予測能力を示し,異なる地域や国における感染率の変化を可視化した。

Objective: COVID-19 has spread worldwide and made a huge influence across the world. Modeling the infectious spread situation of COVID-19 is essential to understand the current condition and to formulate intervention measurements. Epidemiological equations based on the SEIR model simulate disease development. The traditional parameter estimation method to solve SEIR equations could not precisely fit real-world data due to different situations, such as social distancing policies and intervention strategies. Additionally, learning-based models achieve outstanding fitting performance, but cannot visualize mechanisms. Methods: Thus, we propose a deep dynamic epidemiological (DDE) method that combines epidemiological equations and deep-learning advantages to obtain high accuracy and visualization. The DDE contains deep networks to fit the effect function to simulate the ever-changing situations based on the neural ODE method in solving variants' equations, ensuring the fitting performance of multi-level areas. Results: We introduce four SEIR variants to fit different situations in different countries and regions. We compare our DDE method with traditional parameter estimation methods (Nelder-Mead, BFGS, Powell, Truncated Newton Conjugate-Gradient, Neural ODE) in fitting the real-world data in the cases of countries (the USA, Columbia, South Africa) and regions (Wuhan in China, Piedmont in Italy). Our DDE method achieves the best Mean Square Error and Pearson coefficient in all five areas. Further, compared with the state-of-art learning-based approaches, the DDE outperforms all techniques, including LSTM, RNN, GRU, Random Forest, Extremely Random Trees, and Decision Tree. Conclusion: DDE presents outstanding predictive ability and visualized display of the changes in infection rates in different regions and countries.
翻訳日:2023-06-23 16:43:07 公開日:2023-06-21
# マシン設計の限界を押し上げる - AIによるCPU設計の自動化

Pushing the Limits of Machine Design: Automated CPU Design with AI ( http://arxiv.org/abs/2306.12456v1 )

ライセンス: Link先を確認
Shuyao Cheng, Pengwei Jin, Qi Guo, Zidong Du, Rui Zhang, Yunhao Tian, Xing Hu, Yongwei Zhao, Yifan Hao, Xiangtao Guan, Husheng Han, Zhengyue Zhao, Ximing Liu, Ling Li, Xishan Zhang, Yuejie Chu, Weilong Mao, Tianshi Chen and Yunji Chen(参考訳) 設計活動 - 与えられた目標と制約を満たすアーティファクトの記述を構築する -- は、他の動物や伝統的な機械と人間を区別し、人間レベル以上の設計能力を持つ機械を授けている。 機械はすでに高度な人工知能(ai)技術を用いて新しい材料、タンパク質、コンピュータプログラムを設計する能力を実証しているが、そのような物体を設計するための探索空間は比較的小さいため、「機械は人間のように設計できるのか? ここでは、機械設計の境界を探索するため、中央処理ユニット(CPU)、コンピュータの脳、そして人類がこれまで設計した中でもっとも複雑な装置の1つを自動設計する新しいAIアプローチを提案する。 このアプローチは、形式的なプログラムコードの代わりに外部の入出力観測のみからCPU設計のバイナリ・スペキュレーション・ダイアグラム(BSD)と呼ばれるグラフ構造で表される回路論理を生成する。 BSD の生成の間、モンテカルロに基づく拡張とブール関数の距離は、それぞれ精度と効率を保証するために使用される。 前例のないサイズ(10^{10^{540}})の探索空間を効率的に探索することで、機械設計の限界を押し上げることにより、産業規模のrisc-v cpuをわずか5時間で生成する。 タップアウトされたCPUはLinuxオペレーティングシステムをうまく動作させ、人間設計のIntel 80486SX CPUと互換性がある。 設計サイクルを大幅に減らして半導体産業を改革する可能性のある入力出力観測からのみ、世界初のCPUを学ぶことに加えて、我々のアプローチはフォン・ノイマンアーキテクチャの人間の知識を自律的に発見する。

Design activity -- constructing an artifact description satisfying given goals and constraints -- distinguishes humanity from other animals and traditional machines, and endowing machines with design abilities at the human level or beyond has been a long-term pursuit. Though machines have already demonstrated their abilities in designing new materials, proteins, and computer programs with advanced artificial intelligence (AI) techniques, the search space for designing such objects is relatively small, and thus, "Can machines design like humans?" remains an open question. To explore the boundary of machine design, here we present a new AI approach to automatically design a central processing unit (CPU), the brain of a computer, and one of the world's most intricate devices humanity have ever designed. This approach generates the circuit logic, which is represented by a graph structure called Binary Speculation Diagram (BSD), of the CPU design from only external input-output observations instead of formal program code. During the generation of BSD, Monte Carlo-based expansion and the distance of Boolean functions are used to guarantee accuracy and efficiency, respectively. By efficiently exploring a search space of unprecedented size 10^{10^{540}}, which is the largest one of all machine-designed objects to our best knowledge, and thus pushing the limits of machine design, our approach generates an industrial-scale RISC-V CPU within only 5 hours. The taped-out CPU successfully runs the Linux operating system and performs comparably against the human-designed Intel 80486SX CPU. In addition to learning the world's first CPU only from input-output observations, which may reform the semiconductor industry by significantly reducing the design cycle, our approach even autonomously discovers human knowledge of the von Neumann architecture.
翻訳日:2023-06-23 16:42:35 公開日:2023-06-21
# 因果効果推定のための条件変数表現の学習

Learning Conditional Instrumental Variable Representation for Causal Effect Estimation ( http://arxiv.org/abs/2306.12453v1 )

ライセンス: Link先を確認
Debo Cheng, Ziqi Xu, Jiuyong Li, Lin Liu, Thuc Duy Le, and Jixue Liu(参考訳) 因果推論における根本的な課題の1つは、観察データからその関心の結果に対する治療の因果効果を推定することである。 しかし、因果効果の推定は、治療と結果の両方に影響を及ぼす未測定の共同設立者による共起バイアスの影響に悩まされることが多い。 インストゥルメンタル変数(IV)アプローチは、潜在的共同設立者からの偏見を取り除く強力な方法である。 しかし、既存のIVベースの推定器は、候補IVを必要とし、条件IV(CIV)は、因果効果の推定にも対応する条件セットも必要である。 これはIVベースの推定器の適用を制限する。 本稿では,不等角表現学習の利点を生かして,civの表現とその条件付け集合の表現を学習・分析し,潜在共起者とのデータから因果効果を推定する新しい手法であるdvae.civを提案する。 合成データと実世界のデータセットの両方に関する広範な実験の結果は、既存の因果効果推定器に対するdvae.civ法が優れていることを示している。

One of the fundamental challenges in causal inference is to estimate the causal effect of a treatment on its outcome of interest from observational data. However, causal effect estimation often suffers from the impacts of confounding bias caused by unmeasured confounders that affect both the treatment and the outcome. The instrumental variable (IV) approach is a powerful way to eliminate the confounding bias from latent confounders. However, the existing IV-based estimators require a nominated IV, and for a conditional IV (CIV) the corresponding conditioning set too, for causal effect estimation. This limits the application of IV-based estimators. In this paper, by leveraging the advantage of disentangled representation learning, we propose a novel method, named DVAE.CIV, for learning and disentangling the representations of CIV and the representations of its conditioning set for causal effect estimations from data with latent confounders. Extensive experimental results on both synthetic and real-world datasets demonstrate the superiority of the proposed DVAE.CIV method against the existing causal effect estimators.
翻訳日:2023-06-23 16:42:05 公開日:2023-06-21
# セミインプシティデノイング拡散モデル(SIDDM)

Semi-Implicit Denoising Diffusion Models (SIDDMs) ( http://arxiv.org/abs/2306.12511v1 )

ライセンス: Link先を確認
Yanwu Xu, Mingming Gong, Shaoan Xie, Wei Wei, Matthias Grundmann, kayhan Batmanghelich, Tingbo Hou(参考訳) 生成モデルの普及にもかかわらず、サンプルの多様性や品質を損なうことなく推論中に高速なサンプリングを実現することは依然として困難である。 Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。 DDGAN(Denoising Diffusion Generative Adversarial Networks)は、拡散過程におけるより大きなジャンプのためにGANモデルを統合することにより、この制限を回避することを試みた。 しかし、DDGANは大規模なデータセットに適用する場合、スケーラビリティの制限に直面した。 これらの制約に対処するために、暗黙的および明示的な要因をマッチングすることで問題に取り組む新しいアプローチを導入する。 より具体的には、ノイズデータの限界分布と前方拡散の明示的な条件分布とを一致させるために暗黙モデルを利用する手法である。 この組み合わせにより、ジョイント・デノイジング分布を効果的に一致させることができる。 DDPMと異なり、DDGANと似ているが、逆ステップではパラメトリック分布を強制しないため、推論中に大きなステップを踏むことができる。 ddpmと似ているが、ddganとは異なり、拡散過程の正確な形を利用する。 提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに非常に優れた結果が得られることを示す。

Despite the proliferation of generative models, achieving fast sampling during inference without compromising sample diversity and quality remains challenging. Existing models such as Denoising Diffusion Probabilistic Models (DDPM) deliver high-quality, diverse samples but are slowed by an inherently high number of iterative steps. The Denoising Diffusion Generative Adversarial Networks (DDGAN) attempted to circumvent this limitation by integrating a GAN model for larger jumps in the diffusion process. However, DDGAN encountered scalability limitations when applied to large datasets. To address these limitations, we introduce a novel approach that tackles the problem by matching implicit and explicit factors. More specifically, our approach involves utilizing an implicit model to match the marginal distributions of noisy data and the explicit conditional distribution of the forward diffusion. This combination allows us to effectively match the joint denoising distributions. Unlike DDPM but similar to DDGAN, we do not enforce a parametric distribution for the reverse step, enabling us to take large steps during inference. Similar to the DDPM but unlike DDGAN, we take advantage of the exact form of the diffusion process. We demonstrate that our proposed method obtains comparable generative performance to diffusion-based models and vastly superior results to models with a small number of sampling steps.
翻訳日:2023-06-23 16:35:31 公開日:2023-06-21
# 超音波およびマンモグラフィー画像における乳腺腫瘍検出のためのセグメンテーションモデルとU-Netの比較解析

Comparative Analysis of Segment Anything Model and U-Net for Breast Tumor Detection in Ultrasound and Mammography Images ( http://arxiv.org/abs/2306.12510v1 )

ライセンス: Link先を確認
Mohsen Ahmadi, Masoumeh Farhadi Nia, Sara Asgarian, Kasra Danesh, Elyas Irankhah, Ahmad Gholizadeh Lonbar, Abbas Sharifi(参考訳) 本研究の目的は,乳房超音波(BUS)およびマンモグラフィー画像中の腫瘍領域を同定・デライン化できるアルゴリズムを開発することである。 この技術は、2つの高度なディープラーニングアーキテクチャ、すなわち U-Net と SAM を腫瘍セグメンテーションに用いている。 U-Netモデルは医用画像セグメンテーション用に特別に設計され、深層畳み込みニューラルネットワークフレームワークを利用して入力画像から有意義な特徴を抽出する。 一方、事前訓練されたSAMアーキテクチャでは、空間的依存関係をキャプチャし、セグメンテーション結果を生成するメカニズムが組み込まれている。 良性腫瘍と悪性腫瘍の両方をカバーするバス画像およびマンモグラフィ画像に注釈付き腫瘍領域を含む多彩なデータセット上で評価を行う。 このデータセットは、異なる腫瘍タイプにわたるアルゴリズムのパフォーマンスの包括的な評価を可能にする。 以上の結果から,U-Netモデルは,BUS画像とマンモグラフィ画像の両方の腫瘍領域を正確に同定し,セグメンテーションするために,事前訓練されたSAMアーキテクチャよりも優れていることが示された。 U-Netは不規則な形状、不明瞭な境界、高い腫瘍の不均一性を含む難治性症例において優れた性能を示す。 対照的に、事前訓練されたSAMアーキテクチャーは、特に悪性腫瘍や境界の弱い物や複雑な形状の物に対して、腫瘍領域を正確に識別する限界を示す。 これらの知見は,医用画像分割に適したディープラーニングアーキテクチャを選択することの重要性を強調した。 U-Netモデルは、腫瘍検出のための堅牢で正確なツールとしての可能性を示し、事前訓練されたSAMアーキテクチャは、セグメンテーション性能を向上させるためのさらなる改善の必要性を示唆している。

In this study, the main objective is to develop an algorithm capable of identifying and delineating tumor regions in breast ultrasound (BUS) and mammographic images. The technique employs two advanced deep learning architectures, namely U-Net and pretrained SAM, for tumor segmentation. The U-Net model is specifically designed for medical image segmentation and leverages its deep convolutional neural network framework to extract meaningful features from input images. On the other hand, the pretrained SAM architecture incorporates a mechanism to capture spatial dependencies and generate segmentation results. Evaluation is conducted on a diverse dataset containing annotated tumor regions in BUS and mammographic images, covering both benign and malignant tumors. This dataset enables a comprehensive assessment of the algorithm's performance across different tumor types. Results demonstrate that the U-Net model outperforms the pretrained SAM architecture in accurately identifying and segmenting tumor regions in both BUS and mammographic images. The U-Net exhibits superior performance in challenging cases involving irregular shapes, indistinct boundaries, and high tumor heterogeneity. In contrast, the pretrained SAM architecture exhibits limitations in accurately identifying tumor areas, particularly for malignant tumors and objects with weak boundaries or complex shapes. These findings highlight the importance of selecting appropriate deep learning architectures tailored for medical image segmentation. The U-Net model showcases its potential as a robust and accurate tool for tumor detection, while the pretrained SAM architecture suggests the need for further improvements to enhance segmentation performance.
翻訳日:2023-06-23 16:35:09 公開日:2023-06-21
# 深層言語ネットワーク:変分推論を用いた積み重ねLLMの連発学習

Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference ( http://arxiv.org/abs/2306.12509v1 )

ライセンス: Link先を確認
Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux(参考訳) 我々は,大規模言語モデル(LLMs)をネットワーク内の確率的 \emph{言語層とみなし,学習可能なパラメータは各層における自然言語 \emph{prompts} である。 このようなレイヤを2つ積み重ねて,ひとつのレイヤの出力を次のレイヤに供給します。 我々はスタックアーキテクチャを \emph{deep language network} (dln)と呼ぶ。 まず,1層言語ネットワーク(dln-1)の最適化を効果的に行う方法を示す。 次に、2つのプロンプトを学ぶ必要がある2層dln(dln-2)のトレーニング方法を示す。 我々は,第1層の出力を残差化のための潜伏変数とみなし,共同学習のための変分推論アルゴリズムを考案する。 DLN-2は単一層よりも高い性能に到達し、ネットワーク内の各LCMが小さく、より強力でない場合でも、時には数ショットのGPT-4に匹敵する。 dlnコードはオープンソースである。 https://github.com/microsoft/deep-language-networks。

We view large language models (LLMs) as stochastic \emph{language layers} in a network, where the learnable parameters are the natural language \emph{prompts} at each layer. We stack two such layers, feeding the output of one layer to the next. We call the stacked architecture a \emph{Deep Language Network} (DLN). We first show how to effectively perform prompt optimization for a 1-Layer language network (DLN-1). We then show how to train 2-layer DLNs (DLN-2), where two prompts must be learnt. We consider the output of the first layer as a latent variable to marginalize, and devise a variational inference algorithm for joint prompt training. A DLN-2 reaches higher performance than a single layer, sometimes comparable to few-shot GPT-4 even when each LLM in the network is smaller and less powerful. The DLN code is open source: https://github.com/microsoft/deep-language-networks .
翻訳日:2023-06-23 16:34:40 公開日:2023-06-21
# ブラックボックスの低性能領域の調査:シープシス検出におけるLIMEに基づく探索

Investigating Poor Performance Regions of Black Boxes: LIME-based Exploration in Sepsis Detection ( http://arxiv.org/abs/2306.12507v1 )

ライセンス: Link先を確認
Mozhgan Salimiparsa, Surajsinh Parmar, San Lee, Choongmin Kim, Yonghwan Kim, Jang Yong Kim(参考訳) 機械学習モデルの解釈は依然として課題であり、臨床環境での採用を妨げる。 本稿では,局所的解釈可能なモデル非依存的説明(lime)を用いて,ブラックボックス分類モデルの解釈可能な記述法を提案する。 誤分類されたインスタンスを分析することで、サブ最適性能に寄与する重要な特徴が特定される。 分析は、分類器が性能の悪い領域を明らかにし、これらの領域内のエラー率の計算を可能にする。 この知識は敗血症検出やその他の重要な応用において慎重な意思決定に不可欠である。 提案手法はeICUデータセットを用いて,分類器が性能の低い領域を効果的に識別・可視化する。 本手法は,解釈可能性を高めることにより,臨床実践における機械学習モデルの採用を促進するとともに,重要なシナリオにおける意思決定とリスク軽減を支援する。

Interpreting machine learning models remains a challenge, hindering their adoption in clinical settings. This paper proposes leveraging Local Interpretable Model-Agnostic Explanations (LIME) to provide interpretable descriptions of black box classification models in high-stakes sepsis detection. By analyzing misclassified instances, significant features contributing to suboptimal performance are identified. The analysis reveals regions where the classifier performs poorly, allowing the calculation of error rates within these regions. This knowledge is crucial for cautious decision-making in sepsis detection and other critical applications. The proposed approach is demonstrated using the eICU dataset, effectively identifying and visualizing regions where the classifier underperforms. By enhancing interpretability, our method promotes the adoption of machine learning models in clinical practice, empowering informed decision-making and mitigating risks in critical scenarios.
翻訳日:2023-06-23 16:34:22 公開日:2023-06-21
# シャッフルsgdによる経験的リスク最小化 : 初歩的視点と限界の改善

Empirical Risk Minimization with Shuffled SGD: A Primal-Dual Perspective and Improved Bounds ( http://arxiv.org/abs/2306.12498v1 )

ライセンス: Link先を確認
Xufeng Cai, Cheuk Yin Lin, Jelena Diakonikolas(参考訳) 確率勾配降下(SGD)は、おそらく現代の機械学習において最も一般的な最適化手法である。 置換なしでデータセットからサンプリングし、各エポックで(可能な)再シャッフルする経験的な実践とは対照的に、理論上のSGDは置換を伴うサンプリングの仮定に依存している。 SGDを交換せずにサンプリングするSGDが分析されたのはごく最近のことだ。 凸有限和問題と$n$成分と各成分関数に対する$L$-平滑性仮定では、十分小さい -- $\mathcal{O}(\frac{1}{nL})$ -- ステップサイズで上と下の境界が一致する。 しかし、これらの境界は悲観的すぎるように見える ― 実際、予測された性能は、完全な勾配降下よりも一般的には良くなく、経験的な観察に一致しない。 本研究では,シャッフルsgdの理論と実践のギャップを狭めるため,一般有限和問題から線形予測器による経験的リスク最小化へ焦点を絞る。 これにより、原始双対的な視点を採り、二辺の巡回座標更新を伴う原始双対法としてSGDを解釈することができる。 この観点から、データマトリックスに依存し、既存の境界によって予測されるものよりも決して悪くない、きめ細かい複雑性境界を証明します。 特に、バウンドは、既存の解析よりもずっと速い収束を予測できます -- 場合によっては$\sqrt{n}$のオーダーの係数によって。 私たちは、一般的な機械学習データセットでは、バウンドの方がずっとタイトであることを実証的に示しています。 さらに、同様の改良を加えながら、解析を非滑らかな問題に展開する方法を示す。

Stochastic gradient descent (SGD) is perhaps the most prevalent optimization method in modern machine learning. Contrary to the empirical practice of sampling from the datasets without replacement and with (possible) reshuffling at each epoch, the theoretical counterpart of SGD usually relies on the assumption of sampling with replacement. It is only very recently that SGD with sampling without replacement -- shuffled SGD -- has been analyzed. For convex finite sum problems with $n$ components and under the $L$-smoothness assumption for each component function, there are matching upper and lower bounds, under sufficiently small -- $\mathcal{O}(\frac{1}{nL})$ -- step sizes. Yet those bounds appear too pessimistic -- in fact, the predicted performance is generally no better than for full gradient descent -- and do not agree with the empirical observations. In this work, to narrow the gap between the theory and practice of shuffled SGD, we sharpen the focus from general finite sum problems to empirical risk minimization with linear predictors. This allows us to take a primal-dual perspective and interpret shuffled SGD as a primal-dual method with cyclic coordinate updates on the dual side. Leveraging this perspective, we prove a fine-grained complexity bound that depends on the data matrix and is never worse than what is predicted by the existing bounds. Notably, our bound can predict much faster convergence than the existing analyses -- by a factor of the order of $\sqrt{n}$ in some cases. We empirically demonstrate that on common machine learning datasets our bound is indeed much tighter. We further show how to extend our analysis to convex nonsmooth problems, with similar improvements.
翻訳日:2023-06-23 16:34:07 公開日:2023-06-21
# 信頼性不確かさ推定のための密度不確かさ層

Density Uncertainty Layers for Reliable Uncertainty Estimation ( http://arxiv.org/abs/2306.12497v1 )

ライセンス: Link先を確認
Yookoon Park, David M. Blei(参考訳) ディープニューラルネットワークの予測の不確実性を評価することは、深層学習の安全性に関する応用に不可欠である。 ベイズ深層学習はモデルの不確かさを推定するための原理的枠組みを提供するが、後部を近似するために一般的に用いられるアプローチは、予測の不確実性に関する信頼できる推定を導出できないことが多い。 本稿では,予測の不確かさに対する新しい基準を提案する。モデルの予測分散は入力の経験的密度に基礎を置くべきである。 トレーニングデータに不正な入力に対して高い不確実性をもたらし、より可能性の高い入力に対して不確実性を低減する必要がある。 この基準を運用するために、密度不確かさを満たすことを保証する確率的ニューラルネットワークのアーキテクチャ要素である密度不確実性層を開発する。 CIFAR-10とCIFAR-100の不確実性ベンチマークを用いて,密度不確実性層を有するニューラルネットワークについて検討した。 既存の手法と比較すると,密度不確実性層は信頼性の高い不確実性推定と分布外検出性能を提供する。

Assessing the predictive uncertainty of deep neural networks is crucial for safety-related applications of deep learning. Although Bayesian deep learning offers a principled framework for estimating model uncertainty, the approaches that are commonly used to approximate the posterior often fail to deliver reliable estimates of predictive uncertainty. In this paper we propose a novel criterion for predictive uncertainty, that a model's predictive variance should be grounded in the empirical density of the input. It should produce higher uncertainty for inputs that are improbable in the training data and lower uncertainty for those inputs that are more probable. To operationalize this criterion, we develop the density uncertainty layer, an architectural element for a stochastic neural network that guarantees that the density uncertain criterion is satisfied. We study neural networks with density uncertainty layers on the CIFAR-10 and CIFAR-100 uncertainty benchmarks. Compared to existing approaches, we find that density uncertainty layers provide reliable uncertainty estimates and robust out-of-distribution detection performance.
翻訳日:2023-06-23 16:33:36 公開日:2023-06-21
# ハイパープロペラティを用いたグローバルニューラルネットワーク仕様の検証

Verifying Global Neural Network Specifications using Hyperproperties ( http://arxiv.org/abs/2306.12495v1 )

ライセンス: Link先を確認
David Boetius and Stefan Leue(参考訳) ニューラルネットワーク検証に対する現在のアプローチは、ローカルロバストネスなど、既知の入力データポイント周辺の小さな領域をターゲットにした仕様に焦点を当てている。 したがって、これらの手法を用いて、既知の入力に近づかない入力の保証を得ることはできない。 しかし、ニューラルネットワークがアプリケーション中にそのような真に目に見えない入力に遭遇する可能性は極めて高い。 我々は、すべての潜在的な入力に対する保証を提供するグローバル仕様を研究します。 我々は,モノトニック性,リプシッツ連続性,グローバルロバスト性,依存性公平性などのグローバル仕様を表現可能な超プロパティ形式を導入する。 汎用計算グラフの検証機能を活用し,既存のニューラルネットワーク検証手法を用いてグローバル仕様の検証を可能にする。 これにより、既存の手法で提供可能な保証の範囲を広げる。 特定のグローバルな仕様を検証する最近の成功は、すべての潜在的なデータポイントに対する強力な保証が実現可能であることを示している。

Current approaches to neural network verification focus on specifications that target small regions around known input data points, such as local robustness. Thus, using these approaches, we can not obtain guarantees for inputs that are not close to known inputs. Yet, it is highly likely that a neural network will encounter such truly unseen inputs during its application. We study global specifications that - when satisfied - provide guarantees for all potential inputs. We introduce a hyperproperty formalism that allows for expressing global specifications such as monotonicity, Lipschitz continuity, global robustness, and dependency fairness. Our formalism enables verifying global specifications using existing neural network verification approaches by leveraging capabilities for verifying general computational graphs. Thereby, we extend the scope of guarantees that can be provided using existing methods. Recent success in verifying specific global specifications shows that attaining strong guarantees for all potential data points is feasible.
翻訳日:2023-06-23 16:33:17 公開日:2023-06-21
# オープン量子系における位相秩序定常状態

Topologically Ordered Steady States in Open Quantum Systems ( http://arxiv.org/abs/2306.12482v1 )

ライセンス: Link先を確認
Zijian Wang, Xu-Dong Dai, He-Ran Wang and Zhong Wang(参考訳) 散逸と相関の相互作用は新たな創発的な現象を引き起こす。 ここでは、閉系の基底状態位相縮退の一般化である定常状態の堅牢な位相縮退を伴う物質の非平衡相を研究する。 具体的には,工学的散逸を用いて2つの代表的なリンドブラジアンを構築し,位相的縮退を伴う定常状態を正確に解く。 2次元のノイズ下では縮退は脆弱であるが、位相的縮退を伴う真の多体位相を実現する3次元では安定である。 位相欠陥の非圧縮創発的ゲージ場や緩やかな緩和ダイナミクスのような散逸的位相物理学の普遍的特徴を同定する。 位相秩序相から自明相への遷移も数値シミュレーションによって研究されている。 本研究は, 閉系における基底状態位相秩序と開系における定常状態位相秩序との違いを明らかにする。

The interplay between dissipation and correlation can lead to new emergent phenomena. Here we study non-equilibrium phases of matter with robust topological degeneracy of steady states, which is a generalization of the ground-state topological degeneracy of closed systems. Specifically, we construct two representative Lindbladians using engineered dissipation, and exactly solve the steady states with topological degeneracy. We find that while the degeneracy is fragile under noise in two dimensions, it is stable in three dimensions, where a genuine many-body phase with topological degeneracy is realized. We identify universal features of dissipative topological physics such as the deconfined emergent gauge field and slow relaxation dynamics of topological defects. The transition from a topologically ordered phase to a trivial phase is also investigated via numerical simulation. Our work highlights the essential difference between ground-state topological order in closed systems and steady-state topological order in open systems.
翻訳日:2023-06-23 16:32:58 公開日:2023-06-21
# 優れた量子LDPC符号のシングルショット復号

Single-shot decoding of good quantum LDPC codes ( http://arxiv.org/abs/2306.12470v1 )

ライセンス: Link先を確認
Shouzhen Gu, Eugene Tang, Libor Caha, Shin Ho Choe, Zhiyang He (Sunny), Aleksander Kubica(参考訳) 量子タンナー符号 (quantum tanner codes) は、良好なパラメータを持つ量子低密度パリティチェック (ldpc) 符号、すなわち定数符号化率と相対距離からなる。 本稿では,量子タナー符号が1つの測定ラウンド(定重パリティチェックを含む)が測定誤差が存在する場合でも信頼性の高いqecを実現するために,逆雑音の単発量子誤差補正(qec)を容易にすることを実証する。 leverrier と z\'emor によって導入された逐次復号アルゴリズムと並列復号アルゴリズムの両方でこの結果が確立される。 さらに,複数の繰り返しqecラウンドの誤りを抑制するには,各ラウンドにおける並列復号アルゴリズムを一定時間動作させることが十分であることを示す。 良質なコードパラメータと組み合わせることで、QECの一定の時間オーバーヘッドと(おそらく時間に関連のある)対向ノイズに対する頑健さが量子タナー符号を量子フォールトトレラントプロトコルの観点から順応させる。

Quantum Tanner codes constitute a family of quantum low-density parity-check (LDPC) codes with good parameters, i.e., constant encoding rate and relative distance. In this article, we prove that quantum Tanner codes also facilitate single-shot quantum error correction (QEC) of adversarial noise, where one measurement round (consisting of constant-weight parity checks) suffices to perform reliable QEC even in the presence of measurement errors. We establish this result for both the sequential and parallel decoding algorithms introduced by Leverrier and Z\'emor. Furthermore, we show that in order to suppress errors over multiple repeated rounds of QEC, it suffices to run the parallel decoding algorithm for constant time in each round. Combined with good code parameters, the resulting constant-time overhead of QEC and robustness to (possibly time-correlated) adversarial noise make quantum Tanner codes alluring from the perspective of quantum fault-tolerant protocols.
翻訳日:2023-06-23 16:32:41 公開日:2023-06-21
# フロケット量子東モデルにおける局所ダイナミクス

Localised Dynamics in the Floquet Quantum East Model ( http://arxiv.org/abs/2306.12467v1 )

ライセンス: Link先を確認
Bruno Bertini, Pavel Kos, and Tomaz Prosen(参考訳) 古典ガラスの単純な運動論的拘束モデルに触発された相互作用量子スピンチェーンである量子東モデルの離散時間モデルを導入研究する。 従来の研究では、非熱的局所化された固有状態の指数関数的に大きな(体積の)ファミリーの出現によって引き起こされる障害のない局所化遷移が連続的に現れることが証明されていた。 ここでは分析と数値のアプローチを組み合わせることで i) 遷移は離散時間に対して持続するが、実際には、ゼロ測度集合から離れた時間ステップの任意の有限値に対して存在する。 ii) 完全偏極状態の非平衡ダイナミクスに従うことで直接検出される。 我々の発見は、この遷移が現在、デジタル量子シミュレーションの最先端プラットフォームで観測可能であることを示唆している。

We introduce and study the discrete-time version of the Quantum East model, an interacting quantum spin chain inspired by simple kinetically constrained models of classical glasses. Previous work has established that its continuous-time counterpart displays a disorder-free localisation transition signalled by the appearance of an exponentially large (in the volume) family of non-thermal, localised eigenstates. Here we combine analytical and numerical approaches to show that: i) The transition persists for discrete times, in fact, it is present for any finite value of the time step apart from a zero measure set; ii) It is directly detected by following the non-equilibrium dynamics of the fully polarised state. Our findings imply that the transition is currently observable in state-of-the-art platforms for digital quantum simulation.
翻訳日:2023-06-23 16:32:23 公開日:2023-06-21
# キャビティサブからスーパーラジアント遷移によるRamsey読解能の増強

Collectively enhanced Ramsey readout by cavity sub- to superradiant transition ( http://arxiv.org/abs/2306.12544v1 )

ライセンス: Link先を確認
Eliot Bohr, Sofus L. Kristensen, Christoph Hotter, Stefan Alaric Sch\"affer, Julian Robinson-Tait, Jan W. Thomsen, Tanya Zelevinsky, Helmut Ritsch, J\"org Helge M\"uller(参考訳) 逆の原子のアンサンブルが放射波長のスケールで密に充填されているときや、原子が単一のキャビティモードに強く結合されているとき、それらのダイポールは超ラジカルバーストを介して急速に整列して崩壊する。 しかし、拡散型双極子相分布理論は、超放射光の発生に必要な原子励起の最小しきい値を予測する。 ここでは、原子を横方向に励起する際に、狭い光遷移における超放射能放出の予測しきい値を実験的に確認し、その結果の準放射能遷移の活用方法を示す。 $\pi/2$-pulse は原子をサブラジアント状態に配置し、それに対応するラムゼーパルス列における自由進化期に利用した集合的空洞崩壊から保護する。 最終的な励起状態の個体数は、2回目の$\pi/2$-pulseの後、反転原子アンサンブルからの超ラジアント放出によって読み出され、最小限の加熱で1つの実験サイクル内で複数のラムジー配列が可能になる。 提案手法は,その速度,単純さ,高感度を特徴とする,原子状態読み出しに対する根本的な新しいアプローチである。 キャビティ結合量子エミッタにおける集団効果を利用したセンサの可能性を示す。

When an inverted ensemble of atoms is tightly packed on the scale of its emission wavelength or when the atoms are collectively strongly coupled to a single cavity mode, their dipoles will align and decay rapidly via a superradiant burst. However, a spread-out dipole phase distribution theory predicts a required minimum threshold of atomic excitation for superradiance to occur. Here we experimentally confirm this predicted threshold for superradiant emission on a narrow optical transition when exciting the atoms transversely and show how to take advantage of the resulting sub- to superradiant transition. A $\pi/2$-pulse places the atoms in a subradiant state, protected from collective cavity decay, which we exploit during the free evolution period in a corresponding Ramsey pulse sequence. The final excited state population is read out via superradiant emission from the inverted atomic ensemble after a second $\pi/2$-pulse, and with minimal heating this allows for multiple Ramsey sequences within one experimental cycle. Our scheme is a fundamentally new approach to atomic state readout characterized by its speed, simplicity, and high sensitivity. It demonstrates the potential of sensors using collective effects in cavity-coupled quantum emitters.
翻訳日:2023-06-23 16:24:30 公開日:2023-06-21
# フォトニック離散時間量子ウォークにおける2次元ザック位相景観

2D Zak Phase Landscape in Photonic Discrete-Time Quantum Walks ( http://arxiv.org/abs/2306.12540v1 )

ライセンス: Link先を確認
Graciana Puentes(参考訳) 本稿では、フォトニック離散時間量子ウォーク(DTQW)プロトコルにおける2次元Zak相の展望について述べる。 特に,空間反転対称性 (sis) と時間反転対称性 (trs) を保ちながら,非自明なzak相構造を示すdtqwシナリオの数値計算結果について報告する。 さらに, 消失したベリー曲率を維持しつつ, フォトニックシステムのtrsを破る新しい手法を提案する。 この結果はアハロノフ・ボーム効果と密接に類似しており、空間の場のない多重連結領域において、系の進化はベクトルポテンシャルに依存する、なぜならば基礎となる正準形式性は場だけでは表現できないからである。

We present a study of the 2D Zak phase landscape in photonic discrete-time quantum walk (DTQW) protocols. In particular, we report numerical results for three different DTQW scenarios which preserve spatial inversion symmetry (SIS) and time-reversal symmetry (TRS), while presenting a non-trivial Zak phase structure, as a consequence of a non-vanishing Berry connection. Additionally, we propose a novel approach to break TRS in photonic systems, while preserving a vanishing Berry curvature. Our results bear a close analogy to the Aharonov-Bohm effect, stating that in a field-free multiply connected region of space the evolution of the system depends on vector potentials, due to the fact that the underlying canonical formalism cannot be expressed in terms of fields alone.
翻訳日:2023-06-23 16:24:07 公開日:2023-06-21
# Isabelle/HOLにおけるCHSH不等式とTsirelson上界の形式化

A formalization of the CHSH inequality and Tsirelson's upper-bound in Isabelle/HOL ( http://arxiv.org/abs/2306.12535v1 )

ライセンス: Link先を確認
Mnacho Echenim and Mehdi Mhalla(参考訳) 我々は、密度行列や射影測定を含む量子情報理論のいくつかの基本的な概念と結果の形式化と、アインシュタインが量子力学をモデル化するために提唱した局所隠れ変数仮説が保持できないことの証明を示す。 後者の結果の証明はいわゆるCHSHの不平等に基づいており、この不平等は2022年にノーベル物理学賞を受賞したAspectによって実験的に証明された。 また、量子環境におけるこの不等式の最大違反を許す Tsirelson's bound など、CHSH不等式の不等式違反に関する様々な結果を定式化する。

We present a formalization of several fundamental notions and results from Quantum Information theory, including density matrices and projective measurements, along with the proof that the local hidden-variable hypothesis advocated by Einstein to model quantum mechanics cannot hold. The proof of the latter result is based on the so-called CHSH inequality, and it is the violation of this inequality that was experimentally evidenced by Aspect who earned the Nobel Prize in 2022 for his work. We also formalize various results related to the violation of the CHSH inequality, such as Tsirelson's bound which permits to obtain the maximum violation of this inequality in a quantum setting.
翻訳日:2023-06-23 16:23:51 公開日:2023-06-21
# ランダム化凸最適化のためのメモリ・クエリトレードオフ

Memory-Query Tradeoffs for Randomized Convex Optimization ( http://arxiv.org/abs/2306.12534v1 )

ライセンス: Link先を確認
Xi Chen and Binghui Peng(参考訳) 単位球上の$d$次元, $1$-Lipschitz 凸関数を最小化する任意のランダム化一階アルゴリズムは、$\Omega(d^{2-\delta})$ bits of memoryか$\Omega(d^{1+\delta/6-o(1)})$ query, for any constant $\delta\in (0,1)$, and the precision $\epsilon$ is quasipolynally small in $d$. その結果,ランダム化一階アルゴリズムにおいて,$\tilde{o}(d^2)$ビットのメモリと$\tilde{o}(d)$クエリを用いた切断平面法がpareto-optimalであり,凸最適化のための最適クエリ複雑性を得るためには二次メモリが必要となる。

We show that any randomized first-order algorithm which minimizes a $d$-dimensional, $1$-Lipschitz convex function over the unit ball must either use $\Omega(d^{2-\delta})$ bits of memory or make $\Omega(d^{1+\delta/6-o(1)})$ queries, for any constant $\delta\in (0,1)$ and when the precision $\epsilon$ is quasipolynomially small in $d$. Our result implies that cutting plane methods, which use $\tilde{O}(d^2)$ bits of memory and $\tilde{O}(d)$ queries, are Pareto-optimal among randomized first-order algorithms, and quadratic memory is required to achieve optimal query complexity for convex optimization.
翻訳日:2023-06-23 16:23:38 公開日:2023-06-21
# 時間依存コックスモデルにおける構造化学習

Structured Learning in Time-dependent Cox Models ( http://arxiv.org/abs/2306.12528v1 )

ライセンス: Link先を確認
Guanbo Wang, Yi Lian, Archer Y. Yang, Robert W. Platt, Rui Wang, Sylvie Perreault, Marc Dorais, and Mireille E. Schnitzer(参考訳) 時間依存係数と共変量を持つcoxモデルは生存分析に広く使われている。 高次元設定では、変数選択にスパース正規化技術が使用されるが、時間依存のCoxモデルに対する既存の手法では、特定の空間パターン(すなわち共変量構造)を強制する柔軟性がない。 本稿では,時間依存型 Cox モデルにおける変数選択のための柔軟なフレームワークを提案する。 本手法は, 相互作用選択, 時間的, 空間的, 木的, 有向非巡回グラフ構造を含む任意のグループ構造に適応することができる。 誤報率の低い精度で正確な推定を行う。 複雑な共変量構造を持つモデルを効率的に解くためのネットワークフローアルゴリズムを実装したソックスパッケージを開発した。 Soxはグループ構造を指定するためのユーザフレンドリなインターフェースを提供し、高速な計算を提供する。 心房細動患者における全死因死亡の予測因子の同定に関するケーススタディを含む事例を通して,本手法の具体的選択規則による実用的応用を実証する。

Cox models with time-dependent coefficients and covariates are widely used in survival analysis. In high-dimensional settings, sparse regularization techniques are employed for variable selection, but existing methods for time-dependent Cox models lack flexibility in enforcing specific sparsity patterns (i.e., covariate structures). We propose a flexible framework for variable selection in time-dependent Cox models, accommodating complex selection rules. Our method can adapt to arbitrary grouping structures, including interaction selection, temporal, spatial, tree, and directed acyclic graph structures. It achieves accurate estimation with low false alarm rates. We develop the sox package, implementing a network flow algorithm for efficiently solving models with complex covariate structures. Sox offers a user-friendly interface for specifying grouping structures and delivers fast computation. Through examples, including a case study on identifying predictors of time to all-cause death in atrial fibrillation patients, we demonstrate the practical application of our method with specific selection rules.
翻訳日:2023-06-23 16:23:15 公開日:2023-06-21
# 実コード用量子重み列挙器に$X$と$Z$を正確に変換する

Quantum Weight Enumerators for Real Codes with $X$ and $Z$ Exactly Transversal ( http://arxiv.org/abs/2306.12526v1 )

ライセンス: Link先を確認
Eric Kubischta, Ian Teixeira, J. Maxwell Silvester(参考訳) このノートでは、実際の量子誤り訂正符号の重み付き列挙器が$ X $ と $ Z $ のとき、正確に超越は特定のアイデンティティを満たす必要があることを示す。 これらのアイデンティティの結果の1つは、コードがエラー検出されている場合、自動的にエラー修正を無償で行い、超越性とコード距離の関係を示唆していることである。

In this note we show that the weight enumerators of a real quantum error correcting code with $ X $ and $ Z $ exactly transversal must satisfy certain identities. One consequence of these identities is that if the code is error detecting then it is automatically error correcting for free; implying a relationship between transversality and code distance.
翻訳日:2023-06-23 16:22:57 公開日:2023-06-21
# LPFormer:マルチタスクネットワークを用いたLiDAR Pose Estimation Transformer

LPFormer: LiDAR Pose Estimation Transformer with Multi-Task Network ( http://arxiv.org/abs/2306.12525v1 )

ライセンス: Link先を確認
Dongqiangzi Ye, Yufei Xie, Weijia Chen, Zixiang Zhou, Hassan Foroosh(参考訳) 本稿では,2023年のwaymo open dataset pose estimation challengeにおいて,第1位となるソリューションを提案する。 大規模な3次元人間のキーポイントアノテーションの取得が困難であることから,従来の手法では2次元画像特徴と2次元連続アノテーションに頼っていた。 これとは対照的に,提案手法はLPFormerと呼ばれ,対応する3DアノテーションとともにLiDARのみを入力として使用する。 LPFormerは2つの段階から構成されており、第1段階は人間の拘束ボックスを検出し、マルチレベルの特徴表現を抽出し、第2段階はトランスフォーマーベースのネットワークを使用して、これらの特徴を用いて人間のキーポイントを回帰する。 Waymo Open Datasetの実験結果は、これまでのマルチモーダルソリューションと比較して、最高のパフォーマンスと改善を示している。

In this technical report, we present the 1st place solution for the 2023 Waymo Open Dataset Pose Estimation challenge. Due to the difficulty of acquiring large-scale 3D human keypoint annotation, previous methods have commonly relied on 2D image features and 2D sequential annotations for 3D human pose estimation. In contrast, our proposed method, named LPFormer, uses only LiDAR as its input along with its corresponding 3D annotations. LPFormer consists of two stages: the first stage detects the human bounding box and extracts multi-level feature representations, while the second stage employs a transformer-based network to regress the human keypoints using these features. Experimental results on the Waymo Open Dataset demonstrate the top performance, and improvements even compared to previous multi-modal solutions.
翻訳日:2023-06-23 16:22:50 公開日:2023-06-21
# 光格子におけるイオンクーロン結晶のトラップ

Trapping Ion Coulomb Crystals in an Optical Lattice ( http://arxiv.org/abs/2306.12518v1 )

ライセンス: Link先を確認
Daniel Hoenig, Fabian Thielemann, Leon Karpa, Thomas Walker, Amir Mohammadi, Tobias Schaetz(参考訳) 1次元光学格子の個々の格子部位に局在した多重イオンの光トラップについて報告する。 干渉を伴わない光双極子トラップと比較して, 軸方向直流電界に対する強靭性の5倍の増大と, 軸方向固有周波数の2桁の増大が観察された。 我々の発見は、捕捉されたイオンの配列をサイズと寸法で拡張する代替経路を動機付け、長い範囲で相互作用する粒子による量子シミュレーションを可能にした。

We report the optical trapping of multiple ions localized at individual lattice sites of a one-dimensional optical lattice. We observe a fivefold increase in robustness against axial DC-electric fields and an increase of the axial eigenfrequency by two orders of magnitude compared to an optical dipole trap without interference but similar intensity. Our findings motivate an alternative pathway to extend arrays of trapped ions in size and dimension, enabling quantum simulations with particles interacting at long range.
翻訳日:2023-06-23 16:22:37 公開日:2023-06-21
# FFCV: データボトルネックの除去によるトレーニングの高速化

FFCV: Accelerating Training by Removing Data Bottlenecks ( http://arxiv.org/abs/2306.12517v1 )

ライセンス: Link先を確認
Guillaume Leclerc, Andrew Ilyas, Logan Engstrom, Sung Min Park, Hadi Salman, Aleksander Madry(参考訳) 簡単な機械学習モデルトレーニングのためのライブラリであるFFCVを紹介する。 FFCVはトレーニングプロセスから(しばしば微妙な)データのボトルネックを取り除くことで、モデルのトレーニングを高速化する。 特に、効率的なファイルストレージフォーマット、キャッシュ、データのプリロード、非同期データ転送、ジャスト・イン・タイムコンパイルといったテクニックを組み合わせています。 (a)データのロードと転送を著しく効率化し、GPUがフル活用できることを保証する。 b) 可能な限り多くのデータ処理をCPUに非同期にオフロードし、トレーニング用のGPUサイクルを解放する。 FFCVを用いて、ImageNetデータセット上でResNet-18とResNet-50をトレーニングし、精度とトレーニング時間の間の競合的なトレードオフがある。 例えば、1台のマシンでたった20分で、ImageNet ResNet-50モデルを75%にトレーニングできます。 FFCVの性能,使いやすさ,拡張性,資源制約に適応する能力について,いくつかのケーススタディを通じて紹介する。 インストール手順、ドキュメンテーション、slackサポートチャネルの詳細はhttps://ffcv.io/。

We present FFCV, a library for easy and fast machine learning model training. FFCV speeds up model training by eliminating (often subtle) data bottlenecks from the training process. In particular, we combine techniques such as an efficient file storage format, caching, data pre-loading, asynchronous data transfer, and just-in-time compilation to (a) make data loading and transfer significantly more efficient, ensuring that GPUs can reach full utilization; and (b) offload as much data processing as possible to the CPU asynchronously, freeing GPU cycles for training. Using FFCV, we train ResNet-18 and ResNet-50 on the ImageNet dataset with competitive tradeoff between accuracy and training time. For example, we are able to train an ImageNet ResNet-50 model to 75\% in only 20 mins on a single machine. We demonstrate FFCV's performance, ease-of-use, extensibility, and ability to adapt to resource constraints through several case studies. Detailed installation instructions, documentation, and Slack support channel are available at https://ffcv.io/ .
翻訳日:2023-06-23 16:22:29 公開日:2023-06-21
# 2種$k$-体埋め込みガウスユニタリアンサンブル:固有値密度の$q$-正規形式

Two species $k$-body embedded Gaussian unitary ensembles: $q$-normal form of the eigenvalue density ( http://arxiv.org/abs/2306.12513v1 )

ライセンス: Link先を確認
Manan Vyas, V. K. B. Kota(参考訳) 2種(例えば$\mathbf{\pi}$と$\mathbf{\nu}$)フェルミオン系に対する$k$-body相互作用を組み込んだガウスユニタリアンアンサンブルによって生成された固有値密度を、最低6モーメントの式から導出した。 egue ($k:\mathbf{\pi} \mathbf{\nu}$) と呼ばれるこのアンサンブルを構築する際に仮定すると、$\mathbf{\pi}$ fermions (m_1$ in number) は縮退単粒子 (sp) の数が $n_1$ であり、同様に$\mathbf{\nu}$ fermions (m_2$ in number) は縮退したsp状態の $n_2$ である。 ハミルトニアンは$k$体保存$(m_1,m_2)$と仮定される。 有限$(N_1,N_2)$補正と漸近極限式はどちらも、固有値密度が4モーメントで定義される$q$パラメータで$q$正規形式を取ることを示す。 EGUE($k:\mathbf{\pi} \mathbf{\nu}$)形式と結果は2種類のボソン系に拡張される。 その結果,同一のフェルミオン系とボーソン系で最近確立された固有値密度の$q$正規形は2種のフェルミオン系とボーソン系に拡張された。

Eigenvalue density generated by embedded Gaussian unitary ensemble with $k$-body interactions for two species (say $\mathbf{\pi}$ and $\mathbf{\nu}$) fermion systems is investigated by deriving formulas for the lowest six moments. Assumed in constructing this ensemble, called EGUE($k:\mathbf{\pi} \mathbf{\nu}$), is that the $\mathbf{\pi}$ fermions ($m_1$ in number) occupy $N_1$ number of degenerate single particle (sp) states and similarly $\mathbf{\nu}$ fermions ($m_2$ in number) in $N_2$ number of degenerate sp states. The Hamiltonian is assumed to be $k$-body preserving $(m_1,m_2)$. Formulas with finite $(N_1,N_2)$ corrections and asymptotic limit formulas both show that the eigenvalue density takes $q$-normal form with the $q$ parameter defined by the fourth moment. The EGUE($k:\mathbf{\pi} \mathbf{\nu}$) formalism and results are extended to two species boson systems. Results in this work show that the $q$-normal form of the eigenvalue density established only recently for identical fermion and boson systems extends to two species fermion and boson systems.
翻訳日:2023-06-23 16:22:09 公開日:2023-06-21
# 論理quditsによる非古典的特徴の関係

Relation between nonclassical features through logical qudits ( http://arxiv.org/abs/2306.12568v1 )

ライセンス: Link先を確認
Sooryansh Asthana, V. Ravishankar(参考訳) スケーラブルな現代のフォールトトレラント量子計算とネットワークにおける量子通信は、多数の物理量子ビットを用いる。 例えば、IBMは127量子ビットの量子コンピュータを作ったと報告されている。 古典的な計算とは異なり、量子計算は物理マルチキュービット系とマルチキュービット系のそれぞれ異なるタイプの論理量子ビットと量子ビットを用いる。 このことを考えると、論理量子ビットにおける量子コヒーレンスがどのように構成された物理マルチキュービット系や逆数系における基礎となる量子相関の現れであるかを探求することに興味がある。 最近の研究 [asthana, sooryansh. new j phys 24.5 (2022): 053026] では、物理マルチキュービットシステムにおける非古典的相関と単一の論理キュービットシステムにおけるコヒーレンスに相互性があることが示されている。 その後、この枠組みを高次元量子系に一般化した[]。 この研究の要点は、論理系における量子コヒーレンスに導かれる単一の非古典性条件が、非恒等次元のヒルベルト空間において複数の非古典性を検出することである。

Scalable modern-time fault-tolerant quantum computation and quantum communication in a network employ a large number of physical qubits. For example, IBM is reported to have made a 127-qubit quantum computer. Unlike classical computation, quantum computation employs different types of logical qubits and qudits in terms of physical multiqubit and multiqudit systems respectively. Given this, of particular interest to us is to enquire on how quantum coherence in logical qubits is a manifestation of underlying quantum correlations in constituent physical multiqubit systems and vice-versa. In a recent work [Asthana, Sooryansh. New J Phys 24.5 (2022): 053026], we have shown that there is reciprocity in nonclassical correlations in physical multiqubit systems and coherence in a single logical qubit system. Subsequently, we have generalised the framework to higher dimensional quantum systems []. The crux of this study is that a single nonclassicality condition derived for quantum coherence in a logical system detects more than one type of nonclassicality in Hilbert spaces of nonidentical dimensions.
翻訳日:2023-06-23 16:15:41 公開日:2023-06-21
# NeuBAROCOを用いた大規模言語モデルの評価--ソロジカル推論能力と人間ライクビアーゼ

Evaluating Large Language Models with NeuBAROCO: Syllogistic Reasoning Ability and Human-like Biases ( http://arxiv.org/abs/2306.12567v1 )

ライセンス: Link先を確認
Risako Ando, Takanobu Morishita, Hirohiko Abe, Koji Mineshima, Mitsuhiro Okada(参考訳) 本稿では,現在の大規模言語モデルが論理的推論のバイアスを呈するかどうかについて検討する。 具体的には,人間の推論の認知科学においてよく研究されている推論形式であるsyllogistic reasoningに注目した。 そこで本研究では,人間の論理能力を評価する心理実験用に設計されたneubarocoというデータセットを提案する。 データセットは英語と日本語の両方で音節推論から成り立っている。 ヒトのシロメトリクス推論では,信念バイアス,変換誤差,大気影響の3種類のバイアスが観察された。 以上の結果から,現在の大規模言語モデルは,これら3種類のバイアスを伴う問題に苦しむことが明らかとなった。

This paper investigates whether current large language models exhibit biases in logical reasoning, similar to humans. Specifically, we focus on syllogistic reasoning, a well-studied form of inference in the cognitive science of human deduction. To facilitate our analysis, we introduce a dataset called NeuBAROCO, originally designed for psychological experiments that assess human logical abilities in syllogistic reasoning. The dataset consists of syllogistic inferences in both English and Japanese. We examine three types of biases observed in human syllogistic reasoning: belief biases, conversion errors, and atmosphere effects. Our findings demonstrate that current large language models struggle more with problems involving these three types of biases.
翻訳日:2023-06-23 16:15:25 公開日:2023-06-21
# ニューラルスペクトロ偏光場

Neural Spectro-polarimetric Fields ( http://arxiv.org/abs/2306.12562v1 )

ライセンス: Link先を確認
Youngchan Kim, Wonjoon Jin, Sunghyun Cho, Seung-Hwan Baek(参考訳) シーン内の光の空間放射率分布のモデル化は、ビュー合成を含む応用のために広く研究されている。 スペクトルと偏光は、光の波動特性であり、3つのrgbスペクトルバンドへの積分と人間の視覚に対する非受容性のため、しばしば無視される。 それにもかかわらず、これらの性質はシーンに関する実質的な資料と幾何学的情報を含んでいる。 本研究では、任意の波長における任意の光線の空間的ストークスベクトル分布である分光偏光場をモデル化する。 我々は, 位置, 方向, 波長の連続変数で, 物理的に有意なストークスベクトルをモデル化したニューラル・スペクトロ偏光場(NeSpoF)を提案する。 NeSpoFは本質的にノイズの多い生測定を管理し、メモリ効率を示し、物理的に重要な信号を保存する。 NeSpoFを検証するために,合成シーンと実世界のシーンの両方からなる,最初のマルチビューハイパースペクトル偏光画像データセットを提案する。 これらの画像は当社の小型ハイパースペクトル偏光イメージングシステムを用いて撮影され、システム欠陥に対するロバスト性について校正されている。 我々は様々な場面でnespofの能力を示す。

Modeling the spatial radiance distribution of light rays in a scene has been extensively explored for applications, including view synthesis. Spectrum and polarization, the wave properties of light, are often neglected due to their integration into three RGB spectral bands and their non-perceptibility to human vision. Despite this, these properties encompass substantial material and geometric information about a scene. In this work, we propose to model spectro-polarimetric fields, the spatial Stokes-vector distribution of any light ray at an arbitrary wavelength. We present Neural Spectro-polarimetric Fields (NeSpoF), a neural representation that models the physically-valid Stokes vector at given continuous variables of position, direction, and wavelength. NeSpoF manages inherently noisy raw measurements, showcases memory efficiency, and preserves physically vital signals, factors that are crucial for representing the high-dimensional signal of a spectro-polarimetric field. To validate NeSpoF, we introduce the first multi-view hyperspectral-polarimetric image dataset, comprised of both synthetic and real-world scenes. These were captured using our compact hyperspectral-polarimetric imaging system, which has been calibrated for robustness against system imperfections. We demonstrate the capabilities of NeSpoF on diverse scenes.
翻訳日:2023-06-23 16:15:13 公開日:2023-06-21
# ビデオキャプションにおけるオーディオの役割を探る

Exploring the Role of Audio in Video Captioning ( http://arxiv.org/abs/2306.12559v1 )

ライセンス: Link先を確認
Yuhan Shen, Linjie Yang, Longyin Wen, Haichao Yu, Ehsan Elhamifar, Heng Wang(参考訳) 最近のビデオキャプションの焦点は、ビデオとテキストのモダリティの両方を消費できるアーキテクチャの設計と、HowTo100Mのような事前トレーニング用のテキストスクリプティングを備えた大規模ビデオデータセットの使用である。 これらのアプローチは大幅に改善されているが、オーディオモダリティはビデオキャプションでは無視されることが多い。 本稿では,キャプションにおける音声モダリティの可能性を完全に活用することを目的とした,音声ビジュアルフレームワークを提案する。 自動音声認識(asr)によって抽出されたテキストの書き起こしに頼る代わりに、音声には音響イベントや話者のアイデンティティなどの追加情報があるため、生の音声信号による学習の方が有益であると主張する。 私たちの貢献は2倍です。 まず,映像と音声の両モードで事前学習する場合,そのモデルが過度に音響モダリティに変換されることを観測した。 我々は,この問題を緩和し,ダウンストリームタスクの性能を大幅に改善するために,mbp(modality balanced pre-training)ロスを提案する。 第2に,クロスモーダルモジュールの異なる設計選択をスライス・サイスすることで,情報のボトルネックとなり,結果が劣る可能性がある。 我々は,音声とビデオ間の情報交換を改善するための新しい局所的グローバル融合機構を提案した。 4つのデータセットでオーディオモダリティを活用し、入力としてテキストモダリティに頼ることなく、いくつかのメトリクスでアートの状態を上回ることによって、大幅な改善を示す。

Recent focus in video captioning has been on designing architectures that can consume both video and text modalities, and using large-scale video datasets with text transcripts for pre-training, such as HowTo100M. Though these approaches have achieved significant improvement, the audio modality is often ignored in video captioning. In this work, we present an audio-visual framework, which aims to fully exploit the potential of the audio modality for captioning. Instead of relying on text transcripts extracted via automatic speech recognition (ASR), we argue that learning with raw audio signals can be more beneficial, as audio has additional information including acoustic events, speaker identity, etc. Our contributions are twofold. First, we observed that the model overspecializes to the audio modality when pre-training with both video and audio modality, since the ground truth (i.e., text transcripts) can be solely predicted using audio. We proposed a Modality Balanced Pre-training (MBP) loss to mitigate this issue and significantly improve the performance on downstream tasks. Second, we slice and dice different design choices of the cross-modal module, which may become an information bottleneck and generate inferior results. We proposed new local-global fusion mechanisms to improve information exchange across audio and video. We demonstrate significant improvements by leveraging the audio modality on four datasets, and even outperform the state of the art on some metrics without relying on the text modality as the input.
翻訳日:2023-06-23 16:14:53 公開日:2023-06-21
# 命令予測によるロングホリゾン模倣の改善

Improving Long-Horizon Imitation Through Instruction Prediction ( http://arxiv.org/abs/2306.12554v1 )

ライセンス: Link先を確認
Joey Hejna, Pieter Abbeel, Lerrel Pinto(参考訳) 複雑な長期計画とその組み合わせの性質は、学習ベースのエージェントに急激な課題をもたらす。 このような設定の困難さは、過度に適合するシッフルの一般化と複合的なエラーが正確さを損なう低データレギュレーションにおいて悪化する。 本研究では,しばしば使われない補助監督の源である言語の使用について検討する。 近年のトランスフォーマーモデルの発展に触発されて,高い抽象度で動作する時間拡張表現の学習を促進する命令予測損失を用いたエージェントの訓練を行った。 具体的には,BabyAI と Crafter ベンチマークで限られた数の実演を行えば,計画環境のパフォーマンスが大幅に向上することを示す。 さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。 詳細とコードはhttps://github.com/jhejna/instruction-predictionにある。

Complex, long-horizon planning and its combinatorial nature pose steep challenges for learning-based agents. Difficulties in such settings are exacerbated in low data regimes where over-fitting stifles generalization and compounding errors hurt accuracy. In this work, we explore the use of an often unused source of auxiliary supervision: language. Inspired by recent advances in transformer-based models, we train agents with an instruction prediction loss that encourages learning temporally extended representations that operate at a high level of abstraction. Concretely, we demonstrate that instruction modeling significantly improves performance in planning environments when training with a limited number of demonstrations on the BabyAI and Crafter benchmarks. In further analysis we find that instruction modeling is most important for tasks that require complex reasoning, while understandably offering smaller gains in environments that require simple plans. More details and code can be found at https://github.com/jhejna/instruction-prediction.
翻訳日:2023-06-23 16:14:26 公開日:2023-06-21
# SituatedGen: 生成コモンセンス推論に地理的・時間的文脈を組み込む

SituatedGen: Incorporating Geographical and Temporal Contexts into Generative Commonsense Reasoning ( http://arxiv.org/abs/2306.12552v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Xiaojun Wan(参考訳) 近年,テキスト生成における常識推論が注目されている。 ジェネレーティブ・コモンセンス推論(generative commonsense reasoning)は、コヒーレント文をコヒーレント文で構成する機械を必要とするタスクである。 生成的コモンセンス推論を対象とする既存のデータセットは日常的なシナリオに重点を置いているが、特定の地理的・時間的文脈下でのマシンの推論がどの程度優れているかは定かではない。 我々は、この課題をSituatedGenとして定式化し、地理的または時間的エンティティを含むキーワード群を与えられたコントラスト文のペアを生成する。 8,268のコントラスト文ペアからなる対応する英語データセットを,手作業の少ない既存のコモンセンス推論ベンチマークに基づいて紹介する。 実験によると、最先端の生成言語モデルは、常識的妥当性のある文を生成するのに苦労し、人間のパフォーマンスよりずっと遅れている。 私たちのデータセットはhttps://github.com/yunx-z/situated_genで公開されています。

Recently, commonsense reasoning in text generation has attracted much attention. Generative commonsense reasoning is the task that requires machines, given a group of keywords, to compose a single coherent sentence with commonsense plausibility. While existing datasets targeting generative commonsense reasoning focus on everyday scenarios, it is unclear how well machines reason under specific geographical and temporal contexts. We formalize this challenging task as SituatedGen, where machines with commonsense should generate a pair of contrastive sentences given a group of keywords including geographical or temporal entities. We introduce a corresponding English dataset consisting of 8,268 contrastive sentence pairs, which are built upon several existing commonsense reasoning benchmarks with minimal manual labor. Experiments show that state-of-the-art generative language models struggle to generate sentences with commonsense plausibility and still lag far behind human performance. Our dataset is publicly available at https://github.com/yunx-z/situated_gen.
翻訳日:2023-06-23 16:14:11 公開日:2023-06-21
# RVL-CDIPを用いた文書分類の検討

On Evaluation of Document Classification using RVL-CDIP ( http://arxiv.org/abs/2306.12550v1 )

ライセンス: Link先を確認
Stefan Larson, Gordon Lim, Kevin Leach(参考訳) RVL-CDIPベンチマークは文書分類作業の性能測定に広く用いられている。 広く利用されているにもかかわらず、RVL-CDIPベンチマークの好ましくない特徴をいくつか明らかにした。 例えば、(1)相当量のラベルノイズ(文書カテゴリーあたり1.6%から16.9%)、(2)あいまいな文書や複数のラベル文書の存在、(3)モデルの性能指標を膨らませるテストと列車の分割の重なり、(4)米国社会保障番号(us social security number、ssns)のような個人が特定可能な機密情報の存在、などである。 我々は、文書分類器のベンチマークにRVL-CDIPを使用する場合、その範囲が限られていること、エラーの存在(現在最先端のモデルが評価されたラベル誤り率内にある精度エラー率を達成する)、多様性の欠如がベンチマークに理想的でないことを論じる。 我々はさらに,新しい文書分類ベンチマークの作成を提唱し,リソースがどのような特徴を含むべきかを推奨する。

The RVL-CDIP benchmark is widely used for measuring performance on the task of document classification. Despite its widespread use, we reveal several undesirable characteristics of the RVL-CDIP benchmark. These include (1) substantial amounts of label noise, which we estimate to be 8.1% (ranging between 1.6% to 16.9% per document category); (2) presence of many ambiguous or multi-label documents; (3) a large overlap between test and train splits, which can inflate model performance metrics; and (4) presence of sensitive personally-identifiable information like US Social Security numbers (SSNs). We argue that there is a risk in using RVL-CDIP for benchmarking document classifiers, as its limited scope, presence of errors (state-of-the-art models now achieve accuracy error rates that are within our estimated label error rate), and lack of diversity make it less than ideal for benchmarking. We further advocate for the creation of a new document classification benchmark, and provide recommendations for what characteristics such a resource should include.
翻訳日:2023-06-23 16:13:52 公開日:2023-06-21
# 深部ニューラルネットワークの有限時間リアプノフ指数

Finite-time Lyapunov exponents of deep neural networks ( http://arxiv.org/abs/2306.12548v1 )

ライセンス: Link先を確認
L. Storm, H. Linander, J. Bec, K. Gustavsson, B. Mehlig(参考訳) 我々は、入力摂動が深層ニューラルネットワークの出力に与える影響を計算し、深部ネットワークと力学系の類似性を探り、局所摂動の成長または崩壊は有限時間リアプノフ指数によって特徴づけられる。 最大指数は入力空間における幾何学的構造、すなわち力学系におけるコヒーレント構造を形成する。 大きな正の指数のリッジは入力空間を、ネットワークが異なるクラスに関連付ける異なる領域に分割する。 これらの隆起は、深層ネットワークが入力空間で構築する幾何学を可視化し、学習能力の基礎となるメカニズムに光を当てる。

We compute how small input perturbations affect the output of deep neural networks, exploring an analogy between deep networks and dynamical systems, where the growth or decay of local perturbations is characterised by finite-time Lyapunov exponents. We show that the maximal exponent forms geometrical structures in input space, akin to coherent structures in dynamical systems. Ridges of large positive exponents divide input space into different regions that the network associates with different classes. These ridges visualise the geometry that deep networks construct in input space, shedding light on the fundamental mechanisms underlying their learning capabilities.
翻訳日:2023-06-23 16:13:30 公開日:2023-06-21
# DGC-GNN:2D-3Dマッチングのための記述子レス幾何色グラフニューラルネットワーク

DGC-GNN: Descriptor-free Geometric-Color Graph Neural Network for 2D-3D Matching ( http://arxiv.org/abs/2306.12547v1 )

ライセンス: Link先を確認
Shuzhe Wang, Juho Kannala, Daniel Barath(参考訳) 入力画像中の2Dキーポイントとシーンの3Dポイントクラウドとの直接マッチングは、視覚ディスクリプタを必要とせず、メモリ要件の低減、固有のプライバシー保護、視覚ディスクリプタベースの方法と比較して高価な3Dモデルのメンテナンスの必要性の低減などにより、関心が高まっている。 しかし、既存のアルゴリズムはしばしば性能を損なうため、記述子ベースのアルゴリズムに比べて大幅に劣化する。 本稿では,グローバル・ローカルなグラフニューラルネットワーク(GNN)を用いた新しいアルゴリズムであるDGC-GNNを紹介する。 我々のグローバル・ローカル・プロシージャはユークリッドと角関係を粗いレベルでエンコードし、局所点マッチングを導く幾何学的埋め込みを形成する。 本研究では,dgc-gnnを屋内と屋外の両方のデータセットで評価し,最先端のディスクリプタフリーアルゴリズムの精度を2倍にするだけでなく,ディスクリプタベースとディスクリプタフリーの方法のパフォーマンスギャップを大幅に狭めることを示した。 コードとトレーニングされたモデルは公開されます。

Direct matching of 2D keypoints in an input image to a 3D point cloud of the scene without requiring visual descriptors has garnered increased interest due to its lower memory requirements, inherent privacy preservation, and reduced need for expensive 3D model maintenance compared to visual descriptor-based methods. However, existing algorithms often compromise on performance, resulting in a significant deterioration compared to their descriptor-based counterparts. In this paper, we introduce DGC-GNN, a novel algorithm that employs a global-to-local Graph Neural Network (GNN) that progressively exploits geometric and color cues to represent keypoints, thereby improving matching robustness. Our global-to-local procedure encodes both Euclidean and angular relations at a coarse level, forming the geometric embedding to guide the local point matching. We evaluate DGC-GNN on both indoor and outdoor datasets, demonstrating that it not only doubles the accuracy of the state-of-the-art descriptor-free algorithm but, also, substantially narrows the performance gap between descriptor-based and descriptor-free methods. The code and trained models will be made publicly available.
翻訳日:2023-06-23 16:13:19 公開日:2023-06-21
# 計算流体力学のためのニューラルマルチグリッドメモリ

Neural Multigrid Memory For Computational Fluid Dynamics ( http://arxiv.org/abs/2306.12545v1 )

ライセンス: Link先を確認
Duc Minh Nguyen, Minh Chau Vu, Tuan Anh Nguyen, Tri Huynh, Nguyen Tri Nguyen, Truong Son Hy(参考訳) 乱流シミュレーションは航空機や船舶の設計、産業プロセス最適化、気象予報など様々な応用において重要な役割を果たす。 本稿では,乱流をシミュレートする高度なデータ駆動手法を提案する。 提案手法は,ビデオ予測変換器 (VPTR) (Ye & Bilodeau, 2022) とマルチグリッドアーキテクチャ (MgConv, MgResnet) (Ke et al., 2017) の長所を組み合わせたものである。 VPTRは複雑な時空間依存のキャプチャと大きな入力データの処理に優れており、乱流の予測には有望な選択肢である。 一方、マルチグリッドアーキテクチャでは、異なる解像度の複数のグリッドを用いて乱流のマルチスケールの性質を捉え、より正確で効率的なシミュレーションを行う。 提案手法であるmgxtransformerを用いて, 様々な地形や流れ条件における非圧縮性乱流の流速, 温度, 乱流強度を正確に予測する実験を行った。 その結果,計算効率を保ちながら,他のベースラインよりも精度が高いことがわかった。

Turbulent flow simulation plays a crucial role in various applications, including aircraft and ship design, industrial process optimization, and weather prediction. In this paper, we propose an advanced data-driven method for simulating turbulent flow, representing a significant improvement over existing approaches. Our methodology combines the strengths of Video Prediction Transformer (VPTR) (Ye & Bilodeau, 2022) and Multigrid Architecture (MgConv, MgResnet) (Ke et al., 2017). VPTR excels in capturing complex spatiotemporal dependencies and handling large input data, making it a promising choice for turbulent flow prediction. Meanwhile, Multigrid Architecture utilizes multiple grids with different resolutions to capture the multiscale nature of turbulent flows, resulting in more accurate and efficient simulations. Through our experiments, we demonstrate the effectiveness of our proposed approach, named MGxTransformer, in accurately predicting velocity, temperature, and turbulence intensity for incompressible turbulent flows across various geometries and flow conditions. Our results exhibit superior accuracy compared to other baselines, while maintaining computational efficiency.
翻訳日:2023-06-23 16:12:54 公開日:2023-06-21
# ARIES:ピーアレビューに応えて作られた学術論文のコーパス

ARIES: A Corpus of Scientific Paper Edits Made in Response to Peer Reviews ( http://arxiv.org/abs/2306.12587v1 )

ライセンス: Link先を確認
Mike D'Arcy, Alexis Ross, Erin Bransom, Bailey Kuehl, Jonathan Bragg, Tom Hope, Doug Downey(参考訳) 相互フィードバックに基づく科学論文の改訂は、深い科学的知識と推論だけでなく、高いレベルのフィードバックで暗黙の要求を認識し、応答して原稿を更新するための最善の方法を選択する能力を必要とする困難な課題である。 本稿では,このタスクを大規模言語モデルに適用し,レビューコメントとそれに対応する論文編集のデータセットであるARIESをリリースし,モデルのトレーニングと評価を可能にする。 タスクの2つのバージョンについて検討した: コメント編集アライメントと編集生成、gpt-4を含むいくつかのベースラインの評価。 特に、コメントが間接的にフレーズされている場合や、編集がコメントの精神に対処しているが正確な要求ではない場合において、モデルがコメントに対応する編集を識別することさえ困難であることがわかった。 編集のタスクを行う場合、GPT-4は表面レベルでコメントに対処することに成功したが、基礎となる意図よりもフィードバックの言葉に固執し、人間による編集よりも技術的な詳細は少ない。 当社の形式化、データセット、分析が、この分野における今後の作業の基盤となることを願っています。

Revising scientific papers based on peer feedback is a challenging task that requires not only deep scientific knowledge and reasoning, but also the ability to recognize the implicit requests in high-level feedback and to choose the best of many possible ways to update the manuscript in response. We introduce this task for large language models and release ARIES, a dataset of review comments and their corresponding paper edits, to enable training and evaluating models. We study two versions of the task: comment-edit alignment and edit generation, and evaluate several baselines, including GPT-4. We find that models struggle even to identify the edits that correspond to a comment, especially in cases where the comment is phrased in an indirect way or where the edit addresses the spirit of a comment but not the precise request. When tasked with generating edits, GPT-4 often succeeds in addressing comments on a surface level, but it rigidly follows the wording of the feedback rather than the underlying intent, and includes fewer technical details than human-written edits. We hope that our formalization, dataset, and analysis will form a foundation for future work in this area.
翻訳日:2023-06-23 16:06:05 公開日:2023-06-21
# 階層的ニューラルネットワークシミュレーションに基づくイベントアンサンブル上の推論

Hierarchical Neural Simulation-Based Inference Over Event Ensembles ( http://arxiv.org/abs/2306.12584v1 )

ライセンス: Link先を確認
Lukas Heinrich, Siddharth Mishra-Sharma, Chris Pollard, and Philipp Windischhofer(参考訳) 実世界のデータを分析する際には、イベントアンサンブル(イベントアンサンブル)を扱うのが一般的である。 このようなモデルはしばしば階層構造を持ち、個々のイベントに"ローカル"パラメータが影響し、データセット全体に"グローバル"パラメータが影響を及ぼす。 確率が引き起こされる場合において、データセット全体の最適確率推定のための実践的アプローチを導入するが、シミュレーションはフォワードモデリングによって実現できる。 確率(比)や後部のニューラル推定器を構築し,モデルの階層構造を明示的に考慮することで,パラメータの制約がより厳しくなることを示す。 粒子物理学(粒子衝突データ)や天体物理学(強い重力レンズ観測)の例に焦点を当て,物理科学のケーススタディを用いて議論を行う。

When analyzing real-world data it is common to work with event ensembles, which comprise sets of observations that collectively constrain the parameters of an underlying model of interest. Such models often have a hierarchical structure, where "local" parameters impact individual events and "global" parameters influence the entire dataset. We introduce practical approaches for optimal dataset-wide probabilistic inference in cases where the likelihood is intractable, but simulations can be realized via forward modeling. We construct neural estimators for the likelihood(-ratio) or posterior and show that explicitly accounting for the model's hierarchical structure can lead to tighter parameter constraints. We ground our discussion using case studies from the physical sciences, focusing on examples from particle physics (particle collider data) and astrophysics (strong gravitational lensing observations).
翻訳日:2023-06-23 16:05:46 公開日:2023-06-21
# 高次元回帰における生成データを用いた対人訓練 : 漸近的研究

Adversarial Training with Generated Data in High-Dimensional Regression: An Asymptotic Study ( http://arxiv.org/abs/2306.12582v1 )

ライセンス: Link先を確認
Yue Xing(参考訳) 近年,「cite{carmon2019unlabeled,gowal2021improving,xing2022artificial}」などの研究では,擬似ラベルに実データや生成データを付加することで,2段階のトレーニングアプローチを通じて対人訓練を促進できることが示されている。 本稿では,高次元線形回帰法において,この手法の漸近挙動に関する理論的解析を行う。 リッジレストレーニングでは二重発振現象が観察でき、適切な$\mathcal{L}_2$正規化が可能であるが、2段階の対向訓練はより良い性能を達成する。 最後に,2段階学習法に特化したショートカットクロスバリデーション式を導出する。

In recent years, studies such as \cite{carmon2019unlabeled,gowal2021improving,xing2022artificial} have demonstrated that incorporating additional real or generated data with pseudo-labels can enhance adversarial training through a two-stage training approach. In this paper, we perform a theoretical analysis of the asymptotic behavior of this method in high-dimensional linear regression. While a double-descent phenomenon can be observed in ridgeless training, with an appropriate $\mathcal{L}_2$ regularization, the two-stage adversarial training achieves a better performance. Finally, we derive a shortcut cross-validation formula specifically tailored for the two-stage training method.
翻訳日:2023-06-23 16:05:31 公開日:2023-06-21
# 形態変化と音韻的特徴

Morphological Inflection with Phonological Features ( http://arxiv.org/abs/2306.12581v1 )

ライセンス: Link先を確認
David Guriel, Omer Goldman, Reut Tsarfaty(参考訳) 近年では、様々なタスクに適用される強力なニューラルモデル(反射と解析)によって、形態的タスクの解決に大きな進歩がもたらされている。 しかし、そのような形態的タスクは、特にトレーニングデータが少ない場合や、以前は見つからなかった補題に一般化する場合は、解決できない。 本研究は形態素モデルが形態素過程の標的となるサブキャラクタ音韻的特徴にアクセスできる様々な方法で得られる性能への影響を探求する。 この目的を達成するための2つの手法を設計する。1つはモデルをそのまま残しながら文字の代わりに特徴を含むようにデータを操作し、もう1つは音素表現を構築する際に音韻的特徴を考慮したモデルを操作する。 浅いグラフ-音素マッピングを持つ言語に対する言語固有の文法を用いた標準グラフデータから音素データを抽出し、8言語にまたがる2つの再帰モデル実験を行った。 以上の結果から,本手法はgraphemeベースのベースラインと比較し,いくつかの言語に若干改良を加えた結果を得た。 総じて、文字分布のパターンは、音素が明示的に表現されていない場合でも、モデルが基礎となる音韻特性を推測できる可能性が高いと結論付けている。

Recent years have brought great advances into solving morphological tasks, mostly due to powerful neural models applied to various tasks as (re)inflection and analysis. Yet, such morphological tasks cannot be considered solved, especially when little training data is available or when generalizing to previously unseen lemmas. This work explores effects on performance obtained through various ways in which morphological models get access to subcharacter phonological features that are the targets of morphological processes. We design two methods to achieve this goal: one that leaves models as is but manipulates the data to include features instead of characters, and another that manipulates models to take phonological features into account when building representations for phonemes. We elicit phonemic data from standard graphemic data using language-specific grammars for languages with shallow grapheme-to-phoneme mapping, and we experiment with two reinflection models over eight languages. Our results show that our methods yield comparable results to the grapheme-based baseline overall, with minor improvements in some of the languages. All in all, we conclude that patterns in character distributions are likely to allow models to infer the underlying phonological characteristics, even when phonemes are not explicitly represented.
翻訳日:2023-06-23 16:05:18 公開日:2023-06-21
# norefer: 半教師付き言語モデルとコントラスト学習による自動音声認識のための参照なし品質指標

NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning ( http://arxiv.org/abs/2306.12577v1 )

ライセンス: Link先を確認
Kamer Ali Yuksel, Thiago Ferreira, Golara Javadi, Mohamed El-Badrashiny, Ahmet Gunduz(参考訳) 本稿では,自動音声認識(ASR)システムのための新しい基準のない品質指標であるNoRefERを紹介する。 ASRシステムを評価するための従来の基準ベースのメトリクスは、コストがかかる地上の文字起こしを必要とする。 NoRefERはこの制限を克服し、シームズネットワークアーキテクチャによる対照的な学習を用いて、ペアワイズなASR仮説の多言語言語モデルを微調整する。 自己教師型NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。 半教師付きバージョンでは、参照データセットを使用して、サンプル間の品質ランキングを改善している。 その結果、NoRefERは基準ベースの指標とサンプル内ランクと高い相関を示し、基準のないASR評価やa/bテストの可能性を示している。

This paper introduces NoRefER, a novel referenceless quality metric for automatic speech recognition (ASR) systems. Traditional reference-based metrics for evaluating ASR systems require costly ground-truth transcripts. NoRefER overcomes this limitation by fine-tuning a multilingual language model for pair-wise ranking ASR hypotheses using contrastive learning with Siamese network architecture. The self-supervised NoRefER exploits the known quality relationships between hypotheses from multiple compression levels of an ASR for learning to rank intra-sample hypotheses by quality, which is essential for model comparisons. The semi-supervised version also uses a referenced dataset to improve its inter-sample quality ranking, which is crucial for selecting potentially erroneous samples. The results indicate that NoRefER correlates highly with reference-based metrics and their intra-sample ranks, indicating a high potential for referenceless ASR evaluation or a/b testing.
翻訳日:2023-06-23 16:04:46 公開日:2023-06-21
# 復号更新によるデータストリームの効率的かつ簡便なオンライン量子化法

An efficient and straightforward online quantization method for a data stream through remove-birth updating ( http://arxiv.org/abs/2306.12574v1 )

ライセンス: Link先を確認
Kazuhisa Fujita(参考訳) ネットワークに接続されたデバイスの成長は、ビッグデータと呼ばれるデータの爆発を引き起こし、効率的なデータ分析に重大な課題をもたらしている。 このデータは連続的に生成され、データストリームと呼ばれる動的フローを生成する。 データストリームの特性は動的に変化し、この変化は概念ドリフトと呼ばれる。 したがって、データストリームを処理する方法は、これらの変化特性に動的に適応しながら、効率的にボリュームを削減しなければならない。 本稿では,概念ドリフトのための簡単なオンラインベクトル量子化手法を提案する。 提案手法は, 概念ドリフトへの迅速な適応を実現するため, 発生頻度の低いユニットを識別し, 置換する。 さらに,本研究の結果から,コンセプトドリフトの存在下においても最小限のデッドユニットを生成できることが示唆された。 本研究は,提案手法から算出した測定値がドリフト検出に有用であることを示す。

The growth of network-connected devices is creating an explosion of data, known as big data, and posing significant challenges to efficient data analysis. This data is generated continuously, creating a dynamic flow known as a data stream. The characteristics of a data stream may change dynamically, and this change is known as concept drift. Consequently, a method for handling data streams must efficiently reduce their volume while dynamically adapting to these changing characteristics. This paper proposes a simple online vector quantization method for concept drift. The proposed method identifies and replaces units with low win probability through remove-birth updating, thus achieving a rapid adaptation to concept drift. Furthermore, the results of this study show that the proposed method can generate minimal dead units even in the presence of concept drift. This study also suggests that some metrics calculated from the proposed method will be helpful for drift detection.
翻訳日:2023-06-23 16:04:16 公開日:2023-06-21
# ARモデルに基づくアイリスパターンの特異性

Uniqueness of Iris Pattern Based on AR Model ( http://arxiv.org/abs/2306.12572v1 )

ライセンス: Link先を確認
Katelyn M. Hampel, Jinyu Zuo, Priyanka Das, Natalia A. Schmid, Stephanie Schuckers, Joseph Skufca, and Matthew C. Valenti(参考訳) 虹彩特異性の評価は虹彩認識システムの能力と限界を分析する上で重要な役割を担っている。 様々な方法論の中で、ダウグマンのアイリスの独特性へのアプローチは最も広く受け入れられている方法の一つである。 daugman氏によると、一意性は、新しいクラスと登録されたクラスの間の衝突の確率をほぼゼロに保ちながら、クラス数を増やすアイリス認識システムの能力を指す。 Daugmanのアプローチでは、システム内のアイリスクラスごとに個別のIrisCodeテンプレートを作成し、コードワード間の固定ハミング距離の下で持続可能な人口を評価する。 先行研究 [23] では,コードワード間の固定ハミング距離の制約を考慮し,daugman の iriscode が支持する iris クラスの最大人口の境界を確立するために,レートゆがみ理論(誤り訂正符号の限界に関するもの)を用いた。 そこで本研究では,虹彩認識システムのスケーラビリティを評価するとともに,虹彩品質を測定する新しい手法を提案する。 ガウス符号語に対する球充填境界を採用し、相対エントロピーをアイリスクラス間の距離測度として用いるダウグマン法に似たアプローチを採用することでこれを達成する。 本手法の有効性を示すために,アイリス画像の2つの小さなデータセットにその適用例を示す。 画像の品質に基づいて,各データセットの持続可能な最大人口を決定する。 これらの図示を提供することで, irisデータベースの品質に応じて, 研究者が認識システムに固有の制限を理解することを支援する。

The assessment of iris uniqueness plays a crucial role in analyzing the capabilities and limitations of iris recognition systems. Among the various methodologies proposed, Daugman's approach to iris uniqueness stands out as one of the most widely accepted. According to Daugman, uniqueness refers to the iris recognition system's ability to enroll an increasing number of classes while maintaining a near-zero probability of collision between new and enrolled classes. Daugman's approach involves creating distinct IrisCode templates for each iris class within the system and evaluating the sustainable population under a fixed Hamming distance between codewords. In our previous work [23], we utilized Rate-Distortion Theory (as it pertains to the limits of error-correction codes) to establish boundaries for the maximum possible population of iris classes supported by Daugman's IrisCode, given the constraint of a fixed Hamming distance between codewords. Building upon that research, we propose a novel methodology to evaluate the scalability of an iris recognition system, while also measuring iris quality. We achieve this by employing a sphere-packing bound for Gaussian codewords and adopting a approach similar to Daugman's, which utilizes relative entropy as a distance measure between iris classes. To demonstrate the efficacy of our methodology, we illustrate its application on two small datasets of iris images. We determine the sustainable maximum population for each dataset based on the quality of the images. By providing these illustrations, we aim to assist researchers in comprehending the limitations inherent in their recognition systems, depending on the quality of their iris databases.
翻訳日:2023-06-23 16:03:52 公開日:2023-06-21
# 散逸性sachdev-ye-kitaevモデルにおける絡み合い遷移とレプリカワームホール

Entanglement Transition and Replica Wormhole in the Dissipative Sachdev-Ye-Kitaev Model ( http://arxiv.org/abs/2306.12571v1 )

ライセンス: Link先を確認
Hanteng Wang, Chang Liu, Pengfei Zhang, Antonio M. Garc\'ia-Garc\'ia(参考訳) 最近の発見は、情報パラドックスの解決とブラックホール蒸発のユニタリティの確立におけるレプリカワームホールの重要性を強調している。 本稿では,複製ワームホールに類似した特徴を持つ絡み合いのダイナミクスを示す最小量子モデルとして,散逸型Sachdev-Ye-Kitaevモデル(SYK)を提案する。 本研究では,熱場二重状態(TFD)で初期化した一対の散逸SYKモデルの絡み合い成長について検討する。 弱散逸を伴う大きなn$の方法では、支配的な鞍点のスイッチによって特徴づけられる一階の絡み合い遷移が観察される: 短時間のレプリカ対角解から長時間のワームホールのようなオフ対角解まで。 さらに、モンテカルロ量子軌道法を用いて、中間の$N \lesssim 30$でもレプリカワームホールのシグネチャが持続することを示す。 我々の研究は、量子シミュレーターにおける模擬ワームホール物理学の探求の道を開いた。

Recent discoveries have highlighted the significance of replica wormholes in resolving the information paradox and establishing the unitarity of black hole evaporation. In this letter, we propose the dissipative Sachdev-Ye-Kitaev model (SYK) as a minimal quantum model that exhibits entanglement dynamics with features qualitatively similar to replica wormholes. As a demonstration, we investigate the entanglement growth of a pair of dissipative SYK models initialized in a thermofield double state (TFD). In the regime of large $N$ with weak dissipation, we observe a first-order entanglement transition characterized by a switch of the dominant saddle point: from replica diagonal solutions for short times to replica wormhole-like off-diagonal solutions for long times. Furthermore, we show that signature of replica wormholes persists even at moderate $N \lesssim 30$ by using the Monte Carlo quantum trajectory method. Our work paves the way for explorations of replica wormhole physics in quantum simulators.
翻訳日:2023-06-23 16:03:09 公開日:2023-06-21
# クリップ知識の3次元蒸留による局所3次元編集

Local 3D Editing via 3D Distillation of CLIP Knowledge ( http://arxiv.org/abs/2306.12570v1 )

ライセンス: Link先を確認
Junha Hyung, Sungwon Hwang, Daejin Kim, Hyunji Lee, Jaegul Choo(参考訳) 3Dコンテンツ操作は多くの実世界のアプリケーション(製品デザイン、漫画生成、3Dアバター編集など)で重要なコンピュータビジョンタスクである。 最近提案された3D GANは、Neural Radiance Field (NeRF)を用いて、多様な光リアルな3Dコンテンツを生成することができる。 しかし、2Dセマンティックマップなどの最適制御ハンドルが操作に使用されるなど、視覚的品質が低下する傾向にあるため、NeRFの操作は依然として困難な問題である。 テキストガイドによる操作は3d編集の可能性を秘めているが、そのような方法はしばしば局所性を欠いている。 これらの問題を克服するために、我々は、微細で局所的な操作にのみテキスト入力を必要とするローカル編集NeRF(LENeRF)を提案する。 具体的には,3次元注意場を推定することにより,3次元特徴の局所的な操作に共用する,lenerf,潜在残差マッパー,アテンションフィールドネットワーク,変形ネットワークの3つのアドオンモジュールを提案する。 マルチビュー誘導により,CLIPのゼロショットマスク生成能力を3次元空間に蒸留することにより,非教師なしの3Dアテンション場を学習する。 定量的および質的に多様な実験および徹底的な評価を行う。

3D content manipulation is an important computer vision task with many real-world applications (e.g., product design, cartoon generation, and 3D Avatar editing). Recently proposed 3D GANs can generate diverse photorealistic 3D-aware contents using Neural Radiance fields (NeRF). However, manipulation of NeRF still remains a challenging problem since the visual quality tends to degrade after manipulation and suboptimal control handles such as 2D semantic maps are used for manipulations. While text-guided manipulations have shown potential in 3D editing, such approaches often lack locality. To overcome these problems, we propose Local Editing NeRF (LENeRF), which only requires text inputs for fine-grained and localized manipulation. Specifically, we present three add-on modules of LENeRF, the Latent Residual Mapper, the Attention Field Network, and the Deformation Network, which are jointly used for local manipulations of 3D features by estimating a 3D attention field. The 3D attention field is learned in an unsupervised way, by distilling the zero-shot mask generation capability of CLIP to the 3D space with multi-view guidance. We conduct diverse experiments and thorough evaluations both quantitatively and qualitatively.
翻訳日:2023-06-23 16:02:53 公開日:2023-06-21
# ハミルトンシミュレーションのためのトロッター誤差境界と動的多積公式

Trotter error bounds and dynamic multi-product formulas for Hamiltonian simulation ( http://arxiv.org/abs/2306.12569v1 )

ライセンス: Link先を確認
Sergiy Zhuk, Niall Robertson and Sergey Bravyi(参考訳) 多積公式はトロッター回路の線形結合であり、トロッターステップの少ないハミルトン時間発展の高品質なシミュレーションを提供する。 本稿では,多積公式を短期量子シミュレーションでより有効にすることを目的とした2つの貢献について報告する。 まず、Childs, Su, Tranらが開発した通勤者スケーリングによるトロッター誤差の理論を多積式に拡張する。 その結果, 回路の深さやキュービット接続を増加させることなく, 任意の時間間隔でトロッター誤差を2次的に低減できることがわかった。 回路繰り返しの数は定数因子によってのみ増加する。 次に,時間依存係数を持つ動的多積数式を導入し,トロッター誤差の計算可能なプロキシを最小化する。 数値シミュレーションにより, 動的多積式による誤差は最適値に近いことが示唆された。

Multi-product formulas are linear combinations of Trotter circuits offering high-quality simulation of Hamiltonian time evolution with fewer Trotter steps. Here we report two contributions aimed at making multi-product formulas more viable for near-term quantum simulations. First, we extend the theory of Trotter error with commutator scaling developed by Childs, Su, Tran et al. to multi-product formulas. Our result implies that multi-product formulas can achieve a quadratic reduction of Trotter error on arbitrary time intervals compared with the regular product formulas without increasing the required circuit depth or qubit connectivity. The number of circuit repetitions grows only by a constant factor. Secondly, we introduce dynamic multi-product formulas with time-dependent coefficients chosen to minimize a certain efficiently computable proxy for the Trotter error. Numerical simulations suggest that the error achieved by the dynamic multi-product formulas is close to the optimal one.
翻訳日:2023-06-23 16:02:31 公開日:2023-06-21
# 多分布密度情報検索のための資源と評価

Resources and Evaluations for Multi-Distribution Dense Information Retrieval ( http://arxiv.org/abs/2306.12601v1 )

ライセンス: Link先を確認
Soumya Chatterjee, Omar Khattab, Simran Arora(参考訳) 本稿では,クエリが与えられた場合,複数のコレクション内から,それぞれが異なる分布から引き出されたパスを検索する必要があるという,複数分散情報検索(IR)の新たな問題を紹介し,定義する。 これらのコレクションとディストリビューションのいくつかは、トレーニング時に利用できない可能性がある。 マルチ分散検索の手法を評価するために,既存の単一分散データセット,すなわち質問応答に基づくデータセットと,エンティティマッチングに基づく2つのベンチマークを設計した。 本課題では, 既知領域が予算の大部分を消費するのを防止するため, ドメイン間で戦略的に固定された回収予算(最上位経路)を割り当てる簡単な手法を提案する。 提案手法は,データセット全体で平均3.8ポイント,最大8.0ポイントのrecall@100改善を実現し,異なるベース検索モデルを微調整する際にも一貫性があることを実証する。 私たちのベンチマークは公開されています。

We introduce and define the novel problem of multi-distribution information retrieval (IR) where given a query, systems need to retrieve passages from within multiple collections, each drawn from a different distribution. Some of these collections and distributions might not be available at training time. To evaluate methods for multi-distribution retrieval, we design three benchmarks for this task from existing single-distribution datasets, namely, a dataset based on question answering and two based on entity matching. We propose simple methods for this task which allocate the fixed retrieval budget (top-k passages) strategically across domains to prevent the known domains from consuming most of the budget. We show that our methods lead to an average of 3.8+ and up to 8.0 points improvements in Recall@100 across the datasets and that improvements are consistent when fine-tuning different base retrieval models. Our benchmarks are made publicly available.
翻訳日:2023-06-23 15:54:37 公開日:2023-06-21
# 定記憶注意ブロック

Constant Memory Attention Block ( http://arxiv.org/abs/2306.12599v1 )

ライセンス: Link先を確認
Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio, Mohamed Osama Ahmed(参考訳) 現代の基礎モデルアーキテクチャは、コンテキストを効果的に捉えるための注意機構に依存している。 しかし、これらの手法は入力/データポイントの数の観点から線形または二次記憶を必要とするため、低計算領域での適用性が制限される。 本研究では,その出力を定数メモリで計算し,定数計算で更新を行う新しい汎用注意ブロックである constant memory attention block (cmab) を提案する。 cmabsの有効性を強調するために,神経過程と時間点過程の手法を紹介する。 実験により,提案手法は最先端技術と競合し,メモリ効率は著しく向上した。

Modern foundation model architectures rely on attention mechanisms to effectively capture context. However, these methods require linear or quadratic memory in terms of the number of inputs/datapoints, limiting their applicability in low-compute domains. In this work, we propose Constant Memory Attention Block (CMAB), a novel general-purpose attention block that computes its output in constant memory and performs updates in constant computation. Highlighting CMABs efficacy, we introduce methods for Neural Processes and Temporal Point Processes. Empirically, we show our proposed methods achieve results competitive with state-of-the-art while being significantly more memory efficient.
翻訳日:2023-06-23 15:54:20 公開日:2023-06-21
# TalkBankの複数データセット活用のための階層的アプローチ

A Hierarchical Approach to exploiting Multiple Datasets from TalkBank ( http://arxiv.org/abs/2306.12596v1 )

ライセンス: Link先を確認
Man Ho Wong(参考訳) TalkBankは、言語研究データの共有を容易にするオンラインデータベースである。 しかし、既存のTalkBankのAPIはデータフィルタリングとバッチ処理の機能に制限がある。 これらの制約を克服するために,階層的な探索手法を用いて,効率的な複雑なデータ選択を可能にするパイプラインフレームワークを提案する。 このアプローチでは、研究者が必要とするコーパスを迅速に予備的にスクリーニングし、特定の基準に基づいてターゲットデータの詳細を探索する。 識別されたファイルはインデックス化され、将来の分析に容易にアクセスできる。 さらに、このフレームワークでキュレートされた異なる研究のデータをメタデータの標準化とクリーニングによって統合し、研究者が大規模な統合されたデータセットから洞察を抽出する方法を示す。 TalkBank用に設計されたこのフレームワークは、他のオープンサイエンスプラットフォームのデータ処理にも適用できる。

TalkBank is an online database that facilitates the sharing of linguistics research data. However, the existing TalkBank's API has limited data filtering and batch processing capabilities. To overcome these limitations, this paper introduces a pipeline framework that employs a hierarchical search approach, enabling efficient complex data selection. This approach involves a quick preliminary screening of relevant corpora that a researcher may need, and then perform an in-depth search for target data based on specific criteria. The identified files are then indexed, providing easier access for future analysis. Furthermore, the paper demonstrates how data from different studies curated with the framework can be integrated by standardizing and cleaning metadata, allowing researchers to extract insights from a large, integrated dataset. While being designed for TalkBank, the framework can also be adapted to process data from other open-science platforms.
翻訳日:2023-06-23 15:54:12 公開日:2023-06-21
# 国家規制政策最適化

State-wise Constrained Policy Optimization ( http://arxiv.org/abs/2306.12594v1 )

ライセンス: Link先を確認
Weiye Zhao, Rui Chen, Yifan Sun, Tianhao Wei and Changliu Liu(参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムはシミュレーション環境では非常に成功したが、実世界の問題への適用には大きな課題が伴い、安全性が大きな懸念事項となっている。 特に、自律運転やロボット操作といった多くの課題に対して、国家的制約の実施が不可欠である。 しかし、CMDP(Constrained Markov Decision Process)の枠組みに基づく既存の安全なRLアルゴリズムは、状態制約を考慮していない。 このギャップに対処するため,我々は,状態制約強化学習のための最初の汎用ポリシー探索アルゴリズムであるstate-wise restricteded policy optimization (scpo)を提案する。 SCPOは、期待する状態の制約満足度を保証する。 特に,最大マルコフ決定プロセスの枠組みを導入し,最悪の安全違反がSCPOに拘束されていることを証明する。 本研究は, エージェントが様々な状態的安全性制約を満たさなければならない, 広範なロボット移動タスクに対するニューラルネットワークポリシーの訓練における本手法の有効性を実証する。 以上の結果から,SCPOは既存の手法を著しく上回り,高次元ロボット作業における状態制約を処理できることが示唆された。

Reinforcement Learning (RL) algorithms have shown tremendous success in simulation environments, but their application to real-world problems faces significant challenges, with safety being a major concern. In particular, enforcing state-wise constraints is essential for many challenging tasks such as autonomous driving and robot manipulation. However, existing safe RL algorithms under the framework of Constrained Markov Decision Process (CMDP) do not consider state-wise constraints. To address this gap, we propose State-wise Constrained Policy Optimization (SCPO), the first general-purpose policy search algorithm for state-wise constrained reinforcement learning. SCPO provides guarantees for state-wise constraint satisfaction in expectation. In particular, we introduce the framework of Maximum Markov Decision Process, and prove that the worst-case safety violation is bounded under SCPO. We demonstrate the effectiveness of our approach on training neural network policies for extensive robot locomotion tasks, where the agent must satisfy a variety of state-wise safety constraints. Our results show that SCPO significantly outperforms existing methods and can handle state-wise constraints in high-dimensional robotics tasks.
翻訳日:2023-06-23 15:54:00 公開日:2023-06-21
# 急激な建物被害評価ワークフロー:ミシシッピ州ローリングフォークでの2023年の竜巻イベントの実施

Rapid building damage assessment workflow: An implementation for the 2023 Rolling Fork, Mississippi tornado event ( http://arxiv.org/abs/2306.12589v1 )

ライセンス: Link先を確認
Caleb Robinson, Simone Fobi Nsutezo, Anthony Ortiz, Tina Sederholm, Rahul Dodhia, Cameron Birge, Kasie Richards, Kris Pitcher, Paulo Duarte, Juan M. Lavista Ferres(参考訳) 自然災害後の高解像度衛星画像からの迅速かつ正確な建物損傷評価は,第一応答者への情報提供と最適化に不可欠である。 しかし、災害固有の被害のばらつき、衛星画像の多様性、広範囲なラベル付きデータセットの破壊などによって生じる課題のため、このような建物被害評価を自動で行うことは簡単ではない。 そこで本稿では,災害後の建物被害評価モデルを迅速に訓練するためのヒューマン・イン・ザ・ループ・ワークフローを提案する。 この記事では,2023年3月にミシシッピ州ローリングフォークで行われた竜巻イベントにおいて,アメリカ赤十字社と共同で実施した,このワークフローを用いたケーススタディについて詳述する。 提案手法の精度は0.86, 損傷建物は0.80であった。 このワークフローは、衛星画像のシーン毎に2時間以内でエンドツーエンドに実装され、リアルタイムデプロイメントの可能性を強調した。

Rapid and accurate building damage assessments from high-resolution satellite imagery following a natural disaster is essential to inform and optimize first responder efforts. However, performing such building damage assessments in an automated manner is non-trivial due to the challenges posed by variations in disaster-specific damage, diversity in satellite imagery, and the dearth of extensive, labeled datasets. To circumvent these issues, this paper introduces a human-in-the-loop workflow for rapidly training building damage assessment models after a natural disaster. This article details a case study using this workflow, executed in partnership with the American Red Cross during a tornado event in Rolling Fork, Mississippi in March, 2023. The output from our human-in-the-loop modeling process achieved a precision of 0.86 and recall of 0.80 for damaged buildings when compared to ground truth data collected post-disaster. This workflow was implemented end-to-end in under 2 hours per satellite imagery scene, highlighting its potential for real-time deployment.
翻訳日:2023-06-23 15:53:41 公開日:2023-06-21
# 共謀攻撃に対するセキュアなマルチパーティ量子鍵合意

Secure multiparty quantum key agreement against collusive attacks ( http://arxiv.org/abs/2004.11738v3 )

ライセンス: Link先を確認
Hussein Abulkasim, Atefeh Mashatan, Shohini Ghose(参考訳) 量子鍵契約により、リモート参加者はプライベート入力に基づいてセキュアな共有鍵を適切に確立できる。 円型マルチパーティ量子鍵アグリーメントモードでは、2人以上の悪意のある参加者が集まって、正直な参加者のプライベートな入力を盗んだり、最後の鍵を単独で生成したりすることができる。 本研究は,特定の位置にいる2人以上の悪意のある参加者が,機密情報を学習したり,悪意のある振る舞いを明かさずに最終鍵を生成できる強力な協調的攻撃戦略に焦点をあてる。 現在の円形型マルチパーティ量子鍵合意プロトコルの多くは、この衝突攻撃戦略に対して安全ではない。 例として、最近提案されたマルチパーティ鍵合意プロトコルのセキュリティを分析し、この衝突攻撃に対する既存の円形型量子鍵合意プロトコルの脆弱性を示す。 さらに,このような循環型鍵合意プロトコルから脆弱性を取り除き,このモデルを実装するために必要なステップを記述する汎用的セキュアなマルチパーティ鍵合意モデルを設計した。 提案モデルは一般的であり、量子鍵協定の特定の物理的実装に依存しない。

Quantum key agreement enables remote participants to fairly establish a secure shared key based on their private inputs. In the circular-type multiparty quantum key agreement mode, two or more malicious participants can collude together to steal private inputs of honest participants or to generate the final key alone. In this work, we focus on a powerful collusive attack strategy in which two or more malicious participants in particular positions, can learn sensitive information or generate the final key alone without revealing their malicious behaviour. Many of the current circular-type multiparty quantum key agreement protocols are not secure against this collusive attack strategy. As an example, we analyze the security of a recently proposed multiparty key agreement protocol to show the vulnerability of existing circular-type multiparty quantum key agreement protocols against this collusive attack. Moreover, we design a general secure multiparty key agreement model that would remove this vulnerability from such circular-type key agreement protocols and describe the necessary steps to implement this model. The proposed model is general and does not depend on the specific physical implementation of the quantum key agreement.
翻訳日:2023-06-22 18:37:15 公開日:2023-06-21
# McDiarmidの不等式の拡張

An extension of McDiarmid's inequality ( http://arxiv.org/abs/1511.05240v2 )

ライセンス: Link先を確認
Richard Combes(参考訳) 拡張引数を用いて,高確率集合上の有界差を持つ関数に対するmcdiarmidの不等式を一般化する。 これらの機能は条件付き期待に集中する。 さらに、結果を一般距離空間の濃度にまで拡張する。

We generalize McDiarmid's inequality for functions with bounded differences on a high probability set, using an extension argument. Those functions concentrate around their conditional expectations. We further extend the results to concentration in general metric spaces.
翻訳日:2023-06-22 18:36:57 公開日:2023-06-21
# スムーズネステッドシミュレーション:高次元における立方体および正方形根収束率のブリッジング

Smooth Nested Simulation: Bridging Cubic and Square Root Convergence Rates in High Dimensions ( http://arxiv.org/abs/2201.02958v4 )

ライセンス: Link先を確認
Wenjia Wang and Yanyuan Wang and Xiaowei Zhang(参考訳) ネステッドシミュレーションは、条件付き期待関数をシミュレーションによって推定する。 本稿では,条件付き期待の滑らかさを多次元条件付き変数の関数として活用するために,カーネルリッジ回帰に基づく新しい手法を提案する。 漸近解析により,条件付き期待値が十分滑らかであれば,シミュレーション予算の増加に伴う収束率の次元性の呪いを効果的に緩和できることを示した。 滑らかさは、立方根収束率(つまり、標準ネストシミュレーションの最適速度)と平方根収束率(つまり標準モンテカルロシミュレーションの標準速度)の間のギャップを橋渡しする。 ポートフォリオリスク管理と入力不確実性定量化の数値例を用いて,提案手法の性能を示す。

Nested simulation concerns estimating functionals of a conditional expectation via simulation. In this paper, we propose a new method based on kernel ridge regression to exploit the smoothness of the conditional expectation as a function of the multidimensional conditioning variable. Asymptotic analysis shows that the proposed method can effectively alleviate the curse of dimensionality on the convergence rate as the simulation budget increases, provided that the conditional expectation is sufficiently smooth. The smoothness bridges the gap between the cubic root convergence rate (that is, the optimal rate for the standard nested simulation) and the square root convergence rate (that is, the canonical rate for the standard Monte Carlo simulation). We demonstrate the performance of the proposed method via numerical examples from portfolio risk management and input uncertainty quantification.
翻訳日:2023-06-22 18:35:31 公開日:2023-06-21
# 自己教師付きグラフ表現学習による神経形態学

Self-Supervised Graph Representation Learning for Neuronal Morphologies ( http://arxiv.org/abs/2112.12482v3 )

ライセンス: Link先を確認
Marissa A. Weis, Laura Hansel, Timo L\"uddecke, Alexander S. Ecker(参考訳) 教師なしグラフ表現学習は、最近、脳内の細胞型の多様な形態をモデル化する神経科学のようないくつかの応用分野に関心を寄せている。 現在、興奮性皮質細胞型が何種類あり、その形態的特徴が何であるかは分かっていない。 ここでは,ラベルのない大規模データセットから3次元ニューロン形態の低次元表現を学ぶための純粋データ駆動アプローチであるgraphdinoを提案する。 GraphDINOは空間埋め込みグラフのためのトランスフォーマーに基づく表現学習手法である。 トランスの自己教師あり学習を可能にするために,(1)空間埋め込みグラフのデータ拡張戦略を開発し,(2)位置符号化を適用し,(3)ノード間の注意に基づくグローバルインタラクションと古典的なグラフ畳み込み処理を組み合わせた新しい注意機構であるac-attentionを導入した。 2つの異なる種と複数の脳領域にまたがって、この方法は、専門家による手作業による特徴に基づく分類と同等の形態的細胞型クラスタリングをもたらすが、ニューロンの構造的特徴に関する事前の知識は使用しない。 さらに、専門家ラベルを予測する定量的ベンチマークに対する従来のアプローチを上回っている。 提案手法は,大規模データセットにおける新しい形態的特徴や細胞型の発見を可能にする可能性がある。 データセットのサンプルがグラフで、グラフレベルの埋め込みが望まれる設定では、神経科学を越えて適用できる。

Unsupervised graph representation learning has recently gained interest in several application domains such as neuroscience, where modeling the diverse morphology of cell types in the brain is one of the key challenges. It is currently unknown how many excitatory cortical cell types exist and what their defining morphological features are. Here we present GraphDINO, a purely data-driven approach to learn low-dimensional representations of 3D neuronal morphologies from unlabeled large-scale datasets. GraphDINO is a novel transformer-based representation learning method for spatially-embedded graphs. To enable self-supervised learning on transformers, we (1) developed data augmentation strategies for spatially-embedded graphs, (2) adapted the positional encoding and (3) introduced a novel attention mechanism, AC-Attention, which combines attention-based global interaction between nodes and classic graph convolutional processing. We show, in two different species and across multiple brain areas, that this method yields morphological cell type clusterings that are on par with manual feature-based classification by experts, but without using prior knowledge about the structural features of neurons. Moreover, it outperforms previous approaches on quantitative benchmarks predicting expert labels. Our method could potentially enable data-driven discovery of novel morphological features and cell types in large-scale datasets. It is applicable beyond neuroscience in settings where samples in a dataset are graphs and graph-level embeddings are desired.
翻訳日:2023-06-22 18:35:17 公開日:2023-06-21
# 3つの射影ビューに対する臨界構成

Critical configurations for three projective views ( http://arxiv.org/abs/2112.05478v3 )

ライセンス: Link先を確認
Martin Br{\aa}telund(参考訳) 動きからの構造の問題とは、未知のカメラが撮影した2次元画像の集合から物体の3次元構造を復元することである。 一般に、十分な画像と点対応が提供されると、すべての情報を一意に復元できるが、一意の回復が不可能なケースもある。 3つの投影型カメラの臨界配置を研究するために代数的手法を用いる。 すべての臨界構成は二次曲面の交叉上にあり、どの交叉が臨界配置を構成するかを正確に分類する。

The problem of structure from motion is concerned with recovering the 3-dimensional structure of an object from a set of 2-dimensional images taken by unknown cameras. Generally, all information can be uniquely recovered if enough images and point correspondences are provided, yet there are certain cases where unique recovery is impossible; these are called critical configurations. We use an algebraic approach to study the critical configurations for three projective cameras. We show that all critical configurations lie on the intersection of quadric surfaces, and classify exactly which intersections constitute a critical configuration.
翻訳日:2023-06-22 18:34:53 公開日:2023-06-21
# 連続可変量子ネットワークのコストとルーティング

Cost and Routing of Continuous Variable Quantum Networks ( http://arxiv.org/abs/2108.08176v3 )

ライセンス: Link先を確認
Federico Centrone, Frederic Grosshans and Valentina Parigi(参考訳) 規則的かつ複雑なネットワーク形状を持つ連続変数グラフ状態について検討し,そのコストをネットワーク構築に必要なスクイーズと絞り込みモードの数のグローバルな尺度として報告する。 グラフ状態を実装するのに必要な実験資源を計算するための解析式を提供し,それを用いて,ネットワークの大きさによるスキューズコストのスケーリングが,そのトポロジに厳密に依存していることを示す。 2つのノード間の並列経路に沿ったホモダインの測定により、これらのノードの最終的な絡み合いを増加させ、この効果を用いて絡み合いルーティングプロトコルの効率を高める。 考案されたルーティングプロトコルは、複雑なスパースネットワークの実行時に特に効率的である。

We study continuous-variable graph states with regular and complex network shapes and we report for their cost as a global measure of squeezing and number of squeezed modes that are necessary to build the network. We provide an analytical formula to compute the experimental resources required to implement the graph states and we use it to show that the scaling of the squeezing cost with the size of the network strictly depends on its topology. We show that homodyne measurements along parallel paths between two nodes allow to increase the final entanglement in these nodes and we use this effect to boost the efficiency of an entanglement routing protocol. The devised routing protocol is particularly efficient in running-time for complex sparse networks.
翻訳日:2023-06-22 18:34:44 公開日:2023-06-21
# 多次元時系列における欠落値計算

Missing Value Imputation on Multidimensional Time Series ( http://arxiv.org/abs/2103.01600v3 )

ライセンス: Link先を確認
Parikshit Bansal, Prathamesh Deshpande, Sunita Sarawagi(参考訳) 本稿では,多次元時系列データセットにおける深層学習手法DeepMVIを提案する。 欠落した値は、異なるソースから長い時間にわたってデータを集約する意思決定支援プラットフォームや、欠落したデータを慎重に処理するための信頼性の高いデータ分析コールに共通する。 1つの戦略は、欠落した値を出力することであり、単純な補間、SVDのような行列分解法、カルマンフィルタのような統計モデル、そして最近のディープラーニング手法にまたがる幅広いアルゴリズムが存在する。 これらが、欠落したデータを除くよりも、集約分析で悪い結果をもたらすことがよくあります。 DeepMVIはニューラルネットワークを使用して、時系列に沿ってきめ細かなパターンと粗いパターンを組み合わせ、関連するシリーズからカテゴリ次元の傾向を結合する。 市販のニューラルアーキテクチャで失敗した後、私たちは、新しい畳み込みウィンドウ機能を備えた時間的トランスフォーマーと、学習した埋め込みによるカーネル回帰を含む、独自のネットワークを設計します。 パラメータとそのトレーニングは、欠落ブロックとデータ特性の異なる配置を一般化するために慎重に設計されている。 9つの実際のデータセット、異なる4つのシナリオ、そして7つの既存のメソッドを比較した実験は、DeepMVIがはるかに正確であることを示し、最も優れた既存のメソッドと比較して、半分以上のケースでエラーを50%以上削減している。 単純な行列分解法よりも遅いが、DeepMVIが欠落した値よりも総合的に正確な分析を提供する唯一の選択肢であることを示し、時間オーバーヘッドの増加を正当化する。

We present DeepMVI, a deep learning method for missing value imputation in multidimensional time-series datasets. Missing values are commonplace in decision support platforms that aggregate data over long time stretches from disparate sources, and reliable data analytics calls for careful handling of missing data. One strategy is imputing the missing values, and a wide variety of algorithms exist spanning simple interpolation, matrix factorization methods like SVD, statistical models like Kalman filters, and recent deep learning methods. We show that often these provide worse results on aggregate analytics compared to just excluding the missing data. DeepMVI uses a neural network to combine fine-grained and coarse-grained patterns along a time series, and trends from related series across categorical dimensions. After failing with off-the-shelf neural architectures, we design our own network that includes a temporal transformer with a novel convolutional window feature, and kernel regression with learned embeddings. The parameters and their training are designed carefully to generalize across different placements of missing blocks and data characteristics. Experiments across nine real datasets, four different missing scenarios, comparing seven existing methods show that DeepMVI is significantly more accurate, reducing error by more than 50% in more than half the cases, compared to the best existing method. Although slower than simpler matrix factorization methods, we justify the increased time overheads by showing that DeepMVI is the only option that provided overall more accurate analytics than dropping missing values.
翻訳日:2023-06-22 18:33:51 公開日:2023-06-21
# 量子ネットワークにおけるスケーラブルな認証と最適フラッディング

Scalable authentication and optimal flooding in a quantum network ( http://arxiv.org/abs/2101.12225v2 )

ライセンス: Link先を確認
Naomi R. Solomons, Alasdair I. Fletcher, Djeylan Aktas, Natarajan Venkatachalam, S\"oren Wengerowsky, Martin Lon\v{c}ari\'c, Sebastian P. Neumann, Bo Liu, \v{Z}eljko Samec, Mario Stip\v{c}evi\'c, Rupert Ursin, Stefano Pirandola, John G. Rarity, Siddarth Koduru Joshi(参考訳) 量子ネットワークに対する世界的な関心は、物理学の法則によって保証されるセキュリティに由来する。 量子ネットワークの展開は、物理ハードウェアのスケールアップという課題に直面し、さらに重要なのは、他のすべてのネットワークレイヤのスケールアップと、ネットワークリソースの最適活用だ。 ここでは2つの関連プロトコルについて検討し,8ユーザ量子ネットワークテストベッド上での実験実験を行い,その有用性について事例を用いて考察する。 まず、量子通信の基本的な制限を管理するための認証転送プロトコル -- 量子ネットワーク上でリンクされた各2つのユーザ間の事前共有キーの必要性。 いくつかの中間ノードを短時間(我々のネットワークでは35分)一時的に信頼することで、これらの初期認証キーを非常に高いレベルのセキュリティで生成および配布することができる。 第二に、エンドユーザが中間ノードに対する信頼度を定量化する場合、我々のフラッディングプロトコルは、エンドツーエンドの通信速度を改善し、悪意のあるノードに対するセキュリティを高めるために使用できます。

The global interest in quantum networks stems from the security guaranteed by the laws of physics. Deploying quantum networks means facing the challenges of scaling up the physical hardware and, more importantly, of scaling up all other network layers and optimally utilising network resources. Here we consider two related protocols, their experimental demonstrations on an 8-user quantum network test-bed, and discuss their usefulness with the aid of example use cases. First, an authentication transfer protocol to manage a fundamental limitation of quantum communication -- the need for a pre-shared key between every pair of users linked together on the quantum network. By temporarily trusting some intermediary nodes for a short period of time (<35 min in our network), we can generate and distribute these initial authentication keys with a very high level of security. Second, when end users quantify their trust in intermediary nodes, our flooding protocol can be used to improve both end-to-end communication speeds and increase security against malicious nodes.
翻訳日:2023-06-22 18:33:26 公開日:2023-06-21
# 制約に基づく微粒化手法による流体運動推定の枠組み

A Framework for Fluid Motion Estimation using a Constraint-Based Refinement Approach ( http://arxiv.org/abs/2011.12267v3 )

ライセンス: Link先を確認
Hirak Doshi, N. Uday Kiran(参考訳) 物理に基づく光学フローモデルは、デジタル画像から生じる流体運動の変形を捉えることに成功している。 しかし、いくつかの物理モデルを分析する一般的な理論的枠組みが欠落している。 そこで本研究では,制約に基づくリファインメント手法を用いて流体運動推定のための一般的な枠組みを定式化する。 制約の特定の選択に対して, 古典連続性方程式に基づく流体流の手法をよく近似することを示した。 この近接性は、新しい方法で拡張ラグランジアン法によって理論的に正当化される。 Uzawaイテレートの収束は、修正された有界制約アルゴリズムを用いて示される。 数学的正当性はヒルベルト空間の設定で研究される。 さらに、この系を対角化するコーシー・リーマン作用素との驚くべき関係を観察し、分散と流れのカールを含む拡散現象を導いた。 いくつかの数値実験を行い、結果は異なるデータセットで示される。 さらに, フローの巻き込みを伴う流れ駆動型微細化プロセスが, 画像データに付加的な仮定を加えることなく, 古典物理学に基づく光フロー法よりも優れていることを示す。

Physics-based optical flow models have been successful in capturing the deformities in fluid motion arising from digital imagery. However, a common theoretical framework analyzing several physics-based models is missing. In this regard, we formulate a general framework for fluid motion estimation using a constraint-based refinement approach. We demonstrate that for a particular choice of constraint, our results closely approximate the classical continuity equation-based method for fluid flow. This closeness is theoretically justified by augmented Lagrangian method in a novel way. The convergence of Uzawa iterates is shown using a modified bounded constraint algorithm. The mathematical well-posedness is studied in a Hilbert space setting. Further, we observe a surprising connection to the Cauchy-Riemann operator that diagonalizes the system leading to a diffusive phenomenon involving the divergence and the curl of the flow. Several numerical experiments are performed and the results are shown on different datasets. Additionally, we demonstrate that a flow-driven refinement process involving the curl of the flow outperforms the classical physics-based optical flow method without any additional assumptions on the image data.
翻訳日:2023-06-22 18:33:11 公開日:2023-06-21
# マルチタスク逆CNNによる腫瘍の可視的顕微鏡像の学習と一般化

Learning Interpretable Microscopic Features of Tumor by Multi-task Adversarial CNNs To Improve Generalization ( http://arxiv.org/abs/2008.01478v3 )

ライセンス: Link先を確認
Mara Graziani and Sebastian Otalora and Stephane Marchand-Maillet and Henning Muller and Vincent Andrearczyk(参考訳) 一次診断の日々のルーチンに畳み込みニューラルネットワーク(cnns)を採用するには、ほぼ完全な精度だけでなく、データ取得シフトと透明性への十分な一般化が必要である。 既存のCNNモデルはブラックボックスとして機能し、医師が重要な診断機能がモデルによって使用されることを保証しない。 本稿では,マルチタスク学習やドメイン逆境学習,概念に基づく解釈可能性といった既存の手法を生かして,学習目標に診断因子を導入するという課題に対処する。 ここでは,マルチタスクと敵対的損失の不確実性に基づく重み付けの組み合わせを端から端まで学習することにより,核の密度やプレオモルフィズムなどの病理学的特徴,例えばサイズや外観の変化に焦点をあて,染色の違いなどの誤解を招く特徴を破棄することを推奨する。 乳腺リンパ節組織では腫瘍組織検出の一般化が有意に改善し,平均auc 0.89 (0.01) がベースラインauc 0.86 (0.005) に対して有効であった。 また, 中間表現を線形に探索する解釈可能性手法を適用することで, 核密度などの解釈可能な病理学的特徴が, 提案するcnnアーキテクチャによって学習され, このモデルの透明性が高まることを実証する。 この結果は、データの異質性に対して堅牢な解釈可能なマルチタスクアーキテクチャを構築するための出発点となる。 私たちのコードはhttps://github.com/maragraziani/multitask_adversarialで利用可能です。

Adopting Convolutional Neural Networks (CNNs) in the daily routine of primary diagnosis requires not only near-perfect precision, but also a sufficient degree of generalization to data acquisition shifts and transparency. Existing CNN models act as black boxes, not ensuring to the physicians that important diagnostic features are used by the model. Building on top of successfully existing techniques such as multi-task learning, domain adversarial training and concept-based interpretability, this paper addresses the challenge of introducing diagnostic factors in the training objectives. Here we show that our architecture, by learning end-to-end an uncertainty-based weighting combination of multi-task and adversarial losses, is encouraged to focus on pathology features such as density and pleomorphism of nuclei, e.g. variations in size and appearance, while discarding misleading features such as staining differences. Our results on breast lymph node tissue show significantly improved generalization in the detection of tumorous tissue, with best average AUC 0.89 (0.01) against the baseline AUC 0.86 (0.005). By applying the interpretability technique of linearly probing intermediate representations, we also demonstrate that interpretable pathology features such as nuclei density are learned by the proposed CNN architecture, confirming the increased transparency of this model. This result is a starting point towards building interpretable multi-task architectures that are robust to data heterogeneity. Our code is available at https://github.com/maragraziani/multitask_adversarial
翻訳日:2023-06-22 18:32:56 公開日:2023-06-21
# サドルポイント問題に対するスケールド手法について

On Scaled Methods for Saddle Point Problems ( http://arxiv.org/abs/2206.08303v2 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Aibek Alanov, Dmitry Kovalev, Martin Tak\'a\v{c}, Alexander Gasnikov(参考訳) 異なる特徴を適応的にスケーリングする手法は、主にGANSトレーニングを含む敵機械学習問題の解決にAdamが人気があるため、サドルポイント問題を解決する上で重要な役割を果たしている。 本稿では,Hutchison近似に基づくよく知られたAdamとRmsPropのスケーリングと,より新しいAdaHessianとOASISのスケーリング手法に関する理論的解析を行う。 基本手法としてExtra Gradientと負の運動量を持つ改良版を用いる。 GANに関する実験的研究は、Adamだけでなく、他のあまり普及していない方法にも良い適用性を示す。

Methods with adaptive scaling of different features play a key role in solving saddle point problems, primarily due to Adam's popularity for solving adversarial machine learning problems, including GANS training. This paper carries out a theoretical analysis of the following scaling techniques for solving SPPs: the well-known Adam and RmsProp scaling and the newer AdaHessian and OASIS based on Hutchison approximation. We use the Extra Gradient and its improved version with negative momentum as the basic method. Experimental studies on GANs show good applicability not only for Adam, but also for other less popular methods.
翻訳日:2023-06-22 18:24:50 公開日:2023-06-21
# 非凸問題と非滑らか問題による確率最適化の安定性と一般化

Stability and Generalization of Stochastic Optimization with Nonconvex and Nonsmooth Problems ( http://arxiv.org/abs/2206.07082v2 )

ライセンス: Link先を確認
Yunwen Lei(参考訳) 確率的最適化は、機械学習における目的関数の最小化に広く応用されており、実用的成功を理解するために多くの理論的研究を動機付けている。 既存の研究の多くは最適化誤差の収束に焦点を当てているが、確率最適化の一般化解析は遅れをとっている。 これは、実際にしばしば遭遇する非凸問題や非滑らかな問題に特に当てはまる。 本稿では,非凸および非滑らか問題に対する確率最適化の体系的安定性と一般化解析を初期化する。 本研究では,新たなアルゴリズム的安定性尺度を導入し,人口勾配と経験的勾配とのギャップの定量的な関係を確立し,さらに,経験的リスクのモロー包含と人口リスクのギャップについて検討する。 我々の知る限り、この安定性と一般化の間の定量的な関係は、勾配やモローエンベロープの観点からは研究されていない。 サンプリング決定アルゴリズムのクラスを導入し、3つの安定性対策のバウンダリを開発する。 最後に,これらの議論を確率的勾配降下とその適応型に対する誤差境界の導出に適用し,ステップサイズと反復数を調整して暗黙の正則化を実現する方法を示す。

Stochastic optimization has found wide applications in minimizing objective functions in machine learning, which motivates a lot of theoretical studies to understand its practical success. Most of existing studies focus on the convergence of optimization errors, while the generalization analysis of stochastic optimization is much lagging behind. This is especially the case for nonconvex and nonsmooth problems often encountered in practice. In this paper, we initialize a systematic stability and generalization analysis of stochastic optimization on nonconvex and nonsmooth problems. We introduce novel algorithmic stability measures and establish their quantitative connection on the gap between population gradients and empirical gradients, which is then further extended to study the gap between the Moreau envelope of the empirical risk and that of the population risk. To our knowledge, these quantitative connection between stability and generalization in terms of either gradients or Moreau envelopes have not been studied in the literature. We introduce a class of sampling-determined algorithms, for which we develop bounds for three stability measures. Finally, we apply these discussions to derive error bounds for stochastic gradient descent and its adaptive variant, where we show how to achieve an implicit regularization by tuning the step sizes and the number of iterations.
翻訳日:2023-06-22 18:24:40 公開日:2023-06-21
# 異種環境における基礎モデルの分散学習

Decentralized Training of Foundation Models in Heterogeneous Environments ( http://arxiv.org/abs/2206.01288v4 )

ライセンス: Link先を確認
Binhang Yuan, Yongjun He, Jared Quincy Davis, Tianyi Zhang, Tri Dao, Beidi Chen, Percy Liang, Christopher Re, Ce Zhang(参考訳) GPT-3やPaLMといったトレーニング基盤モデルは非常に高価で、数ヶ月にわたって数万のGPUが継続的に動作している場合が多い。 これらのモデルは、高速で均一な相互接続を備えた特殊なクラスタで訓練され、データ並列性とモデル/パイプライン並列性の両方をサポートする慎重に設計されたソフトウェアシステムを使用する。 このような専用クラスタは費用がかかり、入手が困難である。 代わりに、より多くの分散化、異質化、低帯域幅の相互接続計算を利用できますか? 異質で分散化された設定を調査する以前の作業は、純粋にデータ並列でトレーニングできる比較的小さなモデルに重点を置いていた。 megatronのようなモデル並列基礎モデルのトレーニングのための最先端のスキームは、均質なデータセンターの設定のみを考慮する。 本稿では,異種ネットワーク上の分散環境において,モデル並列性を持つ大規模基礎モデルのトレーニングを初めて行った。 私たちの重要な技術的貢献は、基盤モデルのトレーニングにおいて異なる計算「タスクレット」を、遅い異種ネットワークで接続された分散gpuデバイスのグループに割り当てるスケジューリングアルゴリズムです。 形式的コストモデルを提供し,最適割当戦略を求めるための効率的な進化アルゴリズムを提案する。 実世界のネットワーク計測を模擬した地理的分散デバイス上での学習シナリオを示す広範な実験を行う。 最も極端なケースは、3大陸にまたがる8つの異なる都市で、我々のアプローチは従来の最先端のトレーニングシステム(Megatron)よりも4.8倍高速です。

Training foundation models, such as GPT-3 and PaLM, can be extremely expensive, often involving tens of thousands of GPUs running continuously for months. These models are typically trained in specialized clusters featuring fast, homogeneous interconnects and using carefully designed software systems that support both data parallelism and model/pipeline parallelism. Such dedicated clusters can be costly and difficult to obtain. Can we instead leverage the much greater amount of decentralized, heterogeneous, and lower-bandwidth interconnected compute? Previous works examining the heterogeneous, decentralized setting focus on relatively small models that can be trained in a purely data parallel manner. State-of-the-art schemes for model parallel foundation model training, such as Megatron, only consider the homogeneous data center setting. In this paper, we present the first study of training large foundation models with model parallelism in a decentralized regime over a heterogeneous network. Our key technical contribution is a scheduling algorithm that allocates different computational "tasklets" in the training of foundation models to a group of decentralized GPU devices connected by a slow heterogeneous network. We provide a formal cost model and further propose an efficient evolutionary algorithm to find the optimal allocation strategy. We conduct extensive experiments that represent different scenarios for learning over geo-distributed devices simulated using real-world network measurements. In the most extreme case, across 8 different cities spanning 3 continents, our approach is 4.8X faster than prior state-of-the-art training systems (Megatron).
翻訳日:2023-06-22 18:24:22 公開日:2023-06-21
# AIGenC:創造性によるAI一般化モデル

AIGenC: An AI generalisation model via creativity ( http://arxiv.org/abs/2205.09738v5 )

ライセンス: Link先を確認
Corina Catarau-Cotutiu, Esther Mondragon, Eduardo Alonso(参考訳) 創造性に関する認知理論に触発されて、人工エージェントが伝達可能な表現を学習、使用、生成するために必要な要素をレイアウトする計算モデル(AIGenC)を導入する。 生の知覚データにのみ依存する機械表現学習とは異なり、生物学的表現には、リッチで構造化された概念空間を埋め込んだ関係情報と連想情報が含まれる。 AIGenCモデルは、さまざまなレベルと異なるコンポーネントによって取得される表現のタイプで階層的なグラフアーキテクチャを提供する。 第1のコンポーネントである概念処理は、知覚入力からオブジェクトとアフォーアンスを抽出し、それらを概念空間にエンコードする。 結果の表現は二重メモリシステムに格納され、強化学習によって得られる目標指向および時間情報に富み、より高度な抽象化を生み出す。 2つの追加コンポーネントが並行して動作し、関連する概念を検出して回復し、それぞれが認知的反射的推論とブレンドに類似したプロセスで新しい概念を生成する。 反射推論部は、現在の状態とメモリグラフ構造との類似度値を算出するマッチング処理により、タスクに関連するメモリ概念を検出して回復する。 一致するインタラクションが終了すると、報酬と時間情報がグラフに追加され、さらなる抽象化が構築される。 反射推論処理が適切な解を提供しなかった場合、ブレンディング操作が行われ、過去の情報を組み合わせて新しい概念が生み出される。 人工エージェントのアウト・オブ・ディストリビューション・ジェネリゼーションを向上するモデルの能力について議論し,人工知能に向けて前進する。

Inspired by cognitive theories of creativity, this paper introduces a computational model (AIGenC) that lays down the necessary components to enable artificial agents to learn, use and generate transferable representations. Unlike machine representation learning, which relies exclusively on raw sensory data, biological representations incorporate relational and associative information that embeds rich and structured concept spaces. The AIGenC model poses a hierarchical graph architecture with various levels and types of representations procured by different components. The first component, Concept Processing, extracts objects and affordances from sensory input and encodes them into a concept space. The resulting representations are stored in a dual memory system and enriched with goal-directed and temporal information acquired through reinforcement learning, creating a higher-level of abstraction. Two additional components work in parallel to detect and recover relevant concepts and create new ones, respectively, in a process akin to cognitive Reflective Reasoning and Blending. The Reflective Reasoning unit detects and recovers from memory concepts relevant to the task by means of a matching process that calculates a similarity value between the current state and memory graph structures. Once the matching interaction ends, rewards and temporal information are added to the graph, building further abstractions. If the reflective reasoning processing fails to offer a suitable solution, a blending operation comes into place, creating new concepts by combining past information. We discuss the model's capability to yield better out-of-distribution generalisation in artificial agents, thus advancing toward Artificial General Intelligence.
翻訳日:2023-06-22 18:23:57 公開日:2023-06-21
# 脳インスパイアコンピューティングによる効率的なオフポリシー強化学習

Efficient Off-Policy Reinforcement Learning via Brain-Inspired Computing ( http://arxiv.org/abs/2205.06978v3 )

ライセンス: Link先を確認
Yang Ni, Danny Abraham, Mariam Issa, Yeseong Kim, Pietro Mercati, Mohsen Imani(参考訳) 強化学習(RL)は、一般的に複雑な意思決定プロセスを含む既存のスマートシステムを強化する新たな機会を開いた。 しかし、現代のRLアルゴリズム、例えばDeep Q-Networks (DQN)はディープニューラルネットワークに基づいており、計算コストが高い。 本稿では,ロバストかつリアルタイム学習のための脳特性を模倣した,オフポリシー値に基づく超次元強化学習であるqhdを提案する。 QHDは、未知の環境で最適なポリシーを学ぶために、軽量な脳誘発モデルに依存している。 デスクトップとパワー限定の組み込みプラットフォームでは、QHDはDQNよりもはるかに優れた全体的な効率を実現し、より高い報酬や同等の報酬を提供する。 QHDは高効率の強化学習にも適しており、オンラインおよびリアルタイム学習に大きな可能性がある。 我々のソリューションは、DQNと比較して12.3倍のスピードアップを提供する小さなリプレイバッチサイズをサポートし、最小品質の損失を保証します。 評価の結果,リアルタイム学習におけるQHD能力は,DQNよりも34.6倍,学習品質が大幅に向上した。

Reinforcement Learning (RL) has opened up new opportunities to enhance existing smart systems that generally include a complex decision-making process. However, modern RL algorithms, e.g., Deep Q-Networks (DQN), are based on deep neural networks, resulting in high computational costs. In this paper, we propose QHD, an off-policy value-based Hyperdimensional Reinforcement Learning, that mimics brain properties toward robust and real-time learning. QHD relies on a lightweight brain-inspired model to learn an optimal policy in an unknown environment. On both desktop and power-limited embedded platforms, QHD achieves significantly better overall efficiency than DQN while providing higher or comparable rewards. QHD is also suitable for highly-efficient reinforcement learning with great potential for online and real-time learning. Our solution supports a small experience replay batch size that provides 12.3 times speedup compared to DQN while ensuring minimal quality loss. Our evaluation shows QHD capability for real-time learning, providing 34.6 times speedup and significantly better quality of learning than DQN.
翻訳日:2023-06-22 18:23:32 公開日:2023-06-21
# 格子上の非相対論的カシミール効果の残差

Remnants of the nonrelativistic Casimir effect on the lattice ( http://arxiv.org/abs/2204.12032v2 )

ライセンス: Link先を確認
Katsumasa Nakayama and Kei Suzuki(参考訳) カシミール効果(casimir effect)は、量子場の零点エネルギーによって引き起こされる基本的な量子現象である。 線形分散関係を持つ相対論的場として有名であるが、二次分散を持つ非相対論的場の存在や欠如は未解決の問題である。 ここでは格子上の様々な分散関係に対するカシミール効果について検討する。 運動量に比例する分散に対するカシミール効果は、遠距離では欠落するが、カシミール効果の残余は短距離では残存する。 このような残留カシミール効果は、薄膜、狭いナノリボン、短いナノワイヤなどの格子上の量子場を持つ材料で実験的に観察される。 この効果の観点からは、巨大な場に対するカシミール効果の再解釈についても述べる。

The Casimir effect is a fundamental quantum phenomenon induced by the zero-point energy for a quantum field. It is well-known for relativistic fields with a linear dispersion relation, while its existence or absence for nonrelativistic fields with a quadratic dispersion is an unsettled question. Here, we investigate the Casimir effects for various dispersion relations on the lattice. We find that Casimir effects for dispersions proportional to an even power of momentum are absent in a long distance but a remnant of the Casimir effect survives in a short distance. Such a remnant Casimir effect will be experimentally observed in materials with quantum fields on the lattice, such as thin films, narrow nanoribbons, and short nanowires. In terms of this effect, we also give a reinterpretation of the Casimir effect for massive fields.
翻訳日:2023-06-22 18:23:15 公開日:2023-06-21
# 量子ドロップアウト:量子近似最適化アルゴリズムのハードネスについて

Quantum Dropout: On and Over the Hardness of Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2203.10101v2 )

ライセンス: Link先を確認
Zhen-Duo Wang, Pei-Lin Zheng, Biao Wu, and Yi Zhang(参考訳) コンビネーション最適化問題は、エネルギー環境が頑丈で、グローバル最小が構成空間の狭い領域に存在する状況において、非常に困難になる。 量子近似最適化アルゴリズム(QAOA)を用いてこれらの難解なケースに対処する際、コスト関数の代わりにQAOA量子回路の難しさが主な原因であることが分かる。 問題を緩和するため、コスト関数を保ちながら、量子回路を定義する節を選択的にドロップアウトする。 最適化問題の組合せの性質のため、回路内の節のドロップアウトは解に影響を与えない。 その結果,QAOAの性能は様々な種類の量子ドロップアウト実装で向上した。

A combinatorial optimization problem becomes very difficult in situations where the energy landscape is rugged, and the global minimum locates in a narrow region of the configuration space. When using the quantum approximate optimization algorithm (QAOA) to tackle these harder cases, we find that difficulty mainly originates from the QAOA quantum circuit instead of the cost function. To alleviate the issue, we selectively dropout the clauses defining the quantum circuit while keeping the cost function intact. Due to the combinatorial nature of the optimization problems, the dropout of clauses in the circuit does not affect the solution. Our numerical results confirm improvements in QAOA's performance with various types of quantum-dropout implementation.
翻訳日:2023-06-22 18:22:17 公開日:2023-06-21
# risknet: 信頼できない資源のネットワークにおける神経リスク評価

RiskNet: Neural Risk Assessment in Networks of Unreliable Resources ( http://arxiv.org/abs/2201.12263v2 )

ライセンス: Link先を確認
Krzysztof Rusek, Piotr Bory{\l}o, Piotr Jaglarz, Fabien Geyer, Albert Cabellos, Piotr Cho{\l}da(参考訳) 作業経路とバックアップ経路間で共有されるリソースによって接続が保護される通信ネットワークにおいて、障害によって引き起こされる罰則の分布を予測するグラフニューラルネットワーク(GNN)に基づく手法を提案する。 GNNベースのアルゴリズムは、Barab\'asi-Albertモデルで生成されたランダムグラフでのみ訓練される。 しかし, 得られた実験結果から, 既存の様々なトポロジにおいて, ペナルティを正確にモデル化できることが示唆された。 GNNは、研究中のネットワークトポロジの複雑な停止シナリオをシミュレートする必要がない。 実際には、設計操作は現代のハードウェアでは4msに制限されている。 このようにして、12,000回以上のスピード改善を達成できます。

We propose a graph neural network (GNN)-based method to predict the distribution of penalties induced by outages in communication networks, where connections are protected by resources shared between working and backup paths. The GNN-based algorithm is trained only with random graphs generated with the Barab\'asi-Albert model. Even though, the obtained test results show that we can precisely model the penalties in a wide range of various existing topologies. GNNs eliminate the need to simulate complex outage scenarios for the network topologies under study. In practice, the whole design operation is limited by 4ms on modern hardware. This way, we can gain as much as over 12,000 times in the speed improvement.
翻訳日:2023-06-22 18:22:05 公開日:2023-06-21
# AIサプライチェーンにおける分散アカウンタビリティ - モジュール性と開発者の責任通知

Dislocated Accountabilities in the AI Supply Chain: Modularity and Developers' Notions of Responsibility ( http://arxiv.org/abs/2209.09780v3 )

ライセンス: Link先を確認
David Gray Widder and Dawn Nafus(参考訳) 責任ある人工知能ガイドラインは、エンジニアに自分たちのシステムがどう害を受けるかを検討するよう求めている。 しかし、現代の人工知能システムは、完成製品やサービスになる前に多くの手を通る既存のソフトウェアモジュールを構成することで構築されている。 この形は人工知能の実践にどう影響するのか? 業界、オープンソース、学界にまたがる27人の人工知能エンジニアとのインタビューで、私たちの参加者は、人工知能ガイドラインの責任を負った質問が、その機関、能力、あるいは対処する責任にあることをよく見ませんでした。 我々は、s suchmanの"ロケーション・アカウンタビリティ(located accountability)"を使用して、現在の人工知能労働がいかに責任を負うかを示し、それがどのように異なる方法で実施できるかを探求する。 モジュール化可能性、スケール、評判、顧客指向といった横断的な社会論理は、責任ある人工知能のアクションが実行され、低い地位のスタッフに委ねられるか、あるいは想像される「供給連鎖」における次の人または前の人の仕事であると信じられている。 我々は、現在責任ある人工知能の介入、例えば倫理チェックリストやシステムに対する一元的な知識と制御を前提とするガイドラインは、このサプライチェーンの内外で関係や義務がどこに絡み合うかを認識することで改善できると主張している。

Responsible artificial intelligence guidelines ask engineers to consider how their systems might harm. However, contemporary artificial intelligence systems are built by composing many preexisting software modules that pass through many hands before becoming a finished product or service. How does this shape responsible artificial intelligence practice? In interviews with 27 artificial intelligence engineers across industry, open source, and academia, our participants often did not see the questions posed in responsible artificial intelligence guidelines to be within their agency, capability, or responsibility to address. We use Suchman's "located accountability" to show how responsible artificial intelligence labor is currently organized and to explore how it could be done differently. We identify cross-cutting social logics, like modularizability, scale, reputation, and customer orientation, that organize which responsible artificial intelligence actions do take place and which are relegated to low status staff or believed to be the work of the next or previous person in the imagined "supply chain." We argue that current responsible artificial intelligence interventions, like ethics checklists and guidelines that assume panoptical knowledge and control over systems, could be improved by taking a located accountability approach, recognizing where relations and obligations might intertwine inside and outside of this supply chain.
翻訳日:2023-06-22 18:16:07 公開日:2023-06-21
# 崩壊ダイナミクスは拡散する

Collapse dynamics are diffusive ( http://arxiv.org/abs/2209.09697v2 )

ライセンス: Link先を確認
Sandro Donadi, Luca Ferialdi and Angelo Bassi(参考訳) 非干渉計測実験は、大規模システムに対する量子重ね合わせ原理の違反を予測する自然波動関数崩壊のモデルに成功している。 これらの実験は、これらのモデルによると、力学が空間における波動関数を崩壊させるだけでなく、特徴的なシグネチャを持つ拡散運動を生成するノイズによって駆動されるという事実に基づいている。 非干渉的アプローチは、空間の波動関数を崩壊させるモデルではなく、ノイズのダイナミクスを通じて崩壊を実装するモデルにのみ適用できるように思われる。 合理的な仮定の下では、任意の崩壊ダイナミクス(空間内)は拡散的である。 具体的には、無信号制約を満たした任意の空間遷移不変力学は、もし空間における波動関数を崩壊させるならば、系の平均運動量および/またはその拡散を変える必要があることを証明する。

Non-interferometric experiments have been successfully employed to constrain models of spontaneous wave function collapse, which predict a violation of the quantum superposition principle for large systems. These experiments are grounded on the fact that, according to these models, the dynamics is driven by a noise that, besides collapsing the wave function in space, generates a diffusive motion with characteristic signatures, which, though small, can be tested. The non-interferometric approach might seem applicable only to those models which implement the collapse through a noisy dynamics, not to any model, which collapses the wave function in space. Here we show that this is not the case: under reasonable assumptions, any collapse dynamics (in space) is diffusive. Specifically, we prove that any space-translation invariant dynamics which complies with the no-signaling constraint, if collapsing the wave function in space, must change the average momentum of the system, and/or its spread.
翻訳日:2023-06-22 18:15:44 公開日:2023-06-21
# 量子化による正規化最適輸送の収束速度

Convergence Rates for Regularized Optimal Transport via Quantization ( http://arxiv.org/abs/2208.14391v3 )

ライセンス: Link先を確認
Stephan Eckstein, Marcel Nutz(参考訳) 正規化パラメータが消失するときに発散正規化最適輸送の収束について検討する。 相対エントロピーや$L^{p}$正規化,一般輸送コスト,マルチマルジナル問題を含む一般分散系のシャープレートを求める。 量子化とマルティンゲールカップリングを用いた新しい手法は、非コンパクトな辺数に適しており、特に、有限の$(2+\delta)$-momentを持つすべての辺数に対して、エントロピー正規化された2-wasserstein距離の鋭い前次項を達成する。

We study the convergence of divergence-regularized optimal transport as the regularization parameter vanishes. Sharp rates for general divergences including relative entropy or $L^{p}$ regularization, general transport costs and multi-marginal problems are obtained. A novel methodology using quantization and martingale couplings is suitable for non-compact marginals and achieves, in particular, the sharp leading-order term of entropically regularized 2-Wasserstein distance for all marginals with finite $(2+\delta)$-moment.
翻訳日:2023-06-22 18:15:27 公開日:2023-06-21
# 非フェルミ液体に対する拡張準粒子Pad\'e近似

Extended quasiparticle Pad\'e approximation for non-Fermi liquids ( http://arxiv.org/abs/2208.11971v3 )

ライセンス: Link先を確認
K. Morawetz(参考訳) 拡張準粒子像は非フェルミ系に適応し、既知の小さな散乱速度拡大とフェルミエネルギーからの偏差を補間するpad\'e近似を提案する。 最初の2つのエネルギー重み付き和則は、自己エネルギーの補間関数とは独立に満たされる。 不純物を伴う一次元フェルミ粒子散乱の様々なモデルにおいて、スペクトル関数に対するpad\'e近似の品質が証明され、フェルミエネルギーのジャンプを持たない密度行列や運動量分布が再現される。 スペクトル関数と密度の低減を実現するためには2次元拡大が必要であるが、拡張準粒子近似自体は、積分下での発散項の打ち消しによる輸送特性の記述に十分である。 T-行列近似は、2つの粒子が相関状態に費やされる時間に遅延時間をもたらす。 これにより密度行列が減少し、零温度と有限温度で示される導電率の付加的な部分へ寄与する。 不純物濃度の局在に加え、導電性は不純物によって引き起こされる超伝導挙動の開始と解釈される小さな温度で最大値を示す。 タン接触は電子-電子散乱で知られているのと同じ普遍的挙動を示す。

The extended quasiparticle picture is adapted to non-Fermi systems by suggesting a Pad\'e approximation which interpolates between the known small scattering-rate expansion and the deviation from the Fermi energy. The first two energy-weighted sum rules are shown to be fulfilled independent of the interpolating function for any selfenergy. For various models of one-dimensional Fermions scattering with impurities the quality of the Pad\'e approximation for the spectral function is demonstrated and the reduced density matrix or momentum distribution is reproduced not possessing a jump at the Fermi energy. Though the two-fold expansion is necessary to realize the spectral function and reduced density, the extended quasiparticle approximation itself is sufficient for the description of transport properties due to cancellation of divergent terms under integration. The T-matrix approximation leads to the delay time as the time two particles spend in a correlated state. This contributes to the reduced density matrix and to an additional part in the conductivity which is presented at zero and finite temperatures. Besides a localization at certain impurity concentrations, the conductivity shows a maximum at small temperatures interpreted as onset of superconducting behaviour triggered by impurities. The Tan contact reveals the same universal behaviour as known from electron-electron scattering.
翻訳日:2023-06-22 18:15:14 公開日:2023-06-21
# ディラック/ワイルノード誘起発振カシミール効果

Dirac/Weyl-node-induced oscillating Casimir effect ( http://arxiv.org/abs/2207.14078v2 )

ライセンス: Link先を確認
Katsumasa Nakayama, Kei Suzuki(参考訳) カシミール効果(casimir effect)は、有限サイズの系に閉じ込められた相対論的場の零点エネルギーによって引き起こされる量子現象である。 光子場に対するこの効果は長い間研究されてきたが、ディラック/ワイル半金属におけるフェルミオン場に対する対応するものの実現は公然の問題である。 理論上は、ディラック/ワイル半金属における相対論的電子場に対するカシミール効果の典型的性質を実証し、cd$_3$as$_2 や na$_3$bi のような現実的な物質に対する効果的なハミルトニアンによる結果を示す。 カシミールエネルギーの振動は、運動量空間におけるディラック/ワイルノードの存在に由来する薄膜の厚さの関数である。 実験的に、そのような効果は、熱力学的量の厚さ依存性がカシミールエネルギーに影響される半金属薄膜で観察できる。

The Casimir effect is a quantum phenomenon induced by the zero-point energy of relativistic fields confined in a finite-size system. This effect for photon fields has been studied for a long time, while the realization of counterparts for fermion fields in Dirac/Weyl semimetals is an open question. We theoretically demonstrate the typical properties of the Casimir effect for relativistic electron fields in Dirac/Weyl semimetals and show the results from an effective Hamiltonian for realistic materials such as Cd$_3$As$_2$ and Na$_3$Bi. We find an oscillation of the Casimir energy as a function of the thickness of the thin film, which stems from the existence of Dirac/Weyl nodes in momentum space. Experimentally, such an effect can be observed in thin films of semimetals, where the thickness dependence of thermodynamic quantities is affected by the Casimir energy.
翻訳日:2023-06-22 18:14:03 公開日:2023-06-21
# deepipc: 実環境における自律走行車の深い統合的知覚と制御

DeepIPC: Deeply Integrated Perception and Control for an Autonomous Vehicle in Real Environments ( http://arxiv.org/abs/2207.09934v5 )

ライセンス: Link先を確認
Oskar Natan and Jun Miura(参考訳) 我々は、車両の運転における知覚と制御タスクの両方を処理するエンドツーエンドの自動運転モデルであるdeepipcを提案する。 モデルは2つの主要部分、知覚モジュールとコントローラモジュールから構成される。 知覚モジュールは、RGBDイメージを使用してセマンティックセグメンテーションと鳥の目視(BEV)セマンティックマッピングを行い、そのエンコードされた特徴を提供する。 一方、コントローラモジュールは、これらの特徴をGNSS位置の測定と角速度で処理し、遅延する特徴を持つウェイポイントを推定する。 次に、2つの異なるエージェントを使用して、ウェイポイントと潜伏した特徴を、車両を駆動する一連のナビゲーション制御に翻訳する。 実環境における各種条件下での運転記録の予測と自動走行を行うことにより,モデルの評価を行った。 実験結果から,DeepIPCは,他のモデルと比較してパラメータが少ない場合でも,最良の乾燥性およびマルチタスク性能が得られることが示された。 コードはhttps://github.com/oskarnatan/deepipcで公開される。

We propose DeepIPC, an end-to-end autonomous driving model that handles both perception and control tasks in driving a vehicle. The model consists of two main parts, perception and controller modules. The perception module takes an RGBD image to perform semantic segmentation and bird's eye view (BEV) semantic mapping along with providing their encoded features. Meanwhile, the controller module processes these features with the measurement of GNSS locations and angular speed to estimate waypoints that come with latent features. Then, two different agents are used to translate waypoints and latent features into a set of navigational controls to drive the vehicle. The model is evaluated by predicting driving records and performing automated driving under various conditions in real environments. The experimental results show that DeepIPC achieves the best drivability and multi-task performance even with fewer parameters compared to the other models. Codes will be published at https://github.com/oskarnatan/DeepIPC.
翻訳日:2023-06-22 18:13:46 公開日:2023-06-21
# 量子デバイスの高次元性の定量化

Quantifying the high-dimensionality of quantum devices ( http://arxiv.org/abs/2207.05722v4 )

ライセンス: Link先を確認
Thomas Cope and Roope Uola(参考訳) 我々は,高次元量子デバイスの平均次元(あるいはコヒーレンス)尺度を導入する。 これには、量子測定、ステアリングアセンブリ、量子チャネルのセットが含まれる。 測定とチャネルについて、我々の測度は平均圧縮次元に対応するが、量子ステアリングでは、シュミット測度として知られる平均エンタングルメント次元に対する半デバイス独立量子化器を得る。 私たちは3つのシナリオすべてで測定値を分析します。 まず,低次元システムにおけるチャネルと測定のための半定値プログラミングによって決定できることを示す。 第二に、得られたステアリング測度は、よく知られたステアリング重みの高次元の一般化であると主張する。 最後に,漸近的設定における測度の挙動を解析する。 より正確には、二部量子状態の漸近的シュミット測度が絡み合いコストと等しいことを示し、最近導入されたステアリング集合体形成の絡み合いが漸近的ケースにおける我々の測度とどのように関連しているかを示す。

We introduce a measure of average dimensionality (or coherence) for high-dimensional quantum devices. This includes sets of quantum measurements, steering assemblages, and quantum channels. For measurements and channels, our measure corresponds to an average compression dimension, whereas for quantum steering we get a semi-device independent quantifier for the average entanglement dimensionality known as the Schmidt measure. We analyse the measure in all three scenarios. First, we show that it can be decided via semi-definite programming for channels and measurements in low-dimensional systems. Second, we argue that the resulting steering measure is a high-dimensional generalisation of the well-known steering weight. Finally, we analyse the behaviour of the measure in the asymptotic setting. More precisely, we show that the asymptotic Schmidt measure of bipartite quantum states is equal to the entanglement cost and show how the recently introduced entanglement of formation for steering assemblages can be related to our measure in the asymptotic case.
翻訳日:2023-06-22 18:13:28 公開日:2023-06-21
# ソースに戻る:拡散駆動テスト時間適応

Back to the Source: Diffusion-Driven Test-Time Adaptation ( http://arxiv.org/abs/2207.03442v2 )

ライセンス: Link先を確認
Jin Gao, Jialing Zhang, Xihui Liu, Trevor Darrell, Evan Shelhamer, Dequan Wang(参考訳) テスト時間適応はテスト入力を利用し、シフトターゲットデータでテストした場合、ソースデータに基づいてトレーニングされたモデルの精度を向上させる。 既存のメソッドは、各ターゲットドメインで(再)トレーニングによってソースモデルを更新する。 有効ではあるが、再トレーニングは最適化のためのデータとハイパーパラメータの量と順序に敏感である。 生成拡散モデルを用いて、全てのテスト入力をソース領域に向けて投影することで、ターゲットデータを更新する。 拡散駆動適応法であるDDAは、全領域にわたる分類と生成のモデルを共有する。 どちらのモデルもソースドメインでトレーニングされ、テスト中に修正される。 画像指導と自己センシングによって拡散を増強し,適応度を自動的に決定する。 DDAによる入力適応は、ImageNet-Cベンチマークにおける様々な汚職、アーキテクチャ、データレシエーションに対する事前モデル適応アプローチよりも堅牢である。 DDAは入力に関する更新で、モデル適応が小さなバッチ、非一様順序で依存するデータ、あるいは複数の破損を伴う混合データに分解されるのに成功している。

Test-time adaptation harnesses test inputs to improve the accuracy of a model trained on source data when tested on shifted target data. Existing methods update the source model by (re-)training on each target domain. While effective, re-training is sensitive to the amount and order of the data and the hyperparameters for optimization. We instead update the target data, by projecting all test inputs toward the source domain with a generative diffusion model. Our diffusion-driven adaptation method, DDA, shares its models for classification and generation across all domains. Both models are trained on the source domain, then fixed during testing. We augment diffusion with image guidance and self-ensembling to automatically decide how much to adapt. Input adaptation by DDA is more robust than prior model adaptation approaches across a variety of corruptions, architectures, and data regimes on the ImageNet-C benchmark. With its input-wise updates, DDA succeeds where model adaptation degrades on too little data in small batches, dependent data in non-uniform order, or mixed data with multiple corruptions.
翻訳日:2023-06-22 18:13:08 公開日:2023-06-21
# 非線形コンテキスト帯域とマルコフ決定過程に対する不確かさ重み付き破壊ロバストアルゴリズム

Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear Contextual Bandits and Markov Decision Processes ( http://arxiv.org/abs/2212.05949v2 )

ライセンス: Link先を確認
Chenlu Ye, Wei Xiong, Quanquan Gu, Tong Zhang(参考訳) 敵の汚職に伴う強化学習(RL)問題への大きな関心と進展にもかかわらず、現在の作業は線形設定に限られるか、望ましくない$\tilde{O}(\sqrt{T}\zeta)$ regret boundにつながり、$T$はラウンド数、$\zeta$は総汚職数である。 本稿では,一般関数近似を用いた文脈的帯域幅を考慮し,$\tilde{O}(\sqrt{T}+\zeta)$の後悔を実現するための計算効率の良いアルゴリズムを提案する。 提案手法は,最近開発された線形文脈バンディットによる不確実性重み付き最小二乗回帰と,一般関数クラスに対する不確実性重み付き推定器に依存する。 線形構造に大きく依存する既存の解析とは対照的に,重み付き不確実性の総和を制御する新しい手法を開発し,最終的な後悔境界を確立する。 次に、このアルゴリズムをエピソディックmdp設定に一般化し、一般関数近似のシナリオにおいて、まず汚職レベル$\zeta$に対する加法依存を達成する。 特に、我々のアルゴリズムは、すべての汚職レベルと未知の$\zeta$のケースにおいて、パフォーマンスの低いバウンダリにほぼ一致するか、既存のメソッドを改善している。

Despite the significant interest and progress in reinforcement learning (RL) problems with adversarial corruption, current works are either confined to the linear setting or lead to an undesired $\tilde{O}(\sqrt{T}\zeta)$ regret bound, where $T$ is the number of rounds and $\zeta$ is the total amount of corruption. In this paper, we consider the contextual bandit with general function approximation and propose a computationally efficient algorithm to achieve a regret of $\tilde{O}(\sqrt{T}+\zeta)$. The proposed algorithm relies on the recently developed uncertainty-weighted least-squares regression from linear contextual bandit and a new weighted estimator of uncertainty for the general function class. In contrast to the existing analysis that heavily relies on the linear structure, we develop a novel technique to control the sum of weighted uncertainty, thus establishing the final regret bounds. We then generalize our algorithm to the episodic MDP setting and first achieve an additive dependence on the corruption level $\zeta$ in the scenario of general function approximation. Notably, our algorithms achieve regret bounds either nearly match the performance lower bound or improve the existing methods for all the corruption levels and in both known and unknown $\zeta$ cases.
翻訳日:2023-06-22 18:05:08 公開日:2023-06-21
# ゲージ不変キャビティ量子電磁力学解析のための行列積状態と数値モード分解

Matrix product states and numerical mode decomposition for the analysis of gauge-invariant cavity quantum electrodynamics ( http://arxiv.org/abs/2212.01935v2 )

ライセンス: Link先を確認
Christopher J. Ryu, Dong-Yeop Na, and Weng C. Chew(参考訳) ラビ・ハミルトニアンとのゲージ曖昧性の問題は、形式的に異なるが物理的に等価な2つの基本ハミルトニアンから導かれるという事実から生じた。 この問題は1つの量子化電磁モードを持つモデルに対して最近解決された。 本研究では,マルチモードモデルの数学的および数値的検証を行う。 これにより,キャビティqedシステムを解析するための数値解法,行列積状態(mps)と数値モード分解(nmd)を組み合わせた。 MPS法は量子状態の効率的な表現と時間発展に使用される。 しかし、ラビ・ハミルトニアンのカップリング構造はMPSとは相容れないため、数値的にMPSの効率的な適用を可能にする鎖結合構造を持つ等価ハミルトニアンに変換される。 nmdの手法は任意の環境の数値電磁モードを抽出するために用いられる。 概念実証として, 種々の環境下での1次元空洞QEDシステムの解析により, この組み合わせを実証した。

There has been a problem of gauge ambiguities with the Rabi Hamiltonian due to the fact that it can be derived from two formally different but physically equivalent fundamental Hamiltonians. This problem has recently been resolved for models with single quantized electromagnetic mode. In this work, we mathematically and numerically verify this for multimode models. With this established, we combine the numerical methods, matrix product states (MPS) and numerical mode decomposition (NMD), for analyzing cavity QED systems. The MPS method is used to efficiently represent and time evolve a quantum state. However, since the coupling structure of the Rabi Hamiltonian is incompatible with MPS, it is numerically transformed into an equivalent Hamiltonian that has a chain coupling structure, which allows efficient application of MPS. The technique of NMD is used to extract the numerical electromagnetic modes of an arbitrary environment. As a proof of concept, this combined approach is demonstrated by analyzing 1D cavity QED systems in various settings.
翻訳日:2023-06-22 18:04:39 公開日:2023-06-21
# Peekaboo: テキストから画像への拡散モデルはゼロショットセグメンタ

Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors ( http://arxiv.org/abs/2211.13224v2 )

ライセンス: Link先を確認
Ryan Burgert, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo(参考訳) 近年,テキストと画像の拡散モデルにより,自然言語のプロンプトからリアルな画像を作成することができる。 しかし、これらのモデルを意味的ローカライゼーションや接地に利用する研究は少ない。 本研究では,セグメンテーション固有の再学習を行わずに,テキストから画像への拡散モデルを学習し,セグメンテーション情報に露出することなく様々な意味句を接地する方法について検討する。 本稿では,自然言語プロンプトに基づくセグメンテーションマスクを生成できる推定時間最適化手法を提案する。 当社の提案であるpeekabooは,ゼロショットでオープンボキャブラリーで教師なしなセマンティクスグラウンドイング手法で,トレーニングなしで拡散モデルを活用する。 我々はPeekabooを教師なしセマンティックセグメンテーションのためのPascal VOCデータセットとセマンティックセグメンテーションを参照するためのRefCOCOデータセットで評価し、有望な結果と競合する結果を示した。 我々はまた、基礎となる拡散モデルがRGBイメージでのみトレーニングされているにもかかわらず、Peekabooが透過性のある画像を生成するためにどのように使用できるかを実証した。 私たちのコードを含むプロジェクトページをご覧ください。 https://ryanndagreat.github.io/peekaboo

Recently, text-to-image diffusion models have shown remarkable capabilities in creating realistic images from natural language prompts. However, few works have explored using these models for semantic localization or grounding. In this work, we explore how an off-the-shelf text-to-image diffusion model, trained without exposure to localization information, can ground various semantic phrases without segmentation-specific re-training. We introduce an inference time optimization process capable of generating segmentation masks conditioned on natural language prompts. Our proposal, Peekaboo, is a first-of-its-kind zero-shot, open-vocabulary, unsupervised semantic grounding technique leveraging diffusion models without any training. We evaluate Peekaboo on the Pascal VOC dataset for unsupervised semantic segmentation and the RefCOCO dataset for referring segmentation, showing results competitive with promising results. We also demonstrate how Peekaboo can be used to generate images with transparency, even though the underlying diffusion model was only trained on RGB images - which to our knowledge we are the first to attempt. Please see our project page, including our code: https://ryanndagreat.github.io/peekaboo
翻訳日:2023-06-22 18:04:00 公開日:2023-06-21
# flexBART:カテゴリー予測子を持つ柔軟なベイズ回帰木

flexBART: Flexible Bayesian regression trees with categorical predictors ( http://arxiv.org/abs/2211.04459v2 )

ライセンス: Link先を確認
Sameer K. Deshpande(参考訳) ベイズ加法回帰木 (BART) のほとんどの実装は、分類的予測を符号化し、それぞれを複数のバイナリ指標に置き換えている。 これらの指標で構築された回帰木は、カテゴリレベルの離散的な集合を、一度に1つのレベルを繰り返すことで分割する。 残念ながら、ほとんどのパーティションは、この戦略で構築できないため、BARTのレベルでデータを部分的にプールする能力は極めて制限されている。 野球データと近隣犯罪動態の分析により,決定木ノードの両枝に複数のレベルを割り当てる回帰木を用いてBARTを再実装することで,この制限を克服する。 そこで我々は,小領域に集約された空間データをモデル化するために,適宜定義されたネットワークのランダムスパンニングツリーからランダムエッジを削除し,空間的に連続した領域を生成する新しい決定ルールを提案する。 flexBARTパッケージで利用可能な再実装は、しばしばサンプル外の予測性能を改善し、既存のBART実装よりも大きなデータセットにスケールする。

Most implementations of Bayesian additive regression trees (BART) one-hot encode categorical predictors, replacing each one with several binary indicators, one for every level or category. Regression trees built with these indicators partition the discrete set of categorical levels by repeatedly removing one level at a time. Unfortunately, the vast majority of partitions cannot be built with this strategy, severely limiting BART's ability to partially pool data across groups of levels. Motivated by analyses of baseball data and neighborhood-level crime dynamics, we overcame this limitation by re-implementing BART with regression trees that can assign multiple levels to both branches of a decision tree node. To model spatial data aggregated into small regions, we further proposed a new decision rule prior that creates spatially contiguous regions by deleting a random edge from a random spanning tree of a suitably defined network. Our re-implementation, which is available in the flexBART package, often yields improved out-of-sample predictive performance and scales better to larger datasets than existing implementations of BART.
翻訳日:2023-06-22 18:03:38 公開日:2023-06-21
# 物理形ニューラルネットワークによるランドー減衰のデータ駆動モデリング

Data-Driven Modeling of Landau Damping by Physics-Informed Neural Networks ( http://arxiv.org/abs/2211.01021v2 )

ライセンス: Link先を確認
Yilan Qin, Jiayu Ma, Mingle Jiang, Chuanfei Dong, Haiyang Fu, Liang Wang, Wenjie Cheng, and Yaqiu Jin(参考訳) 運動学的アプローチは一般にマイクロスケールプラズマ物理学の問題を扱うのに正確であるが、大規模システムやマルチスケールシステムでは計算コストがかかる。 プラズマ物理学における長年の問題の1つは、運動物理学を流体モデルに統合することである。 本研究では,機械学習を用いて,ニューラルネットワークに含まれる暗黙的な流体閉鎖を伴うマルチモーメント流体モデルを構築した。 マルチモーメント流体モデルは、物理インフォームドニューラルネットワーク(PINN)と勾配エンホールド物理インフォームドニューラルネットワーク(gPINN)を用いて、ランダウ減衰の運動シミュレーションから少量のサンプルデータを用いて訓練される。 PINNまたはgPINNを用いて構築した多モーメント流体モデルは、減衰速度を含む電場エネルギーの時間発展と、動力学シミュレーションからプラズマ力学を再現する。 初めてgPINNアーキテクチャの新しい変種、すなわちgPINN$p$を導入して、Landauの減衰過程を捉える。 すべての方程式残差の勾配を含める代わりに、gPINN$p$は圧力方程式残差の勾配を1つの制約として加えるだけである。 3つのアプローチのうち、gPINN$p$構成マルチモーメント流体モデルが最も正確な結果を提供する。 この研究は、複雑なマルチスケール実験室、宇宙、天体物理学の問題にまで拡張できる大規模システムの正確かつ効率的なモデリングに新たな光を当てている。

Kinetic approaches are generally accurate in dealing with microscale plasma physics problems but are computationally expensive for large-scale or multiscale systems. One of the long-standing problems in plasma physics is the integration of kinetic physics into fluid models, which is often achieved through sophisticated analytical closure terms. In this study, we successfully construct a multi-moment fluid model with an implicit fluid closure included in the neural network using machine learning. The multi-moment fluid model is trained with a small fraction of sparsely sampled data from kinetic simulations of Landau damping, using the physics-informed neural network (PINN) and the gradient-enhanced physics-informed neural network (gPINN). The multi-moment fluid model constructed using either PINN or gPINN reproduces the time evolution of the electric field energy, including its damping rate, and the plasma dynamics from the kinetic simulations. For the first time, we introduce a new variant of the gPINN architecture, namely, gPINN$p$ to capture the Landau damping process. Instead of including the gradients of all the equation residuals, gPINN$p$ only adds the gradient of the pressure equation residual as one additional constraint. Among the three approaches, the gPINN$p$-constructed multi-moment fluid model offers the most accurate results. This work sheds new light on the accurate and efficient modeling of large-scale systems, which can be extended to complex multiscale laboratory, space, and astrophysical plasma physics problems.
翻訳日:2023-06-22 18:03:18 公開日:2023-06-21
# 最大量子資源の発見

Finding maximal quantum resources ( http://arxiv.org/abs/2210.13475v2 )

ライセンス: Link先を確認
Jonathan Steinberg, Otfried G\"uhne(参考訳) 多くのアプリケーションにおいて、量子アドバンテージの存在は、資源状態の可用性に大きく依存する。 リソースは一般に特定のタスクに依存するが、マルチパーティイト系では、絡み合った量子状態はしばしばリソースフルと見なされる。 本稿では,様々な応用や定量化のために,粒子の最大資源状態を求めるアルゴリズムを提案する。 我々は幾何学的測度の場合を詳細に議論し、物理的に興味深い状態を特定し、絶対的に絡み合った状態の問題に対する洞察を与える。 さらに,本手法の普遍性は,最大に絡み合った部分空間,シュミットランク,安定化子ランク,および三角形ネットワークにおける予備可能性に適用することで示される。

For many applications the presence of a quantum advantage crucially depends on the availability of resourceful states. Although the resource typically depends on the particular task, in the context of multipartite systems entangled quantum states are often regarded as resourceful. We propose an algorithmic method to find maximally resourceful states of several particles for various applications and quantifiers. We discuss in detail the case of the geometric measure, identifying physically interesting states and also deliver insights to the problem of absolutely maximally entangled states. Moreover, we demonstrate the universality of our approach by applying it to maximally entangled subspaces, the Schmidt-rank, the stabilizer rank as well as the preparability in triangle networks.
翻訳日:2023-06-22 18:02:55 公開日:2023-06-21
# 原子場系進化を記述するための近似スキームと非エルミート再正規化

An approximation scheme and non-Hermitian re-normalization for description of atom-field system evolution ( http://arxiv.org/abs/2210.10345v2 )

ライセンス: Link先を確認
Borhan Ahmadi, Ricard Ravell Rodr\'iguez, Robert Alicki, Micha{\l} Horodecki(参考訳) 光源と原子との相互作用は自然界において普遍的である。 それらの研究は、アプリケーションだけでなく、基本的なレベルでも興味深い。 これらは量子情報処理タスクのコアであり、量子熱力学プロトコルである。 しかし、回転波近似の場と相互作用する2レベル原子でさえ、正確な解は存在しない。 これは場の量子論における基本的な問題であり、時間的漸近的限界(すなわちマイナスと無限大)の遷移しか計算できないが、進化を辿ることはできない。 本稿では、2段階の原子と連続モードの量子場からなる全系の時間進化についてより深い知見を得たい。 我々はダイソン展開の各順序に体系的に適用できる近似法を提案し、任意のタイミングで結合系の進化の計算式を大幅に単純化する。 我々のツールには、提案された新規な非エルミート的再正規化法が含まれている。 正当性チェックとして、我々のフレームワークを適用することで、既知の光ブロッホ方程式を導出する。

Interactions between a source of light and atoms are ubiquitous in nature. The study of them is interesting on the fundamental level as well as for applications. They are in the core of Quantum Information Processing tasks and in Quantum Thermodynamics protocols. However, even for two-level atom interacting with field in rotating wave approximation there exists no exact solution. This touches as basic problem in quantum field theory, where we can only calculate the transitions in the time asymptotic limits (i.e. minus and plus infinity), while we are not able to trace the evolution. In this paper we want to get more insight into the time evolution of a total system of a two-level atom and a continuous-mode quantum field. We propose an approximation, which we are able to apply systematically to each order of Dyson expansion, resulting in greatly simplified formula for the evolution of the combined system at any time. Our tools include a proposed novel, {\it non-Hermitian} re-normalization method. As a sanity check, by applying our framework, we derive the known optical Bloch equations.
翻訳日:2023-06-22 18:02:44 公開日:2023-06-21
# 古典力学における演算子形式主義からの南武ブラケットの量子化

Quantization of Nambu Brackets from Operator Formalism in Classical Mechanics ( http://arxiv.org/abs/2209.09798v4 )

ライセンス: Link先を確認
So Katagiri(参考訳) 本稿では,古典力学におけるナムブ括弧の数値化法を提案する。 このアプローチでは、Nambu括弧を表すために ``Planck derivative'' を使い、そこから量子化の可換関係を導出する。 特に、この可換関係は、ねじれたトーラスの閉弦の t-双対からb-場に現れるものと一致するため、二重場理論との潜在的な接続を示唆する。

This paper proposes a novel approach to quantizing Nambu brackets in classical mechanics using operator formalism. The approach employs the ``Planck derivative'' to represent Nambu brackets, from which we derive a commutation relation for their quantization. Notably, this commutation relation aligns with that emerging from the T-duality of closed strings in a twisted torus with a B-field, thereby hinting at a potential connection with Double Field Theory.
翻訳日:2023-06-22 18:02:14 公開日:2023-06-21
# 業界ビジョンにおける数発異常検出の限界を押し上げる - graphcore

Pushing the Limits of Fewshot Anomaly Detection in Industry Vision: Graphcore ( http://arxiv.org/abs/2301.12082v2 )

ライセンス: Link先を確認
Guoyang Xie, Jingbao Wang, Jiaqi Liu, Feng Zheng, Yaochu Jin(参考訳) fewshot Anomaly Detection (FSAD) の領域では、効率的な視覚的特徴がメモリバンクM法において重要な役割を担っている。 しかし,これらの手法は視覚特徴と回転する視覚特徴との関係を考慮せず,異常検出性能を大幅に制限している。 この限界を推し進めるために、回転不変の特徴特性が産業ベースのFSADに大きな影響を与えることを明らかにした。 具体的には、FSADにおけるグラフ表現を利用し、新しい視覚等尺不変特徴(VIIF)を異常測定特徴として提供する。 これにより、VIIFは異常判別能力を良好に向上することができ、Mに格納された冗長な特徴の規模をさらに小さくすることができる。 さらに,教師なしFSADトレーニングを高速に実装し,異常検出の性能を向上させることができる新しいモデルGraphCoreを提供する。 提案したスプリットショット異常検出設定の下で,GraphCoreと他のSOTA異常検出モデルを比較するための総合評価結果が得られた。これは,平均AUCが5.8%,4.1%,3.4%,MVTec ADが1.6%,MPDDが25.5%,22.0%,16.9%,14.1%に増加可能であることを示している。

In the area of fewshot anomaly detection (FSAD), efficient visual feature plays an essential role in memory bank M-based methods. However, these methods do not account for the relationship between the visual feature and its rotated visual feature, drastically limiting the anomaly detection performance. To push the limits, we reveal that rotation-invariant feature property has a significant impact in industrial-based FSAD. Specifically, we utilize graph representation in FSAD and provide a novel visual isometric invariant feature (VIIF) as anomaly measurement feature. As a result, VIIF can robustly improve the anomaly discriminating ability and can further reduce the size of redundant features stored in M by a large amount. Besides, we provide a novel model GraphCore via VIIFs that can fast implement unsupervised FSAD training and can improve the performance of anomaly detection. A comprehensive evaluation is provided for comparing GraphCore and other SOTA anomaly detection models under our proposed fewshot anomaly detection setting, which shows GraphCore can increase average AUC by 5.8%, 4.1%, 3.4%, and 1.6% on MVTec AD and by 25.5%, 22.0%, 16.9%, and 14.1% on MPDD for 1, 2, 4, and 8-shot cases, respectively.
翻訳日:2023-06-22 17:57:04 公開日:2023-06-21
# MPNNとグラフ変換器の接続について

On the Connection Between MPNN and Graph Transformer ( http://arxiv.org/abs/2301.11956v4 )

ライセンス: Link先を確認
Chen Cai, Truong Son Hy, Rose Yu, Yusu Wang(参考訳) グラフトランスフォーマー(GT)は最近、グラフ学習アルゴリズムの新しいパラダイムとして登場し、これまで人気があったMPNN(Message Passing Neural Network)を、複数のベンチマークで上回っている。 以前の研究 (Kim et al., 2022) は、適切な位置埋め込みで、GTがMPNNを任意に近似できることを示し、GTが少なくともMPNNと同じくらい強力であることを示唆している。 本稿では, 逆接続について検討し, 理論的な理解がほとんどない一般のヒューリスティックである仮想ノード (vn) を持つ mpnn が gt の自己結合層を任意に近似できるほど強力であることを示す。 特に,1種類の線形変換器,いわゆるPerformer/Linear Transformer(Choromanski et al., 2020; Katharopoulos et al., 2020)を考えると,O(1)深さとO(1)幅しか持たないMPNN+VNはPerformer/Linear Transformerの自己保持層を近似することができる。 次に、MPNN + VN と DeepSets の接続を通して、MPNN + VN を O(n^d) 幅で証明し、O(1) 深さは d が入力特徴次元であるような自己認識層を任意に近似することができる。 最後に、いくつかの仮定の下で、GT における自己保持層を任意に近似する O(1) 幅と O(n) 深さの MPNN + VN の明示的な構成を提供する。 実証的な側面では、 1) MPNN + VNは驚くほど強力なベースラインであり、最近提案されたLong Range Graph Benchmark(LRGB)データセットでGTを上回っている。 2)MPNN+VNは、幅広いOGBデータセットの早期実装よりも改善されている。 3)MPNN+VNはLinear TransformerとMPNNより気候モデリングに優れる。

Graph Transformer (GT) recently has emerged as a new paradigm of graph learning algorithms, outperforming the previously popular Message Passing Neural Network (MPNN) on multiple benchmarks. Previous work (Kim et al., 2022) shows that with proper position embedding, GT can approximate MPNN arbitrarily well, implying that GT is at least as powerful as MPNN. In this paper, we study the inverse connection and show that MPNN with virtual node (VN), a commonly used heuristic with little theoretical understanding, is powerful enough to arbitrarily approximate the self-attention layer of GT. In particular, we first show that if we consider one type of linear transformer, the so-called Performer/Linear Transformer (Choromanski et al., 2020; Katharopoulos et al., 2020), then MPNN + VN with only O(1) depth and O(1) width can approximate a self-attention layer in Performer/Linear Transformer. Next, via a connection between MPNN + VN and DeepSets, we prove the MPNN + VN with O(n^d) width and O(1) depth can approximate the self-attention layer arbitrarily well, where d is the input feature dimension. Lastly, under some assumptions, we provide an explicit construction of MPNN + VN with O(1) width and O(n) depth approximating the self-attention layer in GT arbitrarily well. On the empirical side, we demonstrate that 1) MPNN + VN is a surprisingly strong baseline, outperforming GT on the recently proposed Long Range Graph Benchmark (LRGB) dataset, 2) our MPNN + VN improves over early implementation on a wide range of OGB datasets and 3) MPNN + VN outperforms Linear Transformer and MPNN on the climate modeling task.
翻訳日:2023-06-22 17:56:37 公開日:2023-06-21
# PLay:潜時拡散を用いたパラメトリック条件付きレイアウト生成

PLay: Parametrically Conditioned Layout Generation using Latent Diffusion ( http://arxiv.org/abs/2301.11529v2 )

ライセンス: Link先を確認
Chin-Yi Cheng, Forrest Huang, Gang Li, Yang Li(参考訳) レイアウトデザインは、ユーザインターフェース、ドキュメント、グラフィックデザインなど、さまざまなデザイン分野において重要なタスクである。 このタスクはデザイナーの面倒な手作業を必要とするため、事前の作業は生成モデルを使ってこのプロセスを自動化しようとしたが、直感的なユーザーコントロールの提供や設計目標の達成には至らなかった。 本稿では,条件付き潜在拡散モデルであるplayを構築し,ユーザが指定したガイドラインからベクトル図形空間におけるパラメトリックコンディショニングレイアウトを生成する。 提案手法は,FIDやFD-VGを含む3つのデータセットにおいて,従来よりも優れた性能を示す。 さらに、プロのレイアウト設計プロセスに新しくてインタラクティブなエクスペリエンスをもたらします。

Layout design is an important task in various design fields, including user interface, document, and graphic design. As this task requires tedious manual effort by designers, prior works have attempted to automate this process using generative models, but commonly fell short of providing intuitive user controls and achieving design objectives. In this paper, we build a conditional latent diffusion model, PLay, that generates parametrically conditioned layouts in vector graphic space from user-specified guidelines, which are commonly used by designers for representing their design intents in current practices. Our method outperforms prior works across three datasets on metrics including FID and FD-VG, and in user study. Moreover, it brings a novel and interactive experience to professional layout design processes.
翻訳日:2023-06-22 17:55:59 公開日:2023-06-21
# 好意を返す: 回帰が確率的因果知識から利益を得るとき

Returning The Favour: When Regression Benefits From Probabilistic Causal Knowledge ( http://arxiv.org/abs/2301.11214v2 )

ライセンス: Link先を確認
Shahine Bouabid, Jake Fawkes, Dino Sejdinovic(参考訳) 有向非巡回グラフ(DAG)は、機械学習においてしばしば回帰タスクで破棄される貴重な事前知識を提供する。 DAGにおけるコライダー構造の存在から生じる独立性は、回帰仮説空間を制約し、予測性能を向上させる有意義な帰納バイアスをもたらすことを示す。 本研究では,回帰問題における衝突者からの確率的因果知識を取り入れる枠組みである衝突者回帰を提案する。 仮説空間が再現核ヒルベルト空間であるとき、穏やかな仮定の下で厳密に正の一般化の利益を証明し、経験的リスク最小化の閉形式的推定子を与える。 合成および気候モデルデータに関する実験は,提案手法の性能向上を示す。

A directed acyclic graph (DAG) provides valuable prior knowledge that is often discarded in regression tasks in machine learning. We show that the independences arising from the presence of collider structures in DAGs provide meaningful inductive biases, which constrain the regression hypothesis space and improve predictive performance. We introduce collider regression, a framework to incorporate probabilistic causal knowledge from a collider in a regression problem. When the hypothesis space is a reproducing kernel Hilbert space, we prove a strictly positive generalisation benefit under mild assumptions and provide closed-form estimators of the empirical risk minimiser. Experiments on synthetic and climate model data demonstrate performance gains of the proposed methodology.
翻訳日:2023-06-22 17:55:46 公開日:2023-06-21
# 近傍ホモフィリーグラフ畳み込みネットワーク

Neighborhood Homophily-based Graph Convolutional Network ( http://arxiv.org/abs/2301.09851v2 )

ライセンス: Link先を確認
Shengbo Gong, Jiajun Zhou, Chenxuan Xie, Qi Xuan(参考訳) グラフニューラルネットワーク(GNN)は、グラフ指向タスクにおいて強力であることが証明されている。 しかし、多くの実世界のグラフは異性を持ち、古典的なGNNのホモフィリーな仮定に挑戦する。 普遍性問題を解決するために、多くの研究がネットワークを深くしたり、中間表現を結合させたりしている。 最近の研究では、ホモフィリーを特徴付ける新しい指標を提案するが、提案する指標とモデルの相関を考えることは稀である。 本稿ではまず,ノード近傍におけるラベルの複雑さや純度を測定するため,新しい計量であるNeighborhood Homophily(\textit{NH})を設計する。 さらに、このメトリックを古典的なグラフ畳み込みネットワーク(gcn)アーキテクチャに組み込んで、 \textbf{n}eighborhood \textbf{h}omophily-based \textbf{g}raph \textbf{c}onvolutional \textbf{n}etwork (\textbf{nhgcn})を提案する。 このフレームワークでは、隣人は推定された \textit{NH} 値でグループ化され、異なるチャネルから集約され、その結果のノード予測が順番に使われて \textit{NH} 値を推定および更新する。 メトリック推定とモデル推論の2つのプロセスは、よりよいノード分類を達成するために交互に最適化される。 nhgcnは、ホモフィラスベンチマークとヘテロフィラスベンチマークの両方で最高性能を達成し、現在のsata法と比較して最大7.4\%改善されている。

Graph neural networks (GNNs) have been proved powerful in graph-oriented tasks. However, many real-world graphs are heterophilous, challenging the homophily assumption of classical GNNs. To solve the universality problem, many studies deepen networks or concatenate intermediate representations, which does not inherently change neighbor aggregation and introduces noise. Recent studies propose new metrics to characterize the homophily, but rarely consider the correlation of the proposed metrics and models. In this paper, we first design a new metric, Neighborhood Homophily (\textit{NH}), to measure the label complexity or purity in node neighborhoods. Furthermore, we incorporate the metric into the classical graph convolutional network (GCN) architecture and propose \textbf{N}eighborhood \textbf{H}omophily-based \textbf{G}raph \textbf{C}onvolutional \textbf{N}etwork (\textbf{NHGCN}). In this framework, neighbors are grouped by estimated \textit{NH} values and aggregated from different channels, and the resulting node predictions are then used in turn to estimate and update \textit{NH} values. The two processes of metric estimation and model inference are alternately optimized to achieve better node classification. NHGCN achieves top overall performance on both homophilous and heterophilous benchmarks, with an improvement of up to 7.4\% compared to the current SOTA methods.
翻訳日:2023-06-22 17:55:32 公開日:2023-06-21
# 強非線形性による量子同期効果

Quantum synchronization effects induced by strong nonlinearities ( http://arxiv.org/abs/2301.02948v2 )

ライセンス: Link先を確認
Yuan Shen, Wai-Keong Mok, Changsuk Noh, Ai Qun Liu, Leong-Chuan Kwek, Weijun Fan, and Andy Chia(参考訳) 量子同期のパラダイムはスチュアート・ランダウ振動子(stuart-landau oscillator)の量子アナログであり、弱非線形性(すなわち消滅するほど小さい)の限界におけるファンデルポル振動子に対応する。 この欠点を克服するために、ファンデルポル振動子を数値的に引くことなく有限個の非線形性に近似する代替モデルを提案する。 これにより、共鳴による振幅死の持続性など、古典的類似性のない深量子強非線形状態における興味深い現象を明らかにすることができる。 また,反応結合量子振動子における非線形性誘起位置相関についても報告する。 このような結合振動は、最大に達する前に非線形性の増加とますます相関する。 この行動は古典的に欠落している。 また, 単一発振器と結合発振器の両方において, 強い非線形性が同期帯域を拡大可能であることを示す。 この効果は振幅死において2つの発振器間の相互同期を誘導するために利用できる。

A paradigm for quantum synchronization is the quantum analog of the Stuart--Landau oscillator, which corresponds to a van der Pol oscillator in the limit of weak (i.e. vanishingly small) nonlinearity. Due to this limitation, the quantum Stuart--Landau oscillator fails to capture interesting nonlinearity-induced phenomena such as relaxation oscillations. To overcome this deficiency we propose an alternative model which approximates the van der Pol oscillator to finitely large nonlinearities while remaining numerically tractable. This allows us to uncover interesting phenomena in the deep-quantum strongly-nonlinear regime with no classical analog, such as the persistence of amplitude death on resonance. We also report nonlinearity-induced position correlations in reactively coupled quantum oscillators. Such coupled oscillations become more and more correlated with increasing nonlinearity before reaching some maximum. Again, this behavior is absent classically. We also show how strong nonlinearity can enlarge the synchronization bandwidth in both single and coupled oscillators. This effect can be harnessed to induce mutual synchronization between two oscillators initially in amplitude death.
翻訳日:2023-06-22 17:54:32 公開日:2023-06-21
# 2021年メキシコ議会選挙におけるツイートベース選挙モデルの設計と分析

Design and analysis of tweet-based election models for the 2021 Mexican legislative election ( http://arxiv.org/abs/2301.00626v2 )

ライセンス: Link先を確認
Alejandro Vigna-G\'omez, Javier Murillo, Manelik Ramirez, Alberto Borbolla, Ian M\'arquez and Prasun K. Ray(参考訳) オンラインソーシャルメディアを用いた実生活の人間行動のモデル化と予測は、政治、政府、学界、産業において活発な試みである。 2006年の創設以来、twitterは社会的行動の計測と予測に使用できる潜在的な実験室として提案されてきた。 過去10年間で、Twitterのユーザーベースは増加し、一般大衆を代表するものになっている。 ここでは、2021年のメキシコ議会選挙でこのユーザーベースを分析します。 そのために、選挙前の6ヶ月で1500万件の選挙関連ツイートのデータセットを使用します。 我々は、政党または野党に政治的選好を割り当てる異なる選挙モデルについて検討する。 地理的属性を持つデータを用いたモデルが従来のポーリング法よりも精度と精度で選挙結果を決定することがわかった。 これらの結果は, オンラインデータ分析が従来の世論調査手法を上回ることができ, 政治分析や一般予測は, 近い将来, そうしたデータを組み込むことで恩恵を受ける可能性が示唆された。 さらに、地理的属性を持つ同じtwitterデータセットは、メキシコの人口とインターネット利用に関する公式国勢調査結果と正の相関がある。 これらの結果は、オンラインアクティビティが適切にキュレートされ、オフライン動作を正確に表現できる期間に達したことを示唆している。

Modelling and forecasting real-life human behaviour using online social media is an active endeavour of interest in politics, government, academia, and industry. Since its creation in 2006, Twitter has been proposed as a potential laboratory that could be used to gauge and predict social behaviour. During the last decade, the user base of Twitter has been growing and becoming more representative of the general population. Here we analyse this user base in the context of the 2021 Mexican Legislative Election. To do so, we use a dataset of 15 million election-related tweets in the six months preceding election day. We explore different election models that assign political preference to either the ruling parties or the opposition. We find that models using data with geographical attributes determine the results of the election with better precision and accuracy than conventional polling methods. These results demonstrate that analysis of public online data can outperform conventional polling methods, and that political analysis and general forecasting would likely benefit from incorporating such data in the immediate future. Moreover, the same Twitter dataset with geographical attributes is positively correlated with results from official census data on population and internet usage in Mexico. These findings suggest that we have reached a period in time when online activity, appropriately curated, can provide an accurate representation of offline behaviour.
翻訳日:2023-06-22 17:54:14 公開日:2023-06-21
# ゼロ交叉数を数える量子アルゴリズム

A quantum algorithm for counting zero-crossings ( http://arxiv.org/abs/2212.11814v2 )

ライセンス: Link先を確認
Alok Shukla(参考訳) バーンスタイン・ヴァジラニ問題の一般化であるゼロクロスカウント問題を提案する。 この問題の目標は、秘密の文字列に依存する特別なタイプの列 S においてゼロ交叉数(または符号の変更数)を数えることである。 この問題を解決するために量子アルゴリズムが提示される。 提案した量子アルゴリズムは、この問題を解決するために1つのオラクルクエリしか必要としないが、古典的アルゴリズムでは少なくとも n 個のオラクルクエリが必要であり、そこでは、2^n$ がシーケンス S のサイズである。 シークエンスオーダリングにおけるウォルシュ・アダマール変換は、デジタル信号や画像処理など、幅広い科学的・工学的な応用に用いられている。 したがって、Walsh-Hadamard変換をシークエンス順序で計算する量子回路は、シークエンス順序でWalsh-Hadamard変換の計算を必要とするアプリケーションのための量子コンピューティングアルゴリズムにおいて有用である。

We present a zero-crossings counting problem that is a generalization of the Bernstein-Vazirani problem. The goal of this problem is to count the number of zero-crossings (or sign changes) in a special type of sequence S, whose definition depends upon a secret string. A quantum algorithm is presented to solve this problem. The proposed quantum algorithm requires only one oracle query to solve the problem, whereas a classical algorithm would need at least n oracle queries, where $2^n$ is the size of the sequence S. In addition to solving the zero-crossings counting problem, we also give a quantum circuit for performing the Walsh-Hadamard transforms in sequency ordering. The Walsh-Hadamard transform in sequency ordering is used in a wide range of scientific and engineering applications, including in digital signal and image processing. Therefore, the proposed quantum circuit for computing the Walsh-Hadamard transforms in sequency ordering may be helpful in quantum computing algorithms for applications for which the computation of the Walsh-Hadamard transform in sequency ordering is required.
翻訳日:2023-06-22 17:53:55 公開日:2023-06-21
# PV3D: 画像生成のための3次元生成モデル

PV3D: A 3D Generative Model for Portrait Video Generation ( http://arxiv.org/abs/2212.06384v3 )

ライセンス: Link先を確認
Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Wenqing Zhang, Song Bai, Jiashi Feng, Mike Zheng Shou(参考訳) 最近のgans(generative adversarial networks)の進歩は、素晴らしい写真リアルなポートレート画像を生成する能力を示している。 このような画像ganを無条件の2dポートレートビデオ生成や静的3dポートレート合成に適用する先行作品もあるが、3d対応のポートレートビデオを生成するためにganを拡張させる作品はほとんどない。 本研究では,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。 具体的には、3次元暗黙的ニューラル表現を一般化して時空間をモデル化することにより、最近の静的3D認識画像GANをビデオ領域に拡張する。 生成プロセスにモーションダイナミクスを導入するため,複数の動作層を積み重ねて,変調畳み込みによる動作特徴を生成するモーションジェネレータを開発した。 カメラ/ヒューマンモーションによる動作の曖昧さを軽減するため,pv3dの簡易かつ効果的なカメラ条件戦略を提案する。 さらにpv3dは、空間領域と時間領域を規則化し、生成されたポートレートビデオの信頼性を確保する2つの識別器を導入する。 これらの精巧なデザインにより、PV3Dは高品質な外観と幾何学を持つ3D対応の動画を制作することができる。 その結果、PV3Dは静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートできるようになった。 コードとモデルはhttps://showlab.github.io/pv3dでリリースされる。

Recent advances in generative adversarial networks (GANs) have demonstrated the capabilities of generating stunning photo-realistic portrait images. While some prior works have applied such image GANs to unconditional 2D portrait video generation and static 3D portrait synthesis, there are few works successfully extending GANs for generating 3D-aware portrait videos. In this work, we propose PV3D, the first generative framework that can synthesize multi-view consistent portrait videos. Specifically, our method extends the recent static 3D-aware image GAN to the video domain by generalizing the 3D implicit neural representation to model the spatio-temporal space. To introduce motion dynamics to the generation process, we develop a motion generator by stacking multiple motion layers to generate motion features via modulated convolution. To alleviate motion ambiguities caused by camera/human motions, we propose a simple yet effective camera condition strategy for PV3D, enabling both temporal and multi-view consistent video generation. Moreover, PV3D introduces two discriminators for regularizing the spatial and temporal domains to ensure the plausibility of the generated portrait videos. These elaborated designs enable PV3D to generate 3D-aware motion-plausible portrait videos with high-quality appearance and geometry, significantly outperforming prior works. As a result, PV3D is able to support many downstream applications such as animating static portraits and view-consistent video motion editing. Code and models are released at https://showlab.github.io/pv3d.
翻訳日:2023-06-22 17:53:38 公開日:2023-06-21
# アライメント拡散schr\"odinger橋

Aligned Diffusion Schr\"odinger Bridges ( http://arxiv.org/abs/2302.11419v2 )

ライセンス: Link先を確認
Vignesh Ram Somnath, Matteo Pariset, Ya-Ping Hsieh, Maria Rodriguez Martinez, Andreas Krause, Charlotte Bunne(参考訳) Diffusion Schr\"odinger Bridges (DSB) は、最近、異なる時間点における限界観測を通して確率力学を回復するための強力なフレームワークとして登場した。 多くの応用が成功したにもかかわらず、DSBを解くための既存のアルゴリズムは、多くの生物学的現象で自然に発生する整列データの構造を利用できなかった。 本稿では,データアライメントを尊重しながらDSBを初めて解決する新しいアルゴリズムフレームワークを提案する。 私たちのアプローチは、古典的なschr\"odinger bridge理論とdoobの$h$-transformという2つの数十年のアイデアを組み合わせたものです。 従来の方法と比較すると,本手法はより低分散の訓練手順につながり,原理正規化スキームによりさらに強化される。 これは最終的に、タンパク質ドッキングの硬いタスクや細胞分化プロセスの時間的進化を含む、合成データと実データに関する実験を通して大きな改善をもたらす。

Diffusion Schr\"odinger bridges (DSB) have recently emerged as a powerful framework for recovering stochastic dynamics via their marginal observations at different time points. Despite numerous successful applications, existing algorithms for solving DSBs have so far failed to utilize the structure of aligned data, which naturally arises in many biological phenomena. In this paper, we propose a novel algorithmic framework that, for the first time, solves DSBs while respecting the data alignment. Our approach hinges on a combination of two decades-old ideas: The classical Schr\"odinger bridge theory and Doob's $h$-transform. Compared to prior methods, our approach leads to a simpler training procedure with lower variance, which we further augment with principled regularization schemes. This ultimately leads to sizeable improvements across experiments on synthetic and real data, including the tasks of rigid protein docking and temporal evolution of cellular differentiation processes.
翻訳日:2023-06-22 17:46:02 公開日:2023-06-21
# 大規模言語モデルのためのPAC予測セット

PAC Prediction Sets for Large Language Models of Code ( http://arxiv.org/abs/2302.08703v2 )

ライセンス: Link先を確認
Adam Khakhar, Stephen Mell, Osbert Bastani(参考訳) 予測セットは、理論的な保証を提供する方法でディープニューラルネットワークの不確実性を定量化するための有望な戦略であることが最近示されている。 しかし、既存の手法はラベルの空間が単純であるような設定を主にターゲットとしているため、予測セットはラベルの任意の部分集合となることができる。 ラベルの空間が指数関数的に大きい構造化予測問題の場合、すべてのラベルのごく一部を含む予測集合でさえ指数関数的に大きい。 コード生成の文脈では、部分的なプログラムとしてコンパクトに表現できる予測セットの制限セットを考慮し、部分的な部分を穴に置き換えたプログラムを提案する。 訓練されたコード生成モデルが与えられると、アルゴリズムはプログラミング言語の抽象構文木を利用して、正しいプログラムが信頼度の高いセットにあるような一連のプログラムを生成する。 このアルゴリズムの有用な応用例としては、生成されたコードの不確かさ部分に穴があるcodexスタイルのコードジェネレータがあり、理論的な保証のある部分プログラムを提供する。 我々はPICARD(SQLセマンティックパースのためのT5モデル)とCodex(Pythonを含む12以上のプログラミング言語のためのGPTモデル)に対するアプローチを評価し、我々のアプローチがコンパクトなPAC予測セットを生成することを示した。 これは、生成コードモデルのためのPAC予測セットを生成する最初の研究貢献である。

Prediction sets have recently been shown to be a promising strategy for quantifying the uncertainty of deep neural networks in a way that provides theoretical guarantees. However, existing techniques have largely targeted settings where the space of labels is simple, so prediction sets can be arbitrary subsets of labels. For structured prediction problems where the space of labels is exponential in size, even prediction sets containing a small fraction of all labels can be exponentially large. In the context of code generation, we propose a solution that considers a restricted set of prediction sets that can compactly be represented as partial programs, which are programs with portions replaced with holes. Given a trained code generation model, our algorithm leverages a programming language's abstract syntax tree to generate a set of programs such that the correct program is in the set with high-confidence. Valuable applications of our algorithm include a Codex-style code generator with holes in uncertain parts of the generated code, which provides a partial program with theoretical guarantees. We evaluate our approach on PICARD (a T5 model for SQL semantic parsing) and Codex (a GPT model for over a dozen programming languages, including Python), demonstrating that our approach generates compact PAC prediction sets. This is the first research contribution that generates PAC prediction sets for generative code models.
翻訳日:2023-06-22 17:45:47 公開日:2023-06-21
# オフライン安全強化学習のための制約付き決定変換器

Constrained Decision Transformer for Offline Safe Reinforcement Learning ( http://arxiv.org/abs/2302.07351v2 )

ライセンス: Link先を確認
Zuxin Liu, Zijian Guo, Yihang Yao, Zhepeng Cen, Wenhao Yu, Tingnan Zhang, Ding Zhao(参考訳) 安全強化学習(RL)は環境との相互作用によって制約満足度政策を訓練する。 我々は、オフラインデータセットから安全なポリシーを学ぶという、より困難な問題に取り組むことを目指している。 我々は,新しい多目的最適化の観点からオフラインセーフなrl問題を考察し,問題障害を特徴付けるために$\epsilon$-reducibleの概念を提案する。 安全性とタスクパフォーマンスの本質的にのトレードオフは、デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案するきっかけになります。 広範な実験により,適応性,安全性,ロバスト性,高跳躍性ポリシの学習において,提案手法の利点が示された。 CDTは、その変種と強いオフライン安全なRLベースラインを、すべてのタスクで同じハイパーパラメータで大きなマージンで上回り、ゼロショット適応能力を異なる制約しきい値に保ち、我々のアプローチは実世界のRLにより適している。 コードはhttps://github.com/liuzuxin/osrlで入手できる。

Safe reinforcement learning (RL) trains a constraint satisfaction policy by interacting with the environment. We aim to tackle a more challenging problem: learning a safe policy from an offline dataset. We study the offline safe RL problem from a novel multi-objective optimization perspective and propose the $\epsilon$-reducible concept to characterize problem difficulties. The inherent trade-offs between safety and task performance inspire us to propose the constrained decision transformer (CDT) approach, which can dynamically adjust the trade-offs during deployment. Extensive experiments show the advantages of the proposed method in learning an adaptive, safe, robust, and high-reward policy. CDT outperforms its variants and strong offline safe RL baselines by a large margin with the same hyperparameters across all tasks, while keeping the zero-shot adaptation capability to different constraint thresholds, making our approach more suitable for real-world RL under constraints. The code is available at https://github.com/liuzuxin/OSRL.
翻訳日:2023-06-22 17:45:25 公開日:2023-06-21
# 植林用高密度サイクルの検出・回収ギャップ

Detection-Recovery Gap for Planted Dense Cycles ( http://arxiv.org/abs/2302.06737v2 )

ライセンス: Link先を確認
Cheng Mao, Alexander S. Wein, Shenduo Zhang(参考訳) 植物密度サイクルは、社会科学における小さな世界ネットワークや計算生物学におけるシーケンスアセンブリなど、多くの応用に現れる潜在構造の一種である。 予測帯域幅 $n \tau$ とエッジ密度 $p$ を持つ密集サイクルが erd\h{o}s-r\'enyi graph $g(n,q)$ に植えられるようなモデルを考える。 低次多項式アルゴリズムのクラスにおいて、関連する検出および回復問題に対する計算しきい値を特徴付ける。 特に、あるパラメータのレジームにおいて、2つのしきい値の間にギャップが存在する。 例えば、$n^{-3/4} \ll \tau \ll n^{-1/2}$ と $p = c q = \theta(1)$ が定数 $c>1$ の場合、検出問題は計算が容易であるが、低次アルゴリズムでは回復問題は難しい。

Planted dense cycles are a type of latent structure that appears in many applications, such as small-world networks in social sciences and sequence assembly in computational biology. We consider a model where a dense cycle with expected bandwidth $n \tau$ and edge density $p$ is planted in an Erd\H{o}s-R\'enyi graph $G(n,q)$. We characterize the computational thresholds for the associated detection and recovery problems for the class of low-degree polynomial algorithms. In particular, a gap exists between the two thresholds in a certain regime of parameters. For example, if $n^{-3/4} \ll \tau \ll n^{-1/2}$ and $p = C q = \Theta(1)$ for a constant $C>1$, the detection problem is computationally easy while the recovery problem is hard for low-degree algorithms.
翻訳日:2023-06-22 17:45:06 公開日:2023-06-21
# 異常意識状態の豊かさと非効率の源

Sources of Richness and Ineffability for Phenomenally Conscious States ( http://arxiv.org/abs/2302.06403v5 )

ライセンス: Link先を確認
Xu Ji, Eric Elmoznino, George Deane, Axel Constant, Guillaume Dumas, Guillaume Lajoie, Jonathan Simon, Yoshua Bengio(参考訳) 気まぐれな状態(入力したいものが存在するという状態)は、豊かで、詳細に満ちており、完全な記述やリコールが困難であるように見える。 特に非効率性の問題は、説明的ギャップを部分的に動機づける哲学における長年の問題である:意識は基礎となる物理的プロセスに還元できないという信念。 ここでは,意識の豊かさと非効率性に着目した情報理論力学システムについて述べる。 本枠組みでは,意識経験の豊かさは意識状態の情報量に対応し,不均衡は処理の異なる段階で失った情報量に対応する。 作業記憶におけるアトラクタダイナミクスが,我々の経験の貧弱な記憶を誘発する可能性,経験の豊かで高次元な構造を記述するために言語の離散的な象徴的性質が不十分なこと,そして2人の個人の認知機能の類似性が,経験のコミュニケーション性の向上にどのように関与しているかを述べる。 我々のモデルは、説明的ギャップに関連する全ての疑問を解決しないかもしれないが、意識的な経験の豊かさと非効率性について完全に物理主義的な説明へと進む。

Conscious states (states that there is something it is like to be in) seem both rich or full of detail, and ineffable or hard to fully describe or recall. The problem of ineffability, in particular, is a longstanding issue in philosophy that partly motivates the explanatory gap: the belief that consciousness cannot be reduced to underlying physical processes. Here, we provide an information theoretic dynamical systems perspective on the richness and ineffability of consciousness. In our framework, the richness of conscious experience corresponds to the amount of information in a conscious state and ineffability corresponds to the amount of information lost at different stages of processing. We describe how attractor dynamics in working memory would induce impoverished recollections of our original experiences, how the discrete symbolic nature of language is insufficient for describing the rich and high-dimensional structure of experiences, and how similarity in the cognitive function of two individuals relates to improved communicability of their experiences to each other. While our model may not settle all questions relating to the explanatory gap, it makes progress toward a fully physicalist explanation of the richness and ineffability of conscious experience: two important aspects that seem to be part of what makes qualitative character so puzzling.
翻訳日:2023-06-22 17:44:49 公開日:2023-06-21
# patcorrect: asr誤り訂正のための非自己回帰音素提示トランス

PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction ( http://arxiv.org/abs/2302.05040v2 )

ライセンス: Link先を確認
Ziji Zhang, Zhehui Wang, Rajesh Kamma, Sharanya Eswaran, Narayanan Sadagopan(参考訳) 自動音声認識(ASR)システムによる音声テキスト誤りは下流モデルに悪影響を及ぼす。 後処理テキスト編集手法としての誤り訂正モデルは、最近、ASR出力を精査するために開発されている。 しかし、工業用グレード生産システムの低レイテンシ要件を満たす効率的なモデルは十分に研究されていない。 テキストと音素の両方のモダリティの表現を利用したマルチモーダル融合に基づくPATCorrect-a novel non-autoregressive (NAR)アプローチを提案する。 我々は、PATCorrectが、異なる上流ASRシステムにまたがる英語コーパスにおける最先端のNAR法を一貫して上回り、合計11.62%のWER削減(WERR)を、テキストのみを用いた他の手法による9.46%のWERRと比較した。 さらに、その推論レイテンシは数ミリ秒で、低レイテンシ要件のシステムには理想的です。

Speech-to-text errors made by automatic speech recognition (ASR) systems negatively impact downstream models. Error correction models as a post-processing text editing method have been recently developed for refining the ASR outputs. However, efficient models that meet the low latency requirements of industrial grade production systems have not been well studied. We propose PATCorrect-a novel non-autoregressive (NAR) approach based on multi-modal fusion leveraging representations from both text and phoneme modalities, to reduce word error rate (WER) and perform robustly with varying input transcription quality. We demonstrate that PATCorrect consistently outperforms state-of-the-art NAR method on English corpus across different upstream ASR systems, with an overall 11.62% WER reduction (WERR) compared to 9.46% WERR achieved by other methods using text only modality. Besides, its inference latency is at tens of milliseconds, making it ideal for systems with low latency requirements.
翻訳日:2023-06-22 17:44:27 公開日:2023-06-21
# 機械学習におけるアルゴリズム的集団行動

Algorithmic Collective Action in Machine Learning ( http://arxiv.org/abs/2302.04262v2 )

ライセンス: Link先を確認
Moritz Hardt, Eric Mazumdar, Celestine Mendler-D\"unner, Tijana Zrnic(参考訳) 機械学習アルゴリズムをデプロイするデジタルプラットフォーム上でのアルゴリズム集合行動の原理的な研究を開始する。 本稿では,企業の学習アルゴリズムと相互作用する集合の理論モデルを提案する。 集団は参加者のデータをプールし、参加者に自身のデータを変更して集団目標を達成する方法を指示することにより、アルゴリズム戦略を実行する。 このモデルの結果を,非パラメトリック最適学習アルゴリズムの場合,パラメトリックリスク最小化器,勾配に基づく最適化という3つの基本的な学習理論的設定で検討した。 各設定において,協調的なアルゴリズム戦略を考案し,集合の大きさの関数として自然成功基準を特徴付ける。 本理論を補完し,フリーランサーのためのギグプラットフォームから数万の履歴書を含むスキル分類タスクを体系的に実験する。 BERTのような言語モデルによる2000以上のモデルトレーニングの実行を通じて、経験的観察と我々の理論による予測との間に顕著な対応が現れる。 我々の理論と実験は、極小のアルゴリズム集合がプラットフォームの学習アルゴリズムを著しく制御できるという結論を広く支持している。

We initiate a principled study of algorithmic collective action on digital platforms that deploy machine learning algorithms. We propose a simple theoretical model of a collective interacting with a firm's learning algorithm. The collective pools the data of participating individuals and executes an algorithmic strategy by instructing participants how to modify their own data to achieve a collective goal. We investigate the consequences of this model in three fundamental learning-theoretic settings: the case of a nonparametric optimal learning algorithm, a parametric risk minimizer, and gradient-based optimization. In each setting, we come up with coordinated algorithmic strategies and characterize natural success criteria as a function of the collective's size. Complementing our theory, we conduct systematic experiments on a skill classification task involving tens of thousands of resumes from a gig platform for freelancers. Through more than two thousand model training runs of a BERT-like language model, we see a striking correspondence emerge between our empirical observations and the predictions made by our theory. Taken together, our theory and experiments broadly support the conclusion that algorithmic collectives of exceedingly small fractional size can exert significant control over a platform's learning algorithm.
翻訳日:2023-06-22 17:43:53 公開日:2023-06-21
# 効率的なグラフフィールド積分器がポイントクラウドと出会う

Efficient Graph Field Integrators Meet Point Clouds ( http://arxiv.org/abs/2302.00942v5 )

ライセンス: Link先を確認
Krzysztof Choromanski, Arijit Sehanobish, Han Lin, Yunfan Zhao, Eli Berger, Tetiana Parshakova, Alvin Pan, David Watkins, Tianyi Zhang, Valerii Likhosherstov, Somnath Basu Roy Chowdhury, Avinava Dubey, Deepali Jain, Tamas Sarlos, Snigdha Chaturvedi, Adrian Weller(参考訳) 点雲を符号化するグラフ上での効率的な場積分のためのアルゴリズムを2種類提案する。 第1のクラスであるSeparatorFactorization(SF)は、ポイントメッシュグラフの有界属を利用するが、第2のクラスであるRFDiffusion(RFD)は、ポイントクラウドの一般的なepsilon-nearest-neighborグラフ表現を使用する。 どちらも、効率的な統合に多大な影響を与えたFMM(Fast Multipole Methods)の機能を提供するが、非ユークリッド空間ではそうではない。 ポイント間の歩行長さの分布(例えば、最短経路距離)によって引き起こされるジオメトリに注目した。 アルゴリズムの広範な理論的解析を行い,副産物として構造グラフ理論の新たな結果を得た。 また,剛体および変形可能な物体の面補間(特にメッシュ力学モデリング),点雲のwasserstein距離計算,gromov-wasserstein変種など,徹底的な実験評価を行う。

We present two new classes of algorithms for efficient field integration on graphs encoding point clouds. The first class, SeparatorFactorization(SF), leverages the bounded genus of point cloud mesh graphs, while the second class, RFDiffusion(RFD), uses popular epsilon-nearest-neighbor graph representations for point clouds. Both can be viewed as providing the functionality of Fast Multipole Methods (FMMs), which have had a tremendous impact on efficient integration, but for non-Euclidean spaces. We focus on geometries induced by distributions of walk lengths between points (e.g., shortest-path distance). We provide an extensive theoretical analysis of our algorithms, obtaining new results in structural graph theory as a byproduct. We also perform exhaustive empirical evaluation, including on-surface interpolation for rigid and deformable objects (particularly for mesh-dynamics modeling), Wasserstein distance computations for point clouds, and the Gromov-Wasserstein variant.
翻訳日:2023-06-22 17:43:35 公開日:2023-06-21
# 広帯域深部ランダムネットワークのベイズ最適学習

Bayes-optimal Learning of Deep Random Networks of Extensive-width ( http://arxiv.org/abs/2302.00375v2 )

ライセンス: Link先を確認
Hugo Cui, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 本研究では,ランダムなガウス重みを持つ広帯域非線形ニューラルネットワークに対応する対象関数を学習する問題を考察する。 サンプル数,入力寸法,ネットワーク幅が比例的に大きい漸近限界を考える。 ベイズ最適試験誤差に対する回帰および分類タスクのための閉形式式を提案する。 さらにリッジ回帰,カーネル回帰,ランダム特徴回帰のテスト誤差に対するクローズドフォーム式も計算する。 特に、最適化されたリッジ回帰とカーネル回帰がベイズ最適性能を達成するのに対して、ロジスティック損失は分類のほぼ最適誤差をもたらす。 さらに,標本数の増加が次元よりも早くなるとリッジ法とカーネル法が最適となり,一方,ニューラルネットワークでは2倍数のサンプルからゼロに近いテスト誤差が得られることを示した。

We consider the problem of learning a target function corresponding to a deep, extensive-width, non-linear neural network with random Gaussian weights. We consider the asymptotic limit where the number of samples, the input dimension and the network width are proportionally large. We propose a closed-form expression for the Bayes-optimal test error, for regression and classification tasks. We further compute closed-form expressions for the test errors of ridge regression, kernel and random features regression. We find, in particular, that optimally regularized ridge regression, as well as kernel regression, achieve Bayes-optimal performances, while the logistic loss yields a near-optimal test error for classification. We further show numerically that when the number of samples grows faster than the dimension, ridge and kernel methods become suboptimal, while neural networks achieve test error close to zero from quadratically many samples.
翻訳日:2023-06-22 17:43:14 公開日:2023-06-21
# DP-SGDがスパサーモデルを必要とする理由

Equivariant Differentially Private Deep Learning: Why DP-SGD Needs Sparser Models ( http://arxiv.org/abs/2301.13104v2 )

ライセンス: Link先を確認
Florian A. H\"olzl, Daniel Rueckert, Georgios Kaissis(参考訳) 個人確率勾配(DP-SGD)は、訓練中に記憶できる個人情報深層学習モデルの量を制限する。 これは、モデルの勾配にノイズを加えることで達成され、より多くのパラメータを持つネットワークは比例的に強い摂動を必要とする。 その結果,DP-SGDを用いたレンダリングトレーニングは,より困難な訓練作業において極めて困難であることがわかった。 最近の研究は、重いデータ拡張や大きなバッチサイズなどのトレーニング適応を通じて、この課題に対処することに注力している。 しかし,これらの手法によりDP-SGDの計算オーバーヘッドが増大し,実用性も低下する。 本研究では,dp-sgd の有望な方向性として,sparse モデル設計の原理を用いて,より少ないパラメータ,高い精度,少ない時間で複雑なタスクを高精度に解くことを提案する。 差分プライバシを用いたモデルトレーニングのための同変畳み込みネットワークを導入して,このような疎結合を実現する。 等価ネットワークを用いて, 小型かつ効率的なアーキテクチャ設計は, 計算量を大幅に削減し, 最先端のモデルに勝ることを示す。 cifar-10では、計算時間を85-%$以上削減しながら、最大9-%の精度向上を達成しています。 我々の結果は、パラメータを最適に活用し、コンピュータビジョンのためのプライベートと非プライベートのディープラーニングの間のプライバシーとユーティリティのギャップを埋める効率的なモデルアーキテクチャへの一歩である。

Differentially Private Stochastic Gradient Descent (DP-SGD) limits the amount of private information deep learning models can memorize during training. This is achieved by clipping and adding noise to the model's gradients, and thus networks with more parameters require proportionally stronger perturbation. As a result, large models have difficulties learning useful information, rendering training with DP-SGD exceedingly difficult on more challenging training tasks. Recent research has focused on combating this challenge through training adaptations such as heavy data augmentation and large batch sizes. However, these techniques further increase the computational overhead of DP-SGD and reduce its practical applicability. In this work, we propose using the principle of sparse model design to solve precisely such complex tasks with fewer parameters, higher accuracy, and in less time, thus serving as a promising direction for DP-SGD. We achieve such sparsity by design by introducing equivariant convolutional networks for model training with Differential Privacy. Using equivariant networks, we show that small and efficient architecture design can outperform current state-of-the-art models with substantially lower computational requirements. On CIFAR-10, we achieve an increase of up to $9\%$ in accuracy while reducing the computation time by more than $85\%$. Our results are a step towards efficient model architectures that make optimal use of their parameters and bridge the privacy-utility gap between private and non-private deep learning for computer vision.
翻訳日:2023-06-22 17:43:01 公開日:2023-06-21
# 軌道ロボットの近似3次元モデルによる6次元物体位置推定

6D Object Pose Estimation from Approximate 3D Models for Orbital Robotics ( http://arxiv.org/abs/2303.13241v3 )

ライセンス: Link先を確認
Maximilian Ulmer, Maximilian Durner, Martin Sundermeyer, Manuel Stoiber, and Rudolph Triebel(参考訳) そこで本稿では,物体の3次元形状を3次元モデルとしてのみ与えた単一の画像から,物体の6次元ポーズを推定する新しい手法を提案する。 これを実現するために,各画素の3dモデル座標を回帰する密度の高い2d-3d対応予測器を用いる。 また,3次元座標に加えて画素座標誤差を推定し,誤りとなる可能性のある対応を破棄する。 これにより、オブジェクトの複数の6次元ポーズ仮説を生成でき、それを高効率な領域ベースアプローチで反復的に洗練することができる。 また、各仮説の確率を推定し、最も可能性の高いものを選択することができる、新しい画素単位の後方定式化も導入する。 実験で示したように、我々のアプローチは、過剰露出、高コントラスト、低信号対雑音比といった極端な視覚条件を扱うことができる。 これにより、軌道上のロボット応用のために転がる衛星の姿勢を推定する、特に困難なタスクにおいて強力な技術となる。 提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。

We present a novel technique to estimate the 6D pose of objects from single images where the 3D geometry of the object is only given approximately and not as a precise 3D model. To achieve this, we employ a dense 2D-to-3D correspondence predictor that regresses 3D model coordinates for every pixel. In addition to the 3D coordinates, our model also estimates the pixel-wise coordinate error to discard correspondences that are likely wrong. This allows us to generate multiple 6D pose hypotheses of the object, which we then refine iteratively using a highly efficient region-based approach. We also introduce a novel pixel-wise posterior formulation by which we can estimate the probability for each hypothesis and select the most likely one. As we show in experiments, our approach is capable of dealing with extreme visual conditions including overexposure, high contrast, or low signal-to-noise ratio. This makes it a powerful technique for the particularly challenging task of estimating the pose of tumbling satellites for in-orbit robotic applications. Our method achieves state-of-the-art performance on the SPEED+ dataset and has won the SPEC2021 post-mortem competition.
翻訳日:2023-06-22 17:36:32 公開日:2023-06-21
# 強度変調を伴わない位相整合量子鍵分布の実験

Experimental Phase-Matching Quantum Key Distribution without Intensity Modulation ( http://arxiv.org/abs/2303.11585v2 )

ライセンス: Link先を確認
Shan-Feng Shao, Xiao-Yu Cao, Yuan-Mei Xie, Jie Gu, Wen-Bo Liu, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子鍵配布は、無条件のセキュリティを持つ2つの離れたパーティ間でセキュアなキーを共有するための有望なソリューションを提供する。 それでも、量子鍵分布はデバイスの不完全性によって深刻な脅威を受けている。 特に、古典的なパルス相関はデコイ状態を送信するときにセキュリティを脅かす。 この問題に対処し,実験要件を簡素化するために,強度変調を伴わない位相整合量子鍵分布プロトコルを提案する。 そこで,decoy状態を用いる代わりに,偶数光子数成分が寄与する位相誤差率の理論的上限を推定する新しい手法を提案する。 シミュレーションの結果,プロトコルの伝送距離は通信ファイバーで305kmに達することが分かった。 さらに,本プロトコルの有効性を実証するための原理実証実験を行い,45dbチャネルの損失で鍵レートが22.5 bpsに達した。 パルス強度相関のセキュリティホールに対処し,連続ランダム位相を6~8スライスランダム位相に置き換えることで,量子ネットワーク構築のための有望なソリューションを提供する。

Quantum key distribution provides a promising solution for sharing secure keys between two distant parties with unconditional security. Nevertheless, quantum key distribution is still severely threatened by the imperfections of devices. In particular, the classical pulse correlation threatens security when sending decoy states. To address this problem and simplify experimental requirements, we propose a phase-matching quantum key distribution protocol without intensity modulation. Instead of using decoy states, we propose a novel method to estimate the theoretical upper bound on the phase error rate contributed by even-photon-number components. Simulation results show that the transmission distance of our protocol could reach 305 km in telecommunication fiber. Furthermore, we perform a proof-of-principle experiment to demonstrate the feasibility of our protocol, and the key rate reaches 22.5 bps under a 45 dB channel loss. Addressing the security loophole of pulse intensity correlation and replacing continuous random phase with 6 or 8 slices random phase, our protocol provides a promising solution for constructing quantum networks.
翻訳日:2023-06-22 17:36:12 公開日:2023-06-21
# 領域一般化における能力領域の探索

Finding Competence Regions in Domain Generalization ( http://arxiv.org/abs/2303.09989v3 )

ライセンス: Link先を確認
Jens M\"uller, Stefan T. Radev, Robert Schmier, Felix Draxler, Carsten Rother, Ullrich K\"othe(参考訳) テスト分布がトレーニング分布と異なるドメイン一般化(DG)におけるサイレント障害に対処するための「拒否学習」フレームワークについて検討する。 ゆるやかな分散シフトを仮定すると、モデルの推定能力が信頼できる応答を拒否するたびに、ood(out-of-distribution)データを新しいドメインから受け入れたいと思っています。 信頼度はプロキシ非能率スコアによって予測され、分類器のパフォーマンスと密接に関連している。 本稿では,既存のプロキシスコアを分類の非能率スコアとして総合的に評価し,拒否率と精度向上のトレードオフを明らかにする。 先行研究と組み合わせるために,標準dgベンチマークに着目し,クローズド対オープンワールドにおける異なる学習表現による非能率の測定の効果を検討する。 以上の結果から,不適格スコアの増加は精度の低下を予測し,適格不適格閾値以下では平均精度が有意に向上することが示唆された。 しかし、テスト対象のすべてのドメインで良好な精度/リジェクションのトレードオフを可能にするのに、スコアはまだ十分ではない。 また,DGロバスト性に最適化された分類器は,試験試料が低能力スコアを付与する能力領域において,単純な経験的リスク最小化(ERM)ベースラインを上回りません。

We investigate a "learning to reject" framework to address the problem of silent failures in Domain Generalization (DG), where the test distribution differs from the training distribution. Assuming a mild distribution shift, we wish to accept out-of-distribution (OOD) data from a new domain whenever a model's estimated competence foresees trustworthy responses, instead of rejecting OOD data outright. Trustworthiness is then predicted via a proxy incompetence score that is tightly linked to the performance of a classifier. We present a comprehensive experimental evaluation of existing proxy scores as incompetence scores for classification and highlight the resulting trade-offs between rejection rate and accuracy gain. For comparability with prior work, we focus on standard DG benchmarks and consider the effect of measuring incompetence via different learned representations in a closed versus an open world setting. Our results suggest that increasing incompetence scores are indeed predictive of reduced accuracy, leading to significant improvements of the average accuracy below a suitable incompetence threshold. However, the scores are not yet good enough to allow for a favorable accuracy/rejection trade-off in all tested domains. Surprisingly, our results also indicate that classifiers optimized for DG robustness do not outperform a naive Empirical Risk Minimization (ERM) baseline in the competence region, that is, where test samples elicit low incompetence scores.
翻訳日:2023-06-22 17:35:55 公開日:2023-06-21
# 拡散モデルによる概念の消去

Erasing Concepts from Diffusion Models ( http://arxiv.org/abs/2303.07345v3 )

ライセンス: Link先を確認
Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau(参考訳) 近年のテキストと画像の拡散の進展により,モデルの重みから特定の概念を消去する研究が進められている。 安定拡散は、明示的あるいは現実的なアートワークを作るという約束を示す一方で、誤用の可能性についての懸念を提起している。 そこで本稿では,スタイル名のみを考慮し,教師として負の指導を用いて,事前学習した拡散モデルから視覚概念を消去できる微調整手法を提案する。 我々は,性的に明示的な内容を取り除き,その効果を実証する従来の手法と比較し,Safe Latent Diffusionや検閲トレーニングと同等の性能を示す。 芸術的スタイルの除去を評価するため,ネットワークから5人の現代アーティストを消去する実験を行い,除去されたスタイルの人間の知覚を評価するためにユーザスタディを実施している。 従来の手法とは異なり,提案手法では,推定時に出力を変更するのではなく,拡散モデルから概念を永久的に取り除くことができるため,ユーザがモデル重み付けにアクセスしても回避できない。 私たちのコード、データ、結果はhttps://erasing.baulab.info/で閲覧できます。

Motivated by recent advancements in text-to-image diffusion, we study erasure of specific concepts from the model's weights. While Stable Diffusion has shown promise in producing explicit or realistic artwork, it has raised concerns regarding its potential for misuse. We propose a fine-tuning method that can erase a visual concept from a pre-trained diffusion model, given only the name of the style and using negative guidance as a teacher. We benchmark our method against previous approaches that remove sexually explicit content and demonstrate its effectiveness, performing on par with Safe Latent Diffusion and censored training. To evaluate artistic style removal, we conduct experiments erasing five modern artists from the network and conduct a user study to assess the human perception of the removed styles. Unlike previous methods, our approach can remove concepts from a diffusion model permanently rather than modifying the output at the inference time, so it cannot be circumvented even if a user has access to model weights. Our code, data, and results are available at https://erasing.baulab.info/
翻訳日:2023-06-22 17:35:26 公開日:2023-06-21
# 生成潜時拡散を用いたfMRI信号からの自然シーン再構成

Natural scene reconstruction from fMRI signals using generative latent diffusion ( http://arxiv.org/abs/2303.05334v2 )

ライセンス: Link先を確認
Furkan Ozcelik and Rufin VanRullen(参考訳) ニューラルデコーディング研究において、最も興味深いトピックの1つは、fMRI信号に基づいて知覚された自然画像の再構成である。 以前の研究では、低レベルな特性(形状、テクスチャ、レイアウト)や高レベルな特徴(オブジェクトの分類、シーンの記述的意味論)など、視覚の異なる側面を再現することに成功しているが、複雑なシーン画像のためにこれらの特性を一緒に再構築することはできなかった。 生成AIは、最近、複雑度の高い画像を生成する潜在拡散モデルで飛躍的な進歩を遂げた。 本稿では,この革新的な脳デコード技術を活用する方法について検討する。 我々は ``brain-diffuser'' という2段階のシーン復元フレームワークを提案する。 第一段階では、fMRI信号から、VDVAE(Very Deep Variational Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。 第2段階では、予測されたマルチモーダル機能(テキストとビジュアル)に基づく潜在拡散モデル(バータタイル拡散)の画像から画像へのフレームワークを用いて、最終的な再構成画像を生成する。 公開されているNatural Scenes Datasetベンチマークでは,従来のモデルよりも質的,定量的に優れている。 個別のROIマスクから生成された合成fMRIパターンに適用すると、トレーニングされたモデルが神経科学的な知識と整合した「ROI最適」シーンを生成する。 したがって、提案手法は応用(脳-コンピュータインタフェースなど)と基礎神経科学の両方に影響を及ぼす可能性がある。

In neural decoding research, one of the most intriguing topics is the reconstruction of perceived natural images based on fMRI signals. Previous studies have succeeded in re-creating different aspects of the visuals, such as low-level properties (shape, texture, layout) or high-level features (category of objects, descriptive semantics of scenes) but have typically failed to reconstruct these properties together for complex scene images. Generative AI has recently made a leap forward with latent diffusion models capable of generating high-complexity images. Here, we investigate how to take advantage of this innovative technology for brain decoding. We present a two-stage scene reconstruction framework called ``Brain-Diffuser''. In the first stage, starting from fMRI signals, we reconstruct images that capture low-level properties and overall layout using a VDVAE (Very Deep Variational Autoencoder) model. In the second stage, we use the image-to-image framework of a latent diffusion model (Versatile Diffusion) conditioned on predicted multimodal (text and visual) features, to generate final reconstructed images. On the publicly available Natural Scenes Dataset benchmark, our method outperforms previous models both qualitatively and quantitatively. When applied to synthetic fMRI patterns generated from individual ROI (region-of-interest) masks, our trained model creates compelling ``ROI-optimal'' scenes consistent with neuroscientific knowledge. Thus, the proposed methodology can have an impact on both applied (e.g. brain-computer interface) and fundamental neuroscience.
翻訳日:2023-06-22 17:35:07 公開日:2023-06-21
# 量子ランダムアクセスメモリの高効率・高効率データアクセスプロトコル

Efficient and Error-Resilient Data Access Protocols for a Limited-Sized Quantum Random Access Memory ( http://arxiv.org/abs/2303.05207v2 )

ライセンス: Link先を確認
Zhao-Yun Chen, Cheng Xue, Yun-Jie Wang, Tai-Ping Sun, Huan-Yu Liu, Xi-Ning Zhuang, Meng-Han Dou, Tian-Rui Zou, Yuan Fang, Yu-Chun Wu and Guo-Ping Guo(参考訳) 量子ランダムアクセスメモリ(QRAM)は、古典的なデータを量子コンピュータにロードするための重要なコンポーネントである。 実用的QRAMの構築には、無限大のQRAMサイズの不実用性や完全誤り訂正実装など、いくつかの課題があるが、QRAMが限られたサイズである場合を考えることが不可欠である。 この作業では、qramのサイズを増加させることなく、より大きなデータサイズへのアクセスにフォーカスします。 まず、実世界のデータセットは、従来の研究で注目されていた単一ビットのデータよりも大きな単語長を持つため、単語長の課題に対処する。 そこで本研究では,QRAMレベルを$n$にすることなく,単語長がより大きいデータを読み込む新しいプロトコルを提案する。 データクエリプロセスの並列性を活用することで、O(n+k)$の時間複雑性を実現し、既存のアプローチと比較してエラースケーリング性能を向上させる。 第2に,データ項目数が$2^n$を超える場合の汎用データアクセスタスクのためのデータローディング手法を提案し,既存のハイブリッドQRAM+QROMアーキテクチャより優れていることを示す。 提案手法は,QRAM デバイスにおける時間および誤差最適化データアクセスプロトコルの開発に寄与し,QRAM 実装におけるキュービット数およびエラー要求を低減し,物理キュービット数に制限のある実用的な QRAM デバイスの構築を容易にする。

Quantum Random Access Memory (QRAM) is a critical component for loading classical data into quantum computers. While constructing a practical QRAM presents several challenges, including the impracticality of an infinitely large QRAM size and a fully error-correction implementation, it is essential to consider a practical case where the QRAM has a limited size. In this work, we focus on the access of larger data sizes without keeping on increasing the size of the QRAM. Firstly, we address the challenge of word length, as real-world datasets typically have larger word lengths than the single-bit data that most previous studies have focused on. We propose a novel protocol for loading data with larger word lengths $k$ without increasing the number of QRAM levels $n$. By exploiting the parallelism in the data query process, our protocol achieves a time complexity of $O(n+k)$ and improves error scaling performance compared to existing approaches. Secondly, we provide a data-loading method for general-sized data access tasks when the number of data items exceeds $2^n$, which outperforms the existing hybrid QRAM+QROM architecture. Our method contributes to the development of time and error-optimized data access protocols for QRAM devices, reducing the qubit count and error requirements for QRAM implementation, and making it easier to construct practical QRAM devices with a limited number of physical qubits.
翻訳日:2023-06-22 17:34:39 公開日:2023-06-21
# 対照的な階層的クラスタリング

Contrastive Hierarchical Clustering ( http://arxiv.org/abs/2303.03389v2 )

ライセンス: Link先を確認
Micha{\l} Znale\'zniak, Przemys{\l}aw Rola, Patryk Kaszuba, Jacek Tabor, Marek \'Smieja(参考訳) ディープクラスタリングは、データセットを予め定義された数のグループに分割するフラットモデルによって支配されている。 最近の手法は、一般的なベンチマークで基底真理と非常に高い類似性を達成しているが、フラットパーティションに含まれる情報は限られている。 本稿では,一般的な画像データに適用可能な,ディープニューラルネットワークに基づく階層的クラスタリングモデルであるcohiclustを提案する。 自己教師付き学習アプローチを採用することで、cohiclustはラベル付きデータにアクセスせずにベースネットワークをバイナリツリーに蒸留する。 階層的クラスタリング構造は、クラスタ間の関係を解析したり、データポイント間の類似性を測定するために使用することができる。 実験では、cohiclustがクラスタの合理的な構造を生成していることが示されています。 さらに,最先端のフラットクラスタリングモデルと比較して,ほとんどの画像データセットにおいて優れたクラスタリング精度が得られる。

Deep clustering has been dominated by flat models, which split a dataset into a predefined number of groups. Although recent methods achieve an extremely high similarity with the ground truth on popular benchmarks, the information contained in the flat partition is limited. In this paper, we introduce CoHiClust, a Contrastive Hierarchical Clustering model based on deep neural networks, which can be applied to typical image data. By employing a self-supervised learning approach, CoHiClust distills the base network into a binary tree without access to any labeled data. The hierarchical clustering structure can be used to analyze the relationship between clusters, as well as to measure the similarity between data points. Experiments demonstrate that CoHiClust generates a reasonable structure of clusters, which is consistent with our intuition and image semantics. Moreover, it obtains superior clustering accuracy on most of the image datasets compared to the state-of-the-art flat clustering models.
翻訳日:2023-06-22 17:34:17 公開日:2023-06-21
# 平面内磁場によるツイスト二層グラフェンのディラック点

Dirac points for twisted bilayer graphene with in-plane magnetic field ( http://arxiv.org/abs/2303.00743v2 )

ライセンス: Link先を確認
Simon Becker and Maciej Zworski(参考訳) 平面内磁場が一定である二層グラフェン(TBG)のキラルモデルのディラック点について検討した。 固定された小さな磁場では、ねじれの角度が魔法の角度によって異なるため、ディラック点が k, k' $ point と $ \gamma $ point の間を移動する。 ディラックはゼロ磁場と非マジック角を K$ と $K'$ で表すが、非ゼロ磁場と近接魔法角の存在下では、それらは $ \Gamma $ で表す。 磁場の特殊方向については、ねじれ角度が変化するにつれてディラック点が移動し、直線に沿って直交し、区別点で直交することを示す。 分岐点において、融合したディラック点の線形分散関係は消失し、二次帯域交差点(QBCP)を示す。 結果は、興味深い追加構造を示すアニメーションへのリンクによって説明される。

We study Dirac points of the chiral model of twisted bilayer graphene (TBG) with constant in-plane magnetic field. For a fixed small magnetic field, we show that as the angle of twisting varies between magic angles, the Dirac points move between $ K, K' $ points and the $ \Gamma $ point. The Dirac points for zero magnetic field and non magic angles lie at $ K $ and $ K'$, while in the presence of a non-zero magnetic field and near magic angles, they lie near the $ \Gamma $ point. For special directions of the magnetic field, we show that the Dirac points move, as the twisting angle varies, along straight lines and bifurcate orthogonally at distinguished points. At the bifurcation points, the linear dispersion relation of the merging Dirac points disappears and exhibit a quadratic band crossing point (QBCP). The results are illustrated by links to animations suggesting interesting additional structure.
翻訳日:2023-06-22 17:33:41 公開日:2023-06-21
# SAMによる入力増強:Segmentation Foundation Modelによる医用画像分割の促進

Input Augmentation with SAM: Boosting Medical Image Segmentation with Segmentation Foundation Model ( http://arxiv.org/abs/2304.11332v2 )

ライセンス: Link先を確認
Yizhe Zhang, Tao Zhou, Shuo Wang, Peixian Liang, Danny Z. Chen(参考訳) Segment Anything Model (SAM) はコンピュータビジョンタスクのための汎用セグメンテーションのための大規模モデルである。 SAMは100万枚の画像と10億枚以上のマスクを使って訓練され、自然の風景画像に広範囲のオブジェクトのセグメンテーション結果を生成することができる。 SAMは、セグメンテーション(イメージを意味のある領域に分割する)の一般的な知覚モデルと見なすことができる。 このように、医療画像セグメンテーションにこのような大きな基盤モデルを利用する方法が、新たな研究対象となっている。 本報告では,SAMは医用画像データに高品質なセグメンテーションを提供していないが,その生成マスク,特徴,安定性スコアは,より優れた医用画像セグメンテーションモデルの構築と訓練に有用であることを示す。 特に,一般に用いられている医用画像分割モデル(U-Netなど)のイメージ入力をSAMで拡張する方法を示す。 3つのセグメンテーションタスクの実験は,提案手法の有効性を示した。 コードは \url{https://github.com/yizhezhang2000/samaug} で入手できる。

The Segment Anything Model (SAM) is a recently developed large model for general-purpose segmentation for computer vision tasks. SAM was trained using 11 million images with over 1 billion masks and can produce segmentation results for a wide range of objects in natural scene images. SAM can be viewed as a general perception model for segmentation (partitioning images into semantically meaningful regions). Thus, how to utilize such a large foundation model for medical image segmentation is an emerging research target. This paper shows that although SAM does not immediately give high-quality segmentation for medical image data, its generated masks, features, and stability scores are useful for building and training better medical image segmentation models. In particular, we demonstrate how to use SAM to augment image input for commonly-used medical image segmentation models (e.g., U-Net). Experiments on three segmentation tasks show the effectiveness of our proposed SAMAug method. The code is available at \url{https://github.com/yizhezhang2000/SAMAug}.
翻訳日:2023-06-22 17:25:53 公開日:2023-06-21
# ChemCrow: 化学ツールによる大規模言語モデルの強化

ChemCrow: Augmenting large-language models with chemistry tools ( http://arxiv.org/abs/2304.05376v4 )

ライセンス: Link先を確認
Andres M Bran, Sam Cox, Andrew D White, Philippe Schwaller(参考訳) 過去数十年間、優れた計算化学ツールが開発されてきた。 彼らの潜在能力は、ほとんどが学習し、孤立して存在するため、まだ到達していない。 近年,大規模言語モデル (LLM) は領域間のタスクにおいて高い性能を示したが,化学問題に苦慮している。 さらに、これらのモデルは外部の知識ソースにアクセスできず、科学的応用における有用性を制限している。 本研究では, 有機合成, 創薬, 材料設計における課題を遂行するLLM化学剤であるChemCrowを紹介する。 17のエキスパートが設計したツールを統合することで、化学におけるllmのパフォーマンスが向上し、新しい機能が出現する。 我々のエージェントは、昆虫忌避剤、3つの有機触媒、および他の関連分子の合成を自律的に計画した。 llmとエキスパートアセスメントの両方を含む評価は,化学タスクの多種多様な自動化におけるchemcrowの有効性を示す。 驚くべきことに,GPT-4を評価器として用いると,GPT-4の完成度とChemcrowの性能を区別できない。 chemcrowのようなツールの誤用には重大なリスクがあり、その潜在的な害について議論する。 我々の研究は、専門家の化学者を助けるだけでなく、実験化学と計算化学のギャップを埋めることによって科学的進歩を促進する。 コードのサブセットは \url{https://github.com/ur-whitelab/chemcrow-public} で公開されている。

Over the last decades, excellent computational chemistry tools have been developed. Their full potential has not yet been reached as most are challenging to learn and exist in isolation. Recently, large-language models (LLMs) have shown strong performance in tasks across domains, but struggle with chemistry-related problems. Moreover, these models lack access to external knowledge sources, limiting their usefulness in scientific applications. In this study, we introduce ChemCrow, an LLM chemistry agent designed to accomplish tasks across organic synthesis, drug discovery, and materials design. By integrating 17 expert-designed tools, ChemCrow augments the LLM performance in chemistry, and new capabilities emerge. Our agent autonomously planned the syntheses of an insect repellent, three organocatalysts, as well as other relevant molecules. Our evaluation, including both LLM and expert assessments, demonstrates ChemCrow's effectiveness in automating a diverse set of chemical tasks. Surprisingly, we find that GPT-4 as an evaluator cannot distinguish between clearly wrong GPT-4 completions and Chemcrow's performance. There is a significant risk of misuse of tools like ChemCrow, and we discuss their potential harms. Employed responsibly, our work not only aids expert chemists and lowers barriers for non-experts, but also fosters scientific advancement by bridging the gap between experimental and computational chemistry. A subset of the code is publicly available at \url{https://github.com/ur-whitelab/chemcrow-public}.
翻訳日:2023-06-22 17:24:50 公開日:2023-06-21
# 推論におけるWikidataQualifierの扱い

Handling Wikidata Qualifiers in Reasoning ( http://arxiv.org/abs/2304.03375v2 )

ライセンス: Link先を確認
Sahar Aljalbout, Gilles Falquet, Didier Buchs(参考訳) Wikidataは、様々なアプリケーションのために多くのコミュニティで採用されている知識グラフである。 Wikidataステートメントには、そのステートメントの妥当性、因果性、証明などといった情報を記述するのに使用される修飾子と値のペアがアノテートされている。 推論における修飾子処理は難しい問題である。 推論規則(特に、存在論的性質の規則(y の x サブクラス、x の z インスタンスなど)を定義するとき、それらの多くは文の意味論に参加するので、等式を考える必要がある。 これは複雑な問題を引き起こす。 a) 多数の修飾子が存在し,かつ b) 推論された文の修飾子はしばしば,規則条件における修飾子の組み合わせである。 本稿では,この問題に対処することを提案する。 a) 修飾子の分類を定義すること b) Wikidataモデルを多種多様な論理言語で形式化する。 我々は、この論理を推論規則の修飾子を効果的に扱う手段を提供する代数的仕様と結合する。 Wikidataのオントロジ特性を用いて,MSLと仕様を用いて修飾子を推論する方法を示す。 最後に,本研究を実践するための方法論とプロトタイプ実装について述べる。 この作業は、多種多様な代数的仕様の拡張性のおかげで自然に拡張することができ、不確実な時間、繰り返される出来事、地理的な位置など、仕様の多くの修飾子をカバーすることができる。

Wikidata is a knowledge graph increasingly adopted by many communities for diverse applications. Wikidata statements are annotated with qualifier-value pairs that are used to depict information, such as the validity context of the statement, its causality, provenances, etc. Handling the qualifiers in reasoning is a challenging problem. When defining inference rules (in particular, rules on ontological properties (x subclass of y, z instance of x, etc.)), one must consider the qualifiers, as most of them participate in the semantics of the statements. This poses a complex problem because a) there is a massive number of qualifiers, and b) the qualifiers of the inferred statement are often a combination of the qualifiers in the rule condition. In this work, we propose to address this problem by a) defining a categorization of the qualifiers b) formalizing the Wikidata model with a many-sorted logical language; the sorts of this language are the qualifier categories. We couple this logic with an algebraic specification that provides a means for effectively handling qualifiers in inference rules. Using Wikidata ontological properties, we show how to use the MSL and specification to reason on qualifiers. Finally, we discuss the methodology for practically implementing the work and present a prototype implementation. The work can be naturally extended, thanks to the extensibility of the many-sorted algebraic specification, to cover more qualifiers in the specification, such as uncertain time, recurring events, geographic locations, and others.
翻訳日:2023-06-22 17:24:08 公開日:2023-06-21
# ジオテクニカルパロット物語(GPT):ジオテクニカルエンジニアリングにおける大規模言語モデル

Geotechnical Parrot Tales (GPT): Harnessing Large Language Models in geotechnical engineering ( http://arxiv.org/abs/2304.02138v3 )

ライセンス: Link先を確認
Krishna Kumar(参考訳) openaiのchatgptのような大規模言語モデル(llm)の普及は、地球工学を含む様々な産業に革命をもたらす可能性がある。 しかし、GPTモデルは時に可聴音を発生させるが、誤った出力を発生させ、幻覚を引き起こす。 本稿では,これらのリスクを軽減し,GPTの潜在能力を地球工学的応用に活用する上で,迅速なエンジニアリングの重要性について論じる。 LLMに関連する課題と落とし穴を探り、正確で価値のある応答を保証する上でのコンテキストの役割を強調します。 さらに,データ分析や設計といった複雑なタスクの自然なインタフェースとなるための,文脈特異的検索エンジンの開発とLLMの可能性について検討する。 また,複雑な地盤工学タスクやデータ解析を扱うために,自然言語を用いた統一インターフェースを開発する。 GPTをジオテクニカルエンジニアリングワークフローに統合することにより、プロフェッショナルは作業の合理化と、将来にわたって持続可能なレジリエントなインフラストラクチャシステムの開発が可能になる。

The widespread adoption of large language models (LLMs), such as OpenAI's ChatGPT, could revolutionize various industries, including geotechnical engineering. However, GPT models can sometimes generate plausible-sounding but false outputs, leading to hallucinations. In this article, we discuss the importance of prompt engineering in mitigating these risks and harnessing the full potential of GPT for geotechnical applications. We explore the challenges and pitfalls associated with LLMs and highlight the role of context in ensuring accurate and valuable responses. Furthermore, we examine the development of context-specific search engines and the potential of LLMs to become a natural interface for complex tasks, such as data analysis and design. We also develop a unified interface using natural language to handle complex geotechnical engineering tasks and data analysis. By integrating GPT into geotechnical engineering workflows, professionals can streamline their work and develop sustainable and resilient infrastructure systems for the future.
翻訳日:2023-06-22 17:23:44 公開日:2023-06-21
# 浅いReLU$^k$ニューラルネットワークによる近似の最適速度と非パラメトリック回帰への応用

Optimal rates of approximation by shallow ReLU$^k$ neural networks and applications to nonparametric regression ( http://arxiv.org/abs/2304.01561v2 )

ライセンス: Link先を確認
Yunfei Yang, Ding-Xuan Zhou(参考訳) 浅層relu$^k$ニューラルネットワークに対応する変動空間の近似容量について検討した。 十分滑らかな函数は有限変分ノルムを持つこれらの空間に含まれることが示されている。 滑らかさの低い関数に対しては、変動ノルムの観点から近似率が確立される。 これらの結果を用いて、浅いReLU^k$ニューラルネットワークのニューロン数の観点から最適な近似率を証明できる。 また,これらの結果は深層ニューラルネットワークと畳み込みニューラルネットワーク(cnns)の近似境界を導出するために利用できることを示した。 応用例として、浅層ニューラルネットワーク、過パラメータニューラルネットワーク、cnnの3つのreluニューラルネットワークモデルを用いて、非パラメトリック回帰の収束率について検討する。 特に,深層ニューラルネットワークの最近の結果を補完するh\"older関数を学習する上で,浅いニューラルネットワークが最小の最適速度を達成可能であることを示す。 また、過パラメータ(深層または浅層)ニューラルネットワークが非パラメトリック回帰に対してほぼ最適速度を達成することも証明されている。

We study the approximation capacity of some variation spaces corresponding to shallow ReLU$^k$ neural networks. It is shown that sufficiently smooth functions are contained in these spaces with finite variation norms. For functions with less smoothness, the approximation rates in terms of the variation norm are established. Using these results, we are able to prove the optimal approximation rates in terms of the number of neurons for shallow ReLU$^k$ neural networks. It is also shown how these results can be used to derive approximation bounds for deep neural networks and convolutional neural networks (CNNs). As applications, we study convergence rates for nonparametric regression using three ReLU neural network models: shallow neural network, over-parameterized neural network, and CNN. In particular, we show that shallow neural networks can achieve the minimax optimal rates for learning H\"older functions, which complements recent results for deep neural networks. It is also proven that over-parameterized (deep or shallow) neural networks can achieve nearly optimal rates for nonparametric regression.
翻訳日:2023-06-22 17:23:29 公開日:2023-06-21
# 不均衡学習のための視覚言語モデルの検討

Exploring Vision-Language Models for Imbalanced Learning ( http://arxiv.org/abs/2304.01457v2 )

ライセンス: Link先を確認
Yidong Wang, Zhuohao Yu, Jindong Wang, Qiang Heng, Hao Chen, Wei Ye, Rui Xie, Xing Xie, Shikun Zhang(参考訳) 対照的な言語画像事前学習を用いた視覚言語モデル(vlms)では,ゼロショット分類性能が期待できる。 しかし、不均衡データセットにおけるそれらの性能は比較的貧弱であり、トレーニングデータセット内のクラスの分布が歪められ、少数クラスの予測性能が低下する。 例えば、CLIPはiNaturalist18データセットで5%の精度しか達成していない。 本稿では,多数のクラスが原因で発生するOOM(out of memory)問題を回避するために,VLMに軽量デコーダを追加することを提案する。 次に,Focal Loss, Balanced SoftMax, Distribution Alignmentなどの不均衡アルゴリズムを即時チューニング,微調整,組み込んだVLMの改良について検討する。 実験により、デコーダや不均衡な手法を用いる場合、VLMの性能をさらに向上できることが示されている。 具体的には,画像Net-LT,iNaturalist18,Places-LTでは,平均精度6.58%,69.82%,6.17%でゼロショット分類に優れていた。 さらに,事前トレーニングデータサイズ,バックボーン,トレーニングコストの影響についても分析した。 本研究では,大容量データによって事前学習されたVLMに直面する不均衡学習アルゴリズムの重要性を明らかにする。 コードをhttps://github.com/Im Balance-VLM/Im Balance-VLMでリリースします。

Vision-Language models (VLMs) that use contrastive language-image pre-training have shown promising zero-shot classification performance. However, their performance on imbalanced dataset is relatively poor, where the distribution of classes in the training dataset is skewed, leading to poor performance in predicting minority classes. For instance, CLIP achieved only 5% accuracy on the iNaturalist18 dataset. We propose to add a lightweight decoder to VLMs to avoid OOM (out of memory) problem caused by large number of classes and capture nuanced features for tail classes. Then, we explore improvements of VLMs using prompt tuning, fine-tuning, and incorporating imbalanced algorithms such as Focal Loss, Balanced SoftMax and Distribution Alignment. Experiments demonstrate that the performance of VLMs can be further boosted when used with decoder and imbalanced methods. Specifically, our improved VLMs significantly outperforms zero-shot classification by an average accuracy of 6.58%, 69.82%, and 6.17%, on ImageNet-LT, iNaturalist18, and Places-LT, respectively. We further analyze the influence of pre-training data size, backbones, and training cost. Our study highlights the significance of imbalanced learning algorithms in face of VLMs pre-trained by huge data. We release our code at https://github.com/Imbalance-VLM/Imbalance-VLM.
翻訳日:2023-06-22 17:23:11 公開日:2023-06-21
# ビジュアル・チェーン・オブ・サート拡散モデル

Visual Chain-of-Thought Diffusion Models ( http://arxiv.org/abs/2303.16187v2 )

ライセンス: Link先を確認
William Harvey and Frank Wood(参考訳) 条件付き画像拡散モデルによる最近の進歩は見事であり、テキスト記述やシーンレイアウト、スケッチで条件付けられたモデルについて話しているかは事実である。 非条件画像拡散モデルも改善されているが遅れており、クラスラベルのような低次元の特徴に基づく拡散モデルも同様である。 条件付きモデルと非条件型モデルのギャップを2段階サンプリング法を用いて閉じる。 最初の段階では、画像の意味的内容を記述する埋め込みをサンプリングする。 第2段階では、この埋め込みに条件付きイメージをサンプリングし、埋め込みを破棄する。 これにより、条件拡散モデルの非条件生成タスクのパワーを活用し、標準の非条件生成と比較してFIDを25-50%改善することを示す。

Recent progress with conditional image diffusion models has been stunning, and this holds true whether we are speaking about models conditioned on a text description, a scene layout, or a sketch. Unconditional image diffusion models are also improving but lag behind, as do diffusion models which are conditioned on lower-dimensional features like class labels. We propose to close the gap between conditional and unconditional models using a two-stage sampling procedure. In the first stage we sample an embedding describing the semantic content of the image. In the second stage we sample the image conditioned on this embedding and then discard the embedding. Doing so lets us leverage the power of conditional diffusion models on the unconditional generation task, which we show improves FID by 25-50% compared to standard unconditional generation.
翻訳日:2023-06-22 17:22:49 公開日:2023-06-21
# 接合系における点ギャップ位相位相のバルクエッジ対応

Bulk-Edge Correspondence for Point-Gap Topological Phases in Junction Systems ( http://arxiv.org/abs/2305.08548v2 )

ライセンス: Link先を確認
Geonhwi Hwang and Hideaki Obuse(参考訳) バルクエッジ対応は、トポロジカル位相の理論において最も重要な要素の1つである。 独立位相不変量を持つ2つのサブシステム同士が接続するエルミート接合系にはバルクエッジ対応が適用できるが、非エルミート点-ガップ位相位相を持つ接合系については議論されていない。 本稿では,非ブロッホバンド理論の接合系への拡張により得られた解析結果に基づき,接合系における点ギャップ位相相のバルクエッジ対応を確立する。 さらに固有状態を考えると、非エルミート接合系は特異な近接効果を示す。

The bulk-edge correspondence is one of the most important ingredients in the theory of topological phase of matter. While the bulk-edge correspondence is applicable for Hermitian junction systems where two subsystems with independent topological invariants are connected to each other, it has not been discussed for junction systems with non-Hermitian point-gap topological phases. In this Letter, based on analytical results obtained by the extension of non-Bloch band theory to junction systems, we establish the bulk-edge correspondence for point-gap topological phases in junction systems. Considering the eigenstates, further, we find that the non-Hermitian junction systems exhibit unique proximity effects.
翻訳日:2023-06-22 17:15:37 公開日:2023-06-21
# 低ランクスペクトル最適化のための部分凸化について:ランク境界とアルゴリズム

On the Partial Convexification for Low-Rank Spectral Optimization: Rank Bounds and Algorithms ( http://arxiv.org/abs/2305.07638v2 )

ライセンス: Link先を確認
Yongchun Li and Weijun Xie(参考訳) 低ランクスペクトル最適化問題(lsop)は、低ランクおよびスペクトル制約領域集合と交わる複数の2面線型行列不等式に対する線形目的対象を最小化する。 LSOPを解くことは一般にNPハードであるが、その部分凸化(すなわち、凸包で設定された領域をLSOP-Rと置き換える)は、しばしば取り外し可能であり、高品質な解が得られる。 これはLSOP-Rの強さを研究する動機となる。 具体的には、LSOP-R の可能な集合の任意の極点に対する階数境界を導出し、異なる行列空間を持つ領域集合に対するそれらの厳密性を証明する。 提案したランク境界は,文献中の2つのよく知られた結果を新しい角度から回収し,緩和LSOP-Rが元のLSOPと同値である十分な条件を導出することを可能にする。 LSOP-Rを効果的に解くために,ベクトルベースの凸価格オラクルを用いた列生成アルゴリズムとランク推論アルゴリズムを併用し,出力解が理論的なランク境界を満たすことを保証する。 最後に,LSOP-Rの強度と提案アルゴリズムの有効性を数値的に検証する。

A Low-rank Spectral Optimization Problem (LSOP) minimizes a linear objective subject to multiple two-sided linear matrix inequalities intersected with a low-rank and spectral constrained domain set. Although solving LSOP is, in general, NP-hard, its partial convexification (i.e., replacing the domain set by its convex hull) termed "LSOP-R," is often tractable and yields a high-quality solution. This motivates us to study the strength of LSOP-R. Specifically, we derive rank bounds for any extreme point of the feasible set of LSOP-R and prove their tightness for the domain sets with different matrix spaces. The proposed rank bounds recover two well-known results in the literature from a fresh angle and also allow us to derive sufficient conditions under which the relaxation LSOP-R is equivalent to the original LSOP. To effectively solve LSOP-R, we develop a column generation algorithm with a vector-based convex pricing oracle, coupled with a rank-reduction algorithm, which ensures the output solution satisfies the theoretical rank bound. Finally, we numerically verify the strength of the LSOP-R and the efficacy of the proposed algorithms.
翻訳日:2023-06-22 17:15:26 公開日:2023-06-21
# マルチモーダル感情分析:調査

Multimodal Sentiment Analysis: A Survey ( http://arxiv.org/abs/2305.07611v2 )

ライセンス: Link先を確認
Songning Lai, Haoxuan Xu, Xifeng Hu, Zhaoxia Ren and Zhi Liu(参考訳) マルチモーダル感情分析は人工知能の分野で重要な研究領域となっている。 ディープラーニングの最新技術により、この技術は新たな高度に達した。 応用と研究の両方に大きな可能性を秘めており、人気のある研究テーマとなっている。 本稿では,マルチモーダル感情分析の定義,背景,開発の概要について述べる。 また、最近のデータセットと高度なモデルもカバーし、この技術の課題と今後の展望を強調している。 最後に、今後の研究の方向性を推し進める。 このレビューは、有望な研究の方向性と、この分野の研究者に役立つマルチモーダル感情分析モデルの構築のための建設的な提案を提供していることに注意すべきである。

Multimodal sentiment analysis has become an important research area in the field of artificial intelligence. With the latest advances in deep learning, this technology has reached new heights. It has great potential for both application and research, making it a popular research topic. This review provides an overview of the definition, background, and development of multimodal sentiment analysis. It also covers recent datasets and advanced models, emphasizing the challenges and future prospects of this technology. Finally, it looks ahead to future research directions. It should be noted that this review provides constructive suggestions for promising research directions and building better performing multimodal sentiment analysis models, which can help researchers in this field.
翻訳日:2023-06-22 17:15:04 公開日:2023-06-21
# 治療効果推定のための近接近傍とニューラルネットワークモデルの統合

Integrating Nearest Neighbors with Neural Network Models for Treatment Effect Estimation ( http://arxiv.org/abs/2305.06789v2 )

ライセンス: Link先を確認
Niki Kiriakidou and Christos Diou(参考訳) 治療効果の推定は、多くの科学・工業分野の研究者と実践者の両方にとって重要である。 観測データの豊富さは、研究者によって因果効果の推定にますます使われてきた。 しかし、これらのデータはいくつかの弱点からバイアスに悩まされ、適切に扱わなければ不正確な因果効果を推定する。 そのため、ニューラルネットワークモデルの予測能力を活用して因果効果をより正確に推定することに注力する機械学習技術が提案されている。 そこで本研究では,ニューラルネットワークを用いた治療効果推定モデルにおいて,最も有用な近接情報の統合手法であるNearest Neighboring Information for Causal Inference (NNCI)を提案する。 NNCI法は、観測データを用いた治療効果推定のために、最も確立されたニューラルネットワークベースモデルの一部に適用される。 数値実験と解析は、NNCIと最先端のニューラルネットワークモデルとの統合が、様々なよく知られた挑戦的ベンチマークに対する治療効果推定を著しく改善する、経験的および統計的証拠を提供する。

Treatment effect estimation is of high-importance for both researchers and practitioners across many scientific and industrial domains. The abundance of observational data makes them increasingly used by researchers for the estimation of causal effects. However, these data suffer from biases, from several weaknesses, leading to inaccurate causal effect estimations, if not handled properly. Therefore, several machine learning techniques have been proposed, most of them focusing on leveraging the predictive power of neural network models to attain more precise estimation of causal effects. In this work, we propose a new methodology, named Nearest Neighboring Information for Causal Inference (NNCI), for integrating valuable nearest neighboring information on neural network-based models for estimating treatment effects. The proposed NNCI methodology is applied to some of the most well established neural network-based models for treatment effect estimation with the use of observational data. Numerical experiments and analysis provide empirical and statistical evidence that the integration of NNCI with state-of-the-art neural network models leads to considerably improved treatment effect estimations on a variety of well-known challenging benchmarks.
翻訳日:2023-06-22 17:14:53 公開日:2023-06-21
# 知識追跡と強化学習に基づく適応学習経路ナビゲーション

Adaptive Learning Path Navigation Based on Knowledge Tracing and Reinforcement Learning ( http://arxiv.org/abs/2305.04475v2 )

ライセンス: Link先を確認
Jyun-Yi Chen, Saeed Saeedvand and I-Wei Lai(参考訳) 本稿では,学生に高度に適応した学習経路を提供することにより,e-learningプラットフォームを強化する新しいアプローチであるadaptive learning path navigation (alpn)システムを提案する。 ALPNシステムは、学生の知識状態を評価するAKTモデルと、提案したEntropy-enhanced Proximal Policy Optimization (EPPO)アルゴリズムを統合する。 この新しいアルゴリズムは学習教材の推薦を最適化する。 これらのモデルを調和させることで、ALPNシステムは学生のニーズに合わせて学習経路を調整し、学習効率を大幅に向上させる。 実験の結果、ALPNシステムは学習結果の最大化において8.2%の先行研究を上回り、学習経路の生成において10.5%の多様性を提供することが示された。 提案システムは適応型E-ラーニングにおいて大きな進歩を示し,デジタル時代の教育環境を変革させる可能性がある。

This paper introduces the Adaptive Learning Path Navigation (ALPN) system, a novel approach for enhancing E-learning platforms by providing highly adaptive learning paths for students. The ALPN system integrates the Attentive Knowledge Tracing (AKT) model, which assesses students' knowledge states, with the proposed Entropy-enhanced Proximal Policy Optimization (EPPO) algorithm. This new algorithm optimizes the recommendation of learning materials. By harmonizing these models, the ALPN system tailors the learning path to students' needs, significantly increasing learning effectiveness. Experimental results demonstrate that the ALPN system outperforms previous research by 8.2% in maximizing learning outcomes and provides a 10.5% higher diversity in generating learning paths. The proposed system marks a significant advancement in adaptive E-learning, potentially transforming the educational landscape in the digital era.
翻訳日:2023-06-22 17:14:36 公開日:2023-06-21
# Segment Anything Model(SAM)が医療画像のセグメンテーションを促進する方法:サーベイ

How Segment Anything Model (SAM) Boost Medical Image Segmentation: A Survey ( http://arxiv.org/abs/2305.03678v2 )

ライセンス: Link先を確認
Yichi Zhang, Rushi Jiao(参考訳) プロンプトの柔軟性のため、基盤モデルは自然言語処理と画像生成の領域において支配的な力となっている。 最近のSAM(Segment Anything Model)の導入により、プロンプト駆動のパラダイムがイメージセグメンテーションの領域に入り、これまで探索されていなかったさまざまな機能を実現した。 しかし, 自然画像と医学画像の差が大きいため, 医用画像分割に適用できるのかは明らかでない。 本稿では,SAMの医療画像セグメンテーションにおける成功を,経験的ベンチマークと方法論的適応の両方を含む医療画像セグメンテーションタスクに拡張するための最近の取り組みを要約し,医療画像セグメンテーションにおけるSAMの将来的な方向性について論じる。 医療画像セグメンテーションにsamを直接適用しても、マルチモーダルおよびマルチターゲットの医療データセットで満足できる性能は得られないが、医療画像解析の基礎モデルを開発するための今後の研究を導くために、多くの洞察が寄せられている。 また、継続的に更新されたペーパーリストとオープンソースプロジェクトの概要を設定し、このトピックに関する調査をhttps://github.com/yichizhang98/sam4misで促進しました。

Due to the flexibility of prompting, foundation models have become the dominant force in the domains of natural language processing and image generation. With the recent introduction of the Segment Anything Model (SAM), the prompt-driven paradigm has entered the realm of image segmentation, bringing with a range of previously unexplored capabilities. However, it remains unclear whether it can be applicable to medical image segmentation due to the significant differences between natural images and medical images. In this work, we summarize recent efforts to extend the success of SAM to medical image segmentation tasks, including both empirical benchmarking and methodological adaptations, and discuss potential future directions for SAM in medical image segmentation. Although directly applying SAM to medical image segmentation cannot obtain satisfying performance on multi-modal and multi-target medical datasets, many insights are drawn to guide future research to develop foundation models for medical image analysis. We also set up a continuously updated paper list and open-source project summary to boost the research on this topic at https://github.com/YichiZhang98/SAM4MIS.
翻訳日:2023-06-22 17:14:19 公開日:2023-06-21
# 数値離散化精度のパラメータ再構成とモデルパラメータ分布への影響

Impact Study of Numerical Discretization Accuracy on Parameter Reconstructions and Model Parameter Distributions ( http://arxiv.org/abs/2305.02663v2 )

ライセンス: Link先を確認
Matthias Plock, Martin Hammerschmidt, Sven Burger, Philipp-Immanuel Schneider, Christof Sch\"utte(参考訳) 光ナノメートル法ではパラメータ再構成に広く用いられている。 ベイズ目標ベクトル最適化法を用いて、ナノ構造線格子の幾何学的パラメータを得るために、有限要素数値モデルをグレージング入射X線データセットに適合させる。 ガウス過程(確率的機械学習シュロゲートモデル)は再建の過程で訓練され、その後マルコフ連鎖モンテカルロサンプリング器を用いて再構成されたモデルパラメータの分布を決定する。 使用した有限要素モデルの数値離散化パラメータは前方モデルの数値離散化誤差に影響を与える。 有限要素アンザッツ関数の多項式次数が再構成パラメータおよびモデルパラメータ分布に与える影響について検討した。 このような収束実験により, 効率良く正確な復元結果が得られる数値パラメータを決定することができた。

In optical nano metrology numerical models are used widely for parameter reconstructions. Using the Bayesian target vector optimization method we fit a finite element numerical model to a Grazing Incidence X-Ray fluorescence data set in order to obtain the geometrical parameters of a nano structured line grating. Gaussian process, stochastic machine learning surrogate models, were trained during the reconstruction and afterwards sampled with a Markov chain Monte Carlo sampler to determine the distribution of the reconstructed model parameters. The numerical discretization parameters of the used finite element model impact the numerical discretization error of the forward model. We investigated the impact of the polynomial order of the finite element ansatz functions on the reconstructed parameters as well as on the model parameter distributions. We showed that such a convergence study allows to determine numerical parameters which allows for efficient and accurate reconstruction results.
翻訳日:2023-06-22 17:13:52 公開日:2023-06-21
# エアロゾル粒子を用いたフロンティア探査のためのハーシュサブテラナン環境からのマルチモーダルデータセット

Multimodal Dataset from Harsh Sub-Terranean Environment with Aerosol Particles for Frontier Exploration ( http://arxiv.org/abs/2304.14520v2 )

ライセンス: Link先を確認
Alexander Kyuroson, Niklas Dahlquist, Nikolaos Stathoulopoulos, Vignesh Kottayam Viswanathan, Anton Koval and George Nikolakopoulos(参考訳) グローバルナビゲーション衛星システム(gnss)を介さない環境における自律的ナビゲーションのためのアルゴリズムは、主にオンボード知覚システムに依存している。 これらのシステムは通常、カメラや光検出・ラング(LiDAR)のようなセンサーを内蔵しており、その性能はエアロゾル粒子の存在下で劣化する可能性がある。 したがって、これらのセンサから取得したデータと、そのような粒子を貫通する無線検出および範囲(radar)からのデータを融合する必要がある。 これにより, 環境条件下での局所化および衝突回避アルゴリズムの性能が向上する。 本稿では, エアロゾル粒子を用いた過酷で非構造な地下環境からのマルチモーダルデータセットを提案する。 データセットを収集するオンボードセンサと環境について詳細な説明を行い、取得したデータの完全な評価を可能にする。 さらに、このデータセットは、ロボットオペレーティングシステム(ros)形式のすべてのオンボードセンサからの同期生データ計測を含み、ナビゲーションの評価や、そのような環境におけるローカライズアルゴリズムが容易になる。 既存のデータセットとは対照的に,本稿では,時間的データと空間的データの両方をキャプチャするだけでなく,取得したデータに対する厳しい条件の影響について述べる。 そこで,このデータセットを検証するために,LiDAR搭載機からのオドメトリーの予備比較を行った。

Algorithms for autonomous navigation in environments without Global Navigation Satellite System (GNSS) coverage mainly rely on onboard perception systems. These systems commonly incorporate sensors like cameras and Light Detection and Rangings (LiDARs), the performance of which may degrade in the presence of aerosol particles. Thus, there is a need of fusing acquired data from these sensors with data from Radio Detection and Rangings (RADARs) which can penetrate through such particles. Overall, this will improve the performance of localization and collision avoidance algorithms under such environmental conditions. This paper introduces a multimodal dataset from the harsh and unstructured underground environment with aerosol particles. A detailed description of the onboard sensors and the environment, where the dataset is collected are presented to enable full evaluation of acquired data. Furthermore, the dataset contains synchronized raw data measurements from all onboard sensors in Robot Operating System (ROS) format to facilitate the evaluation of navigation, and localization algorithms in such environments. In contrast to the existing datasets, the focus of this paper is not only to capture both temporal and spatial data diversities but also to present the impact of harsh conditions on captured data. Therefore, to validate the dataset, a preliminary comparison of odometry from onboard LiDARs is presented.
翻訳日:2023-06-22 17:13:41 公開日:2023-06-21
# 言語から見た弱視映像の再検討

Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective ( http://arxiv.org/abs/2306.00595v4 )

ライセンス: Link先を確認
Yingying Fan and Yu Wu and Yutian Lin and Bo Du(参考訳) 音声/視覚モダリティのすべてのイベントを識別・特定することを目的とした,弱い教師付き音声映像解析タスク(avvp)に注目した。 それまでの作業は、モダリティにまたがるビデオレベルのラベルにのみフォーカスするが、隣接するビデオセグメント(すなわち1秒のビデオクリップ)が異なるイベントを含むセグメントレベルのラベルノイズを見落としている。 しかし、セグメント内のイベントを認識することは、そのラベルがビデオ内で発生するイベントの組み合わせである可能性があるため、難しい。 この問題を解決するために、言語の観点からAVVPに取り組むことを検討する。なぜなら、言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからだ。 具体的には、各ビデオのイベント出現のすべてのケースを記述する言語プロンプトを設計します。 次に、最も類似したプロンプトのイベントをセグメントレベルラベルとして、言語プロンプトとセグメントの類似度を算出する。 また,ラベルの誤りに対処するため,信頼できないセグメントに対して動的再重み付けを行い,ラベルを調整することを提案する。 実験により, 単純かつ効果的なアプローチが最先端の手法を大差で上回っていることが示された。

We focus on the weakly-supervised audio-visual video parsing task (AVVP), which aims to identify and locate all the events in audio/visual modalities. Previous works only concentrate on video-level overall label denoising across modalities, but overlook the segment-level label noise, where adjacent video segments (i.e., 1-second video clips) may contain different events. However, recognizing events in the segment is challenging because its label could be any combination of events that occur in the video. To address this issue, we consider tackling AVVP from the language perspective, since language could freely describe how various events appear in each segment beyond fixed labels. Specifically, we design language prompts to describe all cases of event appearance for each video. Then, the similarity between language prompts and segments is calculated, where the event of the most similar prompt is regarded as the segment-level label. In addition, to deal with the mislabeled segments, we propose to perform dynamic re-weighting on the unreliable segments to adjust their labels. Experiments show that our simple yet effective approach outperforms state-of-the-art methods by a large margin.
翻訳日:2023-06-22 17:06:15 公開日:2023-06-21
# 統合畳み込みブロック注意機構を用いたクロスドメイン車検出モデル

Cross-Domain Car Detection Model with Integrated Convolutional Block Attention Mechanism ( http://arxiv.org/abs/2305.20055v3 )

ライセンス: Link先を確認
Haoxuan Xu, Songning Lai, Xianyang Li, Yang Yang(参考訳) 車の検知は、特にカメラビジョンを通じて、コンピュータビジョンの分野に重点を置いており、広く普及している。 現在の自動車検出システムは良好な検出が可能であるが、車間距離、光強度、環境視認性などの要因により、信頼性の高い検出は依然として困難である。 これらの問題に対処するため,自動走行などの分野での車認識に適用可能な,畳み込みブロック注意機構(CDMA)を備えたクロスドメイン車検出モデルを提案する。 CDMAには、1)完全なクロスドメインターゲット検出フレームワークの構築。 2) 自動車ヘッドライトの特徴を具体的に強調する畳み込み注意機構を組み込んだ非対向目標ドメイン画像生成モジュールの開発。 3) 目標検出フレームワークの損失関数として一般対連合(GIOU)を適応する。 4)双方向畳み込みブロックアテンションモジュール(cbam)を組み込んだ物体検出モデルの設計 5)効果的なデータ拡張方法の活用。 モデルの有効性を評価するため、SSLADデータセットのデータに対して、reduce will resolutionプロセスを実行し、タスクのベンチマークデータセットとして使用しました。 実験の結果,クロスドメインカーターゲット検出モデルの性能は,フレームワークを使わずに40%向上し,クロスドメインカー認識にも大きな影響を与えることがわかった。

Car detection, particularly through camera vision, has become a major focus in the field of computer vision and has gained widespread adoption. While current car detection systems are capable of good detection, reliable detection can still be challenging due to factors such as proximity between the car, light intensity, and environmental visibility. To address these issues, we propose cross-domain Car Detection Model with integrated convolutional block Attention mechanism(CDMA) that we apply to car recognition for autonomous driving and other areas. CDMA includes several novelties: 1)Building a complete cross-domain target detection framework. 2)Developing an unpaired target domain picture generation module with an integrated convolutional attention mechanism which specifically emphasizes the car headlights feature. 3)Adopting Generalized Intersection over Union (GIOU) as the loss function of the target detection framework. 4)Designing an object detection model integrated with two-headed Convolutional Block Attention Module(CBAM). 5)Utilizing an effective data enhancement method. To evaluate the model's effectiveness, we performed a reduced will resolution process on the data in the SSLAD dataset and used it as the benchmark dataset for our task. Experimental results show that the performance of the cross-domain car target detection model improves by 40% over the model without our framework, and our improvements have a significant impact on cross-domain car recognition.
翻訳日:2023-06-22 17:05:55 公開日:2023-06-21
# ニューラルPDEサロゲートを用いたダイバータプラズマの高速動的1次元シミュレーション

Fast Dynamic 1D Simulation of Divertor Plasmas with Neural PDE Surrogates ( http://arxiv.org/abs/2305.18944v2 )

ライセンス: Link先を確認
Yoeri Poels, Gijs Derks, Egbert Westerhof, Koen Minartz, Sven Wiesen, Vlado Menkovski(参考訳) ダイバータプラズマの管理は、ダイバータターゲットの熱と粒子フラックスの制約により、原子炉スケールトカマク装置の動作に不可欠である。 シミュレーションは、これらのプラズマを理解し制御するための重要なツールであるが、リアルタイムアプリケーションや徹底的なパラメータスキャンでは、単純な近似のみが現在十分高速である。 古典的数値解法を用いて学習した,データ駆動型ニューラルネットワークに基づくサロゲートモデルであるneural pde surrogatesを用いた高速シミュレータの欠如に対処する。 サーロゲートは、参照物理学に基づくモデルの完全な空間解を時間とともに発展させる時間ステップ作用素を近似する。 データ生成の基準モデルとして,ダイバータプラズマの1次元動的モデルであるDIV1Dを用いる。 DIV1DドメインはX点(上流)からターゲットまでの1次元熱流束管をカバーしている。 我々は,上流密度ランプによって誘導されるダイナミックスで現実的なTCVダイバータプラズマをシミュレートし,高速過渡現象への探索的展望を提供する。 最先端のニューラルPDEサロゲートは共通のフレームワークで評価され、DIV1Dデータの性質のために拡張される。 1) 速度精度のトレードオフ, (2) 非線形動作の再現, (3) データ効率, (4) パラメータ間および外挿について評価する。 一度訓練すると、ニューラルpdeサロゲートは準リアルタイム計算速度でdiv1dのダイバータプラズマダイナミクスを忠実に近似することができる: 提案された構成では、プラズマダイナミクスの2msは壁時計時間の約0.63msで計算でき、div1dよりも数桁速い。

Managing divertor plasmas is crucial for operating reactor scale tokamak devices due to heat and particle flux constraints on the divertor target. Simulation is an important tool to understand and control these plasmas, however, for real-time applications or exhaustive parameter scans only simple approximations are currently fast enough. We address this lack of fast simulators using neural PDE surrogates, data-driven neural network-based surrogate models trained using solutions generated with a classical numerical method. The surrogate approximates a time-stepping operator that evolves the full spatial solution of a reference physics-based model over time. We use DIV1D, a 1D dynamic model of the divertor plasma, as reference model to generate data. DIV1D's domain covers a 1D heat flux tube from the X-point (upstream) to the target. We simulate a realistic TCV divertor plasma with dynamics induced by upstream density ramps and provide an exploratory outlook towards fast transients. State-of-the-art neural PDE surrogates are evaluated in a common framework and extended for properties of the DIV1D data. We evaluate (1) the speed-accuracy trade-off; (2) recreating non-linear behavior; (3) data efficiency; and (4) parameter inter- and extrapolation. Once trained, neural PDE surrogates can faithfully approximate DIV1D's divertor plasma dynamics at sub real-time computation speeds: In the proposed configuration, 2ms of plasma dynamics can be computed in $\approx$0.63ms of wall-clock time, several orders of magnitude faster than DIV1D.
翻訳日:2023-06-22 17:05:35 公開日:2023-06-21
# プロセス品質の定量化: ソフトウェア進化における効果的な組織学習の役割

Quantifying Process Quality: The Role of Effective Organizational Learning in Software Evolution ( http://arxiv.org/abs/2305.18061v3 )

ライセンス: Link先を確認
Sebastian H\"onel(参考訳) 現実世界のソフトウェアアプリケーションは、常に進化し続けなければならない。 この進化は、新しいアプリケーションを開発したり、新しい要求を満たしたり、修正したり、将来の機能を組み込んだりする際に起こります。 従来のソフトウェア品質管理には、ソフトウェア品質モデルと継続的コード検査ツールが含まれる。 これらの尺度は、ソフトウェアの品質を直接評価することに焦点を当てます。 しかし、開発プロセスの品質と結果のソフトウェア製品との間には、強い相関関係と因果関係がある。 したがって、開発プロセスの改善は間接的にソフトウェア製品も改善します。 これを実現するには、過去のプロセスから効果的な学習が必要であり、しばしば死後の組織学習を通じて受け入れられる。 大規模なアーティファクトの質的評価は一般的だが、アプリケーションライフサイクル管理によって得られる小さな量的変化はしばしば見過ごされる。 ソフトウェアメトリクスに加えて、これらの小さな変更は、プロジェクト文化とマネジメントに関連する複雑な現象を明らかにします。 これらの変更を活用することで、このような複雑な問題の検出と対処に役立ちます。 ソフトウェアの進化は以前、変更のサイズによって測定されていたが、信頼性と汎用性の定量化方法に関する合意の欠如は、信頼できるメトリクスとしての使用を妨げている。 異なる大きさの分類は進化の性質を確実に記述することができない。 アプリケーションのライフサイクル管理データは豊富だが、どのアーティファクトが有害な管理プラクティスをモデル化できるかはいまだ不明だ。 シミュレーションモデリング、離散事象シミュレーション、ベイズネットワークのようなアプローチは、そのような現象の連続的なプロセスモデルを利用する能力に限られる。 さらに悪いことに、このようなグレーまたはブラックボックスモデルに対するアクセシビリティと機械的な洞察は、通常非常に低い。 これらの課題に対処するために、客観的に活用することを提案します [...]

Real-world software applications must constantly evolve to remain relevant. This evolution occurs when developing new applications or adapting existing ones to meet new requirements, make corrections, or incorporate future functionality. Traditional methods of software quality control involve software quality models and continuous code inspection tools. These measures focus on directly assessing the quality of the software. However, there is a strong correlation and causation between the quality of the development process and the resulting software product. Therefore, improving the development process indirectly improves the software product, too. To achieve this, effective learning from past processes is necessary, often embraced through post mortem organizational learning. While qualitative evaluation of large artifacts is common, smaller quantitative changes captured by application lifecycle management are often overlooked. In addition to software metrics, these smaller changes can reveal complex phenomena related to project culture and management. Leveraging these changes can help detect and address such complex issues. Software evolution was previously measured by the size of changes, but the lack of consensus on a reliable and versatile quantification method prevents its use as a dependable metric. Different size classifications fail to reliably describe the nature of evolution. While application lifecycle management data is rich, identifying which artifacts can model detrimental managerial practices remains uncertain. Approaches such as simulation modeling, discrete events simulation, or Bayesian networks have only limited ability to exploit continuous-time process models of such phenomena. Even worse, the accessibility and mechanistic insight into such gray- or black-box models are typically very low. To address these challenges, we suggest leveraging objectively [...]
翻訳日:2023-06-22 17:04:39 公開日:2023-06-21
# rl + model-based control: オンデマンド最適制御を用いた多目的歩行学習

RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion ( http://arxiv.org/abs/2305.17842v2 )

ライセンス: Link先を確認
Dongho Kang, Jin Cheng, Miguel Zamora, Fatemeh Zargarbashi, Stelian Coros(参考訳) このレターは,モデルベース最適制御と強化学習(rl)を組み合わせた多目的かつロコモーションを実現するための制御フレームワークを提案する。 提案手法は,有限水平最適制御により発生するオンデマンド参照運動を取り入れ,幅広い速度と歩行をカバーし,RLトレーニングプロセスを強化する。 これらの参照動作は、RLポリシーを模倣するターゲットとなり、効率的にかつ確実に学習できる堅牢な制御ポリシーの開発につながる。 さらに、全身のダイナミクスを考慮することで、RLはモデリングの単純化の本質的な限界を克服する。 シミュレーションおよびハードウェア実験により,本フレームワークにおけるRLトレーニングプロセスの堅牢性と制御性を示す。 さらに,提案手法は参照動作を一般化し,より複雑な移動タスクを処理し,RLの柔軟性を活かした簡易モデルの課題を提起する。

This letter presents a control framework that combines model-based optimal control and reinforcement learning (RL) to achieve versatile and robust legged locomotion. Our approach enhances the RL training process by incorporating on-demand reference motions generated through finite-horizon optimal control, covering a broad range of velocities and gaits. These reference motions serve as targets for the RL policy to imitate, resulting in the development of robust control policies that can be learned efficiently and reliably. Moreover, by considering whole-body dynamics, RL overcomes the inherent limitations of modelling simplifications. Through simulation and hardware experiments, we demonstrate the robustness and controllability of the RL training process within our framework. Furthermore, our method demonstrates the ability to generalize reference motions and handle more complex locomotion tasks that may pose challenges for the simplified model, leveraging the flexibility of RL.
翻訳日:2023-06-22 17:04:15 公開日:2023-06-21
# テキスト分類器のすっきりした相関を抑える学習効果の制御

Controlling Learned Effects to Reduce Spurious Correlations in Text Classifiers ( http://arxiv.org/abs/2305.16863v2 )

ライセンス: Link先を確認
Parikshit Bansal, Amit Sharma(参考訳) NLP分類器がトレーニング特徴とターゲットラベルの急激な相関関係を学習する問題に対処するために、モデルの予測をこれらの特徴に不変にする方法が一般的である。 しかし、この機能がターゲットラベルに非ゼロ因果効果を持つ場合に逆生成的であり、したがって予測に重要である。 そこで,因果推論の文献から得られた手法を用いて,モデル予測における特徴の学習効果をラベルに対する特徴の予測効果に正則化するアルゴリズムを提案する。 これにより,特徴量の推定効果を利用してラベルを適切に変更する自動拡張手法が実現される。 毒性およびIMDBレビューデータセットについて、提案アルゴリズムは、スプリアス相関を最小化し、マイノリティグループ(すなわち、スプリアス相関を破るサンプル)の精度を向上するとともに、標準トレーニングと比較して総精度を向上する。

To address the problem of NLP classifiers learning spurious correlations between training features and target labels, a common approach is to make the model's predictions invariant to these features. However, this can be counter-productive when the features have a non-zero causal effect on the target label and thus are important for prediction. Therefore, using methods from the causal inference literature, we propose an algorithm to regularize the learnt effect of the features on the model's prediction to the estimated effect of feature on label. This results in an automated augmentation method that leverages the estimated effect of a feature to appropriately change the labels for new augmented inputs. On toxicity and IMDB review datasets, the proposed algorithm minimises spurious correlations and improves the minority group (i.e., samples breaking spurious correlations) accuracy, while also improving the total accuracy compared to standard training.
翻訳日:2023-06-22 17:04:00 公開日:2023-06-21
# 近似安定化器ランクの二次下限:確率論的アプローチ

Quadratic Lower bounds on the Approximate Stabilizer Rank: A Probabilistic Approach ( http://arxiv.org/abs/2305.10277v2 )

ライセンス: Link先を確認
Saeed Mehraban and Mehrdad Tahmasbi(参考訳) 量子状態の近似安定化器ランクは、その状態の任意の近似分解における最小の項数である。 Bravyi と Gosset は、$|T\rangle^{\otimes n}$ のようないわゆる「魔術的」状態の近似安定化ランクは、多項式因子まで、クリフォードゲートと$n$$$T$ゲートを持つ任意の量子回路をシミュレートするのに必要となる古典的な演算の回数の上限であることを示した。 その結果、この量に対する指数関数的な下限は避けられないように思える。 この直観にもかかわらず、様々な技法を使ったいくつかの試みは、状態を正確に生成する分解の最小サイズを意味する${|t\rangle}^{\otimes n}$の「実」ランクの線形下限よりも良い結果をもたらすことができなかった。 量子回路をシミュレートするコストとより現実的に関係している「近似」ランクについて、$\tilde \Omega(\sqrt n)$よりも低い境界は知られていない。 本論文では,近似パラメータの広い範囲に対して,近似ランクの下位境界を$\tilde \Omega (n^2)$に改善する。 この結果の直接の帰結は、多項式時間計算可能な関数の存在であり、任意の分解における超線形項数を$\mathbb{f}_2$ 上の二次形式の指数型に分解し、[wil18] で問題を解く。 提案手法は,Haar測度からサンプリングされた量子状態の近似ランクに基づく強い下限,Haar測度からサンプリングされたマジック状態テレポーテーションプロトコルの近似ランクのステップバイステップ解析,および[LKS18]で$T$ゲートでClifford演算を取引する結果に基づく。

The approximate stabilizer rank of a quantum state is the minimum number of terms in any approximate decomposition of that state into stabilizer states. Bravyi and Gosset showed that the approximate stabilizer rank of a so-called "magic" state like $|T\rangle^{\otimes n}$, up to polynomial factors, is an upper bound on the number of classical operations required to simulate an arbitrary quantum circuit with Clifford gates and $n$ number of $T$ gates. As a result, an exponential lower bound on this quantity seems inevitable. Despite this intuition, several attempts using various techniques could not lead to a better than a linear lower bound on the "exact" rank of ${|T\rangle}^{\otimes n}$, meaning the minimal size of a decomposition that exactly produces the state. For the "approximate" rank, which is more realistically related to the cost of simulating quantum circuits, no lower bound better than $\tilde \Omega(\sqrt n)$ has been known. In this paper, we improve the lower bound on the approximate rank to $\tilde \Omega (n^2)$ for a wide range of the approximation parameters. An immediate corollary of our result is the existence of polynomial time computable functions which require a super-linear number of terms in any decomposition into exponentials of quadratic forms over $\mathbb{F}_2$, resolving a question in [Wil18]. Our approach is based on a strong lower bound on the approximate rank of a quantum state sampled from the Haar measure, a step-by-step analysis of the approximate rank of a magic-state teleportation protocol to sample from the Haar measure, and a result about trading Clifford operations with $T$ gates by [LKS18].
翻訳日:2023-06-22 17:03:12 公開日:2023-06-21
# リモートセンシング画像の自己監督型マルチラベル分類のための能動的学習指導ファインチューニング

Active Learning Guided Fine-Tuning for enhancing Self-Supervised Based Multi-Label Classification of Remote Sensing Images ( http://arxiv.org/abs/2306.06908v2 )

ライセンス: Link先を確認
Lars M\"ollenbrok and Beg\"um Demir(参考訳) 近年、ディープニューラルネットワーク(DNN)は、リモートセンシング(RS)画像のマルチラベル分類(MLC)において非常に成功している。 自己教師付き事前学習とランダムに選択された小さなトレーニングセットの微調整を組み合わせることで、データ要求DNNのアノテーション作業を最小化するための一般的なアプローチとなっている。 しかし、小さな偏りのあるトレーニングセットの微調整は、モデルの性能を制限する可能性がある。 この問題に対処するために,能動学習(AL)による自己指導型プレトレーニングの併用の有効性を検討した。 AL戦略は,自己教師型モデルのMDC微調整を指導するために,反復的にアノテートするための情報的トレーニングサンプルを選択する。 実験の結果,AL誘導ファインチューニング(特にMLC問題に強いクラスバランスが存在する場合)をランダムに構築した小さなトレーニングセットを用いたファインチューニングに適用した場合の有効性が示された。

In recent years, deep neural networks (DNNs) have been found very successful for multi-label classification (MLC) of remote sensing (RS) images. Self-supervised pre-training combined with fine-tuning on a randomly selected small training set has become a popular approach to minimize annotation efforts of data-demanding DNNs. However, fine-tuning on a small and biased training set may limit model performance. To address this issue, we investigate the effectiveness of the joint use of self-supervised pre-training with active learning (AL). The considered AL strategy aims at guiding the MLC fine-tuning of a self-supervised model by selecting informative training samples to annotate in an iterative manner. Experimental results show the effectiveness of applying AL-guided fine-tuning (particularly for the case where strong class-imbalance is present in MLC problems) compared to the application of fine-tuning using a randomly constructed small training set.
翻訳日:2023-06-22 16:56:49 公開日:2023-06-21
# segment anything model (sam: vision foundation model meets prompt engineering) に関する調査

A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering ( http://arxiv.org/abs/2306.06211v2 )

ライセンス: Link先を確認
Chaoning Zhang, Sheng Zheng, Chenghao Li, Yu Qiao, Taegoo Kang, Xinru Shan, Chenshuang Zhang, Caiyan Qin, Francois Rameau, Sung-Ho Bae, Choong Seon Hong(参考訳) Meta AI Researchが開発したSegment Any Model(SAM)が最近注目を集めている。 10億以上のマスクからなる大きなセグメンテーションデータセットでトレーニングされたsamは、特定のイメージ上の任意のオブジェクトをセグメンテーションすることができる。 オリジナルのSAM研究において、著者らはSAMの性能を評価するためにゼロショート転送タスク(エッジ検出など)に切り替えた。 近年,多くの研究がSAMの性能を様々なシナリオで検証し,オブジェクトの認識とセグメント化を試みている。 さらに、Grounding DINO、Stable Diffusion、ChatGPTといった他のモデルと組み合わせることで、SAMの基盤モデルとしての汎用性を示すプロジェクトも数多く現れています。 関連論文やプロジェクトが指数関数的に増加する中、読者がSAMの開発に追いつくことは困難である。 この目的のために、この研究はSAMに関する最初の包括的調査を実施している。 これは進行中のプロジェクトであり、定期的に原稿を更新するつもりです。 したがって、読者は、samに関する新しい作品が完成したら、次のバージョンに含められるように連絡を頂きたいと思います。

Segment anything model (SAM) developed by Meta AI Research has recently attracted significant attention. Trained on a large segmentation dataset of over 1 billion masks, SAM is capable of segmenting any object on a certain image. In the original SAM work, the authors turned to zero-short transfer tasks (like edge detection) for evaluating the performance of SAM. Recently, numerous works have attempted to investigate the performance of SAM in various scenarios to recognize and segment objects. Moreover, numerous projects have emerged to show the versatility of SAM as a foundation model by combining it with other models, like Grounding DINO, Stable Diffusion, ChatGPT, etc. With the relevant papers and projects increasing exponentially, it is challenging for the readers to catch up with the development of SAM. To this end, this work conducts the first yet comprehensive survey on SAM. This is an ongoing project and we intend to update the manuscript on a regular basis. Therefore, readers are welcome to contact us if they complete new works related to SAM so that we can include them in our next version.
翻訳日:2023-06-22 16:56:32 公開日:2023-06-21
# 視線を信じないで - 機能の可視化の信頼性について

Don't trust your eyes: on the (un)reliability of feature visualizations ( http://arxiv.org/abs/2306.04719v2 )

ライセンス: Link先を確認
Robert Geirhos, Roland S. Zimmermann, Blair Bilodeau, Wieland Brendel, Been Kim(参考訳) ニューラルネットワークはどのようにピクセルからパターンを抽出するか? 機能の可視化は、最適化によって非常に活性化したパターンを視覚化することで、この重要な質問に答えようとしている。 今日、可視化手法は、機械的な解釈可能性の一種として、ニューラルネットワークの内部動作に関する我々の知識の基礎を形成している。 機能可視化はどの程度信頼できるのか? 我々は,自然入力上での通常のネットワーク動作から完全に切り離された任意のパターンを示すために,特徴可視化を騙すネットワーク回路の開発に着手する。 特徴視覚化は標準入力とは全く異なる処理を受けており、ニューラルネットワークが自然言語をどのように処理するかを「説明」する能力に疑問を呈している。 特徴視覚化によって確実に理解できる関数の集合は極めて小さく、一般的なブラックボックスニューラルネットワークを含まないことを証明した理論によるこの経験的発見を裏付ける。 そのため、より信頼性の高い特徴視覚化を実現するために、特定の構造を強制するネットワークの開発が期待できる。

How do neural networks extract patterns from pixels? Feature visualizations attempt to answer this important question by visualizing highly activating patterns through optimization. Today, visualization methods form the foundation of our knowledge about the internal workings of neural networks, as a type of mechanistic interpretability. Here we ask: How reliable are feature visualizations? We start our investigation by developing network circuits that trick feature visualizations into showing arbitrary patterns that are completely disconnected from normal network behavior on natural input. We then provide evidence for a similar phenomenon occurring in standard, unmanipulated networks: feature visualizations are processed very differently from standard input, casting doubt on their ability to "explain" how neural networks process natural images. We underpin this empirical finding by theory proving that the set of functions that can be reliably understood by feature visualization is extremely small and does not include general black-box neural networks. Therefore, a promising way forward could be the development of networks that enforce certain structures in order to ensure more reliable feature visualizations.
翻訳日:2023-06-22 16:56:14 公開日:2023-06-21
# 動的フィールドプログラム可能な中性原子配列プロセッサのための量子回路のコンパイル

Compiling Quantum Circuits for Dynamically Field-Programmable Neutral Atoms Array Processors ( http://arxiv.org/abs/2306.03487v2 )

ライセンス: Link先を確認
Daniel Bochen Tan, Dolev Bluvstein, Mikhail D. Lukin, Jason Cong(参考訳) dynamic field-programmable qubit arrays (dpqa) は量子情報処理の有望なプラットフォームとして最近登場した。 dpqaでは、原子量子ビットを光学トラップの配列に選択的にロードし、計算自体中に再構成することができる。 量子ビットのトランスポートと並列な量子演算を活用することで、量子ビットの異なるペア、あるいは遠く離れたものでさえ、量子プログラムの実行の異なる段階で絡み合うことができる。 このような再構成可能性と非ローカル接続性は、特にキュービットを配置し、ゲートをスケジュールするレイアウト合成ステップにおいて、コンパイルに新たな課題をもたらす。 本稿では,複数の配列を含むdpqaアーキテクチャを検討し,最先端の実験プラットフォームを表現した2次元アレイ動作をサポートする。 このアーキテクチャでは、状態空間とレイアウト合成を、回路深度の観点から、既存の解法によって最適に解ける満足なモジュラー理論問題として識別する。 複雑なコネクティビティを持つランダムグラフによって生成される一連のベンチマーク回路に対して,本コンパイラ olsq-dpqa は,固定平面アーキテクチャにおける最適コンパイル結果と比較して,小問題インスタンス上の2量子ゲート数を1.7倍削減する。 本手法のスケーラビリティと実用性をさらに高めるために,古典的集積回路ルーティングにおける反復剥離アプローチに触発された欲深いヒューリスティックを提案する。 グラディーと最適手法を組み合わせたハイブリッド手法を用いて、DPQAベースのコンパイル回路はグリッド固定アーキテクチャに比べてスケーリングオーバーヘッドを低減し、90量子ビットの量子回路では5.1倍の2量子ビットゲートが得られることを示した。 これらの方法は、プログラム可能で複雑な量子回路を中性原子量子コンピュータで実現し、将来のコンパイラと将来のハードウェアの選択の両方を知らせる。

Dynamically field-programmable qubit arrays (DPQA) have recently emerged as a promising platform for quantum information processing. In DPQA, atomic qubits are selectively loaded into arrays of optical traps that can be reconfigured during the computation itself. Leveraging qubit transport and parallel, entangling quantum operations, different pairs of qubits, even those initially far away, can be entangled at different stages of the quantum program execution. Such reconfigurability and non-local connectivity present new challenges for compilation, especially in the layout synthesis step which places and routes the qubits and schedules the gates. In this paper, we consider a DPQA architecture that contains multiple arrays and supports 2D array movements, representing cutting-edge experimental platforms. Within this architecture, we discretize the state space and formulate layout synthesis as a satisfactory modulo theories problem, which can be solved by existing solvers optimally in terms of circuit depth. For a set of benchmark circuits generated by random graphs with complex connectivities, our compiler OLSQ-DPQA reduces the number of two-qubit entangling gates on small problem instances by 1.7x compared to optimal compilation results on a fixed planar architecture. To further improve scalability and practicality of the method, we introduce a greedy heuristic inspired by the iterative peeling approach in classical integrated circuit routing. Using a hybrid approach that combined the greedy and optimal methods, we demonstrate that our DPQA-based compiled circuits feature reduced scaling overhead compared to a grid fixed architecture, resulting in 5.1X less two-qubit gates for 90 qubit quantum circuits. These methods enable programmable, complex quantum circuits with neutral atom quantum computers, as well as informing both future compilers and future hardware choices.
翻訳日:2023-06-22 16:55:57 公開日:2023-06-21
# WHAT, WHEN, HOW to Ground: Engaging Dialogue のためのユーザペルソナ対応対話エージェントの設計

WHAT, WHEN, and HOW to Ground: Designing User Persona-Aware Conversational Agents for Engaging Dialogue ( http://arxiv.org/abs/2306.03361v2 )

ライセンス: Link先を確認
Deuksin Kwon, Sunwoo Lee, Ki Hyun Kim, Seojin Lee, Taeyoon Kim, Eric Davis(参考訳) 本稿では,パーソナライズされた対話応答がカジュアルな応答ターンと密接な関係を持つ,商業環境での自然応答生成における$\textit{WHAT}$, $\textit{WHEN}$, $\textit{HOW}$)問題に対処する,パーソナライズされたオープンドメイン対話システムを構築する方法を提案する。 提案手法は、重み付きデータセットブレンディング、負のペルソナ情報拡張手法、パーソナライズされた会話データセットの設計を含み、パーソナライズされたオープンドメイン対話システムにおける$\textit{wwh}$の課題に対処する。 本研究は,対話の流速と接地傾向のバランスを効果的に保ちつつ,接地応答の制御性と説明性を向上させるための応答型ラベルを導入する。 これらの手法の組み合わせは、主観的人間評価や客観的評価によって示されるように、より流動的な会話につながる。

This paper presents a method for building a personalized open-domain dialogue system to address the $\textit{WWH}$ ($\textit{WHAT}$, $\textit{WHEN}$, and $\textit{HOW}$) problem for natural response generation in a commercial setting, where personalized dialogue responses are heavily interleaved with casual response turns. The proposed approach involves weighted dataset blending, negative persona information augmentation methods, and the design of personalized conversation datasets to address the challenges of $\textit{WWH}$ in personalized, open-domain dialogue systems. Our work effectively balances dialogue fluency and tendency to ground, while also introducing a response-type label to improve the controllability and explainability of the grounded responses. The combination of these methods leads to more fluent conversations, as evidenced by subjective human evaluations as well as objective evaluations.
翻訳日:2023-06-22 16:55:26 公開日:2023-06-21
# SGEM:シーケンスレベル一般化エントロピー最小化による自動音声認識のためのテスト時間適応

SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization ( http://arxiv.org/abs/2306.01981v4 )

ライセンス: Link先を確認
Changhun Kim, Joonhyung Park, Hajin Shim and Eunho Yang(参考訳) 自動音声認識(ASR)モデルは、多くの実世界のシナリオでデータ分散シフトに頻繁に晒され、誤った予測につながる。 この問題に対処するために、最近、ソースデータなしでラベルなしのテストインスタンスに事前学習されたasrモデルを適用するために、既存のテスト時間適応法(tta)が提案されている。 良好な性能向上にもかかわらず、本研究はナイーブな欲望復号にのみ依存し、モデル出力の逐次的性質を考えると最適ではないフレームレベルで時間ステップをまたいで適応する。 そこで我々は,一般的なASRモデルに対して,SGEMと呼ばれる新しいTTAフレームワークを提案する。 逐次出力を扱うために、SGEMはまずビームサーチを利用して候補出力ロジットを探索し、最も有効なものを選択する。 次に、一般化エントロピー最小化と負サンプリングを教師なしの目的とし、モデルを適応させる。 SGEMはドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を実現する。

Automatic speech recognition (ASR) models are frequently exposed to data distribution shifts in many real-world scenarios, leading to erroneous predictions. To tackle this issue, an existing test-time adaptation (TTA) method has recently been proposed to adapt the pre-trained ASR model on unlabeled test instances without source data. Despite decent performance gain, this work relies solely on naive greedy decoding and performs adaptation across timesteps at a frame level, which may not be optimal given the sequential nature of the model output. Motivated by this, we propose a novel TTA framework, dubbed SGEM, for general ASR models. To treat the sequential output, SGEM first exploits beam search to explore candidate output logits and selects the most plausible one. Then, it utilizes generalized entropy minimization and negative sampling as unsupervised objectives to adapt the model. SGEM achieves state-of-the-art performance for three mainstream ASR models under various domain shifts.
翻訳日:2023-06-22 16:55:03 公開日:2023-06-21
# PDT: タイムアウェアなバイパルタイトグラフのための事前訓練されたデュアルトランス

PDT: Pretrained Dual Transformers for Time-aware Bipartite Graphs ( http://arxiv.org/abs/2306.01913v2 )

ライセンス: Link先を確認
Xin Dai, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Chin-Chia Michael Yeh, Junpeng Wang, Liang Wang, Yan Zheng, Wei Zhang(参考訳) 大規模モデルの事前トレーニングは広く普及しており、多くの機械学習アプリケーションカテゴリでユーザー生成コンテンツが増え続けている。 ユーザとコンテンツの相互作用を記述するデータセットから文脈知識を学ぶことは、下流タスクにおいて重要な役割を果たすことが認識されている。 事前学習手法を用いて文脈知識を学習しようとするいくつかの研究にもかかわらず、このようなタスクのための最適な訓練目標と戦略を見つけることは難しい問題である。 本研究では,ユーザとコンテンツの相互作用を2部グラフとして表現できるデータセットに対して,文脈知識には2つの異なる側面,すなわちユーザ側とコンテンツ側があると主張する。 文脈知識を学習するために,ユーザ側とコンテンツ側の空間間の双方向マッピングを学習する事前学習手法を提案する。 学習目標をコントラスト学習タスクとして定式化し、文脈知識を符号化するデュアルトランスフォーマーアーキテクチャを提案する。 提案手法を推薦課題として評価する。 実験の結果,提案手法がすべてのベースラインを上回り,有意な利益を得た。

Pre-training on large models is prevalent and emerging with the ever-growing user-generated content in many machine learning application categories. It has been recognized that learning contextual knowledge from the datasets depicting user-content interaction plays a vital role in downstream tasks. Despite several studies attempting to learn contextual knowledge via pre-training methods, finding an optimal training objective and strategy for this type of task remains a challenging problem. In this work, we contend that there are two distinct aspects of contextual knowledge, namely the user-side and the content-side, for datasets where user-content interaction can be represented as a bipartite graph. To learn contextual knowledge, we propose a pre-training method that learns a bi-directional mapping between the spaces of the user-side and the content-side. We formulate the training goal as a contrastive learning task and propose a dual-Transformer architecture to encode the contextual knowledge. We evaluate the proposed method for the recommendation task. The empirical studies have demonstrated that the proposed method outperformed all the baselines with significant gains.
翻訳日:2023-06-22 16:54:44 公開日:2023-06-21
# MutateNN: ハードウェアアクセラレータにデプロイされた画像認識モデルの変異テスト

MutateNN: Mutation Testing of Image Recognition Models Deployed on Hardware Accelerators ( http://arxiv.org/abs/2306.01697v2 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan(参考訳) 近年の人工知能の研究進歩により、現実世界の問題を緩和し、技術的に前進する新たな機会が生まれている。 特に画像認識モデルは、複雑な現実世界の課題を軽減し、新しい解決策につながるために知覚タスクに割り当てられる。 さらに、そのようなモデルの資源に対する計算複雑性と需要も増大した。 これを軽減するために、モデル最適化とハードウェアアクセラレーションが動き出したが、そのような概念を効果的に統合することは困難でエラーを起こしやすいプロセスである。 デベロッパーと研究者は、異なるハードウェアアクセラレーションデバイスにデプロイされたディープラーニング画像認識モデルの堅牢性を調べるために、変異テストと解析機能を提供するツールであるMutateNNを提案する。 その能力を示すために、広く知られている7つの深層ニューラルネットワークモデルの21の変異を利用した。 計算能力の異なる4種類のミュータントに対して,条件演算に関連するミュータントと,算術型に関連するミュータントとの不安定な動作を観察した。

With the research advancement of Artificial Intelligence in the last years, there are new opportunities to mitigate real-world problems and advance technologically. Image recognition models in particular, are assigned with perception tasks to mitigate complex real-world challenges and lead to new solutions. Furthermore, the computational complexity and demand for resources of such models has also increased. To mitigate this, model optimization and hardware acceleration has come into play, but effectively integrating such concepts is a challenging and error-prone process. In order to allow developers and researchers to explore the robustness of deep learning image recognition models deployed on different hardware acceleration devices, we propose MutateNN, a tool that provides mutation testing and analysis capabilities for that purpose. To showcase its capabilities, we utilized 21 mutations for 7 widely-known pre-trained deep neural network models. We deployed our mutants on 4 different devices of varying computational capabilities and observed discrepancies in mutants related to conditional operations, as well as some unstable behaviour with those related to arithmetic types.
翻訳日:2023-06-22 16:54:26 公開日:2023-06-21
# figgen: テキストから科学的な図形生成

FigGen: Text to Scientific Figure Generation ( http://arxiv.org/abs/2306.00800v2 )

ライセンス: Link先を確認
Juan A. Rodriguez, David Vazquez, Issam Laradji, Marco Pedersoli, Pau Rodriguez(参考訳) 生成的モデリングのランドスケープは近年、特に自然画像や芸術の創造において、大きな成長を遂げている。 最近の技術は、印象的なリアリズムと品質を提供しながら、複雑な視覚的構成を作成する素晴らしい可能性を示している。 しかし、最先端の手法は自然画像の狭い領域に焦点を当てているが、他の分布は未探索のままである。 本稿では,テキスト記述から論文の科学的図形を作成するテキストから図形への生成の問題を紹介する。 本稿では,テキストから図形への拡散に基づくアプローチであるfiggenについて述べる。 コードとモデルはhttps://github.com/joanrod/graphic-diffusionで入手できる。

The generative modeling landscape has experienced tremendous growth in recent years, particularly in generating natural images and art. Recent techniques have shown impressive potential in creating complex visual compositions while delivering impressive realism and quality. However, state-of-the-art methods have been focusing on the narrow domain of natural images, while other distributions remain unexplored. In this paper, we introduce the problem of text-to-figure generation, that is creating scientific figures of papers from text descriptions. We present FigGen, a diffusion-based approach for text-to-figure as well as the main challenges of the proposed task. Code and models are available at https://github.com/joanrod/figure-diffusion
翻訳日:2023-06-22 16:53:43 公開日:2023-06-21
# サンプルベース追跡

Samplet basis pursuit ( http://arxiv.org/abs/2306.10180v2 )

ライセンス: Link先を確認
Davide Baroli, Helmut Harbrecht, and Michael Multerer(参考訳) 我々は,l1-regularizationによるサンプル座標のカーネルベース学習を検討する。 l1正規化項の適用は、サンプル基底に関して係数のスパーシティを強制する。 したがって、このアプローチをサンプルベース追跡と呼ぶ。 サンプルはウェーブレット型の符号付き測度で、散布したデータに合わせて調整される。 ローカライズ、マルチレゾリューション分析、データ圧縮といった点でウェーブレットと似た特性を持つ。 サンプルベースでスパース的に表現できる信号のクラスは、シングルスケールベースでスパース表現を示す信号のクラスよりもかなり大きい。 特に、標準的特徴写像のいくつかの特徴の重ね合わせによって表現できる全ての信号は、サンプル座標においてもスパースである。 ソフト収縮と半平滑ニュートン法を組み合わせることで検討中の問題の効率的な解法を提案し, 高速反復収縮しきい値化アルゴリズムとの比較を行った。 本稿では,複数のカーネルの辞書を用いて,ノイズデータからの表面復元や温度データの再構成を行うための数値ベンチマークを行う。

We consider kernel-based learning in samplet coordinates with l1-regularization. The application of an l1-regularization term enforces sparsity of the coefficients with respect to the samplet basis. Therefore, we call this approach samplet basis pursuit. Samplets are wavelet-type signed measures, which are tailored to scattered data. They provide similar properties as wavelets in terms of localization, multiresolution analysis, and data compression. The class of signals that can sparsely be represented in a samplet basis is considerably larger than the class of signals which exhibit a sparse representation in the single-scale basis. In particular, every signal that can be represented by the superposition of only a few features of the canonical feature map is also sparse in samplet coordinates. We propose the efficient solution of the problem under consideration by combining soft-shrinkage with the semi-smooth Newton method and compare the approach to the fast iterative shrinkage thresholding algorithm. We present numerical benchmarks as well as applications to surface reconstruction from noisy data and to the reconstruction of temperature data using a dictionary of multiple kernels.
翻訳日:2023-06-22 16:45:54 公開日:2023-06-21
# ボードゲームとしての行列対角化:解への最速経路を固有解法に教える

Matrix Diagonalization as a Board Game: Teaching an Eigensolver the Fastest Path to Solution ( http://arxiv.org/abs/2306.10075v2 )

ライセンス: Link先を確認
Phil Romero, Manish Bhattarai, Christian F. A. Negre, Anders M. N. Niklasson, Adetokunbo Adedoyin(参考訳) 行列対角化は科学計算の多くの分野の基盤となっている。 固有値問題を解くために行列を対角化するためには、すべての固有値と固有ベクトルに対して十分に収束し正確な解に到達する反復の逐次経路が必要である。 これは通常、高い計算コストに変換される。 ここでは、AlphaZeroフレームワークを用いた強化学習が、ボードゲームとして最も高速な解法を選択することで、ヤコビ行列対角化を加速することを示す。 本手法の有効性を示すために,量子化学計算に現れる対称ハミルトン行列に対してジャコビ対角化アルゴリズムを適用する。 私たちは、しばしば大きな加速が達成できるということに気付きました。 本研究は,数値線形代数の性能向上のために,機械学習を有望なツールとして活用する機会を強調した。

Matrix diagonalization is at the cornerstone of numerous fields of scientific computing. Diagonalizing a matrix to solve an eigenvalue problem requires a sequential path of iterations that eventually reaches a sufficiently converged and accurate solution for all the eigenvalues and eigenvectors. This typically translates into a high computational cost. Here we demonstrate how reinforcement learning, using the AlphaZero framework, can accelerate Jacobi matrix diagonalizations by viewing the selection of the fastest path to solution as a board game. To demonstrate the viability of our approach we apply the Jacobi diagonalization algorithm to symmetric Hamiltonian matrices that appear in quantum chemistry calculations. We find that a significant acceleration can often be achieved. Our findings highlight the opportunity to use machine learning as a promising tool to improve the performance of numerical linear algebra.
翻訳日:2023-06-22 16:45:39 公開日:2023-06-21
# 結晶特性予測のための完全原子間ポテンシャルの効率的な近似

Efficient Approximations of Complete Interatomic Potentials for Crystal Property Prediction ( http://arxiv.org/abs/2306.10045v2 )

ライセンス: Link先を確認
Yuchao Lin, Keqiang Yan, Youzhi Luo, Yi Liu, Xiaoning Qian, Shuiwang Ji(参考訳) 結晶材料の特性予測について検討する。 結晶構造は、無限に3d空間で繰り返される最小単位セルからなる。 このような繰り返し構造を機械学習モデルで正確に表現する方法はまだ未解決である。 現在の手法では、近傍のノード間でのみエッジを確立し、無限の繰り返しパターンや遠方の原子間相互作用を忠実に捉えることができないグラフを構築する。 本研究では,これらの限界を克服するためのいくつかのイノベーションを提案する。 まず,物理学を基本とした原子間ポテンシャルを直接モデル化することを提案する。 これらのポテンシャルにはクーロンポテンシャル、ロンドン分散ポテンシャル、パウリ反発ポテンシャルが含まれる。 第二に、既存の方法のように近くの原子間だけではなく、すべての原子間の完全なポテンシャルの集合をモデル化する。 これは証明可能な誤差境界を持つ無限ポテンシャル和の近似によって実現される。 近似を計算するための効率的なアルゴリズムを更に開発する。 最後に、完全な原子間ポテンシャルの計算をメッセージパッシングニューラルネットワークに組み込んで表現学習を提案する。 評価のためのJARVISおよびMaterial Projectベンチマーク実験を行った。 その結果、原子間ポテンシャルと完全な原子間ポテンシャルを用いることで、合理的な計算コストで一貫した性能向上が期待できる。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS)の一部として公開されています。

We study property prediction for crystal materials. A crystal structure consists of a minimal unit cell that is repeated infinitely in 3D space. How to accurately represent such repetitive structures in machine learning models remains unresolved. Current methods construct graphs by establishing edges only between nearby nodes, thereby failing to faithfully capture infinite repeating patterns and distant interatomic interactions. In this work, we propose several innovations to overcome these limitations. First, we propose to model physics-principled interatomic potentials directly instead of only using distances as in many existing methods. These potentials include the Coulomb potential, London dispersion potential, and Pauli repulsion potential. Second, we model the complete set of potentials among all atoms, instead of only between nearby atoms as in existing methods. This is enabled by our approximations of infinite potential summations with provable error bounds. We further develop efficient algorithms to compute the approximations. Finally, we propose to incorporate our computations of complete interatomic potentials into message passing neural networks for representation learning. We perform experiments on the JARVIS and Materials Project benchmarks for evaluation. Results show that the use of interatomic potentials and complete interatomic potentials leads to consistent performance improvements with reasonable computational costs. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS).
翻訳日:2023-06-22 16:45:24 公開日:2023-06-21
# グラフィカルモデル優先による構造化協調学習

Structured Cooperative Learning with Graphical Model Priors ( http://arxiv.org/abs/2306.09595v2 )

ライセンス: Link先を確認
Shuangtong Li, Tianyi Zhou, Xinmei Tian, Dacheng Tao(参考訳) ローカルデータに制限のある分散デバイス上で、さまざまなタスクに対してパーソナライズされたモデルをトレーニングする方法を研究する。 本稿では,デバイス間の相互学習を自動的にコーディネートするグラフィカルモデルにより,デバイス間の協調グラフを生成する「構造化協調学習(SCooL)」を提案する。 異なる構造を強制するグラフィカルモデルを選択することで、変分推論により、既存の新しい分散学習アルゴリズムの豊富なクラスを導き出すことができる。 特に,dirac分布,確率ブロックモデル(sbm),注意を先行生成協調グラフとして採用するscoolの3つのインスタンス化を示す。 これらのEM型アルゴリズムは、協調グラフの更新と局所モデルの協調学習を交互に行う。 協力グラフを最適化するために、モデル更新を監視するだけで、デバイス間のクロスタスク相関を自動的にキャプチャできる。 我々はSCooLを評価し,既存の分散学習手法と比較し,SCooLがパーソナライズされたモデルの最高精度を常に達成し,通信効率において他のベースラインを著しく上回ることを示す。 私たちのコードはhttps://github.com/ShuangtongLi/SCooL.comで利用可能です。

We study how to train personalized models for different tasks on decentralized devices with limited local data. We propose "Structured Cooperative Learning (SCooL)", in which a cooperation graph across devices is generated by a graphical model prior to automatically coordinate mutual learning between devices. By choosing graphical models enforcing different structures, we can derive a rich class of existing and novel decentralized learning algorithms via variational inference. In particular, we show three instantiations of SCooL that adopt Dirac distribution, stochastic block model (SBM), and attention as the prior generating cooperation graphs. These EM-type algorithms alternate between updating the cooperation graph and cooperative learning of local models. They can automatically capture the cross-task correlations among devices by only monitoring their model updating in order to optimize the cooperation graph. We evaluate SCooL and compare it with existing decentralized learning methods on an extensive set of benchmarks, on which SCooL always achieves the highest accuracy of personalized models and significantly outperforms other baselines on communication efficiency. Our code is available at https://github.com/ShuangtongLi/SCooL.
翻訳日:2023-06-22 16:45:08 公開日:2023-06-21
# ChatGPTはベトナム国立高校卒業試験に合格できるのか?

Can ChatGPT pass the Vietnamese National High School Graduation Examination? ( http://arxiv.org/abs/2306.09170v2 )

ライセンス: Link先を確認
Xuan-Quy Dao and Ngoc-Bich Le and Xuan-Dung Phan and Bac-Bien Ngo(参考訳) 本稿では,教育におけるAIを活用したチャットボットの可能性を強調し,ベトナム国立高校卒業試験(VNHSGE)を修了するために,大規模言語モデルChatGPTを用いた結果を示す。 研究データセットには、文献テストケースの30のエッセイと、他の被験者向けに設計された1,700のマルチチョイス質問が含まれていた。 その結果、chatgptは平均スコア6-7で試験に合格し、教育環境に革命をもたらす技術の可能性を示した。 ChatGPTのパフォーマンスの分析は、数学、英語、物理学、化学、生物学、歴史、地理、市民教育、文学など、様々な分野においてその習熟度を明らかにしており、学習者に効果的な支援を提供する可能性を示唆している。 しかし,より複雑な受験質問に対するchatgptの性能評価や,異なる文脈の学習者を支援する可能性について,さらなる研究が必要である。 テクノロジーが進化し、改善していくにつれ、ChatGPTのようなAIツールが教育現場でますます普及し、最終的には学生と教育者の教育体験が向上することを期待している。

This research article highlights the potential of AI-powered chatbots in education and presents the results of using ChatGPT, a large language model, to complete the Vietnamese National High School Graduation Examination (VNHSGE). The study dataset included 30 essays in the literature test case and 1,700 multiple-choice questions designed for other subjects. The results showed that ChatGPT was able to pass the examination with an average score of 6-7, demonstrating the technology's potential to revolutionize the educational landscape. The analysis of ChatGPT performance revealed its proficiency in a range of subjects, including mathematics, English, physics, chemistry, biology, history, geography, civic education, and literature, which suggests its potential to provide effective support for learners. However, further research is needed to assess ChatGPT performance on more complex exam questions and its potential to support learners in different contexts. As technology continues to evolve and improve, we can expect to see the use of AI tools like ChatGPT become increasingly common in educational settings, ultimately enhancing the educational experience for both students and educators.
翻訳日:2023-06-22 16:44:22 公開日:2023-06-21
# simplemapping: ディープマルチビューステレオを用いたリアルタイム視覚慣性密集マッピング

SimpleMapping: Real-Time Visual-Inertial Dense Mapping with Deep Multi-View Stereo ( http://arxiv.org/abs/2306.08648v2 )

ライセンス: Link先を確認
Yingye Xin, Xingxing Zuo, Dongyue Lu, Stefan Leutenegger(参考訳) 逐次単眼画像と慣性測定ユニット(IMU)のみを用いて高画質の3次元メッシュ再構成を行うことができるリアルタイムビジュアル慣性高密度マッピング法を提案する。 6-DoFカメラのポーズは、頑健な特徴に基づく視覚慣性計測(VIO)によって推定され、ノイズの多い3Dマップポイントを副産物として生成する。 本稿では,vioシステムから有益だがノイズの多いスパースポイントを効果的に活用できるスパースポイント支援マルチビューステレオニューラルネットワーク(spa-mvsnet)を提案する。 VIOからのスパース深度は、まず、シングルビュー深度完了ネットワークによって完了する。 この濃厚深さマップは、当然精度は限られているが、mvsネットワークのコストボリューム生成と正確な濃密深さ予測のための正規化を導くために、前もって使用される。 MVSネットワークによるキーフレーム画像の予測深度マップをTSDF-Fusionを用いてグローバルマップにインクリメンタルに融合する。 提案するspa-mvsnetと,複数の公開データセット上での視覚慣性的高密度マッピングシステムと,我々のデータセットの両方を評価し,システムの印象的な一般化能力と高品質な3dメッシュ再構成をオンラインで提供する能力を示した。 提案手法は,EuRoCデータセットの難易度評価において,既存システムよりも39.7%のFスコア向上を実現している。

We present a real-time visual-inertial dense mapping method capable of performing incremental 3D mesh reconstruction with high quality using only sequential monocular images and inertial measurement unit (IMU) readings. 6-DoF camera poses are estimated by a robust feature-based visual-inertial odometry (VIO), which also generates noisy sparse 3D map points as a by-product. We propose a sparse point aided multi-view stereo neural network (SPA-MVSNet) that can effectively leverage the informative but noisy sparse points from the VIO system. The sparse depth from VIO is firstly completed by a single-view depth completion network. This dense depth map, although naturally limited in accuracy, is then used as a prior to guide our MVS network in the cost volume generation and regularization for accurate dense depth prediction. Predicted depth maps of keyframe images by the MVS network are incrementally fused into a global map using TSDF-Fusion. We extensively evaluate both the proposed SPA-MVSNet and the entire visual-inertial dense mapping system on several public datasets as well as our own dataset, demonstrating the system's impressive generalization capabilities and its ability to deliver high-quality 3D mesh reconstruction online. Our proposed dense mapping system achieves a 39.7% improvement in F-score over existing systems when evaluated on the challenging scenarios of the EuRoC dataset.
翻訳日:2023-06-22 16:44:03 公開日:2023-06-21
# マルチモーダル集中型知識グラフによる未知物体の認識

Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph Propagation ( http://arxiv.org/abs/2306.08487v2 )

ライセンス: Link先を確認
Likang Wu, Zhi Li, Hongke Zhao, Zhefeng Wang, Qi Liu, Baoxing Huai, Nicholas Jing Yuan, Enhong Chen(参考訳) Zero-Shot Learning (ZSL)は、見えないオブジェクトを自動的に認識することを目的としており、マシンに対する新しい現実世界の知識を継続的に理解するための、有望な学習パラダイムである。 近年、知識グラフ(kg)は、ゼロショットタスクを大規模かつ非帰属データで扱うための効果的なスキームとして証明されている。 先行研究は常に、見えないオブジェクトと見えないオブジェクトの関係を、既存の知識グラフから視覚情報に埋め込み、見えないデータの認知能力を促進する。 実際、現実世界の知識は自然にマルチモーダルな事実によって形成されます。 グラフの観点からの通常の構造的知識と比較して、マルチモーダルkgはきめ細かい知識を持つ認知システムを提供できる。 例えば、テキスト記述とビジュアルコンテンツは、知識のトリプレットのみに依存するよりも、事実のより重要な詳細を描写することができる。 残念ながら、このマルチモーダルなきめ細かな知識は、異なるモダリティ間の機能アライメントのボトルネックのため、ほとんど展開されていない。 そこで我々は,画像の領域と対応するセマンティックな埋め込みとを,設計した集中型注目モジュールと自己校正損失によってマッチングする多モード集中型ZSLフレームワークを提案する。 これにより、ZSLフレームワークのセマンティックトランスファープロセスは、エンティティ間のより分化した知識を学習する。 私たちのモデルは、粗いグローバル機能のみを使用する場合のパフォーマンス制限も取り除きます。 大規模実世界データを用いた大規模実験を行い,モデルの評価を行った。 実験結果は,標準ゼロショット分類タスクにおける提案モデルの有効性を明らかにした。

Zero-Shot Learning (ZSL), which aims at automatically recognizing unseen objects, is a promising learning paradigm to understand new real-world knowledge for machines continuously. Recently, the Knowledge Graph (KG) has been proven as an effective scheme for handling the zero-shot task with large-scale and non-attribute data. Prior studies always embed relationships of seen and unseen objects into visual information from existing knowledge graphs to promote the cognitive ability of the unseen data. Actually, real-world knowledge is naturally formed by multimodal facts. Compared with ordinary structural knowledge from a graph perspective, multimodal KG can provide cognitive systems with fine-grained knowledge. For example, the text description and visual content can depict more critical details of a fact than only depending on knowledge triplets. Unfortunately, this multimodal fine-grained knowledge is largely unexploited due to the bottleneck of feature alignment between different modalities. To that end, we propose a multimodal intensive ZSL framework that matches regions of images with corresponding semantic embeddings via a designed dense attention module and self-calibration loss. It makes the semantic transfer process of our ZSL framework learns more differentiated knowledge between entities. Our model also gets rid of the performance limitation of only using rough global features. We conduct extensive experiments and evaluate our model on large-scale real-world data. The experimental results clearly demonstrate the effectiveness of the proposed model in standard zero-shot classification tasks.
翻訳日:2023-06-22 16:43:37 公開日:2023-06-21
# TopP&R: 生成モデルの忠実度と多様性を評価するロバスト支援推定手法

TopP&R: Robust Support Estimation Approach for Evaluating Fidelity and Diversity in Generative Models ( http://arxiv.org/abs/2306.08013v2 )

ライセンス: Link先を確認
Pum Jun Kim, Yoojin Jang, Jisu Kim, Jaejun Yoo(参考訳) 本稿では,厳密な支持推定のためのトポロジカルおよび統計的処理を導入することにより,生成モデルに対する堅牢で信頼性の高い評価指標を提案する。 inception score (is), frechet inception distance (fid), and the variants of precision and recall (p&r)といった既存のメトリクスは、サンプル機能から推定されるサポートに大きく依存している。 しかし、評価の質が全く依存しているにもかかわらず、それらの評価の信頼性は真剣に議論されていない(そして見落としている)。 本稿では,位相的および統計的に重要な特徴のみをある程度の信頼度で保持し,サポートを推定するための体系的アプローチとして,位相的精度とリコール(topp&r,「topper」と発音する)を提案する。 これにより、TopP&Rはノイズの多い機能に対して強固になるだけでなく、統計的一貫性も提供する。 理論および実験結果から,TopP&Rは試料の真の変化傾向を正確に把握しつつ,非独立かつ同一に分布する(Non-IID)摂動に対して堅牢であることが示された。 我々の知る限りでは、これはサポートの堅牢な見積もりに焦点を当てた最初の評価基準であり、ノイズ下での統計的一貫性を提供する。

We propose a robust and reliable evaluation metric for generative models by introducing topological and statistical treatments for rigorous support estimation. Existing metrics, such as Inception Score (IS), Frechet Inception Distance (FID), and the variants of Precision and Recall (P&R), heavily rely on supports that are estimated from sample features. However, the reliability of their estimation has not been seriously discussed (and overlooked) even though the quality of the evaluation entirely depends on it. In this paper, we propose Topological Precision and Recall (TopP&R, pronounced 'topper'), which provides a systematic approach to estimating supports, retaining only topologically and statistically important features with a certain level of confidence. This not only makes TopP&R strong for noisy features, but also provides statistical consistency. Our theoretical and experimental results show that TopP&R is robust to outliers and non-independent and identically distributed (Non-IID) perturbations, while accurately capturing the true trend of change in samples. To the best of our knowledge, this is the first evaluation metric focused on the robust estimation of the support and provides its statistical consistency under noise.
翻訳日:2023-06-22 16:43:16 公開日:2023-06-21
# 一般化 $ \left\{ h (1) \oplus h(1) \right\} \uplus u(2) $ commensurate anisotropic Hamiltoninan and ladder operator; energy spectrum, eigenstates and associated coherent and squeezeed state

Generalized $ \left\{ h (1) \oplus h(1) \right\} \uplus u(2) $ commensurate anisotropic Hamiltoninan and ladder operators; energy spectrum, eigenstates and associated coherent and squeezed states ( http://arxiv.org/abs/2306.07889v3 )

ライセンス: Link先を確認
Nibaldo-Edmundo Alvarez-Moraga(参考訳) 本稿では、複素数 $ \left\{ h (1) \oplus h(1) \right\} \uplus u(2) $ Lie algebra の要素であるハミルトニアンが、この代数の要素であるはしご作用素を認める条件について研究した。 このように構成された下降作用素の代数固有状態を計算し、それらからこのハミルトニアンのエネルギースペクトルとエネルギー固有状態の両方を、対応する昇降作用素の助けを借りて通常に生成する。 したがって、一般化ハミルトニアン系のいくつかの族が発見され、適切な類似性変換の下では、1:1, 2:1, 1:2, $su(2)$ および他の非共役および可換な異方性2次元量子振動子系を見つける基本的な系の集合に還元される。 ハミルトニアンの正規化固有状態とその関連する下降作用素に対する明示的な表現が与えられ、二モード分離可能および非分離一般化コヒーレントおよびスクイーズ状態の古典構造を示す。 最後に、上記のすべての結果に基づいて、$p:q$ coprime commensurate 異方性量子振動子のための新しいラダー演算子の提案が行われ、chen $su(2)$コヒーレント状態のクラスへと導かれる。

In this article a study was made of the conditions under which a Hamiltonian which is an element of the complex $ \left\{ h (1) \oplus h(1) \right\} \uplus u(2) $ Lie algebra admits ladder operators which are also elements of this algebra. The algebra eigenstates of the lowering operator constructed in this way are computed and from them both the energy spectrum and the energy eigenstates of this Hamiltonian are generated in the usual way with the help of the corresponding raising operator. Thus, several families of generalized Hamiltonian systems are found, which, under a suitable similarity transformation, reduce to a basic set of systems, among which we find the 1:1, 2:1, 1:2, $su(2)$ and some other non-commensurate and commensurate anisotropic 2D quantum oscillator systems. Explicit expressions for the normalized eigenstates of the Hamiltonian and its associated lowering operator are given, which show the classical structure of two-mode separable and non-separable generalized coherent and squeezed states. Finally, based on all the above results, a proposal for new ladder operators for the $p:q$ coprime commensurate anisotropic quantum oscillator is made, which leads us to a class of Chen $SU(2)$ coherent states.
翻訳日:2023-06-22 16:42:52 公開日:2023-06-21
# sure thing原理違反の確率論的説明における \textit{quantum} とは何か?

What is \textit{Quantum} in Probabilistic Explanations of the Sure Thing Principle Violation? ( http://arxiv.org/abs/2306.11947v1 )

ライセンス: Link先を確認
Nematollah Farhadi Mahalli and Onur Pusuluk(参考訳) 囚人のジレンマゲーム(PDG)は、人間の意思決定過程の確率論的性質の単純なテストベッドの1つである。 このゲームでは、何十年にもわたって行動実験が行われ、決定の合理理論の重要な原理であるいわゆる「textit{sure thing principle}」に違反している。 量子確率モデルは、この違反を古典的確率論では説明できない2階干渉効果として説明することができる。 本稿では、一般化確率論の枠組みを採用し、量子情報理論の観点からこの説明にアプローチし、干渉の原因を特定する。 特に、密度行列形式を用いて既存の量子確率モデルの1つを再構成し、あるプレイヤーのPDGにおける他のプレイヤーの行動に関する予測に対する古典的および量子的不確実性が異なる量を考慮する。 これにより、違反の説明が可能となるのは、プレイヤーの初期予測における \textit{quantum coherence} の存在と、そのダイナミクスにおける確率への変換であることを示すことができる。 さらに、意思決定プロセスにおける他の量子情報理論量(量子絡み合いなど)の役割についても論じる。 最後に、量子確率論の予測力と、それを含むより一般的な確率論的理論を比較し、3階干渉を示すPDGの3選択拡張を提案する。

The Prisoner's Dilemma game (PDG) is one of the simple test-beds for the probabilistic nature of the human decision-making process. Behavioral experiments have been conducted on this game for decades and show a violation of the so-called \textit{sure thing principle}, a key principle in the rational theory of decision. Quantum probabilistic models can explain this violation as a second-order interference effect, which cannot be accounted for by classical probability theory. Here, we adopt the framework of generalized probabilistic theories and approach this explanation from the viewpoint of quantum information theory to identify the source of the interference. In particular, we reformulate one of the existing quantum probabilistic models using density matrix formalism and consider different amounts of classical and quantum uncertainties for one player's prediction about another player's action in PDG. This enables us to demonstrate that what makes possible the explanation of the violation is the presence of \textit{quantum coherence} in the player's initial prediction and its conversion to probabilities during the dynamics. Moreover, we discuss the role of other quantum information-theoretical quantities, such as quantum entanglement, in the decision-making process. Finally, we propose a three-choice extension of the PDG to compare the predictive powers of quantum probability theory and a more general probabilistic theory that includes it as a particular case and exhibits third-order interference.
翻訳日:2023-06-22 15:26:55 公開日:2023-06-21
# パラメータ化されたコヒーレンス尺度

Parameterized coherence measure ( http://arxiv.org/abs/2306.11973v1 )

ライセンス: Link先を確認
Meng-Li Guo, Zhi-Xiang Jin, Jin-Min Liang, Bo Li, and Shao-Ming Fei(参考訳) 量子コヒーレンス(英語版)は量子力学の基礎と量子技術の両方にとって重要な取り組みである。 我々は、Tsallis 相対作用素 $(\alpha, \beta)$-エントロピーを利用して、量子コヒーレンスのボナフェイド測度を示す。 まず,提案するコヒーレンス測度が,量子コヒーレンス資源理論の強い単調性を含む,明確に定義されたコヒーレンス測度のすべての基準を満たすことを証明した。 次に、Tsallis 相対作用素 $(\alpha, \beta)$-entropy of coherence, Tsallis relative $\alpha$-entropies of coherence, R\'{e}nyi $\alpha$-entropy of coherence, $l_{1}$ norm of coherence for both pure and mixed qubit states の順序について検討する。 これは新しいコヒーレンス測度と絡み合い測度を定義する新しい方法を提供し、さらに量子コヒーレンスの研究のための新しいアイデアを提供する。

Quantifying coherence is an essential endeavor for both quantum mechanical foundations and quantum technologies. We present a bona fide measure of quantum coherence by utilizing the Tsallis relative operator $(\alpha, \beta)$-entropy. We first prove that the proposed coherence measure fulfills all the criteria of a well defined coherence measure, including the strong monotonicity in the resource theories of quantum coherence. We then study the ordering of the Tsallis relative operator $(\alpha, \beta)$-entropy of coherence, Tsallis relative $\alpha$-entropies of coherence, R\'{e}nyi $\alpha$-entropy of coherence and $l_{1}$ norm of coherence for both pure and mixed qubit states. This provides a new method for defining new coherence measure and entanglement measure, and also provides a new idea for further study of quantum coherence.
翻訳日:2023-06-22 15:18:59 公開日:2023-06-21
# AdCraft: 検索エンジンマーケティング最適化のための高度な強化学習ベンチマーク環境

AdCraft: An Advanced Reinforcement Learning Benchmark Environment for Search Engine Marketing Optimization ( http://arxiv.org/abs/2306.11971v1 )

ライセンス: Link先を確認
Maziar Gomrokchi, Owen Levin, Jeffrey Roach, Jonah White(参考訳) 本稿では,RL(Reinforcement Learning)コミュニティのための新しいベンチマーク環境である \env{} について紹介する。 この環境は、検索エンジンの検索結果ページ(serps)上のウェブサイトの可視性を高めるために有料広告を利用するデジタルマーケティング技術である検索エンジンマーケティング(sem)における入札と予算のダイナミクスをシミュレートする。 SEM広告キャンペーンのパフォーマンスは、キーワード選択、広告デザイン、入札管理、予算調整、パフォーマンス監視など、いくつかの要因に依存する。 最近、Deep RLは、SEMの複雑でダイナミックな状況において、キャンペーン利益率を最適化する潜在的戦略として登場したが、実際に取得するにはコストがかかるか不可能な大量のデータを必要とする。 当社のカスタマイズ可能な環境は,SEM入札や予算管理に係わるRLアルゴリズムの堅牢性を,そのようなコストを伴わずに評価・強化することができる。 環境における一連の実験を通じて,エージェントの収束と性能にスパーシティと非定常性が与える課題を実証する。 これらの課題は、現実世界の不確実性を管理する効果的な戦略に関する議論と開発をさらに促進することを願っている。

We introduce \env{}, a novel benchmark environment for the Reinforcement Learning (RL) community distinguished by its stochastic and non-stationary properties. The environment simulates bidding and budgeting dynamics within Search Engine Marketing (SEM), a digital marketing technique utilizing paid advertising to enhance the visibility of websites on search engine results pages (SERPs). The performance of SEM advertisement campaigns depends on several factors, including keyword selection, ad design, bid management, budget adjustments, and performance monitoring. Deep RL recently emerged as a potential strategy to optimize campaign profitability within the complex and dynamic landscape of SEM but it requires substantial data, which may be costly or infeasible to acquire in practice. Our customizable environment enables practitioners to assess and enhance the robustness of RL algorithms pertinent to SEM bid and budget management without such costs. Through a series of experiments within the environment, we demonstrate the challenges imposed by sparsity and non-stationarity on agent convergence and performance. We hope these challenges further encourage discourse and development around effective strategies for managing real-world uncertainties.
翻訳日:2023-06-22 15:18:35 公開日:2023-06-21
# rsmt: 文字のリアルタイムスタイリッシュな動き遷移

RSMT: Real-time Stylized Motion Transition for Characters ( http://arxiv.org/abs/2306.11970v1 )

ライセンス: Link先を確認
Xiangjun Tang, Linjun Wu, He Wang, Bo Hu, Xu Gong, Yuchen Liao, Songnan Li, Qilong Kou, Xiaogang Jin(参考訳) styled online in- between motion generationはコンピュータアニメーションやゲームにおいて重要な応用シナリオを持っている。 その主な課題は、生成速度、運動品質、スタイルの多様性、合成制御性という4つの重要な要件を同時に満たす必要があることである。 最初の2つの課題は、単純な高速モデルと世代品質の学習能力の微妙なバランスを必要とするが、後者の2つは、スタイルのない制御と、制御されていないスタイルの動作に主に焦点を絞った既存の手法で研究されることは滅多にない。 そこで本研究では,上記すべての目標を達成するためのリアルタイムスタイライゼーション動作遷移法(rsmt)を提案する。 本手法は, 一般運動多様体モデルとスタイル運動サンプリング器の2つの重要な独立成分からなる。 前者は高品質な運動源となり、後者は制御信号の下でハエのスタイルされた動きを合成する。 どちらのコンポーネントも異なるデータセットで個別にトレーニングできるため、当社の手法は柔軟性が高く、少ないデータを必要とする。 徹底的な評価により, 高速, 高品質, 汎用性, 制御性が証明された。 コードとデータは、https://github.com/yuyujunjun/RSMT-Realtime-Stylized-Motion-Transitionで公開されている。 }

Styled online in-between motion generation has important application scenarios in computer animation and games. Its core challenge lies in the need to satisfy four critical requirements simultaneously: generation speed, motion quality, style diversity, and synthesis controllability. While the first two challenges demand a delicate balance between simple fast models and learning capacity for generation quality, the latter two are rarely investigated together in existing methods, which largely focus on either control without style or uncontrolled stylized motions. To this end, we propose a Real-time Stylized Motion Transition method (RSMT) to achieve all aforementioned goals. Our method consists of two critical, independent components: a general motion manifold model and a style motion sampler. The former acts as a high-quality motion source and the latter synthesizes styled motions on the fly under control signals. Since both components can be trained separately on different datasets, our method provides great flexibility, requires less data, and generalizes well when no/few samples are available for unseen styles. Through exhaustive evaluation, our method proves to be fast, high-quality, versatile, and controllable. The code and data are available at {https://github.com/yuyujunjun/RSMT-Realtime-Stylized-Motion-Transition.}
翻訳日:2023-06-22 15:18:17 公開日:2023-06-21
# 量子最適制御によるJaynes-Cummings格子の状態形成

State Preparation in a Jaynes-Cummings Lattice with Quantum Optimal Control ( http://arxiv.org/abs/2306.11968v1 )

ライセンス: Link先を確認
Prabin Parajuli, Anuvetha Govindarajan, and Lin Tian(参考訳) 相互作用する多体系における量子状態の高忠実性は、しばしばそのような状態の知識の欠如と非一貫性時間の制限によって妨げられる。 本稿では,有限サイズのJanes-Cummings格子における量子基底状態の高速生成のための量子最適制御(QOC)手法について検討する。 以上の結果から,QOC法では,進化時間がしきい値を超えると高忠実度で量子多体状態が生成でき,断熱的アプローチよりも著しく優れることが示された。 パラメータ制約に対するしきい値時間の依存性と、しきい値時間と量子速度限界との接続について検討した。 また、QOCアプローチは制御誤差に対して堅牢であることを示す。 以上の結果からQOCの多体製剤への応用が進展する可能性が示唆された。

High-fidelity preparation of quantum states in an interacting many-body system is often hindered by the lack of knowledge of such states and by limited decoherence times. Here we study a quantum optimal control (QOC) approach for fast generation of quantum ground states in a finite-sized Jaynes-Cummings lattice with unit filling. Our result shows that the QOC approach can generate quantum many-body states with high fidelity when the evolution time is above a threshold time, and it can significantly outperform the adiabatic approach. We study the dependence of the threshold time on the parameter constraints and the connection of the threshold time with the quantum speed limit. We also show that the QOC approach can be robust against control errors. Our result can lead to advances in the application of the QOC for many-body state preparation.
翻訳日:2023-06-22 15:17:56 公開日:2023-06-21
# パラメータ効率のよいクラスインクリメンタル学習のための補完学習サブネット

Complementary Learning Subnetworks for Parameter-Efficient Class-Incremental Learning ( http://arxiv.org/abs/2306.11967v1 )

ライセンス: Link先を確認
Depeng Li, Zhigang Zeng(参考訳) クラスインクリメンタルラーニング(CIL)のシナリオでは、ディープニューラルネットワークはモデルパラメータを非定常データ分布(例えば時間とともに新しいクラスが出現するなど)に適応させなければならない。 しかし、CILモデルは有名な破滅的な忘れ物現象に挑戦されている。 リハーサルベースのリハーサルのような典型的な手法は、破滅的な忘れを緩和するために古いクラスの例を保存することに頼っている。 本稿では,2つの補完学習サブネットワーク間のシナジーを通じて連続的に学習するリハーサルフリーCIL手法を提案する。 提案手法では,cnn特徴抽出器と分析フィードフォワード分類器を共同で最適化する。 履歴データの到達不能性は、十分に訓練されたモデルのパラメータを確率的に制御し、学習した決定境界が新しいクラスに適合することを保証することで取り組まれる。 具体的には、訓練可能なCNN特徴抽出器は、干渉することなくタスク依存知識を別々に提供し、最終分類器は、タスク依存知識を、忘れずに段階的に統合する。 各CILセッションでは、タスク毎の1つの行列またはクラス毎の1つのベクトルだけが知識保持のために保持される、小さな宣言的パラメータのセットをバックボーンにアタッチすることで、新しいタスクに対応する。 様々なタスクシーケンスに関する広範囲な実験により,本手法は最先端手法,特に精度向上,メモリコスト,トレーニング効率,タスク次ロバスト性と競合する結果が得られることが示された。 さらに、成長しないバックボーン(ネットワーク容量に制限のあるモデル)がより多くのタスクを学習するのに十分であるように、事前学習された自明なタスクに対する優雅な実装を実証的に検討する。

In the scenario of class-incremental learning (CIL), deep neural networks have to adapt their model parameters to non-stationary data distributions, e.g., the emergence of new classes over time. However, CIL models are challenged by the well-known catastrophic forgetting phenomenon. Typical methods such as rehearsal-based ones rely on storing exemplars of old classes to mitigate catastrophic forgetting, which limits real-world applications considering memory resources and privacy issues. In this paper, we propose a novel rehearsal-free CIL approach that learns continually via the synergy between two Complementary Learning Subnetworks. Our approach involves jointly optimizing a plastic CNN feature extractor and an analytical feed-forward classifier. The inaccessibility of historical data is tackled by holistically controlling the parameters of a well-trained model, ensuring that the decision boundary learned fits new classes while retaining recognition of previously learned classes. Specifically, the trainable CNN feature extractor provides task-dependent knowledge separately without interference; and the final classifier integrates task-specific knowledge incrementally for decision-making without forgetting. In each CIL session, it accommodates new tasks by attaching a tiny set of declarative parameters to its backbone, in which only one matrix per task or one vector per class is kept for knowledge retention. Extensive experiments on a variety of task sequences show that our method achieves competitive results against state-of-the-art methods, especially in accuracy gain, memory cost, training efficiency, and task-order robustness. Furthermore, to make the non-growing backbone (i.e., a model with limited network capacity) suffice to train on more incoming tasks, a graceful forgetting implementation on previously learned trivial tasks is empirically investigated.
翻訳日:2023-06-22 15:17:43 公開日:2023-06-21
# 常にグループフェアである個人別ランキングのサンプリング

Sampling Individually-Fair Rankings that are Always Group Fair ( http://arxiv.org/abs/2306.11964v1 )

ライセンス: Link先を確認
Sruthi Gorantla, Anay Mehrotra, Amit Deshpande, Anand Louis(参考訳) オンラインプラットフォームのランキングは、エンドユーザが関連する情報(人、ニュース、メディア、製品)を素早く見つけるのに役立つ。 公平なランク付けタスクは,有効課題を最大化するために一連の項目をランク付けし,グループフェアの制約を満たすように要求するが,アルゴリズム的公平性,情報検索,機械学習文献に多大な関心を寄せている。 しかし、近年の研究では、商品の効用の不確実性を不公平の主因として特定し、出力にランダム性を導入することを提案する。 このランダム性は(不確かさを考慮しつつ)各項目の適切な表現を保証するために慎重に選択される。 しかし、このランダム性のため、出力ランキングはグループフェアネス制約に違反する可能性がある。 各出力ランキングがグループフェアであることを保証すると同時に、個別のフェア分布からランキングをサンプリングする効率的なアルゴリズムを提供する。 出力ランキングの効用は、最適フェアソリューションの効用の少なくとも$\alpha$の少なくとも倍である。 ここでは、$\alpha$はユーティリティ、位置割当、制約に依存します -- ユーティリティの範囲や位置割当の縮小、あるいはユーティリティが分散仮定を満たす場合として、1に近づきます。 経験的に、我々はアルゴリズムが個人的および集団的公平性を達成し、パレートが最先端のベースラインを支配することを観察する。

Rankings on online platforms help their end-users find the relevant information -- people, news, media, and products -- quickly. Fair ranking tasks, which ask to rank a set of items to maximize utility subject to satisfying group-fairness constraints, have gained significant interest in the Algorithmic Fairness, Information Retrieval, and Machine Learning literature. Recent works, however, identify uncertainty in the utilities of items as a primary cause of unfairness and propose introducing randomness in the output. This randomness is carefully chosen to guarantee an adequate representation of each item (while accounting for the uncertainty). However, due to this randomness, the output rankings may violate group fairness constraints. We give an efficient algorithm that samples rankings from an individually-fair distribution while ensuring that every output ranking is group fair. The expected utility of the output ranking is at least $\alpha$ times the utility of the optimal fair solution. Here, $\alpha$ depends on the utilities, position-discounts, and constraints -- it approaches 1 as the range of utilities or the position-discounts shrinks, or when utilities satisfy distributional assumptions. Empirically, we observe that our algorithm achieves individual and group fairness and that Pareto dominates the state-of-the-art baselines.
翻訳日:2023-06-22 15:17:10 公開日:2023-06-21
# 荒野におけるスプリアス相関の緩和に向けて - ベンチマークとより現実的なデータセット

Towards Mitigating Spurious Correlations in the Wild: A Benchmark & a more Realistic Dataset ( http://arxiv.org/abs/2306.11957v1 )

ライセンス: Link先を確認
Siddharth Joshi, Yu Yang, Yihao Xue, Wenhan Yang and Baharan Mirzasoleiman(参考訳) ディープニューラルネットワークは、クラスラベルと刺激的に相関する非予測的特徴をしばしば活用し、そのような特徴を持たない例群のパフォーマンスを低下させる。 突発的相関の緩和に関する最近の研究が増えているにもかかわらず、標準化されたベンチマークの欠如は再現可能な評価と提案されたソリューションの比較を妨げる。 そこで本研究では,現状の手法をモジュール化して実装したPythonパッケージであるSpuCoについて述べる。 SpuCoを用いることで、既存のデータセットと評価スキームの限界を実証し、突発性よりも予測的特徴の学習を検証する。 これらの制限を克服するため,(1)SpuCoMNIST,(2)SpuCoAnimals,(2)ImageNetから収集した大規模データセットは,既存のデータセットよりもはるかに密接な相関関係を捉え,実世界のデータ特性の効果をシミュレートする合成データセットを提案する。 これらの貢献は、現在の方法の欠点を強調し、スプリアス相関に取り組むための今後の研究の方向性を提供する。 ベンチマークとデータセットを含むSpuCoはhttps://github.com/BigML-CS-UCLA/SpuCoで見ることができる。

Deep neural networks often exploit non-predictive features that are spuriously correlated with class labels, leading to poor performance on groups of examples without such features. Despite the growing body of recent works on remedying spurious correlations, the lack of a standardized benchmark hinders reproducible evaluation and comparison of the proposed solutions. To address this, we present SpuCo, a python package with modular implementations of state-of-the-art solutions enabling easy and reproducible evaluation of current methods. Using SpuCo, we demonstrate the limitations of existing datasets and evaluation schemes in validating the learning of predictive features over spurious ones. To overcome these limitations, we propose two new vision datasets: (1) SpuCoMNIST, a synthetic dataset that enables simulating the effect of real world data properties e.g. difficulty of learning spurious feature, as well as noise in the labels and features; (2) SpuCoAnimals, a large-scale dataset curated from ImageNet that captures spurious correlations in the wild much more closely than existing datasets. These contributions highlight the shortcomings of current methods and provide a direction for future research in tackling spurious correlations. SpuCo, containing the benchmark and datasets, can be found at https://github.com/BigML-CS-UCLA/SpuCo, with detailed documentation available at https://spuco.readthedocs.io/en/latest/.
翻訳日:2023-06-22 15:16:46 公開日:2023-06-21
# TADIL: Transformer Nearest-Centroid Embeddings を用いたタスクID推論によるタスク非依存ドメインインクリメンタル学習

TADIL: Task-Agnostic Domain-Incremental Learning through Task-ID Inference using Transformer Nearest-Centroid Embeddings ( http://arxiv.org/abs/2306.11955v1 )

ライセンス: Link先を確認
Gusseppe Bravo-Rocca, Peini Liu, Jordi Guitart, Ajay Dholakia, David Ellison(参考訳) 機械学習(ml)モデルは、ノイズ、咬合、照明、周波数といった要因によって、時間やドメイン間で変化するデータに苦しむ。 その結果、継続的学習(CL)アプローチ、特にドメイン・インクリメンタル・ラーニングは不可欠である。 本稿では,ドメインインクリメンタル学習シナリオにおけるタスクを監視せずに識別する新しいパイプラインを提案する。 パイプラインは4つのステップからなる。 まず、既存のトランスフォーマーモデルを用いて、生データからベース埋め込みを得る。 次に、その類似性に基づいて埋め込み密度をグループ化し、各クラスタ中心点の最も近い点を得る。 第3に、これらの数点のみを用いて増分タスク分類器を訓練する。 最後に,タスク分類器とドリフト検出器を用いて新しいタスクを学習する場合に,パイプラインの軽量な計算要求を利用してオンライン方式で決定するアルゴリズムを考案する。 我々は,SODA10M実世界の運転データセットといくつかのCL戦略を用いて実験を行った。 我々はこれらのCL戦略とパイプラインの性能が、タスク境界を仮定する古典的な実験と、新しいタスクをオンザフライで検出する必要のあるより現実的なシナリオの両方において、地道的なアプローチと一致することを実証した。

Machine Learning (ML) models struggle with data that changes over time or across domains due to factors such as noise, occlusion, illumination, or frequency, unlike humans who can learn from such non independent and identically distributed data. Consequently, a Continual Learning (CL) approach is indispensable, particularly, Domain-Incremental Learning. In this paper, we propose a novel pipeline for identifying tasks in domain-incremental learning scenarios without supervision. The pipeline comprises four steps. First, we obtain base embeddings from the raw data using an existing transformer-based model. Second, we group the embedding densities based on their similarity to obtain the nearest points to each cluster centroid. Third, we train an incremental task classifier using only these few points. Finally, we leverage the lightweight computational requirements of the pipeline to devise an algorithm that decides in an online fashion when to learn a new task using the task classifier and a drift detector. We conduct experiments using the SODA10M real-world driving dataset and several CL strategies. We demonstrate that the performance of these CL strategies with our pipeline can match the ground-truth approach, both in classical experiments assuming task boundaries, and also in more realistic task-agnostic scenarios that require detecting new tasks on-the-fly
翻訳日:2023-06-22 15:16:16 公開日:2023-06-21
# ノイズコンピューティングのための最適境界について

On the Optimal Bounds for Noisy Computing ( http://arxiv.org/abs/2306.11951v1 )

ライセンス: Link先を確認
Banghua Zhu, Ziao Wang, Nadim Ghaddar, Jiantao Jiao and Lele Wang(参考訳) feige et al. 1994で検討されているノイズ情報を用いた計算の問題を再検討し,ノイズクエリからor関数を計算し,ノイズ対比較から最大関数,検索関数,ソート関数を計算する。 与えられた要素が$K$の場合、各クエリの結果が確率$p$で反転した場合、所望の関数を少なくとも1-\delta$で正しく回復することが目標である。 各クエリが過去の結果に基づいて適応的に設計できる適応型サンプリング設定と、クエリが過去の結果に依存しない非適応型サンプリング設定の両方を検討する。 以前の作業は、$K$への依存の観点から、最悪のクエリの複雑さに厳密な制限を与えている。 しかし、上界と下界は$\delta$と$p$への依存の観点からは一致しない。 適応クエリモデルと非適応クエリモデルの両方の下で、4つの関数の下位境界を改善する。 我々の下限のほとんどは、$p$ または $\delta$ が$0$ から離れたときの上限値と一致するが、最高の上限と下限の比率は$p\rightarrow 0$ または $p\rightarrow 1/2$ のとき無限大になる。 一方,予測されるクエリ数に対する上限値と下限値の整合性も提供し,可変長クエリモデルに対する上限値と下限値の両方を改善した。

We revisit the problem of computing with noisy information considered in Feige et al. 1994, which includes computing the OR function from noisy queries, and computing the MAX, SEARCH and SORT functions from noisy pairwise comparisons. For $K$ given elements, the goal is to correctly recover the desired function with probability at least $1-\delta$ when the outcome of each query is flipped with probability $p$. We consider both the adaptive sampling setting where each query can be adaptively designed based on past outcomes, and the non-adaptive sampling setting where the query cannot depend on past outcomes. The prior work provides tight bounds on the worst-case query complexity in terms of the dependence on $K$. However, the upper and lower bounds do not match in terms of the dependence on $\delta$ and $p$. We improve the lower bounds for all the four functions under both adaptive and non-adaptive query models. Most of our lower bounds match the upper bounds up to constant factors when either $p$ or $\delta$ is bounded away from $0$, while the ratio between the best prior upper and lower bounds goes to infinity when $p\rightarrow 0$ or $p\rightarrow 1/2$. On the other hand, we also provide matching upper and lower bounds for the number of queries in expectation, improving both the upper and lower bounds for the variable-length query model.
翻訳日:2023-06-22 15:15:55 公開日:2023-06-21
# ニューラルネットワークにおける通信コストの軽減:樹状非線形性の役割

Mitigating Communication Costs in Neural Networks: The Role of Dendritic Nonlinearity ( http://arxiv.org/abs/2306.11950v1 )

ライセンス: Link先を確認
Xundong Wu, Pengfei Zhao, Zilin Yu, Lei Ma, Ka-Wa Yip, Huajin Tang, Gang Pan, Tiejun Huang(参考訳) 生体神経ネットワークの理解は,ニューラルネットワーク(ANN)の進化に大きく影響している。 しかし、annで使用されるニューロンは、主に局所的な非線形性を含む複雑な樹状樹が存在しないために、生物学的な類似物から著しく逸脱している。 このような相違にもかかわらず、前回の研究では、ポイントニューロンが計算タスクを実行する際に樹状ニューロンを機能的に置換できることが示されている。 本研究では,ニューラルネットワークにおける非線形デンドライトの重要性について検討した。 機械学習手法を用いて,デンドリティック構造の非線形性がニューラルネットワーク性能に与える影響を評価した。 その結果,樹状構造の統合は,信号通信コストを効果的に抑えつつ,モデル容量と性能を大幅に向上させることができることがわかった。 この調査は、将来のニューラルネットワークアクセラレータの開発に重要な意味を持つ重要な洞察を提供する。

Our comprehension of biological neuronal networks has profoundly influenced the evolution of artificial neural networks (ANNs). However, the neurons employed in ANNs exhibit remarkable deviations from their biological analogs, mainly due to the absence of complex dendritic trees encompassing local nonlinearity. Despite such disparities, previous investigations have demonstrated that point neurons can functionally substitute dendritic neurons in executing computational tasks. In this study, we scrutinized the importance of nonlinear dendrites within neural networks. By employing machine-learning methodologies, we assessed the impact of dendritic structure nonlinearity on neural network performance. Our findings reveal that integrating dendritic structures can substantially enhance model capacity and performance while keeping signal communication costs effectively restrained. This investigation offers pivotal insights that hold considerable implications for the development of future neural network accelerators.
翻訳日:2023-06-22 15:15:28 公開日:2023-06-21
# クロスドメイン人物再識別のための一般化可能なメトリックネットワーク

Generalizable Metric Network for Cross-domain Person Re-identification ( http://arxiv.org/abs/2306.11991v1 )

ライセンス: Link先を確認
Lei Qi, Ziang Liu, Yinghuan Shi, Xin Geng(参考訳) 個人再識別(Re-ID)は公共の安全にとって重要な技術であり、教師付き設定において大きな進歩を遂げている。 しかし、クロスドメイン(すなわちドメインの一般化)のシーンは、未確認のテストドメインとトレーニングとテストセット間のドメインシフトによって、Re-IDタスクの課題を示す。 この課題に対処するために、既存のほとんどのメソッドは、すべてのドメインのドメイン不変または堅牢な機能を学ぶことを目的としています。 本稿では,サンプルペア空間において,トレーニングセットとテストセット間のデータ分配ギャップが,サンプルインスタンス空間よりも小さいことを観察する。 そこで本研究では,サンプルペア空間における標本類似性をさらに探求するために,GMN(Generalizable Metric Network)を提案する。 具体的には、メインネットワークにMetric Network(M-Net)を追加し、正と負のサンプルペア機能でトレーニングし、テスト段階で使用します。 さらに,Dropout-based Perturbation (DP) モジュールを導入し,サンプルペアの多様性を豊かにすることで,メトリックネットワークの一般化能力を高める。 さらに,同一のペア同一性を持つサンプルペア特徴の一貫性を確保することにより,モデルの識別性を高めるためにペアidentity center(pic)ロスを開発する。 提案手法の有効性を,複数のベンチマークデータセットを用いた多数の実験により検証し,GMNにおける各モジュールの価値を確認する。

Person Re-identification (Re-ID) is a crucial technique for public security and has made significant progress in supervised settings. However, the cross-domain (i.e., domain generalization) scene presents a challenge in Re-ID tasks due to unseen test domains and domain-shift between the training and test sets. To tackle this challenge, most existing methods aim to learn domain-invariant or robust features for all domains. In this paper, we observe that the data-distribution gap between the training and test sets is smaller in the sample-pair space than in the sample-instance space. Based on this observation, we propose a Generalizable Metric Network (GMN) to further explore sample similarity in the sample-pair space. Specifically, we add a Metric Network (M-Net) after the main network and train it on positive and negative sample-pair features, which is then employed during the test stage. Additionally, we introduce the Dropout-based Perturbation (DP) module to enhance the generalization capability of the metric network by enriching the sample-pair diversity. Moreover, we develop a Pair-Identity Center (PIC) loss to enhance the model's discrimination by ensuring that sample-pair features with the same pair-identity are consistent. We validate the effectiveness of our proposed method through a lot of experiments on multiple benchmark datasets and confirm the value of each module in our GMN.
翻訳日:2023-06-22 15:08:37 公開日:2023-06-21
# 畳み込みに基づく人間の動作予測の逆ロバスト性の評価

Evaluating Adversarial Robustness of Convolution-based Human Motion Prediction ( http://arxiv.org/abs/2306.11990v1 )

ライセンス: Link先を確認
Chengxu Duan, Zhicheng Zhang, Xiaoli Liu, Yonghao Dang and Jianqin Yin(参考訳) 人間の動作予測は、人間と機械の協調を促進するcnnの助けを借りて素晴らしい成果を上げている。 しかし、現在、敵の攻撃に直面した際の人間の動き予測の潜在的なリスクを評価する研究は行われていない。 敵の攻撃は、人間の動き予測に2つの問題に直面します。 1.自然にとって、ポーズデータは、Lpノルム制約が敵の例にも制約できない人間の骨格の物理力学に強く関係している。 2. 画像中の画素値とは違って, 異なる取得装置とデータ処理により, 大規模に多彩なポーズデータが得られるため, 攻撃を行うための固定パラメータの設定が困難になる。 上記の課題を解決するために,入力された人間の動作順序を物理的制約で最大化することで妨害する新たな逆攻撃法を提案する。 具体的には,ターゲットポーズのスケールに適合する攻撃を容易にする新しい適応性スキームと,攻撃例の非受容性を高めるために2つの物理的制約を導入する。 3つのデータセットにおける評価実験により,すべての対象モデルの予測誤差が大幅に大きくなることが分かった。 定量的解析により、先行知識と意味情報モデリングが人間の動き予測器の対角的堅牢性の鍵となることが示された。 定性的な結果から, フレーム毎に比較した場合, 反対側のサンプルは注目されにくいが, サンプルをアニメーションする場合は比較的容易に検出できることがわかった。

Human motion prediction has achieved a brilliant performance with the help of CNNs, which facilitates human-machine cooperation. However, currently, there is no work evaluating the potential risk in human motion prediction when facing adversarial attacks, which may cause danger in real applications. The adversarial attack will face two problems against human motion prediction: 1. For naturalness, pose data is highly related to the physical dynamics of human skeletons where Lp norm constraints cannot constrain the adversarial example well; 2. Unlike the pixel value in images, pose data is diverse at scale because of the different acquisition equipment and the data processing, which makes it hard to set fixed parameters to perform attacks. To solve the problems above, we propose a new adversarial attack method that perturbs the input human motion sequence by maximizing the prediction error with physical constraints. Specifically, we introduce a novel adaptable scheme that facilitates the attack to suit the scale of the target pose and two physical constraints to enhance the imperceptibility of the adversarial example. The evaluating experiments on three datasets show that the prediction errors of all target models are enlarged significantly, which means current convolution-based human motion prediction models can be easily disturbed under the proposed attack. The quantitative analysis shows that prior knowledge and semantic information modeling can be the key to the adversarial robustness of human motion predictors. The qualitative results indicate that the adversarial sample is hard to be noticed when compared frame by frame but is relatively easy to be detected when the sample is animated.
翻訳日:2023-06-22 15:08:15 公開日:2023-06-21
# 4ビット整数による変圧器の訓練

Training Transformers with 4-bit Integers ( http://arxiv.org/abs/2306.11987v1 )

ライセンス: Link先を確認
Haocheng Xi, Changhao Li, Jianfei Chen, and Jun Zhu(参考訳) 4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークトレーニングの加速を約束する。 しかし、既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。 本稿では, int4演算で実装された行列乗算を全て含む変圧器の学習法を提案する。 超低いINT4精度でのトレーニングは難しい。 これを実現するために、変換器のアクティベーションと勾配の特定の構造を慎重に分析し、専用の量子化器を提案する。 前進伝搬のために, オフレイラの課題を特定し, オフレイラの抑制を目的としたアダマール量化器を提案する。 バックプロパゲーションのために,ビット分割を提案することで勾配の構造スパーシティを活用し,スコアサンプリング技術を用いて勾配を正確に定量化する。 本アルゴリズムは,自然言語理解,機械翻訳,画像分類など,幅広いタスクにおいて,競合精度を実現する。 従来の4ビットトレーニング手法とは異なり、我々のアルゴリズムは現在の世代のGPUで実装できる。 原型線形演算子の実装はFP16よりも最大2.2倍高速で、トレーニングを最大35.1%高速化する。

Quantizing the activation, weight, and gradient to 4-bit is promising to accelerate neural network training. However, existing 4-bit training methods require custom numerical formats which are not supported by contemporary hardware. In this work, we propose a training method for transformers with all matrix multiplications implemented with the INT4 arithmetic. Training with an ultra-low INT4 precision is challenging. To achieve this, we carefully analyze the specific structures of activation and gradients in transformers to propose dedicated quantizers for them. For forward propagation, we identify the challenge of outliers and propose a Hadamard quantizer to suppress the outliers. For backpropagation, we leverage the structural sparsity of gradients by proposing bit splitting and leverage score sampling techniques to quantize gradients accurately. Our algorithm achieves competitive accuracy on a wide range of tasks including natural language understanding, machine translation, and image classification. Unlike previous 4-bit training methods, our algorithm can be implemented on the current generation of GPUs. Our prototypical linear operator implementation is up to 2.2 times faster than the FP16 counterparts and speeds up the training by up to 35.1%.
翻訳日:2023-06-22 15:07:49 公開日:2023-06-21
# Singular Spectrum Smoothingによる逐次推薦におけるランク劣化の対応

Addressing the Rank Degeneration in Sequential Recommendation via Singular Spectrum Smoothing ( http://arxiv.org/abs/2306.11986v1 )

ライセンス: Link先を確認
Ziwei Fan, Zhiwei Liu, Hao Peng, and Philip S. Yu(参考訳) 逐次レコメンデーション(SR)は、動的ユーザ嗜好モデリングを調査し、次のイテム予測を生成する。 次の項目の好みは通常、シーケンスとアイテムの表現の間の親和性によって生成される。 しかし、シーケンス表現とアイテム表現は、データ空間の問題によりランク劣化の問題に悩まされる。 ランク劣化問題は、SRの表現を著しく損なう。 これにより、ランクデジェネレーション問題がどれほど深刻かを測定し、SRのシーケンスとアイテム表現のランクデジェネレーション問題を同時に緩和する。 本研究では,シーケンス表現の退化問題とアイテムランクの退化問題,特にショートシーケンスやコールドアイテムについて理論的に関連付ける。 また,変圧器列出力とアイテム埋め込みにおける高速特異値減衰現象とランク崩壊問題との関係を明らかにした。 特異値減衰現象の重症度を評価するために, 特異値曲線計量の下の領域を提案し, 階数劣化の指標として用いる。 さらに、シーケンシャルレコメンデーションのためのSingular sPectrum sMoothing(SPMRec)という、シーケンシャルおよびアイテムサイドの階調劣化を軽減するために、規則化を円滑にする新しい特異スペクトルを導入する。 また、シーケンスとアイテムの埋め込みのランクとユーザの好み予測行列のランクの相関関係を確立し、推薦の多様性に影響を与える可能性がある。 4つのベンチマークデータセットで実験を行い,spmrecが最先端のレコメンデーション手法,特に短いシーケンスよりも優れていることを示す。 実験はまた、提案した特異スペクトルの滑らか化と推薦多様性の強い関係を示す。

Sequential recommendation (SR) investigates the dynamic user preferences modeling and generates the next-item prediction. The next item preference is typically generated by the affinity between the sequence and item representations. However, both sequence and item representations suffer from the rank degeneration issue due to the data sparsity problem. The rank degeneration issue significantly impairs the representations for SR. This motivates us to measure how severe is the rank degeneration issue and alleviate the sequence and item representation rank degeneration issues simultaneously for SR. In this work, we theoretically connect the sequence representation degeneration issue with the item rank degeneration, particularly for short sequences and cold items. We also identify the connection between the fast singular value decay phenomenon and the rank collapse issue in transformer sequence output and item embeddings. We propose the area under the singular value curve metric to evaluate the severity of the singular value decay phenomenon and use it as an indicator of rank degeneration. We further introduce a novel singular spectrum smoothing regularization to alleviate the rank degeneration on both sequence and item sides, which is the Singular sPectrum sMoothing for sequential Recommendation (SPMRec). We also establish a correlation between the ranks of sequence and item embeddings and the rank of the user-item preference prediction matrix, which can affect recommendation diversity. We conduct experiments on four benchmark datasets to demonstrate the superiority of SPMRec over the state-of-the-art recommendation methods, especially in short sequences. The experiments also demonstrate a strong connection between our proposed singular spectrum smoothing and recommendation diversity.
翻訳日:2023-06-22 15:07:32 公開日:2023-06-21
# 臨床予測モデルに適用した人気xaiの評価:信頼できるのか?

Evaluation of Popular XAI Applied to Clinical Prediction Models: Can They be Trusted? ( http://arxiv.org/abs/2306.11985v1 )

ライセンス: Link先を確認
Aida Brankovic, David Cook, Jessica Rahman, Wenjie Huang, Sankalp Khanna(参考訳) 透明性と説明可能性の欠如は、機械学習(ML)アルゴリズムの臨床的採用を妨げる。 様々な説明可能な人工知能(XAI)の手法が提案されているが、臨床環境への信頼を育むための基準に基づいて、その実践性を理解し評価する文献が不足している。 このギャップに対処するために,医療現場における予測モデルの説明に用いられている2つのXAI手法の評価を行った。 i) ドメインに適した表現、すなわち、アプリケーションタスクに関する一貫性を生成する。 (ii)臨床ワークフローに影響を及ぼすこと、及び (iii) 一貫性がある。 そのために,コホートと患者レベルで発生した説明を分析した。 本稿では,XAI法の最初のベンチマークを,生成した説明書の一致と,データ収集システムによって記録された将来的な臨床劣化エピソードの引き金となるリスク予測モデルに適用した。 オーストラリアの主要病院から得られた2つの電子カルテ(EMR)データセットを用いて分析を行った。 本研究は,臨床現場における最先端XAI法の限界とその可能性を明らかにするものである。 これらの制約を議論し,臨床決定支援が今後の臨床劣化のパターンや要因を提案することによって介入の選択を導く,信頼性の高いXAIソリューションの理論的発展に寄与する。

The absence of transparency and explainability hinders the clinical adoption of Machine learning (ML) algorithms. Although various methods of explainable artificial intelligence (XAI) have been suggested, there is a lack of literature that delves into their practicality and assesses them based on criteria that could foster trust in clinical environments. To address this gap this study evaluates two popular XAI methods used for explaining predictive models in the healthcare context in terms of whether they (i) generate domain-appropriate representation, i.e. coherent with respect to the application task, (ii) impact clinical workflow and (iii) are consistent. To that end, explanations generated at the cohort and patient levels were analysed. The paper reports the first benchmarking of the XAI methods applied to risk prediction models obtained by evaluating the concordance between generated explanations and the trigger of a future clinical deterioration episode recorded by the data collection system. We carried out an analysis using two Electronic Medical Records (EMR) datasets sourced from Australian major hospitals. The findings underscore the limitations of state-of-the-art XAI methods in the clinical context and their potential benefits. We discuss these limitations and contribute to the theoretical development of trustworthy XAI solutions where clinical decision support guides the choice of intervention by suggesting the pattern or drivers for clinical deterioration in the future.
翻訳日:2023-06-22 15:07:04 公開日:2023-06-21
# TauPETGen:潜在拡散モデルに基づくテキスト記述型TauPET画像合成

TauPETGen: Text-Conditional Tau PET Image Synthesis Based on Latent Diffusion Models ( http://arxiv.org/abs/2306.11984v1 )

ライセンス: Link先を確認
Se-In Jang, Cristina Lois, Emma Thibault, J. Alex Becker, Yafei Dong, Marc D. Normandin, Julie C. Price, Keith A. Johnson, Georges El Fakhri, Kuang Gong(参考訳) 本研究では,テキスト記述と被写体MR画像からリアルなタウPET画像を生成する新しいテキスト誘導画像合成技術を開発した。 生成したtau PET画像は、異なる尺度間の関係を調べ、tau PETデータセットの公開性を高めるために使用される可能性がある。 この手法は潜伏拡散モデルに基づいている。 テキスト記述と被写体MR画像の両方を画像生成の条件として利用した。 被験者のmr画像は解剖学的詳細を提供することができるが、性別、スキャン時間、認知テストスコア、アミロイド状態などのテキスト記述は、タウ神経原線維の沈着部位に関するさらなるガイダンスを提供することができる。 臨床[18f]mk-6240データセットに基づく予備実験の結果から, 異なる臨床段階におけるtau pet画像生成における提案手法の有効性が示された。

In this work, we developed a novel text-guided image synthesis technique which could generate realistic tau PET images from textual descriptions and the subject's MR image. The generated tau PET images have the potential to be used in examining relations between different measures and also increasing the public availability of tau PET datasets. The method was based on latent diffusion models. Both textual descriptions and the subject's MR prior image were utilized as conditions during image generation. The subject's MR image can provide anatomical details, while the text descriptions, such as gender, scan time, cognitive test scores, and amyloid status, can provide further guidance regarding where the tau neurofibrillary tangles might be deposited. Preliminary experimental results based on clinical [18F]MK-6240 datasets demonstrate the feasibility of the proposed method in generating realistic tau PET images at different clinical stages.
翻訳日:2023-06-22 15:06:43 公開日:2023-06-21
# CNNプールアーキテクチャ学習のためのスーパーネットのバランスの取れた混合

Balanced Mixture of SuperNets for Learning the CNN Pooling Architecture ( http://arxiv.org/abs/2306.11982v1 )

ライセンス: Link先を確認
Mehraveh Javan, Matthew Toews, Marco Pedersoli(参考訳) プーリングやストライド畳み込みを含むダウンサンプリング層は、画像特徴解析の粒度/スケールと、与えられた層の受容フィールドサイズの両方を決定する畳み込みニューラルネットワークアーキテクチャの重要な構成要素である。 そこで我々は,ResNet20ネットワークを用いて,CIFAR10上の各プール構成で独立に訓練されたモデルの性能を分析し,ダウンサンプリング層の位置がネットワークの性能に大きく影響し,事前定義されたダウンサンプリング構成が最適でないことを示す。 ネットワークアーキテクチャサーチ(NAS)は、ダウンサンプリング構成をハイパーパラメータとして最適化するために用いられる。 しかし,単一のSuperNetをベースとしたワンショットNASは,この問題に対して有効ではない。 これは、最適なプール設定を見つけるために訓練されたスーパーネットが、プール設定のパラメータを完全に共有しているためである。 これは、一部の構成を学習することで、他の構成のパフォーマンスを損なう可能性があるため、トレーニングを難しくする。 そこで本研究では, プール構成を異なる重みモデルに自動的に関連付け, プール構成の重み付けとスーパーネットパラメータの相互影響を低減するための, バランスの取れたスーパーネットについて提案する。 提案手法であるcifar10,cifar100,およびfood101を評価し,いずれの場合においてもモデルが他のアプローチを上回っており,デフォルトプール設定よりも改善されていることを示す。

Downsampling layers, including pooling and strided convolutions, are crucial components of the convolutional neural network architecture that determine both the granularity/scale of image feature analysis as well as the receptive field size of a given layer. To fully understand this problem, we analyse the performance of models independently trained with each pooling configurations on CIFAR10, using a ResNet20 network, and show that the position of the downsampling layers can highly influence the performance of a network and predefined downsampling configurations are not optimal. Network Architecture Search (NAS) might be used to optimize downsampling configurations as an hyperparameter. However, we find that common one-shot NAS based on a single SuperNet does not work for this problem. We argue that this is because a SuperNet trained for finding the optimal pooling configuration fully shares its parameters among all pooling configurations. This makes its training hard, because learning some configurations can harm the performance of others. Therefore, we propose a balanced mixture of SuperNets that automatically associates pooling configurations to different weight models and helps to reduce the weight-sharing and inter-influence of pooling configurations on the SuperNet parameters. We evaluate our proposed approach on CIFAR10, CIFAR100, as well as Food101 and show that in all cases, our model outperforms other approaches and improves over the default pooling configurations.
翻訳日:2023-06-22 15:06:28 公開日:2023-06-21
# 高精度・高加速度MRIのための拡張複合CNNの符号化

Encoding Enhanced Complex CNN for Accurate and Highly Accelerated MRI ( http://arxiv.org/abs/2306.11977v1 )

ライセンス: Link先を確認
Zimeng Li, Sa Xiao, Cheng Wang, Haidong Li, Xiuchao Zhao, Caohui Duan, Qian Zhou, Qiuchen Rao, Yuan Fang, Junshuai Xie, Lei Shi, Fumin Guo, Chaohui Ye, Xin Zhou(参考訳) 超偏極希ガスを用いた磁気共鳴イメージング(MRI)は、ヒトの肺の構造と機能を可視化する手段を提供するが、長期間のイメージングは幅広い研究と臨床応用を制限する。 深層学習は、アンダーサンプルデータからイメージを再構成することで、MRIを加速させる大きな可能性を示している。 しかし、既存のディープニューラルネットワーク(CNN)は、k空間サンプリングの性質やk空間学習効率の制限、画像再構成品質を考慮せずに、k空間データに直接二乗畳み込みを適用する。 本研究では,高アンサンプ型肺MRI再構成のためのエンコードエンハンスメント(EN2)複合体CNNを提案する。 EN2は、k空間サンプリングのメカニズムに似た周波数または位相エンコード方向の畳み込みを用いて、k空間の行または列内の符号化相関と整合性の利用を最大化する。 また、複素k空間データからリッチ表現を学ぶために複素畳み込みを用いる。 さらに,機能強化型モジュール化ユニットを開発し,再構築性能をさらに向上する。 実験により,6次元アンダーサンプドk空間データから過分極19Xeおよび1H肺MRIを正確に再構成し,フルサンプリング画像と比較して肺機能測定を最小限のバイアスで行うことができた。 以上の結果から, 提案手法は, 研究および臨床肺疾患患者の医療において, 肺MRIの高速化に有効であることが示唆された。

Magnetic resonance imaging (MRI) using hyperpolarized noble gases provides a way to visualize the structure and function of human lung, but the long imaging time limits its broad research and clinical applications. Deep learning has demonstrated great potential for accelerating MRI by reconstructing images from undersampled data. However, most existing deep conventional neural networks (CNN) directly apply square convolution to k-space data without considering the inherent properties of k-space sampling, limiting k-space learning efficiency and image reconstruction quality. In this work, we propose an encoding enhanced (EN2) complex CNN for highly undersampled pulmonary MRI reconstruction. EN2 employs convolution along either the frequency or phase-encoding direction, resembling the mechanisms of k-space sampling, to maximize the utilization of the encoding correlation and integrity within a row or column of k-space. We also employ complex convolution to learn rich representations from the complex k-space data. In addition, we develop a feature-strengthened modularized unit to further boost the reconstruction performance. Experiments demonstrate that our approach can accurately reconstruct hyperpolarized 129Xe and 1H lung MRI from 6-fold undersampled k-space data and provide lung function measurements with minimal biases compared with fully-sampled image. These results demonstrate the effectiveness of the proposed algorithmic components and indicate that the proposed approach could be used for accelerated pulmonary MRI in research and clinical lung disease patient care.
翻訳日:2023-06-22 15:06:05 公開日:2023-06-21
# 自然言語を用いた対話型分子発見

Interactive Molecular Discovery with Natural Language ( http://arxiv.org/abs/2306.11976v1 )

ライセンス: Link先を確認
Zheni Zeng, Bangchen Yin, Shipeng Wang, Jiarui Liu, Cheng Yang, Haishen Yao, Xingzhi Sun, Maosong Sun, Guotong Xie, Zhiyuan Liu(参考訳) 自然言語は、大規模言語モデルの時代における様々な人間と機械の相互作用の鍵となる媒体として期待されている。 生化学の分野では、分子を取り巻く一連のタスク(例えば、特性予測、分子採掘など)は、高い技術的閾値を持ちながら非常に重要である。 自然言語と化学言語における分子表現の橋渡しは、これらのタスクの解釈性を大幅に向上させ、操作の困難さを低減させるだけでなく、分子の深い理解のために補足材料に散在する化学知識を融合させる。 これらの利点に基づき,対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。 実験的な特性情報、分子空間知識、そして自然言語と化学言語の間の関連を注入することで強化された、知識の豊富で多用途な事前学習モデルであるchatmolを設計した。 大規模言語モデル(chatgptなど)を含むいくつかの典型的なソリューションを評価し、対話型分子設計の課題と知識強化手法の有効性を証明した。 事例観察と解析を行い、分子発見における自然言語相互作用のさらなる探索の方向性を提供する。

Natural language is expected to be a key medium for various human-machine interactions in the era of large language models. When it comes to the biochemistry field, a series of tasks around molecules (e.g., property prediction, molecule mining, etc.) are of great significance while having a high technical threshold. Bridging the molecule expressions in natural language and chemical language can not only hugely improve the interpretability and reduce the operation difficulty of these tasks, but also fuse the chemical knowledge scattered in complementary materials for a deeper comprehension of molecules. Based on these benefits, we propose the conversational molecular design, a novel task adopting natural language for describing and editing target molecules. To better accomplish this task, we design ChatMol, a knowledgeable and versatile generative pre-trained model, enhanced by injecting experimental property information, molecular spatial knowledge, and the associations between natural and chemical languages into it. Several typical solutions including large language models (e.g., ChatGPT) are evaluated, proving the challenge of conversational molecular design and the effectiveness of our knowledge enhancement method. Case observations and analysis are conducted to provide directions for further exploration of natural-language interaction in molecular discovery.
翻訳日:2023-06-22 15:05:40 公開日:2023-06-21
# 量子分類器を用いた複数分類タスクに対する普遍的逆摂動

Universal adversarial perturbations for multiple classification tasks with quantum classifiers ( http://arxiv.org/abs/2306.11974v1 )

ライセンス: Link先を確認
Yun-Zhong Qiu(参考訳) 量子敵対機械学習は、量子学習システムの脆弱性を敵の摂動に対して研究し、防御戦略を開発する新興分野である。 量子普遍的逆転摂動は小さな摂動であり、異なる入力サンプルを与えられた量子分類器を欺く可能性のある逆転例にすることができる。 なぜなら、普遍的な摂動は悪意のある攻撃を大いに単純化し、量子機械学習モデルに予期せぬ破壊をもたらす可能性があるからだ。 本稿では,不均質な分類タスクの文脈において,量子普遍摂動を探求する。 特に、2つの異なる分類タスクでほぼ最先端の精度を達成する量子分類器は、2つの注意深く作られた普遍的な摂動によって決定的に欺くことができる。 この結果は、破滅的な忘れ込みを避けるために、弾性重み付け法を用いたよく設計された量子連続学習モデルと、手書きの数字と医療MRI画像からの実生活における異種データセットで明確に示されている。 この結果から,不均一な分類課題に対する普遍的摂動を簡便かつ効率的に生成し,将来の量子学習技術に有用なガイダンスを提供することができた。

Quantum adversarial machine learning is an emerging field that studies the vulnerability of quantum learning systems against adversarial perturbations and develops possible defense strategies. Quantum universal adversarial perturbations are small perturbations, which can make different input samples into adversarial examples that may deceive a given quantum classifier. This is a field that was rarely looked into but worthwhile investigating because universal perturbations might simplify malicious attacks to a large extent, causing unexpected devastation to quantum machine learning models. In this paper, we take a step forward and explore the quantum universal perturbations in the context of heterogeneous classification tasks. In particular, we find that quantum classifiers that achieve almost state-of-the-art accuracy on two different classification tasks can be both conclusively deceived by one carefully-crafted universal perturbation. This result is explicitly demonstrated with well-designed quantum continual learning models with elastic weight consolidation method to avoid catastrophic forgetting, as well as real-life heterogeneous datasets from hand-written digits and medical MRI images. Our results provide a simple and efficient way to generate universal perturbations on heterogeneous classification tasks and thus would provide valuable guidance for future quantum learning technologies.
翻訳日:2023-06-22 15:05:19 公開日:2023-06-21
# 全次元における非エルミートバンド理論:一様スペクトルと皮膚効果

Non-Hermitian band theory in all dimensions: uniform spectra and skin effect ( http://arxiv.org/abs/2306.12022v1 )

ライセンス: Link先を確認
Haiping Hu(参考訳) 非エルミート皮膚効果は、非エルミート系における系の境界付近の固有状態の凝集を特徴とする象徴的な現象である。 1次元で広く研究されているが、皮膚効果を理解し、非ブロックバンド理論を高次元に拡張することは、主に無限の格子幾何学や開境界条件によって、恐ろしい挑戦となる。 この研究は点ギャップの観点を採用し、すべての空間次元にわたって皮膚効果を支配できる統一非エルミートバンド理論を提示する。 我々は, 均一スペクトルの概念を導入し, 格子形状にかかわらず, そのエネルギースペクトルは均一スペクトルによって一様に与えられることを明らかにした。 均一スペクトルに基づいて, 一般的な格子切断における皮膚効果を考慮し, 運動量-基底変換によって異なる形状の皮膚モードの接続を確立する方法を示す。 本研究は,すべての次元において非エルミート皮膚効果を統一的に理解する上で,ポイントギャップが果たす重要な役割を強調した。

The non-Hermitian skin effect is an iconic phenomenon, characterized by the aggregation of eigenstates near the system boundaries in non-Hermitian systems. While extensively studied in one dimension, understanding the skin effect and extending the non-Bloch band theory to higher dimensions poses a formidable challenge, primarily due to infinite lattice geometries or open boundary conditions. This work adopts a point-gap perspective and presents a unified non-Hermitian band theory that governs skin effects across all spatial dimensions. We introduce the concept of uniform spectra and reveal that regardless of lattice geometry, their energy spectra are uniformly given by the uniform spectra, even though their manifestations of skin modes may differ. Building on the uniform spectra, we demonstrate how to account for the skin effect in generic lattice cuts and establish the connections of skin modes across different geometric shapes via momentum-basis transformations. Our findings highlight the pivotal roles played by point gaps, offering a unified understanding of the non-Hermitian skin effect in all dimensions.
翻訳日:2023-06-22 15:00:13 公開日:2023-06-21
# visual-aware text-to-speech の略。

Visual-Aware Text-to-Speech ( http://arxiv.org/abs/2306.12020v1 )

ライセンス: Link先を確認
Mohan Zhou, Yalong Bai, Wei Zhang, Ting Yao, Tiejun Zhao, Tao Mei(参考訳) 対面対話においては,聴取頭部に積極的に応答する発話音声を動的に合成することが重要である。 例えば、話者は聞き手の表情を利用して音色、強調された音節、ポーズを調整することができる。 本稿では,音声入力と逐次視覚フィードバック(例えばnod,smile)に基づく音声を対面コミュニケーションで合成する視覚認識型テキスト・ツー・スパイチ(va-tts)タスクを提案する。 従来のテキスト音声とは異なり、VA-TTSは視覚的モダリティの影響を強調している。 そこで本研究では,音声合成のための音素言語情報と聞き手視覚信号を融合するベースラインモデルを提案する。 マルチモーダル会話データセットvico-xに関する広範囲な実験により,シナリオに適したリズムと韻律を用いた自然音声の生成を提案する。

Dynamically synthesizing talking speech that actively responds to a listening head is critical during the face-to-face interaction. For example, the speaker could take advantage of the listener's facial expression to adjust the tones, stressed syllables, or pauses. In this work, we present a new visual-aware text-to-speech (VA-TTS) task to synthesize speech conditioned on both textual inputs and sequential visual feedback (e.g., nod, smile) of the listener in face-to-face communication. Different from traditional text-to-speech, VA-TTS highlights the impact of visual modality. On this newly-minted task, we devise a baseline model to fuse phoneme linguistic information and listener visual signals for speech synthesis. Extensive experiments on multimodal conversation dataset ViCo-X verify our proposal for generating more natural audio with scenario-appropriate rhythm and prosody.
翻訳日:2023-06-22 14:59:56 公開日:2023-06-21
# 依存グラフ解析のための半自己回帰グラフ生成モデル

A Semi-Autoregressive Graph Generative Model for Dependency Graph Parsing ( http://arxiv.org/abs/2306.12018v1 )

ライセンス: Link先を確認
Ye Ma, Mingming Sun, Ping Li(参考訳) 近年、Neural Dependency Parsingの目覚ましい進歩が見られた。 グラフジョイント確率の異なる因子化アプローチにより、既存のパーサーは、自己回帰パターンと非自己回帰パターンに大別できる。 前者は、グラフを複数のシーケンシャル依存コンポーネントに分解し、コンポーネントによってコンポーネントを構築できることを意味します。 そして後者は、これらのコンポーネントが一発で出力できるように、独立していると仮定します。 しかし、有向エッジを明示的な依存関係関係として扱うと、依存グラフには独立したコンポーネントと相互依存するコンポーネントが混在していることが分かり、上記のモデルの両方がノードとエッジ間の明示的な依存関係を正確にキャプチャできないことを示す。 この特性に基づいて、ノードグループとエッジグループを追加して依存グラフを生成するための半自己回帰依存性パーサを設計し、すべてのグループ要素を並列に注入する。 このモデルは、対象とする相互依存の欠如とグラフ生成順序の不確実性に苦しむ非自己回帰と自己回帰の間のトレードオフを得る。 提案するパーサは,複数の言語の普遍的依存関係の強化,特にグラフレベルの精度で平均$4\%のプロモーションを達成するための強力なベースラインを上回っている。 また、モデルバリエーションのパフォーマンスは、特定の部分の重要性を示している。

Recent years have witnessed the impressive progress in Neural Dependency Parsing. According to the different factorization approaches to the graph joint probabilities, existing parsers can be roughly divided into autoregressive and non-autoregressive patterns. The former means that the graph should be factorized into multiple sequentially dependent components, then it can be built up component by component. And the latter assumes these components to be independent so that they can be outputted in a one-shot manner. However, when treating the directed edge as an explicit dependency relationship, we discover that there is a mixture of independent and interdependent components in the dependency graph, signifying that both aforementioned models fail to precisely capture the explicit dependencies among nodes and edges. Based on this property, we design a Semi-Autoregressive Dependency Parser to generate dependency graphs via adding node groups and edge groups autoregressively while pouring out all group elements in parallel. The model gains a trade-off between non-autoregression and autoregression, which respectively suffer from the lack of target inter-dependencies and the uncertainty of graph generation orders. The experiments show the proposed parser outperforms strong baselines on Enhanced Universal Dependencies of multiple languages, especially achieving $4\%$ average promotion at graph-level accuracy. Also, the performances of model variations show the importance of specific parts.
翻訳日:2023-06-22 14:59:39 公開日:2023-06-21
# 3HAN:フェイクニュース検出のためのディープニューラルネットワーク

3HAN: A Deep Neural Network for Fake News Detection ( http://arxiv.org/abs/2306.12014v1 )

ライセンス: Link先を確認
Sneha Singhania, Nigel Fernandez, Shrisha Rao(参考訳) フェイクニュースの急速な普及は、AIソリューションを求める深刻な問題である。 我々は3段階の階層的注意ネットワーク(3HAN)を介して、ディープラーニングに基づく自動検知装置を用いて、フェイクニュースの迅速かつ正確な検出を行う。 3HANは、単語、文、見出しの3つのレベルを有し、階層的なボトムアップ方式で記事を処理することにより、入力されたニュース記事の効果的な表現であるニュースベクトルを構築する。 見出しは偽ニュースを区別する特徴として知られており、記事中の単語や文が他の記事よりも重要であることは比較的少ない。 3HANはその3つの注意層を考慮して、記事の一部に異なる重要性を与える。 大規模な実世界のデータセットの実験により、96.77%の精度で3HANの有効性を観測した。 他のディープラーニングモデルとは異なり、3HANは、記事の異なる部分に与えられる注意重みを通して理解可能な出力を提供する。

The rapid spread of fake news is a serious problem calling for AI solutions. We employ a deep learning based automated detector through a three level hierarchical attention network (3HAN) for fast, accurate detection of fake news. 3HAN has three levels, one each for words, sentences, and the headline, and constructs a news vector: an effective representation of an input news article, by processing an article in an hierarchical bottom-up manner. The headline is known to be a distinguishing feature of fake news, and furthermore, relatively few words and sentences in an article are more important than the rest. 3HAN gives a differential importance to parts of an article, on account of its three layers of attention. By experiments on a large real-world data set, we observe the effectiveness of 3HAN with an accuracy of 96.77%. Unlike some other deep learning models, 3HAN provides an understandable output through the attention weights given to different parts of an article, which can be visualized through a heatmap to enable further manual fact checking.
翻訳日:2023-06-22 14:59:16 公開日:2023-06-21
# 超低遅延・高精度物体検出のためのスパイクニューラルネットワーク

Spiking Neural Network for Ultra-low-latency and High-accurate Object Detection ( http://arxiv.org/abs/2306.12010v1 )

ライセンス: Link先を確認
Jinye Qu, Zeyu Gao, Tielin Zhang, Yanfeng Lu, Huajin Tang, Hong Qiao(参考訳) スパイキングニューラルネットワーク(SNN)は、そのエネルギー効率と脳にインスパイアされたイベント駆動特性に対する幅広い関心を集めている。 spiking-yoloのような最近の手法では、snsをより難しいオブジェクト検出タスクに拡張しているが、しばしば高いレイテンシと低い検出精度に苦しめられ、レイテンシに敏感なモバイルプラットフォームへのデプロイが困難になっている。 さらに、ニューラルネットワーク(ANN)からSNNへの変換手法は、ANNの完全な構造を維持することは困難であり、特徴表現の貧弱さと高い変換誤差をもたらす。 これらの課題に対処するために、時間ステップ圧縮とスパイク時間依存統合(STDI)符号化という2つの手法を提案する。 前者は情報圧縮によりANN-SNN変換に必要な時間ステップを削減し、後者は情報保持能力を拡張するための時間変化閾値を設定する。 また、PASCAL VOCやMS COCOのような非自明なデータセットに対して、SNNベースの超低レイテンシと高精度オブジェクト検出モデル(SUHD)を、MS COCOデータセットのSpking-YOLOと比較して、約750倍の時間ステップと平均平均精度(mAP)の改善を達成し、最先端のパフォーマンスを実現する。 我々の知る限り、SUHDは今までで最も深いスパイクに基づくオブジェクト検出モデルであり、損失のない変換を完了するための超低タイムステップを実現する。

Spiking Neural Networks (SNNs) have garnered widespread interest for their energy efficiency and brain-inspired event-driven properties. While recent methods like Spiking-YOLO have expanded the SNNs to more challenging object detection tasks, they often suffer from high latency and low detection accuracy, making them difficult to deploy on latency sensitive mobile platforms. Furthermore, the conversion method from Artificial Neural Networks (ANNs) to SNNs is hard to maintain the complete structure of the ANNs, resulting in poor feature representation and high conversion errors. To address these challenges, we propose two methods: timesteps compression and spike-time-dependent integrated (STDI) coding. The former reduces the timesteps required in ANN-SNN conversion by compressing information, while the latter sets a time-varying threshold to expand the information holding capacity. We also present a SNN-based ultra-low latency and high accurate object detection model (SUHD) that achieves state-of-the-art performance on nontrivial datasets like PASCAL VOC and MS COCO, with about remarkable 750x fewer timesteps and 30% mean average precision (mAP) improvement, compared to the Spiking-YOLO on MS COCO datasets. To the best of our knowledge, SUHD is the deepest spike-based object detection model to date that achieves ultra low timesteps to complete the lossless conversion.
翻訳日:2023-06-22 14:59:02 公開日:2023-06-21
# er$^{3+}$:y$_2$sio$_5$におけるスターク変調光子エコーに対するハイブリッド遷移モーメントの効果

Effect of a hybrid transition moment on Stark-modulated photon echoes in Er$^{3+}$:Y$_2$SiO$_5$ ( http://arxiv.org/abs/2306.12007v1 )

ライセンス: Link先を確認
Rose L. Ahlefeldt, Alexey Lyasota, Jodie Smith, Jinliang Ren, Matthew J. Sellars(参考訳) 1538 nm ${}^4$_{15/2}$ - ${}^4$I$_{13/2}$のEr$^{3+}$の遷移は異常なハイブリッド電磁気双極子特性を持ち、ハイブリッドモーメントのシグネチャはコヒーレントな過渡的な測定で期待できる。 本稿では,er$^{3+}$:y$_2$sio$_5$の両地点におけるハイブリッドモーメントがスターク変調光子エコー測定に与える影響について検討し,位相・偏光シフトと同様に変調信号の可視性が低下することを示した。 これらの効果を単純な光学ブロッホ方程式モデルを用いて解釈し、サイト1が強い混合モーメントを持ち、サイト2が主に磁気双極子であることを示す。 量子記憶の量子情報応用におけるハイブリッドモーメントの意義について考察する。 また,3つの直交方向の光遷移のスタークシフトを抽出し,サイト1の10.50から11.93kHz/(V/cm),サイト2の15.35kHz/(V/cm)の値を求める。 我々は両場の電場によるゼーマンシフトの修正を観察し、er$^{3+}$スピン量子ビットを電気的に制御する方法について議論する。

The 1538 nm ${}^4$I$_{15/2}$ - ${}^4$I$_{13/2}$ transition of Er$^{3+}$ has an unusual hybrid electric-magnetic dipole character, and signatures of the hybrid moment can be expected in coherent transient measurements. Here, we investigate the effect of the hybrid moment in both sites of Er$^{3+}$:Y$_2$SiO$_5$ on Stark-modulated photon echo measurements, showing that it results in a reduction of visibility of the modulated signal as well as phase and polarization shifts. We interpret these effects using a simple optical Bloch equation model, showing that site 1 has a strongly mixed moment and site 2 is predominantly magnetic dipole. We discuss the implications of the hybrid moment for quantum information applications of quantum memories. We also use the echo measurements to extract the Stark shift of the optical transition along three orthogonal directions, finding values between 10.50 and 11.93 kHz/(V/cm) for site 1 and 1.61 and 15.35 kHz/(V/cm) for site 2. We observe a modification of the Zeeman shift by the electric field in both sites and discuss how this may be used to electrically control Er$^{3+}$ spin qubits.
翻訳日:2023-06-22 14:58:33 公開日:2023-06-21
# 楕円作用素の学習均質化

Learning Homogenization for Elliptic Operators ( http://arxiv.org/abs/2306.12006v1 )

ライセンス: Link先を確認
Kaushik Bhattacharya, Nikola Kovachki, Aakila Rajan, Andrew M. Stuart, Margaret Trautner(参考訳) マルチスケール偏微分方程式(PDE)は様々な応用に現れ、効率的に解くためにいくつかのスキームが開発されている。 ホモゲナイズ理論は、小規模の依存を取り除き、計算的に扱いやすい簡単な方程式を生み出す強力な方法論である。 連続体力学の分野では、マイクロスケール物理学を包含する構成法則を導出し、巨視的興味量に対する法則を定式化するためにホモジェナイゼーションが不可欠である。 しかし、一般に解析形式を持たず、マイクロスケールに存在しない現象を示すため、均質化された構成法則を得るのは難しいことが多い。 これに対し, 構成法則に関するデータ駆動学習が課題として提案されている。 しかし、この問題に対するデータ駆動学習アプローチにおける大きな課題は、基礎となる素材における不連続とコーナーインターフェースの影響である。 これらの係数の不連続性は、基礎となる方程式の解の滑らかさに影響する。 連続力学応用における不連続材料の普及を考えると、この文脈における学習の課題に対処し、特に、この科学的領域におけるデータ駆動法の信頼性を確立するための基礎理論を開発することが重要である。 本論文は, 楕円型作用素に対する同質化構成法則の, 複素数の存在下での学習可能性について検討することによって, 未解明の課題に対処する。 近似理論を示し、楕円型PDEの均質化で生じるセルプロブレムによって定義される解作用素の理論を検証する数値実験を行った。

Multiscale partial differential equations (PDEs) arise in various applications, and several schemes have been developed to solve them efficiently. Homogenization theory is a powerful methodology that eliminates the small-scale dependence, resulting in simplified equations that are computationally tractable. In the field of continuum mechanics, homogenization is crucial for deriving constitutive laws that incorporate microscale physics in order to formulate balance laws for the macroscopic quantities of interest. However, obtaining homogenized constitutive laws is often challenging as they do not in general have an analytic form and can exhibit phenomena not present on the microscale. In response, data-driven learning of the constitutive law has been proposed as appropriate for this task. However, a major challenge in data-driven learning approaches for this problem has remained unexplored: the impact of discontinuities and corner interfaces in the underlying material. These discontinuities in the coefficients affect the smoothness of the solutions of the underlying equations. Given the prevalence of discontinuous materials in continuum mechanics applications, it is important to address the challenge of learning in this context; in particular to develop underpinning theory to establish the reliability of data-driven methods in this scientific domain. The paper addresses this unexplored challenge by investigating the learnability of homogenized constitutive laws for elliptic operators in the presence of such complexities. Approximation theory is presented, and numerical experiments are performed which validate the theory for the solution operator defined by the cell-problem arising in homogenization for elliptic PDEs.
翻訳日:2023-06-22 14:58:03 公開日:2023-06-21
# 破滅的なAIリスクの概観

An Overview of Catastrophic AI Risks ( http://arxiv.org/abs/2306.12001v1 )

ライセンス: Link先を確認
Dan Hendrycks, Mantas Mazeika, Thomas Woodside(参考訳) 人工知能(AI)の急速な進歩は、専門家、政策立案者、そして世界のリーダーの間で、ますます高度なAIシステムが破滅的なリスクをもたらす可能性を懸念する声が高まっている。 多数のリスクが別々に詳述されているが、組織的な議論と、それらを軽減する努力をより良い情報化するための潜在的な危険の例示の必要性が差し迫っている。 This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. リスクのカテゴリごとに,特定のハザードを記述し,図解的なストーリーを提示し,理想的なシナリオを想定し,これらのハザードを緩和するための実践的提案を提案する。 私たちの目標は、これらのリスクを包括的に理解し、AIが安全な方法で開発され、デプロイされることを保証するために、集団的かつ積極的な取り組みを促すことです。 最終的には、破滅的な結果の可能性を最小化しながら、この強力な技術のメリットを実現することができることを願っています。

Rapid advancements in artificial intelligence (AI) have sparked growing concerns among experts, policymakers, and world leaders regarding the potential for increasingly advanced AI systems to pose catastrophic risks. Although numerous risks have been detailed separately, there is a pressing need for a systematic discussion and illustration of the potential dangers to better inform efforts to mitigate them. This paper provides an overview of the main sources of catastrophic AI risks, which we organize into four categories: malicious use, in which individuals or groups intentionally use AIs to cause harm; AI race, in which competitive environments compel actors to deploy unsafe AIs or cede control to AIs; organizational risks, highlighting how human factors and complex systems can increase the chances of catastrophic accidents; and rogue AIs, describing the inherent difficulty in controlling agents far more intelligent than humans. For each category of risk, we describe specific hazards, present illustrative stories, envision ideal scenarios, and propose practical suggestions for mitigating these dangers. Our goal is to foster a comprehensive understanding of these risks and inspire collective and proactive efforts to ensure that AIs are developed and deployed in a safe manner. Ultimately, we hope this will allow us to realize the benefits of this powerful technology while minimizing the potential for catastrophic outcomes.
翻訳日:2023-06-22 14:57:38 公開日:2023-06-21
# 量子力学の時空間対称拡張:解釈と到達時間予測

Space-time-symmetric extension of quantum mechanics: Interpretation and arrival time predictions ( http://arxiv.org/abs/2306.12000v1 )

ライセンス: Link先を確認
Ruben E. Ara\'ujo, Ricardo Ximenes, and Eduardo O. Dias(参考訳) 時間が自己随伴作用素となり、位置がパラメータとなる別の量子化規則が [E. O. Dias and F. Parisio, Phys. Rev. A 95, 032133 (2017)] で提案されている。 したがって、著者らは量子力学の時空対称(sts)拡大を導出し、そこでは空間の各点において、新しい量子状態(粒子に内在する)である ||{\phi}(x)\rangle$ が定義される。 $|{\phi}(x)\rangle$ は空間条件 (SC) Schr\"odinger 方程式に従い、時間ベースで粒子の到着時刻を$x$で予測する。 本研究では、STS拡張の固有状態とSC Schr\"odinger方程式の両方の解釈を提供する(Schr\"odinger方程式の解釈に類似)。 ` `initial'' SC 波動関数 ${\pmb \phi}(t|x_0)$ を与えられたとき、解 ${\pmb \phi}(t|x)$ は、検出器を $x_0$ から $x$ に移動する粒子の確率振幅である。 次に、状態 $|\psi(t)\rangle$ と $|{\phi}(x)\rangle$ (それぞれ$t$ と $x$ で収集された統計データを記述している)を比較し、システムに関する補完的な情報を提供することを結論付ける。 最後に、任意の空間依存ポテンシャルに対する SC Schr\"odinger 方程式を解く。 この解を潜在的な障壁に適用し、一般化されたキョフスキ分布と比較する。

An alternative quantization rule, in which time becomes a self-adjoint operator and position is a parameter, is proposed in [E. O. Dias and F. Parisio, Phys. Rev. A 95, 032133 (2017)]. Thus, the authors derive a space-time-symmetric (STS) extension of quantum mechanics, wherein a new quantum state (intrinsic to the particle), $|{\phi}(x)\rangle$, is defined at each point in space. $|{\phi}(x)\rangle$ obeys a space-conditional (SC) Schr\"odinger equation that, in the time basis, predicts the arrival time of the particle at $x$. In this work, we provide an interpretation of both the eigenstates of the STS extension and the SC Schr\"odinger equation (analogous to the interpretation of the Schr\"odinger equation): Given an ``initial'' SC wave function, ${\pmb \phi}(t|x_0)$, the solution ${\pmb \phi}(t|x)$ is the probability amplitude for the particle to arrive at $t$, given that one moves the detector from $x_0$ to a new position $x$. Then, we compare states $|\psi(t)\rangle$ and $|{\phi}(x)\rangle$ (which describe statistical data collected at $t$ and $x$, respectively) and conclude that they should provide complementary information about the system. Finally, we solve the SC Schr\"odinger equation for an arbitrary space-dependent potential. We apply this solution to a potential barrier and compare it with a generalized Kijowski distribution.
翻訳日:2023-06-22 14:57:19 公開日:2023-06-21
# 1次元材料中のエキシトン-ポーラロンの2次元コヒーレント分光の顕微鏡多体理論

Microscopic many-body theory of two-dimensional coherent spectroscopy of exciton-polarons in one-dimensional materials ( http://arxiv.org/abs/2306.11998v1 )

ライセンス: Link先を確認
Jia Wang, Hui Hu, Xia-Ji Liu(参考訳) 1次元(1次元)物質中のポーラロンのモデルのための二次元コヒーレント分光法(2dcs)の微視的多体理論を開発した。 我々の理論は、励起状態放出(ESE)、基底状態漂白(GSB)、励起状態吸収(ESA)の3つのプロセスからの貢献を考慮に入れている。 ESEおよびGSBコントリビューションは、1つの粒子ホール励起を持つチェビーのアンサッツを用いて正確に記述できるが、ESAプロセスは2つの不純物を含む多体固有状態に関する情報を必要とする。 これらの二重ポーラロン状態を計算するために、チェビーのアンサッツを1つの粒子ホール励起で拡張した。 この ansatz の有効性をbethe の ansatz を用いた正確な計算と比較し検証した。 以上の結果から,ESAの寄与はESEとGSBの貢献の合計をキャンセルし,スペクトル特性が低下することが明らかとなった。 しかし、強い相互作用では、ESAの寄与とESEとGSBの組み合わせは2DCSスペクトルで観測可能である。 これらの特徴は、ポーラロン間の相互作用に関する貴重な情報を提供する。 さらに,ポーラロン共鳴の量子コヒーレンスを特徴づける混合時間ダイナミクスについても検討した。 全体として、我々の理論はポーラロンの2DCSスペクトルを1次元材料で理解し解釈するための包括的な枠組みを提供し、相互作用とコヒーレントダイナミクスに光を当てている。

We have developed a microscopic many-body theory of two-dimensional coherent spectroscopy (2DCS) for a model of polarons in one-dimensional (1D) materials. Our theory accounts for contributions from all three processes: excited-state emission (ESE), ground-state bleaching (GSB), and excited-state absorption (ESA). While the ESE and GSB contributions can be accurately described using a Chevy's ansatz with one particle-hole excitation, the ESA process requires information about the many-body eigenstates involving two impurities. To calculate these double polaron states, we have extended the Chevy's ansatz with one particle-hole excitation. The validity of this ansatz was verified by comparing our results with an exact calculation using Bethe's ansatz. Our numerical results reveal that in the weak interaction limit, the ESA contribution cancels out the total ESE and GSB contributions, resulting in less significant spectral features. However, for strong interactions, the features of the ESA contribution and the combined ESE and GSB contributions remain observable in the 2DCS spectra. These features provide valuable information about the interactions between polarons. Additionally, we have investigated the mixing time dynamics, which characterize the quantum coherences of the polaron resonances. Overall, our theory provides a comprehensive framework for understanding and interpreting the 2DCS spectra of polarons in 1D materials, shedding light on their interactions and coherent dynamics.
翻訳日:2023-06-22 14:56:22 公開日:2023-06-21
# 非線形変分境界値問題のニューラルネットワークサロゲートの精度と信頼性を高める補正演算子

Corrector Operator to Enhance Accuracy and Reliability of Neural Operator Surrogates of Nonlinear Variational Boundary-Value Problems ( http://arxiv.org/abs/2306.12047v1 )

ライセンス: Link先を確認
Prashant K. Jha and J. Tinsley Oden(参考訳) この研究は、ニューラル作用素を介してパラメトリック偏微分方程式のクラスの解作用素を近似する手法の開発に焦点をあてる。 ニューラルネットワークには、適切なトレーニングデータの生成、コスト精度のトレードオフ、非自明なハイパーパラメータチューニングなど、いくつかの課題がある。 ニューラル演算子の精度の予測不可能性は、推論、最適化、制御といった下流問題のアプリケーションに影響を及ぼす。 ニューラルネットワークによって提供された予測を補正する線形変分問題に基づく枠組みを提案する。 修正子問題に関連する演算子は修正子演算子と呼ばれる。 pcanet型ニューラル演算子を用いた2次元の非線形拡散モデルを用いた数値実験では,提案手法により近似精度が約2桁向上することを示した。 さらに、非線形拡散モデルを含むトポロジー最適化は、ニューラル演算子の限界と補正スキームの有効性を強調していると考えられる。 神経オペレーターサロゲートによる最適化は、重大なエラー(最大80%)を発生させる。 しかし、ニューラルネットワークが提案手法に従って修正されると、エラーはずっと少なく(7%以下)なる。

This work focuses on developing methods for approximating the solution operators of a class of parametric partial differential equations via neural operators. Neural operators have several challenges, including the issue of generating appropriate training data, cost-accuracy trade-offs, and nontrivial hyperparameter tuning. The unpredictability of the accuracy of neural operators impacts their applications in downstream problems of inference, optimization, and control. A framework is proposed based on the linear variational problem that gives the correction to the prediction furnished by neural operators. The operator associated with the corrector problem is referred to as the corrector operator. Numerical results involving a nonlinear diffusion model in two dimensions with PCANet-type neural operators show almost two orders of increase in the accuracy of approximations when neural operators are corrected using the proposed scheme. Further, topology optimization involving a nonlinear diffusion model is considered to highlight the limitations of neural operators and the efficacy of the correction scheme. Optimizers with neural operator surrogates are seen to make significant errors (as high as 80 percent). However, the errors are much lower (below 7 percent) when neural operators are corrected following the proposed method.
翻訳日:2023-06-22 14:48:37 公開日:2023-06-21
# 自然視覚シーンに対する神経反応の時間的コンディショニングスパイク潜在変数モデル

Temporal Conditioning Spiking Latent Variable Models of the Neural Response to Natural Visual Scenes ( http://arxiv.org/abs/2306.12045v1 )

ライセンス: Link先を確認
Gehua Ma, Runhao Jiang, Rui Yan, Huajin Tang(参考訳) 神経応答の計算モデルの開発は、感覚処理と神経計算を理解する上で重要である。 現在の最先端のニューラルネットワーク手法は、時間的依存関係を処理するために時間的フィルタを使用し、非現実的で柔軟性のない処理フローをもたらす。 一方、これらの方法は試験的な平均射撃率を目標とし、スパイク列車の重要な特徴を捉えられなかった。 本研究は, 時間条件付潜時変動モデル(TeCoS-LVM)を提示し, 自然視覚刺激に対する神経応答をシミュレートする。 我々はスパイキングニューロンを用いて、記録された列車と直接一致するスパイク出力を生成する。 このアプローチは、オリジナルのスパイク列車に埋め込まれた情報を失うのを避けるのに役立つ。 モデルパラメータ空間から時間次元を除外し、時間条件付き操作を導入し、モデルが自然パラダイムにおける刺激配列の時間依存性を適応的に探索し活用できるようにする。 tecos-lvmモデルはより現実的なスパイクアクティビティを生成でき、強力な代替品よりもスパイク統計に正確に適合する。 さらに、学習したTeCoS-LVMモデルは、より長い時間スケールでうまく一般化することができる。 全体として、計算可能でありながら、我々のモデルは、ニューラルネットワークシステムの重要な特徴を効果的に捉えている。 これにより、様々な知覚知覚回路の正確な予測計算アカウントを構築するための有用なツールを提供する。

Developing computational models of neural response is crucial for understanding sensory processing and neural computations. Current state-of-the-art neural network methods use temporal filters to handle temporal dependencies, resulting in an unrealistic and inflexible processing flow. Meanwhile, these methods target trial-averaged firing rates and fail to capture important features in spike trains. This work presents the temporal conditioning spiking latent variable models (TeCoS-LVM) to simulate the neural response to natural visual stimuli. We use spiking neurons to produce spike outputs that directly match the recorded trains. This approach helps to avoid losing information embedded in the original spike trains. We exclude the temporal dimension from the model parameter space and introduce a temporal conditioning operation to allow the model to adaptively explore and exploit temporal dependencies in stimuli sequences in a natural paradigm. We show that TeCoS-LVM models can produce more realistic spike activities and accurately fit spike statistics than powerful alternatives. Additionally, learned TeCoS-LVM models can generalize well to longer time scales. Overall, while remaining computationally tractable, our model effectively captures key features of neural coding systems. It thus provides a useful tool for building accurate predictive computational accounts for various sensory perception circuits.
翻訳日:2023-06-22 14:48:19 公開日:2023-06-21
# 自然言語攻撃におけるサンプル攻撃性

Sample Attackability in Natural Language Adversarial Attacks ( http://arxiv.org/abs/2306.12043v1 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) 自然言語処理(NLP)における敵攻撃研究は、強力な攻撃方法や防御アプローチを設計する上で大きな進歩を遂げている。 しかし、どのソースサンプルが最も攻撃性があり、堅牢であるかを特定する努力はほとんどなく、敵の攻撃に対して最も脆弱なサンプルである未発見のターゲットモデルを決定することができる。 この研究は、NLP攻撃に対するサンプル攻撃可能性/ロバスト性の定義を正式に拡張した。 2つの人気のあるNLPデータセット、芸術モデルの4つの状態と4つの異なるNLP攻撃方法の実験は、攻撃可能な/破壊可能なサンプルの特徴を記述するにはサンプルの不確実性が不十分であることを示す。 それにもかかわらず、さらなる分析では、サンプルが様々なNLP攻撃方法において最も攻撃性/破壊性が高いとみなすような合意はほとんどなく、攻撃可能性検出手法のポータビリティの欠如が説明されている。

Adversarial attack research in natural language processing (NLP) has made significant progress in designing powerful attack methods and defence approaches. However, few efforts have sought to identify which source samples are the most attackable or robust, i.e. can we determine for an unseen target model, which samples are the most vulnerable to an adversarial attack. This work formally extends the definition of sample attackability/robustness for NLP attacks. Experiments on two popular NLP datasets, four state of the art models and four different NLP adversarial attack methods, demonstrate that sample uncertainty is insufficient for describing characteristics of attackable/robust samples and hence a deep learning based detector can perform much better at identifying the most attackable and robust samples for an unseen target model. Nevertheless, further analysis finds that there is little agreement in which samples are considered the most attackable/robust across different NLP attack methods, explaining a lack of portability of attackability detection methods across attack methods.
翻訳日:2023-06-22 14:48:00 公開日:2023-06-21
# 自己蒸留マスク式オートエンコーダは効率的なビデオ異常検出装置である

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors ( http://arxiv.org/abs/2306.12041v1 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Florinel-Alin Croitoru, Radu Tudor Ionescu, Marius Popescu, Fahad Shahbaz Khan, Mubarak Shah(参考訳) ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。 提案モデルの新規性は3倍である。 まず,動き勾配に基づく重み付きトークンへのアプローチを導入することにより,静的背景のシーンを再現する学習を回避できる。 第2に,教師用デコーダと学生用デコーダをアーキテクチャに統合し,2つのデコーダの出力間の不一致を利用して異常検出を改善した。 第3に,トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いて原フレームと対応する画素レベルの異常マップを共同で再構築する。 われわれの設計は,3つのベンチマーク( Avenue, ShanghaiTech, UCSD Ped2)で行った大規模な実験で実証された,効率的かつ効果的なモデルに導かれる。 実験結果から,本モデルは速度と精度の優れたトレードオフを実現し,競争力のあるAUCスコアを得た。 したがって、我々のモデルは競合する手法の8倍から70倍高速である。 デザインを正当化するためのアブレーション研究も行います。

We propose an efficient abnormal event detection model based on a lightweight masked auto-encoder (AE) applied at the video frame level. The novelty of the proposed model is threefold. First, we introduce an approach to weight tokens based on motion gradients, thus avoiding learning to reconstruct the static background scene. Second, we integrate a teacher decoder and a student decoder into our architecture, leveraging the discrepancy between the outputs given by the two decoders to improve anomaly detection. Third, we generate synthetic abnormal events to augment the training videos, and task the masked AE model to jointly reconstruct the original frames (without anomalies) and the corresponding pixel-level anomaly maps. Our design leads to an efficient and effective model, as demonstrated by the extensive experiments carried out on three benchmarks: Avenue, ShanghaiTech and UCSD Ped2. The empirical results show that our model achieves an excellent trade-off between speed and accuracy, obtaining competitive AUC scores, while processing 1670 FPS. Hence, our model is between 8 and 70 times faster than competing methods. We also conduct an ablation study to justify our design.
翻訳日:2023-06-22 14:47:42 公開日:2023-06-21
# 低リソース音声合成のためのトランスファー学習戦略--電話マッピング、特徴量入力、ソース言語選択

Strategies in Transfer Learning for Low-Resource Speech Synthesis: Phone Mapping, Features Input, and Source Language Selection ( http://arxiv.org/abs/2306.12040v1 )

ライセンス: Link先を確認
Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers(参考訳) PHOIBLEベースの電話マッピング手法と低リソース言語におけるTSの転送学習における音韻的特徴を比較検討した。 我々は様々なソース言語(英語、フィンランド語、ヒンディー語、日本語、ロシア語)とターゲット言語(ブルガリア語、グルジア語、カザフ語、スワヒリ語、ウルドゥー語、ウズベク語)を用いて、手法の言語独立性をテストし、その結果の適用性を高める。 自動音声認識による文字誤り率と平均オピニオンスコアの予測値を用いて評価を行う。 結果から,音声マッピングと特徴量の両方が出力品質を向上し,後者が良好な結果を示すが,これらの効果は言語の組み合わせにも依存することがわかった。 また、最近提案したASPF(Angular similarity of Phone Frequencies)を、転送学習におけるソース言語の選択基準として、家系木に基づく距離尺度と比較した。 ASPFは、ラベルベースの電話入力を使用する場合、言語距離が期待できない場合、有効であることを示す。

We compare using a PHOIBLE-based phone mapping method and using phonological features input in transfer learning for TTS in low-resource languages. We use diverse source languages (English, Finnish, Hindi, Japanese, and Russian) and target languages (Bulgarian, Georgian, Kazakh, Swahili, Urdu, and Uzbek) to test the language-independence of the methods and enhance the findings' applicability. We use Character Error Rates from automatic speech recognition and predicted Mean Opinion Scores for evaluation. Results show that both phone mapping and features input improve the output quality and the latter performs better, but these effects also depend on the specific language combination. We also compare the recently-proposed Angular Similarity of Phone Frequencies (ASPF) with a family tree-based distance measure as a criterion to select source languages in transfer learning. ASPF proves effective if label-based phone input is used, while the language distance does not have expected effects.
翻訳日:2023-06-22 14:47:22 公開日:2023-06-21
# ノードベースコアレジリエンスの定量化

Quantifying Node-based Core Resilience ( http://arxiv.org/abs/2306.12038v1 )

ライセンス: Link先を確認
Jakir Hossain, Sucheta Soundarajan and Ahmet Erdem Sar{\i}y\"uce(参考訳) コア分解は、高密度部分グラフ発見や影響ノードの特定など、さまざまなグラフ解析タスクのための効率的なビルディングブロックである。 コア分解の重要な弱点の1つは、グラフの変更に対する感度である。 少数のエッジを挿入または削除することで、グラフのコア構造が劇的に変わる可能性がある。 したがって、グローバルおよび局所レベルにおける与えられたグラフのコア構造のレジリエンスを特徴づけ、定量化し、可能ならば改善することが不可欠である。 以前の作品は、主にグラフ全体や重要な部分グラフのコアレジリエンスと見なされていた。 本研究では,エッジ除去と挿入によるノードベースコアレジリエンス測定について検討する。 まず,従来提案されていたコア強度は,エッジ除去時にノードのコアレジリエンスを正確に捉えていないことを示す。 次に、依存グラフの概念を導入し、(エッジ除去のために)隣ノードと、(エッジ挿入のために)将来の隣ノードが与えられたノードのコア数に与える影響を捉える。 そこで我々は,エッジの除去および挿入時に各ノードのレジリエンスを捕捉するための除去強度と挿入強度をそれぞれ定義する。 これらの測定値のナイーブな計算は費用がかかるため、コア構造に関する重要な観測に基づく効率的なヒューリスティックを提供する。 我々は,重要エッジの発見と影響力のあるスプレッダの同定という2つの重要な応用について検討し,様々な実世界のネットワークと複数のベースラインに対する新しい尺度の有用性を実証する。 また、我々のヒューリスティックアルゴリズムは、単純なアプローチよりも効率的であることを示す。

Core decomposition is an efficient building block for various graph analysis tasks such as dense subgraph discovery and identifying influential nodes. One crucial weakness of the core decomposition is its sensitivity to changes in the graph: inserting or removing a few edges can drastically change the core structure of a graph. Hence, it is essential to characterize, quantify, and, if possible, improve the resilience of the core structure of a given graph in global and local levels. Previous works mostly considered the core resilience of the entire graph or important subgraphs in it. In this work, we study node-based core resilience measures upon edge removals and insertions. We first show that a previously proposed measure, Core Strength, does not correctly capture the core resilience of a node upon edge removals. Next, we introduce the concept of dependency graph to capture the impact of neighbor nodes (for edge removal) and probable future neighbor nodes (for edge insertion) on the core number of a given node. Accordingly, we define Removal Strength and Insertion Strength measures to capture the resilience of an individual node upon removing and inserting an edge, respectively. As naive computation of those measures is costly, we provide efficient heuristics built on key observations about the core structure. We consider two key applications, finding critical edges and identifying influential spreaders, to demonstrate the usefulness of our new measures on various real-world networks and against several baselines. We also show that our heuristic algorithms are more efficient than the naive approaches.
翻訳日:2023-06-22 14:47:03 公開日:2023-06-21
# 収束性を改善した分散ランダムリシャフリング法

Distributed Random Reshuffling Methods with Improved Convergence ( http://arxiv.org/abs/2306.12037v1 )

ライセンス: Link先を確認
Kun Huang, Linli Zhou, and Shi Pu(参考訳) 本稿では,ネットワーク上の分散最適化問題の解法として,ランダムリシャフリングによる勾配追従法(gt-rr)とランダムリシャフリングによる完全拡散法(ed-rr)の2つの分散ランダムリシャフリング法を提案する。 どちらのアルゴリズムも各エージェントに対するランダムリシャッフル(RR)更新を起動し、スムーズな非凸目的関数を最小化するためのRRの特徴を継承し、理論上も経験的にも従来の分散ランダムリシャッフル手法の性能を向上させる。 具体的には、GT-RR と ED-RR はともに、勾配の(最小)2乗ノルムを 0 に駆動するときに$O(1/[(1-\lambda)^{1/3}m^{1/3}T^{2/3}] の収束率を達成し、$T$ はエポックの数を表し、$m$ は各エージェントのサンプルサイズであり、1-\lambda$ は混合行列のスペクトルギャップを表す。 目的関数がさらに polyak-{\l}ojasiewicz (pl) 条件を満たすと、gt-rr と ed-rr はともに、エージェントの関数値と大域的最小値の平均期待値の差で$o(1/[(1-\lambda)mt^2])$ の収束率を達成する。 特に、どちらの結果も集中型RR法の収束率(ネットワークトポロジに依存する定数要素まで)に匹敵し、従来の分散ランダムリシャッフルアルゴリズムよりも優れている。 さらに,一連の数値実験により理論的結果を支持する。

This paper proposes two distributed random reshuffling methods, namely Gradient Tracking with Random Reshuffling (GT-RR) and Exact Diffusion with Random Reshuffling (ED-RR), to solve the distributed optimization problem over a connected network, where a set of agents aim to minimize the average of their local cost functions. Both algorithms invoke random reshuffling (RR) update for each agent, inherit favorable characteristics of RR for minimizing smooth nonconvex objective functions, and improve the performance of previous distributed random reshuffling methods both theoretically and empirically. Specifically, both GT-RR and ED-RR achieve the convergence rate of $O(1/[(1-\lambda)^{1/3}m^{1/3}T^{2/3}])$ in driving the (minimum) expected squared norm of the gradient to zero, where $T$ denotes the number of epochs, $m$ is the sample size for each agent, and $1-\lambda$ represents the spectral gap of the mixing matrix. When the objective functions further satisfy the Polyak-{\L}ojasiewicz (PL) condition, we show GT-RR and ED-RR both achieve $O(1/[(1-\lambda)mT^2])$ convergence rate in terms of the averaged expected differences between the agents' function values and the global minimum value. Notably, both results are comparable to the convergence rates of centralized RR methods (up to constant factors depending on the network topology) and outperform those of previous distributed random reshuffling algorithms. Moreover, we support the theoretical findings with a set of numerical experiments.
翻訳日:2023-06-22 14:46:43 公開日:2023-06-21
# 自己監督型異常検出のためのエンドツーエンド拡張ハイパーパラメータチューニング

End-to-End Augmentation Hyperparameter Tuning for Self-Supervised Anomaly Detection ( http://arxiv.org/abs/2306.12033v1 )

ライセンス: Link先を確認
Jaemin Yoo, Lingxiao Zhao, and Leman Akoglu(参考訳) 自己教師あり学習(SSL)は、手作業によるラベル付けの負担を回避し、現実の問題に自己生成の監視信号を提示する、有望なパラダイムとして登場した。 SSLは異常検出のような教師なしのタスクには特に魅力的で、ラベル付き異常はしばしば存在しない。 自己監督型異常検出(SSAD)は近年注目されているが,データ増大をハイパーパラメータとして扱うことはできなかった。 一方,近年の研究では,増強の選択が検出性能に大きな影響を与えることが報告されている。 本稿では,ST-SSAD(Self-Tuning Self-Supervised Anomaly Detection)について述べる。 この目的のために、我々の研究は2つの重要な貢献をしている。 ひとつは、強化されたトレーニングデータと(ラベルなし)テストデータのアラインメントを定量化する、教師なし検証損失だ。 原理的には、テストデータによらず任意の擬似異常によるデータ拡張とは対照的に、増大が真の異常発生機構を模倣する程度を定量化する。 第2に,データ拡張ハイパーパラメータ(s)を,提案する検証損失によってエンドツーエンドに調整可能な,新たな微分可能な拡張関数を提案する。 セマンティッククラス異常と微妙な工業的欠陥を伴う2つのテストベッドの実験は、体系的な調整強化が現在のプラクティスよりも大きなパフォーマンス向上をもたらすことを示している。

Self-supervised learning (SSL) has emerged as a promising paradigm that presents self-generated supervisory signals to real-world problems, bypassing the extensive manual labeling burden. SSL is especially attractive for unsupervised tasks such as anomaly detection, where labeled anomalies are often nonexistent and costly to obtain. While self-supervised anomaly detection (SSAD) has seen a recent surge of interest, the literature has failed to treat data augmentation as a hyperparameter. Meanwhile, recent works have reported that the choice of augmentation has significant impact on detection performance. In this paper, we introduce ST-SSAD (Self-Tuning Self-Supervised Anomaly Detection), the first systematic approach to SSAD in regards to rigorously tuning augmentation. To this end, our work presents two key contributions. The first is a new unsupervised validation loss that quantifies the alignment between the augmented training data and the (unlabeled) test data. In principle we adopt transduction, quantifying the extent to which augmentation mimics the true anomaly-generating mechanism, in contrast to augmenting data with arbitrary pseudo anomalies without regard to test data. Second, we present new differentiable augmentation functions, allowing data augmentation hyperparameter(s) to be tuned end-to-end via our proposed validation loss. Experiments on two testbeds with semantic class anomalies and subtle industrial defects show that systematically tuning augmentation offers significant performance gains over current practices.
翻訳日:2023-06-22 14:46:02 公開日:2023-06-21
# 各種Webクローラアルゴリズムの比較解析

Comparative analysis of various web crawler algorithms ( http://arxiv.org/abs/2306.12027v1 )

ライセンス: Link先を確認
Nithin T K, Chandana S, Barani G, Chavva Dharani, M S Karishma(参考訳) 本発表では,World Wide Web上の大量のデータを扱う上で,Webクローリングとページランキングアルゴリズムの重要性に焦点を当てる。 ウェブが指数関数的に成長を続けるにつれ、効率的な検索・検索方法が重要となる。 ウェブクローリングは、構造化されていないデータを構造化データに変換し、効果的な情報検索を可能にするプロセスである。 さらに、ページランキングアルゴリズムは、ウェブページの品質と人気を評価する上で重要な役割を果たす。 プレゼンテーションでは、これらのアルゴリズムの背景を調査し、シャーク検索、優先度ベースのキュー、ナイーブベイ、幅優先、深さ優先の5つのクロールアルゴリズムを評価する。 目標は、Webページをクロールする最も効果的なアルゴリズムを特定することである。 これらのアルゴリズムを理解することで、Webをナビゲートし、価値ある情報を効率的に抽出する能力を高めることができる。

This presentation focuses on the importance of web crawling and page ranking algorithms in dealing with the massive amount of data present on the World Wide Web. As the web continues to grow exponentially, efficient search and retrieval methods become crucial. Web crawling is a process that converts unstructured data into structured data, enabling effective information retrieval. Additionally, page ranking algorithms play a significant role in assessing the quality and popularity of web pages. The presentation explores the background of these algorithms and evaluates five different crawling algorithms: Shark Search, Priority-Based Queue, Naive Bayes, Breadth-First, and Depth-First. The goal is to identify the most effective algorithm for crawling web pages. By understanding these algorithms, we can enhance our ability to navigate the web and extract valuable information efficiently.
翻訳日:2023-06-22 14:45:35 公開日:2023-06-21
# 連続学習者はインクリメンタルモデル一般化器である

Continual Learners are Incremental Model Generalizers ( http://arxiv.org/abs/2306.12026v1 )

ライセンス: Link先を確認
Jaehong Yoon, Sung Ju Hwang, Yue Cao(参考訳) 本稿では,下流課題を解決するための事前学習モデルの効率性と迅速な収束により,継続学習モデル(CL)が事前学習者に与える影響を広く研究する。 教師付きclと教師なしclの両方において,微調整性能の低下を生じさせることなく,表現の転送品質が徐々に増加することが判明した。 これは、CLモデルがタスク固有の知識を忘れやすい場合に、タスク汎用機能を改善することができるためである。 そこで本研究では,学習中の流動的なタスク・ジェネリック表現を捉えることを目的とした,マスク付きモデリングによる教師なしCLフレームワークを提案する。 さらに,下流課題解決時にリッチなタスクジェネリック表現を保存できる新しい微調整方式であるglobal attention discretization (glad)を提案する。 GLADで微調整されたモデルは競争性能を達成し、優れた事前訓練モデルとしても使用できる。 本稿では、事前学習と微調整の障壁を突破し、継続学習者がモデル一般化を漸進的に改善し、見知らぬタスクにより良い移行をもたらす持続可能な学習フレームワークをもたらすと信じている。

Motivated by the efficiency and rapid convergence of pre-trained models for solving downstream tasks, this paper extensively studies the impact of Continual Learning (CL) models as pre-trainers. In both supervised and unsupervised CL, we find that the transfer quality of the representation often increases gradually without noticeable degradation in fine-tuning performance. This is because CL models can learn improved task-general features when easily forgetting task-specific knowledge. Based on this observation, we suggest a new unsupervised CL framework with masked modeling, which aims to capture fluent task-generic representation during training. Furthermore, we propose a new fine-tuning scheme, GLobal Attention Discretization (GLAD), that preserves rich task-generic representation during solving downstream tasks. The model fine-tuned with GLAD achieves competitive performance and can also be used as a good pre-trained model itself. We believe this paper breaks the barriers between pre-training and fine-tuning steps and leads to a sustainable learning framework in which the continual learner incrementally improves model generalization, yielding better transfer to unseen tasks.
翻訳日:2023-06-22 14:45:21 公開日:2023-06-21
# 読み理解のための談話単位とキーワードのリンクによる階層的推論連鎖のモデル化

Modeling Hierarchical Reasoning Chains by Linking Discourse Units and Key Phrases for Reading Comprehension ( http://arxiv.org/abs/2306.12069v1 )

ライセンス: Link先を確認
Jialin Chen, Zhuosheng Zhang, Hai Zhao(参考訳) 機械読み取り理解(MRC)は、与えられた文脈に係わる暗黙的な論理的関係を理解し、それらに対する推論を行うことを目的として、論理的推論に対する新たな課題を提起する。 論理の複雑さのため、論理関係は異なる粒度レベルに存在する。 しかし、既存の論理的推論手法のほとんどは、エンティティ・アウェアまたは談話に基づく情報に個別にフォーカスするが、相互に影響を及ぼす可能性のある階層関係を無視する。 本稿では,論理的推論の基礎として,対話レベルと単語レベルの両方の文脈を扱う全体性グラフネットワーク(HGN)を提案し,よりきめ細かな関係抽出を実現する。 特に、推論プロセスのブリッジとして解釈できるノードレベルとタイプレベルの関係は、mrcシステムの解釈を改善するために階層的相互作用機構によってモデル化される。 論理推論qaデータセット(reclorとlogiqa)と自然言語推論データセット(snliとanli)の実験結果は,本手法の有効性と一般化を示し,複雑な論理関係を理解する能力を検証する。

Machine reading comprehension (MRC) poses new challenges over logical reasoning, which aims to understand the implicit logical relations entailed in the given contexts and perform inference over them. Due to the complexity of logic, logical relations exist at different granularity levels. However, most existing methods of logical reasoning individually focus on either entity-aware or discourse-based information but ignore the hierarchical relations that may even have mutual effects. In this paper, we propose a holistic graph network (HGN) which deals with context at both discourse level and word level, as the basis for logical reasoning, to provide a more fine-grained relation extraction. Specifically, node-level and type-level relations, which can be interpreted as bridges in the reasoning process, are modeled by a hierarchical interaction mechanism to improve the interpretation of MRC systems. Experimental results on logical reasoning QA datasets (ReClor and LogiQA) and natural language inference datasets (SNLI and ANLI) show the effectiveness and generalization of our method, and in-depth analysis verifies its capability to understand complex logical relations.
翻訳日:2023-06-22 14:39:38 公開日:2023-06-21
# 滑らかな緩和条件下での確率的二値最適化のための最適アルゴリズム

Optimal Algorithms for Stochastic Bilevel Optimization under Relaxed Smoothness Conditions ( http://arxiv.org/abs/2306.12067v1 )

ライセンス: Link先を確認
Xuxing Chen, Tesi Xiao, Krishnakumar Balasubramanian(参考訳) 確率的双レベル最適化は通常、強凸下層(LL)関数のarg-minに依存する上層(UL)関数を最小化する。 いくつかのアルゴリズムはノイマン級数を用いて、UL関数の暗黙的勾配(ハイパーグラディエント)の推定に関与する行列逆を近似する。 最先端のStOchastic Bilevel Algorithm (SOBA) [16] は、代わりに確率勾配降下ステップを用いて、明示的行列の逆変換に関連する線形系を解く。 この修正により、ソバは非凸設定の単一レベルのサンプル複雑性の下限にマッチすることができる。 残念ながら、SOBA の現在の解析は、最適性を達成するために UL と LL 関数の高次滑らかさの仮定に依存する。 本稿では,確率的二レベル最適化のための完全単ループおよびヘシアン反転自由アルゴリズムフレームワークを導入し,標準滑らか性仮定(UL関数の1次リプシッツネスとLL関数の2次リプシッツネス)の下でより厳密な解析を行う。 さらに,提案手法を微調整することで,より汎用的な多目的ロバストな2レベル最適化問題に対処できることを示す。 本稿では,提案したアルゴリズムおよび解析フレームワークの汎用性を示す,最先端のオラクル複雑性結果を得る。 数値実験により,提案手法の性能向上が実証された。

Stochastic Bilevel optimization usually involves minimizing an upper-level (UL) function that is dependent on the arg-min of a strongly-convex lower-level (LL) function. Several algorithms utilize Neumann series to approximate certain matrix inverses involved in estimating the implicit gradient of the UL function (hypergradient). The state-of-the-art StOchastic Bilevel Algorithm (SOBA) [16] instead uses stochastic gradient descent steps to solve the linear system associated with the explicit matrix inversion. This modification enables SOBA to match the lower bound of sample complexity for the single-level counterpart in non-convex settings. Unfortunately, the current analysis of SOBA relies on the assumption of higher-order smoothness for the UL and LL functions to achieve optimality. In this paper, we introduce a novel fully single-loop and Hessian-inversion-free algorithmic framework for stochastic bilevel optimization and present a tighter analysis under standard smoothness assumptions (first-order Lipschitzness of the UL function and second-order Lipschitzness of the LL function). Furthermore, we show that by a slight modification of our approach, our algorithm can handle a more general multi-objective robust bilevel optimization problem. For this case, we obtain the state-of-the-art oracle complexity results demonstrating the generality of both the proposed algorithmic and analytic frameworks. Numerical experiments demonstrate the performance gain of the proposed algorithms over existing ones.
翻訳日:2023-06-22 14:39:17 公開日:2023-06-21
# EquiformerV2:高階表現へのスケーリングのための改良された同変変換器

EquiformerV2: Improved Equivariant Transformer for Scaling to Higher-Degree Representations ( http://arxiv.org/abs/2306.12059v1 )

ライセンス: Link先を確認
Yi-Lun Liao, Brandon Wood, Abhishek Das, Tess Smidt(参考訳) Equiformerのような同変変換器は、3次元原子論系の領域に変換器を適用する効果を実証している。 しかし、それらは計算複雑性のため、いまだに小さな等変表現の次数に制限されている。 本稿では,これらのアーキテクチャが高次にスケールできるかどうかを考察する。 Equiformerから始めて、まず$SO(3)$畳み込みをeSCN畳み込みに置き換え、高次テンソルを効率的に組み込む。 次に,より高次なパワーをうまく活用するために,注意再正規化,分離可能な$s^2$アクティベーション,分離可能なレイヤ正規化という3つのアーキテクチャ上の改善を提案する。 これらをまとめると、EquiformerV2は、大規模OC20データセットにおける従来の最先端の手法を最大12 %の力で上回り、エネルギーは4 %のエネルギーで、より高速なトレードオフを提供するとともに、吸着エネルギーの計算に要するDFT計算を2 倍の時間で削減する。

Equivariant Transformers such as Equiformer have demonstrated the efficacy of applying Transformers to the domain of 3D atomistic systems. However, they are still limited to small degrees of equivariant representations due to their computational complexity. In this paper, we investigate whether these architectures can scale well to higher degrees. Starting from Equiformer, we first replace $SO(3)$ convolutions with eSCN convolutions to efficiently incorporate higher-degree tensors. Then, to better leverage the power of higher degrees, we propose three architectural improvements -- attention re-normalization, separable $S^2$ activation and separable layer normalization. Putting this all together, we propose EquiformerV2, which outperforms previous state-of-the-art methods on the large-scale OC20 dataset by up to $12\%$ on forces, $4\%$ on energies, offers better speed-accuracy trade-offs, and $2\times$ reduction in DFT calculations needed for computing adsorption energies.
翻訳日:2023-06-22 14:38:51 公開日:2023-06-21
# 学習メタデータに基づく生画像再構成

Beyond Learned Metadata-based Raw Image Reconstruction ( http://arxiv.org/abs/2306.12058v1 )

ライセンス: Link先を確認
Yufei Wang, Yi Yu, Wenhan Yang, Lanqing Guo, Lap-Pui Chau, Alex C. Kot, Bihan Wen(参考訳) 生画像は線形性や細かな量子化レベルといったsrgb画像と異なるアドバンテージを持つが、大きなストレージ要件のため一般には広く採用されていない。 近年,生画像の画素空間内におけるサンプリングマスクの設計により生画像を圧縮する手法が提案されている。 しかし、これらのアプローチは、より効果的な画像表現とコンパクトなメタデータを追求する余地をしばしば残している。 本研究では,潜在空間において,メタデータとして機能するコンパクト表現をエンドツーエンドで学習する新しいフレームワークを提案する。 画像圧縮に比較して,SRGB画像からのリッチな情報による生画像再構成タスクの本質的な差異を分析する。 解析に基づき,非対称・ハイブリッド空間特徴分解能を有する新しいバックボーン設計を提案し,速度歪み特性を著しく改善した。 また,srgb画像と既に処理された特徴のマスクの両方に基づいて,符号化/復号の順序マスクを精度良く予測できるコンテキストモデルの新たな設計を提案する。 秩序マスク間の相関関係のより優れたモデリングにより、既に処理済みの情報がより有効に利用できる。 さらに、異なる領域に様々なレベルの量子化精度を動的に割り当てる新しいsRGB誘導適応量子化精度戦略により、モデルの表現能力が向上する。 最後に,提案したコンテキストモデルの反復特性に基づいて,単一モデルを用いて可変ビットレートを実現する新しい手法を提案する。 この戦略は、幅広いビットレートの連続収束を可能にする。 大規模な実験結果から,提案手法はメタデータサイズを小さくすることで,再現性の向上を図っている。

While raw images have distinct advantages over sRGB images, e.g., linearity and fine-grained quantization levels, they are not widely adopted by general users due to their substantial storage requirements. Very recent studies propose to compress raw images by designing sampling masks within the pixel space of the raw image. However, these approaches often leave space for pursuing more effective image representations and compact metadata. In this work, we propose a novel framework that learns a compact representation in the latent space, serving as metadata, in an end-to-end manner. Compared with lossy image compression, we analyze the intrinsic difference of the raw image reconstruction task caused by rich information from the sRGB image. Based on the analysis, a novel backbone design with asymmetric and hybrid spatial feature resolutions is proposed, which significantly improves the rate-distortion performance. Besides, we propose a novel design of the context model, which can better predict the order masks of encoding/decoding based on both the sRGB image and the masks of already processed features. Benefited from the better modeling of the correlation between order masks, the already processed information can be better utilized. Moreover, a novel sRGB-guided adaptive quantization precision strategy, which dynamically assigns varying levels of quantization precision to different regions, further enhances the representation ability of the model. Finally, based on the iterative properties of the proposed context model, we propose a novel strategy to achieve variable bit rates using a single model. This strategy allows for the continuous convergence of a wide range of bit rates. Extensive experimental results demonstrate that the proposed method can achieve better reconstruction quality with a smaller metadata size.
翻訳日:2023-06-22 14:38:31 公開日:2023-06-21
# grabcutとgenerative adversarial serial autoencoderを用いた画像再構成による唐辛子病の診断

Chili Pepper Disease Diagnosis via Image Reconstruction Using GrabCut and Generative Adversarial Serial Autoencoder ( http://arxiv.org/abs/2306.12057v1 )

ライセンス: Link先を確認
Jongwook Si and Sungyoung Kim(参考訳) 近年のスマートファームの発展により、研究者はこうした分野に非常に関心を寄せている。 特に、疾患診断の分野が最も重要な要素である。 疾患診断は異常検出の分野に属し、植物または果実が正常であるか異常であるかを識別することを目的としている。 この問題は、CNNに基づくバイナリやマルチクラス化によって解決できるが、画像再構成によっても解決できる。 しかし、画像生成性能の限界により、SOTAの手法は潜在ベクトル誤差を用いたスコア計算法を提案する。 本稿では,唐辛子に焦点をあてたネットワークを提案し,グラブカットによる背景除去を行った。 画像に基づくスコア算出手法により高い性能を示す。 入力画像の再構成が困難であるため、入力画像と出力画像の差が大きい。 しかし,本論文で提案するシリアルオートエンコーダでは,実際の入力以外の2つの偽画像の違いをスコアとして用いている。 本稿では,GAN構造を用いて有意義な画像を生成する手法を提案し,その3つの結果を1つの判別器で同時に分類する。 提案手法は従来の研究よりも高い性能を示し,画像ベーススコアは最高のパフォーマンスを示した。

With the recent development of smart farms, researchers are very interested in such fields. In particular, the field of disease diagnosis is the most important factor. Disease diagnosis belongs to the field of anomaly detection and aims to distinguish whether plants or fruits are normal or abnormal. The problem can be solved by binary or multi-classification based on CNN, but it can also be solved by image reconstruction. However, due to the limitation of the performance of image generation, SOTA's methods propose a score calculation method using a latent vector error. In this paper, we propose a network that focuses on chili peppers and proceeds with background removal through Grabcut. It shows high performance through image-based score calculation method. Due to the difficulty of reconstructing the input image, the difference between the input and output images is large. However, the serial autoencoder proposed in this paper uses the difference between the two fake images except for the actual input as a score. We propose a method of generating meaningful images using the GAN structure and classifying three results simultaneously by one discriminator. The proposed method showed higher performance than previous researches, and image-based scores showed the best performanc
翻訳日:2023-06-22 14:38:05 公開日:2023-06-21
# 肝線維症ステージングのための多視点学習の信頼性と解釈可能なフレームワーク

A Reliable and Interpretable Framework of Multi-view Learning for Liver Fibrosis Staging ( http://arxiv.org/abs/2306.12054v1 )

ライセンス: Link先を確認
Zheyao Gao, Yuanye Liu, Fuping Wu, NanNan Shi, Yuxin Shi, Xiahai Zhuang(参考訳) 肝線維化の進行は肝疾患患者の診断と治療計画において重要である。 腹部磁気共鳴画像(MRI)を用いた現在のディープラーニング法は、通常、肝臓のサブリージョンを入力として取り込むが、重要な情報を見逃す可能性がある。 より豊かな表現を探索するために、我々はこのタスクを多視点学習問題として定式化し、肝臓の複数の部分領域を用いる。 これまで、特徴や予測は通常暗黙の方法で結合され、不確実性を認識する方法が提案されてきた。 しかし、これらの手法は、ステージングの正確な予測において重要な、クロスビュー表現のキャプチャに挑戦することができる。 そこで我々は,大域的表現をモデル化し,予測の精度を向上する,解釈可能な組み合わせルールを持つ信頼性の高い多視点学習手法を提案する。 具体的には,信頼性向上のために主観的論理に基づく不確実性を推定し,解釈可能性に優れたDempster-Shaferのエビデンス理論に基づく明示的な組み合わせルールを適用した。 さらに、グローバルビューにおける表現をキャプチャするために、データ効率の変換器を導入する。 拡張mriデータを用いて評価した結果,既存のマルチビュー学習法よりも優れた性能が得られた。

Staging of liver fibrosis is important in the diagnosis and treatment planning of patients suffering from liver diseases. Current deep learning-based methods using abdominal magnetic resonance imaging (MRI) usually take a sub-region of the liver as an input, which nevertheless could miss critical information. To explore richer representations, we formulate this task as a multi-view learning problem and employ multiple sub-regions of the liver. Previously, features or predictions are usually combined in an implicit manner, and uncertainty-aware methods have been proposed. However, these methods could be challenged to capture cross-view representations, which can be important in the accurate prediction of staging. Therefore, we propose a reliable multi-view learning method with interpretable combination rules, which can model global representations to improve the accuracy of predictions. Specifically, the proposed method estimates uncertainties based on subjective logic to improve reliability, and an explicit combination rule is applied based on Dempster-Shafer's evidence theory with good power of interpretability. Moreover, a data-efficient transformer is introduced to capture representations in the global view. Results evaluated on enhanced MRI data show that our method delivers superior performance over existing multi-view learning methods.
翻訳日:2023-06-22 14:37:48 公開日:2023-06-21
# 浅い量子回路による化学精度向上に向けて:クリフォードに基づくハミルトン工学的アプローチ

Towards chemical accuracy with shallow quantum circuits: A Clifford-based Hamiltonian engineering approach ( http://arxiv.org/abs/2306.12053v1 )

ライセンス: Link先を確認
Jiace Sun, Lixue Cheng, Weitang Li(参考訳) 浅い量子回路で化学的精度を得ることは、量子化学、特に短期量子デバイスにおいて重要な課題である。 本研究では,回路深さと精度のトレードオフに対処するクリフォードに基づくハミルトン工学アルゴリズム,すなわちCHEMを提案する。 変動量子固有解法とハードウェア効率のアンサッツに基づいて,(1)ハートリー-フォックエネルギーに対応する初期回路パラメータのセットを確実に生成し,(2)回路パラメータに対する初期エネルギー勾配を効果的に最大化し,(3)古典的な処理に無視可能なオーバーヘッドを課し,追加の量子資源を必要としない,クリフォードベースのハミルトン変換を設計した。 量子ハードウェアエミュレータを用いたアプローチの有効性を実証し,30量子ゲート未満の12量子ビットのシステムに対して化学的精度を実現する。 我々のクリフォード拠点のハミルトン工学的アプローチは、短期量子デバイス上での実用的な量子計算化学のための有望な道を提供する。

Achieving chemical accuracy with shallow quantum circuits is a significant challenge in quantum computational chemistry, particularly for near-term quantum devices. In this work, we present a Clifford-based Hamiltonian engineering algorithm, namely CHEM, that addresses the trade-off between circuit depth and accuracy. Based on variational quantum eigensolver and hardware-efficient ansatz, our method designs Clifford-based Hamiltonian transformation that (1) ensures a set of initial circuit parameters corresponding to the Hartree--Fock energy can be generated, (2) effectively maximizes the initial energy gradient with respect to circuit parameters, and (3) imposes negligible overhead for classical processing and does not require additional quantum resources. We demonstrate the efficacy of our approach using a quantum hardware emulator, achieving chemical accuracy for systems as large as 12 qubits with fewer than 30 two-qubit gates. Our Clifford-based Hamiltonian engineering approach offers a promising avenue for practical quantum computational chemistry on near-term quantum devices.
翻訳日:2023-06-22 14:37:28 公開日:2023-06-21
# 実画像におけるフォントスタイルの使用状況と文脈要因の分析

Analyzing Font Style Usage and Contextual Factors in Real Images ( http://arxiv.org/abs/2306.12050v1 )

ライセンス: Link先を確認
Naoya Yasukochi, Hideaki Hayashi, Daichi Haraguchi, Seiichi Uchida(参考訳) 世界には様々なフォントのスタイルがある。 異なるスタイルは異なる印象と可読性を与える。 本稿では,大規模データセットを用いたフォント選択におけるフォントスタイルと文脈要因の関係について検討する。 例えば、Open Imagesデータセットで約800,000ワードを使用してフォントスタイルとその周辺オブジェクト(`bus''など)の関係を分析する。 また、フォントスタイルと書籍ジャンルの関係を分析するために、ブックカバーデータセットも使用しています。 さらに、この単語の意味は別の文脈要因として仮定される。 これらの数値解析にはフォントスタイルの特徴抽出モデルと word2vec を用いる。 共起関係分析の結果,特定の文脈要因に対して特定のフォントスタイルが用いられている例がいくつか見出された。

There are various font styles in the world. Different styles give different impressions and readability. This paper analyzes the relationship between font styles and contextual factors that might affect font style selection with large-scale datasets. For example, we will analyze the relationship between font style and its surrounding object (such as ``bus'') by using about 800,000 words in the Open Images dataset. We also use a book cover dataset to analyze the relationship between font styles with book genres. Moreover, the meaning of the word is assumed as another contextual factor. For these numeric analyses, we utilize our own font-style feature extraction model and word2vec. As a result of co-occurrence-based relationship analysis, we found several instances of specific font styles being used for specific contextual factors.
翻訳日:2023-06-22 14:37:08 公開日:2023-06-21
# 拡散モデルによるアンビグラム生成

Ambigram Generation by A Diffusion Model ( http://arxiv.org/abs/2306.12049v1 )

ライセンス: Link先を確認
Takahiro Shirakawa, Seiichi Uchida(参考訳) アンビグラム(英: Ambigrams)は、原文の方向だけでなく、回転した方向(特に180度)からも読み取れるグラフィカルな文字デザインである。 両方向から2つの可読性を維持することはしばしば困難であるため、人間の専門家にとってもアンビグラムの設計は困難である。 本稿では,アンビグラム生成モデルを提案する。 生成モジュールとして,最近高品質の写真画像の生成に利用されている拡散モデルを用いる。 a」や「b」のような一対の文字クラスを指定することにより、提案モデルは、元の方向から「a」、180度回転した方向から「b」と読むことができる様々なアンビグラム画像を生成する。 実験結果の定量的および定性的分析により,提案モデルが高品質で多様なアンビグラムを生成できることが示唆された。 さらに、各文字対に対するアンビグラムの生成がいかに容易かの客観的尺度であるアンビグラム可能性を定義する。 例えば、「A」と「V」の対は高いアンビグラム性を示し(つまり、それらのアンビグラムを生成するのは容易)、「D」と「K」の対はより低いアンビグラム性を示す。 曖昧性は、コンピュータだけでなく、人間の専門家にとっても、アンビグラム生成の様々なヒントを与える。 コードは (https://github.com/univ-esuty/ambifusion) にある。

Ambigrams are graphical letter designs that can be read not only from the original direction but also from a rotated direction (especially with 180 degrees). Designing ambigrams is difficult even for human experts because keeping their dual readability from both directions is often difficult. This paper proposes an ambigram generation model. As its generation module, we use a diffusion model, which has recently been used to generate high-quality photographic images. By specifying a pair of letter classes, such as 'A' and 'B', the proposed model generates various ambigram images which can be read as 'A' from the original direction and 'B' from a direction rotated 180 degrees. Quantitative and qualitative analyses of experimental results show that the proposed model can generate high-quality and diverse ambigrams. In addition, we define ambigramability, an objective measure of how easy it is to generate ambigrams for each letter pair. For example, the pair of 'A' and 'V' shows a high ambigramability (that is, it is easy to generate their ambigrams), and the pair of 'D' and 'K' shows a lower ambigramability. The ambigramability gives various hints of the ambigram generation not only for computers but also for human experts. The code can be found at (https://github.com/univ-esuty/ambifusion).
翻訳日:2023-06-22 14:36:56 公開日:2023-06-21
# コントラストモーションクラスタリングによるオンライン教師なしビデオオブジェクトセグメンテーション

Online Unsupervised Video Object Segmentation via Contrastive Motion Clustering ( http://arxiv.org/abs/2306.12048v1 )

ライセンス: Link先を確認
Lin Xi, Weihai Chen, Xingming Wu, Zhong Liu, Zhengguo Li(参考訳) オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。 主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。 本研究では、オンラインUVOSに対して、同じ動きパターンを持つ場合、視覚的要素が群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラスト型モーションクラスタリングアルゴリズムを提案する。 移動パターンの非学習可能な原型的ベースを反復的に要約するために,単純かつ効果的なオートエンコーダを構築し,そのベースが組込みネットワークの表現を学ぶのに役立つ。 さらに、境界事前に基づくコントラスト学習戦略を開発し、表現学習段階における前景と背景特徴の識別を改善する。 提案アルゴリズムは任意のスケールのデータ、すなわちフレーム、クリップ、データセットに最適化され、オンライン形式で実行される。 $\textit{DAVIS}_{\textit{16}}$, $\textit{FBMS}$, $\textit{SegTrackV2}$データセットでの実験では、我々のメソッドの精度が、それぞれ0.8%、2.9%、および1.1%の差で、以前の最先端(SoTA)オンラインUVOSメソッドを上回っていることが示されている。 さらに,オンラインの深層空間クラスタリングを用いてモーショングルーピングに取り組み,SoTAのオンラインUVOS法と比較して3/times$高速な推定時間を実現し,有効性と効率の良好なトレードオフを実現する。

Online unsupervised video object segmentation (UVOS) uses the previous frames as its input to automatically separate the primary object(s) from a streaming video without using any further manual annotation. A major challenge is that the model has no access to the future and must rely solely on the history, i.e., the segmentation mask is predicted from the current frame as soon as it is captured. In this work, a novel contrastive motion clustering algorithm with an optical flow as its input is proposed for the online UVOS by exploiting the common fate principle that visual elements tend to be perceived as a group if they possess the same motion pattern. We build a simple and effective auto-encoder to iteratively summarize non-learnable prototypical bases for the motion pattern, while the bases in turn help learn the representation of the embedding network. Further, a contrastive learning strategy based on a boundary prior is developed to improve foreground and background feature discrimination in the representation learning stage. The proposed algorithm can be optimized on arbitrarily-scale data i.e., frame, clip, dataset) and performed in an online fashion. Experiments on $\textit{DAVIS}_{\textit{16}}$, $\textit{FBMS}$, and $\textit{SegTrackV2}$ datasets show that the accuracy of our method surpasses the previous state-of-the-art (SoTA) online UVOS method by a margin of 0.8%, 2.9%, and 1.1%, respectively. Furthermore, by using an online deep subspace clustering to tackle the motion grouping, our method is able to achieve higher accuracy at $3\times$ faster inference time compared to SoTA online UVOS method, and making a good trade-off between effectiveness and efficiency.
翻訳日:2023-06-22 14:36:34 公開日:2023-06-21
# HSR-Diff:条件付き拡散モデルによる超解像超解像

HSR-Diff:Hyperspectral Image Super-Resolution via Conditional Diffusion Models ( http://arxiv.org/abs/2306.12085v1 )

ライセンス: Link先を確認
Chanyue Wu, Dong Wang, Hanyu Mao, Ying Li(参考訳) 様々なコンピュータビジョンタスクの実行におけるハイパースペクトル画像(HSI)の重要性は証明されているが、そのポテンシャルは空間領域の低分解能(LR)特性に悪影響を及ぼし、複数の物理的要因が生じる。 近年の深部生成モデルの発展に触発されて,高分解能(HR)マルチスペクトル画像(MSI)と対応するLR-HSIを融合した条件拡散モデル(HSR-Diff)を用いたHSI超解像(SR)アプローチを提案する。 HSR-Diffは、HR-HSIを純粋なガウス雑音で初期化し、反復的に精製する繰り返し精製によりHR-HSIを生成する。 各繰り返しにおいて、ノイズは、HR-MSI と LR-HSI の階層的特徴写像に基づいて、異なるノイズレベルでの雑音の除去を訓練する条件付きデノナイジング変換器 (CDF ormer) で除去される。 また,全解像度画像のグローバル情報を活用するために,プログレッシブ学習戦略が採用されている。 4つの公開データセットで体系的な実験が行われ、HSR-Diffが最先端の手法より優れていることを示した。

Despite the proven significance of hyperspectral images (HSIs) in performing various computer vision tasks, its potential is adversely affected by the low-resolution (LR) property in the spatial domain, resulting from multiple physical factors. Inspired by recent advancements in deep generative models, we propose an HSI Super-resolution (SR) approach with Conditional Diffusion Models (HSR-Diff) that merges a high-resolution (HR) multispectral image (MSI) with the corresponding LR-HSI. HSR-Diff generates an HR-HSI via repeated refinement, in which the HR-HSI is initialized with pure Gaussian noise and iteratively refined. At each iteration, the noise is removed with a Conditional Denoising Transformer (CDF ormer) that is trained on denoising at different noise levels, conditioned on the hierarchical feature maps of HR-MSI and LR-HSI. In addition, a progressive learning strategy is employed to exploit the global information of full-resolution images. Systematic experiments have been conducted on four public datasets, demonstrating that HSR-Diff outperforms state-of-the-art methods.
翻訳日:2023-06-22 14:28:42 公開日:2023-06-21
# 非最大エンタングル状態を有する回路切断

Circuit Cutting with Non-Maximally Entangled States ( http://arxiv.org/abs/2306.12084v1 )

ライセンス: Link先を確認
Marvin Bechtold, Johanna Barzen, Frank Leymann, Alexander Mandl(参考訳) 分散量子コンピューティングは、複数のデバイスの計算能力を組み合わせて、個々のデバイスの制限を克服する。 回路切断技術は古典的通信による量子計算の分散を可能にする。 これらの技術は量子回路をより小さなサブ回路に分割することを含む。 元の回路の結果は、これらのサブ回路を別々のデバイス上で実行し、その結果を組み合わせることで再現できる。 しかし、回路切断による固定結果精度を達成するために必要なショット数はカット数とともに指数関数的に増加し、かなりのコストがかかる。 対照的に、量子テレポーテーションはショットを指数関数的に増加させることなく量子計算の分布を可能にする。 それにもかかわらず、各テレポーテーション手順は量子状態を送信するために最大エンタングル量子ビットの事前共有ペアを必要とし、非最大エンタングル量子ビットはこの目的のために使用できない。 そこで本研究では,非最大エンタングル量子ビット対を利用した回路切断手法を提案し,回路切断に伴うコストを効果的に削減する。 本手法は,事前共有量子ビット対の絡み合いの程度を考慮し,既存の回路切断法と量子テレポーテーションの連続性を提供し,回路切断コストの調整を行う。

Distributed quantum computing combines the computational power of multiple devices to overcome the limitations of individual devices. Circuit cutting techniques enable the distribution of quantum computations through classical communication. These techniques involve partitioning a quantum circuit into smaller subcircuits, each containing fewer qubits. The original circuit's outcome can be replicated by executing these subcircuits on separate devices and combining their results. However, the number of shots required to achieve a fixed result accuracy with circuit cutting grows exponentially with the number of cuts, posing significant costs. In contrast, quantum teleportation allows the distribution of quantum computations without an exponential increase in shots. Nevertheless, each teleportation procedure requires a pre-shared pair of maximally entangled qubits for transmitting a quantum state, and non-maximally entangled qubits cannot be used for this purpose. To address this, we propose a novel circuit cutting technique that leverages non-maximally entangled qubit pairs, effectively reducing the cost associated with circuit cutting. By considering the degree of entanglement in the pre-shared qubit pairs, our technique provides a continuum between existing circuit cutting methods and quantum teleportation, adjusting the cost of circuit cutting accordingly.
翻訳日:2023-06-22 14:28:18 公開日:2023-06-21
# 技術開発における教育の重要性と教育におけるインターネットベースの学習の役割

The Importance of Education for Technological Development and the Role of Internet-Based Learning in Education ( http://arxiv.org/abs/2306.12082v1 )

ライセンス: Link先を確認
Ozdemir Cetin, Murat Cakiroglu, C\"uneyt Bay{\i}lm{\i}\c{s}, H\"useyin Ekiz(参考訳) 現代の世界では、多くの技術的先進国が、実力は肉体的な強さではなく、教育された心にあると認識している。 その結果、あらゆる国が技術需要を満たすために教育制度の再構築に着手した。 こうした発展の最中の国として、私たちは教育におけるこの変化に無関心でいられない。 21世紀の情報化時代において、情報への迅速なアクセスは個人や社会の発展に不可欠である。 グローバル化に向けて急速に進む世界の知識社会の中で、私たちを位置づけるためには、技術革新を密接に追随し、技術要件を満たす必要がある。 これは、興味のある分野の教育取得に関心のある人に学習機会を提供することによって達成できる。 本研究は,従来の教育方法と比較して,インターネット学習の利点と欠点,インターネット学習におけるコンピュータ利用の重要性,インターネット学習に影響を与える負の要因,これらの課題に対処するために必要なレコメンデーションに焦点をあてる。 現代の世界では、技術や技術を使わずに教育について話すことは不可能である。

In today's world, many technologically advanced countries have realized that real power lies not in physical strength but in educated minds. As a result, every country has embarked on restructuring its education system to meet the demands of technology. As a country in the midst of these developments, we cannot remain indifferent to this transformation in education. In the Information Age of the 21st century, rapid access to information is crucial for the development of individuals and societies. To take our place among the knowledge societies in a world moving rapidly towards globalization, we must closely follow technological innovations and meet the requirements of technology. This can be achieved by providing learning opportunities to anyone interested in acquiring education in their area of interest. This study focuses on the advantages and disadvantages of internet-based learning compared to traditional teaching methods, the importance of computer usage in internet-based learning, negative factors affecting internet-based learning, and the necessary recommendations for addressing these issues. In today's world, it is impossible to talk about education without technology or technology without education.
翻訳日:2023-06-22 14:27:59 公開日:2023-06-21
# グラフ着色問題に対する効率的なQUBO定式化のための次数削減法

A degree reduction method for an efficient QUBO formulation for the graph coloring problem ( http://arxiv.org/abs/2306.12081v1 )

ライセンス: Link先を確認
Namho Hong, Hyunwoo Jung, Hyosang Kang, Hyunjin Lim, Chaehwan Seol, and Seokhyun Um(参考訳) 二項変数上の対称多項式の次数減少法を提案する。 また,二変数の一般多項式に対する次数削減アルゴリズムを設計し,ランダムグラフのグラフ彩色問題をシミュレートし,従来の手法と比較した。 その結果,従来の手法よりも少ない変数の二次多項式を生成することがわかった。 我々の新しい次数還元法のアルゴリズムは堅牢であり、量子アニール系に対する任意のQUBO定式化に適用できる。

We introduce a degree reduction method for symmetric polynomials on binary variables. We also design an degree reduction algorithm for general polynomials on binary variables, simulated on the graph coloring problem for random graphs, and compared the results with the conventional method. The data shows that our method produces quadratic polynomial of less variables than the conventional method. The algorithm for our new degree reduction method is robust, and applies to any QUBO formulation for quantum annealing systems.
翻訳日:2023-06-22 14:27:41 公開日:2023-06-21
# FLGo: 完全にカスタマイズ可能なフェデレーション学習プラットフォーム

FLGo: A Fully Customizable Federated Learning Platform ( http://arxiv.org/abs/2306.12079v1 )

ライセンス: Link先を確認
Zheng Wang, Xiaoliang Fan, Zhaopeng Peng, Xueheng Li, Ziqi Yang, Mingkuan Feng, Zhicheng Yang, Xiao Liu, and Cheng Wang(参考訳) フェデレーション学習(fl)は、医療、金融、iotのシナリオで多くのアプリケーションを見つけました。 多くの既存のFLフレームワークは、現実的な条件下でのFLの性能を評価するための様々なベンチマークを提供している。 しかし、アプリケーション固有の設定、データ不均一性、システム不均一性に対応するためにシミュレーションをカスタマイズするプロセスは、通常、必要以上に複雑である。 これは、FLフレームワーク間のコードの共有性を妥協しながら、FLの使用を探索する従来のML研究者にとって大きなハードルとなる。 この問題に対処するため,我々はflgoと呼ばれる新しい軽量flプラットフォームを提案する。 私たちのプラットフォームは、アウトオブボックスプラグインとして、40以上のベンチマーク、20以上のアルゴリズム、および2つのシステムシミュレータを提供しています。 また、再現性を向上させるために簡単に共有および再利用できる新しいプラグインを迅速にカスタマイズするためのユーザフレンドリなAPIも提供しています。 最後に,並列加速度,実験トラッカ,アナライザ,パラメータの自動チューニングなど,さまざまな実験ツールを開発した。 FLGo は \url{flgo-xmu.github.io} で維持される。

Federated learning (FL) has found numerous applications in healthcare, finance, and IoT scenarios. Many existing FL frameworks offer a range of benchmarks to evaluate the performance of FL under realistic conditions. However, the process of customizing simulations to accommodate application-specific settings, data heterogeneity, and system heterogeneity typically remains unnecessarily complicated. This creates significant hurdles for traditional ML researchers in exploring the usage of FL, while also compromising the shareability of codes across FL frameworks. To address this issue, we propose a novel lightweight FL platform called FLGo, to facilitate cross-application FL studies with a high degree of shareability. Our platform offers 40+ benchmarks, 20+ algorithms, and 2 system simulators as out-of-the-box plugins. We also provide user-friendly APIs for quickly customizing new plugins that can be readily shared and reused for improved reproducibility. Finally, we develop a range of experimental tools, including parallel acceleration, experiment tracker and analyzer, and parameters auto-tuning. FLGo is maintained at \url{flgo-xmu.github.io}.
翻訳日:2023-06-22 14:27:32 公開日:2023-06-21
# ディープラーニングによるマルチフレームブラインドデコンボリューションの高速化

Accelerating Multiframe Blind Deconvolution via Deep Learning ( http://arxiv.org/abs/2306.12078v1 )

ライセンス: Link先を確認
A. Asensio Ramos, S. Esteban Pozuelo, C. Kuckein(参考訳) 地上ベースの太陽画像復元は非線形最適化技術を含む計算コストの高い手法である。 大気乱流の存在は個々の画像に摂動を引き起こし、ブラインドデコンボリューション技術を適用する必要がある。 これらの手法は、大気と乱れた物体の瞬間状態を同時に推測するために用いられる多くの短い露光フレームの観測に依存している。 我々は最近、機械学習を用いてこのプロセスを加速し、有望な結果を得た。 私たちは、この前の作業に基づいて、より優れたモデルにつながるいくつかの興味深い改善を提案しています。 また,アルゴリズムの展開に基づく復元を高速化する新しい手法を提案する。 この方法では、少数の小さなニューラルネットワークによってアンロールされ、加速される勾配降下法を用いて画像復元問題を解く。 ニューラルネットワークの役割は、各反復ステップにおける解の推定を補正することである。 モデルは、キュレートされたデータセットを使って、小さな固定数のステップで最適化を実行するように訓練される。 その結果, 両手法が標準最適化法に比べて復元時間を有意に短縮することがわかった。 さらに,これらのモデルは3つの異なる楽器の観測画像を用いて教師なしで訓練可能であることを示す。 注目すべきは、新しいデータセットに適用するときに、堅牢な一般化機能を示すことだ。 さらなる研究とコラボレーションを促進するため、トレーニングされたモデルと、それに対応するトレーニングおよび評価コード、およびトレーニングデータセットを、科学コミュニティに公開的に提供します。

Ground-based solar image restoration is a computationally expensive procedure that involves nonlinear optimization techniques. The presence of atmospheric turbulence produces perturbations in individual images that make it necessary to apply blind deconvolution techniques. These techniques rely on the observation of many short exposure frames that are used to simultaneously infer the instantaneous state of the atmosphere and the unperturbed object. We have recently explored the use of machine learning to accelerate this process, with promising results. We build upon this previous work to propose several interesting improvements that lead to better models. As well, we propose a new method to accelerate the restoration based on algorithm unrolling. In this method, the image restoration problem is solved with a gradient descent method that is unrolled and accelerated aided by a few small neural networks. The role of the neural networks is to correct the estimation of the solution at each iterative step. The model is trained to perform the optimization in a small fixed number of steps with a curated dataset. Our findings demonstrate that both methods significantly reduce the restoration time compared to the standard optimization procedure. Furthermore, we showcase that these models can be trained in an unsupervised manner using observed images from three different instruments. Remarkably, they also exhibit robust generalization capabilities when applied to new datasets. To foster further research and collaboration, we openly provide the trained models, along with the corresponding training and evaluation code, as well as the training dataset, to the scientific community.
翻訳日:2023-06-22 14:27:16 公開日:2023-06-21
# invariant decompositionと(spatio-)temporal transformersによる潜時ダイナミクスの学習

Learning Latent Dynamics via Invariant Decomposition and (Spatio-)Temporal Transformers ( http://arxiv.org/abs/2306.12077v1 )

ライセンス: Link先を確認
Kai Lagemann, Christian Lagemann, Sach Mukherjee(参考訳) 本研究では, 変分オートエンコーダと(spatio-)時間的注意を結合した高次元実験データから力学系を学習する手法を提案する。 我々は、システムの複数の異なるインスタンスからデータが利用可能な設定に焦点を合わせ、その基盤となる動的モデルは最初から完全に未知である。 このアプローチは、インスタンス固有のエンコーディング(初期条件、定数等をキャプチャする)と、システムのすべてのインスタンス/実現に共通な潜在ダイナミクスモデルとの分離にかかっている。 分離は自動化されたデータ駆動方式で達成され、モデルへの入力として経験的なデータのみを必要とする。 このアプローチは、システムの振る舞いを常に効果的に推論できるが、明示的な神経odeの定式化を必要としないため、効率的でスケーラブルである。 我々は、単純な理論的分析と、合成および実世界のデータセットに関する広範な実験を通して行動を研究する。 後者は有限データに基づく複雑なシステムのダイナミクスを学習し,提案手法が最先端のニューラル・ダイナミクスモデルを上回ることを示した。 全く新しいシステム介入の下で得られたデータへの転送の文脈において、より一般的な帰納バイアスについても検討する。 その結果, 物理, 医学, 生物学, 工学など幅広い分野に応用可能な, 異種データから動的モデルを効率よく学習するための, 新たなフレームワークが得られた。

We propose a method for learning dynamical systems from high-dimensional empirical data that combines variational autoencoders and (spatio-)temporal attention within a framework designed to enforce certain scientifically-motivated invariances. We focus on the setting in which data are available from multiple different instances of a system whose underlying dynamical model is entirely unknown at the outset. The approach rests on a separation into an instance-specific encoding (capturing initial conditions, constants etc.) and a latent dynamics model that is itself universal across all instances/realizations of the system. The separation is achieved in an automated, data-driven manner and only empirical data are required as inputs to the model. The approach allows effective inference of system behaviour at any continuous time but does not require an explicit neural ODE formulation, which makes it efficient and highly scalable. We study behaviour through simple theoretical analyses and extensive experiments on synthetic and real-world datasets. The latter investigate learning the dynamics of complex systems based on finite data and show that the proposed approach can outperform state-of-the-art neural-dynamical models. We study also more general inductive bias in the context of transfer to data obtained under entirely novel system interventions. Overall, our results provide a promising new framework for efficiently learning dynamical models from heterogeneous data with potential applications in a wide range of fields including physics, medicine, biology and engineering.
翻訳日:2023-06-22 14:26:56 公開日:2023-06-21
# NeuroCLIP: CLIP と SNNによるニューロモルフィックデータ理解

NeuroCLIP: Neuromorphic Data Understanding by CLIP and SNN ( http://arxiv.org/abs/2306.12073v1 )

ライセンス: Link先を確認
Yufei Guo and Yuanpei Chen(参考訳) 近年,ニューロモルフィック視覚センサが注目されている。 しかし、ニューロモルフィックデータは非同期のイベントスパイクで構成されており、これはベンチマークの構築が自然で困難ではないため、ディープラーニングによる"見えない"オブジェクトに対するニューロモルフィックデータ理解が制限される。 コントラストビジョン言語プレトレーニング(clip)によるゼロショットと少数ショット学習は、2次元フレーム画像認識においてインスピレーション的な性能を示している。 ニューロモルフィックデータの「無意識」認識を扱うため,本論文では,クリップの2次元事前学習知識をイベントスパイクに伝達するニューロクリップを提案する。 最小ショット性能を向上させるために,スパイクニューラルネットワークに基づく時間ステップ間アダプタも提供する。 私たちのコードはhttps://github.com/yfguo91/neuroclip.gitでオープンソースです。

Recently, the neuromorphic vision sensor has received more and more interest. However, the neuromorphic data consists of asynchronous event spikes, which is not natural and difficult to construct a benchmark, thus limiting the neuromorphic data understanding for "unseen" objects by deep learning. Zero-shot and few-shot learning via Contrastive Vision-Language Pre-training (CLIP) have shown inspirational performance in 2D frame image recognition. To handle "unseen" recognition for the neuromorphic data, in this paper, we propose NeuroCLIP, which transfers the CLIP's 2D pre-trained knowledge to event spikes. To improve the few-shot performance, we also provide an inter-timestep adapter based on a spiking neural network. Our code is open-sourced at https://github.com/yfguo91/NeuroCLIP.git.
翻訳日:2023-06-22 14:26:32 公開日:2023-06-21
# 集合効果強化マルチキュービット情報エンジン

Collective effects enhanced multi-qubit information engines ( http://arxiv.org/abs/2306.12072v1 )

ライセンス: Link先を確認
Noufal Jaseem and Victor Mukherjee(参考訳) 本研究では,マルチ量子ビット加工媒体(wm)を単一熱浴に結合した量子情報エンジン(qie)について検討した。 その結果,集合効果を欠いた同等のエンジンと比較して,qieの性能を著しく向上させることができた。 我々はWM磁化に関する情報を熱浴から取り出すために用いている。 本研究では, 作業出力, ノイズ-信号比, 熱力学的不確実性関係を解析し, 集合QIEの性能指標とWM量子ビットが熱浴と独立に結合したエンジンの性能指標とを比較した。 熱浴の高温限界では,集合型qieが常に独立系よりも優れていることを示す。 特定の熱の集合的増強がエンジンの性能向上に直接的な役割を果たす量子熱エンジンとは対照的に、集団的優位性は独立の場合と比較して正磁化状態のより高いエネルギーレベルに対する高い占有確率から生じる。

We study a quantum information engine (QIE) modeled by a multi-qubit working medium (WM) collectively coupled to a single thermal bath. We show that one can harness the collective effects to significantly enhance the performance of the QIE, as compared to equivalent engines lacking collective effects. We use one bit of information about the WM magnetization to extract work from the thermal bath. We analyze the work output, noise-to-signal ratio and thermodynamic uncertainty relation, and contrast these performance metrics of a collective QIE with that of an engine whose WM qubits are coupled independently to a thermal bath. We show that in the limit of high temperatures of the thermal bath, a collective QIE always outperforms its independent counterpart. In contrast to quantum heat engines, where collective enhancement in specific heat plays a direct role in improving the performance of the engines, here the collective advantage stems from higher occupation probabilities for the higher energy levels of the positive magnetization states, as compared to the independent case.
翻訳日:2023-06-22 14:26:18 公開日:2023-06-21
# ダウンストリーム適応のためのタスクローバスト事前訓練

Task-Robust Pre-Training for Worst-Case Downstream Adaptation ( http://arxiv.org/abs/2306.12070v1 )

ライセンス: Link先を確認
Jianghui Wang, Cheng Yang, Xingyu Xie, Cong Fang, Zhouchen Lin(参考訳) プレトレーニングは下流のタスクに移行することで大きな成功を収めた。 機械学習では、モデルの優れたパフォーマンスだけでなく、合理的な状態変化下での振る舞いも気にしています。 同じ哲学は、基礎モデルの事前トレーニングで成り立つ。 しかし、基礎モデルは一連の下流タスクに対して一様に振る舞うことができない。 これは例えば、事前トレーニングにおいて、リカバリ能力やパターン特徴のようなトレーニングインスタンスが優勢に抽出されるようなマスクリカバリ回帰を行う場合には発生するが、下流タスクでは意味的特徴も必要となる。 本稿では,下流タスクに対して一様に優れた性能を保証するモデルを事前学習することを検討する。 この目標を $\textit{downstream-task robustness}$ と呼びます。 提案手法は,まず上流タスクを複数の代表タスクに分割し,事前学習に単純なミニマックスロスを適用する。 次に,最小限の損失を解くアルゴリズムを設計し,その収束性を凸設定で証明する。 実験では, 大規模自然言語処理とコンピュータビジョンデータセットの両方について, 提案手法が下降課題のメトリクスを増加させることを示す。 また、この損失がなぜ有益かという理論的説明も提供される。 特に、最も困難なダウンストリームタスクには、本質的に必要なサンプルが少ないことが示されています。

Pre-training has achieved remarkable success when transferred to downstream tasks. In machine learning, we care about not only the good performance of a model but also its behavior under reasonable shifts of condition. The same philosophy holds when pre-training a foundation model. However, the foundation model may not uniformly behave well for a series of related downstream tasks. This happens, for example, when conducting mask recovery regression where the recovery ability or the training instances diverge like pattern features are extracted dominantly on pre-training, but semantic features are also required on a downstream task. This paper considers pre-training a model that guarantees a uniformly good performance over the downstream tasks. We call this goal as $\textit{downstream-task robustness}$. Our method first separates the upstream task into several representative ones and applies a simple minimax loss for pre-training. We then design an efficient algorithm to solve the minimax loss and prove its convergence in the convex setting. In the experiments, we show both on large-scale natural language processing and computer vision datasets our method increases the metrics on worse-case downstream tasks. Additionally, some theoretical explanations for why our loss is beneficial are provided. Specifically, we show fewer samples are inherently required for the most challenging downstream task in some cases.
翻訳日:2023-06-22 14:26:01 公開日:2023-06-21
# 言語モデルを用いたマルチモーダルシステムの大量生産失敗

Mass-Producing Failures of Multimodal Systems with Language Models ( http://arxiv.org/abs/2306.12105v1 )

ライセンス: Link先を確認
Shengbang Tong, Erik Jones, Jacob Steinhardt(参考訳) デプロイされたマルチモーダルシステムは、評価者が予想しなかった方法で失敗する可能性がある。 デプロイ前にこれらの障害を見つけるために、MultiMonを導入する。MultiMonは、モデル障害のパターンを自然言語で記述する、系統的な障害を自動的に識別するシステムである。 体系的な失敗を明らかにするために、MultiMonは間違った合意の例としてコーパスをスクラップする。 その後、言語モデル(gpt-4など)に障害の系統的パターンを見つけ、自然言語で記述するように促す。 マルチモンを用いて、クリップテキストエンコーダの14の系統的障害(例えば、"ignores quantifiers"など)を見つけ、それぞれが数百の異なる入力(例えば、"a shelf with a few/many books")からなる。 CLIPは最先端のマルチモーダルシステムのバックボーンであるため、これらの入力はMidjourney 5.1、DALL-E、VideoFusionなどで失敗する。 またMultiMonは、自動運転車など特定のユースケースに関連する障害にも対応できる。 我々はMultiMonを、潜在的なシステム障害の長い尾を自律的に探究する評価へのステップと考えている。 MultiMONのコードはhttps://github.com/tsb0601/MultiMonで入手できる。

Deployed multimodal systems can fail in ways that evaluators did not anticipate. In order to find these failures before deployment, we introduce MultiMon, a system that automatically identifies systematic failures -- generalizable, natural-language descriptions of patterns of model failures. To uncover systematic failures, MultiMon scrapes a corpus for examples of erroneous agreement: inputs that produce the same output, but should not. It then prompts a language model (e.g., GPT-4) to find systematic patterns of failure and describe them in natural language. We use MultiMon to find 14 systematic failures (e.g., "ignores quantifiers") of the CLIP text-encoder, each comprising hundreds of distinct inputs (e.g., "a shelf with a few/many books"). Because CLIP is the backbone for most state-of-the-art multimodal systems, these inputs produce failures in Midjourney 5.1, DALL-E, VideoFusion, and others. MultiMon can also steer towards failures relevant to specific use cases, such as self-driving cars. We see MultiMon as a step towards evaluation that autonomously explores the long tail of potential system failures. Code for MULTIMON is available at https://github.com/tsb0601/MultiMon.
翻訳日:2023-06-22 14:20:22 公開日:2023-06-21
# マトロイドの連結性決定のための量子および古典的クエリ複雑性

Quantum and classical query complexities for determining connectedness of matroids ( http://arxiv.org/abs/2306.12103v1 )

ライセンス: Link先を確認
Xiaowei Huang, Shiguang Feng, Lvzhou Li(参考訳) 接続性はマトロイドの基本的な構造的性質であり、アルゴリズムで50年以上研究されてきた。 1974年、カニンガムはマトロイドが接続されているかどうかを決定するために独立オラクルに$O(n^{2})$クエリを消費する決定論的アルゴリズムを提案した。 それ以来、ランダムなアルゴリズムでさえ、うまくいったアルゴリズムはありませんでした。 我々の知る限り、古典的なクエリの複雑さは低く、この問題の量子複雑性は考慮されていない。 そこで,本稿では,これらの課題への取り組みに力を入れ,その貢献度を次の3つにまとめる。 (i)まず,マトロイドが接続されているかどうかを決定するランダム化クエリの複雑さが$\Omega(n^2)$であることを証明する。 (ii)第2に,o(n^{3/2})$クエリを持つ量子アルゴリズムを示し,古典的クエリ上で証明可能な量子スピードアップを示す。 第三に、量子アルゴリズムには$Omega(n)$クエリが必要であることを証明し、量子アルゴリズムが古典的アルゴリズムよりも2次的なスピードアップを達成できることを示す。 したがって、マトロイドの連結性を決定する上で量子コンピューティングの可能性を比較的包括的に理解している。 \

Connectivity is a fundamental structural property of matroids, and has been studied algorithmically over 50 years. In 1974, Cunningham proposed a deterministic algorithm consuming $O(n^{2})$ queries to the independence oracle to determine whether a matroid is connected. Since then, no algorithm, not even a random one, has worked better. To the best of our knowledge, the classical query complexity lower bound and the quantum complexity for this problem have not been considered. Thus, in this paper we are devoted to addressing these issues, and our contributions are threefold as follows: (i) First, we prove that the randomized query complexity of determining whether a matroid is connected is $\Omega(n^2)$ and thus the algorithm proposed by Cunningham is optimal in classical computing. (ii) Second, we present a quantum algorithm with $O(n^{3/2})$ queries, which exhibits provable quantum speedups over classical ones. (iii) Third, we prove that any quantum algorithm requires $\Omega(n)$ queries, which indicates that quantum algorithms can achieve at most a quadratic speedup over classical ones. Therefore, we have a relatively comprehensive understanding of the potential of quantum computing in determining the connectedness of matroids.\
翻訳日:2023-06-22 14:19:58 公開日:2023-06-21
# 効率的なResNets: 残留ネットワーク設計

Efficient ResNets: Residual Network Design ( http://arxiv.org/abs/2306.12100v1 )

ライセンス: Link先を確認
Aditya Thakur, Harish Chauhan, Nikunj Gupta(参考訳) ResNets(Residual Networks)は、画像分類タスクにおいて最もよく使われるモデルの一つである。 本稿では,CIFAR-10画像分類のためのResNetモデルの設計と訓練を行う。 特に,500万のトレーニング可能なパラメータの固定予算の下でResNetモデルのサイズを維持しながら,CIFAR-10ベンチマークでのテスト精度を最大化することを目的とした。 トレーニング可能なパラメータの数として測定されるモデルサイズは、ストレージ容量の限られたデバイス(IoT/エッジデバイスなど)にモデルを保存する必要がある場合に重要である。 本稿では,500万未満のパラメータを持つネットワーク設計について述べる。 resnetは、多くのトレーニング戦略と適切なresnetハイパーパラメータを備えた場合、resnet18(訓練可能なパラメータが1100万以上ある)よりもはるかに高いcifar-10上で96.04%のテスト精度を達成しています。 モデルとコードはhttps://github.com/Nikunj-Gupta/Efficient_ResNetsで入手できる。

ResNets (or Residual Networks) are one of the most commonly used models for image classification tasks. In this project, we design and train a modified ResNet model for CIFAR-10 image classification. In particular, we aimed at maximizing the test accuracy on the CIFAR-10 benchmark while keeping the size of our ResNet model under the specified fixed budget of 5 million trainable parameters. Model size, typically measured as the number of trainable parameters, is important when models need to be stored on devices with limited storage capacity (e.g. IoT/edge devices). In this article, we present our residual network design which has less than 5 million parameters. We show that our ResNet achieves a test accuracy of 96.04% on CIFAR-10 which is much higher than ResNet18 (which has greater than 11 million trainable parameters) when equipped with a number of training strategies and suitable ResNet hyperparameters. Models and code are available at https://github.com/Nikunj-Gupta/Efficient_ResNets.
翻訳日:2023-06-22 14:19:36 公開日:2023-06-21
# MSW-Transformer:12レベルECG分類のためのマルチスケールシフトWindows Transformer Networks

MSW-Transformer: Multi-Scale Shifted Windows Transformer Networks for 12-Lead ECG Classification ( http://arxiv.org/abs/2306.12098v1 )

ライセンス: Link先を確認
Renjie Cheng, Zhemin Zhuang, Shuxin Zhuang, Lei Xie and Jingfeng Guo(参考訳) 心電図信号の自動分類は心血管疾患の早期予防と診断において重要な役割を担っている。 各種疾患の診断にはECG信号が用いられるが、その病態特性は最小限のばらつきを示し、自動分類モデルに挑戦する。 既存の手法は主に畳み込みニューラルネットワークを使用して分類のためのecg信号の特徴を抽出する。 トランスフォーマーネットワークはシーケンスデータの特徴抽出に利点があるが、完全なネットワークは複雑であり、大規模データセットに依存している。 これらの課題に対処するために,マルチスケールシフト Windows トランスフォーマネットワーク (MSW-Transformer Networks) と呼ばれる単一層トランスフォーマネットワークを提案する。 自己注意は、移動したウィンドウを介して非重なり合うローカルウィンドウに制限され、異なるウィンドウスケールは異なる受容フィールドを持つ。 学習可能な特徴融合法が提案され、異なるウィンドウの機能を統合してモデル性能をさらに向上する。 さらに,多ウィンドウシフト機構の注意機構を可視化し,ECG分類タスクにおいてより優れた臨床解釈を実現する。 5つの診断スーパークラス,23の診断サブクラス,12のリズムクラス,17の形態学クラス,44の診断クラス,77.85%の平均マクロF1スコア,47.57%,66.13%,34.60%,34.29%,平均サンプルF1スコアはそれぞれ81.26%,68.27%,91.32%,50.07%,63.19%である。

Automatic classification of electrocardiogram (ECG) signals plays a crucial role in the early prevention and diagnosis of cardiovascular diseases. While ECG signals can be used for the diagnosis of various diseases, their pathological characteristics exhibit minimal variations, posing a challenge to automatic classification models. Existing methods primarily utilize convolutional neural networks to extract ECG signal features for classification, which may not fully capture the pathological feature differences of different diseases. Transformer networks have advantages in feature extraction for sequence data, but the complete network is complex and relies on large-scale datasets. To address these challenges, we propose a single-layer Transformer network called Multi-Scale Shifted Windows Transformer Networks (MSW-Transformer), which uses a multi-window sliding attention mechanism at different scales to capture features in different dimensions. The self-attention is restricted to non-overlapping local windows via shifted windows, and different window scales have different receptive fields. A learnable feature fusion method is then proposed to integrate features from different windows to further enhance model performance. Furthermore, we visualize the attention mechanism of the multi-window shifted mechanism to achieve better clinical interpretation in the ECG classification task. The proposed model achieves state-of-the-art performance on five classification tasks of the PTBXL-2020 12-lead ECG dataset, which includes 5 diagnostic superclasses, 23 diagnostic subclasses, 12 rhythm classes, 17 morphology classes, and 44 diagnosis classes, with average macro-F1 scores of 77.85%, 47.57%, 66.13%, 34.60%, and 34.29%, and average sample-F1 scores of 81.26%, 68.27%, 91.32%, 50.07%, and 63.19%, respectively.
翻訳日:2023-06-22 14:19:18 公開日:2023-06-21
# シカゴにおける人間の移動パターンの理解 : クラスタリングによるタクシーデータの解析

Understanding human mobility patterns in Chicago: an analysis of taxi data using clustering techniques ( http://arxiv.org/abs/2306.12094v1 )

ライセンス: Link先を確認
Harish Chauhan, Nikunj Gupta, Zoe Haskell-Craig(参考訳) 人間の移動パターンを理解することは、都市計画、公衆衛生、政治組織など、多様なアプリケーションにおいて重要である。 人間の移動に関する豊富なデータの一つは、タクシーの乗車データである。 シカゴ市をケーススタディとして利用し、2016年のタクシー利用データを調査し、地区の相互接続状況を理解することを目的としている。 この分析は、近隣住民がタクシーを使って旅行している感覚を与え、新しい公共交通機関の開発に焦点をあてることを提案する。 さらに、この分析は交通循環のパターンをマッピングし、交通や道路汚染の軽減に向け、都市がどこから向かっているのか、どこに向かっているのかを理解する。 最初のアプリケーションでは、データを無向グラフとして表現すれば十分です。 両方向を走行する路線は、その間のタクシーの移動率が高い地区の知識だけで、公共交通機関を設置する議論がある。 しかし、都市全体の人々の流れを理解するためには、人々が出発する地域と到着する地域を区別する必要がある。 開発コードはすべてhttps://github.com/Nikunj-Gupta/Spectral-Clustering-Directed-Graphsにある。

Understanding human mobility patterns is important in applications as diverse as urban planning, public health, and political organizing. One rich source of data on human mobility is taxi ride data. Using the city of Chicago as a case study, we examine data from taxi rides in 2016 with the goal of understanding how neighborhoods are interconnected. This analysis will provide a sense of which neighborhoods individuals are using taxis to travel between, suggesting regions to focus new public transit development efforts. Additionally, this analysis will map traffic circulation patterns and provide an understanding of where in the city people are traveling from and where they are heading to - perhaps informing traffic or road pollution mitigation efforts. For the first application, representing the data as an undirected graph will suffice. Transit lines run in both directions so simply a knowledge of which neighborhoods have high rates of taxi travel between them provides an argument for placing public transit along those routes. However, in order to understand the flow of people throughout a city, we must make a distinction between the neighborhood from which people are departing and the areas to which they are arriving - this requires methods that can deal with directed graphs. All developed codes can be found at https://github.com/Nikunj-Gupta/Spectral-Clustering-Directed-Graphs.
翻訳日:2023-06-22 14:18:40 公開日:2023-06-21
# edgeデバイス推論のパフォーマンス比較

Edge Devices Inference Performance Comparison ( http://arxiv.org/abs/2306.12093v1 )

ライセンス: Link先を確認
R. Tobiasz, G. Wilczy\'nski, P. Graszka, N. Czechowski, S. {\L}uczak(参考訳) 本研究では,4つのエッジプラットフォーム上でのMobileNetファミリ,EfficientNet V1およびV2ファミリ,VGGモデル,Resnetファミリ,InceptionV3の推論時間について検討する。 具体的にはNVIDIA Jetson Nano、Intel Neural Stick、Google Coral USB Dongle、Google Coral PCIe。 我々の主な貢献は、上記のモデルを複数の設定で、特に入力サイズ関数、分類ヘッドの存在、サイズ、モデルのスケールとして、徹底的に分析することである。 業界全体では,これらのアーキテクチャは主として機能抽出手段として活用されています。 特にMobileNetやEfficientNetファミリのような新しいモデルでは,Googleプラットフォームが最速の平均推論時間を提供していますが,Intel Neural Stickはほとんどのアーキテクチャを実行可能な,最も普遍的なアクセラレータです。 これらの結果は、aiエッジシステム開発の初期段階のエンジニアにガイダンスを提供する。 これらはすべて、https://bulletprove.com/research/edge_inference_results.csvでアクセスできる。

In this work, we investigate the inference time of the MobileNet family, EfficientNet V1 and V2 family, VGG models, Resnet family, and InceptionV3 on four edge platforms. Specifically NVIDIA Jetson Nano, Intel Neural Stick, Google Coral USB Dongle, and Google Coral PCIe. Our main contribution is a thorough analysis of the aforementioned models in multiple settings, especially as a function of input size, the presence of the classification head, its size, and the scale of the model. Since throughout the industry, those architectures are mainly utilized as feature extractors we put our main focus on analyzing them as such. We show that Google platforms offer the fastest average inference time, especially for newer models like MobileNet or EfficientNet family, while Intel Neural Stick is the most universal accelerator allowing to run most architectures. These results should provide guidance for engineers in the early stages of AI edge systems development. All of them are accessible at https://bulletprove.com/research/edge_inference_results.csv
翻訳日:2023-06-22 14:18:20 公開日:2023-06-21
# ディープグラフ畳み込みネットワークへの構造認識ドロップエッジ

Structure-Aware DropEdge Towards Deep Graph Convolutional Networks ( http://arxiv.org/abs/2306.12091v1 )

ライセンス: Link先を確認
Jiaqi Han, Wenbing Huang, Yu Rong, Tingyang Xu, Fuchun Sun, Junzhou Huang(参考訳) グラフ畳み込みネットワーク (graph convolutional networks, gcns) は、複数の層が積み重ねられたときに性能が著しく低下することを発見した。 ディープGCNがフェールする主な要因は、ネットワーク深さの増加、表現率の低下、トレーニング容易性の低下によって入力からネットワーク出力を分離するオーバースムーシングにある。 本稿では,従来の単純かつ効果的な手法であるドロップエッジの精巧な対策について検討することから始める。 我々はDropEdge++をDropEdge++と呼ぶが、DropEdgeとは対照的に、レイヤ依存のサンプルと機能依存のサンプルである。 層依存型サンプリング器については,下層からのエッジのサンプリングが増加すれば,下層よりも性能が向上する傾向がみられた。 我々は, この現象を, オーバー・スムーシングと密接な関係を持つメアン・エッジ・ナンバー(MEN)で理論的に明らかにする。 特徴依存型サンプリング器では,エッジサンプリング確率とノード対の特徴類似性を関連付け,出力層の収束部分空間と入力特徴との相関性を示す。 フルおよびセミ教師付きタスクを含むいくつかのノード分類ベンチマークに関する広範な実験では、dropedge++の有効性とさまざまなバックボーンとの互換性が、dropedgeおよびno-dropバージョンよりも一般的に優れたパフォーマンスを実現している。

It has been discovered that Graph Convolutional Networks (GCNs) encounter a remarkable drop in performance when multiple layers are piled up. The main factor that accounts for why deep GCNs fail lies in over-smoothing, which isolates the network output from the input with the increase of network depth, weakening expressivity and trainability. In this paper, we start by investigating refined measures upon DropEdge -- an existing simple yet effective technique to relieve over-smoothing. We term our method as DropEdge++ for its two structure-aware samplers in contrast to DropEdge: layer-dependent sampler and feature-dependent sampler. Regarding the layer-dependent sampler, we interestingly find that increasingly sampling edges from the bottom layer yields superior performance than the decreasing counterpart as well as DropEdge. We theoretically reveal this phenomenon with Mean-Edge-Number (MEN), a metric closely related to over-smoothing. For the feature-dependent sampler, we associate the edge sampling probability with the feature similarity of node pairs, and prove that it further correlates the convergence subspace of the output layer with the input features. Extensive experiments on several node classification benchmarks, including both full- and semi- supervised tasks, illustrate the efficacy of DropEdge++ and its compatibility with a variety of backbones by achieving generally better performance over DropEdge and the no-drop version.
翻訳日:2023-06-22 14:18:02 公開日:2023-06-21
# 語彙制約の逐次的適用による正確な翻訳に向けて

Towards Accurate Translation via Semantically Appropriate Application of Lexical Constraints ( http://arxiv.org/abs/2306.12089v1 )

ライセンス: Link先を確認
Yujin Baek (1), Koanho Lee (1), Dayeon Ki (2), Hyoung-Gyu Lee (3), Cheonbok Park (3) and Jaegul Choo (1) ((1) KAIST, (2) Korea University, (3) Papago, Naver Corp.)(参考訳) Lexically-Constrained NMT (LNMT) は、ユーザが提供する用語を翻訳に組み込むことを目的としている。 実用上の優位性にもかかわらず、既存の研究はLNMTモデルを現実の挑戦的な条件下で評価していない。 本稿では,LNMT研究の現在評価過程にある2つの重要かつ未研究の問題に焦点をあてる。 モデルは、トレーニング中に"ホモグラフ"や"見えない"といった難しい語彙制約に対処する必要があります。 この目的のために、まず、ホモグラフの意味を区別するホモグラフ曖昧化モジュールを設計する。 さらに,事前学習した言語モデルから未知の語彙制約に関する情報を文脈的にリッチに統合し,コピースコアの直接監視を通じてポインタネットワークのコピーメカニズムを強化するPLUMCOTを提案する。 また,「ホログラフィック」と「見当たらない」語彙制約に対応するモデルの能力を評価するための評価ベンチマークであるhollyをリリースする。 HOLLY実験と以前のテスト設定は,本手法の有効性を示した。 PLUMCOTの効果は、"見えない"制約において顕著である。 私たちのデータセットはhttps://github.com/papago-lab/holly-benchmarkで利用可能です。

Lexically-constrained NMT (LNMT) aims to incorporate user-provided terminology into translations. Despite its practical advantages, existing work has not evaluated LNMT models under challenging real-world conditions. In this paper, we focus on two important but under-studied issues that lie in the current evaluation process of LNMT studies. The model needs to cope with challenging lexical constraints that are "homographs" or "unseen" during training. To this end, we first design a homograph disambiguation module to differentiate the meanings of homographs. Moreover, we propose PLUMCOT, which integrates contextually rich information about unseen lexical constraints from pre-trained language models and strengthens a copy mechanism of the pointer network via direct supervision of a copying score. We also release HOLLY, an evaluation benchmark for assessing the ability of a model to cope with "homographic" and "unseen" lexical constraints. Experiments on HOLLY and the previous test setup show the effectiveness of our method. The effects of PLUMCOT are shown to be remarkable in "unseen" constraints. Our dataset is available at https://github.com/papago-lab/HOLLY-benchmark
翻訳日:2023-06-22 14:17:38 公開日:2023-06-21
# フェデレーション学習におけるコミュニケーション削減のための効率的な仮想データ生成手法

An Efficient Virtual Data Generation Method for Reducing Communication in Federated Learning ( http://arxiv.org/abs/2306.12088v1 )

ライセンス: Link先を確認
Cheng Yang, Xue Yang, Dongxian Wu, Xiaohu Tang(参考訳) コミュニケーションのオーバーヘッドは、連合学習(fl)における大きな課題の1つです。 いくつかの古典的なスキームでは、サーバがローカルモデルから参加者のトレーニングデータに関する補助情報を抽出して中央ダミーデータセットを構築することができると仮定している。 サーバはダミーデータセットを使用して、集約されたグローバルモデルを微調整し、より少ない通信ラウンドでターゲットテスト精度を達成する。 本稿では、上記のソリューションをデータベースの通信効率の高いflフレームワークにまとめる。 提案フレームワークの鍵となるのは,ダミーデータセットが集約されたグローバルモデルに正の影響を与えることを保証する効率的な抽出モジュール(EM)を設計することである。 ジェネレータを使ってEMを設計する既存手法とは異なり,提案手法では勾配マッチングの概念を取り入れてEMを構築する。 具体的には、FedINIBoostは、実際のデータセットのプロキシデータセットを、各コミュニケーションラウンドの参加者毎に2つのステップで構築する。 その後、サーバはすべてのプロキシデータセットを集約し、集約されたグローバルモデルを微調整するために使用される中央ダミーデータセットを形成する。 従来手法であるFedAVG,FedProx,Moon,FedFTGと比較し,本手法の優位性を検証した。 さらに、FedINIBoostは、FLの初期における集約グローバルモデルの性能を微調整する上で重要な役割を果たす。

Communication overhead is one of the major challenges in Federated Learning(FL). A few classical schemes assume the server can extract the auxiliary information about training data of the participants from the local models to construct a central dummy dataset. The server uses the dummy dataset to finetune aggregated global model to achieve the target test accuracy in fewer communication rounds. In this paper, we summarize the above solutions into a data-based communication-efficient FL framework. The key of the proposed framework is to design an efficient extraction module(EM) which ensures the dummy dataset has a positive effect on finetuning aggregated global model. Different from the existing methods that use generator to design EM, our proposed method, FedINIBoost borrows the idea of gradient match to construct EM. Specifically, FedINIBoost builds a proxy dataset of the real dataset in two steps for each participant at each communication round. Then the server aggregates all the proxy datasets to form a central dummy dataset, which is used to finetune aggregated global model. Extensive experiments verify the superiority of our method compared with the existing classical method, FedAVG, FedProx, Moon and FedFTG. Moreover, FedINIBoost plays a significant role in finetuning the performance of aggregated global model at the initial stage of FL.
翻訳日:2023-06-22 14:17:21 公開日:2023-06-21
# 時系列予測における良質なコントラスト学習とは何か

What Constitutes Good Contrastive Learning in Time-Series Forecasting? ( http://arxiv.org/abs/2306.12086v1 )

ライセンス: Link先を確認
Chiyu Zhang, Qi Yan, Lili Meng, Tristan Sylvain(参考訳) 近年,自己教師付きコントラスト学習(SSCL)の導入により,自然言語処理やコンピュータビジョンなど,様々な領域での表現学習が著しく改善されている。 自己スーパービジョンの固有の利点を活用することで、ssclは膨大な量のラベルなしデータを使用して表現モデルの事前トレーニングを可能にする。 これらの進歩にもかかわらず、SSCLがもたらす具体的なメリットだけでなく、時系列予測のパフォーマンスに対する様々なSSCL戦略の影響を理解する上で、大きなギャップがある。 本稿では,SSCLアルゴリズム,学習戦略,モデルアーキテクチャ,それらの相互作用など,様々な学習変数の有効性を包括的に分析することにより,これらのギャップに対処することを目的とする。 さらに,SSCLによる時系列予測における改善についてより深い知見を得るため,経験的受容領域の質的分析を行った。 実験により,平均二乗誤差(MSE)損失とSSCLを用いたトランスフォーマーモデルのエンドツーエンドトレーニングが時系列予測において最も効果的なアプローチとして現れることを示した。 特に、対照的な目的を組み込むことで、モデルがスケールや周期的な関係のような予測のためのより適切な情報を優先順位付けすることができる。 これらの知見は,時系列予測におけるSSCLのメリットの理解に寄与し,今後の研究に有用な知見を提供する。

In recent years, the introduction of self-supervised contrastive learning (SSCL) has demonstrated remarkable improvements in representation learning across various domains, including natural language processing and computer vision. By leveraging the inherent benefits of self-supervision, SSCL enables the pre-training of representation models using vast amounts of unlabeled data. Despite these advances, there remains a significant gap in understanding the impact of different SSCL strategies on time series forecasting performance, as well as the specific benefits that SSCL can bring. This paper aims to address these gaps by conducting a comprehensive analysis of the effectiveness of various training variables, including different SSCL algorithms, learning strategies, model architectures, and their interplay. Additionally, to gain deeper insights into the improvements brought about by SSCL in the context of time-series forecasting, a qualitative analysis of the empirical receptive field is performed. Through our experiments, we demonstrate that the end-to-end training of a Transformer model using the Mean Squared Error (MSE) loss and SSCL emerges as the most effective approach in time series forecasting. Notably, the incorporation of the contrastive objective enables the model to prioritize more pertinent information for forecasting, such as scale and periodic relationships. These findings contribute to a better understanding of the benefits of SSCL in time series forecasting and provide valuable insights for future research in this area.
翻訳日:2023-06-22 14:17:00 公開日:2023-06-21
# 極低温集積フォトニクスの熱遷移における硝酸リチウムの熱電効果

Pyroelectric Influence on Lithium Niobate During the Thermal Transition for Cryogenic Integrated Photonics ( http://arxiv.org/abs/2306.12123v1 )

ライセンス: Link先を確認
Frederik Thiele, Thomas Hummel, Nina Amelie Lange, Felix Dreher, Maximilian Protte, Felix vom Bruch, Sebastian Lengeling, Harald Herrmann, Christof Eigner, Christine Silberhorn, and Tim J. Bartley(参考訳) ニオブ酸リチウムは統合量子光学の有望なプラットフォームとして登場し、効率的な量子状態の生成、操作、検出を可能にしている。 しかし、最も優れた検出器は狭い超伝導線をベースとしているため、単一光子検出器を統合するには低温の運転温度が必要である。 これまでの研究では、極低温でのlinbo3の量子光源と電気光学変調器の動作が実証されているが、室温と極低温の温度遷移はデバイス性能に大きな影響を及ぼす効果をもたらす。 本研究では, 室温から25kに変化するニオブ酸リチウム導波路の光特性に及ぼす熱電電荷の発生とその影響について検討した。 生成した熱電電荷の流れを計測し,セナーモント法で得られた複屈折の高速変化と相関する。 熱電効果の電気的および光学的影響は、主に100K以上の温度で起こる。

Lithium niobate has emerged as a promising platform for integrated quantum optics, enabling efficient generation, manipulation, and detection of quantum states of light. However, integrating single-photon detectors requires cryogenic operating temperatures, since the best performing detectors are based on narrow superconducting wires. While previous studies have demonstrated the operation of quantum light sources and electro-optic modulators in LiNbO3 at cryogenic temperatures, the thermal transition between room temperature and cryogenic conditions introduces additional effects that can significantly influence device performance. In this paper, we investigate the generation of pyroelectric charges and their impact on the optical properties of lithium niobate waveguides when changing from room temperature to 25K, and vice versa. We measure the generated pyroelectric charge flow and correlate this with fast changes in the birefringence acquired through the Senarmont method. Both electrical and optical influence of the pyroelectric effect occurs predominantly at temperatures above 100K.
翻訳日:2023-06-22 14:09:52 公開日:2023-06-21
# 高次元システムにおけるN-wise量子不整合性

Genuine N-wise Quantum Incompatibility in a High-Dimensional System ( http://arxiv.org/abs/2306.12122v1 )

ライセンス: Link先を確認
Xiaolin Zhang, Rui Qu, Zehong Chang, Yunlong Wang, Zhenyu Guo, Min An, Hong Gao, Fuli Li and Pei Zhang(参考訳) 量子不適合性(quantum incompatibility)は、いくつかの量子測定が同時に実行できない現象であり、様々な量子情報タスクで用いられる。 しかし、与えられた複数の高次元の測定セットが特定の非互換構造を尊重するかどうかを証明することは依然として困難である。 そこで本研究では,複雑な相性構造をペアワイズ構造に分解し,ノイズロバスト性を用いて非相性構造を目撃する修正量子状態識別プロトコルを提案する。 本手法は,クトリット系における4ドル非バイアス塩基の非互換構造を実験的に検証することにより,真正のn$-wise非互換構造および特定の一般互換性構造を検出することができる。 実験結果から,本手法は高次元マルチ計測シナリオにおける不整合構造を観察するための直接的かつ直感的なツールであることが示された。

Quantum incompatibility is referred as the phenomenon that some quantum measurements cannot be performed simultaneously, and is also used in various quantum information tasks. However, it is still a challenge to certify whether a given set of multiple high-dimensional measurements respects a specific structure of incompatibility. To address this problem, we propose a modified quantum state discrimination protocol that decomposes complex compatibility structures into pair-wise ones and employs noise robustness to witness incompatibility structures. Our method is capable of detecting genuine $n$-wise incompatibility and some specific general compatibility structures, as demonstrated by our experimental verification of incompatibility structures of $4$ mutually unbiased bases in a qutrit system. The experimental results show that our approach is a direct and intuitive tool to witness incompatibility structures in high-dimensional multi-measurement scenarios.
翻訳日:2023-06-22 14:09:36 公開日:2023-06-21
# グラフ理論によるon-cloud gaussian boson sampler "borealis'の検証

Testing of on-cloud Gaussian Boson Sampler "Borealis'' via graph theory ( http://arxiv.org/abs/2306.12120v1 )

ライセンス: Link先を確認
Denis Stanev, Taira Giordani, Nicol\`o Spagnolo, Fabio Sciarrino(参考訳) 量子フォトニックプロセッサは、普遍的な量子コンピュータの実現に向けた量子計算の優位性の予備的な証拠を証明するための、有望なプラットフォームとして登場しつつある。 非普遍的ノイズ中間量子デバイスにおいて、ガウスボソンサンプリング問題を解くフォトニックベースのサンプリングマシンは、量子計算の優位性を実験的に実証する上で中心的な役割を果たす。 特に、最近開発されたphotonic machine borealisは、単一の光子の時間モードにエンコードされたプログラム可能なガウスボソンサンプリングデバイスの大規模インスタンスであり、外部ユーザ向けにオンラインで利用可能である。 本研究では,サンプリングマシンとしてのborealisの性能とグラフ理論の応用可能性について検証する。 我々は,光子損失などの実験ノイズの存在下でのサンプリングプロセスの検証問題に着目し,実験をシミュレーションする難しさを損なう可能性があることを示した。 この目的のために,我々は最近,グアシアンボゾンサンプリングとグラフの完全マッチングカウントとの接続を利用するプロトコルを用いた。 このような検証のアプローチは、グラフの類似性と同型問題に対するノイズガウスボソンサンプリング装置の使用の効果的な利点に関するオープン質問とのつながりも与えている。

Quantum photonic processors are emerging as promising platforms to prove preliminary evidence of quantum computational advantage towards the realization of universal quantum computers. In the context of non-universal noisy intermediate quantum devices, photonic-based sampling machines solving the Gaussian Boson Sampling problem currently play a central role in the experimental demonstration of a quantum computational advantage. In particular, the recently developed photonic machine Borealis, a large-scale instance of a programmable Gaussian Boson Sampling device encoded in the temporal modes of single photons, is available online for external users. In this work, we test the performances of Borealis as a sampling machine and its possible use cases in graph theory. We focused on the validation problem of the sampling process in the presence of experimental noise, such as photon losses, that could undermine the hardness of simulating the experiment. To this end, we used a recent protocol that exploits the connection between Guassian Boson Sampling and graphs perfect match counting. Such an approach to validation also provides connections with the open question on the effective advantage in using noisy Gaussian Boson Sampling devices for graphs similarity and isomorphism problems.
翻訳日:2023-06-22 14:09:18 公開日:2023-06-21
# 新型コロナウイルスワクチン接種に関するトピックとパブリックスタンスの関係の可視化

Visualizing Relation Between (De)Motivating Topics and Public Stance toward COVID-19 Vaccine ( http://arxiv.org/abs/2306.12118v1 )

ライセンス: Link先を確認
Ashiqur Rahman and Hamed Alhoori(参考訳) 現代のソーシャルメディアはコミュニケーションにおいて重要な役割を担っているが、誤った情報や荒らしが簡単に会話を引き継ぎ、これらのプラットフォームで世論を操ることができる。 新型コロナウイルス(COVID-19)パンデミックでは、公衆衛生当局が予防接種を動機づける一方で、大きな反発に直面した。 緊急時の現在および将来の脅威に対処し、共通の目標に向けて国民を動機付けるためには、公共のモチベーションがどのように変化し、どのトピックが一般市民の間で共鳴しているかを理解することが不可欠である。 本研究では,「COVID-19」パンデミックでTwitter圏間で共鳴した話題を検査・分析し,ワクチン接種に対するスタンスをシフトさせた重要な要因を理解するための,インタラクティブな可視化ツールを提案する。 このツールは、視覚分析のあらゆるシナリオに対して容易に一般化することができ、研究者や一般大衆のソーシャルメディアデータの透明性を高めることができる。

While social media plays a vital role in communication nowadays, misinformation and trolls can easily take over the conversation and steer public opinion on these platforms. We saw the effect of misinformation during the {COVID-19} pandemic when public health officials faced significant push-back while trying to motivate the public to vaccinate. To tackle the current and any future threats in emergencies and motivate the public towards a common goal, it is essential to understand how public motivation shifts and which topics resonate among the general population. In this study, we proposed an interactive visualization tool to inspect and analyze the topics that resonated among Twitter-sphere during the {COVID-19} pandemic and understand the key factors that shifted public stance for vaccination. This tool can easily be generalized for any scenario for visual analysis and to increase the transparency of social media data for researchers and the general population alike.
翻訳日:2023-06-22 14:08:55 公開日:2023-06-21
# ランダム振動における人体反応の説明:運動方向、座位姿勢、人体計測の影響

Explaining human body responses in random vibration: Effect of motion direction, sitting posture, and anthropometry ( http://arxiv.org/abs/2306.12115v1 )

ライセンス: Link先を確認
M. M. Cvetkovi\'c, R. Desai, K. N. de Winkel, G. Papaioannou, and R. Happee(参考訳) 本研究では, 生体特性, 生物学的性, 姿勢が翻訳振動の身体運動反応に及ぼす影響について検討した。 合計35人が参加した。 標準の車体に0.1から12.0Hzのランダムノイズ信号と0.3 m/s2 rmsのアクセラレーションを60秒間使用した。 複数の線形回帰モデル(予測子間の相互作用を含む3つの基本モデルと1つの先進モデル)が作成され、ボディセグメント毎の周波数領域(骨、幹、頭)におけるピーク翻訳の最大値の予測因子を決定する。 モデルは、予測因子として実験的に操作された因子(運動方向、姿勢、人体計測特性、生物学的性)を導入した。 モデル適合性に対する包含予測器の影響を推定した。 基本線形回帰モデルでは、ピークボディセグメントの運動体応答(r2が0.728である)の70%以上を説明できる。 追加の予測器(姿勢、身長、体重、生物学的セックス)が組み込まれれば、モデル適合性は向上するが、あまり改善されなかった(R2は0.730)。 予測子間の相互作用を含む複数のステップワイズ線形回帰は,調整されたr2が0.907であった。 本研究は,摂動方向と体節運動がピーク翻訳に影響を及ぼす重要な要因であることを示す。 ボディセグメントの応答に加えて、摂動方向が最強の予測因子であった。 採用姿勢や生物学的性は運動反応に大きく影響しない。

This study investigates the effects of anthropometric attributes, biological sex, and posture on translational body kinematic responses in translational vibrations. In total, 35 participants were recruited. Perturbations were applied on a standard car seat using a motion-based platform with 0.1 to 12.0 Hz random noise signals, with 0.3 m/s2 rms acceleration, for 60 seconds. Multiple linear regression models (three basic models and one advanced model, including interactions between predictors) were created to determine the most influential predictors of peak translational gains in the frequency domain per body segment (pelvis, trunk, and head). The models introduced experimentally manipulated factors (motion direction, posture, measured anthropometric attributes, and biological sex) as predictors. Effects of included predictors on the model fit were estimated. Basic linear regression models could explain over 70% of peak body segments' kinematic body response (where the R2 adjusted was 0.728). The inclusion of additional predictors (posture, body height and weight, and biological sex) did enhance the model fit, but not significantly (R2 adjusted was 0.730). The multiple stepwise linear regression, including interactions between predictors, accounted for the data well with an adjusted R2 of 0.907. The present study shows that perturbation direction and body segment kinematics are crucial factors influencing peak translational gains. Besides the body segments' response, perturbation direction was the strongest predictor. Adopted postures and biological sex do not significantly affect kinematic responses.
翻訳日:2023-06-22 14:08:36 公開日:2023-06-21
# 注目機構と特徴融合ネットワークを取り入れた軽量木材パネル欠陥検出法

Lightweight wood panel defect detection method incorporating attention mechanism and feature fusion network ( http://arxiv.org/abs/2306.12113v1 )

ライセンス: Link先を確認
Yongxin Cao, Fanghua Liu, Lai Jiang, Cheng Bao, You Miao and Yang Chen(参考訳) 近年, 木材パネル欠陥の検出において, 深層学習が大きな進歩を遂げている。 しかし, 低検出, 遅い検出速度, 組込みデバイスを木質パネル上に展開する際の難しさなど, まだまだ課題がある。 そこで本研究では,注目機構と機能融合ネットワークを組み込んだ軽量な板状欠陥検出手法であるYOLOv5-LWを提案し,まず,機能融合ネットワークとして多スケール双方向特徴ピラミッドネットワーク(MBiFPN)を導入する。 mbifpnは機能損失を低減し、局所的および詳細な機能を強化し、許容される欠陥に対するモデルの検出能力を向上させる。 この再構成により、性能を維持しながらパラメータと計算要求の数を削減できる。 また,Stem BlockとSpatial Pyramid Pooling Fast(SPPF)モデルを導入し,軽量設計による精度損失を補正し,計算効率を保ちながら検出能力の維持を図る。 本研究は,本研究で開発した木材パネル欠陥データセットを用いて,本手法の有効性を検証し,改良したyolov5-lw法の有効性を実証する。 従来のモデルと比較して,本手法は精度92.8.%,パラメータ数27.78.%,計算量41.25.%,検出速度10.16.%を実現している。

In recent years, deep learning has made significant progress in wood panel defect detection. However, there are still challenges such as low detection , slow detection speed, and difficulties in deploying embedded devices on wood panel surfaces. To overcome these issues, we propose a lightweight wood panel defect detection method called YOLOv5-LW, which incorporates attention mechanisms and a feature fusion network.Firstly, to enhance the detection capability of acceptable defects, we introduce the Multi-scale Bi-directional Feature Pyramid Network (MBiFPN) as a feature fusion network. The MBiFPN reduces feature loss, enriches local and detailed features, and improves the model's detection capability for acceptable defects.Secondly, to achieve a lightweight design, we reconstruct the ShuffleNetv2 network model as the backbone network. This reconstruction reduces the number of parameters and computational requirements while maintaining performance. We also introduce the Stem Block and Spatial Pyramid Pooling Fast (SPPF) models to compensate for any accuracy loss resulting from the lightweight design, ensuring the model's detection capabilities remain intact while being computationally efficient.Thirdly, we enhance the backbone network by incorporating Efficient Channel Attention (ECA), which improves the network's focus on key information relevant to defect detection. By attending to essential features, the model becomes more proficient in accurately identifying and localizing defects.We validate the proposed method using a self-developed wood panel defect dataset.The experimental results demonstrate the effectiveness of the improved YOLOv5-LW method. Compared to the original model, our approach achieves a 92.8\% accuracy rate, reduces the number of parameters by 27.78\%, compresses computational volume by 41.25\%, improves detection inference speed by 10.16\%
翻訳日:2023-06-22 14:08:10 公開日:2023-06-21
# リモートセンシングにおける画像分類と物体検出のロバスト性に関する総合的研究:サーベイとベンチマーク

A Comprehensive Study on the Robustness of Image Classification and Object Detection in Remote Sensing: Surveying and Benchmarking ( http://arxiv.org/abs/2306.12111v1 )

ライセンス: Link先を確認
Shaohui Mei, Jiawei Lian, Xiaofei Wang, Yuru Su, Mingyang Ma, and Lap-Pui Chau(参考訳) ディープニューラルネットワーク(DNN)は、リモートセンシング(RS)画像の解釈に広く応用されている。 しかし、従来の研究では、DNNは様々な種類のノイズ、特に対向雑音に弱いことが示されている。 意外なことに、RSタスクの堅牢性に関する包括的な研究が欠如しており、画像分類とオブジェクト検出の堅牢性に関する徹底的な調査とベンチマークを行う必要がある。 本研究は,RSタスクにおける自然的頑健性と敵的頑健性の両方を包括的に検討した初めての事例である。 具体的には、自然と逆のノイズを含むデータセットをキュレートし、公開しました。 これらのデータセットは、DNNベースのモデルの堅牢性を評価するための貴重なリソースとなる。 モデルロバスト性を包括的に評価するために,様々な分類器と検出器を用いて細心の注意を払って実験を行った。 厳密な評価を通じて,実感と興味をそそる知見が明らかとなり,反面的なノイズ作りとモデルトレーニングの関係に光を当て,様々なモデルの感受性と限界をより深く理解し,よりレジリエントでロバストなモデルの開発のためのガイダンスを提供する。

Deep neural networks (DNNs) have found widespread applications in interpreting remote sensing (RS) imagery. However, it has been demonstrated in previous works that DNNs are vulnerable to different types of noises, particularly adversarial noises. Surprisingly, there has been a lack of comprehensive studies on the robustness of RS tasks, prompting us to undertake a thorough survey and benchmark on the robustness of image classification and object detection in RS. To our best knowledge, this study represents the first comprehensive examination of both natural robustness and adversarial robustness in RS tasks. Specifically, we have curated and made publicly available datasets that contain natural and adversarial noises. These datasets serve as valuable resources for evaluating the robustness of DNNs-based models. To provide a comprehensive assessment of model robustness, we conducted meticulous experiments with numerous different classifiers and detectors, encompassing a wide range of mainstream methods. Through rigorous evaluation, we have uncovered insightful and intriguing findings, which shed light on the relationship between adversarial noise crafting and model training, yielding a deeper understanding of the susceptibility and limitations of various models, and providing guidance for the development of more resilient and robust models
翻訳日:2023-06-22 14:07:37 公開日:2023-06-21
# 3次元顕微鏡像の等方的再構成のための拡散モデル

DiffuseIR:Diffusion Models For Isotropic Reconstruction of 3D Microscopic Images ( http://arxiv.org/abs/2306.12109v1 )

ライセンス: Link先を確認
Mingjie Pan, Yulu Gan, Fangxu Zhou, Jiaming Liu, Aimin Wang, Shanghang Zhang, Dawei Li(参考訳) 3次元顕微鏡はしばしば異方性空間分解能によって制限され、結果として横方向分解能よりも軸方向分解能が低い。 深層ニューラルネットワークを用いたsota(state-of-the-art)等方性再構成手法は,固定画像環境での高分解能化を実現する。 しかし, 実用上の汎用性は, 異方性要因に直面すると, 人工物による劣化やぼやけによって制限される。 これらの問題に対処するため,拡散モデルに基づく等方的再構成の教師なし手法であるDiffuseIRを提案する。 まず, 拡散モデルを事前学習し, 生体組織の構造分布を横方向の顕微鏡像から学習し, 自然高分解能画像を生成する。 次に,低軸分解能顕微鏡画像を用いて拡散モデルの生成過程を調整し,高軸分解能再構成結果を生成する。 拡散モデルは、軸分解能とは無関係な生体組織の普遍的構造分布を学習するので、ディフュージャは、低軸分解能が見えない真の画像を再訓練することなく、高軸分解能に再構築することができる。 提案手法はemデータ実験においてsoma性能を達成し,教師あり手法との競合も可能である。

Three-dimensional microscopy is often limited by anisotropic spatial resolution, resulting in lower axial resolution than lateral resolution. Current State-of-The-Art (SoTA) isotropic reconstruction methods utilizing deep neural networks can achieve impressive super-resolution performance in fixed imaging settings. However, their generality in practical use is limited by degraded performance caused by artifacts and blurring when facing unseen anisotropic factors. To address these issues, we propose DiffuseIR, an unsupervised method for isotropic reconstruction based on diffusion models. First, we pre-train a diffusion model to learn the structural distribution of biological tissue from lateral microscopic images, resulting in generating naturally high-resolution images. Then we use low-axial-resolution microscopy images to condition the generation process of the diffusion model and generate high-axial-resolution reconstruction results. Since the diffusion model learns the universal structural distribution of biological tissues, which is independent of the axial resolution, DiffuseIR can reconstruct authentic images with unseen low-axial resolutions into a high-axial resolution without requiring re-training. The proposed DiffuseIR achieves SoTA performance in experiments on EM data and can even compete with supervised methods.
翻訳日:2023-06-22 14:07:17 公開日:2023-06-21
# 複雑な事故、明確な責任

Complex accident, clear responsibility ( http://arxiv.org/abs/2306.12108v1 )

ライセンス: Link先を確認
Dexin Yi(参考訳) 自動運転に事故責任を割り当てる問題は、自動運転の分野では難しい問題である。 自律運転技術の複雑さのため、自動運転事故の責任に関する研究の大部分は理論レベルに留まっている。 実際の自動運転事故に遭遇する場合、実証され公正な解決策が必要となる。 この問題を解決するために,RCModel(Risk Chain Model)に基づく多目的責任配分最適化手法を提案し,技術的観点から各アクターの責任を分析し,より合理的かつ公平な責任配分を促進する。

The problem of allocating accident responsibility for autonomous driving is a difficult issue in the field of autonomous driving. Due to the complexity of autonomous driving technology, most of the research on the responsibility of autonomous driving accidents has remained at the theoretical level. When encountering actual autonomous driving accidents, a proven and fair solution is needed. To address this problem, this study proposes a multi-subject responsibility allocation optimization method based on the RCModel (Risk Chain Model), which analyzes the responsibility of each actor from a technical perspective and promotes a more reasonable and fair allocation of responsibility.
翻訳日:2023-06-22 14:06:55 公開日:2023-06-21
# ViTEraser:SegMIMプレトレーニングによるシーンテキスト除去のためのビジョントランスフォーマーのパワーを損なう

ViTEraser: Harnessing the Power of Vision Transformers for Scene Text Removal with SegMIM Pretraining ( http://arxiv.org/abs/2306.12106v1 )

ライセンス: Link先を確認
Dezhi Peng, Chongyu Liu, Yuliang Liu, Lianwen Jin(参考訳) シーンテキスト除去(str)は、自然シーンのテキストストロークを視覚的なコヒーレントな背景に置き換えることを目的としている。 最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。 さらに、既存のSTR法のほとんどは、視覚変換器(ViT)のポテンシャルがほとんど探索されていない間、特徴表現に畳み込みニューラルネットワーク(CNN)を使用している。 本稿では, ViTEraser と呼ばれる, 単純かつ効率の良い ViT ベースのテキスト消去器を提案する。 簡潔なエンコーダ/デコーダフレームワークに従って、ViTのさまざまなタイプをViTEraserに統合して、長距離依存関係とグローバルな推論を強化することができる。 具体的には、エンコーダは、入力画像をViTブロックと埋め込み層を介して隠れた空間に階層的にマッピングし、デコーダは、隠れた特徴を徐々にViTブロックと分割層でテキスト消去画像にアップサンプリングする。 ViTEraserはテキストローカライゼーションと塗装を暗黙的に統合するので、テキストボックスセグメンテーションとマスク付き画像モデリングタスクにエンコーダとデコーダに焦点を当てた、SegMIMと呼ばれる新しいエンドツーエンド事前学習手法を提案する。 提案手法の有効性を検証するため,我々は,vitのstrへの適用に関する深い洞察を提供する,vitベースのエンコーダ・デコーダのアーキテクチャ,事前学習,スケーラビリティを総合的に検討する。 実験結果から,SegMIMを用いたViTEraserはSTRの最先端性能をかなりのマージンで達成できることが示された。 さらに,シーンテキスト検出の拡張実験により,他のタスクに対するViTEraserの汎用性を示す。 本稿は, ViT ベースの STR アプローチのさらなる研究を促すことができると考えている。 コードはhttps://github.com/shannanyinxiang/viteraserで入手できる。

Scene text removal (STR) aims at replacing text strokes in natural scenes with visually coherent backgrounds. Recent STR approaches rely on iterative refinements or explicit text masks, resulting in higher complexity and sensitivity to the accuracy of text localization. Moreover, most existing STR methods utilize convolutional neural networks (CNNs) for feature representation while the potential of vision Transformers (ViTs) remains largely unexplored. In this paper, we propose a simple-yet-effective ViT-based text eraser, dubbed ViTEraser. Following a concise encoder-decoder framework, different types of ViTs can be easily integrated into ViTEraser to enhance the long-range dependencies and global reasoning. Specifically, the encoder hierarchically maps the input image into the hidden space through ViT blocks and patch embedding layers, while the decoder gradually upsamples the hidden features to the text-erased image with ViT blocks and patch splitting layers. As ViTEraser implicitly integrates text localization and inpainting, we propose a novel end-to-end pretraining method, termed SegMIM, which focuses the encoder and decoder on the text box segmentation and masked image modeling tasks, respectively. To verify the effectiveness of the proposed methods, we comprehensively explore the architecture, pretraining, and scalability of the ViT-based encoder-decoder for STR, which provides deep insights into the application of ViT to STR. Experimental results demonstrate that ViTEraser with SegMIM achieves state-of-the-art performance on STR by a substantial margin. Furthermore, the extended experiment on tampered scene text detection demonstrates the generality of ViTEraser to other tasks. We believe this paper can inspire more research on ViT-based STR approaches. Code will be available at https://github.com/shannanyinxiang/ViTEraser.
翻訳日:2023-06-22 14:06:47 公開日:2023-06-21
# 高速セグメンテーション

Fast Segment Anything ( http://arxiv.org/abs/2306.12156v1 )

ライセンス: Link先を確認
Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang(参考訳) 最近提案されたセグメントアイスモデル(SAM)は多くのコンピュータビジョンタスクに大きな影響を与えている。 画像のセグメンテーション、画像キャプション、画像編集など、多くのハイレベルなタスクの基本的なステップになりつつある。 しかし、その膨大な計算コストは、業界シナリオにおける幅広い応用を妨げる。 計算は主に高解像度入力におけるTransformerアーキテクチャに由来する。 本稿では,この基本課題に対して,性能に匹敵する高速化手法を提案する。 タスクをセグメント生成とプロンプトとして再構成することで、インスタンス分割ブランチを持つ通常のCNN検出器もこのタスクをうまく達成できることがわかった。 具体的には、このタスクをよく研究されたインスタンスセグメンテーションタスクに変換し、SAM著者が発行したSA-1Bデータセットの1/50のみを使用して、既存のインスタンスセグメンテーションメソッドを直接訓練する。 提案手法では,SAM法と同等の性能を,実行速度の50倍の速度で達成する。 その効果を示すのに十分な実験結果を与える。 コードとデモはhttps://github.com/CASIA-IVA-Lab/FastSAMで公開される。

The recently proposed segment anything model (SAM) has made a significant influence in many computer vision tasks. It is becoming a foundation step for many high-level tasks, like image segmentation, image caption, and image editing. However, its huge computation costs prevent it from wider applications in industry scenarios. The computation mainly comes from the Transformer architecture at high-resolution inputs. In this paper, we propose a speed-up alternative method for this fundamental task with comparable performance. By reformulating the task as segments-generation and prompting, we find that a regular CNN detector with an instance segmentation branch can also accomplish this task well. Specifically, we convert this task to the well-studied instance segmentation task and directly train the existing instance segmentation method using only 1/50 of the SA-1B dataset published by SAM authors. With our method, we achieve a comparable performance with the SAM method at 50 times higher run-time speed. We give sufficient experimental results to demonstrate its effectiveness. The codes and demos will be released at https://github.com/CASIA-IVA-Lab/FastSAM.
翻訳日:2023-06-22 14:00:19 公開日:2023-06-21
# 輪郭対応グラフセグメンテーションのための共同線分表現法

Joint Dense-Point Representation for Contour-Aware Graph Segmentation ( http://arxiv.org/abs/2306.12155v1 )

ライセンス: Link先を確認
Kit Mills Bransby, Greg Slabaugh, Christos Bourantas, Qianni Zhang(参考訳) 本稿では,点輪郭表現と画素輪郭表現を共同で学習することにより,グラフと高密度分割技術を組み合わせた新しい手法を提案する。 これは、ネットワークが識別頂点や輪郭特徴の学習を制限している典型的なグラフセグメンテーションの方法の欠陥に対処する。 私たちの共同学習戦略は、リッチで多様な意味的特徴をエンコードできると同時に、ピクセルレベルの目標が解剖学的に目立たないトポロジーにつながるような、密集したアプローチにおける共通の輪郭安定問題を緩和します。 さらに,輪郭境界に落下する正確な予測をペナルティに課すシナリオを特定し,新たなハイブリッド輪郭距離損失法を提案する。 提案手法は胸部x線データで検証され,様々な密度・点ベース法に対してセグメント化安定性と精度が明らかに改善されている。 私たちのソースコードは、www.github.com/kitbransby/Joint_Graph_Segmentationで無料で利用可能です。

We present a novel methodology that combines graph and dense segmentation techniques by jointly learning both point and pixel contour representations, thereby leveraging the benefits of each approach. This addresses deficiencies in typical graph segmentation methods where misaligned objectives restrict the network from learning discriminative vertex and contour features. Our joint learning strategy allows for rich and diverse semantic features to be encoded, while alleviating common contour stability issues in dense-based approaches, where pixel-level objectives can lead to anatomically implausible topologies. In addition, we identify scenarios where correct predictions that fall on the contour boundary are penalised and address this with a novel hybrid contour distance loss. Our approach is validated on several Chest X-ray datasets, demonstrating clear improvements in segmentation stability and accuracy against a variety of dense- and point-based methods. Our source code is freely available at: www.github.com/kitbransby/Joint_Graph_Segmentation
翻訳日:2023-06-22 14:00:03 公開日:2023-06-21
# DIAS: DSA-sequence intracranial artery Segmentation の総合ベンチマーク

DIAS: A Comprehensive Benchmark for DSA-sequence Intracranial Artery Segmentation ( http://arxiv.org/abs/2306.12153v1 )

ライセンス: Link先を確認
Wentao Liu, Tong Tian, Lemeng Wang, Weijin Xu, Haoyuan Li, Wenyi Zhao, Xipeng Pan, Huihua Yang, Feng Gao, Yiming Deng, and Ruisheng Su(参考訳) デジタルサブトラクション血管造影(DSA)シークエンスにおける頭蓋内動脈(IA)の自動分画は、IA関連疾患の診断と神経インターベンショナル手術の誘導に必須のステップである。 しかし、公開データセットの欠如により、この分野の研究は妨げられている。 本稿では,頭蓋内介入療法から120のDSA配列からなるIAセグメンテーションデータセットであるDIASをリリースする。 画素単位のアノテーションに加えて、このデータセットは弱教師付きIAセグメンテーション研究のための2種類のスクリブルアノテーションを提供する。 完全,弱弱,半教師付き学習アプローチを用いて,この挑戦的データセットの性能を評価するための総合的ベンチマークを提案する。 具体的には,次元還元モジュールを2D/3Dモデルに組み込んでDSA配列の容器分割を実現する手法を提案する。 弱い教師付き学習のために,スクリブルの監督と一貫性の規則化を含む,スクリブル学習に基づく画像分割フレームワークSSCRを提案する。 さらに,ラベルなしのdsaシーケンスを用いてセグメンテーション性能を向上させるランダムパッチベースの自己学習フレームワークを提案する。 DIASデータセットに関する広範な実験により,これらの手法が今後の研究および臨床応用の基盤となる可能性を示す。

Automatic segmentation of the intracranial artery (IA) in digital subtraction angiography (DSA) sequence is an essential step in diagnosing IA-related diseases and guiding neuro-interventional surgery. However, the lack of publicly available datasets has impeded research in this area. In this paper, we release DIAS, an IA segmentation dataset, consisting of 120 DSA sequences from intracranial interventional therapy. In addition to pixel-wise annotations, this dataset provides two types of scribble annotations for weakly supervised IA segmentation research. We present a comprehensive benchmark for evaluating the performance of this challenging dataset by utilizing fully-, weakly-, and semi-supervised learning approaches. Specifically, we propose a method that incorporates a dimensionality reduction module into a 2D/3D model to achieve vessel segmentation in DSA sequences. For weakly-supervised learning, we propose a scribble learning-based image segmentation framework, SSCR, which comprises scribble supervision and consistency regularization. Furthermore, we introduce a random patch-based self-training framework that utilizes unlabeled DSA sequences to improve segmentation performance. Our extensive experiments on the DIAS dataset demonstrate the effectiveness of these methods as potential baselines for future research and clinical applications.
翻訳日:2023-06-22 13:59:44 公開日:2023-06-21
# 産業シナリオにおける人間-物体相互作用検出のためのマルチモーダル合成データの爆発的抽出

Exploiting Multimodal Synthetic Data for Egocentric Human-Object Interaction Detection in an Industrial Scenario ( http://arxiv.org/abs/2306.12152v1 )

ライセンス: Link先を確認
Rosario Leonardi, Francesco Ragusa, Antonino Furnari, Giovanni Maria Farinella(参考訳) 本稿では,産業環境でのエゴセントリック・ヒューマン・オブジェクト・インタラクション(EHOI)検出の問題に取り組む。 この文脈における公開データセットの欠如を克服するために,いくつかのアノテーションとデータ信号(深度マップやインスタンスセグメンテーションマスクなど)を組み合わせるehoisの合成画像を生成するパイプラインとツールを提案する。 提案するパイプラインを用いて,手やオブジェクトのアノテーションが豊富な産業環境において,EgoISM-HOIの合成EHOI画像からなる新しいマルチモーダルデータセットを提案する。 提案ツールにより生成された合成EHOIデータの有用性と有効性を示すため,RGB画像中のEHOIを検出するために,異なるマルチモーダル信号の予測と組み合わせを行う新しい手法を考案した。 本研究は,提案手法を事前学習するために合成データを利用すると,実世界のデータでテストした場合の性能が大幅に向上することを示す。 さらに,提案手法は最先端のクラスに依存しない手法よりも優れている。 この分野の研究を支援するために、我々はデータセット、ソースコード、事前トレーニングされたモデルをhttps://iplab.dmi.unict.it/egoism-hoiで公開します。

In this paper, we tackle the problem of Egocentric Human-Object Interaction (EHOI) detection in an industrial setting. To overcome the lack of public datasets in this context, we propose a pipeline and a tool for generating synthetic images of EHOIs paired with several annotations and data signals (e.g., depth maps or instance segmentation masks). Using the proposed pipeline, we present EgoISM-HOI a new multimodal dataset composed of synthetic EHOI images in an industrial environment with rich annotations of hands and objects. To demonstrate the utility and effectiveness of synthetic EHOI data produced by the proposed tool, we designed a new method that predicts and combines different multimodal signals to detect EHOIs in RGB images. Our study shows that exploiting synthetic data to pre-train the proposed method significantly improves performance when tested on real-world data. Moreover, the proposed approach outperforms state-of-the-art class-agnostic methods. To support research in this field, we publicly release the datasets, source code, and pre-trained models at https://iplab.dmi.unict.it/egoism-hoi.
翻訳日:2023-06-22 13:59:22 公開日:2023-06-21
# MR画像分類における事前学習が説明性能に及ぼす影響に関するベンチマークデータ

Benchmark data to study the influence of pre-training on explanation performance in MR image classification ( http://arxiv.org/abs/2306.12150v1 )

ライセンス: Link先を確認
Marta Oliveira, Rick Wilming, Benedict Clark, C\'eline Budding, Fabian Eitel, Kerstin Ritter, Stefan Haufe(参考訳) 畳み込みニューラルネットワーク(cnns)は、医学的予測タスクで頻繁に、かつうまく使用される。 それらは転送学習と組み合わせて使われることが多く、タスクのトレーニングデータが不足するとパフォーマンスが向上する。 結果として得られるモデルは極めて複雑で、一般的に予測メカニズムに関する洞察を与えておらず、"説明可能な"人工知能(XAI)の分野を動機付けている。 しかし,XAI手法の地中構造データに対する「説明性能」を定量的に評価することは稀であり,伝達学習が説明性能の客観的尺度に与える影響は研究されていない。 本稿では,現実的磁気共鳴画像(MRI)分類タスクにおける説明性能を定量化するベンチマークデータセットを提案する。 このベンチマークを用いて、伝達学習が説明の質に与える影響を理解する。 実験結果から, 同一モデルに適用される一般的なXAI法は, 正しく分類された例のみを考慮すると, 性能的に大きく異なることがわかった。 さらに、説明性能は、事前学習に使用するタスクと、事前訓練されたCNNレイヤーの数に大きく依存する。 これらの結果は、説明と分類性能の実質的な相関を補正した後のものである。

Convolutional Neural Networks (CNNs) are frequently and successfully used in medical prediction tasks. They are often used in combination with transfer learning, leading to improved performance when training data for the task are scarce. The resulting models are highly complex and typically do not provide any insight into their predictive mechanisms, motivating the field of 'explainable' artificial intelligence (XAI). However, previous studies have rarely quantitatively evaluated the 'explanation performance' of XAI methods against ground-truth data, and transfer learning and its influence on objective measures of explanation performance has not been investigated. Here, we propose a benchmark dataset that allows for quantifying explanation performance in a realistic magnetic resonance imaging (MRI) classification task. We employ this benchmark to understand the influence of transfer learning on the quality of explanations. Experimental results show that popular XAI methods applied to the same underlying model differ vastly in performance, even when considering only correctly classified examples. We further observe that explanation performance strongly depends on the task used for pre-training and the number of CNN layers pre-trained. These results hold after correcting for a substantial correlation between explanation and classification performance.
翻訳日:2023-06-22 13:59:00 公開日:2023-06-21
# NLIモデルにどのような相関が影響するか? データ制約による視覚的インタラクティブ診断

Which Spurious Correlations Impact Reasoning in NLI Models? A Visual Interactive Diagnosis through Data-Constrained Counterfactuals ( http://arxiv.org/abs/2306.12146v1 )

ライセンス: Link先を確認
Robin Chan, Afra Amini, Mennatallah El-Assady(参考訳) 我々は、NLIモデルが予測に頼っている潜在的刺激的な特徴を診断するための、ループ内人間ダッシュボードを提案する。 ダッシュボードでは、GPT-3提案からインスピレーションを得て、多様で困難な例を生成することができる。 さらに、トレーニング済みのNLIモデルから、新しく作成されたサンプルがいかに難しいか、フィードバックに基づいて改善を行うことができる。 本研究により,NLIモデルの推論に影響を及ぼす突発的相関のいくつかのカテゴリが発見され,セマンティック関連,論理的誤り,バイアスの3つのカテゴリに分類される。 本研究は,NLIモデルのロバスト性評価やトレーニングデータの多様化など,様々な研究機会を特定し,記述するものである。

We present a human-in-the-loop dashboard tailored to diagnosing potential spurious features that NLI models rely on for predictions. The dashboard enables users to generate diverse and challenging examples by drawing inspiration from GPT-3 suggestions. Additionally, users can receive feedback from a trained NLI model on how challenging the newly created example is and make refinements based on the feedback. Through our investigation, we discover several categories of spurious correlations that impact the reasoning of NLI models, which we group into three categories: Semantic Relevance, Logical Fallacies, and Bias. Based on our findings, we identify and describe various research opportunities, including diversifying training data and assessing NLI models' robustness by creating adversarial test suites.
翻訳日:2023-06-22 13:58:38 公開日:2023-06-21
# 多層膜デバイスを用いたシナプス形成

Synaptic metaplasticity with multi-level memristive devices ( http://arxiv.org/abs/2306.12142v1 )

ライセンス: Link先を確認
Simone D'Agostino, Filippo Moro, Tifenn Hirtzlin, Julien Arcamone, Niccol\`o Castellani, Damien Querlioz, Melika Payvand and Elisa Vianello(参考訳) ディープラーニングは様々なタスクで著しく進歩し、場合によっては人間のパフォーマンスを上回っている。 しかし、ニューラルネットワークの欠点のひとつは、あるタスクでトレーニングされたネットワークが、新しいタスクを学ぶ際に解決策を忘れてしまう、破滅的な忘れることだ。 この問題に対処するため、近年の研究では、メタ可塑性を取り入れたBNN(Binarized Neural Networks)に基づくソリューションが提案されている。 本研究では,この解を量子化ニューラルネットワーク(QNN)に拡張し,推論とトレーニングの間にメタ塑性を実装するためのメムリスタベースのハードウェアソリューションを提案する。 本研究では,デジタル処理ユニットを用いて,アナログマルチレベルにプログラムされた memristor デバイスに量子化重みを組み込むハードウェアアーキテクチャを提案する。 130nmCMOS技術を用いたインメモリコンピューティングにおいて,ソフトウェアフレームワークとmemristorベースのクロスバーアレイを組み合わせたアプローチを検証した。 実験の結果,MNISTとFashion-MNISTの連続トレーニングにおいて,2層パーセプトロンが97%,86%の精度でソフトウェアベースラインに等しいことがわかった。 この結果は, 破壊的放棄に対する免疫と, 提案溶液のアナログデバイス不完全に対する回復性を示す。 さらに、我々のアーキテクチャはmmristorの制限耐性と互換性があり、メモリは15倍削減されている。

Deep learning has made remarkable progress in various tasks, surpassing human performance in some cases. However, one drawback of neural networks is catastrophic forgetting, where a network trained on one task forgets the solution when learning a new one. To address this issue, recent works have proposed solutions based on Binarized Neural Networks (BNNs) incorporating metaplasticity. In this work, we extend this solution to quantized neural networks (QNNs) and present a memristor-based hardware solution for implementing metaplasticity during both inference and training. We propose a hardware architecture that integrates quantized weights in memristor devices programmed in an analog multi-level fashion with a digital processing unit for high-precision metaplastic storage. We validated our approach using a combined software framework and memristor based crossbar array for in-memory computing fabricated in 130 nm CMOS technology. Our experimental results show that a two-layer perceptron achieves 97% and 86% accuracy on consecutive training of MNIST and Fashion-MNIST, equal to software baseline. This result demonstrates immunity to catastrophic forgetting and the resilience to analog device imperfections of the proposed solution. Moreover, our architecture is compatible with the memristor limited endurance and has a 15x reduction in memory
翻訳日:2023-06-22 13:58:24 公開日:2023-06-21
# 空間的異性認識グラフニューラルネットワーク

Spatial Heterophily Aware Graph Neural Networks ( http://arxiv.org/abs/2306.12139v1 )

ライセンス: Link先を確認
Congxi Xiao, Jingbo Zhou, Jizhou Huang, Tong Xu, Hui Xiong(参考訳) グラフニューラルネットワーク(gnns)は、地域や関心点のような都市対象である都市グラフとして都市を定式化することで、多くの都市応用に広く適用されてきた。 近年,接続ノードが類似するヘテロフィリグラフに対処すべく,いくつかのgnnアーキテクチャが開発されている。 しかし、都市グラフは通常、独特の空間的ヘテロフィリーな性質を持つことが観察され、つまり、異なる空間的距離の隣人の相似性は大きな多様性を示す。 この性質は探究されていないが、しばしば存在する。 そこで本稿では,空間的不均一度を定量的に測定し,それがGNNの性能に与える影響を示す指標である空間多様性スコアを提案する。 実際, 既存の異種性GNNは, 空間多様性スコアの高い都市グラフの処理に依然として不十分であることが明らかとなった。 これは、都市での応用において効果を低下させる可能性がある。 この線に沿って、都市グラフの空間的多様性に取り組むために、空間的ヘテロフィア認識グラフニューラルネットワーク(SHGNN)を提案する。 都市グラフ上の空間的に近接する隣人が中心ノードとより類似した相違を示すというキー観測に基づいて、まず、空間的に近接する隣人を適切にグループ化し、内部の多様性の低い各グループを個別に処理する回転スケーリング空間集合モジュールを設計する。 次に、ヘテロフィリ感応空間相互作用モジュールは、異なる空間群における共通性と多様な相似性を適応的に捉えるように設計される。 3つの実世界の都市データセットに対する大規模な実験は、SHGNNが競合相手よりも優れていることを示している。

Graph Neural Networks (GNNs) have been broadly applied in many urban applications upon formulating a city as an urban graph whose nodes are urban objects like regions or points of interest. Recently, a few enhanced GNN architectures have been developed to tackle heterophily graphs where connected nodes are dissimilar. However, urban graphs usually can be observed to possess a unique spatial heterophily property; that is, the dissimilarity of neighbors at different spatial distances can exhibit great diversity. This property has not been explored, while it often exists. To this end, in this paper, we propose a metric, named Spatial Diversity Score, to quantitatively measure the spatial heterophily and show how it can influence the performance of GNNs. Indeed, our experimental investigation clearly shows that existing heterophilic GNNs are still deficient in handling the urban graph with high spatial diversity score. This, in turn, may degrade their effectiveness in urban applications. Along this line, we propose a Spatial Heterophily Aware Graph Neural Network (SHGNN), to tackle the spatial diversity of heterophily of urban graphs. Based on the key observation that spatially close neighbors on the urban graph present a more similar mode of difference to the central node, we first design a rotation-scaling spatial aggregation module, whose core idea is to properly group the spatially close neighbors and separately process each group with less diversity inside. Then, a heterophily-sensitive spatial interaction module is designed to adaptively capture the commonality and diverse dissimilarity in different spatial groups. Extensive experiments on three real-world urban datasets demonstrate the superiority of our SHGNN over several its competitors.
翻訳日:2023-06-22 13:58:01 公開日:2023-06-21
# ニット力センサの不整合に対する機械学習による補償

Machine Learning Based Compensation for Inconsistencies in Knitted Force Sensors ( http://arxiv.org/abs/2306.12129v1 )

ライセンス: Link先を確認
Roland Aigner and Andreas St\"ockl(参考訳) 編物センサーは、オフセット、リラクゼーション、ドリフトなどの自然効果のためにしばしば不整合に苦しむ。 これらの特性を組み合わせることで、センサーデータから物理アクチュエータへの確実にマッピングが困難になる。 本稿では,簡単な前処理と組み合わせて,最小の人工ニューラルネットワーク (ann) を用いた処理を適用することで,これに対抗する手法を示す。 再サンプリングされたセンサ信号に多数の指数的スムースティングフィルタを適用し、異なるレベルのセンサデータを保存し、組み合わせることで、以前のセンサアクティベーションの適切な状態を表す特徴を創出する。 合計8個のニューロンを持つ3層ANNをトレーニングすることにより,センサ読み取りとアクティベーション力のマッピングを大幅に改善する。 また, 本手法は, 材料や構造の観点から, 合理的に異なる組成のセンサに変換され, ひずみなどの関連する物理的特徴にも応用できることを示した。

Knitted sensors frequently suffer from inconsistencies due to innate effects such as offset, relaxation, and drift. These properties, in combination, make it challenging to reliably map from sensor data to physical actuation. In this paper, we demonstrate a method for counteracting this by applying processing using a minimal artificial neural network (ANN) in combination with straightforward pre-processing. We apply a number of exponential smoothing filters on a re-sampled sensor signal, to produce features that preserve different levels of historical sensor data and, in combination, represent an adequate state of previous sensor actuation. By training a three-layer ANN with a total of 8 neurons, we manage to significantly improve the mapping between sensor reading and actuation force. Our findings also show that our technique translates to sensors of reasonably different composition in terms of material and structure, and it can furthermore be applied to related physical features such as strain.
翻訳日:2023-06-22 13:57:32 公開日:2023-06-21
# 超伝導キャビティから放出される量子状態の多モード特性

The Multimode Character of Quantum States Released from a Superconducting Cavity ( http://arxiv.org/abs/2306.12127v1 )

ライセンス: Link先を確認
Maryam Khanahmadi, Mads Middelhede Lund, Klaus M{\o}lmer, G\"oran Johansson(参考訳) 電磁波の波のパケットを伝播する量子状態伝達は、送信と受信の量子システムと伝播チャネルまたは導波路との間の可変結合を必要とする。 実験実験における状態伝達の最も高い忠実度は超伝導回路である。 ここでは、チューナビリティは常に非線形相互作用と結びつき、チューナビリティを可能にする同じジョセフソン接合から生じる。 その結果生じる非線形ダイナミクスは、光子数と時空間自由度を相関させ、任意の多光子状態に対してマルチモード出力状態となる。 本研究では,超伝導共振器から複雑な量子状態が放出される一般的な例として,磁束可変結合器を用いて放出過程を設計・制御する。 出力状態の多モード特性を定量化し、これを念頭に置いて量子状態伝達プロセスの忠実度を最適化する方法について議論する。

Quantum state transfer by propagating wave packets of electromagnetic radiation requires tunable couplings between the sending and receiving quantum systems and the propagation channel or waveguide. The highest fidelity of state transfer in experimental demonstrations so far has been in superconducting circuits. Here, the tunability always comes together with nonlinear interactions, arising from the same Josephson junctions that enable the tunability. The resulting non-linear dynamics correlates the photon number and spatio-temporal degrees of freedom and leads to a multi-mode output state, for any multi-photon state. In this work, we study as a generic example the release of complex quantum states from a superconducting resonator, employing a flux tunable coupler to engineer and control the release process. We quantify the multi-mode character of the output state and discuss how to optimize the fidelity of a quantum state transfer process with this in mind.
翻訳日:2023-06-22 13:57:17 公開日:2023-06-21
# 単一文字からの表情再ターゲティング

Facial Expression Re-targeting from a Single Character ( http://arxiv.org/abs/2306.12188v1 )

ライセンス: Link先を確認
Ariel Larey, Omri Asraf, Adam Kelder, Itzik Wilf, Ofer Kruzel, Nati Daniel(参考訳) デジタル顔アニメーションのためのビデオリターゲティングは、人間の顔のビデオに基づいてアバターの表情をアニメーション化することを目的として、仮想現実、ソーシャルメディア、ゲーム、映画、ビデオ会議で使用されている。 3Dキャラクタの表情を表現するための標準的な方法は、アバターの中立な形状と、笑顔、パフ、点滅などの表情におけるその変化を表す重みのベクトルであるブレンドサッフェである。 ブレンドシェープベクトルを持つペアフレームのデータセットは稀であり、ラベル付けは手間がかかり、時間がかかり、主観的になる。 本研究では,適切なデータセットの不足に対処するアプローチを開発した。 代わりに、1文字のみの合成データセットを使用しました。 様々な文字を一般化するために,各フレームをランドマークに再表現した。 我々は、各顔器官のランドマークをグループ化し、それらを関連するブレンドシェープ重みに結びつける独自のディープラーニングアーキテクチャを開発した。 また,目印がうまく表現できない表情に対して補足的な手法を取り入れ,目印表現に特に注意を向けた。 我々は,これまでの質的・定量的指標研究に対するアプローチの優位性を実証した。 我々のアプローチは、様々なユーザや表現のあるビデオでテストすると、より高いMOSが68%、低いMSEが44.2%に達した。

Video retargeting for digital face animation is used in virtual reality, social media, gaming, movies, and video conference, aiming to animate avatars' facial expressions based on videos of human faces. The standard method to represent facial expressions for 3D characters is by blendshapes, a vector of weights representing the avatar's neutral shape and its variations under facial expressions, e.g., smile, puff, blinking. Datasets of paired frames with blendshape vectors are rare, and labeling can be laborious, time-consuming, and subjective. In this work, we developed an approach that handles the lack of appropriate datasets. Instead, we used a synthetic dataset of only one character. To generalize various characters, we re-represented each frame to face landmarks. We developed a unique deep-learning architecture that groups landmarks for each facial organ and connects them to relevant blendshape weights. Additionally, we incorporated complementary methods for facial expressions that landmarks did not represent well and gave special attention to eye expressions. We have demonstrated the superiority of our approach to previous research in qualitative and quantitative metrics. Our approach achieved a higher MOS of 68% and a lower MSE of 44.2% when tested on videos with various users and expressions.
翻訳日:2023-06-22 13:50:14 公開日:2023-06-21
# オンデマンドエッジリソースを用いた自己推測高速化のための適応的DNN手術

Adaptive DNN Surgery for Selfish Inference Acceleration with On-demand Edge Resource ( http://arxiv.org/abs/2306.12185v1 )

ライセンス: Link先を確認
Xiang Yang, Dezhi Chen, Qi Qi, Jingyu Wang, Haifeng Sun, Jianxin Liao, Song Guo(参考訳) ディープニューラルネットワーク(DNN)は、モバイルデバイス上のインテリジェントアプリケーションの精度を大幅に改善した。 モバイルデバイスとマルチアクセスエッジコンピューティング(MEC)サーバ間でDNN処理を分割するDNN手術は,モバイルデバイスの計算能力に制限があるにも関わらず,リアルタイムな推論を可能にする。 しかし、DNN手術は、推論レイテンシとMECサーバーの使用コストの両方を考慮して、サーバからの最適なコンピューティングリソース需要とそれに対応するパーティション戦略を決定するという、重大な課題に直面している。 この問題は、(1)複数のデバイス間で共有されるmecサーバの有限演算能力が相互依存的な要求をもたらし、(2)現代のdnnアーキテクチャがチェーンから有向非循環グラフ(英語版)(dag)へとシフトし、潜在的な解を複雑化する。 本稿では,分散DNN手術(Decentralized DNN Surgery, DDS)フレームワークについて紹介する。 分割戦略をミニカットとして定式化し,mec環境でモバイルデバイスの要求を適応的にスケジュールする資源割当ゲームを提案する。 我々はNash Equilibrium(NE)の存在を証明し、各デバイスに対してNEに効率的に到達するための反復アルゴリズムを開発する。 我々の広範な実験は、DDSが様々なMECシナリオを効果的に処理できることを示し、最先端のアルゴリズムと比較して最大1.25$\times$Accelerationを実現している。

Deep Neural Networks (DNNs) have significantly improved the accuracy of intelligent applications on mobile devices. DNN surgery, which partitions DNN processing between mobile devices and multi-access edge computing (MEC) servers, can enable real-time inference despite the computational limitations of mobile devices. However, DNN surgery faces a critical challenge: determining the optimal computing resource demand from the server and the corresponding partition strategy, while considering both inference latency and MEC server usage costs. This problem is compounded by two factors: (1) the finite computing capacity of the MEC server, which is shared among multiple devices, leading to inter-dependent demands, and (2) the shift in modern DNN architecture from chains to directed acyclic graphs (DAGs), which complicates potential solutions. In this paper, we introduce a novel Decentralized DNN Surgery (DDS) framework. We formulate the partition strategy as a min-cut and propose a resource allocation game to adaptively schedule the demands of mobile devices in an MEC environment. We prove the existence of a Nash Equilibrium (NE), and develop an iterative algorithm to efficiently reach the NE for each device. Our extensive experiments demonstrate that DDS can effectively handle varying MEC scenarios, achieving up to 1.25$\times$ acceleration compared to the state-of-the-art algorithm.
翻訳日:2023-06-22 13:49:54 公開日:2023-06-21
# 言語モデルにおける特徴的相互作用

Feature Interactions Reveal Linguistic Structure in Language Models ( http://arxiv.org/abs/2306.12181v1 )

ライセンス: Link先を確認
Jaap Jumelet, Willem Zuidema(参考訳) ポストホック解釈のための特徴帰属法の文脈における特徴的相互作用について検討した。 解釈可能性研究において、特徴の相互作用を握りしめることは、ニューラルネットワークの成功の鍵となる機能同士の相互作用が重要な課題として認識されるようになっている。 特徴的相互作用により、モデルはその入力に対して階層的な表現を構築することができ、言語モデルにおける言語構造の研究の出発点となるかもしれない。 しかし、これらの相互作用が果たす正確な役割を明らかにすることも困難であり、多様な相互作用帰属法が提案されている。 本稿では,これらの手法が対象モデルの内部動作を最も忠実に反映しているかという問題に焦点をあてる。 我々は, pcfgs を用いて, 形式的言語分類タスクを完全化するためにモデルを訓練するグレイボックス手法を考案した。 特定の構成下では、いくつかの手法が実際にモデルが獲得した文法規則を明らかにすることができることを示す。 これらの結果に基づいて,これらのモデルが獲得した言語構造に関する新たな知見を,言語モデルに関するケーススタディに拡張する。

We study feature interactions in the context of feature attribution methods for post-hoc interpretability. In interpretability research, getting to grips with feature interactions is increasingly recognised as an important challenge, because interacting features are key to the success of neural networks. Feature interactions allow a model to build up hierarchical representations for its input, and might provide an ideal starting point for the investigation into linguistic structure in language models. However, uncovering the exact role that these interactions play is also difficult, and a diverse range of interaction attribution methods has been proposed. In this paper, we focus on the question which of these methods most faithfully reflects the inner workings of the target models. We work out a grey box methodology, in which we train models to perfection on a formal language classification task, using PCFGs. We show that under specific configurations, some methods are indeed able to uncover the grammatical rules acquired by a model. Based on these findings we extend our evaluation to a case study on language models, providing novel insights into the linguistic structure that these models have acquired.
翻訳日:2023-06-22 13:49:28 公開日:2023-06-21
# 2つの共役schr\"{o}dinger方程式を用いた量子力学の準エルミート的定式化

Quasi-Hermitian formulation of quantum mechanics using two conjugate Schr\"{o}dinger equations ( http://arxiv.org/abs/2306.12179v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 非エルミート相互作用図の修正版では、dyadic表現において状態 $\psi(t)$ を扱うことを提案する。 2つの共役Schr\"{o}diner方程式による進化の制御は、時間依存の内積計量作用素$\Theta(t)$冗長な構成の通常必要条件を課す。 力学に関する主要な情報は、非ハミルトニアン可観測量(例えば、$r(t)$)によって運ばれる。 位相遷移の特定の実現は、EP時間$t=t^{(EP)}$における$R(t)$の固有値のカトーの例外点(EP)縮退によって可能となる。 宇宙論モデルは、初期量子ビッグバン特異点から宇宙のユニタリ進化の誕生を模倣するものである。

In an amended version of non-Hermitian interaction picture we propose to work with the states $\psi(t)$ in a dyadic representation. The control of evolution via two conjugate Schr\"{o}diner equations then renders the usual necessity of the construction of the time-dependent inner-product-metric operator $\Theta(t)$ redundant. The primary information about dynamics is assumed carried by a non-Hamiltonian observable (say, $R(t)$). A specific realization of phase transitions is then rendered possible via the Kato's exceptional-point (EP) degeneracy of the eigenvalues of $R(t)$ at the EP time $t=t^{(EP)}$. For illustration a cosmological model is proposed mimicking the unitary-evolution birth of the Universe from an initial quantum Big Bang singularity.
翻訳日:2023-06-22 13:49:12 公開日:2023-06-21
# OphGLM:指導と対話に基づく眼科大言語・視覚アシスタントの訓練

OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant based on Instructions and Dialogue ( http://arxiv.org/abs/2306.12174v1 )

ライセンス: Link先を確認
Weihao Gao, Zhuo Deng, Zhiyuan Niu, Fuju Rong, Chucheng Chen, Zheng Gong, Wenze Zhang, Daimin Xiao, Fang Li, Zhenjie Cao, Lan Ma(参考訳) 大規模マルチモーダル言語モデル (LMM) は一般分野において大きな成功を収めている。 しかし、医用画像とテキストと一般的なウェブコンテンツの間に大きな違いがあるため、医療シナリオにおけるLMMのパフォーマンスは限られている。 眼科では、臨床診断は医療画像の多様性に依存しているが、残念ながら、多様眼科大言語モデルはこれまで研究されていない。 本稿では,眼科大マルチモーダルモデルの研究と構築について述べる。 まず,眼科領域の共通診断と病変の分節化を実現するために,眼底画像を用いて疾患評価と診断パイプラインを構築した。 そこで我々は,疾患関連知識データと実世界の医療対話に基づく,新しい眼科マルチモーダル・インストラクション・フォローおよび対話微調整データセットを構築した。 眼科大言語と視覚アシスタント(ophglm)を完成させるために,大言語モデルに視覚能力を導入する。 実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。 データセット、コード、モデルはhttps://github.com/ML-AILab/OphGLM.comで公開される。

Large multimodal language models (LMMs) have achieved significant success in general domains. However, due to the significant differences between medical images and text and general web content, the performance of LMMs in medical scenarios is limited. In ophthalmology, clinical diagnosis relies on multiple modalities of medical images, but unfortunately, multimodal ophthalmic large language models have not been explored to date. In this paper, we study and construct an ophthalmic large multimodal model. Firstly, we use fundus images as an entry point to build a disease assessment and diagnosis pipeline to achieve common ophthalmic disease diagnosis and lesion segmentation. Then, we establish a new ophthalmic multimodal instruction-following and dialogue fine-tuning dataset based on disease-related knowledge data and publicly available real-world medical dialogue. We introduce visual ability into the large language model to complete the ophthalmic large language and vision assistant (OphGLM). Our experimental results demonstrate that the OphGLM model performs exceptionally well, and it has the potential to revolutionize clinical applications in ophthalmology. The dataset, code, and models will be made publicly available at https://github.com/ML-AILab/OphGLM.
翻訳日:2023-06-22 13:48:54 公開日:2023-06-21
# 統合音声分離認識用混合符号化器

Mixture Encoder for Joint Speech Separation and Recognition ( http://arxiv.org/abs/2306.12173v1 )

ライセンス: Link先を確認
Simon Berger, Peter Vieting, Christoph Boeddeker, Ralf Schl\"uter and Reinhold Haeb-Umbach(参考訳) マルチスピーカ自動音声認識(ASR)は多くの実世界のアプリケーションに必須であるが、専用のモデリング技術が必要である。 既存のアプローチは、モジュラーとエンドツーエンドのメソッドに分けられる。 モジュラーアプローチ スピーカーを分離し、それぞれを単一話者asrシステムで認識する。 エンドツーエンドモデルでは、重複した音声を単一の強力なニューラルネットワークで直接処理する。 本研究は,モジュール型手法と同様に明示的な音声分離を活用しつつ,asrモジュールに混合音声情報を直接組み込んで,音声分離器による誤りの伝播を緩和するミドルグラウンド手法を提案する。 また,各話者の情報を組み合わせるレイヤを通じて,話者間のコンテキスト情報を交換する方法についても検討する。 本システムでは,sms-wsjタスクにおける純粋にモジュール化された設定よりも,単語誤り率7%の相対的改善を実現している。

Multi-speaker automatic speech recognition (ASR) is crucial for many real-world applications, but it requires dedicated modeling techniques. Existing approaches can be divided into modular and end-to-end methods. Modular approaches separate speakers and recognize each of them with a single-speaker ASR system. End-to-end models process overlapped speech directly in a single, powerful neural network. This work proposes a middle-ground approach that leverages explicit speech separation similarly to the modular approach but also incorporates mixture speech information directly into the ASR module in order to mitigate the propagation of errors made by the speech separator. We also explore a way to exchange cross-speaker context information through a layer that combines information of the individual speakers. Our system is optimized through separate and joint training stages and achieves a relative improvement of 7% in word error rate over a purely modular setup on the SMS-WSJ task.
翻訳日:2023-06-22 13:48:33 公開日:2023-06-21
# 監視システムのレプリカ限界における位相遷移の解明

Elusive phase transition in the replica limit of monitored systems ( http://arxiv.org/abs/2306.12166v1 )

ライセンス: Link先を確認
Guido Giachetti and Andrea De Luca(参考訳) スピン成分の無作為な測定によって各スピンが常に摂動する一対一のノイズ相互作用を持つ1/2$粒子のn$スピン系において、観測されたダイナミクスの完全可解なモデルについて検討した。 我々は、このレプリカのトリックを利用して、精製やその他の可観測物の研究における測定結果の重み付けをボルンの規則に当てはめ、大額のN$制限に正確に記述する。 相転移の性質は計算に使用されるレプリカの数 n に大きく依存しており、関連する $n \rightarrow 1$ のレプリカ限界における不連続/清浄相を破壊する非摂動的対数補正の出現がある。 具体的には、弱い測定相における混合状態の浄化時間は、任意の強い測定速度のシステムサイズにおいて常に指数関数的に長いことを観察する。

We study an exactly solvable model of monitored dynamics in a system of $N$ spin $1/2$ particles with pairwise all-to-all noisy interactions, where each spin is constantly perturbed by weak measurements of the spin component in a random direction. We make use of the replica trick to account for the Born's rule weighting of the measurement outcomes in the study of purification and other observables, with an exact description in the large-$N$ limit. We find that the nature of the phase transition strongly depends on the number n of replicas used in the calculation, with the appearance of non-perturbative logarithmic corrections that destroy the disentangled/purifying phase in the relevant $n \rightarrow 1$ replica limit. Specifically, we observe that the purification time of a mixed state in the weak measurement phase is always exponentially long in the system size for arbitrary strong measurement rates
翻訳日:2023-06-22 13:48:20 公開日:2023-06-21
# 探索・勧告におけるパレート最適解のポストホック選択

Post-hoc Selection of Pareto-Optimal Solutions in Search and Recommendation ( http://arxiv.org/abs/2306.12165v1 )

ライセンス: Link先を確認
Vincenzo Paparella, Vito Walter Anelli, Franco Maria Nardini, Raffaele Perego, Tommaso Di Noia(参考訳) Information Retrieval (IR) と Recommender Systems (RS) のタスクは、単一のメトリックに基づいた最終結果のランク付けから、多目的問題へと移行している。 これらの問題の解決は、パレート・フロンティア(Pareto Frontier)として知られる一連のパレート最適解(Pareto-Optimal solution)につながる。 原則として、パレートフロンティアのすべてのポイントは、2つ以上のメトリクスの組み合わせに関して選択された最良のモデルを表す潜在的な候補である。 私たちの知る限り、フロンティアでどのポイントを選ぶべきかを決めるためのよく知られた戦略はありません。 本稿では,フロンティアから最良パレート最適解を同定し,選択するために,PDU (Population Distance from Utopia) と呼ばれる,ポストホックな理論的正当性を持った新手法を提案する。 詳しくは、PDUは各点がユートピア点からどれくらいの距離にあるか(目的の理想的な性能)を調べることによって、点の分布を分析する。 微細なユートピアポイントを考慮すれば、PDUは個々のユーザの好みに合わせてソリューションを選択することができます。 我々は、IRとRSの両方のタスクに関する広範な実験を通じて、PDUと既存の最先端戦略を比較した。 実験の結果,PDUとキャリブレーションの組み合わせが解選択に特に影響を及ぼすことがわかった。 さらに,提案手法は,フロンティアにおける立場に関わらず,原理的に解を選択することにより,他の戦略の限界を克服することを示した。

Information Retrieval (IR) and Recommender Systems (RS) tasks are moving from computing a ranking of final results based on a single metric to multi-objective problems. Solving these problems leads to a set of Pareto-optimal solutions, known as Pareto frontier, in which no objective can be further improved without hurting the others. In principle, all the points on the Pareto frontier are potential candidates to represent the best model selected with respect to the combination of two, or more, metrics. To our knowledge, there are no well-recognized strategies to decide which point should be selected on the frontier. In this paper, we propose a novel, post-hoc, theoretically-justified technique, named "Population Distance from Utopia" (PDU), to identify and select the one-best Pareto-optimal solution from the frontier. In detail, PDU analyzes the distribution of the points by investigating how far each point is from its utopia point (the ideal performance for the objectives). The possibility of considering fine-grained utopia points allows PDU to select solutions tailored to individual user preferences, a novel feature we call "calibration". We compare PDU against existing state-of-the-art strategies through extensive experiments on tasks from both IR and RS. Experimental results show that PDU and combined with calibration notably impact the solution selection. Furthermore, the results show that the proposed framework selects a solution in a principled way, irrespective of its position on the frontier, thus overcoming the limits of other strategies.
翻訳日:2023-06-22 13:48:02 公開日:2023-06-21
# データセットランダム化による敵攻撃の中立化

Adversarial Attacks Neutralization via Data Set Randomization ( http://arxiv.org/abs/2306.12161v1 )

ライセンス: Link先を確認
Mouna Rabhi and Roberto Di Pietro(参考訳) ディープラーニングモデルに対する敵意攻撃は、その信頼性とセキュリティに深刻な脅威をもたらす。 既存の防御機構は特定の種類の攻撃に対処するか、高度な攻撃に対して脆弱である。 本稿では,画像に基づく分類器に着目しつつ,引用するカテゴリに対して汎用的な防御機構を提案する。 それは超空間射影に根ざしている。 特に、我々のソリューションは、元のデータセットを新しいデータセットに擬似ランダムに投影する。 提案された防御メカニズムは、さまざまな予測データセットのセットを生成し、各投影データセットを使用して特定の分類器をトレーニングし、異なる決定境界を持つ異なる訓練された分類器を生成する。 テスト中は、入力をテストするための分類器をランダムに選択する。 我々のアプローチは正しい入力よりも正確さを犠牲にしない。 また, 防衛機構の詳細な特徴付けに加えて, 最適化に基づく4つの敵攻撃(PGD, FGSM, IGSM, C\&W)と, MNISTデータセット上でそれらを検証した生成的敵攻撃を用いた概念の証明も提供する。 実験の結果,本手法は,敵対攻撃に対するディープラーニングモデルの堅牢性を向上し,最適化攻撃の少なくとも89%,生成攻撃の78%で攻撃成功率を大幅に低下させることが示された。 また,使用済みハイパースペース数と防御機構の有効性との関係を解析した。 予想通り、両者は正の相関関係にあり、望ましいレベルのセキュリティを強制する容易なパラメータを提供する。 我々のソリューションの汎用性とスケーラビリティ、異なる攻撃シナリオへの適応性、そして優れた成果と組み合わせることで、ディープラーニングネットワークに対する敵対的攻撃に対する堅牢な防御を提供することは、この分野における今後の研究の基盤となる。

Adversarial attacks on deep-learning models pose a serious threat to their reliability and security. Existing defense mechanisms are narrow addressing a specific type of attack or being vulnerable to sophisticated attacks. We propose a new defense mechanism that, while being focused on image-based classifiers, is general with respect to the cited category. It is rooted on hyperspace projection. In particular, our solution provides a pseudo-random projection of the original dataset into a new dataset. The proposed defense mechanism creates a set of diverse projected datasets, where each projected dataset is used to train a specific classifier, resulting in different trained classifiers with different decision boundaries. During testing, it randomly selects a classifier to test the input. Our approach does not sacrifice accuracy over legitimate input. Other than detailing and providing a thorough characterization of our defense mechanism, we also provide a proof of concept of using four optimization-based adversarial attacks (PGD, FGSM, IGSM, and C\&W) and a generative adversarial attack testing them on the MNIST dataset. Our experimental results show that our solution increases the robustness of deep learning models against adversarial attacks and significantly reduces the attack success rate by at least 89% for optimization attacks and 78% for generative attacks. We also analyze the relationship between the number of used hyperspaces and the efficacy of the defense mechanism. As expected, the two are positively correlated, offering an easy-to-tune parameter to enforce the desired level of security. The generality and scalability of our solution and adaptability to different attack scenarios, combined with the excellent achieved results, other than providing a robust defense against adversarial attacks on deep learning networks, also lay the groundwork for future research in the field.
翻訳日:2023-06-22 13:47:38 公開日:2023-06-21
# 単純モデルにおけるエフィモフ効果の厳密な導出

Rigorous derivation of the Efimov effect in a simple model ( http://arxiv.org/abs/2306.12157v1 )

ライセンス: Link先を確認
Davide Fermi, Daniele Ferretti, Alessandro Teta(参考訳) 2体ゼロレンジ相互作用と与えられた半径$a>0$の3体ハードコア反発を伴う、$\mathbb{r}^3$の3つの同一ボソン系を考える。 二次形式アプローチを用いて、対応するハミルトニアンは自己随伴であり、任意の値 a$ に対して下から有界であることが証明される。 特にこのことは、1961年にミナスとファドデエフが3体問題に関する基礎研究で発見した中心現象の崩壊を防ぐのにハードコアの反発が十分であることを意味する。 さらに、無限二体散乱長(ユニタリ極限)の場合、efimov効果を証明し、emph{i.e.} を証明し、ハミルトニアンが負の固有値の無限列を 0 で蓄積し、漸近幾何学則 $\;e_{n+1} / e_n \; \to \; e^{-\frac{2\pi}{s_0}}\,\; \,\,\text{for} \,\; n\to +\infty$ hold, ここで $s_0\approx 1.00624$ を満たすことを示す。

We consider a system of three identical bosons in $\mathbb{R}^3$ with two-body zero-range interactions and a three-body hard-core repulsion of a given radius $a>0$. Using a quadratic form approach we prove that the corresponding Hamiltonian is self-adjoint and bounded from below for any value of $a$. In particular this means that the hard-core repulsion is sufficient to prevent the fall to the center phenomenon found by Minlos and Faddeev in their seminal work on the three-body problem in 1961. Furthermore, in the case of infinite two-body scattering length, also known as unitary limit, we prove the Efimov effect, \emph{i.e.}, we show that the Hamiltonian has an infinite sequence of negative eigenvalues $E_n$ accumulating at zero and fulfilling the asymptotic geometrical law $\;E_{n+1} / E_n \; \to \; e^{-\frac{2\pi}{s_0}}\,\; \,\text{for} \,\; n\to +\infty$ holds, where $s_0\approx 1.00624$.
翻訳日:2023-06-22 13:47:05 公開日:2023-06-21
# 平衡外Rydberg原子配列における永続的非ガウス相関

Persistent non-Gaussian correlations in out-of-equilibrium Rydberg atom arrays ( http://arxiv.org/abs/2306.12210v1 )

ライセンス: Link先を確認
Aydin Deger, Aiden Daniel, Zlatko Papi\'c, Jiannis K. Pachos(参考訳) ガウス相関は、結合した1次元超流体(Schweigler et al., Nature Physics 17, 559 (2021))の最近の実験で示されているように、平衡から切り離された多体量子系の大規模なクラスに現れる。 ここでは、Rydberg原子配列の初期状態が、大域的クエンチの後に永続的な非ガウス的相関を維持するメカニズムを示す。 この機構は、系の基底状態対称性に根ざした効果的な運動的遮断に基づいており、クエンチハミルトニアンの下での熱力学を阻害する。 我々は、この効果をRydberg原子実験で観測する方法を提案し、そのレジリエンスをいくつかの実験誤差に対して実証する。 これらの長期間の非ガウス状態は、平衡から保護された非ガウス性のため、量子記憶や量子情報プロトコルの安定な資源として実用的応用を持つ可能性がある。

Gaussian correlations emerge in a large class of many-body quantum systems quenched out of equilibrium, as demonstrated in recent experiments on coupled one-dimensional superfluids [Schweigler et al., Nature Physics 17, 559 (2021)]. Here, we present a mechanism by which an initial state of a Rydberg atom array can retain persistent non-Gaussian correlations following a global quench. This mechanism is based on an effective kinetic blockade rooted in the ground state symmetry of the system, which prevents thermalizing dynamics under the quench Hamiltonian. We propose how to observe this effect with Rydberg atom experiments and we demonstrate its resilience against several types of experimental errors. These long-lived non-Gaussian states may have practical applications as quantum memories or stable resources for quantum-information protocols due to the protected non-Gaussianity away from equilibrium.
翻訳日:2023-06-22 13:41:21 公開日:2023-06-21
# c{hi}型状態に基づく事前共有鍵を持たない新しい円形半量子プライベート比較プロトコル

A novel circular semiquantum private comparison protocol of equality without a pre-shared key based on \c{hi}-type states ( http://arxiv.org/abs/2306.12208v1 )

ライセンス: Link先を確認
Jiang-Yuan Lian, Tian-Yu Ye(参考訳) 本稿では,完全量子能力を持つ半正直な第三者(TP)の助けを借りて,2つの半量子ユーザからのプライベート入力の等価性を1ラウンド実装内で決定できる新しい円形半量子プライベート比較(SQPC)プロトコルを設計するために,c{hi}型状態を採用する。 ここでは、半正直なTPは、2つの半量子ユーザのプライベート入力に関する有用な情報を盗むために全ての攻撃を起動する能力を持つが、他の誰とも共謀することができないと仮定する。 移動粒子は TP から Alice へ、Alice から Bob へ、そしてBob から TP へと戻る。 セキュリティ分析の結果、提案されたSQPCプロトコルは、外部攻撃と内部攻撃の両方に抵抗できることがわかった。 提案したSQPCプロトコルは、ユニタリ操作を要求しない。 既存のsqpcプロトコルと量子エンタングル状態の同等性を比較すると、提案されているsqpcプロトコルには、いくつかの利点がある:(1)異なる参加者の間で事前共有鍵を必要としない;(2)量子エンタングルメントスワップは不要;(3)遅延線は不要である。

In this paper, we adopt \c{hi}-type states to design a novel circular semiquantum private comparison (SQPC) protocol which can determine the equality of private inputs from two semiquantum users within one round implementation under the help of a semi-honest third party (TP) who possesses complete quantum capabilities. Here, it is assumed that the semi-honest TP has the abilities to launch all possible attacks to steal useful information about two semiquantum users' private inputs but cannot conspire with anyone else. The travelling particles go from TP to Alice, Alice to Bob and back from Bob to TP. The security analysis turns out the proposed SQPC protocol can resist both the outside attacks and the inside attacks. The proposed SQPC protocol has no demand for unitary operations. Compared with some existing SQPC protocols of equality with quantum entangled states, the proposed SQPC protocol has some advantages more or less:(1)it requires no pre-shared key among different participants; (2)it doesn't need quantum entanglement swapping; and(3)it employs no delay lines.
翻訳日:2023-06-22 13:40:47 公開日:2023-06-21
# 汎用AIの一歩近づいたクロスドメインデータセットにおける事前学習言語モデルの検討

Investigating Pre-trained Language Models on Cross-Domain Datasets, a Step Closer to General AI ( http://arxiv.org/abs/2306.12205v1 )

ライセンス: Link先を確認
Mohamad Ballout, Ulf Krumnack, Gunther Heidemann and Kai-Uwe K\"uhnberger(参考訳) 事前学習された言語モデルは最近、さまざまな言語タスクを微調整するための強力なツールとして登場した。 理想的には、モデルが大量のデータで事前訓練されている場合、暗黙の知識が得られます。 本稿では,事前学習された言語モデルが,異なる非言語タスクに一般化する能力について検討する。 特に、コンピュータビジョン、階層データに基づく推論、タンパク質の折りたたみ予測など、さまざまな領域のタスクでそれらをテストする。 私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。 いずれも同じような性能を持ち、大きなマージンでスクラッチからトレーニングされたトランスフォーマーよりも優れています。 例えば、事前訓練された言語モデルは、平均精度が58.7\%のListopsデータセットでは、平均精度が29.0\%のスクラッチからトレーニングされたトランスフォーマーよりもパフォーマンスがよい。 3種類のデータセットで実証された大幅な改善は、言語による事前トレーニングがモデルの一般的な知識獲得に役立つことを示唆している。 また,事前学習した言語モデルのパラメータ数を減らすことは,t5ベースの代わりにt5-smallを使用する場合,パフォーマンスがわずかに低下するので,大きな影響を及ぼさないことを示した。 実際、パラメータの2\%だけを使用する場合、スクラッチからトレーニングするよりも大きな改善が得られました。 最後に,先行研究とは対照的に,事前学習した組込みを入力層に使用することで望ましい結果を得る必要があることを見出した。

Pre-trained language models have recently emerged as a powerful tool for fine-tuning a variety of language tasks. Ideally, when models are pre-trained on large amount of data, they are expected to gain implicit knowledge. In this paper, we investigate the ability of pre-trained language models to generalize to different non-language tasks. In particular, we test them on tasks from different domains such as computer vision, reasoning on hierarchical data, and protein fold prediction. The four pre-trained models that we used, T5, BART, BERT, and GPT-2 achieve outstanding results. They all have similar performance and they outperform transformers that are trained from scratch by a large margin. For instance, pre-trained language models perform better on the Listops dataset, with an average accuracy of 58.7\%, compared to transformers trained from scratch, which have an average accuracy of 29.0\%. The significant improvement demonstrated across three types of datasets suggests that pre-training on language helps the models to acquire general knowledge, bringing us a step closer to general AI. We also showed that reducing the number of parameters in pre-trained language models does not have a great impact as the performance drops slightly when using T5-Small instead of T5-Base. In fact, when using only 2\% of the parameters, we achieved a great improvement compared to training from scratch. Finally, in contrast to prior work, we find out that using pre-trained embeddings for the input layer is necessary to achieve the desired results.
翻訳日:2023-06-22 13:40:04 公開日:2023-06-21
# 不均一グラフとワイヤフレームを用いた部屋レイアウト推定のためのポリゴン検出

Polygon Detection for Room Layout Estimation using Heterogeneous Graphs and Wireframes ( http://arxiv.org/abs/2306.12203v1 )

ライセンス: Link先を確認
David Gillsj\"o, Gabrielle Flood, Kalle {\AA}str\"om(参考訳) 本稿では,ポリゴン表現を用いたニューラルネットワークに基づく意味平面検出手法を提案する。 この方法は例えば、部屋配置推定タスクの解決に使用することができる。 この手法は、以前の研究からいくつかの異なるモジュールを構築、組み合わせ、さらに開発する。 ネットワークはRGBの画像を撮り、ワイヤーフレームと時間ガラスのバックボーンを使って特徴空間を推定する。 これらから、ラインとジャンクションの機能をサンプリングする。 直線と接合は無向グラフとして表現され、そこから求めた平面の多角形表現が得られる。 この最後のステップでは、2つの異なる手法が検討され、最も有望な方法は不均一なグラフ変換器上に構築される。 最終的な出力は、すべての場合、2Dにおける意味平面の射影である。 提案手法は構造化3次元データセット上で評価され,サンプルおよび推定ワイヤフレームを用いて性能を検証した。 実験では, 合成ワイヤフレーム検出を用いた2次元計測において, 室内レイアウト推定におけるアートメソッドの状態を上回ることで, グラフベース手法の可能性を示す。

This paper presents a neural network based semantic plane detection method utilizing polygon representations. The method can for example be used to solve room layout estimations tasks. The method is built on, combines and further develops several different modules from previous research. The network takes an RGB image and estimates a wireframe as well as a feature space using an hourglass backbone. From these, line and junction features are sampled. The lines and junctions are then represented as an undirected graph, from which polygon representations of the sought planes are obtained. Two different methods for this last step are investigated, where the most promising method is built on a heterogeneous graph transformer. The final output is in all cases a projection of the semantic planes in 2D. The methods are evaluated on the Structured 3D dataset and we investigate the performance both using sampled and estimated wireframes. The experiments show the potential of the graph-based method by outperforming state of the art methods in Room Layout estimation in the 2D metrics using synthetic wireframe detections.
翻訳日:2023-06-22 13:39:37 公開日:2023-06-21
# アナログ重力における音響ケラー計量

Acoustic Kerr Metric in Analogue Gravity ( http://arxiv.org/abs/2306.12201v1 )

ライセンス: Link先を確認
Deeshani Mitra, Surojit Dalui, Subir Ghosh and Arpan Krishna Mitra(参考訳) 本論文は,流体力学の一般化モデルが提案された以前の研究(本論文の著者2名を含む)に基づいている。 ラグランジュ離散自由度の基本シンプレクティック構造はベリー曲率補正によって生成される非可換代数に従う。 オイラー(またはハミルトン)フレームワークでは、これは流体変数間の拡張代数学として表され、拡張流体モデルに導かれる。 ここでは、この効果的なアナログ重力時空に存在する音波ゆらぎのダイナミクスを研究する。 興味深いことに、実効的な計量はスピンブラックホールに似ており、スピンは基礎となる非可換構造によって引き起こされる。 ブラックホールの有効質量およびスピンパラメータは、流体パラメーターの観点からも同定される。 我々のモデルと異常ホール系との接続は、物理系における類似ブラックホールの観測可能なシグネチャにつながる可能性がある。

The present paper is based on a previous work (involving two of the present authors) where a generalized fluid dynamical model was proposed. The underlying symplectic structure of the Lagrangian discrete degrees of freedom obeyed a Non-Commutative algebra, generated by Berry curvature correction. In an Euler (or Hamiltonian) framework, this is manifested as an extended algebra between the fluid variables, leading to the extended fluid model. Here we study the dynamics of sonic fluctuations that live in this effective analogue gravity spacetime. Interestingly enough, the effective metric resembles that of a spinning Black Hole; the spin is induced by the underlying Non-Commutative structure. The effective mass and spin parameters of the Black Hole, in terms of fluid parameters, are also identified. The connection of our model with anomalous Hall systems may lead to observable signatures of the analogue black hole in physical systems.
翻訳日:2023-06-22 13:39:22 公開日:2023-06-21
# ブラックボックスのオープン:非言語タスクのための事前学習言語モデルにおける注意重みと隠れ状態の分析

Opening the Black Box: Analyzing Attention Weights and Hidden States in Pre-trained Language Models for Non-language Tasks ( http://arxiv.org/abs/2306.12198v1 )

ライセンス: Link先を確認
Mohamad Ballout and Ulf Krumnack and Gunther Heidemann and Kai-Uwe K\"uhnberger(参考訳) ディープラーニング言語モデルを調査することは、最も先進的なモデルの‘ブラックボックス’の性質のため、常に重要な研究領域である。 トランスフォーマーに基づく事前学習言語モデルの最近の進歩と、日々の生活への統合の増大により、この問題に対処する動きが強まっている。 説明可能なAIモデルを実現するためには、関連する手続きステップを理解し、それらを人間の思考プロセスと比較することが不可欠である。 そこで本稿では,これらのモデルの内部動作を探索するために,単純でよく理解された非言語タスクを用いる。 具体的には,事前学習した言語モデルを階層構造を持つ制約付き算術問題に適用し,その注意重みと隠れ状態を分析する。 この研究は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果が明らかになった。 さらに、注意重み層を層単位で検査することにより、モデルの最終層ではなく、その層10がモデルを微調整する最もパラメータ集約的なアプローチのために解凍する最適な層である、という従来にない発見を明らかにする。 エントロピー解析およびトークン埋め込み類似性解析により,これらの知見を裏付ける。 注意分析によって、このモデルがlistopsデータセットの長いシーケンスに一般化できるという仮定が可能になる。 最後に、Tic Tac Toeゲームの勝者をモデルが予測する簡単なタスクを利用することで、注意分析の限界、特に2Dパターンをキャプチャできないことを特定する。

Investigating deep learning language models has always been a significant research area due to the ``black box" nature of most advanced models. With the recent advancements in pre-trained language models based on transformers and their increasing integration into daily life, addressing this issue has become more pressing. In order to achieve an explainable AI model, it is essential to comprehend the procedural steps involved and compare them with human thought processes. Thus, in this paper, we use simple, well-understood non-language tasks to explore these models' inner workings. Specifically, we apply a pre-trained language model to constrained arithmetic problems with hierarchical structure, to analyze their attention weight scores and hidden states. The investigation reveals promising results, with the model addressing hierarchical problems in a moderately structured manner, similar to human problem-solving strategies. Additionally, by inspecting the attention weights layer by layer, we uncover an unconventional finding that layer 10, rather than the model's final layer, is the optimal layer to unfreeze for the least parameter-intensive approach to fine-tune the model. We support these findings with entropy analysis and token embeddings similarity analysis. The attention analysis allows us to hypothesize that the model can generalize to longer sequences in ListOps dataset, a conclusion later confirmed through testing on sequences longer than those in the training set. Lastly, by utilizing a straightforward task in which the model predicts the winner of a Tic Tac Toe game, we identify limitations in attention analysis, particularly its inability to capture 2D patterns.
翻訳日:2023-06-22 13:39:07 公開日:2023-06-21
# 六方晶窒化ホウ素およびミカからの可視光子放出の起源としての有機分子

Organic molecules as origin of visible-range single photon emission from hexagonal boron nitride and mica ( http://arxiv.org/abs/2306.12197v1 )

ライセンス: Link先を確認
Michael Neumann, Xu Wei, Luis Morales-Inostroza, Seunghyun Song, Sung-Gyu Lee, Kenji Watanabe, Takashi Taniguchi, Stephan G\"otzinger, Young Hee Lee(参考訳) 2次元の六方晶窒化ホウ素 (2D hBN) でホストされる室温単一光子エミッタ (SPEs) の発見は、大きな研究関心を呼んだ。 2 ev付近のエミッターは広く研究されているが、その顕微鏡的同一性はいまだに解明されていない。 この種のSPEの議論は、hBN結晶格子の点欠陥を中心に行われているが、いずれの欠陥構造も実験的に観察されるエミッタ特性における大きな不均一性を捉えることはできない。 広く用いられている試料調製プロトコルを用いて,hBNに付随する不均一な単一光子放出~2eVは,有機分子,おそらく芳香族フルオロフォアに由来することが明らかとなった。 これらのSPEの出現は, 試料調製中の有機処理残基の存在に大きく依存しており, 加熱処理時に生成したエミッタは, 従来考えられていたようなhBN結晶内ではなく, hBN/基板界面に存在する。 さらに,異なる2次元絶縁体であるフルオロフロゴピトミカでは,同じ種類のSPEが観察可能であることを実証した。

The discovery of room-temperature single-photon emitters (SPEs) hosted by two-dimensional hexagonal boron nitride (2D hBN) has sparked intense research interest. Although emitters in the vicinity of 2 eV have been studied extensively, their microscopic identity has remained elusive. The discussion of this class of SPEs has centered on point defects in the hBN crystal lattice, but none of the candidate defect structures have been able to capture the great heterogeneity in emitter properties that is observed experimentally. Employing a widely used sample preparation protocol but disentangling several confounding factors, we demonstrate conclusively that heterogeneous single-photon emission ~2 eV associated with hBN originates from organic molecules, presumably aromatic fluorophores. The appearance of those SPEs depends critically on the presence of organic processing residues during sample preparation, and emitters formed during heat treatment are not located within the hBN crystal as previously thought, but at the hBN/substrate interface. We further demonstrate that the same class of SPEs can be observed in a different 2D insulator, fluorophlogopite mica.
翻訳日:2023-06-22 13:38:37 公開日:2023-06-21
# 6Gエッジネットワークにおける分割学習

Split Learning in 6G Edge Networks ( http://arxiv.org/abs/2306.12194v1 )

ライセンス: Link先を確認
Zheng Lin, Guanqiao Qu, Xianhao Chen, and Kaibin Huang(参考訳) 分散エッジコンピューティングリソースの普及により、6Gモバイルネットワークは、コネクテッドインテリジェンスのためのネットワークへと進化する。 この線に沿って、近年、モバイルエッジにフェデレーション学習を組み込むという提案が大きな関心を集めている。 しかし、大量のリソース制限されたiotデバイスがデバイス上のモデルトレーニングをサポートできないため、フェデレーション学習のデプロイメントは大きな課題に直面している。 これによりスプリットラーニング(SL)が出現し、サーバはデータのプライバシを高めながら、主要なトレーニングワークロードを処理することができる。 本稿では,slにおける重要な進歩の概要と,無線エッジネットワークとのシームレスな統合について述べる。 まず、エッジSLをサポートするために、調整済みの6Gアーキテクチャを図示する。 次に,一辺サーバ下での資源効率学習フレームワークや資源管理戦略など,エッジSLの重要な設計課題について検討する。 さらに、マルチエッジのシナリオにもスコープを広げ、ネットワークの観点からマルチエッジのコラボレーションとモビリティ管理を探求します。 最後に、収束解析、非同期slおよびu字型slを含むエッジslのオープン問題について議論する。

With the proliferation of distributed edge computing resources, the 6G mobile network will evolve into a network for connected intelligence. Along this line, the proposal to incorporate federated learning into the mobile edge has gained considerable interest in recent years. However, the deployment of federated learning faces substantial challenges as massive resource-limited IoT devices can hardly support on-device model training. This leads to the emergence of split learning (SL) which enables servers to handle the major training workload while still enhancing data privacy. In this article, we offer a brief overview of key advancements in SL and articulate its seamless integration with wireless edge networks. We begin by illustrating the tailored 6G architecture to support edge SL. Then, we examine the critical design issues for edge SL, including innovative resource-efficient learning frameworks and resource management strategies under a single edge server. Additionally, we expand the scope to multi-edge scenarios, exploring multi-edge collaboration and mobility management from a networking perspective. Finally, we discuss open problems for edge SL, including convergence analysis, asynchronous SL and U-shaped SL.
翻訳日:2023-06-22 13:38:15 公開日:2023-06-21
# ラベルノイズ下における宝くじの定量化:精度、校正、複雑さ

Quantifying lottery tickets under label noise: accuracy, calibration, and complexity ( http://arxiv.org/abs/2306.12190v1 )

ライセンス: Link先を確認
Viplove Arora, Daniele Irto, Sebastian Goldt, Guido Sanguinetti(参考訳) ディープニューラルネットワークのプルーニングは、機械学習の計算負荷を軽減するために広く使われている戦略である。 圧倒的な実証的証拠は、刈り取られたモデルはわずかなパラメータでも非常に高い精度を保っていることを示唆している。 しかし、取得した小さな刈り取りネットワークを特徴付ける作業は、その正確さの尺度を超えて、比較的少ない。 本稿では,スパース二重降下法を用いて一意的に同定し,分類タスクに関連するプルーンドモデルを特徴付ける。 我々は、与えられたタスクに対して、反復等級プルーニング(IMP)が、桁違いの大きさのフルネットワークから始めても、同等の大きさのネットワークに収束する傾向があることを実証的に観察した。 制御された実験環境で最良なプルーニングモデルを分析し,そのパラメータ数がタスクの難易度を反映し,ラベルの真の条件付き確率分布を捉えるためのフルネットワークよりも優れていることを示す。 実データでは同様に、刈り取られたモデルが自信過剰な予測に弱いことも観察する。 以上の結果から,impで得られたprunedモデルでは,計算特性が有利であるだけでなく,学習における不確実性の表現性が向上することが示唆された。

Pruning deep neural networks is a widely used strategy to alleviate the computational burden in machine learning. Overwhelming empirical evidence suggests that pruned models retain very high accuracy even with a tiny fraction of parameters. However, relatively little work has gone into characterising the small pruned networks obtained, beyond a measure of their accuracy. In this paper, we use the sparse double descent approach to identify univocally and characterise pruned models associated with classification tasks. We observe empirically that, for a given task, iterative magnitude pruning (IMP) tends to converge to networks of comparable sizes even when starting from full networks with sizes ranging over orders of magnitude. We analyse the best pruned models in a controlled experimental setup and show that their number of parameters reflects task difficulty and that they are much better than full networks at capturing the true conditional probability distribution of the labels. On real data, we similarly observe that pruned models are less prone to overconfident predictions. Our results suggest that pruned models obtained via IMP not only have advantageous computational properties but also provide a better representation of uncertainty in learning.
翻訳日:2023-06-22 13:37:57 公開日:2023-06-21
# 異常画像のアノテーション : 実世界のバイオメディカル診断による画像分類のための一般的なアノテーション戦略

Annotating Ambiguous Images: General Annotation Strategy for Image Classification with Real-World Biomedical Validation on Vertebral Fracture Diagnosis ( http://arxiv.org/abs/2306.12189v1 )

ライセンス: Link先を確認
Lars Schmarje, Vasco Grossmann, Claudius Zelenka, Reinhard Koch(参考訳) キュレートされたデータセット内の分類問題の解決には多くの方法が存在するが、これらの解はデータのバイアスやあいまいな性質のため、生体医学的応用では不足することが多い。 これらの困難は、臨床に認められたGenantスコアの重要な構成要素である脊椎データから身長の減少を推測する場合、特に顕著である。 半教師付き学習、提案利用、クラスブレンディングといった戦略はいくつかの解決法を提供するが、明確で優れた解はいまだ解明されていない。 本稿では,これらの問題に対処するための汎用戦略のフローチャートを紹介する。 30万以上のアノテーションを用いた椎骨骨折データセットの構築により,この戦略の応用を実証する。 本研究は, 分類問題を臨床的に有意なスコアに移行させ, 脊椎高度減少の理解を深めるものである。

While numerous methods exist to solve classification problems within curated datasets, these solutions often fall short in biomedical applications due to the biased or ambiguous nature of the data. These difficulties are particularly evident when inferring height reduction from vertebral data, a key component of the clinically-recognized Genant score. Although strategies such as semi-supervised learning, proposal usage, and class blending may provide some resolution, a clear and superior solution remains elusive. This paper introduces a flowchart of general strategy to address these issues. We demonstrate the application of this strategy by constructing a vertebral fracture dataset with over 300,000 annotations. This work facilitates the transition of the classification problem into clinically meaningful scores and enriches our understanding of vertebral height reduction.
翻訳日:2023-06-22 13:37:35 公開日:2023-06-21
# Transformer-based network を用いたCT脳の虚血性病変年齢推定とセグメンテーション

Concurrent ischemic lesion age estimation and segmentation of CT brain using a Transformer-based network ( http://arxiv.org/abs/2306.12242v1 )

ライセンス: Link先を確認
Adam Marcus, Paul Bentley, Daniel Rueckert(参考訳) 脳卒中治療の基盤は、脳卒中発症以来の時間によって異なる迅速な管理である。 その結果、臨床的意思決定はタイミングの正確な知識に重点を置いており、しばしば、脳のCT(Computed Tomography)を解釈して事象の発生と年齢を確認する必要がある。 これらの課題は、急性虚血性病変の微妙な発現と、その外観の動的な性質によって特に困難である。 自動化の取り組みはまだ、病変年齢を推定するためにディープラーニングを適用しておらず、これら2つのタスクを個別に扱っているため、それら固有の相補的関係を見落としている。 これを活用するために,脳虚血病変の同時セグメンテーションと年齢推定に最適化された新しいエンドツーエンドマルチタスクトランスフォーマーネットワークを提案する。 本手法は, 医用画像によく見られる低データ体制下で, スクラッチからトレーニングする能力を維持しつつ, 長距離空間依存性を捉えることができる。 さらに,複数の予測をうまく組み合わせるために,質的損失を利用して不確かさを取り入れ,病変年齢の確率密度関数を推定する。 このモデルの有効性を,2つの医療センターの776個のCT画像からなる臨床データセットで評価した。 実験の結果,従来手法の0.858と比較すると,病変年齢<=4.5時間>の曲線(AUC)が0.933未満の領域で有望な性能を示し,タスク固有の最先端アルゴリズムよりも優れていた。

The cornerstone of stroke care is expedient management that varies depending on the time since stroke onset. Consequently, clinical decision making is centered on accurate knowledge of timing and often requires a radiologist to interpret Computed Tomography (CT) of the brain to confirm the occurrence and age of an event. These tasks are particularly challenging due to the subtle expression of acute ischemic lesions and the dynamic nature of their appearance. Automation efforts have not yet applied deep learning to estimate lesion age and treated these two tasks independently, so, have overlooked their inherent complementary relationship. To leverage this, we propose a novel end-to-end multi-task transformer-based network optimized for concurrent segmentation and age estimation of cerebral ischemic lesions. By utilizing gated positional self-attention and CT-specific data augmentation, the proposed method can capture long-range spatial dependencies while maintaining its ability to be trained from scratch under low-data regimes commonly found in medical imaging. Furthermore, to better combine multiple predictions, we incorporate uncertainty by utilizing quantile loss to facilitate estimating a probability density function of lesion age. The effectiveness of our model is then extensively evaluated on a clinical dataset consisting of 776 CT images from two medical centers. Experimental results demonstrate that our method obtains promising performance, with an area under the curve (AUC) of 0.933 for classifying lesion ages <=4.5 hours compared to 0.858 using a conventional approach, and outperforms task-specific state-of-the-art algorithms.
翻訳日:2023-06-22 13:29:40 公開日:2023-06-21
# 臨界多キューブ格子:クディットゲートの無限系に対する新しい含意代数

Critical Multi-Cubic Lattices: A Novel Implication Algebra for Infinite Systems of Qudit Gates ( http://arxiv.org/abs/2306.12236v1 )

ライセンス: Link先を確認
Morrison Turnansky(参考訳) 批判的マルチキュービック格子という新しい構造を導入する。 特に臨界多キューブ格子は、立方格子の高次元空間への最初の真の一般化である。 次に、臨界多重立方体格子の圏における準同型の概念を導入し、その自己同型群を計算し、その群を表すヒルベルト空間を構築する。 このユニタリ表現により、量子計算に共通する一般化されたパウリ行列を導出し、また無限の四重項系の代数的フレームワークを定義する。 また, qudit ゲートの論理的枠組みとしての新たな含意代数として, 臨界多キューブ格子を簡潔に検討する。

We introduce a new structure, the critical multi-cubic lattice. Notably the critical multi-cubic lattice is the first true generalization of the cubic lattice to higher dimensional spaces. We then introduce the notion of a homomorphism in the category of critical multi-cubic lattices, compute its automorphism group, and construct a Hilbert space over which we represent the group. With this unitary representation, we re-derive the generalized Pauli matrices common in quantum computation while also defining an algebraic framework for an infinite system of qudits. We also briefly explore the critical multi-cubic lattice as a novel implication algebra serving as a logical framework for qudit gates.
翻訳日:2023-06-22 13:29:12 公開日:2023-06-21
# 同変グラフニューラルネットワークによるタンパク質の変異予測

Predicting protein variants with equivariant graph neural networks ( http://arxiv.org/abs/2306.12231v1 )

ライセンス: Link先を確認
Antonia Boca, Simon Mathis(参考訳) 事前訓練されたモデルは多くのタンパク質工学タスクで成功している。 最も顕著なのは、配列ベースのモデルがタンパク質の適合性予測の最先端のパフォーマンスを達成し、一方構造ベースのモデルは機能強化されたタンパク質の開発に実験的に利用されていることである。 しかし、野生型タンパク質よりも優れたタンパク質変異を予測するための構造および配列に基づく方法の比較には研究のギャップがある。 本稿では,同変グラフニューラルネットワーク(EGNN)の能力と,有望なアミノ酸変異を同定するためのシーケンスベースアプローチの比較研究を行うことにより,このギャップに対処することを目的とする。 その結果, 提案手法は, 分子量が少なく, 配列に基づく手法と競合する性能を発揮することがわかった。 さらに, ラベル付きデータと構造事前学習モデルを組み合わせることで, シーケンス事前学習モデルと同様の傾向が得られた。

Pre-trained models have been successful in many protein engineering tasks. Most notably, sequence-based models have achieved state-of-the-art performance on protein fitness prediction while structure-based models have been used experimentally to develop proteins with enhanced functions. However, there is a research gap in comparing structure- and sequence-based methods for predicting protein variants that are better than the wildtype protein. This paper aims to address this gap by conducting a comparative study between the abilities of equivariant graph neural networks (EGNNs) and sequence-based approaches to identify promising amino-acid mutations. The results show that our proposed structural approach achieves a competitive performance to sequence-based methods while being trained on significantly fewer molecules. Additionally, we find that combining assay labelled data with structure pre-trained models yields similar trends as with sequence pre-trained models.
翻訳日:2023-06-22 13:29:02 公開日:2023-06-21
# ファンタスティックウェイトとテーマの発見方法:ダイナミックスパーストレーニングにおけるプーンの場所

Fantastic Weights and How to Find Them: Where to Prune in Dynamic Sparse Training ( http://arxiv.org/abs/2306.12230v1 )

ライセンス: Link先を確認
Aleksandra I. Nowak, Bram Grooten, Decebal Constantin Mocanu, Jacek Tabor(参考訳) ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、トレーニング中にトポロジを適応することによって、ニューラルネットワークのスパース初期化を最適化しようとする、急速に発展する研究分野である。 特定の条件下では、DSTは高密度モデルより優れていることが示されている。 このフレームワークの主要なコンポーネントは、ネットワークの疎結合性を調整するためにトレーニングプロセス中に繰り返し適用されるプルーニングと成長の基準である。 DST性能に対する評価基準の増大の影響は比較的よく研究されているが、刈り取り基準の影響は見落としている。 この問題に対処するため,我々は,dstソリューションのダイナミクスへの影響をよりよく理解するために,様々なプルーニング基準の広範な実証分析を設計・実施する。 驚くべきことに、研究手法のほとんどが同様の結果をもたらすことがわかった。 この違いは、最も単純な技術であるマグニチュード・ベース・プルーニングによって最も優れた性能が与えられる低密度体制においてより重要になる。 コードはhttps://github.com/alooow/fantastic_weights_paperで提供される。

Dynamic Sparse Training (DST) is a rapidly evolving area of research that seeks to optimize the sparse initialization of a neural network by adapting its topology during training. It has been shown that under specific conditions, DST is able to outperform dense models. The key components of this framework are the pruning and growing criteria, which are repeatedly applied during the training process to adjust the network's sparse connectivity. While the growing criterion's impact on DST performance is relatively well studied, the influence of the pruning criterion remains overlooked. To address this issue, we design and perform an extensive empirical analysis of various pruning criteria to better understand their effect on the dynamics of DST solutions. Surprisingly, we find that most of the studied methods yield similar results. The differences become more significant in the low-density regime, where the best performance is predominantly given by the simplest technique: magnitude-based pruning. The code is provided at https://github.com/alooow/fantastic_weights_paper
翻訳日:2023-06-22 13:28:50 公開日:2023-06-21
# MR画像における腰椎椎間板分割 : データセットと公開ベンチマーク

Lumbar spine segmentation in MR images: a dataset and a public benchmark ( http://arxiv.org/abs/2306.12217v1 )

ライセンス: Link先を確認
Jasper W. van der Graaf, Miranda L. van Hooff, Constantinus F. M. Buckens, Matthieu Rutten, Job L. C. van Susante, Robert Jan Kroeze, Marinus de Kleuver, Bram van Ginneken, Nikolas Lessmann(参考訳) 本稿では, 椎間板, 椎間板, 脊柱管を基準とした多中心性腰椎磁気共鳴画像(mri)データセットを提案する。 このデータセットには、腰痛の歴史を持つ218人の患者から447個の矢状T1とT2MRIシリーズが含まれている。 4つの異なる病院から収集され、訓練(179名)と検証(39名)に分けられた。 反復的なデータアノテーションアプローチは、データセットの小さな部分にセグメンテーションアルゴリズムをトレーニングすることで、残りの画像の半自動セグメンテーションを可能にする。 アルゴリズムは初期セグメンテーションを提供し、その後レビューされ、手動で修正され、トレーニングデータに追加された。 本稿では,本アルゴリズムと nnU-Net の基準性能値について比較検討する。 異なるセグメンテーションアルゴリズムを公平に比較できるように、連続的なセグメンテーションチャレンジを設定しました。 本研究は腰椎椎間板分割の分野におけるより広範なコラボレーションを促進し,腰椎mriの診断的価値を向上させる。

This paper presents a large publicly available multi-center lumbar spine magnetic resonance imaging (MRI) dataset with reference segmentations of vertebrae, intervertebral discs (IVDs), and spinal canal. The dataset includes 447 sagittal T1 and T2 MRI series from 218 patients with a history of low back pain. It was collected from four different hospitals and was divided into a training (179 patients) and validation (39 patients) set. An iterative data annotation approach was used by training a segmentation algorithm on a small part of the dataset, enabling semi-automatic segmentation of the remaining images. The algorithm provided an initial segmentation, which was subsequently reviewed, manually corrected, and added to the training data. We provide reference performance values for this baseline algorithm and nnU-Net, which performed comparably. We set up a continuous segmentation challenge to allow for a fair comparison of different segmentation algorithms. This study may encourage wider collaboration in the field of spine segmentation, and improve the diagnostic value of lumbar spine MRI.
翻訳日:2023-06-22 13:28:30 公開日:2023-06-21
# 複素波数におけるR-行列計算からのジョスト関数とシーゲルト擬状態

The Jost function and Siegert pseudostates from R-matrix calculations at complex wavenumbers ( http://arxiv.org/abs/2306.12216v1 )

ライセンス: Link先を確認
Paul Vaandrager, J\'er\'emy Dohet-Eraly and Jean-Marc Sparenberg(参考訳) 単一チャネルJost関数は、複雑な波数でその挙動を研究するために、ラグランジュ・ヤコビメッシュ上の計算R行列で計算される。 超対称変換から導出される3つのポテンシャルは、法の精度をテストするために用いられる。 これらのポテンシャルはそれぞれ、s波、p波束縛、共鳴または仮想状態を持ち、計算されたジョスト関数と比較したジョスト関数の単純な解析式を持つ。 siegert状態と siegert疑似状態は、計算されたjost関数の零点を見つけることによって決定される。 計算されたジョスト関数には、R-行列法におけるポテンシャルの切り離しにより、正確なジョスト関数のポーが存在しない。 代わりに、シーゲルト擬似状態は行方不明の極付近に現れる。

The single-channel Jost function is calculated with the computational R-matrix on a Lagrange-Jacobi mesh, in order to study its behaviour at complex wavenumbers. Three potentials derived from supersymmetric transformations are used to test the accuracy of the method. Each of these potentials, with s-wave or p-wave bound, resonance or virtual states, has a simple analytical expression for the Jost function, which is compared with the calculated Jost function. Siegert states and Siegert pseudostates are determined by finding the zeros of the calculated Jost function. Poles of the exact Jost function are not present in the calculated Jost function due to the truncation of the potential in the R-matrix method. Instead, Siegert pseudostates arise in the vicinity of the missing poles.
翻訳日:2023-06-22 13:28:12 公開日:2023-06-21
# 有益生命予測のための自動機械学習

Automated Machine Learning for Remaining Useful Life Predictions ( http://arxiv.org/abs/2306.12215v1 )

ライセンス: Link先を確認
Marc-Andr\'e Z\"oller, Fabian Mauthe, Peter Zeiler, Marius Lindauer, Marco F. Huber(参考訳) 工学システムの残りの有用寿命(RUL)を予測することは、予後学および健康管理において重要な課題である。 近年,rul予測に対するデータ駆動アプローチが,工学系の物理知識を必要とせず,モデルベースアプローチよりも普及しつつある。 しかし、これは基礎となる物理学の専門知識を機械学習(ML)の専門知識に置き換えるだけであり、しばしば利用できない。 Automated Machine Learning (AutoML)は、エンドツーエンドのMLパイプラインを構築することを約束する。 本稿では、自動RUL予測のためのAutoML駆動のエンドツーエンドアプローチであるAutoRULを紹介する。 AutoRULは、微調整された標準回帰法と高い予測力を持つアンサンブルを組み合わせる。 提案手法を8つの実世界および合成データセットに対して,最先端の手作りモデルに対して評価することにより,AutoMLが手作りデータ駆動RUL予測に代わる実行可能な代替手段を提供することを示す。 これにより、データ駆動モデル構築からMLの専門知識を排除し、AutoMLを使用してドメインエキスパートにRUL予測を作成することができる。

Being able to predict the remaining useful life (RUL) of an engineering system is an important task in prognostics and health management. Recently, data-driven approaches to RUL predictions are becoming prevalent over model-based approaches since no underlying physical knowledge of the engineering system is required. Yet, this just replaces required expertise of the underlying physics with machine learning (ML) expertise, which is often also not available. Automated machine learning (AutoML) promises to build end-to-end ML pipelines automatically enabling domain experts without ML expertise to create their own models. This paper introduces AutoRUL, an AutoML-driven end-to-end approach for automatic RUL predictions. AutoRUL combines fine-tuned standard regression methods to an ensemble with high predictive power. By evaluating the proposed method on eight real-world and synthetic datasets against state-of-the-art hand-crafted models, we show that AutoML provides a viable alternative to hand-crafted data-driven RUL predictions. Consequently, creating RUL predictions can be made more accessible for domain experts using AutoML by eliminating ML expertise from data-driven model construction.
翻訳日:2023-06-22 13:28:00 公開日:2023-06-21
# さらなるPAC-Bayes境界:有界損失、一般的な尾の挙動による損失、時効性

More PAC-Bayes bounds: From bounded losses, to losses with general tail behaviors, to anytime-validity ( http://arxiv.org/abs/2306.12214v1 )

ライセンス: Link先を確認
Borja Rodr\'iguez-G\'alvez, Ragnar Thobaben, Mikael Skoglund(参考訳) 本稿では,異なる種類の損失に対する新しい高確率PAC-Bayes境界を提案する。 まず、有界範囲の損失に対して、すべてのパラメータ値に対して一様に保持するカトーニ境界の強化バージョンを示す。 これは、以前の文献の限界よりも解釈可能で密接な、新しい速い速度と混合率の境界をもたらす。 次に,損失の累積生成関数が有界なときのPAC-Bayes Chernoffアナログと,損失の第2モーメントが有界なときの有界という2つの新しいパラメータフリー境界を導入する。 これらの2つの境界は、「確率」パラメータ最適化問題に対する事象の空間の離散化に基づく新しい手法を用いて得られる。 最後に,既存の任意の境界に適用可能な単純な手法を用いて,これまでのすべての結果をanytime-valid境界まで拡張する。

In this paper, we present new high-probability PAC-Bayes bounds for different types of losses. Firstly, for losses with a bounded range, we present a strengthened version of Catoni's bound that holds uniformly for all parameter values. This leads to new fast rate and mixed rate bounds that are interpretable and tighter than previous bounds in the literature. Secondly, for losses with more general tail behaviors, we introduce two new parameter-free bounds: a PAC-Bayes Chernoff analogue when the loss' cumulative generating function is bounded, and a bound when the loss' second moment is bounded. These two bounds are obtained using a new technique based on a discretization of the space of possible events for the "in probability" parameter optimization problem. Finally, we extend all previous results to anytime-valid bounds using a simple technique applicable to any existing bound.
翻訳日:2023-06-22 13:27:41 公開日:2023-06-21
# 言語モデルによる学習の限界

Limits for Learning with Language Models ( http://arxiv.org/abs/2306.12213v1 )

ライセンス: Link先を確認
Nicholas Asher and Swarnadeep Bhar and Akshay Chaturvedi and Julie Hunter and Soumya Paul(参考訳) 大規模言語モデル(LLM)の出現に伴い、NLPのトレンドは、多種多様な言語理解と生成タスクを解決するために、大量のデータでLLMを訓練することであった。 LLMの成功の一覧は長く、様々である。 しかしながら、最近のいくつかの論文は、LLMが言語学的意味の重要な側面を捉えていないという実証的な証拠を提供している。 普遍的な定量化に着目し,LLMが意味論的意味論で定義されているように,意味的含意や一貫性を含む基本的な意味的特性を学習できないことを証明することによって,これらの経験的発見の理論的基盤を提供する。 より一般的には、LLMはボレル階層の第一段階を超えて概念を学ぶことができず、大小を問わず、LMの言語的意味の多くの側面を捉える能力に厳しい制限を課していることを示す。 つまり、llmは、制約と深い言語理解を必要とするタスクに関する公式な保証なしに、引き続き運用されることになる。

With the advent of large language models (LLMs), the trend in NLP has been to train LLMs on vast amounts of data to solve diverse language understanding and generation tasks. The list of LLM successes is long and varied. Nevertheless, several recent papers provide empirical evidence that LLMs fail to capture important aspects of linguistic meaning. Focusing on universal quantification, we provide a theoretical foundation for these empirical findings by proving that LLMs cannot learn certain fundamental semantic properties including semantic entailment and consistency as they are defined in formal semantics. More generally, we show that LLMs are unable to learn concepts beyond the first level of the Borel Hierarchy, which imposes severe limits on the ability of LMs, both large and small, to capture many aspects of linguistic meaning. This means that LLMs will continue to operate without formal guarantees on tasks that require entailments and deep linguistic understanding.
翻訳日:2023-06-22 13:27:25 公開日:2023-06-21
# MimiC: 中央アップデートのミスによるフェデレーション学習でクライアントのドロップアウトを回避

MimiC: Combating Client Dropouts in Federated Learning by Mimicking Central Updates ( http://arxiv.org/abs/2306.12212v1 )

ライセンス: Link先を確認
Yuchang Sun and Yuyi Mao and Jun Zhang(参考訳) フェデレートラーニング(FL)は、プライバシー保護のための協調学習のための有望なフレームワークである。 FLでは、モデルのトレーニングタスクはクライアントに分散され、モデルの更新のみを中央サーバで収集する必要があります。 しかし、モバイルエッジネットワークにデプロイされた場合、クライアント(スマートフォンやウェアラブルなど)は予測不能な可用性を持ち、トレーニングイテレーションからランダムに外れる可能性があるため、flの収束が妨げられる。 本稿ではFLのこのような批判的課題に取り組む。 特に,従来のFedAvgアルゴリズムの任意のクライアントドロップアウトによる収束について検討する。 崩壊する学習率の共通選択により、FedAvgは、集約された更新と所望の中央更新とのばらつきによって引き起こされる、グローバル損失関数の定常点の近傍でしか発振できないことがわかった。 この新たな観察に動機づけられ、サーバが受信した各モデル更新を前のものに基づいて修正するミイムと呼ばれる新しいトレーニングアルゴリズムを設計した。 受信したモデル更新の修正提案は、ドロップアウトクライアントに関係なく、想像上の中央更新を模倣することができる。 MimiCの理論分析は、集約された更新と中央更新のばらつきが学習率の適切な選択によって減少し、収束することを示している。 さらにシミュレーションの結果、MimiCはクライアントのドロップアウトの有無で安定した収束性能を維持し、ベースライン法よりも優れたモデルを学ぶことを示した。

Federated learning (FL) is a promising framework for privacy-preserving collaborative learning. In FL, the model training tasks are distributed to clients and only the model updates need to be collected at a central server. However, when being deployed at the mobile edge network, clients (e.g., smartphones and wearables) may have unpredictable availability and randomly drop out of any training iteration, which hinders FL from achieving the convergence. This paper tackles such a critical challenge of FL. In particular, we first investigate the convergence of the classical FedAvg algorithm with arbitrary client dropouts. We find that with the common choice of a decaying learning rate, FedAvg can only oscillate within the neighborhood of a stationary point of the global loss function, which is caused by the divergence between the aggregated update and the desired central update. Motivated by this new observation, we then design a novel training algorithm named MimiC, where the server modifies each received model update based on the previous ones. The proposed modification of the received model updates is able to mimic the imaginary central update irrespective of the dropout clients. The theoretical analysis of MimiC shows that the divergence between the aggregated update and the central update diminishes with a proper choice of the learning rates, leading to its convergence. Simulation results further demonstrate that MimiC maintains stable convergence performance in the presence of client dropouts and learns better models than the baseline methods.
翻訳日:2023-06-22 13:27:08 公開日:2023-06-21
# 有限表現法による高次元圧縮器問題の解法

A Finite Expression Method for Solving High-Dimensional Committor Problems ( http://arxiv.org/abs/2306.12268v1 )

ライセンス: Link先を確認
Zezheng Song and Maria K. Cameron and Haizhao Yang(参考訳) 遷移経路理論 (TPT) は、選択された準安定状態のペア$A$と$B$の間の稀な遷移事象を定量化する数学的枠組みである。 TPTの中心はコミッタ関数であり、位相空間の任意の開始点から$A$の前に準安定状態$B$を打つ確率を記述する。 コミッタが計算されると、トランジッションチャネルとトランジッションレートを簡単に見つけることができる。 コミッタは適切な境界条件を持つ後方コルモゴロフ方程式の解である。 しかし、それを解くことは、周囲空間の全体領域を網羅する必要があるため、高次元において難しい課題である。 本研究では,有限表現法(fex, liang, yang (2022))をコミッタの計算ツールとして検討する。 FEXは、有限個の非線形関数と二進算術演算を含む代数式でコミッタを近似する。 表現テンプレートにおける最適非線形関数、二項演算、数値係数は強化学習によって得られる。 FEXベースのコミッタソルバは、いくつかの高次元ベンチマーク問題でテストされる。 これはニューラルネットワークベースのソルバと同等あるいは優れた結果を与える。 最も重要なことは、FEXが解の代数的構造を正確に識別し、コミッタ問題を低次元のものに還元し、任意の精度でコミッタを見つけることができることである。

Transition path theory (TPT) is a mathematical framework for quantifying rare transition events between a pair of selected metastable states $A$ and $B$. Central to TPT is the committor function, which describes the probability to hit the metastable state $B$ prior to $A$ from any given starting point of the phase space. Once the committor is computed, the transition channels and the transition rate can be readily found. The committor is the solution to the backward Kolmogorov equation with appropriate boundary conditions. However, solving it is a challenging task in high dimensions due to the need to mesh a whole region of the ambient space. In this work, we explore the finite expression method (FEX, Liang and Yang (2022)) as a tool for computing the committor. FEX approximates the committor by an algebraic expression involving a fixed finite number of nonlinear functions and binary arithmetic operations. The optimal nonlinear functions, the binary operations, and the numerical coefficients in the expression template are found via reinforcement learning. The FEX-based committor solver is tested on several high-dimensional benchmark problems. It gives comparable or better results than neural network-based solvers. Most importantly, FEX is capable of correctly identifying the algebraic structure of the solution which allows one to reduce the committor problem to a low-dimensional one and find the committor with any desired accuracy.
翻訳日:2023-06-22 13:20:44 公開日:2023-06-21
# 高コントラスト直接撮像における外惑星検出改善のためのマルチスペクトルデータと統計的および深層学習モデルを組み合わせる

Combining multi-spectral data with statistical and deep-learning models for improved exoplanet detection in direct imaging at high contrast ( http://arxiv.org/abs/2306.12266v1 )

ライセンス: Link先を確認
Olivier Flasseur, Th\'eo Bodrito, Julien Mairal, Jean Ponce, Maud Langlois, Anne-Marie Lagrange(参考訳) 直接撮像による外惑星検出は難しい作業であり、興味の対象からのかすかな信号は、主星によって誘導される空間的に構造化されたニュアンス成分の下に埋められる。 太陽系外惑星の信号は、いくつかの観測と専用の検出アルゴリズムを組み合わせることでのみ識別できる。 既存の手法のほとんどとは対照的に,観測結果から直接,ニュアンスの空間的,時間的,スペクトル的特性のモデルを学ぶことを提案する。 前処理の段階では、その相関関係の統計モデルを構築し、そのデータを中心に白くし、その定常性と信号対雑音比(SNR)を改善する。 次に、畳み込みニューラルネットワーク(cnn)を教師付きで訓練し、前処理された画像中の合成源の残留シグネチャを検出する。 我々の手法は、現場の標準的なアプローチよりも精度とリコールのトレードオフが優れている。 また、統計フレームワークのみに基づく最先端のアルゴリズムよりも優れている。 さらに、スペクトル多様性の活用は、時空間データのみから構築された類似モデルと比較して性能を向上させる。

Exoplanet detection by direct imaging is a difficult task: the faint signals from the objects of interest are buried under a spatially structured nuisance component induced by the host star. The exoplanet signals can only be identified when combining several observations with dedicated detection algorithms. In contrast to most of existing methods, we propose to learn a model of the spatial, temporal and spectral characteristics of the nuisance, directly from the observations. In a pre-processing step, a statistical model of their correlations is built locally, and the data are centered and whitened to improve both their stationarity and signal-to-noise ratio (SNR). A convolutional neural network (CNN) is then trained in a supervised fashion to detect the residual signature of synthetic sources in the pre-processed images. Our method leads to a better trade-off between precision and recall than standard approaches in the field. It also outperforms a state-of-the-art algorithm based solely on a statistical framework. Besides, the exploitation of the spectral diversity improves the performance compared to a similar model built solely from spatio-temporal data.
翻訳日:2023-06-22 13:20:25 公開日:2023-06-21
# 半直線上の離散ランダムウォークのスペクトル量子化と単位円上の直交多項式

Spectral quantization of discrete random walks on half-line, and orthogonal polynomials on the unit circle ( http://arxiv.org/abs/2306.12265v1 )

ライセンス: Link先を確認
Adam Doliwa, Artur Siemaszko(参考訳) 有限マルコフ連鎖のセゲディの量子化と一致する半直線上の離散時間ランダムウォークの量子化スキームを定義する。 カルリンとマクグレガーによる直交多項式の離散時間ランダムウォークの記述により、セグメント $[-1,1]$ で支えられた測度に関して直交多項式の項での離散時間ランダムウォークの記述により、単位円上の直交多項式の項で量子ウォークのユニタリ進化作用素を表す。 ランダムウォークの遷移確率と対応する量子ウォークの多項式の動詞ルンスキー係数との関係を見いだす。 両多項式系とその測度は古典的 Szeg\H{o} 写像で連結であることを示す。 このスキームは任意のカーリンとマグレガーのランダムウォークに適用でき、いわゆるカンテロ-gr\"{u}nbaum-moral-vel\'{a}zquez 法を一般化できる。 本稿では,ヤコビ多項式に関するランダムウォークの例について述べる。 次に、単位円上の対応する多項式が2周期実動詞ルンスキー係数を持つ定数遷移確率を持つランダムウォークの量子化について検討する。 このような多項式のスペクトル(一般複素の場合)を幾何学的に構成し、ゲロニムス多項式の既知の構成を一般化する。 アペンディックスでは、単位円上で直交する多項式と任意の周期の係数を持つ実直線上で直交する多項式の第二種のチェビシェフ多項式に関して、明示的な形式を示す。

We define quantization scheme for discrete-time random walks on the half-line consistent with Szegedy's quantization of finite Markov chains. Motivated by the Karlin and McGregor description of discrete-time random walks in terms of polynomials orthogonal with respect to a measure with support in the segment $[-1,1]$, we represent the unitary evolution operator of the quantum walk in terms of orthogonal polynomials on the unit circle. We find the relation between transition probabilities of the random walk with the Verblunsky coefficients of the corresponding polynomials of the quantum walk. We show that the both polynomials systems and their measures are connected by the classical Szeg\H{o} map. Our scheme can be applied to arbitrary Karlin and McGregor random walks and generalizes the so called Cantero-Gr\"{u}nbaum-Moral-Vel\'{a}zquez method. We illustrate our approach on example of random walks related to the Jacobi polynomials. Then we study quantization of random walks with constant transition probabilities where the corresponding polynomials on the unit circle have two-periodic real Verblunsky coefficients. We present geometric construction of the spectrum of such polynomials (in the general complex case) which generalizes the known construction for the Geronimus polynomials. In the Appendix we present the explicit form, in terms of Chebyshev polynomials of the second kind, of polynomials orthogonal on the unit circle and polynomials orthogonal on the real line with coefficients of arbitrary period.
翻訳日:2023-06-22 13:20:08 公開日:2023-06-21
# ランクモジュールと音声拡張を用いた音声変換のための音声自動区切り

Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation ( http://arxiv.org/abs/2306.12259v1 )

ライセンス: Link先を確認
Zhonghua Liu, Shijun Wang, Ning Chen(参考訳) 音声変換(VC)は、ソース音声の音声を、ソースの内容を維持しながらターゲットの音声に変換する。 音声は主に、内容、音色、リズム、ピッチの4つの構成要素に分けられる。 残念なことに、ほとんどの関連作品は、コンテンツと音色のみを考慮に入れており、その結果、自然言語は少ない。 最近の作品では、音声をいくつかの要素に分解することができるが、それらは複雑なボトルネックチューニングや様々な手作りの特徴を必要とする。 本稿では,複数の手作り特徴や手間のかかるボトルネックチューニングを必要とせず,2つの拡張関数のみを用いて,音声を4つのコンポーネントに自動的に切り離すVCモデルを提案する。 提案モデルは単純かつ効率的であり, 実験結果から, 連接効果と音声自然性に関して, ベースラインよりも優れた性能が得られることが示された。

Voice Conversion (VC) converts the voice of a source speech to that of a target while maintaining the source's content. Speech can be mainly decomposed into four components: content, timbre, rhythm and pitch. Unfortunately, most related works only take into account content and timbre, which results in less natural speech. Some recent works are able to disentangle speech into several components, but they require laborious bottleneck tuning or various hand-crafted features, each assumed to contain disentangled speech information. In this paper, we propose a VC model that can automatically disentangle speech into four components using only two augmentation functions, without the requirement of multiple hand-crafted features or laborious bottleneck tuning. The proposed model is straightforward yet efficient, and the empirical results demonstrate that our model can achieve a better performance than the baseline, regarding disentanglement effectiveness and speech naturalness.
翻訳日:2023-06-22 13:19:39 公開日:2023-06-21
# 大規模言語モデルによるNPR日曜日パズルの解決と生成

Solving and Generating NPR Sunday Puzzles with Large Language Models ( http://arxiv.org/abs/2306.12255v1 )

ライセンス: Link先を確認
Jingmiao Zhao and Carolyn Jane Anderson(参考訳) 我々は15年間のオンラインパズルからなるデータセットである puzzleqa を用いて,npr sunday puzzle game show からパズルを解き,生成する大規模言語モデルの能力を検討する。 PUZLEQAを用いた4つの大規模言語モデルを複数選択および自由応答形式で評価し、自由応答性能を改善するための2つの迅速なエンジニアリング手法を探索する。 最先端の大規模言語モデルは、多くのパズルカパズルを解決できる:最良のモデルであるgpt-3.5は、50.2%のゆるい精度を実現している。 しかし、この数発のパズル生成実験では、モデルがパズルを生成できるという証拠は見つからない: GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。 パズル生成は、今後の仕事にとって難題である。

We explore the ability of large language models to solve and generate puzzles from the NPR Sunday Puzzle game show using PUZZLEQA, a dataset comprising 15 years of on-air puzzles. We evaluate four large language models using PUZZLEQA, in both multiple choice and free response formats, and explore two prompt engineering techniques to improve free response performance: chain-of-thought reasoning and prompt summarization. We find that state-of-the-art large language models can solve many PUZZLEQA puzzles: the best model, GPT-3.5, achieves 50.2% loose accuracy. However, in our few-shot puzzle generation experiment, we find no evidence that models can generate puzzles: GPT-3.5 generates puzzles with answers that do not conform to the generated rules. Puzzle generation remains a challenging task for future work.
翻訳日:2023-06-22 13:19:24 公開日:2023-06-21
# GADBench: 改訂とベンチマークによるグラフ異常検出

GADBench: Revisiting and Benchmarking Supervised Graph Anomaly Detection ( http://arxiv.org/abs/2306.12251v1 )

ライセンス: Link先を確認
Jianheng Tang, Fengrui Hua, Ziqi Gao, Peilin Zhao, Jia Li(参考訳) 従来のグラフ異常検出(GAD)アルゴリズムと最近人気になったグラフニューラルネットワーク(GNN)の長い歴史から、(1)標準の包括的設定の下でどのように機能するか、(2)GNNがツリーアンサンブルなどの従来のアルゴリズムより優れているか、(3)大規模グラフ上での効率は、まだ明らかになっていない。 これに対して,静的グラフ上での教師付き異常ノード検出のための総合ベンチマークであるGADBenchを提案する。 GADBenchは、数千から数百万のノード($6M)にわたる10の現実世界のGADデータセット上で、23の異なるモデルに対して、徹底的な比較を提供する。 我々の主な発見は、GADタスク用に調整された最新のGNNを含むすべてのベースラインにおいて、単純な近傍集約によるツリーアンサンブルが、他のすべてのベースラインより優れていることである。 GADBenchをオープンソースツールとして利用可能にすることで、GADの現在の進歩に関する重要な洞察を提供し、将来の研究のための確かな基盤を確立します。 私たちのコードはhttps://github.com/squareroot3/gadbenchで利用可能です。

With a long history of traditional Graph Anomaly Detection (GAD) algorithms and recently popular Graph Neural Networks (GNNs), it is still not clear (1) how they perform under a standard comprehensive setting, (2) whether GNNs outperform traditional algorithms such as tree ensembles, and (3) their efficiency on large-scale graphs. In response, we present GADBench -- a comprehensive benchmark for supervised anomalous node detection on static graphs. GADBench provides a thorough comparison across 23 distinct models on ten real-world GAD datasets ranging from thousands to millions of nodes ($\sim$6M). Our main finding is that tree ensembles with simple neighborhood aggregation outperform all other baselines, including the latest GNNs tailored for the GAD task. By making GADBench available as an open-source tool, we offer pivotal insights into the current advancements of GAD and establish a solid foundation for future research. Our code is available at https://github.com/squareRoot3/GADBench.
翻訳日:2023-06-22 13:19:09 公開日:2023-06-21
# 知識に基づくマルチモーダル音楽の類似性

Knowledge-based Multimodal Music Similarity ( http://arxiv.org/abs/2306.12249v1 )

ライセンス: Link先を確認
Andrea Poltronieri(参考訳) 音楽の類似性は、音楽検索、レコメンデーションシステム、音楽分析において重要な側面である。 さらに、作曲家や歴史時代の類似や影響を研究することができるため、音楽専門家にとって類似性は極めて重要である。 音楽の類似性に対する現在のアプローチは、主に象徴的な内容に依存しており、生産に費用がかかり、必ずしも容易に利用できるとは限らない。 逆に、オーディオ信号を用いたアプローチは、観察された類似性の背後にある理由についての洞察を得られない。 本研究は、シンボリックコンテンツとオーディオコンテンツの両方を用いた音楽的類似性の研究に焦点を当て、現在のアプローチの限界に対処する。 本研究の目的は,音楽の類似性と分類システムの制御と理解をエンドユーザに提供する,完全に説明可能で解釈可能なシステムを開発することである。

Music similarity is an essential aspect of music retrieval, recommendation systems, and music analysis. Moreover, similarity is of vital interest for music experts, as it allows studying analogies and influences among composers and historical periods. Current approaches to musical similarity rely mainly on symbolic content, which can be expensive to produce and is not always readily available. Conversely, approaches using audio signals typically fail to provide any insight about the reasons behind the observed similarity. This research addresses the limitations of current approaches by focusing on the study of musical similarity using both symbolic and audio content. The aim of this research is to develop a fully explainable and interpretable system that can provide end-users with more control and understanding of music similarity and classification systems.
翻訳日:2023-06-22 13:18:50 公開日:2023-06-21
# エンティティリンクのためのRetriever-Reader Paradigmの双方向エンドツーエンド学習

Bidirectional End-to-End Learning of Retriever-Reader Paradigm for Entity Linking ( http://arxiv.org/abs/2306.12245v1 )

ライセンス: Link先を確認
Yinghui Li, Yong Jiang, Shen Huang, Xingyu Lu, Yangning Li, Pengjun Xie, Fei Huang, Hai-Tao Zheng(参考訳) エンティティリンク(EL)は情報抽出と知識グラフの基本的なタスクである。 ELの一般的な形式(すなわち、エンドツーエンドのEL)は、まず与えられた入力文書に言及を見つけ、次に特定の知識ベースで対応するエンティティにリンクすることを目的としている。 近年,レトリバーリーダーのパラダイムは,エンティティ検索と機械読解の利点を生かして,エンドツーエンドelの進歩を促進する。 しかし、既存の研究は、レトリバーとリーダーをパイプライン形式で別々に訓練するだけであり、レトリバーとリーダーの相互作用がタスクにもたらし得る利点を無視している。 RetrieverとReaderのための双方向エンドツーエンドトレーニングフレームワークであるBEER$^2$を提案する。 beer$^2$は,双方向のエンドツーエンドトレーニングを通じて,レトリバーとリーダが相互に学習し,共に進捗し,最終的にelパフォーマンスを改善するためのガイドを提供します。 複数の領域のベンチマーク実験により,提案したBEER$^2$の有効性が示された。

Entity Linking (EL) is a fundamental task for Information Extraction and Knowledge Graphs. The general form of EL (i.e., end-to-end EL) aims to first find mentions in the given input document and then link the mentions to corresponding entities in a specific knowledge base. Recently, the paradigm of retriever-reader promotes the progress of end-to-end EL, benefiting from the advantages of dense entity retrieval and machine reading comprehension. However, the existing study only trains the retriever and the reader separately in a pipeline manner, which ignores the benefit that the interaction between the retriever and the reader can bring to the task. To advance the retriever-reader paradigm to perform more perfectly on end-to-end EL, we propose BEER$^2$, a Bidirectional End-to-End training framework for Retriever and Reader. Through our designed bidirectional end-to-end training, BEER$^2$ guides the retriever and the reader to learn from each other, make progress together, and ultimately improve EL performance. Extensive experiments on benchmarks of multiple domains demonstrate the effectiveness of our proposed BEER$^2$.
翻訳日:2023-06-22 13:18:36 公開日:2023-06-21
# 人間の行動を説明する固有の時空間論理則の発見

Discovering Intrinsic Spatial-Temporal Logic Rules to Explain Human Actions ( http://arxiv.org/abs/2306.12244v1 )

ライセンス: Link先を確認
Chengzhi Cao, Chao Yang, and Shuang Li(参考訳) そこで本研究では,人体の動きを解析し,論理インフォームドな知識駆動モデリングフレームワークを提案する。 我々のアプローチは、人間の行動は、通常、意図や欲望によって駆動され、周囲の物体との空間的関係のような環境要因に影響されるという事実にインスパイアされている。 本稿では,人間の行動を説明する知識として,空間時間論理則のセットを紹介する。 これらの規則は観測データから自動的に発見される。 モデルパラメータとルール内容を学ぶために,期待最大化(em)アルゴリズムを設計し,ルール内容を潜在変数として扱う。 emアルゴリズムはeステップとmステップを交互に構成し、eステップでは潜在ルールコンテンツに対する後方分布を評価し、mステップでは現在の予測ログの類似度を最大化することによりルール生成器とモデルパラメータを共同で最適化する。 我々のモデルは、人間の動きを理解することが不可欠であるスポーツ分析、ロボティクス、自動運転車など、幅広い分野に応用できるかもしれない。 歩行者およびNBAバスケットボール選手のデータセットに対して,モデルの優れた解釈可能性および予測性能を示し,有望な結果を得た。

We propose a logic-informed knowledge-driven modeling framework for human movements by analyzing their trajectories. Our approach is inspired by the fact that human actions are usually driven by their intentions or desires, and are influenced by environmental factors such as the spatial relationships with surrounding objects. In this paper, we introduce a set of spatial-temporal logic rules as knowledge to explain human actions. These rules will be automatically discovered from observational data. To learn the model parameters and the rule content, we design an expectation-maximization (EM) algorithm, which treats the rule content as latent variables. The EM algorithm alternates between the E-step and M-step: in the E-step, the posterior distribution over the latent rule content is evaluated; in the M-step, the rule generator and model parameters are jointly optimized by maximizing the current expected log-likelihood. Our model may have a wide range of applications in areas such as sports analytics, robotics, and autonomous cars, where understanding human movements are essential. We demonstrate the model's superior interpretability and prediction performance on pedestrian and NBA basketball player datasets, both achieving promising results.
翻訳日:2023-06-22 13:18:17 公開日:2023-06-21
# コントラスト学習におけるインスタンス間類似性モデリング

Inter-Instance Similarity Modeling for Contrastive Learning ( http://arxiv.org/abs/2306.12243v1 )

ライセンス: Link先を確認
Chengchao Shen, Dawei Liu, Hao Tang, Zhe Qu, Jianxin Wang(参考訳) 既存のコントラスト学習手法は、自然画像間のリッチなインスタンス間類似性を必然的に無視する自己教師付き学習のプリテキストタスクとして、ワンホットのインスタンス識別を広く採用している。 本論文では,視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案し,画像間のインスタンス間類似性をモデル化する。 ViTの特質に従い、ミニバッチからの複数の画像をパッチレベルでランダムに混合し、ViT用の混合画像パッチシーケンスを構築する。 既存のサンプル混合法と比較して,patchmixは2枚以上の画像を柔軟かつ効率的に混合し,自然画像間のより複雑な類似性をシミュレートできる。 このように、我々のコントラスト的枠組みは、現実のコントラスト的目的と基底的真理のギャップを著しく減らすことができる。 実験の結果,提案手法は,ImageNet-1KとCIFARデータセットの双方において,画像Net-1Kの線形精度が3.0%,CIFAR100の8.7%向上した。 さらに,本手法は,下流タスクにおける先行転送性能,オブジェクト検出,COCOデータセット上のインスタンスセグメンテーションを実現する。 コードはhttps://github.com/visresearch/patchmixで入手できる。

The existing contrastive learning methods widely adopt one-hot instance discrimination as pretext task for self-supervised learning, which inevitably neglects rich inter-instance similarities among natural images, then leading to potential representation degeneration. In this paper, we propose a novel image mix method, PatchMix, for contrastive learning in Vision Transformer (ViT), to model inter-instance similarities among images. Following the nature of ViT, we randomly mix multiple images from mini-batch in patch level to construct mixed image patch sequences for ViT. Compared to the existing sample mix methods, our PatchMix can flexibly and efficiently mix more than two images and simulate more complicated similarity relations among natural images. In this manner, our contrastive framework can significantly reduce the gap between contrastive objective and ground truth in reality. Experimental results demonstrate that our proposed method significantly outperforms the previous state-of-the-art on both ImageNet-1K and CIFAR datasets, e.g., 3.0% linear accuracy improvement on ImageNet-1K and 8.7% kNN accuracy improvement on CIFAR100. Moreover, our method achieves the leading transfer performance on downstream tasks, object detection and instance segmentation on COCO dataset. The code is available at https://github.com/visresearch/patchmix.
翻訳日:2023-06-22 13:17:57 公開日:2023-06-21
# エナンチオ感受性例外点

Enantiosensitive exceptional points ( http://arxiv.org/abs/2306.12293v1 )

ライセンス: Link先を確認
Nicola Mayer, Nimrod Moiseyev and Olga Smirnova(参考訳) 3色場による光電離連続体に結合したキラル分子のパラメータ空間における例外点(eps)の位置は、エナンチオ感受性であることを示す。 3色場によって駆動される3レベル系の最小モデルを用いて環状ループ遷移を形成することにより、システムパラメータに対するepsのエナンチオ感受性を検証し、エナンチオ選択性のあるパラメータ空間におけるepの包囲に伴う非対称スイッチ機構を利用する。 我々の研究は、キラル系におけるエナンチオセンシティブEPの将来の応用の道を開く。

We show that the position of the exceptional points (EPs) in the parameter space of a chiral molecule coupled to the photoionization continuum by a three-color field is enantiosensitive. Using a minimal model of a three-level system driven by a three-color field to form a cyclic loop transition, we investigate the enantiosensitivity of the EPs with respect to the system parameters and exploit the asymmetric switch mechanism associated with the encirclement of an EP in parameter space in an enantio-selective way. Our work paves the way for future applications of enantiosensitive EPs in chiral systems.
翻訳日:2023-06-22 13:09:54 公開日:2023-06-21
# 共形量子力学における絡み合いエントロピー

Entanglement entropy in conformal quantum mechanics ( http://arxiv.org/abs/2306.12291v1 )

ライセンス: Link先を確認
Michele Arzano, Alessandra D'Alise, Domenico Frattulillo(参考訳) 我々は、時間領域の異なる領域を公転する時間進化の生成物に関連する共形量子力学における状態の集合を考える。 連続的な大域時間変数によってラベル付けされた状態は、1次元の共形場理論と見なされる理論の2点相関関数を定義する。 そのような状態は、非大域的時間発展の生成子の二成分固有状態上に構築された熱場二重の構造を示す。 ミンコフスキー時空における放射状共形対称性と arXiv:2002.01836, arXiv:2103.07228 で提案された共形量子力学における時間発展の対応に関して、これらの生成子は、一定の半径でミルンとダイヤモンドの観測者の世界線に接する共形キリングベクトルと一致する。 共形量子力学における熱場二重状態の温度は、そのようなダイヤモンドやミルン観測者によって知覚される温度を再現する。 熱場二重状態に関連する絡み合いエントロピーを計算し、絡み合う境界が点状である2次元共形場理論の既知の結果に類似したuv発散対数挙動を得る。

We consider sets of states in conformal quantum mechanics associated to generators of time evolution whose orbits cover different regions of the time domain. States labelled by a continuous global time variable define the two-point correlation functions of the theory seen as a one-dimensional conformal field theory. Such states exhibit the structure of a thermofield double built on bipartite eigenstates of generators of non-global time evolution. In terms of the correspondence between radial conformal symmetries in Minkowski spacetime and time evolution in conformal quantum mechanics proposed in arXiv:2002.01836, arXiv:2103.07228, such generators coincide with conformal Killing vectors tangent to worldlines of Milne and diamond observers at constant radius. The temperature of the thermofield double states in conformal quantum mechanics reproduces the temperatures perceived by such diamond and Milne observers. We calculate the entanglement entropy associated to the thermofield double states and obtain a UV divergent logarithmic behaviour analogous to known results in two-dimensional conformal field theory in which the entangling boundary is point-like.
翻訳日:2023-06-22 13:09:46 公開日:2023-06-21
# Informed Single-Channel Dereverberation における拡散後サンプリング

Diffusion Posterior Sampling for Informed Single-Channel Dereverberation ( http://arxiv.org/abs/2306.12286v1 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Simon Welker, Timo Gerkmann(参考訳) 本稿では,拡散モデルを用いた条件生成に基づく単一チャネルのデバーベレーション手法を提案する。 室内インパルス応答の知識により、前のクリーン音声を表すニューラルネットワークと結合した測定一貫性基準を用いて逆拡散により無響発話を生成する。 提案手法は,特に非定常雑音に対して,最先端のインフォームド・シングルチャネル残響法と比較して,測定ノイズに対して比較的頑健である。 さらに,拡散モデルを用いた他のブラインド残響法と比較し,大残響時間に対する提案手法の優位を示す。 室内インパルス応答と無響音声の同時推定を可能にするブラインド残響拡張を導入することで,提案アルゴリズムの動機付けを行う。 オーディオサンプルとコードはオンラインで見ることができる(https://uhh.de/inf-sp-derev-dps)。

We present in this paper an informed single-channel dereverberation method based on conditional generation with diffusion models. With knowledge of the room impulse response, the anechoic utterance is generated via reverse diffusion using a measurement consistency criterion coupled with a neural network that represents the clean speech prior. The proposed approach is largely more robust to measurement noise compared to a state-of-the-art informed single-channel dereverberation method, especially for non-stationary noise. Furthermore, we compare to other blind dereverberation methods using diffusion models and show superiority of the proposed approach for large reverberation times. We motivate the presented algorithm by introducing an extension for blind dereverberation allowing joint estimation of the room impulse response and anechoic speech. Audio samples and code can be found online (https://uhh.de/inf-sp-derev-dps).
翻訳日:2023-06-22 13:09:27 公開日:2023-06-21
# 深層学習支援による弾力性スパースアレイレーダ

Resilient Sparse Array Radar with the Aid of Deep Learning ( http://arxiv.org/abs/2306.12285v1 )

ライセンス: Link先を確認
Aya Mostafa Ahmed, Udaya S.K.P. Miriya Thanthrige, Aydin Sezgin and Fulvio Gini(参考訳) 本稿では,sparseアレイにおけるセンサ故障の有無において,複数の目標に対する到達方向推定(doa)の問題に対処する。 一般にスパースアレイは非常に高分解能で知られており、N個の物理センサーは最大$\mathcal{O}(N^2)$非相関なソースを解決できる。 しかしながら、文献に導入された多くの構成の中で、最大の穴のないコアレイを提供する配列はセンサーの故障に最も影響を受けやすい。 本稿では、センサ故障の影響を緩和し、DOA推定性能と分解能を維持するための2つの機械学習(ML)手法を提案する。 第1の方法は、ディープニューラルネットワーク(DNN)を用いた従来の空間平滑化を強化し、第2の方法はエンドツーエンドのデータ駆動方式である。 数値計算の結果,両手法は2つのセンサでMRAの性能を著しく向上させることができることがわかった。 データ駆動方式では、高信号トノマイズ比(SNR)で故障することなくアレイの性能を維持することができる。 さらに、提案したDNNのデノベート効果により、SNRの低い元の配列よりも優れた性能が得られる。

In this paper, we address the problem of direction of arrival (DOA) estimation for multiple targets in the presence of sensor failures in a sparse array. Generally, sparse arrays are known with very high-resolution capabilities, where N physical sensors can resolve up to $\mathcal{O}(N^2)$ uncorrelated sources. However, among the many configurations introduced in the literature, the arrays that provide the largest hole-free co-array are the most susceptible to sensor failures. We propose here two machine learning (ML) methods to mitigate the effect of sensor failures and maintain the DOA estimation performance and resolution. The first method enhances the conventional spatial smoothing using deep neural network (DNN), while the second one is an end-to-end data-driven method. Numerical results show that both approaches can significantly improve the performance of MRA with two failed sensors. The data-driven method can maintain the performance of the array with no failures at high signal-tonoise ratio (SNR). Moreover, both approaches can even perform better than the original array at low SNR thanks to the denoising effect of the proposed DNN
翻訳日:2023-06-22 13:09:07 公開日:2023-06-21
# 一次元光学格子における粒子不均衡を持つ量子滴

Quantum droplets with particle imbalance in one-dimensional optical lattices ( http://arxiv.org/abs/2306.12283v1 )

ライセンス: Link先を確認
Jofre Vall\`es-Muns, Ivan Morera, Grigori E. Astrakharchik, Bruno Juli\'a-D\'iaz(参考訳) 二元ボソニック混合物をゼロ温度で含む1次元光学格子における粒子不平衡量子液滴の形成について検討した。 数体と多体の両方の観点から不均衡の影響を理解するため,密度行列再正規化群 (dmrg) のシミュレーションを行い, 熱力学的限界への外挿を行った。 粒子平衡の場合とは対照的に、全てのボソンが対になるわけではないため、結合状態と個々の原子の間の相互作用が引き起こされる。 量子滴は小さな粒子の不均衡を保ち、効果的な磁化をもたらす。 しかし、さらに不均衡が大きくなると臨界点が交差し、バルク中の磁化が一定のまま、液滴が余剰粒子を放出し始める。 量子滴の上の未対の粒子は、効果的に超トンクス・ジラルドー(ハードロッド)ガスを形成する。 爆発点は、スーパートンクス・ジラード気体の大きさが液滴の大きさと一致する臨界密度と一致する。

We study the formation of particle-imbalanced quantum droplets in a one-dimensional optical lattice containing a binary bosonic mixture at zero temperature. To understand the effects of the imbalance from both the few- and many-body perspectives, we employ density matrix renormalization group (DMRG) simulations and perform the extrapolation to the thermodynamic limit. In contrast to the particle-balanced case, not all bosons are paired, resulting in an interplay between bound states and individual atoms that leads to intriguing phenomena. Quantum droplets manage to sustain a small particle imbalance, resulting in an effective magnetization. However, as the imbalance is further increased, a critical point is eventually crossed, and the droplets start to expel the excess particles while the magnetization in the bulk remains constant. Remarkably, the unpaired particles on top of the quantum droplet effectively form a super Tonks-Girardeau (hard-rod) gas. The expulsion point coincides with the critical density at which the size of the super Tonks-Girardeau gas matches the size of the droplet.
翻訳日:2023-06-22 13:08:49 公開日:2023-06-21
# Convex-set Machine-Learned Advice を用いたオンラインリソース割り当て

Online Resource Allocation with Convex-set Machine-Learned Advice ( http://arxiv.org/abs/2306.12282v1 )

ライセンス: Link先を確認
Negin Golrezaei and Patrick Jaillet and Zijie Zhou(参考訳) 意思決定者は、しばしば、アドバイスと呼ばれる、需要に関する機械学習による予測にアクセスでき、リソース割り当てのオンライン意思決定プロセスで利用することができる。 しかし、そのようなアドバイスを利用すると、その潜在的な不正確さが問題となる。 この問題に対処するために,信頼性の低いマシン学習(ML)アドバイスを用いて,オンラインリソース割り当て決定を強化するフレームワークを提案する。 ここで、このアドバイスは需要ベクトルに対する一般凸不確実性によって表現されると仮定する。 本稿では、一貫した比とロバストな比のバランスをとるPareto最適オンラインリソース割り当てアルゴリズムのパラメータ化クラスを導入する。 整合比は、MLアドバイスが正確であるときにアルゴリズムのパフォーマンス(最適の後見解と比較)を計測し、ロバスト比は、アドバイスが不正確であるときに敵の要求プロセスの下でパフォーマンスをキャプチャする。 提案したC-Pareto最適化アルゴリズムは,Littlewood (2005) と Ball and Queyranne (2009) で導入された古典的固定保護レベルアルゴリズムを拡張した適応保護レベルアルゴリズムである。 複雑な非凸連続最適化問題の解法は適応的保護レベルアルゴリズムを特徴付ける。 アルゴリズムを補完するため,MLアドバイスの最大値に対する推定値である最大達成可能な一貫した比率を計算するための簡単な方法を提案する。 さらに,ベンチマークアルゴリズムと比較して,アルゴリズムの性能を評価するための数値的研究を行った。 その結果、パラメータCを調整することで、アルゴリズムは最悪のケースと平均性能のバランスを保ち、ベンチマークアルゴリズムより優れていることが示された。

Decision-makers often have access to a machine-learned prediction about demand, referred to as advice, which can potentially be utilized in online decision-making processes for resource allocation. However, exploiting such advice poses challenges due to its potential inaccuracy. To address this issue, we propose a framework that enhances online resource allocation decisions with potentially unreliable machine-learned (ML) advice. We assume here that this advice is represented by a general convex uncertainty set for the demand vector. We introduce a parameterized class of Pareto optimal online resource allocation algorithms that strike a balance between consistent and robust ratios. The consistent ratio measures the algorithm's performance (compared to the optimal hindsight solution) when the ML advice is accurate, while the robust ratio captures performance under an adversarial demand process when the advice is inaccurate. Specifically, in a C-Pareto optimal setting, we maximize the robust ratio while ensuring that the consistent ratio is at least C. Our proposed C-Pareto optimal algorithm is an adaptive protection level algorithm, which extends the classical fixed protection level algorithm introduced in Littlewood (2005) and Ball and Queyranne (2009). Solving a complex non-convex continuous optimization problem characterizes the adaptive protection level algorithm. To complement our algorithms, we present a simple method for computing the maximum achievable consistent ratio, which serves as an estimate for the maximum value of the ML advice. Additionally, we present numerical studies to evaluate the performance of our algorithm in comparison to benchmark algorithms. The results demonstrate that by adjusting the parameter C, our algorithms effectively strike a balance between worst-case and average performance, outperforming the benchmark algorithms.
翻訳日:2023-06-22 13:08:33 公開日:2023-06-21
# 任意の測定とフィードバックスキームに対する量子揺らぎ定理

Quantum Fluctuation Theorem for Arbitrary Measurement and Feedback Schemes ( http://arxiv.org/abs/2306.12281v1 )

ライセンス: Link先を確認
Kacper Prech, Patrick P. Potts(参考訳) ゆらぎの定理と熱力学の第二法則は、平衡系の挙動を拘束する強力な関係である。 フィードバック制御量子システムに対するこれらの関係の一般化は存在するが、その適用性は特に強く連続的な測定を考えると限定的である。 この書簡では、新しいゆらぎ定理と関連する情報熱力学の第2法則を導出することにより、この欠点を克服し、任意のフィードバック制御シナリオに適用することができる。 第2法則では、エントロピー生成は、測定結果から推測可能な粗粒度のエントロピー生成(英語版)によって制限される。 本手法は,全測定強度のエントロピー生成に有効なバウンドを提供するため,離散的かつ連続的な測定を行う量子ビットを用いて結果を示す。

Fluctuation theorems and the second law of thermodynamics are powerful relations constraining the behavior of out-of-equilibrium systems. While there exist generalizations of these relations to feedback controlled quantum systems, their applicability is limited, in particular when considering strong and continuous measurements. In this letter, we overcome this shortcoming by deriving a novel fluctuation theorem, and the associated second law of information thermodynamics, which remain applicable in arbitrary feedback control scenarios. In our second law, the entropy production is bounded by the coarse-grained entropy production which is inferrable from the measurement outcomes, an experimentally accessible quantity that does not diverge even under strong continuous measurements. We illustrate our results by a qubit undergoing discrete and continuous measurement, where our approach provides a useful bound on the entropy production for all measurement strengths.
翻訳日:2023-06-22 13:08:05 公開日:2023-06-21
# SIFTER: 文の埋め込みを強化するタスク固有のアライメント戦略

SIFTER: A Task-specific Alignment Strategy for Enhancing Sentence Embeddings ( http://arxiv.org/abs/2306.12280v1 )

ライセンス: Link先を確認
Chao Yu, Wenhao Zhu, Chaoming Liu, Xiaoyu Zhang, Qiuhong zhai(参考訳) 下流タスクの微調整による事前学習のパラダイムが,自然言語処理タスクの主流となっている。 事前学習されたモデルには一般化の利点があるが、その性能は異なるドメインタスクによって大きく異なる可能性がある。 これは異なるドメイン内のデータ分布が異なるためである。 例えば、"he married smt. dipali ghosh in 1947 and led a very happy married life"という文の異なる部分は、下流の作業に異なる影響を与える可能性がある。 類似性計算では、"led"や"life"といった単語がより重要である。 一方,感情分析では「幸福」という言葉が重要である。 これは、異なる下流タスクが文成分に対する感度のレベルが異なることを示している。 私たちの出発点は、ダウンストリームタスクの仕様に従ってモデルとデータの情報をスケールし、それらのタスクに関連する部分のドメイン情報を高め、異なるドメインタスクの無関係な要素を減らすことです。 実験では,SIFTERを用いて文幹の強化と文中の重要でない成分の削減に基づく正のサンプルペアを構築し,三つの文間の類似性を最大化することにより,SimCSEを改善する。 同様に、SIFTERは重要な単語の入力ゲートを短絡させることで、LSTMモデルのゲート機構を改善することができるので、LSTMモデルは文の重要な部分を記憶することができる。 実験の結果,SIFTERはSimCSEおよびLSTMベースラインよりも優れていた。

The paradigm of pre-training followed by fine-tuning on downstream tasks has become the mainstream method in natural language processing tasks. Although pre-trained models have the advantage of generalization, their performance may still vary significantly across different domain tasks. This is because the data distribution in different domains varies. For example, the different parts of the sentence 'He married Smt. Dipali Ghosh in 1947 and led a very happy married life' may have different impact for downstream tasks. For similarity calculations, words such as 'led' and 'life' are more important. On the other hand, for sentiment analysis, the word 'happy' is crucial. This indicates that different downstream tasks have different levels of sensitivity to sentence components. Our starting point is to scale information of the model and data according to the specifics of downstream tasks, enhancing domain information of relevant parts for these tasks and reducing irrelevant elements for different domain tasks, called SIFTER. In the experimental part, we use the SIFTER to improve SimCSE by constructing positive sample pairs based on enhancing the sentence stem and reducing the unimportant components in the sentence, and maximize the similarity between three sentences. Similarly, SIFTER can improve the gate mechanism of the LSTM model by short-circuiting the input gate of important words so that the LSTM model remembers the important parts of the sentence. Our experiments demonstrate that SIFTER outperforms the SimCSE and LSTM baselines.
翻訳日:2023-06-22 13:07:50 公開日:2023-06-21
# 移動学習による山火事検出 : 調査

Wildfire Detection Via Transfer Learning: A Survey ( http://arxiv.org/abs/2306.12276v1 )

ライセンス: Link先を確認
Ziliang Hong, Emadeldeen Hamdan, Yifei Zhao, Tianxiao Ye, Hongyi Pan, A. Enis Cetin(参考訳) 本稿では,山頂上や森林展望塔に設置した可視距離カメラを用いて,野火の検出に用いるニューラルネットワークモデルについて検討した。 ニューラルネットワークモデルはimagenet-1kで事前トレーニングされ、カスタムのwildfireデータセットで微調整される。 これらのモデルの性能は,多様なワイルドファイア画像を用いて評価され,ワイルドファイア検出のためのトランスファー学習の利用に関心のある人に有用な情報を提供する。 Swin Transformer-tinyはAUC値が最も高いが、ConvNext-tinyはすべての山火事を検知し、データセットの中で最も低い誤報率を持つ。

This paper surveys different publicly available neural network models used for detecting wildfires using regular visible-range cameras which are placed on hilltops or forest lookout towers. The neural network models are pre-trained on ImageNet-1K and fine-tuned on a custom wildfire dataset. The performance of these models is evaluated on a diverse set of wildfire images, and the survey provides useful information for those interested in using transfer learning for wildfire detection. Swin Transformer-tiny has the highest AUC value but ConvNext-tiny detects all the wildfire events and has the lowest false alarm rate in our dataset.
翻訳日:2023-06-22 13:07:26 公開日:2023-06-21
# 構造採掘から原子八面体ネットワークの無監督探査へ

From structure mining to unsupervised exploration of atomic octahedral networks ( http://arxiv.org/abs/2306.12272v1 )

ライセンス: Link先を確認
R. Patrick Xian, Ryan J. Morelock, Ido Hadar, Charles B. Musgrave, Christopher Sutton(参考訳) 原子中心配位オクタヘドラのネットワークは、無機およびハイブリッド固体材料で一般的に発生する。 空間的配置と特性を特徴付けることは、多くの材料ファミリーの構造と特性を関連付ける上で重要である。 ケース・バイ・ケース・インスペクション(case-by-case inspection)を使用する従来の方法は,大規模データセットにおけるトレンドや類似性の発見を禁止している。 ここでは,化学直観を運用し,配位八面体ネットワークの幾何解析,定量化,分類を自動化する。 ABO$_{3}=ペロブスカイト多形では, 酸化状態変化の検出を支援する軸分解型傾動傾向がみられた。 さらに,これらのネットワークを表現するためのスケール不変符号化方式を開発し,人間支援の非教師なし機械学習と組み合わせることで,ハイブリッドiodoplumbates (a$_x$pb$_y$i$_z$) の無機フレームワークポリタイプを分類できる。 その結果、ポーリングの第3規則と、そのトポロジ的多様性を支える設計原則の違反が明らかになった。 この結果は原子オクタヘドラルネットワークの広大な設計空間を垣間見ることができ、特定の構造型を高スループットでターゲットとしたスクリーニングを通知する。

Networks of atom-centered coordination octahedra commonly occur in inorganic and hybrid solid-state materials. Characterizing their spatial arrangements and characteristics is crucial for relating structures to properties for many materials families. The traditional method using case-by-case inspection becomes prohibitive for discovering trends and similarities in large datasets. Here, we operationalize chemical intuition to automate the geometric parsing, quantification, and classification of coordination octahedral networks. We find axis-resolved tilting trends in ABO$_{3}$ perovskite polymorphs, which assist in detecting oxidation state changes. Moreover, we develop a scale-invariant encoding scheme to represent these networks, which, combined with human-assisted unsupervised machine learning, allows us to taxonomize the inorganic framework polytypes in hybrid iodoplumbates (A$_x$Pb$_y$I$_z$). Consequently, we uncover a violation of Pauling's third rule and the design principles underpinning their topological diversity. Our results offer a glimpse into the vast design space of atomic octahedral networks and inform high-throughput, targeted screening of specific structure types.
翻訳日:2023-06-22 13:07:14 公開日:2023-06-21
# $\mathrm{SU(3)}$ Yang-Mills理論の量子的および古典的シミュレーションの新しい基礎を破る

Breaking new ground for quantum and classical simulations of $\mathrm{SU(3)}$ Yang-Mills theory ( http://arxiv.org/abs/2306.12324v1 )

ライセンス: Link先を確認
Tomoya Hayata, Yoshimasa Hidaka(参考訳) 我々はウィルソン線のネットワークに基づく$(2+1)$次元で$\mathrm{SU}(3)$ Yang-Mills理論を研究する。 q$変形の助けを借りて、ネットワークは(離散化された)$\mathrm{su}(3)$ゲージ対称性を量子群、すなわち$\mathrm{su}(3)_k$として尊重し、量子アルゴリズムおよび古典アルゴリズムにおけるkogut-susskindハミルトニアンの効率的な実装を可能にする。 実演として、従来のモンテカルロシミュレーションと十分大きな k$ を取ることでよく一致する $\mathrm{su}(3)_k$ yang-mills 理論の基底状態の平均場計算を行う。 平均場計算の変分アンサッツは無限射影絡み状態と呼ばれるテンソルネットワークによって表現できる。 平均場計算の成功は、yang-mills理論の本質的な特徴がテンソルネットワークによってよく説明されており、yang-mills理論とqcdの量子シミュレーションを次のレベルに持ち込む上で重要な役割を果たす可能性があることを示している。

We study $\mathrm{SU}(3)$ Yang-Mills theory in $(2+1)$ dimensions based on networks of Wilson lines. With the help of the $q$ deformation, networks respect the (discretized) $\mathrm{SU}(3)$ gauge symmetry as a quantum group, i.e., $\mathrm{SU}(3)_k$, and may enable efficient implementations of the Kogut-Susskind Hamiltonian in quantum and classical algorithms. As a demonstration, we perform a mean-field computation of the groundstate of $\mathrm{SU}(3)_k$ Yang-Mills theory, which is in good agreement with the conventional Monte Carlo simulation by taking sufficiently large $k$. The variational ansatz of the mean-field computation can be represented by the tensor networks called infinite projected entangled pair states. The success of the mean-field computation indicates that the essential features of Yang-Mills theory are well described by tensor networks, so that they may play an important role in bringing quantum simulation of Yang-Mills theory and QCD to the next level.
翻訳日:2023-06-22 13:01:32 公開日:2023-06-21
# 周期駆動リンドブラッド方程式の例外点と指数感度

Exceptional points and exponential sensitivity for periodically driven Lindblad equations ( http://arxiv.org/abs/2306.12322v1 )

ライセンス: Link先を確認
Jonas Larsson and Sofia Qvarfort(参考訳) G\"oran Lindblad の記念問題へのこの貢献において、2レベル系に対する周期的に駆動されるリンドブラッド方程式について検討する。 Floquet理論と同様に,断熱対角化と時間進化の数値シミュレーションの両方を用いて解析を行う。 断熱対角化は、システムパラメータに依存するシステム内の例外的な点の存在を明らかにする。 これらの特異点の存在がシステム進化にどのように影響するかを示し,これらの点を急速に軽視し,階段のようなコヒーレンスが失われる原因となった。 この現象は、例えば人口反転の測定によって実験的に観察することができる。 また、例外点の存在は、システムがどのリー代数をサポートするかと関連していると考えられる。 Floquet解析では、時間依存のLiouvillianを非エルミートフロケハミルトニアンにマッピングし、そのスペクトルを解析する。 弱減衰率については、ワニエ・スターク・ラダースペクトルに対応するスターク局在固有状態が伴う。 より大きな崩壊率のために、はしごは溶解し始め、新しい、より局所的な状態が出現する。 さらに、それらの固有値は摂動に指数関数的に敏感であり、ある種の非エルミート・ハミルトン群に見られる皮膚効果と同様である。

In this contribution to the memorial issue of G\"oran Lindblad, we investigate the periodically driven Lindblad equation for a two-level system. We analyze the system using both adiabatic diagonalization and numerical simulations of the time-evolution, as well as Floquet theory. Adiabatic diagonalization reveals the presence of exceptional points in the system, which depend on the system parameters. We show how the presence of these exceptional points affects the system evolution, leading to a rapid dephasing at these points and a staircase-like loss of coherence. This phenomenon can be experimentally observed by measuring, for example, the population inversion. We also observe that the presence of exceptional points seems to be related to which underlying Lie algebra the system supports. In the Floquet analysis, we map the time-dependent Liouvillian to a non-Hermitian Floquet Hamiltonian and analyze its spectrum. For weak decay rates, we find a Wannier-Stark ladder spectrum accompanied by corresponding Stark-localized eigenstates. For larger decay rates, the ladders begin to dissolve, and new, less localized states emerge. Additionally, their eigenvalues are exponentially sensitive to perturbations, similar to the skin effect found in certain non-Hermitian Hamiltonians.
翻訳日:2023-06-22 13:01:10 公開日:2023-06-21
# 効率的な任意スケール画像表現のための動的暗黙的画像関数

Dynamic Implicit Image Function for Efficient Arbitrary-Scale Image Representation ( http://arxiv.org/abs/2306.12321v1 )

ライセンス: Link先を確認
Zongyao He, Zhi Jin(参考訳) 近年では暗黙の神経表現法が顕著に成功している。 最近の研究であるローカルインプリシット画像関数(LIIF)は、連続した空間領域内のニューラルネットワークから画素値を推定する連続的な画像表現に満足できる性能を達成している。 しかし、そのような暗黙的な任意のスケールの超解像法(SR)の計算コストは、スケールファクタが増加するにつれて急速に増加し、任意のスケールのSRが時間がかかる。 本稿では,任意の解像度で画像を表現するための高速かつ効率的な手法である動的暗黙的画像関数(diif)を提案する。 画像座標と最も近い2次元深度特徴を入力として、その画素値を予測する代わりに、ニューラルネットワークが座標スライスから画素値スライスへのデコードを可能にする座標グループ化とスライス戦略を提案する。 さらに,スライス毎の座標数がスケール係数の変動に応じて変化する動的座標スライシングによるデコードを行う粗層対細多層パーセプトロン(c2f-mlp)を提案する。 動的座標スライシングにより、DIIFは任意のスケールのSRに遭遇する際の計算コストを大幅に削減する。 実験により、DIIFは暗黙的な任意のスケールのSR手法と統合でき、計算効率が大幅に向上したSOTA SR性能を実現し、リアルタイムな任意のスケールの画像表現のための経路を開くことが示されている。 私たちのコードはhttps://github.com/hezongyao/diifにあります。

Recent years have witnessed the remarkable success of implicit neural representation methods. The recent work Local Implicit Image Function (LIIF) has achieved satisfactory performance for continuous image representation, where pixel values are inferred from a neural network in a continuous spatial domain. However, the computational cost of such implicit arbitrary-scale super-resolution (SR) methods increases rapidly as the scale factor increases, which makes arbitrary-scale SR time-consuming. In this paper, we propose Dynamic Implicit Image Function (DIIF), which is a fast and efficient method to represent images with arbitrary resolution. Instead of taking an image coordinate and the nearest 2D deep features as inputs to predict its pixel value, we propose a coordinate grouping and slicing strategy, which enables the neural network to perform decoding from coordinate slices to pixel value slices. We further propose a Coarse-to-Fine Multilayer Perceptron (C2F-MLP) to perform decoding with dynamic coordinate slicing, where the number of coordinates in each slice varies as the scale factor varies. With dynamic coordinate slicing, DIIF significantly reduces the computational cost when encountering arbitrary-scale SR. Experimental results demonstrate that DIIF can be integrated with implicit arbitrary-scale SR methods and achieves SOTA SR performance with significantly superior computational efficiency, thereby opening a path for real-time arbitrary-scale image representation. Our code can be found at https://github.com/HeZongyao/DIIF.
翻訳日:2023-06-22 13:00:49 公開日:2023-06-21
# 言語モデリングのための反復的Piecewise Affine (IPA)近似

Iterated Piecewise Affine (IPA) Approximation for Language Modeling ( http://arxiv.org/abs/2306.12317v1 )

ライセンス: Link先を確認
Davood Shamsi, Wen-yu Hua, Brian Williams(参考訳) 本研究では,一般関数 $F: R^{n \times m} \to R^{n \times m}$ を近似するための単純な一階述語Taylor展開の適用を実演し,言語モデリングに活用する。 テイラーの基本的な拡張を強化するため、反復と断片的モデリングを導入し、そのアルゴリズムをIterative Piecewise Affine (IPA)近似と呼ぶ。 最後のアルゴリズムはtransformers decoderアーキテクチャによく似ている。 IPAとTransformerのパラメータアレンジメントを比較することで、より小さなシーケンス長のクロスエントロピーロスを伴う次のトークン予測タスクにおいて、IPAは1.5倍の精度でTransformerを性能良くする。

In this work, we demonstrate the application of a simple first-order Taylor expansion to approximate a generic function $F: R^{n \times m} \to R^{n \times m}$ and utilize it in language modeling. To enhance the basic Taylor expansion, we introduce iteration and piecewise modeling, leading us to name the algorithm the Iterative Piecewise Affine (IPA) approximation. The final algorithm exhibits interesting resemblances to the Transformers decoder architecture. By comparing parameter arrangements in IPA and Transformers, we observe a strikingly similar performance, with IPA outperforming Transformers by 1.5\% in the next token prediction task with cross-entropy loss for smaller sequence lengths.
翻訳日:2023-06-22 13:00:23 公開日:2023-06-21
# 解釈可能な伝達学習のためのイントロスペクティブ・アクション・アドバイス

Introspective Action Advising for Interpretable Transfer Learning ( http://arxiv.org/abs/2306.12314v1 )

ライセンス: Link先を確認
Joseph Campbell, Yue Guo, Fiona Xie, Simon Stepputtis, Katia Sycara(参考訳) 伝達学習は、深い強化学習に適用でき、関連するソースタスクで学んだポリシーから知識を伝達することで、目標タスクにおけるポリシーの訓練を加速することができる。 これは一般的に、ソースポリシーからトレーニング前のターゲットポリシーへの事前訓練された重み付けを、同じモデルアーキテクチャを使用するという制約の下でコピーすることで達成される。 しかし、これは幅広い状態分布で学習される堅牢な表現を必要とするだけでなく、しばしば単一のタスクで訓練された専門家モデル間の転送に失敗する。 本研究では,教師が目標課題の探索を積極的に指導する,行動アドバイスに基づく課題間での学習を伝達するための代替手法を提案する。 イントロスペクションを通じて、教師は学生にいつアドバイスが有益なのか、与えるべきなのか、そうでないのかを特定できる。 このアプローチは,基盤となる表現によらない方針間の知識伝達を可能にし,グリッドワールドとatari環境における収束率の向上につながると同時に,どのような知識が伝達されるかに関する洞察を提供する。

Transfer learning can be applied in deep reinforcement learning to accelerate the training of a policy in a target task by transferring knowledge from a policy learned in a related source task. This is commonly achieved by copying pretrained weights from the source policy to the target policy prior to training, under the constraint that they use the same model architecture. However, not only does this require a robust representation learned over a wide distribution of states -- often failing to transfer between specialist models trained over single tasks -- but it is largely uninterpretable and provides little indication of what knowledge is transferred. In this work, we propose an alternative approach to transfer learning between tasks based on action advising, in which a teacher trained in a source task actively guides a student's exploration in a target task. Through introspection, the teacher is capable of identifying when advice is beneficial to the student and should be given, and when it is not. Our approach allows knowledge transfer between policies agnostic of the underlying representations, and we empirically show that this leads to improved convergence rates in Gridworld and Atari environments while providing insight into what knowledge is transferred.
翻訳日:2023-06-22 13:00:06 公開日:2023-06-21
# ウェブスクレイピングによる医療の最小化

Medical ministrations through web scraping ( http://arxiv.org/abs/2306.12310v1 )

ライセンス: Link先を確認
Niketha Sabesan, Nivethitha, J.N Shreyah, Pranauv A J, Shyam R(参考訳) Webスクレイピングは、Webサイトからデータを自動的に抽出する技術である。 医学の分野では、Webスクレイピングは、医療処置、治療、医療提供者に関する情報収集に用いられる。 この情報は、患者のケアの改善、医療サービスの品質の監視、改善すべき領域の特定に使用できる。 ウェブスクレイピングが特に役立つ分野は医療のミニストレーションである。 医療のミニストレーションは、患者に医療を提供するためのアクションであり、webスクレイピングは、医療提供者が患者の最も効果的なミニストレーションを特定するのに役立つ。 例えば、医療提供者は、webスクレイピングを使用して患者の症状や医療歴に関するデータを収集し、この情報を使用して最も適切な最小化を判断することができる。 ウェブスクレイピングを使って最新の医療研究や臨床試験に関する情報を収集することで、最新の治療や処置を最新に保つこともできる。

Web scraping is a technique that allows us to extract data from websites automatically. in the field of medicine, web scraping can be used to collect information about medical procedures, treatments, and healthcare providers. this information can be used to improve patient care, monitor the quality of healthcare services, and identify areas for improvement. one area where web scraping can be particularly useful is in medical ministrations. medical ministrations are the actions taken to provide medical care to patients, and web scraping can help healthcare providers identify the most effective ministrations for their patients. for example, healthcare providers can use web scraping to collect data about the symptoms and medical histories of their patients, and then use this information to determine the most appropriate ministrations. they can also use web scraping to gather information about the latest medical research and clinical trials, which can help them stay up-to-date with the latest treatments and procedures.
翻訳日:2023-06-22 12:59:45 公開日:2023-06-21
# ディープアンサンブルを超えて - 分布シフトによるベイズディープラーニングの大規模評価

Beyond Deep Ensembles -- A Large-Scale Evaluation of Bayesian Deep Learning under Distribution Shift ( http://arxiv.org/abs/2306.12306v1 )

ライセンス: Link先を確認
Florian Seligmann, Philipp Becker, Michael Volpp, Gerhard Neumann(参考訳) Bayesian Deep Learning (BDL) は、分布シフトしたデータに対するよく校正された予測を実現するための有望なアプローチである。 それにもかかわらず、最近のSOTA手法を多様で現実的で挑戦的なベンチマークタスクを体系的に評価する大規模な調査は存在しない。 本稿では,BDL研究の現状を明らかにするために,WILDSコレクションから,分散シフトによる一般化能力とキャリブレーションに着目した,挑戦的な分類と回帰作業を含む実世界のデータセットに対する最新のBDLアルゴリズムの評価を行った。 我々は、大規模な、畳み込み、トランスフォーマーベースのニューラルネットワークアーキテクチャでアルゴリズムを比較した。 特に,予測校正誤差の符号付きバージョンについて検討し,メソッドが過度か過度かを明らかにし,メソッドの振舞いに関するさらなる知見を提供する。 さらに,スクラッチからのトレーニングが極めて高価である大規模事前学習モデルに対して,bdlの体系的評価を行った。 最後に,近年のDeep Ensemblesの成功を踏まえ,一般的な単一モード後部近似をアンサンブルを用いて複数のモードに拡張する。 単一モード近似は一般にモデルの一般化能力とキャリブレーションをかなりの差で向上させるが、大きなトランスフォーマーベース言語モデルを微調整する際のアンサンブルの失敗モードも同定する。 この設定では、最終層ベイズ・バイ・バックプロップのような変分推論に基づくアプローチは、SWAGのような現代の近似推論アルゴリズムが最適なキャリブレーションを達成するのに対し、大きなマージンによる精度で他の手法よりも優れている。

Bayesian deep learning (BDL) is a promising approach to achieve well-calibrated predictions on distribution-shifted data. Nevertheless, there exists no large-scale survey that evaluates recent SOTA methods on diverse, realistic, and challenging benchmark tasks in a systematic manner. To provide a clear picture of the current state of BDL research, we evaluate modern BDL algorithms on real-world datasets from the WILDS collection containing challenging classification and regression tasks, with a focus on generalization capability and calibration under distribution shift. We compare the algorithms on a wide range of large, convolutional and transformer-based neural network architectures. In particular, we investigate a signed version of the expected calibration error that reveals whether the methods are over- or under-confident, providing further insight into the behavior of the methods. Further, we provide the first systematic evaluation of BDL for fine-tuning large pre-trained models, where training from scratch is prohibitively expensive. Finally, given the recent success of Deep Ensembles, we extend popular single-mode posterior approximations to multiple modes by the use of ensembles. While we find that ensembling single-mode approximations generally improves the generalization capability and calibration of the models by a significant margin, we also identify a failure mode of ensembles when finetuning large transformer-based language models. In this setting, variational inference based approaches such as last-layer Bayes By Backprop outperform other methods in terms of accuracy by a large margin, while modern approximate inference algorithms such as SWAG achieve the best calibration.
翻訳日:2023-06-22 12:59:30 公開日:2023-06-21
# 確率分布を負荷する量子生成逆ネットワークのための新しい初期分布

A New Initial Distribution for Quantum Generative Adversarial Networks to Load Probability Distributions ( http://arxiv.org/abs/2306.12303v1 )

ライセンス: Link先を確認
Yuichi Sano, Ryosuke Koga, Masaya Abe, Kei Nakagawa(参考訳) 量子コンピュータは、古典的コンピュータよりも早く特定の問題を解く能力に注目が集まっており、例えば金融などの分野で広く使われているモンテカルロ法を加速する量子期待推定アルゴリズムがある。 先程の研究では、生成逆数ネットワーク(GAN)の量子回路バージョンである量子生成逆数ネットワーク(qGANs)が、浅い量子回路における量子期待推定アルゴリズムに必要な確率分布を生成できることが示されている。 しかし、以前の研究では、生成した分布の収束速度と精度は、qGANs発生器の初期分布によって大きく異なることが示唆されている。 特に、正規分布を初期分布として用いる効果は主張されているが、深い量子回路が必要であり、これはqGANの利点を失う可能性がある。 そこで本研究では,qganの学習効率を向上させるための初期分布生成法を提案する。 浅層量子回路における様々な確率分布を生成するためにラベル置換の古典過程を用いる。 提案手法は, 財務工学において重要な対数正規分布と, 三角分布と双モード分布を, 現在の方法よりも効率的に生成できることを実証する。 さらに,本研究で提案した初期分布は,qGANの初期重みを決定する問題と関連していることを示す。

Quantum computers are gaining attention for their ability to solve certain problems faster than classical computers, and one example is the quantum expectation estimation algorithm that accelerates the widely-used Monte Carlo method in fields such as finance. A previous study has shown that quantum generative adversarial networks(qGANs), a quantum circuit version of generative adversarial networks(GANs), can generate the probability distribution necessary for the quantum expectation estimation algorithm in shallow quantum circuits. However, a previous study has also suggested that the convergence speed and accuracy of the generated distribution can vary greatly depending on the initial distribution of qGANs' generator. In particular, the effectiveness of using a normal distribution as the initial distribution has been claimed, but it requires a deep quantum circuit, which may lose the advantage of qGANs. Therefore, in this study, we propose a novel method for generating an initial distribution that improves the learning efficiency of qGANs. Our method uses the classical process of label replacement to generate various probability distributions in shallow quantum circuits. We demonstrate that our proposed method can generate the log-normal distribution, which is pivotal in financial engineering, as well as the triangular distribution and the bimodal distribution, more efficiently than current methods. Additionally, we show that the initial distribution proposed in our research is related to the problem of determining the initial weights for qGANs.
翻訳日:2023-06-22 12:59:01 公開日:2023-06-21
# カーパラメトリック発振器における量子干渉の観測と操作

Observation and manipulation of quantum interference in a Kerr parametric oscillator ( http://arxiv.org/abs/2306.12299v1 )

ライセンス: Link先を確認
Daisuke Iyama, Takahiko Kamiya, Shiori Fujii, Hiroto Mukai, Yu Zhou, Toshiaki Nagase, Akiyoshi Tomonaga, Rui Wang, Jiao-Jiao Xue, Shohei Watabe, Sangil Kwon, and Jaw-Shen Tsai(参考訳) 量子トンネルは超伝導回路を「量子」にする現象である。 近年,Kerrパラメトリック発振器の位相空間における量子トンネルを量子情報処理の資源として利用することへの関心が高まっている。 本稿では、平面超電導回路におけるトンネルによる量子干渉の直接観測について報告する。 この量子干渉の全ての本質的性質、例えばフォック状態から猫状態へのマッピング、ポンプのデチューニングによって引き起こされる時間的振動、そしてその特徴的なラビ振動とラムジー縞を実験的に解明する。 最後に,観測された量子干渉の操作としてゲート操作を行う。 本研究は,Kerrパラメトリック発振器の量子特性とその量子情報技術への応用に関する基礎研究である。

Quantum tunneling is the phenomenon that makes superconducting circuits "quantum". Recently, there has been a renewed interest in using quantum tunneling in phase space of a Kerr parametric oscillator as a resource for quantum information processing. Here, we report a direct observation of quantum interference induced by such tunneling in a planar superconducting circuit. We experimentally elucidate all essential properties of this quantum interference, such as mapping from Fock states to cat states, a temporal oscillation induced by the pump detuning, as well as its characteristic Rabi oscillations and Ramsey fringes. Finally, we perform gate operations as manipulations of the observed quantum interference. Our findings lay the groundwork for further studies on quantum properties of Kerr parametric oscillators and their use in quantum information technologies.
翻訳日:2023-06-22 12:58:39 公開日:2023-06-21
# starvqa+: 映像品質評価のための時空注意の訓練

StarVQA+: Co-training Space-Time Attention for Video Quality Assessment ( http://arxiv.org/abs/2306.12298v1 )

ライセンス: Link先を確認
Fengchuang Xing, Yuan-Gen Wang, Weixuan Tang, Guopu Zhu, Sam Kwong(参考訳) 自己注意に基づくトランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。 しかし,ビデオ品質評価(VQA)への適用は今のところ不十分である。 地中ビデオの品質を評価することは、プリスタン参照の未知と撮影歪みのために難しい。 本稿では,StarVQA+と呼ばれる,VQA問題に対する学習時空間注意ネットワークを提案する。 具体的には、分割された時空の注意を交互に結合することで、StarVQA+を構築する。 そして、StarVQA+のトレーニングを容易にするために、平均世論スコア(MOS)を確率ベクトルに符号化し、特殊トークンをMOSの学習可能な変数として埋め込むことにより、ベクトル化回帰損失を設計し、人間の評価プロセスをよりよく適合させる。 最後に,トランスフォーマによるデータ空腹問題を解決するために,映像と映像の両方を用いて空間的および時間的注意重みを共学習する。 LIVE-Qualcomm, LIVE-VQC, KoNViD-1k, YouTube-UGC, LSVQ, LSVQ-1080p, DVL2021など,様々な実験を行った。 実験の結果,提案するstarvqa+が最先端技術よりも優れていることが示された。

Self-attention based Transformer has achieved great success in many computer vision tasks. However, its application to video quality assessment (VQA) has not been satisfactory so far. Evaluating the quality of in-the-wild videos is challenging due to the unknown of pristine reference and shooting distortion. This paper presents a co-trained Space-Time Attention network for the VQA problem, termed StarVQA+. Specifically, we first build StarVQA+ by alternately concatenating the divided space-time attention. Then, to facilitate the training of StarVQA+, we design a vectorized regression loss by encoding the mean opinion score (MOS) to the probability vector and embedding a special token as the learnable variable of MOS, leading to better fitting of human's rating process. Finally, to solve the data hungry problem with Transformer, we propose to co-train the spatial and temporal attention weights using both images and videos. Various experiments are conducted on the de-facto in-the-wild video datasets, including LIVE-Qualcomm, LIVE-VQC, KoNViD-1k, YouTube-UGC, LSVQ, LSVQ-1080p, and DVL2021. Experimental results demonstrate the superiority of the proposed StarVQA+ over the state-of-the-art.
翻訳日:2023-06-22 12:58:25 公開日:2023-06-21
# priorband: ディープラーニング時代の実用的なハイパーパラメータ最適化

PriorBand: Practical Hyperparameter Optimization in the Age of Deep Learning ( http://arxiv.org/abs/2306.12370v1 )

ライセンス: Link先を確認
Neeratyoy Mallik and Edward Bergman and Carl Hvarfner and Danny Stoll and Maciej Janowski and Marius Lindauer and Luigi Nardi and Frank Hutter(参考訳) ディープラーニング(DL)パイプラインのハイパーパラメータは、下流のパフォーマンスに不可欠である。 ハイパーパラメータ最適化(HPO)のための多くの手法が開発されているが、現代のDLではそのコストは抑えられないことが多い。 結果として、手動の実験は、研究者の直観、ドメイン知識、安価な予備探索に頼りながら、ハイパーパラメーターを最適化する最も一般的なアプローチである。 そこで本研究では,HPOアルゴリズムとDL研究者のミスアライメントを解決するために,DLに適したHPOアルゴリズムであるPresideBandを提案する。 実証的に、さまざまなDLベンチマークでPresideBandの効率を実証し、有意義な専門家のインプットと貧弱な専門家の信念に対する頑健さの下でその利益を示す。

Hyperparameters of Deep Learning (DL) pipelines are crucial for their downstream performance. While a large number of methods for Hyperparameter Optimization (HPO) have been developed, their incurred costs are often untenable for modern DL. Consequently, manual experimentation is still the most prevalent approach to optimize hyperparameters, relying on the researcher's intuition, domain knowledge, and cheap preliminary explorations. To resolve this misalignment between HPO algorithms and DL researchers, we propose PriorBand, an HPO algorithm tailored to DL, able to utilize both expert beliefs and cheap proxy tasks. Empirically, we demonstrate PriorBand's efficiency across a range of DL benchmarks and show its gains under informative expert input and robustness against poor expert beliefs
翻訳日:2023-06-22 12:51:37 公開日:2023-06-21
# 加速度MRI再構成のための注意ハイブリッド変分ネット

Attention Hybrid Variational Net for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2306.12365v1 )

ライセンス: Link先を確認
Guoyao Shen, Boran Hao, Mengyu Li, Chad W. Farris, Ioannis Ch. Paschalidis, Stephan W. Anderson, Xin Zhang(参考訳) 磁気共鳴イメージング(MRI)における圧縮センシング(CS)対応データ再構成の適用は依然として難しい課題である。 これは、アクセラレーションマスクからk空間で失われた情報が完全にサンプリングされた画像の品質と類似した画像の再構成を困難にしているためである。 k空間と画像領域の両方において、CSを用いたMRI再構成のための複数の深層学習に基づく構造が提案されている。 しかし、これらの構造の欠点は、両者の情報(k空間と画像)を十分に活用していないことである。 本稿では、k空間と画像領域の両方で学習を行う深層学習に基づく注目ハイブリッド変動ネットワークを提案する。 当施設の脳卒中と診断された患者のオープンソースMRIデータセットと臨床MRIデータセットを用いて,我々のネットワークの性能を実証した。 定量的評価に加えて,準専門訓練放射線技師によるネットワーク間の画像品質の比較を行った。 全体として,複数の再構成タスクにおいて,ネットワークの性能が優れていることを示す。

The application of compressed sensing (CS)-enabled data reconstruction for accelerating magnetic resonance imaging (MRI) remains a challenging problem. This is due to the fact that the information lost in k-space from the acceleration mask makes it difficult to reconstruct an image similar to the quality of a fully sampled image. Multiple deep learning-based structures have been proposed for MRI reconstruction using CS, both in the k-space and image domains as well as using unrolled optimization methods. However, the drawback of these structures is that they are not fully utilizing the information from both domains (k-space and image). Herein, we propose a deep learning-based attention hybrid variational network that performs learning in both the k-space and image domain. We evaluate our method on a well-known open-source MRI dataset and a clinical MRI dataset of patients diagnosed with strokes from our institution to demonstrate the performance of our network. In addition to quantitative evaluation, we undertook a blinded comparison of image quality across networks performed by a subspecialty trained radiologist. Overall, we demonstrate that our network achieves a superior performance among others under multiple reconstruction tasks.
翻訳日:2023-06-22 12:51:17 公開日:2023-06-21
# 非線形未知入力推定を最適化したシグマ点カルマンフィルタと動的システムへのデータ駆動アプローチ

Sigma-point Kalman Filter with Nonlinear Unknown Input Estimation via Optimization and Data-driven Approach for Dynamic Systems ( http://arxiv.org/abs/2306.12361v1 )

ライセンス: Link先を確認
Junn Yong Loo, Ze Yang Ding, Vishnu Monn Baskaran, Surya Girinatha Nurzaman, and Chee Pin Tan(参考訳) 統合状態と未知の入力(UI)推定に関する作業の多くは、UIが線形であるという仮定を必要とする。 この制限を克服し、システムを線形化する必要性を回避するために、SPKFを非線形最適化とデータ駆動アプローチにより実装可能な一般的な非線形UI推定器と相互接続する微分自由な入力シグマ点カルマンフィルタ(SPKF-nUI)を提案する。 非線形ui推定器は、状態予測誤差の影響を受けにくい後続状態推定を使用する。 さらに,spkf-nuiの推定に状態とuiの不確実性の両方を組み込むためのシグマ点変換スキームを導入する。 深部確率安定性解析により、提案したSPKF-nUIは、合理的な仮定の下で指数関数的に収束する推定誤差を持つことを示した。 最後に、シミュレーションに基づく剛性ロボットと物理ソフトロボット、すなわち、複雑な力学を持つ軟質材料からなるロボットを用いて、2つのケーススタディを行い、非線形力学系におけるフィルタの有効性を検証する。 提案したSPKF-nUIは, 既存の非線形状態-UIフィルタと比較して, 最低状態およびUI推定誤差が低いことを示す。

Most works on joint state and unknown input (UI) estimation require the assumption that the UIs are linear; this is potentially restrictive as it does not hold in many intelligent autonomous systems. To overcome this restriction and circumvent the need to linearize the system, we propose a derivative-free Unknown Input Sigma-point Kalman Filter (SPKF-nUI) where the SPKF is interconnected with a general nonlinear UI estimator that can be implemented via nonlinear optimization and data-driven approaches. The nonlinear UI estimator uses the posterior state estimate which is less susceptible to state prediction error. In addition, we introduce a joint sigma-point transformation scheme to incorporate both the state and UI uncertainties in the estimation of SPKF-nUI. An in-depth stochastic stability analysis proves that the proposed SPKF-nUI yields exponentially converging estimation error bounds under reasonable assumptions. Finally, two case studies are carried out on a simulation-based rigid robot and a physical soft robot, i.e., robots made of soft materials with complex dynamics to validate effectiveness of the proposed filter on nonlinear dynamic systems. Our results demonstrate that the proposed SPKF-nUI achieves the lowest state and UI estimation errors when compared to the existing nonlinear state-UI filters.
翻訳日:2023-06-22 12:50:44 公開日:2023-06-21
# 低ランクPMDPにおけるトラクタブルプランニングによる効率の良い表現学習

Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP ( http://arxiv.org/abs/2306.12356v1 )

ライセンス: Link先を確認
Jiacheng Guo, Zihao Li, Huazheng Wang, Mengdi Wang, Zhuoran Yang, Xuezhou Zhang(参考訳) 本稿では,部分観測可能なマルコフ決定過程(POMDP)における表現学習について検討する。そこでエージェントは,一連の高次元の生観測をコンパクトな表現にマッピングし,より効率的な探索と計画を行うデコーダ関数を学習する。 我々は,統計的に抽出可能な学習が可能であることが示されているが,計算効率のよいアルゴリズムは存在していない,というような,‘textit{$\gamma$-observable} と‘textit{decodable POMDPs} のサブクラスに注目する。 まず,不確実性(OFU)に直面して最大誤差推定(MLE)と楽観性を組み合わせて,表現学習を行い,効率的なサンプル複雑性を実現するアルゴリズムを提案する。 次に、このアルゴリズムを$\gamma$-observable POMDPのより広範なクラスで機能させる方法を示す。

In this paper, we study representation learning in partially observable Markov Decision Processes (POMDPs), where the agent learns a decoder function that maps a series of high-dimensional raw observations to a compact representation and uses it for more efficient exploration and planning. We focus our attention on the sub-classes of \textit{$\gamma$-observable} and \textit{decodable POMDPs}, for which it has been shown that statistically tractable learning is possible, but there has not been any computationally efficient algorithm. We first present an algorithm for decodable POMDPs that combines maximum likelihood estimation (MLE) and optimism in the face of uncertainty (OFU) to perform representation learning and achieve efficient sample complexity, while only calling supervised learning computational oracles. We then show how to adapt this algorithm to also work in the broader class of $\gamma$-observable POMDPs.
翻訳日:2023-06-22 12:49:50 公開日:2023-06-21
# 誤り訂正データの暗号化による量子暗号の性能向上

Improving the performance of quantum cryptography by using the encryption of the error correction data ( http://arxiv.org/abs/2306.12347v1 )

ライセンス: Link先を確認
Valeria A. Pastushenko and Dmitry A. Kronberg(参考訳) 量子鍵分布(qkd)プロトコルのセキュリティは、量子物理学の法則、すなわち絶対確実性を持つ非直交量子状態の区別が不可能であることにのみ依存している。 このため、潜在的な盗聴者は攻撃後に量子メモリに格納された状態から、古典的な後処理段階であるQKDのすべての情報を知っているにもかかわらず、完全な情報を抽出することはできない。 本稿では,盗聴者が利用可能な情報量を減らし,量子鍵分散プロトコルの性能を向上させるために,誤り訂正に関連する古典的な通信を暗号化する手法を提案する。 本稿では,eavesdropperの量子メモリコヒーレンス時間に関する追加仮定の文脈において,本手法の適用性を分析し,提案手法と量子データロック(QDL)技術との類似性について議論する。

Security of quantum key distribution (QKD) protocols relies solely on quantum physics laws, namely, on the impossibility to distinguish between non-orthogonal quantum states with absolute certainty. Due to this, a potential eavesdropper cannot extract full information from the states stored in their quantum memory after an attack despite knowing all the information disclosed during classical post-processing stages of QKD. Here, we introduce the idea of encrypting classical communication related to error-correction in order to decrease the amount of information available to the eavesdropper and hence improve the performance of quantum key distribution protocols. We analyze the applicability of the method in the context of additional assumptions concerning the eavesdropper's quantum memory coherence time and discuss the similarity of our proposition and the quantum data locking (QDL) technique.
翻訳日:2023-06-22 12:49:24 公開日:2023-06-21
# 0-1損失線形分類問題に対する効率的で確証可能な厳密なアルゴリズム

An efficient, provably exact algorithm for the 0-1 loss linear classification problem ( http://arxiv.org/abs/2306.12344v1 )

ライセンス: Link先を確認
Xi He, Max A. Little(参考訳) 線形分類問題を解くアルゴリズムには長い歴史があり、少なくとも1936年に線形判別解析で遡る。 線形分離可能なデータの場合、多くのアルゴリズムは対応する0-1損失分類問題の正確な解を効率的に得ることができるが、線形分離できないデータに対しては、この問題が完全一般性においてnpハードであることが示されている。 別のアプローチでは、0-1 の損失(ヒンジやロジスティックの損失など)に対するサロゲートの使用や近似組合せ探索など、何らかの近似を含む。 固定次元の 0-1 損失線形分類問題に対して、正確な解を得るための効率的なアルゴリズムを見つけることは、未解決の問題である。 本稿では,0-1の損失分類問題を多項式時間で正確に解くための新しいアルゴリズム,インクリメンタルセル列挙法(ice)の構築について述べる。 我々の知る限り、これはこの長年の問題に対して厳密に証明された初めての多項式時間アルゴリズムである。

Algorithms for solving the linear classification problem have a long history, dating back at least to 1936 with linear discriminant analysis. For linearly separable data, many algorithms can obtain the exact solution to the corresponding 0-1 loss classification problem efficiently, but for data which is not linearly separable, it has been shown that this problem, in full generality, is NP-hard. Alternative approaches all involve approximations of some kind, including the use of surrogates for the 0-1 loss (for example, the hinge or logistic loss) or approximate combinatorial search, none of which can be guaranteed to solve the problem exactly. Finding efficient algorithms to obtain an exact i.e. globally optimal solution for the 0-1 loss linear classification problem with fixed dimension, remains an open problem. In research we report here, we detail the construction of a new algorithm, incremental cell enumeration (ICE), that can solve the 0-1 loss classification problem exactly in polynomial time. To our knowledge, this is the first, rigorously-proven polynomial time algorithm for this long-standing problem.
翻訳日:2023-06-22 12:49:08 公開日:2023-06-21
# 積分表現からの量子R'enyiと$f$-divergences

Quantum R\'enyi and $f$-divergences from integral representations ( http://arxiv.org/abs/2306.12343v1 )

ライセンス: Link先を確認
Christoph Hirche, Marco Tomamichel(参考訳) 滑らかな csisz\'ar $f$-divergences は、いわゆるホッケースティックダイバージェンス上の積分として表現できる。 これは、量子ホッケースティックの多様性という観点からの自然な量子一般化を動機付けている。 このレシピを用いて、kullback-leibler divergenceは、最近frenkelによって発見された積分形式の梅垣相対エントロピーに一般化する。 我々の新しい量子$f$-発散によって定義されるR'enyiの発散は一般に加法的ではないが、それらの正規化は驚くほど、Petz R'enyiの発散を$\alpha < 1$で、サンドイッチされたR'enyiの発散を$\alpha > 1$で、これら2つの重要な量子R'enyi発散を統一することを発見した。 さらに、新しい量子数 $f$ の縮約係数は作用素凸であるすべての$f$ に対して崩壊し、古典的振る舞いを模倣し、lesniewski と ruskai によるいくつかの長年の予想を解いた。 我々は、差分プライバシーの応用を伴う新しい逆ピンスカー不等式を含む様々な不等式を導出し、また、新しい相違点の様々な応用を探索する。

Smooth Csisz\'ar $f$-divergences can be expressed as integrals over so-called hockey stick divergences. This motivates a natural quantum generalization in terms of quantum Hockey stick divergences, which we explore here. Using this recipe, the Kullback-Leibler divergence generalises to the Umegaki relative entropy, in the integral form recently found by Frenkel. We find that the R\'enyi divergences defined via our new quantum $f$-divergences are not additive in general, but that their regularisations surprisingly yield the Petz R\'enyi divergence for $\alpha < 1$ and the sandwiched R\'enyi divergence for $\alpha > 1$, unifying these two important families of quantum R\'enyi divergences. Moreover, we find that the contraction coefficients for the new quantum $f$ divergences collapse for all $f$ that are operator convex, mimicking the classical behaviour and resolving some long-standing conjectures by Lesniewski and Ruskai. We derive various inequalities, including new reverse Pinsker inequalites with applications in differential privacy and also explore various other applications of the new divergences.
翻訳日:2023-06-22 12:48:50 公開日:2023-06-21
# Geometric Pooling: より有用な情報を維持する

Geometric Pooling: maintaining more useful information ( http://arxiv.org/abs/2306.12341v1 )

ライセンス: Link先を確認
Hao Xu, Jia Liu, Yang Shen, Kenan Lou, Yanxia Bao, Ruihua Zhang, Shuyue Zhou, Hongsen Zhao, Shuai Wang(参考訳) グラフポーリング技術はグラフノード分類タスクにおいて重要な役割を果たす。 ソートプール技術は、さまざまなサイズのグラフをプールするための大きな価値単位を保持する。 しかし,プール化後の活性化単位の統計特性を解析した結果,ソートプール化によって落下する多数の単位は有用な情報を含む負の値単位であり,最終決定に大きく寄与することがわかった。 より有用な情報を維持するため,Geometric Pooling (GP) と呼ばれる新しいプール技術が提案され,全てのノード特徴の類似度を測定して,負の値を持つユニークなノード特徴を含むようになった。 エントロピー低減の観点からgpの有効性を明らかにする。 実験は TUdatasets を用いてGPの有効性を示した。 その結果,提案したGPはパラメータが少なく,SOTAグラフプーリング技術よりも1%\sim5%優れていた。

Graph Pooling technology plays an important role in graph node classification tasks. Sorting pooling technologies maintain large-value units for pooling graphs of varying sizes. However, by analyzing the statistical characteristic of activated units after pooling, we found that a large number of units dropped by sorting pooling are negative-value units that contain useful information and can contribute considerably to the final decision. To maintain more useful information, a novel pooling technology, called Geometric Pooling (GP), was proposed to contain the unique node features with negative values by measuring the similarity of all node features. We reveal the effectiveness of GP from the entropy reduction view. The experiments were conducted on TUdatasets to show the effectiveness of GP. The results showed that the proposed GP outperforms the SOTA graph pooling technologies by 1%\sim5% with fewer parameters.
翻訳日:2023-06-22 12:48:22 公開日:2023-06-21
# GaNにおける単一スピンの室温光磁気共鳴

Room temperature optically detected magnetic resonance of single spins in GaN ( http://arxiv.org/abs/2306.12337v1 )

ライセンス: Link先を確認
Jialun Luo, Yifei Geng, Farhan Rana, and Gregory D. Fuchs(参考訳) 光検出型磁気共鳴(odmr)は、固体色中心のスピンを室温で読み出す効率的なメカニズムであり、磁場、電界、温度のスピンベースの量子センサーを高感度で商業的に適用することができる。 室温ODMRのメカニズムは、光励起状態から基底状態へのスピン依存的な緩和に基づいているため、欠陥中心の固有の性質である。 本稿では, ODMRシグネチャに基づいてGaNに2つの異なる欠陥型が存在することを報告する。 あるグループは、準安定状態のスピンに基づく小さな負のODMRを持つ。 第2のグループは、基底状態スピンに基づいて大きな(最大$\sim$30\%)正のodmrコントラストを持つ。 GaNは十分に開発された電子技術を持つ成熟した半導体であるため、この欠陥プラットフォームは量子センシングアプリケーションの統合を約束している。

Optically detected magnetic resonance (ODMR) is an efficient mechanism to readout the spin of solid-state color centers at room temperature, thus enabling spin-based quantum sensors of magnetic field, electric field, and temperature with high sensitivity and broad commercial applicability. The mechanism of room temperature ODMR is based on spin-dependent relaxation between the optically excited states to the ground states, and thus it is an intrinsic property of a defect center. In this work we report that two distinct defect types exist in GaN based on their ODMR signatures. One group has small negative ODMR based on a spin in a metastable state. The second group has large (up to $\sim$30\%) positive ODMR contrast based on ground-state spin. Because GaN is a mature semiconductor with well-developed electronic technologies already developed, this defect platform is promising for integrated quantum sensing applications.
翻訳日:2023-06-22 12:48:08 公開日:2023-06-21
# ProtoGate: Tabular Biomedical Dataのための局所特徴選択型プロトタイプベースニューラルネットワーク

ProtoGate: Prototype-based Neural Networks with Local Feature Selection for Tabular Biomedical Data ( http://arxiv.org/abs/2306.12330v1 )

ライセンス: Link先を確認
Xiangjian Jiang, Andrei Margeloiu, Nikola Simidjievski, Mateja Jamnik(参考訳) タブラルバイオメディカルデータは、しばしば高次元で典型的には低サンプルサイズであるため、機械学習において課題となる。 これまでの研究は、実際のデータで不安定なパフォーマンスをもたらす可能性のある機能選択アプローチを通じて、これらの課題に対処しようと試みてきた。 これは、現在の手法には、異なるサンプルに共通するパターンをキャプチャする適切な帰納バイアスがないことを示唆している。 本稿では,サンプル間の均一性と不均一性を両立させて誘導バイアスを導入するプロトタイプベースニューラルモデルであるProtoGateを提案する。 ProtoGateはグローバルからローカルの方法で機能を選択し、解釈可能なプロトタイプベースのモデルを通じて説明可能な予測を生成する。 合成および実世界のデータセット上でのProtoGateの性能を評価するための総合的な実験を行う。 この結果から,データ中の同種パターンと異種パターンを利用することで予測精度を向上できることがわかった。

Tabular biomedical data poses challenges in machine learning because it is often high-dimensional and typically low-sample-size. Previous research has attempted to address these challenges via feature selection approaches, which can lead to unstable performance on real-world data. This suggests that current methods lack appropriate inductive biases that capture patterns common to different samples. In this paper, we propose ProtoGate, a prototype-based neural model that introduces an inductive bias by attending to both homogeneity and heterogeneity across samples. ProtoGate selects features in a global-to-local manner and leverages them to produce explainable predictions via an interpretable prototype-based model. We conduct comprehensive experiments to evaluate the performance of ProtoGate on synthetic and real-world datasets. Our results show that exploiting the homogeneous and heterogeneous patterns in the data can improve prediction accuracy while prototypes imbue interpretability.
翻訳日:2023-06-22 12:47:53 公開日:2023-06-21
# インタラクションワーピングによるワンショット模倣学習

One-shot Imitation Learning via Interaction Warping ( http://arxiv.org/abs/2306.12392v1 )

ライセンス: Link先を確認
Ondrej Biza, Skye Thompson, Kishore Reddy Pagidi, Abhinav Kumar, Elise van der Pol, Robin Walters, Thomas Kipf, Jan-Willem van de Meent, Lawson L.S. Wong, Robert Platt(参考訳) デモの少ないロボットポリシーの模倣学習は、オープンエンドアプリケーションにおいて不可欠である。 本稿では,1つのデモンストレーションからSE(3)ロボット操作ポリシーを学習するためのインタラクションウォーピングを提案する。 オブジェクトインスタンス間のポイントクラウドをアライメントするテクニックであるshape warpingを用いて、環境内の各オブジェクトの3dメッシュを推定する。 次に、操作動作をオブジェクト上のキーポイントとして表現し、オブジェクトの形状を歪めることができる。 3つのシミュレーションおよび実世界のオブジェクト再配置タスクで1ショットの模倣学習を成功させる。 また,本手法が野生の物体メッシュやロボットの把持を予測できることを示す。

Imitation learning of robot policies from few demonstrations is crucial in open-ended applications. We propose a new method, Interaction Warping, for learning SE(3) robotic manipulation policies from a single demonstration. We infer the 3D mesh of each object in the environment using shape warping, a technique for aligning point clouds across object instances. Then, we represent manipulation actions as keypoints on objects, which can be warped with the shape of the object. We show successful one-shot imitation learning on three simulated and real-world object re-arrangement tasks. We also demonstrate the ability of our method to predict object meshes and robot grasps in the wild.
翻訳日:2023-06-22 12:41:29 公開日:2023-06-21
# 制約解決のレンズによるソフトウェア要件の優先順位付けの改善

Improving Software Requirements Prioritization through the Lens of Constraint Solving ( http://arxiv.org/abs/2306.12391v1 )

ライセンス: Link先を確認
Jonathan Winton and Francis Palma(参考訳) 要件の優先順位付けは、初期のソフトウェア開発プロセスにおいて重要な活動であり、実装すべき重要な要件のセットを生成します。 優先順位付けプロセスは、エンドユーザの好み、実装コスト、技術的な依存関係など、複数の特性に基づく要件の同等性を提供します。 本稿では,ペアワイズ比較と制約解法を用いて,要求優先順位付けをインタラクティブに行う手法を提案する。 本手法は,要求文書から既存の知識に基づいて要求間の相対的優先度を決定できない場合に,要求分析者からの知識のインタラクティブな蓄積を用いる。 要件の最終ランキングは、制約解決器と対話的なペアワイズ比較によって作成される。 提案手法は, 実際の医療プロジェクトから要求された要件を用いて評価する。 制約解法に依存した優先順位付け手法は, アナリストの誤りに対する有効性と堅牢性の観点から, 最先端の対話的優先順位付け手法より優れる。

Requirements prioritization is a critical activity during the early software development process, which produces a set of key requirements to implement. The prioritization process offers a parity among the requirements based on multiple characteristics, including end-users' preferences, cost to implement, and technical dependencies. This paper presents an interactive method to requirements prioritization that leverages the pairwise comparisons and a constraint solver. Our method employs an interactive accumulation of knowledge from the requirements analyst when the relative priority among the requirements cannot be determined based on the existing knowledge from the requirements documents. The final ranking of the requirements is produced via the constraint solver and interactive pairwise comparisons. We evaluate the proposed method using the requirements from a real healthcare project. The proposed prioritization method relying on a constraint solver outperforms state-of-the-art interactive prioritization methods in terms of effectiveness and robustness to analyst's errors.
翻訳日:2023-06-22 12:41:20 公開日:2023-06-21
# さらなるマスク言語モデリングを用いた模擬環境下での対話接地課題の解決

Solving Dialogue Grounding Embodied Task in a Simulated Environment using Further Masked Language Modeling ( http://arxiv.org/abs/2306.12387v1 )

ライセンス: Link先を確認
Weijie Jack Zhang(参考訳) 人間の理解に沿う効率的なコミュニケーションスキルを備えたAIシステムの強化は、人間のユーザへの効果的な支援に不可欠である。 システム側からの積極的な取り組みは、特定の状況を特定し、これらのシナリオを解決するためにユーザーと適切に対話するために必要である。 本研究では,Minecraftデータセットから抽出した集合的なビルディング割り当てを選択する。 提案手法は,言語モデルを用いた最先端(sota)手法によるタスク理解を強化するために,言語モデルを用いる。 これらのモデルは、マルチモーダル理解とタスク指向対話理解タスクの接地に焦点を当てている。 この焦点は、これらのモデルが様々な入力やタスクをどのように解釈し、どのように反応するかについての洞察を得るのに役立つ。 実験の結果,提案手法が優れていることを示す証拠が得られた。 これは大幅な改善を示し、この分野の今後の研究に有望な方向に向かっている。

Enhancing AI systems with efficient communication skills that align with human understanding is crucial for their effective assistance to human users. Proactive initiatives from the system side are needed to discern specific circumstances and interact aptly with users to solve these scenarios. In this research, we opt for a collective building assignment taken from the Minecraft dataset. Our proposed method employs language modeling to enhance task understanding through state-of-the-art (SOTA) methods using language models. These models focus on grounding multi-modal understandinging and task-oriented dialogue comprehension tasks. This focus aids in gaining insights into how well these models interpret and respond to a variety of inputs and tasks. Our experimental results provide compelling evidence of the superiority of our proposed method. This showcases a substantial improvement and points towards a promising direction for future research in this domain.
翻訳日:2023-06-22 12:41:07 公開日:2023-06-21
# $\mathbf{\mathbb{e}^{fwi}}$:地球物性の弾性フル波形インバージョンのためのマルチパラメータベンチマークデータセット

$\mathbf{\mathbb{E}^{FWI}}$: Multi-parameter Benchmark Datasets for Elastic Full Waveform Inversion of Geophysical Properties ( http://arxiv.org/abs/2306.12386v1 )

ライセンス: Link先を確認
Shihang Feng, Hanchen Wang, Chengyuan Deng, Yinan Feng, Yanhua Liu, Min Zhu, Peng Jin, Yinpeng Chen, Youzuo Lin(参考訳) 弾性的物理特性(p波とs波の速度など)は、co$_2$の隔離やエネルギー探査(例えば水素と地熱)のような様々な地下応用において非常に重要である。 弾性フルウェーブフォームインバージョン(FWI)は貯水池特性のキャラクタリゼーションに広く応用されている。 本稿では,elastic fwi用に特別に設計された総合ベンチマークデータセットである$\mathbf{\mathbb{e}^{fwi}}$を提案する。 $\mathbf{\mathbb{E}^{FWI}}$は、様々な地下地質構造(平坦、曲線、断層など)をカバーする8つの異なるデータセットを含んでいる。 3つの異なるディープラーニング手法によるベンチマーク結果を提供する。 これまでに提示した音響FWI(OpenFWI)の圧力記録とは対照的に,$\mathbf{\mathbb{E}^{FWI}}$の地震データには垂直成分と水平成分の両方がある。 さらに、$\mathbf{\mathbb{E}^{FWI}}$ の速度写像は、P波とS波の両方の速度を包含する。 多成分データと付加S波速度はデータをより現実的にするが、逆転の収束と計算コストに関してさらなる課題が持ち込まれる。 我々は地震データにおけるP波とS波速度の関係を総合的な数値実験により調べる。 P波速度とS波速度の関係は、リソロジー、ポーシティ、流体含量などの地下特性に重要な洞察を与える。 我々は、炭素ゼロと新しいエネルギー探索のいくつかの重要な研究トピックにおいて、$\mathbf{\mathbb{E}^{FWI}}$がマルチパラメータインバージョンの研究を促進することを期待する。 すべてのデータセット、コード、関連する情報は、https://efwi-lanl.github.io/のwebサイトからアクセスできます。

Elastic geophysical properties (such as P- and S-wave velocities) are of great importance to various subsurface applications like CO$_2$ sequestration and energy exploration (e.g., hydrogen and geothermal). Elastic full waveform inversion (FWI) is widely applied for characterizing reservoir properties. In this paper, we introduce $\mathbf{\mathbb{E}^{FWI}}$, a comprehensive benchmark dataset that is specifically designed for elastic FWI. $\mathbf{\mathbb{E}^{FWI}}$ encompasses 8 distinct datasets that cover diverse subsurface geologic structures (flat, curve, faults, etc). The benchmark results produced by three different deep learning methods are provided. In contrast to our previously presented dataset (pressure recordings) for acoustic FWI (referred to as OpenFWI), the seismic dataset in $\mathbf{\mathbb{E}^{FWI}}$ has both vertical and horizontal components. Moreover, the velocity maps in $\mathbf{\mathbb{E}^{FWI}}$ incorporate both P- and S-wave velocities. While the multicomponent data and the added S-wave velocity make the data more realistic, more challenges are introduced regarding the convergence and computational cost of the inversion. We conduct comprehensive numerical experiments to explore the relationship between P-wave and S-wave velocities in seismic data. The relation between P- and S-wave velocities provides crucial insights into the subsurface properties such as lithology, porosity, fluid content, etc. We anticipate that $\mathbf{\mathbb{E}^{FWI}}$ will facilitate future research on multiparameter inversions and stimulate endeavors in several critical research topics of carbon-zero and new energy exploration. All datasets, codes and relevant information can be accessed through our website at https://efwi-lanl.github.io/
翻訳日:2023-06-22 12:40:53 公開日:2023-06-21
# Transformer Networkによる水理予測可能性の限界の提案

Probing the limit of hydrologic predictability with the Transformer network ( http://arxiv.org/abs/2306.12384v1 )

ライセンス: Link先を確認
Jiangtao Liu, Yuchen Bian and Chaopeng Shen(参考訳) 水文学の導入から何年も経って、長い短期記憶(LSTM)のようなリカレントニューラルネットワークは、既知の同等のベンチマークで毎日のヒドログラフのメトリクスをはるかに上回ることが証明されている。 水文学以外では、トランスフォーマーはシーケンシャルな予測タスクの選択モデルとなり、調査する好奇心をそそるアーキテクチャとなっている。 ここでは,広範にベンチマークされたCAMELSデータセット上で,バニラトランスフォーマーアーキテクチャがLSTMと競合しないことを示す。 しかし、Transformerの再発のない変種はLSTMとの混合比較を得ることができ、同じKling-Gupta効率係数(KGE)を他の指標とともに生成する。 変圧器の利点の欠如は、水文予測問題のマルコフ的性質と関係している。 LSTMと同様に、Transformerは複数の強制データセットをマージしてモデルパフォーマンスを向上させることもできる。 1)バニラトランスフォーマーアーキテクチャは水理モデリングには適さない; (2) 提案された再発のない変更はトランスフォーマーのパフォーマンスを改善し、将来の作業でこうした修正をより多くテストできるようにし、(3) データセットの予測限界は現在の最先端モデルに近いものにすべきである。 非リカレントモデルとして、トランスフォーマーは、より大きなデータセットから学び、知識を保存するためのスケール上の利点を持つかもしれない。 この作業は、モデルの将来的な変更の参照ポイントとして機能する。

For a number of years since its introduction to hydrology, recurrent neural networks like long short-term memory (LSTM) have proven remarkably difficult to surpass in terms of daily hydrograph metrics on known, comparable benchmarks. Outside of hydrology, Transformers have now become the model of choice for sequential prediction tasks, making it a curious architecture to investigate. Here, we first show that a vanilla Transformer architecture is not competitive against LSTM on the widely benchmarked CAMELS dataset, and lagged especially for the high-flow metrics due to short-term processes. However, a recurrence-free variant of Transformer can obtain mixed comparisons with LSTM, producing the same Kling-Gupta efficiency coefficient (KGE), along with other metrics. The lack of advantages for the Transformer is linked to the Markovian nature of the hydrologic prediction problem. Similar to LSTM, the Transformer can also merge multiple forcing dataset to improve model performance. While the Transformer results are not higher than current state-of-the-art, we still learned some valuable lessons: (1) the vanilla Transformer architecture is not suitable for hydrologic modeling; (2) the proposed recurrence-free modification can improve Transformer performance so future work can continue to test more of such modifications; and (3) the prediction limits on the dataset should be close to the current state-of-the-art model. As a non-recurrent model, the Transformer may bear scale advantages for learning from bigger datasets and storing knowledge. This work serves as a reference point for future modifications of the model.
翻訳日:2023-06-22 12:40:23 公開日:2023-06-21
# 二次バンドのサンプル複雑性:ヘッセン依存境界と最適アルゴリズム

Sample Complexity for Quadratic Bandits: Hessian Dependent Bounds and Optimal Algorithms ( http://arxiv.org/abs/2306.12383v1 )

ライセンス: Link先を確認
Qian Yu, Yining Wang, Baihe Huang, Qi Lei, Jason D. Lee(参考訳) 確率的ゼロ次最適化において、実用的妥当性の問題は、対象関数の局所幾何を完全に活用する方法を理解することである。 目的関数が二次的となる基本的な設定を考察し、最適なヘッセン依存サンプルの複雑性を初めて厳密に評価する。 私たちの貢献は2倍です。 まず,情報理論的な観点から,探索アルゴリズムと対象関数の幾何との相互作用を捉えたエネルギー割当という概念を導入することで,ヘッセン依存複素性に対する厳密な下界を証明した。 最適エネルギースペクトルを解くことにより、一致する上界を得る。 そして,アルゴリズムにより,全ヘッセンインスタンスの漸近的最適サンプル複雑性を普遍的に達成するヘッセン独立アルゴリズムの存在を示す。 提案アルゴリズムは, トランケーション法により実現された重み付き雑音分布に対して, 最適なサンプル複素量を示す。

In stochastic zeroth-order optimization, a problem of practical relevance is understanding how to fully exploit the local geometry of the underlying objective function. We consider a fundamental setting in which the objective function is quadratic, and provide the first tight characterization of the optimal Hessian-dependent sample complexity. Our contribution is twofold. First, from an information-theoretic point of view, we prove tight lower bounds on Hessian-dependent complexities by introducing a concept called energy allocation, which captures the interaction between the searching algorithm and the geometry of objective functions. A matching upper bound is obtained by solving the optimal energy spectrum. Then, algorithmically, we show the existence of a Hessian-independent algorithm that universally achieves the asymptotic optimal sample complexities for all Hessian instances. The optimal sample complexities achieved by our algorithm remain valid for heavy-tailed noise distributions, which are enabled by a truncation method.
翻訳日:2023-06-22 12:39:58 公開日:2023-06-21
# ギブズアルゴリズムの検証について--トレーニングデータセット,テストデータセットとその集約

On the Validation of Gibbs Algorithms: Training Datasets, Test Datasets and their Aggregation ( http://arxiv.org/abs/2306.12380v1 )

ライセンス: Link先を確認
Samir M. Perlaza, I\~naki Esnaola, Gaetan Bisson, H. Vincent Poor(参考訳) Gibbsアルゴリズム(GA)のトレーニングデータへの依存を解析的に特徴付ける。 期待される経験的リスクを性能指標として採用することにより、GAの感度を閉じた形で得られる。 この場合、感度は任意の代替アルゴリズムに対する性能の差である。 この記述により、異なるデータセットでトレーニングされたGAのトレーニングエラーとテストエラーを含む明示的な表現の開発が可能になる。 これらのツールを用いて、データセットアグリゲーションを研究し、GAの一般化能力を評価するために、さまざまなメリットの指標を導入する。 このようなデータセットとガスのパラメータの特定のサイズでは、jeffreyの発散、トレーニング、テストエラーの関連が確立される。

The dependence on training data of the Gibbs algorithm (GA) is analytically characterized. By adopting the expected empirical risk as the performance metric, the sensitivity of the GA is obtained in closed form. In this case, sensitivity is the performance difference with respect to an arbitrary alternative algorithm. This description enables the development of explicit expressions involving the training errors and test errors of GAs trained with different datasets. Using these tools, dataset aggregation is studied and different figures of merit to evaluate the generalization capabilities of GAs are introduced. For particular sizes of such datasets and parameters of the GAs, a connection between Jeffrey's divergence, training and test errors is established.
翻訳日:2023-06-22 12:39:41 公開日:2023-06-21
# k$-NNポジショニングのための幾何学的アルゴリズム

Geometric Algorithms for $k$-NN Poisoning ( http://arxiv.org/abs/2306.12377v1 )

ライセンス: Link先を確認
Diego Ihara Centurion, Karine Chubarian, Bohan Fan, Francesco Sgherzi, Thiruvenkadam S Radhakrishnan, Anastasios Sidiropoulos, Angelo Straight(参考訳) 我々は,k$-nearest近傍分類に対する幾何データセットに対するラベル中毒攻撃を提案する。 与えられたデータ集合に対して、$x \in \mathbb{r}^d$, ここで$|x| = n$ である$n\cdot 2^{2^{o(d+k/\varepsilon)}} における最適な毒素の$\varepsilon n$-additive approximation を計算するアルゴリズムを提供する。 提案アルゴリズムは,マルチスケールランダムパーティションの適用により,その目的を達成する。

We propose a label poisoning attack on geometric data sets against $k$-nearest neighbor classification. We provide an algorithm that can compute an $\varepsilon n$-additive approximation of the optimal poisoning in $n\cdot 2^{2^{O(d+k/\varepsilon)}}$ time for a given data set $X \in \mathbb{R}^d$, where $|X| = n$. Our algorithm achieves its objectives through the application of multi-scale random partitions.
翻訳日:2023-06-22 12:39:31 公開日:2023-06-21
# M-VAAL:下流医用画像解析タスクのためのマルチモーダル変分適応型能動学習

M-VAAL: Multimodal Variational Adversarial Active Learning for Downstream Medical Image Analysis Tasks ( http://arxiv.org/abs/2306.12376v1 )

ライセンス: Link先を確認
Bidur Khanal, Binod Bhattarai, Bishesh Khanal, Danail Stoyanov, Cristian A. Linte(参考訳) 適切な注釈付きデータの取得は、専門家、時間消費プロトコル、厳格な検証を必要とするため、医療分野では高価である。 アクティブラーニングは、アノテーションの最も有益な例を積極的にサンプリングすることで、大きな注釈付きサンプルの必要性を最小化しようとする。 これらの例は、教師付き機械学習モデルの性能向上に大きく寄与し、ディープラーニングに基づく診断、臨床評価、治療計画において最も適切な情報を選択する上で、アクティブラーニングが不可欠な役割を果たす。 医用画像解析におけるアノテーションの最良の例をサンプリングする手法が提案されているが、それらはタスクに依存しず、サンプル装置にマルチモーダル補助情報を使用しておらず、堅牢性を高める可能性がある。 そこで本研究では,付加的なモダリティからの補助情報を用いて,アクティブサンプリングを強化するマルチモーダル変分適応型アクティブラーニング(M-VAAL)手法を提案する。 提案手法を2つのデータセットに適用した。 一 BraTS2018データセットを用いた脳腫瘍の分類及び多ラベル分類及び 二 COVID-QU-Exデータセットを用いた胸部X線画像分類。 本研究は限定的なアノテーションによるデータ効率のよい学習に向けた有望な方向性を示す。

Acquiring properly annotated data is expensive in the medical field as it requires experts, time-consuming protocols, and rigorous validation. Active learning attempts to minimize the need for large annotated samples by actively sampling the most informative examples for annotation. These examples contribute significantly to improving the performance of supervised machine learning models, and thus, active learning can play an essential role in selecting the most appropriate information in deep learning-based diagnosis, clinical assessments, and treatment planning. Although some existing works have proposed methods for sampling the best examples for annotation in medical image analysis, they are not task-agnostic and do not use multimodal auxiliary information in the sampler, which has the potential to increase robustness. Therefore, in this work, we propose a Multimodal Variational Adversarial Active Learning (M-VAAL) method that uses auxiliary information from additional modalities to enhance the active sampling. We applied our method to two datasets: i) brain tumor segmentation and multi-label classification using the BraTS2018 dataset, and ii) chest X-ray image classification using the COVID-QU-Ex dataset. Our results show a promising direction toward data-efficient learning under limited annotations.
翻訳日:2023-06-22 12:39:17 公開日:2023-06-21
# 動的システムの最適アクティブ探索

Optimistic Active Exploration of Dynamical Systems ( http://arxiv.org/abs/2306.12371v1 )

ライセンス: Link先を確認
Bhavya Sukhija, Lenart Treven, Cansu Sancaktar, Sebastian Blaes, Stelian Coros, Andreas Krause(参考訳) 強化学習アルゴリズムは、通常、特定のタスクを解決するためのポリシーを最適化しようとする。 推定モデルによってゼロショット方式で複数のダウンストリームタスクを解決できるような未知の力学系をどのように探せばよいのか? 本稿では,この課題に対して,アクティブな探索のためのアルゴリズムであるOPAXを開発した。 OPAXは、よく校正された確率モデルを用いて、未知のダイナミクスに関する疫学的な不確かさを定量化する。 それは楽観的に -- w.r.t. to plausible dynamics -- 未知のダイナミクスと状態観察の間の情報ゲインを最大化する。 提案手法では, 結果の最適化問題を各エピソードで標準手法を用いて解くことができる最適制御問題に還元する方法を示す。 一般モデルに対してアルゴリズムを解析し,ガウス過程ダイナミクスの場合,サンプル複雑性を限定し,認識的不確かさがゼロに収束することを示す。 実験では,OPAXと他のヒューリスティックな探索手法との比較を行った。 実験の結果,OPAXは理論的に健全であるだけでなく,新しい下流タスクのゼロショット計画にも有効であることがわかった。

Reinforcement learning algorithms commonly seek to optimize policies for solving one particular task. How should we explore an unknown dynamical system such that the estimated model allows us to solve multiple downstream tasks in a zero-shot manner? In this paper, we address this challenge, by developing an algorithm -- OPAX -- for active exploration. OPAX uses well-calibrated probabilistic models to quantify the epistemic uncertainty about the unknown dynamics. It optimistically -- w.r.t. to plausible dynamics -- maximizes the information gain between the unknown dynamics and state observations. We show how the resulting optimization problem can be reduced to an optimal control problem that can be solved at each episode using standard approaches. We analyze our algorithm for general models, and, in the case of Gaussian process dynamics, we give a sample complexity bound and show that the epistemic uncertainty converges to zero. In our experiments, we compare OPAX with other heuristic active exploration approaches on several environments. Our experiments show that OPAX is not only theoretically sound but also performs well for zero-shot planning on novel downstream tasks.
翻訳日:2023-06-22 12:38:58 公開日:2023-06-21
# VisoGender:画像文代名詞分解における性別バイアスのベンチマーク用データセット

VisoGender: A dataset for benchmarking gender bias in image-text pronoun resolution ( http://arxiv.org/abs/2306.12424v1 )

ライセンス: Link先を確認
Siobhan Mackenzie Hall, Fernanda Gon\c{c}alves Abrantes, Hanwen Zhu, Grace Sodunke, Aleksandar Shtedritski, Hannah Rose Kirk(参考訳) 視覚言語モデルにおける性別バイアスをベンチマークするための新しいデータセットであるVisoGenderを紹介する。 ウィノグラード・アンド・ウィノゲダー・スキーマに触発された職業関連ジェンダーバイアスに着目し,各画像は場面における被写体と対象の代名詞関係を含むキャプションに関連付けられる。 VisoGenderは、職業的役割における性別表現によってバランスが取れ、バイアス評価を2つの方法で支援する。 一 男性と女性のジェンダー解決精度の差を評価する解決バイアス 二 性別中立な検索クエリのために検索された男女のプロの比率を比較する検索バイアス。 我々は最先端の視覚言語モデルをいくつかベンチマークし、複雑なシーンで正しく性別を解決できる推論能力が欠けていることを突き止めた。 ジェンダーバイアスの方向と大きさはタスクと評価されるモデルに依存するが、キャプションモデルは一般的にCLIPのようなモデルよりも正確でバイアスが少ない。 データセットとコードはhttps://github.com/oxai/visogenderで入手できる。

We introduce VisoGender, a novel dataset for benchmarking gender bias in vision-language models. We focus on occupation-related gender biases, inspired by Winograd and Winogender schemas, where each image is associated with a caption containing a pronoun relationship of subjects and objects in the scene. VisoGender is balanced by gender representation in professional roles, supporting bias evaluation in two ways: i) resolution bias, where we evaluate the difference between gender resolution accuracies for men and women and ii) retrieval bias, where we compare ratios of male and female professionals retrieved for a gender-neutral search query. We benchmark several state-of-the-art vision-language models and find that they lack the reasoning abilities to correctly resolve gender in complex scenes. While the direction and magnitude of gender bias depends on the task and the model being evaluated, captioning models generally are more accurate and less biased than CLIP-like models. Dataset and code are available at https://github.com/oxai/visogender
翻訳日:2023-06-22 12:31:00 公開日:2023-06-21
# モジュール化コードベースを用いた3次元画像合成のベンチマークと解析

Benchmarking and Analyzing 3D-aware Image Synthesis with a Modularized Codebase ( http://arxiv.org/abs/2306.12423v1 )

ライセンス: Link先を確認
Qiuyu Wang, Zifan Shi, Kecheng Zheng, Yinghao Xu, Sida Peng, Yujun Shen(参考訳) 3D画像合成の急速な進歩にもかかわらず、既存の研究は通常、テクニックとトリックの混合を採用しており、それぞれの部分が一般性において最終的なパフォーマンスにどのように貢献するかは明らかでない。 neural radiance field(nerf)をgan(generative adversarial network)のジェネレータに組み込んだこの分野で最もポピュラーで効果的なパラダイムに従って、私たちは、生成プロセスをモジュール化することで、carverと呼ばれるよく構造化されたコードベースを構築します。 このような設計により、研究者はそれぞれのモジュールを独立して開発し、置き換えることができるため、様々なアプローチを適切に比較し、モジュールの観点から貢献を認識する機会が得られる。 最先端のアルゴリズムの再現は、モジュール化されたコードベースの可用性を示しています。 また,様々な種類の点特性の比較,ジェネレータにおけるテーリングアップサンプラーの必要性,カメラの姿勢への依存度など,様々な詳細な分析を行い,既存の手法の理解を深め,研究の今後の方向性を指摘する。 私たちは、このフィールドの開発と評価を容易にするために、https://github.com/qiuyu96/Carverでコードとモデルをリリースします。

Despite the rapid advance of 3D-aware image synthesis, existing studies usually adopt a mixture of techniques and tricks, leaving it unclear how each part contributes to the final performance in terms of generality. Following the most popular and effective paradigm in this field, which incorporates a neural radiance field (NeRF) into the generator of a generative adversarial network (GAN), we build a well-structured codebase, dubbed Carver, through modularizing the generation process. Such a design allows researchers to develop and replace each module independently, and hence offers an opportunity to fairly compare various approaches and recognize their contributions from the module perspective. The reproduction of a range of cutting-edge algorithms demonstrates the availability of our modularized codebase. We also perform a variety of in-depth analyses, such as the comparison across different types of point feature, the necessity of the tailing upsampler in the generator, the reliance on the camera pose prior, etc., which deepen our understanding of existing methods and point out some further directions of the research work. We release code and models at https://github.com/qiuyu96/Carver to facilitate the development and evaluation of this field.
翻訳日:2023-06-22 12:30:41 公開日:2023-06-21
# DreamTime: テキストから3Dコンテンツ作成のための最適化戦略の改善

DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation ( http://arxiv.org/abs/2306.12422v1 )

ライセンス: Link先を確認
Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang(参考訳) 何十億もの画像テキスト対に事前トレーニングされたテキスト対拡散モデルにより, ランダム初期化ニューラルラジアンス場(NeRF)をスコア蒸留で最適化することにより, テキスト対3Dコンテンツ作成が可能となった。 しかし、結果として得られた3Dモデルには2つの制限がある。 (a)飽和色及びジャヌス問題等の品質問題 (b)テキスト誘導画像合成と比較して極端に多様性が低い。 本稿では,NeRF最適化プロセスとスコア蒸留における一様時間ステップサンプリングの矛盾が,これらの制限の主な原因であることを示す。 この対立を解決するために,NeRF最適化を拡散モデルのサンプリングプロセスと整合させる単調な非増加関数を用いた時間ステップサンプリングの優先順位付けを提案する。 大規模な実験により、我々の単純な再設計により、より高品質で多様な3Dコンテンツ作成が大幅に改善された。

Text-to-image diffusion models pre-trained on billions of image-text pairs have recently enabled text-to-3D content creation by optimizing a randomly initialized Neural Radiance Fields (NeRF) with score distillation. However, the resultant 3D models exhibit two limitations: (a) quality concerns such as saturated color and the Janus problem; (b) extremely low diversity comparing to text-guided image synthesis. In this paper, we show that the conflict between NeRF optimization process and uniform timestep sampling in score distillation is the main reason for these limitations. To resolve this conflict, we propose to prioritize timestep sampling with monotonically non-increasing functions, which aligns NeRF optimization with the sampling process of diffusion model. Extensive experiments show that our simple redesign significantly improves text-to-3D content creation with higher quality and diversity.
翻訳日:2023-06-22 12:30:18 公開日:2023-06-21
# 衛星中継による量子メモリのないグローバル量子通信

Satellite Relayed Global Quantum Communication without Quantum Memory ( http://arxiv.org/abs/2306.12421v1 )

ライセンス: Link先を確認
Sumit Goswami, Sayandip Dhara(参考訳) 光子損失は量子通信の発展における根本的な問題である。 本稿では,光子損失を遠方でも軽減し,グローバルな量子通信アーキテクチャを構築することを提案する。 この提案では、光子は共動する低軌道衛星の連鎖を用いて、直接宇宙に送られる。 このサテライトチェーンは、光子を曲げて地球の曲率に沿って動き、回折による光子損失を制御し、光学テーブル上のレンズのように効果的に振る舞う。 これらの「衛星レンズ」による光子伝播の数値モデリングは、各衛星におけるビーム切断と異なる誤差の影響を考慮して、2万kmの距離でも、絡み合い分布の回折損失をほぼ排除できることを示した。 回折損失がない場合には、他の損失(特に反射損失)の影響が重要となり、詳細に研究される。 総損失は2万kmで30dB未満と推定され、他の損失が各衛星で2%に制限され、120kmの衛星分離と60cmの衛星望遠鏡が回折損失を排除している。 このような低損失衛星ベースの光リレープロトコルは、堅牢でマルチモードのグローバル量子通信を可能にし、量子メモリやリピータプロトコルは必要としない。 このプロトコルは、ほぼすべての距離範囲(200 - 20,000 km)で最小の損失となることもある。 近年の宇宙技術の進歩により、衛星中継ネットワークの打ち上げ施設が手頃な価格になる可能性がある。 さらに, 地上に残されている光子源と検出器の両方に対して, 長大なアドバンテージを持つ "qubit transmission" プロトコルについても紹介する。 特定のレンズの設定は、衛星アップリンクの大気乱流を含むシミュレーションでうまく機能する「量子伝送」プロトコルのために設計された。

Photon loss is the fundamental issue toward the development of quantum communication. We present a proposal to mitigate photon loss even at large distances and hence to create a global-scale quantum communication architecture. In this proposal, photons are sent directly through space, using a chain of co-moving low-earth orbit satellites. This satellite chain would bend the photons to move along the earth's curvature and control photon loss due to diffraction by effectively behaving like a set of lenses on an optical table. Numerical modeling of photon propagation through these "satellite lenses" shows that diffraction loss in entanglement distribution can be almost eliminated even at global distances of 20,000 km while considering beam truncation at each satellite and the effect of different errors. In the absence of diffraction loss, the effect of other losses (especially reflection loss) becomes important and they are investigated in detail. The total loss is estimated to be less than 30 dB at 20,000 km if other losses are constrained to 2% at each satellite, with 120 km satellite separation and 60 cm diameter satellite telescopes eliminating diffraction loss. Such low-loss satellite-based optical-relay protocol would enable robust, multi-mode global quantum communication and wouldn't require either quantum memories or repeater protocol. The protocol can also be the least lossy in almost all distance ranges available (200 - 20,000 km). Recent advances in space technologies may soon enable affordable launch facilities for such a satellite-relay network. We further introduce the "qubit transmission" protocol which has a plethora of advantages with both the photon source and the detector remaining on the ground. A specific lens setup was designed for the "qubit transmission" protocol which performed well in simulation that included atmospheric turbulence in the satellite uplink.
翻訳日:2023-06-22 12:30:01 公開日:2023-06-21
# lmflow: 大規模基礎モデルの微調整と推論のための拡張性ツールキット

LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models ( http://arxiv.org/abs/2306.12420v1 )

ライセンス: Link先を確認
Shizhe Diao, Rui Pan, Hanze Dong, Ka Shun Shum, Jipeng Zhang, Wei Xiong, Tong Zhang(参考訳) 大規模な基礎モデルでは、従来のアプローチをはるかに超えて、一般的な人間レベルの知性を達成する能力が示されています。 この技術がAIコミュニティから注目を集めているため、より大規模な基盤モデルが公開されるようになった。 しかし、これらのモデルのほとんどは、良好な性能を得るためには微調整のステップが依然として必要であり、特殊タスク応用において大きな欠陥がある。 利用可能なモデルや専門的なタスクの数が増え続けるにつれ、一般的な微調整の仕事は非常に非自明になる。 本稿では,この問題に対処するための第一歩を踏み出す。 汎用的な大規模基盤モデルの微調整と推論を簡略化することを目的とした拡張可能で軽量なツールキットLMFlowを導入する。 LMFlowは、限られたコンピューティングリソースでパーソナライズされたトレーニングをサポートするために、大規模な基盤モデルのための完全な微調整ワークフローを提供する。 さらに、継続的事前トレーニング、命令チューニング、パラメータ効率の高い微調整、アライメントチューニング、大規模なモデル推論、そして慎重に設計され拡張可能なAPIをサポートする。 このツールキットは徹底的にテストされており、https://github.com/OptimalScale/LMFlow.comで入手できる。

Large foundation models have demonstrated a great ability to achieve general human-level intelligence far beyond traditional approaches. As the technique keeps attracting attention from the AI community, more and more large foundation models have become publically available. However, most of those models exhibit a major deficiency in specialized-task applications, where the step of finetuning is still required for obtaining satisfactory performance. As the number of available models and specialized tasks keeps growing, the job of general finetuning becomes highly nontrivial. In this paper, we take the first step to address this issue. We introduce an extensible and lightweight toolkit, LMFlow, which aims to simplify the finetuning and inference of general large foundation models. LMFlow offers a complete finetuning workflow for a large foundation model to support personalized training with limited computing resources. Furthermore, it supports continuous pretraining, instruction tuning, parameter-efficient finetuning, alignment tuning, and large model inference, along with carefully designed and extensible APIs. This toolkit has been thoroughly tested and is available at https://github.com/OptimalScale/LMFlow.
翻訳日:2023-06-22 12:29:32 公開日:2023-06-21
# 量子ソフトカバー型補題と量子チャネルによる速度歪み符号化、解離性および識別への応用

Quantum soft-covering lemma with applications to rate-distortion coding, resolvability and identification via quantum channels ( http://arxiv.org/abs/2306.12416v1 )

ライセンス: Link先を確認
Touheed Anwar Atif and S. Sandeep Pradhan and Andreas Winter(参考訳) 本研究では、与えられた一般量子チャネルとその出力状態の1つに対して、与えられたチャネル出力を近似するために必要な入力状態の最小ランクを求める量子ソフトカバー問題を提案する。 次に、量子シャノン理論からの分離技術を利用して、滑らかなミンエントロピーの観点から一発の量子被覆補題を証明する。 この被覆結果は、後(逆)チャネル歪み基準の下でのレート歪みの符号化定理(Atif, Sohail, Pradhan, arXiv:2302.00625]と等価であることが示されている。 どちらのワンショット結果も、チャネルのコヒーレントな情報の観点から、i.d. asymsymoticsに関するコログを直接生成する。 量子被覆補題のパワーは、2つの追加の応用によって証明される: まず、量子チャネル分解可能性問題を定式化し、漸近的な上界と下界を与える。 第2に,量子チャネルの非制限かつ同時識別能力に関する新たな上限,特に,非制限チャネルとの同時識別能力が初めて分離され,最後の著者の長年の予想が証明される。

We propose a quantum soft-covering problem for a given general quantum channel and one of its output states, which consists in finding the minimum rank of an input state needed to approximate the given channel output. We then prove a one-shot quantum covering lemma in terms of smooth min-entropies by leveraging decoupling techniques from quantum Shannon theory. This covering result is shown to be equivalent to a coding theorem for rate distortion under a posterior (reverse) channel distortion criterion [Atif, Sohail, Pradhan, arXiv:2302.00625]. Both one-shot results directly yield corollaries about the i.i.d. asymptotics, in terms of the coherent information of the channel. The power of our quantum covering lemma is demonstrated by two additional applications: first, we formulate a quantum channel resolvability problem, and provide one-shot as well as asymptotic upper and lower bounds. Secondly, we provide new upper bounds on the unrestricted and simultaneous identification capacities of quantum channels, in particular separating for the first time the simultaneous identification capacity from the unrestricted one, proving a long-standing conjecture of the last author.
翻訳日:2023-06-22 12:29:15 公開日:2023-06-21
# 機械学習, 逆問題, 制御におけるその後の微分可能性に対する不連続ルートフィンディングの対応

Addressing Discontinuous Root-Finding for Subsequent Differentiability in Machine Learning, Inverse Problems, and Control ( http://arxiv.org/abs/2306.12413v1 )

ライセンス: Link先を確認
Daniel Johnson, Ronald Fedkiw(参考訳) 数学的定式化に固有の不連続性を持つ物理過程は多数存在する。 本論文は,2つの剛性体と変形性体の衝突事例と,その不連続性の本質的性質に動機付けられる。 衝突に対するインパルス応答は、衝突が起こらない場合の応答の欠如によって不連続であり、機械学習や逆問題、制御に典型的な微分可能性を必要とする数値的アプローチでは困難を引き起こす。 理論上, 数値的には, 衝突時間のパラメータに関する微分は, 衝突から分離する障壁に近づくと無限となることを証明し, リフトを用いて解空間を複雑化し, 障壁の反対側の解が正確な値として直接到達できるようにした。 続いて,非有界導関数が与える障壁をモーリゼーションし,標準数値的手法を応用し,滑らかで信頼性の高い方法でトンネルを往復できるようにした。 さらに、標準的なアプローチは、主に問題の数学的性質の理解の欠如(例えば、典型的なバックプロパゲーションは多くの微分規則を利用するが、L'Hopitalの規則を無視する)により、多くの方法で失敗することを示す。

There are many physical processes that have inherent discontinuities in their mathematical formulations. This paper is motivated by the specific case of collisions between two rigid or deformable bodies and the intrinsic nature of that discontinuity. The impulse response to a collision is discontinuous with the lack of any response when no collision occurs, which causes difficulties for numerical approaches that require differentiability which are typical in machine learning, inverse problems, and control. We theoretically and numerically demonstrate that the derivative of the collision time with respect to the parameters becomes infinite as one approaches the barrier separating colliding from not colliding, and use lifting to complexify the solution space so that solutions on the other side of the barrier are directly attainable as precise values. Subsequently, we mollify the barrier posed by the unbounded derivatives, so that one can tunnel back and forth in a smooth and reliable fashion facilitating the use of standard numerical approaches. Moreover, we illustrate that standard approaches fail in numerous ways mostly due to a lack of understanding of the mathematical nature of the problem (e.g. typical backpropagation utilizes many rules of differentiation, but ignores L'Hopital's rule).
翻訳日:2023-06-22 12:28:56 公開日:2023-06-21
# 非対称初期状態からの電荷変動のダイナミクス

Dynamics of charge fluctuations from asymmetric initial states ( http://arxiv.org/abs/2306.12404v1 )

ライセンス: Link先を確認
Bruno Bertini, Katja Klobas, Mario Collura, Pasquale Calabrese, Colin Rylands(参考訳) 保存電荷密度は、量子多体系において非常に特殊な観測可能量であり、建設によって力学に関する情報を符号化する。 したがって、それらの進化は一般的な観測可能なものよりもはるかに単純な解釈であり、任意の時間にシステムの状態に関する普遍的な情報を返すことが期待されている。 ここでは、電荷非対称初期状態で準備された系における保存U(1)電荷のゆらぎのダイナミクスについて検討する。 停止電荷のフルカウント統計とサブシステムと残りのサブシステムの量子エンタングルメントを電荷の対称性セクタに分解することにより,与えられたサブシステム内の電荷変動を特徴付ける。 初期状態が空間において均質であるとしても、電荷揺らぎは初期状態の電荷非対称性に起因する有効不均一性を生成することを示す。 この観測により、この問題を不均一な電荷対称状態上の電荷ゆらぎにマッピングし、最近開発された時空双対性アプローチを用いてそれを扱う。 相互作用可能なシステムに対する処理を専門にすることで、時空双対性アプローチと一般化された流体力学を組み合わせて明確な予測を求める。

Conserved-charge densities are very special observables in quantum many-body systems as, by construction, they encode information about the dynamics. Therefore, their evolution is expected to be of much simpler interpretation than that of generic observables and to return universal information on the state of the system at any given time. Here we study the dynamics of the fluctuations of conserved U (1) charges in systems that are prepared in charge-asymmetric initial states. We characterise the charge fluctuations in a given subsystem using the full-counting statistics of the truncated charge and the quantum entanglement between the subsystem and the rest resolved to the symmetry sectors of the charge. We show that, even though the initial states considered are homogeneous in space, the charge fluctuations generate an effective inhomogeneity due to the charge-asymmetric nature of the initial states. We use this observation to map the problem into that of charge fluctuations on inhomogeneous, charge-symmetric states and treat it using a recently developed space-time duality approach. Specialising the treatment to interacting integrable systems we combine the space-time duality approach with generalised hydrodynamics to find explicit predictions.
翻訳日:2023-06-22 12:28:33 公開日:2023-06-21
# タイムリー非同期階層型連合学習:収束の時代

Timely Asynchronous Hierarchical Federated Learning: Age of Convergence ( http://arxiv.org/abs/2306.12400v1 )

ライセンス: Link先を確認
Purbesh Mitra and Sennur Ulukus(参考訳) クライアントエッジクラウドフレームワークによる非同期階層型フェデレーション学習(AHFL)の設定を検討する。 クライアントはトレーニングされたパラメータをエッジサーバと交換し、ローカルに集約されたモデルを更新する。 このモデルは、ローカルクラスタ内のすべてのクライアントに送信される。 エッジサーバは、グローバルモデル集約のために中央クラウドサーバと通信する。 各クライアントの目標は、最適なトレーニングイテレーション時間を持つクライアントのタイムラインを維持しながら、グローバルモデルに収束することである。 密集したクラスタを持つシステムの収束基準について検討する。 分析の結果,固定平均時間軸を持つn$クライアントのシステムでは,ノードが$o(1)$のクラスタに分割される場合,そのノードが分散したクライアントベースを持つエッジサーバ群として構築される場合,有限時間の収束が確率的に保証されることがわかった。

We consider an asynchronous hierarchical federated learning (AHFL) setting with a client-edge-cloud framework. The clients exchange the trained parameters with their corresponding edge servers, which update the locally aggregated model. This model is then transmitted to all the clients in the local cluster. The edge servers communicate to the central cloud server for global model aggregation. The goal of each client is to converge to the global model, while maintaining timeliness of the clients, i.e., having optimum training iteration time. We investigate the convergence criteria for such a system with dense clusters. Our analysis shows that for a system of $n$ clients with fixed average timeliness, the convergence in finite time is probabilistically guaranteed, if the nodes are divided into $O(1)$ number of clusters, that is, if the system is built as a sparse set of edge servers with dense client bases each.
翻訳日:2023-06-22 12:28:13 公開日:2023-06-21
# アクティブラーニングのためのマルチタスク一貫性

Multi-Task Consistency for Active Learning ( http://arxiv.org/abs/2306.12398v1 )

ライセンス: Link先を確認
Aral Hekimoglu, Philipp Friedrich, Walter Zimmer, Michael Schmidt, Alvaro Marcos-Ramiro, Alois C. Knoll(参考訳) ビジョンタスクのための学習ベースのソリューションは、パフォーマンスと信頼性を確保するために大量のラベル付きトレーニングデータを必要とする。 単一タスクの視覚に基づく設定では、一貫性に基づく能動学習がアノテーションの情報的サンプルの選択に有効であることが証明されている。 しかし、マルチタスクネットワークにおける複数のタスク間の不整合を利用した研究は乏しい。 そこで本研究では,オブジェクト検出とセマンティクスセグメンテーションという2つの協調視覚タスクのための,新しいマルチタスクアクティブラーニング戦略を提案する。 提案手法は,両タスク間の矛盾を利用して情報的サンプルを同定する。 タスクの結合方法を規定する3つの制約を提案し、境界ボックスによって検出されたオブジェクトに属するピクセルを決定する方法を導入し、後に制約を不一致スコアとして定量化する。 提案手法の有効性を評価するため,マルチタスク能動学習のための複数のベースラインを確立し,両タスクのパフォーマンスに対処するマルチタスク能動学習比較に適した,平均検出セグメンテーション品質(mDSQ)を新たに導入する。 我々はnuImagesとA9データセットの広範な実験を行い、我々のアプローチがnuImagesの3.4% mDSQで既存の最先端メソッドより優れていることを示した。 提案手法は,完全な学習結果の95%を,利用可能なデータのわずか67%で達成し,ランダム選択に比べてラベルが20%少なく,最先端選択戦略に比べてラベルが5%少ない。 私たちのコードはレビュープロセス後に公開されます。

Learning-based solutions for vision tasks require a large amount of labeled training data to ensure their performance and reliability. In single-task vision-based settings, inconsistency-based active learning has proven to be effective in selecting informative samples for annotation. However, there is a lack of research exploiting the inconsistency between multiple tasks in multi-task networks. To address this gap, we propose a novel multi-task active learning strategy for two coupled vision tasks: object detection and semantic segmentation. Our approach leverages the inconsistency between them to identify informative samples across both tasks. We propose three constraints that specify how the tasks are coupled and introduce a method for determining the pixels belonging to the object detected by a bounding box, to later quantify the constraints as inconsistency scores. To evaluate the effectiveness of our approach, we establish multiple baselines for multi-task active learning and introduce a new metric, mean Detection Segmentation Quality (mDSQ), tailored for the multi-task active learning comparison that addresses the performance of both tasks. We conduct extensive experiments on the nuImages and A9 datasets, demonstrating that our approach outperforms existing state-of-the-art methods by up to 3.4% mDSQ on nuImages. Our approach achieves 95% of the fully-trained performance using only 67% of the available data, corresponding to 20% fewer labels compared to random selection and 5% fewer labels compared to state-of-the-art selection strategy. Our code will be made publicly available after the review process.
翻訳日:2023-06-22 12:27:58 公開日:2023-06-21
# enlighten-anything:segment anythingモデルが低光度画像エンハンスメントを満たすとき

Enlighten-anything:When Segment Anything Model Meets Low-light Image Enhancement ( http://arxiv.org/abs/2306.10286v2 )

ライセンス: Link先を確認
Qihan Zhao, Xiaofeng Zhang, Hao Tang, Chaochen Gu, Shanying Zhu(参考訳) 画像復元は低レベルの視覚的タスクであり、ほとんどのCNN手法はブラックボックスとして設計されており、透明性と固有の美学に欠ける。 多くの教師なしのアプローチは、低照度シーンにおける可視情報の劣化を無視しており、これは補完的な情報の集約に深刻な影響を与え、極端な状況下ではフュージョンアルゴリズムが十分に融合結果を生成することができない。 本稿では,SAMセグメンテーションのセグメンテーションの意味的意図を低照度画像に拡張・融合し,視覚的知覚に優れた融合画像を得るエンライエンアリングを提案する。 教師なし学習の一般化能力は大幅に向上し,lolデータセットを用いた実験により,ベースラインよりもpsnrでは3db,ssimでは8dbの改善が確認された。 SAMのゼロショット学習は、教師なしの低照度向上のための強力な補助を提供する。 Enlighten-anythingのソースコードはhttps://github.com/zhangbaijin/enlighten-anythingから取得できる。

Image restoration is a low-level visual task, and most CNN methods are designed as black boxes, lacking transparency and intrinsic aesthetics. Many unsupervised approaches ignore the degradation of visible information in low-light scenes, which will seriously affect the aggregation of complementary information and also make the fusion algorithm unable to produce satisfactory fusion results under extreme conditions. In this paper, we propose Enlighten-anything, which is able to enhance and fuse the semantic intent of SAM segmentation with low-light images to obtain fused images with good visual perception. The generalization ability of unsupervised learning is greatly improved, and experiments on LOL dataset are conducted to show that our method improves 3db in PSNR over baseline and 8 in SSIM. zero-shot learning of SAM introduces a powerful aid for unsupervised low-light enhancement. The source code of Enlighten-anything can be obtained from https://github.com/zhangbaijin/enlighten-anything
翻訳日:2023-06-22 10:43:44 公開日:2023-06-21
# the false dawn: チップマクロ配置のためのgoogleの強化学習の再評価

The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement ( http://arxiv.org/abs/2306.09633v3 )

ライセンス: Link先を確認
Igor L. Markov(参考訳) Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習(RL)が論争を引き起こした。 nature紙は、報告された結果を生成するために必要なほとんどの入力と、方法論におけるいくつかの重要なステップを支持した。 しかし、2つの異なる評価がギャップを埋め、Google RLが人間設計者より遅れており、よく知られたアルゴリズム(Simulated Annealing)、そして一般的な商用ソフトウェアよりも遅れていることを示した。 クロスチェックデータによると、Nature論文の完全性は、行動、分析、報告の誤りによって著しく損なわれている。

Reinforcement learning (RL) for physical design of silicon chips in a Google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and attracted critical media coverage. The Nature paper withheld most inputs needed to produce reported results and some critical steps in the methodology. But two separate evaluations filled in the gaps and demonstrated that Google RL lags behind human designers, behind a well-known algorithm (Simulated Annealing), and also behind generally-available commercial software. Crosschecked data indicate that the integrity of the Nature paper is substantially undermined owing to errors in the conduct, analysis and reporting.
翻訳日:2023-06-22 10:43:26 公開日:2023-06-21
# シーン理解のための因子的ニューラル表現

Factored Neural Representation for Scene Understanding ( http://arxiv.org/abs/2304.10950v3 )

ライセンス: Link先を確認
Yu-Shiang Wong, Niloy J. Mitra(参考訳) シーン理解における長年の目標は、ハードウェアの設定や事前設定を必要とせずに、生のrgb-dビデオから直接構築できる解釈可能で編集可能な表現を得ることである。 この問題は、複数の移動や変形する物体の存在において、はるかに難しい。 従来の手法では、単純化、シーン先行、事前訓練されたテンプレート、既知の変形モデルを組み合わせてセットアップにアプローチしている。 神経表現の出現、特に神経暗黙的表現と放射場は、集合的な幾何学、外観、物体の動きを捉えるエンドツーエンド最適化の可能性を開く。 しかし、現在のアプローチでは、グローバルなシーンエンコーディングが実現され、シーン内の動きが制限された、あるいは全くないマルチビューキャプチャーが想定される。 本研究では,単眼のRGB-Dビデオから直接学習し,物体の運動(剛性軌道)や変形(非剛性運動など)を明示的に符号化した物体レベルのニューラルプレゼンテーションを生成する,ファクタリングされたニューラルシーン表現を提案する。 我々は、合成データと実データの両方における一連のニューラルアプローチを評価し、表現が効率的で、解釈可能で、編集可能であることを示す(例えば、オブジェクトの軌跡を変更する)。 コードとデータはhttp://geometry.cs.ucl.ac.uk/projects/2023/factorednerfで入手できる。

A long-standing goal in scene understanding is to obtain interpretable and editable representations that can be directly constructed from a raw monocular RGB-D video, without requiring specialized hardware setup or priors. The problem is significantly more challenging in the presence of multiple moving and/or deforming objects. Traditional methods have approached the setup with a mix of simplifications, scene priors, pretrained templates, or known deformation models. The advent of neural representations, especially neural implicit representations and radiance fields, opens the possibility of end-to-end optimization to collectively capture geometry, appearance, and object motion. However, current approaches produce global scene encoding, assume multiview capture with limited or no motion in the scenes, and do not facilitate easy manipulation beyond novel view synthesis. In this work, we introduce a factored neural scene representation that can directly be learned from a monocular RGB-D video to produce object-level neural presentations with an explicit encoding of object movement (e.g., rigid trajectory) and/or deformations (e.g., nonrigid movement). We evaluate ours against a set of neural approaches on both synthetic and real data to demonstrate that the representation is efficient, interpretable, and editable (e.g., change object trajectory). Code and data are available at http://geometry.cs.ucl.ac.uk/projects/2023/factorednerf .
翻訳日:2023-06-22 10:43:11 公開日:2023-06-21
# 量子公開鍵による暗号化

Encryption with Quantum Public Keys ( http://arxiv.org/abs/2303.05368v3 )

ライセンス: Link先を確認
Alex B. Grilo, Or Sattath, Quoc-Huy Vu(参考訳) 古典的プロトコルよりも弱い計算仮定に依存する量子暗号プロトコルの構築を見つけることは重要な問題である。 近年,ブラックボックス方式の古典的設定では不可能であるが,一方の関数から不要な転送や多要素計算が構築できることが示されている。 本研究では,一方向関数や弱い仮定から量子公開鍵暗号スキームを構築する問題について検討する。 まず、IND-CPAセキュリティの定義をこの設定に再検討する。 そこで我々は,一方方向関数からの量子公開鍵暗号,擬似乱数関数様状態と擬似乱数関数様状態との3つのスキームを提案する。

It is an important question to find constructions of quantum cryptographic protocols which rely on weaker computational assumptions than classical protocols. Recently, it has been shown that oblivious transfer and multi-party computation can be constructed from one-way functions, whereas this is impossible in the classical setting in a black-box way. In this work, we study the question of building quantum public-key encryption schemes from one-way functions and even weaker assumptions. Firstly, we revisit the definition of IND-CPA security to this setting. Then, we propose three schemes for quantum public-key encryption from one-way functions, pseudorandom function-like states with proof of deletion and pseudorandom function-like states, respectively.
翻訳日:2023-06-22 10:42:46 公開日:2023-06-21
# LEAD:物理の観点からの最小最適化

LEAD: Min-Max Optimization from a Physical Perspective ( http://arxiv.org/abs/2010.13846v4 )

ライセンス: Link先を確認
Reyhane Askari Hemmat, Amartya Mitra, Guillaume Lajoie, Ioannis Mitliagkas(参考訳) generative adversarial networks (gans) のような敵対的定式化は、2人プレイのmin-maxゲームへの関心を再び高めた。 このようなゲームの最適化における中心的な障害は、その収束を妨げる回転動力学である。 本稿では,ゲーム最適化が複数の力を持つ粒子システムと動的特性を共有することを示し,物理のツールを活用すれば,最適化のダイナミクスを向上できることを示す。 物理フレームワークにヒントを得て,ミニマックスゲームのための最適化ツールLEADを提案する。 次に、リアプノフ安定理論とスペクトル解析を用いて、二次ミニマックスゲームの連続時間および離散時間設定におけるリードの収束特性を調べ、ナッシュ平衡への線形収束を示す。 最後に, 合成装置とCIFAR-10画像生成の手法を実証的に評価し, GANトレーニングの改善を実証した。

Adversarial formulations such as generative adversarial networks (GANs) have rekindled interest in two-player min-max games. A central obstacle in the optimization of such games is the rotational dynamics that hinder their convergence. In this paper, we show that game optimization shares dynamic properties with particle systems subject to multiple forces, and one can leverage tools from physics to improve optimization dynamics. Inspired by the physical framework, we propose LEAD, an optimizer for min-max games. Next, using Lyapunov stability theory and spectral analysis, we study LEAD's convergence properties in continuous and discrete time settings for a class of quadratic min-max games to demonstrate linear convergence to the Nash equilibrium. Finally, we empirically evaluate our method on synthetic setups and CIFAR-10 image generation to demonstrate improvements in GAN training.
翻訳日:2023-06-22 10:42:33 公開日:2023-06-21
# 量子ノイズ限定進行波パラメトリック増幅器の実証

Demonstration of a Quantum Noise Limited Traveling-Wave Parametric Amplifier ( http://arxiv.org/abs/2306.11028v2 )

ライセンス: Link先を確認
Nikita Klimovich, Peter Day, Shibo Shu, Byeong Ho Eom, Henry Leduc, and Andrew Beyer(参考訳) 量子コンピューティングの最近の進歩と天体物理学の新しい検出器技術の発展により、高利得、広帯域、量子制限増幅器の必要性が高まっている。 逆NbTiNマイクロストリップとアモルファスシリコン誘電体を用いた純進行波パラメトリック増幅器(TWPA)を提案する。 分散工学により、50〜\Omega$インピーダンスマッチングを得ることができ、様々な周波数で3波混合増幅を位相マッチングしながら、望ましくないパラメトリック過程を抑えることができる。 その結果、20dBゲインと20mKの量子制限ノイズ性能を備えたブロードバンド増幅器が動作した。 さらに、増幅器が位相感度の高い単一周波数において、真空ノイズの8dBを更に実証する。

Recent progress in quantum computing and the development of novel detector technologies for astrophysics is driving the need for high-gain, broadband, and quantum-limited amplifiers. We present a purely traveling-wave parametric amplifier (TWPA) using an inverted NbTiN microstrip and amorphous Silicon dielectric. Through dispersion engineering, we are able to obtain $50~\Omega$ impedance matching and suppress undesired parametric processes while phase matching the three-wave-mixing amplification across a large range of frequencies. The result is a broadband amplifier operating with 20 dB gain and quantum-limited noise performance at 20 mK. At the single frequency where the amplifier is phase sensitive, we further demonstrate 8 dB of vacuum noise squeezing.
翻訳日:2023-06-22 10:37:54 公開日:2023-06-21
# 科学書記支援のための微調整言語モデル

Fine-Tuning Language Models for Scientific Writing Support ( http://arxiv.org/abs/2306.10974v2 )

ライセンス: Link先を確認
Justin M\"ucke and Daria Waldow and Luise Metzger and Philipp Schauz and Marcel Hoffman and Nicolas Lell and Ansgar Scherp(参考訳) 我々は、文が科学的であるか否かを判断する科学作家を支援し、文を改善するためにパラフレーズを提案する。 まず,ピアレビューされた科学論文と非科学テキストから抽出された科学文のコーパスに基づいて学習した回帰モデルを提案する。 このスコアに方程式と引用が与える影響を調査し、潜在的なバイアスのモデルをテストする。 次に、セクションタイトルをAIと機械学習の標準的な紙レイアウトにマッピングして、文を最も可能性の高いセクションに分類する。 本研究では, 文脈, 周辺文が区間分類性能に与える影響について検討する。 最後に、単語置換、文の追加、文体を改善するための構造変更を含む、与えられた文の代替案を提案するパラフレーザーを提案する。 我々は、A*、A、B、Cランキングで査読され、出版されたarXiv論文から抽出された文に基づいて、様々な大きな言語モデルを訓練する。 科学的タスクでは、すべてのモデルがMSEを$2\%以下で達成する。 セクション分類では、BERT が WideMLP と SciBERT より優れている場合が多い。 文脈を用いることで文の分類が向上し、最大$90\%$ f1-scoreとなることを示す。 パラフレーズ化モデルは比較的わずかな変更を施すが、金標準に近い出力文を生成する。 入力文とゴールド標準の差異の様々な尺度を考慮した実験において、t5 largeのような大きな微調整モデルが最もよく機能する。 コードはhttps://github.com/JustinMuecke/SciSenで提供される。

We support scientific writers in determining whether a written sentence is scientific, to which section it belongs, and suggest paraphrasings to improve the sentence. Firstly, we propose a regression model trained on a corpus of scientific sentences extracted from peer-reviewed scientific papers and non-scientific text to assign a score that indicates the scientificness of a sentence. We investigate the effect of equations and citations on this score to test the model for potential biases. Secondly, we create a mapping of section titles to a standard paper layout in AI and machine learning to classify a sentence to its most likely section. We study the impact of context, i.e., surrounding sentences, on the section classification performance. Finally, we propose a paraphraser, which suggests an alternative for a given sentence that includes word substitutions, additions to the sentence, and structural changes to improve the writing style. We train various large language models on sentences extracted from arXiv papers that were peer reviewed and published at A*, A, B, and C ranked conferences. On the scientificness task, all models achieve an MSE smaller than $2\%$. For the section classification, BERT outperforms WideMLP and SciBERT in most cases. We demonstrate that using context enhances the classification of a sentence, achieving up to a $90\%$ F1-score. Although the paraphrasing models make comparatively few alterations, they produce output sentences close to the gold standard. Large fine-tuned models such as T5 Large perform best in experiments considering various measures of difference between input sentence and gold standard. Code is provided under https://github.com/JustinMuecke/SciSen.
翻訳日:2023-06-22 10:37:41 公開日:2023-06-21
# BayLing:大規模言語モデルの対話的翻訳による言語間アライメントと指示のブリッジ

BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models ( http://arxiv.org/abs/2306.10968v2 )

ライセンス: Link先を確認
Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng(参考訳) 大規模言語モデル (LLM) は言語理解と生成において顕著な進歩を見せている。 基礎的な LLM から命令に従う LLM への進化により、命令チューニングは LLM を人間の好みに合わせる上で重要な役割を果たす。 しかし、既存のllmは通常英語に焦点を当てており、非英語言語のパフォーマンスは低下している。 英語以外の言語の性能を向上させるためには,LLMの基礎となる言語固有の学習データを収集し,言語固有の指導命令を構築する必要がある。 人間の作業量を最小限に抑えるため,対話型翻訳タスクを通じて,言語生成能力と指示文を他の言語に伝達することを提案する。 我々は,LLaMAを基礎LLMとして活用し,学習指導のための対話型翻訳命令を自動構築する,命令追従LLMのBayLingを開発した。 非常に小さなパラメータサイズがわずか13億であるにもかかわらず、ベイリングはGPT-3.5-turboに匹敵する性能を示した。 翻訳タスクに関する実験結果から,ベイリングは自動評価によるGPT-4と比較して95%,対話型翻訳能力は96%,人的評価によるGPT-3.5-turboと比較して95%を実現していることがわかった。 一般タスクの性能を推定するために,BayLing-80と呼ばれるマルチターン命令セットを開発した。 bayling-80の実験結果はgpt-3.5-turboと比較して89%の性能を達成したことを示している。 ベイリングはまた、中国語のガオカオと英語のSATの知識評価に際し卓越した性能を示した。 BayLingのデモ、ホームページ、コード、モデルが利用可能だ。

Large language models (LLMs) have demonstrated remarkable prowess in language understanding and generation. Advancing from foundation LLMs to instructionfollowing LLMs, instruction tuning plays a vital role in aligning LLMs to human preferences. However, the existing LLMs are usually focused on English, leading to inferior performance in non-English languages. In order to improve the performance for non-English languages, it is necessary to collect language-specific training data for foundation LLMs and construct language-specific instructions for instruction tuning, both of which are heavy loads. To minimize human workload, we propose to transfer the capabilities of language generation and instruction following from English to other languages through an interactive translation task. We have developed BayLing, an instruction-following LLM by utilizing LLaMA as the foundation LLM and automatically constructing interactive translation instructions for instructing tuning. Extensive assessments demonstrate that BayLing achieves comparable performance to GPT-3.5-turbo, despite utilizing a considerably smaller parameter size of only 13 billion. Experimental results on translation tasks show that BayLing achieves 95% of single-turn translation capability compared to GPT-4 with automatic evaluation and 96% of interactive translation capability compared to GPT-3.5-turbo with human evaluation. To estimate the performance on general tasks, we created a multi-turn instruction test set called BayLing-80. The experimental results on BayLing-80 indicate that BayLing achieves 89% of performance compared to GPT-3.5-turbo. BayLing also demonstrates outstanding performance on knowledge assessment of Chinese GaoKao and English SAT, second only to GPT-3.5-turbo among a multitude of instruction-following LLMs. Demo, homepage, code and models of BayLing are available.
翻訳日:2023-06-22 10:37:19 公開日:2023-06-21
# Task-Conditioned Hypernetwork に基づくマルチタスクエピソードメモリによる深層強化学習

Deep Reinforcement Learning with Multitask Episodic Memory Based on Task-Conditioned Hypernetwork ( http://arxiv.org/abs/2306.10698v2 )

ライセンス: Link先を確認
Yonggang Jin, Chenxu Wang, Liuyu Xiang, Yaodong Yang, Jie Fu and Zhaofeng He(参考訳) 深層強化学習アルゴリズムは通常、正確な意思決定能力を得るために環境と複数の相互作用に依存する非効率のサンプリングによって妨げられる。 対照的に、人間は海馬を頼りに、関連するタスクの過去の経験から関連する情報を取得するように見え、それは、環境の相互作用にのみ依存するのではなく、新しいタスクを学ぶ際の意思決定を導く。 それにもかかわらず、過去の経験を確立された強化学習アルゴリズムに組み込むエージェントのための海馬のようなモジュールの設計には、2つの課題がある。 第1の課題は、現在のタスクで最も重要な過去の経験を選択することであり、第2の課題は、そのような経験を意思決定ネットワークに統合することである。 これらの課題に対処するために,タスク条件付きハイパーネットワークに基づく検索ネットワークを用いて,検索ネットワークのパラメータをタスクに応じて適応させる新しいアルゴリズムを提案する。 同時に,動的修正機構により,検索ネットワークと意思決定ネットワークの協調作業が促進される。 提案手法を課題のミニグリッド環境上で評価する。 実験の結果,提案手法は強いベースラインを著しく上回ることがわかった。

Deep reinforcement learning algorithms are usually impeded by sampling inefficiency, heavily depending on multiple interactions with the environment to acquire accurate decision-making capabilities. In contrast, humans seem to rely on their hippocampus to retrieve relevant information from past experiences of relevant tasks, which guides their decision-making when learning a new task, rather than exclusively depending on environmental interactions. Nevertheless, designing a hippocampus-like module for an agent to incorporate past experiences into established reinforcement learning algorithms presents two challenges. The first challenge involves selecting the most relevant past experiences for the current task, and the second is integrating such experiences into the decision network. To address these challenges, we propose a novel algorithm that utilizes a retrieval network based on a task-conditioned hypernetwork, which adapts the retrieval network's parameters depending on the task. At the same time, a dynamic modification mechanism enhances the collaborative efforts between the retrieval and decision networks. We evaluate the proposed algorithm on the challenging MiniGrid environment. The experimental results demonstrate that our proposed method significantly outperforms strong baselines.
翻訳日:2023-06-22 10:36:46 公開日:2023-06-21
# MARBLE:ユニバーサル評価のための音楽オーディオ表現ベンチマーク

MARBLE: Music Audio Representation Benchmark for Universal Evaluation ( http://arxiv.org/abs/2306.10548v2 )

ライセンス: Link先を確認
Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger Dannenbert, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike Guo, Jie Fu(参考訳) 画像生成やフィクションの共創など、芸術と人工知能(AI)の広範な交差の時代において、音楽のためのAIは、特に音楽の理解において比較的初期段階にある。 これは、深い音楽表現に関する限られた作業、大規模データセットの不足、普遍的でコミュニティ主導のベンチマークの欠如によって明らかである。 この問題に対処するため,MARBLEと呼ばれるUniversaL評価のためのMusic Audio Representation Benchmarkを導入する。 音響、パフォーマンス、スコア、ハイレベル記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供する。 次に,8つの公開データセット上で14のタスクに基づく統一プロトコルを構築し,音楽録音をベースラインとして開発したオープンソース事前学習モデルの表現を公平かつ標準的に評価する。 さらに、MARBLEは、データセットの著作権問題に関する明確な声明とともに、使いやすく、拡張可能で、再現可能なスイートをコミュニティに提供する。 その結果、近年提案されている大規模事前学習型言語モデルは、多くのタスクにおいて最善を尽くし、さらなる改善の余地があることがわかった。 leaderboardと toolkitリポジトリは、将来の音楽ai研究を促進するためにhttps://marble-bm.shef.ac.ukで公開されている。

In the era of extensive intersection between art and Artificial Intelligence (AI), such as image generation and fiction co-creation, AI for music remains relatively nascent, particularly in music understanding. This is evident in the limited work on deep music representations, the scarcity of large-scale datasets, and the absence of a universal and community-driven benchmark. To address this issue, we introduce the Music Audio Representation Benchmark for universaL Evaluation, termed MARBLE. It aims to provide a benchmark for various Music Information Retrieval (MIR) tasks by defining a comprehensive taxonomy with four hierarchy levels, including acoustic, performance, score, and high-level description. We then establish a unified protocol based on 14 tasks on 8 public-available datasets, providing a fair and standard assessment of representations of all open-sourced pre-trained models developed on music recordings as baselines. Besides, MARBLE offers an easy-to-use, extendable, and reproducible suite for the community, with a clear statement on copyright issues on datasets. Results suggest recently proposed large-scale pre-trained musical language models perform the best in most tasks, with room for further improvement. The leaderboard and toolkit repository are published at https://marble-bm.shef.ac.uk to promote future music AI research.
翻訳日:2023-06-22 10:36:28 公開日:2023-06-21
# グラフ表現学習によるバイオメディシンの進歩 : 最近の進歩,課題,今後の方向性

Advancing Biomedicine with Graph Representation Learning: Recent Progress, Challenges, and Future Directions ( http://arxiv.org/abs/2306.10456v2 )

ライセンス: Link先を確認
Fang Li, Yi Nian, Zenan Sun, Cui Tao(参考訳) グラフ表現学習(GRL)は、バイオメディシンを含む様々な分野のブレークスルーに大きく貢献する中心的な分野として登場した。 本調査の目的は, GRL法の最近の進歩とそのバイオメディカル分野への応用を概観することである。 また、GRLが現在直面している重要な課題を強調し、今後の研究の方向性について概説する。

Graph representation learning (GRL) has emerged as a pivotal field that has contributed significantly to breakthroughs in various fields, including biomedicine. The objective of this survey is to review the latest advancements in GRL methods and their applications in the biomedical field. We also highlight key challenges currently faced by GRL and outline potential directions for future research.
翻訳日:2023-06-22 10:36:06 公開日:2023-06-21
# 非局所PDEと量子光学:境界状態と共鳴

Nonlocal PDEs and Quantum Optics: Bound States and Resonances ( http://arxiv.org/abs/2306.10431v2 )

ライセンス: Link先を確認
Erik Orvehed Hiltunen, Joseph Kraisler, John C Schotland, Michael I Weinstein(参考訳) 2つの準位原子の系と相互作用する1つの光子の量子光学を考える。 これは非局所偏微分方程式系に対する非線形固有確率の研究につながる。 これらの方程式に対する解の2つのクラスが研究されている。 境界状態は正の実部分を持つ固有値に対する負の固有値と共鳴に対応する。 我々は、そのような状態の数に対する上限とともに、境界状態の存在に必要な十分条件を発見した。 我々はまた、高コントラストの少ない原子モデルに対する固有プロブレムも検討した。 この設定では、固有値に対する漸近式を導出した。 我々の結果は数値計算で示される。

We consider the quantum optics of a single photon interacting with a system of two level atoms. This leads to the study of a nonlinear eigenproblem for a system of nonlocal partial differential equations. Two classes of solutions to these equations are studied. Bound states correspond to negative eigenvalues and resonances to eigenvalues with positive real parts. We have found necessary and sufficient conditions for the existence of bound states, along with an upper bound on the number of such states. We have also considered the eigenproblem for atomic models with small high contrast inclusions. In this setting, we have derived asymptotic formulas for the eigenvalues. Our results are illustrated with numerical computations.
翻訳日:2023-06-22 10:35:59 公開日:2023-06-21
# SATモジュロ対称性を用いた共証明学習

Co-Certificate Learning with SAT Modulo Symmetries ( http://arxiv.org/abs/2306.10427v2 )

ライセンス: Link先を確認
Markus Kirchweger, Tom\'a\v{s} Peitl, Stefan Szeider(参考訳) 与えられたco-NP特性を満たす同型まで全てのグラフを生成するSATベースの新しい手法を提案する。 本手法はSAT Modulo Symmetry (SMS) フレームワークを拡張し,協調学習(co-certificate learning)と呼ぶ手法を提案する。 SMSが与えられたco-NPプロパティに違反する候補グラフを生成する場合、この違反の証明書、すなわちco-NPプロパティの 'co-certificate' を得る。 SATソルバはSMSのバックエンドとして機能し、CDCL手順の一部として学習する。 我々は、SMSと共証明学習が、量子力学の基礎の中心であり、半世紀以上にわたって研究されてきたKochen-Speckerベクトルシステムのサイズに最もよく知られた下界を改善する強力な方法であることを示した。 我々のアプローチは、最近提案されたSATベースの方法よりも桁違いに高速でスケールできる。

We present a new SAT-based method for generating all graphs up to isomorphism that satisfy a given co-NP property. Our method extends the SAT Modulo Symmetry (SMS) framework with a technique that we call co-certificate learning. If SMS generates a candidate graph that violates the given co-NP property, we obtain a certificate for this violation, i.e., `co-certificate' for the co-NP property. The co-certificate gives rise to a clause that the SAT solver, serving as SMS's backend, learns as part of its CDCL procedure. We demonstrate that SMS plus co-certificate learning is a powerful method that allows us to improve the best-known lower bound on the size of Kochen-Specker vector systems, a problem that is central to the foundations of quantum mechanics and has been studied for over half a century. Our approach is orders of magnitude faster and scales significantly better than a recently proposed SAT-based method.
翻訳日:2023-06-22 10:35:52 公開日:2023-06-21
# rlパーセプトロン:高次元における政策学習の一般化ダイナミクス

The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions ( http://arxiv.org/abs/2306.10404v2 )

ライセンス: Link先を確認
Nishil Patel, Sebastian Lee, Stefano Sarao Mannelli, Sebastian Goldt, Adrew Saxe(参考訳) 強化学習 (Reinforcement Learning, RL) アルゴリズムは、様々な領域において変形を証明している。 現実世界のドメインに取り組むために、これらのシステムはニューラルネットワークを使ってピクセルや他の高次元センサー入力から直接ポリシーを学ぶ。 対照的に、RLの多くの理論は離散状態空間や最悪のケース解析に焦点を合わせており、高次元環境における政策学習のダイナミクスに関する根本的な疑問が残っている。 本稿では、様々な学習プロトコルをキャプチャし、その典型的ダイナミクスを閉形式常微分方程式(odes)の集合として導出する、rlの可解な高次元モデルを提案する。 学習速度と課題難易度に対する最適スケジュール(rlにおけるトレーニング中のアニーリングスキームやカリキュラムに類似)を導出し、このモデルが低報酬下での遅延学習を含むリッチな振る舞いを示すこと、報酬ベースラインに依存する様々な学習レジーム、報酬の厳格性によって駆動される速度・正確性トレードオフを示す。 Procgen ゲーム "Bossfight" や Arcade Learning Environment ゲーム "Pong" の変種に関する実験も、実際にそのような速度精度のトレードオフを示している。 これらの結果は、高次元RLにおける理論と実践の間のギャップを埋めるための一歩となる。

Reinforcement learning (RL) algorithms have proven transformative in a range of domains. To tackle real-world domains, these systems often use neural networks to learn policies directly from pixels or other high-dimensional sensory input. By contrast, much theory of RL has focused on discrete state spaces or worst-case analysis, and fundamental questions remain about the dynamics of policy learning in high-dimensional settings. Here, we propose a solvable high-dimensional model of RL that can capture a variety of learning protocols, and derive its typical dynamics as a set of closed-form ordinary differential equations (ODEs). We derive optimal schedules for the learning rates and task difficulty - analogous to annealing schemes and curricula during training in RL - and show that the model exhibits rich behaviour, including delayed learning under sparse rewards; a variety of learning regimes depending on reward baselines; and a speed-accuracy trade-off driven by reward stringency. Experiments on variants of the Procgen game "Bossfight" and Arcade Learning Environment game "Pong" also show such a speed-accuracy trade-off in practice. Together, these results take a step towards closing the gap between theory and practice in high-dimensional RL.
翻訳日:2023-06-22 10:35:35 公開日:2023-06-21
# clara: 信頼できる対話型ロボットエージェントのためのユーザコマンドの分類と解除

CLARA: Classifying and Disambiguating User Commands for Reliable Interactive Robotic Agents ( http://arxiv.org/abs/2306.10376v2 )

ライセンス: Link先を確認
Jeongeun Park, Seungwon Lim, Joonhyung Lee, Sangbeom Park, Youngjae Yu and Sungjoon Choi(参考訳) 本稿では,大規模言語モデル(LLM)を用いた対話型ロボットエージェントの文脈において,与えられたユーザコマンドが明確であるか,曖昧であるか,あるいは不可能であるかを推定することに焦点を当てる。 この問題に対処するために,まず,コマンドが確実かどうか(明確か)を分類するためのllmsの不確実性推定法(曖昧か不可能か)を提案する。 コマンドが不確実であると分類されると、ゼロショット方式で状況認識コンテキストでLLMを活用する不明瞭なコマンドと非実用的なコマンドとを区別する。 あいまいなコマンドに対しては、質問生成を通じてLLMと対話することで、コマンドを曖昧にします。 我々は、与えられたコマンドを適切に認識すると、ロボットの誤動作や望ましくない動作が減少し、対話型ロボットエージェントの信頼性が向上すると信じている。 我々は,ロボットの状況認識のためのデータセットを提示する。2つの高レベルコマンド,シーン記述,コマンドタイプのラベル(明快,曖昧,実行不可能)からなる。 提案手法は,テーブルトップのピック・アンド・プレースシミュレーションを用いて検証した。 最後に,実世界のロボットインタラクション実験,すなわちハンドオーバシナリオにおいて提案手法を実証する。

In this paper, we focus on inferring whether the given user command is clear, ambiguous, or infeasible in the context of interactive robotic agents utilizing large language models (LLMs). To tackle this problem, we first present an uncertainty estimation method for LLMs to classify whether the command is certain (i.e., clear) or not (i.e., ambiguous or infeasible). Once the command is classified as uncertain, we further distinguish it between ambiguous or infeasible commands leveraging LLMs with situational aware context in a zero-shot manner. For ambiguous commands, we disambiguate the command by interacting with users via question generation with LLMs. We believe that proper recognition of the given commands could lead to a decrease in malfunction and undesired actions of the robot, enhancing the reliability of interactive robot agents. We present a dataset for robotic situational awareness, consisting pair of high-level commands, scene descriptions, and labels of command type (i.e., clear, ambiguous, or infeasible). We validate the proposed method on the collected dataset, pick-and-place tabletop simulation. Finally, we demonstrate the proposed approach in real-world human-robot interaction experiments, i.e., handover scenarios.
翻訳日:2023-06-22 10:35:11 公開日:2023-06-21
# 磁気トンネル接合に基づく直列連結スピントルク振動子の相互同期に向けて

Towards mutual synchronization of serially connected Spin Torque Oscillators based on magnetic tunnel junctions ( http://arxiv.org/abs/2306.11608v2 )

ライセンス: Link先を確認
Piotr Rzeszut, Jakub Mojsiejuk, Witold Skowro\'nski, Sumito Tsunegi, Hitoshi Kubota, Shinji Yuasa(参考訳) 複数のニューロモルフィックアプリケーションは、2つ以上のデバイスを共通の信号にチューニングする必要がある。 様々な種類のニューロモルフィック計算はスピントロニック発振器を用いて実現され、直流電流は磁化前兆を誘導し、交流電圧発生器となる。 しかし、スピントロニクスでは、dc信号を用いた2つの発振器の同期は、同期すべきデバイス間のある程度の類似性を必要とするため、製造過程におけるデバイスパラメータ分布のため達成が難しいため、依然として困難な問題である。 本研究では,スピントルク発振器の同期機構に関する実験結果を示す。 デバイスは垂直に磁化された自由層を持つ磁気トンネル接合に基づいており、磁場と直流バイアスの存在下で均一な磁化精度を利用する。 外部マイクロ波源を用いて、磁気トンネル接合の同期に最適な条件を示す。 最後に、2つの接合の直列接続に関する結果を示し、振動パワーと直線幅を改善するための経路について議論する。 また、結合振動子モデルの数値シミュレーションを用いて、実験条件を再現し、同期を実現するための耐性を決定することを目的とする。

Multiple neuromorphic applications require the tuning of two or more devices to a common signal. Various types of neuromorphic computation can be realized using spintronic oscillators, where the DC current induces magnetization precession, which turns into an AC voltage generator. However, in spintronics, synchronization of two oscillators using a DC signal is still a challenging problem because it requires a certain degree of similarity between devices that are to be synchronized, which may be difficult to achieve due to device parameter distribution during the fabrication process. In this work, we present experimental results on the mechanisms of synchronization of spin-torque oscillators. Devices are based on magnetic tunnel junction with a perpendicularly magnetized free layer and take advantage of a uniform magnetization precision in the presence of the magnetic field and a DC bias. By using an external microwave source, we show the optimal condition for the synchronization of the magnetic tunnel junctions. Finally, we present results on the in-series connection of two junctions and discuss the possible path towards improving oscillation power and linewidth. In addition, using numerical simulations of the coupled oscillators model, we aim to reproduce the conditions of the experiments and determine the tolerance for achieving synchronization.
翻訳日:2023-06-22 10:29:52 公開日:2023-06-21
# event stream gpt: 複合イベントの連続時間列上の生成・事前学習トランスフォーマーのためのデータ前処理・モデリングライブラリ

Event Stream GPT: A Data Pre-processing and Modeling Library for Generative, Pre-trained Transformers over Continuous-time Sequences of Complex Events ( http://arxiv.org/abs/2306.11547v2 )

ライセンス: Link先を確認
Matthew B. A. McDermott, Bret Nestor, Peniel Argaw, Isaac Kohane(参考訳) 生成前訓練型トランスフォーマー(GPT、別名「創始モデル」)は、様々な下流タスクの汎用性を通じて自然言語処理(NLP)を再構築した。 しかし、その潜在能力はNLPを超えている。 本稿では,この可能性を実現するためのソフトウェアユーティリティを提供し,GPTの適用性を医療記録データセットなどの内部依存関係を持つ複雑なイベントの連続的なシーケンスに拡張する。 それらの可能性にもかかわらず、これらのドメインにおける基礎モデルの採用は、モデルの構築と評価に適したツールの欠如によって妨げられている。 このギャップを埋めるために、連続的なイベントシーケンスのためのGPTを構築するためのエンドツーエンドプロセスを合理化するオープンソースライブラリであるEvent Stream GPT(ESGPT)を紹介します。 ESGPTは,(1)最小構成ファイルのみを指定してフレキシブルで基礎モデルスケールの入力データセットを構築すること,(2) 内部因果依存性構造と自己回帰生成機能を備えたGPT用のHugging Face互換モデリングAPIを活用すること,(3) ユーザが指定した微調整タスクにおいて,事前訓練されたモデルのほとんど,あるいはゼロショットのパフォーマンスを評価できない標準化プロセスによるモデル評価を可能にする。

Generative, pre-trained transformers (GPTs, a.k.a. "Foundation Models") have reshaped natural language processing (NLP) through their versatility in diverse downstream tasks. However, their potential extends far beyond NLP. This paper provides a software utility to help realize this potential, extending the applicability of GPTs to continuous-time sequences of complex events with internal dependencies, such as medical record datasets. Despite their potential, the adoption of foundation models in these domains has been hampered by the lack of suitable tools for model construction and evaluation. To bridge this gap, we introduce Event Stream GPT (ESGPT), an open-source library designed to streamline the end-to-end process for building GPTs for continuous-time event sequences. ESGPT allows users to (1) build flexible, foundation-model scale input datasets by specifying only a minimal configuration file, (2) leverage a Hugging Face compatible modeling API for GPTs over this modality that incorporates intra-event causal dependency structures and autoregressive generation capabilities, and (3) evaluate models via standardized processes that can assess few and even zero-shot performance of pre-trained models on user-specified fine-tuning tasks.
翻訳日:2023-06-22 10:29:33 公開日:2023-06-21
# transref:参照誘導画像インパインティングのためのマルチスケール参照埋め込みトランス

TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting ( http://arxiv.org/abs/2306.11528v2 )

ライセンス: Link先を確認
Liang Liao, Taorong Liu, Delin Chen, Jing Xiao, Zheng Wang, Chia-Wen Lin, Shin'ichi Satoh(参考訳) 複雑なセマンティクス環境と腐敗した画像の多様な穴パターンを完了させるためのイメージインペインティングは、大規模データでトレーニングされた最先端の学習ベースのインペインティング手法でも難しい。 破損した画像の同一シーンをキャプチャする参照画像は、破損した画像の穴に先立って類似したテクスチャや構造を共有するので、破損した画像を完成させるための情報的ガイダンスを提供する。 本稿では,参照誘導画像インパインティングのためのトランスフォーマベースのエンコーダ・デコーダネットワークであるtransrefを提案する。 具体的には、参照埋め込み手順により段階的に誘導を行い、その後、参照特徴が整列され、劣化した画像の特徴と融合する。 参照特徴を正確に活用するために、参照パッチアライメント(Ref-PA)モジュールが参照画像のパッチ特徴を整列し、それらのスタイルの違いを調和させるとともに、参照パッチトランスフォーマー(Ref-PT)モジュールが埋め込み参照特徴を洗練するために提案される。 さらに,参照誘導画像復元タスクの研究を容易にするために,50万対の入力画像と参照画像を含む公開アクセス型ベンチマークデータセットを構築した。 定量的・定性的評価は, 複素孔の完成における基準情報の有効性と, 提案手法の有効性を実証するものである。 コードとデータセットはhttps://github.com/cameltr/transrefでアクセスできる。

Image inpainting for completing complicated semantic environments and diverse hole patterns of corrupted images is challenging even for state-of-the-art learning-based inpainting methods trained on large-scale data. A reference image capturing the same scene of a corrupted image offers informative guidance for completing the corrupted image as it shares similar texture and structure priors to that of the holes of the corrupted image. In this work, we propose a transformer-based encoder-decoder network, named TransRef, for reference-guided image inpainting. Specifically, the guidance is conducted progressively through a reference embedding procedure, in which the referencing features are subsequently aligned and fused with the features of the corrupted image. For precise utilization of the reference features for guidance, a reference-patch alignment (Ref-PA) module is proposed to align the patch features of the reference and corrupted images and harmonize their style differences, while a reference-patch transformer (Ref-PT) module is proposed to refine the embedded reference feature. Moreover, to facilitate the research of reference-guided image restoration tasks, we construct a publicly accessible benchmark dataset containing 50K pairs of input and reference images. Both quantitative and qualitative evaluations demonstrate the efficacy of the reference information and the proposed method over the state-of-the-art methods in completing complex holes. Code and dataset can be accessed at https://github.com/Cameltr/TransRef.
翻訳日:2023-06-22 10:29:08 公開日:2023-06-21
# 粗粒タンパク質力場のトップダウン機械学習

Top-down machine learning of coarse-grained protein force-fields ( http://arxiv.org/abs/2306.11375v2 )

ライセンス: Link先を確認
Carles Navarro, Maciej Majewski and Gianni de Fabritiis(参考訳) タンパク質の正確な、効率的な粗粒度の表現を作ることは、その折りたたみ、機能、相互作用を拡張タイムスケールで理解するために重要である。 我々の手法は、タンパク質を分子動力学でシミュレートし、その結果の軌跡を利用して、異なる軌道重み付けによってニューラルネットワーク電位を訓練する。 驚くべきことに、この方法はタンパク質のネイティブコンフォメーションのみを必要とし、広範囲なシミュレーションやメモリ集約的なエンドツーエンドの微分可能なシミュレーションから得られるラベル付きデータの必要性をなくす。 一度トレーニングすると、モデルを使用して、並列分子動力学シミュレーションと、トレーニング分布内およびその外挿能力を示すタンパク質のサンプル折り畳みイベントを実行することができる。 マルコフ状態モデルを適用することで、粗粒シミュレーションからシミュレーションタンパク質のネイティブ様配座を予測できる。 実験的な静的構造のみをトレーニングデータとして用いる理論的伝達性や能力から,新たなタンパク質力場の開発や,タンパク質のダイナミクス,折り畳み,相互作用の研究の進展に有利であることが期待できる。

Developing accurate and efficient coarse-grained representations of proteins is crucial for understanding their folding, function, and interactions over extended timescales. Our methodology involves simulating proteins with molecular dynamics and utilizing the resulting trajectories to train a neural network potential through differentiable trajectory reweighting. Remarkably, this method requires only the native conformation of proteins, eliminating the need for labeled data derived from extensive simulations or memory-intensive end-to-end differentiable simulations. Once trained, the model can be employed to run parallel molecular dynamics simulations and sample folding events for proteins both within and beyond the training distribution, showcasing its extrapolation capabilities. By applying Markov State Models, native-like conformations of the simulated proteins can be predicted from the coarse-grained simulations. Owing to its theoretical transferability and ability to use solely experimental static structures as training data, we anticipate that this approach will prove advantageous for developing new protein force fields and further advancing the study of protein dynamics, folding, and interactions.
翻訳日:2023-06-22 10:28:40 公開日:2023-06-21
# 低リソース環境下での視覚的単語学習

Visually grounded few-shot word learning in low-resource settings ( http://arxiv.org/abs/2306.11371v2 )

ライセンス: Link先を確認
Leanne Nortje, Dan Oneata, Herman Kamper(参考訳) 本稿では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。 テスト画像と音声クエリのセットが与えられた場合、どの画像がクエリワードを表現しているかをモデルに尋ねる。 以前の研究では、デジタルワードイメージペアの人工的な設定を使うか、クラス毎に多数の例を使用することで、この少数ショット学習問題を単純化している。 また,これまでの研究はすべて英語音声画像データを用いて行われた。 我々は,自然の単語と画像のペアを扱うことができるが,サンプルが少ない場合,すなわちショットが少ない場合,このアプローチが実際の低リソース言語であるyorubaでマルチモーダルな少数ショット学習にどのように適用できるかを説明する。 提案手法では,与えられた単語イメージのサンプルペアを用いて,未知の音声と画像の集合から教師なしの単語イメージトレーニングペアを抽出する。 さらに,単語画像の類似性を決定するために,単語間注意機構を用いる。 この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを達成する。 モデルの間違いの多くは、同じ文脈で共起する視覚概念の混乱によるものです。 ヨルバの実験は、より大きな英単語画像データに基づいて訓練されたマルチモーダルモデルから知識を伝達する利点を示す。

We propose a visually grounded speech model that learns new words and their visual depictions from just a few word-image example pairs. Given a set of test images and a spoken query, we ask the model which image depicts the query word. Previous work has simplified this few-shot learning problem by either using an artificial setting with digit word-image pairs or by using a large number of examples per class. Moreover, all previous studies were performed using English speech-image data. We propose an approach that can work on natural word-image pairs but with less examples, i.e. fewer shots, and then illustrate how this approach can be applied for multimodal few-shot learning in a real low-resource language, Yoruba. Our approach involves using the given word-image example pairs to mine new unsupervised word-image training pairs from large collections of unlabelledspeech and images. Additionally, we use a word-to-image attention mechanism to determine word-image similarity. With this new model, we achieve better performance with fewer shots than previous approaches on an existing English benchmark. Many of the model's mistakes are due to confusion between visual concepts co-occurring in similar contexts. The experiments on Yoruba show the benefit of transferring knowledge from a multimodal model trained on a larger set of English speech-image data.
翻訳日:2023-06-22 10:28:21 公開日:2023-06-21
# rm-prt: ロボット操作シミュレータとプログレッシブ推論タスクを用いたベンチマーク

RM-PRT: Realistic Robotic Manipulation Simulator and Benchmark with Progressive Reasoning Tasks ( http://arxiv.org/abs/2306.11335v2 )

ライセンス: Link先を確認
Pengzhen Ren, Kaidong Zhang, Hetao Zheng, Zixuan Li, Yuhang Wen, Fengda Zhu, Mas Ma, Xiaodan Liang(参考訳) 近年、ChatGPTやGPT-4のような訓練済みの大規模言語モデル(LLM)が出現し、マシンの自然言語理解能力が大幅に向上した。 このブレークスルーにより、これらのオープンソースのLLMを統合型ロボットシミュレータ環境にシームレスに統合し、ロボットが人間の自然言語命令を正確に理解し実行できるようにする。 この目的のために,本研究では,現実的なロボット操作シミュレータを導入し,プログレッシブ推論タスクを用いたロボットマニピュレーション(RM-PRT)ベンチマークを構築する。 具体的には、RM-PRTベンチマークは、ロボット操作の詳細な評価のためにChatGPTが生成した82のカテゴリ、2023のオブジェクト、および15Kの自然言語命令を含む、Unreal Engine 5に基づく新しい高忠実なデジタルツインシーンを構築する。 本稿では,自然言語命令を含むマルチモーダルプロンプトを入力とし,移動と位置遷移を含む動作を自動的に出力するRM-PRTベンチマークの汎用パイプラインを提案する。 本研究では,4つの自然言語理解タスクを段階的推論レベルで設定し,ロボットが自然言語の指示を理解する能力を評価する。 さらに、命令理解と生成品質における10種類のLLMの違いと利点を総合的に分析し、比較する。 新しいシミュレータとベンチマークにより、言語誘導型ロボット操作の今後の研究が促進されることを願っている。 プロジェクトWebサイト: https://necolizer.github.io/RM-PRT/。

Recently, the advent of pre-trained large-scale language models (LLMs) like ChatGPT and GPT-4 have significantly advanced the machine's natural language understanding capabilities. This breakthrough has allowed us to seamlessly integrate these open-source LLMs into a unified robot simulator environment to help robots accurately understand and execute human natural language instructions. To this end, in this work, we introduce a realistic robotic manipulation simulator and build a Robotic Manipulation with Progressive Reasoning Tasks (RM-PRT) benchmark on this basis. Specifically, the RM-PRT benchmark builds a new high-fidelity digital twin scene based on Unreal Engine 5, which includes 782 categories, 2023 objects, and 15K natural language instructions generated by ChatGPT for a detailed evaluation of robot manipulation. We propose a general pipeline for the RM-PRT benchmark that takes as input multimodal prompts containing natural language instructions and automatically outputs actions containing the movement and position transitions. We set four natural language understanding tasks with progressive reasoning levels and evaluate the robot's ability to understand natural language instructions in two modes of adsorption and grasping. In addition, we also conduct a comprehensive analysis and comparison of the differences and advantages of 10 different LLMs in instruction understanding and generation quality. We hope the new simulator and benchmark will facilitate future research on language-guided robotic manipulation. Project website: https://necolizer.github.io/RM-PRT/ .
翻訳日:2023-06-22 10:27:59 公開日:2023-06-21
# 拡張属性に基づくクラスタリングのためのグラフ変換:革新的グラフ変換法

Transforming Graphs for Enhanced Attribute-Based Clustering: An Innovative Graph Transformer Method ( http://arxiv.org/abs/2306.11307v2 )

ライセンス: Link先を確認
Shuo Han, Jiacheng Liu, Jiayun Wu, Yinan Chen, Li Tao(参考訳) グラフ表現学習(GRL)は、グラフ構造化データのより深い理解とグラフクラスタリングの支援を可能にする、影響力のある方法論である。 最近の注目メカニズムは、もともと自然言語処理(NLP)の成果物であり、グラフ学習の領域に導入され、研究動向の顕著な変化を先導している。 その結果、グラフクラスタリングタスクのツールとしてグラフアテンションネットワーク(gats)とグラフアテンションオートエンコーダが好まれている。 しかし、これらの手法は主に局所的注意機構を採用しており、グラフ内のノード間の複雑なグローバル依存関係を理解する能力を抑えている。 そこで本研究では,グラフクラスタリングのためのグラフトランスフォーマーオートエンコーダ(gtagc)という革新的な手法を提案する。 Graph Auto-EncoderをGraph Transformerでマージすることで、GTAGCはノード間のグローバルな依存関係をキャプチャできる。 この統合はグラフ表現を増幅し、局所注意機構によって与えられる制約を克服する。 GTAGCのアーキテクチャはグラフの埋め込み、オートエンコーダ構造内のグラフ変換器の統合、クラスタリングコンポーネントを含んでいる。 グラフ埋め込みとクラスタリングを戦略的に代替し、グラフのグローバル構造情報を保存しながら、クラスタリングタスク用にグラフトランスフォーマーを調整します。 多様なベンチマークデータセットに関する広範な実験を通じて、GTAGCは既存の最先端グラフクラスタリング手法よりも優れたパフォーマンスを示した。 この先駆的なアプローチは、グラフクラスタリングの分野への新たな貢献であり、将来の研究において有望な道を歩む道を開いた。

Graph Representation Learning (GRL) is an influential methodology, enabling a more profound understanding of graph-structured data and aiding graph clustering, a critical task across various domains. The recent incursion of attention mechanisms, originally an artifact of Natural Language Processing (NLP), into the realm of graph learning has spearheaded a notable shift in research trends. Consequently, Graph Attention Networks (GATs) and Graph Attention Auto-Encoders have emerged as preferred tools for graph clustering tasks. Yet, these methods primarily employ a local attention mechanism, thereby curbing their capacity to apprehend the intricate global dependencies between nodes within graphs. Addressing these impediments, this study introduces an innovative method known as the Graph Transformer Auto-Encoder for Graph Clustering (GTAGC). By melding the Graph Auto-Encoder with the Graph Transformer, GTAGC is adept at capturing global dependencies between nodes. This integration amplifies the graph representation and surmounts the constraints posed by the local attention mechanism. The architecture of GTAGC encompasses graph embedding, integration of the Graph Transformer within the autoencoder structure, and a clustering component. It strategically alternates between graph embedding and clustering, thereby tailoring the Graph Transformer for clustering tasks, whilst preserving the graph's global structural information. Through extensive experimentation on diverse benchmark datasets, GTAGC has exhibited superior performance against existing state-of-the-art graph clustering methodologies. This pioneering approach represents a novel contribution to the field of graph clustering, paving the way for promising avenues in future research.
翻訳日:2023-06-22 10:27:35 公開日:2023-06-21
# Habitat Synthetic Scenes Dataset (HSSD-200):オブジェクトゴールナビゲーションのための3次元シーンスケールとリアリズムトレードオフの解析

Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene Scale and Realism Tradeoffs for ObjectGoal Navigation ( http://arxiv.org/abs/2306.11290v2 )

ライセンス: Link先を確認
Mukul Khanna, Yongsen Mao, Hanxiao Jiang, Sanjay Haresh, Brennan Shacklett, Dhruv Batra, Alexander Clegg, Eric Undersander, Angel X. Chang, Manolis Savva(参考訳) 211の高品質な3DシーンのデータセットであるHabitat Synthetic Scene Datasetをコントリビュートし、現実的な3D環境へのナビゲーションエージェントの一般化をテストする。 我々のデータセットは実際の内部を表現しており、現実世界の物体の18,656種類のモデルを含んでいる。 本研究では,合成3Dシーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。 従来の3Dシーンの合成データセットと比較すると、スケールは一般化に役立つが、その利点は急速に飽和し、視覚的忠実度と現実世界のシーンとの相関性がより重要になる。 私たちの実験では、より小規模のデータセットでトレーニングされたエージェントは、はるかに大きなデータセットでトレーニングされたエージェントとマッチしたり、より優れています。 驚くべきことに、我々のデータセットから訓練されたエージェントは、実世界のスキャンされた環境におけるゼロショットの一般化の観点から、ProcTHOR-10Kデータセットからトレーニングされた1万のシーンで訓練されたエージェントよりも、わずか122のシーンで訓練された。

We contribute the Habitat Synthetic Scene Dataset, a dataset of 211 high-quality 3D scenes, and use it to test navigation agent generalization to realistic 3D environments. Our dataset represents real interiors and contains a diverse set of 18,656 models of real-world objects. We investigate the impact of synthetic 3D scene dataset scale and realism on the task of training embodied agents to find and navigate to objects (ObjectGoal navigation). By comparing to synthetic 3D scene datasets from prior work, we find that scale helps in generalization, but the benefits quickly saturate, making visual fidelity and correlation to real-world scenes more important. Our experiments show that agents trained on our smaller-scale dataset can match or outperform agents trained on much larger datasets. Surprisingly, we observe that agents trained on just 122 scenes from our dataset outperform agents trained on 10,000 scenes from the ProcTHOR-10K dataset in terms of zero-shot generalization in real-world scanned environments.
翻訳日:2023-06-22 10:27:10 公開日:2023-06-21
# 5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$の周波数測定とSrを用いたキングプロットの非線形性の観測

Frequency measurements of $5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$ and observation of nonlinearities in King plot with Sr ( http://arxiv.org/abs/2306.11082v2 )

ライセンス: Link先を確認
S. Zhang, B. T. Tiwari, S. Ganesh, and Y. Singh(参考訳) 5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$の絶対周波数を4つの安定Sr同位体すべてに対して、共振誘起分光法を用いて、$\sim$25 kHzの精度で測定した。 この遷移の同位体シフトと結合線上の既存の測定データを組み合わせることで、Kingプロットは5.2$\sigma$レベルでの線形性から逸脱することを明らかにする。

We report the first precision measurement of the absolute frequency of $5s5p^{3}$P$_{0}\to5s6d^{3}$D$_{1}$ for all four stable Sr isotopes with an accuracy of $\sim$25 kHz employing repumping induced spectroscopy. By combining the isotope shifts of this transition with the existing measurement data on the intercombination line, the King plot is established which reveals a deviation from the linearity at the 5.2$\sigma$ level.
翻訳日:2023-06-22 10:26:49 公開日:2023-06-21
# 自然言語理解のためのPrompt-based Few-Shot Learningの逆ロバスト性

Adversarial Robustness of Prompt-based Few-Shot Learning for Natural Language Understanding ( http://arxiv.org/abs/2306.11066v2 )

ライセンス: Link先を確認
Venkata Prabhakara Sarath Nookala, Gaurav Verma, Subhabrata Mukherjee, Srijan Kumar(参考訳) state-of-the-art few-shot learning (fsl) 法は、プロンプトベースの微調整を利用して自然言語理解 (nlu) タスクの顕著な結果を得る。 以前のfslメソッドの多くはダウンストリームタスクのパフォーマンス向上に重点を置いているが、そのようなメソッドの敵対的ロバスト性に対する理解は限られている。 本研究では, 対向摂動に対するロバスト性を評価するために, 最先端FSL法を幅広く検討する。 頑健性(あるいは欠如)に対する様々な要因の影響をよりよく理解するために,ラベルなしデータの利用,複数プロンプト,少数のサンプル数,モデルサイズ,タイプといった側面の完全微調整モデルに対して,プロンプトベースのfsl手法を評価する。 GLUEタスクの6つの結果から, 完全微調整モデルと比較して, バニラFSL法は対向的摂動に直面した場合, タスク性能の顕著な低下(すなわち, 頑健さの低下)を引き起こすことが示された。 しかし 利用は (i)プロンプトベースfslのラベルなしデータ及び (ii)傾向を反転させる複数のプロンプト。 さらに, サンプル数の増加とモデルサイズがバニラFSL法の対角的ロバスト性の向上につながることを実証した。 本研究は,NLUタスクに対するプロンプトベースFSL手法の対向ロバスト性評価に重点を置いている。

State-of-the-art few-shot learning (FSL) methods leverage prompt-based fine-tuning to obtain remarkable results for natural language understanding (NLU) tasks. While much of the prior FSL methods focus on improving downstream task performance, there is a limited understanding of the adversarial robustness of such methods. In this work, we conduct an extensive study of several state-of-the-art FSL methods to assess their robustness to adversarial perturbations. To better understand the impact of various factors towards robustness (or the lack of it), we evaluate prompt-based FSL methods against fully fine-tuned models for aspects such as the use of unlabeled data, multiple prompts, number of few-shot examples, model size and type. Our results on six GLUE tasks indicate that compared to fully fine-tuned models, vanilla FSL methods lead to a notable relative drop in task performance (i.e., are less robust) in the face of adversarial perturbations. However, using (i) unlabeled data for prompt-based FSL and (ii) multiple prompts flip the trend. We further demonstrate that increasing the number of few-shot examples and model size lead to increased adversarial robustness of vanilla FSL methods. Broadly, our work sheds light on the adversarial robustness evaluation of prompt-based FSL methods for NLU tasks.
翻訳日:2023-06-22 10:26:36 公開日:2023-06-21