このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230620となっている論文です。

PDF登録状況(公開日: 20230620)

TitleAuthorsAbstract論文公表日・翻訳日
# サンドボックスの外:Javaにおける入出力メソッドの研究

Outside the Sandbox: A Study of Input/Output Methods in Java ( http://arxiv.org/abs/2306.11882v1 )

ライセンス: Link先を確認
Mat\'u\v{s} Sul\'ir, Sergej Chodarev, Milan Nos\'a\v{l}(参考訳) プログラミング言語は、オブジェクトや変数などのエンティティで構成される内部のサンドボックスを、外界、例えばファイルやネットワークから分離することが多い。 外部とのコミュニケーションは,ライブプログラミング,可逆デバッグ,テスト,プログラム解析において基本的な課題となっているが,この現象に関する研究は稀である。 本稿では,Javaにおける入出力(I/O)メソッドの使用頻度に関する予備的研究を行う。 我々は、Java Standard Editionディストリビューションの1435のネイティブメソッドを、非I/OおよびI/O関連メソッドに分類し、さらにデスクトップやファイル関連メソッドに分類した。 798プロジェクトのコールグラフの静的解析によると、メソッドの約57%がI/Oネイティブをコールしている。 16のベンチマークで動的解析を行った結果,実行されたメソッドの21%が直接あるいは間接的にI/Oネイティブと呼ばれることがわかった。 ツールデザイナはI/O関連メタデータをソースコードと統合してクエリを容易にすることが提案されている。

Programming languages often demarcate the internal sandbox, consisting of entities such as objects and variables, from the outside world, e.g., files or network. Although communication with the external world poses fundamental challenges for live programming, reversible debugging, testing, and program analysis in general, studies about this phenomenon are rare. In this paper, we present a preliminary empirical study about the prevalence of input/output (I/O) method usage in Java. We manually categorized 1435 native methods in a Java Standard Edition distribution into non-I/O and I/O-related methods, which were further classified into areas such as desktop or file-related ones. According to the static analysis of a call graph for 798 projects, about 57% of methods potentially call I/O natives. The results of dynamic analysis on 16 benchmarks showed that 21% of the executed methods directly or indirectly called an I/O native. We conclude that neglecting I/O is not a viable option for tool designers and suggest the integration of I/O-related metadata with source code to facilitate their querying.
翻訳日:2023-10-23 19:16:01 公開日:2023-06-20
# 複雑なソフトウェアシステムの定義に向けて

Towards a Definition of Complex Software System ( http://arxiv.org/abs/2306.11817v1 )

ライセンス: Link先を確認
Jan \v{Z}i\v{z}ka, Bruno Rossi, Tom\'a\v{s} Pitner(参考訳) 複雑系は物理学、生物学、経済学など様々な分野で同定され研究された。 これらのシステムは自己組織化、堅牢な秩序、出現などのエキサイティングな特性を示す。 近年、複雑なシステムに関連する振る舞いを示すソフトウェアシステムが登場し始めており、これらの振る舞いは以前にも知られていなかった可能性(例えばGPTベースのアプリケーション)を示している。 しかし、複雑なソフトウェアシステムの一般的な定義は存在せず、この領域の研究を支援するためのアカデミアの重要な参照として役立てることができる。 本稿では,複雑システムの特性を他の分野の研究から抽出し,それをソフトウェアシステムにマッピングし,複雑なソフトウェアシステムの形式的定義を作成するための理論・研究戦略を採用する。 我々は将来の検証を通じてプロパティの進化をサポートし、定義の適用例を提供する。 全体として、この定義はソフトウェアシステムに関する科学的研究を行うための、より正確で一貫性があり、厳密な参照の枠組みを可能にする。

Complex Systems were identified and studied in different fields, such as physics, biology, and economics. These systems exhibit exciting properties such as self-organization, robust order, and emergence. In recent years, software systems displaying behaviors associated with Complex Systems are starting to appear, and these behaviors are showing previously unknown potential (e.g., GPT-based applications). Yet, there is no commonly shared definition of a Complex Software System that can serve as a key reference for academia to support research in the area. In this paper, we adopt the theory-to-research strategy to extract properties of Complex Systems from research in other fields, mapping them to software systems to create a formal definition of a Complex Software System. We support the evolution of the properties through future validation, and we provide examples of the application of the definition. Overall, the definition will allow for a more precise, consistent, and rigorous frame of reference for conducting scientific research on software systems.
翻訳日:2023-10-23 19:15:42 公開日:2023-06-20
# プログラミング教育のための自動採点とフィードバックツール:体系的レビュー

Automated Grading and Feedback Tools for Programming Education: A Systematic Review ( http://arxiv.org/abs/2306.11722v1 )

ライセンス: Link先を確認
Marcus Messer, Neil C. C. Brown, Michael K\"olling, Miaojing Shi(参考訳) プログラミング教育のための自動採点およびフィードバックツールに関する体系的文献レビューを行った。 2017年から2021年にかけて121の研究論文を包括的に分析し,スキル評価,格付けアプローチ,言語パラダイム,自動化度,評価手法に基づいて分類した。 ほとんどの論文はオブジェクト指向の割り当ての正しさを格付けしている。 通常、これらのツールは動的手法、主にユニットテストを使用して、学生に成績とフィードバックを提供する。 しかし、正確性評価と比較すると、ドキュメントの品質ではなく、ドキュメントの存在にのみ焦点をあてて、可読性、保守性、ドキュメントを評価するツールは少ない。

We conducted a systematic literature review on automated grading and feedback tools for programming education. We analysed 121 research papers from 2017 to 2021 inclusive and categorised them based on skills assessed, grading approach, language paradigm, degree of automation and evaluation techniques. Most papers grade the correctness of object-oriented assignments. Typically, these tools use a dynamic technique, primarily unit testing, to provide grades and feedback to the students. However, compared to correctness grading, few tools assess readability, maintainability, or documentation, focusing solely on the presence of documentation, not documentation quality.
翻訳日:2023-10-23 19:15:28 公開日:2023-06-20
# 機械学習とディープラーニングを用いたソフトウェア脆弱性の自動検出に関する調査

A Survey on Automated Software Vulnerability Detection Using Machine Learning and Deep Learning ( http://arxiv.org/abs/2306.11673v1 )

ライセンス: Link先を確認
Nima Shiri Harzevili, Alvine Boaye Belle, Junjie Wang, Song Wang, Zhen Ming (Jack) Jiang, Nachiappan Nagappan(参考訳) ソフトウェア脆弱性検出は、ソフトウェアシステムの潜在的なバグを特定し、悪用される前に即時修復と緩和措置を実施することができるため、ソフトウェアセキュリティにおいて重要である。 大規模なコードベースを手動のコード監査よりも効率的に評価できるため、脆弱性の自動識別が重要である。 ソースコードの脆弱性を検出する多くの機械学習(ML)とディープラーニング(DL)ベースのモデルが近年発表されている。 しかし、脆弱性検出のためのML/DLモデルの応用を要約、分類、分析する調査は欠落している。 総合的な調査なしに既存の研究と将来の改善の可能性のギャップを見つけるのは難しいかもしれない。 この結果、研究の本質的な領域は見落とされ、あるいは表現されていないため、脆弱性検出における技術の現状のゆるやかな理解に繋がる可能性がある。 この研究は、ML/DLベースのソースコードレベルソフトウェア脆弱性検出アプローチの様々な特徴を、5つの主要な研究質問(RQ)を通して特徴付けるための体系的な調査を提示することでギャップに対処する。 具体的には,研究の進展や出版会場の分布など,脆弱性検出にML/DLを活用する出版物の動向について検討した。 RQ2では、ソース、型、表現を含む既存のML/DLベースのモデルで使用される脆弱性データセットと、これらのアプローチで使用される埋め込み技術の分析について説明している。 RQ3ではML/DLベースの脆弱性検出アプローチのモデルアーキテクチャと設計の前提について検討している。 RQ4は、既存の研究でカバーされている脆弱性の種類と頻度を要約する。 最後に、rq5は、研究すべき現在の課題のリストと将来の仕事にとって重要な機会を強調する潜在的な研究ロードマップの概要を示す。

Software vulnerability detection is critical in software security because it identifies potential bugs in software systems, enabling immediate remediation and mitigation measures to be implemented before they may be exploited. Automatic vulnerability identification is important because it can evaluate large codebases more efficiently than manual code auditing. Many Machine Learning (ML) and Deep Learning (DL) based models for detecting vulnerabilities in source code have been presented in recent years. However, a survey that summarises, classifies, and analyses the application of ML/DL models for vulnerability detection is missing. It may be difficult to discover gaps in existing research and potential for future improvement without a comprehensive survey. This could result in essential areas of research being overlooked or under-represented, leading to a skewed understanding of the state of the art in vulnerability detection. This work address that gap by presenting a systematic survey to characterize various features of ML/DL-based source code level software vulnerability detection approaches via five primary research questions (RQs). Specifically, our RQ1 examines the trend of publications that leverage ML/DL for vulnerability detection, including the evolution of research and the distribution of publication venues. RQ2 describes vulnerability datasets used by existing ML/DL-based models, including their sources, types, and representations, as well as analyses of the embedding techniques used by these approaches. RQ3 explores the model architectures and design assumptions of ML/DL-based vulnerability detection approaches. RQ4 summarises the type and frequency of vulnerabilities that are covered by existing studies. Lastly, RQ5 presents a list of current challenges to be researched and an outline of a potential research roadmap that highlights crucial opportunities for future work.
翻訳日:2023-10-23 19:15:17 公開日:2023-06-20
# セマンティックWeb技術を用いた研究ポータルデータの応答型フレームワーク

A Responsive Framework for Research Portals Data using Semantic Web Technology ( http://arxiv.org/abs/2306.11642v1 )

ライセンス: Link先を確認
Muhammad Zohaib(参考訳) world wide webのデータ量が指数関数的に増加するにつれ、意味論的に構造化された情報へのアクセスは限られている。 semantic webは、データの機械可読性を高めるソリューションとして登場し、よりアクセスしやすく、解釈可能にしました。 ウェブスクレイピングやマッピングといった様々な手法が、セマンティックアクセスを提供するために様々なウェブサイトで採用されている。 Webスクレイピングは、強力な文字列操作操作を利用するWorld Wide Webなどの多様なデータソースから貴重な情報を抽出することを含み、研究者は、複数のソースから関連するデータを収集することの難しさに直面している。 本研究は,研究ポータルデータのセマンティックな組織化のためのフレームワークを設計することで,この問題に対処することを目的とする。 このフレームワークは、microsoft academicとieee xploreという2つの特定の研究ポータルからの情報抽出に焦点を当てている。 主な目的は、これらの対象ソースから多様な研究データを収集することであり、このフレームワークを実装することで、研究者は、作業に有用な情報を収集し、時間と労力を節約できる。 研究ポータルデータのセマンティックな組織は、アクセシビリティと解釈可能性を高め、より効率的で効率的な知識発見を促進する。 本研究は,研究データ管理の進歩に寄与し,学術コミュニティにおけるセマンティックウェブ技術の活用を促進する。

As the amount of data on the World Wide Web continues to grow exponentially, access to semantically structured information remains limited. The Semantic Web has emerged as a solution to enhance the machine-readability of data, making it significantly more accessible and interpretable. Various techniques, such as web scraping and mapping, have been employed by different websites to provide semantic access. Web scraping involves the extraction of valuable information from diverse data sources, such as the World Wide Web, utilizing powerful string manipulation operations.In the research field, researchers face the challenge of collecting relevant data from multiple sources, which requires substantial time and effort. This research aims to address this issue by designing a framework for the semantic organization of research portal data. The framework focuses on the extraction of information from two specific research portals, namely Microsoft Academic and IEEE Xplore. Its primary objective is to gather diverse research-related data from these targeted sources.By implementing this framework, researchers can streamline the process of collecting valuable information for their work, saving time and effort. The semantic organization of research portal data offers enhanced accessibility and interpretability, facilitating more effective and efficient knowledge discovery. This research contributes to the advancement of research data management and promotes the utilization of semantic web technologies in the academic community.
翻訳日:2023-10-23 19:14:51 公開日:2023-06-20
# ソフトウェアエンジニアのStack Exchangeに関する質問と回答

Software Engineers' Questions and Answers on Stack Exchange ( http://arxiv.org/abs/2306.11534v1 )

ライセンス: Link先を確認
Mat\'u\v{s} Sul\'ir, Marcel Regeci(参考訳) Stack OverflowのWebサイトでは、質問や回答を分析する研究が数多く行われている。 しかし、stack exchangeプラットフォームの他のサブサイトは、ほとんど研究されていない。 本稿では,テストやソフトウェアプロセスなど,幅広い分野を包含するソフトウェアエンジニアリングスタック交換サイトの質問と回答を分析した。 ダウンロードされたデータセットを用いて,質問の話題と量,歴史傾向,著者の感情を分析した。 質問された質問は、データベースシステム、品質保証、アジャイルソフトウェア開発に最もよく関連していることがわかった。 最も魅力的なトピックはキャリアとチームワークの問題であり、最も魅力的なトピックはネットワークプログラミングとソフトウェアモデリングだった。 歴史的に、ドメイン駆動設計の話題は最高上昇を記録し、仕事とキャリアは最も重要な衰退を記録した。 新しい質問の数は減少し、未回答の質問の数も増加した。

There exists a large number of research works analyzing questions and answers on the popular Stack Overflow website. However, other sub-sites of the Stack Exchange platform are studied rarely. In this paper, we analyze the questions and answers on the Software Engineering Stack Exchange site that encompasses a broader set of areas, such as testing or software processes. Topics and quantities of the questions, historical trends, and the authors' sentiment were analyzed using downloaded datasets. We found that the asked questions are most frequently related to database systems, quality assurance, and agile software development. The most attractive topics were career and teamwork problems, and the least attractive ones were network programming and software modeling. Historically, the topic of domain-driven design recorded the highest rise, and jobs and career the most significant fall. The number of new questions dropped, while the portion of unanswered ones increased.
翻訳日:2023-10-23 19:14:29 公開日:2023-06-20
# コードレビュアの優先順位付けを支援する - 個人データのピンポイントとその処理

Helping Code Reviewer Prioritize: Pinpointing Personal Data and its Processing ( http://arxiv.org/abs/2306.11495v1 )

ライセンス: Link先を確認
Feiyang Tang, Bjarte M. {\O}stvold, Magiel Bruntink(参考訳) GDPR(General Data Protection Regulation)への準拠を保証することは、ソフトウェア開発の重要な側面である。 このタスクは、その時間を要する性質と専門知識の要求のため、しばしば特別なコードレビュアーに延期または委譲される。 これらのレビュアーは、特に開発組織外部の場合には、レビュー中のソフトウェアに関する詳細な知識を欠き、リソースの優先順位付けを必要とします。 これを解決するために,コードレビュアーが個人データに関する作業の優先順位付けを支援するために,コードベースの2つの特別なビューを設計した。一方のビューは個人データ表現のタイプを表示し,他方のビューは、特定のコードスニペットのオプションで詳細な調査によって補完された個人データ処理の抽象的な描写を提供する。 静的解析を利用することで、個人データ関連コードセグメントを識別し、レビュープロセスを迅速化する。 4つのオープンソースgithubアプリケーションで評価したこのアプローチは、個人データフローの識別において0.18パーセントの精度を示した。 さらに15のAndroidアプリケーションのプライバシーステートメントも事実チェックしました。 このソリューションは、ROPA(Record of Processing Activity)のようなGDPR関連のプライバシ分析タスクの効率を高めるために設計されたもので、リソースの保存を目的としており、これにより、コードレビュアーの時間を節約し、生産性を向上させる。

Ensuring compliance with the General Data Protection Regulation (GDPR) is a crucial aspect of software development. This task, due to its time-consuming nature and requirement for specialized knowledge, is often deferred or delegated to specialized code reviewers. These reviewers, particularly when external to the development organization, may lack detailed knowledge of the software under review, necessitating the prioritization of their resources. To address this, we have designed two specialized views of a codebase to help code reviewers in prioritizing their work related to personal data: one view displays the types of personal data representation, while the other provides an abstract depiction of personal data processing, complemented by an optional detailed exploration of specific code snippets. Leveraging static analysis, our method identifies personal data-related code segments, thereby expediting the review process. Our approach, evaluated on four open-source GitHub applications, demonstrated a precision rate of 0.87 in identifying personal data flows. Additionally, we fact-checked the privacy statements of 15 Android applications. This solution, designed to augment the efficiency of GDPR-related privacy analysis tasks such as the Record of Processing Activities (ROPA), aims to conserve resources, thereby saving time and enhancing productivity for code reviewers.
翻訳日:2023-10-23 19:14:18 公開日:2023-06-20
# アプリ分析における透明性: ユーザインタラクションデータの収集を分析する

Transparency in App Analytics: Analyzing the Collection of User Interaction Data ( http://arxiv.org/abs/2306.11447v1 )

ライセンス: Link先を確認
Feiyang Tang, Bjarte M. {\O}stvold(参考訳) モバイルアプリの普及は、ユーザーにとって利便性と多くの選択肢をもたらしている。 しかし、多くのアプリが分析サービスを使用して幅広いユーザーインタラクションデータを収集しているため、プライバシポリシは収集されたインタラクションデータの種類やデータ収集のプラクティスの範囲を明らかにしていないことが多い。 この透明性の欠如は、データ保護法に違反し、ユーザの信頼を損なう可能性がある。 インタラクションデータ収集の一般的なプラクティスを特定するために,androidアプリの分析ライブラリのトップ20を分析し,この情報を用いて,アプリケーションのデータ収集プラクティスを要約する標準的なコレクションクレームテンプレートを開発した。 ユーザインタラクションデータ。 google play上の人気カテゴリのトップ100アプリを選択し、自動静的解析を使用して、データ収集実装から収集した証拠を抽出した。 分析の結果,これらのアプリの大部分がビュー(89%),ボタン(76%),テキストフィールド(63%)といったUIタイプのインタラクションデータを積極的に収集しており,ユーザインタラクションデータ収集の広範性を強調していることがわかった。 収集した証拠を、プライバシーポリシーの分析から得られた主張と比較することにより、トップ10アプリのクレームの完全性と正確性を手作業で確認した。 1つのアプリを除いて、彼らは皆、収集したすべてのタイプのインタラクションデータを宣言することができず、使用したコレクションのテクニックを特定できなかった。

The rise of mobile apps has brought greater convenience and many options for users. However, many apps use analytics services to collect a wide range of user interaction data, with privacy policies often failing to reveal the types of interaction data collected or the extent of the data collection practices. This lack of transparency potentially breaches data protection laws and also undermines user trust. We conducted an analysis of the top 20 analytic libraries for Android apps to identify common practices of interaction data collection and used this information to develop a standardized collection claim template for summarizing an app's data collection practices wrt. user interaction data. We selected the top 100 apps from popular categories on Google Play and used automatic static analysis to extract collection evidence from their data collection implementations. Our analysis found that a significant majority of these apps actively collected interaction data from UI types such as View (89%), Button (76%), and Textfield (63%), highlighting the pervasiveness of user interaction data collection. By comparing the collection evidence to the claims derived from privacy policy analysis, we manually fact-checked the completeness and accuracy of these claims for the top 10 apps. We found that, except for one app, they all failed to declare all types of interaction data they collect and did not specify some of the collection techniques used.
翻訳日:2023-10-23 19:13:53 公開日:2023-06-20
# フィンガープリンティングと大規模再現可能なデータセットの構築

Fingerprinting and Building Large Reproducible Datasets ( http://arxiv.org/abs/2306.11391v1 )

ライセンス: Link先を確認
Romain Lefeuvre, Jessie Galasso, Benoit Combemale, Houari Sahraoui and Stefano Zacchiroli(参考訳) 関連するデータセットを取得することは、ソフトウェア工学における実証研究の中心である。 しかし、ソフトウェアのリポジトリをマイニングする文脈では、大規模なマイニングタスクに適したツールがないため、新しいデータセットの作成が妨げられる。 さらに、時間とともに変化するデータソースに関する制限(例えば、コードベース)と抽出プロセスのドキュメントの欠如は、データセットの再現を時間とともに困難にしている。 これは実証研究の品質と再現性を脅かす。 本稿では,その再現性を確保しつつ,大規模データセットの作成を容易にするツール支援手法を提案する。 私たちは、再現可能で汎用的な抽出プロセスの概要を説明するために、統一プログラミングインターフェースを通じてアクセス可能なソフトウェアヘリテージの追加のみのアーカイブを提供するすべてのソースを利用しました。 抽出プロセスに提供されたデータセットを特徴付けるユニークな指紋を定義する方法を提案する。 プロトタイプの実装により,提案手法の実現可能性を示す。 データセットの作成や再生において、研究者が直面する制限を減らすのにどのように役立つかを示す。

Obtaining a relevant dataset is central to conducting empirical studies in software engineering. However, in the context of mining software repositories, the lack of appropriate tooling for large scale mining tasks hinders the creation of new datasets. Moreover, limitations related to data sources that change over time (e.g., code bases) and the lack of documentation of extraction processes make it difficult to reproduce datasets over time. This threatens the quality and reproducibility of empirical studies. In this paper, we propose a tool-supported approach facilitating the creation of large tailored datasets while ensuring their reproducibility. We leveraged all the sources feeding the Software Heritage append-only archive which are accessible through a unified programming interface to outline a reproducible and generic extraction process. We propose a way to define a unique fingerprint to characterize a dataset which, when provided to the extraction process, ensures that the same dataset will be extracted. We demonstrate the feasibility of our approach by implementing a prototype. We show how it can help reduce the limitations researchers face when creating or reproducing datasets.
翻訳日:2023-10-23 19:13:31 公開日:2023-06-20
# SU(2)不変分離性偏光による量子安全な直接通信-OAM状態

Quantum secure direct communication with SU(2) invariant separable polarisation- OAM states ( http://arxiv.org/abs/2309.00622v1 )

ライセンス: Link先を確認
Sooryansh Asthana, Rajni Bala, V. Ravishankar(参考訳) 本稿では,SU (2) 不変な N$ の分離可能な状態を用いて,[Bharath & Ravishankar, Phys. A 89, 062110}] の2量子絡み合ったワーナー状態の分離可能な等価値として同定された量子セキュアな直接通信プロトコルを提案する。 これらの状態は分離性偏光-OAM状態の非コヒーレントな重ね合わせとして実験的に実現できる。

We propose a quantum secure direct communication protocol using SU (2)- invariant $2\times N$ separable states, identified as separable equivalents of two-qubit entangled Werner states in [Bharath & Ravishankar, Phys. Rev. A 89, 062110}]. These states can be experimentally realized as incoherent superpositions of separable polarisation-OAM states.
翻訳日:2023-10-23 11:32:55 公開日:2023-06-20
# ICU死亡予測の改善のための放射線診断と画像を用いた実証的研究

An empirical study of using radiology reports and images to improve ICU mortality prediction ( http://arxiv.org/abs/2307.07513v1 )

ライセンス: Link先を確認
Mingquan Lin, Song Wang, Ying Ding, Lihui Zhao, Fei Wang, Yifan Peng(参考訳) 背景:ICUは重要な結果,特に死亡率を予測するため,ICU管理において重要な役割を担っている。 多くのスコアリングシステムがICUで開発され使用されている。 これらのスコアリングシステムは、主に電子健康記録(ehr)の構造化臨床データに基づいており、物語や画像における重要な臨床情報を失う可能性がある。 方法:本研究では,ICU死亡率を予測するために,多モードデータを用いた深層学習に基づく生存予測モデルを構築した。 1) 簡易型急性生理スコア(SAPS) II, (2) 放射線医が事前に定義した胸部疾患, (3) BERT によるテキスト表現, (4) 胸部X線像の特徴の4つの特徴について検討した。 医療情報マートをMIMIC-IV(MIMIC-IV)データセットを用いて提案モデルの評価を行った。 結果: 本モデルでは, SAPS-II特徴量 (0.7470 (0.7263-0.7676)) のベースラインをほぼ上回り, 平均C指数が0.7829 (95%信頼区間, 0.7620-0.8038) となる。 アブレーション研究はさらに、事前定義されたラベル(2.00%)、テキスト特徴(2.44%)、画像特徴(2.82%)の寄与を実証している。

Background: The predictive Intensive Care Unit (ICU) scoring system plays an important role in ICU management because it predicts important outcomes, especially mortality. Many scoring systems have been developed and used in the ICU. These scoring systems are primarily based on the structured clinical data in the electronic health record (EHR), which may suffer the loss of important clinical information in the narratives and images. Methods: In this work, we build a deep learning based survival prediction model with multi-modality data to predict ICU mortality. Four sets of features are investigated: (1) physiological measurements of Simplified Acute Physiology Score (SAPS) II, (2) common thorax diseases pre-defined by radiologists, (3) BERT-based text representations, and (4) chest X-ray image features. We use the Medical Information Mart for Intensive Care IV (MIMIC-IV) dataset to evaluate the proposed model. Results: Our model achieves the average C-index of 0.7829 (95% confidence interval, 0.7620-0.8038), which substantially exceeds that of the baseline with SAPS-II features (0.7470 (0.7263-0.7676)). Ablation studies further demonstrate the contributions of pre-defined labels (2.00%), text features (2.44%), and image features (2.82%).
翻訳日:2023-07-23 12:27:14 公開日:2023-06-20
# 信頼できる人工知能のガイドライン - AIアセスメントカタログ

Guideline for Trustworthy Artificial Intelligence -- AI Assessment Catalog ( http://arxiv.org/abs/2307.03681v1 )

ライセンス: Link先を確認
Maximilian Poretschkin (1 and 2), Anna Schmitz (1), Maram Akila (1), Linara Adilova (1), Daniel Becker (1), Armin B. Cremers (2), Dirk Hecker (1), Sebastian Houben (1), Michael Mock (1 and 2), Julia Rosenzweig (1), Joachim Sicking (1), Elena Schulz (1), Angelika Voss (1), Stefan Wrobel (1 and 2) ((1) Fraunhofer Institute for Intelligent Analysis and Information Systems IAIS, Sankt Augustin, Germany, (2) Department of Computer Science, University of Bonn, Bonn, Germany)(参考訳) 近年、人工知能(AI)は目覚ましい進歩を遂げており、経済や社会に重大な影響を与える重要な技術となっている。 しかし、それに基づくAIとビジネスモデルが、高品質な標準に従ってAIアプリケーションが開発され、新しいAIリスクに対して効果的に保護されている場合にのみ、その潜在能力に到達することは明らかである。 例えば、AIは個人が個人データを処理する際に不公平な扱いをするリスクを負う。 これらの新たなリスクの出現は、AIアプリケーションの振る舞い、特に機械学習(ML)に基づくものは、本質的に大量のデータから学習され、固定されたプログラムされたルールによって規定されていないという事実と密接に関連している。 したがって、AIアプリケーションの信頼性の問題は非常に重要であり、政治、ビジネス、社会の利害関係者による数多くの主要な出版物の対象となっている。 さらに、信頼できるAIの要件は、しばしば抽象的な方法で記述され、明確で具現化されなければならないという相互の合意がある。 ここで克服すべき課題のひとつは、AIアプリケーションの特定の品質基準がアプリケーションコンテキストに大きく依存しているという事実と、それらを満たすための可能な措置が、使用するAIテクノロジに大きく依存しているという事実だ。 最後に、適切な品質基準に従って特定のAIアプリケーションが開発されたかどうかを評価するために、実用的な評価手順が必要である。 このAIアセスメントカタログは、まさにこの点に対応しており、2つのターゲットグループを対象としている。 第2に、AIアプリケーションの信頼性を構造化された方法で調査する方法について、評価者や監査者を指導する。

Artificial Intelligence (AI) has made impressive progress in recent years and represents a key technology that has a crucial impact on the economy and society. However, it is clear that AI and business models based on it can only reach their full potential if AI applications are developed according to high quality standards and are effectively protected against new AI risks. For instance, AI bears the risk of unfair treatment of individuals when processing personal data e.g., to support credit lending or staff recruitment decisions. The emergence of these new risks is closely linked to the fact that the behavior of AI applications, particularly those based on Machine Learning (ML), is essentially learned from large volumes of data and is not predetermined by fixed programmed rules. Thus, the issue of the trustworthiness of AI applications is crucial and is the subject of numerous major publications by stakeholders in politics, business and society. In addition, there is mutual agreement that the requirements for trustworthy AI, which are often described in an abstract way, must now be made clear and tangible. One challenge to overcome here relates to the fact that the specific quality criteria for an AI application depend heavily on the application context and possible measures to fulfill them in turn depend heavily on the AI technology used. Lastly, practical assessment procedures are needed to evaluate whether specific AI applications have been developed according to adequate quality standards. This AI assessment catalog addresses exactly this point and is intended for two target groups: Firstly, it provides developers with a guideline for systematically making their AI applications trustworthy. Secondly, it guides assessors and auditors on how to examine AI applications for trustworthiness in a structured way.
翻訳日:2023-07-16 04:15:03 公開日:2023-06-20
# 食品認識と栄養アプリ

Food Recognition and Nutritional Apps ( http://arxiv.org/abs/2307.05372v1 )

ライセンス: Link先を確認
Lubnaa Abdur Rahman, Ioannis Papathanail, Lorenzo Brigato, Elias K. Spanakis, Stavroula Mougiakakou(参考訳) 食品認識と栄養アプリは、糖尿病患者が食事を管理する方法に革命をもたらすかもしれないトレンド技術だ。 こうしたアプリは、食事の摂取をデジタル日記として監視し、人工知能を使って食事を自動的に評価する。 これらのアプリは糖尿病を管理するための有望なソリューションを提供するが、患者が使用することは滅多にない。 本章は,食品認識・栄養アプリの現状を深く評価し,その使用を阻害・促進する要因を特定し,関連する研究・開発の概要を述べることを目的とする。

Food recognition and nutritional apps are trending technologies that may revolutionise the way people with diabetes manage their diet. Such apps can monitor food intake as a digital diary and even employ artificial intelligence to assess the diet automatically. Although these apps offer a promising solution for managing diabetes, they are rarely used by patients. This chapter aims to provide an in-depth assessment of the current status of apps for food recognition and nutrition, to identify factors that may inhibit or facilitate their use, while it is accompanied by an outline of relevant research and development.
翻訳日:2023-07-16 03:56:29 公開日:2023-06-20
# 量子鍵分布によるセキュアなホッピング通信の実証実験

Experimental Demonstration of Secure Frequency Hopping Communication Enabled by Quantum Key Distribution ( http://arxiv.org/abs/2307.05495v1 )

ライセンス: Link先を確認
Bernardo A. Huberman, Bob Lund, Jing Wang, and Lin Cheng(参考訳) そこで,我々は,量子鍵分散ネットワークを用いた周波数ホッピングスペクトル通信方式を提案し,実証実験を行った。 その結果,インターセプションやジャミング確率が低かった。

We propose and experimentally demonstrate a method of frequency hopping spread spectrum communication using a quantum key distribution network to deliver the frequency hopping pattern for secure wireless communications. Results show low interception and jamming probabilities.
翻訳日:2023-07-16 03:34:47 公開日:2023-06-20
# 地理的負荷分散による環境に配慮したAIを目指して

Towards Environmentally Equitable AI via Geographical Load Balancing ( http://arxiv.org/abs/2307.05494v1 )

ライセンス: Link先を確認
Pengfei Li and Jianyi Yang and Adam Wierman and Shaolei Ren(参考訳) 大規模言語や基礎モデルの普及により、人工知能(AI)モデルの巨大な環境フットプリントの急速な成長は、より精査されている。 AIをよりエネルギー効率が高く環境に優しいものにするために多くのアプローチが提案されているが、環境不平等(AIの環境フットプリントが他の地域よりも不均等に高いという事実)が出現し、社会生態学的正義の懸念が高まっている。 本稿では、その地域的負の環境影響のバランスをとることによって、AIの環境不平等に対処する第一歩を踏み出す。 具体的には、AIモデル推論の炭素と水のフットプリントに注目し、最も不利な領域におけるAIの環境影響を明確化するために、エクイティ対応の地理的負荷分散(GLB)を提案する。 大規模言語AIモデルに対する推論要求を提供する地理的に分散した10のデータセンタを考慮し、トレースベースのシミュレーションを実行する。 その結果,既存のGLBアプローチは環境不平等を増大させる可能性を示し,提案したエクイティ対応GLBは,炭素および水のフットプリントにおける地域格差を著しく低減できることを示した。

Fueled by the soaring popularity of large language and foundation models, the accelerated growth of artificial intelligence (AI) models' enormous environmental footprint has come under increased scrutiny. While many approaches have been proposed to make AI more energy-efficient and environmentally friendly, environmental inequity -- the fact that AI's environmental footprint can be disproportionately higher in certain regions than in others -- has emerged, raising social-ecological justice concerns. This paper takes a first step toward addressing AI's environmental inequity by balancing its regional negative environmental impact. Concretely, we focus on the carbon and water footprints of AI model inference and propose equity-aware geographical load balancing (GLB) to explicitly address AI's environmental impacts on the most disadvantaged regions. We run trace-based simulations by considering a set of 10 geographically-distributed data centers that serve inference requests for a large language AI model. The results demonstrate that existing GLB approaches may amplify environmental inequity while our proposed equity-aware GLB can significantly reduce the regional disparity in terms of carbon and water footprints.
翻訳日:2023-07-16 03:34:42 公開日:2023-06-20
# なぜニューラル言語モデルは次の単語を予測するのか? 数学的な視点

Why can neural language models solve next-word prediction? A mathematical perspective ( http://arxiv.org/abs/2306.17184v1 )

ライセンス: Link先を確認
Vinoth Nandakumar, Peng Mi and Tongliang Liu(参考訳) 近年、ディープラーニングは自然言語処理の分野に革命をもたらし、ニューラルネットワークモデルが次の単語予測に非常に効果的であることが証明されている。 しかしながら、形式言語理論の文脈での成功に関する厳密な理論的説明はまだ開発されておらず、なぜニューラル言語モデルが次の単語予測タスクを支配する組合せ規則を学べるのかは不明である。 本稿では,英語文の実世界の実例をモデル化するために使用できる形式言語の種類について検討する。 ニューラルネットワークモデルの構築により,この文脈における次の単語予測タスクをゼロエラーで解くことができる。 我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。

Recently, deep learning has revolutionized the field of natural language processing, with neural language models proving to be very effective for next-word prediction. However, a rigorous theoretical explanation for their success in the context of formal language theory has not yet been developed, as it is unclear why neural language models can learn the combinatorial rules that govern the next-word prediction task. In this paper, we study a class of formal languages that can be used to model real-world examples of English sentences. We construct neural language models can solve the next-word prediction task in this context with zero error. Our proof highlights the different roles of the embedding layer and the fully connected component within the neural language model.
翻訳日:2023-07-09 14:09:38 公開日:2023-06-20
# HIDFlowNet - ハイパースペクトル画像復調のためのフローベースディープネットワーク

HIDFlowNet: A Flow-Based Deep Network for Hyperspectral Image Denoising ( http://arxiv.org/abs/2306.17797v1 )

ライセンス: Link先を確認
Li Pang, Weizhen Gu, Xiangyong Cao, Xiangyu Rui, Jiangjun Peng, Shuang Xu, Gang Yang, Deyu Meng(参考訳) ノイズの多いHSIを複数のクリーンなHSIから分解できるため、ハイパスペクトル画像(HSI)の劣化は本質的には不良である。 しかし、現在のディープラーニングベースのアプローチはこの事実を無視し、決定論的マッピングでクリーンなイメージを復元する(すなわち、ネットワークはノイズの多いHSIを受け取り、クリーンなHSIを出力する)。 そこで本稿では, ノイズの多いHSIの条件分布を直接学習するフローベースHSI denoising Network (HIDFlowNet)を提案する。 全体として、HIDFlowNetはフロー手法から誘導され、HSIの低周波および高周波情報の学習を完全に分離できる可逆デコーダと条件エンコーダを含む。 具体的には、インバータブルデコーダは、インバータブルネットワークが情報ロスレスであるため、ローカルな高周波の詳細をキャプチャするために、インバータブルコンディショナルブロック(ICB)を継承することで構築される。 条件エンコーダは、ダウンサンプリング操作を利用して低解像度画像を取得し、トランスフォーマーを用いて長距離の相関を捉え、グローバルな低周波情報を効果的に抽出する。 シミュレーションおよび実HSIデータセットの大規模な実験結果から,提案したHIDFlowNetの優位性を定量的および視覚的に検証した。

Hyperspectral image (HSI) denoising is essentially ill-posed since a noisy HSI can be degraded from multiple clean HSIs. However, current deep learning-based approaches ignore this fact and restore the clean image with deterministic mapping (i.e., the network receives a noisy HSI and outputs a clean HSI). To alleviate this issue, this paper proposes a flow-based HSI denoising network (HIDFlowNet) to directly learn the conditional distribution of the clean HSI given the noisy HSI and thus diverse clean HSIs can be sampled from the conditional distribution. Overall, our HIDFlowNet is induced from the flow methodology and contains an invertible decoder and a conditional encoder, which can fully decouple the learning of low-frequency and high-frequency information of HSI. Specifically, the invertible decoder is built by staking a succession of invertible conditional blocks (ICBs) to capture the local high-frequency details since the invertible network is information-lossless. The conditional encoder utilizes down-sampling operations to obtain low-resolution images and uses transformers to capture correlations over a long distance so that global low-frequency information can be effectively extracted. Extensive experimental results on simulated and real HSI datasets verify the superiority of our proposed HIDFlowNet compared with other state-of-the-art methods both quantitatively and visually.
翻訳日:2023-07-09 14:00:38 公開日:2023-06-20
# データプライバシアルゴリズムのベンチマークのための分散コミュニティデータ

Diverse Community Data for Benchmarking Data Privacy Algorithms ( http://arxiv.org/abs/2306.13216v1 )

ライセンス: Link先を確認
Aniruddha Sen, Christine Task, Dhruv Kapur, Gary Howarth, Karan Bhagat(参考訳) 多様なコミュニティのデータ抜粋は、合成データのような表データ識別技術の理解を強化する国立標準技術研究所(nist)のプログラムの中核である。 合成データ(synthetic data)は、ビッグデータのメリットを民主化する野心的な試みである。 しかし、他の機械学習アプリケーションに影響を及ぼすバイアスやプライバシーの問題に弱いため、これらの問題を増幅することもできる。 特定されていないデータ分布がバイアスやアーティファクト、機密情報を漏らすと、これらの問題を下流のアプリケーションに伝播させる。 さらに、多様なサブポピュレーション、異質な非順序データ空間、特徴間の複雑な依存関係といった実世界の調査条件は、合成データアルゴリズムに特有の課題をもたらす。 これらの観察は、アルゴリズムの振る舞いのロバストな理解をサポートするために、リアルで多様で複雑なベンチマークデータの必要性を動機付ける。 本稿では, 多様な個体群と公平な識別課題との関係に関する新たな理論的研究, 多様な個体群に着目した公開ベンチマークデータと, アメリカコミュニティサーベイ(American Community Survey)から収集した課題データ, 同定されたデータセットに対する評価メタロジのオープンソーススイート, 幅広い識別手法に関する評価結果のアーカイブを紹介する。 評価結果の最初の集合は、これらのツールがこの分野における調査に適していることを示すものである。

The Diverse Communities Data Excerpts are the core of a National Institute of Standards and Technology (NIST) program to strengthen understanding of tabular data deidentification technologies such as synthetic data. Synthetic data is an ambitious attempt to democratize the benefits of big data; it uses generative models to recreate sensitive personal data with new records for public release. However, it is vulnerable to the same bias and privacy issues that impact other machine learning applications, and can even amplify those issues. When deidentified data distributions introduce bias or artifacts, or leak sensitive information, they propagate these problems to downstream applications. Furthermore, real-world survey conditions such as diverse subpopulations, heterogeneous non-ordinal data spaces, and complex dependencies between features pose specific challenges for synthetic data algorithms. These observations motivate the need for real, diverse, and complex benchmark data to support a robust understanding of algorithm behavior. This paper introduces four contributions: new theoretical work on the relationship between diverse populations and challenges for equitable deidentification; public benchmark data focused on diverse populations and challenging features curated from the American Community Survey; an open source suite of evaluation metrology for deidentified datasets; and an archive of evaluation results on a broad collection of deidentification techniques. The initial set of evaluation results demonstrate the suitability of these tools for investigations in this field.
翻訳日:2023-07-02 13:57:02 公開日:2023-06-20
# トランスファーラーニンググラフニューラルネットワークを用いた異種電極構成を持つデータセットの脳波復号

EEG Decoding for Datasets with Heterogenous Electrode Configurations using Transfer Learning Graph Neural Networks ( http://arxiv.org/abs/2306.13109v1 )

ライセンス: Link先を確認
Jinpei Han, Xiaoxi Wei and A. Aldo Faisal(参考訳) Brain-Machine Interface (BMI)は、トレーニングのために広範囲なデータを必要とする機能学習に機械学習メソッドを採用することで、大きな恩恵を受けている。 しかし、記録装置や電極配置のばらつき、データ分布の変化、データ次元の変化、データ次元の同一性の変化などにより、研究室間でのデータや、同じ研究室内で収集されたデータとを組み合わせることは困難である。 私たちの目標は、この制限を克服し、実験プロトコルの異なるラボ間で、多種多様なデータセットから学ぶことです。 領域適応問題に対処するため、BMIの例として、グラフニューラルネットワーク(GNN)と非侵襲型運動画像(MI)脳波デコーディングのための転送学習手法を組み合わせた新しい機械学習フレームワークを開発した。 実験では,異なる電極配置と異なる電極数を持つ脳波データから学習する上での課題に着目する。 我々は,異なる数の脳波センサ(22チャンネルから64チャンネル)とレイアウト(カスタムレイアウトから10~20チャンネル)を用いて収集した3つのMI EEGデータベースを利用する。 我々のモデルは、テストデータセットの標準偏差を低くして最高精度を達成した。 このことは、GNNベースの転送学習フレームワークが、異なる電極配置を持つ複数のデータセットからの知識を効果的に集約できることを示している。 本研究の知見は,非統一実験による限界を克服するための有望な手法として,脳-コンピュータ-インターフェース(bci)研究に重要な意味を持つ。 電極配置の異なる多様なデータセットの統合を可能とすることで,提案手法はBMI技術の発展と応用を促進するのに役立つ。

Brain-Machine Interfacing (BMI) has greatly benefited from adopting machine learning methods for feature learning that require extensive data for training, which are often unavailable from a single dataset. Yet, it is difficult to combine data across labs or even data within the same lab collected over the years due to the variation in recording equipment and electrode layouts resulting in shifts in data distribution, changes in data dimensionality, and altered identity of data dimensions. Our objective is to overcome this limitation and learn from many different and diverse datasets across labs with different experimental protocols. To tackle the domain adaptation problem, we developed a novel machine learning framework combining graph neural networks (GNNs) and transfer learning methodologies for non-invasive Motor Imagery (MI) EEG decoding, as an example of BMI. Empirically, we focus on the challenges of learning from EEG data with different electrode layouts and varying numbers of electrodes. We utilise three MI EEG databases collected using very different numbers of EEG sensors (from 22 channels to 64) and layouts (from custom layouts to 10-20). Our model achieved the highest accuracy with lower standard deviations on the testing datasets. This indicates that the GNN-based transfer learning framework can effectively aggregate knowledge from multiple datasets with different electrode layouts, leading to improved generalization in subject-independent MI EEG classification. The findings of this study have important implications for Brain-Computer-Interface (BCI) research, as they highlight a promising method for overcoming the limitations posed by non-unified experimental setups. By enabling the integration of diverse datasets with varying electrode layouts, our proposed approach can help advance the development and application of BMI technologies.
翻訳日:2023-07-02 13:56:21 公開日:2023-06-20
# 現代制約プログラミング教育:将来への教訓

Modern Constraint Programming Education: Lessons for the Future ( http://arxiv.org/abs/2306.13676v1 )

ライセンス: Link先を確認
Tejas Santanam, Pascal Van Hentenryck(参考訳) 本稿では,CPインストラクターのレンズによる現代制約プログラミング(CP)教育の展望について述べる。 現在のCPコースの概要と指導方法について概説し、オンラインおよび事実上のコースに着目した。 続いて、アメリカ合衆国ジョージア州アトランタにあるジョージア工科大学(georgia tech)で、工学系学生のためのcp教育を大規模に導入するための新しいアプローチに関する議論が行われた。 本論文は,ジョージア工科大学 cp コースの要点を要約し,cp 教育の今後について考察する。 cp教育の長期的成長を支援するために,指導方法,促進方法,組織変化の考え方が提案されている。

This paper details an outlook on modern constraint programming (CP) education through the lens of a CP instructor. A general overview of current CP courses and instructional methods is presented, with a focus on online and virtually-delivered courses. This is followed by a discussion of the novel approach taken to introductory CP education for engineering students at large scale at the Georgia Institute of Technology (Georgia Tech) in Atlanta, GA, USA. The paper summarizes important takeaways from the Georgia Tech CP course and ends with a discussion on the future of CP education. Some ideas for instructional methods, promotional methods, and organizational changes are proposed to aid in the long-term growth of CP education.
翻訳日:2023-07-02 13:35:24 公開日:2023-06-20
# 医療記録における間欠性と証言不正

Intersectionality and Testimonial Injustice in Medical Records ( http://arxiv.org/abs/2306.13675v1 )

ライセンス: Link先を確認
Kenya S. Andrews and Bhuvani Shah and Lu Cheng(参考訳) 証言の不公平を検出することは、不平等に対処し、包括的医療プラクティスを促進する重要な要素である。 しかし,1つの人口統計因子を用いて証言の不公平を検出することは,患者の経験に寄与するニュアンスなアイデンティティを完全には含まない。 さらに、いくつかの不正は、交叉性レンズを通して生じるニュアンスを調べる場合にのみ明らかである。 このような不正を無視すると、ケアの質が悪くなり、命が危うくなることがある。 したがって、交差性を考えると、より正確な分類と単なる決定をもたらす可能性がある。 これを説明するために、実世界の医療データを用いて、医療記録が証言の不当さにつながる可能性のある単語を呈するかどうかを判断し、公平度指標(例えば、人口差パリティ、差分交叉不公平、サブグループフェアネス)を用いて、証言不公平を経験するサブグループの重大度を評価し、人口統計学的特徴(例えば、性別と人種)の交叉性が、証言不当さの解明にどのように影響するかを分析する。 分析の結果,交差性ではサブグループの扱いの仕方に差異が見られ,人口統計学的属性の交叉に基づく扱い方に相違があることが判明した。 これは、これまで臨床記録では研究されておらず、経験的研究でも証明されていない。

Detecting testimonial injustice is an essential element of addressing inequities and promoting inclusive healthcare practices, many of which are life-critical. However, using a single demographic factor to detect testimonial injustice does not fully encompass the nuanced identities that contribute to a patient's experience. Further, some injustices may only be evident when examining the nuances that arise through the lens of intersectionality. Ignoring such injustices can result in poor quality of care or life-endangering events. Thus, considering intersectionality could result in more accurate classifications and just decisions. To illustrate this, we use real-world medical data to determine whether medical records exhibit words that could lead to testimonial injustice, employ fairness metrics (e.g. demographic parity, differential intersectional fairness, and subgroup fairness) to assess the severity to which subgroups are experiencing testimonial injustice, and analyze how the intersectionality of demographic features (e.g. gender and race) make a difference in uncovering testimonial injustice. From our analysis, we found that with intersectionality we can better see disparities in how subgroups are treated and there are differences in how someone is treated based on the intersection of their demographic attributes. This has not been previously studied in clinical records, nor has it been proven through empirical study.
翻訳日:2023-07-02 13:35:14 公開日:2023-06-20
# 分子の不確実性推定:デシデラタと方法

Uncertainty Estimation for Molecules: Desiderata and Methods ( http://arxiv.org/abs/2306.14916v1 )

ライセンス: Link先を確認
Tom Wollschl\"ager and Nicholas Gao and Bertrand Charpentier and Mohamed Amine Ketata and Stephan G\"unnemann(参考訳) グラフニューラルネットワーク(GNN)は、分子動力学(MD)軌道の集合に対する前例のない低い誤差を確立するため、量子力学計算のためのサロゲートを約束している。 高速な推論時間のおかげで、彼らは計算化学の応用を加速することを約束する。 残念なことに、id (in-distribution) エラーが少ないにもかかわらず、そのようなgnnは、od (out-of-distribution) サンプルではひどく間違っているかもしれない。 不確実性推定(UE)はその予測についてモデルの確実性を伝えることでそのような状況を支援することができる。 ここでは、この問題を詳しく調べ、分子力場におけるUEの6つのキーデシラタ、物理インフォームド、3つのアプリケーション中心のデシラタを同定する。 この分野を概観するために、UEの分野から既存の手法を調査し、それらがdeiderata集合にどのように適合するかを分析する。 分析により,先行研究はすべての基準を満たさないと結論づけた。 このギャップを埋めるために,desiderataを満たす既存のgnnへのgaussian process(gp)ベースの拡張であるlocalized neural kernel(lnk)を提案する。 3つの異なるバックボーンと2つのデータセットを持つ4つの異なるUEをテストする。 平衡外検出では,高い予測性能を維持しつつ,AUC-ROCスコアの最大2.5倍,2.1倍の誤差が得られた。

Graph Neural Networks (GNNs) are promising surrogates for quantum mechanical calculations as they establish unprecedented low errors on collections of molecular dynamics (MD) trajectories. Thanks to their fast inference times they promise to accelerate computational chemistry applications. Unfortunately, despite low in-distribution (ID) errors, such GNNs might be horribly wrong for out-of-distribution (OOD) samples. Uncertainty estimation (UE) may aid in such situations by communicating the model's certainty about its prediction. Here, we take a closer look at the problem and identify six key desiderata for UE in molecular force fields, three 'physics-informed' and three 'application-focused' ones. To overview the field, we survey existing methods from the field of UE and analyze how they fit to the set desiderata. By our analysis, we conclude that none of the previous works satisfies all criteria. To fill this gap, we propose Localized Neural Kernel (LNK) a Gaussian Process (GP)-based extension to existing GNNs satisfying the desiderata. In our extensive experimental evaluation, we test four different UE with three different backbones and two datasets. In out-of-equilibrium detection, we find LNK yielding up to 2.5 and 2.1 times lower errors in terms of AUC-ROC score than dropout or evidential regression-based methods while maintaining high predictive performance.
翻訳日:2023-07-02 13:28:28 公開日:2023-06-20
# GPT-4 MOF発見のためのレチキュラーケミスト

GPT-4 Reticular Chemist for MOF Discovery ( http://arxiv.org/abs/2306.14915v1 )

ライセンス: Link先を確認
Zhiling Zheng, Zichao Rong, Nakul Rampal, Christian Borgs, Jennifer T. Chayes, Omar M. Yaghi(参考訳) 本稿では,AIモデルであるGPT-4を,AIと人間の見習いとの相互作用の協調的ワークフローを生かした,構造的化学実験の反復的プロセスに統合する新しいフレームワークを提案する。 このGPT-4レチキュラーケミストは3つの相からなる統合システムである。 それぞれがGPT-4をさまざまな能力で使用しており、GPT-4は化学実験の詳細な指示を提供し、見習いは成功と失敗を含む実験結果に対するフィードバックを次のイテレーションでAIのテキスト学習に与えている。 この反復的な人間とAIの相互作用により、GPT-4は経験豊富な化学者のように、迅速な学習戦略によって結果から学ぶことができた。 重要なのは、このシステムは開発と運用の両方のための自然言語に基づいており、コーディングスキルの必要性をなくし、すべての化学者がアクセスできるようにする。 gpt-4のレチキュラー化学者は、それぞれ異なる合成戦略と最適条件を用いて作製された一連の金属-有機骨格(mofs)の発見を実証した。 このワークフローは、gpt-4のような大規模言語モデルの能力を利用して研究活動の実現性と効率を高めることで、科学研究における幅広い応用の可能性を示している。

We present a new framework integrating the AI model GPT-4 into the iterative process of reticular chemistry experimentation, leveraging a cooperative workflow of interaction between AI and a human apprentice. This GPT-4 Reticular Chemist is an integrated system composed of three phases. Each of these utilizes GPT-4 in various capacities, wherein GPT-4 provides detailed instructions for chemical experimentation and the apprentice provides feedback on the experimental outcomes, including both success and failures, for the in-text learning of AI in the next iteration. This iterative human-AI interaction enabled GPT-4 to learn from the outcomes, much like an experienced chemist, by a prompt-learning strategy. Importantly, the system is based on natural language for both development and operation, eliminating the need for coding skills, and thus, make it accessible to all chemists. Our GPT-4 Reticular Chemist demonstrated the discovery of an isoreticular series of metal-organic frameworks (MOFs), each of which was made using distinct synthesis strategies and optimal conditions. This workflow presents a potential for broader applications in scientific research by harnessing the capability of large language models like GPT-4 to enhance the feasibility and efficiency of research activities.
翻訳日:2023-07-02 13:28:03 公開日:2023-06-20
# クラスタリングに基づくカオスシステムにおける極端事象の前兆の同定

Clustering-based Identification of Precursors of Extreme Events in Chaotic Systems ( http://arxiv.org/abs/2306.16291v1 )

ライセンス: Link先を確認
Urszula Golyska and Nguyen Anh Khoa Doan(参考訳) 力学系の状態における急激で急激な高振幅の変化は、急激な気候パターン、ローグ波、雪崩など自然界で発生する多くのプロセスに現れる。 これらの出来事はしばしば破滅的な影響を伴い、その記述と予測は非常に重要である。 しかし、そのカオス的な性質から、そのモデリングは今日まで大きな課題となっている。 カオスシステムにおける希少かつ極端な事象の前駆体を特定するために,データ駆動のモジュラリティに基づくクラスタリング手法の適用性を検討した。 システム状態のクラスタリング,確率遷移行列,状態空間テセレーションに基づく同定フレームワークを,自己持続乱流のmoehliss-faisst-eckhardtモデルと2次元コルモゴロフ流の2つの異なるカオス系上で開発し,検証した。 どちらも運動エネルギーと散逸のバーストの形で極端な現象を示す。 提案手法は,極端な事象に対する経路を同定し,その発生を確率論的観点から予測する方法を提供する。 クラスタリングアルゴリズムは、極端な事象につながる前駆状態を正しく識別し、システムの状態とその前駆状態を統計的に記述することを可能にする。

Abrupt and rapid high-amplitude changes in a dynamical system's states known as extreme event appear in many processes occurring in nature, such as drastic climate patterns, rogue waves, or avalanches. These events often entail catastrophic effects, therefore their description and prediction is of great importance. However, because of their chaotic nature, their modelling represents a great challenge up to this day. The applicability of a data-driven modularity-based clustering technique to identify precursors of rare and extreme events in chaotic systems is here explored. The proposed identification framework based on clustering of system states, probability transition matrices and state space tessellation was developed and tested on two different chaotic systems that exhibit extreme events: the Moehliss-Faisst-Eckhardt model of self-sustained turbulence and the 2D Kolmogorov flow. Both exhibit extreme events in the form of bursts in kinetic energy and dissipation. It is shown that the proposed framework provides a way to identify pathways towards extreme events and predict their occurrence from a probabilistic standpoint. The clustering algorithm correctly identifies the precursor states leading to extreme events and allows for a statistical description of the system's states and its precursors to extreme events.
翻訳日:2023-07-02 13:05:35 公開日:2023-06-20
# DEPAC:音声からの抑うつ・不安検出コーパス

DEPAC: a Corpus for Depression and Anxiety Detection from Speech ( http://arxiv.org/abs/2306.12443v1 )

ライセンス: Link先を確認
Mashrura Tasnim, Malikeh Ehghaghi, Brian Diep, Jekaterina Novikova(参考訳) 抑うつや不安のような精神的苦痛は、世界的な疾病の負担の最大の割合に寄与する。 このような障害の自動診断システムは、人工知能の最近の革新によって強化され、影響を受ける個人の苦痛を軽減できる。 このようなシステムの開発には情報豊かでバランスの取れたコーパスが必要である。 本研究では、うつ病と不安標準スクリーニングツールの確立されたしきい値に基づいてラベル付けされた、心的苦痛分析オーディオデータセットDEPACを紹介する。 この大きなデータセットは、個人ごとの複数の音声タスクと関連する人口統計情報を含む。 また,人間の発話における精神疾患の徴候の同定に有効な手話音響的特徴と言語的特徴からなる特徴セットを提案する。 最後に,本データセット上に構築したベースライン機械学習モデルと,他のよく知られたうつ病コーパスでトレーニングされたベースラインモデルの性能を比較することにより,提案する音声コーパスと特徴セットの品質と効果を正当化する。

Mental distress like depression and anxiety contribute to the largest proportion of the global burden of diseases. Automated diagnosis systems of such disorders, empowered by recent innovations in Artificial Intelligence, can pave the way to reduce the sufferings of the affected individuals. Development of such systems requires information-rich and balanced corpora. In this work, we introduce a novel mental distress analysis audio dataset DEPAC, labeled based on established thresholds on depression and anxiety standard screening tools. This large dataset comprises multiple speech tasks per individual, as well as relevant demographic information. Alongside, we present a feature set consisting of hand-curated acoustic and linguistic features, which were found effective in identifying signs of mental illnesses in human speech. Finally, we justify the quality and effectiveness of our proposed audio corpus and feature set in predicting depression severity by comparing the performance of baseline machine learning models built on this dataset with baseline models trained on other well-known depression corpora.
翻訳日:2023-06-23 16:56:03 公開日:2023-06-20
# トークンレベル関係グラフによる知識蒸留

Knowledge Distillation via Token-level Relationship Graph ( http://arxiv.org/abs/2306.12442v1 )

ライセンス: Link先を確認
Shuoxi Zhang, Hanpeng Liu, Kun He(参考訳) 知識蒸留は、事前訓練された教師モデルから学生モデルへ知識を伝達する強力な技術である。 しかし、知識伝達の真の可能性は十分に検討されていない。 既存のアプローチは主に個々の情報やインスタンスレベルの関係を蒸留することに集中し、トークンレベルの関係に埋め込まれた貴重な情報を見渡す。 以上の制限に対処するため,トークン単位の関係知識を活用して知識蒸留の性能を向上させる,知識蒸留法(Knowledge Distillation with Token-level Relationship Graph, TRG)を提案する。 TRGを用いることで,教師モデルから高レベルの意味情報を効果的にエミュレートし,蒸留結果を改善することができる。 学習プロセスをさらに強化するため,教師モデルの内在的意味的文脈を捉えることを学生モデルに促す,文脈的損失と呼ばれるトークン的文脈的損失を導入する。 本研究では,提案手法の有効性を評価する実験を行った。 実験結果は,不均衡なデータを含む様々な視覚的分類課題におけるTRGの優位性を示す。 本手法は,既存のベースラインを一貫して上回っており,知識蒸留の分野で新たな最先端性能を確立している。

Knowledge distillation is a powerful technique for transferring knowledge from a pre-trained teacher model to a student model. However, the true potential of knowledge transfer has not been fully explored. Existing approaches primarily focus on distilling individual information or instance-level relationships, overlooking the valuable information embedded in token-level relationships, which may be particularly affected by the long-tail effects. To address the above limitations, we propose a novel method called Knowledge Distillation with Token-level Relationship Graph (TRG) that leverages the token-wise relational knowledge to enhance the performance of knowledge distillation. By employing TRG, the student model can effectively emulate higher-level semantic information from the teacher model, resulting in improved distillation results. To further enhance the learning process, we introduce a token-wise contextual loss called contextual loss, which encourages the student model to capture the inner-instance semantic contextual of the teacher model. We conduct experiments to evaluate the effectiveness of the proposed method against several state-of-the-art approaches. Empirical results demonstrate the superiority of TRG across various visual classification tasks, including those involving imbalanced data. Our method consistently outperforms the existing baselines, establishing a new state-of-the-art performance in the field of knowledge distillation.
翻訳日:2023-06-23 16:55:48 公開日:2023-06-20
# 量子モンテカルロシミュレーションのためのフローティングブロック法

Floating block method for quantum Monte Carlo simulations ( http://arxiv.org/abs/2306.11439v1 )

ライセンス: Link先を確認
Avik Sarkar, Dean Lee, and Ulf-G. Mei{\ss}ner(参考訳) 量子モンテカルロシミュレーションは、量子多体問題のための強力で汎用的なツールである。 通常のエネルギーと固有状態の観測値の計算に加えて、量子モンテカルロシミュレーションは原則として、固有ベクトル連続体や設計時依存のハミルトニアンを用いて高速で正確な多体エミュレータを構築することができる。 これらの新しい応用には、異なるハミルトニアンに対応する基底状態固有ベクトルの内積を計算するための効率的な量子モンテカルロスキームである出版文献から欠けているものが必要である。 本研究では,2つの異なるハミルトニアンを用いてユークリッド時間発展を行い,対応する時間ブロックをインターリーブすることにより,浮動小数点法というアルゴリズムを導入する。 浮動小数点ブロック法と核格子シミュレーションを用いて,局所的および非局所的相互作用結合の領域において,$^4$He,$^8$Be,$^{12}$C,$^{16}$O核の固有ベクトル継続エミュレータを構築する。 エミュレータデータから、アルファ粒子のボースガスから核液への量子相転移線を同定する。

Quantum Monte Carlo simulations are powerful and versatile tools for the quantum many-body problem. In addition to the usual calculations of energies and eigenstate observables, quantum Monte Carlo simulations can in principle be used to build fast and accurate many-body emulators using eigenvector continuation or design time-dependent Hamiltonians for adiabatic quantum computing. These new applications require something that is missing from the published literature, an efficient quantum Monte Carlo scheme for computing the inner product of ground state eigenvectors corresponding to different Hamiltonians. In this work, we introduce an algorithm called the floating block method, which solves the problem by performing Euclidean time evolution with two different Hamiltonians and interleaving the corresponding time blocks. We use the floating block method and nuclear lattice simulations to build eigenvector continuation emulators for energies of $^4$He, $^8$Be, $^{12}$C, and $^{16}$O nuclei over a range of local and non-local interaction couplings. From the emulator data, we identify the quantum phase transition line from a Bose gas of alpha particles to a nuclear liquid.
翻訳日:2023-06-23 16:55:26 公開日:2023-06-20
# 大気乱流中におけるOAMモード光による協調的エラー免疫情報伝達

Collaborative error-immune information transfer with OAM modes of light in networks through atmospheric turbulence ( http://arxiv.org/abs/2306.12450v1 )

ライセンス: Link先を確認
Rajni Bala, Sooryansh Asthana, V. Ravishankar(参考訳) 大気乱流を利用した協調的エラー免疫情報プロトコルを提案する。 このプロトコルは、3人の参加者のネットワークで情報の転送を可能にする。

We present a protocol for collaborative error-immune information through atmospheric turbulence. The protocol allows transferring of information in a network of three participants.
翻訳日:2023-06-23 16:41:48 公開日:2023-06-20
# 多変量データを用いたボラティリティ予測のためのディープラーニングモデルの比較

Comparing deep learning models for volatility prediction using multivariate data ( http://arxiv.org/abs/2306.12446v1 )

ライセンス: Link先を確認
Wenbo Ge, Pooia Lalbakhsh, Leigh Isai, Artem Lensky, Hanna Suominen(参考訳) 本研究では,多変量データを用いたボラティリティ予測のタスクにおいて,より単純で浅いモデルからより深く複雑なモデルへと進み,従来のガーチモデルのナイーブな予測とバリエーションと比較することを目的とした。 具体的には、garchモデル、多層パーセプトロン、リカレントニューラルネットワーク、時間的畳み込みネットワーク、時間的融合変換器を用いて、5つの資産(s\&p500、nasdaq100、金、銀、石油)の変動性を予測した。 ほとんどの場合、時間的融合トランスフォーマーは時間的畳み込みネットワークの変種が古典的アプローチや浅いネットワークよりも優れていた。 これらの実験は繰り返し行われ、競合するモデル間の差は統計的に有意であることが示され、実際の使用が奨励された。

This study aims at comparing several deep learning-based forecasters in the task of volatility prediction using multivariate data, proceeding from simpler or shallower to deeper and more complex models and compare them to the naive prediction and variations of classical GARCH models. Specifically, the volatility of five assets (i.e., S\&P500, NASDAQ100, gold, silver, and oil) was predicted with the GARCH models, Multi-Layer Perceptrons, recurrent neural networks, Temporal Convolutional Networks, and the Temporal Fusion Transformer. In most cases the Temporal Fusion Transformer followed by variants of Temporal Convolutional Network outperformed classical approaches and shallow networks. These experiments were repeated, and the difference between competing models was shown to be statistically significant, therefore encouraging their use in practice.
翻訳日:2023-06-23 16:41:46 公開日:2023-06-20
# アルツハイマー病臨床治験における話者自動検証の性能に影響を及ぼす因子

Factors Affecting the Performance of Automated Speaker Verification in Alzheimer's Disease Clinical Trials ( http://arxiv.org/abs/2306.12444v1 )

ライセンス: Link先を確認
Malikeh Ehghaghi, Marija Stanojevic, Ali Akram, Jekaterina Novikova(参考訳) 臨床治験における重複患者の検出は、反復患者が検査結果の信頼性と正確さを損なう可能性があり、その結果、かなりの健康と財政上のリスクが生じるため、大きな課題である。 正確な自動話者検証(ASV)モデルの開発は、登録された個人の同一性を検証し、重複を除去するために重要であるが、データのサイズと品質はASVのパフォーマンスに影響を及ぼす。 しかし、臨床環境におけるASV機能に影響を与える要因については、限定的な調査がなされている。 本稿では,複数の音声タスクによって得られたADレベルの659人の音声記録のデータセットを用いて,アルツハイマー病(AD)の参加者の人口動態,オーディオ品質基準,重症度がASVのパフォーマンスに与える影響を解析することにより,ギャップを橋渡しする。 ASVの成績は以下の通りである。 1)男性話者の方が女性話者よりやや優れている。 2) 70歳以上の個人に対する格下げ 3)非ネイティブ英語話者の方がネイティブ英語話者より優れている。 4) 臨床の干渉,雑音背景,不明瞭な受聴者発話に負の影響を受ける。 5) はadの重症度の増加とともに減少する傾向がある。 本研究は,声質特性により,一部のサブグループで異なるASV特性を示すため,音声バイオメトリックスが公平さの懸念を生じさせることを示した。 さらに, ASVの性能は音声記録の品質に影響され, 臨床治験におけるデータ収集設定の改善の重要性を浮き彫りにしている。

Detecting duplicate patient participation in clinical trials is a major challenge because repeated patients can undermine the credibility and accuracy of the trial's findings and result in significant health and financial risks. Developing accurate automated speaker verification (ASV) models is crucial to verify the identity of enrolled individuals and remove duplicates, but the size and quality of data influence ASV performance. However, there has been limited investigation into the factors that can affect ASV capabilities in clinical environments. In this paper, we bridge the gap by conducting analysis of how participant demographic characteristics, audio quality criteria, and severity level of Alzheimer's disease (AD) impact the performance of ASV utilizing a dataset of speech recordings from 659 participants with varying levels of AD, obtained through multiple speech tasks. Our results indicate that ASV performance: 1) is slightly better on male speakers than on female speakers; 2) degrades for individuals who are above 70 years old; 3) is comparatively better for non-native English speakers than for native English speakers; 4) is negatively affected by clinician interference, noisy background, and unclear participant speech; 5) tends to decrease with an increase in the severity level of AD. Our study finds that voice biometrics raise fairness concerns as certain subgroups exhibit different ASV performances owing to their inherent voice characteristics. Moreover, the performance of ASV is influenced by the quality of speech recordings, which underscores the importance of improving the data collection settings in clinical trials.
翻訳日:2023-06-23 16:41:28 公開日:2023-06-20
# 適応性の面における一般化:ベイズ的視点

Generalization in the Face of Adaptivity: A Bayesian Perspective ( http://arxiv.org/abs/2106.10761v2 )

ライセンス: Link先を確認
Moshe Shenfeld and Katrina Ligett(参考訳) 適応的に選択されたクエリによるデータサンプルの繰り返し使用は、オーバーフィッティングにつながる可能性があり、サンプル上のクエリの実証的評価は、基礎となるデータ分布に対して、その平均から著しくずれる。 単純なノイズ付加アルゴリズムはこの問題を防ぐのに十分であり、これらのアルゴリズムの差分プライバシーに基づく分析は、漸近的に最適なクエリ数を処理できることを示しています。 しかしながら、差分プライバシの最悪の場合の性質は、高濃度のクエリでもクエリの範囲まで、あるいはより複雑なアルゴリズムを導入することを伴う。 本稿では,非有界クエリにも拡張可能な分散依存性保証を,ノイズ付加アルゴリズムですでに実現していることを示す。 この改善は、適応データ分析の核となる問題を照らす新しい特徴に由来する。 提案手法では, 過去のクエリに対する応答にデータサンプルに関する情報がどの程度エンコードされたか, ベイズ因子と新しいクエリの共分散から適応性の害が生じることを示す。 次に、この特性を利用して、この共分散を束縛できる新しいデータ依存安定性概念を導入する。

Repeated use of a data sample via adaptively chosen queries can rapidly lead to overfitting, wherein the empirical evaluation of queries on the sample significantly deviates from their mean with respect to the underlying data distribution. It turns out that simple noise addition algorithms suffice to prevent this issue, and differential privacy-based analysis of these algorithms shows that they can handle an asymptotically optimal number of queries. However, differential privacy's worst-case nature entails scaling such noise to the range of the queries even for highly-concentrated queries, or introducing more complex algorithms. In this paper, we prove that straightforward noise-addition algorithms already provide variance-dependent guarantees that also extend to unbounded queries. This improvement stems from a novel characterization that illuminates the core problem of adaptive data analysis. We show that the harm of adaptivity results from the covariance between the new query and a Bayes factor-based measure of how much information about the data sample was encoded in the responses given to past queries. We then leverage this characterization to introduce a new data-dependent stability notion that can bound this covariance.
翻訳日:2023-06-22 18:34:32 公開日:2023-06-20
# 一般量子資源の漸近的一貫性:不協和性、非マルコビアン性、非ガウス性

Asymptotically Consistent Measures of General Quantum Resources: Discord, Non-Markovianity, and Non-Gaussianity ( http://arxiv.org/abs/2103.05665v3 )

ライセンス: Link先を確認
Kohdai Kuroiwa and Hayata Yamasaki(参考訳) 量子資源理論は、量子情報処理の資源として固有量子特性を定量的に解析するための統一的な枠組みを提供する。 資源量化の最良の方法を検討するため、資源量化の望ましい公理は、公理的アプローチによって広範囲に研究されてきた。 しかし、そのような所望の公理を持つ資源測度による資源量化の従来の方法は、変換の近似による資源量子状態間の漸近変換の速度と矛盾する可能性がある。 本稿では,資源測度の漸近的整合性という代替公理を確立し,漸近的資源変換の速度に矛盾することなく資源を定量化する漸近的一貫性のある資源測度について検討する。 相対エントロピー測度は、すべての凸有限次元資源(例えば、絡み合い、コヒーレンス、マジック)と、量子不協和、非マルコビアン性、非ガウス性のようないくつかの非凸あるいは無限次元の資源の比率と一致することを証明している。 これらの結果から, 各種固有量子力学特性の定量的解析には, 一貫性のある資源測度が広く適用可能であることが示された。

Quantum resource theories provide a unified framework to quantitatively analyze inherent quantum properties as resources for quantum information processing. So as to investigate the best way for quantifying resources, desirable axioms for resource quantification have been extensively studied through axiomatic approaches. However, a conventional way of resource quantification by resource measures with such desired axioms may contradict rates of asymptotic transformation between resourceful quantum states due to an approximation in the transformation. In this paper, we establish an alternative axiom, asymptotic consistency of resource measures, and we investigate asymptotically consistent resource measures, which quantify resources without contradicting the rates of the asymptotic resource transformation. We prove that relative entropic measures are consistent with the rates for a broad class of resources, i.e., all convex finite-dimensional resources, e.g., entanglement, coherence, and magic, and even some nonconvex or infinite-dimensional resources such as quantum discord, non-Markovianity, and non-Gaussianity. These results show that consistent resource measures are widely applicable to the quantitative analysis of various inherent quantum-mechanical properties.
翻訳日:2023-06-22 18:34:13 公開日:2023-06-20
# 重み付きモデルに基づく強化学習

Value Gradient weighted Model-Based Reinforcement Learning ( http://arxiv.org/abs/2204.01464v2 )

ライセンス: Link先を確認
Claas Voelcker and Victor Liao and Animesh Garg and Amir-massoud Farahmand(参考訳) モデルベース強化学習(mbrl: model-based reinforcement learning)は、制御ポリシーを取得するためのサンプル効率的な手法であるが、避けられないモデリングエラーによってパフォーマンスが低下することが多い。 MBRLのモデルはしばしば力学、特に状態観察の再構成にのみ適合するが、モデルエラーが政策に与える影響は訓練目的によって捉えられていない。 このことは、MBRLの意図した目標と、優れたポリシーと価値学習を可能にすることと、現実に採用される損失関数のターゲットである将来の状態予測とをミスマッチさせる。 ナイーブ直観は、価値を意識したモデル学習がこの問題を修正することを示唆し、実際、この客観的なミスマッチ問題に対するいくつかの解決策が理論的解析に基づいて提案されている。 しかしながら、一般的にmle(maximum likelihood)ベースのアプローチでは、実際には劣る傾向がある。 本稿では,少人数モデルキャパシティや気を散らす状態次元など,挑戦的な設定においてmbrlの性能を向上させる,価値認識型モデル学習のための新しい手法であるバリューグレード重み付きモデル学習(vagram)を提案する。 我々は,mle と value-aware の両方のアプローチを分析し,価値認識モデルを学ぶ際の探索と関数近似の振る舞いについて説明できないことを示し,深層学習環境における最適化の安定化に必要な追加目標を強調する。 我々は、ロス関数が最大確率に基づくアプローチよりも頑健でありながら、mujocoベンチマークスイートで高いリターンを達成できることを示すことによって、分析を検証する。

Model-based reinforcement learning (MBRL) is a sample efficient technique to obtain control policies, yet unavoidable modeling errors often lead performance deterioration. The model in MBRL is often solely fitted to reconstruct dynamics, state observations in particular, while the impact of model error on the policy is not captured by the training objective. This leads to a mismatch between the intended goal of MBRL, enabling good policy and value learning, and the target of the loss function employed in practice, future state prediction. Naive intuition would suggest that value-aware model learning would fix this problem and, indeed, several solutions to this objective mismatch problem have been proposed based on theoretical analysis. However, they tend to be inferior in practice to commonly used maximum likelihood (MLE) based approaches. In this paper we propose the Value-gradient weighted Model Learning (VaGraM), a novel method for value-aware model learning which improves the performance of MBRL in challenging settings, such as small model capacity and the presence of distracting state dimensions. We analyze both MLE and value-aware approaches and demonstrate how they fail to account for exploration and the behavior of function approximation when learning value-aware models and highlight the additional goals that must be met to stabilize optimization in the deep learning setting. We verify our analysis by showing that our loss function is able to achieve high returns on the Mujoco benchmark suite while being more robust than maximum likelihood based approaches.
翻訳日:2023-06-22 18:23:02 公開日:2023-06-20
# 動的治療効果と一般ネスト機能のための自動脱バイアス機械学習

Automatic Debiased Machine Learning for Dynamic Treatment Effects and General Nested Functionals ( http://arxiv.org/abs/2203.13887v5 )

ライセンス: Link先を確認
Victor Chernozhukov, Whitney Newey, Rahul Singh, Vasilis Syrgkanis(参考訳) 我々は、自動デバイアス機械学習のアイデアを、ダイナミックな治療体制、より一般的にネスト化された機能へと拡張する。 離散的な処理を伴う動的処理系に対する多重ロバストな公式は、ネスト平均回帰の帰納的 rieszpresenter キャラクタリゼーションの観点から再定式化できることを示した。 次に,動的レジームにおける二重ロバストな推定に関する先行研究のように,補正項が逆確率重み付け項の積のようにどのように見えるかを特徴付けることなく,脱バイアス補正を推定する再帰的リース推定学習アルゴリズムを適用する。 提案手法では, 損失最小化問題の列を定義し, 最小化器は脱バイアス補正の多重化器であり, 補助確率モデルの解法の必要性を回避し, 目標脱バイアス補正の平均二乗誤差を直接最適化する。 本稿では,動的離散選択モデルの推定とサロゲートによる長期効果推定へのアプローチのさらなる応用について述べる。

We extend the idea of automated debiased machine learning to the dynamic treatment regime and more generally to nested functionals. We show that the multiply robust formula for the dynamic treatment regime with discrete treatments can be re-stated in terms of a recursive Riesz representer characterization of nested mean regressions. We then apply a recursive Riesz representer estimation learning algorithm that estimates de-biasing corrections without the need to characterize how the correction terms look like, such as for instance, products of inverse probability weighting terms, as is done in prior work on doubly robust estimation in the dynamic regime. Our approach defines a sequence of loss minimization problems, whose minimizers are the mulitpliers of the de-biasing correction, hence circumventing the need for solving auxiliary propensity models and directly optimizing for the mean squared error of the target de-biasing correction. We provide further applications of our approach to estimation of dynamic discrete choice models and estimation of long-term effects with surrogates.
翻訳日:2023-06-22 18:22:35 公開日:2023-06-20
# detection to learn: mimo-ofdm受信処理のための注意と意思決定による構造学習

Detect to Learn: Structure Learning with Attention and Decision Feedback for MIMO-OFDM Receive Processing ( http://arxiv.org/abs/2208.09287v4 )

ライセンス: Link先を確認
Jiarui Xu, Lianjun Li, Lizhong Zheng, and Lingjia Liu(参考訳) マルチ入出力直交周波数分割多重化(MIMO-OFDM)システムにおけるOTAパイロットシンボルの制限は、特に機械学習に基づくアプローチにおいて、受信機で送信されたデータシンボルを検出する上で大きな課題となる。 パイロットを効果的に活用する方法を検討することは重要であるが、検出性能を改善するためにデータシンボルを利用することもできる。 そこで本稿では,パイロットシンボルを効率的に活用し,決定フィードバック(DF)機構を用いて検出されたペイロードデータを動的に更新する,オンラインアテンションベースのアプローチであるRC-AttStructNet-DFを提案する。 Reservoir Computing (RC) は、効率的なオンライントレーニングを容易にするために、タイムドメインネットワークで使用される。 周波数領域ネットワークは、時間と周波数の相関を捉えるために2D Multi-head attention (MHA)モジュールを採用し、構造ベースのStructNetはDF機構を促進する。 注意損失は周波数領域ネットワークを学ぶために設計されている。 DF機構は、検出されたデータシンボルを介してチャネル変化を動的に追跡することにより、検出性能をさらに向上する。 RC-AttStructNet-DF法の有効性は,MIMO-OFDMおよびMIMO-OFDMシステムにおいて,異なる変調順序および様々なシナリオ下での大規模な実験によって実証される。

The limited over-the-air (OTA) pilot symbols in multiple-input-multiple-output orthogonal-frequency-division-multiplexing (MIMO-OFDM) systems presents a major challenge for detecting transmitted data symbols at the receiver, especially for machine learning-based approaches. While it is crucial to explore effective ways to exploit pilots, one can also take advantage of the data symbols to improve detection performance. Thus, this paper introduces an online attention-based approach, namely RC-AttStructNet-DF, that can efficiently utilize pilot symbols and be dynamically updated with the detected payload data using the decision feedback (DF) mechanism. Reservoir computing (RC) is employed in the time domain network to facilitate efficient online training. The frequency domain network adopts the novel 2D multi-head attention (MHA) module to capture the time and frequency correlations, and the structural-based StructNet to facilitate the DF mechanism. The attention loss is designed to learn the frequency domain network. The DF mechanism further enhances detection performance by dynamically tracking the channel changes through detected data symbols. The effectiveness of the RC-AttStructNet-DF approach is demonstrated through extensive experiments in MIMO-OFDM and massive MIMO-OFDM systems with different modulation orders and under various scenarios.
翻訳日:2023-06-22 18:14:54 公開日:2023-06-20
# 3次元幾何学的一貫性を用いた腹腔鏡画像の自己監督深度推定

Self-Supervised Depth Estimation in Laparoscopic Image using 3D Geometric Consistency ( http://arxiv.org/abs/2208.08407v2 )

ライセンス: Link先を確認
Baoru Huang, Jian-Qing Zheng, Anh Nguyen, Chi Xu, Ioannis Gkouzionis, Kunal Vyas, David Tuch, Stamatia Giannarou, Daniel S. Elson(参考訳) 深度推定は、ロボット手術と腹腔鏡画像システムにおける画像誘導的介入の重要なステップである。 腹腔鏡画像データでは1ピクセルあたりの深度グラウンド真理の取得が困難であるため,外科的応用に監督深度推定を適用することは稀である。 代替として、ステレオ画像ペアのみを用いて深度推定器を訓練するための自己教師方式が導入された。 しかし、最近の研究は2dにおける左右の一貫性に焦点を当てており、現実世界の座標における物体の貴重な内在的な3d情報を無視している。 この制限を克服するために,立体対に隠された3次元幾何学的構造情報を利用する自己教師型深度推定器M3Depthを提案する。 また、マスクによるステレオ画像の少なくとも1つに見当たらない境界領域の影響を除去し、重なり合い領域における左右画像間の対応性を高める。 集中的な実験により,提案手法は,公開データセットと新たに取得したデータセットの両方において,従来の自己教師ありアプローチを大きなマージンで上回り,異なるサンプルと腹腔鏡をまたいだ良好な一般化が示された。 コードとデータはhttps://github.com/br0202/m3depthで入手できる。

Depth estimation is a crucial step for image-guided intervention in robotic surgery and laparoscopic imaging system. Since per-pixel depth ground truth is difficult to acquire for laparoscopic image data, it is rarely possible to apply supervised depth estimation to surgical applications. As an alternative, self-supervised methods have been introduced to train depth estimators using only synchronized stereo image pairs. However, most recent work focused on the left-right consistency in 2D and ignored valuable inherent 3D information on the object in real world coordinates, meaning that the left-right 3D geometric structural consistency is not fully utilized. To overcome this limitation, we present M3Depth, a self-supervised depth estimator to leverage 3D geometric structural information hidden in stereo pairs while keeping monocular inference. The method also removes the influence of border regions unseen in at least one of the stereo images via masking, to enhance the correspondences between left and right images in overlapping areas. Intensive experiments show that our method outperforms previous self-supervised approaches on both a public dataset and a newly acquired dataset by a large margin, indicating a good generalization across different samples and laparoscopes. Code and data are available at https://github.com/br0202/M3Depth.
翻訳日:2023-06-22 18:14:27 公開日:2023-06-20
# VRDU: ビジュアルにリッチなドキュメント理解のためのベンチマーク

VRDU: A Benchmark for Visually-rich Document Understanding ( http://arxiv.org/abs/2211.15421v2 )

ライセンス: Link先を確認
Zilong Wang, Yichao Zhou, Wei Wei, Chen-Yu Lee, Sandeep Tata(参考訳) 視覚的にリッチなビジネス文書を理解して構造化データを抽出し、ビジネスワークフローを自動化することは、学界でも業界でも注目を集めている。 最近のマルチモーダル言語モデルは目覚ましい結果を得たが、既存のベンチマークは業界で見られる実際の文書の複雑さを反映していない。 本稿では、より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。 vrduには、さまざまなデータタイプを含むリッチスキーマ、階層エンティティ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性の2つが含まれている。 我々は, 抽出結果を評価するために, 念入りに設計したマッチングアルゴリズムとともに, 少数および従来型の実験設定を設計する。 我々は,強いベースラインのパフォーマンスを報告し,(1)新しいドキュメントテンプレートへの一般化はいまだに困難であり,(2) 少数のパフォーマンスにはヘッドルームが多く,(3) モデルは請求書中の線分などの階層的フィールドに苦しむ,という3つの観察を提示する。 ベンチマークと評価ツールキットをオープンソース化する予定です。 これは、視覚的にリッチなドキュメントから構造化されたデータを抽出する上で、これらの困難なタスクをコミュニティが前進させるのに役立つことを願っています。

Understanding visually-rich business documents to extract structured data and automate business workflows has been receiving attention both in academia and industry. Although recent multi-modal language models have achieved impressive results, we find that existing benchmarks do not reflect the complexity of real documents seen in industry. In this work, we identify the desiderata for a more comprehensive benchmark and propose one we call Visually Rich Document Understanding (VRDU). VRDU contains two datasets that represent several challenges: rich schema including diverse data types as well as hierarchical entities, complex templates including tables and multi-column layouts, and diversity of different layouts (templates) within a single document type. We design few-shot and conventional experiment settings along with a carefully designed matching algorithm to evaluate extraction results. We report the performance of strong baselines and offer three observations: (1) generalizing to new document templates is still very challenging, (2) few-shot performance has a lot of headroom, and (3) models struggle with hierarchical fields such as line-items in an invoice. We plan to open source the benchmark and the evaluation toolkit. We hope this helps the community make progress on these challenging tasks in extracting structured data from visually rich documents.
翻訳日:2023-06-22 18:04:21 公開日:2023-06-20
# グラフ上の自己教師あり学習のためのスペクトル拡張

Spectral Augmentation for Self-Supervised Learning on Graphs ( http://arxiv.org/abs/2210.00643v2 )

ライセンス: Link先を確認
Lu Lin, Jinghui Chen, Hongning Wang(参考訳) グラフの自己教師型学習技術であるグラフコントラスト学習(GCL)は、インスタンス識別を通じて表現を学習することを目的としている。 その性能は、小さな摂動に頑健な不変パターンを反映するためにグラフ拡張に大きく依存しているが、グラフ不変性 GCL が何を捉えるべきかはまだ不明である。 近年の研究では、スペクトル領域に埋め込まれた固有構造特性への影響を無視して、空間領域において一様ランダムにトポロジー拡張を行う。 本研究では,スペクトルの観点からのグラフの不変性を探究し,トポロジ拡張の原理的方法を見つけることを目的とする。 スペクトル変化を最大化することでトポロジー拡張を導くスペクトル拡張法を開発した。 グラフおよびノード分類タスクの広範な実験により,自己教師付き表現学習における本手法の有効性が示された。 提案手法は,移動学習における有望な一般化能力ももたらし,敵攻撃下での強靭性も備えている。 本研究は,グラフトポロジー拡張の一般原理に光を当てる。

Graph contrastive learning (GCL), as an emerging self-supervised learning technique on graphs, aims to learn representations via instance discrimination. Its performance heavily relies on graph augmentation to reflect invariant patterns that are robust to small perturbations; yet it still remains unclear about what graph invariance GCL should capture. Recent studies mainly perform topology augmentations in a uniformly random manner in the spatial domain, ignoring its influence on the intrinsic structural properties embedded in the spectral domain. In this work, we aim to find a principled way for topology augmentations by exploring the invariance of graphs from the spectral perspective. We develop spectral augmentation which guides topology augmentations by maximizing the spectral change. Extensive experiments on both graph and node classification tasks demonstrate the effectiveness of our method in self-supervised representation learning. The proposed method also brings promising generalization capability in transfer learning, and is equipped with intriguing robustness property under adversarial attacks. Our study sheds light on a general principle for graph topology augmentation.
翻訳日:2023-06-22 18:02:30 公開日:2023-06-20
# the algonauts project 2023 challenge: 人間の脳が自然の場面をどのように理解するか

The Algonauts Project 2023 Challenge: How the Human Brain Makes Sense of Natural Scenes ( http://arxiv.org/abs/2301.03198v3 )

ライセンス: Link先を確認
A. T. Gifford, B. Lahner, S. Saba-Sadiya, M. G. Vilas, A. Lascelles, A. Oliva, K. Kay, G. Roig, R. M. Cichy(参考訳) 生物学と人工知能の科学はいっそう絡み合っている。 ニューラルコンピューティングの原理は、脳の理論的理解を進めるために使われる新しいインテリジェントマシンを刺激する。 生物と人工知能の研究者間のさらなるアイデアの交換とコラボレーションを促進するために、我々は2023年のalgonauts project challenge: how the human brain makes sense of natural scene (http://algonauts.csail.mit.edu)の設置を紹介する。 このインストールは、視覚シーンに対するfMRI応答の最大かつ最もリッチなデータセットであるNatural Scenes Dataset(NSD)を使用して、視覚脳の計算モデルを構築するために、人工知能と生物学的インテリジェンス分野の協力を促す。 nsdは73,000の異なる自然色シーンに対して高品質なfmri応答を提供し、2023年のチャレンジで推進されたデータ駆動モデル構築アプローチの理想的な候補となっている。 課題はすべてオープンであり、公開リーダボードを通じて結果を直接比較し、透過的に各提出後に自動的に更新することで、迅速なモデル開発が可能になる。 2023年の設置は、生物と人工知能の科学者の間で共生的なコラボレーションを引き起こし、最先端の計算モデルを通じて脳をより深く理解し、生物学的システムからの帰納的バイアスを通じて人工知能エージェントをエンジニアリングする新しい方法につながると信じている。

The sciences of biological and artificial intelligence are ever more intertwined. Neural computational principles inspire new intelligent machines, which are in turn used to advance theoretical understanding of the brain. To promote further exchange of ideas and collaboration between biological and artificial intelligence researchers, we introduce the 2023 installment of the Algonauts Project challenge: How the Human Brain Makes Sense of Natural Scenes (http://algonauts.csail.mit.edu). This installment prompts the fields of artificial and biological intelligence to come together towards building computational models of the visual brain using the largest and richest dataset of fMRI responses to visual scenes, the Natural Scenes Dataset (NSD). NSD provides high-quality fMRI responses to ~73,000 different naturalistic colored scenes, making it the ideal candidate for data-driven model building approaches promoted by the 2023 challenge. The challenge is open to all and makes results directly comparable and transparent through a public leaderboard automatically updated after each submission, thus allowing for rapid model development. We believe that the 2023 installment will spark symbiotic collaborations between biological and artificial intelligence scientists, leading to a deeper understanding of the brain through cutting-edge computational models and to novel ways of engineering artificial intelligent agents through inductive biases from biological systems.
翻訳日:2023-06-22 17:55:02 公開日:2023-06-20
# CHGNet:電荷インフォームド原子モデルのための訓練済みユニバーサルニューラルネットワークポテンシャル

CHGNet: Pretrained universal neural network potential for charge-informed atomistic modeling ( http://arxiv.org/abs/2302.14231v2 )

ライセンス: Link先を確認
Bowen Deng, Peichen Zhong, KyuJung Jun, Janosh Riebesell, Kevin Han, Christopher J. Bartel, Gerbrand Ceder(参考訳) 複雑な電子相互作用を持つ大規模系のシミュレーションは、物質の原子論モデリングにおける最大の課題の1つである。 古典的な力場はしばしば電子状態とイオン再配列の結合を記述するのに失敗するが、より正確な \textit{ab-initio} 分子動力学は、反応、イオン移動、相転移、分解など、多くの技術的に重要な現象を研究するのに欠かせない、長期および大規模シミュレーションを防ぐ計算複雑性に苦しむ。 本稿では,グラフニューラルネットワークに基づく力場を用いて,新しい機械学習原子間ポテンシャル(mlip)としてクリスタルハミルトニアングラフニューラルネットワーク(chgnet)を提案する。 chgnetは、10年以上の密度汎関数理論と、$\sim 1.5$m(150万ドル)の無機構造の緩和軌道からなるmaterials project trackデータセットのエネルギー、力、応力、磁気モーメントに基づいて事前訓練されている。 磁気モーメントの明示的な包含により、chgnetは電子の軌道占有率を学習し正確に表現することができ、原子と電子の自由度を記述する能力を高めることができる。 li$_x$mno$_2$の電荷変換分子動力学、li$_x$fepo$_4$の有限温度相図、ガーネット導体のli拡散など、固体材料におけるchgnetのいくつかの応用例を示す。 適切な化学を捉えるための電荷情報を含むことの重要性を批判的に分析し、以前のmlipでは観測できない電子自由度を付加したイオン系に新たな洞察を与える。

The simulation of large-scale systems with complex electron interactions remains one of the greatest challenges for the atomistic modeling of materials. Although classical force fields often fail to describe the coupling between electronic states and ionic rearrangements, the more accurate \textit{ab-initio} molecular dynamics suffers from computational complexity that prevents long-time and large-scale simulations, which are essential to study many technologically relevant phenomena, such as reactions, ion migrations, phase transformations, and degradation. In this work, we present the Crystal Hamiltonian Graph neural Network (CHGNet) as a novel machine-learning interatomic potential (MLIP), using a graph-neural-network-based force field to model a universal potential energy surface. CHGNet is pretrained on the energies, forces, stresses, and magnetic moments from the Materials Project Trajectory Dataset, which consists of over 10 years of density functional theory static and relaxation trajectories of $\sim 1.5$ million inorganic structures. The explicit inclusion of magnetic moments enables CHGNet to learn and accurately represent the orbital occupancy of electrons, enhancing its capability to describe both atomic and electronic degrees of freedom. We demonstrate several applications of CHGNet in solid-state materials, including charge-informed molecular dynamics in Li$_x$MnO$_2$, the finite temperature phase diagram for Li$_x$FePO$_4$ and Li diffusion in garnet conductors. We critically analyze the significance of including charge information for capturing appropriate chemistry, and we provide new insights into ionic systems with additional electronic degrees of freedom that can not be observed by previous MLIPs.
翻訳日:2023-06-22 17:33:24 公開日:2023-06-20
# SAMM(Segment Any Medical Model):SAMへの3Dスライダ統合

SAMM (Segment Any Medical Model): A 3D Slicer Integration to SAM ( http://arxiv.org/abs/2304.05622v3 )

ライセンス: Link先を確認
Yihao Liu, Jiaming Zhang, Zhangcong She, Amir Kheradmand and Mehran Armand(参考訳) Segment Anything Model (SAM)は、最も大きなセグメンテーションデータセットでトレーニングされた新しいイメージセグメンテーションツールである。 このモデルは、効率的なプロンプトにより、画像セグメンテーションのための高品質な一般化マスクを作成することができることを示した。 しかし,医療画像におけるモデルの性能にはさらなる検証が必要である。 医療画像におけるSAMの開発,評価,応用を支援するため,医療画像コミュニティが広く使用しているオープンソースの画像処理および可視化ソフトウェアである3Dスライダ上のSAMの拡張であるSegment Any Medical Model (SAMM)を紹介した。 3D Slicerのオープンソース拡張とそのデモはGitHubに投稿されている(https://github.com/bingogome/samm)。 SAMMは完全なサイクルの0.6秒のレイテンシを実現し、ほぼリアルタイムで画像マスクを推測できる。

The Segment Anything Model (SAM) is a new image segmentation tool trained with the largest available segmentation dataset. The model has demonstrated that, with efficient prompting, it can create high-quality, generalized masks for image segmentation. However, the performance of the model on medical images requires further validation. To assist with the development, assessment, and application of SAM on medical images, we introduce Segment Any Medical Model (SAMM), an extension of SAM on 3D Slicer - an open-source image processing and visualization software extensively used by the medical imaging community. This open-source extension to 3D Slicer and its demonstrations are posted on GitHub (https://github.com/bingogome/samm). SAMM achieves 0.6-second latency of a complete cycle and can infer image masks in nearly real-time.
翻訳日:2023-06-22 17:25:15 公開日:2023-06-20
# 量子カオス相互作用ハミルトンの中間スペクトル固有状態の平均絡み合いエントロピー

Average entanglement entropy of midspectrum eigenstates of quantum-chaotic interacting Hamiltonians ( http://arxiv.org/abs/2303.13577v2 )

ライセンス: Link先を確認
M. Kliczkowski, R. \'Swi\k{e}tek, L. Vidmar, M. Rigol(参考訳) 量子カオス相互作用ハミルトニアンのミッドスペクトル固有状態の平均の絡み合いエントロピーがランダムな純粋な状態のそれと一致する程度は、近年注目されている問題である。 先行する(量的法則)用語が同一であることを示す実質的な証拠はあるが、それらと下位の項がどのように異なるかは明確ではない。 ここでは、クリーンスピン1/2XYZ鎖とXXZ鎖の完全対角化計算を行い、それぞれ$U(1)$対称性の欠如と存在下でこの問題に対処する。 まず,完全完全対角化計算に適応可能なチェーンサイズについて,レベル間隔比,固有係数分布,エンタングルメントエントロピーがランダム行列理論の予測に最も近いハミルトンパラメータのレジームとして,最大カオスレジームの概念を導入する。 この方法では,midspectrum固有状態の平均絡み合いエントロピーのサブリード項の有限サイズのスケーリング解析を行う。 スペクトルの中央では、負の$O(1)$項の大きさがランダムな純粋状態の予測値よりもわずかに大きいことを示す。

To which degree the average entanglement entropy of midspectrum eigenstates of quantum-chaotic interacting Hamiltonians agrees with that of random pure states is a question that has attracted considerable attention in the recent years. While there is substantial evidence that the leading (volume-law) terms are identical, which and how subleading terms differ between them is less clear. Here we carry out state of the art full exact diagonalization calculations of clean spin-1/2 XYZ and XXZ chains with integrability breaking terms to address this question in the absence and presence of $U(1)$ symmetry, respectively. We first introduce the notion of maximally chaotic regime, for the chain sizes amenable to full exact diagonalization calculations, as the regime in Hamiltonian parameters in which the level spacing ratio, the distribution of eigenstate coefficients, and the entanglement entropy are closest to the random matrix theory predictions. In this regime, we carry out a finite-size scaling analysis of the subleading terms of the average entanglement entropy of midspectrum eigenstates. We find indications that, in the middle of the spectrum, the magnitude of the negative $O(1)$ terms is only slightly greater than the one predicted for random pure states.
翻訳日:2023-06-22 17:22:37 公開日:2023-06-20
# ConvXAI:人間とAIの科学的記述を支援するための会話による異種AI説明の提供

ConvXAI: Delivering Heterogeneous AI Explanations via Conversations to Support Human-AI Scientific Writing ( http://arxiv.org/abs/2305.09770v3 )

ライセンス: Link先を確認
Hua Shen, Chieh-Yang Huang, Tongshuang Wu, Ting-Hao 'Kenneth' Huang(参考訳) XAIメソッドの急激な収集にもかかわらず、ユーザーは依然として必要なAI説明を得るのに苦労している。 従来の研究では、チャットボットは動的ソリューションとして提案されていたが、現実的な人間のニーズに対する会話型XAIエージェントの効果的な設計は未検討のままである。 本稿では,AIを活用した科学書記タスクのための会話型XAIについて述べる。 人間の言語理論と形成的研究から,「多面的」,「制御可能性」,「混入的」,「文脈認識的ドリルダウン」の4つの設計根拠を同定した。 我々はそれらをインタラクティブなプロトタイプであるConvXAIに組み込み、対話を通じて科学的記述のための異種AI説明を容易にする。 21人のユーザによる2つの研究において、ConvXAIは、人間の知覚する理解と記述の改善にGUIベースのベースラインを上回ります。 本稿は,ConvXAIとのインタラクションにおける実践的人間利用パターンについても論じる。

Despite a surge collection of XAI methods, users still struggle to obtain required AI explanations. Previous research suggests chatbots as dynamic solutions, but the effective design of conversational XAI agents for practical human needs remains under-explored. This paper focuses on Conversational XAI for AI-assisted scientific writing tasks. Drawing from human linguistic theories and formative studies, we identify four design rationales: "multifaceted", "controllability", "mix-initiative", "context-aware drill-down". We incorporate them into an interactive prototype, ConvXAI, which facilitates heterogeneous AI explanations for scientific writing through dialogue. In two studies with 21 users, ConvXAI outperforms a GUI-based baseline on improving human-perceived understanding and writing improvement. The paper further discusses the practical human usage patterns in interacting with ConvXAI for scientific co-writing.
翻訳日:2023-06-22 17:16:11 公開日:2023-06-20
# 機械学習を用いた制御フローグラフによるマルウェア解析

Survey of Malware Analysis through Control Flow Graph using Machine Learning ( http://arxiv.org/abs/2305.08993v2 )

ライセンス: Link先を確認
Shaswata Mitra, Stephen A. Torri, Sudip Mittal(参考訳) マルウェアはコンピュータシステムやネットワークのセキュリティにとって重大な脅威であり、検出の動作と機能を分析するための高度な技術を必要とする。 従来のシグネチャベースのマルウェア検出手法は、その急速な進化により、新しく未知のマルウェアを検出するのに効果がない。 シグネチャベースの検出の限界を克服できる最も有望なテクニックの1つは、制御フローグラフ(CFG)を使用することである。 CFGはプログラムの構造情報を利用して実行可能なパスをグラフとして表現し、ノードは命令を表し、エッジは制御フロー依存性を表す。 機械学習(ml)アルゴリズムは、これらの機能をcfgsから抽出し、それらを悪意または良性として分類するために使用されている。 本研究では,mlを用いたcfgsによるマルウェア検出手法について検討し,その抽出方法,表現方法,分類方法の相違に着目した。 具体的には,cfg ベースのマルウェア検出に適用された異なる ml アルゴリズムと同様に,これまで使用されてきた cfg 機能の種類を包括的に概観する。 我々は、これらのアプローチの課題と限界を詳細に分析するとともに、オープンな問題に対処する潜在的な解決策を提案し、この分野の研究の今後の方向性を約束する。

Malware is a significant threat to the security of computer systems and networks which requires sophisticated techniques to analyze the behavior and functionality for detection. Traditional signature-based malware detection methods have become ineffective in detecting new and unknown malware due to their rapid evolution. One of the most promising techniques that can overcome the limitations of signature-based detection is to use control flow graphs (CFGs). CFGs leverage the structural information of a program to represent the possible paths of execution as a graph, where nodes represent instructions and edges represent control flow dependencies. Machine learning (ML) algorithms are being used to extract these features from CFGs and classify them as malicious or benign. In this survey, we aim to review some state-of-the-art methods for malware detection through CFGs using ML, focusing on the different ways of extracting, representing, and classifying. Specifically, we present a comprehensive overview of different types of CFG features that have been used as well as different ML algorithms that have been applied to CFG-based malware detection. We provide an in-depth analysis of the challenges and limitations of these approaches, as well as suggest potential solutions to address some open problems and promising future directions for research in this field.
翻訳日:2023-06-22 17:15:56 公開日:2023-06-20
# パウリ-マルコフ鎖による多体魔法-臨界からゲージ理論まで

Many-body magic via Pauli-Markov chains -- from criticality to gauge theories ( http://arxiv.org/abs/2305.18541v2 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, Emanuele Tirrito, Titas Chanda, Marcello Dalmonte(参考訳) マルコフ連鎖によるパウリ弦の統計的探索に基づいて,量子系における多体マジックを測定する手法を提案する。 このようなポーリ・マルコフ鎖のサンプリングは、サンプリングするパーティションの観点で多くの柔軟性をもたらすことを実証する: 特に、マジックの非局所性を特徴付ける広く分離されたサブシステム間の相関に含まれるマジックを効率的に抽出することができる。 我々の方法は様々な状況で実装できる。 本稿では,木テンソルネットワークを用いた効率的なサンプリング手順について述べる。その階層構造を利用して,システム規模でo(\log n)$計算スケーリングを行う。 本手法の適用性と効率性を示すため,多体システムにおける魔法の重要性を,以下の発見を通じて示す。 a) 1次元システムの場合、長距離魔法は共形量子臨界性の強いシグネチャ(Ising, Potts, Gaussian)を示し、完全な状態魔法の限界を克服することを示す。 b) 2次元の$\mathbb{Z}_2$格子ゲージ理論において、魔術が閉じ込め分解遷移を識別できるという決定的な証拠を提供し、比較的穏やかな体積でも重要なスケーリング挙動を示す。 最後に,パウリ観測値の測定のみに依存する手法の実験的実装について論じる。

We introduce a method to measure many-body magic in quantum systems based on a statistical exploration of Pauli strings via Markov chains. We demonstrate that sampling such Pauli-Markov chains gives ample flexibility in terms of partitions where to sample from: in particular, it enables to efficiently extract the magic contained in the correlations between widely-separated subsystems, which characterizes the nonlocality of magic. Our method can be implemented in a variety of situations. We describe an efficient sampling procedure using Tree Tensor Networks, that exploits their hierarchical structure leading to a modest $O(\log N)$ computational scaling with system size. To showcase the applicability and efficiency of our method, we demonstrate the importance of magic in many-body systems via the following discoveries: (a) for one dimensional systems, we show that long-range magic displays strong signatures of conformal quantum criticality (Ising, Potts, and Gaussian), overcoming the limitations of full state magic; (b) in two-dimensional $\mathbb{Z}_2$ lattice gauge theories, we provide conclusive evidence that magic is able to identify the confinement-deconfinement transition, and displays critical scaling behavior even at relatively modest volumes. Finally, we discuss an experimental implementation of the method, which only relies on measurements of Pauli observables.
翻訳日:2023-06-22 17:05:02 公開日:2023-06-20
# GUARD: 安全な強化学習ベンチマーク

GUARD: A Safe Reinforcement Learning Benchmark ( http://arxiv.org/abs/2305.13681v2 )

ライセンス: Link先を確認
Weiye Zhao, Rui Chen, Yifan Sun, Ruixuan Liu, Tianhao Wei, Changliu Liu(参考訳) 試行錯誤の性質のため、そのようなエラーが許容できない自律運転、人間とロボットのインタラクション、ロボット操作など、安全クリティカルな現実世界のアプリケーションにRLアルゴリズムを適用するのは難しい。 近年、安全なRL(すなわち制約付きRL)は、制約を満たすとともに、エージェントが環境を探索する文献に急速に現れている。 アルゴリズムとタスクの多様性のため、既存の安全なRLアルゴリズムを比較するのは難しい。 このギャップを埋めるため,我々は,統一型安全強化学習開発ベンチマークであるguardを紹介する。 GUARDは既存のベンチマークと比べていくつかの利点がある。 まず、GUARDは様々なRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。 第2に、ガードは自己完結型実装による最先端の安全なrlアルゴリズムを包括的にカバーする。 第3に、GUARDはタスクやアルゴリズムで高度にカスタマイズできる。 本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。

Due to the trial-and-error nature, it is typically challenging to apply RL algorithms to safety-critical real-world applications, such as autonomous driving, human-robot interaction, robot manipulation, etc, where such errors are not tolerable. Recently, safe RL (i.e. constrained RL) has emerged rapidly in the literature, in which the agents explore the environment while satisfying constraints. Due to the diversity of algorithms and tasks, it remains difficult to compare existing safe RL algorithms. To fill that gap, we introduce GUARD, a Generalized Unified SAfe Reinforcement Learning Development Benchmark. GUARD has several advantages compared to existing benchmarks. First, GUARD is a generalized benchmark with a wide variety of RL agents, tasks, and safety constraint specifications. Second, GUARD comprehensively covers state-of-the-art safe RL algorithms with self-contained implementations. Third, GUARD is highly customizable in tasks and algorithms. We present a comparison of state-of-the-art safe RL algorithms in various task settings using GUARD and establish baselines that future work can build on.
翻訳日:2023-06-22 17:03:28 公開日:2023-06-20
# OpenPI-C: Open-Vocabulary State Trackingのためのベンチマークと強力なベースライン

OpenPI-C: A Better Benchmark and Stronger Baseline for Open-Vocabulary State Tracking ( http://arxiv.org/abs/2306.00887v2 )

ライセンス: Link先を確認
Xueqing Wu, Sha Li, Heng Ji(参考訳) open-vocabulary state trackingは、状態空間とエンティティ空間を制限することなく、プロセス全体のエンティティの状態変化を追跡することを目的とした、より実用的な状態追跡バージョンである。 OpenPIは現在、オープン語彙状態トラッキング用に注釈付けされた唯一のデータセットである。 しかし,データセットの品質と評価基準の問題点は明らかである。 本データセットでは,手順レベル,ステップレベル,状態変化レベルの3種類の問題を分類し,複数ラウンドの人的判断を用いてクリーンなデータセットOpenPI-Cを構築する。 評価基準のために, 評価基準の繰り返しに対する好みを修正するために, クラスタベースメトリクスを提案する。 モデル面では、状態追跡のための2つの重要なプロパティ:時間依存とエンティティ認識を回復することで、seq2seq生成ベースラインを強化します。 行動後の世界の状態は、本質的に前の状態に依存する。 この依存関係を動的メモリバンクを通じてモデル化し、デコード中にモデルがメモリスロットに出席できるようにします。 一方、世界の状態は自然に関係する国家の連合である。 オープン語彙設定ではエンティティが未知であるため,第1段階から予測されるエンティティに条件付き状態変化予測を洗練させる2段階モデルを提案する。 実験結果から,提案モデルの有効性が示唆された。 コードとデータはhttps://github.com/shirley-wu/openpi-cでリリース

Open-vocabulary state tracking is a more practical version of state tracking that aims to track state changes of entities throughout a process without restricting the state space and entity space. OpenPI is to date the only dataset annotated for open-vocabulary state tracking. However, we identify issues with the dataset quality and evaluation metric. For the dataset, we categorize 3 types of problems on the procedure level, step level and state change level respectively, and build a clean dataset OpenPI-C using multiple rounds of human judgment. For the evaluation metric, we propose a cluster-based metric to fix the original metric's preference for repetition. Model-wise, we enhance the seq2seq generation baseline by reinstating two key properties for state tracking: temporal dependency and entity awareness. The state of the world after an action is inherently dependent on the previous state. We model this dependency through a dynamic memory bank and allow the model to attend to the memory slots during decoding. On the other hand, the state of the world is naturally a union of the states of involved entities. Since the entities are unknown in the open-vocabulary setting, we propose a two-stage model that refines the state change prediction conditioned on entities predicted from the first stage. Empirical results show the effectiveness of our proposed model especially on the cluster-based metric. The code and data are released at https://github.com/shirley-wu/openpi-c
翻訳日:2023-06-22 16:54:06 公開日:2023-06-20
# FedMultimodal: マルチモーダルなフェデレート学習のためのベンチマーク

FedMultimodal: A Benchmark For Multimodal Federated Learning ( http://arxiv.org/abs/2306.09486v2 )

ライセンス: Link先を確認
Tiantian Feng and Digbalay Bose and Tuo Zhang and Rajat Hebbar and Anil Ramakrishna and Rahul Gupta and Mi Zhang and Salman Avestimehr and Shrikanth Narayanan(参考訳) 過去数年間、フェデレートラーニング(FL)は、コラボレーティブトレーニングを通じてデータプライバシの課題に取り組むための、新たな機械学習技術になりつつある。 フェデレーション学習アルゴリズムでは、クライアントはローカルにトレーニングされたモデルを提出し、サーバは収束するまでこれらのパラメータを集約する。 コンピュータビジョン、オーディオ、自然言語処理などの分野におけるflへの多大な努力にもかかわらず、マルチモーダルデータストリームを利用したflアプリケーションはほとんど未調査のままである。 マルチモーダル学習は、感情認識、医療、マルチメディア、ソーシャルメディアにおいて幅広い現実世界の応用が知られているが、ユーザーのプライバシーは依然として重要な関心事となっている。 具体的には、マルチモーダルアプリケーションや関連するタスクをターゲットにした既存のFLベンチマークはない。 マルチモーダルflの研究を容易にするために,10個のデータセットから5つの代表的マルチモーダルアプリケーションをカバーする,8つのユニークなモダリティを持つマルチモーダル学習のための最初のflベンチマークであるfeed multimodalを導入する。 fedmultimodalは系統的なflパイプラインを提供し、データ分割や特徴抽出からflベンチマークアルゴリズムやモデル評価まで、エンドツーエンドのモデリングフレームワークを可能にする。 既存のflベンチマークとは異なり、feedmultimodalは実生活のマルチモーダルアプリケーションにおける3つの一般的なデータ破損に対するflの堅牢性を評価するための標準化されたアプローチを提供する。 我々はFedMultimodalが、極端なデータ不均一性、頑健性のあるマルチモーダルFL、効率的なマルチモーダルFLに向けた多モーダルFLアルゴリズムを設計するなど、将来多くの研究方向を加速できることを期待している。 データセットとベンチマークの結果は、https://github.com/usc-sail/fed-multimodal.comで参照できる。

Over the past few years, Federated Learning (FL) has become an emerging machine learning technique to tackle data privacy challenges through collaborative training. In the Federated Learning algorithm, the clients submit a locally trained model, and the server aggregates these parameters until convergence. Despite significant efforts that have been made to FL in fields like computer vision, audio, and natural language processing, the FL applications utilizing multimodal data streams remain largely unexplored. It is known that multimodal learning has broad real-world applications in emotion recognition, healthcare, multimedia, and social media, while user privacy persists as a critical concern. Specifically, there are no existing FL benchmarks targeting multimodal applications or related tasks. In order to facilitate the research in multimodal FL, we introduce FedMultimodal, the first FL benchmark for multimodal learning covering five representative multimodal applications from ten commonly used datasets with a total of eight unique modalities. FedMultimodal offers a systematic FL pipeline, enabling end-to-end modeling framework ranging from data partition and feature extraction to FL benchmark algorithms and model evaluation. Unlike existing FL benchmarks, FedMultimodal provides a standardized approach to assess the robustness of FL against three common data corruptions in real-life multimodal applications: missing modalities, missing labels, and erroneous labels. We hope that FedMultimodal can accelerate numerous future research directions, including designing multimodal FL algorithms toward extreme data heterogeneity, robustness multimodal FL, and efficient multimodal FL. The datasets and benchmark results can be accessed at: https://github.com/usc-sail/fed-multimodal.
翻訳日:2023-06-22 16:44:49 公開日:2023-06-20
# FPGAを用いた粒子軌道追跡のための低レイテンシエッジ分類GNN

Low Latency Edge Classification GNN for Particle Trajectory Tracking on FPGAs ( http://arxiv.org/abs/2306.11330v1 )

ライセンス: Link先を確認
Shi-Yu Huang, Yun-Chen Yang, Yu-Ru Su, Bo-Cheng Lai, Javier Duarte, Scott Hauck, Shih-Chieh Hsu, Jin-Xuan Hu, Mark S. Neubauer(参考訳) 大型ハドロン衝突型加速器のリアルタイム粒子軌道再構成は、高い衝突速度と多数の粒子衝突のため困難である。 FPGA上でGNN(Graph Neural Network)を用いることで、柔軟な軌道分類が可能になった。 しかし、既存のgnnアーキテクチャはリソースの使用効率が悪く、エッジ分類の並列性が不十分である。 本稿では,低遅延粒子追跡のためのFPGAにおける資源効率のよいGNNアーキテクチャを提案する。 モジュラーアーキテクチャは、大きなグラフをサポートする設計のスケーラビリティを促進する。 ヒット検出器の幾何学的性質を活用することで、グラフの複雑さとリソース使用量はさらに削減される。 Xilinx UltraScale+VU9Pの結果,CPUとGPUでそれぞれ1625倍,GPUで1574倍の性能向上を示した。

In-time particle trajectory reconstruction in the Large Hadron Collider is challenging due to the high collision rate and numerous particle hits. Using GNN (Graph Neural Network) on FPGA has enabled superior accuracy with flexible trajectory classification. However, existing GNN architectures have inefficient resource usage and insufficient parallelism for edge classification. This paper introduces a resource-efficient GNN architecture on FPGAs for low latency particle tracking. The modular architecture facilitates design scalability to support large graphs. Leveraging the geometric properties of hit detectors further reduces graph complexity and resource usage. Our results on Xilinx UltraScale+ VU9P demonstrate 1625x and 1574x performance improvement over CPU and GPU respectively.
翻訳日:2023-06-22 16:33:32 公開日:2023-06-20
# 構造に基づく薬物設計のための幾何学的深層学習の体系的調査

A Systematic Survey in Geometric Deep Learning for Structure-based Drug Design ( http://arxiv.org/abs/2306.11768v1 )

ライセンス: Link先を確認
Zaixi Zhang, Jiaxian Yan, Qi Liu, and Enhong Che(参考訳) タンパク質の3次元形状を利用して潜在的な薬物候補を特定する構造に基づく薬物設計(SBDD)は、薬物発見においてますます重要になっている。 しかし、従来の物理化学モデリングと専門家のドメイン知識に基づく手法は時間と労力がかかる。 幾何学的深層学習の最近の進歩は、AlphaFoldのようなツールによる正確なタンパク質3D構造予測の可用性と相まって、構造に基づく薬物設計の進歩を著しく促進している。 本稿では,構造に基づく薬物設計における幾何深層学習の最近の進歩を体系的に概観する。 まず、構造に基づく薬物設計における主要な課題、一般的に使用される3Dタンパク質表現、および代表的予測・生成モデルについて、簡単な議論から始める。 次に、問題設定、代表方法、データセット、評価メトリクスを含む各タスクの詳細なレビュー(バインディングサイト予測、バインディングポーズ生成、\emph{de novo}分子生成、リンカ設計、バインディング親和性予測)について検討する。 最後に,本調査の課題と,構造に基づく薬物設計における幾何学的深層学習の可能性を明らかにする。

Structure-based drug design (SBDD), which utilizes the three-dimensional geometry of proteins to identify potential drug candidates, is becoming increasingly vital in drug discovery. However, traditional methods based on physiochemical modeling and experts' domain knowledge are time-consuming and laborious. The recent advancements in geometric deep learning, which integrates and processes 3D geometric data, coupled with the availability of accurate protein 3D structure predictions from tools like AlphaFold, have significantly propelled progress in structure-based drug design. In this paper, we systematically review the recent progress of geometric deep learning for structure-based drug design. We start with a brief discussion of the mainstream tasks in structure-based drug design, commonly used 3D protein representations and representative predictive/generative models. Then we delve into detailed reviews for each task (binding site prediction, binding pose generation, \emph{de novo} molecule generation, linker design, and binding affinity prediction), including the problem setup, representative methods, datasets, and evaluation metrics. Finally, we conclude this survey with the current challenges and highlight potential opportunities of geometric deep learning for structure-based drug design.
翻訳日:2023-06-22 16:25:22 公開日:2023-06-20
# 自動化システムにおける人工知能応用のためのグラフィカルモデリング言語

A Graphical Modeling Language for Artificial Intelligence Applications in Automation Systems ( http://arxiv.org/abs/2306.11767v1 )

ライセンス: Link先を確認
Marvin Schieseck, Philip Topalis, Alexander Fay(参考訳) 自動化システムにおける人工知能(AI)アプリケーションは、通常、開発と統合が複数の専門家を含む分散システムである。 各エキスパートは独自のドメイン固有のモデリング言語とツールを使ってシステム要素をモデリングします。 すべての分野に理解可能なシステム全体としてのaiアプリケーションのモデリングを可能にする学際的なグラフィカルモデリング言語はまだ存在しません。 結果として、学際的なシステム理解が欠如し、開発、統合、保守作業が増加することが多い。 そこで本稿では,システムレベルでの自動化システムにおけるAIアプリケーションの一貫した,理解可能なモデリングを可能にするグラフィカルモデリング言語を提案する。 これにより、個々のサブ領域をドメイン固有のサブシステムに分割し、既存の労力を減らすことができる。

Artificial Intelligence (AI) applications in automation systems are usually distributed systems whose development and integration involve several experts. Each expert uses its own domain-specific modeling language and tools to model the system elements. An interdisciplinary graphical modeling language that enables the modeling of an AI application as an overall system comprehensible to all disciplines does not yet exist. As a result, there is often a lack of interdisciplinary system understanding, leading to increased development, integration, and maintenance efforts. This paper therefore presents a graphical modeling language that enables consistent and understandable modeling of AI applications in automation systems at system level. This makes it possible to subdivide individual subareas into domain specific subsystems and thus reduce the existing efforts.
翻訳日:2023-06-22 16:25:02 公開日:2023-06-20
# 圧縮アルゴリズムについて

About some compression algorithms ( http://arxiv.org/abs/2306.11765v1 )

ライセンス: Link先を確認
Orchidea Maria Lecian and Brunello Tirozzi(参考訳) 我々はニューラルネットワークアルゴリズムを用いて、適切な特性を満たす区間$(0, 1)$の変換の集合である反復関数系のフレームワークにおいて、画像の圧縮方法を見つける。

We use neural network algorithms for finding compression methods of images in the framework of iterated function systems which is a collection of the transformations of the interval $(0, 1)$ satisfying suitable properties.
翻訳日:2023-06-22 16:24:52 公開日:2023-06-20
# オーディオスペクトログラムトランスフォーマにおける記録デバイス一般化のための周波数方向正規化について

On Frequency-Wise Normalizations for Better Recording Device Generalization in Audio Spectrogram Transformers ( http://arxiv.org/abs/2306.11764v1 )

ライセンス: Link先を確認
Paul Primus and, Gerhard Widmer(参考訳) トレーニング時に見るデータとアプリケーション時に見るデータの間の差異は、マシンラーニングにとって大きな課題である。 本研究では,アコースティックシーン分類(ASC)とミスマッチ記録装置を用いてこの問題を考察する。 従来の研究は、記録装置の誤差を低減するために、畳み込みニューラルネットワークにおける入力の周波数ワイドな正規化と隠蔽層アクティベーションをうまく利用した。 この研究の主な目的は、最近ascの主要なモデルアーキテクチャとなったオーディオスペクトログラムトランスフォーマ(asts)に周波数方向の正規化を適用することだった。 そこで本研究ではまず,astの隠れ層活性化において記録デバイス特性がどのようにエンコードされるかを検討する。 記録装置の情報は当初周波数次元で符号化されるが、第1の自己照準ブロックの後、トークン次元に大まかに変換される。 この観測から,入力スペクトログラムにおける記録装置特性の抑制が最も効果的であると推測した。 本研究では,非検出記録装置のasc性能を平均18.2ポイント向上させるスペクトログラムの周波数中心演算を提案する。

Varying conditions between the data seen at training and at application time remain a major challenge for machine learning. We study this problem in the context of Acoustic Scene Classification (ASC) with mismatching recording devices. Previous works successfully employed frequency-wise normalization of inputs and hidden layer activations in convolutional neural networks to reduce the recording device discrepancy. The main objective of this work was to adopt frequency-wise normalization for Audio Spectrogram Transformers (ASTs), which have recently become the dominant model architecture in ASC. To this end, we first investigate how recording device characteristics are encoded in the hidden layer activations of ASTs. We find that recording device information is initially encoded in the frequency dimension; however, after the first self-attention block, it is largely transformed into the token dimension. Based on this observation, we conjecture that suppressing recording device characteristics in the input spectrogram is the most effective. We propose a frequency-centering operation for spectrograms that improves the ASC performance on unseen recording devices on average by up to 18.2 percentage points.
翻訳日:2023-06-22 16:24:48 公開日:2023-06-20
# データセット合成の有効性を探る:Apple Detection in Orchardsの応用

Exploring the Effectiveness of Dataset Synthesis: An application of Apple Detection in Orchards ( http://arxiv.org/abs/2306.11763v1 )

ライセンス: Link先を確認
Alexander van Meekeren, Maya Aghaei, Klaas Dijkstra(参考訳) 近年、深層物体検出モデルは顕著な成功を収めているが、大きな障害として大量のトレーニングデータの要求がある。 このようなデータを取得するのは面倒なプロセスであり、主に時間を要するため、合成データ生成技術のような新しい研究方法が探索される。 本研究では,オブジェクト検出のためのアップルツリーの合成データセットを生成するための安定拡散2.1-ベースの有用性を調べ,実世界データに基づくベースラインモデルと比較する。 迅速なエンジニアリングで現実的なリンゴツリーのデータセットを作成し、以前にトレーニングされた安定拡散モデルを使用した後、カスタムデータセットにアノテーションを付け、YOLOv5mオブジェクト検出モデルをトレーニングして、現実のリンゴ検出データセット内のリンゴを予測した。 YOLOv5mはその高速な推論時間と最小限のハードウェア要求のために選ばれた。 その結果、実世界の画像の集合で評価すると、実世界の画像でトレーニングされたベースラインモデルに比べて、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。 しかし, 平均精度の差は0.09 と 0.06 に過ぎず, 高い期待が持たれている。 定性的な結果は、重い陰影の場合を除いて、モデルが正確にリンゴの位置を予測できることを示している。 これらの結果は、オブジェクト検出モデルのための広範なトレーニングデータの収集の代替として、合成データ生成技術の可能性を示唆している。

Deep object detection models have achieved notable successes in recent years, but one major obstacle remains: the requirement for a large amount of training data. Obtaining such data is a tedious process and is mainly time consuming, leading to the exploration of new research avenues like synthetic data generation techniques. In this study, we explore the usability of Stable Diffusion 2.1-base for generating synthetic datasets of apple trees for object detection and compare it to a baseline model trained on real-world data. After creating a dataset of realistic apple trees with prompt engineering and utilizing a previously trained Stable Diffusion model, the custom dataset was annotated and evaluated by training a YOLOv5m object detection model to predict apples in a real-world apple detection dataset. YOLOv5m was chosen for its rapid inference time and minimal hardware demands. Results demonstrate that the model trained on generated data is slightly underperforming compared to a baseline model trained on real-world images when evaluated on a set of real-world images. However, these findings remain highly promising, as the average precision difference is only 0.09 and 0.06, respectively. Qualitative results indicate that the model can accurately predict the location of apples, except in cases of heavy shading. These findings illustrate the potential of synthetic data generation techniques as a viable alternative to the collection of extensive training data for object detection models.
翻訳日:2023-06-22 16:24:30 公開日:2023-06-20
# マルチアース2023森林破壊チャレンジ -- チーム・フォーエバー

MultiEarth 2023 Deforestation Challenge -- Team FOREVER ( http://arxiv.org/abs/2306.11762v1 )

ライセンス: Link先を確認
Seunghan Park, Dongoo Lee, Yeonju Choi, SungTae Moon(参考訳) 直接アクセスすることなく広範囲を解析できるため,衛星画像の森林破壊を正確に推定することが重要である。 しかし, 雨季の広い雲に覆われたため, 地表面の透視が困難であったため, 簡単な問題ではない。 本稿では,最新の深層ニューラルネットワークモデルを用いて,アマゾン熱帯雨林地域の森林破壊状況を予測するマルチビュー学習戦略を提案する。 マルチモーダルデータセットは、Sentinel-1、Sentinel-2、Landsat 8の3種類の異なる衛星画像で構成されている。 mmsegmentation frameworkは、包括的なデータ拡張と多様なネットワークを適用するために選択される。 提案手法は,新規クエリの森林破壊状態を効果的かつ正確に予測する。

It is important problem to accurately estimate deforestation of satellite imagery since this approach can analyse extensive area without direct human access. However, it is not simple problem because of difficulty in observing the clear ground surface due to extensive cloud cover during long rainy season. In this paper, we present a multi-view learning strategy to predict deforestation status in the Amazon rainforest area with latest deep neural network models. Multi-modal dataset consists of three types of different satellites imagery, Sentinel-1, Sentinel-2 and Landsat 8 is utilized to train and predict deforestation status. MMsegmentation framework is selected to apply comprehensive data augmentation and diverse networks. The proposed method effectively and accurately predicts the deforestation status of new queries.
翻訳日:2023-06-22 16:24:07 公開日:2023-06-20
# 学習と進化:効果的な組み合わせに影響を与える要因

Learning and evolution: factors influencing an effective combination ( http://arxiv.org/abs/2306.11761v1 )

ライセンス: Link先を確認
Paolo Pagliuca(参考訳) 進化と学習の相互関係は、人工知能と神経進化コミュニティの間で議論の的となっている。 30年以上経っても、この問題に関する共通合意はいまだに存在しない。 本稿では,学習と進化の組み合わせによって,進化だけで発見されたものよりも優れた解を見つけることができるかどうかを考察する。 より具体的には、学習と選択過程におけるノイズの導入など、このような組み合わせの成功を決定するいくつかの特定の条件を強調する実験的な研究のシリーズを紹介する。 結果は2つの質的な異なる領域で得られ、エージェント/環境相互作用は最小か欠落である。

The mutual relationship between evolution and learning is a controversial argument among the artificial intelligence and neuro-evolution communities. After more than three decades, there is still no common agreement on the matter. In this paper the author investigates whether combining learning and evolution permits to find better solutions than those discovered by evolution alone. More specifically, the author presents a series of empirical studies that highlight some specific conditions determining the success of such a combination, like the introduction of noise during the learning and selection processes. Results are obtained in two qualitatively different domains, where agent/environment interactions are minimal or absent.
翻訳日:2023-06-22 16:23:54 公開日:2023-06-20
# 自律運転におけるループ信頼性評価のためのディープラーニング加速器

Deep Learning Accelerator in Loop Reliability Evaluation for Autonomous Driving ( http://arxiv.org/abs/2306.11759v1 )

ライセンス: Link先を確認
Haitong Huang, Cheng Liu(参考訳) 自律運転システムで使用される深層学習アクセラレータ(DLA)の信頼性はシステムの安全性に大きな影響を及ぼす。 しかしながら、DLAの信頼性は通常、アウトプットの平均2乗誤差のような低レベルのメトリクスで評価される。 結果として、シリコン後の段階で評価された高レベルの信頼性指標は、依然としてDLA設計の見直しを招き、自律運転を目標とする高価な信頼性の高いDLA設計イテレーションをもたらす可能性がある。 そこで我々は,初期のDLA設計段階でシステム信頼性評価を可能にするDLA-in-loop信頼性評価プラットフォームを提案する。

The reliability of deep learning accelerators (DLAs) used in autonomous driving systems has significant impact on the system safety. However, the DLA reliability is usually evaluated with low-level metrics like mean square errors of the output which remains rather different from the high-level metrics like total distance traveled before failure in autonomous driving. As a result, the high-level reliability metrics evaluated at the post-silicon stage may still lead to DLA design revision and result in expensive reliable DLA design iterations targeting at autonomous driving. To address the problem, we proposed a DLA-in-loop reliability evaluation platform to enable system reliability evaluation at the early DLA design stage.
翻訳日:2023-06-22 16:23:45 公開日:2023-06-20
# MRFI:ニューラルネットワーク処理のためのオープンソースのマルチリゾリューションフォールトインジェクションフレームワーク

MRFI: An Open Source Multi-Resolution Fault Injection Framework for Neural Network Processing ( http://arxiv.org/abs/2306.11758v1 )

ライセンス: Link先を確認
Haitong Huang, Cheng Liu, Xinghua Xue, Ying Wang, Huawei Li, Xiaowei Li(参考訳) 信頼性の低いハードウェア上でもレジリエントなニューラルネットワーク処理を保証するためには、ディープニューラルネットワークモデルがデプロイされる前に、さまざまなハードウェア障害に対する包括的な信頼性分析が必要である。 しかし、既存のフォールトインジェクションツールは、ニューロンへの基本的なフォールトインジェクションに限定されており、きめ細かい脆弱性解析機能を提供していない。 さらに、多くのフォールトインジェクションツールは、依然としてニューラルネットワークモデルを変更し、障害インジェクションを通常のニューラルネットワーク処理と密結合させる必要があり、フォールトインジェクションツールの使用をさらに複雑化し、障害シミュレーションを遅くする。 本研究では,深層ニューラルネットワークのための高構成多分解能故障注入ツールMRFIを提案する。 これにより、障害注入と脆弱性解析のためのニューラルネットワークモデルではなく、独立した障害設定ファイルの変更が可能になる。 特に、異なる視点から広範な障害解析機能を統合し、ニューラルネットワークの脆弱性のマルチレゾリューション調査を可能にする。 さらに、pytorchの主要なニューラルネットワークコンピューティングフレームワークは変更されていない。 したがって,gpu上での並列処理を自然に可能とし,実験により高速故障シミュレーションを行うことができる。

To ensure resilient neural network processing on even unreliable hardware, comprehensive reliability analysis against various hardware faults is generally required before the deep neural network models are deployed, and efficient error injection tools are highly demanded. However, most existing fault injection tools remain rather limited to basic fault injection to neurons and fail to provide fine-grained vulnerability analysis capability. In addition, many of the fault injection tools still need to change the neural network models and make the fault injection closely coupled with normal neural network processing, which further complicates the use of the fault injection tools and slows down the fault simulation. In this work, we propose MRFI, a highly configurable multi-resolution fault injection tool for deep neural networks. It enables users to modify an independent fault configuration file rather than neural network models for the fault injection and vulnerability analysis. Particularly, it integrates extensive fault analysis functionalities from different perspectives and enables multi-resolution investigation of the vulnerability of neural networks. In addition, it does not modify the major neural network computing framework of PyTorch. Hence, it allows parallel processing on GPUs naturally and exhibits fast fault simulation according to our experiments.
翻訳日:2023-06-22 16:23:34 公開日:2023-06-20
# EvolveMT: 使用のみを自力で改善したEnsemble MTエンジン

EvolveMT: an Ensemble MT Engine Improving Itself with Usage Only ( http://arxiv.org/abs/2306.11823v1 )

ライセンス: Link先を確認
Kamer Ali Yuksel, Ahmet Gunduz, Mohamed Al-Badrashiny, Shreyas Sharma, Hassan Sawaf(参考訳) 本稿では,複数の機械翻訳(MT)エンジンを効率よく組み合わせたEvolveMTを提案する。 提案システムは,オンライン学習技術を用いて,各セグメントの単一エンジンからの出力を選択し,翻訳要求毎に最適なシステムを予測する。 ニューラル品質推定メトリックは、参照翻訳を必要とせず、その方法を監督する。 このシステムのオンライン学習能力は、ドメインまたは機械翻訳エンジンの変更への動的適応を可能にするため、追加トレーニングの必要性を回避できる。 EvolveMTは、ソース文の特徴に基づいて呼び出される変換エンジンのサブセットを選択する。 探索の度合いは、要求される品質コストトレードオフに応じて設定可能である。 カスタムデータセットの結果、EvolveMTは、MT品質推定器を用いて、すべての翻訳から各セグメントの最適な翻訳を選択するよりも、同様の翻訳精度を低コストで達成できることが示されている。 私たちの知る限り、EvolveMTは、人間のフィードバックにコストがかかることなく、本番環境からの入力翻訳要求にデプロイ後に適応する最初のメタMTシステムです。

This paper presents EvolveMT for efficiently combining multiple machine translation (MT) engines. The proposed system selects the output from a single engine for each segment by utilizing online learning techniques to predict the most suitable system for every translation request. A neural quality estimation metric supervises the method without requiring reference translations. The online learning capability of this system allows for dynamic adaptation to alterations in the domain or machine translation engines, thereby obviating the necessity for additional training. EvolveMT selects a subset of translation engines to be called based on the source sentence features. The degree of exploration is configurable according to the desired quality-cost trade-off. Results from custom datasets demonstrate that EvolveMT achieves similar translation accuracy at a lower cost than selecting the best translation of each segment from all translations using an MT quality estimator. To our knowledge, EvolveMT is the first meta MT system that adapts itself after deployment to incoming translation requests from the production environment without needing costly retraining on human feedback.
翻訳日:2023-06-22 16:18:17 公開日:2023-06-20
# 車載カメラを用いた安全・健康志向型運転環境認識のためのマルチタスク自動学習フレームワーク

Self-supervised Multi-task Learning Framework for Safety and Health-Oriented Connected Driving Environment Perception using Onboard Camera ( http://arxiv.org/abs/2306.11822v1 )

ライセンス: Link先を確認
Shaocheng Jia, Wei Yao(参考訳) 近年,最先端のコネクテッドカー(CV)技術が注目されている。 cvが取得したリアルタイム交通データは、他のcvsやデータセンターと共有することができ、多様な交通問題を解決する新しい可能性を開くことができる。 しかし、接続された環境でカメラで撮影された画像は、特に安全性と健康志向の視覚知覚に関して十分に研究されていない。 本稿では,画像合成分解(bpisd)の双方向的手法を提案し,深度マップ,大気可視性,大気光,pm2.5質量濃度を同時に推定し,その深さマップと視認性が交通安全に強く関連し,空気灯とpm2.5質量集中は人間の健康と直接相関する,新しい自己教師ありマルチタスク学習フレームワークを提案する。 提案するシステムのトレーニングとテストのフェーズは、入力として単一のイメージのみを必要とする。 この革新的なトレーニングパイプラインにより、深度推定ネットワークは、様々なレベルの視界条件を管理し、現在の画像合成に基づく深度推定における固有の問題を克服し、低視認性状況においても高品質な深度マップを生成し、さらに視界、照度、PM2.5質量濃度の正確な推定を行うことができる。 北京で収集されたキティおよび実世界のデータを用いた広範囲な実験により,(1)鮮明な画像を入力として取る場合の精度の高い深度推定,(2)様々なレベルのハズで汚染された画像の鮮明な深度マップの予測,(3)可視性,風光量,およびpm2.5質量濃度を正確に推定できることが示されている。 交通安全, 空気質, 公衆衛生を改善するために, 提案した成果に基づき, 有効利用が可能である。

Cutting-edge connected vehicle (CV) technologies have drawn much attention in recent years. The real-time traffic data captured by a CV can be shared with other CVs and data centers so as to open new possibilities for solving diverse transportation problems. However, imagery captured by onboard cameras in a connected environment, are not sufficiently investigated, especially for safety and health-oriented visual perception. In this paper, a bidirectional process of image synthesis and decomposition (BPISD) approach is proposed, and thus a novel self-supervised multi-task learning framework, to simultaneously estimate depth map, atmospheric visibility, airlight, and PM2.5 mass concentration, in which depth map and visibility are considered highly associated with traffic safety, while airlight and PM2.5 mass concentration are directly correlated with human health. Both the training and testing phases of the proposed system solely require a single image as input. Due to the innovative training pipeline, the depth estimation network can manage various levels of visibility conditions and overcome inherent problems in current image-synthesis-based depth estimation, thereby generating high-quality depth maps even in low-visibility situations and further benefiting accurate estimations of visibility, airlight, and PM2.5 mass concentration. Extensive experiments on the synthesized data from the KITTI and real-world data collected in Beijing demonstrate that the proposed method can (1) achieve performance competitive in depth estimation as compared with state-of-the-art methods when taking clear images as input; (2) predict vivid depth map for images contaminated by various levels of haze; and (3) accurately estimate visibility, airlight, and PM2.5 mass concentrations. Beneficial applications can be developed based on the presented work to improve traffic safety, air quality, and public health.
翻訳日:2023-06-22 16:17:59 公開日:2023-06-20
# LLMよりも優れた生成を学ぶ

Learning to Generate Better Than Your LLM ( http://arxiv.org/abs/2306.11816v1 )

ライセンス: Link先を確認
Jonathan D. Chang, Kiante Brantley, Rajkumar Ramamurthy, Dipendra Misra, Wen Sun(参考訳) 強化学習(Reinforcement Learning, RL)は、条件付きテキスト生成のための微調整大型言語モデル(LLM)の強力なパラダイムとして登場した。 特に、ChatGPTやGPT-4のような最近のLLMは、RLと人間からのフィードバックを取り入れることで、ユーザとの流動的な会話を行うことができる。 テキスト生成の鍵となる特性を活かした学習・検索アルゴリズムに着想を得て,PPO(Proximal Policy Optimization)などの汎用アルゴリズムを超えた強化学習アルゴリズムを検討する。 特に、GPT-3などの動的ブラックボックスガイドLLMと対話できるようにRLアルゴリズムを拡張し、LLM微細チューニングのためのRLアルゴリズムのスイートであるガイド付きフィードバック(RLGF)を用いたRLを提案する。 我々は、GRUEベンチマークからIMDB陽性レビューとCommonGenテキスト生成タスクを実験した。 我々のRLアルゴリズムは、教師付き学習(SL)やデフォルトのPPOベースラインよりも高い性能を実現し、ガイドLLMとの相互作用の利点を示す。 CommonGenでは、SLベースラインを上回るだけでなく、最適化されたもの以上の様々な語彙的、セマンティックなメトリクスでPPOを超えて改善しています。 特に,IMDBデータセット上では,GPT-2ベースのポリシがゼロショットGPT-3オラクルよりも優れており,よりシンプルで安価で公開可能なGPT-2モデルを用いて,アルゴリズムがパワフルでブラックボックスGPT-3オラクルから学習できることを示す。

Reinforcement learning (RL) has emerged as a powerful paradigm for fine-tuning Large Language Models (LLMs) for conditional text generation. In particular, recent LLMs such as ChatGPT and GPT-4 can engage in fluent conversations with users by incorporating RL and feedback from humans. Inspired by learning-to-search algorithms and capitalizing on key properties of text generation, we seek to investigate reinforcement learning algorithms beyond general purpose algorithms such as Proximal policy optimization (PPO). In particular, we extend RL algorithms to allow them to interact with a dynamic black-box guide LLM such as GPT-3 and propose RL with guided feedback (RLGF), a suite of RL algorithms for LLM fine-tuning. We experiment on the IMDB positive review and CommonGen text generation task from the GRUE benchmark. We show that our RL algorithms achieve higher performance than supervised learning (SL) and default PPO baselines, demonstrating the benefit of interaction with the guide LLM. On CommonGen, we not only outperform our SL baselines but also improve beyond PPO across a variety of lexical and semantic metrics beyond the one we optimized for. Notably, on the IMDB dataset, we show that our GPT-2 based policy outperforms the zero-shot GPT-3 oracle, indicating that our algorithms can learn from a powerful, black-box GPT-3 oracle with a simpler, cheaper, and publicly available GPT-2 model while gaining performance.
翻訳日:2023-06-22 16:17:21 公開日:2023-06-20
# 微分方程式の高速量子アルゴリズム

Fast quantum algorithm for differential equations ( http://arxiv.org/abs/2306.11802v1 )

ライセンス: Link先を確認
Mohsen Bagherimehrab, Kouhei Nakaji, Nathan Wiebe, Al\'an Aspuru-Guzik(参考訳) 偏微分方程式 (pdes) は科学や工学においてユビキタスである。 PDEの離散化から得られる線形代数方程式の系を解くための以前の量子アルゴリズムは、計算に関わる行列の条件数$\kappa$と少なくとも線形にスケールする計算複雑性を持つ。 多くの実用的な応用において、$\kappa$ は多項式的に行列のサイズ $n$ でスケールし、これらのアルゴリズムの多項式-in-$n$ の複雑さをもたらす。 ここでは、PDE の大きなクラスに対して、N$ の多元対数であるが $\kappa$ とは独立な複雑性を持つ量子アルゴリズムを提案する。 我々のアルゴリズムは、解の特徴を抽出できる量子状態を生成する。 我々の方法論の中心はウェーブレット基底を座標の補助系として使い、関連する行列の条件番号が単純な対角前処理器によって$N$とは独立である。 いくつかの微分方程式に対するウェーブレットプレコンディショナーの効果を示す数値シミュレーションを提案する。 我々の研究は、標準手法が離散化に使用される量子シミュレーションアルゴリズムの性能を向上させる実用的な方法を提供するかもしれない。

Partial differential equations (PDEs) are ubiquitous in science and engineering. Prior quantum algorithms for solving the system of linear algebraic equations obtained from discretizing a PDE have a computational complexity that scales at least linearly with the condition number $\kappa$ of the matrices involved in the computation. For many practical applications, $\kappa$ scales polynomially with the size $N$ of the matrices, rendering a polynomial-in-$N$ complexity for these algorithms. Here we present a quantum algorithm with a complexity that is polylogarithmic in $N$ but is independent of $\kappa$ for a large class of PDEs. Our algorithm generates a quantum state that enables extracting features of the solution. Central to our methodology is using a wavelet basis as an auxiliary system of coordinates in which the condition number of associated matrices is independent of $N$ by a simple diagonal preconditioner. We present numerical simulations showing the effect of the wavelet preconditioner for several differential equations. Our work could provide a practical way to boost the performance of quantum-simulation algorithms where standard methods are used for discretization.
翻訳日:2023-06-22 16:16:56 公開日:2023-06-20
# DynaQuant: 動的量子化によるディープラーニングトレーニングチェックポイントの圧縮

DynaQuant: Compressing Deep Learning Training Checkpoints via Dynamic Quantization ( http://arxiv.org/abs/2306.11800v1 )

ライセンス: Link先を確認
Amey Agrawal, Sameer Reddy, Satwik Bhattamishra, Venkata Prabhakara Sarath Nookala, Vidushi Vashishth, Kexin Rong, Alexey Tumanov(参考訳) 計算リソースと時間消費の観点からのディープラーニング(DL)トレーニングワークロードの規模の増加に伴い、トレーニング中の障害に遭遇する可能性が大幅に増加し、作業とリソースの浪費が失われる。 このような障害は通常、ストレージとネットワーク帯域のオーバーヘッドのコストがかかるチェックポイント機構によってオフセットされる。 最先端のアプローチには、モデル品質(正確性)と圧縮比のトレードオフを引き起こす、損失のあるモデル圧縮機構が含まれる。 デルタ圧縮は、連続するチェックポイント間の差だけを格納することで、オーバーヘッドをさらに削減するためにも使われる。 モデル重みの圧縮に対する感度はトレーニング中に変化し,異なる重みは異なる量子化レベル(完全精度保持から刈り取りまで)の恩恵を受ける,という観察を可能にするキーとなる。 本研究では,(1)この変動を利用した非一様量子化方式,(2)最適な量子化構成を動的に調整する効率的な探索機構,(3)重みを並べ替えてチェックポイント差を最小化し,圧縮を最大化する量子化対応デルタ圧縮方式を提案する。 DLワークロードチェックポイント圧縮のためのフレームワークであるDynaQuantで、これらのコントリビューションをインスタンス化する。 実験の結果,DynaQuantは従来よりも精度と圧縮率のトレードオフを良好に達成し,最大39倍の圧縮比を達成し,耐故障性トレーニングに適さない精度で最大10個の復元を行うことができた。 DynaQuantは、トレーニング障害回復のためのチェックポイントストレージオーバーヘッドの少なくとも1桁の削減と、精度の低下を伴わない転送学習ユースケースを実現する

With the increase in the scale of Deep Learning (DL) training workloads in terms of compute resources and time consumption, the likelihood of encountering in-training failures rises substantially, leading to lost work and resource wastage. Such failures are typically offset by a checkpointing mechanism, which comes at the cost of storage and network bandwidth overhead. State-of-the-art approaches involve lossy model compression mechanisms, which induce a tradeoff between the resulting model quality (accuracy) and compression ratio. Delta compression is then also used to further reduce the overhead by only storing the difference between consecutive checkpoints. We make a key enabling observation that the sensitivity of model weights to compression varies during training, and different weights benefit from different quantization levels (ranging from retaining full precision to pruning). We propose (1) a non-uniform quantization scheme that leverages this variation, (2) an efficient search mechanism to dynamically adjust to the best quantization configurations, and (3) a quantization-aware delta compression mechanism that rearranges weights to minimize checkpoint differences, thereby maximizing compression. We instantiate these contributions in DynaQuant - a framework for DL workload checkpoint compression. Our experiments show that DynaQuant consistently achieves better tradeoff between accuracy and compression ratios compared to prior works, enabling a compression ratio up to 39x and withstanding up to 10 restores with negligible accuracy impact for fault-tolerant training. DynaQuant achieves at least an order of magnitude reduction in checkpoint storage overhead for training failure recovery as well as transfer learning use cases without any loss of accuracy
翻訳日:2023-06-22 16:16:38 公開日:2023-06-20
# 重力波データにおけるコンパクト二元融合検出のための頑健で信頼性の高い深層学習手法

Towards a robust and reliable deep learning approach for detection of compact binary mergers in gravitational wave data ( http://arxiv.org/abs/2306.11797v1 )

ライセンス: Link先を確認
Shreejit Jadhav, Mihir Shrivastava, Sanjit Mitra(参考訳) 一般化信号とノイズモデルを学ぶためのディープラーニング(DL)アプローチの能力は、GPU上での高速な推論と相まって、速度、パラメータ空間カバレッジ、探索感度の点で重力波(GW)探索の強化を大いに約束している。 しかし、DLモデルの不透明な性質は信頼性を著しく損なう。 本研究は,DLモデルを段階的に開発し,その堅牢性と信頼性の向上を目指したものである。 まず、データ中の「チャープ」信号の特徴の視覚的強度をよりよく反映した新しい指標を導出することにより、トレーニングデータの純度を維持する際の課題に対処する。 可変オートエンコーダ (VAE) によって得られる縮小された滑らかな表現を用いて, コンパクトなバイナリ合体 (CBC) 信号を探す分類器を構築する。 実際のLIGOデータに対するテストでは,モデルの性能が印象的であった。 しかし、敵攻撃によるモデルの堅牢性を検証し、その単純な障害モードを特定し、そのようなモデルが依然として脆弱であることを示す。 堅牢性を実現するための第一歩として,GAN(Generative Adversarial Network)を含む新しいフレームワークでモデルを再訓練する。 トレーニングの過程で、モデルは敵によって特定される障害の一次モードを取り除くことを学ぶ。 絶対的ロバスト性は事実上達成できないが、モデルの異なる層で抽出された特徴のスパース性や縮退性といったトレーニングによって得られた基本的な改善を実証する。 実 LIGO データとの比較により,所定のロバスト性は性能の面で事実上ゼロコストで達成されることを示す。 LIGOデータの8.8日間の直接探索により、GWTC-2.1、GW 190519_153544、GW 190521_074359の2つの重要なCBCイベントを回収し、検索感度を報告する。

The ability of deep learning (DL) approaches to learn generalised signal and noise models, coupled with their fast inference on GPUs, holds great promise for enhancing gravitational-wave (GW) searches in terms of speed, parameter space coverage, and search sensitivity. However, the opaque nature of DL models severely harms their reliability. In this work, we meticulously develop a DL model stage-wise and work towards improving its robustness and reliability. First, we address the problems in maintaining the purity of training data by deriving a new metric that better reflects the visual strength of the "chirp" signal features in the data. Using a reduced, smooth representation obtained through a variational auto-encoder (VAE), we build a classifier to search for compact binary coalescence (CBC) signals. Our tests on real LIGO data show an impressive performance of the model. However, upon probing the robustness of the model through adversarial attacks, its simple failure modes were identified, underlining how such models can still be highly fragile. As a first step towards bringing robustness, we retrain the model in a novel framework involving a generative adversarial network (GAN). Over the course of training, the model learns to eliminate the primary modes of failure identified by the adversaries. Although absolute robustness is practically impossible to achieve, we demonstrate some fundamental improvements earned through such training, like sparseness and reduced degeneracy in the extracted features at different layers inside the model. Through comparative inference on real LIGO data, we show that the prescribed robustness is achieved at practically zero cost in terms of performance. Through a direct search on ~8.8 days of LIGO data, we recover two significant CBC events from GWTC-2.1, GW190519_153544 and GW190521_074359, and report the search sensitivity.
翻訳日:2023-06-22 16:16:09 公開日:2023-06-20
# 可変トポロジカル$\theta$-angleによる微視的閉じ込めダイナミクスの観察

Observation of microscopic confinement dynamics by a tunable topological $\theta$-angle ( http://arxiv.org/abs/2306.11794v1 )

ライセンス: Link先を確認
Wei-Yong Zhang, Ying Liu, Yanting Cheng, Ming-Gen He, Han-Yi Wang, Tian-Yi Wang, Zi-Hang Zhu, Guo-Xian Su, Zhao-Yu Zhou, Yong-Guang Zheng, Hui Sun, Bing Yang, Philipp Hauke, Wei Zheng, Jad C. Halimeh, Zhen-Sheng Yuan, Jian-Wei Pan(参考訳) 位相的$\theta$-angleは、凝縮物における多くの現象の理解の中心であり、強いcp問題、動的量子位相相転移、閉じ込め脱共役遷移のような高エネルギー物理学の理解の中心である。 古典的手法を用いて位相的$\theta$-angleの効果を探究する場合、特に数値シミュレーションにおける符号問題の出現によって困難が生じる。 量子シミュレータは$\theta$-angleを実現するための強力な代替的な場所を提供するが、実験に動的電場を導入するのが困難であるため、hitchhertoは優れた課題である。 本稿では,bose-hubbardゲージ理論量子シミュレータにおける可変位相角$\theta$-angleの実験的実現について報告する。 我々は、この角度によるリッチな物理学を、$(1+1)$次元量子電磁力学の閉じ込め-分解遷移を直接観察することによって実証する。 原子精密量子ガス顕微鏡を用いて、粒子-反粒子対のリアルタイム進化をモニタリングすることにより、閉じ込められた位相と分解された位相を区別する。 我々の研究は、現代の量子シミュレータにおけるトポロジカル項の実現と、それらが必要とするリッチ物理の探索において大きな前進をもたらす。

The topological $\theta$-angle is central to the understanding of a plethora of phenomena in condensed matter and high-energy physics such as the strong CP problem, dynamical quantum topological phase transitions, and the confinement--deconfinement transition. Difficulties arise when probing the effects of the topological $\theta$-angle using classical methods, in particular through the appearance of a sign problem in numerical simulations. Quantum simulators offer a powerful alternate venue for realizing the $\theta$-angle, which has hitherto remained an outstanding challenge due to the difficulty of introducing a dynamical electric field in the experiment. Here, we report on the experimental realization of a tunable topological $\theta$-angle in a Bose--Hubbard gauge-theory quantum simulator, implemented through a tilted superlattice potential that induces an effective background electric field. We demonstrate the rich physics due to this angle by the direct observation of the confinement--deconfinement transition of $(1+1)$-dimensional quantum electrodynamics. Using an atomic-precision quantum gas microscope, we distinguish between the confined and deconfined phases by monitoring the real-time evolution of particle--antiparticle pairs, which exhibit constrained (ballistic) propagation for a finite (vanishing) deviation of the $\theta$-angle from $\pi$. Our work provides a major step forward in the realization of topological terms on modern quantum simulators, and the exploration of rich physics they have been theorized to entail.
翻訳日:2023-06-22 16:15:33 公開日:2023-06-20
# 一般化フィボナッチドライブの量子ダイナミクスにおける完全ヒルベルト空間エルゴディディティ

Complete Hilbert-Space Ergodicity in Quantum Dynamics of Generalized Fibonacci Drives ( http://arxiv.org/abs/2306.11792v1 )

ライセンス: Link先を確認
Sa\'ul Pilatowsky-Cameo, Ceren B. Dag, Wen Wei Ho, and Soonwon Choi(参考訳) 量子力学のエルゴディディティはしばしばエネルギー固有状態の統計的性質によって定義され、ベリーの単一粒子量子カオスにおける予想と多体設定における固有状態熱化仮説によって実証される。 本研究では、量子系がより強固なエルゴード性を示すことができるかどうかを検証し、時間発展状態が時間とともにヒルベルト空間全体を一様に訪問する。 そのような現象を完全ヒルベルト空間エルゴディディティ(CHSE)と呼び、これは本質的に動的概念としてのエルゴディディティという直感的な概念に似ている。 chse は、完全なヒルベルト空間の探索を妨げる(quasi)エネルギー固有状態が存在するため、時間非依存あるいは時間-周期的なハミルトニアンダイナミクスを保持できない。 しかし、フィボナッチワードとその一般化によって生成される最小の記号的複雑性を持つ非周期的だが決定論的ドライブの族が存在し、CHSEが発生することが証明できる。 本研究は,一般時間依存量子システムにおける熱化の理解の基礎を提供する。

Ergodicity of quantum dynamics is often defined through statistical properties of energy eigenstates, as exemplified by Berry's conjecture in single-particle quantum chaos and the eigenstate thermalization hypothesis in many-body settings. In this work, we investigate whether quantum systems can exhibit a stronger form of ergodicity, wherein any time-evolved state uniformly visits the entire Hilbert space over time. We call such a phenomenon complete Hilbert-space ergodicity (CHSE), which is more akin to the intuitive notion of ergodicity as an inherently dynamical concept. CHSE cannot hold for time-independent or even time-periodic Hamiltonian dynamics, owing to the existence of (quasi)energy eigenstates which precludes exploration of the full Hilbert space. However, we find that there exists a family of aperiodic, yet deterministic drives with minimal symbolic complexity -- generated by the Fibonacci word and its generalizations -- for which CHSE can be proven to occur. Our results provide a basis for understanding thermalization in general time-dependent quantum systems.
翻訳日:2023-06-22 16:15:05 公開日:2023-06-20
# マルチタスクガウス過程による時間変化遷移行列

Time-Varying Transition Matrices with Multi-task Gaussian Processes ( http://arxiv.org/abs/2306.11772v1 )

ライセンス: Link先を確認
Ekin Ugurel(参考訳) 本稿では,2つの状態を持つ時間不均質マルコフ法を用いて,個人の移動状態の基底関数を近似するカーネルベースマルチタスクガウス過程(gp)モデルを提案する。 提案手法は,タスク上で共分散行列を作成することにより,遷移確率の相関を生ずる。 また,個人の遷移確率が外因性変数に応じて時間とともに変化することを仮定して,時間変数を導入する。 我々はマルコフ過程における確率の確率性と非負性制約をGPの制約点の組を組み込むことによって実施する。 また, toeplitz と kronecker の積構造を活用し, この文脈でgp推定と推論を高速化する機会について考察する。 我々の数値実験は,遷移確率の関数形式を学習しながら,所望の制約を強制する定式化の能力を示す。

In this paper, we present a kernel-based, multi-task Gaussian Process (GP) model for approximating the underlying function of an individual's mobility state using a time-inhomogeneous Markov Process with two states: moves and pauses. Our approach accounts for the correlations between the transition probabilities by creating a covariance matrix over the tasks. We also introduce time-variability by assuming that an individual's transition probabilities vary over time in response to exogenous variables. We enforce the stochasticity and non-negativity constraints of probabilities in a Markov process through the incorporation of a set of constraint points in the GP. We also discuss opportunities to speed up GP estimation and inference in this context by exploiting Toeplitz and Kronecker product structures. Our numerical experiments demonstrate the ability of our formulation to enforce the desired constraints while learning the functional form of transition probabilities.
翻訳日:2023-06-22 16:14:46 公開日:2023-06-20
# 説明可能な機械学習アーティファクトの設計:方法論と実践的実証

Designing Explainable Predictive Machine Learning Artifacts: Methodology and Practical Demonstration ( http://arxiv.org/abs/2306.11771v1 )

ライセンス: Link先を確認
Giacomo Welsch, Peter Kowalczyk(参考訳) 予測指向機械学習は、重要なビジネス領域でアプリケーションを駆動する可能性があるため、組織にとってますます価値が高まっている。 しかし、さまざまな産業の企業による意思決定者は、現代の機械学習アルゴリズムに基づいたアプリケーションの採用に消極的だ。 この問題を、高度な機械学習アルゴリズムに対する広く支持されている見解である「ブラックボックス」に当てはめ、その複雑性は対応するシステムの出力を駆動する要因を明らかにすることを許さない。 この導入障壁を克服するために、情報システムの研究は、人間の意思決定者に予測を説明できる原型的予測指向機械学習アプリケーション(アーティファクト)の設計にもっと注力すべきである、と論じる。 しかし,近年,このような人工物の開発を促進する様々なツールが出現しているが,その開発に関する研究はほとんど行われていない。 この研究のギャップは,これらの成果物の作成を支援する方法論的指導の欠如にあると考えられる。 そこで我々は,設計科学研究から方法論的知識を統一し,最先端の人工知能による予測分析を行う手法を開発した。 さらに,共有経済(Airbnbなど)における価格予測の例を用いて,その方法論を紹介する。

Prediction-oriented machine learning is becoming increasingly valuable to organizations, as it may drive applications in crucial business areas. However, decision-makers from companies across various industries are still largely reluctant to employ applications based on modern machine learning algorithms. We ascribe this issue to the widely held view on advanced machine learning algorithms as "black boxes" whose complexity does not allow for uncovering the factors that drive the output of a corresponding system. To contribute to overcome this adoption barrier, we argue that research in information systems should devote more attention to the design of prototypical prediction-oriented machine learning applications (i.e., artifacts) whose predictions can be explained to human decision-makers. However, despite the recent emergence of a variety of tools that facilitate the development of such artifacts, there has so far been little research on their development. We attribute this research gap to the lack of methodological guidance to support the creation of these artifacts. For this reason, we develop a methodology which unifies methodological knowledge from design science research and predictive analytics with state-of-the-art approaches to explainable artificial intelligence. Moreover, we showcase the methodology using the example of price prediction in the sharing economy (i.e., on Airbnb).
翻訳日:2023-06-22 16:14:33 公開日:2023-06-20
# テーブル拡張のための検索型変換器

Retrieval-Based Transformer for Table Augmentation ( http://arxiv.org/abs/2306.11843v1 )

ライセンス: Link先を確認
Michael Glass, Xueqing Wu, Ankita Rajaram Naik, Gaetano Rossiello, Alfio Gliozzo(参考訳) データ準備は、データラングリングとも呼ばれ、分析や機械学習モデルの構築において、最も高価で時間を要するステップの1つである。 データの準備は通常、複雑な異種データや、データレイクのような大規模データソースからのデータを収集してマージする。 本稿では,データレイクからの動的ビューを表型データとして構造化するための,エンドユーザの努力,例えばデータアナリストの努力を緩和する試みとして,自動データラングリングへの新しいアプローチを提案する。 我々は、列/列の人口とデータインプテーションを含むテーブル拡張タスクに対処することを目的としている。 テーブルのコーパスが与えられた場合,検索拡張自己学習トランスフォーマーモデルを提案する。 我々の自己学習戦略は、コーパスからランダムにテーブルを非難し、部分テーブルを入力として与えられた元の値やヘッダを再構築する検索ベースモデルを訓練する。 この戦略を用いて、まずテーブル部分をベクトルに符号化する高密度ニューラルネットワークモデルを訓練し、次にテーブル拡張タスクを実行するために訓練されたエンドツーエンドモデルを訓練する。 私たちは、テーブル拡張の標準ベンチマークであるEntiTablesをテストし、さらに研究を進めるための新しいベンチマーク、WebTablesを導入しました。 提案モデルは, 統計的手法と現在の変圧器に基づくモデルの両方を, 一貫して, 実質的に上回っている。

Data preparation, also called data wrangling, is considered one of the most expensive and time-consuming steps when performing analytics or building machine learning models. Preparing data typically involves collecting and merging data from complex heterogeneous, and often large-scale data sources, such as data lakes. In this paper, we introduce a novel approach toward automatic data wrangling in an attempt to alleviate the effort of end-users, e.g. data analysts, in structuring dynamic views from data lakes in the form of tabular data. We aim to address table augmentation tasks, including row/column population and data imputation. Given a corpus of tables, we propose a retrieval augmented self-trained transformer model. Our self-learning strategy consists in randomly ablating tables from the corpus and training the retrieval-based model to reconstruct the original values or headers given the partial tables as input. We adopt this strategy to first train the dense neural retrieval model encoding table-parts to vectors, and then the end-to-end model trained to perform table augmentation tasks. We test on EntiTables, the standard benchmark for table augmentation, as well as introduce a new benchmark to advance further research: WebTables. Our model consistently and substantially outperforms both supervised statistical methods and the current state-of-the-art transformer-based models.
翻訳日:2023-06-22 16:06:45 公開日:2023-06-20
# 変分量子回路におけるパラメータの同時最適化

Parsimonious Optimisation of Parameters in Variational Quantum Circuits ( http://arxiv.org/abs/2306.11842v1 )

ライセンス: Link先を確認
Sayantan Pramanik, Chaitanya Murti, M Girish Chandra(参考訳) 変分量子回路は、通常勾配情報に依存する古典的な最適化手順を用いて最適化されるパラメータを用いて量子システムの状態を特徴づける。 期待値の勾配を推定する回路実行の複雑さは、回路内のパラメータ数で線形に増大し、そのような方法が強制的に高価になる。 本稿では、最適なパラメータを更新するために、イテレーション毎に少なくとも2つの回路を実行する必要がある新しい量子勾配サンプリングアルゴリズムを提案し、ショット数を減らし、この問題に対処する。 さらに,本手法は古典的勾配降下と類似した漸近収束率を達成し,経験的に勾配降下,ランダム座標降下,spsaを上回っている。

Variational quantum circuits characterise the state of a quantum system through the use of parameters that are optimised using classical optimisation procedures that typically rely on gradient information. The circuit-execution complexity of estimating the gradient of expectation values grows linearly with the number of parameters in the circuit, thereby rendering such methods prohibitively expensive. In this paper, we address this problem by proposing a novel Quantum-Gradient Sampling algorithm that requires the execution of at most two circuits per iteration to update the optimisable parameters, and with a reduced number of shots. Furthermore, our proposed method achieves similar asymptotic convergence rates to classical gradient descent, and empirically outperforms gradient descent, randomised coordinate descent, and SPSA.
翻訳日:2023-06-22 16:06:25 公開日:2023-06-20
# 止まるべきか、行くべきか:不均一な人口で早期に止まる

Should I Stop or Should I Go: Early Stopping with Heterogeneous Populations ( http://arxiv.org/abs/2306.11839v1 )

ライセンス: Link先を確認
Hammaad Adam, Fan Yin, Mary Hu, Neil Tenenholtz, Lorin Crawford, Lester Mackey, Allison Koenecke(参考訳) ランダム化された実験は、意図しない有害な効果を持つ治療のため、しばしば早期に停止する必要がある。 実験の早期停止を決定する既存の方法は通常、集計データに適用され、治療効果の不均一性を考慮しない。 本稿では,不均質個体群に対する害実験の早期停止について検討する。 まず,治療が参加者の少数派グループを傷つける場合,現在の方法が実験を停止しないことが多いことを確かめる。 次に、因果機械学習を用いて、異種早期停止のための初めて広く適用可能な方法であるCLASHを開発する。 シミュレーションおよび実データ上でのCLASHの性能を実証し,臨床治験およびA/B試験の早期停止に有効であることを示す。

Randomized experiments often need to be stopped prematurely due to the treatment having an unintended harmful effect. Existing methods that determine when to stop an experiment early are typically applied to the data in aggregate and do not account for treatment effect heterogeneity. In this paper, we study the early stopping of experiments for harm on heterogeneous populations. We first establish that current methods often fail to stop experiments when the treatment harms a minority group of participants. We then use causal machine learning to develop CLASH, the first broadly-applicable method for heterogeneous early stopping. We demonstrate CLASH's performance on simulated and real data and show that it yields effective early stopping for both clinical trials and A/B tests.
翻訳日:2023-06-22 16:06:12 公開日:2023-06-20
# 効率的な機械翻訳コーパス生成

Efficient Machine Translation Corpus Generation ( http://arxiv.org/abs/2306.11838v1 )

ライセンス: Link先を確認
Kamer Ali Yuksel, Ahmet Gunduz, Shreyas Sharma, Hassan Sawaf(参考訳) 本稿では,機械翻訳コーパス生成のためのヒューマン・イン・ザ・ループ・ポスト編集手法を提案する。 本手法は,言語学者がポストエジットを行う場合の,カスタムMT品質評価指標のオンライントレーニングに基づく。 オンライン推定器は、後編集の悪い仮説を優先順位付けし、後編集なしで最良の仮説を自動クローズするために用いられる。 このようにして、人間の関与が減り、結果として得られるポストエディタの品質を低コストで向上させることができる。 トレーニングされた推定器は、編集後のオンライン衛生チェックメカニズムを提供し、それらを確認するための追加の言語学者や同じ仮説に取り組む必要をなくすこともできる。 本稿では,提案手法による優先順位付けがMTコーパスの品質に及ぼす影響をランダムに予測した場合と比較する。 実験によって実証されたように,提案手法は,MTコーパスを拡張して再学習する上で最も重要である生産サンプルと仮説に言語的取り組みを集中させることにより,MTモデルのライフサイクルを改善する。

This paper proposes an efficient and semi-automated method for human-in-the-loop post-editing for machine translation (MT) corpus generation. The method is based on online training of a custom MT quality estimation metric on-the-fly as linguists perform post-edits. The online estimator is used to prioritize worse hypotheses for post-editing, and auto-close best hypotheses without post-editing. This way, significant improvements can be achieved in the resulting quality of post-edits at a lower cost due to reduced human involvement. The trained estimator can also provide an online sanity check mechanism for post-edits and remove the need for additional linguists to review them or work on the same hypotheses. In this paper, the effect of prioritizing with the proposed method on the resulting MT corpus quality is presented versus scheduling hypotheses randomly. As demonstrated by experiments, the proposed method improves the lifecycle of MT models by focusing the linguist effort on production samples and hypotheses, which matter most for expanding MT corpora to be used for re-training them.
翻訳日:2023-06-22 16:05:58 公開日:2023-06-20
# 構造MRIによる認知障害の進展予測のための脳解剖モデル

Brain Anatomy Prior Modeling to Forecast Clinical Progression of Cognitive Impairment with Structural MRI ( http://arxiv.org/abs/2306.11837v1 )

ライセンス: Link先を確認
Lintao Zhang, Jinjian Wu, Lihong Wang, Li Wang, David C. Steffens, Shijun Qiu, Guy G. Potter and Mingxia Liu(参考訳) 脳構造MRIは認知障害(CI)の今後の進展を評価するために広く用いられている。 従来の学習に基づく研究は通常、小さなラベル付きトレーニングデータの問題に悩まされるが、大規模な公開データベースには大量の構造的MRIが存在する。 直感的には、これらの公開MRIから派生した脳解剖学的構造(タスク固有のラベル情報なしでも)は、CI進行軌道予測を促進するために使用できる。 しかし、このような脳解剖学に先立つことはほとんどない。 そこで本研究では,脳の解剖学的構造を探索し,小型のMRIによる認知障害の臨床経過を予測するための脳解剖前モデル(BAPM)フレームワークを提案する。 具体的には、BAPMはプリテキストモデルと下流モデルで構成され、脳解剖学を明示的にモデル化するための共有脳解剖誘導エンコーダを備えている。 エンコーダの他に、プリテキストモデルは2つの補助的なタスク(MRI再構成と脳組織セグメンテーション)のための2つのデコーダを含み、下流モデルは分類のための予測器に依存している。 脳解剖誘導エンコーダは、解剖前モデリングのための診断ラベルなしで、9,344個の補助MRIのプリテキストモデルで事前訓練される。 このエンコーダを凍結すると、下流モデルは予測のために限られたターゲットMRI上で微調整される。 BAPMは448例のT1強調MRIを用いた2つのCI関連研究で検証した。 実験の結果,(1)4つのci進行予測課題,(2)mr画像再構成,(3)脳組織分割におけるbapmの有効性が,いくつかの最先端手法と比較して示唆された。

Brain structural MRI has been widely used to assess the future progression of cognitive impairment (CI). Previous learning-based studies usually suffer from the issue of small-sized labeled training data, while there exist a huge amount of structural MRIs in large-scale public databases. Intuitively, brain anatomical structures derived from these public MRIs (even without task-specific label information) can be used to boost CI progression trajectory prediction. However, previous studies seldom take advantage of such brain anatomy prior. To this end, this paper proposes a brain anatomy prior modeling (BAPM) framework to forecast the clinical progression of cognitive impairment with small-sized target MRIs by exploring anatomical brain structures. Specifically, the BAPM consists of a pretext model and a downstream model, with a shared brain anatomy-guided encoder to model brain anatomy prior explicitly. Besides the encoder, the pretext model also contains two decoders for two auxiliary tasks (i.e., MRI reconstruction and brain tissue segmentation), while the downstream model relies on a predictor for classification. The brain anatomy-guided encoder is pre-trained with the pretext model on 9,344 auxiliary MRIs without diagnostic labels for anatomy prior modeling. With this encoder frozen, the downstream model is then fine-tuned on limited target MRIs for prediction. We validate the BAPM on two CI-related studies with T1-weighted MRIs from 448 subjects. Experimental results suggest the effectiveness of BAPM in (1) four CI progression prediction tasks, (2) MR image reconstruction, and (3) brain tissue segmentation, compared with several state-of-the-art methods.
翻訳日:2023-06-22 16:05:41 公開日:2023-06-20
# トポロジカルパララックス:深部知覚モデルのための幾何学的仕様

Topological Parallax: A Geometric Specification for Deep Perception Models ( http://arxiv.org/abs/2306.11835v1 )

ライセンス: Link先を確認
Abraham D. Smith, Michael J. Catanzaro, Gabrielle Angeloro, Nirav Patel, Paul Bendich(参考訳) aiシステムの安全性と堅牢性のために、訓練されたモデルと参照データセットを比較する理論および計算ツールとしてトポロジカルパララックスを導入する。 我々の証明と例は、このデータセットとモデル間の幾何学的類似性が信頼に値する補間と摂動に不可欠であることを示し、この新概念がディープラーニングの応用における過度適合と一般化の間の不明瞭な関係に関する現在の議論に価値をもたらすことを予想している。 典型的なdnnアプリケーションでは、モデルの明示的な幾何学的記述は不可能であるが、パララックスは参照データセットを用いて測地歪のリップ複合体への影響を調べることによって、モデルの位相的特徴(成分、サイクル、空隙など)を推定することができる。 したがって、パララックスは、モデルがデータセットと類似したマルチスケール幾何学的特徴を共有するかどうかを示す。 パララックスは、理論的には、トポロジカルデータ解析(TDA)をバイフィルタ永続モジュールとして提示し、このモジュールの重要な特性は、参照データセットの摂動下で安定である。

For safety and robustness of AI systems, we introduce topological parallax as a theoretical and computational tool that compares a trained model to a reference dataset to determine whether they have similar multiscale geometric structure. Our proofs and examples show that this geometric similarity between dataset and model is essential to trustworthy interpolation and perturbation, and we conjecture that this new concept will add value to the current debate regarding the unclear relationship between overfitting and generalization in applications of deep-learning. In typical DNN applications, an explicit geometric description of the model is impossible, but parallax can estimate topological features (components, cycles, voids, etc.) in the model by examining the effect on the Rips complex of geodesic distortions using the reference dataset. Thus, parallax indicates whether the model shares similar multiscale geometric features with the dataset. Parallax presents theoretically via topological data analysis [TDA] as a bi-filtered persistence module, and the key properties of this module are stable under perturbation of the reference dataset.
翻訳日:2023-06-22 16:05:14 公開日:2023-06-20
# QuOTeS: クエリ指向の技術要約

QuOTeS: Query-Oriented Technical Summarization ( http://arxiv.org/abs/2306.11832v1 )

ライセンス: Link先を確認
Juan Ramirez-Orta and Eduardo Xamena and Ana Maguitman and Axel J. Soto and Flavia P. Zanoto and Evangelos Milios(参考訳) 抽象。 学術論文を書く際、研究者は論文のレビューと要約にかなりの時間を費やして関連する引用とデータを抽出し、紹介と関連する作業セクションを構成する。 この問題に対処するため,我々は,潜在的参照の集合から研究の要約に関連する文章を検索し,新たな論文の合成を支援する対話型システムQuOTeSを提案する。 QuOTeS は Query-Focused Extractive Summarization と High-Recall Information Retrieval の技法を統合し、科学文書のインタラクティブなクエリ-Focused Summarization を提供する。 そこで本研究では,本システムの性能を計測するために,研究に関連する論文をアップロードし,そのユーザビリティと生成する要約の質について評価した。 結果から,QuOTeSは肯定的なユーザエクスペリエンスを提供し,関連する,簡潔かつ完全なクエリ中心の要約を一貫して提供することが明らかになった。 我々は、我々のシステムのコードと、https://github.com/jarobyte91/quotesで収集された新しいQuery-Focused Summarizationデータセットを共有する。

Abstract. When writing an academic paper, researchers often spend considerable time reviewing and summarizing papers to extract relevant citations and data to compose the Introduction and Related Work sections. To address this problem, we propose QuOTeS, an interactive system designed to retrieve sentences related to a summary of the research from a collection of potential references and hence assist in the composition of new papers. QuOTeS integrates techniques from Query-Focused Extractive Summarization and High-Recall Information Retrieval to provide Interactive Query-Focused Summarization of scientific documents. To measure the performance of our system, we carried out a comprehensive user study where participants uploaded papers related to their research and evaluated the system in terms of its usability and the quality of the summaries it produces. The results show that QuOTeS provides a positive user experience and consistently provides query-focused summaries that are relevant, concise, and complete. We share the code of our system and the novel Query-Focused Summarization dataset collected during our experiments at https://github.com/jarobyte91/quotes.
翻訳日:2023-06-22 16:04:51 公開日:2023-06-20
# UMM:教師なし平均差最大化

UMM: Unsupervised Mean-difference Maximization ( http://arxiv.org/abs/2306.11830v1 )

ライセンス: Link先を確認
Jan Sosulski and Michael Tangermann(参考訳) 多くの脳-コンピュータインタフェースは、視覚、聴覚、触覚刺激、いわゆる事象関連電位(ERP)に反応して引き起こされる脳信号を利用する。 視覚的ERPスペルアプリケーションでは、画面に表示される文字のセットはランダムにフラッシュされ、参加者は綴りたいターゲットの文字に出席する。 この文字が点滅すると、結果のERPは他のターゲットでない文字が点滅するのと異なる。 我々は,この文字を検出するための新しい教師なし手法を提案する。 各試行において、利用可能な文字ごとに、我々のアプローチは、それが実際に出席する文字であるという仮説を立て、これらの仮説に基づいてERPを計算する。 我々は、真の仮説だけがクラス間の最大の差を生み出すという事実を活用する。 この教師なしの手法は基礎となる実験パラダイムの変更を必要としないので、ほとんどのERPベースの設定で使用できる。 限られたデータを扱うには、バックグラウンドアクティビティをモデル化するblock-toeplitz正規化共分散行列を使用する。 提案手法は,非教師付き平均差最大化法(UMM)を実装し,脳-コンピュータインタフェースの視覚スペルデータセットのオフライン再生で評価した。 1トライアルあたり16のシンボルを使用したデータセットでは、UMMは25人の参加者に対して3654文字(99.92\,\%$)のうち3651文字を正しく分類している。 別のデータセットでは、7383文字中7344文字(99.47\,\%$)が54人の参加者に2つのセッションで正しく分類される。 筋萎縮性側索硬化症(77.86\,\%$)患者や聴覚ERP(82.52\,\%$)患者から得られたより困難なデータセットであっても、UMMが取得した分類率は競争力がある。 加えて、UMMは収束を監視するために使用できる安定した信頼度尺度を提供する。

Many brain-computer interfaces make use of brain signals that are elicited in response to a visual, auditory or tactile stimulus, so-called event-related potentials (ERPs). In visual ERP speller applications, sets of letters shown on a screen are flashed randomly, and the participant attends to the target letter they want to spell. When this letter flashes, the resulting ERP is different compared to when any other non-target letter flashes. We propose a new unsupervised approach to detect this attended letter. In each trial, for every available letter our approach makes the hypothesis that it is in fact the attended letter, and calculates the ERPs based on each of these hypotheses. We leverage the fact that only the true hypothesis produces the largest difference between the class means. Note that this unsupervised method does not require any changes to the underlying experimental paradigm and therefore can be employed in almost any ERP-based setup. To deal with limited data, we use a block-Toeplitz regularized covariance matrix that models the background activity. We implemented the proposed novel unsupervised mean-difference maximization (UMM) method and evaluated it in offline replays of brain-computer interface visual speller datasets. For a dataset that used 16 flashes per symbol per trial, UMM correctly classifies 3651 out of 3654 letters ($99.92\,\%$) across 25 participants. In another dataset with fewer and shorter trials, 7344 out of 7383 letters ($99.47\,\%$) are classified correctly across 54 participants with two sessions each. Even in more challenging datasets obtained from patients with amyotrophic lateral sclerosis ($77.86\,\%$) or when using auditory ERPs ($82.52\,\%$), the obtained classification rates obtained by UMM are competitive. In addition, UMM provides stable confidence measures which can be used to monitor convergence.
翻訳日:2023-06-22 16:04:31 公開日:2023-06-20
# ディープReLUネットワークは浅すぎる

Any Deep ReLU Network is Shallow ( http://arxiv.org/abs/2306.11827v1 )

ライセンス: Link先を確認
Mattia Jacopo Villani, Nandi Schoots(参考訳) 我々は,全ての深部ReLUネットワークが,拡張実数で重み付けされた機能的に同一の3層ネットワークとして書き換えられることを示す。 この証明に基づき、深いReLUネットワークが与えられた場合、対応する浅層ネットワークの明示的な重みを求めるアルゴリズムを提案する。 結果として生じる浅いネットワークは透明であり、モデルsの振る舞いを説明するために使用される。

We constructively prove that every deep ReLU network can be rewritten as a functionally identical three-layer network with weights valued in the extended reals. Based on this proof, we provide an algorithm that, given a deep ReLU network, finds the explicit weights of the corresponding shallow network. The resulting shallow network is transparent and used to generate explanations of the model s behaviour.
翻訳日:2023-06-22 16:03:59 公開日:2023-06-20
# NADOの組成と改善

On Compositionality and Improved Training of NADO ( http://arxiv.org/abs/2306.11825v1 )

ライセンス: Link先を確認
Sidi Lu and Wenbo Zhao and Chenyang Tao and Arpit Gupta and Shanchan Wu and Tagyoung Chung and Nanyun Peng(参考訳) NeurAlly-Decomposed Oracle (NADO)は、大きな言語モデルで制御可能な生成のための強力なアプローチである。 微調整/プロパントチューニングとの違いは、大きなベースモデルの破滅的な忘れることを避け、モデル容量を著しく制限することなくエントロピー最大化されたクローズドフォームソリューションへの収束を保証できる可能性がある。 その成功にもかかわらず、もっと複雑なシナリオにNADOを適用する際にいくつかの課題が生じる。 まず,複数の制御信号の合成にnadoを使う最善の方法は未検討である。 第2に、バニラナドは低確率制御信号の勾配消失に苦しめられ、フォワードコンシスタンス正則化に大きく依存する。 本稿では,NADOの理論的および実験的利用における課題について考察する。 本研究では, NADOの合成一般化を一定の実践で達成できることを示し, 前方整合性を完全に保証する新しいパラメータ化を提案する。 我々はCommonGen上でNADO(NADO++)の改良トレーニングを評価する。 その結果,NADO++はアルゴリズムの有効性を複数の面で向上させることがわかった。

NeurAlly-Decomposed Oracle (NADO) is a powerful approach for controllable generation with large language models. Differentiating from finetuning/prompt tuning, it has the potential to avoid catastrophic forgetting of the large base model and achieve guaranteed convergence to an entropy-maximized closed-form solution without significantly limiting the model capacity. Despite its success, several challenges arise when applying NADO to more complex scenarios. First, the best practice of using NADO for the composition of multiple control signals is under-explored. Second, vanilla NADO suffers from gradient vanishing for low-probability control signals and is highly reliant on the forward-consistency regularization. In this paper, we study the aforementioned challenges when using NADO theoretically and empirically. We show we can achieve guaranteed compositional generalization of NADO with a certain practice, and propose a novel alternative parameterization of NADO to perfectly guarantee the forward-consistency. We evaluate the improved training of NADO, i.e. NADO++, on CommonGen. Results show that NADO++ improves the effectiveness of the algorithm in multiple aspects.
翻訳日:2023-06-22 16:03:53 公開日:2023-06-20
# マルチバーストランスフォーマー:waymo open sim agents challenge 2023の1位ソリューション

Multiverse Transformer: 1st Place Solution for Waymo Open Sim Agents Challenge 2023 ( http://arxiv.org/abs/2306.11868v1 )

ライセンス: Link先を確認
Yu Wang, Tiebiao Zhao, Fan Yi(参考訳) この技術レポートは、Waymo Open Sim Agents Challenge (WOSAC) 2023の第一位ソリューションを示します。 提案するMultiVerse Transformer for Agent Simulation (MVTA) は, エージェントのクローズループシミュレーションに適したトランスフォーマーに基づく動作予測手法を効果的に活用する。 高いリアリズムを持つシミュレーションを作成するために,新しいトレーニングおよびサンプリング手法を設計し,回帰地平線予測機構を実装した。 さらに,閉ループ自己回帰実行時に発生する複合誤差を軽減するために,可変長履歴集計法を導入する。 WOSACでは、MVTAとMVTEの強化版がそれぞれ0.5091と0.5168のリアリズムメタメトリックに達し、リーダーボード上の他の手法よりも優れています。

This technical report presents our 1st place solution for the Waymo Open Sim Agents Challenge (WOSAC) 2023. Our proposed MultiVerse Transformer for Agent simulation (MVTA) effectively leverages transformer-based motion prediction approaches, and is tailored for closed-loop simulation of agents. In order to produce simulations with a high degree of realism, we design novel training and sampling methods, and implement a receding horizon prediction mechanism. In addition, we introduce a variable-length history aggregation method to mitigate the compounding error that can arise during closed-loop autoregressive execution. On the WOSAC, our MVTA and its enhanced version MVTE reach a realism meta-metric of 0.5091 and 0.5168, respectively, outperforming all the other methods on the leaderboard.
翻訳日:2023-06-22 15:57:50 公開日:2023-06-20
# 特徴アライメントと分類器協調による個人化フェデレーション学習

Personalized Federated Learning with Feature Alignment and Classifier Collaboration ( http://arxiv.org/abs/2306.11867v1 )

ライセンス: Link先を確認
Jian Xu, Xinyi Tong, Shao-Lun Huang(参考訳) データの不均一性は、参加するクライアントのためにパーソナライズされたモデルを学ぶためのさまざまなアプローチを動機付ける、連合学習における最も困難な問題のひとつだ。 ディープニューラルネットワークベースのタスクにおけるそのようなアプローチの1つは、共有特徴表現を採用し、クライアント毎にカスタマイズされた分類器ヘッドを学習することだ。 しかし,これまでの研究では,局所表現学習中にグローバル知識を活用せず,モデルの一般化能力を制限する局所分類器ヘッド間の細かな協調も無視している。 本研究では,グローバルなセマンティックな知識を活用して,より優れた表現を学習することで,ローカル・グローバルな特徴アライメントを実現する。 さらに,各クライアントの分類器結合の利点を結合重みの関数として定量化し,最適重みを推定するための最適化問題を導出する。 最後に,様々な異種データシナリオを用いたベンチマークデータセットの広範な評価結果から,提案手法の有効性を示す。 コードはhttps://github.com/JianXu95/FedPACで入手できる。

Data heterogeneity is one of the most challenging issues in federated learning, which motivates a variety of approaches to learn personalized models for participating clients. One such approach in deep neural networks based tasks is employing a shared feature representation and learning a customized classifier head for each client. However, previous works do not utilize the global knowledge during local representation learning and also neglect the fine-grained collaboration between local classifier heads, which limit the model generalization ability. In this work, we conduct explicit local-global feature alignment by leveraging global semantic knowledge for learning a better representation. Moreover, we quantify the benefit of classifier combination for each client as a function of the combining weights and derive an optimization problem for estimating optimal weights. Finally, extensive evaluation results on benchmark datasets with various heterogeneous data scenarios demonstrate the effectiveness of our proposed method. Code is available at https://github.com/JianXu95/FedPAC
翻訳日:2023-06-22 15:57:34 公開日:2023-06-20
# 無線システムにおける伝送電力割り当てのための教師なしディープアンフォールドpgd

Unsupervised Deep Unfolded PGD for Transmit Power Allocation in Wireless Systems ( http://arxiv.org/abs/2306.11865v1 )

ライセンス: Link先を確認
Ramoni Adeogun(参考訳) 送信電力制御(TPC)は、無線システムにおける干渉、エネルギー利用、接続を管理するための鍵となるメカニズムである。 本稿では,反復射影勾配降下(pgd)アルゴリズムをディープニューラルネットワークの層に展開し,ステップサイズパラメータを学習することにより,簡易な低複雑度tpcアルゴリズムを提案する。 DNNの重みを最適化するために,オンライン学習とオフライン事前学習を併用した教師なし学習手法を適用した。 高密度デバイス間通信(D2D)における性能評価の結果,提案手法は2回以上の繰り返し回数で反復アルゴリズムよりも優れた性能が得られることがわかった。

Transmit power control (TPC) is a key mechanism for managing interference, energy utilization, and connectivity in wireless systems. In this paper, we propose a simple low-complexity TPC algorithm based on the deep unfolding of the iterative projected gradient descent (PGD) algorithm into layers of a deep neural network and learning the step-size parameters. An unsupervised learning method with either online learning or offline pretraining is applied for optimizing the weights of the DNN. Performance evaluation in dense device-to-device (D2D) communication scenarios showed that the proposed method can achieve better performance than the iterative algorithm with more than a factor of 2 lower number of iterations.
翻訳日:2023-06-22 15:57:18 公開日:2023-06-20
# アクティブな人間-ロボット共組:人間の意図予測とロバスト安全制御を活用する

Proactive Human-Robot Co-Assembly: Leveraging Human Intention Prediction and Robust Safe Control ( http://arxiv.org/abs/2306.11862v1 )

ライセンス: Link先を確認
Ruixuan Liu, Rui Chen, Abulikemu Abuduweili, Changliu Liu(参考訳) ヒューマンロボットコラボレーション(HRC)は、顧客のニーズに応じて柔軟な製造を実現するための重要なコンポーネントのひとつです。 しかし、いくつかの課題により、人間の安全かつ効率的な支援を積極的に行う知的ロボットの構築は困難であり、まず、多様な人間の行動やデータ不足による効率的なコラボレーションを実現することが困難である。 第二に、人間の行動の不確実性による対話的安全性を確保することは困難である。 本稿では,プロアクティブHRCのための統合フレームワークを提案する。 事前のタスク情報とループ内トレーニングを活用する頑健な意図予測モジュールを学習し,ロボットの効率的な協調を指導する。 提案フレームワークはロバストなセーフコントロールを使用して、不確実性下でのインタラクティブな安全性を保証する。 開発したフレームワークは,Kinova Gen3ロボットを用いた協調作業に適用される。 この実験は、我々のソリューションが環境の変化や人間の好みや行動に頑健であることを示します。 さらに,タスク効率を約15~20%向上させる。 また,提案手法は協調作業時の安全性を保証できることを示した。

Human-robot collaboration (HRC) is one key component to achieving flexible manufacturing to meet the different needs of customers. However, it is difficult to build intelligent robots that can proactively assist humans in a safe and efficient way due to several challenges.First, it is challenging to achieve efficient collaboration due to diverse human behaviors and data scarcity. Second, it is difficult to ensure interactive safety due to uncertainty in human behaviors. This paper presents an integrated framework for proactive HRC. A robust intention prediction module, which leverages prior task information and human-in-the-loop training, is learned to guide the robot for efficient collaboration. The proposed framework also uses robust safe control to ensure interactive safety under uncertainty. The developed framework is applied to a co-assembly task using a Kinova Gen3 robot. The experiment demonstrates that our solution is robust to environmental changes as well as different human preferences and behaviors. In addition, it improves task efficiency by approximately 15-20%. Moreover, the experiment demonstrates that our solution can guarantee interactive safety during proactive collaboration.
翻訳日:2023-06-22 15:57:06 公開日:2023-06-20
# 教師付き学習における特徴量に対するモデルフリークローズネス・オブ・インフルエンステスト

A Model-free Closeness-of-influence Test for Features in Supervised Learning ( http://arxiv.org/abs/2306.11855v1 )

ライセンス: Link先を確認
Mohammad Mehrabi and Ryan A. Rossi(参考訳) 特徴ベクトル $x \in \mathbb{R}^d$ が応答値 (ラベル) $y \in \mathbb{R}$ に与える影響を理解することは、多くの統計的学習問題の基盤となる。 理想的には、収集された機能の集合がどのように結合し、応答値に影響を与えるかを理解することが望ましいが、データの高次元性やラベル付きデータポイントの限られた数など、この問題は非常に難しい。 本研究では,この問題に対する新たな視点を定め,この2つの特徴が応答値に与える影響について検討する。 まず、特徴の影響に対する近接性の概念を提案し、パラメトリックモデルにおける係数の大きさに関するよく知られた概念を再現することを示す。 そこで本研究では,モデルなし教師あり学習問題における影響の近接性をテストする新しい手法を提案する。 提案した試験は, 基本真理条件法$\mathcal{L}(Y |X)$であっても, I型誤差率を制御した有限個のサンプルで使用することができる。 2つの一般的な学習問題に対するテストのパワーの分析 一 線形回帰、及び 二 ガウスモデルの混合による二項分類を行い、スコア関数の適切な選択の下では、十分な数のサンプルを含むテストの内部成分が完全な統計的パワーを得ることを示す。 特に,CIFAR-10データセットにデータモデルフレームワーク(Ilyas, et al., 2022)を導入し,任意のブラックボックストレーニング機構を用いて,トレーニングモデルに異なる影響を持つトレーニングサンプルのペアを同定した。

Understanding the effect of a feature vector $x \in \mathbb{R}^d$ on the response value (label) $y \in \mathbb{R}$ is the cornerstone of many statistical learning problems. Ideally, it is desired to understand how a set of collected features combine together and influence the response value, but this problem is notoriously difficult, due to the high-dimensionality of data and limited number of labeled data points, among many others. In this work, we take a new perspective on this problem, and we study the question of assessing the difference of influence that the two given features have on the response value. We first propose a notion of closeness for the influence of features, and show that our definition recovers the familiar notion of the magnitude of coefficients in the parametric model. We then propose a novel method to test for the closeness of influence in general model-free supervised learning problems. Our proposed test can be used with finite number of samples with control on type I error rate, no matter the ground truth conditional law $\mathcal{L}(Y |X)$. We analyze the power of our test for two general learning problems i) linear regression, and ii) binary classification under mixture of Gaussian models, and show that under the proper choice of score function, an internal component of our test, with sufficient number of samples will achieve full statistical power. We evaluate our findings through extensive numerical simulations, specifically we adopt the datamodel framework (Ilyas, et al., 2022) for CIFAR-10 dataset to identify pairs of training samples with different influence on the trained model via optional black box training mechanisms.
翻訳日:2023-06-22 15:56:50 公開日:2023-06-20
# 高分解能電子顕微鏡データセットの機械学習解析における実験パラメータの一般化

Generalization Across Experimental Parameters in Machine Learning Analysis of High Resolution Transmission Electron Microscopy Datasets ( http://arxiv.org/abs/2306.11853v1 )

ライセンス: Link先を確認
Katherine Sytwu, Luis Rangel DaCosta, Mary C. Scott(参考訳) ニューラルネットワークは、ナノマテリアルの高スループットかつ正確な透過電子顕微鏡(TEM)分析のための有望なツールであるが、トレーニングデータから「配布外」のデータに悪影響を与えることが知られている。 高分解能temイメージングで一般的に見られる画像の特徴が限られているため、どの画像が他の画像と分配外と見なされているかは明らかではない。 本稿では,トレーニングデータセットにおけるメタデータの選択がニューラルネットワークの性能に与える影響について検討し,ナノ粒子セグメンテーションの例に着目する。 我々は, ナノ粒子の高分解能TEM画像データセットを, 拡大, 線量, ナノ粒子径, ナノ粒子材料など, 制御された画像パラメータに基づいて, ニューラルネットワークを訓練し, 評価する。 全体として、我々のニューラルネットワークは顕微鏡パラメータ間では堅牢ではなく、特定のサンプルパラメータ間で一般化されている。 さらに、データ前処理は、名目上類似したデータセットでトレーニングされたニューラルネットワークの一般化性に大きな影響を及ぼす。 私たちの結果は、データセット機能がデータ駆動アルゴリズムのデプロイメントにどのように影響するかを理解する必要性を強調します。

Neural networks are promising tools for high-throughput and accurate transmission electron microscopy (TEM) analysis of nanomaterials, but are known to generalize poorly on data that is "out-of-distribution" from their training data. Given the limited set of image features typically seen in high-resolution TEM imaging, it is unclear which images are considered out-of-distribution from others. Here, we investigate how the choice of metadata features in the training dataset influences neural network performance, focusing on the example task of nanoparticle segmentation. We train and validate neural networks across curated, experimentally-collected high-resolution TEM image datasets of nanoparticles under controlled imaging and material parameters, including magnification, dosage, nanoparticle diameter, and nanoparticle material. Overall, we find that our neural networks are not robust across microscope parameters, but do generalize across certain sample parameters. Additionally, data preprocessing heavily influences the generalizability of neural networks trained on nominally similar datasets. Our results highlight the need to understand how dataset features affect deployment of data-driven algorithms.
翻訳日:2023-06-22 15:56:09 公開日:2023-06-20
# 超解像を用いた獣細胞診における視覚知覚とセグメンテーション性能の向上

Using super-resolution for enhancing visual perception and segmentation performance in veterinary cytology ( http://arxiv.org/abs/2306.11848v1 )

ライセンス: Link先を確認
Jakub Caputa, Maciej Wielgosz, Daria {\L}ukasik, Pawe{\l} Russek, Jakub Grzeszczyk, Micha{\l} Karwatowski, Szymon Mazurek, Rafa{\l} Fr\k{a}czek, Anna \'Smiech, Ernest Jamro, Sebastian Koryciak, Agnieszka D\k{a}browska-Boruch, Marcin Pietro\'n, Kazimierz Wiatr(参考訳) 本研究の目的は,超解像(SR)アーキテクチャを取り入れた細胞像のセマンティックセグメンテーションの質を高めることである。 さらに、不正確な焦点の存在下での画質向上を目的とした新しいデータセットの開発にも貢献した。 実験の結果,sr手法をセグメント化パイプラインに統合することで,平均平均精度(map)セグメント化メトリックの25%までの大幅な改善が期待できることがわかった。 これらの結果から,SRアーキテクチャの活用は細胞診画像解析における最先端技術への大きな期待をもたらすことが示唆された。

The primary objective of this research was to enhance the quality of semantic segmentation in cytology images by incorporating super-resolution (SR) architectures. An additional contribution was the development of a novel dataset aimed at improving imaging quality in the presence of inaccurate focus. Our experimental results demonstrate that the integration of SR techniques into the segmentation pipeline can lead to a significant improvement of up to 25% in the mean average precision (mAP) segmentation metric. These findings suggest that leveraging SR architectures holds great promise for advancing the state of the art in cytology image analysis.
翻訳日:2023-06-22 15:55:48 公開日:2023-06-20
# 都市保健Nexusのデコード:都市間特徴に基づく解釈可能な機械学習イルミネート

Decoding Urban-health Nexus: Interpretable Machine Learning Illuminates Cancer Prevalence based on Intertwined City Features ( http://arxiv.org/abs/2306.11847v1 )

ライセンス: Link先を確認
Chenyue Liu, Ali Mostafavi(参考訳) 本研究は,社会階層間の相互作用,構築された環境特性,および地域レベルでのがんの有病率を決定する環境ハザード曝露の特徴について検討する。 米国内の5つの大都市圏(シカゴ、ダラス、ヒューストン、ロサンゼルス、ニューヨーク)のデータを利用して、研究はXGBoost機械学習モデルを実装し、がんの流行の程度を予測し、異なる特徴の重要性を評価する。 以上の結果から, 年齢, マイノリティ, 人口密度ががん罹患率に最も影響を及ぼす要因の1つであることが示唆された。 我々はさらに,グリーンスペース,先進地域,総排出量に焦点をあてて,がんの有病率を低減できる都市開発と設計戦略を探求する。 因果推論に基づく一連の実験的評価の結果, 緑地の増加と先進地域の減少, 総排出量の削減は, がんの有病率を緩和する可能性が示唆された。 この研究と知見は、都市の特徴と地域保健の相互作用をよりよく理解し、また、都市統合型デザインのための解釈可能な機械学習モデルが公衆衛生を促進する価値を示している。 この発見はまた、統合型都市デザイン戦略による都市の健康格差に対処するための多面的なアプローチの必要性を強調しながら、都市計画とデザインに効果的な洞察を提供する。

This study investigates the interplay among social demographics, built environment characteristics, and environmental hazard exposure features in determining community level cancer prevalence. Utilizing data from five Metropolitan Statistical Areas in the United States: Chicago, Dallas, Houston, Los Angeles, and New York, the study implemented an XGBoost machine learning model to predict the extent of cancer prevalence and evaluate the importance of different features. Our model demonstrates reliable performance, with results indicating that age, minority status, and population density are among the most influential factors in cancer prevalence. We further explore urban development and design strategies that could mitigate cancer prevalence, focusing on green space, developed areas, and total emissions. Through a series of experimental evaluations based on causal inference, the results show that increasing green space and reducing developed areas and total emissions could alleviate cancer prevalence. The study and findings contribute to a better understanding of the interplay among urban features and community health and also show the value of interpretable machine learning models for integrated urban design to promote public health. The findings also provide actionable insights for urban planning and design, emphasizing the need for a multifaceted approach to addressing urban health disparities through integrated urban design strategies.
翻訳日:2023-06-22 15:55:38 公開日:2023-06-20
# マルチエージェント環境における効率的な協調のための因果関係の発見

Discovering Causality for Efficient Cooperation in Multi-Agent Environments ( http://arxiv.org/abs/2306.11846v1 )

ライセンス: Link先を確認
Rafael Pina, Varuna De Silva, Corentin Artaud(参考訳) 協調的マルチエージェント強化学習(MARL)エージェントでは、共通の目標を達成するためにチームとして行動を学ぶ必要がある。 しかし、タスクを学習している間に、いくつかのエージェントは、チームの目的に寄与せず、最適化されたポリシーを学ぶことになります。 このようなエージェントは非協力的行動のため遅延剤と呼ばれ、それが報酬の原因であるかどうかを理解できないことから生じる可能性がある。 結果として、協調行動の出現は必ずしもチームとしてタスクを解決できる副産物ではないことを観察する。 本稿では,MARLにおける因果関係の応用と,MARLを用いてこれらの遅延剤をペナライズする方法について検討する。 因果推定はエージェントへの信用割当を改善するために利用でき、MARLにおける独立学習を改善するためにどのように活用できるかを示す。 さらに,marl環境における因果性検出の自動化にamortizedcausal discoveryの利用法について検討した。 その結果、個々の観察とチーム報酬の因果関係は、怠慢なエージェントを検出して処罰するために利用され、よりインテリジェントな振る舞いが発達することを示した。 これにより、チームの全体的なパフォーマンスだけでなく、個々の能力も改善されます。 さらに,MARLの因果関係を見つけるために,Amortized Causal Discoveryを効率的に利用できることが示唆された。

In cooperative Multi-Agent Reinforcement Learning (MARL) agents are required to learn behaviours as a team to achieve a common goal. However, while learning a task, some agents may end up learning sub-optimal policies, not contributing to the objective of the team. Such agents are called lazy agents due to their non-cooperative behaviours that may arise from failing to understand whether they caused the rewards. As a consequence, we observe that the emergence of cooperative behaviours is not necessarily a byproduct of being able to solve a task as a team. In this paper, we investigate the applications of causality in MARL and how it can be applied in MARL to penalise these lazy agents. We observe that causality estimations can be used to improve the credit assignment to the agents and show how it can be leveraged to improve independent learning in MARL. Furthermore, we investigate how Amortized Causal Discovery can be used to automate causality detection within MARL environments. The results demonstrate that causality relations between individual observations and the team reward can be used to detect and punish lazy agents, making them develop more intelligent behaviours. This results in improvements not only in the overall performances of the team but also in their individual capabilities. In addition, results show that Amortized Causal Discovery can be used efficiently to find causal relations in MARL.
翻訳日:2023-06-22 15:55:14 公開日:2023-06-20
# 励起状態に対する量子並列化変分量子固有解法

Quantum Parallelized Variational Quantum Eigensolvers for Excited States ( http://arxiv.org/abs/2306.11844v1 )

ライセンス: Link先を確認
Cheng-Lin Hong, Luis Colmenarez, Lexin Ding, Carlos L. Benavides-Riveros, Christian Schilling(参考訳) 分子と固体の励起状態特性の計算は、現代の電子構造理論の主要な計算課題の一つである。 量子コンピューティングの分野から最近のアイデアを組み合わせることで、量子並列性に基づくより効果的な変分量子固有解法を提案する: 様々な励起状態に対する初期ans\"atzeは、極小数のアンシラ量子ビットによって単一の純粋な状態へと構成される。 そして、対象部分空間における大域回転を最適化する。 提案手法は,励起状態の逐次計算を行うスキームに生じるエラーの漸進的蓄積を回避する。 エネルギーギャップと固有状態間の遷移振幅は直ちに抽出できる。 さらに、可変補助重みを用いることで、アルゴリズムはノイズに耐性が増し、最適化手順が大幅に単純化される。 提案アルゴリズムを実証し, 異なる分子系に対する有効性を示す。 相互作用効果は、一般化されたユニタリ結合クラスタ ans\atze によって処理され、フォック空間全体への共通の好ましくない人工的拡張が回避される。

Calculating excited-state properties of molecules and solids is one of the main computational challenges of modern electronic structure theory. By combining and advancing recent ideas from the field of quantum computing we propose a more effective variational quantum eigensolver based on quantum parallelism: Initial ans\"atze for various excited states are prepared into a single pure state through a minimal number of ancilla qubits. Then a global rotation in the targeted subspace is optimized. Our approach thus avoids the progressive accumulation of errors prone to schemes that calculate excited states successively. Energy gaps and transition amplitudes between eigenstates can immediately be extracted. Moreover, the use of variable auxiliary weights makes the algorithm more resilient to noise and greatly simplifies the optimization procedure. We showcase our algorithm and illustrate its effectiveness for different molecular systems. The interaction effects are treated through generalized unitary coupled cluster ans\"atze and, accordingly, the common unfavorable and artificial extension to the entire Fock space is circumvented.
翻訳日:2023-06-22 15:54:49 公開日:2023-06-20
# 説明不能な説明: tSNE と UMAP 埋め込みの解釈に向けて

Unexplainable Explanations: Towards Interpreting tSNE and UMAP Embeddings ( http://arxiv.org/abs/2306.11898v1 )

ライセンス: Link先を確認
Andrew Draganov and Simon Dohn(参考訳) tSNE や UMAP のようなアトラクション/反発次元減少法 (ARDR) を用いてニューラルネットワーク潜在空間を説明するのが標準となっている。 これは、2次元表現の構造がモデルの潜在空間の構造と一致するという前提に依存している。 しかし、これは証明されていない仮定であり、ARDRアルゴリズムの収束保証を知らない。 我々は,ardr法を古典次元還元法に関連付けることで,この問題の解決に取り組んでいる。 具体的には,アトラクションと反発をランダムに初期化したデータセットに印加することで,PCAの埋め込みを完全に復元できることを示す。 また、小さな変更で、LLE(Locally Linear Embeddings)がARDR埋め込みを再現できることも示している。 最後に、もし真であれば、入力分布に埋め込まれた2次元構造を属性とすることができるという一連の予想を定式化する。

It has become standard to explain neural network latent spaces with attraction/repulsion dimensionality reduction (ARDR) methods like tSNE and UMAP. This relies on the premise that structure in the 2D representation is consistent with the structure in the model's latent space. However, this is an unproven assumption -- we are unaware of any convergence guarantees for ARDR algorithms. We work on closing this question by relating ARDR methods to classical dimensionality reduction techniques. Specifically, we show that one can fully recover a PCA embedding by applying attractions and repulsions onto a randomly initialized dataset. We also show that, with a small change, Locally Linear Embeddings (LLE) can reproduce ARDR embeddings. Finally, we formalize a series of conjectures that, if true, would allow one to attribute structure in the 2D embedding back to the input distribution.
翻訳日:2023-06-22 15:48:07 公開日:2023-06-20
# 油圧機械遠隔操作のための強化学習型仮想固定器

Reinforcement Learning-based Virtual Fixtures for Teleoperation of Hydraulic Construction Machine ( http://arxiv.org/abs/2306.11897v1 )

ライセンス: Link先を確認
Hyung Joo Lee and Sigrid Brell-Cokcan(参考訳) 遠隔操作の利用は、オペレーターが遠隔地から安全に機械を制御できるため、建設業界にとって重要な側面である。 しかし、個々のジョイスティックを用いた遠隔操作は、操作者の多自由度による熟練度を達成するための広範な訓練を必要とする。 さらに、マシンの動作の検証は実行後にのみ可能であり、最適な制御が困難になる。 本研究は,タスクパフォーマンスを最適化するための強化学習に基づくアプローチを提案する。 学習を通じて獲得した制御ポリシーは、複数の関節を効率的に制御および調整するための指示を与えるために使用される。 提案手法の有効性を評価するために, 掘削孔にチゼルを挿入する典型的な施工作業において, その性能を評価することにより, brokk 170建設機械を用いてユーザ調査を行う。 提案フレームワークの有効性は,仮想フィクスチャの有無における参加者のパフォーマンスを比較して評価した。 本研究は,建設業における遠隔操作の促進に向けた枠組みの可能性を示すものである。

The utilization of teleoperation is a crucial aspect of the construction industry, as it enables operators to control machines safely from a distance. However, remote operation of these machines at a joint level using individual joysticks necessitates extensive training for operators to achieve proficiency due to their multiple degrees of freedom. Additionally, verifying the machine resulting motion is only possible after execution, making optimal control challenging. In addressing this issue, this study proposes a reinforcement learning-based approach to optimize task performance. The control policy acquired through learning is used to provide instructions on efficiently controlling and coordinating multiple joints. To evaluate the effectiveness of the proposed framework, a user study is conducted with a Brokk 170 construction machine by assessing its performance in a typical construction task involving inserting a chisel into a borehole. The effectiveness of the proposed framework is evaluated by comparing the performance of participants in the presence and absence of virtual fixtures. This study results demonstrate the proposed framework potential in enhancing the teleoperation process in the construction industry.
翻訳日:2023-06-22 15:47:52 公開日:2023-06-20
# 構造的モンジュ変位の学習コスト

Learning Costs for Structured Monge Displacements ( http://arxiv.org/abs/2306.11895v1 )

ライセンス: Link先を確認
Michal Klein, Aram-Alexandre Pooladian, Pierre Ablin, Eug\`ene Ndiaye, Jonathan Niles-Weed, Marco Cuturi(参考訳) 最適輸送理論は、サンプルから密度の間のプッシュフォワードマップを推測するいくつかのツールを機械学習に提供した。 この理論は最近、機械学習の方法論的発展が見られるが、その実践的実装は、計算と統計の両方の課題に悩まされているため、非常に難しい。 このような困難のため、既存のアプローチでは、単純な二乗-ユークリッド距離を地上コストとして推定するデフォルトの選択肢である$c(x,y)=\|x-y\|^2_2$ から外れることは滅多にない。 この作業では,設計された特徴に沿ったトランスポートポイントにマップを奨励する適切なコスト構造として,‘emph{learning}’というモチベーションを伴って,異なる経路をたどる。 我々は最近提案されたMonge-Bregman-Occam Pipeline~\citep{cuturi2023monge} を拡張し、コスト不変の $c(x,y)=h(x-y)$ という別のコスト定式化にもとづくが、より一般的な形式を $h=\tfrac 12 \ell_2^2+\tau$ とする。 まず,このような構造的コストに対する基底真理輸送を生成するために,近似勾配降下に基づく手法を提案し,その概念は$h$-transforms と $h$-concave potentials である。 より一般に、そのような手法はエントロピーポテンシャルの$h$-transformsを計算するために拡張可能であることを示す。 低次元空間における移動変位を促進する正則化子について検討し、スティフェル多様体上のリーマン勾配降下を用いてその基底変化を学ぶことを提案する。 これらの変化は、より堅牢で容易に解釈できる推定器につながることを示す。

Optimal transport theory has provided machine learning with several tools to infer a push-forward map between densities from samples. While this theory has recently seen tremendous methodological developments in machine learning, its practical implementation remains notoriously difficult, because it is plagued by both computational and statistical challenges. Because of such difficulties, existing approaches rarely depart from the default choice of estimating such maps with the simple squared-Euclidean distance as the ground cost, $c(x,y)=\|x-y\|^2_2$. We follow a different path in this work, with the motivation of \emph{learning} a suitable cost structure to encourage maps to transport points along engineered features. We extend the recently proposed Monge-Bregman-Occam pipeline~\citep{cuturi2023monge}, that rests on an alternative cost formulation that is also cost-invariant $c(x,y)=h(x-y)$, but which adopts a more general form as $h=\tfrac12 \ell_2^2+\tau$, where $\tau$ is an appropriately chosen regularizer. We first propose a method that builds upon proximal gradient descent to generate ground truth transports for such structured costs, using the notion of $h$-transforms and $h$-concave potentials. We show more generally that such a method can be extended to compute $h$-transforms for entropic potentials. We study a regularizer that promotes transport displacements in low-dimensional spaces, and propose to learn such a basis change using Riemannian gradient descent on the Stiefel manifold. We show that these changes lead to estimators that are more robust and easier to interpret.
翻訳日:2023-06-22 15:47:31 公開日:2023-06-20
# ナノ粒子間の非エルミタン光結合の量子理論

Quantum theory of non-hermitian optical binding between nanoparticles ( http://arxiv.org/abs/2306.11893v1 )

ライセンス: Link先を確認
Henning Rudolph, Uro\v{s} Deli\'c, Klaus Hornberger, and Benjamin A. Stickler(参考訳) 最近の実験では、光学結合による浮遊ナノ粒子間の高度に調整可能な非相反結合を示す[rieser et al., science 377, 987 (2022)]。 ナノ粒子を量子状態に冷却する最近の実験で、散乱したツイーザー光子によって誘起される力とトルクを介して相互作用する小さな誘電体物体の量子論を発展させる。 相互作用は基本的に非エルミート的であり、相関量子ノイズを伴う。 対応するマルコフ量子マスター方程式を示し、非相互結合と一方向結合への到達方法を示し、光学結合の特異な量子署名を同定する。 我々の研究は、非相互結合ナノ粒子アレイのリッチ量子物理学を探索し、活用するための理論的ツールを提供する。

Recent experiments demonstrate highly tunable non-reciprocal coupling between levitated nanoparticles due to optical binding [Rieser et al., Science 377, 987 (2022)]. In view of recent experiments cooling nanoparticles to the quantum regime, we here develop the quantum theory of small dielectric objects interacting via the forces and torques induced by scattered tweezer photons. The interaction is fundamentally non-hermitian and accompanied by correlated quantum noise. We present the corresponding Markovian quantum master equation, show how to reach non-reciprocal and unidirectional coupling, and identify unique quantum signatures of optical binding. Our work provides the theoretical tools for exploring and exploiting the rich quantum physics of non-reciprocally coupled nanoparticle arrays.
翻訳日:2023-06-22 15:46:36 公開日:2023-06-20
# 農業NLPの新しいフロンティアを探る:食品用大規模言語モデルの可能性を探る

Exploring New Frontiers in Agricultural NLP: Investigating the Potential of Large Language Models for Food Applications ( http://arxiv.org/abs/2306.11892v1 )

ライセンス: Link先を確認
Saed Rezayi, Zhengliang Liu, Zihao Wu, Chandra Dhakal, Bao Ge, Haixing Dai, Gengchen Mai, Ninghao Liu, Chen Zhen, Tianming Liu, Sheng Li(参考訳) 本稿では,トランスフォーマーに基づく言語モデルの事前学習において,食品関連テキストコーパスを用いた農業自然言語処理の新たなフロンティアについて検討する。 特に,食品記述と栄養データとのマッピングの確立に関わるセマンティックマッチングの課題に着目する。 これを実現するために、我々は、FoodOnオントロジーのような外部の知識源を利用して、事前訓練されたトランスフォーマーベースの言語モデルであるAgriBERTをこのタスクで微調整する。 農業NLPの分野を前進させるために,(1)GPTモデルをベースラインとして活用すること,(2)ChatGPTを外部知識源として活用すること,の2つの新たな探索方法を提案する。 chatgptは多くのnlpタスクにおいて強力なベースラインであることが示されており、セマンティックマッチングのタスクにおいて私たちのモデルを改善する可能性があり、私たちのモデルが食べ物に関連した概念と関係について理解を深める可能性があると考えています。 さらに、食品成分に基づく料理予測などの他の応用を実験し、セマンティックマッチングを超えた他のNLPタスクを含む研究の範囲を広げる。 本論文は,農業用NLPアプリケーションの性能向上に寄与する可能性を秘め,今後の研究に期待できる道筋を提供する。

This paper explores new frontiers in agricultural natural language processing by investigating the effectiveness of using food-related text corpora for pretraining transformer-based language models. In particular, we focus on the task of semantic matching, which involves establishing mappings between food descriptions and nutrition data. To accomplish this, we fine-tune a pre-trained transformer-based language model, AgriBERT, on this task, utilizing an external source of knowledge, such as the FoodOn ontology. To advance the field of agricultural NLP, we propose two new avenues of exploration: (1) utilizing GPT-based models as a baseline and (2) leveraging ChatGPT as an external source of knowledge. ChatGPT has shown to be a strong baseline in many NLP tasks, and we believe it has the potential to improve our model in the task of semantic matching and enhance our model's understanding of food-related concepts and relationships. Additionally, we experiment with other applications, such as cuisine prediction based on food ingredients, and expand the scope of our research to include other NLP tasks beyond semantic matching. Overall, this paper provides promising avenues for future research in this field, with potential implications for improving the performance of agricultural NLP applications.
翻訳日:2023-06-22 15:46:05 公開日:2023-06-20
# SPRINT: 言語指導によるスケーラブルなポリシ事前トレーニング

SPRINT: Scalable Policy Pre-Training via Language Instruction Relabeling ( http://arxiv.org/abs/2306.11886v1 )

ライセンス: Link先を確認
Jesse Zhang and Karl Pertsch and Jiahui Zhang and Joseph J. Lim(参考訳) 豊富なスキルを備えた事前学習ロボットポリシーは、下流タスクの学習を効果的に促進することができる。 以前の作業では、自然言語命令による事前学習タスクを定義していたが、そのためには数十万の命令による退屈な人間のアノテーションが必要になる。 そこで本稿では,多様なスキルセットの事前学習に必要な人的労力を大幅に削減する,スケーラブルなオフラインポリシ事前学習アプローチであるSPRINTを提案する。 提案手法では,大規模言語モデルによる命令レバーベリングと,オフライン強化学習によるクロストラックスキルチェーンという,事前学習タスクのベースセットを自動的に拡張する。 その結果、SPRINTは、よりリッチなスキルのレパートリーを持つロボットを事前訓練する。 家庭内シミュレータと実際のロボットキッチン操作タスクにおける実験結果は、スプリントが以前の事前トレーニングアプローチよりも、新たなロングホライゾンタスクの学習をかなり速くすることを示している。 website at https://clvrai.com/sprint.com

Pre-training robot policies with a rich set of skills can substantially accelerate the learning of downstream tasks. Prior works have defined pre-training tasks via natural language instructions, but doing so requires tedious human annotation of hundreds of thousands of instructions. Thus, we propose SPRINT, a scalable offline policy pre-training approach which substantially reduces the human effort needed for pre-training a diverse set of skills. Our method uses two core ideas to automatically expand a base set of pre-training tasks: instruction relabeling via large language models and cross-trajectory skill chaining through offline reinforcement learning. As a result, SPRINT pre-training equips robots with a much richer repertoire of skills. Experimental results in a household simulator and on a real robot kitchen manipulation task show that SPRINT leads to substantially faster learning of new long-horizon tasks than previous pre-training approaches. Website at https://clvrai.com/sprint.
翻訳日:2023-06-22 15:45:24 公開日:2023-06-20
# 強化学習における拡散過程による逆整形

Reward Shaping via Diffusion Process in Reinforcement Learning ( http://arxiv.org/abs/2306.11885v1 )

ライセンス: Link先を確認
Peeyush Kumar(参考訳) 強化学習(RL)モデルは、不確実なマルコフ決定プロセス(MDP)におけるエクスプロイトのトレードオフをナビゲートするために、継続的に進化してきた。 本研究では,確率的熱力学とシステム力学の原理を活用し,拡散過程による報酬形成を探求する。 これは探査と探索のトレードオフを考える方法としてエレガントなフレームワークを提供する。 本稿では,情報エントロピー,確率システムダイナミクス,およびエントロピー生成への影響について考察する。 この調査により、効率的なポリシーを導出するための最大エントロピープログラムか、情報コストと利益を考慮した修正コスト最適化プログラムのいずれかとして解釈できるデュアルプロングフレームワークを構築することができる。 本研究は,mdpにおける情報の物理的性質とそのオンライン学習への意味に関する新たな視点を示し,rlにおける情報指向定式化の理解を深める。

Reinforcement Learning (RL) models have continually evolved to navigate the exploration - exploitation trade-off in uncertain Markov Decision Processes (MDPs). In this study, I leverage the principles of stochastic thermodynamics and system dynamics to explore reward shaping via diffusion processes. This provides an elegant framework as a way to think about exploration-exploitation trade-off. This article sheds light on relationships between information entropy, stochastic system dynamics, and their influences on entropy production. This exploration allows us to construct a dual-pronged framework that can be interpreted as either a maximum entropy program for deriving efficient policies or a modified cost optimization program accounting for informational costs and benefits. This work presents a novel perspective on the physical nature of information and its implications for online learning in MDPs, consequently providing a better understanding of information-oriented formulations in RL.
翻訳日:2023-06-22 15:45:09 公開日:2023-06-20
# 分散型未来を守る:共通ブロックチェーン攻撃とその対策の探求

Protecting the Decentralized Future: An Exploration of Common Blockchain Attacks and their Countermeasures ( http://arxiv.org/abs/2306.11884v1 )

ライセンス: Link先を確認
Bilash Saha, Md Mehedi Hasan, Nafisa Anjum, Sharaban Tahora, Aiasha Siddika, Hossain Shahriar(参考訳) ブロックチェーン技術は、暗号通貨やサプライチェーン管理など、さまざまな産業にわたるデータセキュリティのための透明でセキュアで分散化されたプラットフォームを提供することで、デジタルの領域を変革した。 ブロックチェーンの完全性と信頼性は、サイバー犯罪者をターゲットとするセキュリティの脅威の増加によって損なわれています。 提案された修正を要約することで、この研究はブロックチェーン攻撃の緩和に関する詳細な分析を提供することを目指している。 論文の目的は、弱いブロックチェーン攻撃の特定、さまざまなソリューションの評価、これらの攻撃の防止における効果と効果の判定である。 この調査はまた、ブロックチェーンアプリケーションのニーズを考慮に入れることがいかに重要かを強調している。 この研究は、ブロックチェーン研究者や実践者にとって有益な視点と洞察を提供し、ブロックチェーンセキュリティ研究の現在および将来のトレンドに関心を持つ人々にとって重要な読書となる。

Blockchain technology transformed the digital sphere by providing a transparent, secure, and decentralized platform for data security across a range of industries, including cryptocurrencies and supply chain management. Blockchain's integrity and dependability have been jeopardized by the rising number of security threats, which have attracted cybercriminals as a target. By summarizing suggested fixes, this research aims to offer a thorough analysis of mitigating blockchain attacks. The objectives of the paper include identifying weak blockchain attacks, evaluating various solutions, and determining how effective and effective they are at preventing these attacks. The study also highlights how crucial it is to take into account the particular needs of every blockchain application. This study provides beneficial perspectives and insights for blockchain researchers and practitioners, making it essential reading for those interested in current and future trends in blockchain security research.
翻訳日:2023-06-22 15:44:52 公開日:2023-06-20
# メタ分散モデリングによるオープンドメインテキスト評価

Open-Domain Text Evaluation via Meta Distribution Modeling ( http://arxiv.org/abs/2306.11879v1 )

ライセンス: Link先を確認
Sidi Lu and Asli Celikyilmaz and Tianlu Wang and Nanyun Peng(参考訳) 大規模事前学習言語モデル(LLM)を利用したオープンドメインテキスト生成モデルの最近の進歩は、目覚ましい性能を実現している。 しかし、BLEU、ROUGE、METEORといった従来の基準ベースのメトリクスは、オープンな生成タスクには不十分であるため、これらのモデルの評価と制御は依然として課題である。 同様に、訓練可能な判別子ベースの評価基準は期待できるが、高品質なトレーニングデータを得るのは簡単な作業ではない。 本稿では,オープンドメイン生成(Meta-Distribution Methods, MDM)を評価する新しい手法を提案する。 MDMは、上昇するパラメータ数とLLMの性能改善の相関関係に基づいて、2つの確率分布(それぞれが他方よりも優れていることが知られている)の対比から、メタ分布の分布と見なせる品質指標へのマッピングを生成する。 オープンドメインテキスト生成評価のためのMDMを2つのパラダイムで検討する。 1) メタ分散法を活用し、識別器に基づくメトリクスを訓練するためのドメイン内負のサンプルを生成する \emph{generative} mdm。 2) MDMは2つの言語モデル間の分布の相違を直接用いて評価を行う。 抽象的な要約における多ターン対話と事実性に関する実験により、MDMは既存のタスクの自動評価指標よりも人間の判断と相関し、これらの手法の強い性能と一般化性を強調した。

Recent advances in open-domain text generation models powered by large pre-trained language models (LLMs) have achieved remarkable performance. However, evaluating and controlling these models for desired attributes remains a challenge, as traditional reference-based metrics such as BLEU, ROUGE, and METEOR are insufficient for open-ended generation tasks. Similarly, while trainable discriminator-based evaluation metrics show promise, obtaining high-quality training data is a non-trivial task. In this paper, we introduce a novel approach to evaluate open-domain generation - the Meta-Distribution Methods (MDM). Drawing on the correlation between the rising parameter counts and the improving performance of LLMs, MDM creates a mapping from the contrast of two probabilistic distributions -- one known to be superior to the other -- to quality measures, which can be viewed as a distribution of distributions i.e. Meta-Distribution. We investigate MDM for open-domain text generation evaluation under two paradigms: 1) \emph{Generative} MDM, which leverages the Meta-Distribution Methods to generate in-domain negative samples for training discriminator-based metrics; 2) \emph{Discriminative} MDM, which directly uses distribution discrepancies between two language models for evaluation. Our experiments on multi-turn dialogue and factuality in abstractive summarization demonstrate that MDMs correlate better with human judgment than existing automatic evaluation metrics on both tasks, highlighting the strong performance and generalizability of such methods.
翻訳日:2023-06-22 15:44:38 公開日:2023-06-20
# BMAD: 医学的異常検出のためのベンチマーク

BMAD: Benchmarks for Medical Anomaly Detection ( http://arxiv.org/abs/2306.11876v1 )

ライセンス: Link先を確認
Jinan Bao, Hanshi Sun, Hanqiu Deng, Yinsheng He, Zhaoxiang Zhang, Xingyu Li(参考訳) 異常検出(AD)は、機械学習とコンピュータビジョンの基本的な研究課題であり、産業検査、ビデオ監視、医療診断に実用化されている。 医用画像では、ADはまれな疾患や病態を示す可能性のある異常の検出と診断に特に重要である。 しかし、医療画像上でADメソッドを評価するための普遍的で公平なベンチマークが欠如しており、この特定の領域におけるより一般化された、堅牢なADメソッドの開発を妨げる。 このギャップを埋めるために,医療画像における異常検出手法を評価するための総合評価ベンチマークを提案する。 このベンチマークは、5つの医学領域(脳MRI、肝CT、網膜OCT、胸部X線、デジタル病理学)から6つの再構成データセットと3つの重要な評価指標を含み、合計14の最先端ADアルゴリズムを含んでいる。 本ベンチマークは,最近提案された異常検出手法の総合的な比較を可能にする。 これは、コミュニティが公正な比較を行い、医療画像のAD分野を前進させることを促す。 BMADの詳細はGitHubリポジトリで確認できます。

Anomaly detection (AD) is a fundamental research problem in machine learning and computer vision, with practical applications in industrial inspection, video surveillance, and medical diagnosis. In medical imaging, AD is especially vital for detecting and diagnosing anomalies that may indicate rare diseases or conditions. However, there is a lack of a universal and fair benchmark for evaluating AD methods on medical images, which hinders the development of more generalized and robust AD methods in this specific domain. To bridge this gap, we introduce a comprehensive evaluation benchmark for assessing anomaly detection methods on medical images. This benchmark encompasses six reorganized datasets from five medical domains (i.e. brain MRI, liver CT, retinal OCT, chest X-ray, and digital histopathology) and three key evaluation metrics, and includes a total of fourteen state-of-the-art AD algorithms. This standardized and well-curated medical benchmark with the well-structured codebase enables comprehensive comparisons among recently proposed anomaly detection methods. It will facilitate the community to conduct a fair comparison and advance the field of AD on medical imaging. More information on BMAD is available in our GitHub repository: https://github.com/DorisBao/BMAD
翻訳日:2023-06-22 15:44:13 公開日:2023-06-20
# Adaptive Ensemble Q-learning: エラーフィードバックによる推定バイアスの最小化

Adaptive Ensemble Q-learning: Minimizing Estimation Bias via Error Feedback ( http://arxiv.org/abs/2306.11918v1 )

ライセンス: Link先を確認
Hang Wang, Sen Lin, Junshan Zhang(参考訳) アンサンブル法は,複数の関数近似器を用いて動作値を推定するQラーニングにおける過大評価問題を緩和する,有望な手法である。 推定バイアスは、アンサンブルサイズ(すなわち、ターゲットで使用されるQ関数近似器の数)に大きく依存し、学習過程における関数近似誤差の時間的特性のため、'右'アンサンブルサイズを決定することは極めて非自明であることが知られている。 この課題に取り組むために、まず、アンサンブルサイズがほぼゼロになるように適応した推定バイアスの上界及び下界を導出し、それに従って時間変動近似誤差の影響に対処する。 本研究の目的は, モデル同定適応制御(MIAC, Model Identification Adaptive Control)と組み合わせて, 効果的アンサンブルサイズを適応させることである。 具体的には、2つの重要なステップを持つ一般化アンサンブル法である適応アンサンブルq-learning(adaeq)を考案する。 (a)アンサンブルサイズを柔軟に制御するためのフィードバックとして機能する近似誤差のキャラクタリゼーション (b)推定バイアスを最小化するためのアンサンブルサイズ適応。 AdaEQ が MuJoCo ベンチマークの既存手法よりも学習性能を向上できることを示す大規模な実験を行った。

The ensemble method is a promising way to mitigate the overestimation issue in Q-learning, where multiple function approximators are used to estimate the action values. It is known that the estimation bias hinges heavily on the ensemble size (i.e., the number of Q-function approximators used in the target), and that determining the `right' ensemble size is highly nontrivial, because of the time-varying nature of the function approximation errors during the learning process. To tackle this challenge, we first derive an upper bound and a lower bound on the estimation bias, based on which the ensemble size is adapted to drive the bias to be nearly zero, thereby coping with the impact of the time-varying approximation errors accordingly. Motivated by the theoretic findings, we advocate that the ensemble method can be combined with Model Identification Adaptive Control (MIAC) for effective ensemble size adaptation. Specifically, we devise Adaptive Ensemble Q-learning (AdaEQ), a generalized ensemble method with two key steps: (a) approximation error characterization which serves as the feedback for flexibly controlling the ensemble size, and (b) ensemble size adaptation tailored towards minimizing the estimation bias. Extensive experiments are carried out to show that AdaEQ can improve the learning performance than the existing methods for the MuJoCo benchmark.
翻訳日:2023-06-22 15:38:23 公開日:2023-06-20
# 光源の超感度分離推定

Ultra-sensitive separation estimation of optical sources ( http://arxiv.org/abs/2306.11916v1 )

ライセンス: Link先を確認
Cl\'ementine Rouvi\`ere, David Barral, Antonin Grateau, Ilya Karuseichyk, Giacomo Sorelli, Mattia Walschaers, and Nicolas Treps(参考訳) 歴史的に、光学イメージングシステムの解像度は回折によって決定され、レイリー基準は長い間、許容できない限界と見なされていた。 超解像顕微鏡では、この限界は物体の放射特性を操作することで克服される。 しかし、受動的イメージングでは、ソースが制御されていない場合、サブレイリー分解に達することは依然として課題である。 ここでは、2つの非コヒーレントソース間の分離を推定し、レイリー限界を超える5桁の感度を達成するために量子力学に着想を得たアプローチを実装した。 空間モードデマルチプレクサを用いて,hermite-gaussに基づくインテンシティ測定により,明るくかすかな光源を持つシーンを調べる。 広範囲にわたる分離の感度と精度を分析し, サブレイリー分離推定におけるデマルチプレキシングの顕著な効果を実証した。 これらの結果は、パッシブイメージングのレイリー限界を効果的に時代遅れにする。

Historically, the resolution of optical imaging systems was dictated by diffraction, and the Rayleigh criterion was long considered an unsurpassable limit. In superresolution microscopy, this limit is overcome by manipulating the emission properties of the object. However, in passive imaging, when sources are uncontrolled, reaching sub-Rayleigh resolution remains a challenge. Here, we implement a quantum-metrolgy-inspired approach for estimating the separation between two incoherent sources, achieving a sensitivity five orders of magnitude beyond the Rayleigh limit. Using a spatial mode demultiplexer, we examine scenes with bright and faint sources, through intensity measurements in the Hermite-Gauss basis. Analysing sensitivity and accuracy over an extensive range of separations, we demonstrate the remarkable effectiveness of demultiplexing for sub-Rayleigh separation estimation. These results effectively render the Rayleigh limit obsolete for passive imaging.
翻訳日:2023-06-22 15:37:57 公開日:2023-06-20
# グラフ分類のための構造対応ロバスト性証明書

Structure-Aware Robustness Certificates for Graph Classification ( http://arxiv.org/abs/2306.11915v1 )

ライセンス: Link先を確認
Pierre Osselin, Henry Kenlay and Xiaowen Dong(参考訳) グラフベースの機械学習モデルの堅牢性を証明することは、安全性にとって重要な課題である。 グラフ分類器の現在の堅牢性証明は、ノード対のフリップの総数(エッジ加算またはエッジ削除)に関して出力不変性を保証する。 理論的には魅力的ではあるが、そのような等方性構造ノイズは、いくつかのノード対が他のノードよりも重要な場合、分類器の出力を決定する場合に制限的すぎる可能性がある。 この場合、証明書はグラフモデルの堅牢性に関する悲観的な描写を与える。 この問題に対処するため,入力グラフ構造に異方性雑音分布を付加したランダムな平滑化手法を開発した。 我々のプロセスは、分類器のための構造認識証明書を生成し、これにより、グラフの様々な事前定義された構造に対して、ロバスト性証明書の規模が変化することを示す。 我々は,これらの証明書の利点を合成実験と実世界実験の両方で実証する。

Certifying the robustness of a graph-based machine learning model poses a critical challenge for safety. Current robustness certificates for graph classifiers guarantee output invariance with respect to the total number of node pair flips (edge addition or edge deletion), which amounts to an $l_{0}$ ball centred on the adjacency matrix. Although theoretically attractive, this type of isotropic structural noise can be too restrictive in practical scenarios where some node pairs are more critical than others in determining the classifier's output. The certificate, in this case, gives a pessimistic depiction of the robustness of the graph model. To tackle this issue, we develop a randomised smoothing method based on adding an anisotropic noise distribution to the input graph structure. We show that our process generates structural-aware certificates for our classifiers, whereby the magnitude of robustness certificates can vary across different pre-defined structures of the graph. We demonstrate the benefits of these certificates in both synthetic and real-world experiments.
翻訳日:2023-06-22 15:37:43 公開日:2023-06-20
# ランダム化量子化は、フェデレーション学習における差分プライバシーに必要なもの

Randomized Quantization is All You Need for Differential Privacy in Federated Learning ( http://arxiv.org/abs/2306.11913v1 )

ライセンス: Link先を確認
Yeojoon Youn, Zihao Hu, Juba Ziani, Jacob Abernethy(参考訳) フェデレートラーニング(FL)は、マシンモデルを分散的に学習するための一般的かつ実践的なフレームワークである。 この分散化アプローチの背後にある主な動機は、データプライバシであり、学習者が各ローカルソース自身のデータを見ることはない。 ひとつはサーバと多数のデータソースの間の潜在的に複雑なモデル更新を扱うことであり、もうひとつは、非分散化が実際には、ローカル更新自体がソースのデータに関する情報を明らかにすることができるため、プライバシに不十分である可能性があることだ。 これらの問題に対処するために、量子化と差分プライバシーを組み合わせた連合学習のアプローチを検討する。 プライバシーの欠如 連合学習は、しばしばコミュニケーションの複雑さを減らすために量子化に依存する。 このアプローチに基づいて,2段階のランダム化によってプライバシを取得する新しいアルゴリズムである \textbf{r}andomized \textbf{q}uantization \textbf{m}echanism (rqm) を開発した。 より正確には、ランダムにサブサンプル化可能な量子化レベルを使用し、次にこれらのサブサンプル化離散化レベルを用いてランダム化されたラウンドリング手順を用いる。 結果が「Renyi差分プライバシー」(Renyi DP)を維持していることを確認できます。 提案アルゴリズムの性能を実証的に研究し,従来の研究と比較すると,DPフェデレーション学習におけるプライバシー-正確性トレードオフの改善が示されている。 我々の知る限りでは、フェデレート学習システムにおけるRenyi DP保証を達成するために、明示的な離散ノイズを含まないランダム化量子化のみに依存する最初の研究である。

Federated learning (FL) is a common and practical framework for learning a machine model in a decentralized fashion. A primary motivation behind this decentralized approach is data privacy, ensuring that the learner never sees the data of each local source itself. Federated learning then comes with two majors challenges: one is handling potentially complex model updates between a server and a large number of data sources; the other is that de-centralization may, in fact, be insufficient for privacy, as the local updates themselves can reveal information about the sources' data. To address these issues, we consider an approach to federated learning that combines quantization and differential privacy. Absent privacy, Federated Learning often relies on quantization to reduce communication complexity. We build upon this approach and develop a new algorithm called the \textbf{R}andomized \textbf{Q}uantization \textbf{M}echanism (RQM), which obtains privacy through a two-levels of randomization. More precisely, we randomly sub-sample feasible quantization levels, then employ a randomized rounding procedure using these sub-sampled discrete levels. We are able to establish that our results preserve ``Renyi differential privacy'' (Renyi DP). We empirically study the performance of our algorithm and demonstrate that compared to previous work it yields improved privacy-accuracy trade-offs for DP federated learning. To the best of our knowledge, this is the first study that solely relies on randomized quantization without incorporating explicit discrete noise to achieve Renyi DP guarantees in Federated Learning systems.
翻訳日:2023-06-22 15:37:26 公開日:2023-06-20
# 依存的検閲のためのコプラ型深部生存モデル

Copula-Based Deep Survival Models for Dependent Censoring ( http://arxiv.org/abs/2306.11912v1 )

ライセンス: Link先を確認
Ali Hossein Gharari Foomani, Michael Cooper, Russell Greiner, Rahul G. Krishnan(参考訳) サバイバルデータセットは、一連のインスタンス(例:患者)を記述し、それぞれに、事象(例:死)までの時間または検閲時間(例:フォローアップで失われると、そのイベントまでの期間の上限が低くなる)を提供する。 このようなデータから学習することで、新しいインスタンスに対して個別の生存分布を生成できる予測モデルを構築する。 多くの現代の生存予測法では、事象と検閲された分布がインスタンスの共変量に対して独立条件であると暗黙的に仮定している。 本稿では, 条件付き独立性の仮定を緩和することにより, 現代の非線形生存分析を拡張するパラメトリックモデルを提案する。 合成データと半合成データでは,データに条件付き独立性を仮定する標準よりも生存確率分布の推定が有意に向上する。

A survival dataset describes a set of instances (e.g. patients) and provides, for each, either the time until an event (e.g. death), or the censoring time (e.g. when lost to follow-up - which is a lower bound on the time until the event). We consider the challenge of survival prediction: learning, from such data, a predictive model that can produce an individual survival distribution for a novel instance. Many contemporary methods of survival prediction implicitly assume that the event and censoring distributions are independent conditional on the instance's covariates - a strong assumption that is difficult to verify (as we observe only one outcome for each instance) and which can induce significant bias when it does not hold. This paper presents a parametric model of survival that extends modern non-linear survival analysis by relaxing the assumption of conditional independence. On synthetic and semi-synthetic data, our approach significantly improves estimates of survival distributions compared to the standard that assumes conditional independence in the data.
翻訳日:2023-06-22 15:36:54 公開日:2023-06-20
# LNL+K:雑音ラベルによる学習と音源分布知識

LNL+K: Learning with Noisy Labels and Noise Source Distribution Knowledge ( http://arxiv.org/abs/2306.11911v1 )

ライセンス: Link先を確認
Siqi Wang and Bryan A. Plummer(参考訳) ノイズラベル(LNL)を用いた学習は、モデルがノイズラベルを記憶する傾向があるため、過度に適合する可能性があるため、難しい。 多くのLNL法は各カテゴリのサンプル間の類似性を最大化することでクリーンサンプルを検出するが、ノイズ源の仮定は一切ない。 しかし、ノイズラベルの潜在的な情報源については、しばしばある程度の知識がある。 例えば、チーターと誤記された画像は、視覚的類似性から海馬よりもヒョウである可能性が高い。 そこで我々は,LNL+K(Learning with Noisy Labels and noise source distribution Knowledge)と呼ばれる新しいタスクを導入する。 この推定を行うことで、ラベルノイズとカテゴリ間のハードネガティブを区別する手法がより優れている。 さらに、LNLタスクのために開発されたほとんどのメソッドの重要な前提を破る設定である、ほとんどのサンプルをノイズが表現できるデータセットを探索することができる。 本研究では,ノイズ源の知識を3種類のデータセットと3種類のノイズにまたがって最先端の lnl 法に統合するベースライン lnl+k 法について検討し,非適応法と比較して5~15%の性能向上を報告した。 批判的に、LNL法はすべての設定においてうまく一般化せず、LNL+Kタスクを直接探索することの重要性を強調している。

Learning with noisy labels (LNL) is challenging as the model tends to memorize noisy labels, which can lead to overfitting. Many LNL methods detect clean samples by maximizing the similarity between samples in each category, which does not make any assumptions about likely noise sources. However, we often have some knowledge about the potential source(s) of noisy labels. For example, an image mislabeled as a cheetah is more likely a leopard than a hippopotamus due to their visual similarity. Thus, we introduce a new task called Learning with Noisy Labels and noise source distribution Knowledge (LNL+K), which assumes we have some knowledge about likely source(s) of label noise that we can take advantage of. By making this presumption, methods are better equipped to distinguish hard negatives between categories from label noise. In addition, this enables us to explore datasets where the noise may represent the majority of samples, a setting that breaks a critical premise of most methods developed for the LNL task. We explore several baseline LNL+K approaches that integrate noise source knowledge into state-of-the-art LNL methods across three diverse datasets and three types of noise, where we report a 5-15% boost in performance compared with the unadapted methods. Critically, we find that LNL methods do not generalize well in every setting, highlighting the importance of directly exploring our LNL+K task.
翻訳日:2023-06-22 15:36:36 公開日:2023-06-20
# 固定点木を用いた一般化ランダム林の促進

Accelerating Generalized Random Forests with Fixed-Point Trees ( http://arxiv.org/abs/2306.11908v1 )

ライセンス: Link先を確認
David Fleischer and David A. Stephens and Archer Yang(参考訳) 一般化ランダム林 arXiv:1610.01271 は、不均一な推定方程式の局所解を推定するための柔軟で強力な非パラメトリック法を提供するために、従来の森林(Breiman, 2001)の成功に基づいて構築される。 ランダムフォレストを適応的なカーネル重み付けアルゴリズムとして利用して推定を行い、勾配に基づく木成長手法により実装する。 By expressing this gradient-based approximation as being induced from a single Newton-Raphson root-finding iteration, and drawing upon the connection between estimating equations and fixed-point problems arXiv:2110.11074, we propose a new tree-growing rule for generalized random forests induced from a fixed-point iteration type of approximation, enabling gradient-free optimization, and yielding substantial time savings for tasks involving even modest dimensionality of the target quantity (e.g. multiple/multi-level treatment effects). 固定点分割則により樹木が成長した森林から得られる推定値に対する漸近的理論を開発し, よりコストのかかる勾配法則から得られた推定値に匹敵する推定値を示す数値シミュレーションを行った。

Generalized random forests arXiv:1610.01271 build upon the well-established success of conventional forests (Breiman, 2001) to offer a flexible and powerful non-parametric method for estimating local solutions of heterogeneous estimating equations. Estimators are constructed by leveraging random forests as an adaptive kernel weighting algorithm and implemented through a gradient-based tree-growing procedure. By expressing this gradient-based approximation as being induced from a single Newton-Raphson root-finding iteration, and drawing upon the connection between estimating equations and fixed-point problems arXiv:2110.11074, we propose a new tree-growing rule for generalized random forests induced from a fixed-point iteration type of approximation, enabling gradient-free optimization, and yielding substantial time savings for tasks involving even modest dimensionality of the target quantity (e.g. multiple/multi-level treatment effects). We develop an asymptotic theory for estimators obtained from forests whose trees are grown through the fixed-point splitting rule, and provide numerical simulations demonstrating that the estimators obtained from such forests are comparable to those obtained from the more costly gradient-based rule.
翻訳日:2023-06-22 15:36:10 公開日:2023-06-20
# Deep Fusion: 事前訓練によるネットワークトレーニングの効率化

Deep Fusion: Efficient Network Training via Pre-trained Initializations ( http://arxiv.org/abs/2306.11903v1 )

ライセンス: Link先を確認
Hanna Mazzawi, Xavi Gonzalvo, Michael Wunder(参考訳) 近年、ディープラーニングは様々な分野において顕著な進歩を遂げており、特に自然言語処理タスクに顕著な影響を与えている。 ディープニューラルネットワークのトレーニングに関わる課題のひとつは、大量の計算リソースと時間を必要とすることだ。 本稿では,より小規模なネットワークの初期化を事前学習するネットワークトレーニング手法であるDeep Fusionを提案する。 % では,Deep Fusion がトレーニングプロセスを加速し,計算要求を低減し,様々な NLP タスクや T5 モデルサイズでの一般化性能の向上につながることを示す。 % 実験の結果,Deep Fusion は従来の訓練手法の維持,あるいは超過しながら,訓練時間と資源消費を削減するための実用的で効果的な手法であることがわかった。

In recent years, deep learning has made remarkable progress in a wide range of domains, with a particularly notable impact on natural language processing tasks. One of the challenges associated with training deep neural networks is the need for large amounts of computational resources and time. In this paper, we present Deep Fusion, an efficient approach to network training that leverages pre-trained initializations of smaller networks. % We show that Deep Fusion accelerates the training process, reduces computational requirements, and leads to improved generalization performance on a variety of NLP tasks and T5 model sizes. % Our experiments demonstrate that Deep Fusion is a practical and effective approach to reduce the training time and resource consumption while maintaining, or even surpassing, the performance of traditional training methods.
翻訳日:2023-06-22 15:35:51 公開日:2023-06-20
# 感情負荷マイクロブログテキストの中国語・英語機械翻訳の評価:感情翻訳の品質評価のための注釈付きデータセット

Evaluation of Chinese-English Machine Translation of Emotion-Loaded Microblog Texts: A Human Annotated Dataset for the Quality Assessment of Emotion Translation ( http://arxiv.org/abs/2306.11900v1 )

ライセンス: Link先を確認
Shenbin Qian, Constantin Orasan, Felix do Carmo, Qiuliang Li, Diptesh Kanojia(参考訳) 本稿では,既存の機械翻訳(MT)ツールが,Google Translateの出力を評価することで,感情に負荷をかけたテキストの翻訳にどのように作用するかに着目した。 本稿では,Multidimensional Quality Metrics(MQM)に基づく評価フレームワークを提案し,MT出力の詳細な誤差解析を行う。 分析の結果,MT出力の約50%は元の感情を保たないことがわかった。 誤りをさらに分析した結果,多義語,否定語,省略語などの言語現象が,これらの翻訳誤りの原因となることが判明した。

In this paper, we focus on how current Machine Translation (MT) tools perform on the translation of emotion-loaded texts by evaluating outputs from Google Translate according to a framework proposed in this paper. We propose this evaluation framework based on the Multidimensional Quality Metrics (MQM) and perform a detailed error analysis of the MT outputs. From our analysis, we observe that about 50% of the MT outputs fail to preserve the original emotion. After further analysis of the errors, we find that emotion carrying words and linguistic phenomena such as polysemous words, negation, abbreviation etc., are common causes for these translation errors.
翻訳日:2023-06-22 15:35:40 公開日:2023-06-20
# closing the loop: シンクロトロンビームライン環境における機械学習に基づくオンラインデータ分析による自律実験

Closing the loop: Autonomous experiments enabled by machine-learning-based online data analysis in synchrotron beamline environments ( http://arxiv.org/abs/2306.11899v1 )

ライセンス: Link先を確認
Linus Pithan (1), Vladimir Starostin (1), David Mare\v{c}ek (2), Lukas Petersdorf (3), Constantin V\"olter (1), Valentin Munteanu (1), Maciej Jankowski (4), Oleg Konovalov (4), Alexander Gerlach (1), Alexander Hinderhofer (1), Bridget Murphy (3), Stefan Kowarik (2), Frank Schreiber (1) ((1) Universit\"at T\"ubingen Germany, (2) Universit\"at Graz Austria, (3) Universit\"at Kiel Germany, (4) ESRF France)(参考訳) 近年,X線散乱実験に機械学習(ML)技術を適用することへの関心が高まっている。 MLは実験結果、特にシンクロトロンや中性子施設から得られるものの自動解釈を可能にする。 mlモデルがデータを処理できる速度は、クローズドループフィードバックシステムを確立する重要な機会であり、オンラインデータ分析に基づいたリアルタイム意思決定を可能にする。 本研究では,有機薄膜の成長を例として,X線リフレクションメトリー(XRR)のための閉ループワークフローへのMLの組み入れについて述べる。 私たちの焦点はMLベースのオンラインデータ分析とクローズドループフィードバックのビームライン統合にあります。 我々は,ビームライン制御ソフトウェア環境で追加のソフトウェア依存性を導入することなく,実験中に基礎的データ解析をリアルタイムで提供するソリューションを提案する。 本研究では,XRR曲線とブラッグ反射を解析するためのML手法の精度とロバスト性を実証し,真空沈着装置上での自律制御について述べる。

Recently, there has been significant interest in applying machine learning (ML) techniques to X-ray scattering experiments, which proves to be a valuable tool for enhancing research that involves large or rapidly generated datasets. ML allows for the automated interpretation of experimental results, particularly those obtained from synchrotron or neutron facilities. The speed at which ML models can process data presents an important opportunity to establish a closed-loop feedback system, enabling real-time decision-making based on online data analysis. In this study, we describe the incorporation of ML into a closed-loop workflow for X-ray reflectometry (XRR), using the growth of organic thin films as an example. Our focus lies on the beamline integration of ML-based online data analysis and closed-loop feedback. We present solutions that provide an elementary data analysis in real time during the experiment without introducing the additional software dependencies in the beamline control software environment. Our data demonstrates the accuracy and robustness of ML methods for analyzing XRR curves and Bragg reflections and its autonomous control over a vacuum deposition setup.
翻訳日:2023-06-22 15:35:27 公開日:2023-06-20
# 機械学習を用いた多種不均質データセットの冬小麦作物収量予測

Winter Wheat Crop Yield Prediction on Multiple Heterogeneous Datasets using Machine Learning ( http://arxiv.org/abs/2306.11946v1 )

ライセンス: Link先を確認
Yogesh Bansal, Dr. David Lillis, Prof. Mohand Tahar Kechadi(参考訳) 冬の小麦はイギリスで最も重要な作物の1つであり、作物の収穫予測は国の食料安全保障にとって不可欠である。 いくつかの研究は、郡や農場のレベルで収穫を予測するために機械学習(ML)技術を用いてきた。 本研究の目的は,複数の異種データセット,すなわち地域レベルでの土壌と気象のMLモデルを用いて,冬期のコムギ収量を予測することである。 実験の結果,単独および組み合わせによる影響が示された。 さらに,機械学習戦略におけるデータ品質の重要性を強調するために,多数のMLアルゴリズムを用いる。

Winter wheat is one of the most important crops in the United Kingdom, and crop yield prediction is essential for the nation's food security. Several studies have employed machine learning (ML) techniques to predict crop yield on a county or farm-based level. The main objective of this study is to predict winter wheat crop yield using ML models on multiple heterogeneous datasets, i.e., soil and weather on a zone-based level. Experimental results demonstrated their impact when used alone and in combination. In addition, we employ numerous ML algorithms to emphasize the significance of data quality in any machine-learning strategy.
翻訳日:2023-06-22 15:26:30 公開日:2023-06-20
# コード言語モデルが学んだことを理解する

Towards Understanding What Code Language Models Learned ( http://arxiv.org/abs/2306.11943v1 )

ライセンス: Link先を確認
Toufique Ahmed, Dian Yu, Chengxuan Huang, Cathy Wang, Prem Devanbu, Kenji Sagae(参考訳) 事前学習された言語モデルは、様々な自然言語タスクにおいて有効であるが、その能力は、言語の意味や理解を完全に学習するものではないと論じられている。 言語モデルがどのような意味を学べるかを理解するために、表面周波数や共起を超越したコードの意味を捉える能力について検討する。 言語的特徴の探索モデルに関するこれまでの研究とは対照的に,事前学習されたモデルについて,モデルの意味論を学習する能力の客観的かつ分かりやすい評価を可能にする設定で検討する。 本稿では,そのようなモデルがコードの意味を正確に定式化しているかどうかを検討する。 コードフラグメントの操作に関する実験を通じて、事前学習されたコードのモデルが、フォームの表層的特徴を超えた、コードの計算的意味論の堅牢な表現を学ぶことを示す。

Pre-trained language models are effective in a variety of natural language tasks, but it has been argued their capabilities fall short of fully learning meaning or understanding language. To understand the extent to which language models can learn some form of meaning, we investigate their ability to capture semantics of code beyond superficial frequency and co-occurrence. In contrast to previous research on probing models for linguistic features, we study pre-trained models in a setting that allows for objective and straightforward evaluation of a model's ability to learn semantics. In this paper, we examine whether such models capture the semantics of code, which is precisely and formally defined. Through experiments involving the manipulation of code fragments, we show that code pre-trained models of code learn a robust representation of the computational semantics of code that goes beyond superficial features of form alone
翻訳日:2023-06-22 15:26:20 公開日:2023-06-20
# 不均一データセット解析のためのディープラーニングモデル --冬期コムギ収量予測への応用-

A Deep Learning Model for Heterogeneous Dataset Analysis -- Application to Winter Wheat Crop Yield Prediction ( http://arxiv.org/abs/2306.11942v1 )

ライセンス: Link先を確認
Yogesh Bansal, David Lillis, Mohand Tahar Kechadi(参考訳) 西洋諸国は小麦に大きく依存しており、収量予測は不可欠である。 LSTM(Long Short Term Memory)のような時系列深層学習モデルはすでに検討され、予測に応用されている。 既存の文献では、従来の機械学習(ML)モデルよりも優れたパフォーマンスを示している。 しかし、既存のLSTMは異種データセット(時間とともに変化し、静的なデータの組み合わせ)を扱うことができない。 本論文では、異種データセットを扱うことができる効率的なディープラーニングモデルを提案する。 システムアーキテクチャを開発し,デジタル農業分野における実世界のデータセットに適用した。 既存のMLモデルよりも優れていることを示した。

Western countries rely heavily on wheat, and yield prediction is crucial. Time-series deep learning models, such as Long Short Term Memory (LSTM), have already been explored and applied to yield prediction. Existing literature reported that they perform better than traditional Machine Learning (ML) models. However, the existing LSTM cannot handle heterogeneous datasets (a combination of data which varies and remains static with time). In this paper, we propose an efficient deep learning model that can deal with heterogeneous datasets. We developed the system architecture and applied it to the real-world dataset in the digital agriculture area. We showed that it outperforms the existing ML models.
翻訳日:2023-06-22 15:26:05 公開日:2023-06-20
# クープマン理論を用いた対話環境における効率的なダイナミクスモデリング

Efficient Dynamics Modeling in Interactive Environments with Koopman Theory ( http://arxiv.org/abs/2306.11941v1 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Siba Smarak Panigrahi, Sai Rajeswar, Kaleem Siddiqi, Siamak Ravanbakhsh(参考訳) 対話環境におけるダイナミクスの正確なモデリングは、長距離予測の成功に不可欠である。 このような能力は強化学習(RL)と計画アルゴリズムを前進させるが、達成は困難である。 モデル推定の不正確さは複雑になり、長い水平線上の誤差が増加する。 我々は、環境の非線形ダイナミクスを高次元潜在空間で線形化することができるクープマン理論のレンズからこの問題にアプローチする。 これにより,畳み込みを用いた長距離予測の逐次問題を,時間ステップ毎にエージェントの動作を考慮しつつ効率的に並列化することができる。 提案手法は安定性解析と時間経過による勾配制御も可能とした。 これらの利点は、拡張水平線上のモデリング力学の効率と精度の両方において、既存のアプローチよりも大幅に改善される。 また、モデルベース計画とモデルフリーRLの両方のシナリオに対する動的モデリングの有望な実験結果を報告する。

The accurate modeling of dynamics in interactive environments is critical for successful long-range prediction. Such a capability could advance Reinforcement Learning (RL) and Planning algorithms, but achieving it is challenging. Inaccuracies in model estimates can compound, resulting in increased errors over long horizons. We approach this problem from the lens of Koopman theory, where the nonlinear dynamics of the environment can be linearized in a high-dimensional latent space. This allows us to efficiently parallelize the sequential problem of long-range prediction using convolution, while accounting for the agent's action at every time step. Our approach also enables stability analysis and better control over gradients through time. Taken together, these advantages result in significant improvement over the existing approaches, both in the efficiency and the accuracy of modeling dynamics over extended horizons. We also report promising experimental results in dynamics modeling for the scenarios of both model-based planning and model-free RL.
翻訳日:2023-06-22 15:25:57 公開日:2023-06-20
# polisを用いたスケーラブルな審議のためのllmの機会とリスク

Opportunities and Risks of LLMs for Scalable Deliberation with Polis ( http://arxiv.org/abs/2306.11932v1 )

ライセンス: Link先を確認
Christopher T. Small, Ivan Vendrov, Esin Durmus, Hadjar Homaei, Elizabeth Barry, Julien Cornebise, Ted Suzman, Deep Ganguli, and Colin Megill(参考訳) Polisは、機械学習を利用して検討プロセスをスケールアップするプラットフォームである。 本稿では,Large Language Models (LLM) の適用に伴う可能性とリスクについて,Polis の取り組みの結果を円滑化し,調整し,要約する上での課題について検討する。 特に、AnthropicのClaudeを用いたパイロット実験では、LLMは実際に人間の知性を増強し、Polisの会話をより効率的に実行できるようにする。 特に,要約能力は,集団的意味形成演習において一般大衆に力を与えるという大きな約束を持つ,分類学的に新しい手法を可能にする。 LLMのコンテキスト制限は、これらの結果の洞察と品質に大きな影響を与えます。 しかし、これらの機会にはリスクが伴う。 これらのリスクのいくつか、およびそれらの特徴付けと緩和のための原則と技術、およびllmを採用する可能性のある他の審議的または政治的システムに対する意味について論じる。 最後に, Polis などのツールを LLM で拡張するためのオープンな研究の方向性について述べる。

Polis is a platform that leverages machine intelligence to scale up deliberative processes. In this paper, we explore the opportunities and risks associated with applying Large Language Models (LLMs) towards challenges with facilitating, moderating and summarizing the results of Polis engagements. In particular, we demonstrate with pilot experiments using Anthropic's Claude that LLMs can indeed augment human intelligence to help more efficiently run Polis conversations. In particular, we find that summarization capabilities enable categorically new methods with immense promise to empower the public in collective meaning-making exercises. And notably, LLM context limitations have a significant impact on insight and quality of these results. However, these opportunities come with risks. We discuss some of these risks, as well as principles and techniques for characterizing and mitigating them, and the implications for other deliberative or political systems that may employ LLMs. Finally, we conclude with several open future research directions for augmenting tools like Polis with LLMs.
翻訳日:2023-06-22 15:25:43 公開日:2023-06-20
# オープン問題:測度の変動目標を用いた学習

Open Problem: Learning with Variational Objectives on Measures ( http://arxiv.org/abs/2306.11928v1 )

ライセンス: Link先を確認
Vivien Cabannes, Carles Domingo-Enrich(参考訳) 統計的学習の理論は、関数に表される変分目的に焦点を当てている。 本稿では,分散一般化と弱い教師付き学習を議論するために,同様の目的を尺度で記述する動機について論じる。 通常の統計的学習結果を、測定値で表される目的に当てはめることができるか? その結果、実用的関心のある新しいアルゴリズムが生まれるだろうか?

The theory of statistical learning has focused on variational objectives expressed on functions. In this note, we discuss motivations to write similar objectives on measures, in particular to discuss out-of-distribution generalization and weakly-supervised learning. It raises a natural question: can one cast usual statistical learning results to objectives expressed on measures? Does the resulting construction lead to new algorithms of practical interest?
翻訳日:2023-06-22 15:25:26 公開日:2023-06-20
# LVM-Med:2次グラフマッチングによる医用イメージングのための大規模自己スーパービジョンモデル学習

LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching ( http://arxiv.org/abs/2306.11925v1 )

ライセンス: Link先を確認
Duy M. H. Nguyen, Hoang Nguyen, Nghiem T. Diep, Tan N. Pham, Tri Cao, Binh T. Nguyen, Paul Swoboda, Nhat Ho, Shadi Albarqouni, Pengtao Xie, Daniel Sonntag, Mathias Niepert(参考訳) 注釈付きサンプルを限定した新しいタスクに微調整できる大規模な事前訓練モデルを持つことは、医療画像データにとってオープンな課題である。 ImageNetの事前訓練されたディープネットワークとWebスケールデータで訓練されたビジョン言語基盤モデルが一般的であるが、天然画像と医用画像のドメインシフトが大きいため、医療タスクにおけるそれらの効果は限られている。 このギャップを埋めるために,大規模医療データセットでトレーニングされた最初のディープネットワークであるlmm-medを紹介する。 我々は、55の公開データセットから約130万の医療画像を収集し、CT、MRI、X線、超音波などの多数の臓器とモダリティをカバーした。 このデータセット上で,最先端の自己教師付きアルゴリズムをベンチマークし,グラフマッチングを用いた新しい自己教師付きコントラスト学習アルゴリズムを提案する。 提案するアプローチには3つの貢献がある。 (i)地域情報及びグローバル情報に基づく先行的な対向画像類似度指標を統合する。 (ii)組合せグラフマッチング目的によって構築された損失関数を通して特徴埋め込みの構造的制約を捉え、 (iii)ブラックボックスソルバに対する現代の勾配推定手法を用いて、エンドツーエンドを効率的に訓練することができる。 提案手法は,セグメンテーションや分類,オブジェクト検出,分布内および分布外の設定など15の下流医療タスクにおいて,提案手法を徹底的に評価した。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。 脳腫瘍分類や糖尿病網膜症グラディングといった課題に対して、LVM-MedはResNet-50のみを使用しながら、10億のマスクでトレーニングされた以前の視覚言語モデルを6~7%改善する。

Obtaining large pre-trained models that can be fine-tuned to new tasks with limited annotated samples has remained an open challenge for medical imaging data. While pre-trained deep networks on ImageNet and vision-language foundation models trained on web-scale data are prevailing approaches, their effectiveness on medical tasks is limited due to the significant domain shift between natural and medical images. To bridge this gap, we introduce LVM-Med, the first family of deep networks trained on large-scale medical datasets. We have collected approximately 1.3 million medical images from 55 publicly available datasets, covering a large number of organs and modalities such as CT, MRI, X-ray, and Ultrasound. We benchmark several state-of-the-art self-supervised algorithms on this dataset and propose a novel self-supervised contrastive learning algorithm using a graph-matching formulation. The proposed approach makes three contributions: (i) it integrates prior pair-wise image similarity metrics based on local and global information; (ii) it captures the structural constraints of feature embeddings through a loss function constructed via a combinatorial graph-matching objective; and (iii) it can be trained efficiently end-to-end using modern gradient-estimation techniques for black-box solvers. We thoroughly evaluate the proposed LVM-Med on 15 downstream medical tasks ranging from segmentation and classification to object detection, and both for the in and out-of-distribution settings. LVM-Med empirically outperforms a number of state-of-the-art supervised, self-supervised, and foundation models. For challenging tasks such as Brain Tumor Classification or Diabetic Retinopathy Grading, LVM-Med improves previous vision-language models trained on 1 billion masks by 6-7% while using only a ResNet-50.
翻訳日:2023-06-22 15:25:20 公開日:2023-06-20
# 間違いなし:ニューラルネットワーク最適化パスの単純な幾何学

No Wrong Turns: The Simple Geometry Of Neural Networks Optimization Paths ( http://arxiv.org/abs/2306.11922v1 )

ライセンス: Link先を確認
Charles Guille-Escuret, Hiroki Naganuma, Kilian Fatras, Ioannis Mitliagkas(参考訳) 理論と実践のギャップを埋めるためには,ニューラルネットワークの最適化ダイナミクスを理解する必要がある。 確率的一階最適化アルゴリズムは、ディープニューラルネットワークにおいて好ましいミニマを効率的に見つけることが知られている。 しかし、この効率性は、神経損失の風景の非凸および一見複雑な構造とは対照的である。 本研究では,最適化経路に沿ったサンプル勾配の基本幾何学的性質について考察する。 制限されたセカント不等式とエラー境界に現れる2つの重要な量に焦点を当てる。 どちらも一階最適化において非常に重要である。 分析の結果,ミニバッチのサンプリングによる確率性にもかかわらず,これらの量はトレーニングを通して予測可能で一貫した行動を示すことが明らかとなった。 以上の結果から,最適化トラジェクトリは大きな障害に遭遇しないだけでなく,ほとんどのトレーニングにおいて安定なダイナミクスも維持できる可能性が示唆された。 これらの特性は、理論的に線形収束を保証し、経験的実践を反映した学習率スケジュールを規定するのに十分な表現性を持つ。 我々は、画像分類、意味セグメンテーション、さまざまなバッチサイズ、ネットワークアーキテクチャ、データセット、オプティマイザ、初期化シードにおける言語モデリングの実験を行う。 我々は各要因の影響について論じる。 我々の研究は、ニューラルネットワーク損失関数の性質に関する新しい洞察を提供し、一般的な実践に関係のある理論的なフレームワークへの扉を開く。

Understanding the optimization dynamics of neural networks is necessary for closing the gap between theory and practice. Stochastic first-order optimization algorithms are known to efficiently locate favorable minima in deep neural networks. This efficiency, however, contrasts with the non-convex and seemingly complex structure of neural loss landscapes. In this study, we delve into the fundamental geometric properties of sampled gradients along optimization paths. We focus on two key quantities, which appear in the restricted secant inequality and error bound. Both hold high significance for first-order optimization. Our analysis reveals that these quantities exhibit predictable, consistent behavior throughout training, despite the stochasticity induced by sampling minibatches. Our findings suggest that not only do optimization trajectories never encounter significant obstacles, but they also maintain stable dynamics during the majority of training. These observed properties are sufficiently expressive to theoretically guarantee linear convergence and prescribe learning rate schedules mirroring empirical practices. We conduct our experiments on image classification, semantic segmentation and language modeling across different batch sizes, network architectures, datasets, optimizers, and initialization seeds. We discuss the impact of each factor. Our work provides novel insights into the properties of neural network loss functions, and opens the door to theoretical frameworks more relevant to prevalent practice.
翻訳日:2023-06-22 15:24:51 公開日:2023-06-20
# NILUT:画像強調のための条件付きニューラルインシシデント3Dルックアップテーブル

NILUT: Conditional Neural Implicit 3D Lookup Tables for Image Enhancement ( http://arxiv.org/abs/2306.11920v1 )

ライセンス: Link先を確認
Marcos V. Conde, Javier Vazquez-Corral, Michael S. Brown, Radu Timofte(参考訳) 3次元ルックアップテーブル(3D LUT)は画像強調のための重要なコンポーネントである。 現代の画像信号プロセッサ(ISP)は、カメラレンダリングパイプラインの一部としてこれらをサポートする。 カメラは通常、絵のスタイルに複数のオプションを提供し、それぞれのスタイルは通常、ユニークな手作りの3D LUTを適用することで得られる。 3D LUTを学習および適用するための現在のアプローチは、特に高速であるが、複数の3D LUTを格納する必要があるため、メモリ効率は高くない。 この理由やその他の実装上の制限のため、モバイルデバイスでの使用はそれほど一般的ではない。 本研究では,ニューラルネットワークによってパラメータ化される暗黙的に定義された連続3次元色変換であるニューラルインプリシット LUT (NILUT) を提案する。 NILUTは実3D LUTを正確にエミュレートできることを示す。 さらに、NILUTは複数のスタイルを単一のネットワークに組み込むように拡張でき、暗黙的にスタイルをブレンドすることができる。 我々の新しいアプローチはメモリ効率が高く、制御可能であり、学習ISPを含む従来の手法を補完することができる。 コード、モデル、データセット:https://github.com/mv-lab/nilut

3D lookup tables (3D LUTs) are a key component for image enhancement. Modern image signal processors (ISPs) have dedicated support for these as part of the camera rendering pipeline. Cameras typically provide multiple options for picture styles, where each style is usually obtained by applying a unique handcrafted 3D LUT. Current approaches for learning and applying 3D LUTs are notably fast, yet not so memory-efficient, as storing multiple 3D LUTs is required. For this reason and other implementation limitations, their use on mobile devices is less popular. In this work, we propose a Neural Implicit LUT (NILUT), an implicitly defined continuous 3D color transformation parameterized by a neural network. We show that NILUTs are capable of accurately emulating real 3D LUTs. Moreover, a NILUT can be extended to incorporate multiple styles into a single network with the ability to blend styles implicitly. Our novel approach is memory-efficient, controllable and can complement previous methods, including learned ISPs. Code, models and dataset available at: https://github.com/mv-lab/nilut
翻訳日:2023-06-22 15:24:29 公開日:2023-06-20
# 要求ダイアログにおける誤り訂正と抽出

Error correction and extraction in request dialogs ( http://arxiv.org/abs/2004.04243v4 )

ライセンス: Link先を確認
Stefan Constantin and Alex Waibel(参考訳) 本稿では,ユーザの最後の2つの発話を受信し,最後の発話が第2の発話の誤り訂正であるか否かを検出する対話システムユーティリティコンポーネントを提案する。 もしそうであれば、最後の発話における誤差補正に従って第2の最終発話を補正し、抽出した再ペアの補修エンティティを出力する。 このコンポーネントは、新しいドメイン毎の修正の収集を避けるために修正の概念を学ぶことと、reparandumとre repair pairsを抽出することの2つの利点を提供する。 誤り訂正のために、1つのシーケンスラベリングと2つのシーケンス to シーケンスアプローチを示す。 誤り訂正検出には,これら3つの誤り訂正手法が利用可能であり,さらに,シーケンス分類手法を提案する。 1つのエラー訂正検出と1つのエラー補正アプローチをパイプラインと組み合わせたり、エラー修正アプローチをトレーニングしたり、エンドツーエンドで2つのコンポーネントを避けることができる。 我々はEPIC-KITCHENS-100データセットを修正し、要求ダイアログにおけるエンティティフレーズの修正手法を評価した。 誤り訂正検出と補正には,人工検証データでは96.40%,実世界テストデータでは77.81%の精度が得られた。

We propose a dialog system utility component that gets the last two utterances of a user and can detect whether the last utterance is an error correction of the second last utterance. If yes, it corrects the second last utterance according to the error correction in the last utterance and outputs the extracted pairs of reparandum and repair entity. This component offers two advantages, learning the concept of corrections to avoid collecting corrections for every new domain and extracting reparandum and repair pairs, which offers the possibility to learn out of it. For the error correction one sequence labeling and two sequence to sequence approaches are presented. For the error correction detection these three error correction approaches can also be used and in addition, we present a sequence classification approach. One error correction detection and one error correction approach can be combined to a pipeline or the error correction approaches can be trained and used end-to-end to avoid two components. We modified the EPIC-KITCHENS-100 dataset to evaluate the approaches for correcting entity phrases in request dialogs. For error correction detection and correction, we got an accuracy of 96.40 % on synthetic validation data and an accuracy of 77.81 % on human-created real-world test data.
翻訳日:2023-06-22 08:33:49 公開日:2023-06-20
# 非定常時系列の等変オンライン予測

Equivariant online predictions of non-stationary time series ( http://arxiv.org/abs/1911.08662v5 )

ライセンス: Link先を確認
K\=osaku Takanashi and Kenichiro McAlinn(参考訳) 非定常時系列におけるオンライン予測の有限標本理論的特性をモデルミス種別で論じる。 この条件下での統計的手法の理論的予測特性を解析するために,まずKulback-Leiblerリスクを定義し,その問題を決定論の枠組みに配置する。 この枠組みの下では、ランダムウォーク動的線形モデルと呼ばれる特定の動的モデルのクラスが、正確なミニマックス予測密度を生成することを示す。 まずこの結果をガウスの仮定で示し、それから半マーチンゲール過程を用いてこの仮定を緩和する。 この結果は、非定常時系列データと定常時系列データの両方に基づいて理論ベースラインを提供し、他のモデルと比較することができる。 我々は、結果を複数の予測密度の合成に拡張する。 疫学、気候学、経済学における3つのトピック応用は、我々の理論的結果を確認し、強調する。

We discuss the finite sample theoretical properties of online predictions in non-stationary time series under model misspecification. To analyze the theoretical predictive properties of statistical methods under this setting, we first define the Kullback-Leibler risk, in order to place the problem within a decision theoretic framework. Under this framework, we show that a specific class of dynamic models -- random walk dynamic linear models -- produce exact minimax predictive densities. We first show this result under Gaussian assumptions, then relax this assumption using semi-martingale processes. This result provides a theoretical baseline, under both non-stationary and stationary time series data, for which other models can be compared against. We extend the result to the synthesis of multiple predictive densities. Three topical applications in epidemiology, climatology, and economics, confirm and highlight our theoretical results.
翻訳日:2023-06-22 08:33:29 公開日:2023-06-20
# 谷コヒーレンス時間の巨大増強による単層mos2中の100%谷コヒーレント励起子の観察

Observation of ~100% valley-coherent excitons in monolayer MoS2 through giant enhancement of valley coherence time ( http://arxiv.org/abs/2106.03359v3 )

ライセンス: Link先を確認
Garima Gupta, Kenji Watanabe, Takashi Taniguchi, and Kausik Majumdar(参考訳) 単層遷移金属ジアルコゲナイド半導体では、高速散乱とバレー交換相互作用の組み合わせによりバレーコヒーレンスが急速に低下する。 これはピコ秒以下の谷のコヒーレンス時間をもたらし、エクシトンをコヒーレントに操作することが非常に難しい課題となる。 上面と下面のグラフェンの間に単層MoS2を挟み込み, 定常状態のフォトルミネッセンスにおいて, 線形偏光の約100%を観察し, 完全なバレーコヒーレント励起体を示す。 これは、このユニークな設計において、組み合わせた効果によって達成される。 (a)誘電体スクリーニングの強化による交換相互作用の抑制 (b)グラフェンへの高速層間移動による励起子寿命の低減、及び (c)動きを狭める体制で活動すること。 計算(bethe-salpeter方程式とmaialle-silva-sham方程式の解法)と4つの異なるスタックを用いた実験の設計を注意深く選択することで,谷のコヒーレンスに影響を与える重要なパラメータの役割を解消する。 我々の知る限りでは、この報告は単層半導体における一生を通じてエキシトンがバレーコヒーレントであることが判明し、バレーコヒーレンスを光学的に読み取ることができる最初の報告である。

In monolayer transition metal dichalcogenide semiconductors, valley coherence degrades rapidly due to a combination of fast scattering and inter-valley exchange interaction. This leads to a sub-picosecond valley coherence time, making coherent manipulation of exciton a highly challenging task. Using monolayer MoS2 sandwiched between top and bottom graphene, here we demonstrate fully valley coherent excitons by observing ~100% degree of linear polarization in steady state photoluminescence. This is achieved in this unique design through a combined effect of (a) suppression in exchange interaction due to enhanced dielectric screening, (b) reduction in exciton lifetime due to a fast inter-layer transfer to graphene, and (c) operating in the motional narrowing regime. We disentangle the role of the key parameters affecting valley coherence by using a combination of calculation (solutions of Bethe-Salpeter and Maialle-Silva-Sham equations) and a careful choice of design of experiments using four different stacks with systematic variation of screening and exciton lifetime. To the best of our knowledge, this is the first report in which the excitons are found to be valley coherent in the entire lifetime in monolayer semiconductors, allowing optical readout of valley coherence possible.
翻訳日:2023-06-22 06:46:06 公開日:2023-06-20
# IID-GAN : モード崩壊の正規化のためのIIDサンプリング視点

IID-GAN: an IID Sampling Perspective for Regularizing Mode Collapse ( http://arxiv.org/abs/2106.00563v3 )

ライセンス: Link先を確認
Yang Li, Liangliang Shi, Junchi Yan(参考訳) その成功にもかかわらず、gans(generative adversarial networks)は依然としてモードの崩壊に苦しんでいる。 本稿では,この問題を,独立かつ同一分布のIIDサンプリング視点で解析・正規化し,生成対象分布を参照するIID特性の保持が自然にモード崩壊を回避することを強調する。 これは機械学習の実際のデータに対する基本的なiid仮定に基づいている。 しかし、ソースサンプル {z} は IID に従うが、世代 {G(z)} は必ずしもターゲット分布から IID をサンプリングするとは限らない。 そこで本研究では,対象データからの逆サンプルもソース分布でiidであるべきというiid生成の必要条件を考慮して,実データの逆サンプルと潜在空間におけるガウス音源との密接性を促進する新たな損失を提案し,対象分布からiidとなる生成を定式化する。 合成データと実世界のデータの両方で実験を行った結果,本モデルの有効性が示された。

Despite its success, generative adversarial networks (GANs) still suffer from mode collapse, i.e., the generator can only map latent variables to a partial set of modes in the target distribution. In this paper, we analyze and seek to regularize this issue with an independent and identically distributed (IID) sampling perspective and emphasize that holding the IID property referring to the target distribution for generation can naturally avoid mode collapse. This is based on the basic IID assumption for real data in machine learning. However, though the source samples {z} obey IID, the generations {G(z)} may not necessarily be IID sampling from the target distribution. Based on this observation, considering a necessary condition of IID generation that the inverse samples from target data should also be IID in the source distribution, we propose a new loss to encourage the closeness between inverse samples of real data and the Gaussian source in latent space to regularize the generation to be IID from the target distribution. Experiments on both synthetic and real-world data show the effectiveness of our model.
翻訳日:2023-06-22 06:45:39 公開日:2023-06-20
# IoTアプリケーションのための低遅延MAC: 明示的な状態情報共有のないキューの分散最適スケジューリング

A Low-Delay MAC for IoT Applications: Decentralized Optimal Scheduling of Queues without Explicit State Information Sharing ( http://arxiv.org/abs/2105.11213v2 )

ライセンス: Link先を確認
Avinash Mohan, Arpan Chattopadhyay, Shivam Vinayak Vatsa, and Anurag Kumar(参考訳) タイムスロットングされた無線チャネルを共有する複数のノードのシステムについて検討し、MAC(medium access control)を求める。 (i)低平均遅延を提供する。 (ii)分散制御(中央スケジューラがない)と (iii) 状態情報や制御信号の明示的な交換を必要としない。 このようなMACプロトコルの設計は、光トラフィックにおける競合アクセスと、大量のトラフィックにおけるスケジュールアクセスの必要性を念頭に置いておく必要がある。 離散時間環境において,分散mac設計のために,各ノードが局所的な情報とオーバーウアリングから得られる共通情報を持つ実用的な情報構造を考える。 この設定では、ZMACはハイブリッドで適応的な既存のプロトコルである。 我々は,2つのステップでこの問題にアプローチする(1),政策が「欲望」と「思慮深い」のに十分であることを示す。 このクラスにポリシーを限定すると、キュー空の瞬間にキュースイッチングポリシーを取得するという問題が発生する。 2) 遅延最適スケジューリングをPOMDP(部分的に観測されたマルコフ決定過程)として定式化し, 最適切換規則がStochastic Largest Queue (SLQ)であることを示す。 そこで,本理論を基礎として,学習可能な分散スケジューラQZMACを開発した。 既成のTelosB表にQZMACを実装し,QZMACと全知識集中型スケジューラ,ZMACを比較した。 本実装では,共有情報に耳を傾けながら誤検出の影響とQZMACの効率について検討する。 シミュレーションの結果,QZMACの平均遅延は全知識集中型スケジューラに近いことがわかった。

We consider a system of several collocated nodes sharing a time slotted wireless channel, and seek a MAC (medium access control) that (i) provides low mean delay, (ii) has distributed control (i.e., there is no central scheduler), and (iii) does not require explicit exchange of state information or control signals. The design of such MAC protocols must keep in mind the need for contention access at light traffic, and scheduled access in heavy traffic, leading to the long-standing interest in hybrid, adaptive MACs. Working in the discrete time setting, for the distributed MAC design, we consider a practical information structure where each node has local information and some common information obtained from overhearing. In this setting, "ZMAC" is an existing protocol that is hybrid and adaptive. We approach the problem via two steps (1) We show that it is sufficient for the policy to be "greedy" and "exhaustive". Limiting the policy to this class reduces the problem to obtaining a queue switching policy at queue emptiness instants. (2) Formulating the delay optimal scheduling as a POMDP (partially observed Markov decision process), we show that the optimal switching rule is Stochastic Largest Queue (SLQ). Using this theory as the basis, we then develop a practical distributed scheduler, QZMAC, which is also tunable. We implement QZMAC on standard off-the-shelf TelosB motes and also use simulations to compare QZMAC with the full-knowledge centralized scheduler, and with ZMAC. We use our implementation to study the impact of false detection while overhearing the common information, and the efficiency of QZMAC. Our simulation results show that the mean delay with QZMAC is close that of the full-knowledge centralized scheduler.
翻訳日:2023-06-22 06:45:00 公開日:2023-06-20
# DP画像:特徴空間における画像データの差分プライバシー

DP-Image: Differential Privacy for Image Data in Feature Space ( http://arxiv.org/abs/2103.07073v2 )

ライセンス: Link先を確認
Hanyu Xue, Bo Liu, Ming Ding, Tianqing Zhu, Dayong Ye, Li Song, Wanlei Zhou(参考訳) ソーシャルネットワーク、政府データベース、産業アプリケーションにおける画像の過剰使用は、大きなプライバシーリスクをもたらし、国民からの深刻な懸念を引き起こした。 差分プライバシー(DP)は、証明可能なプライバシー保証を提供するための広く受け入れられている基準であるが、画像のような非構造化データへのDPの適用は、いずれかの2つの画像間の有意義な差異に関する明確な資格が欠如しているため、容易ではない。 本稿では,画像中のユーザの個人情報を人間とAIの双方の敵から保護する,DP-imageと呼ばれる新たな画像認識型差分プライバシーの概念を初めて紹介する。 dp画像の定義は、画像の特徴空間ベクトル間の距離測定を考慮して、従来の微分プライバシーの拡張版として定式化されている。 次に,画像特徴ベクトルに雑音を加えることでDP画像を実現する機構を提案する。 最後に,顔画像プライバシに関するケーススタディを用いて実験を行う。 提案手法は, 画像に対して優れたDP保護を提供し, 顔への歪みを制御可能であることを示す。

The excessive use of images in social networks, government databases, and industrial applications has posed great privacy risks and raised serious concerns from the public. Even though differential privacy (DP) is a widely accepted criterion that can provide a provable privacy guarantee, the application of DP on unstructured data such as images is not trivial due to the lack of a clear qualification on the meaningful difference between any two images. In this paper, for the first time, we introduce a novel notion of image-aware differential privacy, referred to as DP-image, that can protect user's personal information in images, from both human and AI adversaries. The DP-Image definition is formulated as an extended version of traditional differential privacy, considering the distance measurements between feature space vectors of images. Then we propose a mechanism to achieve DP-Image by adding noise to an image feature vector. Finally, we conduct experiments with a case study on face image privacy. Our results show that the proposed DP-Image method provides excellent DP protection on images, with a controllable distortion to faces.
翻訳日:2023-06-22 06:44:13 公開日:2023-06-20
# チューニング機械学習手法ハイパーパラメータの離散シミュレーション最適化

Discrete Simulation Optimization for Tuning Machine Learning Method Hyperparameters ( http://arxiv.org/abs/2201.05978v3 )

ライセンス: Link先を確認
Varun Ramamohan, Shobhit Singhal, Aditya Raj Gupta, Nomesh Bhojkumar Bolia(参考訳) 機械学習(ml)法は、画像認識、製品推奨、財務分析、医療診断、予測メンテナンスなど、ほとんどの技術領域で使用されている。 ML手法を実装する上で重要な側面は,検討中の手法の性能を最大化するために,ML手法の学習過程を制御することである。 ハイパーパラメータチューニングは、学習プロセスを制御するMLメソッドパラメータの適切なセットを選択するプロセスである。 本研究では,ML手法の性能を最大化するハイパーパラメータ集合の同定に,ランキングと選択(R&S)やランダム検索などの離散シミュレーション最適化手法を用いることを実証する。 具体的には、kn r&s法と確率的支配的ランダム探索法を用い、そのバリエーションの1つを提案する。 また, 最適解を解空間列挙による統計的保証で決定するkn法の適用に関する理論的基礎を構築した。 対照的に、確率的定規法は漸近的に大域最適に収束し、計算オーバーヘッドを小さくする。 時系列予測や画像分類に使用されるディープニューラルネットワークモデルを含む,多種多様な機械学習モデルへのこれらの手法の適用を実証する。 我々は、$hyperopt$ や $mango$のような最先端のハイパーパラメータ最適化ライブラリでこれらのメソッドの適用をベンチマークします。 KN法は、$hyperopt$'s random search (RS) および Tree of Parzen Estimators (TPE) 法より一貫して優れている。 確率的定規法は$hyperopt$ RS法より優れ、$hyperopt$のTPE法と$mango$アルゴリズムに関して統計的に同等のパフォーマンスを提供する。

Machine learning (ML) methods are used in most technical areas such as image recognition, product recommendation, financial analysis, medical diagnosis, and predictive maintenance. An important aspect of implementing ML methods involves controlling the learning process for the ML method so as to maximize the performance of the method under consideration. Hyperparameter tuning is the process of selecting a suitable set of ML method parameters that control its learning process. In this work, we demonstrate the use of discrete simulation optimization methods such as ranking and selection (R&S) and random search for identifying a hyperparameter set that maximizes the performance of a ML method. Specifically, we use the KN R&S method and the stochastic ruler random search method and one of its variations for this purpose. We also construct the theoretical basis for applying the KN method, which determines the optimal solution with a statistical guarantee via solution space enumeration. In comparison, the stochastic ruler method asymptotically converges to global optima and incurs smaller computational overheads. We demonstrate the application of these methods to a wide variety of machine learning models, including deep neural network models used for time series prediction and image classification. We benchmark our application of these methods with state-of-the-art hyperparameter optimization libraries such as $hyperopt$ and $mango$. The KN method consistently outperforms $hyperopt$'s random search (RS) and Tree of Parzen Estimators (TPE) methods. The stochastic ruler method outperforms the $hyperopt$ RS method and offers statistically comparable performance with respect to $hyperopt$'s TPE method and the $mango$ algorithm.
翻訳日:2023-06-22 06:39:16 公開日:2023-06-20
# ベイジアンネットワークの構造学習におけるデュアルPCアルゴリズムとガウス性の役割

The Dual PC Algorithm and the Role of Gaussianity for Structure Learning of Bayesian Networks ( http://arxiv.org/abs/2112.09036v5 )

ライセンス: Link先を確認
Enrico Giudice, Jack Kuipers, Giusi Moffa(参考訳) ベイズネットワークのグラフィカル構造を学ぶことは、多くの複雑なアプリケーションでデータ生成メカニズムを記述する上で鍵となるが、計算上の課題は大きい。 観測データはベイズネットワークモデルに基づく有向非巡回グラフの同値類のみを識別することができ、この問題に取り組むための様々な方法が存在する。 ある仮定の下で、人気のあるPCアルゴリズムは、変数分布を保持する条件独立性(CI)関係をリバースエンジニアリングすることで、正しい等価クラスを一貫して回復することができる。 双対PCアルゴリズムは、共分散行列と精度行列の逆関係を利用して、PCアルゴリズム内でCIテストを実行するための新しいスキームである。 ブロック行列反転を利用することにより、補完的(または双対)条件付き集合の部分相関に関するテストを行うこともできる。 デュアルPCアルゴリズムの複数のCIテストは、まず辺境と全階のCI関係を考慮し、徐々に中央のCIに移行する。 シミュレーション研究により、デュアルPCアルゴリズムは、ガウス性から逸脱した場合でも、実行時間と基盤となるネットワーク構造の回復の両方において、古典的なPCアルゴリズムよりも優れていることが示された。 さらに,双対pcアルゴリズムがガウスコプラモデルに適用できることを示し,その性能を示す。

Learning the graphical structure of Bayesian networks is key to describing data-generating mechanisms in many complex applications but poses considerable computational challenges. Observational data can only identify the equivalence class of the directed acyclic graph underlying a Bayesian network model, and a variety of methods exist to tackle the problem. Under certain assumptions, the popular PC algorithm can consistently recover the correct equivalence class by reverse-engineering the conditional independence (CI) relationships holding in the variable distribution. The dual PC algorithm is a novel scheme to carry out the CI tests within the PC algorithm by leveraging the inverse relationship between covariance and precision matrices. By exploiting block matrix inversions we can also perform tests on partial correlations of complementary (or dual) conditioning sets. The multiple CI tests of the dual PC algorithm proceed by first considering marginal and full-order CI relationships and progressively moving to central-order ones. Simulation studies show that the dual PC algorithm outperforms the classic PC algorithm both in terms of run time and in recovering the underlying network structure, even in the presence of deviations from Gaussianity. Additionally, we show that the dual PC algorithm applies for Gaussian copula models, and demonstrate its performance in that setting.
翻訳日:2023-06-22 06:38:09 公開日:2023-06-20
# 量子波動関数の設計法

How to engineer a quantum wavefunction ( http://arxiv.org/abs/2112.01105v3 )

ライセンス: Link先を確認
Peter W. Evans and Dominik Hangleiter and Karim P. Y. Th\'ebault(参考訳) 従来の実験では、科学者はターゲットシステムについて、同じ素材タイプのソースシステムを操作することで学ぼうとしている。 対照的に、アナログ量子シミュレーションでは、科学者は通常、異なる物質タイプのソース量子システムに関する実験を通して、1つの物質タイプのターゲット量子システムについて学ぶことを目的としている。 本稿では、このような推論は、同じ経験型であるソースおよびターゲット量子系を参照して正当化することができると論じる。 本稿では,Bose-Hubbardシステムの例を参考に,この波動関数工学の新たな実験実践を紹介する。

In a conventional experiment, scientists typically aim to learn about target systems by manipulating source systems of the same material type. In an analogue quantum simulation, by contrast, scientists typically aim to learn about target quantum systems of one material type via an experiment on a source quantum system of a different material type. In this paper, we argue that such inferences can be justified by reference to source and target quantum systems being of the same empirical type. We illustrate this novel experimental practice of wavefunction engineering with reference to the example of Bose-Hubbard systems.
翻訳日:2023-06-22 06:37:13 公開日:2023-06-20
# 確率ハイブリッドモデルによるモデルベース強化学習

Model-Based Reinforcement Learning via Stochastic Hybrid Models ( http://arxiv.org/abs/2111.06211v3 )

ライセンス: Link先を確認
Hany Abdulsamad and Jan Peters(参考訳) 一般的な非線形システムの最適制御は、自動化における中心的な課題である。 強力な関数近似子によって実現された、データ駆動による制御アプローチは、最近、挑戦的なアプリケーションをうまく取り組んだ。 しかし、そのような手法はしばしばブラックボックスのオーバーパラメータ化表現の背後にある力学や制御の構造を曖昧にするため、閉ループの動作を理解する能力は制限される。 本稿では,非線形モデリングと制御のハイブリッドシステム・ビューを採用し,問題に対して明示的な階層構造を付与し,複雑なダイナミクスをより単純な局所化単位に分解する。 本研究では,データの時間構造をキャプチャし,非線形力学を非線形遷移境界を持つ確率的区分的アフィンモデルに自動的に分解する期待最大化(em)アルゴリズムを導出するシーケンスモデリングパラダイムを検討する。 さらに,これらの時系列モデルに自然に閉ループ拡張を認め,非線形専門家からの局所多項式フィードバックコントローラを行動クローニングにより抽出することを示した。 最後に,ハイブリッドモデルの階層的性質を組み込んだ新しいハイブリッド相対エントロピーポリシー探索(hb-reps)手法を導入し,大域的状態値関数の分割多項式近似から導出される時間不変部分フィードバックコントローラの集合を最適化する。

Optimal control of general nonlinear systems is a central challenge in automation. Enabled by powerful function approximators, data-driven approaches to control have recently successfully tackled challenging applications. However, such methods often obscure the structure of dynamics and control behind black-box over-parameterized representations, thus limiting our ability to understand closed-loop behavior. This paper adopts a hybrid-system view of nonlinear modeling and control that lends an explicit hierarchical structure to the problem and breaks down complex dynamics into simpler localized units. We consider a sequence modeling paradigm that captures the temporal structure of the data and derive an expectation-maximization (EM) algorithm that automatically decomposes nonlinear dynamics into stochastic piecewise affine models with nonlinear transition boundaries. Furthermore, we show that these time-series models naturally admit a closed-loop extension that we use to extract local polynomial feedback controllers from nonlinear experts via behavioral cloning. Finally, we introduce a novel hybrid relative entropy policy search (Hb-REPS) technique that incorporates the hierarchical nature of hybrid models and optimizes a set of time-invariant piecewise feedback controllers derived from a piecewise polynomial approximation of a global state-value function.
翻訳日:2023-06-22 06:36:49 公開日:2023-06-20
# 視覚・自己教師あり音声モデルにおける単語発見

Word Discovery in Visually Grounded, Self-Supervised Speech Models ( http://arxiv.org/abs/2203.15081v5 )

ライセンス: Link先を確認
Puyuan Peng and David Harwath(参考訳) 本稿では,視覚的単語探索手法を提案する。 HuBERT または wav2vec2.0 モデルを用いて、音声キャプションを自然な画像に関連づける訓練を行った結果、強力な単語セグメンテーションとクラスタリング能力がモデルの自己注意ヘッド内に出現することを示した。 私たちの実験では、この能力はhubertとwav2vec2.0のモデルではほとんど同じ程度には存在せず、視覚的な接地作業が私たちが観察する単語発見能力の重要な構成要素であることを示唆している。 また,いくつかの指標において,現在公開している手法と同等かそれ以上かそれ以上か,あるいはそれ以上に実行する場合,buckeyeワードセグメンテーションとzerospeech音声単語発見タスクの手法を評価した。 コードとモデルの重み付けはhttps://github.com/jasonppy/word-discoveryで利用可能である。

We present a method for visually-grounded spoken term discovery. After training either a HuBERT or wav2vec2.0 model to associate spoken captions with natural images, we show that powerful word segmentation and clustering capability emerges within the model's self-attention heads. Our experiments reveal that this ability is not present to nearly the same extent in the base HuBERT and wav2vec2.0 models, suggesting that the visual grounding task is a crucial component of the word discovery capability we observe. We also evaluate our method on the Buckeye word segmentation and ZeroSpeech spoken term discovery tasks, where we perform on par with or better than currently published methods on several metrics. Code and model weights are available at https://github.com/jasonppy/word-discovery.
翻訳日:2023-06-22 06:27:45 公開日:2023-06-20
# 任意形状テキスト検出のためのカーネル提案ネットワーク

Kernel Proposal Network for Arbitrary Shape Text Detection ( http://arxiv.org/abs/2203.06410v2 )

ライセンス: Link先を確認
Shi-Xue Zhang, Xiaobin Zhu, Jie-Bo Hou, Chun Yang, Xu-Cheng Yin(参考訳) セグメント法は任意の形状のテキスト検出において大きな成功を収めた。 しかし,シーン画像中のテキストの複雑さから,隣接するテキストインスタンスの分離は依然として最も難しい問題である。 本稿では,任意の形状テキスト検出のための革新的カーネル提案ネットワーク(KPN)を提案する。 提案したKPNは,異なるテキストをインスタンスに依存しない特徴マップに分類することで,隣接するテキストインスタンスを分離することができる。 具体的には、kpnは各テキスト画像のガウス中心マップを予測し、対応するキーポイント位置に応じて埋め込み特徴マップから一連の候補カーネル提案(動的畳み込みカーネル)を抽出する。 カーネル提案間の独立性を確保するために,直交制約による新しい直交学習損失(OLL)を提案する。 具体的には,ネットワークによって学習される重要な自己情報と位置埋め込みによる位置情報を含むカーネルの提案を行う。 最後に、カーネルの提案は、テキストインスタンスの個々の埋め込みマップを生成するためのすべての埋め込み機能マップを個別に展開する。 このようにして、我々のKPNは、近隣のテキストインスタンスを効果的に分離し、未知の境界に対する堅牢性を改善することができる。 本研究は,テキスト検出における隣接するテキストインスタンスの密着性問題に効率的かつ効果的に取り組むために,動的畳み込みカーネル戦略を導入する最初の試みである。 挑戦的データセットの実験結果から,本手法の優れた性能と効率性が確認された。 コードとモデルはhttps://github.com/gxym/kpnで入手できる。

Segmentation-based methods have achieved great success for arbitrary shape text detection. However, separating neighboring text instances is still one of the most challenging problems due to the complexity of texts in scene images. In this paper, we propose an innovative Kernel Proposal Network (dubbed KPN) for arbitrary shape text detection. The proposed KPN can separate neighboring text instances by classifying different texts into instance-independent feature maps, meanwhile avoiding the complex aggregation process existing in segmentation-based arbitrary shape text detection methods. To be concrete, our KPN will predict a Gaussian center map for each text image, which will be used to extract a series of candidate kernel proposals (i.e., dynamic convolution kernel) from the embedding feature maps according to their corresponding keypoint positions. To enforce the independence between kernel proposals, we propose a novel orthogonal learning loss (OLL) via orthogonal constraints. Specifically, our kernel proposals contain important self-information learned by network and location information by position embedding. Finally, kernel proposals will individually convolve all embedding feature maps for generating individual embedded maps of text instances. In this way, our KPN can effectively separate neighboring text instances and improve the robustness against unclear boundaries. To our knowledge, our work is the first to introduce the dynamic convolution kernel strategy to efficiently and effectively tackle the adhesion problem of neighboring text instances in text detection. Experimental results on challenging datasets verify the impressive performance and efficiency of our method. The code and model are available at https://github.com/GXYM/KPN.
翻訳日:2023-06-22 06:27:30 公開日:2023-06-20
# QGNN:グラフニューラルネットワークによる値関数の分解

QGNN: Value Function Factorisation with Graph Neural Networks ( http://arxiv.org/abs/2205.13005v2 )

ライセンス: Link先を確認
Ryan Kortvelesy and Amanda Prorok(参考訳) マルチエージェント強化学習において、グローバルな目的の利用は協力を促す強力なツールである。 残念ながら、個々のエージェントの個々のアクションと必ずしも相関しないため、グローバルな報酬で個々のエージェントを訓練するのはサンプル効率ではない。 この問題は、グローバル値関数を局所値関数に分解することで解決できる。 この領域の初期の研究は、ローカル情報に純粋に局所値関数を条件付けることで分解を行った。 近年,地域情報の提供とグローバル状態のエンコーディングが協調行動を促進することが示されている。 本稿では,グラフニューラルネットワーク(GNN)モデルを用いた最初の値分解手法であるQGNNを提案する。 QGNNの多層メッセージパッシングアーキテクチャは、以前の作業のモデルよりも表現の複雑さを増し、より効果的な分解を生み出す。 QGNNは、パラメータが大幅に少ない場合でも、他のメソッドのパフォーマンスにマッチできる置換不変ミキサも導入している。 提案手法は,QMIX-Att,GraphMIX,QMIX,VDN,ハイブリッドアーキテクチャなど,いくつかのベースラインに対して評価する。 私たちの実験には、クレジット割り当ての標準ベンチマークであるStarcraft、エージェント間の依存関係を明示的にモデル化するカスタム環境であるEstimate Game、現実世界のアプリケーションにおける基本的な問題であるCoalition Structure Generationが含まれています。 その結果、QGNNは最先端の値分解基準を一貫して上回ることがわかった。

In multi-agent reinforcement learning, the use of a global objective is a powerful tool for incentivising cooperation. Unfortunately, it is not sample-efficient to train individual agents with a global reward, because it does not necessarily correlate with an agent's individual actions. This problem can be solved by factorising the global value function into local value functions. Early work in this domain performed factorisation by conditioning local value functions purely on local information. Recently, it has been shown that providing both local information and an encoding of the global state can promote cooperative behaviour. In this paper we propose QGNN, the first value factorisation method to use a graph neural network (GNN) based model. The multi-layer message passing architecture of QGNN provides more representational complexity than models in prior work, allowing it to produce a more effective factorisation. QGNN also introduces a permutation invariant mixer which is able to match the performance of other methods, even with significantly fewer parameters. We evaluate our method against several baselines, including QMIX-Att, GraphMIX, QMIX, VDN, and hybrid architectures. Our experiments include Starcraft, the standard benchmark for credit assignment; Estimate Game, a custom environment that explicitly models inter-agent dependencies; and Coalition Structure Generation, a foundational problem with real-world applications. The results show that QGNN outperforms state-of-the-art value factorisation baselines consistently.
翻訳日:2023-06-22 06:17:48 公開日:2023-06-20
# 境界トランスフォーマによる任意形状テキスト検出

Arbitrary Shape Text Detection via Boundary Transformer ( http://arxiv.org/abs/2205.05320v4 )

ライセンス: Link先を確認
Shi-Xue Zhang, Chun Yang, Xiaobin Zhu, Xu-Cheng Yin(参考訳) 任意の形状のテキスト検出では、正確なテキスト境界の特定が困難かつ自明である。 既存の方法は間接的なテキスト境界モデリングや複雑な後処理に悩まされることが多い。 本稿では,任意の形状のテキスト検出のための境界学習により,後処理を伴わずにテキスト境界を正確にかつ効率的に特定できる統一的な粗粒度フレームワークを提案する。 提案手法では,イノベーティブな反復的境界変換器を用いてテキスト境界を粗い方法で明示的にモデル化する。 このようにして、本手法はテキスト境界を直接取得し、複雑な後処理を放棄して効率を向上することができる。 具体的には,主に特徴抽出バックボーン,境界提案モジュール,反復的に最適化された境界変圧器モジュールから構成される。 多層拡張畳み込みからなる境界提案モジュールは、境界トランスフォーマの最適化を導いながら粗い境界提案を生成するために重要な事前情報(分類マップ、距離フィールド、方向フィールドを含む)を計算する。 境界トランスフォーマモジュールは、エンコーダ-デコーダ構造を採用しており、エンコーダは、単純な多層パーセプトロンネットワーク(mlp)である一方、残留接続のある多層トランスフォーマブロックで構成されている。 事前情報のガイダンスにより、境界変圧器モジュールは、反復的な境界変形を通じて、粗い境界提案を徐々に洗練する。 さらに, エネルギー最小化制約とエネルギー単調減少制約を導入する新しい境界エネルギー損失(bel)を提案し, 境界細分化の学習をさらに最適化し, 安定化する。 公開および挑戦的なデータセットに関する大規模な実験は、我々の手法の最先端性能と有望な効率を実証している。

In arbitrary shape text detection, locating accurate text boundaries is challenging and non-trivial. Existing methods often suffer from indirect text boundary modeling or complex post-processing. In this paper, we systematically present a unified coarse-to-fine framework via boundary learning for arbitrary shape text detection, which can accurately and efficiently locate text boundaries without post-processing. In our method, we explicitly model the text boundary via an innovative iterative boundary transformer in a coarse-to-fine manner. In this way, our method can directly gain accurate text boundaries and abandon complex post-processing to improve efficiency. Specifically, our method mainly consists of a feature extraction backbone, a boundary proposal module, and an iteratively optimized boundary transformer module. The boundary proposal module consisting of multi-layer dilated convolutions will compute important prior information (including classification map, distance field, and direction field) for generating coarse boundary proposals while guiding the boundary transformer's optimization. The boundary transformer module adopts an encoder-decoder structure, in which the encoder is constructed by multi-layer transformer blocks with residual connection while the decoder is a simple multi-layer perceptron network (MLP). Under the guidance of prior information, the boundary transformer module will gradually refine the coarse boundary proposals via iterative boundary deformation. Furthermore, we propose a novel boundary energy loss (BEL) which introduces an energy minimization constraint and an energy monotonically decreasing constraint to further optimize and stabilize the learning of boundary refinement. Extensive experiments on publicly available and challenging datasets demonstrate the state-of-the-art performance and promising efficiency of our method.
翻訳日:2023-06-22 06:17:09 公開日:2023-06-20
# 多目的物体検出のためのグラフ融合ネットワーク

Graph Fusion Network for Multi-Oriented Object Detection ( http://arxiv.org/abs/2205.03562v3 )

ライセンス: Link先を確認
Shi-Xue Zhang, Xiaobin Zhu, Jie-Bo Hou, Xu-Cheng Yin(参考訳) オブジェクト検出では、検出された高密度ボックスの水平重複を除去して最終オブジェクトインスタンスを生成するために、非最大抑圧(NMS)法が広く採用されている。 しかしながら、密集した検出ボックスの品質が低下し、コンテキスト情報の明示的な探索は行わないため、単純なintersection-over-union(iou)メトリクスによる既存のnmsメソッドは、多目的および長大のオブジェクト検出に過小評価される傾向がある。 重複除去による一般的なNMS手法を駆使して,多目的物体検出のための新しいグラフ融合ネットワークGFNetを提案する。 我々のGFNetは拡張可能で適応的に高密度検出ボックスを融合し、より正確で総合的な多目的オブジェクトインスタンスを検出する。 具体的には,まず,局所性に着目したクラスタリングアルゴリズムを適用し,密度の高い検出ボックスを異なるクラスタにグループ化する。 1つのクラスタに属する検出ボックスのインスタンスサブグラフを構築します。 そこで我々は,グラフ畳み込みネットワーク(GCN)を用いたグラフベースの融合ネットワークを提案する。 マルチ指向テキストデータセット(msra-td500, icdar2015, icdar2017-mlt)とマルチ指向オブジェクトデータセット(dota)の両方において, 提案手法の有効性と頑健性を検証した。

In object detection, non-maximum suppression (NMS) methods are extensively adopted to remove horizontal duplicates of detected dense boxes for generating final object instances. However, due to the degraded quality of dense detection boxes and not explicit exploration of the context information, existing NMS methods via simple intersection-over-union (IoU) metrics tend to underperform on multi-oriented and long-size objects detection. Distinguishing with general NMS methods via duplicate removal, we propose a novel graph fusion network, named GFNet, for multi-oriented object detection. Our GFNet is extensible and adaptively fuse dense detection boxes to detect more accurate and holistic multi-oriented object instances. Specifically, we first adopt a locality-aware clustering algorithm to group dense detection boxes into different clusters. We will construct an instance sub-graph for the detection boxes belonging to one cluster. Then, we propose a graph-based fusion network via Graph Convolutional Network (GCN) to learn to reason and fuse the detection boxes for generating final instance boxes. Extensive experiments both on public available multi-oriented text datasets (including MSRA-TD500, ICDAR2015, ICDAR2017-MLT) and multi-oriented object datasets (DOTA) verify the effectiveness and robustness of our method against general NMS methods in multi-oriented object detection.
翻訳日:2023-06-22 06:16:42 公開日:2023-06-20
# リモートセンシング画像分類のためのマルチモーダル核融合トランス

Multimodal Fusion Transformer for Remote Sensing Image Classification ( http://arxiv.org/abs/2203.16952v2 )

ライセンス: Link先を確認
Swalpa Kumar Roy, Ankur Deria, Danfeng Hong, Behnood Rasti, Antonio Plaza, Jocelyn Chanussot(参考訳) 視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクのトレンドとなっている。 その結果、多くの研究者が高スペクトル画像(HSI)分類タスクにViTを組み込もうとしている。 CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。 ViTや他の類似のトランスフォーマーは、ランダムに初期化され、しばしば一般化に失敗する外部分類(CLS)トークンを使用しているが、光の検出や測度(LiDAR)などのマルチモーダルデータセットの他のソースは、CLSを用いてこれらのモデルを改善する可能性を提供している。 本稿では,HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを提案する。 我々のmCrossPAは、変換器エンコーダのHSIに加えて、他の補完情報ソースを利用して、より優れた一般化を実現している。 トークン化の概念は、CLSとHSIパッチトークンの生成に使われ、縮小された階層的な特徴空間で {distinctive representation} を学ぶのに役立つ。 ヒューストン大学、トレント大学、ミシシッピ州南ガルフパーク大学(muufl)、アウクスブルク校の『広範囲に使われているベンチマーク』データセットで広範な実験が行われている。 MFTモデルと他の最先端変換器,古典的CNN,従来の分類器モデルとの比較を行った。 提案モデルにより達成された優れた性能はマルチヘッドクロスパッチアテンションの利用によるものである。 ソースコードは \url{https://github.com/AnkurDeria/MFT} で公開されている。 }

Vision transformers (ViTs) have been trending in image classification tasks due to their promising performance when compared to convolutional neural networks (CNNs). As a result, many researchers have tried to incorporate ViTs in hyperspectral image (HSI) classification tasks. To achieve satisfactory performance, close to that of CNNs, transformers need fewer parameters. ViTs and other similar transformers use an external classification (CLS) token which is randomly initialized and often fails to generalize well, whereas other sources of multimodal datasets, such as light detection and ranging (LiDAR) offer the potential to improve these models by means of a CLS. In this paper, we introduce a new multimodal fusion transformer (MFT) network which comprises a multihead cross patch attention (mCrossPA) for HSI land-cover classification. Our mCrossPA utilizes other sources of complementary information in addition to the HSI in the transformer encoder to achieve better generalization. The concept of tokenization is used to generate CLS and HSI patch tokens, helping to learn a {distinctive representation} in a reduced and hierarchical feature space. Extensive experiments are carried out on {widely used benchmark} datasets {i.e.,} the University of Houston, Trento, University of Southern Mississippi Gulfpark (MUUFL), and Augsburg. We compare the results of the proposed MFT model with other state-of-the-art transformers, classical CNNs, and conventional classifiers models. The superior performance achieved by the proposed model is due to the use of multihead cross patch attention. The source code will be made available publicly at \url{https://github.com/AnkurDeria/MFT}.}
翻訳日:2023-06-22 06:15:42 公開日:2023-06-20
# UAV誘導計画のための説明可能な深層強化学習に基づくロバスト攻撃検出

Robust Adversarial Attacks Detection based on Explainable Deep Reinforcement Learning For UAV Guidance and Planning ( http://arxiv.org/abs/2206.02670v4 )

ライセンス: Link先を確認
Thomas Hickling, Nabil Aouf and Phillippa Spencer(参考訳) 民間で活動する無人航空機(UAV)エージェントに対する敵攻撃の危険性が高まっている。 AIベースのテクニックを採用し、より具体的には、これらのUAVを制御し、ガイドするためのディープラーニング(DL)アプローチを採用することは、パフォーマンスの観点からは有益であるが、これらのテクニックの安全性と敵の攻撃に対する脆弱性に関する懸念を追加することができる。 これらの攻撃によるエージェントの意思決定プロセスの混乱は、UAVの安全性に深刻な影響を及ぼす可能性がある。 本稿では、これらのDLスキームとUAVを攻撃から保護する効率的な検出器を構築するためのDL法の説明可能性に基づく革新的なアプローチを提案する。 エージェントは、ガイダンスと計画のためのDeep Reinforcement Learning(DRL)スキームを採用する。 エージェントは、人工電位場(APF)を利用してトレーニング時間と障害物回避性能を改善する優先経験再生(PER)DRLスキームを用いて、DDPG(Deep Deterministic Policy Gradient)を用いて訓練される。 UAVの説明可能なDRLベースの計画と指導のためのシミュレーション環境が構築されている。 敵攻撃は, 基本反復法(BIM)アルゴリズムにより発生し, 障害物コース完了率を97 %から35 %に下げる。 この減少に対抗するために2つの対向攻撃検出器が提案されている。 ひとつは畳み込みニューラルネットワークの逆検出器(cnn-ad)で、80\%の精度を実現している。 第2検出器はLong Short Term Memory (LSTM)ネットワークを利用する。 CNN-ADよりも高速な計算時間で91\%の精度を実現し、リアルタイムの敵検出を可能にする。

The dangers of adversarial attacks on Uncrewed Aerial Vehicle (UAV) agents operating in public are increasing. Adopting AI-based techniques and, more specifically, Deep Learning (DL) approaches to control and guide these UAVs can be beneficial in terms of performance but can add concerns regarding the safety of those techniques and their vulnerability against adversarial attacks. Confusion in the agent's decision-making process caused by these attacks can seriously affect the safety of the UAV. This paper proposes an innovative approach based on the explainability of DL methods to build an efficient detector that will protect these DL schemes and the UAVs adopting them from attacks. The agent adopts a Deep Reinforcement Learning (DRL) scheme for guidance and planning. The agent is trained with a Deep Deterministic Policy Gradient (DDPG) with Prioritised Experience Replay (PER) DRL scheme that utilises Artificial Potential Field (APF) to improve training times and obstacle avoidance performance. A simulated environment for UAV explainable DRL-based planning and guidance, including obstacles and adversarial attacks, is built. The adversarial attacks are generated by the Basic Iterative Method (BIM) algorithm and reduced obstacle course completion rates from 97\% to 35\%. Two adversarial attack detectors are proposed to counter this reduction. The first one is a Convolutional Neural Network Adversarial Detector (CNN-AD), which achieves accuracy in the detection of 80\%. The second detector utilises a Long Short Term Memory (LSTM) network. It achieves an accuracy of 91\% with faster computing times compared to the CNN-AD, allowing for real-time adversarial detection.
翻訳日:2023-06-22 06:07:06 公開日:2023-06-20
# 皮膚病変分節の深層学習に関する調査研究

A Survey on Deep Learning for Skin Lesion Segmentation ( http://arxiv.org/abs/2206.00356v3 )

ライセンス: Link先を確認
Zahra Mirikharaji, Kumar Abhishek, Alceu Bissoto, Catarina Barata, Sandra Avila, Eduardo Valle, M. Emre Celebi, Ghassan Hamarneh(参考訳) 皮膚がんは、この一般的な疾患の負担を軽減するためにコンピュータ支援診断の恩恵を受ける主要な公衆衛生上の問題である。 画像からの皮膚病変のセグメンテーションはこの目標を達成するための重要なステップである。 しかし、天然や人工のアーティファクト(例えば、毛髪や気泡)、本質的要因(例えば、病変の形やコントラスト)、画像取得条件の変化により、皮膚病変のセグメンテーションは困難な課題となっている。 近年,深層学習モデルの皮膚病変分類への適用性について検討している。 本調査では,深層学習に基づく皮膚病変の分類を扱う177件の研究論文を交互に検討した。 入力データ(データセット、前処理、合成データ生成)、モデル設計(アーキテクチャ、モジュール、損失)、評価側面(データアノテーション要件、セグメンテーション性能)など、いくつかの次元でこれらの動作を分析した。 本論では,選択した選択が現在の傾向にどのように影響したのか,その限界にどう対処すべきかを,体系的な観点から考察する。 比較を容易にするため、網羅的な表とhttps://github.com/sfu-mial/skin-lesion-segmentation-survey.comで利用可能な対話型表をまとめた。

Skin cancer is a major public health problem that could benefit from computer-aided diagnosis to reduce the burden of this common disease. Skin lesion segmentation from images is an important step toward achieving this goal. However, the presence of natural and artificial artifacts (e.g., hair and air bubbles), intrinsic factors (e.g., lesion shape and contrast), and variations in image acquisition conditions make skin lesion segmentation a challenging task. Recently, various researchers have explored the applicability of deep learning models to skin lesion segmentation. In this survey, we cross-examine 177 research papers that deal with deep learning-based segmentation of skin lesions. We analyze these works along several dimensions, including input data (datasets, preprocessing, and synthetic data generation), model design (architecture, modules, and losses), and evaluation aspects (data annotation requirements and segmentation performance). We discuss these dimensions both from the viewpoint of select seminal works, and from a systematic viewpoint, examining how those choices have influenced current trends, and how their limitations should be addressed. To facilitate comparisons, we summarize all examined works in a comprehensive table as well as an interactive table available online at https://github.com/sfu-mial/skin-lesion-segmentation-survey.
翻訳日:2023-06-22 06:06:37 公開日:2023-06-20
# 位相的領域壁を介する高速量子移動

Fast quantum transfer mediated by topological domain walls ( http://arxiv.org/abs/2208.00797v4 )

ライセンス: Link先を確認
Juan Zurita, Charles E. Creffield and Gloria Platero(参考訳) 1次元位相モデルにおける双方向転送プロトコルの持続時間は、通常、距離とともに指数関数的にスケールする。 本研究では,マルチドメインSSHチェーンとクロイツはしごの転送プロトコルを提案する。これは指数的依存をなくし,単一ドメインに対するプロセスを大幅に高速化し,エラーの蓄積を低減し,対称性破壊障害があってもその性能を大幅に向上させる。 また,各ドメイン壁ごとに2つのローカライズモードを持つcreutzラダーのローカライズ特性を利用して,トランスファープロトコル中に交換されるラダーに沿った2つの状態を,中間壁に位置する状態を乱すことなく選択する方法についても検討した。 これは、量子情報目的に役立つすべての接続性を持つ1dネットワークを提供する。

The duration of bidirectional transfer protocols in 1D topological models usually scales exponentially with distance. In this work, we propose transfer protocols in multidomain SSH chains and Creutz ladders that lose the exponential dependence, greatly speeding up the process with respect to their single-domain counterparts, reducing the accumulation of errors and drastically increasing their performance, even in the presence of symmetry-breaking disorder. We also investigate how to harness the localization properties of the Creutz ladder-with two localized modes per domain wall-to choose the two states along the ladder that will be swapped during the transfer protocol, without disturbing the states located in the intermediate walls between them. This provides a 1D network with all-to-all connectivity that can be helpful for quantum information purposes.
翻訳日:2023-06-22 05:58:23 公開日:2023-06-20
# データ駆動アプローチによるソフトウェア脆弱性評価の理解向上に向けて

Towards an Improved Understanding of Software Vulnerability Assessment Using Data-Driven Approaches ( http://arxiv.org/abs/2207.11708v3 )

ライセンス: Link先を確認
Triet H. M. Le(参考訳) 論文は、データ駆動アプローチを用いたソフトウェア脆弱性評価の知識と自動化サポートを提供することで、ソフトウェアセキュリティの分野を前進させる。 ソフトウェア脆弱性評価は、野生の危険なサイバー攻撃を防ぎ、緩和するために重要かつ多面的な情報を提供する。 主な貢献は、知識の体系化と、新しいデータ駆動技術と、この分野の研究者や実践者のための実践的なレコメンデーションである。 この論文は、現実世界のソフトウェアシステムにおける脆弱性を継続的に評価するプラクティスの理解とインフォメーションを改善するのに役立つ。 これにより、これらの重要なセキュリティ問題の優先順位付けと計画をより徹底的かつタイムリーに修正することができる。

The thesis advances the field of software security by providing knowledge and automation support for software vulnerability assessment using data-driven approaches. Software vulnerability assessment provides important and multifaceted information to prevent and mitigate dangerous cyber-attacks in the wild. The key contributions include a systematisation of knowledge, along with a suite of novel data-driven techniques and practical recommendations for researchers and practitioners in the area. The thesis results help improve the understanding and inform the practice of assessing ever-increasing vulnerabilities in real-world software systems. This in turn enables more thorough and timely fixing prioritisation and planning of these critical security issues.
翻訳日:2023-06-22 05:57:35 公開日:2023-06-20
# 偶発的攻撃: 逐次的意思決定者に対する敵攻撃における検出可能性の問題

Illusory Attacks: Detectability Matters in Adversarial Attacks on Sequential Decision-Makers ( http://arxiv.org/abs/2207.10170v3 )

ライセンス: Link先を確認
Tim Franzmeyer, Stephen McAleer, Jo\~ao F. Henriques, Jakob N. Foerster, Philip H.S. Torr, Adel Bibi, Christian Schroeder de Witt(参考訳) 現実世界に展開する自律エージェントは、感覚入力に対する敵対的な攻撃に対して堅牢でなければならない。 ロバスティフィケーション・エージェント・ポリシーは可能な限り最強の攻撃を予想する必要がある。 我々は、強化学習エージェントに対する既存の観測空間攻撃は共通の弱点があることを示し、その効果はあるものの、時間的整合性の欠如により、自動的な手段や人間の検査によって検出できることを示した。 検出性は、セキュリティエスカレーションを引き起こす可能性があるため、敵にとっては望ましくない。 提案手法は,有効かつ統計的に検出不可能な逐次的意思決定者に対する新たな攻撃形態である完全照準攻撃を導入する。 次に,より汎用的なr-アタックを提案する。これは逆境のない環境の状態遷移関数と一致し,エンドツーエンドで学習できる観察遷移をもたらす。 既存の攻撃と比較すると、r攻撃は自動的な方法で検出するのがかなり難しいと経験的に感じており、人間との小さな研究によると、人間にも検出が困難であることが示唆されている。 混合自律度設定に対する敵対的攻撃の研究において、非検出性は中心的な関心事であるべきである。

Autonomous agents deployed in the real world need to be robust against adversarial attacks on sensory inputs. Robustifying agent policies requires anticipating the strongest attacks possible. We demonstrate that existing observation-space attacks on reinforcement learning agents have a common weakness: while effective, their lack of temporal consistency makes them detectable using automated means or human inspection. Detectability is undesirable to adversaries as it may trigger security escalations. We introduce perfect illusory attacks, a novel form of adversarial attack on sequential decision-makers that is both effective and provably statistically undetectable. We then propose the more versatile R-attacks, which result in observation transitions that are consistent with the state-transition function of the adversary-free environment and can be learned end-to-end. Compared to existing attacks, we empirically find R-attacks to be significantly harder to detect with automated methods, and a small study with human subjects suggests they are similarly harder to detect for humans. We propose that undetectability should be a central concern in the study of adversarial attacks on mixed-autonomy settings.
翻訳日:2023-06-22 05:57:25 公開日:2023-06-20
# 多言語多言語・多言語議会音声分析

Multi-aspect Multilingual and Cross-lingual Parliamentary Speech Analysis ( http://arxiv.org/abs/2207.01054v2 )

ライセンス: Link先を確認
Kristian Miok, Encarnacion Hidalgo-Tenorio, Petya Osenova, Miguel-Angel Benitez-Castro and Marko Robnik-Sikonja(参考訳) 議会と立法の議論は、選出された政治家の意見、地位、および政策の好みに関する情報的な洞察を与える。 政治や社会科学だけでなく、言語学や自然言語処理(nlp)の研究でも興味深い。 従来の研究では、2017年から2020年にかけて、各国議会(ブルガリア、チェコ、フランス、スロベニア、スペイン、イギリス)の合同および比較分析に先進的なNLP法を適用している。 本研究では,ParlaMintデータセットからのテキスト中の感情や感情を分析し,発話から話者の年齢,性別,政治的指向を検出することができるかどうかを評価する。 その結果,分析国間での共通点や驚くべき相違点が認められた。

Parliamentary and legislative debate transcripts provide informative insight into elected politicians' opinions, positions, and policy preferences. They are interesting for political and social sciences as well as linguistics and natural language processing (NLP) research. While existing research studied individual parliaments, we apply advanced NLP methods to a joint and comparative analysis of six national parliaments (Bulgarian, Czech, French, Slovene, Spanish, and United Kingdom) between 2017 and 2020. We analyze emotions and sentiment in the transcripts from the ParlaMint dataset collection and assess if the age, gender, and political orientation of speakers can be detected from their speeches. The results show some commonalities and many surprising differences among the analyzed countries.
翻訳日:2023-06-22 05:56:25 公開日:2023-06-20
# 単一光子状態の量子ホログラフィー

Quantum holography with single-photon states ( http://arxiv.org/abs/2209.00431v2 )

ライセンス: Link先を確認
Denis Abramovi\'c, Nazif Demoli, Mario Stip\v{c}evi\'c, Hrvoje Skenderovi\'c(参考訳) 単光子状態による位相の検索は、根本的な技術的挑戦である。 本報告では, ホログラム記録の初回実験を行い, 単光子照明と光子統計の連続観測を行った。 これにより、古典波理論では説明できない単光子状態を持つホログラフィの基本原理を示す。 検出器のノイズの200倍以上の弱い照明条件下では、単光子源で記録されたホログラム(インターフェログラム)により、非遮蔽光で見えない物体とわずかに高い強度が示された。 ヘラルド単光子源による振幅・位相情報の検索における劇的な改善は、双光子と小さな一致時間窓との非古典的時間相関によるノイズの強い抑制によって説明できる。 この方法は、強いノイズの存在下での振幅および位相情報の記録と取得、カバートイメージング、および感光性生体および材料試料のイメージングに有用である。

The retrieval of the phase with single-photon states is a fundamental and technical challenging endeavor. Here we report the first experimental realization of hologram recordings with heralded single-photon illumination and continuous observation of photon statistics. Thereby, we demonstrate the basic principle of holography with single-photon states which cannot be described with the classical wave theory. Under conditions with illumination more than 200 times weaker than the noise of the detector, a hologram (interferogram) recorded with a heralded single-photon source revealed an object not visible with non-heralded illumination and slightly higher intensity. The dramatic improvement in retrieval of amplitude and phase information achieved with the heralded single-photon source can be explained by the strong suppression of noise due to the nonclassical temporal correlation between twin photons and the small coincidence time window. The method could be useful for recording and retrieving of amplitude and phase information in the presence of strong noise, for covert imaging, and for imaging of photosensitive biological and material samples.
翻訳日:2023-06-22 05:47:57 公開日:2023-06-20
# 六方晶窒化ホウ素における黄色の単一光子発光炭素錯体の局在生成

Localized creation of yellow single photon emitting carbon complexes in hexagonal boron nitride ( http://arxiv.org/abs/2208.13488v2 )

ライセンス: Link先を確認
Anand Kumar, Chanaprom Cholsuk, Ashkan Zand, Mohammad N. Mishuk, Tjorben Matthes, Falk Eilenberger, Sujin Suwanna, Tobias Vogl(参考訳) 固体結晶中の単一光子エミッタは、多くの量子技術応用のためのビルディングブロックとして多くの注目を集めている。 六方晶窒化ホウ素 (hBN) の蛍光欠陥は, 室温での高い光度とロバストな操作により顕著である。 事前定義された場所での同一のエミッタ製造は依然として困難であり、光学系や電気光学デバイスへのこれらの欠陥の統合を阻害している。 本稿では, 走査型電子顕微鏡を用いた電子線照射によるhBNエミッタアレイの局所化について述べる。 エミッタは高い収率で作成され、再現可能なスペクトルは575nmでピークとなる。 光学的に検出された磁気共鳴の測定では、スピン状態は明らかにされていない。 密度汎関数理論を用いて、実験的に観測された放出線を電子ビームによって活性化される炭素関連欠陥に分類する。 我々のスケーラブルなアプローチは、集積量子デバイスに室温単一光子エミッタを作製するための有望な経路を提供する。

Single photon emitters in solid-state crystals have received a lot of attention as building blocks for numerous quantum technology applications. Fluorescent defects in hexagonal boron nitride (hBN) stand out due to their high luminosity and robust operation at room temperature. The identical emitter fabrication at pre-defined sites is still challenging, which hampers the integration of these defects in optical systems and electro-optical devices. Here, we demonstrate the localized fabrication of hBN emitter arrays by electron beam irradiation using a standard scanning electron microscope with deep sub-micron lateral precision. The emitters are created with a high yield and a reproducible spectrum peaking at 575 nm. Our measurements of optically detected magnetic resonance have not revealed any addressable spin states. Using density functional theory, we attribute the experimentally observed emission lines to carbon-related defects, which are activated by the electron beam. Our scalable approach provides a promising pathway for fabricating room temperature single photon emitters in integrated quantum devices.
翻訳日:2023-06-22 05:47:41 公開日:2023-06-20
# 異なる量子チャネル下でのTavis-Cummingsモデルの準確率分布に関する研究

A study of the quasi-probability distributions of the Tavis-Cummings model under different quantum channels ( http://arxiv.org/abs/2208.04037v2 )

ライセンス: Link先を確認
Devvrat Tiwari and Subhashish Banerjee(参考訳) 準確率分布関数と二階コヒーレンス関数を用いたTavis-Cummingsモデルのスピン場とキャビティ場のダイナミクスについて検討した。 非)マルコフ雑音の影響について考察する。 異なる量子チャネル下でのキャビティフォトン数、スピン励起、原子反転の進化の関係が観察された。 等時二階コヒーレンス関数は光のサブポアソン的挙動を研究するために用いられ、共振器放射の(反)バンチ特性を強調するために2時間二階コヒーレンス関数と比較される。

We study the dynamics of the spin and cavity field of the Tavis-Cummings model using quasi-probability distribution functions and second order coherence function, respectively. The effects of (non)-Markovian noise are considered. The relationship between the evolution of the cavity photon number, spin excitation, and atomic inversion under different quantum channels is observed. The equal-time second-order coherence function is used to study the sub-Poissonian behavior of light, and is compared with the two-time second-order coherence function in order to highlight the (anti)-bunching properties of the cavity radiation.
翻訳日:2023-06-22 05:46:37 公開日:2023-06-20
# ジョイントステップセグメンテーションとキーアクションスコアによる手指衛生評価

Hand Hygiene Assessment via Joint Step Segmentation and Key Action Scorer ( http://arxiv.org/abs/2209.12221v4 )

ライセンス: Link先を確認
Chenglong Li, Qiwen Zhu, Tubiao Liu, Jin Tang, and Yu Su(参考訳) ハンドヘルス(hand hygiene)は、世界保健機関(who)が提唱する6段階の手洗い作業である。 しかし、医療スタッフが手指衛生を行うのを監督する良い方法がないため、疾患の拡散リスクが高まる可能性がある。 既存のアクションアセスメント作業は通常、ビデオ全体の全体的な品質予測を行う。 しかし,手衛生行動の内部構造は手衛生評価において重要である。 そこで本稿では, ステップセグメンテーションとキーアクションスコアラを協調的に行うための, より詳細な学習フレームワークを提案する。 既存の時間分割法は通常、分割の堅牢性を改善するために多段階の畳み込みネットワークを用いるが、長距離依存の欠如により容易にオーバーセグメンテーションにつながる。 この問題に対処するために,ステップセグメンテーションのための多段畳み込み変換ネットワークを設計する。 各手洗い工程が手洗い品質を決定するいくつかのキーアクションを含むという観察に基づいて,各ステップにおけるキーアクションの品質を評価するために,キーアクションスコアのセットを設計する。 さらに、手動衛生評価の統一データセットが欠如している。 そこで、医療スタッフの監督のもと、300の動画シーケンスと細かいアノテーションを含むビデオデータセットをコントリビュートする。 本手法は手指の衛生映像を良好に評価し,優れた性能を発揮することを示唆する。

Hand hygiene is a standard six-step hand-washing action proposed by the World Health Organization (WHO). However, there is no good way to supervise medical staff to do hand hygiene, which brings the potential risk of disease spread. Existing action assessment works usually make an overall quality prediction on an entire video. However, the internal structures of hand hygiene action are important in hand hygiene assessment. Therefore, we propose a novel fine-grained learning framework to perform step segmentation and key action scorer in a joint manner for accurate hand hygiene assessment. Existing temporal segmentation methods usually employ multi-stage convolutional network to improve the segmentation robustness, but easily lead to over-segmentation due to the lack of the long-range dependence. To address this issue, we design a multi-stage convolution-transformer network for step segmentation. Based on the observation that each hand-washing step involves several key actions which determine the hand-washing quality, we design a set of key action scorers to evaluate the quality of key actions in each step. In addition, there lacks a unified dataset in hand hygiene assessment. Therefore, under the supervision of medical staff, we contribute a video dataset that contains 300 video sequences with fine-grained annotations. Extensive experiments on the dataset suggest that our method well assesses hand hygiene videos and achieves outstanding performance.
翻訳日:2023-06-22 05:39:12 公開日:2023-06-20
# 中心スピン型量子プロセッサを用いたBCSモデルのディジタル量子シミュレーション

Digital quantum simulation of the BCS model with a central-spin-like quantum processor ( http://arxiv.org/abs/2209.09225v2 )

ライセンス: Link先を確認
Jannis Ruh, Regina Finsterhoelzl, Guido Burkard(参考訳) 量子システムのシミュレーションは、量子コンピュータの最も有望な応用の1つである。 本稿では,星型接続マップを用いた量子レジスタ上でのbcsモデルのディジタル量子シミュレーションを行うための量子アルゴリズムを提案する。 この問題を量子ハードウェアに効果的に翻訳し、量子ビット間のネイティブ相互作用のみを用いてアルゴリズムを実装する方法を示す。 さらに,回路の複雑さについても論じる。 我々は,その平均場基底状態を時間依存摂動に従えば,BCSモデルの力学をシミュレーションするためにアルゴリズムを用いる。 量子シミュレーションアルゴリズムは古典シミュレーションを用いて研究される。

The simulation of quantum systems is one of the most promising applications of quantum computers. In this paper we present a quantum algorithm to perform digital quantum simulations of the BCS model on a quantum register with a star shaped connectivity map, as it is, e.g., featured by color centers in diamond. We show how to effectively translate the problem onto the quantum hardware and implement the algorithm using only the native interactions between the qubits. Furthermore we discuss the complexity of the circuit. We use the algorithm to simulate the dynamics of the BCS model by subjecting its mean-field ground state to a time-dependent perturbation. The quantum simulation algorithm is studied using a classical simulation.
翻訳日:2023-06-22 05:38:36 公開日:2023-06-20
# 介入密度推定のための正規化流れ

Normalizing Flows for Interventional Density Estimation ( http://arxiv.org/abs/2209.06203v5 )

ライセンス: Link先を確認
Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel(参考訳) 因果推論のための既存の機械学習手法は通常、潜在的な結果の平均(例えば平均的な治療効果)で表される量を推定する。 しかし、そのような量は潜在的な結果の分布に関する完全な情報を捉えていない。 本研究では,観察データから介入後の潜在的結果の密度を推定する。 そこで本研究では,介入正規化フローと呼ばれる新しい完全パラメトリック深層学習手法を提案する。 具体的には2つの正規化フロー、すなわち (i)迷惑パラメータを推定するための迷惑フローと (ii)潜在的な結果の密度をパラメトリックに推定するためのターゲットフロー。 さらに, 1 段階のバイアス補正に基づく移動性最適化目標を考案し, 目標流量パラメータの効率的かつ二重ロバストな推定を行う。 その結果、介入正規化フローは適切な正規化密度推定器を提供する。 種々の実験において, インターベンショナル正規化フローは表現的かつ高効率であり, サンプルサイズと高次元共起の両方でスケール可能であることを示した。 我々の知識を最大限に活用するために、我々のインターベンショナル正規化フローは、潜在的な結果の密度推定のための最初の適切な完全パラメトリック深層学習法である。

Existing machine learning methods for causal inference usually estimate quantities expressed via the mean of potential outcomes (e.g., average treatment effect). However, such quantities do not capture the full information about the distribution of potential outcomes. In this work, we estimate the density of potential outcomes after interventions from observational data. For this, we propose a novel, fully-parametric deep learning method called Interventional Normalizing Flows. Specifically, we combine two normalizing flows, namely (i) a nuisance flow for estimating nuisance parameters and (ii) a target flow for parametric estimation of the density of potential outcomes. We further develop a tractable optimization objective based on a one-step bias correction for efficient and doubly robust estimation of the target flow parameters. As a result, our Interventional Normalizing Flows offer a properly normalized density estimator. Across various experiments, we demonstrate that our Interventional Normalizing Flows are expressive and highly effective, and scale well with both sample size and high-dimensional confounding. To the best of our knowledge, our Interventional Normalizing Flows are the first proper fully-parametric, deep learning method for density estimation of potential outcomes.
翻訳日:2023-06-22 05:37:25 公開日:2023-06-20
# ギャップをブリッジする: 医用画像解析のための差分プライベートな等価深層学習

Bridging the Gap: Differentially Private Equivariant Deep Learning for Medical Image Analysis ( http://arxiv.org/abs/2209.04338v2 )

ライセンス: Link先を確認
Florian A. H\"olzl, Daniel Rueckert, Georgios Kaissis(参考訳) 差分プライバシー(DP)のような正式なプライバシー保護技術を用いた機械学習は、機密性の高い医療画像データから貴重な洞察を得ると同時に、患者のプライバシーを保護することを約束する。 本研究では,DPを用いた医用画像解析にステアブルな同変畳み込みネットワークを提案する。 機能品質とパラメータ効率の改善は、プライバシ利用のギャップを狭めながら、驚くべき精度向上をもたらす。

Machine learning with formal privacy-preserving techniques like Differential Privacy (DP) allows one to derive valuable insights from sensitive medical imaging data while promising to protect patient privacy, but it usually comes at a sharp privacy-utility trade-off. In this work, we propose to use steerable equivariant convolutional networks for medical image analysis with DP. Their improved feature quality and parameter efficiency yield remarkable accuracy gains, narrowing the privacy-utility gap.
翻訳日:2023-06-22 05:37:09 公開日:2023-06-20
# 治療の順序と成果からの政策介入の因果モデリング

Causal Modeling of Policy Interventions From Sequences of Treatments and Outcomes ( http://arxiv.org/abs/2209.04142v6 )

ライセンス: Link先を確認
\c{C}a\u{g}lar H{\i}zl{\i}, ST John, Anne Juuti, Tuure Saarinen, Kirsi Pietil\"ainen, Pekka Marttinen(参考訳) 治療方針は、いつ、どの治療が関心のある結果に影響を及ぼすかを定義する。 データ駆動意思決定は、ポリシーが変更されたときに何が起こるかを予測する能力を必要とする。 異なるシナリオの下で結果がどのように進化するかを予測する既存の方法は、将来の治療の仮のシーケンスが事前に固定されていると仮定し、実際には、治療はポリシーによって確率的に決定され、例えば、以前の治療の効率に依存する可能性がある。 したがって、治療方針が不明であったり、逆解析が必要な場合、現在の手法は適用されない。 これらの制限に対処するために,ガウス過程と点過程を組み合わせることで,処理と成果を連続的にモデル化する。 本モデルでは, 治療と結果の観察的シーケンスから治療方針を推定し, 治療方針への介入後の結果の介入的・反事実的進展を予測できる(単一治療の因果効果とは対照的に)。 血液グルコースの進行に関する実世界および半合成データを用いて,既存の方法よりも因果関係を正確に解答できることを示す。

A treatment policy defines when and what treatments are applied to affect some outcome of interest. Data-driven decision-making requires the ability to predict what happens if a policy is changed. Existing methods that predict how the outcome evolves under different scenarios assume that the tentative sequences of future treatments are fixed in advance, while in practice the treatments are determined stochastically by a policy and may depend, for example, on the efficiency of previous treatments. Therefore, the current methods are not applicable if the treatment policy is unknown or a counterfactual analysis is needed. To handle these limitations, we model the treatments and outcomes jointly in continuous time, by combining Gaussian processes and point processes. Our model enables the estimation of a treatment policy from observational sequences of treatments and outcomes, and it can predict the interventional and counterfactual progression of the outcome after an intervention on the treatment policy (in contrast with the causal effect of a single treatment). We show with real-world and semi-synthetic data on blood glucose progression that our method can answer causal queries more accurately than existing alternatives.
翻訳日:2023-06-22 05:36:57 公開日:2023-06-20
# 俳優か批評家か? 2つの時間スケールの物語

Actor-Critic or Critic-Actor? A Tale of Two Time Scales ( http://arxiv.org/abs/2210.04470v4 )

ライセンス: Link先を確認
Shalabh Bhatnagar, Vivek S. Borkar, Soumyajit Guin(参考訳) 本稿では,より高速な時間スケールで計算し,より遅い時間スケールで計算する値関数を用いた2つの時間スケール確率近似として,表型アクタ・クリティックアルゴリズムの標準的な定式化を再考する。 これはポリシーイテレーションをエミュレートする。 時間スケールの逆転が実際に値反復をエミュレートし、正当性のあるアルゴリズムであることを観察する。 関数近似法(線形関数近似法と非線形関数近似法の両方を用いて)を実験的に比較し,提案手法がアクター-批判法と精度と計算量の両方で同等の性能を発揮することを検証した。

We revisit the standard formulation of tabular actor-critic algorithm as a two time-scale stochastic approximation with value function computed on a faster time-scale and policy computed on a slower time-scale. This emulates policy iteration. We observe that reversal of the time scales will in fact emulate value iteration and is a legitimate algorithm. We provide a proof of convergence and compare the two empirically with and without function approximation (with both linear and nonlinear function approximators) and observe that our proposed critic-actor algorithm performs on par with actor-critic in terms of both accuracy and computational effort.
翻訳日:2023-06-22 05:27:24 公開日:2023-06-20
# 有限群の量子表現

Quantum representation of finite groups ( http://arxiv.org/abs/2209.15025v6 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 有限群の量子表現の概念はかなり長い間量子コンピューティングの基本的な側面であり、素数量子論理ゲートから有名なショアとグローバーのアルゴリズムまであらゆる分野において重要な役割を果たしてきた。 本稿では、この概念を群論と微分幾何学の両方を用いて形式的に定義する。 本研究は、任意の有限群に対する量子表現の存在を証明し、ユニタリ行列のゲート分解と変分量子アルゴリズムを利用して群の各生成元を量子回路に変換する2つの方法を概説する。 さらに,オープンアクセスプラットフォーム上での明示的な例の数値シミュレーションを行う。 最後に、隠れた部分群問題を解くアルゴリズムのゲートレベル実装におけるその役割を示すことによって、有限群の量子表現の有用性とポテンシャルを示す。

The concept of quantum representation of finite groups has been a fundamental aspect of quantum computing for quite some time, playing a role in every corner, from elementary quantum logic gates to the famous Shor's and Grover's algorithms. In this article, we provide a formal definition of this concept using both group theory and differential geometry. Our work proves the existence of a quantum representation for any finite group and outlines two methods for translating each generator of the group into a quantum circuit, utilizing gate decomposition of unitary matrices and variational quantum algorithms. Additionally, we provide numerical simulations of an explicit example on an open-access platform. Finally, we demonstrate the usefulness and potential of the quantum representation of finite groups by showing its role in the gate-level implementation of the algorithm that solves the hidden subgroup problem.
翻訳日:2023-06-22 05:26:32 公開日:2023-06-20
# Lifelong Bandit Optimization:前も後もなし、レグレットなし

Lifelong Bandit Optimization: No Prior and No Regret ( http://arxiv.org/abs/2210.15513v3 )

ライセンス: Link先を確認
Felix Schur, Parnian Kassraie, Jonas Rothfuss, Andreas Krause(参考訳) 機械学習アルゴリズムは、しばしば同様の構造を持つ問題に何度も適用される。 我々は,バンディット最適化の一連の課題を解決することに集中し,過去の経験から学習し,その過程でよりサンプル効率の高い環境適応アルゴリズムであるliboを開発した。 カーネルが未知だがすべてのタスク間で共有されるカーネル構造を仮定する。 LIBOは、真核を近似したカーネルを順次メタ学習し、最新のカーネル推定で入力タスクを解決する。 提案アルゴリズムは,任意のカーネル化あるいは線形バンディットアルゴリズムと組み合わせて,オラクル最適性能を保証する。つまり,タスク数が増えるにつれて,各タスクに対するLIBOの後悔は,真のカーネルのオラクル知識によるバンディットアルゴリズムの後悔に収束する。 当然、sublinear banditアルゴリズムとペアリングすれば、liboはsublinear lifelong regretとなる。 また,各タスクからのデータへの直接アクセスは,サブリニアな後悔を実現するために必要ではないことを示す。 本稿では,F-LIBOを提案する。

Machine learning algorithms are often repeatedly applied to problems with similar structure over and over again. We focus on solving a sequence of bandit optimization tasks and develop LIBO, an algorithm which adapts to the environment by learning from past experience and becomes more sample-efficient in the process. We assume a kernelized structure where the kernel is unknown but shared across all tasks. LIBO sequentially meta-learns a kernel that approximates the true kernel and solves the incoming tasks with the latest kernel estimate. Our algorithm can be paired with any kernelized or linear bandit algorithm and guarantees oracle optimal performance, meaning that as more tasks are solved, the regret of LIBO on each task converges to the regret of the bandit algorithm with oracle knowledge of the true kernel. Naturally, if paired with a sublinear bandit algorithm, LIBO yields a sublinear lifelong regret. We also show that direct access to the data from each task is not necessary for attaining sublinear regret. We propose F-LIBO, which solves the lifelong problem in a federated manner.
翻訳日:2023-06-22 05:18:54 公開日:2023-06-20
# 配電シフトの解説に向けて

Towards Explaining Distribution Shifts ( http://arxiv.org/abs/2210.10275v2 )

ライセンス: Link先を確認
Sean Kulinski, David I. Inouye(参考訳) 分散シフトは、運用環境の変化を信号化したり、下流モデルの精度を著しく低下させるなど、根本的な結果をもたらす可能性がある。 したがって、分布シフトの理解は、そのようなシフトの効果を検証し緩和するために重要である。 これまでのほとんどの研究は、シフトが発生したかどうかを単に検出することだけに焦点を当てており、検出されたシフトを人間のオペレータによって適切に理解および処理できると仮定している。 本研究は, 従来の流通から移行した輸送地図を用いて, 流通変化を説明することで, これらの手動緩和作業を支援することを期待する。 我々は、候補写像が解釈可能な写像の集合に制限される最適輸送の緩和から、解釈可能な写像を導出する。 次に、実世界の表表、テキスト、画像データセットにおける分布シフトのさまざまなユースケースを検査し、説明マッピングが、視覚検査とPercentExplainedメトリックの両方によるベースライン説明よりもディテールと解釈可能性のバランスをより良くすることを示す。

A distribution shift can have fundamental consequences such as signaling a change in the operating environment or significantly reducing the accuracy of downstream models. Thus, understanding distribution shifts is critical for examining and hopefully mitigating the effect of such a shift. Most prior work focuses on merely detecting if a shift has occurred and assumes any detected shift can be understood and handled appropriately by a human operator. We hope to aid in these manual mitigation tasks by explaining the distribution shift using interpretable transportation maps from the original distribution to the shifted one. We derive our interpretable mappings from a relaxation of optimal transport, where the candidate mappings are restricted to a set of interpretable mappings. We then inspect multiple quintessential use-cases of distribution shift in real-world tabular, text, and image datasets to showcase how our explanatory mappings provide a better balance between detail and interpretability than baseline explanations by both visual inspection and our PercentExplained metric.
翻訳日:2023-06-22 05:17:17 公開日:2023-06-20
# PhAST:加速触媒設計のための物理認識,スケーラブル,タスク固有GNN

PhAST: Physics-Aware, Scalable, and Task-specific GNNs for Accelerated Catalyst Design ( http://arxiv.org/abs/2211.12020v2 )

ライセンス: Link先を確認
Alexandre Duval, Victor Schmidt, Santiago Miret, Yoshua Bengio, Alex Hern\'andez-Garc\'ia, David Rolnick(参考訳) 気候変動の緩和には、低炭素エネルギーへの急速な移行が必要である。 触媒材料は、再生可能エネルギー貯蔵や電気燃料合成など、この遷移の鍵となる多くの産業プロセスに関わる電気化学反応において重要な役割を果たす。 このようなプロセスに費やされるエネルギーを減らすために、電気化学反応を駆動するより効率的な触媒を迅速に発見する必要がある。 機械学習(ML)は、大量のデータから材料の特性を効率的にモデル化し、電気触媒設計を加速する可能性を持っている。 この目的のためにopen catalyst project oc20データセットが構築された。 しかし、OC20でトレーニングされた既存のMLモデルの多くは、実用アプリケーションに十分なスケーラビリティや正確性を持っていない。 本稿では,計算効率と精度を両立させる多くのアーキテクチャに適用可能なタスク固有の技術革新を提案する。 特に,(1)グラフ生成ステップ,(2)原子表現,(3)エネルギー予測ヘッドの改良を提案する。 これらのコントリビューションを記述し、いくつかのアーキテクチャ上で評価し、精度を犠牲にすることなく最大5$\times$推論時間を短縮する。

Mitigating the climate crisis requires a rapid transition towards lower carbon energy. Catalyst materials play a crucial role in the electrochemical reactions involved in a great number of industrial processes key to this transition, such as renewable energy storage and electrofuel synthesis. To reduce the amount of energy spent on such processes, we must quickly discover more efficient catalysts to drive the electrochemical reactions. Machine learning (ML) holds the potential to efficiently model the properties of materials from large amounts of data, and thus to accelerate electrocatalyst design. The Open Catalyst Project OC20 data set was constructed to that end. However, most existing ML models trained on OC20 are still neither scalable nor accurate enough for practical applications. Here, we propose several task-specific innovations, applicable to most architectures, which increase both computational efficiency and accuracy. In particular, we propose improvements in (1) the graph creation step, (2) atom representations and (3) the energy prediction head. We describe these contributions and evaluate them on several architectures, showing up to 5$\times$ reduction in inference time without sacrificing accuracy.
翻訳日:2023-06-22 05:09:52 公開日:2023-06-20
# 暗黙的な変更検出のためのバックグラウンドミキシング拡張

Background-Mixed Augmentation for Weakly Supervised Change Detection ( http://arxiv.org/abs/2211.11478v3 )

ライセンス: Link先を確認
Rui Huang, Ruofei Wang, Qing Guo, Jieda Wei, Yuxiang Zhang, Wei Fan, Yang Liu(参考訳) 変化検出(CD)とは、災害管理、都市開発などにおいて重要な応用を提示し、長期間にわたって同じシーンで撮影された2つの画像において、背景の変化(環境の変化など)から物体の変化(オブジェクトの欠落や出現)を分離することである。 特に、背景変化の無限のパターンは、検出者が目に見えない環境変動に対して高い一般化を行う必要があるため、この課題は極めて困難である。 近年の深層学習に基づく手法は, 一般化問題を明示的に扱わず, 膨大な手動ピクセルレベルのアノテーション処理を必要とする, ペアリング学習例による新しいネットワークアーキテクチャや最適化戦略を開発する。 本研究では,CDコミュニティにおける最初の試みとして,データ拡張の観点からCDの一般化問題を考察し,画像レベルのラベルのみを必要とする,弱教師付きトレーニングアルゴリズムを開発した。 分類のための一般的な拡張手法とは違って,背景変化画像のセットのガイダンスに基づいて,変化検出用に特別に設計された背景混合拡張を提案し,深部CDモデルに環境変動を生じさせる。 さらに,一般化を著しく促進する拡張的および実データ整合性損失を提案する。 汎用フレームワークとしての手法は,既存の深層学習型検出器を広範囲に拡張することができる。 2つの公開データセットで広範な実験を行い,4つの最先端手法を強化し,その利点を実証した。 コードはhttps://github.com/tsingqguo/bgmixでリリースします。

Change detection (CD) is to decouple object changes (i.e., object missing or appearing) from background changes (i.e., environment variations) like light and season variations in two images captured in the same scene over a long time span, presenting critical applications in disaster management, urban development, etc. In particular, the endless patterns of background changes require detectors to have a high generalization against unseen environment variations, making this task significantly challenging. Recent deep learning-based methods develop novel network architectures or optimization strategies with paired-training examples, which do not handle the generalization issue explicitly and require huge manual pixel-level annotation efforts. In this work, for the first attempt in the CD community, we study the generalization issue of CD from the perspective of data augmentation and develop a novel weakly supervised training algorithm that only needs image-level labels. Different from general augmentation techniques for classification, we propose the background-mixed augmentation that is specifically designed for change detection by augmenting examples under the guidance of a set of background-changing images and letting deep CD models see diverse environment variations. Moreover, we propose the augmented & real data consistency loss that encourages the generalization increase significantly. Our method as a general framework can enhance a wide range of existing deep learning-based detectors. We conduct extensive experiments in two public datasets and enhance four state-of-the-art methods, demonstrating the advantages of our method. We release the code at https://github.com/tsingqguo/bgmix.
翻訳日:2023-06-22 05:08:49 公開日:2023-06-20
# NVDiff:ノードベクトルの拡散によるグラフ生成

NVDiff: Graph Generation through the Diffusion of Node Vectors ( http://arxiv.org/abs/2211.10794v2 )

ライセンス: Link先を確認
Xiaohui Chen, Yukun Li, Aonan Zhang, Li-Ping Liu(参考訳) グラフを生成する学習は、グラフが複雑な組合せ構造をコードするペア接続された、順序のないノードの集合であるため、難しい。 近年,正規化フローやスコアベース拡散モデルに基づくグラフ生成モデルが提案されている。 しかし、これらのモデルは、不必要に高い次元を持つ同じプロセスから平行にノードとエッジを生成する必要がある。 我々は,VGAE構造を取り入れたNVDiffを提案し,サンプルノードベクトルに先立ってフレキシブルなスコアベース生成モデル(SGM)を用いる。 潜在空間におけるノードベクトルのみをモデル化することにより、NVDiffは拡散過程の次元を著しく減らし、サンプリング速度を向上する。 nvdiffフレームワークを基盤として,グラフの局所的およびグローバル的コンテキストをキャプチャ可能な注意に基づくスコアネットワークを提案する。 実験によると、NVDiffは計算を著しく削減し、競合する手法よりもはるかに大きなグラフをモデル化できる。 同時に、従来の手法と比較して、さまざまなデータセットよりも優れた、あるいは競争的なパフォーマンスを達成する。

Learning to generate graphs is challenging as a graph is a set of pairwise connected, unordered nodes encoding complex combinatorial structures. Recently, several works have proposed graph generative models based on normalizing flows or score-based diffusion models. However, these models need to generate nodes and edges in parallel from the same process, whose dimensionality is unnecessarily high. We propose NVDiff, which takes the VGAE structure and uses a score-based generative model (SGM) as a flexible prior to sample node vectors. By modeling only node vectors in the latent space, NVDiff significantly reduces the dimension of the diffusion process and thus improves sampling speed. Built on the NVDiff framework, we introduce an attention-based score network capable of capturing both local and global contexts of graphs. Experiments indicate that NVDiff significantly reduces computations and can model much larger graphs than competing methods. At the same time, it achieves superior or competitive performances over various datasets compared to previous methods.
翻訳日:2023-06-22 05:08:05 公開日:2023-06-20
# Mirror Sinkhorn: トランスポートポリトープの高速オンライン最適化

Mirror Sinkhorn: Fast Online Optimization on Transport Polytopes ( http://arxiv.org/abs/2211.10420v3 )

ライセンス: Link先を確認
Marin Ballu, Quentin Berthet(参考訳) 最適な輸送は機械学習の重要なツールであり、輸送ポリトープ上の線形プログラムを通してデータの幾何学的性質を捉えることができる。 我々はシンクホーン行列スケーリングとミラー降下の原理を利用して,これらの領域における一般凸目標を最小化する単一ループ最適化アルゴリズムを提案する。 提案アルゴリズムはノイズに対して堅牢であり,オンライン環境で使用することができる。 コンベックス目的の理論的保証と, 実世界の合成データと実世界のデータに有効性を示す実験結果を提供する。

Optimal transport is an important tool in machine learning, allowing to capture geometric properties of the data through a linear program on transport polytopes. We present a single-loop optimization algorithm for minimizing general convex objectives on these domains, utilizing the principles of Sinkhorn matrix scaling and mirror descent. The proposed algorithm is robust to noise, and can be used in an online setting. We provide theoretical guarantees for convex objectives and experimental results showcasing it effectiveness on both synthetic and real-world data.
翻訳日:2023-06-22 05:07:48 公開日:2023-06-20
# 固有値推定のための量子アルゴリズム

Quantum Algorithm For Estimating Eigenvalue ( http://arxiv.org/abs/2211.06179v2 )

ライセンス: Link先を確認
Nhat A. Nghiem and Tzu-Chieh Wei(参考訳) 数値科学計算の大部分は、線形方程式の解法や固有値や固有ベクトルの発見など、行列の取り扱いと操作に大きく依存している。 多くの量子アルゴリズムがこれらの計算タスクを前進させるために開発されており、線形方程式の解法のようないくつかの場合において指数的なスピードアップをもたらすことが示される。 ここでは、HHLアルゴリズムの手法と古典的パワー法の概念を用いて、与えられたエルミート行列の最大固有値を推定するための単純な量子アルゴリズムを提供する。 HHLアルゴリズムの場合と同様に、我々の量子プロシージャは、同じ問題を解決する古典的なアルゴリズムと比較して指数的なスピードアップを得ることができる。 また,量子古典型アルゴリズムのハイブリッド化など,量子アルゴリズムの拡張や応用についても検討した。

A majority of numerical scientific computation relies heavily on handling and manipulating matrices, such as solving linear equations, finding eigenvalues and eigenvectors, and so on. Many quantum algorithms have been developed to advance these computational tasks, and in some cases, such as solving linear equations, can be shown to yield exponential speedup. Here, employing the techniques in the HHL algorithm and the ideas of the classical power method, we provide a simple quantum algorithm for estimating the largest eigenvalue in magnitude of a given Hermitian matrix. As in the case of the HHL algorithm, our quantum procedure can also yield exponential speedup compared to classical algorithms that solve the same problem. We also discuss a few possible extensions and applications of our quantum algorithm, such as a version of a hybrid quantum-classical Lanczos algorithm.
翻訳日:2023-06-22 05:07:11 公開日:2023-06-20
# モノラル音声強調のためのディープニューラルネットワーク技術--アート分析の現状

Deep neural network techniques for monaural speech enhancement: state of the art analysis ( http://arxiv.org/abs/2212.00369v2 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 自然言語処理やコンピュータビジョンといった領域では、ディープニューラルネットワーク(DNN)技術が普及している。 彼らは機械翻訳や画像生成といったタスクでこれらの領域で大きな成功を収めた。 その成功により、これらのデータ駆動技術はオーディオ領域に応用されている。 より具体的には、dnnモデルが音声強調領域に応用され、単調音声強調においてデノシング、デノベーション、マルチスピーカー分離を達成する。 本稿では,音声分離のためのDNN手法について概説する。 このレビューでは、特徴抽出による音声強調のパイプライン全体、DNNベースのツールが、音声とモデルトレーニング(教師なし、教師なし)のグローバルな特徴とローカルな特徴の両方をモデル化している様子を取り上げている。 また,音声強調のための事前訓練モデルについても検討した。 本研究は,単一話者による音声強調におけるDNNの適用について,支配的な傾向をカバーすることを目的としている。

Deep neural networks (DNN) techniques have become pervasive in domains such as natural language processing and computer vision. They have achieved great success in these domains in task such as machine translation and image generation. Due to their success, these data driven techniques have been applied in audio domain. More specifically, DNN models have been applied in speech enhancement domain to achieve denosing, dereverberation and multi-speaker separation in monaural speech enhancement. In this paper, we review some dominant DNN techniques being employed to achieve speech separation. The review looks at the whole pipeline of speech enhancement from feature extraction, how DNN based tools are modelling both global and local features of speech and model training (supervised and unsupervised). We also review the use of speech-enhancement pre-trained models to boost speech enhancement process. The review is geared towards covering the dominant trends with regards to DNN application in speech enhancement in speech obtained via a single speaker.
翻訳日:2023-06-22 05:00:05 公開日:2023-06-20
# 1次元畳み込みニューラルネットワークのリプシッツ定数推定

Lipschitz constant estimation for 1D convolutional neural networks ( http://arxiv.org/abs/2211.15253v2 )

ライセンス: Link先を確認
Patricia Pauli and Dennis Gramlich and Frank Allg\"ower(参考訳) 本研究では,1次元畳み込みニューラルネットワーク(CNN)のリプシッツ定数推定法を提案する。 特に,畳み込み,プーリング,および完全連結層の分散特性を,非線形活性化関数とプーリング演算に漸進的2次制約を適用して解析する。 これらの写像の連結のリプシッツ定数は、分離性理論から導かれる半定値のプログラムを解いて推定される。 本研究では,この有限インパルス応答フィルタを状態空間の因果力学系として実現し,状態空間実現のための分散解析を行うことにより,畳み込み層の構造を可能な限り効率的にする。 我々が提示した例は、我々のリプシッツ境界が正確性と拡張性の観点から有利であることを示している。

In this work, we propose a dissipativity-based method for Lipschitz constant estimation of 1D convolutional neural networks (CNNs). In particular, we analyze the dissipativity properties of convolutional, pooling, and fully connected layers making use of incremental quadratic constraints for nonlinear activation functions and pooling operations. The Lipschitz constant of the concatenation of these mappings is then estimated by solving a semidefinite program which we derive from dissipativity theory. To make our method as efficient as possible, we exploit the structure of convolutional layers by realizing these finite impulse response filters as causal dynamical systems in state space and carrying out the dissipativity analysis for the state space realizations. The examples we provide show that our Lipschitz bounds are advantageous in terms of accuracy and scalability.
翻訳日:2023-06-22 04:59:26 公開日:2023-06-20
# SegCLIP:オープン語彙セマンティックセマンティックセグメンテーションのための学習可能なセンターによるパッチアグリゲーション

SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2211.14813v2 )

ライセンス: Link先を確認
Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li(参考訳) 近年,clipのようなコントラスト型言語イメージ事前学習が,ダウンストリームタスクにおいて有望な結果を示している。 事前学習されたモデルは、大規模なテキスト画像データから学習することで、画像の豊富な視覚概念をキャプチャすることができる。 しかし、学習した視覚知識を開放的な意味セグメンテーションに移すことはまだ未検討である。 本稿では,open-vocabulary segmentationを無アノテーションで扱うために,segclipというクリップベースモデルを提案する。 SegCLIPはViTに基づくセグメンテーションを実現し,テキストイメージペアのトレーニングを通じて,学習可能なセンタをセマンティック領域に集める。 収集操作は、最終的なセグメンテーション結果を生成するために使用できるセマンティックグループを動的にキャプチャすることができる。 さらに,マスク付きパッチの再構成損失と擬似ラベル付きスーパーピクセルベースのKL損失を提案し,視覚的表現を高める。 実験の結果, PASCAL VOC 2012 (+0.3% mIoU), PASCAL Context (+2.3% mIoU), COCO (+2.2% mIoU) では, ベースラインと比較すると, 同等あるいは優れたセグメンテーション精度が得られた。 コードをhttps://github.com/ArrowLuo/SegCLIPでリリースします。

Recently, the contrastive language-image pre-training, e.g., CLIP, has demonstrated promising results on various downstream tasks. The pre-trained model can capture enriched visual concepts for images by learning from a large scale of text-image data. However, transferring the learned visual knowledge to open-vocabulary semantic segmentation is still under-explored. In this paper, we propose a CLIP-based model named SegCLIP for the topic of open-vocabulary segmentation in an annotation-free manner. The SegCLIP achieves segmentation based on ViT and the main idea is to gather patches with learnable centers to semantic regions through training on text-image pairs. The gathering operation can dynamically capture the semantic groups, which can be used to generate the final segmentation results. We further propose a reconstruction loss on masked patches and a superpixel-based KL loss with pseudo-labels to enhance the visual representation. Experimental results show that our model achieves comparable or superior segmentation accuracy on the PASCAL VOC 2012 (+0.3% mIoU), PASCAL Context (+2.3% mIoU), and COCO (+2.2% mIoU) compared with baselines. We release the code at https://github.com/ArrowLuo/SegCLIP.
翻訳日:2023-06-22 04:59:13 公開日:2023-06-20
# unbalanced penalization:量子最適化アルゴリズムにおける組合せ問題の不等式制約を符号化する新しいアプローチ

Unbalanced penalization: A new approach to encode inequality constraints of combinatorial problems for quantum optimization algorithms ( http://arxiv.org/abs/2211.13914v3 )

ライセンス: Link先を確認
Alejandro Montanez-Barrera, Dennis Willsch, Alberto Maldonado-Romo, and Kristel Michielsen(参考訳) 二次的非制約バイナリ最適化(QUBO)によって符号化できる種類の組合せ最適化問題を解くことは、量子計算の有望な応用である。 このクラスのいくつかの問題は、旅行セールスマン問題(TSP)、ビン包装問題(BPP)、クナップサック問題(KP)など、特定のコスト関数の符号化を必要とする不等式制約がある。 一般的なアプローチは、コスト関数の不等式制約を表現するためにslack変数を使用することである。 しかし、slack変数の使用は量子デバイスを用いてこれらの問題を解決するのに必要な量子ビット数と演算数を大幅に増加させる。 本稿では,余分なslack変数を必要とせず,不均衡なペナリゼーション関数を用いてquboにおける不等式制約を表現する代替手法を提案する。 この関数は、不等式制約が成立しないときよりも大きいペナルティ化によって特徴づけられる。 我々は,tsp,bpp,kpに対するアプローチを評価し,原点最適化問題の最適解を基底状態コストハミルトニアン付近で符号化することに成功した。 さらに、最大29項目の解を求めることで、スラック変数アプローチの性能を上回り、スラック変数アプローチは最大11項目しか処理できないのに対し、D-Wave AdvantageとD-Waveハイブリッドソルバを用いてBPPを解く。 この新しいアプローチは、量子アニーリングや変分量子アルゴリズムを用いたslack変数アプローチと比較して、リソース数の少ない不等式制約による組合せ問題を解くために使用できる。

Solving combinatorial optimization problems of the kind that can be codified by quadratic unconstrained binary optimization (QUBO) is a promising application of quantum computation. Some problems of this class suitable for practical applications such as the traveling salesman problem (TSP), the bin packing problem (BPP), or the knapsack problem (KP) have inequality constraints that require a particular cost function encoding. The common approach is the use of slack variables to represent the inequality constraints in the cost function. However, the use of slack variables considerably increases the number of qubits and operations required to solve these problems using quantum devices. In this work, we present an alternative method that does not require extra slack variables and consists of using an unbalanced penalization function to represent the inequality constraints in the QUBO. This function is characterized by larger penalization when the inequality constraint is not achieved than when it is. We evaluate our approach on the TSP, BPP, and KP, successfully encoding the optimal solution of the original optimization problem near the ground state cost Hamiltonian. Additionally, we employ D-Wave Advantage and D-Wave hybrid solvers to solve the BPP, surpassing the performance of the slack variables approach by achieving solutions for up to 29 items, whereas the slack variables approach only handles up to 11 items. This new approach can be used to solve combinatorial problems with inequality constraints with a reduced number of resources compared to the slack variables approach using quantum annealing or variational quantum algorithms.
翻訳日:2023-06-22 04:58:47 公開日:2023-06-20
# AugOp: 神経オペレータへのインジェクション変換

AugOp: Inject Transformation into Neural Operator ( http://arxiv.org/abs/2211.12514v2 )

ライセンス: Link先を確認
Longqing Ye(参考訳) 本稿では,正規畳み込み演算子を訓練中に余分なグループワイズ変換を注入し,推論中にそれを回復させることにより,単純で一般的な方法を提案する。 余剰変換は、各群における正規畳み込みとマージできることを保証するために慎重に選択され、推論中の正規畳み込みの位相構造は変化しない。 通常の畳み込み演算子と比較すると,本手法(augconv)はトレーニング中のモデル性能を改善するために,より大きな学習能力を導入することができるが,モデル展開のための計算オーバーヘッドは増大しない。 ResNetに基づいて、AugConvを使用してAugResNetという畳み込みニューラルネットワークを構築します。 画像分類データセットCifar-10の結果、AugResNetはモデル性能の点でベースラインを上回っている。

In this paper, we propose a simple and general approach to augment regular convolution operator by injecting extra group-wise transformation during training and recover it during inference. Extra transformation is carefully selected to ensure it can be merged with regular convolution in each group and will not change the topological structure of regular convolution during inference. Compared with regular convolution operator, our approach (AugConv) can introduce larger learning capacity to improve model performance during training but will not increase extra computational overhead for model deployment. Based on ResNet, we utilize AugConv to build convolutional neural networks named AugResNet. Result on image classification dataset Cifar-10 shows that AugResNet outperforms its baseline in terms of model performance.
翻訳日:2023-06-22 04:57:58 公開日:2023-06-20
# テキストから画像への拡散のマルチコンセプタカスタマイズ

Multi-Concept Customization of Text-to-Image Diffusion ( http://arxiv.org/abs/2212.04488v2 )

ライセンス: Link先を確認
Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu(参考訳) 生成モデルは大規模なデータベースから学習した概念の高品質なイメージを生成するが、ユーザーは自分の概念のインスタンス化(家族、ペット、アイテムなど)を合成したい場合が多い。 いくつか例を挙げると、モデルに新しい概念を素早く得るように教えられるだろうか? さらに、複数の新しい概念を一緒に構成できるだろうか? 既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。 テキスト・ツー・イメージ・コンディショニング機構のパラメータを最適化するだけで新しい概念を表現でき、高速なチューニング(約6分)が可能であることがわかった。 さらに、複数のコンセプトを共同でトレーニングしたり、クローズドフォーム制約付き最適化によって複数の微調整モデルを1つに組み合わせることも可能です。 我々の微調整モデルは、複数の新しい概念のバリエーションを生成し、新しい設定で既存の概念とシームレスに構成する。 本手法は,記憶的かつ計算効率を保ちつつ,定性的および定量的な評価において,複数のベースラインおよび同時作業に匹敵する性能を有する。

While generative models produce high-quality images of concepts learned from a large-scale database, a user often wishes to synthesize instantiations of their own concepts (for example, their family, pets, or items). Can we teach a model to quickly acquire a new concept, given a few examples? Furthermore, can we compose multiple new concepts together? We propose Custom Diffusion, an efficient method for augmenting existing text-to-image models. We find that only optimizing a few parameters in the text-to-image conditioning mechanism is sufficiently powerful to represent new concepts while enabling fast tuning (~6 minutes). Additionally, we can jointly train for multiple concepts or combine multiple fine-tuned models into one via closed-form constrained optimization. Our fine-tuned model generates variations of multiple new concepts and seamlessly composes them with existing concepts in novel settings. Our method outperforms or performs on par with several baselines and concurrent works in both qualitative and quantitative evaluations while being memory and computationally efficient.
翻訳日:2023-06-22 04:49:46 公開日:2023-06-20
# ZegCLIP: ゼロショットセマンティックセマンティックセグメンテーションのためのCLIP適応に向けて

ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation ( http://arxiv.org/abs/2212.03588v3 )

ライセンス: Link先を確認
Ziqin Zhou, Bowen Zhang, Yinjie Lei, Lingqiao Liu, Yifan Liu(参考訳) 近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。 一般的な考え方は、まずクラスに依存しない領域の提案を生成し、次に収穫した提案領域をCLIPに供給して、画像レベルのゼロショット分類機能を活用することである。 このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。 本研究では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルで効率的なワンステージソリューションを提案する。 私たちの調査は、CLIPから抽出したテキストとパッチの埋め込みの類似性を比較してセマンティックマスクを生成するベースラインとして、簡単な拡張から始まります。 しかし、そのようなパラダイムは、目に見えないクラスに過度に適合し、一般化に失敗する可能性がある。 そこで本研究では,CLIPの持つゼロショット容量を大幅に維持し,画素レベルの一般化能力を向上できることを示す。 これらの修正を組み込むことで、ZegCLIPと呼ばれる効率的なゼロショットセマンティックセグメンテーションシステムが得られる。 3つの公開ベンチマークに関する広範な実験を通じて、ZegCLIPは優れたパフォーマンスを示し、"インダクティブ"と"トランスダクティブ"の両方のゼロショット設定において、最先端の手法よりも大きなマージンで性能を向上している。 また,2段階法と比較して,1段階ZegCLIPは推論の約5倍の高速化を実現している。 コードをhttps://github.com/ZiqinZhou66/ZegCLIP.gitでリリースします。

Recently, CLIP has been applied to pixel-level zero-shot learning tasks via a two-stage scheme. The general idea is to first generate class-agnostic region proposals and then feed the cropped proposal regions to CLIP to utilize its image-level zero-shot classification capability. While effective, such a scheme requires two image encoders, one for proposal generation and one for CLIP, leading to a complicated pipeline and high computational cost. In this work, we pursue a simpler-and-efficient one-stage solution that directly extends CLIP's zero-shot prediction capability from image to pixel level. Our investigation starts with a straightforward extension as our baseline that generates semantic masks by comparing the similarity between text and patch embeddings extracted from CLIP. However, such a paradigm could heavily overfit the seen classes and fail to generalize to unseen classes. To handle this issue, we propose three simple-but-effective designs and figure out that they can significantly retain the inherent zero-shot capacity of CLIP and improve pixel-level generalization ability. Incorporating those modifications leads to an efficient zero-shot semantic segmentation system called ZegCLIP. Through extensive experiments on three public benchmarks, ZegCLIP demonstrates superior performance, outperforming the state-of-the-art methods by a large margin under both "inductive" and "transductive" zero-shot settings. In addition, compared with the two-stage method, our one-stage ZegCLIP achieves a speedup of about 5 times faster during inference. We release the code at https://github.com/ZiqinZhou66/ZegCLIP.git.
翻訳日:2023-06-22 04:48:35 公開日:2023-06-20
# restless banditsを用いた人気の高いコンテンツのキャッシング

Caching Contents with Varying Popularity using Restless Bandits ( http://arxiv.org/abs/2212.03291v3 )

ライセンス: Link先を確認
Pavamana K J, Chandramani Kishore Singh(参考訳) モバイルネットワークはデータ量とユーザ密度が著しく増加しており、モバイルコアネットワークとバックホールリンクに大きな負担がかかる。 この問題を減らすための効率的な手法は、固定アクセスポイントやモバイルアクセスポイント、さらにはユーザデバイスといったエッジネットワークノードのキャッシュを利用することで、データをユーザに近づけるためのキャッシュを使用することである。 キャッシュのパフォーマンスはキャッシュされるコンテンツに依存します。 本稿では,無線エッジ(すなわち基地局)におけるコンテンツキャッシングの問題点を考察し,無限地平線上で発生する割引コストを最小化する。 この問題をrestless bandit問題として定式化しますが,解決は困難です。 まず、最適なポリシーはしきい値型であることを示す。 これらの構造的結果を用いて,問題のインデクシング可能性を証明し,ディスカウントコストを最小限に抑えるためにウィットル・インデックス・ポリシーを用いる。

Mobile networks are experiencing prodigious increase in data volume and user density , which exerts a great burden on mobile core networks and backhaul links. An efficient technique to lessen this problem is to use caching i.e. to bring the data closer to the users by making use of the caches of edge network nodes, such as fixed or mobile access points and even user devices. The performance of a caching depends on contents that are cached. In this paper, we examine the problem of content caching at the wireless edge(i.e. base stations) to minimize the discounted cost incurred over infinite horizon. We formulate this problem as a restless bandit problem, which is hard to solve. We begin by showing an optimal policy is of threshold type. Using these structural results, we prove the indexability of the problem, and use Whittle index policy to minimize the discounted cost.
翻訳日:2023-06-22 04:47:54 公開日:2023-06-20
# 連続学習の統計力学--変動原理と平均場ポテンシャル

Statistical mechanics of continual learning: variational principle and mean-field potential ( http://arxiv.org/abs/2212.02846v4 )

ライセンス: Link先を確認
Chan Li and Zhenye Huang and Wenxuan Zou and Haiping Huang(参考訳) 人工知能への障害は、異なる性質の複数のタスクの連続的な学習によって設定される。 近年、機械学習と神経科学のアングルの両方から様々なヒューリスティックなトリックが提案されているが、それらは統一された理論基盤を欠いている。 本稿では,重み付き単層および多層ニューラルネットワークにおける連続学習に着目した。 そこで, ニューラルネットワークは, 勾配が定義する離散重み空間ではなく, フィールド空間で訓練され, さらに, 重みの不確かさが自然に組み込まれ, タスク間のシナプス資源を調節する, 変分ベイズ学習環境を提案する。 物理学的な観点からは、変分連続学習をフランツ・パリシ熱力学ポテンシャルフレームワークに翻訳し、そこでは以前のタスク知識が事前および参照として振る舞う。 そこで我々は、Franz-Parisiポテンシャル計算として教師-学生設定でバイナリパーセプトロンの連続学習を解釈する。 学習性能は平均場次数パラメータを用いて解析され、その予測は確率勾配降下法による数値実験と一致する。 また,隠れ層における内部前活性化の変分原理とガウス場近似に基づいて,重みの不確かさを考慮した学習アルゴリズムを導出し,多層ニューラルネットワークを用いた2元重みによる連続学習を解き,現在利用可能なメタ可塑性アルゴリズムよりも優れた結果を得る。 提案する原則フレームワークは, 弾性重み強化, 重み未確認変調学習, 神経科学に触発されたメタ塑性にもつながり, 深層ネットワークを用いた実世界マルチタスク学習のための理論基礎的手法を提供する。

An obstacle to artificial general intelligence is set by continual learning of multiple tasks of different nature. Recently, various heuristic tricks, both from machine learning and from neuroscience angles, were proposed, but they lack a unified theory ground. Here, we focus on continual learning in single-layered and multi-layered neural networks of binary weights. A variational Bayesian learning setting is thus proposed, where the neural networks are trained in a field-space, rather than gradient-ill-defined discrete-weight space, and furthermore, weight uncertainty is naturally incorporated, and modulates synaptic resources among tasks. From a physics perspective, we translate the variational continual learning into Franz-Parisi thermodynamic potential framework, where previous task knowledge acts as a prior and a reference as well. We thus interpret the continual learning of the binary perceptron in a teacher-student setting as a Franz-Parisi potential computation. The learning performance can then be analytically studied with mean-field order parameters, whose predictions coincide with numerical experiments using stochastic gradient descent methods. Based on the variational principle and Gaussian field approximation of internal preactivations in hidden layers, we also derive the learning algorithm considering weight uncertainty, which solves the continual learning with binary weights using multi-layered neural networks, and performs better than the currently available metaplasticity algorithm. Our proposed principled frameworks also connect to elastic weight consolidation, weight-uncertainty modulated learning, and neuroscience inspired metaplasticity, providing a theory-grounded method for the real-world multi-task learning with deep networks.
翻訳日:2023-06-22 04:47:39 公開日:2023-06-20
# 計算力学に応用された深層学習 : 総合的レビュー,最先端技術,古典

Deep learning applied to computational mechanics: A comprehensive review, state of the art, and the classics ( http://arxiv.org/abs/2212.08989v3 )

ライセンス: Link先を確認
Loc Vu-Quoc and Alexander Humer(参考訳) ai in arts and scienceによる最近の3つのブレークスルーは、デジタルイメージ賞、タンパク質折り畳み、高速なマトリックス乗算のモチベーションとなっている。 人工知能、特に深層学習(DL)における最近の多くの発展は、計算力学(固体、流体、有限要素技術)に応用され、関連するものである。 ハイブリッドおよび純粋機械学習(ML)の手法について論じる。 ハイブリッド手法は,(1)複雑な非線形構成関係のモデル化を支援する,(2)効率的なシミュレーション(乱流)のためのモデル次数を非線形に減少させる,(3)従来の統合手法における特定の成分を予測してシミュレーションを高速化する,といった従来のpde離散化をml法と組み合わせる。 ここでは,(1)と(2)は長短記憶アーキテクチャ(LSTM)に依存し,(3)は畳み込みニューラルネットワークに依存する。 PDEを解く純粋なML法は、不連続解に対処するための注意機構と組み合わせることができる物理情報ニューラルネットワーク(PINN)法で表される。 LSTMとアテンションアーキテクチャの両方が、DLネットワークの確率性を含む近代的で一般化された古典最適化とともに、広範囲にレビューされている。 ガウス過程を含むカーネルマシンは、無限幅の浅いネットワークのようなより高度な作品に十分な深さを提供する。 専門家に話しかけるだけでなく、読者は計算力学に精通しているが、その概念と応用は基礎から成り立っており、最初の学習者が研究の最前線に素早く到達することを目的としているDLとは無関係である。 AIの歴史と限界は、よく知られた参考文献でさえも、古典の誤解や誤解を指摘し、議論されている。 大変形可能なビームの位置決めとポインティング制御を例として挙げる。

Three recent breakthroughs due to AI in arts and science serve as motivation: An award winning digital image, protein folding, fast matrix multiplication. Many recent developments in artificial neural networks, particularly deep learning (DL), applied and relevant to computational mechanics (solid, fluids, finite-element technology) are reviewed in detail. Both hybrid and pure machine learning (ML) methods are discussed. Hybrid methods combine traditional PDE discretizations with ML methods either (1) to help model complex nonlinear constitutive relations, (2) to nonlinearly reduce the model order for efficient simulation (turbulence), or (3) to accelerate the simulation by predicting certain components in the traditional integration methods. Here, methods (1) and (2) relied on Long-Short-Term Memory (LSTM) architecture, with method (3) relying on convolutional neural networks. Pure ML methods to solve (nonlinear) PDEs are represented by Physics-Informed Neural network (PINN) methods, which could be combined with attention mechanism to address discontinuous solutions. Both LSTM and attention architectures, together with modern and generalized classic optimizers to include stochasticity for DL networks, are extensively reviewed. Kernel machines, including Gaussian processes, are provided to sufficient depth for more advanced works such as shallow networks with infinite width. Not only addressing experts, readers are assumed familiar with computational mechanics, but not with DL, whose concepts and applications are built up from the basics, aiming at bringing first-time learners quickly to the forefront of research. History and limitations of AI are recounted and discussed, with particular attention at pointing out misstatements or misconceptions of the classics, even in well-known references. Positioning and pointing control of a large-deformable beam is given as an example.
翻訳日:2023-06-22 04:40:37 公開日:2023-06-20
# DNN予測評価のための信頼性スコア

A Trustworthiness Score to Evaluate DNN Predictions ( http://arxiv.org/abs/2301.08839v6 )

ライセンス: Link先を確認
Abanoub Ghobrial, Darryl Hond, Hamid Asgari, Kerstin Eder(参考訳) ディープニューラルネットワーク(DNN)のブラックボックスの性質のため、操作中のDNNの継続的な検証は、人間のモニターがないため困難である。 その結果、開発者や規制機関がDNNを使用した自律システムのデプロイに自信を持つことが難しくなる。 DNNの予測が信頼できるか疑わしいかを知るためには、運用中の安全性が重要である。 人間のモニターがないため、基本的なアプローチはモデルの出力信頼度スコアを使用して予測が信頼できるか疑わしいかを評価することである。 しかしながら、モデルの信頼性スコアはブラックボックスからの計算の結果であり、それゆえ透明性が欠如しており、予測に対する信頼性の自動評価が困難である。 信頼度スコア(ts)は,モデルの信頼度スコアと比較して,dnn予測に対する信頼度を提供するための,より透過的で効果的な方法を提供するシンプルな指標である。 DNNの予測における特定の特徴の存在をチェックすることにより、予測における信頼性を定量化する。 また,ts指標の基本的な考え方を用いて,全体の入力フレームに不審性スコア(ss)を提供し,偽陰性が存在する不審なフレームの検出を支援する。 人検出にYOLOv5を用いたケーススタディを行い,TSとSSの手法と使用法を実証した。 本手法を用いたケーススタディでは, モデル信頼度スコアのみに依存する場合と比較して, 予測精度が一貫して向上することを示す。 1)信頼に値する予測(~20%改善)の承認及び 2)不審なフレームの検出(約5%改善)。

Due to the black box nature of deep neural networks (DNN), the continuous validation of DNN during operation is challenging with the absence of a human monitor. As a result this makes it difficult for developers and regulators to gain confidence in the deployment of autonomous systems employing DNN. It is critical for safety during operation to know when DNN's predictions are trustworthy or suspicious. With the absence of a human monitor, the basic approach is to use the model's output confidence score to assess if predictions are trustworthy or suspicious. However, the model's confidence score is a result of computations coming from a black box, therefore lacks transparency and makes it challenging to automatedly credit trustworthiness to predictions. We introduce the trustworthiness score (TS), a simple metric that provides a more transparent and effective way of providing confidence in DNN predictions compared to model's confidence score. The metric quantifies the trustworthiness in a prediction by checking for the existence of certain features in the predictions made by the DNN. We also use the underlying idea of the TS metric, to provide a suspiciousness score (SS) in the overall input frame to help in the detection of suspicious frames where false negatives exist. We conduct a case study using YOLOv5 on persons detection to demonstrate our method and usage of TS and SS. The case study shows that using our method consistently improves the precision of predictions compared to relying on model confidence score alone, for both 1) approving of trustworthy predictions (~20% improvement) and 2) detecting suspicious frames (~5% improvement).
翻訳日:2023-06-22 04:21:40 公開日:2023-06-20
# デジタル双生児の因果偽造

Causal Falsification of Digital Twins ( http://arxiv.org/abs/2301.07210v3 )

ライセンス: Link先を確認
Rob Cornish, Muhammad Faaiz Taufiq, Arnaud Doucet, Chris Holmes(参考訳) デジタル双生児は多くのアプリケーションで大きな可能性を秘めているが、その正確性を評価する厳格な手順は、安全クリティカルな環境での展開に不可欠である。 因果推論の枠組みでこのタスクを定式化することにより、実世界の観測データを用いて双子の正当性を証明しようとする試みは、データ生成プロセスに関する潜在的に不確実な仮定がない限り、正しくないことを示す。 これらの仮定を避けるために、双子が正しくないケースを見つけることを目的とした評価戦略を提案し、多種多様なアプリケーションや双子モデルにまたがって使用されるようにするための汎用統計手法を提案する。 我々のアプローチは、ツインと実世界の関心のプロセスについて最小限の仮定の下で、ツインについて信頼性があり行動可能な情報をもたらす。 ICU患者のMIMIC-IIIデータセットを用いて,Pulse Physiology Engine内のセシスモデリングを含む大規模ケーススタディにより,本手法の有効性を実証した。

Digital twins hold substantial promise in many applications, but rigorous procedures for assessing their accuracy are essential for their widespread deployment in safety-critical settings. By formulating this task within the framework of causal inference, we show that attempts to certify the correctness of a twin using real-world observational data are unsound unless potentially tenuous assumptions are made about the data-generating process. To avoid these assumptions, we propose an assessment strategy that instead aims to find cases where the twin is not correct, and present a general-purpose statistical procedure for doing so that may be used across a wide variety of applications and twin models. Our approach yields reliable and actionable information about the twin under minimal assumptions about the twin and the real-world process of interest. We demonstrate the effectiveness of our methodology via a large-scale case study involving sepsis modelling within the Pulse Physiology Engine, which we assess using the MIMIC-III dataset of ICU patients.
翻訳日:2023-06-22 04:20:30 公開日:2023-06-20
# パワーフルオーダー集合熱エンジン

Powerful ordered collective heat engines ( http://arxiv.org/abs/2301.06591v3 )

ライセンス: Link先を確認
Fernando S. Filho, Gustavo A. L. For\~ao, D.M.Busiello, B.Cleuren and Carlos E. Fiore(参考訳) 我々は、同期動作するユニットの配置により性能が向上する確率的エンジンのクラスを導入する。 提案手法は,2つの熱浴に接触して一定の運転作業を行うN$相互作用ユニットからなる最小限のセットアップを含む。 単位同期と相互作用の間の相互作用は、Carnot, $\eta_{c}$ と Curzon-Ahlborn bound, $\eta_{CA}$ の間の最大パワーでの効率をもたらす。 さらに、これらの限界は、それぞれ効率の最大化と、電力と効率の同時最適化によって飽和することができる。 熱機関として運用するには,Isingライクな相互作用と集合秩序体制との相互作用が不可欠であることを示す。 本システムの特徴は, 平衡付近の線形解析を用いて検討し, 同期相の影響を捉えた実効的な離散状態モデルを開発した。 本枠組みは, 順序構造に基づく非平衡熱機械の構築に向けた道を開くものである。

We introduce a class of stochastic engines in which the regime of units operating synchronously can boost the performance. Our approach encompasses a minimal setup composed of $N$ interacting units placed in contact with two thermal baths and subjected to a constant driving worksource. The interplay between unit synchronization and interaction leads to an efficiency at maximum power between the Carnot, $\eta_{c}$, and the Curzon-Ahlborn bound, $\eta_{CA}$. Moreover, these limits can be respectively saturated maximizing the efficiency, and by simultaneous optimization of power and efficiency. We show that the interplay between Ising-like interactions and a collective ordered regime is crucial to operate as a heat engine. The main system features are investigated by means of a linear analysis near equilibrium, and developing an effective discrete-state model that captures the effects of the synchronous phase. The present framework paves the way for the building of promising nonequilibrium thermal machines based on ordered structures.
翻訳日:2023-06-22 04:19:38 公開日:2023-06-20
# 乱流の時空間潜在表現のための畳み込みオートエンコーダ

Convolutional autoencoder for the spatiotemporal latent representation of turbulence ( http://arxiv.org/abs/2301.13728v2 )

ライセンス: Link先を確認
Nguyen Anh Khoa Doan, Alberto Racca, Luca Magri(参考訳) 乱流はカオス力学と高次元状態空間によって特徴づけられ、この現象を予測することは困難である。 しかし、乱流はしばしば渦や大規模モードのようなコヒーレントな時空間構造によって特徴づけられ、乱流の潜在的な記述を得るのに役立つ。 しかしながら、現在のアプローチは、フロー構造が関連づけられた等曲面を定義する量に何らかのしきい値を用いる必要性や、適切な直交分解に基づくものなど、伝統的なモーダルフロー分解アプローチの線形性によって制限されることが多い。 この問題は極端な現象を示す流れの中で悪化し、乱流状態の急激な変化は稀である。 本論文の目的は,過激な現象を示す乱流の効率的かつ高精度な低次潜在表現を得ることである。 具体的には, 3次元マルチスケール畳み込みオートエンコーダ(cae)を用いて, 潜在表現を得る。 これを三次元乱流に適用する。 マルチスケールCAEは効率が良く、データを圧縮するための適切な直交分解よりも10%以下の自由度が必要であり、極端な事象に関連する流れ状態を正確に再構築できることを示す。 提案するディープラーニングアーキテクチャは、データからの乱流の非線形減次モデリングの機会を開く。

Turbulence is characterised by chaotic dynamics and a high-dimensional state space, which make this phenomenon challenging to predict. However, turbulent flows are often characterised by coherent spatiotemporal structures, such as vortices or large-scale modes, which can help obtain a latent description of turbulent flows. However, current approaches are often limited by either the need to use some form of thresholding on quantities defining the isosurfaces to which the flow structures are associated or the linearity of traditional modal flow decomposition approaches, such as those based on proper orthogonal decomposition. This problem is exacerbated in flows that exhibit extreme events, which are rare and sudden changes in a turbulent state. The goal of this paper is to obtain an efficient and accurate reduced-order latent representation of a turbulent flow that exhibits extreme events. Specifically, we employ a three-dimensional multiscale convolutional autoencoder (CAE) to obtain such latent representation. We apply it to a three-dimensional turbulent flow. We show that the Multiscale CAE is efficient, requiring less than 10% degrees of freedom than proper orthogonal decomposition for compressing the data and is able to accurately reconstruct flow states related to extreme events. The proposed deep learning architecture opens opportunities for nonlinear reduced-order modeling of turbulent flows from data.
翻訳日:2023-06-22 04:10:40 公開日:2023-06-20
# 全体グラフに基づく動き予測

Holistic Graph-based Motion Prediction ( http://arxiv.org/abs/2301.13545v2 )

ライセンス: Link先を確認
Daniel Grimm, Philip Sch\"orner, Moritz Dre{\ss}ler, J.-Marius Z\"ollner(参考訳) 複雑な環境での自動運転車の動作予測は、任意の状況で自動走行車を使用する場合のマスタリングが難しい作業である。 多くの要因は、交通規則から始まる交通参加者の将来の動きや、人間ドライバーの個人的な習慣との相互作用に影響を及ぼす。 そこで本研究では,トラヒック参加者間の時間的情報,特性,関係,および道路網などの静的要素との関係を結合した不均質な全体的グラフ表現に基づくグラフに基づく予測手法を提案する。 情報は異なるタイプのノードとエッジを通じてエンコードされ、どちらも任意の機能で濃縮される。 本研究は,インタラクションとargoverseデータセットに対するアプローチを評価し,様々な種類の情報による運動予測品質の利点を示すための情報的アブレーション実験を行った。

Motion prediction for automated vehicles in complex environments is a difficult task that is to be mastered when automated vehicles are to be used in arbitrary situations. Many factors influence the future motion of traffic participants starting with traffic rules and reaching from the interaction between each other to personal habits of human drivers. Therefore we present a novel approach for a graph-based prediction based on a heterogeneous holistic graph representation that combines temporal information, properties and relations between traffic participants as well as relations with static elements like the road network. The information are encoded through different types of nodes and edges that both are enriched with arbitrary features. We evaluated the approach on the INTERACTION and the Argoverse dataset and conducted an informative ablation study to demonstrate the benefit of different types of information for the motion prediction quality.
翻訳日:2023-06-22 04:10:20 公開日:2023-06-20
# シーケンシャルレコメンデーションのための相互wasserstein判別最小化

Mutual Wasserstein Discrepancy Minimization for Sequential Recommendation ( http://arxiv.org/abs/2301.12197v2 )

ライセンス: Link先を確認
Ziwei Fan, Zhiwei Liu, Hao Peng, Philip S Yu(参考訳) 自己教師付きシーケンシャルレコメンデーションは、よく設計されたデータ拡張による相互情報の最大化により、リコメンデーション性能を著しく向上させる。 しかしながら、相互情報推定は、非対称推定、サンプルサイズの指数的必要性、トレーニング不安定性など、いくつかの制限を伴うkullback leiblerの発散の計算に基づいている。 また、既存のデータ拡張はほとんど確率的であり、ランダムな修正とシーケンシャルな相関を破る可能性がある。 これらの2つの問題は、不確実性をモデル化し、klの分岐制限を緩和できる代替ロバストな相互情報計測について検討する動機付けとなる。 そこで本研究では,シーケンシャルレコメンデーションのための相互wasserstein離散化最小化msteinに基づく,新しい自己教師付き学習フレームワークを提案する。 拡張シーケンス間の相互情報を測定するために,ワッサースタイン離散度測定法を提案する。 Wasserstein Disrepancy Measurementは2-Wasserstein距離の上に構築され、より堅牢で、小さなバッチサイズで効率が良く、確率的増大過程の不確かさをモデル化できる。 また,wassersteinの不一致測定に基づく新しいコントラスト学習損失を提案する。 4つのベンチマークデータセットに関する広範な実験は、ベースラインに対するmsteinの有効性を示している。 より定量的な分析は、バッチサイズでの摂動に対する堅牢性とトレーニング効率を示している。 最後に、改善分析は、大きな不確実性を持つ人気ユーザーやアイテムの表現の改善を示している。 ソースコードはhttps://github.com/zfan20/MSteinにある。

Self-supervised sequential recommendation significantly improves recommendation performance by maximizing mutual information with well-designed data augmentations. However, the mutual information estimation is based on the calculation of Kullback Leibler divergence with several limitations, including asymmetrical estimation, the exponential need of the sample size, and training instability. Also, existing data augmentations are mostly stochastic and can potentially break sequential correlations with random modifications. These two issues motivate us to investigate an alternative robust mutual information measurement capable of modeling uncertainty and alleviating KL divergence limitations. To this end, we propose a novel self-supervised learning framework based on Mutual WasserStein discrepancy minimization MStein for the sequential recommendation. We propose the Wasserstein Discrepancy Measurement to measure the mutual information between augmented sequences. Wasserstein Discrepancy Measurement builds upon the 2-Wasserstein distance, which is more robust, more efficient in small batch sizes, and able to model the uncertainty of stochastic augmentation processes. We also propose a novel contrastive learning loss based on Wasserstein Discrepancy Measurement. Extensive experiments on four benchmark datasets demonstrate the effectiveness of MStein over baselines. More quantitative analyses show the robustness against perturbations and training efficiency in batch size. Finally, improvements analysis indicates better representations of popular users or items with significant uncertainty. The source code is at https://github.com/zfan20/MStein.
翻訳日:2023-06-22 04:09:43 公開日:2023-06-20
# 大型カーネルモデルに向けて

Toward Large Kernel Models ( http://arxiv.org/abs/2302.02605v3 )

ライセンス: Link先を確認
Amirhesam Abedsoltan, Mikhail Belkin, Parthe Pandit(参考訳) 最近の研究では、カーネルマシンは小さなデータセット上で、ディープニューラルネットワーク(dnn)よりもよく、あるいはよりよく動作することが示されている。 カーネルマシンへの関心は、特定のレジームにおける広いニューラルネットワークに対する等価性の発見によってさらに高まっている。 しかしながら、dnnsの重要な特徴は、モデルサイズを独立してスケールし、データサイズをトレーニングする能力である。 この結合のため、カーネルマシンから大規模データへのスケーリングは計算的に困難である。 本稿では,大規模な汎用カーネルモデルの構築に向け,モデルとデータを分離したカーネルマシンを一般化し,大規模データセットのトレーニングを可能にする方法を提案する。 具体的には,プロジェクション付きデュアルプリコンディショニングsgdに基づくアルゴリズムであるeigenpro 3.0を導入し,既存のカーネルメソッドでは不可能だったモデルとデータサイズへのスケーリングを示す。

Recent studies indicate that kernel machines can often perform similarly or better than deep neural networks (DNNs) on small datasets. The interest in kernel machines has been additionally bolstered by the discovery of their equivalence to wide neural networks in certain regimes. However, a key feature of DNNs is their ability to scale the model size and training data size independently, whereas in traditional kernel machines model size is tied to data size. Because of this coupling, scaling kernel machines to large data has been computationally challenging. In this paper, we provide a way forward for constructing large-scale general kernel models, which are a generalization of kernel machines that decouples the model and data, allowing training on large datasets. Specifically, we introduce EigenPro 3.0, an algorithm based on projected dual preconditioned SGD and show scaling to model and data sizes which have not been possible with existing kernel methods.
翻訳日:2023-06-22 04:00:57 公開日:2023-06-20
# お前はボットだ! --Twitterにおけるボット非難の展開に関する研究

You are a Bot! -- Studying the Development of Bot Accusations on Twitter ( http://arxiv.org/abs/2302.00546v2 )

ライセンス: Link先を確認
Dennis Assenmacher, Leon Fr\"ohling, Claudia Wagner(参考訳) ソーシャルメディアプラットフォーム上で社会を操作できると推定されるボットの特性と検出は、過去10年間に多くの研究課題に直面してきた。 地上の真実データ(専門家によってボットとしてラベル付けされたり、自動化された性質を自己定義するアカウント)が存在しない場合、ボットの特徴付けと検出に関心のある研究者は、群衆の知恵を活用したいかもしれない。 しかし、アカウントが自動化されていると仮定する前に、ボットとして他のユーザーを非難する必要がある人はどのくらいいるだろうか? さらに重要なのは、ソーシャルメディア上でのボットの告発は、ボットの検出に有効なシグナルなのか? 今回の研究は、twitter上でボットの告発に関する最初の大規模研究であり、会話パートナーの人間性を否定しているため、ソーシャルメディアでの会話においてボットという用語が非人間化の手段となったことを示すものである。 したがって、ソーシャルメディアに対するボットの告発は、ボット検出モデルを訓練またはテストするための信号として、否定的に使用するべきではない。

The characterization and detection of bots with their presumed ability to manipulate society on social media platforms have been subject to many research endeavors over the last decade. In the absence of ground truth data (i.e., accounts that are labeled as bots by experts or self-declare their automated nature), researchers interested in the characterization and detection of bots may want to tap into the wisdom of the crowd. But how many people need to accuse another user as a bot before we can assume that the account is most likely automated? And more importantly, are bot accusations on social media at all a valid signal for the detection of bots? Our research presents the first large-scale study of bot accusations on Twitter and shows how the term bot became an instrument of dehumanization in social media conversations since it is predominantly used to deny the humanness of conversation partners. Consequently, bot accusations on social media should not be naively used as a signal to train or test bot detection models.
翻訳日:2023-06-22 03:59:25 公開日:2023-06-20
# インコンテキスト学習のための構成例

Compositional Exemplars for In-context Learning ( http://arxiv.org/abs/2302.05698v3 )

ライセンス: Link先を確認
Jiacheng Ye, Zhiyong Wu, Jiangtao Feng, Tao Yu, Lingpeng Kong(参考訳) 大規模な事前訓練された言語モデル(LM)は、パラメータ更新なしでインプット・アウトプット・サンプルからなるプロンプトを通じて、目に見えないタスクを学習するインコンテキスト・ラーニング(ICL)能力を示す。 ICLの性能は、選択したインコンテキストの例の品質に大きく左右される。 しかし、従来の選択法は主に単純なヒューリスティックに基づいているため、準最適性能が得られる。 本研究では,文中の例選択を部分集合選択問題として定式化する。 提案するCEIL (Compositional Exemplars for In-context Learning) は,所与のインプットとインコンテクストの相互作用をモデル化するための決定点プロセス(DPP)によってインスタンス化され,慎重に設計されたコントラスト学習の目的を通じて最適化され,LMから好みを得る。 我々は、感情分析、パラフローズ検出、自然言語推論、常識推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるnlpタスクから12の分類と生成データセットを検証する。 広汎な実験は、最先端の性能だけでなく、CEILの伝達性や構成性も示しており、効果的で効率的なインコンテキスト学習に新たな光を当てている。 私たちのコードはhttps://github.com/hkunlp/icl-ceilでリリースしています。

Large pretrained language models (LMs) have shown impressive In-Context Learning (ICL) ability, where the model learns to do an unseen task via a prompt consisting of input-output examples as the demonstration, without any parameter updates. The performance of ICL is highly dominated by the quality of the selected in-context examples. However, previous selection methods are mostly based on simple heuristics, leading to sub-optimal performance. In this work, we formulate in-context example selection as a subset selection problem. We propose CEIL (Compositional Exemplars for In-context Learning), which is instantiated by Determinantal Point Processes (DPPs) to model the interaction between the given input and in-context examples, and optimized through a carefully-designed contrastive learning objective to obtain preference from LMs. We validate CEIL on 12 classification and generation datasets from 7 distinct NLP tasks, including sentiment analysis, paraphrase detection, natural language inference, commonsense reasoning, open-domain question answering, code generation, and semantic parsing. Extensive experiments demonstrate not only the state-of-the-art performance but also the transferability and compositionality of CEIL, shedding new light on effective and efficient in-context learning. Our code is released at https://github.com/HKUNLP/icl-ceil.
翻訳日:2023-06-22 03:50:44 公開日:2023-06-20
# グラフニューラルネットワークの一般化:グラフ拡散によるPAC-Bayesian境界の改善

Generalization in Graph Neural Networks: Improved PAC-Bayesian Bounds on Graph Diffusion ( http://arxiv.org/abs/2302.04451v2 )

ライセンス: Link先を確認
Haotian Ju, Dongyue Li, Aneesh Sharma, and Hongyang R. Zhang(参考訳) グラフニューラルネットワークは、グラフ予測タスクに広く使われている。 経験的性能に動機づけられた先行研究は、最大次数の観点からグラフ構造にスケールするグラフニューラルネットワークの一般化境界を開発した。 本稿では,グラフニューラルネットワークの特徴拡散行列の最大特異値に代えてスケールする一般化境界を提案する。 これらの境界は実世界のグラフの事前境界よりも数値的に小さい。 我々はまた、上界漸近的に一致する一般化ギャップの下界を構成する。 これらの結果を達成するために,先行作業の設定(畳み込みネットワークとメッセージパッシングネットワーク)と新たな設定(グラフ同型ネットワーク)を含む統一モデルを分析する。 我々のキーとなる考え方は、ヘシアンを用いたノイズ摂動に対するグラフニューラルネットワークの安定性を測定することである。 実験により,Hessianによる測定は,観測されたグラフニューラルネットワークの一般化ギャップと相関することがわかった。 微調整済みグラフニューラルネットワークの雑音安定性特性の最適化も、グラフレベルの分類タスクにおけるテスト性能を向上させる。

Graph neural networks are widely used tools for graph prediction tasks. Motivated by their empirical performance, prior works have developed generalization bounds for graph neural networks, which scale with graph structures in terms of the maximum degree. In this paper, we present generalization bounds that instead scale with the largest singular value of the graph neural network's feature diffusion matrix. These bounds are numerically much smaller than prior bounds for real-world graphs. We also construct a lower bound of the generalization gap that matches our upper bound asymptotically. To achieve these results, we analyze a unified model that includes prior works' settings (i.e., convolutional and message-passing networks) and new settings (i.e., graph isomorphism networks). Our key idea is to measure the stability of graph neural networks against noise perturbations using Hessians. Empirically, we find that Hessian-based measurements correlate with the observed generalization gaps of graph neural networks accurately. Optimizing noise stability properties for fine-tuning pretrained graph neural networks also improves test performance on several graph-level classification tasks.
翻訳日:2023-06-22 03:49:23 公開日:2023-06-20
# ヘルム(ホルツ)におけるガウス過程 : 海流のより流動的なモデル

Gaussian processes at the Helm(holtz): A more fluid model for ocean currents ( http://arxiv.org/abs/2302.10364v3 )

ライセンス: Link先を確認
Renato Berlinghieri, Brian L. Trippe, David R. Burt, Ryan Giordano, Kaushik Srinivasan, Tamay \"Ozg\"okmen, Junfei Xia, Tamara Broderick(参考訳) ブイ速度の希少な観測から、海洋学者はブイから離れた海流の再構築と、現在のベクトル場における分岐点の同定に興味を持っている。 まず、モジュール化されたステップとして、例えば短い期間に制限することで、時間-定常ケースにフォーカスします。 電流速度は空間的位置の連続的かつ非線形な関数であると期待するため、ガウス過程(GP)は魅力的なモデルを提供する。 しかし, 標準定常カーネルをブイデータに直接適用すると, 物理的に非現実的な前提により, 現在の再構成と発散同定の両立に苦慮することを示す。 電流の既知の物理的性質をよりよく反映するために、ヘルムホルツ分解によって得られるベクトル場の発散およびカールフリー成分に標準定常核を置くことを提案する。 この分解は、混合部分微分によってのみ元のベクトル場に関係しているため、計算コストを一定に増やすだけで、元のデータを推論できることが示される。 本手法の利点を, 合成および実海洋データに関する理論と実験により説明する。

Given sparse observations of buoy velocities, oceanographers are interested in reconstructing ocean currents away from the buoys and identifying divergences in a current vector field. As a first and modular step, we focus on the time-stationary case - for instance, by restricting to short time periods. Since we expect current velocity to be a continuous but highly non-linear function of spatial location, Gaussian processes (GPs) offer an attractive model. But we show that applying a GP with a standard stationary kernel directly to buoy data can struggle at both current reconstruction and divergence identification, due to some physically unrealistic prior assumptions. To better reflect known physical properties of currents, we propose to instead put a standard stationary kernel on the divergence and curl-free components of a vector field obtained through a Helmholtz decomposition. We show that, because this decomposition relates to the original vector field just via mixed partial derivatives, we can still perform inference given the original data with only a small constant multiple of additional computational expense. We illustrate the benefits of our method with theory and experiments on synthetic and real ocean data.
翻訳日:2023-06-22 03:41:56 公開日:2023-06-20
# ディープニューラルネットワークにおけるショートカット学習の取り組み--解釈可能なモデルによる反復的アプローチ

Tackling Shortcut Learning in Deep Neural Networks: An Iterative Approach with Interpretable Models ( http://arxiv.org/abs/2302.10289v7 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) 概念に基づく解釈モデルを用いてショートカット学習を緩和する。 既存の方法には解釈性がない。 ブラックボックスから始めると、解釈可能な専門家(moie)と残りのネットワークの混合を反復的に作り出す。 各専門家は、FOL(First Order Logic)を使用してデータのサブセットを説明する。 サンプルを説明しながら、偏りのあるBB由来のMoIEからFOLがショートカットを効果的に検出する。 BBをメタデータ正規化(MDN)で微調整すると、ショートカットがなくなる。 微細BB由来MoIEからのFOLはショートカットの除去を検証する。 実験の結果,MoIEは元のBBの精度を損なわず,ショートカットを効果的に除去することがわかった。

We use concept-based interpretable models to mitigate shortcut learning. Existing methods lack interpretability. Beginning with a Blackbox, we iteratively carve out a mixture of interpretable experts (MoIE) and a residual network. Each expert explains a subset of data using First Order Logic (FOL). While explaining a sample, the FOL from biased BB-derived MoIE detects the shortcut effectively. Finetuning the BB with Metadata Normalization (MDN) eliminates the shortcut. The FOLs from the finetuned-BB-derived MoIE verify the elimination of the shortcut. Our experiments show that MoIE does not hurt the accuracy of the original BB and eliminates shortcuts effectively.
翻訳日:2023-06-22 03:41:37 公開日:2023-06-20
# jana: 複雑なベイズ模型の合同不定形ニューラルネットワーク近似

JANA: Jointly Amortized Neural Approximation of Complex Bayesian Models ( http://arxiv.org/abs/2302.09125v3 )

ライセンス: Link先を確認
Stefan T. Radev, Marvin Schmitt, Valentin Pratz, Umberto Picchini, Ullrich K\"othe, Paul-Christian B\"urkner(参考訳) 本研究は,ベイジアン・サロゲート・モデリングとシミュレーションに基づく推論において生じる難解な確率関数と後方密度の'jointly amortized neural approximation''(jana)を提案する。 エンドツーエンドで3つの補完ネットワークをトレーニングします。 1)個々のデータポイント,集合又は時系列を情報埋め込みベクトルに圧縮する要約ネットワーク 2) 補修後部を学習するための後部ネットワーク,及び 3) 修復された近似確率を学習する確率ネットワーク。 彼らの相互作用は、償却限界の確率と後続予測推定への新たな道を開き、ベイズワークフローの重要な2つの要素は、標準的手法には高すぎることが多い。 我々は,JANAの精度を,最先端ベイズ法に対する様々なシミュレーションモデルで評価し,関節校正のための強力かつ解釈可能な診断法を提案する。 さらに,手作り要約統計に頼らずに,複雑な時系列モデルをエミュレートする確率ネットワークについて検討した。

This work proposes ``jointly amortized neural approximation'' (JANA) of intractable likelihood functions and posterior densities arising in Bayesian surrogate modeling and simulation-based inference. We train three complementary networks in an end-to-end fashion: 1) a summary network to compress individual data points, sets, or time series into informative embedding vectors; 2) a posterior network to learn an amortized approximate posterior; and 3) a likelihood network to learn an amortized approximate likelihood. Their interaction opens a new route to amortized marginal likelihood and posterior predictive estimation -- two important ingredients of Bayesian workflows that are often too expensive for standard methods. We benchmark the fidelity of JANA on a variety of simulation models against state-of-the-art Bayesian methods and propose a powerful and interpretable diagnostic for joint calibration. In addition, we investigate the ability of recurrent likelihood networks to emulate complex time series models without resorting to hand-crafted summary statistics.
翻訳日:2023-06-22 03:40:47 公開日:2023-06-20
# COMET: X86コストモデル記述フレームワーク

COMET: X86 Cost Model Explanation Framework ( http://arxiv.org/abs/2302.06836v2 )

ライセンス: Link先を確認
Isha Chaudhary, Alex Renda, Charith Mendis, Gagandeep Singh(参考訳) MLベースのプログラムコストモデルは、かなり正確なプログラムコスト予測をもたらすことが示されている。 メインストリームのコンパイラでは、高機能な解析プログラムのコストモデルを置き換えることができるが、ブラックボックスの性質は採用を妨げている。 本研究では, x86 コストモデルに対する忠実で汎用的で直感的な説明を生成する最初のフレームワーク comet を提案する。 COMETは、特にIthemalのようなMLベースのコストモデルに解釈可能性をもたらす。 我々は、手作りで正確な分析モデルであるuiCAに対するCOMETの説明に対して、Ithemalに関するCOMETの説明を生成し、比較する。 実験の結果,コストモデルのコスト予測における誤差と,所定のx86基本ブロックのコストモデルに対するCOMETの説明における意味豊かな特徴の出現との間には,逆相関が認められた。

ML-based program cost models have been shown to yield fairly accurate program cost predictions. They can replace heavily-engineered analytical program cost models in mainstream compilers, but their black-box nature discourages their adoption. In this work, we propose the first framework, COMET, for generating faithful, generalizable, and intuitive explanations for x86 cost models. COMET brings interpretability specifically to ML-based cost models, such as Ithemal. We generate and compare COMET's explanations for Ithemal against COMET's explanations for a hand-crafted, accurate analytical model, uiCA. Our empirical findings show an inverse correlation between the error in the cost prediction of a cost model and the prominence of semantically-richer features in COMET's explanations for the cost model for a given x86 basic block.
翻訳日:2023-06-22 03:39:27 公開日:2023-06-20
# 量子公開鍵による暗号化

Encryption with Quantum Public Keys ( http://arxiv.org/abs/2303.05368v2 )

ライセンス: Link先を確認
Alex B. Grilo, Or Sattath, Quoc-Huy Vu(参考訳) 古典的プロトコルよりも弱い計算仮定に依存する量子暗号プロトコルの構築を見つけることは重要な問題である。 近年,ブラックボックス方式の古典的設定では不可能であるが,一方の関数から不要な転送や多要素計算が構築できることが示されている。 本研究では,一方向関数や弱い仮定から量子公開鍵暗号スキームを構築する問題について検討する。 まず、IND-CPAセキュリティの定義をこの設定に再検討する。 そこで我々は,一方方向関数からの量子公開鍵暗号,擬似乱数関数様状態と擬似乱数関数様状態との3つのスキームを提案する。

It is an important question to find constructions of quantum cryptographic protocols which rely on weaker computational assumptions than classical protocols. Recently, it has been shown that oblivious transfer and multi-party computation can be constructed from one-way functions, whereas this is impossible in the classical setting in a black-box way. In this work, we study the question of building quantum public-key encryption schemes from one-way functions and even weaker assumptions. Firstly, we revisit the definition of IND-CPA security to this setting. Then, we propose three schemes for quantum public-key encryption from one-way functions, pseudorandom function-like states with proof of deletion and pseudorandom function-like states, respectively.
翻訳日:2023-06-22 03:32:02 公開日:2023-06-20
# 射影的横磁場イジングモデルによる復号

Decoding the Projective Transverse Field Ising Model ( http://arxiv.org/abs/2303.03081v2 )

ライセンス: Link先を確認
Felix Roser, Hans Peter B\"uchler, and Nicolai Lang(参考訳) 離散量子回路における非可換射影測定の競合は、絡み合い遷移を引き起こす。 初期記憶された量子情報が時間進化を生き残る状態と、測定によって量子情報が破壊される状態とを分離する。 本稿では,量子誤り訂正符号としての機能に着目した,投影横場イジングモデルについて検討する。 1つのタイプの測定をエラーとして、もう1つのタイプの計測をシンドロームとして解釈する。 初期エンタングル状態でエンコードされた量子情報が確実に検索できるような有限のしきい値が存在することを実証する。 特に,誤り訂正しきい値がエンタングルメント遷移と異なることを示すために,最大確率デコーダを実装した。 これは、量子情報は射影力学によって保護されるが、シンドローム測定では取り戻せない有限のレジームが存在することを意味する。

The competition between non-commuting projective measurements in discrete quantum circuits can give rise to entanglement transitions. It separates a regime where initially stored quantum information survives the time evolution from a regime where the measurements destroy the quantum information. Here we study one such system - the projective transverse field Ising model - with a focus on its capabilities as a quantum error correction code. The idea is to interpret one type of measurement as an error and the other type as a syndrome measurement. We demonstrate that there is a finite threshold below which quantum information encoded in an initially entangled state can be retrieved reliably. In particular, we implement the maximum likelihood decoder to demonstrate that the error correction threshold is distinct from the entanglement transition. This implies that there is a finite regime where quantum information is protected by the projective dynamics, but cannot be retrieved by using syndrome measurements.
翻訳日:2023-06-22 03:30:54 公開日:2023-06-20
# ハミルトン系におけるhayden-preskill recovery

Hayden-Preskill Recovery in Hamiltonian Systems ( http://arxiv.org/abs/2303.02010v3 )

ライセンス: Link先を確認
Yoshifumi Nakata and Masaki Tezuka(参考訳) 複雑な量子システムを理解するための鍵は、もともとはHayden-Preskillリカバリで提案された情報スクランブルである。 ヘイデン・プレスキル・リカバリ(Hayden-Preskill recovery)とは、局所化された情報がシステム全体に広がり、任意の小さなサブシステムからアクセス可能な現象を指す。 この現象はランダムユニタリモデルでよく理解されているが、ハミルトン系ではほとんど研究されていない。 本稿では, カオススピン鎖やSachdev-Ye-Kitaev (SYK) モデルなど, 時間に依存しないハミルトニアンの情報回復について検討する。 情報回復は,エネルギー統計に基づく量子カオスや局所観測量に対する時間外順序コリケータ(otocs)の飽和など,他の概念と異なることを強調するカオスモデルにおいて可能となる。 さらに,情報リカバリが,ダイナミクスの情報理論的性質の変化に由来する遷移を探究する強力なツールであることを実証する。

The key to understanding complex quantum systems is information scrambling, originally proposed in the Hayden-Preskill recovery. The Hayden-Preskill recovery refers to the phenomena in which localized information is spread over the entire system and becomes accessible from any small subsystem. While this phenomena is well-understood in random unitary models, it has been hardly explored in Hamiltonian systems. In this Letter, we investigate the information recovery for various time-independent Hamiltonians, including chaotic spin chains and Sachdev-Ye-Kitaev (SYK) models. We show that information recovery is possible in certain, but not all, chaotic models, which highlightes that the information recovery differs from other concepts, such as quantum chaos based on energy statistics and the saturation of out-of-time-ordered correlators (OTOCs) for local observables. We further demonstrate that information recovery serves as a powerful tool to probe transitions that originates from the changes of information-theoretic properties of the dynamics.
翻訳日:2023-06-22 03:30:22 公開日:2023-06-20
# 部分分割多様体からの局所量子符号

Local Quantum Codes from Subdivided Manifolds ( http://arxiv.org/abs/2303.06755v3 )

ライセンス: Link先を確認
Elia Portnoy(参考訳) $n \ge 3$ に対して、$V$ qubits, distance $V^{\frac{n-1}{n}}$, and dimension $V^{\frac{n-2}{n}}$, to a $polylog(V)$ factor で局所的な量子符号の存在を示す。 距離はポリログ係数まで最適である。 この次元は、ポリログ係数までの距離に対しても最適である。 この証明は漸近的に良い量子符号の存在、フリードマン・ヘイスティングスによるコードから多様体を構築する手順、グロモフ・ガスによる定量的埋め込み定理を組み合わせる。

For $n \ge 3$, we demonstrate the existence of quantum codes which are local in dimension $n$ with $V$ qubits, distance $V^{\frac{n-1}{n}}$, and dimension $V^{\frac{n-2}{n}}$, up to a $polylog(V)$ factor. The distance is optimal up to the polylog factor. The dimension is also optimal for this distance up to the polylog factor. The proof combines the existence of asymptotically good quantum codes, a procedure to build a manifold from a code by Freedman-Hastings, and a quantitative embedding theorem by Gromov-Guth.
翻訳日:2023-06-22 03:22:50 公開日:2023-06-20
# 一時的バンドル選択におけるユーザの個人化投影バイアスの学習

Probe: Learning Users' Personalized Projection Bias in Intertemporal Bundle Choices ( http://arxiv.org/abs/2303.06016v2 )

ライセンス: Link先を確認
Qingming Li and H. Vicky Zhao(参考訳) 時間的選択は、将来的な利益に対する現在のコストの重み付けを必要とする決定を下す。 特定のタイプの一時的な選択は、個々のアイテムを購入するか、そのアイテムを含むバンドルを選択するかのどちらかである。 従来の研究は、個人がこれらの選択に関わる要因を正確に予測していると仮定していた。 しかし、実際には、これらの要因に対するユーザの認識は、しばしばバイアスを受け、不合理かつ準最適意思決定につながる。 本研究では、投射バイアスと基準点効果という2つのよく観察されるバイアスに焦点を当てる。 これらのバイアスに対処するために, Probe と呼ばれる新しいバイアス埋め込み選好モデルを提案する。 このプローブは、ユーザの投影バイアスをキャプチャする重み関数と、参照点効果を考慮した値関数とを組み込んで、重み関数と値関数を組み合わせるための行動経済学からの予測理論を導入する。 これにより、ユーザがバンドルまたは1つのアイテムを選択する確率を判断できます。 我々は,バンドル販売戦略の設計における予測バイアスの影響を示すために,詳細な理論解析を行う。 実験の結果,提案手法は既存手法よりも優れており,バンドル購入におけるユーザの不合理な振る舞いの理解に寄与することが示された。 この調査は、ユーザの意思決定メカニズムをより深く理解し、パーソナライズされたサービスの提供を可能にし、より合理的で最適な意思決定を支援する。

Intertemporal choices involve making decisions that require weighing the costs in the present against the benefits in the future. One specific type of intertemporal choice is the decision between purchasing an individual item or opting for a bundle that includes that item. Previous research assumes that individuals have accurate expectations of the factors involved in these choices. However, in reality, users' perceptions of these factors are often biased, leading to irrational and suboptimal decision-making. In this work, we specifically focus on two commonly observed biases: projection bias and the reference-point effect. To address these biases, we propose a novel bias-embedded preference model called Probe. The Probe incorporates a weight function to capture users' projection bias and a value function to account for the reference-point effect, and introduce prospect theory from behavioral economics to combine the weight and value functions. This allows us to determine the probability of users selecting the bundle or a single item. We provide a thorough theoretical analysis to demonstrate the impact of projection bias on the design of bundle sales strategies. Through experimental results, we show that the proposed Probe model outperforms existing methods and contributes to a better understanding of users' irrational behaviors in bundle purchases. This investigation can facilitate a deeper comprehension of users' decision-making mechanisms, enable the provision of personalized services, and assist users in making more rational and optimal decisions.
翻訳日:2023-06-22 03:21:57 公開日:2023-06-20
# Cal-QL: 効率的なオンラインファインチューニングのためのオフラインRL事前トレーニング

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning ( http://arxiv.org/abs/2303.05479v2 )

ライセンス: Link先を確認
Mitsuhiko Nakamoto, Yuexiang Zhai, Anikait Singh, Max Sobol Mark, Yi Ma, Chelsea Finn, Aviral Kumar, Sergey Levine(参考訳) オフライン強化学習(rl)の説得力のあるユースケースは、既存のデータセットからのポリシー初期化と、限られたインタラクションによる高速なオンライン微調整だ。 しかし、既存のオフラインrlメソッドは微調整時に振る舞う傾向がある。 本稿では,保守的なオフラインRL手法の文脈におけるファインチューニング問題について検討し,オフラインデータから効果的な初期化を学習するためのアプローチを考案した。 我々のアプローチは,オフラインデータから学習ポリシーの価値を過小評価する保守的値関数の初期化を学習し,学習されたQ値が妥当な規模であることを保証することで,これを達成している。 この性質をキャリブレーション(キャリブレーション)と呼び、学習されたポリシーの真値関数に対する下限と、単に振舞いポリシーであるかもしれない他の(最適でない)参照ポリシーの値に対する上限を正式に定義する。 校正値関数も学習する保守的オフラインRLアルゴリズムは,オンラインファインチューニングを効果的に実現し,オンラインファインチューニングにおけるオフライン初期化の利点を享受できることを示す。 実際には、Cal-QLは、オフラインのRLのための保守的なQ学習(CQL)の上に、1行のコード変更で実装できる。 経験的に、cal-qlは、本論文で研究した9/11の微調整ベンチマークタスクで最先端のメソッドを上回る。 コードとビデオはhttps://nakamotoo.github.io/projects/Cal-QLで公開されている。

A compelling use case of offline reinforcement learning (RL) is to obtain a policy initialization from existing datasets followed by fast online fine-tuning with limited interaction. However, existing offline RL methods tend to behave poorly during fine-tuning. In this paper, we study the fine-tuning problem in the context of conservative offline RL methods and we devise an approach for learning an effective initialization from offline data that also enables fast online fine-tuning capabilities. Our approach, calibrated Q-learning (Cal-QL), accomplishes this by learning a conservative value function initialization that underestimates the value of the learned policy from offline data, while also ensuring that the learned Q-values are at a reasonable scale. We refer to this property as calibration, and define it formally as providing a lower bound on the true value function of the learned policy and an upper bound on the value of some other (suboptimal) reference policy, which may simply be the behavior policy. We show that a conservative offline RL algorithm that also learns a calibrated value function leads to effective online fine-tuning, enabling us to take the benefits of offline initializations in online fine-tuning. In practice, Cal-QL can be implemented on top of the conservative Q learning (CQL) for offline RL within a one-line code change. Empirically, Cal-QL outperforms state-of-the-art methods on 9/11 fine-tuning benchmark tasks that we study in this paper. Code and video are available at https://nakamotoo.github.io/projects/Cal-QL
翻訳日:2023-06-22 03:20:18 公開日:2023-06-20
# 超伝導ナノワイヤアレイを用いたGHz検出率と動的光子数分解能

GHz detection rates and dynamic photon-number resolution with superconducting nanowire arrays ( http://arxiv.org/abs/2303.17401v2 )

ライセンス: Link先を確認
Giovanni V. Resta, Lorenzo Stasi, Matthieu Perrenoud, Sylvain El-Khoury, Tiff Brydges, Rob Thew, Hugo Zbinden and F\'elix Bussi\`eres(参考訳) 超伝導ナノワイヤ単光子検出器(SNSPD)は、高い検出効率、低い暗カウント、高速回復時間により、いくつかの量子光学技術の実現を可能にしている。 しかし、線形光量子コンピューティング(LOQC)や準決定論的単一光子源、量子リピータといった技術が広く使われるためには、異なる光子数状態を区別できるより高速な検出器が必要である。 本稿では,14個の独立画素からなるSNSPDアレイを作製し,通信帯域の90%のシステム検出効率(SDE)を実現する。 アレイの各ピクセルを独立に読み取ることで、検出器は1.5GHzの光子を45%のSDEで検出できることを示す。 いくつかのキャビティベースソースで一般的に得られるように、長波長光パルスを含む幅広い光入力に対する異なる光子数統計量の正確な状態再構成を示すために、アレイの動的PNRを利用する。 2光子および3光子密度はそれぞれ74%,57%であり,繊維結合型SNSPDの最先端結果を示す。

Superconducting-nanowire single-photon detectors (SNSPDs) have enabled the realization of several quantum optics technologies thanks to their high detection efficiency, low dark-counts, and fast recovery time. However, the widespread use of technologies such as linear optical quantum computing (LOQC), quasi-deterministic single photon sources and quantum repeaters requires faster detectors that can distinguish between different photon number states. Here, we report the fabrication of an SNSPD array composed of 14 independent pixels, achieving a system detection efficiency (SDE) of 90% in the telecom band. By reading each pixel of the array independently we show that the detector can detect telecom photons at 1.5 GHz with 45% absolute SDE. We exploit the dynamic PNR of the array to demonstrate accurate state reconstruction for different photon-number statistics for a wide range of light inputs, including operation with long-duration light pulses, as commonly obtained with some cavity-based sources. We show 2-photon and 3-photon fidelities of 74% and 57% respectively, which represent state-of-the-art results for fiber-coupled SNSPDs.
翻訳日:2023-06-22 03:11:53 公開日:2023-06-20
# g\"odelの不完全性定理からボット信念の完全性(拡張抽象)へ

From G\"odel's Incompleteness Theorem to the completeness of bot beliefs (Extended abstract) ( http://arxiv.org/abs/2303.14338v2 )

ライセンス: Link先を確認
Dusko Pavlovic and Temra Pavlovic(参考訳) ヒルベルトとアッカーマンは不完全理論を完備理論に一貫して拡張する方法を求めた。 g\"odel は本質的に、自身の言明とその証明を符号化できる理論が真であるが証明できない言明を含むことを証明した。 ヒルベルトは、g\"odel の構成が彼の質問に答えることを受け入れず、彼の後期の著作や講義の中で、g\"odel は、理論は漸進的に完成できるので、科学が通常行うように、より真のステートメントを証明する公理を追加することによって、完備性が消滅点として加えることは不可能であると同意した。 この現実的な妥当性の見解は、仮説を推測する科学者だけでなく、不動産業者や他のディーラーにも親しみがあり、契約を締結するために必要であれば無効であるとして、最初の主張を有効にするためには、他の主張を無効にすることができると確信する。 本稿では,その基礎となる論理過程を考察し,ボットや他の自動学習者が収束しそうな検証不可能な理論へと導く軌道について述べる。

Hilbert and Ackermann asked for a method to consistently extend incomplete theories to complete theories. G\"odel essentially proved that any theory capable of encoding its own statements and their proofs contains statements that are true but not provable. Hilbert did not accept that G\"odel's construction answered his question, and in his late writings and lectures, G\"odel agreed that it did not, since theories can be completed incrementally, by adding axioms to prove ever more true statements, as science normally does, with completeness as the vanishing point. This pragmatic view of validity is familiar not only to scientists who conjecture test hypotheses but also to real estate agents and other dealers, who conjure claims, albeit invalid, as necessary to close a deal, confident that they will be able to conjure other claims, albeit invalid, sufficient to make the first claims valid. We study the underlying logical process and describe the trajectories leading to testable but unfalsifiable theories to which bots and other automated learners are likely to converge.
翻訳日:2023-06-22 03:11:03 公開日:2023-06-20
# ヒューリスティックスによる定理証明としての計画

Planning as Theorem Proving with Heuristics ( http://arxiv.org/abs/2303.13638v3 )

ライセンス: Link先を確認
Mikhail Soutchanski and Ryan Young(参考訳) 状況計算における定理証明としての計画は、50年前に不可能プロジェクトとして放棄された。 しかし、我々は、A*探索アルゴリズムを用いて、状況のツリー内のプランを探索するTheorem Proving Lifted Heuristic(TPLH)プランナーを開発した。 削除緩和に基づくドメイン独立ヒューリスティックによって制御される。 我々は,TPLHとFast Downward (FD)とBest First Width Search (BFWS)を,いくつかの標準ベンチマークで比較した。 ヒューリスティック関数の実装は最適化されていないため、TPLHはFDやBFWSよりも遅い。 しかし、短い計画を計算し、少ない州を探索する。 我々は、KR\&R内の計画に関する以前の研究について論じ、関連する方向を特定する。 以上より,状況計算において帰納的揚水ヒューリスティック計画が実際に可能であることを示す。

Planning as theorem proving in situation calculus was abandoned 50 years ago as an impossible project. But we have developed a Theorem Proving Lifted Heuristic (TPLH) planner that searches for a plan in a tree of situations using the A* search algorithm. It is controlled by a delete relaxation-based domain independent heuristic. We compare TPLH with Fast Downward (FD) and Best First Width Search (BFWS) planners over several standard benchmarks. Since our implementation of the heuristic function is not optimized, TPLH is slower than FD and BFWS. But it computes shorter plans, and it explores fewer states. We discuss previous research on planning within KR\&R and identify related directions. Thus, we show that deductive lifted heuristic planning in situation calculus is actually doable.
翻訳日:2023-06-22 03:10:24 公開日:2023-06-20
# グラフカルマンフィルタ

Graph Kalman Filters ( http://arxiv.org/abs/2303.12021v2 )

ライセンス: Link先を確認
Cesare Alippi and Daniele Zambon(参考訳) 有名なカルマンフィルタは、次の状態が更新された状態空間表現に依存し、その不確実性は、新たに観測されたシステム出力に関連する新しい情報によって制御される。 本稿では、カルマンフィルタと拡張カルマンフィルタを、入力、状態、出力が時間とともに変化可能な属性グラフとして表される離散時間設定に一般化する。 この設定により、アウトプットがベクトルかスカラー(ノード/グラフレベルタスク)である場合にもフレームワークを適用することができます。 提案する理論的枠組みでは、未知の状態遷移と読み出し関数が下流予測タスクとともにエンドツーエンドに学習される。

The well-known Kalman filters model dynamical systems by relying on state-space representations with the next state updated, and its uncertainty controlled, by fresh information associated with newly observed system outputs. This paper generalizes, for the first time in the literature, Kalman and extended Kalman filters to discrete-time settings where inputs, states, and outputs are represented as attributed graphs whose topology and attributes can change with time. The setup allows us to adapt the framework to cases where the output is a vector or a scalar too (node/graph level tasks). Within the proposed theoretical framework, the unknown state-transition and the readout functions are learned end-to-end along with the downstream prediction task.
翻訳日:2023-06-22 03:09:34 公開日:2023-06-20
# 最大順序二因子化

Maximal Ordinal Two-Factorizations ( http://arxiv.org/abs/2304.03338v2 )

ライセンス: Link先を確認
Dominik D\"urrschnabel, Gerd Stumme(参考訳) 形式的な文脈が与えられたとき、順序因子(ordinal factor)は、その帰納関係のサブセットであり、概念格子、すなわち、線形次数に対応するデータセットの一部において鎖を形成する。 形式的な文脈でデータを視覚化するために、ganterとglodeanuは2つの順序因子に基づく二項法を提案した。 ビプロットが有用であるためには、これらの因子が可能な限り多くのデータポイント、すなわち入射関係の大部分をカバーしていることが重要である。 本研究では,このような順序二因子化について検討する。 まず,2つの因子の相違を省略する形式的文脈について検討する。 そこで,与えられた大きさの2要素化の存在を決定することはNP完全問題であり,計算コストが高いことを示す。 最後に、大きな順序の2要素化を計算できるアルゴリズムOrd2Factorを提供する。

Given a formal context, an ordinal factor is a subset of its incidence relation that forms a chain in the concept lattice, i.e., a part of the dataset that corresponds to a linear order. To visualize the data in a formal context, Ganter and Glodeanu proposed a biplot based on two ordinal factors. For the biplot to be useful, it is important that these factors comprise as much data points as possible, i.e., that they cover a large part of the incidence relation. In this work, we investigate such ordinal two-factorizations. First, we investigate for formal contexts that omit ordinal two-factorizations the disjointness of the two factors. Then, we show that deciding on the existence of two-factorizations of a given size is an NP-complete problem which makes computing maximal factorizations computationally expensive. Finally, we provide the algorithm Ord2Factor that allows us to compute large ordinal two-factorizations.
翻訳日:2023-06-22 03:02:20 公開日:2023-06-20
# Grid-SD2E:認知学習システムにおける一般的なグリッドフィードバック

Grid-SD2E: A General Grid-Feedback in a System for Cognitive Learning ( http://arxiv.org/abs/2304.01844v2 )

ライセンス: Link先を確認
Jingyi Feng and Chenming Zhang(参考訳) 脳が生成した神経信号を通じて外界とどのように相互作用するかを補完することは、その動作メカニズムを決定し、脳疾患を治療し、知性を理解するために重要である。 多くの理論モデルが提案されているが、これまでのところ統合と開発は困難である。 本研究では,より汎用的でロバストなグリッドモジュールを作成し,ベイジアン推論(space-division and exploration-exploitation with grid-feedback, grid-sd2e)を用いた対話型・自己情報型認知システムを構築した。 ここでは、グリッドモジュールを外界とシステム間の相互作用媒体として、システム内の自己強化媒体として使用することができる。 空間分割探索探索(SD2E)は、その空間分割(SD)モジュールを介してグリッドの0/1信号を受信する。 本稿では,他の研究者による実験と神経復号に関する経験から得られた理論モデルについても述べる。 本稿では,神経科学と認知科学の両分野における既存の理論に基づくシステムの合理性を分析し,人と人と外の世界との間の相互作用を説明するための特別な,一般的なルールを提案する。 さらに、このモデルに基づいて、最小の計算単位が抽出され、これは脳内の1つのニューロンと類似している。

Comprehending how the brain interacts with the external world through generated neural signals is crucial for determining its working mechanism, treating brain diseases, and understanding intelligence. Although many theoretical models have been proposed, they have thus far been difficult to integrate and develop. In this study, we were inspired in part by grid cells in creating a more general and robust grid module and constructing an interactive and self-reinforcing cognitive system together with Bayesian reasoning, an approach called space-division and exploration-exploitation with grid-feedback (Grid-SD2E). Here, a grid module can be used as an interaction medium between the outside world and a system, as well as a self-reinforcement medium within the system. The space-division and exploration-exploitation (SD2E) receives the 0/1 signals of a grid through its space-division (SD) module. The system described in this paper is also a theoretical model derived from experiments conducted by other researchers and our experience on neural decoding. Herein, we analyse the rationality of the system based on the existing theories in both neuroscience and cognitive science, and attempt to propose special and general rules to explain the different interactions between people and between people and the external world. What's more, based on this model, the smallest computing unit is extracted, which is analogous to a single neuron in the brain.
翻訳日:2023-06-22 03:02:05 公開日:2023-06-20
# G2PTL: 配送アドレスの事前学習モデルとそのロジスティックスシステムへの応用

G2PTL: A Pre-trained Model for Delivery Address and its Applications in Logistics System ( http://arxiv.org/abs/2304.01559v2 )

ライセンス: Link先を確認
Lixia Wu, Jianlin Liu, Junhong Lou, Haoyuan Hu, Jianbin Zheng, Haomin Wen, Chao Song, Shu He(参考訳) 物流システムのデータ基盤としてのテキストベースの配送アドレスには、豊富な重要な位置情報が含まれている。 配信アドレスを効果的にエンコードする方法は、ロジスティクスシステムにおけるダウンストリームタスクのパフォーマンスを高めるためのコアタスクである。 自然言語処理(NLP)用に設計された事前学習モデル(PTM)が,意味情報をテキストでエンコードするための主要なツールとして登場した。 有望ではあるが、これらのNLPベースのPTMは、カイニオのようなロジスティックシステムにおけるデリバリ関連タスクのパフォーマンスを大幅に低下させる、配信アドレスの地理的知識を符号化するに足りていない。 そこで本研究では,物流分野における配送アドレスのための地理グラフ事前学習モデルであるg2ptlというドメイン固有事前学習モデルを提案する。 G2PTLは、テキスト事前学習のセマンティック学習能力と、グラフモデリングの地理的関連性符号化能力を組み合わせる。 具体的には,実世界の物流配信データを用いて,豊富な地理的知識と配送情報を含む大規模異種配送アドレスグラフを構築した。 そして、G2PTLは、異種グラフからサンプリングされたサブグラフで事前訓練される。 実世界のデータセット上での物流システムにおける4つの下流タスクによるG2PTLの有効性を示す総合的な実験を行った。 g2ptlはcainiaoのロジスティクスシステムで運用されており、デリバリ関連のタスクのパフォーマンスが大幅に向上している。

Text-based delivery addresses, as the data foundation for logistics systems, contain abundant and crucial location information. How to effectively encode the delivery address is a core task to boost the performance of downstream tasks in the logistics system. Pre-trained Models (PTMs) designed for Natural Language Process (NLP) have emerged as the dominant tools for encoding semantic information in text. Though promising, those NLP-based PTMs fall short of encoding geographic knowledge in the delivery address, which considerably trims down the performance of delivery-related tasks in logistic systems such as Cainiao. To tackle the above problem, we propose a domain-specific pre-trained model, named G2PTL, a Geography-Graph Pre-trained model for delivery address in Logistics field. G2PTL combines the semantic learning capabilities of text pre-training with the geographical-relationship encoding abilities of graph modeling. Specifically, we first utilize real-world logistics delivery data to construct a large-scale heterogeneous graph of delivery addresses, which contains abundant geographic knowledge and delivery information. Then, G2PTL is pre-trained with subgraphs sampled from the heterogeneous graph. Comprehensive experiments are conducted to demonstrate the effectiveness of G2PTL through four downstream tasks in logistics systems on real-world datasets. G2PTL has been deployed in production in Cainiao's logistics system, which significantly improves the performance of delivery-related tasks.
翻訳日:2023-06-22 03:01:42 公開日:2023-06-20
# 風速データにおける時空間相関がニューラルネットワークによる風速予測に及ぼす影響

Effects of spatiotemporal correlations in wind data on neural network-based wind predictions ( http://arxiv.org/abs/2304.01545v4 )

ライセンス: Link先を確認
Heesoo Shin, Mario R\"uttgers, Sangseung Lee(参考訳) 本稿では,風速予測ニューラルネットワークの性能に及ぼす時空間風速データの導入の影響について検討する。 従来の研究では、空間データを含むとそれらのモデルの精度が向上することが示されたが、入力風の異なる空間的・時間的スケールがニューラルネットワークモデルの学習性に与える影響について限定的な研究がなされている。 本研究では,様々な時空間風速データを用いて,畳み込みニューラルネットワーク(CNN)を適用・訓練する。 本研究では, 周辺地域の時空間相関データと過去の時間ステップを用いてCNNを訓練することが, モデルの予測性能に好影響を与えることを示す。 本研究は,cnnモデルの予測性能に及ぼす時空間風特性の影響を明らかにするために,自己相関とピアソン相関分析を含む相関解析を提案する。 CNNモデルの時空間相関と性能について,韓国,米国,英国の3つの地域で検討した。 その結果, 自己相関係数 (ACC) の偏差が小さい地域の方が, 地域風特性や季節風特性の学習に好適であることが判明した。 具体的には、韓国、米国、英国の各地域はそれぞれ0.0100、0.043、0.023の最大標準偏差を示す。 CNNの風速予測性能は、イギリス、アメリカ、韓国といった地域の逆順に従っている。 このことは、地域風と季節風の条件が予測モデルの性能に与える影響を強調している。

This paper investigates the influence of incorporating spatiotemporal wind data on the performance of wind forecasting neural networks. While previous studies have shown that including spatial data enhances the accuracy of such models, limited research has explored the impact of different spatial and temporal scales of input wind data on the learnability of neural network models. In this study, convolutional neural networks (CNNs) are employed and trained using various scales of spatiotemporal wind data. The research demonstrates that using spatiotemporally correlated data from the surrounding area and past time steps for training a CNN favorably affects the predictive performance of the model. The study proposes correlation analyses, including autocorrelation and Pearson correlation analyses, to unveil the influence of spatiotemporal wind characteristics on the predictive performance of different CNN models. The spatiotemporal correlations and performances of CNN models are investigated in three regions: Korea, the USA, and the UK. The findings reveal that regions with smaller deviations of autocorrelation coefficients (ACC) are more favorable for CNNs to learn the regional and seasonal wind characteristics. Specifically, the regions of Korea, the USA, and the UK exhibit maximum standard deviations of ACCs of 0.100, 0.043, and 0.023, respectively. The CNNs wind prediction performances follow the reverse order of the regions: UK, USA, and Korea. This highlights the significant impact of regional and seasonal wind conditions on the performance of the prediction models.
翻訳日:2023-06-22 03:01:17 公開日:2023-06-20
# シーン理解のための因子的ニューラル表現

Factored Neural Representation for Scene Understanding ( http://arxiv.org/abs/2304.10950v2 )

ライセンス: Link先を確認
Yu-Shiang Wong, Niloy J. Mitra(参考訳) シーン理解における長年の目標は、ハードウェアの設定や事前設定を必要とせずに、生のrgb-dビデオから直接構築できる解釈可能で編集可能な表現を得ることである。 この問題は、複数の移動や変形する物体の存在において、はるかに難しい。 従来の手法では、単純化、シーン先行、事前訓練されたテンプレート、既知の変形モデルを組み合わせてセットアップにアプローチしている。 神経表現の出現、特に神経暗黙的表現と放射場は、集合的な幾何学、外観、物体の動きを捉えるエンドツーエンド最適化の可能性を開く。 しかし、現在のアプローチでは、グローバルなシーンエンコーディングが実現され、シーン内の動きが制限された、あるいは全くないマルチビューキャプチャーが想定される。 本研究では,単眼のRGB-Dビデオから直接学習し,物体の運動(剛性軌道)や変形(非剛性運動など)を明示的に符号化した物体レベルのニューラルプレゼンテーションを生成する,ファクタリングされたニューラルシーン表現を提案する。 我々は、合成データと実データの両方における一連のニューラルアプローチを評価し、表現が効率的で、解釈可能で、編集可能であることを示す(例えば、オブジェクトの軌跡を変更する)。 コードとデータは、$\href{http://geometry.cs.ucl.ac.uk/projects/2023/factorednerf/}{\text{http://geometry.cs.ucl.ac.uk/projects/2023/factorednerf/}}$で入手できる。

A long-standing goal in scene understanding is to obtain interpretable and editable representations that can be directly constructed from a raw monocular RGB-D video, without requiring specialized hardware setup or priors. The problem is significantly more challenging in the presence of multiple moving and/or deforming objects. Traditional methods have approached the setup with a mix of simplifications, scene priors, pretrained templates, or known deformation models. The advent of neural representations, especially neural implicit representations and radiance fields, opens the possibility of end-to-end optimization to collectively capture geometry, appearance, and object motion. However, current approaches produce global scene encoding, assume multiview capture with limited or no motion in the scenes, and do not facilitate easy manipulation beyond novel view synthesis. In this work, we introduce a factored neural scene representation that can directly be learned from a monocular RGB-D video to produce object-level neural presentations with an explicit encoding of object movement (e.g., rigid trajectory) and/or deformations (e.g., nonrigid movement). We evaluate ours against a set of neural approaches on both synthetic and real data to demonstrate that the representation is efficient, interpretable, and editable (e.g., change object trajectory). Code and data are available at: $\href{http://geometry.cs.ucl.ac.uk/projects/2023/factorednerf/}{\text{http://geometry.cs.ucl.ac.uk/projects/2023/factorednerf/}}$.
翻訳日:2023-06-22 02:54:09 公開日:2023-06-20
# クロスエントロピー損失関数の理論解析とその応用

Cross-Entropy Loss Functions: Theoretical Analysis and Applications ( http://arxiv.org/abs/2304.07288v2 )

ライセンス: Link先を確認
Anqi Mao, Mehryar Mohri, Yutao Zhong(参考訳) クロスエントロピーはアプリケーションで広く使われる損失関数である。 これは、ソフトマックスを使用するニューラルネットワークの出力に適用されるロジスティック損失と一致する。 しかし、クロスエントロピーを代理損失として使うとき、私たちは何を保証できるだろうか? 本稿では, クロスエントロピー(あるいはロジスティック損失), 一般化クロスエントロピー, 平均絶対誤差, その他のクロスエントロピー様損失関数を含む広い損失関数群, comp-sum損失の理論的解析を行う。 これらの損失関数に対して最初の$h$-consistencyバウンダリを与える。 これらは、特定の仮説セットである$H$に対して、代理損失の推定誤差の観点からゼロ1損失推定誤差を上限とする漸近的でない保証である。 さらに、我々の限界が厳しいことも示します。 これらの境界はミニミザビリティギャップと呼ばれる量に依存する。 より明確にするために、これらのギャップを和和損失に限定して分析する。 また,類似のスムース項を付加することにより,新しい損失関数の族であるsmoous adversarial comp-sum loss(smoous adversarial comp-sum loss)を導入する。 これらの損失関数は、h$-consistencyバウンダリを許容していることを証明することによって、敵対的設定において有益であることを示している。 これにより、正規化された滑らかな逆数和損失を最小限に抑える新しい逆数堅牢性アルゴリズムがもたらされる。 本研究の主な目的は理論解析であるが, 累積損失を比較検討した広範な実証分析も提示する。 さらに,我々の対向ロバスト性アルゴリズムが現在の最先端技術よりも優れており,非対向精度も優れていることを示す一連の実験結果について報告する。

Cross-entropy is a widely used loss function in applications. It coincides with the logistic loss applied to the outputs of a neural network, when the softmax is used. But, what guarantees can we rely on when using cross-entropy as a surrogate loss? We present a theoretical analysis of a broad family of loss functions, comp-sum losses, that includes cross-entropy (or logistic loss), generalized cross-entropy, the mean absolute error and other cross-entropy-like loss functions. We give the first $H$-consistency bounds for these loss functions. These are non-asymptotic guarantees that upper bound the zero-one loss estimation error in terms of the estimation error of a surrogate loss, for the specific hypothesis set $H$ used. We further show that our bounds are tight. These bounds depend on quantities called minimizability gaps. To make them more explicit, we give a specific analysis of these gaps for comp-sum losses. We also introduce a new family of loss functions, smooth adversarial comp-sum losses, that are derived from their comp-sum counterparts by adding in a related smooth term. We show that these loss functions are beneficial in the adversarial setting by proving that they admit $H$-consistency bounds. This leads to new adversarial robustness algorithms that consist of minimizing a regularized smooth adversarial comp-sum loss. While our main purpose is a theoretical analysis, we also present an extensive empirical analysis comparing comp-sum losses. We further report the results of a series of experiments demonstrating that our adversarial robustness algorithms outperform the current state-of-the-art, while also achieving a superior non-adversarial accuracy.
翻訳日:2023-06-22 02:51:43 公開日:2023-06-20
# ASL Citizen: 独立した手話認識を促進するコミュニティソースデータセット

ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign Language Recognition ( http://arxiv.org/abs/2304.05934v2 )

ライセンス: Link先を確認
Aashaka Desai, Lauren Berger, Fyodor O. Minakov, Vanessa Milan, Chinmay Singh, Kriston Pumphrey, Richard E. Ladner, Hal Daum\'e III, Alex X. Lu, Naomi Caselli, Danielle Bragg(参考訳) サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。 しかし、ほとんどの通信技術は話し言葉や書き言葉で動作し、アクセスの不平等を生み出す。 ASL Citizenは、最初にクラウドソーシングされたISLR(Isolated Sign Language Recognition)データセットで、同意を得て収集され、52人の署名者がさまざまな環境で撮影した2,731の異なるサインに対して83,399の動画を含む。 本稿では,このデータセットを用いて,ユーザがWebカメラに表示したサインを辞書から検索する,American Sign Language (ASL) のための手話辞書検索手法を提案する。 データセットを用いて教師付き機械学習分類器をトレーニングすることで、辞書検索に関連するメトリクスの最先端化が図られ、63%の精度と91%のリコール-at-10が達成され、トレーニングや検証セットに存在しないユーザのビデオで完全に評価される。 https://aashakadesai.github.io/research/ASLCitizen_arxiv_updated.pdf

Sign languages are used as a primary language by approximately 70 million D/deaf people world-wide. However, most communication technologies operate in spoken and written languages, creating inequities in access. To help tackle this problem, we release ASL Citizen, the first crowdsourced Isolated Sign Language Recognition (ISLR) dataset, collected with consent and containing 83,399 videos for 2,731 distinct signs filmed by 52 signers in a variety of environments. We propose that this dataset be used for sign language dictionary retrieval for American Sign Language (ASL), where a user demonstrates a sign to their webcam to retrieve matching signs from a dictionary. We show that training supervised machine learning classifiers with our dataset advances the state-of-the-art on metrics relevant for dictionary retrieval, achieving 63% accuracy and a recall-at-10 of 91%, evaluated entirely on videos of users who are not present in the training or validation sets. An accessible PDF of this article is available at the following link: https://aashakadesai.github.io/research/ASLCitizen_arxiv_updated.pdf
翻訳日:2023-06-22 02:51:02 公開日:2023-06-20
# superpixelgraph:意味に敏感なスーパーピクセルとニューラルネットワークによるビルディングフットプリントの半自動生成

SuperpixelGraph: Semi-automatic generation of building footprint through semantic-sensitive superpixel and neural graph networks ( http://arxiv.org/abs/2304.05661v2 )

ライセンス: Link先を確認
Haojia Yu, Han Hu, Bo Xu, Qisen Shang, Zhendong Wang and Qing Zhu(参考訳) ほとんどの都市アプリケーションは、ピクセルワイドのラスタ画像ではなく、シャープな境界を持つ簡潔なベクトルグラフィックスの形で、フットプリントを構築する必要がある。 これは、通常、過度に平滑なフットプリントポリゴンを生成する既存の手法のほとんどとは対照的である。 これらの自動生成ポリゴンの編集は、手動のデジタル化よりも時間を要するが、非効率である。 本稿では,セマンティクスに敏感なスーパーピクセルとニューラルネットワークを用いて足跡抽出を行う半自動的手法を提案する。 オブジェクトベースの分類技術からインスピレーションを得て、我々はまず境界保存だけでなく意味に敏感なスーパーピクセルを生成することを学ぶ。 スーパーピクセルは、他の自然なオブジェクトではなく、建物の境界にのみ反応し、同時に建物のセマンティックセグメンテーションを生成する。 これらの中間超ピクセル表現は自然にグラフ内のノードと見なすことができる。 その結果、グラフニューラルネットワークは、すべてのスーパーピクセル間のグローバルな相互作用をモデル化し、セグメンテーションを構築するノードの特徴の表現性を向上する。 古典的なアプローチは、ベクトル化された建物の足跡の境界を抽出し、規則化するのに使われる。 最小クリックとストロークを用いることで,精度の高いセグメンテーション結果を実現し,ポリゴン頂点の編集の必要性を解消する。 提案手法は,様々な公開ベンチマークデータセットに対する実験的な評価により,優れた精度と有効性を示す。 ベクターグラフィックス評価において,AP50の8%の大幅な改善が認められた。 さらに,インタラクティブな編集を行うための最適化された洗練されたパイプラインを考案し,結果の質をさらに向上させた。

Most urban applications necessitate building footprints in the form of concise vector graphics with sharp boundaries rather than pixel-wise raster images. This need contrasts with the majority of existing methods, which typically generate over-smoothed footprint polygons. Editing these automatically produced polygons can be inefficient, if not more time-consuming than manual digitization. This paper introduces a semi-automatic approach for building footprint extraction through semantically-sensitive superpixels and neural graph networks. Drawing inspiration from object-based classification techniques, we first learn to generate superpixels that are not only boundary-preserving but also semantically-sensitive. The superpixels respond exclusively to building boundaries rather than other natural objects, while simultaneously producing semantic segmentation of the buildings. These intermediate superpixel representations can be naturally considered as nodes within a graph. Consequently, graph neural networks are employed to model the global interactions among all superpixels and enhance the representativeness of node features for building segmentation. Classical approaches are utilized to extract and regularize boundaries for the vectorized building footprints. Utilizing minimal clicks and straightforward strokes, we efficiently accomplish accurate segmentation outcomes, eliminating the necessity for editing polygon vertices. Our proposed approach demonstrates superior precision and efficacy, as validated by experimental assessments on various public benchmark datasets. A significant improvement of 8% in AP50 was observed in vector graphics evaluation, surpassing established techniques. Additionally, we have devised an optimized and sophisticated pipeline for interactive editing, poised to further augment the overall quality of the results.
翻訳日:2023-06-22 02:50:37 公開日:2023-06-20
# l2,0濃度ペナルティによる不均一グラフトレンドフィルタリング

Inhomogeneous graph trend filtering via a l2,0 cardinality penalty ( http://arxiv.org/abs/2304.05223v2 )

ライセンス: Link先を確認
Xiaoqing Huang, Andersen Ang, Kun Huang, Jie Zhang, Yijie Wang(参考訳) グラフ上の断片的滑らかな信号の推定について検討する。 ノード間の不均一な滑らかさを示すグラフ信号の断片的スムーズさを推定するために,$\ell_{2,0}$-norm Penalized Graph Trend Filtering (GTF) モデルを提案する。 提案したGTFモデルは,ノード上の信号にK平均クラスタリングし,グラフのエッジに最小限のグラフをカットすると同時に,クラスタリングとカットが同一の割り当て行列を共有することを証明した。 提案手法は, シミュレーションアニーリングに基づくスペクトル分解法と手法である。 合成および実世界のデータセットに関する実験において,提案するgtfモデルの性能は,雑音化,サポートリカバリ,半教師付き分類といった既存の手法よりも優れていることを示した。 また,提案するgtfモデルは,エッジ集合が大きいデータセットの既存モデルよりも効率的に解くことができることを示した。

We study estimation of piecewise smooth signals over a graph. We propose a $\ell_{2,0}$-norm penalized Graph Trend Filtering (GTF) model to estimate piecewise smooth graph signals that exhibit inhomogeneous levels of smoothness across the nodes. We prove that the proposed GTF model is simultaneously a k-means clustering on the signal over the nodes and a minimum graph cut on the edges of the graph, where the clustering and the cut share the same assignment matrix. We propose two methods to solve the proposed GTF model: a spectral decomposition method and a method based on simulated annealing. In the experiment on synthetic and real-world datasets, we show that the proposed GTF model has a better performances compared with existing approaches on the tasks of denoising, support recovery and semi-supervised classification. We also show that the proposed GTF model can be solved more efficiently than existing models for the dataset with a large edge set.
翻訳日:2023-06-22 02:50:11 公開日:2023-06-20
# 運動制御における事前学習型視覚モデルの場合、全ての政策学習手法が等しくなるわけではない

For Pre-Trained Vision Models in Motor Control, Not All Policy Learning Methods are Created Equal ( http://arxiv.org/abs/2304.04591v2 )

ライセンス: Link先を確認
Yingdong Hu, Renhao Wang, Li Erran Li, Yang Gao(参考訳) 近年,運動制御のための事前学習型視覚モデルの利用に注目が集まっている。 既存の研究は主にプレトレーニングフェーズの重要性を強調しているが、制御固有の微調整において下流政策学習が果たす重要な役割は無視されることが多い。 したがって、事前訓練された視覚モデルが異なる制御ポリシーの下で有効性に一貫性があるかどうかは不明である。 このギャップを埋めるために、強化学習(RL)、行動クローニングによる模倣学習(BC)、視覚報酬機能付き模倣学習(VRF)を含む3種類の政策学習手法を用いて、14種類の事前学習された視覚モデルについて包括的な研究を行う。 本研究は, 事前学習の有効性が下流政策学習アルゴリズムの選択に大きく依存していることの発見を含む, 一連の興味深い結果をもたらす。 従来,RL法に基づく評価は非常に可変であり,信頼性が低いことを示し,VRFやBCといったより堅牢な手法の活用を提唱している。 事前学習されたモデルとそのポリシー学習手法のより普遍的な評価を容易にするため、我々は、作業とともに3つの異なる環境にわたる21のタスクのベンチマークもリリースした。

In recent years, increasing attention has been directed to leveraging pre-trained vision models for motor control. While existing works mainly emphasize the importance of this pre-training phase, the arguably equally important role played by downstream policy learning during control-specific fine-tuning is often neglected. It thus remains unclear if pre-trained vision models are consistent in their effectiveness under different control policies. To bridge this gap in understanding, we conduct a comprehensive study on 14 pre-trained vision models using 3 distinct classes of policy learning methods, including reinforcement learning (RL), imitation learning through behavior cloning (BC), and imitation learning with a visual reward function (VRF). Our study yields a series of intriguing results, including the discovery that the effectiveness of pre-training is highly dependent on the choice of the downstream policy learning algorithm. We show that conventionally accepted evaluation based on RL methods is highly variable and therefore unreliable, and further advocate for using more robust methods like VRF and BC. To facilitate more universal evaluations of pre-trained models and their policy learning methods in the future, we also release a benchmark of 21 tasks across 3 different environments alongside our work.
翻訳日:2023-06-22 02:49:54 公開日:2023-06-20
# 一般整数線形計画法の新しい特徴と効率的な局所探索

New Characterizations and Efficient Local Search for General Integer Linear Programming ( http://arxiv.org/abs/2305.00188v3 )

ライセンス: Link先を確認
Peng Lin, Shaowei Cai, Mengchuan Zou, Jinkun Lin(参考訳) 整数線形プログラミング(ilp)は、様々な実用的組合せ最適化問題をモデル化し、産業や経営分野に大きな影響を与える。 本研究は,境界解の概念を用いたILPの新たな特徴付けを提案する。 提案手法を応用した局所探索解法は,大規模な異種問題データセット上で検証された一般ILPの局所探索解法としては初めてである。 本研究では,検索モード,改善モード,復元モードの3つのモードを切り替えるローカル検索フレームワークを提案する。 異なるモードに適応した調整された演算子を設計し、状況に応じて現在のソリューションの品質を改善する。 探索・復元モードでは,変数の値を適応的に修正し,制約を厳格にしようとするtight moveという演算子を提案する。 改良モードでは, 有効性を維持しつつ, 目的関数の品質向上を図るために, 効率的な昇降動作が提案されている。 これらを組み合わせることで、ローカルILPと呼ばれる整数線形プログラミングのための局所探索解法を開発する。 MIPLIBデータセットで行った実験は,大規模ハード整数線形計画問題の解法の有効性を合理的に短時間で示すものである。 ローカルILPは最先端の商用ソルバであるGurobiと競合し相補的であり、最先端の非商用ソルバSCIPを著しく上回っている。 さらに,6つのMIPLIBオープンインスタンスの新たなレコードを確立する。 また,本アルゴリズムの理論的解析により,不要領域への接近を回避し,適切な解の接続性を維持することができることを示した。

Integer linear programming (ILP) models a wide range of practical combinatorial optimization problems and has significant impacts in industry and management sectors. This work proposes new characterizations of ILP with the concept of boundary solutions. Motivated by the new characterizations, we develop an efficient local search solver, which is the first local search solver for general ILP validated on a large heterogeneous problem dataset. We propose a new local search framework that switches between three modes, namely Search, Improve, and Restore modes. We design tailored operators adapted to different modes, thus improving the quality of the current solution according to different situations. For the Search and Restore modes, we propose an operator named tight move, which adaptively modifies variables' values, trying to make some constraint tight. For the Improve mode, an efficient operator lift move is proposed to improve the quality of the objective function while maintaining feasibility. Putting these together, we develop a local search solver for integer linear programming called Local-ILP. Experiments conducted on the MIPLIB dataset show the effectiveness of our solver in solving large-scale hard integer linear programming problems within a reasonably short time. Local-ILP is competitive and complementary to the state-of-the-art commercial solver Gurobi and significantly outperforms the state-of-the-art non-commercial solver SCIP. Moreover, our solver establishes new records for 6 MIPLIB open instances. The theoretical analysis of our algorithm is also presented, which shows our algorithm could avoid visiting unnecessary regions and also maintain good connectivity of targeted solutions.
翻訳日:2023-06-22 02:43:53 公開日:2023-06-20
# モノリシックバルクpKTP空洞における低雑音量子周波数変換

Low-noise quantum frequency conversion in a monolithic bulk ppKTP cavity ( http://arxiv.org/abs/2304.13459v3 )

ライセンス: Link先を確認
Felix Mann, Helen M. Chrzanowski, Felipe Gewers, Marlon Placke, Sven Ramelow(参考訳) 将来の大規模量子ネットワークの異なるビルディングブロックのインターフェイスは、効率良くノイズのない量子光の周波数変換を必要とする。 ダイヤモンド中の窒素空孔(NV)中心は、そのようなネットワークのノードを形成する主要な候補である。 しかし, 既往の実証実験は, 目標通信波長で発生する寄生雑音によって著しく制限されているため, 適切なコンバータの性能は依然としてボトルネックである。 本稿では,モノリシックなバルクppktpキャビティに基づく高効率な低ノイズ量子周波数変換のための新しいプラットフォームを示し,ダイヤモンド中のnv中心から通信波長への637nm単一光子変換に適していることを示す。 オフザシェルフポンプレーザーの出力を共鳴的に高めることにより、アクティブ安定化を必要とせず、ターゲット波長で(110\pm 4) \mbox{ kHz/nm}$のみを発生させながら、内部変換効率が$(72.3\pm 0.4)\%となる。 これは、この波長での既存の最先端のシングルステップ変換器に対する5倍のノイズ改善である。 自発的なパラメトリックダウン変換源から光子を変換することで非古典的相関のほぼ理想的保存を検証し、さらにフランソン干渉法による時間エネルギーの絡み合いの保存を示す。

Interfacing the different building blocks of a future large scale quantum network will demand efficient and noiseless frequency conversion of quantum light. Nitrogen-vacancy (NV) centers in diamond are a leading candidate to form the nodes of such a network. However, the performance of a suitable converter remains a bottleneck, with existing demonstrations severely limited by parasitic noise arising at the target telecom wavelength. Here, we demonstrate a new platform for efficient low-noise quantum frequency conversion based on a monolithic bulk ppKTP cavity and show its suitability for the conversion of 637 nm single photons from NV centers in diamond to telecommunication wavelengths. By resonantly enhancing the power of an off-the-shelf pump laser, we achieve an internal conversion efficiency of $(72.3\pm 0.4)\%$ while generating only $(110\pm 4) \mbox{ kHz/nm}$ noise at the target wavelength without the need for any active stabilization. This constitutes a 5-fold improvement in noise over existing state-of-the-art single-step converters at this wavelengths. We verify the almost ideal preservation of non-classical correlations by converting photons from a spontaneous parametric down-conversion source and moreover show the preservation of time-energy entanglement via Franson interferometry.
翻訳日:2023-06-22 02:41:37 公開日:2023-06-20
# 人間か機械か: チューリングにインスパイアされた毎日のテスト

Human or Machine: Reflections on Turing-Inspired Testing for the Everyday ( http://arxiv.org/abs/2305.04312v3 )

ライセンス: Link先を確認
David Harel and Assaf Marron(参考訳) アラン・チューリングは論文"Computing Machinery and Intelligence"で、機械知性の概念の探求の一環として「シミュレーションゲーム」を紹介した。 チューリングテストはその後、多くの分析、議論、改良、拡張の対象となった。 ここでは、特定のマシンにインテリジェントなラベルを付けることができるのか、あるいは特定のコンテキストにおける人間の能力と一致すると言えるのかという疑問を回避します。 その代わりに、チューリングにインスパイアされた私たちは、日々の生活の中で、人間が人間や機械と相互作用しているかどうかを判断する、一見単純な課題に注意を向けます。 我々は、この人間か機械かという質問の重要性と、それに対する信頼できる答えが生み出すかもしれない使用について振り返ることに興味を持っている。 チューリングの最初のテストは、より思考実験であると広く考えられているが、ここで論じた人間と機械の問題は、明らかに実用的な意味を持っている。 陪審員は、日常的に高い忠実さで人間の行動を模倣できる機械の可能性については議論していないが、ここで提起された問題の短期的な探索は、コンピュータシステムの開発方法に寄与し、人間の行動全般の理解を向上する可能性があると論じている。

In his seminal paper "Computing Machinery and Intelligence", Alan Turing introduced the "imitation game" as part of exploring the concept of machine intelligence. The Turing Test has since been the subject of much analysis, debate, refinement and extension. Here we sidestep the question of whether a particular machine can be labeled intelligent, or can be said to match human capabilities in a given context. Instead, but inspired by Turing, we draw attention to the seemingly simpler challenge of determining whether one is interacting with a human or with a machine, in the context of everyday life. We are interested in reflecting upon the importance of this Human-or-Machine question and the use one may make of a reliable answer thereto. Whereas Turing's original test is widely considered to be more of a thought experiment, the Human-or-Machine question as discussed here has obvious practical significance. And while the jury is still not in regarding the possibility of machines that can mimic human behavior with high fidelity in everyday contexts, we argue that near-term exploration of the issues raised here can contribute to development methods for computerized systems, and may also improve our understanding of human behavior in general.
翻訳日:2023-06-22 02:33:05 公開日:2023-06-20
# LSGNN:局所類似性によるノード分類における一般グラフニューラルネットワーク

LSGNN: Towards General Graph Neural Network in Node Classification by Local Similarity ( http://arxiv.org/abs/2305.04225v2 )

ライセンス: Link先を確認
Yuhan Chen, Yihong Luo, Jing Tang, Liang Yang, Siya Qiu, Chuan Wang, Xiaochun Cao(参考訳) ヘテロフィリーはグラフニューラルネットワーク(GNN)のパフォーマンスを損なう問題とみなされている。 この問題に対処するために、いくつかの既存の研究は、ホモフィリーを持つより多くのノードを含むために、マルチホップ隣人の情報のグラフレベルの重み付け融合を使用している。 しかし、ヘテロフィリは局所位相を考える必要があるノード間で異なるかもしれない。 そこで我々は,局所的な類似性(LocalSim)を用いて,プラグイン・アンド・プレイモジュールとしても機能するノードレベルの重み付き融合を学習することを提案する。 そこで本研究では,より情報性の高いマルチホップ情報を抽出するための,新規かつ効率的な初期残留差分接続(IRDC)を提案する。 さらに、合成グラフ上でのノードホモフィリーを表現するLocalSimの有効性に関する理論的解析を行う。 提案手法であるローカル類似グラフニューラルネットワーク(LSGNN)は,同好性グラフとヘテロ親和性グラフの両面において,同等あるいは優れた技術性能を提供できることを示す。 一方、プラグアンドプレイモデルは既存のGNNの性能を大幅に向上させることができる。 私たちのコードはhttps://github.com/draym28/LSGNNで提供されています。

Heterophily has been considered as an issue that hurts the performance of Graph Neural Networks (GNNs). To address this issue, some existing work uses a graph-level weighted fusion of the information of multi-hop neighbors to include more nodes with homophily. However, the heterophily might differ among nodes, which requires to consider the local topology. Motivated by it, we propose to use the local similarity (LocalSim) to learn node-level weighted fusion, which can also serve as a plug-and-play module. For better fusion, we propose a novel and efficient Initial Residual Difference Connection (IRDC) to extract more informative multi-hop information. Moreover, we provide theoretical analysis on the effectiveness of LocalSim representing node homophily on synthetic graphs. Extensive evaluations over real benchmark datasets show that our proposed method, namely Local Similarity Graph Neural Network (LSGNN), can offer comparable or superior state-of-the-art performance on both homophilic and heterophilic graphs. Meanwhile, the plug-and-play model can significantly boost the performance of existing GNNs. Our code is provided at https://github.com/draym28/LSGNN.
翻訳日:2023-06-22 02:32:43 公開日:2023-06-20
# カオスにおける直交多項式近似と拡張動的モード分解

Orthogonal polynomial approximation and Extended Dynamic Mode Decomposition in chaos ( http://arxiv.org/abs/2305.08074v3 )

ライセンス: Link先を確認
Caroline L. Wormell(参考訳) extended dynamic mode decomposition (edmd) は、物理科学において広く取り上げられている、ダイナミクスの予測とモデル還元のためのデータ駆動ツールである。 この手法は概念的には単純であるが、決定論的カオスでは、その性質が何であるか、何に収束するかは明らかではない。 特に、EDMDの最小二乗近似がカオス力学を理解するのに必要な正規関数のクラスをどのように扱うかは明らかではない。 EDMDの一般的な厳密な理論は、カオス写像の最も単純な例である円の拡大写像を解析する上で初めて発展する。 これを実現するために、単位円(OPUC)上の直交多項式の理論における新しい基本近似結果を証明し、転送作用素理論から方法を適用する。 無限データ極限において、最小二乗射影誤差は三角多項式可観測ディクショナリに対して指数関数的に小さい。 その結果,edmdを用いて生成された予測データとクープマンスペクトルデータは,辞書のサイズに対して指数関数的に速く,物理的に有意な限界に収束することが示された。 これは、比較的小さな多項式辞書だけでは、サンプリング測度が均一でない場合でも、EDMDは非常に効果的であることを示す。 さらに, OPUCの結果から, データに基づく最小二乗予測が極めて効果的な近似手法である可能性が示唆された。

Extended Dynamic Mode Decomposition (EDMD) is a data-driven tool for forecasting and model reduction of dynamics, which has been extensively taken up in the physical sciences. While the method is conceptually simple, in deterministic chaos it is unclear what its properties are or even what it converges to. In particular, it is not clear how EDMD's least-squares approximation treats the classes of regular functions needed to make sense of chaotic dynamics. We develop for the first time a general, rigorous theory of EDMD on the simplest examples of chaotic maps: analytic expanding maps of the circle. To do this, we prove a new, basic approximation result in the theory of orthogonal polynomials on the unit circle (OPUC) and apply methods from transfer operator theory. We show that in the infinite-data limit, the least-squares projection error is exponentially small for trigonometric polynomial observable dictionaries. As a result, we show that the forecasts and Koopman spectral data produced using EDMD in this setting converge to the physically meaningful limits, exponentially fast with respect to the size of the dictionary. This demonstrates that with only a relatively small polynomial dictionary, EDMD can be very effective, even when the sampling measure is not uniform. Furthermore, our OPUC result suggests that data-based least-squares projections may be a very effective approximation strategy.
翻訳日:2023-06-22 02:23:50 公開日:2023-06-20
# 変換器Albertina PT-*によるポルトガル語のニューラルエンコーディングの改善

Advancing Neural Encoding of Portuguese with Transformer Albertina PT-* ( http://arxiv.org/abs/2305.06721v2 )

ライセンス: Link先を確認
Jo\~ao Rodrigues, Lu\'is Gomes, Jo\~ao Silva, Ant\'onio Branco, Rodrigo Santos, Henrique Lopes Cardoso, Tom\'as Os\'orio(参考訳) ポルトガル語(pt-pt)とブラジル語(pt-br)の2つの変種についてトランスフォーマーベースの基礎モデルを開発した。 このエンコーダを開発するために、我々はAlbertina PT-*と名付けた強力なモデルを出発点としてDeBERTaを使用し、その事前学習をポルトガルのデータセット、すなわちPT-PTとPT-BRのデータセット、PT-BRのbrWaCコーパス上で行った。 アルベルティーナと競合するモデルの性能は、ポルトガル語に適応した下流言語処理タスクで評価することで評価された。 アルベルティーナpt-ptとpt-brの両方のバージョンは、可能な限り無償で配布され、消費者向けのハードウェア上で動作可能であり、ポルトガル語のための言語技術の研究と革新の進展に貢献したいと考えている。

To advance the neural encoding of Portuguese (PT), and a fortiori the technological preparation of this language for the digital age, we developed a Transformer-based foundation model that sets a new state of the art in this respect for two of its variants, namely European Portuguese from Portugal (PT-PT) and American Portuguese from Brazil (PT-BR). To develop this encoder, which we named Albertina PT-*, a strong model was used as a starting point, DeBERTa, and its pre-training was done over data sets of Portuguese, namely over data sets we gathered for PT-PT and PT-BR, and over the brWaC corpus for PT-BR. The performance of Albertina and competing models was assessed by evaluating them on prominent downstream language processing tasks adapted for Portuguese. Both Albertina PT-PT and PT-BR versions are distributed free of charge and under the most permissive license possible and can be run on consumer-grade hardware, thus seeking to contribute to the advancement of research and innovation in language technology for Portuguese.
翻訳日:2023-06-22 02:21:50 公開日:2023-06-20
# Evidence-based Uncertainty による肝腫瘍切除

Trustworthy Multi-phase Liver Tumor Segmentation via Evidence-based Uncertainty ( http://arxiv.org/abs/2305.05344v2 )

ライセンス: Link先を確認
Chuanfei Hu, Tianyi Xia, Ying Cui, Quchen Zou, Yuancheng Wang, Wenbo Xiao, Shenghong Ju, Xinde Li(参考訳) 多相肝造影CT(Multi-phase liver contrast-enhanced Computed Tomography, CECT)画像は,肝癌の臨床的診断に重要な肝腫瘍セグメンテーション(LiTS)の相補的多相情報を伝達する。 しかし, 既存の多相肝腫瘍分画法(mplits)は冗長性, 弱い解釈性に苦しむため, 臨床応用の信頼性が暗黙的に低下した。 本稿では, 分節化と不確実性推定を共同で行う統一的な枠組みである, 信頼性の高い多相肝腫瘍分節(tmplits)を提案する。 信頼できる結果は、臨床医が信頼できる診断を行うのに役立つ。 具体的には、ディリクレ分布に続く証拠として、セグメンテーションと不確実性をパラメータ化するためにDST(Dempster-Shafer Evidence Theory)が導入された。 多相CECT画像間のセグメンテーション結果の信頼性を明示的に定量化する。 一方, 多相混合法(MEMS)は, 多相証拠を融合するために提案され, 理論解析に基づく融合処理の効果を保証できる。 実験の結果,TMPLiTSは最先端手法に比べて優れていた。 一方、TMPLiTSの堅牢性は検証され、信頼性の高い性能が摂動に対して保証される。

Multi-phase liver contrast-enhanced computed tomography (CECT) images convey the complementary multi-phase information for liver tumor segmentation (LiTS), which are crucial to assist the diagnosis of liver cancer clinically. However, the performances of existing multi-phase liver tumor segmentation (MPLiTS)-based methods suffer from redundancy and weak interpretability, % of the fused result, resulting in the implicit unreliability of clinical applications. In this paper, we propose a novel trustworthy multi-phase liver tumor segmentation (TMPLiTS), which is a unified framework jointly conducting segmentation and uncertainty estimation. The trustworthy results could assist the clinicians to make a reliable diagnosis. Specifically, Dempster-Shafer Evidence Theory (DST) is introduced to parameterize the segmentation and uncertainty as evidence following Dirichlet distribution. The reliability of segmentation results among multi-phase CECT images is quantified explicitly. Meanwhile, a multi-expert mixture scheme (MEMS) is proposed to fuse the multi-phase evidences, which can guarantee the effect of fusion procedure based on theoretical analysis. Experimental results demonstrate the superiority of TMPLiTS compared with the state-of-the-art methods. Meanwhile, the robustness of TMPLiTS is verified, where the reliable performance can be guaranteed against the perturbations.
翻訳日:2023-06-22 02:21:29 公開日:2023-06-20
# 予測付きオンラインリストラベリング

Online List Labeling with Predictions ( http://arxiv.org/abs/2305.10536v2 )

ライセンス: Link先を確認
Samuel McCauley, Benjamin Moseley, Aidin Niaparast, Shikha Singh(参考訳) アルゴリズムの実行時間を改善するために、学習した予測を使って最悪のケースバリアを突破する方法が示されています。 しかし、強い理論的保証を持つデータ構造に予測を組み込むことは未開発である。 本稿では,この方向を一歩進めて,基本的なオンラインリストラベリング問題において予測を活用できることを示す。 問題では、n個のアイテムが時間とともに到着し、サイズ Theta(n) の配列でソート順序で格納されなければならない。 要素の配列スロットはそのラベルであり、移動された要素の総数(すなわちrelabeled)を最小化しながらソートされた順序を維持することを目的としている。 データ構造をラベル付けした新しいリストを設計し、その性能を2つのモデルでバインドする。 最悪の場合の学習強化モデルでは、予測における誤差の観点から保証を与える。 我々のデータ構造は、予測エラーに対して最適であり、予測が完全に誤っている場合でも、最もよく知られた最悪のケース境界を保証する。 また,確率的誤差モデルを検討し,誤差の期待と分散の観点から性能を限定する。 最後に、理論結果は実証的に示される。 特に,我々のデータ構造は,過去に到達した要素から予測が構築される実時間データセットにおいて,現実のユースケースのように強いパフォーマンスを示す。

A growing line of work shows how learned predictions can be used to break through worst-case barriers to improve the running time of an algorithm. However, incorporating predictions into data structures with strong theoretical guarantees remains underdeveloped. This paper takes a step in this direction by showing that predictions can be leveraged in the fundamental online list labeling problem. In the problem, n items arrive over time and must be stored in sorted order in an array of size Theta(n). The array slot of an element is its label and the goal is to maintain sorted order while minimizing the total number of elements moved (i.e., relabeled). We design a new list labeling data structure and bound its performance in two models. In the worst-case learning-augmented model, we give guarantees in terms of the error in the predictions. Our data structure provides strong guarantees: it is optimal for any prediction error and guarantees the best-known worst-case bound even when the predictions are entirely erroneous. We also consider a stochastic error model and bound the performance in terms of the expectation and variance of the error. Finally, the theoretical results are demonstrated empirically. In particular, we show that our data structure has strong performance on real temporal data sets where predictions are constructed from elements that arrived in the past, as is typically done in a practical use case.
翻訳日:2023-06-22 02:11:36 公開日:2023-06-20
# ニューラルネットワークのロバスト解釈可能性に関する因果解析

Causal Analysis for Robust Interpretability of Neural Networks ( http://arxiv.org/abs/2305.08950v2 )

ライセンス: Link先を確認
Ola Ahmad, Nicolas Bereux, Lo\"ic Baret, Vahid Hashemi, Freddy Lecue(参考訳) ニューラルネットワークの内部機能を解釈することは、これらのブラックボックスモデルの信頼性の高い開発と展開に不可欠である。 従来の解釈可能性の手法は、モデル決定を個々の例に当てはめる相関に基づく尺度にフォーカスする。 しかしながら、これらの尺度は、トレーニングフェーズ中にモデルにエンコードされたノイズやスプリアス相関(例えば、バイアス入力、モデル過剰フィッティング、誤特定)に影響を受けやすい。 さらに、このプロセスは、モデルの振る舞いの透明な理解を妨げるノイズと不安定な属性をもたらすことが証明されている。 本稿では、因果解析に基づく頑健な介入に基づく手法を開発し、事前学習ニューラルネットワークの因果影響メカニズムとその予測との関係を明らかにする。 我々の新しいアプローチは、隠れた層内の因果メカニズムを推測し、関連する情報(モデル予測)を分離し、ノイズを避けるために経路介入に依存する。 その結果、タスク固有の因果説明グラフがモデル動作を監査し、そのパフォーマンスの根底にある実際の原因を表現できる。 本手法を分類タスクを訓練した視覚モデルに適用する。 画像分類タスクにおいて,本手法が標準帰属法よりも安定かつ忠実な説明を得られることを示すため,広範囲な定量的実験を行った。 さらに、基礎となる因果グラフはモデル内の神経相互作用を明らかにし、他のアプリケーション(例えばモデル修復)で有用なツールとなる。

Interpreting the inner function of neural networks is crucial for the trustworthy development and deployment of these black-box models. Prior interpretability methods focus on correlation-based measures to attribute model decisions to individual examples. However, these measures are susceptible to noise and spurious correlations encoded in the model during the training phase (e.g., biased inputs, model overfitting, or misspecification). Moreover, this process has proven to result in noisy and unstable attributions that prevent any transparent understanding of the model's behavior. In this paper, we develop a robust interventional-based method grounded by causal analysis to capture cause-effect mechanisms in pre-trained neural networks and their relation to the prediction. Our novel approach relies on path interventions to infer the causal mechanisms within hidden layers and isolate relevant and necessary information (to model prediction), avoiding noisy ones. The result is task-specific causal explanatory graphs that can audit model behavior and express the actual causes underlying its performance. We apply our method to vision models trained on classification tasks. On image classification tasks, we provide extensive quantitative experiments to show that our approach can capture more stable and faithful explanations than standard attribution-based methods. Furthermore, the underlying causal graphs reveal the neural interactions in the model, making it a valuable tool in other applications (e.g., model repair).
翻訳日:2023-06-22 02:10:25 公開日:2023-06-20
# 同時学習による正規化:植物分類の事例研究

Regularization Through Simultaneous Learning: A Case Study on Plant Classification ( http://arxiv.org/abs/2305.13447v4 )

ライセンス: Link先を確認
Pedro Henrique Nascimento Castro, Gabriel C\'assia Fortuna, Rafael Alves Bonfim de Queiroz, Gladston Juliano Prates Moreira and Eduardo Jos\'e da Silva Luz(参考訳) 本稿では,ディープニューラルネットワークにおけるオーバーフィッティングの課題に対して,トランスファー学習とマルチタスク学習の原則に基づいた正規化アプローチである同時学習を提案する。 対象データセットであるufop-hvdを用いた補助データセットを活用して,グループ間ペナルティを特徴とするカスタマイズされた損失関数による同時分類を容易にする。 この実験構成により、類似(PlantNet)および異種(ImageNet)ドメインにわたるモデル性能の詳細な検証が可能となり、畳み込みニューラルネットワークモデルの一般化可能性を高めることができる。 また,本手法は,正則化を伴わないモデルや,ドロップアウト正則化のみを適用したモデルよりも優れた性能を示し,精度を5~22ポイント向上させる。 さらに、ドロップアウトと組み合わせることで一般化が改善され、ufop-hvdチャレンジの最先端結果が確保される。 この方法は、サンプルサイズがかなり小さい効率も示しており、関連するタスクのスペクトルにまたがる幅広い適用性が示唆されている。 さらに、ネットワークの畳み込み層内のクラス特徴相関を分析することにより、特徴品質を評価するための解釈可能性アプローチが展開される。 本研究は, 同時学習の有効性, 特に補助的・目的的データセットとの相互作用について, より深い知見を提供する。

In response to the prevalent challenge of overfitting in deep neural networks, this paper introduces Simultaneous Learning, a regularization approach drawing on principles of Transfer Learning and Multi-task Learning. We leverage auxiliary datasets with the target dataset, the UFOP-HVD, to facilitate simultaneous classification guided by a customized loss function featuring an inter-group penalty. This experimental configuration allows for a detailed examination of model performance across similar (PlantNet) and dissimilar (ImageNet) domains, thereby enriching the generalizability of Convolutional Neural Network models. Remarkably, our approach demonstrates superior performance over models without regularization and those applying dropout regularization exclusively, enhancing accuracy by 5 to 22 percentage points. Moreover, when combined with dropout, the proposed approach improves generalization, securing state-of-the-art results for the UFOP-HVD challenge. The method also showcases efficiency with significantly smaller sample sizes, suggesting its broad applicability across a spectrum of related tasks. In addition, an interpretability approach is deployed to evaluate feature quality by analyzing class feature correlations within the network's convolutional layers. The findings of this study provide deeper insights into the efficacy of Simultaneous Learning, particularly concerning its interaction with the auxiliary and target datasets.
翻訳日:2023-06-22 02:03:00 公開日:2023-06-20
# GCNにおけるlp正規化確率学習の安定性と一般化

Stability and Generalization of lp-Regularized Stochastic Learning for GCN ( http://arxiv.org/abs/2305.12085v3 )

ライセンス: Link先を確認
Shiyu Liu, Linsen Wei, Shaogao Lv and Ming Li(参考訳) グラフ畳み込みネットワーク(GCN)はグラフデータ上のグラフニューラルネットワークの変種の中で最も一般的な表現の1つと見なされ、経験的実験において強力な性能を示している。 この$\ell_2$-based graph smoothingはGCNのグローバルなスムーズさを強制するが、 (soft) $\ell_1$-based スパースグラフ学習は不連続性のために信号の空間性を促進する傾向がある。 本稿では,GCNの滑らかさと疎さのトレードオフを,一般の$\ell_p$-regularized $(1<p\leq 2)$確率学習の助けを借りて定量化する。 安定性に基づく一般化解析は2次微分客観性関数の先行研究で行われているが、我々の$\ell_p$-regularized learning schemeはそのような滑らかな条件を満たさない。 この問題に対処するために,不正確な演算子を持つGCNに対する新しいSGD近位アルゴリズムを提案する。 単層GCNの場合、SGD近位アルゴリズムの安定性を解析することにより、$\ell_p$-regularized stochastic learningを用いてGCNの明確な理論的理解を確立する。 理論的結果を検証するために,複数の実験を行った。

Graph convolutional networks (GCN) are viewed as one of the most popular representations among the variants of graph neural networks over graph data and have shown powerful performance in empirical experiments. That $\ell_2$-based graph smoothing enforces the global smoothness of GCN, while (soft) $\ell_1$-based sparse graph learning tends to promote signal sparsity to trade for discontinuity. This paper aims to quantify the trade-off of GCN between smoothness and sparsity, with the help of a general $\ell_p$-regularized $(1<p\leq 2)$ stochastic learning proposed within. While stability-based generalization analyses have been given in prior work for a second derivative objectiveness function, our $\ell_p$-regularized learning scheme does not satisfy such a smooth condition. To tackle this issue, we propose a novel SGD proximal algorithm for GCNs with an inexact operator. For a single-layer GCN, we establish an explicit theoretical understanding of GCN with the $\ell_p$-regularized stochastic learning by analyzing the stability of our SGD proximal algorithm. We conduct multiple empirical experiments to validate our theoretical findings.
翻訳日:2023-06-22 02:02:15 公開日:2023-06-20
# PromptNER: 名前付きエンティティ認識のためのプロンプト

PromptNER: Prompting For Named Entity Recognition ( http://arxiv.org/abs/2305.15444v2 )

ライセンス: Link先を確認
Dhananjay Ashok, Zachary C. Lipton(参考訳) 驚くべきことに、LLM(Large Language Models)は、急進的なヒューリスティック(promise-based heuristics)の武器の増大とともに、無数の古典的NLP問題に対する数ショットのソリューションを提供する強力なオフザシェルフアプローチを提供する。 しかし、将来性のある初期の成果にもかかわらず、これらのLLMベースの小ショット法は、標準ラベル付きコーパスによるエンドツーエンド構造理解と微調整による表現の学習を含む、名前付きエンティティ認識(NER)の最先端技術には程遠いままである。 本稿では,数ショットおよびクロスドメインNERのための最先端アルゴリズムであるPromptNERを紹介する。 新しいNERタスクに適応するために、PromptNERは標準的ないくつかの例に加えてエンティティ定義のセットを必要とする。 文が与えられた後、PromptNERはLLMに、提供されたエンティティタイプ定義との互換性を正当化する対応する説明とともに、潜在的なエンティティのリストを作成するよう促す。 PromptNERは、数ショットのNERで最先端のパフォーマンスを実現し、ConLLデータセットでのF1スコアの4%(絶対)改善、GENIAデータセットでの9%(絶対)改善、FewNERDデータセットでの4%(絶対)改善を実現している。 PromptNERはまた、Cross Domain NERの最先端技術を動かし、3/5のCrossNERターゲットドメインに新しいマークを設定し、使用可能なデータの2%未満を使用しながら、平均的なF1ゲイン3%を達成している。

In a surprising turn, Large Language Models (LLMs) together with a growing arsenal of prompt-based heuristics now offer powerful off-the-shelf approaches providing few-shot solutions to myriad classic NLP problems. However, despite promising early results, these LLM-based few-shot methods remain far from the state of the art in Named Entity Recognition (NER), where prevailing methods include learning representations via end-to-end structural understanding and fine-tuning on standard labeled corpora. In this paper, we introduce PromptNER, a new state-of-the-art algorithm for few-Shot and cross-domain NER. To adapt to any new NER task PromptNER requires a set of entity definitions in addition to the standard few-shot examples. Given a sentence, PromptNER prompts an LLM to produce a list of potential entities along with corresponding explanations justifying their compatibility with the provided entity type definitions. Remarkably, PromptNER achieves state-of-the-art performance on few-shot NER, achieving a 4% (absolute) improvement in F1 score on the ConLL dataset, a 9% (absolute) improvement on the GENIA dataset, and a 4% (absolute) improvement on the FewNERD dataset. PromptNER also moves the state of the art on Cross Domain NER, outperforming prior methods (including those not limited to the few-shot setting), setting a new mark on 3/5 CrossNER target domains, with an average F1 gain of 3%, despite using less than 2% of the available data.
翻訳日:2023-06-22 01:51:20 公開日:2023-06-20
# 深層学習と倫理

Deep Learning and Ethics ( http://arxiv.org/abs/2305.15239v2 )

ライセンス: Link先を確認
Travis LaCroix and Simon J. D. Prince(参考訳) この記事は、prince (2023, understanding deep learning)の21章として表示され、教科書の完全な草案はここで入手できる。 本章では、aiシステムの設計と利用から生じる潜在的な害について考察する。 これにはアルゴリズムバイアス、説明可能性の欠如、データのプライバシー侵害、軍事化、詐欺、環境問題などが含まれる。 目的は、もっと倫理的になるためのアドバイスを提供することではない。 その代わり、思想を表現し、哲学、政治科学、より広い社会科学に注目された重要な領域で会話を始めることが目的である。

This article appears as chapter 21 of Prince (2023, Understanding Deep Learning); a complete draft of the textbook is available here: http://udlbook.com. This chapter considers potential harms arising from the design and use of AI systems. These include algorithmic bias, lack of explainability, data privacy violations, militarization, fraud, and environmental concerns. The aim is not to provide advice on being more ethical. Instead, the goal is to express ideas and start conversations in key areas that have received attention in philosophy, political science, and the broader social sciences.
翻訳日:2023-06-22 01:50:13 公開日:2023-06-20
# 適応型自己蒸留による不均一データのフェデレーション学習

Federated Learning on Heterogeneous Data via Adaptive Self-Distillation ( http://arxiv.org/abs/2305.19600v2 )

ライセンス: Link先を確認
M.Yashwanth, Gaurav Kumar Nayak, Arya Singh, Yogesh Simmhan, Anirban Chakraborty(参考訳) Federated Learning(FL)は、クライアントがローカルトレーニングデータを共有せずに、局所的にトレーニングされたモデルを集約することで、グローバルモデルの共同トレーニングを可能にする機械学習パラダイムである。 実際には、各クライアントが観測するローカルデータ分布にまたがる実質的な不均一性(例えばクラス不均衡)がしばしば存在する。 このようなクライアント間の非IDデータ分散では、FLはすべてのクライアントが自身のローカルな最適化に収束する'client-drift'問題に悩まされる。 これにより、集約モデルの収束が遅くなり、性能が低下する。 この制限に対処するために、クライアント側でのトレーニングモデルのための適応自己蒸留(ASD)に基づく新しい正規化手法を提案する。 我々の正規化方式は,(1)グローバルモデルとの局所モデル予測の近接性,(2)クライアントのラベル分布に基づいて,クライアントのトレーニングデータに適応的に適応的に調整する。 提案した正則化は、既存の最先端のFLアルゴリズムに容易に組み込むことができ、これらのオフ・ザ・シェルフ法の性能がさらに向上する。 提案手法の有効性を,複数の実世界のベンチマーク(共通の腐敗と摂動を伴うデータセットを含む)による広範な実験により実証し,現状の手法よりも高い性能を示す。

Federated Learning (FL) is a machine learning paradigm that enables clients to jointly train a global model by aggregating the locally trained models without sharing any local training data. In practice, there can often be substantial heterogeneity (e.g., class imbalance) across the local data distributions observed by each of these clients. Under such non-iid data distributions across clients, FL suffers from the 'client-drift' problem where every client converges to its own local optimum. This results in slower convergence and poor performance of the aggregated model. To address this limitation, we propose a novel regularization technique based on adaptive self-distillation (ASD) for training models on the client side. Our regularization scheme adaptively adjusts to the client's training data based on: (1) the closeness of the local model's predictions with that of the global model and (2) the client's label distribution. The proposed regularization can be easily integrated atop existing, state-of-the-art FL algorithms leading to a further boost in the performance of these off-the-shelf methods. We demonstrate the efficacy of our proposed FL approach through extensive experiments on multiple real-world benchmarks (including datasets with common corruptions and perturbations) and show substantial gains in performance over the state-of-the-art methods.
翻訳日:2023-06-22 01:44:10 公開日:2023-06-20
# 車両ルーティング問題に対するOmni-Generalizable Neural Methods

Towards Omni-generalizable Neural Methods for Vehicle Routing Problems ( http://arxiv.org/abs/2305.19587v2 )

ライセンス: Link先を確認
Jianan Zhou, Yaoxin Wu, Wen Song, Zhiguang Cao, Jie Zhang(参考訳) 車両ルーティング問題(VRP)の学習ヒューリスティックスは手作りルールへの依存度が低かったために注目されている。 しかしながら、既存のメソッドは通常、一定のサイズと分散(ノード)を持つ同じタスクでトレーニングされ、テストされるため、一般化性能が制限される。 本稿では,vrpにおけるサイズと分布の一般化を考慮した,挑戦的で現実的な設定について検討する。 推論中に新しいタスクに素早く適応できる初期化モデルの効果的なトレーニングを可能にする汎用的メタ学習フレームワークを提案する。 さらに,トレーニングオーバーヘッドを削減するための簡易かつ効率的な近似手法を考案する。 トラクションセールスマン問題 (TSP) とキャパシタン化車両ルーティング問題 (CVRP) の総合的およびベンチマーク実験により, 本手法の有効性が示された。 コードは以下の通り:https://github.com/RoyalSkye/Omni-VRP。

Learning heuristics for vehicle routing problems (VRPs) has gained much attention due to the less reliance on hand-crafted rules. However, existing methods are typically trained and tested on the same task with a fixed size and distribution (of nodes), and hence suffer from limited generalization performance. This paper studies a challenging yet realistic setting, which considers generalization across both size and distribution in VRPs. We propose a generic meta-learning framework, which enables effective training of an initialized model with the capability of fast adaptation to new tasks during inference. We further develop a simple yet efficient approximation method to reduce the training overhead. Extensive experiments on both synthetic and benchmark instances of the traveling salesman problem (TSP) and capacitated vehicle routing problem (CVRP) demonstrate the effectiveness of our method. The code is available at: https://github.com/RoyalSkye/Omni-VRP.
翻訳日:2023-06-22 01:43:51 公開日:2023-06-20
# バイレベル学習による最適正規化パラメータについて

On Optimal Regularization Parameters via Bilevel Learning ( http://arxiv.org/abs/2305.18394v3 )

ライセンス: Link先を確認
Matthias J. Ehrhardt, Silvia Gazzola and Sebastian J. Scott (Department of Mathematical Sciences, University of Bath, Bath, UK)(参考訳) 変分正規化は線形逆問題を解くためによく使われ、正規化子によるデータの忠実度を増強する。 正規化器は事前情報を促進するために使用され、正規化パラメータによって重み付けされる。 適切な正規化パラメータの選択は重要であり、様々な選択が全く異なる再構成につながる。 相違原理やL曲線といった既存の戦略を用いて適切なパラメータ値を決定することができるが、近年はバイレベル学習と呼ばれる教師付き機械学習アプローチが採用されている。 バイレベル学習は最適パラメータを決定する強力なフレームワークであり、ネスト最適化問題を解決することを含む。 従来の戦略は様々な理論的な成果を享受するが、この環境における二段階学習はいまだ発展途上である。 1つの必須性質は、決定された正則化パラメータの正則性である。 本研究では,既存の理論よりも最適正則化パラメータの正値性をよりよく特徴付ける新しい条件を提案する。 数値計算により、この新条件を小・大ともに検証・検討する。

Variational regularization is commonly used to solve linear inverse problems, and involves augmenting a data fidelity by a regularizer. The regularizer is used to promote a priori information, and is weighted by a regularization parameter. Selection of an appropriate regularization parameter is critical, with various choices leading to very different reconstructions. Existing strategies such as the discrepancy principle and L-curve can be used to determine a suitable parameter value, but in recent years a supervised machine learning approach called bilevel learning has been employed. Bilevel learning is a powerful framework to determine optimal parameters, and involves solving a nested optimisation problem. While previous strategies enjoy various theoretical results, the well-posedness of bilevel learning in this setting is still a developing field. One necessary property is positivity of the determined regularization parameter. In this work, we provide a new condition that better characterises positivity of optimal regularization parameters than the existing theory. Numerical results verify and explore this new condition for both small and large dimensional problems.
翻訳日:2023-06-22 01:42:14 公開日:2023-06-20
# ビームツリー再帰細胞

Beam Tree Recursive Cells ( http://arxiv.org/abs/2305.19999v3 )

ライセンス: Link先を確認
Jishnu Ray Chowdhury, Cornelia Caragea(参考訳) 本稿では,Recursive Neural Networks (RvNN) を拡張し,遅延構造誘導のためのビームサーチを行うバックプロパゲーションフレンドリーなフレームワークである Beam Tree Recursive Cell (BT-Cell) を提案する。 この枠組みをさらに拡張し,ビーム探索におけるハードトップk演算子の緩和を提案すれば,勾配信号の伝搬性が向上する。 提案手法は, 合成データと現実データの両方において, 異なる分布分割で評価する。 実験の結果、BTCellはリストOpsや論理推論といった難易度の高い構造依存型合成タスクにおいて、他のRvNNモデルと同等の性能を保ちながら、ほぼ完璧な性能を実現していることがわかった。 さらに, listops における未知の引数数に対する一般化において,神経モデルの既知の障害事例を同定する。 コードは、https://github.com/JRC 1995/BeamTreeRecursiveCellsで入手できる。

We propose Beam Tree Recursive Cell (BT-Cell) - a backpropagation-friendly framework to extend Recursive Neural Networks (RvNNs) with beam search for latent structure induction. We further extend this framework by proposing a relaxation of the hard top-k operators in beam search for better propagation of gradient signals. We evaluate our proposed models in different out-of-distribution splits in both synthetic and realistic data. Our experiments show that BTCell achieves near-perfect performance on several challenging structure-sensitive synthetic tasks like ListOps and logical inference while maintaining comparable performance in realistic data against other RvNN-based models. Additionally, we identify a previously unknown failure case for neural models in generalization to unseen number of arguments in ListOps. The code is available at: https://github.com/JRC1995/BeamTreeRecursiveCells.
翻訳日:2023-06-22 01:32:37 公開日:2023-06-20
# medngage: 患者同士の会話におけるエンゲージメントを理解するためのデータセット

MedNgage: A Dataset for Understanding Engagement in Patient-Nurse Conversations ( http://arxiv.org/abs/2305.19981v2 )

ライセンス: Link先を確認
Yan Wang, Heidi Ann Scharf Donovan, Sabit Hassan, Mailhe Alikhani(参考訳) 症状を効果的に管理する患者は、医療従事者との会話や介入において、より高いレベルの関与を示すことが多い。 このエンゲージメントは多面的であり、認知と社会に影響を及ぼす次元を含んでいる。 したがって、患者と実践者の自然な会話における関与を理解することが、AIシステムにとって重要である。 本稿では,癌症状管理に関する患者と患者との会話からなる新しいデータセット(medngage)を提案する。 2つの異なる角度から、患者エンゲージメントのカテゴリの新たなフレームワークで、データセットを手動で注釈付けします。 一 社会影響剤(3.1Kスパン)及び 二 言語の認知的使用(八十一の期間) この枠組みを用いてアノテートされたデータの統計的分析を行い,患者の症状管理結果と会話への関与との間に正の相関を示す。 さらに,データセットに微調整された事前学習されたトランスフォーマーモデルが,患者間の会話におけるエンゲージメントクラスを確実に予測できることを実証する。 最後に、LIME (Ribeiro et al., 2016) を用いて、最先端のトランスフォーマーモデルが直面するタスクの根本的な課題を分析します。 身元不明のデータは、要求に応じて研究目的に利用できる。

Patients who effectively manage their symptoms often demonstrate higher levels of engagement in conversations and interventions with healthcare practitioners. This engagement is multifaceted, encompassing cognitive and socio-affective dimensions. Consequently, it is crucial for AI systems to understand the engagement in natural conversations between patients and practitioners to better contribute toward patient care. In this paper, we present a novel dataset (MedNgage), which consists of patient-nurse conversations about cancer symptom management. We manually annotate the dataset with a novel framework of categories of patient engagement from two different angles, namely: i) socio-affective (3.1K spans), and ii) cognitive use of language (1.8K spans). Through statistical analysis of the data that is annotated using our framework, we show a positive correlation between patient symptom management outcomes and their engagement in conversations. Additionally, we demonstrate that pre-trained transformer models fine-tuned on our dataset can reliably predict engagement classes in patient-nurse conversations. Lastly, we use LIME (Ribeiro et al., 2016) to analyze the underlying challenges of the tasks that state-of-the-art transformer models encounter. The de-identified data is available for research purposes upon request.
翻訳日:2023-06-22 01:32:21 公開日:2023-06-20
# 油圧モニタリングシステムにおける異常検出のための半教師付き学習の比較検討

Comparative Study on Semi-supervised Learning Applied for Anomaly Detection in Hydraulic Condition Monitoring System ( http://arxiv.org/abs/2306.02709v2 )

ライセンス: Link先を確認
Yongqi Dong, Kejia Chen, Zhiyuan Ma(参考訳) 油圧システムでは条件ベースのメンテナンスがますます重要になっている。 しかし,異常データが少なく,ラベル付けが面倒で危険であるため,異常検出は依然として困難である。 したがって、教師なしあるいは半教師なしの手法、特に少数のラベルが利用可能である場合に、教師なし学習を特徴抽出機構として活用する半教師なし学習に利用することが望ましい。 本研究では,油圧モニタリングシステムにおける異常検出に応用した半教師付き学習手法を系統的に比較した。 まず、オープンソースの水理条件モニタリングデータセットを理解するために、詳細なデータ分析と特徴学習を行った。 次に,従来のスタンドアロン半教師付き学習モデル(一級svm,ロバスト共分散など),アンサンブルモデル(孤立フォレストなど),ディープニューラルネットワークに基づくモデル(オートエンコーダ,階層型極端学習マシン(helm)など)など,様々な手法の実装と評価を行った。 典型的には、この研究は、極端な学習マシンに基づく半教師付きHELMモデルをカスタマイズし、実装し、他の半教師付き手法よりもその優位性を検証した。 広範囲な実験により、カスタマイズされたヘルムモデルは、最も高い精度(99.5%)、最も低い偽陽性率(0.015)、そして最も優れたf1-score(0.985)で他の半教師あり法を上回った。

Condition-based maintenance is becoming increasingly important in hydraulic systems. However, anomaly detection for these systems remains challenging, especially since that anomalous data is scarce and labeling such data is tedious and even dangerous. Therefore, it is advisable to make use of unsupervised or semi-supervised methods, especially for semi-supervised learning which utilizes unsupervised learning as a feature extraction mechanism to aid the supervised part when only a small number of labels are available. This study systematically compares semi-supervised learning methods applied for anomaly detection in hydraulic condition monitoring systems. Firstly, thorough data analysis and feature learning were carried out to understand the open-sourced hydraulic condition monitoring dataset. Then, various methods were implemented and evaluated including traditional stand-alone semi-supervised learning models (e.g., one-class SVM, Robust Covariance), ensemble models (e.g., Isolation Forest), and deep neural network based models (e.g., autoencoder, Hierarchical Extreme Learning Machine (HELM)). Typically, this study customized and implemented an extreme learning machine based semi-supervised HELM model and verified its superiority over other semi-supervised methods. Extensive experiments show that the customized HELM model obtained state-of-the-art performance with the highest accuracy (99.5%), the lowest false positive rate (0.015), and the best F1-score (0.985) beating other semi-supervised methods.
翻訳日:2023-06-22 01:25:00 公開日:2023-06-20
# Dzyaloshinskii-Moriya相互作用を用いたRydberg原子を用いた量子スピンモデルの実現の提案

Proposal for realizing quantum spin models with Dzyaloshinskii-Moriya interaction using Rydberg atoms ( http://arxiv.org/abs/2306.05591v2 )

ライセンス: Link先を確認
Masaya Kunimi, Takafumi Tomita, Hosho Katsura, and Yusuke Kato(参考訳) 本稿では,Rydberg atom 量子シミュレータにおける Dzyaloshinskii-Moriya 相互作用を用いたチューナブル量子スピンモデルの実現法を提案する。 我々のスキームは2光子ラマン転移とスピン回転フレームへの変換を用いる。 本手法で実験的に実現可能なdmiとゼーマンエネルギーのみを含むモデルの量子力学について検討する。 古典的なものと異なり、このモデルにおける磁化曲線は開境界条件下で連続である。 また、このモデルが非エルゴードダイナミクスを示す量子多体傷を収容することを示した。

We propose a method to realize tunable quantum spin models with Dzyaloshinskii-Moriya interaction (DMI) in Rydberg atom quantum simulators. Our scheme uses a two-photon Raman transition and transformation to the spin-rotating frame. We investigate the quantum dynamics of the model including only the DMI and Zeeman energy, which can be experimentally realized in our scheme. Unlike its classical counterpart, the magnetization curve in this model is continuous under the open boundary condition. We also show that the model accommodates quantum many-body scars exhibiting nonergodic dynamics.
翻訳日:2023-06-22 01:13:44 公開日:2023-06-20
# ランキングフェアネスのためのマッチングペア校正

Matched Pair Calibration for Ranking Fairness ( http://arxiv.org/abs/2306.03775v2 )

ライセンス: Link先を確認
Hannah Korevaar, Chris McConnell, Edmund Tong, Erik Brinkman, Alana Shine, Misam Abbas, Blossom Metevier, Sam Corbett-Davies, Khalid El-Arini(参考訳) マッチングペアキャリブレーションと呼ばれるスコアベースランキングシステムにおける公平性テストを提案する。 本手法は,集合上のランク付け誤差の適切な尺度を計算する前に,部分群間の差異を最小化するマッチングアイテムペアを構成する。 一致ステップにより、評価結果の差がサブグループレベルの露光において直接不公平であることを暗示する。 本手法は,二分分類設定からランク付けまでの校正の公平さ直観を一般化する方法を示し,公平度尺度の他の提案と結びつける。 さらに,提案手法は,分析者がモデルスコアにアクセス可能な場合に,限界結果テストの論理がどのように拡張されるかを示す。 最後に,実単語ランキングデータセットにマッチしたペアキャリブレーションを適用し,ランキングバイアスの検出に有効性を示す例を示す。

We propose a test of fairness in score-based ranking systems called matched pair calibration. Our approach constructs a set of matched item pairs with minimal confounding differences between subgroups before computing an appropriate measure of ranking error over the set. The matching step ensures that we compare subgroup outcomes between identically scored items so that measured performance differences directly imply unfairness in subgroup-level exposures. We show how our approach generalizes the fairness intuitions of calibration from a binary classification setting to ranking and connect our approach to other proposals for ranking fairness measures. Moreover, our strategy shows how the logic of marginal outcome tests extends to cases where the analyst has access to model scores. Lastly, we provide an example of applying matched pair calibration to a real-word ranking data set to demonstrate its efficacy in detecting ranking bias.
翻訳日:2023-06-22 01:12:10 公開日:2023-06-20
# 量子鍵を用いた公開鍵暗号

Public-Key Encryption with Quantum Keys ( http://arxiv.org/abs/2306.07698v2 )

ライセンス: Link先を確認
Khashayar Barooti, Alex B. Grilo, Lo\"is Huguenin-Dumittan, Giulio Malavolta, Or Sattath, Quoc-Huy Vu, Michael Walter(参考訳) インパグリアッツォの5つの世界の枠組みでは、公開鍵暗号が存在する世界(クリプトマニア)と一方的な機能しか存在しない世界(MiniCrypt)の2つの世界が区別されることが多い。 しかし、これらの世界の境界は、量子情報が考慮されるときに変化しうる。 近年の研究では、古典的にはクリプトマニアのプリミティブである暗黙の転送とマルチパーティ計算の量子変種が一方の関数から構築され、量子ミニクリプト(いわゆるミニQクリプト)の領域に置かれることが示されている。 これは当然、次のような疑問を提起する: 一方通行の関数や潜在的に弱い仮定から、暗号の核となる公開鍵暗号の量子変種を構築することは可能か? 本研究では,量子公開鍵暗号(qpke)の概念,すなわち鍵が量子状態になることを許される公開鍵暗号の形式研究を開始する。 本稿では,一方向関数 (OWF) の存在,あるいは擬似乱数関数様状態 (PRFS) や擬似乱数関数様状態 (PRFSPD) のようなより弱い仮定に基づいて,新しいセキュリティ定義とqPKEの構成を提案する。 最後に,このプリミティブを厳密に評価するために,量子公開鍵暗号を構築するためには計算上の仮定が必要であることを示す。 すなわち、量子公開鍵暗号が情報理論のセキュリティを提供することができないという自己完結した証明を与える。

In the framework of Impagliazzo's five worlds, a distinction is often made between two worlds, one where public-key encryption exists (Cryptomania), and one in which only one-way functions exist (MiniCrypt). However, the boundaries between these worlds can change when quantum information is taken into account. Recent work has shown that quantum variants of oblivious transfer and multi-party computation, both primitives that are classically in Cryptomania, can be constructed from one-way functions, placing them in the realm of quantum MiniCrypt (the so-called MiniQCrypt). This naturally raises the following question: Is it possible to construct a quantum variant of public-key encryption, which is at the heart of Cryptomania, from one-way functions or potentially weaker assumptions? In this work, we initiate the formal study of the notion of quantum public-key encryption (qPKE), i.e., public-key encryption where keys are allowed to be quantum states. We propose new definitions of security and several constructions of qPKE based on the existence of one-way functions (OWF), or even weaker assumptions, such as pseudorandom function-like states (PRFS) and pseudorandom function-like states with proof of destruction (PRFSPD). Finally, to give a tight characterization of this primitive, we show that computational assumptions are necessary to build quantum public-key encryption. That is, we give a self-contained proof that no quantum public-key encryption scheme can provide information-theoretic security.
翻訳日:2023-06-22 01:05:04 公開日:2023-06-20
# SHAPの継続的な説明のためのプロトコル

A Protocol for Continual Explanation of SHAP ( http://arxiv.org/abs/2306.07218v2 )

ライセンス: Link先を確認
Andrea Cossu, Francesco Spinnato, Riccardo Guidotti, Davide Bacciu(参考訳) 連続学習は、過去の知識を忘れずに新しい情報を学ぶことを目的として、データのストリームでモデルを訓練する。 このような環境の動的性質を考えると、これらのモデルの予測を説明するのは困難である。 連続学習におけるSHAP値説明の振る舞いについて検討し,授業増分シナリオにおける説明の変化を確実に評価するための評価プロトコルを提案する。 Replay戦略はフィードフォワード/畳み込みモデルにおいてSHAP値の安定性を強制するが、完全にトレーニングされたリカレントモデルではそのようにはできない。 我々は、ランダム化再帰モデルのような別の再帰的アプローチは、時間とともに説明を安定させるのにより効果的であることを示す。

Continual Learning trains models on a stream of data, with the aim of learning new information without forgetting previous knowledge. Given the dynamic nature of such environments, explaining the predictions of these models can be challenging. We study the behavior of SHAP values explanations in Continual Learning and propose an evaluation protocol to robustly assess the change of explanations in Class-Incremental scenarios. We observed that, while Replay strategies enforce the stability of SHAP values in feedforward/convolutional models, they are not able to do the same with fully-trained recurrent models. We show that alternative recurrent approaches, like randomized recurrent models, are more effective in keeping the explanations stable over time.
翻訳日:2023-06-22 01:04:12 公開日:2023-06-20
# 時空間ブートストラップによる時系列自己監督表現学習

Correlated Time Series Self-Supervised Representation Learning via Spatiotemporal Bootstrapping ( http://arxiv.org/abs/2306.06994v2 )

ライセンス: Link先を確認
Luxuan Wang, Lei Bai, Ziyue Li, Rui Zhao, Fugee Tsung(参考訳) 関連時系列分析は多くの実業界で重要な役割を果たしている。 より下流のタスクのために、この大規模なデータの効率的な表現を学ぶことは必要だが、難しい。 本稿では,ブートストラップ付き時空間表現予測による個別インスタンスの時間段階表現学習フレームワークを提案する。 我々は,時系列の相関予測と予測モデルをデータ制限のある新しいインスタンスに転送するコールドスタートにおける表現学習フレームワークの有効性と柔軟性を評価した。 学習した表現の上にトレーニングされた線形回帰モデルは、私たちのモデルがほとんどのケースで最高のパフォーマンスを示す。 特に表現学習モデルと比較して, PMS-BAYデータセットではRMSE, MAE, MAPEを37%, 49%, 48%削減する。 さらに, 実世界の乗客フローデータでは, 15%, 19%, 18%の増加率で, 新たなコールドスタートインスタンスの今後の情報を推測する能力を示す。 ソースコードはGitHub https://github.com/bonaldli/Spatiotemporal-TS-Representation-Learningで公開される。

Correlated time series analysis plays an important role in many real-world industries. Learning an efficient representation of this large-scale data for further downstream tasks is necessary but challenging. In this paper, we propose a time-step-level representation learning framework for individual instances via bootstrapped spatiotemporal representation prediction. We evaluated the effectiveness and flexibility of our representation learning framework on correlated time series forecasting and cold-start transferring the forecasting model to new instances with limited data. A linear regression model trained on top of the learned representations demonstrates our model performs best in most cases. Especially compared to representation learning models, we reduce the RMSE, MAE, and MAPE by 37%, 49%, and 48% on the PeMS-BAY dataset, respectively. Furthermore, in real-world metro passenger flow data, our framework demonstrates the ability to transfer to infer future information of new cold-start instances, with gains of 15%, 19%, and 18%. The source code will be released under the GitHub https://github.com/bonaldli/Spatiotemporal-TS-Representation-Learning
翻訳日:2023-06-22 01:04:00 公開日:2023-06-20
# 予測輝度による可逆的ハーフトーン変換

Taming Reversible Halftoning via Predictive Luminance ( http://arxiv.org/abs/2306.08309v2 )

ライセンス: Link先を確認
Cheuk-Kit Lau, Menghan Xia, Tien-Tsin Wong(参考訳) 伝統的なハーフトーンは通常、二値ドットで画像をディザリングする際に色を落とすため、元の色情報を復元することが困難になる。 カラーイメージを元のバージョンに完全復元可能なバイナリハーフトーンに変換する,新しいハーフトーン技術を提案する。 提案手法は,2つの畳み込みニューラルネットワーク(CNN)による可逆半音パターンの生成と,CNNの平坦性劣化問題を緩和するためのノイズインセンティブブロック(NIB)から構成される。 さらに,提案手法では,青音品質と復元精度の矛盾に対処するため,予測可能な情報をネットワークからオフロードする予測器組込み手法を提案し,本手法はハーフトーンパターンに類似した輝度情報である。 このようなアプローチにより、ネットワークは、修復品質を損なうことなく、より優れたブルーノイズ品質のハーフトーンを生産する柔軟性を得ることができる。 多段階訓練法と損失重み付けに関する詳細な研究が行われている。 我々は, 半音のスペクトル解析, 半音の精度, 復元精度, データ埋め込み研究について, 予測器埋め込み法と新しい手法を比較した。 エントロピー評価の結果,我々のハーフトーンは,新しいベース法よりもエントロピー情報が少ないことがわかった。 実験により, 半音の青色音質を改善するために, 予測器埋込み法により柔軟性が向上し, 耐障害性も向上した。

Traditional halftoning usually drops colors when dithering images with binary dots, which makes it difficult to recover the original color information. We proposed a novel halftoning technique that converts a color image into a binary halftone with full restorability to its original version. Our novel base halftoning technique consists of two convolutional neural networks (CNNs) to produce the reversible halftone patterns, and a noise incentive block (NIB) to mitigate the flatness degradation issue of CNNs. Furthermore, to tackle the conflicts between the blue-noise quality and restoration accuracy in our novel base method, we proposed a predictor-embedded approach to offload predictable information from the network, which in our case is the luminance information resembling from the halftone pattern. Such an approach allows the network to gain more flexibility to produce halftones with better blue-noise quality without compromising the restoration quality. Detailed studies on the multiple-stage training method and loss weightings have been conducted. We have compared our predictor-embedded method and our novel method regarding spectrum analysis on halftone, halftone accuracy, restoration accuracy, and the data embedding studies. Our entropy evaluation evidences our halftone contains less encoding information than our novel base method. The experiments show our predictor-embedded method gains more flexibility to improve the blue-noise quality of halftones and maintains a comparable restoration quality with a higher tolerance for disturbances.
翻訳日:2023-06-22 00:55:44 公開日:2023-06-20
# 大規模言語モデルと知識グラフの統合:ロードマップ

Unifying Large Language Models and Knowledge Graphs: A Roadmap ( http://arxiv.org/abs/2306.08302v2 )

ライセンス: Link先を確認
Shirui Pan, Linhao Luo, Yufei Wang, Chen Chen, Jiapu Wang, Xindong Wu(参考訳) ChatGPTやGPT4のような大規模言語モデル(LLM)は、その創発的能力と一般化性のために、自然言語処理と人工知能の分野で新たな波を発生させている。 しかし、llmはブラックボックスモデルであり、事実知識を捉えてアクセスすることができないことが多い。 対照的に、ナレッジグラフ(kgs)、wikipedia、huapuは、リッチな事実知識を明示的に格納する構造化ナレッジモデルである。 kgsは推論と解釈の外部知識を提供することでllmを強化することができる。 一方、KGは自然によって構築と進化が困難であり、KGの既存の手法に挑戦して新しい事実を生成し、目に見えない知識を表現する。 したがって、llmとkgを統一し、同時にその利点を活用することは相補的である。 本稿では,LLMとKGの統合に向けた今後のロードマップを示す。 私たちのロードマップは3つの一般的なフレームワークで構成されています。 1) LLMの事前訓練及び推論段階でKGを組み込んだKG強化LLM、又は、LLMが学習した知識の理解を深めることを目的とした。 2 LLM強化KGは、埋め込み、完了、構築、グラフ・トゥ・テキスト生成、質問応答等の異なるKGタスクにLLMを活用する。 3) LLM と KG が同等の役割を担い、相互に有益な方法で機能し、データと知識の両方によって駆動される双方向推論のための LLM と KG の両方を強化する。 我々は、これらの3つのフレームワークの既存の取り組みをロードマップでレビューし、要約し、今後の研究方向性を見極める。

Large language models (LLMs), such as ChatGPT and GPT4, are making new waves in the field of natural language processing and artificial intelligence, due to their emergent ability and generalizability. However, LLMs are black-box models, which often fall short of capturing and accessing factual knowledge. In contrast, Knowledge Graphs (KGs), Wikipedia and Huapu for example, are structured knowledge models that explicitly store rich factual knowledge. KGs can enhance LLMs by providing external knowledge for inference and interpretability. Meanwhile, KGs are difficult to construct and evolving by nature, which challenges the existing methods in KGs to generate new facts and represent unseen knowledge. Therefore, it is complementary to unify LLMs and KGs together and simultaneously leverage their advantages. In this article, we present a forward-looking roadmap for the unification of LLMs and KGs. Our roadmap consists of three general frameworks, namely, 1) KG-enhanced LLMs, which incorporate KGs during the pre-training and inference phases of LLMs, or for the purpose of enhancing understanding of the knowledge learned by LLMs; 2) LLM-augmented KGs, that leverage LLMs for different KG tasks such as embedding, completion, construction, graph-to-text generation, and question answering; and 3) Synergized LLMs + KGs, in which LLMs and KGs play equal roles and work in a mutually beneficial way to enhance both LLMs and KGs for bidirectional reasoning driven by both data and knowledge. We review and summarize existing efforts within these three frameworks in our roadmap and pinpoint their future research directions.
翻訳日:2023-06-22 00:55:17 公開日:2023-06-20
# 光コヒーレンストモグラフィノイズ低減のためのドメインアウェア・マイノショット学習

Domain-Aware Few-Shot Learning for Optical Coherence Tomography Noise Reduction ( http://arxiv.org/abs/2306.08102v2 )

ライセンス: Link先を確認
Deborah Pereg(参考訳) スペックルノイズは医用画像において長年にわたって広く研究されてきた問題である。 近年,ノイズ低減のための深層学習手法の活用が大きな進歩を遂げている。 それでも、教師付き学習モデルの未確認領域への適応は難しい問題である。 具体的には、計算イメージングタスクのために訓練されたディープニューラルネットワーク(DNN)は、取得システムの物理的パラメータの変化(サンプリングスペース、解像度、コントラスト)に対して脆弱である。 同じ取得システム内であっても、パフォーマンスは異なる生物学的組織のデータセット間で低下する。 そこで本研究では,光コヒーレンストモグラフィ(oct)ノイズ低減のための数発教師付き学習フレームワークを提案する。 さらに,OCT多元画像システムにおける領域シフト問題を定式化し,非特定学習モデルの出力分解能がソース領域分解能によって決定されることを示す。 また、治療も行っています。 提案手法は, 適用性, 堅牢性, 計算効率の検証と比較を行う。 以上の結果から, サンプル複雑性, 一般化, 時間効率の向上, 教師付き学習モデルによるコヒーレント・非コヒーレントノイズ低減, その他のリアルタイムコンピュータビジョンアプリケーションにも活用できる可能性が示唆された。

Speckle noise has long been an extensively studied problem in medical imaging. In recent years, there have been significant advances in leveraging deep learning methods for noise reduction. Nevertheless, adaptation of supervised learning models to unseen domains remains a challenging problem. Specifically, deep neural networks (DNNs) trained for computational imaging tasks are vulnerable to changes in the acquisition system's physical parameters, such as: sampling space, resolution, and contrast. Even within the same acquisition system, performance degrades across datasets of different biological tissues. In this work, we propose a few-shot supervised learning framework for optical coherence tomography (OCT) noise reduction, that offers a dramatic increase in training speed and requires only a single image, or part of an image, and a corresponding speckle suppressed ground truth, for training. Furthermore, we formulate the domain shift problem for OCT diverse imaging systems, and prove that the output resolution of a despeckling trained model is determined by the source domain resolution. We also provide possible remedies. We propose different practical implementations of our approach, verify and compare their applicability, robustness, and computational efficiency. Our results demonstrate significant potential for generally improving sample complexity, generalization, and time efficiency, for coherent and non-coherent noise reduction via supervised learning models, that can also be leveraged for other real-time computer vision applications.
翻訳日:2023-06-22 00:53:43 公開日:2023-06-20
# トップクォークペア生産における量子絡み合い

Quantum Entanglement in Top Quark Pair Production ( http://arxiv.org/abs/2306.07788v2 )

ライセンス: Link先を確認
Mira Varma, O.K. Baker(参考訳) 標準模型で最も大きな粒子であるトップクォークは、ハドロン前に崩壊するのでかなりの注目を集めている。 これにより物理学者は、その性質を直接調査するユニークな機会が得られる。 この手紙では、G. Iskander, J. Pan, M. Tyler, C. Weber, O. K. Bakerの業績を拡大し、最も質量の大きい素粒子であっても、電弱相互作用と電磁相互作用の両方で観測されるエンタングルメントの同じ現象が現れることを示した。 2つのトップクォークに衝突する陽子から生じる熱成分は、2つの陽子波動関数内の絡み合いから生じる。 絡み合いの存在は、横運動量分布における熱散乱成分と硬散乱成分の共存を意味する。 我々は、ATLASとCMSの結果を用いて、データが期待される振る舞いを示すことを示す。

Top quarks, the most massive particles in the standard model, attract considerable attention since they decay before hadronizing. This presents physicists with a unique opportunity to directly investigate their properties. In this letter, we expand upon the work of G. Iskander, J. Pan, M. Tyler, C. Weber and O. K. Baker to demonstrate that even with the most massive fundamental particle, we see the same manifestation of entanglement observed in both electroweak and electromagnetic interactions. We propose that the thermal component resulting from protons colliding into two top quarks emerges from entanglement within the two-proton wave function. The presence of entanglement implies the coexistence of both thermal and hard scattering components in the transverse momentum distribution. We use published ATLAS and CMS results to show that the data exhibits the expected behavior.
翻訳日:2023-06-22 00:52:38 公開日:2023-06-20
# ShorのファクタリングアルゴリズムとModular Exponentiation Operators:Pedagogical Presentation with Examples

Shor's Factoring Algorithm and Modular Exponentiation Operators: A Pedagogical Presentation with Examples ( http://arxiv.org/abs/2306.09122v2 )

ライセンス: Link先を確認
Robert L Singleton Jr(参考訳) これらはショアの分解アルゴリズムに関する教育的ノートであり、多項式時間で非常に大きな数(数百から数千ビット)を分解する量子アルゴリズムである。 対照的に、因数分解問題に対する既知のすべての古典的アルゴリズムは指数関数時間で大量の因数分解を行う。 これらのノートでは、量子コンピューティングの回路モデルに対する基本的な親和性以上のshorのアルゴリズムの事前知識を仮定する。 文学はショアのアルゴリズムの導出と解説で厚くなっているが、それらの多くは本質的な詳細に欠けており、教育的なプレゼンテーションを提供していない。 モジュラー指数(me)作用素の理論を,shorのアルゴリズムの基本成分の1つであり,量子資源のほとんどが展開される場所として,ある程度詳細に展開する。 また,me演算子の近似位相角からモジュラー指数関数の正確な周期を抽出するために,量子後処理と継続分数法についても検討した。 その後、写本は一連の例に移行した。 まず,shor のアルゴリズムでアクセス可能な最小数 n=15 を因子として定式化を検証する。 次に、より大きい数を分解し、任意の半素数$N = p \times q$(ここで$q$と~$p$は素数)の ME 演算子を見つける体系的な手順を開発する。 最後に、Qiskitシミュレータを用いて、N=21, 33, 35, 143, 247 を分解する。 ME演算子は幾分保留であり、切り詰められた近似形式は正確な演算子と同様に因子を抽出することができる。 これは、継続分数法が入力に近似位相値のみを必要とするためであり、これはショアのアルゴリズムの実装が最初に疑ったほど難しくないことを示唆している。

These are pedagogical notes on Shor's factoring algorithm, which is a quantum algorithm for factoring very large numbers (of order of hundreds to thousands of bits) in polynomial time. In contrast, all known classical algorithms for the factoring problem take an exponential time to factor large numbers. In these notes, we assume no prior knowledge of Shor's algorithm beyond a basic familiarity with the circuit model of quantum computing. The literature is thick with derivations and expositions of Shor's algorithm, but most of them seem to be lacking in essential details, and none of them provide a pedagogical presentation. We develop the theory of modular exponentiation (ME) operators in some detail, one of the fundamental components of Shor's algorithm, and the place where most of the quantum resources are deployed. We also discuss the post-quantum processing and the method of continued fractions, which is used to extract the exact period of the modular exponential function from the approximately measured phase angles of the ME operator. The manuscript then moves on to a series of examples. We first verify the formalism by factoring N=15, the smallest number accessible to Shor's algorithm. We then proceed to factor larger numbers, developing a systematic procedure that will find the ME operators for any semi-prime $N = p \times q$ (where $q$ and~$p$ are prime). Finally, we factor the numbers N=21, 33, 35, 143, 247 using the Qiskit simulator. It is observed that the ME operators are somewhat forgiving, and truncated approximate forms are able to extract factors just as well as the exact operators. This is because the method of continued fractions only requires an approximate phase value for its input, which suggests that implementing Shor's algorithm might not be as difficult as first suspected.
翻訳日:2023-06-22 00:45:50 公開日:2023-06-20
# 動的MECのためのスケーラブルリソース管理:教師なしリンク出力グラフニューラルネットワークアプローチ

Scalable Resource Management for Dynamic MEC: An Unsupervised Link-Output Graph Neural Network Approach ( http://arxiv.org/abs/2306.08938v2 )

ライセンス: Link先を確認
Xiucheng Wang and Nan Cheng and Lianhao Fu and Wei Quan and Ruijin Sun and Yilong Hui and Tom Luan and Xuemin Shen(参考訳) ディープラーニングは、タスクオフロードとリソース割り当てを最適化するために、モバイルエッジコンピューティング(MEC)でうまく採用されている。 しかしながら、エッジネットワークのダイナミクスは、低スケーラビリティと高トレーニングコストという、ニューラルネットワーク(NN)ベースの最適化方法における2つの課題を提起する。 従来のノード出力グラフニューラルネットワーク(GNN)は、ネットワークがスケールするときにエッジノードの特徴を抽出できるが、ネットワークがスケールするにつれて決定空間の次元が変化するのに対して、新しいスケーラビリティの問題に対処できない。 本稿では,アルゴリズムの推論遅延が非常に低い任意のエッジノードに対して,MECにおけるリソース割り当てを柔軟に最適化する,新しいリンク出力GNN(LOGNN)ベースのリソース管理手法を提案する。 さらに、LOGNNパラメータに対するエッジタスク処理遅延の勾配を明示的に導出する、LOGNNを効率的に訓練するためのラベルフリーな教師なし手法を適用した。 また、ノード出力GNNとリンク出力GNNのスケーラビリティに関する理論的解析を行う。 シミュレーションの結果,提案するLOGNNは,任意の数のサーバとユーザを用いて,MECリソース割り当て問題をスケーラブルな方法で効率的に最適化できることがわかった。 さらに,教師なし学習法では教師付き学習法や強化学習に基づく学習法に比べて,収束性能と速度が向上した。 コードは \url{https://github.com/UNIC-Lab/LOGNN} で公開されている。

Deep learning has been successfully adopted in mobile edge computing (MEC) to optimize task offloading and resource allocation. However, the dynamics of edge networks raise two challenges in neural network (NN)-based optimization methods: low scalability and high training costs. Although conventional node-output graph neural networks (GNN) can extract features of edge nodes when the network scales, they fail to handle a new scalability issue whereas the dimension of the decision space may change as the network scales. To address the issue, in this paper, a novel link-output GNN (LOGNN)-based resource management approach is proposed to flexibly optimize the resource allocation in MEC for an arbitrary number of edge nodes with extremely low algorithm inference delay. Moreover, a label-free unsupervised method is applied to train the LOGNN efficiently, where the gradient of edge tasks processing delay with respect to the LOGNN parameters is derived explicitly. In addition, a theoretical analysis of the scalability of the node-output GNN and link-output GNN is performed. Simulation results show that the proposed LOGNN can efficiently optimize the MEC resource allocation problem in a scalable way, with an arbitrary number of servers and users. In addition, the proposed unsupervised training method has better convergence performance and speed than supervised learning and reinforcement learning-based training methods. The code is available at \url{https://github.com/UNIC-Lab/LOGNN}.
翻訳日:2023-06-22 00:44:42 公開日:2023-06-20
# ランクが重要なときのランクの学習

Learning to Rank when Grades Matter ( http://arxiv.org/abs/2306.08650v2 )

ライセンス: Link先を確認
Le Yan, Zhen Qin, Gil Shamir, Dong Lin, Xuanhui Wang, Mike Bendersky(参考訳) グレードラベルは、現実世界の学習からランクへのアプリケーション、特に人間格付けされた関連データで広く使われている。 従来の学習 to ランク技術は、文書のランク付け順序を最適化することを目的としている。 しかし、通常は実際の成績の予測を無視する。 これにより、`poor'' ドキュメントをフィルタリングするなど、グレードが重要なアプリケーションでそれらを採用できない。 優れたランク付け性能と優れたグレード予測性能の両方を達成することは、まだ未解決の問題である。 既存の研究は、モデル出力の校正を行わず、あるいはラベルが線形スケールにあり、順序付け情報を活用できないと仮定して、グレードを数値として扱うことで、ランキング性能のみに焦点を当てている。 本稿では,ランク付け性能と格付け予測性能の両方が重要となるランク付け学習について,厳密な研究を行う。 成績予測の非スカラー予測による順位付けの方法に関する形式的な議論を行い,順位予測と順位予測の両方を共同で最適化する多目的定式化を提案する。 実験では,我々の手法がparetoのランキングとグレード予測のパフォーマンスのトレードオフのフロンティアを押し上げることができるという,いくつかの公開データセットを検証した。

Graded labels are ubiquitous in real-world learning-to-rank applications, especially in human rated relevance data. Traditional learning-to-rank techniques aim to optimize the ranked order of documents. They typically, however, ignore predicting actual grades. This prevents them from being adopted in applications where grades matter, such as filtering out ``poor'' documents. Achieving both good ranking performance and good grade prediction performance is still an under-explored problem. Existing research either focuses only on ranking performance by not calibrating model outputs, or treats grades as numerical values, assuming labels are on a linear scale and failing to leverage the ordinal grade information. In this paper, we conduct a rigorous study of learning to rank with grades, where both ranking performance and grade prediction performance are important. We provide a formal discussion on how to perform ranking with non-scalar predictions for grades, and propose a multiobjective formulation to jointly optimize both ranking and grade predictions. In experiments, we verify on several public datasets that our methods are able to push the Pareto frontier of the tradeoff between ranking and grade prediction performance, showing the benefit of leveraging ordinal grade information.
翻訳日:2023-06-22 00:43:38 公開日:2023-06-20
# GenORM:パラメータ対応ポリシーによる汎用的なワンショットロープ操作

GenORM: Generalizable One-shot Rope Manipulation with Parameter-Aware Policy ( http://arxiv.org/abs/2306.09872v2 )

ライセンス: Link先を確認
So Kuroki, Jiaxian Guo, Tatsuya Matsushima, Takuya Okubo, Masato Kobayashi, Yuya Ikeda, Ryosuke Takanami, Paul Yoo, Yutaka Matsuo, Yusuke Iwasawa(参考訳) 従来のロープ操作では、動作中の変形性に固有の不確実性があるため、ロープのゴール到達のような単純なタスクであっても、ロープの操作ポリシーをトレーニングするために、何百もの実世界のデモを必要とする場合が多い。 この問題に対処するため、実世界の1つのデモで異なる変形可能なロープを操作できるフレームワークであるGenORMを紹介します。 これを実現するために, 変形可能なロープパラメータに条件付けし, 各種の模擬変形可能なロープをトレーニングすることにより, 異なるロープパラメータに基づいて動作を調整できるようにした。 新しいロープが与えられたとき、GenORMは、実世界の実演とシミュレーションの点雲の格子密度の差を最小限にして、変形可能なロープパラメータを推定する。 微分可能な物理シミュレータの助けを借りて、我々は1つの実世界のデモンストレーションしか必要としない。 シミュレーションと実世界のロープ操作の両セットアップにおける実証的検証により,1回のデモンストレーションで異なるロープを操作でき,両環境でのベースラインを著しく上回る(ドメイン内ロープの62%向上,シミュレーションでの分散外ロープの15%向上,実世界の26%改善)ことが明らかとなり,ワンショットロープ操作におけるアプローチの有効性が実証された。

Due to the inherent uncertainty in their deformability during motion, previous methods in rope manipulation often require hundreds of real-world demonstrations to train a manipulation policy for each rope, even for simple tasks such as rope goal reaching, which hinder their applications in our ever-changing world. To address this issue, we introduce GenORM, a framework that allows the manipulation policy to handle different deformable ropes with a single real-world demonstration. To achieve this, we augment the policy by conditioning it on deformable rope parameters and training it with a diverse range of simulated deformable ropes so that the policy can adjust actions based on different rope parameters. At the time of inference, given a new rope, GenORM estimates the deformable rope parameters by minimizing the disparity between the grid density of point clouds of real-world demonstrations and simulations. With the help of a differentiable physics simulator, we require only a single real-world demonstration. Empirical validations on both simulated and real-world rope manipulation setups clearly show that our method can manipulate different ropes with a single demonstration and significantly outperforms the baseline in both environments (62% improvement in in-domain ropes, and 15% improvement in out-of-distribution ropes in simulation, 26% improvement in real-world), demonstrating the effectiveness of our approach in one-shot rope manipulation.
翻訳日:2023-06-22 00:35:07 公開日:2023-06-20
# Fit Like You Sample: 高速ミキシングマルコフチェインのサンプル効率の良い一般化スコアマッチング

Fit Like You Sample: Sample-Efficient Generalized Score Matching from Fast Mixing Markov Chains ( http://arxiv.org/abs/2306.09332v2 )

ライセンス: Link先を確認
Yilong Qin, Andrej Risteski(参考訳) スコアマッチングは、比例定数(エネルギーベースモデルなど)までパラメータ化された確率分布を学習するアプローチである。 その考え方は、確率ではなく分布のスコアに合わせることであり、比例性の定数を評価する必要性を避けることである。 koehler et al. 2022 による最近の研究は、等角性(大きな poincar\'e や log-sobolev 定数)の悪い分布に対して、スコアマッチングは最大確率よりもかなり統計的に効率が低いことを示した。 しかし、例えば1次元の2つのガウスの混合のように単純であるような多様分布のような多くの自然現実的分布はポアンカルの定数が貧弱である。 本稿では,任意のマルコフ過程と生成器 $\mathcal{l}$ との混合時間と,$\frac{\mathcal{o} p}{p}$ を適合させようとする適度に選択された一般化スコアマッチング損失との密接な関係を示す。 もし$\mathcal{L}$が、模擬テンパリングの連続バージョンに対応するマルコフ過程に対応するならば、対応する一般化されたスコアマッチング損失が、Song and Ermon 2019で提案されたスコアマッチング損失であることを示す。 さらに、学習対象の分布が、共有共分散を持つ$d$次元のガウスの有限混合である場合、アニールスコアマッチングのサンプル複雑性は、周囲次元における多項式であり、平均の直径は、共分散の最小かつ最大の固有値である。 これは、songやermon 2019のようなより洗練されたスコアベースのアプローチにおいて重要な要素である、スコアマッチングのためのアニーリングの利点を特徴付ける最初の結果である。

Score matching is an approach to learning probability distributions parametrized up to a constant of proportionality (e.g. Energy-Based Models). The idea is to fit the score of the distribution, rather than the likelihood, thus avoiding the need to evaluate the constant of proportionality. While there's a clear algorithmic benefit, the statistical "cost'' can be steep: recent work by Koehler et al. 2022 showed that for distributions that have poor isoperimetric properties (a large Poincar\'e or log-Sobolev constant), score matching is substantially statistically less efficient than maximum likelihood. However, many natural realistic distributions, e.g. multimodal distributions as simple as a mixture of two Gaussians in one dimension -- have a poor Poincar\'e constant. In this paper, we show a close connection between the mixing time of an arbitrary Markov process with generator $\mathcal{L}$ and an appropriately chosen generalized score matching loss that tries to fit $\frac{\mathcal{O} p}{p}$. If $\mathcal{L}$ corresponds to a Markov process corresponding to a continuous version of simulated tempering, we show the corresponding generalized score matching loss is a Gaussian-convolution annealed score matching loss, akin to the one proposed in Song and Ermon 2019. Moreover, we show that if the distribution being learned is a finite mixture of Gaussians in $d$ dimensions with a shared covariance, the sample complexity of annealed score matching is polynomial in the ambient dimension, the diameter the means, and the smallest and largest eigenvalues of the covariance -- obviating the Poincar\'e constant-based lower bounds of the basic score matching loss shown in Koehler et al. 2022. This is the first result characterizing the benefits of annealing for score matching -- a crucial component in more sophisticated score-based approaches like Song and Ermon 2019.
翻訳日:2023-06-22 00:32:47 公開日:2023-06-20
# CAMP-Net:加速MRI再構成のためのコンテキスト対応マルチピアネットワーク

CAMP-Net: Context-Aware Multi-Prior Network for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2306.11238v1 )

ライセンス: Link先を確認
Liping Zhang, Xiaobo Li, and Weitian Chen(参考訳) 深層学習に基づくMRI再構成法が期待できる進歩にもかかわらず、高周波画像の詳細とテクスチャの復元は、加速MRIにとって難しい問題である。 そこで我々は,MRI再構成のための新しいコンテキスト対応マルチプライアネットワーク(CAMP-Net)を提案する。 CAMP-Netは、複数の先行知識の相補的な性質を活用し、画像品質を改善するために、ハイブリッド領域内の隣接スライス間のデータ冗長性を探る。 画像強調、k空間復元、キャリブレーション整合性の3つのインターリーブモジュールをそれぞれ組み込んで、コンテキスト対応の複数先行をエンドツーエンドで学習する。 画像強調モジュールはノイズのようなアーティファクトを抑制する前にコイル結合画像を学習し、k空間復元モジュールはマルチコイルk空間相関を探索して高周波詳細を復元する。 キャリブレーション整合モジュールは、MRI取得の既知の物理的特性を埋め込んで、測定から抽出したk空間相関とアーチファクトフリー画像中間体の整合性を確保する。 その結果、低周波数および高周波の再構成は階層的に周波数融合モジュールに集約され、反復的に洗練され、最終的な画像を漸進的に再構成する。 種々の加速度とサンプリングパターンを持つ3つの大規模公開データセットに対して,本手法の一般化性とロバスト性を評価した。 総合的な実験により、CAMP-Netは再構築品質と定量的なT_2$マッピングの点で最先端の手法より優れていることが示された。

Despite promising advances in deep learning-based MRI reconstruction methods, restoring high-frequency image details and textures remains a challenging problem for accelerated MRI. To tackle this challenge, we propose a novel context-aware multi-prior network (CAMP-Net) for MRI reconstruction. CAMP-Net leverages the complementary nature of multiple prior knowledge and explores data redundancy between adjacent slices in the hybrid domain to improve image quality. It incorporates three interleaved modules respectively for image enhancement, k-space restoration, and calibration consistency to jointly learn context-aware multiple priors in an end-to-end fashion. The image enhancement module learns a coil-combined image prior to suppress noise-like artifacts, while the k-space restoration module explores multi-coil k-space correlations to recover high-frequency details. The calibration consistency module embeds the known physical properties of MRI acquisition to ensure consistency of k-space correlations extracted from measurements and the artifact-free image intermediate. The resulting low- and high-frequency reconstructions are hierarchically aggregated in a frequency fusion module and iteratively refined to progressively reconstruct the final image. We evaluated the generalizability and robustness of our method on three large public datasets with various accelerations and sampling patterns. Comprehensive experiments demonstrate that CAMP-Net outperforms state-of-the-art methods in terms of reconstruction quality and quantitative $T_2$ mapping.
翻訳日:2023-06-21 16:03:15 公開日:2023-06-20
# 量子メモリが高密度符号化に有用である場合

When quantum memory is useful for dense coding ( http://arxiv.org/abs/2306.11237v1 )

ライセンス: Link先を確認
Ryuji Takagi and Masahito Hayashi(参考訳) 符号化操作がグループ表現の応用に限定されている場合、送信側と受信側の間で所定の事前共有状態のコピーを$n$で符号化する。 この問題において、受信者が事前共有状態の一部の量子システムを保持する場合、受信者は量子メモリを必要とする。 利用可能な符号化ユニタリ操作に応じて、プリ共有状態が受信側において量子メモリを使用する利点を提供するかを調べる。

We discuss dense coding with $n$ copies of a specific preshared state between the sender and the receiver when the encoding operation is limited to the application of group representation. In this problem, if the receiver keeps the quantum system of a part of preshared states, the receiver needs quantum memory. Depending on available encoding unitary operations, we investigate what preshared state offers an advantage of using quantum memory on the receiver's side.
翻訳日:2023-06-21 16:02:48 公開日:2023-06-20
# 知能理論の発展における8つの課題

Eight challenges in developing theory of intelligence ( http://arxiv.org/abs/2306.11232v1 )

ライセンス: Link先を確認
Haiping Huang(参考訳) 数学的美の優れた理論は、物理現実の新しい予測が一貫性を持って検証できるため、現在のどの観測よりも実用的である。 この信念は、大規模な言語モデルや生物学的知性を含むディープニューラルネットワークの理解の現状に当てはまる。 おもちゃモデルは物理的な現実のメタファーを提供し、その現実(いわゆる理論)を数学的に定式化することができる。 脳やディープネットワークのような複雑なシステムには、多くのスロボピー次元があるが、マクロ可観測性に強く影響する剛体次元がはるかに少ないため、すべての詳細をモデルに詰め込む必要はなく、より抽象的なモデルが構築されている。 このようなボトムアップ・メカニスティック・モデリングは、現代でも自然や人工知能を理解する上で有望である。 ここでは、この理論パラダイムに従って知性理論を開発する上での8つの課題について詳述する。

A good theory of mathematical beauty is more practical than any current observation, as new predictions of physical reality can be verified self-consistently. This belief applies to the current status of understanding deep neural networks including large language models and even the biological intelligence. Toy models provide a metaphor of physical reality, allowing mathematically formulating that reality (i.e., the so-called theory), which can be updated as more conjectures are justified or refuted. One does not need to pack all details into a model, but rather, more abstract models are constructed, as complex systems like brains or deep networks have many sloppy dimensions but much less stiff dimensions that strongly impact macroscopic observables. This kind of bottom-up mechanistic modeling is still promising in the modern era of understanding the natural or artificial intelligence. Here, we shed light on eight challenges in developing theory of intelligence following this theoretical paradigm.
翻訳日:2023-06-21 16:02:39 公開日:2023-06-20
# 熱力学第一法則によるユニバーサルランダウアー型不等式

Universal Landauer-Type Inequality from the First Law of Thermodynamics ( http://arxiv.org/abs/2306.11230v1 )

ライセンス: Link先を確認
Junjie Liu and Hanlin Nie(参考訳) エネルギー保存を支配する熱力学の第1法則は伝統的に等式として定式化されている。 驚いたことに、第1法則だけでは、システムエントロピーとエネルギーの変化をリンクするランダウアー型不等式が普遍的に示される。 熱力学の第2法則から導かれるランダウアー原理とは異なり、得られたランダウアー型不等式はシステム情報のみに依存し、ランダウアー原理の実装が困難になるシナリオに適用できる。 さらに、ランドウアー型不等式は熱散逸に束縛された双対 {\it upper} を確立することによってランドウアーの原理を補うことができる。 散逸量子状態形成におけるランドウアー型不等式と量子情報消去応用の実用性を示す。 本研究は,量子熱力学および量子情報処理のエネルギーに関する熱力学的制約の同定に関する新たな知見を提供する。

The first law of thermodynamics, which governs energy conservation, is traditionally formulated as an equality. Surprisingly, we demonstrate that the first law alone implies a universal Landauer-type inequality linking changes in system entropy and energy. Unlike the Landauer principle derived from the second law of thermodynamics, our obtained Landauer-type inequality solely relies on system information and is applicable in scenarios where implementing the Landauer principle becomes challenging. Furthermore, the Landauer-type inequality can complement the Landauer principle by establishing a dual {\it upper} bound on heat dissipation. We illustrate the practical utility of the Landauer-type inequality in dissipative quantum state preparation and quantum information erasure applications. Our findings offer new insights into identifying thermodynamic constraints relevant to the fields of quantum thermodynamics and the energetics of quantum information processing.
翻訳日:2023-06-21 16:02:22 公開日:2023-06-20
# 空中上の推論: 推論に基づく暗黙的意味認識コミュニケーションフレームワーク

Reasoning over the Air: A Reasoning-based Implicit Semantic-Aware Communication Framework ( http://arxiv.org/abs/2306.11229v1 )

ライセンス: Link先を確認
Yong Xiao, Yiwei Liao, Yingyu Li, Guangming Shi, H. Vincent Poor, Walid Saad, Merouane Debbah, Mehdi Bennis(参考訳) 意味認識コミュニケーション(semantic-aware communication)は、メッセージの意味の伝達に焦点を当てた人間のコミュニケーションから着想を得た新しいパラダイムである。 最近、コミュニケーションの効率と信頼性を改善し、ユーザのQoEを強化する可能性から、大きな関心を集めている。 既存の作業の多くは、ソース信号から直接識別できる明示的な意味の伝達と伝達に重点を置いている。 本稿では,ソース信号から直接観測できない隠された情報を,意図したユーザによって認識・解釈しなければならない暗黙的な意味認識コミュニケーションについて検討する。 この目的のために、ソースユーザと宛先ユーザの間で暗黙的意味を表現、伝達、解釈するための新しい暗黙的意味コミュニケーション(iSAC)アーキテクチャを提案する。 プロジェクションベースセマンティックエンコーダは, 明示的セマンティックスの高次元グラフィカル表現を低次元セマンティックコンステレーション空間に変換し, 効率的な物理チャネル伝送を実現する。 ソースユーザの暗黙のセマンティック推論過程を学習し、模倣できるようにするため、G-RMLと呼ばれる生成逆模倣学習ベースのソリューションを提案する。 既存のコミュニケーションソリューションと異なり、G-RMLのソースユーザーは、できるだけ多くの有用なメッセージを送ることだけに焦点をあてるのではなく、目的のユーザーに対して、観察された明示的なセマンティクスを、セマンティクスの最も関連性の高い暗黙的なセマンティクスにマッピングするための推論メカニズムを学ぶよう誘導する。 既存のソリューションと比較して,提案したG-RMLはコミュニケーションや計算資源をはるかに少なくし,多くの概念と関係性からなる豊富な意味的意味のコミュニケーションを含むシナリオをスケールする。

Semantic-aware communication is a novel paradigm that draws inspiration from human communication focusing on the delivery of the meaning of messages. It has attracted significant interest recently due to its potential to improve the efficiency and reliability of communication and enhance users' QoE. Most existing works focus on transmitting and delivering the explicit semantic meaning that can be directly identified from the source signal. This paper investigates the implicit semantic-aware communication in which the hidden information that cannot be directly observed from the source signal must be recognized and interpreted by the intended users. To this end, a novel implicit semantic-aware communication (iSAC) architecture is proposed for representing, communicating, and interpreting the implicit semantic meaning between source and destination users. A projection-based semantic encoder is proposed to convert the high-dimensional graphical representation of explicit semantics into a low-dimensional semantic constellation space for efficient physical channel transmission. To enable the destination user to learn and imitate the implicit semantic reasoning process of source user, a generative adversarial imitation learning-based solution, called G-RML, is proposed. Different from existing communication solutions, the source user in G-RML does not focus only on sending as much of the useful messages as possible; but, instead, it tries to guide the destination user to learn a reasoning mechanism to map any observed explicit semantics to the corresponding implicit semantics that are most relevant to the semantic meaning. Compared to the existing solutions, our proposed G-RML requires much less communication and computational resources and scales well to the scenarios involving the communication of rich semantic meanings consisting of a large number of concepts and relations.
翻訳日:2023-06-21 16:02:05 公開日:2023-06-20
# LoSparse:低ランクおよびスパース近似に基づく大規模言語モデルの構造化圧縮

LoSparse: Structured Compression of Large Language Models based on Low-Rank and Sparse Approximation ( http://arxiv.org/abs/2306.11222v1 )

ライセンス: Link先を確認
Yixiao Li, Yifan Yu, Qingru Zhang, Chen Liang, Pengcheng He, Weizhu Chen, Tuo Zhao(参考訳) トランスフォーマーモデルは、様々な自然言語タスクで顕著な結果を得たが、しばしば非常に大きく、膨大な記憶と計算資源を必要とする。 これらのモデルのサイズと複雑さを小さくするために、低ランク行列とスパース行列の和で重み行列を近似する新しいモデル圧縮手法であるロスパース(低ランクおよびスパース近似)を提案する。 本手法は,低位近似とプルーニングの利点を併せ持つとともに,その限界を回避できる。 低位近似はニューロンのコヒーレントと発現の部分を圧縮し、プルーニングはニューロンの非コヒーレントと非発現の部分を除去する。 プルーニングは低位近似の多様性を高め、低位近似はプルーニングが過剰な発現ニューロンを失うことを防ぐ。 本手法は,自然言語理解,質問応答,自然言語生成タスクについて評価する。 既存の圧縮方法を大幅に上回っていることを示す。

Transformer models have achieved remarkable results in various natural language tasks, but they are often prohibitively large, requiring massive memories and computational resources. To reduce the size and complexity of these models, we propose LoSparse (Low-Rank and Sparse approximation), a novel model compression technique that approximates a weight matrix by the sum of a low-rank matrix and a sparse matrix. Our method combines the advantages of both low-rank approximations and pruning, while avoiding their limitations. Low-rank approximation compresses the coherent and expressive parts in neurons, while pruning removes the incoherent and non-expressive parts in neurons. Pruning enhances the diversity of low-rank approximations, and low-rank approximation prevents pruning from losing too many expressive neurons. We evaluate our method on natural language understanding, question answering, and natural language generation tasks. We show that it significantly outperforms existing compression methods.
翻訳日:2023-06-21 16:01:34 公開日:2023-06-20
# CARLAシミュレーションにおける深部強化学習による自律運転

Autonomous Driving with Deep Reinforcement Learning in CARLA Simulation ( http://arxiv.org/abs/2306.11217v1 )

ライセンス: Link先を確認
Jumman Hossain(参考訳) 現在、自動運転車は、様々な現実世界の課題を解決するための多くの潜在的な応用により、勢いを増している。 しかし、自動運転車の開発には、現実世界に配備する前に大量のトレーニングとテストが必要になる。 強化学習(RL)の分野は、深層表現学習の発展に向けた強力な学習フレームワークへと発展してきたが、現在では自動運転車のような高次元環境で複雑な政策を学ぶことができる。 そこで本研究では,Deep Q-Learningを用いて,自動運転車が車線を最高速度で維持し,他の車両を避ける方法を提案する。 その後,carlaシミュレーション環境を用いて,問題定式化に基づいて新たに獲得したポリシーを検証・検証した。

Nowadays, autonomous vehicles are gaining traction due to their numerous potential applications in resolving a variety of other real-world challenges. However, developing autonomous vehicles need huge amount of training and testing before deploying it to real world. While the field of reinforcement learning (RL) has evolved into a powerful learning framework to the development of deep representation learning, and it is now capable of learning complicated policies in high-dimensional environments like in autonomous vehicles. In this regard, we make an effort, using Deep Q-Learning, to discover a method by which an autonomous car may maintain its lane at top speed while avoiding other vehicles. After that, we used CARLA simulation environment to test and verify our newly acquired policy based on the problem formulation.
翻訳日:2023-06-21 16:01:15 公開日:2023-06-20
# CF-GODE:マルチエージェント動的システムの連続時間因果推論

CF-GODE: Continuous-Time Causal Inference for Multi-Agent Dynamical Systems ( http://arxiv.org/abs/2306.11216v1 )

ライセンス: Link先を確認
Song Jiang, Zijie Huang, Xiao Luo, Yizhou Sun(参考訳) マルチエージェント力学システムは、複数のユニットが相互に相互作用し、時間とともに集合的に進化するシナリオを指す。 最適ワクチン配布計画の決定など,マルチエージェントの動的システムにおいてインフォームドな意思決定を行うためには,意思決定者が継続的対実的な結果を評価することが不可欠である。 しかし、時間的因果推論の既存の研究は、単位が相互独立であるという仮定に依存しており、これはマルチエージェント力学系では有効ではない。 本稿では,このギャップを埋め,マルチエージェント力学系における実測結果の予測方法を検討することを目的とする。 マルチエージェント力学系における因果推論には独特の課題がある。 1) 共同設立者は,時間的変化があり,個々の単位と他の単位の両方に存在する。 2) 単位は,自己だけでなく,他者の治療にも影響される。 3) ワクチンやブースターを季節的に受け付けるなどの処理は自然に動的である。 本稿では,グラフとしてマルチエージェント力学系をモデル化し,単位間の相互依存の存在下での連続的対実結果を予測する因果モデルであるCounterFactual GraphODE (CF-GODE)を提案する。 連続時間推定を容易にするために,動的処理を付加入力として組み込んだGNNに基づく新しい常微分方程式である処理誘導グラフドを提案する。 共起バイアスを取り除くために,治療と干渉の予測ではない連続表現形容詞のバランスを学習する2つのドメイン敵学習に基づく目標を提案する。 さらに、その有効性を証明するための理論的正当性も提供します。 2つの半合成データセットの実験により、CF-GODEは反事実推定に基づくベースラインよりも優れていることが確認された。 モデルがどのように機能するかを理解するために、広範な分析も行います。

Multi-agent dynamical systems refer to scenarios where multiple units interact with each other and evolve collectively over time. To make informed decisions in multi-agent dynamical systems, such as determining the optimal vaccine distribution plan, it is essential for decision-makers to estimate the continuous-time counterfactual outcomes. However, existing studies of causal inference over time rely on the assumption that units are mutually independent, which is not valid for multi-agent dynamical systems. In this paper, we aim to bridge this gap and study how to estimate counterfactual outcomes in multi-agent dynamical systems. Causal inference in a multi-agent dynamical system has unique challenges: 1) Confounders are time-varying and are present in both individual unit covariates and those of other units; 2) Units are affected by not only their own but also others' treatments; 3) The treatments are naturally dynamic, such as receiving vaccines and boosters in a seasonal manner. We model a multi-agent dynamical system as a graph and propose CounterFactual GraphODE (CF-GODE), a causal model that estimates continuous-time counterfactual outcomes in the presence of inter-dependencies between units. To facilitate continuous-time estimation, we propose Treatment-Induced GraphODE, a novel ordinary differential equation based on GNN, which incorporates dynamical treatments as additional inputs to predict potential outcomes over time. To remove confounding bias, we propose two domain adversarial learning based objectives that learn balanced continuous representation trajectories, which are not predictive of treatments and interference. We further provide theoretical justification to prove their effectiveness. Experiments on two semi-synthetic datasets confirm that CF-GODE outperforms baselines on counterfactual estimation. We also provide extensive analyses to understand how our model works.
翻訳日:2023-06-21 16:01:02 公開日:2023-06-20
# 分数正規化の意図しない結果:不確実性等価強化学習における正規化の改善

The Unintended Consequences of Discount Regularization: Improving Regularization in Certainty Equivalence Reinforcement Learning ( http://arxiv.org/abs/2306.11208v1 )

ライセンス: Link先を確認
Sarah Rathnam, Sonali Parbhoo, Weiwei Pan, Susan A. Murphy, Finale Doshi-Velez(参考訳) 最適政策を計算する際に、より短い計画的地平線を用いるディスカウント正規化(Discount regularization)は、スパースやノイズの多いデータからMDPを推定する際に、計画がより複雑な政策に制限されることが一般的である(Jiang et al., 2015)。 遅延効果の強調や無視によるディスカウント正規化関数が一般的である。 本稿では,意図しない結果を示すディスカウント正規化の代替的視点を明らかにする。 本研究は,全ての状態と行動に同じ分布を持つ遷移行列に先行して計画する上で,低い割引係数下での計画が最適であることを示す。 実際、より遷移データを持つ状態-作用対のより強い正則化を持つ前者のように機能する。 これにより、状態-作用ペア間で不均一な量のデータセットから遷移行列が推定されると、パフォーマンスが低下する。 我々の同値定理は、グローバルではなく個々の状態-作用対に対して局所的に正規化パラメータを設定する明示的な公式をもたらす。 本研究は, 医療用癌シミュレータと同様に, 簡易な実験例にまたがって, ディスカウント正則化の失敗と, 状態対応法による治療方法を示す。

Discount regularization, using a shorter planning horizon when calculating the optimal policy, is a popular choice to restrict planning to a less complex set of policies when estimating an MDP from sparse or noisy data (Jiang et al., 2015). It is commonly understood that discount regularization functions by de-emphasizing or ignoring delayed effects. In this paper, we reveal an alternate view of discount regularization that exposes unintended consequences. We demonstrate that planning under a lower discount factor produces an identical optimal policy to planning using any prior on the transition matrix that has the same distribution for all states and actions. In fact, it functions like a prior with stronger regularization on state-action pairs with more transition data. This leads to poor performance when the transition matrix is estimated from data sets with uneven amounts of data across state-action pairs. Our equivalence theorem leads to an explicit formula to set regularization parameters locally for individual state-action pairs rather than globally. We demonstrate the failures of discount regularization and how we remedy them using our state-action-specific method across simple empirical examples as well as a medical cancer simulator.
翻訳日:2023-06-21 16:00:33 公開日:2023-06-20
# quilt-1m:病理組織学のための100万の画像テキストペア

Quilt-1M: One Million Image-Text Pairs for Histopathology ( http://arxiv.org/abs/2306.11207v1 )

ライセンス: Link先を確認
Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Fatemeh Ghezloo, Dylan Stefan Chan Geva, Fatwir Sheikh Mohammed, Pavan Kumar Anand, Ranjay Krishna, Linda Shapiro(参考訳) マルチモーダルアプリケーションにおける最近の加速は、画像データとテキストデータをオンラインで利用できることで実現されている。 しかし、医療分野、特に病理組織学における類似データの不足は、同等の進歩を妨げている。 同様の組織病理学の表現学習を可能にするために、私たちはビデオの未編集リソースであるyoutubeに目を向け、専門家臨床医からの貴重な教育的病理学ビデオ1087ドルを提供した。 YouTubeから、Qultをキュレートする: 768,826ドルの画像とテキストペアからなる大規模なビジョン言語データセット。 quiltは、大規模な言語モデル、手作りのアルゴリズム、人間知識データベース、自動音声認識を含む混合モデルを使用して自動的にキュレートされた。 比較して、最も包括的なデータセットは、約200ドルのサンプルしか収集されなかった。 quiltとtwitter、研究論文、インターネットなど他のソースのデータセットを組み合わせることで、さらに大きなデータセットを作成することができます。 事前学習したCLIPモデルの微調整によりQult-1Mの有効性を示す。 我々のモデルは、ゼロショットおよびリニアプローブタスクの両方で最先端のモデルより優れており、新しい病理像を、異なる8ドルのサブ病理とクロスモーダル検索タスクからなる、13ドルの多様なパッチレベルのデータセットに分類する。

Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of analogous data in the medical field, specifically in histopathology, has halted comparable progress. To enable similar representation learning for histopathology, we turn to YouTube, an untapped resource of videos, offering $1,087$ hours of valuable educational histopathology videos from expert clinicians. From YouTube, we curate Quilt: a large-scale vision-language dataset consisting of $768,826$ image and text pairs. Quilt was automatically curated using a mixture of models, including large language models, handcrafted algorithms, human knowledge databases, and automatic speech recognition. In comparison, the most comprehensive datasets curated for histopathology amass only around $200$K samples. We combine Quilt with datasets from other sources, including Twitter, research papers, and the internet in general, to create an even larger dataset: Quilt-1M, with $1$M paired image-text samples, marking it as the largest vision-language histopathology dataset to date. We demonstrate the value of Quilt-1M by fine-tuning a pre-trained CLIP model. Our model outperforms state-of-the-art models on both zero-shot and linear probing tasks for classifying new histopathology images across $13$ diverse patch-level datasets of $8$ different sub-pathologies and cross-modal retrieval tasks.
翻訳日:2023-06-21 16:00:11 公開日:2023-06-20
# 画像としての戻りマップからの動的システムパラメータの深層学習

Deep Learning of Dynamical System Parameters from Return Maps as Images ( http://arxiv.org/abs/2306.11258v1 )

ライセンス: Link先を確認
Connor James Stephens, Emmanuel Blazquez(参考訳) 本稿では,ディープラーニング技術を用いたシステム識別(SI)の新しい手法を提案する。 パラメトリックシステム同定(PSI)に着目し,カオスに関係なく,離散的・連続的な動的システムのパラメータを推定するために教師付き学習手法を用いる。 これを達成するために, 状態空間軌道観測のコレクションを画像状データに変換し, 動的系からの軌道の状態空間トポロジを保持し, 畳み込みニューラルネットワークを訓練し, それらの画像から動的系のパラメータを推定する。 本研究では, 各種力学系のパラメータ推定関数を学習できることを実証し, トレーニング時間データ拡張を用いて, パラメータ推定が入力のサンプル忠実度の変化に対して頑健な推定関数を学習できることを示した。 訓練後、これらの推定モデルは、無視可能な時間と計算コストで新しいシステムのパラメータ推定を返す。

We present a novel approach to system identification (SI) using deep learning techniques. Focusing on parametric system identification (PSI), we use a supervised learning approach for estimating the parameters of discrete and continuous-time dynamical systems, irrespective of chaos. To accomplish this, we transform collections of state-space trajectory observations into image-like data to retain the state-space topology of trajectories from dynamical systems and train convolutional neural networks to estimate the parameters of dynamical systems from these images. We demonstrate that our approach can learn parameter estimation functions for various dynamical systems, and by using training-time data augmentation, we are able to learn estimation functions whose parameter estimates are robust to changes in the sample fidelity of their inputs. Once trained, these estimation models return parameter estimations for new systems with negligible time and computation costs.
翻訳日:2023-06-21 15:52:37 公開日:2023-06-20
# GUMSum: 英語抽象要約のための多元データと評価

GUMSum: Multi-Genre Data and Evaluation for English Abstractive Summarization ( http://arxiv.org/abs/2306.11256v1 )

ライセンス: Link先を確認
Yang Janet Liu and Amir Zeldes(参考訳) 事前学習された言語モデルによる自動要約は、驚くほど流動的な結果をもたらすが、「幻覚」、非ニュースジャンルでの低パフォーマンス、正確な要約ではない出力をもたらす。 acl 2023 の 'reality check' テーマを対象とし,抽象要約の評価のために 12 種類の文章・音声ジャンルの英語サマリーの小規模かつ精巧なデータセットである gumsum を提案する。 要約は、置換可能性、事実性、忠実性に重点が置かれている。 我々は,近年のシステムアウトプットの主観的判断だけでなく,一般分野の未調整アプローチ,微調整アプローチ,即時的アプローチを人間のパフォーマンスと比較し,ガイドラインと人的合意を評価する。 結果は、GPT3は印象的なスコアを得る一方で、ジャンルによって異なる品質で人間を劣勢にしていることを示している。 人間の判断は、監督、刺激、人為的な要約において異なる種類のエラーを明らかにし、良い要約を生み出すという課題に光を当てる。

Automatic summarization with pre-trained language models has led to impressively fluent results, but is prone to 'hallucinations', low performance on non-news genres, and outputs which are not exactly summaries. Targeting ACL 2023's 'Reality Check' theme, we present GUMSum, a small but carefully crafted dataset of English summaries in 12 written and spoken genres for evaluation of abstractive summarization. Summaries are highly constrained, focusing on substitutive potential, factuality, and faithfulness. We present guidelines and evaluate human agreement as well as subjective judgments on recent system outputs, comparing general-domain untuned approaches, a fine-tuned one, and a prompt-based approach, to human performance. Results show that while GPT3 achieves impressive scores, it still underperforms humans, with varying quality across genres. Human judgments reveal different types of errors in supervised, prompted, and human-generated summaries, shedding light on the challenges of producing a good summary.
翻訳日:2023-06-21 15:52:21 公開日:2023-06-20
# EDSR駆動電子スピンを持つ量子ドットにおける動的核スピン偏極

Dynamical nuclear spin polarization in a quantum dot with an EDSR-driven electron spin ( http://arxiv.org/abs/2306.11253v1 )

ライセンス: Link先を確認
Peter Stano, Takashi Nakajima, Akito Noiri, Seigo Tarucha, Daniel Loss(参考訳) 単一電子スピンによって誘起される量子ドット内の核スピンの分極を、コヒーレントなラビ振動を行うために電気的に駆動する。 核スピン偏光速度を導出し、その制御パラメータ、特に電子ラーモア周波数からの駆動周波数のデチューニングに依存することを解析する。 生じる核スピン偏極は、2つの重要な違いを持つNMR文献から知られているハートマン・ハーン効果と関係している。 まず、量子ドットでは一般的にマイクロ磁石を使用し、電子と核スピンの量子化軸の小さな偏向に繋がる。 第2に、電気駆動は原子格子に対して電子をウィグルする。 伝統的なハートマン・ハーンのシナリオにはない2つの効果は、ゲート量子ドットにおける原子スピン偏極の2つのメカニズムを引き起こす。 核スピン偏極は共鳴現象であり、電子ラビと核ラーモア周波数(典型的には数MHzまたは数MHz)の共鳴において最大効率を達成する。 駆動周波数の関数として、偏光速度は鋭いピークを発生させ、大きな値に達することができる。 原子核偏極は電子ラーモア周波数の変化として実験的に検出されるため、式や図形では前者から後者への変換がしばしば行われる。 これらの単位では、分極はGaAs量子ドットで数百MHz/s、Si量子ドットで少なくとも数十kHz/sに達する。 我々は、大きな核分極を達成するための共鳴分極効果とフィードバックによるオーバーハウザー場安定化の可能性を分析する。

We analyze the polarization of nuclear spins in a quantum dot induced by a single-electron spin that is electrically driven to perform coherent Rabi oscillations. We derive the associated nuclear-spin polarization rate and analyze its dependence on the accessible control parameters, especially the detuning of the driving frequency from the electron Larmor frequency. The arising nuclear-spin polarization is related to the Hartmann-Hahn effect known from the NMR literature with two important differences. First, in quantum dots one typically uses a micro magnet, leading to a small deflection of the quantization axes of the electron and nuclear spins. Second, the electric driving wiggles the electron with respect to the atomic lattice. The two effects, absent in the traditional Hartmann-Hahn scenario, give rise to two mechanisms of nuclear-spin polarization in gated quantum dots. The arising nuclear-spin polarization is a resonance phenomenon, achieving maximal efficiency at the resonance of the electron Rabi and nuclear Larmor frequency (typically a few or a few tens of MHz). As a function of the driving frequency, the polarization rate can develop sharp peaks and reach large values at them. Since the nuclear polarization is experimentally detected as changes of the electron Larmor frequency, we often convert the former to the latter in our formulas and figures. In these units, the polarization can reach hundreds of MHz/s in GaAs quantum dots and at least tens of kHz/s in Si quantum dots. We analyze possibilities to exploit the resonant polarization effects for achieving large nuclear polarization and for stabilizing the Overhauser field through feedback.
翻訳日:2023-06-21 15:52:02 公開日:2023-06-20
# HK-LegiCoST:音声翻訳における非バーベット文字の活用

HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation ( http://arxiv.org/abs/2306.11252v1 )

ライセンス: Link先を確認
Cihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner, Kevin Duh, Sanjeev Khudanpur(参考訳) HK-LegiCoSTは,Cantonese- English 翻訳の3方向並列コーパスで,600時間以上のCantonese 音声,その標準漢文,および文レベルで区切られた英訳を含む。 コーパス作成における顕著な課題として,セグメンテーション,長い音声記録のアライメント,非バーベット文字との文レベルのアライメントについて述べる。 このような書き起こしは、ソース言語の話し言葉と書き言葉の間に大きな違いがある場合に、音声翻訳研究に適したコーパスとなる。 その大きさが大きいため、HK-LegiCoSTをベースとした競合音声翻訳を実証し、FLEURSカントン部分集合上で有望なクロスコーパス結果に拡張することができる。 これらの結果から,非動詞や'noisy'の書き起こしが一般的である言語における音声認識と翻訳研究の洞察が得られた。

We introduce HK-LegiCoST, a new three-way parallel corpus of Cantonese-English translations, containing 600+ hours of Cantonese audio, its standard traditional Chinese transcript, and English translation, segmented and aligned at the sentence level. We describe the notable challenges in corpus preparation: segmentation, alignment of long audio recordings, and sentence-level alignment with non-verbatim transcripts. Such transcripts make the corpus suitable for speech translation research when there are significant differences between the spoken and written forms of the source language. Due to its large size, we are able to demonstrate competitive speech translation baselines on HK-LegiCoST and extend them to promising cross-corpus results on the FLEURS Cantonese subset. These results deliver insights into speech recognition and translation research in languages for which non-verbatim or ``noisy'' transcription is common due to various factors, including vernacular and dialectal speech.
翻訳日:2023-06-21 15:51:40 公開日:2023-06-20
# 拡散モデルにおけるリプシッツ特異点の除去

Eliminating Lipschitz Singularities in Diffusion Models ( http://arxiv.org/abs/2306.11251v1 )

ライセンス: Link先を確認
Zhantao Yang, Ruili Feng, Han Zhang, Yujun Shen, Kai Zhu, Lianghua Huang, Yifei Zhang, Yu Liu, Deli Zhao, Jingren Zhou, Fan Cheng(参考訳) 積分による画像のサンプリングに確率微分方程式を用いる拡散モデルは、生成モデルの支配的なクラスとして現れている。 しかし、拡散過程自体の合理性は限定的な注意を受けており、問題が十分に提示され、十分に条件づけられているかどうかという疑問が残る。 本稿では,拡散モデルの粘り強さを明らかにし,時間経過のゼロ点付近で無限のリプシッツをしばしば提示する。 これは、積分演算に依存する拡散過程の安定性と精度に脅威をもたらす。 我々は,この問題を理論的および経験的視点から総合的に評価する。 この課題に対処するため、我々はE-TSDMと呼ばれる新しいアプローチを提案し、これは0に近い拡散モデルのリプシッツ特異性を排除している。 驚くべきことに、このテクニックはハイレゾのffhqデータセット(256\times256$)でパフォーマンスが大幅に向上する。 さらに,本手法の副産物として,DDIM や DPM-Solver などネットワークリプシッツに依存した他の加速度法において,Frechet Inception Distance を33$\%以上削減することに成功した。 様々なデータセットについて広範な実験を行い、理論と方法を検証する。 我々の研究は一般拡散過程の理解を深めるだけでなく、拡散モデルの設計についての洞察を提供する。

Diffusion models, which employ stochastic differential equations to sample images through integrals, have emerged as a dominant class of generative models. However, the rationality of the diffusion process itself receives limited attention, leaving the question of whether the problem is well-posed and well-conditioned. In this paper, we uncover a vexing propensity of diffusion models: they frequently exhibit the infinite Lipschitz near the zero point of timesteps. This poses a threat to the stability and accuracy of the diffusion process, which relies on integral operations. We provide a comprehensive evaluation of the issue from both theoretical and empirical perspectives. To address this challenge, we propose a novel approach, dubbed E-TSDM, which eliminates the Lipschitz singularity of the diffusion model near zero. Remarkably, our technique yields a substantial improvement in performance, e.g., on the high-resolution FFHQ dataset ($256\times256$). Moreover, as a byproduct of our method, we manage to achieve a dramatic reduction in the Frechet Inception Distance of other acceleration methods relying on network Lipschitz, including DDIM and DPM-Solver, by over 33$\%$. We conduct extensive experiments on diverse datasets to validate our theory and method. Our work not only advances the understanding of the general diffusion process, but also provides insights for the design of diffusion models.
翻訳日:2023-06-21 15:51:21 公開日:2023-06-20
# InRank: インクリメンタルな低ランク学習

InRank: Incremental Low-Rank Learning ( http://arxiv.org/abs/2306.11250v1 )

ライセンス: Link先を確認
Jiawei Zhao, Yifei Zhang, Beidi Chen, Florian Sch\"afer, Anima Anandkumar(参考訳) グレディ低ランク学習(GLRL)の理論は、ディープラーニングの印象的な一般化能力を説明することを目的としている。 確率的勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクソリューションへと暗黙的に規則化する。 しかし、GLRLは重みの無限小初期化を必要とするため、理論と実践の間にはギャップがある。 本研究では,累積重み更新に着目して無限小初期化の仮定を除去する。 累積重み更新は3層線形ネットワークにおける重みの任意の直交初期化のためのインクリメンタル低ランク軌跡に続く。 経験的に、我々の理論は幅広いニューラルネットワーク(例えば、トランスフォーマー)と標準トレーニングアルゴリズム(例えば、SGD、Adam)で成り立っていることを実証する。 しかし、既存のトレーニングアルゴリズムは、ネットワークが低ランクでパラメータ化されていないため、計算効率を改善するために低ランク特性を利用しない。 これを改善するために、我々は、トレーニング中のランクを漸進的に増加させながら、低ランク行列として累積重量更新を明示的に表現する新しいトレーニングアルゴリズムInRank(Incrmental Low-Rank Learning)を設計する。 InRank を GPT-2 上で評価した結果,InRank は全学級の33% を要し,全学級に匹敵する予測性能を達成できることが示唆された。 また,WikiText-103でGPT-mediumをスクラッチからトレーニングする場合,トレーニング時間全体の20%,メモリ使用量の37%を削減できるInRankの効率的なバージョンを提案する。

The theory of greedy low-rank learning (GLRL) aims to explain the impressive generalization capabilities of deep learning. It proves that stochastic gradient-based training implicitly regularizes neural networks towards low-rank solutions through a gradual increase of the rank during training. However, there is a gap between theory and practice since GLRL requires an infinitesimal initialization of the weights, which is not practical due to the fact that it is a saddle point. In this work, we remove the assumption of infinitesimal initialization by focusing on cumulative weight updates. We prove the cumulative weight updates follow an incremental low-rank trajectory for arbitrary orthogonal initialization of weights in a three-layer linear network. Empirically, we demonstrate that our theory holds on a broad range of neural networks (e.g., transformers) and standard training algorithms (e.g., SGD, Adam). However, existing training algorithms do not exploit the low-rank property to improve computational efficiency as the networks are not parameterized in low-rank. To remedy this, we design a new training algorithm Incremental Low-Rank Learning (InRank), which explicitly expresses cumulative weight updates as low-rank matrices while incrementally augmenting their ranks during training. We evaluate InRank on GPT-2, and our results indicate that InRank achieves comparable prediction performance as the full-rank counterpart while requiring at most 33% of the total ranks throughout training. We also propose an efficient version of InRank that achieves a reduction of 20% in total training time and 37% in memory usage when training GPT-medium on WikiText-103 from scratch.
翻訳日:2023-06-21 15:50:57 公開日:2023-06-20
# OpenSTL: 時空間予測学習の総合ベンチマーク

OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive Learning ( http://arxiv.org/abs/2306.11249v1 )

ライセンス: Link先を確認
Cheng Tan, Siyuan Li, Zhangyang Gao, Wenfei Guan, Zedong Wang, Zicheng Liu, Lirong Wu, Stan Z. Li(参考訳) 時空間予測学習は、モデルが与えられた過去のフレームから教師なしの方法で将来のフレームを予測することによって、空間的および時間的パターンを学習できる学習パラダイムである。 近年の顕著な進歩にもかかわらず、様々な設定、複雑な実装、難しい再現性のために体系的な理解が欠如している。 標準化がなければ、比較は不公平であり、洞察は決定的ではない。 このジレンマに対処するために,我々は,時空間予測学習のための包括的ベンチマークであるopenstlを提案する。 OpenSTLは、様々な最先端メソッドを実装するモジュラーで拡張可能なフレームワークを提供する。 我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。 本報告では,モデルアーキテクチャとデータセット特性が時空間予測学習性能に与える影響を詳細に分析する。 驚くべきことに、リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。 そこで我々は,MetaFormerを拡張して,再帰的空間時間予測学習を促進する。 コードとモデルはhttps://github.com/chengtan9907/OpenSTL.orgで公開しています。

Spatio-temporal predictive learning is a learning paradigm that enables models to learn spatial and temporal patterns by predicting future frames from given past frames in an unsupervised manner. Despite remarkable progress in recent years, a lack of systematic understanding persists due to the diverse settings, complex implementation, and difficult reproducibility. Without standardization, comparisons can be unfair and insights inconclusive. To address this dilemma, we propose OpenSTL, a comprehensive benchmark for spatio-temporal predictive learning that categorizes prevalent approaches into recurrent-based and recurrent-free models. OpenSTL provides a modular and extensible framework implementing various state-of-the-art methods. We conduct standard evaluations on datasets across various domains, including synthetic moving object trajectory, human motion, driving scenes, traffic flow and weather forecasting. Based on our observations, we provide a detailed analysis of how model architecture and dataset properties affect spatio-temporal predictive learning performance. Surprisingly, we find that recurrent-free models achieve a good balance between efficiency and performance than recurrent models. Thus, we further extend the common MetaFormers to boost recurrent-free spatial-temporal predictive learning. We open-source the code and models at https://github.com/chengtan9907/OpenSTL.
翻訳日:2023-06-21 15:50:27 公開日:2023-06-20
# 視覚認識のための動的知覚器

Dynamic Perceiver for Efficient Visual Recognition ( http://arxiv.org/abs/2306.11248v1 )

ライセンス: Link先を確認
Yizeng Han, Dongchen Han, Zeyu Liu, Yulin Wang, Xuran Pan, Yifan Pu, Chao Deng, Junlan Feng, Shiji Song, Gao Huang(参考訳) 早期離脱は、ディープネットワークの推論効率を改善するための有望なアプローチとなっている。 複数の分類器(exit)でモデルを構築することで、以前の出口で ``easy'' サンプルの予測が生成され、より深い層の実行の必要性が否定される。 現在のマルチエクイットネットワークは、一般的に中間層で線形分類器を実装し、低レベルな特徴に高レベルのセマンティクスをカプセル化する。 この準最適設計は、しばしば後の出口の性能を損なう。 本稿では,特徴抽出手順と初期分類タスクを,新しいデュアルブランチアーキテクチャで分離する動的パーシーバ(Dyn-Perceiver)を提案する。 機能ブランチは画像の特徴を抽出するのに役立ち、分類ブランチは分類タスクに割り当てられた潜在コードを処理する。 双方向のクロスアテンション層が確立され、両ブランチの情報を段階的に融合させる。 早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。 dyn-perceiverは多様なアーキテクチャ上に構築可能な多用途で適応可能なフレームワークである。 画像分類,行動認識,物体検出実験により,提案手法は様々なバックボーンの推論効率を大幅に向上し,幅広い計算予算において多くの競争的アプローチを上回った。 CPUとGPUプラットフォームの評価は、Dyn-Perceiverの優れた実用効率を裏付けるものである。 コードはhttps://www.github.com/leaplabthu/dynamic_perceiverで入手できる。

Early exiting has become a promising approach to improving the inference efficiency of deep networks. By structuring models with multiple classifiers (exits), predictions for ``easy'' samples can be generated at earlier exits, negating the need for executing deeper layers. Current multi-exit networks typically implement linear classifiers at intermediate layers, compelling low-level features to encapsulate high-level semantics. This sub-optimal design invariably undermines the performance of later exits. In this paper, we propose Dynamic Perceiver (Dyn-Perceiver) to decouple the feature extraction procedure and the early classification task with a novel dual-branch architecture. A feature branch serves to extract image features, while a classification branch processes a latent code assigned for classification tasks. Bi-directional cross-attention layers are established to progressively fuse the information of both branches. Early exits are placed exclusively within the classification branch, thus eliminating the need for linear separability in low-level features. Dyn-Perceiver constitutes a versatile and adaptable framework that can be built upon various architectures. Experiments on image classification, action recognition, and object detection demonstrate that our method significantly improves the inference efficiency of different backbones, outperforming numerous competitive approaches across a broad range of computational budgets. Evaluation on both CPU and GPU platforms substantiate the superior practical efficiency of Dyn-Perceiver. Code is available at https://www.github.com/LeapLabTHU/Dynamic_Perceiver.
翻訳日:2023-06-21 15:50:06 公開日:2023-06-20
# 後見微分可能なポリシー最適化によるネットワーク内の神経インベントリ制御

Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization ( http://arxiv.org/abs/2306.11246v1 )

ライセンス: Link先を確認
Matias Alvo, Daniel Russo and Yash Kanoria(参考訳) 在庫管理は、深層強化学習(DRL)を確実に評価し、適用するためのユニークな機会を提供する。 drlアルゴリズムを相互比較や人間専門家と比較することで評価する代わりに、隠れ構造を持ついくつかの問題クラスにおいて最適自身を比較することができる。 提案手法は600次元の生状態ベクトルに適用されているにもかかわらず,常に最適に近いポリシーを回復する。 他のケースでは、問題固有のヒューリスティックを大幅に上回ることができる。 DRLを確実に適用するには、2つの洞察を利用する。 まず、確率勾配勾配を用いた任意のポリシーの後方視性能を直接最適化できる。 この用途は 一 歴史的需要観測のサブサンプルにおいて、政策の実績を裏付ける能力、及び (ii)政策パラメータに関して、任意のサブサンプルに発生する総コストの微分可能性。 第2に,インベントリネットワーク内の位置間の弱い(あるいは集約)結合制約のある問題に対処する,自然なニューラルネットワークアーキテクチャを提案する。 このアーキテクチャはネットワーク内の‘兄弟’位置と状態の要約に重みの重複を用いる。 我々は,このアーキテクチャを漸近的な保証を通じて正当化し,大規模問題を扱う上での価値を実証的に肯定する。

Inventory management offers unique opportunities for reliably evaluating and applying deep reinforcement learning (DRL). Rather than evaluate DRL algorithms by comparing against one another or against human experts, we can compare to the optimum itself in several problem classes with hidden structure. Our DRL methods consistently recover near-optimal policies in such settings, despite being applied with up to 600-dimensional raw state vectors. In others, they can vastly outperform problem-specific heuristics. To reliably apply DRL, we leverage two insights. First, one can directly optimize the hindsight performance of any policy using stochastic gradient descent. This uses (i) an ability to backtest any policy's performance on a subsample of historical demand observations, and (ii) the differentiability of the total cost incurred on any subsample with respect to policy parameters. Second, we propose a natural neural network architecture to address problems with weak (or aggregate) coupling constraints between locations in an inventory network. This architecture employs weight duplication for ``sibling'' locations in the network, and state summarization. We justify this architecture through an asymptotic guarantee, and empirically affirm its value in handling large-scale problems.
翻訳日:2023-06-21 15:49:43 公開日:2023-06-20
# 2次元超伝導量子格子上の合成ゲージ場を有するホフシュタッター蝶の量子シミュレーション

Quantum simulation of Hofstadter butterfly with synthetic gauge fields on two-dimensional superconducting-qubit lattices ( http://arxiv.org/abs/2306.11245v1 )

ライセンス: Link先を確認
Wei Feng, Dexi Shao, Guo-Qiang Zhang, Qi-Ping Su, Jun-Xiang Zhang, Chui-Ping Yang(参考訳) 2次元超伝導量子ビット格子の最近の実現により、超伝導回路における合成ゲージ場を持つホフスタッター蝶を模擬するプロトコルを提案する。 既存の2次元超伝導量子格子に基づいて、オリジナルのホフシュタッター蝶に似たフラクタルエネルギースペクトルを持つジグザグ格子上の一般化ホフシュタッターモデルを構築する。 キュービットの共振周波数を周期的に変調することにより、一般化されたホフシュタッター・ハミルトニアンを模倣する合成ゲージ場を設計する。 分光学的手法は、ホーフシュタッター・バタフライを実験観測器の時間的進化から示すために用いられる。 本研究では,システムの動特性を現実的なパラメータで数値シミュレーションし,バタフライスペクトルを明らかにした。 提案手法は,2次元超伝導量子ビット格子上でのホフスタッターバタフライの実現と,超伝導回路における磁場による新しい特性の量子シミュレーションを促進させる。

Motivated by recent realizations of two-dimensional (2D) superconducting-qubit lattices, we propose a protocol to simulate Hofstadter butterfly with synthetic gauge fields in superconducting circuits. Based on the existing 2D superconducting-qubit lattices, we construct a generalized Hofstadter model on zigzag lattices, which has a fractal energy spectrum similar to the original Hofstadter butterfly. By periodically modulating the resonant frequencies of qubits, we engineer a synthetic gauge field to mimic the generalized Hofstadter Hamiltonian. A spectroscopic method is used to demonstrate the Hofstadter butterfly from the time evolutions of experimental observables. We numerically simulate the dynamics of the system with realistic parameters, and the results show a butterfly spectrum clearly. Our proposal provides a promising way to realize the Hofstadter butterfly on the latest 2D superconducting-qubit lattices and will stimulate the quantum simulation of novel properties induced by magnetic fields in superconducting circuits.
翻訳日:2023-06-21 15:49:27 公開日:2023-06-20
# テキストマイニングのためのチャットGPT化学アシスタントとMOF合成予測

ChatGPT Chemistry Assistant for Text Mining and Prediction of MOF Synthesis ( http://arxiv.org/abs/2306.11296v1 )

ライセンス: Link先を確認
Zhiling Zheng, Oufan Zhang, Christian Borgs, Jennifer T. Chayes, Omar M. Yaghi(参考訳) 本研究は,化学文献の様々な形式やスタイルから,金属-有機フレームワーク(MOF)合成条件のテキストマイニングの自動化におけるChatGPTの導出を行う。 これはChatGPTが情報を幻覚させる傾向を効果的に緩和するものであり、以前は科学分野で大きな言語モデル(LLM)を使用していた問題だった。 私たちのアプローチは、chatgpt自身によってプログラムされたテキストマイニングの3つの異なるプロセスを実装するワークフローの開発に関するものです。 これらはすべて、パース、検索、フィルタリング、分類、要約、データ統合を可能にする。 論文から得られた約800個のMOFに関する26,257個の異なる合成パラメータを抽出する。 このプロセスには、ChatGPTにテキストマイニングを指示するChemPrompt Engineering戦略が含まれています。 さらに,テキストマイニングによって構築されたデータセットを用いて,MOF実験結晶化結果の予測に精度86%以上の機械学習モデルを構築した。 また, 化学反応や合成過程に関する質問に答える, 信頼性の高いデータ接地型mofチャットボットを開発した。 ChatGPTを使用するプロセスは、コーディングの専門知識を必要としない物語言語のみを使用して、多様なMOF合成情報を統一形式で確実にマイニングし、集計することを考えると、我々のChatGPT化学アシスタントは、他の様々な化学分野において非常に有用であると予想される。

We use prompt engineering to guide ChatGPT in the automation of text mining of metal-organic frameworks (MOFs) synthesis conditions from diverse formats and styles of the scientific literature. This effectively mitigates ChatGPT's tendency to hallucinate information -- an issue that previously made the use of Large Language Models (LLMs) in scientific fields challenging. Our approach involves the development of a workflow implementing three different processes for text mining, programmed by ChatGPT itself. All of them enable parsing, searching, filtering, classification, summarization, and data unification with different tradeoffs between labor, speed, and accuracy. We deploy this system to extract 26,257 distinct synthesis parameters pertaining to approximately 800 MOFs sourced from peer-reviewed research articles. This process incorporates our ChemPrompt Engineering strategy to instruct ChatGPT in text mining, resulting in impressive precision, recall, and F1 scores of 90-99%. Furthermore, with the dataset built by text mining, we constructed a machine-learning model with over 86% accuracy in predicting MOF experimental crystallization outcomes and preliminarily identifying important factors in MOF crystallization. We also developed a reliable data-grounded MOF chatbot to answer questions on chemical reactions and synthesis procedures. Given that the process of using ChatGPT reliably mines and tabulates diverse MOF synthesis information in a unified format, while using only narrative language requiring no coding expertise, we anticipate that our ChatGPT Chemistry Assistant will be very useful across various other chemistry sub-disciplines.
翻訳日:2023-06-21 15:44:37 公開日:2023-06-20
# Habitat Synthetic Scenes Dataset (HSSD-200):オブジェクトゴールナビゲーションのための3次元シーンスケールとリアリズムトレードオフの解析

Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene Scale and Realism Tradeoffs for ObjectGoal Navigation ( http://arxiv.org/abs/2306.11290v1 )

ライセンス: Link先を確認
Mukul Khanna, Yongsen Mao, Hanxiao Jiang, Sanjay Haresh, Brennan Schacklett, Dhruv Batra, Alexander Clegg, Eric Undersander, Angel X. Chang, Manolis Savva(参考訳) 211の高品質な3DシーンのデータセットであるHabitat Synthetic Scene Datasetをコントリビュートし、現実的な3D環境へのナビゲーションエージェントの一般化をテストする。 我々のデータセットは実際の内部を表現しており、現実世界の物体の18,656種類のモデルを含んでいる。 本研究では,合成3Dシーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。 従来の3Dシーンの合成データセットと比較すると、スケールは一般化に役立つが、その利点は急速に飽和し、視覚的忠実度と現実世界のシーンとの相関性がより重要になる。 私たちの実験では、より小規模のデータセットでトレーニングされたエージェントは、はるかに大きなデータセットでトレーニングされたエージェントとマッチしたり、より優れています。 驚くべきことに、我々のデータセットから訓練されたエージェントは、実世界のスキャンされた環境におけるゼロショットの一般化の観点から、ProcTHOR-10Kデータセットからトレーニングされた1万のシーンで訓練されたエージェントよりも、わずか122のシーンで訓練された。

We contribute the Habitat Synthetic Scene Dataset, a dataset of 211 high-quality 3D scenes, and use it to test navigation agent generalization to realistic 3D environments. Our dataset represents real interiors and contains a diverse set of 18,656 models of real-world objects. We investigate the impact of synthetic 3D scene dataset scale and realism on the task of training embodied agents to find and navigate to objects (ObjectGoal navigation). By comparing to synthetic 3D scene datasets from prior work, we find that scale helps in generalization, but the benefits quickly saturate, making visual fidelity and correlation to real-world scenes more important. Our experiments show that agents trained on our smaller-scale dataset can match or outperform agents trained on much larger datasets. Surprisingly, we observe that agents trained on just 122 scenes from our dataset outperform agents trained on 10,000 scenes from the ProcTHOR-10K dataset in terms of zero-shot generalization in real-world scanned environments.
翻訳日:2023-06-21 15:44:09 公開日:2023-06-20
# 野生における視線点滅検出のための奥行き分離畳み込み型時空間CNN

Spatiotemporal Pyramidal CNN with Depth-Wise Separable Convolution for Eye Blinking Detection in the Wild ( http://arxiv.org/abs/2306.11287v1 )

ライセンス: Link先を確認
Lan Anh Thi Nguy, Bach Nguyen Gia, Thanh Tu Thi Nguyen, Kamioka Eiji, and Tan Xuan Phan(参考訳) 野生の目まばたき検出は、騙し検出や運転疲労検出などにおいて重要な役割を担っている。 すでに多くの試みがなされているにもかかわらず、顔とカメラの距離が変化するように解像度が異なる導眼画像や、リアルタイムに実行するために短い推論時間を得るための軽量検出モデルの要求など、多くの課題に直面している。 本研究では,眼球点眼検出モデルが様々な条件下で異なる解像度の眼球画像から効率的に学習する方法と,より高速な推測時間で検出モデルのサイズを小さくする方法の2つに対処する。 本稿では,入力された眼の画像を1つの潜在的な解法と同じ解像度にアップサンプリングおよびダウンサンプリングし,どの補間法が検出モデルの最高の性能をもたらすかを調べることを提案する。 第2の問題は、目まばたき検出に用いられる最近の時空間畳み込みニューラルネットワークは、時間的特性と時間的特性の両方を抽出できる強い能力を持つが、ネットワークパラメータが豊富であり、高い推論時間をもたらす。 そこで本論文では,各ブランチ内の従来の畳み込み層ではなく,奥行き分離畳み込みを用いた解法を提案する。

Eye blinking detection in the wild plays an essential role in deception detection, driving fatigue detection, etc. Despite the fact that numerous attempts have already been made, the majority of them have encountered difficulties, such as the derived eye images having different resolutions as the distance between the face and the camera changes; or the requirement of a lightweight detection model to obtain a short inference time in order to perform in real-time. In this research, two problems are addressed: how the eye blinking detection model can learn efficiently from different resolutions of eye pictures in diverse conditions; and how to reduce the size of the detection model for faster inference time. We propose to utilize upsampling and downsampling the input eye images to the same resolution as one potential solution for the first problem, then find out which interpolation method can result in the highest performance of the detection model. For the second problem, although a recent spatiotemporal convolutional neural network used for eye blinking detection has a strong capacity to extract both spatial and temporal characteristics, it remains having a high number of network parameters, leading to high inference time. Therefore, using Depth-wise Separable Convolution rather than conventional convolution layers inside each branch is considered in this paper as a feasible solution.
翻訳日:2023-06-21 15:43:49 公開日:2023-06-20
# 可逆潜在因果モデルに対する領域逆事象の特徴付けに向けて

Towards Characterizing Domain Counterfactuals For Invertible Latent Causal Models ( http://arxiv.org/abs/2306.11281v1 )

ライセンス: Link先を確認
Sean Kulinski, Zeyu Zhou, Ruqi Bai, Murat Kocaoglu, David I. Inouye(参考訳) データから潜在因果モデルを学ぶには、堅牢性、モデル外挿、反事実など、多くの重要な応用がある。 初期の理論的な研究は完全な因果発見(すなわち真の潜伏変数の回復)に焦点を当てていたが、線形性のような強い仮定を必要とするか、あるいは同値な解のクラス(例えば IRM)を解析できない。 完全な因果的発見ではなく、ドメインカウンターファクト(domain counterfactual)と呼ばれる特定のタイプの因果的クエリに注目します。 具体的には、ドメイン固有の可逆的可逆的構造因果モデルと共有可逆的観測関数を仮定する。 これらの仮定の下で、ドメイン対実同値モデルを定義し、任意のモデルが2つの可逆関数を通して同値モデルに変換できることを証明する。 この構成的性質は、領域の反実同値類を厳密に特徴づける。 この結果に基づいて、すべての同値類がすべての介入変数が最後に因果dagによって位相的にソートされたとき、すなわちすべての非干渉変数が非干渉祖先を持つモデルを含むことを証明する。 この驚くべき結果は、最後の$k$潜在変数への介入のみを許すアルゴリズムが、反事実のモデル推定を改善することを示唆している。 実験では、この理論によるスパース介入仮説を、潜在SCMが最後のいくつかの因果メカニズムでのみ異なることを制約し、シミュレーションおよび画像に基づく実験においてこのアルゴリズムの有効性を示す。

Learning latent causal models from data has many important applications such as robustness, model extrapolation, and counterfactuals. Most prior theoretic work has focused on full causal discovery (i.e., recovering the true latent variables) but requires strong assumptions such as linearity or fails to have any analysis of the equivalence class of solutions (e.g., IRM). Instead of full causal discovery, we focus on a specific type of causal query called the domain counterfactual, which hypothesizes what a sample would have looked like if it had been generated in a different domain (or environment). Concretely, we assume domain-specific invertible latent structural causal models and a shared invertible observation function, both of which are less restrictive assumptions than prior theoretic works. Under these assumptions, we define domain counterfactually equivalent models and prove that any model can be transformed into an equivalent model via two invertible functions. This constructive property provides a tight characterization of the domain counterfactual equivalence classes. Building upon this result, we prove that every equivalence class contains a model where all intervened variables are at the end when topologically sorted by the causal DAG, i.e., all non-intervened variables have non-intervened ancestors. This surprising result suggests that an algorithm that only allows intervention in the last $k$ latent variables may improve model estimation for counterfactuals. In experiments, we enforce the sparse intervention hypothesis via this theoretic result by constraining that the latent SCMs can only differ in the last few causal mechanisms and demonstrate the feasibility of this algorithm in simulated and image-based experiments.
翻訳日:2023-06-21 15:43:25 公開日:2023-06-20
# lessはもっとあり得る - レコメンダシステムにおける分割モデルによる人口評価方法の検討

Less Can Be More: Exploring Population Rating Dispositions with Partitioned Models in Recommender Systems ( http://arxiv.org/abs/2306.11279v1 )

ライセンス: Link先を確認
Ruixuan Sun, Ruoyan Kong, Qiao Jin, and Joseph A. Konstan(参考訳) そこで本研究では,まず,評価率の負の比率,次に評価尺度の一般利用について,評価分散によってユーザを分割する。 評価の異なる利用者はレコメンデーションシステムが異なる場合があり、過去の評価との合意は将来的な合意の予測を下方修正する可能性があると仮定する。 我々は,大規模な映画評価サイトから得られたデータを用いて,ユーザが配信によってグループ化されるべきかどうかを調査する。 このようなパーティショニングは計算効率を向上するだけでなく、トップkの性能と予測精度も向上する。 このような効果はユーザベースのKNN CFでは最大であり、アイテムベースのKNN CFでは小さめ、SVDのような遅延係数アルゴリズムでは最小である。

In this study, we partition users by rating disposition - looking first at their percentage of negative ratings, and then at the general use of the rating scale. We hypothesize that users with different rating dispositions may use the recommender system differently and therefore the agreement with their past ratings may be less predictive of the future agreement. We use data from a large movie rating website to explore whether users should be grouped by disposition, focusing on identifying their various rating distributions that may hurt recommender effectiveness. We find that such partitioning not only improves computational efficiency but also improves top-k performance and predictive accuracy. Though such effects are largest for the user-based KNN CF, smaller for item-based KNN CF, and smallest for latent factor algorithms such as SVD.
翻訳日:2023-06-21 15:42:55 公開日:2023-06-20
# Warm-Start Actor-Critic:近似誤差から準最適ギャップへ

Warm-Start Actor-Critic: From Approximation Error to Sub-optimality Gap ( http://arxiv.org/abs/2306.11271v1 )

ライセンス: Link先を確認
Hang Wang, Sen Lin, Junshan Zhang(参考訳) オフライントレーニングから得られた事前方針を援用したウォームスタート強化学習(rl)が、実用的なアプリケーションのための有望なrlアプローチとして登場している。 近年の実証研究により、ウォームスタートrlの性能は一部のケースでは \textit{quickly} が改善されるが、他のケースでは \textit{stagnant} となることが示されている。 この目的のために、この研究の主な目的は、オフラインのRLからのウォームスタートポリシーによってオンライン学習が著しく加速できるかどうか、そして、いつ、オンライン学習が大幅に加速できるか、という根本的な理解を構築することである。 }''. 具体的には,アクター・クリティカル法 (A-C法) を事前ポリシーで検討する。 まず,アクタ更新と批評家更新の近似誤差を定量化する。 次に,Warm-Start A-Cアルゴリズムを摂動を伴うニュートンの手法として用い,不正確なアクタ/Critic更新による有限時間学習性能に対する近似誤差の影響について検討した。 いくつかの技術的条件下では、Warm-Start A-Cアルゴリズムにおいて所望の有限学習性能を達成するための上限を導出する。 特に,オンライン学習におけるアルゴリズムバイアスの低減が重要であることが明らかとなった。 また,ウォームスタートa-cアルゴリズムのサブ最適ギャップに対する下限を求め,バイアスと誤差伝播の影響を定量化する。

Warm-Start reinforcement learning (RL), aided by a prior policy obtained from offline training, is emerging as a promising RL approach for practical applications. Recent empirical studies have demonstrated that the performance of Warm-Start RL can be improved \textit{quickly} in some cases but become \textit{stagnant} in other cases, especially when the function approximation is used. To this end, the primary objective of this work is to build a fundamental understanding on ``\textit{whether and when online learning can be significantly accelerated by a warm-start policy from offline RL?}''. Specifically, we consider the widely used Actor-Critic (A-C) method with a prior policy. We first quantify the approximation errors in the Actor update and the Critic update, respectively. Next, we cast the Warm-Start A-C algorithm as Newton's method with perturbation, and study the impact of the approximation errors on the finite-time learning performance with inaccurate Actor/Critic updates. Under some general technical conditions, we derive the upper bounds, which shed light on achieving the desired finite-learning performance in the Warm-Start A-C algorithm. In particular, our findings reveal that it is essential to reduce the algorithm bias in online learning. We also obtain lower bounds on the sub-optimality gap of the Warm-Start A-C algorithm to quantify the impact of the bias and error propagation.
翻訳日:2023-06-21 15:42:39 公開日:2023-06-20
# 命令型言語モデルのゼロショットロバスト性の評価

Evaluating the Zero-shot Robustness of Instruction-tuned Language Models ( http://arxiv.org/abs/2306.11270v1 )

ライセンス: Link先を確認
Jiuding Sun, Chantal Shaib, Byron C. Wallace(参考訳) 命令の微調整は、新しいタスクにおける大規模言語モデル(llm)のゼロショット能力を改善するための有望なアプローチとして最近登場した。 この技術は、控えめな大きさのLLMの性能向上において特に強みを示しており、時にはより大型のモデルと競合する性能を誘導する。 本論文では,(1)命令調整モデルと命令の特定の記述にどの程度敏感か,(2)自然言語変化に対してどのようにより強固にできるか,という2つの疑問を問う。 前者に対応するために,NLP実践者が手書きした319個の命令を,広く使用されているベンチマークに含まれる80以上のユニークなタスクに対して収集し,これらの命令のばらつきと平均性能を,命令微調整中に観察された命令句と比較して評価した。 我々は,新しい(観測されていない)が適切な命令句を用いることで,モデルの性能を劣化させることがある。 さらに、このような自然な命令は、意味的同値にもかかわらず、下流のパフォーマンスに幅広いばらつきをもたらす。 別の言い方をすれば、命令調整されたモデルは命令の再記述に対して特に堅牢ではない。 本稿では,「ソフトプロンプト」埋め込みパラメータを導入し,意味的に等価な命令の表現の類似性を最大化するために最適化することで,この問題を軽減するための簡単な手法を提案する。 本手法は命令調整モデルのロバスト性を常に改善することを示す。

Instruction fine-tuning has recently emerged as a promising approach for improving the zero-shot capabilities of Large Language Models (LLMs) on new tasks. This technique has shown particular strength in improving the performance of modestly sized LLMs, sometimes inducing performance competitive with much larger model variants. In this paper we ask two questions: (1) How sensitive are instruction-tuned models to the particular phrasings of instructions, and, (2) How can we make them more robust to such natural language variation? To answer the former, we collect a set of 319 instructions manually written by NLP practitioners for over 80 unique tasks included in widely used benchmarks, and we evaluate the variance and average performance of these instructions as compared to instruction phrasings observed during instruction fine-tuning. We find that using novel (unobserved) but appropriate instruction phrasings consistently degrades model performance, sometimes substantially so. Further, such natural instructions yield a wide variance in downstream performance, despite their semantic equivalence. Put another way, instruction-tuned models are not especially robust to instruction re-phrasings. We propose a simple method to mitigate this issue by introducing ``soft prompt'' embedding parameters and optimizing these to maximize the similarity between representations of semantically equivalent instructions. We show that this method consistently improves the robustness of instruction-tuned models.
翻訳日:2023-06-21 15:42:14 公開日:2023-06-20
# GraphGLOW: グラフニューラルネットワークのための普遍的で一般化可能な構造学習

GraphGLOW: Universal and Generalizable Structure Learning for Graph Neural Networks ( http://arxiv.org/abs/2306.11264v1 )

ライセンス: Link先を確認
Wentao Zhao, Qitian Wu, Chenxiao Yang and Junchi Yan(参考訳) グラフ構造学習(graph structure learning)は、特定のグラフデータセットに適応したグラフ構造を最適化することを目的とした、確立された問題である。 しかし、既存のモデルの一般的な制限は、基礎となる \textit{closed-world assumption}: テストグラフはトレーニンググラフと同じである。 この前提では、各グラフデータセットに対して、独立した構造学習モデルをスクラッチからトレーニングする必要がある。 これらの問題を緩和するために,オープンワールドにおけるグラフデータセットをまたいで一般化可能な普遍的な構造学習モデルを学ぶための新たな方向を探る。 まず,新しい問題設定の数学的定義を導入し,確率論的データ生成的側面からモデル定式化を説明する。 次に,1つのグラフ共有構造学習者と複数のグラフ固有GNNをコーディネートする汎用フレームワークを考案し,データセット間の最適なメッセージパストポロジの一般化可能なパターンを捉える。 十分に訓練された構造学習者は、微調整なしで、目に見えない対象グラフの適応的な構造を直接生成することができる。 多様なデータセットと様々な難解なクロスグラフ一般化プロトコルをまたいだ実験により,対象グラフのトレーニングがなくても,提案モデルが提案されている。 一 入力(非最適化)トポロジで訓練された表現的GNNを著しく上回り、 ii) 特定の対象グラフに対する適応構造を独立に最適化する最先端モデル、特に目標グラフでのトレーニングのための桁違いな加速度モデルと驚くほど同等の性能を発揮する。

Graph structure learning is a well-established problem that aims at optimizing graph structures adaptive to specific graph datasets to help message passing neural networks (i.e., GNNs) to yield effective and robust node embeddings. However, the common limitation of existing models lies in the underlying \textit{closed-world assumption}: the testing graph is the same as the training graph. This premise requires independently training the structure learning model from scratch for each graph dataset, which leads to prohibitive computation costs and potential risks for serious over-fitting. To mitigate these issues, this paper explores a new direction that moves forward to learn a universal structure learning model that can generalize across graph datasets in an open world. We first introduce the mathematical definition of this novel problem setting, and describe the model formulation from a probabilistic data-generative aspect. Then we devise a general framework that coordinates a single graph-shared structure learner and multiple graph-specific GNNs to capture the generalizable patterns of optimal message-passing topology across datasets. The well-trained structure learner can directly produce adaptive structures for unseen target graphs without any fine-tuning. Across diverse datasets and various challenging cross-graph generalization protocols, our experiments show that even without training on target graphs, the proposed model i) significantly outperforms expressive GNNs trained on input (non-optimized) topology, and ii) surprisingly performs on par with state-of-the-art models that independently optimize adaptive structures for specific target graphs, with notably orders-of-magnitude acceleration for training on the target graph.
翻訳日:2023-06-21 15:41:49 公開日:2023-06-20
# 画像分類における最近の普遍的逆摂動の比較評価

Comparative Evaluation of Recent Universal Adversarial Perturbations in Image Classification ( http://arxiv.org/abs/2306.11261v1 )

ライセンス: Link先を確認
Juanjuan Weng, Zhiming Luo, Dazhen Lin, Shaozi Li(参考訳) 敵のサンプルに対する畳み込みニューラルネットワーク(CNN)の脆弱性は最近、機械学習コミュニティで大きな注目を集めている。 さらに、近年の研究では、様々なCNNモデルにまたがる画像に依存しない、高度に伝達可能な普遍的敵対摂動(UAP)の存在を明らかにしている。 本調査では,画像分類タスクにおけるUAPの最近の進歩に主眼を置いている。 我々は、UAPをノイズベースの攻撃とジェネレータベースの攻撃という2つの異なるカテゴリに分類し、各カテゴリにおける代表的手法の包括的概要を提供する。 これらの手法の計算の詳細を提示することにより、UAPの学習に使用される様々な損失関数を要約する。 さらに,ノイズベースとジェネレータベースを含む一貫したトレーニングフレームワークにおいて,損失関数の包括的評価を行う。 この評価は、ブラックボックスおよびホワイトボックス攻撃、標的および非標的攻撃、および防御機構の検証を含む、幅広い攻撃設定をカバーしている。 定量的評価の結果,異なる損失関数の有効性,サロゲートcnnモデルの選択,トレーニングデータとデータサイズの影響,ユニバーサルアタッカー作成に関わるトレーニングフレームワークについて,いくつかの重要な知見が得られた。 最後に, 普遍的敵攻撃の今後の研究を促進するために, 摂動の可視化と今後の研究方向性について考察する。

The vulnerability of Convolutional Neural Networks (CNNs) to adversarial samples has recently garnered significant attention in the machine learning community. Furthermore, recent studies have unveiled the existence of universal adversarial perturbations (UAPs) that are image-agnostic and highly transferable across different CNN models. In this survey, our primary focus revolves around the recent advancements in UAPs specifically within the image classification task. We categorize UAPs into two distinct categories, i.e., noise-based attacks and generator-based attacks, thereby providing a comprehensive overview of representative methods within each category. By presenting the computational details of these methods, we summarize various loss functions employed for learning UAPs. Furthermore, we conduct a comprehensive evaluation of different loss functions within consistent training frameworks, including noise-based and generator-based. The evaluation covers a wide range of attack settings, including black-box and white-box attacks, targeted and untargeted attacks, as well as the examination of defense mechanisms. Our quantitative evaluation results yield several important findings pertaining to the effectiveness of different loss functions, the selection of surrogate CNN models, the impact of training data and data size, and the training frameworks involved in crafting universal attackers. Finally, to further promote future research on universal adversarial attacks, we provide some visualizations of the perturbations and discuss the potential research directions.
翻訳日:2023-06-21 15:41:20 公開日:2023-06-20
# アスペクトに基づく感情分析のための新しい非現実的手法

A novel Counterfactual method for aspect-based sentiment analysis ( http://arxiv.org/abs/2306.11260v1 )

ライセンス: Link先を確認
Dongming Wu, Lulu Wen, Chao Chen, Zhaoshu Shi(参考訳) Aspect-based-sentiment-analysis (ABSA)は、評価面の感情極性を分析する微粒な感情評価タスクである。 一般に、アスペクトの感情的な極性は、モデルの性能に大きな影響を与える、対応する意見表現の中に存在する。 この問題を軽減するために,これらの側面の意見表現を逆転する,新規でシンプルな対実データ拡張手法を提案する。 特に、意見表現を識別し、隠蔽するために積分勾配を計算する。 そして、逆表現極性を持つプロンプトを元のテキストに組み合わせ、最終的に事前学習言語モデル(PLM)T5を用いてマスクを予測する。 実験の結果,提案手法は3つのオープンソースデータセット,すなわちラップトップ,レストラン,MAMSにおいて,現在の手法よりも優れた結果が得られた。

Aspect-based-sentiment-analysis (ABSA) is a fine-grained sentiment evaluation task, which analyze the emotional polarity of the evaluation aspects. Generally, the emotional polarity of an aspect exists in the corresponding opinion expression, whose diversity has great impacts on model's performance. To mitigate this problem, we propose a novel and simple counterfactual data augmentation method that reverses the opinion expression of the aspects. Specially, the integrated gradients are calculated to identify and mask the opinion expression. Then, a prompt with the reverse expression polarity is combined to the original text, and a pre-trained language model (PLM), T5, is finally was employed to predict the masks. The experimental results show the proposed counterfactual data augmentation method perform better than current methods on three open-source datasets, i.e. Laptop, Restaurant and MAMS.
翻訳日:2023-06-21 15:40:40 公開日:2023-06-20
# ディープグラフカーネルポイントプロセス

Deep graph kernel point processes ( http://arxiv.org/abs/2306.11313v1 )

ライセンス: Link先を確認
Zheng Dong, Matthew Repasky, Xiuyuan Cheng, Yao Xie(参考訳) ポイントプロセスモデルは、異なるタイプのイベントが相互にどのように影響するかを反映したグラフ内で発生する非同期イベントの分析に広く使用される。 将来のイベントの時間と型を予測することは重要なタスクであり、グラフのサイズとトポロジーが問題の課題となる。 最近のニューラルポイントプロセスモデルでは、複雑なオブジェクト間の依存関係をキャプチャする可能性がある。 しかし、これらの手法はイベントの未フィルタリング履歴を利用し、対象イベントタイプ毎の強度計算における全てのイベントカテゴリを含む。 本研究では,潜在グラフトポロジに基づいてイベント相互作用を発生させるグラフポイント処理手法を提案する。 対応する非方向グラフには、イベントカテゴリと潜在的コントリビューション関係を示すエッジを表すノードがある。 次に、イベント間のトリガと抑制を特徴付ける新しいディープグラフカーネルを開発する。 固有の影響構造は、学習可能なカーネルを表現するために使用されるグラフニューラルネットワーク(GNN)モデルを介して組み込まれている。 GNNアプローチの計算効率により、我々のモデルは大きなグラフにスケールできる。 合成および実世界のデータに関する総合的な実験は、未来の事象を予測し、データ間の関係構造を明らかにするための最先端手法に対する我々のアプローチの優れた性能を示している。

Point process models are widely used to analyze asynchronous events occurring within a graph that reflect how different types of events influence one another. Predicting future events' times and types is a crucial task, and the size and topology of the graph add to the challenge of the problem. Recent neural point process models unveil the possibility of capturing intricate inter-event-category dependencies. However, such methods utilize an unfiltered history of events, including all event categories in the intensity computation for each target event type. In this work, we propose a graph point process method where event interactions occur based on a latent graph topology. The corresponding undirected graph has nodes representing event categories and edges indicating potential contribution relationships. We then develop a novel deep graph kernel to characterize the triggering and inhibiting effects between events. The intrinsic influence structures are incorporated via the graph neural network (GNN) model used to represent the learnable kernel. The computational efficiency of the GNN approach allows our model to scale to large graphs. Comprehensive experiments on synthetic and real-world data show the superior performance of our approach against the state-of-the-art methods in predicting future events and uncovering the relational structure among data.
翻訳日:2023-06-21 15:33:07 公開日:2023-06-20
# 密度推定のためのデータ構造

Data Structures for Density Estimation ( http://arxiv.org/abs/2306.11312v1 )

ライセンス: Link先を確認
Anders Aamand, Alexandr Andoni, Justin Y. Chen, Piotr Indyk, Shyam Narayanan, Sandeep Silwal(参考訳) 我々は,次の密度推定問題に対する統計的/計算的トレードオフについて検討する。 $k$ 分布 $v_1, \ldots, v_k$ が離散的領域で与えられると,$n$ が与えられ,分布へのアクセスをサンプリングする$p$ が与えられ,$p$ に「近い」$v_i$ が識別される。 主な結果は、最初のデータ構造で、$p$からのサンプルのサブリニア(n$)数が与えられたとき、$k$で$v_i$を識別します。 また、Acharya et al. (2018) のアルゴリズムの改良版も提供します。 後者のアルゴリズムの実験的評価は、与えられた精度を達成するのに必要な演算数を以前の作業と比較して大幅に減少させることを示した。

We study statistical/computational tradeoffs for the following density estimation problem: given $k$ distributions $v_1, \ldots, v_k$ over a discrete domain of size $n$, and sampling access to a distribution $p$, identify $v_i$ that is "close" to $p$. Our main result is the first data structure that, given a sublinear (in $n$) number of samples from $p$, identifies $v_i$ in time sublinear in $k$. We also give an improved version of the algorithm of Acharya et al. (2018) that reports $v_i$ in time linear in $k$. The experimental evaluation of the latter algorithm shows that it achieves a significant reduction in the number of operations needed to achieve a given accuracy compared to prior work.
翻訳日:2023-06-21 15:32:51 公開日:2023-06-20
# 低リソースエンドツーエンドアクセント音声認識のためのマルチパス訓練とクロス情報融合

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition ( http://arxiv.org/abs/2306.11309v1 )

ライセンス: Link先を確認
Xuefei Wang, Yanhua Long, Yijie Li, Haoran Wei(参考訳) 低リソースアクセント音声認識は、現在のasr技術が実際の応用で直面する重要な課題の1つである。 本研究では,大規模な非アクセントと限定的なアクセント学習データから得られた音響情報を両立させるコンフォーマーアーキテクチャAformerを提案する。 具体的には、一般的なエンコーダとアクセントエンコーダをAformerで設計し、補音情報を抽出する。 さらに,マルチパス方式でAformerを訓練し,汎用エンコーダとアクセントエンコーダの両方からの情報を効果的に組み合わせる3つの情報融合手法について検討する。 全ての実験はアクセント付き英語とマンダリンASRのタスクで行われている。 その結果,提案手法は,6つのドメイン内および非ドメインアクセント付きテストセットに対して,単語/文字誤り率の相対10.2%から24.5%で強いコンバータベースラインを上回った。

Low-resource accented speech recognition is one of the important challenges faced by current ASR technology in practical applications. In this study, we propose a Conformer-based architecture, called Aformer, to leverage both the acoustic information from large non-accented and limited accented training data. Specifically, a general encoder and an accent encoder are designed in the Aformer to extract complementary acoustic information. Moreover, we propose to train the Aformer in a multi-pass manner, and investigate three cross-information fusion methods to effectively combine the information from both general and accent encoders. All experiments are conducted on both the accented English and Mandarin ASR tasks. Results show that our proposed methods outperform the strong Conformer baseline by relative 10.2% to 24.5% word/character error rate reduction on six in-domain and out-of-domain accented test sets.
翻訳日:2023-06-21 15:32:33 公開日:2023-06-20
# 受動保証付きデモから可変インピーダンススキルを学習する

Learning Variable Impedance Skills from Demonstrations with Passivity Guarantee ( http://arxiv.org/abs/2306.11308v1 )

ライセンス: Link先を確認
Yu Zhang, Long Cheng, Xiuze Xia, and Haoyu Zhang(参考訳) ロボットは職場だけでなく家庭にも配備されるようになっている。 ロボットによる操作タスクの効果的実行は、接触力による可変インピーダンス制御に依存する。 さらに、ロボットは、動的環境において異なるロボットタスクによって示されるかなりのバリエーションを扱うために適応能力を持つべきである。 本稿では,力覚と運動情報を統合し,可変インピーダンス制御を実現するための学習支援フレームワークを提案する。 提案手法は, 人間の実演からの全剛性行列を推定し, 知覚力と運動情報を組み合わせて非パラメトリック法を用いてモデルを作成する。 このモデルにより、ロボットは、状態依存剛性プロファイルを用いて、新しいタスク条件に適切に応答しながら、実証されたタスクを再現することができる。 さらに, 学習剛性を利用して透過性を確保するため, タンク型可変インピーダンス制御手法を提案する。 提案手法は2つの仮想変数剛性システムを用いて評価した。 第1の評価は,従来手法と比較して剛性推定手法の方が従来手法よりも頑健性が高いことを示し,第2評価では,従来の可変インピーダンス制御手法よりも新しいタンクベースアプローチの方が容易に実装できることを示す。

Robots are increasingly being deployed not only in workplaces but also in households. Effectively execute of manipulation tasks by robots relies on variable impedance control with contact forces. Furthermore, robots should possess adaptive capabilities to handle the considerable variations exhibited by different robotic tasks in dynamic environments, which can be obtained through human demonstrations. This paper presents a learning-from-demonstration framework that integrates force sensing and motion information to facilitate variable impedance control. The proposed approach involves the estimation of full stiffness matrices from human demonstrations, which are then combined with sensed forces and motion information to create a model using the non-parametric method. This model allows the robot to replicate the demonstrated task while also responding appropriately to new task conditions through the use of the state-dependent stiffness profile. Additionally, a novel tank based variable impedance control approach is proposed to ensure passivity by using the learned stiffness. The proposed approach was evaluated using two virtual variable stiffness systems. The first evaluation demonstrates that the stiffness estimated approach exhibits superior robustness compared to traditional methods when tested on manual datasets, and the second evaluation illustrates that the novel tank based approach is more easily implementable compared to traditional variable impedance control approaches.
翻訳日:2023-06-21 15:32:17 公開日:2023-06-20
# 拡張属性に基づくクラスタリングのためのグラフ変換:革新的グラフ変換法

Transforming Graphs for Enhanced Attribute-Based Clustering: An Innovative Graph Transformer Method ( http://arxiv.org/abs/2306.11307v1 )

ライセンス: Link先を確認
Shuo Han, Jiachegn Liu, Jiayun Wu, Yinan Chen, Li Tao(参考訳) グラフ表現学習(GRL)は、グラフ構造化データのより深い理解とグラフクラスタリングの支援を可能にする、影響力のある方法論である。 最近の注目メカニズムは、もともと自然言語処理(NLP)の成果物であり、グラフ学習の領域に導入され、研究動向の顕著な変化を先導している。 その結果、グラフクラスタリングタスクのツールとしてグラフアテンションネットワーク(gats)とグラフアテンションオートエンコーダが好まれている。 しかし、これらの手法は主に局所的注意機構を採用しており、グラフ内のノード間の複雑なグローバル依存関係を理解する能力を抑えている。 そこで本研究では,グラフクラスタリングのためのグラフトランスフォーマーオートエンコーダ(gtagc)という革新的な手法を提案する。 Graph Auto-EncoderをGraph Transformerでマージすることで、GTAGCはノード間のグローバルな依存関係をキャプチャできる。 この統合はグラフ表現を増幅し、局所注意機構によって与えられる制約を克服する。 GTAGCのアーキテクチャはグラフの埋め込み、オートエンコーダ構造内のグラフ変換器の統合、クラスタリングコンポーネントを含んでいる。 グラフ埋め込みとクラスタリングを戦略的に代替し、グラフのグローバル構造情報を保存しながら、クラスタリングタスク用にグラフトランスフォーマーを調整します。 多様なベンチマークデータセットに関する広範な実験を通じて、GTAGCは既存の最先端グラフクラスタリング手法よりも優れたパフォーマンスを示した。 この先駆的なアプローチは、グラフクラスタリングの分野への新たな貢献であり、将来の研究において有望な道を歩む道を開いた。

Graph Representation Learning (GRL) is an influential methodology, enabling a more profound understanding of graph-structured data and aiding graph clustering, a critical task across various domains. The recent incursion of attention mechanisms, originally an artifact of Natural Language Processing (NLP), into the realm of graph learning has spearheaded a notable shift in research trends. Consequently, Graph Attention Networks (GATs) and Graph Attention Auto-Encoders have emerged as preferred tools for graph clustering tasks. Yet, these methods primarily employ a local attention mechanism, thereby curbing their capacity to apprehend the intricate global dependencies between nodes within graphs. Addressing these impediments, this study introduces an innovative method known as the Graph Transformer Auto-Encoder for Graph Clustering (GTAGC). By melding the Graph Auto-Encoder with the Graph Transformer, GTAGC is adept at capturing global dependencies between nodes. This integration amplifies the graph representation and surmounts the constraints posed by the local attention mechanism. The architecture of GTAGC encompasses graph embedding, integration of the Graph Transformer within the autoencoder structure, and a clustering component. It strategically alternates between graph embedding and clustering, thereby tailoring the Graph Transformer for clustering tasks, whilst preserving the graph's global structural information. Through extensive experimentation on diverse benchmark datasets, GTAGC has exhibited superior performance against existing state-of-the-art graph clustering methodologies. This pioneering approach represents a novel contribution to the field of graph clustering, paving the way for promising avenues in future research.
翻訳日:2023-06-21 15:31:55 公開日:2023-06-20
# 逐次ビデオコンパイルのためのプログレッシブニューラル表現

Progressive Neural Representation for Sequential Video Compilation ( http://arxiv.org/abs/2306.11305v1 )

ライセンス: Link先を確認
Haeyong Kang, DaHyun Kim, Jaehong Yoon, Sung Ju Hwang, and Chang D Yoo(参考訳) NIR(Neural Implicit Representations)は、複雑で高次元のデータを表現する能力によって近年注目されている。 個々のデータポイントの保存と操作を必要とする明示的な表現とは異なり、暗黙的な表現は、データポイント自体を明示的に表現することなく、学習されたマッピング機能を通じて情報をキャプチャする。 彼らはしばしば、符号化/復号速度を加速するためにトレーニング後にニューラルネットワークをプルークまたは量子化するが、従来の方法では学習した表現を新しいビデオに転送できない。 本研究は,現在セッションの映像のみにアクセス可能なビデオが連続的に到着するにつれて,暗黙的な映像表現の連続的な拡張について研究する。 そこで,本研究では,宝くじチケット仮説に基づくスーパーネットからの適応的なサブ構造を見出す,新しいニューラルビデオ表現であるprogressive neural representation (pnr)を提案する。 各トレーニングセッションでは,従来のサブネットワークの知識を伝達し,過去のサブネットワークの重みを保ちながら,現在のビデオの表現を学習する。 したがって、以前のビデオでNIRの復号能力(すなわち破滅的な忘れ方)をほぼ完全に保存することができる。 本稿では,新しいUVG8/17ビデオシーケンスベンチマークにおいて,ニューラルシーケンシャルビデオ表現に対するPNRの有効性を示す。

Neural Implicit Representations (NIR) have gained significant attention recently due to their ability to represent complex and high-dimensional data. Unlike explicit representations, which require storing and manipulating individual data points, implicit representations capture information through a learned mapping function without explicitly representing the data points themselves. They often prune or quantize neural networks after training to accelerate encoding/decoding speed, yet we find that conventional methods fail to transfer learned representations to new videos. This work studies the continuous expansion of implicit video representations as videos arrive sequentially over time, where the model can only access the videos from the current session. We propose a novel neural video representation, Progressive Neural Representation (PNR), that finds an adaptive substructure from the supernet for a given video based on Lottery Ticket Hypothesis. At each training session, our PNR transfers the learned knowledge of the previously obtained subnetworks to learn the representation of the current video while keeping the past subnetwork weights intact. Therefore it can almost perfectly preserve the decoding ability (i.e., catastrophic forgetting) of the NIR on previous videos. We demonstrate the effectiveness of our proposed PNR on the neural sequential video representation compilation on the novel UVG8/17 video sequence benchmarks.
翻訳日:2023-06-21 15:31:29 公開日:2023-06-20
# 高速組立のための関数空間におけるモード間のトラバース

Traversing Between Modes in Function Space for Fast Ensembling ( http://arxiv.org/abs/2306.11304v1 )

ライセンス: Link先を確認
EungGu Yun, Hyungi Lee, Giung Nam, Juho Lee(参考訳) ディープアンサンブルは、ディープニューラルネットワークの性能を改善するためのシンプルだが強力な方法である。 このモチベーションの下で、近年のモード接続に関する研究により、アンサンブルのパラメータは低損失部分空間で接続され、それらの部分空間で効率的にアンサンブルパラメータを収集できることが示されている。 これは、アンサンブルを効率的にトレーニングする方法を提供するが、推論のために、複数のフォワードパスは、まだ全てのアンサンブルパラメータを使用して実行されるべきである。 本研究では,コスト削減のための新しい枠組みを提案する。 ニューラルネットワークの2つのモードを接続する低損失部分空間が与えられると、低損失部分空間のある点で評価された元のニューラルネットワークの出力を予測するニューラルネットワークを新たに構築する。 と呼ばれる追加のニューラルネットワークは、元のネットワークから最小限の機能を取り、元のネットワークを前方通過することなく、低損失のサブスペースの出力を予測する軽量ネットワークである。 このようなブリッジネットワークを実際にトレーニングし、ブリッジネットワークの助けを借りて推論コストを大幅に削減できることを実証的に実証する。

Deep ensemble is a simple yet powerful way to improve the performance of deep neural networks. Under this motivation, recent works on mode connectivity have shown that parameters of ensembles are connected by low-loss subspaces, and one can efficiently collect ensemble parameters in those subspaces. While this provides a way to efficiently train ensembles, for inference, multiple forward passes should still be executed using all the ensemble parameters, which often becomes a serious bottleneck for real-world deployment. In this work, we propose a novel framework to reduce such costs. Given a low-loss subspace connecting two modes of a neural network, we build an additional neural network that predicts the output of the original neural network evaluated at a certain point in the low-loss subspace. The additional neural network, which we call a "bridge", is a lightweight network that takes minimal features from the original network and predicts outputs for the low-loss subspace without forward passes through the original network. We empirically demonstrate that we can indeed train such bridge networks and significantly reduce inference costs with the help of bridge networks.
翻訳日:2023-06-21 15:31:06 公開日:2023-06-20
# 疎観測環境におけるマルチエージェント強化学習による逆探索と追跡

Adversarial Search and Track with Multiagent Reinforcement Learning in Sparsely Observable Environment ( http://arxiv.org/abs/2306.11301v1 )

ライセンス: Link先を確認
Zixuan Wu, Sean Ye, Manisha Natarajan, Letian Chen, Rohan Paleja, Matthew C. Gombolay(参考訳) 本稿では,動的探索エージェントの探索・追跡(S&T)問題について検討し,その位置に関する時間的・空間的知識の少ない敵対的回避エージェントを捕捉する。 この領域は、大きな空間が敵の視線を緩やかに観察し、探索エージェントに対する報酬を軽視するため、伝統的な強化学習(RL)アプローチに挑戦する。 さらに、相手の行動は、検索エージェントに対して反抗的であり、検索エージェントがポリシーを改善するにつれて、トレーニング中のRLのデータ分散シフトを引き起こす。 本稿では,新たなフィルタリングモジュールを用いて,推定対向位置情報を補足し,チームの方針を効果的に学習できる,識別可能なマルチエージェントRL(MARL)アーキテクチャを提案する。 本アルゴリズムは,従来の知識と動きモデルから得られる情報のバランスを学習し,データ分散シフトに対して回復力を保つとともに,検出率を46%増加させ,すべてのベースライン法より優れる。

We study a search and tracking (S&T) problem for a team of dynamic search agents to capture an adversarial evasive agent with only sparse temporal and spatial knowledge of its location in this paper. The domain is challenging for traditional Reinforcement Learning (RL) approaches as the large space leads to sparse observations of the adversary and in turn sparse rewards for the search agents. Additionally, the opponent's behavior is reactionary to the search agents, which causes a data distribution shift for RL during training as search agents improve their policies. We propose a differentiable Multi-Agent RL (MARL) architecture that utilizes a novel filtering module to supplement estimated adversary location information and enables the effective learning of a team policy. Our algorithm learns how to balance information from prior knowledge and a motion model to remain resilient to the data distribution shift and outperforms all baseline methods with a 46% increase of detection rate.
翻訳日:2023-06-21 15:30:48 公開日:2023-06-20
# rs5m: リモートセンシング視覚言語基礎モデルのための大規模視覚言語データセット

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model ( http://arxiv.org/abs/2306.11300v1 )

ライセンス: Link先を確認
Zilun Zhang, Tiancheng Zhao, Yulong Guo, Jianwei Yin(参考訳) 画像テキストペアリングデータを利用した事前学習型ビジョン・ランゲージ基礎モデルでは、様々な下流タスクにおいて顕著な結果が得られた。 重要な課題は、共通オブジェクト上でトレーニングされた既存の大規模事前学習vlmを使用して、ドメイン関連のダウンストリームタスクを達成するためにドメイン固有の転送を実行する方法だ。 本稿では,ドメインファウンデーションモデル(dfm)を含む新しいフレームワークを提案し,汎用ファウンデーションモデル(gfm)とドメイン固有のダウンストリームタスクのギャップを橋渡しする。 さらに,500万のrs画像と英語記述を持つ,リモートセンシング(rs)分野のrs5mにおいて,画像テキスト対のデータセットを提案する。 データセットは、公開されている画像テキストペアデータセットをフィルタリングし、ラベルのみのRSデータセットを予めトレーニングされたVLMでキャプションすることで得られる。 これらは、最初の大規模RS画像テキストペアデータセットである。 さらに, DFM の実装のために, RS5M 上でパラメータ効率の良いファインチューニング手法をいくつか試した。 実験の結果,提案するデータセットは様々なタスクに非常に有効であり,ゼロショット分類タスクにおいて8 \% \sim 16 \%$ でベースラインを改善し,視覚言語検索と意味的局所化タスクの両方において良好な結果を得ることができた。 最後に、RS5Mを用いてRS安定拡散モデルをトレーニングし、データセットのより多くのユースケースを明らかにした。

Pre-trained Vision-Language Foundation Models utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain Foundation Model (DFM), bridging the gap between the General Foundation Model (GFM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DFM. Experimental results show that our proposed dataset are highly effective for various tasks, improving upon the baseline by $8 \% \sim 16 \%$ in zero-shot classification tasks, and obtaining good results in both Vision-Language Retrieval and Semantic Localization tasks. Finally, we show successful results of training the RS Stable Diffusion model using the RS5M, uncovering more use cases of the dataset.
翻訳日:2023-06-21 15:30:30 公開日:2023-06-20
# メタバースのための分散量子フェデレーション学習:分析,設計,実装

Decentralized Quantum Federated Learning for Metaverse: Analysis, Design and Implementation ( http://arxiv.org/abs/2306.11297v1 )

ライセンス: Link先を確認
Dev Gurung, Shiva Raj Pokhrel, Gang Li(参考訳) 人々が対話し、社交し、遊び、ビジネスを遂行できる仮想世界であるメタバースの登場に伴い、基盤となるシステムが透明で安全で信頼性の高いものであることを保証することが重要になっている。 そこで我々は,分散的で信頼性の高い量子連合学習(QFL)フレームワークを開発した。 提案されたQFLは、ブロックチェーンのパワーを活用して、サイバー攻撃や詐欺に対して堅牢なセキュアで透明なシステムを構築する。 さらに、分散qflシステムは、集中型サーバベースのアプローチに関連するリスクに対処する。 大規模実験と分析を行い,分散環境での古典的連合学習(cfl)とqflを評価し,提案する設計の実用性とメリットを実証する。 我々の理論分析と議論はメタバースに不可欠な真の分散金融システムを開発する。 さらに、メタバースオブザーバと世界モデルを用いたハイブリッドメタバースにおけるブロックチェーンベースのQFLの適用について述べる。 実装の詳細とコードは公開されています。

With the emerging developments of the Metaverse, a virtual world where people can interact, socialize, play, and conduct their business, it has become critical to ensure that the underlying systems are transparent, secure, and trustworthy. To this end, we develop a decentralized and trustworthy quantum federated learning (QFL) framework. The proposed QFL leverages the power of blockchain to create a secure and transparent system that is robust against cyberattacks and fraud. In addition, the decentralized QFL system addresses the risks associated with a centralized server-based approach. With extensive experiments and analysis, we evaluate classical federated learning (CFL) and QFL in a distributed setting and demonstrate the practicality and benefits of the proposed design. Our theoretical analysis and discussions develop a genuinely decentralized financial system essential for the Metaverse. Furthermore, we present the application of blockchain-based QFL in a hybrid metaverse powered by a metaverse observer and world model. Our implementation details and code are publicly available 1.
翻訳日:2023-06-21 15:30:04 公開日:2023-06-20
# 生成AIにおける反トラストとプラットフォームパワーの探求

Exploring Antitrust and Platform Power in Generative AI ( http://arxiv.org/abs/2306.11342v1 )

ライセンス: Link先を確認
Konrad Kollnig and Qian Li(参考訳) いくつかのデジタル技術企業における権力集中は、学術的・非学術的な議論への関心が高まっている。 この議論に対する最も注目すべき貢献の1つは、リナ・カーンの『Amazon's Antitrust Paradox』である。 この作品の中でkhanは、amazonがオンライン小売における支配権を体系的に行使し、ライバルを排除し、その後、市場価格を請求したと主張している。 この業績は、最も影響力のある反トラスト組織の一つである連邦取引委員会(FTC)の議長にカーンが指名されたことに寄与した。 今日、米国とヨーロッパで進行中の反トラスト訴訟には、apple、google/alphabet、facebook/metaなどの大手テクノロジー企業が含まれる。 生成AIの世界では、私たちは再び、同じ企業が技術進歩をリードし、他の企業が競争する余地はほとんど残っていないのを目撃しています。 本稿では、反トラスト法の観点から、生成AIを支える技術スタックにおけるこれらの企業の市場優位性について考察する。

The concentration of power in a few digital technology companies has become a subject of increasing interest in both academic and non-academic discussions. One of the most noteworthy contributions to the debate is Lina Khan's Amazon's Antitrust Paradox. In this work, Khan contends that Amazon has systematically exerted its dominance in online retail to eliminate competitors and subsequently charge above-market prices. This work contributed to Khan's appointment as the chair of the US Federal Trade Commission (FTC), one of the most influential antitrust organizations. Today, several ongoing antitrust lawsuits in the US and Europe involve major technology companies like Apple, Google/Alphabet, and Facebook/Meta. In the realm of generative AI, we are once again witnessing the same companies taking the lead in technological advancements, leaving little room for others to compete. This article examines the market dominance of these corporations in the technology stack behind generative AI from an antitrust law perspective.
翻訳日:2023-06-21 15:24:31 公開日:2023-06-20
# MSVD-Indonesian: インドネシアにおけるマルチモーダルビデオテキストタスクのベンチマーク

MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian ( http://arxiv.org/abs/2306.11341v1 )

ライセンス: Link先を確認
Willy Fitra Hendria(参考訳) ビデオデータとテキストデータのマルチモーダル学習は、テキスト・ツー・ビデオ検索、ビデオ・ツー・テキスト検索、ビデオキャプションなど、様々な研究課題において多くの研究者から注目を集めている。 これらの課題に対して多くのアルゴリズムが提案されているが、そのほとんどは英語のデータセットに基づいて開発されている。 インドネシア語は世界有数の言語であるにもかかわらず、インドネシア語文によるマルチモーダルビデオテキストの研究の進展は、おそらく公開ベンチマークデータセットが欠如しているため、まだ未検討のままである。 この問題に対処するために,msvdデータセットからインドネシア文へ英語文を翻訳することで,インドネシア初の公開ビデオテキストデータセットを構築する。 このデータセットを用いて、英語のビデオテキストデータセット用に開発されたニューラルネットワークモデルを、テキストからビデオへの検索、ビデオからテキストへの検索、ビデオキャプションの3つのタスクでトレーニングする。 最近のニューラルネットワークに基づくビデオテキストタスクのアプローチでは、主に英語の視覚言語データセットで事前学習された特徴抽出器が使用されることが多い。 インドネシア語文による事前学習リソースの可用性は比較的限られているため,これらのアプローチの適用性は依然として疑問視されている。 プリトレーニングリソースの欠如を克服するために,英語データセットにプリトレーニングされた特徴抽出器を用いて言語間転送学習を行い,インドネシアのデータセット上でモデルを微調整する。 実験結果から,本手法は全メトリクスにおける3つのタスクのパフォーマンス向上に役立つことが示された。 最後に,インドネシアのマルチモーダルビデオテキストタスクのさらなる研究を促すために,我々のデータセットを用いた将来的な研究について論じる。 私たちはデータセットと実験結果がコミュニティに貴重な貢献をもたらすと信じています。 データセットはGitHubから入手可能です。

Multimodal learning on video and text data has been receiving growing attention from many researchers in various research tasks, including text-to-video retrieval, video-to-text retrieval, and video captioning. Although many algorithms have been proposed for those challenging tasks, most of them are developed on English language datasets. Despite Indonesian being one of the most spoken languages in the world, the research progress on the multimodal video-text with Indonesian sentences is still under-explored, likely due to the absence of the public benchmark dataset. To address this issue, we construct the first public Indonesian video-text dataset by translating English sentences from the MSVD dataset to Indonesian sentences. Using our dataset, we then train neural network models which were developed for the English video-text dataset on three tasks, i.e., text-to-video retrieval, video-to-text retrieval, and video captioning. The recent neural network-based approaches to video-text tasks often utilized a feature extractor that is primarily pretrained on an English vision-language dataset. Since the availability of the pretraining resources with Indonesian sentences is relatively limited, the applicability of those approaches to our dataset is still questionable. To overcome the lack of pretraining resources, we apply cross-lingual transfer learning by utilizing the feature extractors pretrained on the English dataset, and we then fine-tune the models on our Indonesian dataset. Our experimental results show that this approach can help to improve the performance for the three tasks on all metrics. Finally, we discuss potential future works using our dataset, inspiring further research in the Indonesian multimodal video-text tasks. We believe that our dataset and our experimental results could provide valuable contributions to the community. Our dataset is available on GitHub.
翻訳日:2023-06-21 15:24:15 公開日:2023-06-20
# 主モデルを改善するサブモデルの拡張

Augmenting Sub-model to Improve Main Model ( http://arxiv.org/abs/2306.11339v1 )

ライセンス: Link先を確認
Byeongho Heo, Taekyung Kim, Sangdoo Yun, Dongyoon Han(参考訳) 画像分類は訓練技術の発展により改善されている。 しかし、これらの手法は正規化の強さのバランスをとるために注意深いパラメータチューニングを必要とし、その潜在的な利点を制限している。 本稿では,augmenting sub-model (augsub) と呼ばれる正規化を用いた新しい手法を提案する。 AugSubはメインモデルとサブモデルという2つのモデルで構成されている。 メインモデルは従来のトレーニングレシピを採用しているが、サブモデルは追加の正規化の利点を利用する。 augsubは、自己蒸留損失と同様の緩和損失関数によって副作用を緩和することでこれを達成する。 ドロップアウト,ドロップパス,ランダムマスキングの3つの手法を用いてAugSubの有効性を示す。 分析の結果,augsubは性能が向上し,トレーニング損失は通常のトレーニングよりもさらに高速に収束することが示された。 この3つのうち augmask は性能とコスト効率の点で最も実用的な方法である。 DeiT-III, ResNet, MAEファインチューニング, Swin Transformerなど,さまざまなトレーニングレシピでAugMaskを検証する。 その結果、AugMaskは一貫して大きなパフォーマンス向上をもたらしている。 AugSubは、様々なトレーニングレシピの下で追加の正規化を導入するための実用的で効果的なソリューションを提供する。 コードは \url{https://github.com/naver-ai/augsub} で入手できる。

Image classification has improved with the development of training techniques. However, these techniques often require careful parameter tuning to balance the strength of regularization, limiting their potential benefits. In this paper, we propose a novel way to use regularization called Augmenting Sub-model (AugSub). AugSub consists of two models: the main model and the sub-model. While the main model employs conventional training recipes, the sub-model leverages the benefit of additional regularization. AugSub achieves this by mitigating adverse effects through a relaxed loss function similar to self-distillation loss. We demonstrate the effectiveness of AugSub with three drop techniques: dropout, drop-path, and random masking. Our analysis shows that all AugSub improves performance, with the training loss converging even faster than regular training. Among the three, AugMask is identified as the most practical method due to its performance and cost efficiency. We further validate AugMask across diverse training recipes, including DeiT-III, ResNet, MAE fine-tuning, and Swin Transformer. The results show that AugMask consistently provides significant performance gain. AugSub provides a practical and effective solution for introducing additional regularization under various training recipes. Code is available at \url{https://github.com/naver-ai/augsub}.
翻訳日:2023-06-21 15:23:46 公開日:2023-06-20
# FDInet:特徴歪指数によるDNNモデル抽出に対する保護

FDInet: Protecting against DNN Model Extraction via Feature Distortion Index ( http://arxiv.org/abs/2306.11338v1 )

ライセンス: Link先を確認
Hongwei Yao, Zheng Li, Haiqin Weng, Feng Xue, Kui Ren, and Zhan Qin(参考訳) 機械学習・アズ・ア・サービス(MLaaS)プラットフォームはアクセシビリティ、コスト効率、スケーラビリティ、迅速な開発能力によって人気を集めている。 しかし、最近の研究は、MLaaSにおけるクラウドベースのモデルによる抽出攻撃の脆弱性を強調している。 本稿では,ディープニューラルネットワーク(DNN)モデルの特徴分布を利用した新しい防御機構であるFDINETを紹介する。 具体的には、相手のクエリから特徴分布を解析することにより、これらのクエリの特徴分布がモデルのトレーニングセットから逸脱することを明らかにする。 このキー観測に基づいて,受信クエリの特徴分布偏差を定量的に測定する指標である特徴歪指数(fdi)を提案する。 提案するFDINETはFDIを利用してバイナリ検出器を訓練し、FDI類似性を利用して分散抽出攻撃から衝突する敵を識別する。 我々は4つのベンチマークデータセットと4つの人気のあるモデルアーキテクチャに対する6つの最先端抽出攻撃に対してFDINETを評価するための広範な実験を行った。 FDINETは,DFMEとDASTの100%検出精度を達成し,モデル抽出に極めて有効であることが実証された。 FDINETは非常に効率的で、GTSRBでは50クエリで平均96.08%の信頼性を持つ抽出アラームを発生させる。 FDINETは、91%を超える精度で衝突する敵を識別する能力を示している。 さらに、2種類のアダプティブアタックを検出する能力も示す。

Machine Learning as a Service (MLaaS) platforms have gained popularity due to their accessibility, cost-efficiency, scalability, and rapid development capabilities. However, recent research has highlighted the vulnerability of cloud-based models in MLaaS to model extraction attacks. In this paper, we introduce FDINET, a novel defense mechanism that leverages the feature distribution of deep neural network (DNN) models. Concretely, by analyzing the feature distribution from the adversary's queries, we reveal that the feature distribution of these queries deviates from that of the model's training set. Based on this key observation, we propose Feature Distortion Index (FDI), a metric designed to quantitatively measure the feature distribution deviation of received queries. The proposed FDINET utilizes FDI to train a binary detector and exploits FDI similarity to identify colluding adversaries from distributed extraction attacks. We conduct extensive experiments to evaluate FDINET against six state-of-the-art extraction attacks on four benchmark datasets and four popular model architectures. Empirical results demonstrate the following findings FDINET proves to be highly effective in detecting model extraction, achieving a 100% detection accuracy on DFME and DaST. FDINET is highly efficient, using just 50 queries to raise an extraction alarm with an average confidence of 96.08% for GTSRB. FDINET exhibits the capability to identify colluding adversaries with an accuracy exceeding 91%. Additionally, it demonstrates the ability to detect two types of adaptive attacks.
翻訳日:2023-06-21 15:23:26 公開日:2023-06-20
# 構造化状態抽象化によるナビゲーションのための協調的マルチエージェント学習

Cooperative Multi-Agent Learning for Navigation via Structured State Abstraction ( http://arxiv.org/abs/2306.11336v1 )

ライセンス: Link先を確認
Mohamed K. Abdelaziz, Mohammed S. Elbamby, Sumudu Samarakoon, Mehdi Bennis(参考訳) ナビゲーションのための協調型マルチエージェント強化学習(MARL)により、エージェントが協調してナビゲーション目標を達成することができる。 エージェントは緊急通信を使用して通信プロトコルを学び、ナビゲーションタスクを達成するために必要な情報を調整し、共有する。 創発的なコミュニケーションでは、事前定義された使用規則のないシンボルが交換され、トレーニングを通じて意味と構文が現れる。 MARL環境における通信プロトコルとともにナビゲーションポリシーを学ぶことは、探索すべき巨大な状態空間のために非常に複雑である。 この複雑さに対処するために、ナビゲーションタスクに参加するエージェント間で適応状態空間抽象化と通信プロトコルを共同で学習する、新しいニューラルネットワークアーキテクチャを提案する。 目標は、政策性能を劣化させることなく、探索すべき状態空間のサイズを大幅に削減する適応的な抽象化器を考案することである。 シミュレーションの結果,提案手法は,生の状態や固定状態の抽象化を用いた場合と比較して,達成可能な報酬の観点から,トレーニングの繰り返しを少なくすることができることがわかった。 さらに,訓練中にコミュニケーションプロトコルが出現し,より少ない訓練イテレーションでエージェントがより良い方針を学習できることを示した。

Cooperative multi-agent reinforcement learning (MARL) for navigation enables agents to cooperate to achieve their navigation goals. Using emergent communication, agents learn a communication protocol to coordinate and share information that is needed to achieve their navigation tasks. In emergent communication, symbols with no pre-specified usage rules are exchanged, in which the meaning and syntax emerge through training. Learning a navigation policy along with a communication protocol in a MARL environment is highly complex due to the huge state space to be explored. To cope with this complexity, this work proposes a novel neural network architecture, for jointly learning an adaptive state space abstraction and a communication protocol among agents participating in navigation tasks. The goal is to come up with an adaptive abstractor that significantly reduces the size of the state space to be explored, without degradation in the policy performance. Simulation results show that the proposed method reaches a better policy, in terms of achievable rewards, resulting in fewer training iterations compared to the case where raw states or fixed state abstraction are used. Moreover, it is shown that a communication protocol emerges during training which enables the agents to learn better policies within fewer training iterations.
翻訳日:2023-06-21 15:23:03 公開日:2023-06-20
# rm-prt: ロボット操作シミュレータとプログレッシブ推論タスクを用いたベンチマーク

RM-PRT: Realistic Robotic Manipulation Simulator and Benchmark with Progressive Reasoning Tasks ( http://arxiv.org/abs/2306.11335v1 )

ライセンス: Link先を確認
Pengzhen Ren, Kaidong Zhang, Hetao Zheng, Zixuan Li, Yuhang Wen, Fengda Zhu, Mas Ma, Xiaodan Liang(参考訳) 近年、ChatGPTやGPT-4のような訓練済みの大規模言語モデル(LLM)が出現し、マシンの自然言語理解能力が大幅に向上した。 このブレークスルーにより、これらのオープンソースのLLMを統合型ロボットシミュレータ環境にシームレスに統合し、ロボットが人間の自然言語命令を正確に理解し実行できるようにする。 この目的のために,本研究では,現実的なロボット操作シミュレータを導入し,プログレッシブ推論タスクを用いたロボットマニピュレーション(RM-PRT)ベンチマークを構築する。 具体的には、RM-PRTベンチマークは、ロボット操作の詳細な評価のためにChatGPTが生成した82のカテゴリ、2023のオブジェクト、および15Kの自然言語命令を含む、Unreal Engine 5に基づく新しい高忠実なデジタルツインシーンを構築する。 本稿では,自然言語命令を含むマルチモーダルプロンプトを入力とし,移動と位置遷移を含む動作を自動的に出力するRM-PRTベンチマークの汎用パイプラインを提案する。 本研究では,4つの自然言語理解タスクを段階的推論レベルで設定し,ロボットが自然言語の指示を理解する能力を評価する。 さらに、命令理解と生成品質における10種類のLLMの違いと利点を総合的に分析し、比較する。 新しいシミュレータとベンチマークにより、言語誘導型ロボット操作の今後の研究が促進されることを願っている。 プロジェクトWebサイト: https://necolizer.github.io/RM-PRT/。

Recently, the advent of pre-trained large-scale language models (LLMs) like ChatGPT and GPT-4 have significantly advanced the machine's natural language understanding capabilities. This breakthrough has allowed us to seamlessly integrate these open-source LLMs into a unified robot simulator environment to help robots accurately understand and execute human natural language instructions. To this end, in this work, we introduce a realistic robotic manipulation simulator and build a Robotic Manipulation with Progressive Reasoning Tasks (RM-PRT) benchmark on this basis. Specifically, the RM-PRT benchmark builds a new high-fidelity digital twin scene based on Unreal Engine 5, which includes 782 categories, 2023 objects, and 15K natural language instructions generated by ChatGPT for a detailed evaluation of robot manipulation. We propose a general pipeline for the RM-PRT benchmark that takes as input multimodal prompts containing natural language instructions and automatically outputs actions containing the movement and position transitions. We set four natural language understanding tasks with progressive reasoning levels and evaluate the robot's ability to understand natural language instructions in two modes of adsorption and grasping. In addition, we also conduct a comprehensive analysis and comparison of the differences and advantages of 10 different LLMs in instruction understanding and generation quality. We hope the new simulator and benchmark will facilitate future research on language-guided robotic manipulation. Project website: https://necolizer.github.io/RM-PRT/ .
翻訳日:2023-06-21 15:22:44 公開日:2023-06-20
# DepthとDOFがデフォーカスブルーの検出器を改良

Depth and DOF Cues Make A Better Defocus Blur Detector ( http://arxiv.org/abs/2306.11334v1 )

ライセンス: Link先を確認
Yuxin Jin, Ming Qian, Jincheng Xiong, Nan Xue, Gui-Song Xia(参考訳) Defocus blur detection(DBD)は、画像内のin-focus領域とout-of-focus領域を分離する。 以前のアプローチでは、フォーカスの偏差の原因となる内部要因を考慮しないため、フォーカスの偏差領域を誤って誤認していた。 深度,深度,深度(DOF)の法則にヒントを得て,深度と深度を暗黙的に組み込んだD-DFFNetという手法を提案する。 これにより、モデルはより自然な方法でデフォーカス現象を理解することができる。 本手法は,事前学習した単分子深度推定モデルから深度知識を得るための深度特徴蒸留法を提案し,DOFと深度の関係を理解するためにDOFエッジロスを用いる。 提案手法は,公開ベンチマークと新たに収集した大規模ベンチマークデータセットEBDにおいて,最先端の手法よりも優れている。 ソースコードとEBDデータセットは、https:github.com/yuxinjin-whu/D-DFFNetで入手できる。

Defocus blur detection (DBD) separates in-focus and out-of-focus regions in an image. Previous approaches mistakenly mistook homogeneous areas in focus for defocus blur regions, likely due to not considering the internal factors that cause defocus blur. Inspired by the law of depth, depth of field (DOF), and defocus, we propose an approach called D-DFFNet, which incorporates depth and DOF cues in an implicit manner. This allows the model to understand the defocus phenomenon in a more natural way. Our method proposes a depth feature distillation strategy to obtain depth knowledge from a pre-trained monocular depth estimation model and uses a DOF-edge loss to understand the relationship between DOF and depth. Our approach outperforms state-of-the-art methods on public benchmarks and a newly collected large benchmark dataset, EBD. Source codes and EBD dataset are available at: https:github.com/yuxinjin-whu/D-DFFNet.
翻訳日:2023-06-21 15:22:20 公開日:2023-06-20
# meerkat行動認識データセット

Meerkat Behaviour Recognition Dataset ( http://arxiv.org/abs/2306.11326v1 )

ライセンス: Link先を確認
Mitchell Rogers, Ga\"el Gendron, David Arturo Soriano Valdez, Mihailo Azhar, Yang Chen, Shahrokh Heidari, Caleb Perelini, Padriac O'Leary, Kobe Knowles, Izak Tait, Simon Eyre, Michael Witbrock, and Patrice Delmas(参考訳) 動物の行動を記録することは、動物の幸福を評価し、自然界をさらに理解するための重要なステップである。 現在の動物園における動物行動の記録方法、例えばスキャンサンプリングは、過剰な人間の努力を必要とし、時計回りの監視には適さない。 いくつかの動物データセットは、主に野生生物の相互作用に焦点を当てている。 しかし、動物園の設定や社会動物の集団行動に焦点をあてたデータには限られたデータがある。 本研究では,集団的社会的相互作用,カメラビュー内個人追跡,スキュートクラス分布,照明条件の変化など,さまざまな注釈付き行動を含む大規模メアカット(Suricata Suricatta)行動認識ビデオデータセットを紹介する。 このデータセットには、ウェリントン動物園(ニュージーランド、ウェリントン)のmeerkat enclosure内の2つの位置からの動画が含まれており、20の動画と15の無記名ビデオに848,400の注釈付きフレームがある。

Recording animal behaviour is an important step in evaluating the well-being of animals and further understanding the natural world. Current methods for documenting animal behaviour within a zoo setting, such as scan sampling, require excessive human effort, are unfit for around-the-clock monitoring, and may produce human-biased results. Several animal datasets already exist that focus predominantly on wildlife interactions, with some extending to action or behaviour recognition. However, there is limited data in a zoo setting or data focusing on the group behaviours of social animals. We introduce a large meerkat (Suricata Suricatta) behaviour recognition video dataset with diverse annotated behaviours, including group social interactions, tracking of individuals within the camera view, skewed class distribution, and varying illumination conditions. This dataset includes videos from two positions within the meerkat enclosure at the Wellington Zoo (Wellington, New Zealand), with 848,400 annotated frames across 20 videos and 15 unannotated videos.
翻訳日:2023-06-21 15:22:02 公開日:2023-06-20
# コンボリューション・トランスフォーマ混合前の展開枠組みと映像スナップショット圧縮画像における不確実性推定

Unfolding Framework with Prior of Convolution-Transformer Mixture and Uncertainty Estimation for Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2306.11316v1 )

ライセンス: Link先を確認
Siming Zheng and Xin Yuan(参考訳) 本研究では,連続的な高速フレームを異なるマスクで変調し,単一の計測でキャプチャする映像スナップショット圧縮イメージング(sci)の問題を考える。 単一の測定値から複数フレーム画像を再構成するという基本的な原理は、不適切な問題を解決することである。 最適化アルゴリズムとニューラルネットワークを組み合わせることで、ディープ・アンフォールディング・ネットワーク(duns)は逆問題を解く上で大きな成果を上げた。 本稿では,提案するモデルがdunフレームワークのもとにあり,トランスフォーマによる時間次元と空間次元の相関を十分に理解する3次元コンボリューション・トランスフォーマ混合(ctm)モジュールを提案する。 われわれの知る限り、TransformerがビデオSCI再構成に採用されたのはこれが初めてだ。 また,先行研究で無視された復元過程における高周波情報についてさらに検討するため,画素単位の不確かさを特徴付ける分散推定を導入する。 実験の結果,提案手法は従来のSOTAアルゴリズムよりも1.2dBのPSNR(State-of-the-art)が得られることがわかった。 コードをリリースします。

We consider the problem of video snapshot compressive imaging (SCI), where sequential high-speed frames are modulated by different masks and captured by a single measurement. The underlying principle of reconstructing multi-frame images from only one single measurement is to solve an ill-posed problem. By combining optimization algorithms and neural networks, deep unfolding networks (DUNs) score tremendous achievements in solving inverse problems. In this paper, our proposed model is under the DUN framework and we propose a 3D Convolution-Transformer Mixture (CTM) module with a 3D efficient and scalable attention model plugged in, which helps fully learn the correlation between temporal and spatial dimensions by virtue of Transformer. To our best knowledge, this is the first time that Transformer is employed to video SCI reconstruction. Besides, to further investigate the high-frequency information during the reconstruction process which are neglected in previous studies, we introduce variance estimation characterizing the uncertainty on a pixel-by-pixel basis. Extensive experimental results demonstrate that our proposed method achieves state-of-the-art (SOTA) (with a 1.2dB gain in PSNR over previous SOTA algorithm) results. We will release the code.
翻訳日:2023-06-21 15:21:44 公開日:2023-06-20
# リンク予測のための変分距離グラフオートエンコーダ

Variational Disentangled Graph Auto-Encoders for Link Prediction ( http://arxiv.org/abs/2306.11315v1 )

ライセンス: Link先を確認
Jun Fu and Xiaojuan Zhang and Shuang Li and Dali Chen(参考訳) グラフ構造化データの爆発により、リンク予測はますます重要な課題になりつつある。 リンク予測のための埋め込み手法はニューラルネットワークを用いてノードの埋め込みを生成し、ノード間のリンクを予測する。 しかし、既存の埋め込みメソッドは通常、ノードの埋め込みを学び、潜在因子の絡み合いを無視するための総合的な戦略を取る。 その結果、絡み合った埋め込みは基盤となる情報を効果的に捉えることができず、無関係な情報に弱いため、理解不能で解釈不能なリンク予測結果をもたらす。 これらの課題に対処するために,DGAE(disentangled graph auto-encoder)とVDGAE(variantal disentangled graph auto-encoder)という2つの変種を持つ新しいフレームワークを提案する。 我々の研究は、予測をリンクするために歪曲戦略を適用する先駆的な努力を提供します。 提案フレームワークは,グラフのエッジの原因となる潜伏因子を推定し,その表現を一意の潜伏因子に対応する複数のチャネルに切り離し,リンク予測の性能向上に寄与する。 さらに, 相互排他的潜在要因の獲得を促すため, 異なるチャネル間の独立性を高めるために, 相互情報正規化を導入する。 様々な実世界のベンチマーク実験により,提案手法はリンク予測タスクにおける様々な強いベースラインと比較して,最先端の結果が得られることを示した。 合成データセットの質的分析は、提案手法がリンクを引き起こす異なる潜在要因を捉えることができ、我々のモデルがリンク予測の結果をある程度説明できるという実証的な証拠を提供する。 すべてのコードは、論文の公開時に公開される予定だ。

With the explosion of graph-structured data, link prediction has emerged as an increasingly important task. Embedding methods for link prediction utilize neural networks to generate node embeddings, which are subsequently employed to predict links between nodes. However, the existing embedding methods typically take a holistic strategy to learn node embeddings and ignore the entanglement of latent factors. As a result, entangled embeddings fail to effectively capture the underlying information and are vulnerable to irrelevant information, leading to unconvincing and uninterpretable link prediction results. To address these challenges, this paper proposes a novel framework with two variants, the disentangled graph auto-encoder (DGAE) and the variational disentangled graph auto-encoder (VDGAE). Our work provides a pioneering effort to apply the disentanglement strategy to link prediction. The proposed framework infers the latent factors that cause edges in the graph and disentangles the representation into multiple channels corresponding to unique latent factors, which contributes to improving the performance of link prediction. To further encourage the embeddings to capture mutually exclusive latent factors, we introduce mutual information regularization to enhance the independence among different channels. Extensive experiments on various real-world benchmarks demonstrate that our proposed methods achieve state-of-the-art results compared to a variety of strong baselines on link prediction tasks. Qualitative analysis on the synthetic dataset also illustrates that the proposed methods can capture distinct latent factors that cause links, providing empirical evidence that our models are able to explain the results of link prediction to some extent. All code will be made publicly available upon publication of the paper.
翻訳日:2023-06-21 15:21:21 公開日:2023-06-20
# フラックススイッチング型超伝導回路によるコヒーレント音位相の判別

Discriminating the Phase of a Coherent Tone with a Flux-Switchable Superconducting Circuit ( http://arxiv.org/abs/2306.11364v1 )

ライセンス: Link先を確認
Luigi Di Palma, Alessandro Miano, Pasquale Mastrovito, Davide Massarotti, Marco Arzeo, Giovanni Piero Pepe, Francesco Tafuri and Oleg A. Mukhanov(参考訳) 本稿では,コヒーレント入力音の2つの位相値の識別が可能な,フラックススイッチング可能な超伝導回路,ジョセフソンディジタル位相検出器(JDPD)に基づく新しい位相検出手法を提案する。 外部フラックスによって適切に励起されると、JDPDは単一極小から二重極小ポテンシャルに切り替えることができ、入力音の位相符号に応じて2つの安定な構成のうちの1つを緩和することができる。 この演算結果は、2つのJDPD井戸のいずれかの位相粒子の占有確率でデジタル符号化される。 本研究では,400mhzまでのjdpdの動作原理を実証し,理論上の期待値との顕著な一致を示した。 今後のシナリオとして, 超電導量子ビット読み出し技術の実装について検討する。 また、単一磁束量子アーキテクチャとのJDPD互換性について検討し、高速駆動とデバイス状態の測定に利用した。

We propose a new phase detection technique based on a flux-switchable superconducting circuit, the Josephson digital phase detector (JDPD), which is capable of discriminating between two phase values of a coherent input tone. When properly excited by an external flux, the JDPD is able to switch from a single-minimum to a double-minima potential and, consequently, relax in one of the two stable configurations depending on the phase sign of the input tone. The result of this operation is digitally encoded in the occupation probability of a phase particle in either of the two JDPD wells. In this work, we demonstrate the working principle of the JDPD up to a frequency of 400 MHz with a remarkable agreement with theoretical expectations. As a future scenario, we discuss the implementation of this technique to superconducting qubit readout. We also examine the JDPD compatibility with the single-flux-quantum architecture, employed to fast-drive and measure the device state.
翻訳日:2023-06-21 15:13:32 公開日:2023-06-20
# マスク拡散モデルは高速な学習者です

Masked Diffusion Models are Fast Learners ( http://arxiv.org/abs/2306.11363v1 )

ライセンス: Link先を確認
Jiachen Lei, Peng Cheng, Zhongjie Ba, Kui Ren(参考訳) 拡散モデルは画像生成のためのデファクト技術として登場したが、それらはかなりの計算オーバーヘッドを伴い、研究コミュニティにおけるこの技術の幅広い応用を妨げる。 本稿では,事前学習と微調整のパラダイムを拡散モデルトレーニングプロセスに組み込んだ事前学習訓練フレームワークを提案する。 提案手法は,入力画像の高割合(例えば最大90%)をマスキングし,可視領域を識別するためにマスク付きスコアマッチングを用いて,事前知識としてトレーニングデータからより健全な特徴を学習するための拡散モデルを導出する。 このマスク付き学習過程を事前学習段階に利用することにより、画素空間におけるCelebA-HQ 256x256上のViTベースの拡散モデルを効率的に訓練し、4倍の加速を実現し、DDPMと比較して生成画像の品質を向上させる。 さらに,VGGFace2で事前学習した拡散モデルでは,局所データを10%だけ微調整することで,46%の品質向上を実現している。 私たちのコードはhttps://github.com/jiachenlei/maskdmで利用可能です。

Diffusion models have emerged as the de-facto technique for image generation, yet they entail significant computational overhead, hindering the technique's broader application in the research community. We propose a prior-based denoising training framework, the first to incorporate the pre-train and fine-tune paradigm into the diffusion model training process, which substantially improves training efficiency and shows potential in facilitating various downstream tasks. Our approach centers on masking a high proportion (e.g., up to 90%) of the input image and employing masked score matching to denoise the visible areas, thereby guiding the diffusion model to learn more salient features from training data as prior knowledge. By utilizing this masked learning process in a pre-training stage, we efficiently train the ViT-based diffusion model on CelebA-HQ 256x256 in the pixel space, achieving a 4x acceleration and enhancing the quality of generated images compared to DDPM. Moreover, our masked pre-training technique is universally applicable to various diffusion models that directly generate images in the pixel space and facilitates learning pre-trained models with excellent generalizability: a diffusion model pre-trained on VGGFace2 attains a 46% quality improvement through fine-tuning with merely 10% local data. Our code is available at https://github.com/jiachenlei/maskdm.
翻訳日:2023-06-21 15:13:01 公開日:2023-06-20
# レーザーパルス干渉によるランダム信号のディジタル化

Digitization of a random signal from the interference of laser pulses ( http://arxiv.org/abs/2306.11361v1 )

ライセンス: Link先を確認
Roman Shakhovoy(参考訳) 量子乱数生成器(QRNG)の研究において、乱信号のディジタル化の問題は詳細は考慮されないことが多い。 しかし、スタンドアロンのQRNGデバイスの場合、この問題は非常に重要である。 本稿では、ランダムな強度でレーザーパルスをデジタル化する問題を考察し、古典的雑音の寄与度を推定する様々な手法を分析した。 アナログ・デジタル変換器を用いたディジタル化に適した量子還元係数の簡易決定法を提案する。

In the study of quantum random number generators (QRNGs), the problem of random signal digitization is often not considered in detail. However, in the context of a standalone QRNG device, this issue is very important. In this paper, we consider the problem of digitizing laser pulses with random intensity and analyze various approaches used to estimate the contribution of classical noise. A simple method for determining the quantum reduction factor suitable for digitization with an analog-to-digital converter is proposed.
翻訳日:2023-06-21 15:12:36 公開日:2023-06-20
# 単分子磁石とその量子相転移の半古典的研究

Semiclassical study of single-molecule magnets and their quantum phase transitions ( http://arxiv.org/abs/2306.11360v1 )

ライセンス: Link先を確認
David Stefan, Lohr-Robles and Enrique, Lopez-Moreno and Peter Otto Hess(参考訳) 半古典的解析とカタストロフィ理論を用いて, 単分子磁石のシステムについて検討する。 パラメータ空間のセパラトリックスは、ハミルトニアンエネルギー準位の構造を決定するのに有用である。 特に、マクスウェル集合 separatrix は系の基底状態の挙動を決定する。 分子の容易な磁化軸に平行な2つの成分を持ち、もう1つは分子の垂直な磁化軸に平行な外部磁場を考える。 磁場成分の関数としてQPTの信号を検出することができた。

We present a study of systems of single-molecule magnets using a semiclassical analysis and catastrophe theory. Separatrices in parameter space are constructed which are useful to determine the structure of the Hamiltonians energy levels. In particular the Maxwell set separatrix determines the behavior of the ground state of the system. We consider an external magnetic field with two components, one parallel to the easy magnetization axis of the molecule and the other perpendicular to it. Using the fidelity and heat capacity we were able to detect the signals of the QPTs as a function of the magnetic field components.
翻訳日:2023-06-21 15:12:27 公開日:2023-06-20
# 古典的1/f$ノイズのみによる非線形発振器からの非古典的放射

Nonclassical radiation from a nonlinear oscillator driven solely by classical $1/f$ noise ( http://arxiv.org/abs/2306.11350v1 )

ライセンス: Link先を確認
Archak Purkayastha and Klaus M{\o}lmer(参考訳) 低周波の古典的な1/f$ノイズと低温フォノンモードからの量子ノイズは、固体系のデコヒーレンスの最も一般的な原因の1つであり、通常量子技術応用の障害と考えられている。 ここでは,従来の1/f$雑音と低温フォノン浴の非線形発振器への同時作用により,追加のドライブを必要とせずに非古典的反束放射が発生することを示す。 1/f$のノイズは光子生成のためのエネルギー源を提供し、フォノン浴は無限温度まで加熱を防ぎ、非線形発振器をノイズ平均非平衡定常状態にする。 この非平衡定常状態の光子電流は標準広帯域検出器によって検出される。 フォノン浴スペクトルの十分な非線形性と周波数依存性のために、検出された放射をアンチバンドルすることができる。 これにより、固体状態設定における最もユビキタスなノイズ源の2つを障害からリソースに変えることが可能となる。

Low-frequency classical $1/f$-noise and quantum noise from low-temperature phonon modes are two of the most common causes of decoherence in solid state systems, and are usually considered a hindrance for quantum technological applications. Here we show that the simultaneous action of classical $1/f$ noise and a low-temperature phonon bath on a nonlinear oscillator can result in the generation of nonclassical antibunched radiation without the need for any additional drive. The $1/f$ noise provides the source of energy for generation of photons, while the phonon bath prevents heating up to infinite temperature and takes the nonlinear oscillator to a noise-averaged non-equilibrium steady state. The photon current in this non-equilibrium steady state may be detected by a standard wide-band detector. For sufficient nonlinearity and frequency dependence of the phonon bath spectrum, the detected radiation can be antibunched. This opens the possibility to turn two of the most ubiquitous sources of noise in solid state settings from a hindrance to a resource.
翻訳日:2023-06-21 15:12:19 公開日:2023-06-20
# 相関エミッタからの自然放出

Spontaneous emission from correlated emitters ( http://arxiv.org/abs/2306.11348v1 )

ライセンス: Link先を確認
Offek Tziperman, Gefen Baranes, Alexey Gorlach, Ron Ruimy, Michael Faran, Nir Gutman, Andrea Pizzi, Ido Kaminer(参考訳) 自発放出は、電子が光子を放出しながら低いエネルギー状態に遷移し、原子物理学や固体物理学から天体物理学まで多分野にわたって現れる基本的な量子現象である。 ユビキタスにもかかわらず、量子相関を持つ系からの自発的放出に関する根本的な根拠のない疑問が残っている。 量子相関は、量子ドットや原子配列など、量子情報科学の全てのプラットフォームにおいて重要な資源となり、スーパー放射やサブラディアンスのような以前の不可解な効果の観測を可能にしている。 その重要性にもかかわらず、相関エミッターからの自然放出の多くの側面は未解決のままである。 ここでは、任意の量子相関を持つ系から自然に放出される光の量子光学状態を求める。 自発発光中に相関が失われるのではなく、その代わりに出力光に伝達される条件を示す。 自発的放出の過程は、スクイーズド状態やシュロディンガーキャット状態のような所望のフォトニック状態を作ることができる。 我々の研究はスーパー・サブラディアンスのマルチモードな性質を捉え、放出される光の量子状態におけるエミッタの位置、損失、およびbeyond-markovダイナミクスの役割を示している。 空洞および導波路QEDにおけるこれらの効果を示す。 本研究は, 連続可変量子計算, 通信, センシングにおけるボソニック符号のための多光子量子光の生成と操作のための新しい経路を提案する。

Spontaneous emission is a fundamental quantum phenomenon whereby an electron transitions to a lower energy state while emitting a photon, manifesting across a plethora of fields from atomic physics and solid-state physics to astrophysics. Despite its ubiquity, there remain fundamental unanswered questions about spontaneous emission from systems with quantum correlations. Quantum correlations have become a critical resource in all platforms of quantum information science, such as coupled quantum dots and atomic arrays, enabling observations of previously elusive effects like super- and subradiance. Despite its significance, many aspects of spontaneous emission from correlated emitters remain unresolved. Here, we find the quantum-optical state of light spontaneously emitted from systems with arbitrary quantum correlations. We show under what conditions the correlations are not lost during the spontaneous emission but instead, transfer to the output light. The process of spontaneous emission can then create desired photonic states such as squeezed and Schrodinger-cat states. Our work captures the multi-mode nature of super- and subradiance and shows the roles of emitter locations, losses, and beyond-Markov dynamics on the emitted quantum state of light. We present manifestations of these effects in both cavity- and waveguide-QED. Our findings suggest new paths for creating and manipulating multi-photon quantum light for bosonic codes in continuous-variable-based quantum computation, communications, and sensing.
翻訳日:2023-06-21 15:12:01 公開日:2023-06-20
# 車両位置推定のための画像とLiDAR点雲間のエンドツーエンド2D-3Dレジストレーション

End-to-end 2D-3D Registration between Image and LiDAR Point Cloud for Vehicle Localization ( http://arxiv.org/abs/2306.11346v1 )

ライセンス: Link先を確認
Guangming Wang, Yu Zheng, Yanfeng Guo, Zhe Liu, Yixiang Zhu, Wolfram Burgard, and Hesheng Wang(参考訳) 以前構築された地図を用いたロボットのローカライゼーションは、高精度なナビゲーションや移動操作を含む様々なタスクに不可欠である。 ロボットのローカライゼーションに対する一般的なアプローチは、照明不変のLiDARマッピングと経済的イメージベースのローカライゼーションを組み合わせたイメージ・ツー・ポイントのクラウド登録に基づいている。 しかし、最近のイメージ・ツー・ポイント・クラウドの登録作業では、登録を別々のモジュールに分割するか、ポイント・クラウドを奥行き画像に投影してRGBと奥行き画像を登録する。 本稿では,新しいエンドツーエンド2D-3D登録ネットワークであるI2PNetを提案する。 I2PNetは、独自のターゲットを持つ差動モジュールを使用して、2D RGB画像で生の3Dポイントクラウドを直接登録する。 差分2D-3Dアソシエーションのための2D-3Dコストボリュームモジュールは特徴抽出とポーズ回帰をブリッジするために提案される。 2D-3Dコストボリュームモジュールは、ピンホールカメラモデルの固有非依存正規化平面上に、ソフトポイント対ピクセル対応を暗黙的に構築する。 さらに,2D-3Dアソシエーションにおける外乱を回帰前にフィルタする外乱マスク予測モジュールを導入する。 さらに,局所化精度を高めるために,粗大な2D-3D登録アーキテクチャを提案する。 我々は,KITTIオドメトリーとnuScenesデータセットの広範なローカライゼーション実験を行った。 結果は、i2pnetが最先端技術を上回ることを示している。 さらに、I2PNetは以前の作業よりも効率が高く、リアルタイムにローカライゼーションを行うことができる。 さらに、I2PNetをカメラ-LiDARオンラインキャリブレーションに適用し、オンラインキャリブレーションタスクにおける最近のアプローチよりも優れた性能を示す。

Robot localization using a previously built map is essential for a variety of tasks including highly accurate navigation and mobile manipulation. A popular approach to robot localization is based on image-to-point cloud registration, which combines illumination-invariant LiDAR-based mapping with economical image-based localization. However, the recent works for image-to-point cloud registration either divide the registration into separate modules or project the point cloud to the depth image to register the RGB and depth images. In this paper, we present I2PNet, a novel end-to-end 2D-3D registration network. I2PNet directly registers the raw 3D point cloud with the 2D RGB image using differential modules with a unique target. The 2D-3D cost volume module for differential 2D-3D association is proposed to bridge feature extraction and pose regression. 2D-3D cost volume module implicitly constructs the soft point-to-pixel correspondence on the intrinsic-independent normalized plane of the pinhole camera model. Moreover, we introduce an outlier mask prediction module to filter the outliers in the 2D-3D association before pose regression. Furthermore, we propose the coarse-to-fine 2D-3D registration architecture to increase localization accuracy. We conduct extensive localization experiments on the KITTI Odometry and nuScenes datasets. The results demonstrate that I2PNet outperforms the state-of-the-art by a large margin. In addition, I2PNet has a higher efficiency than the previous works and can perform the localization in real-time. Moreover, we extend the application of I2PNet to the camera-LiDAR online calibration and demonstrate that I2PNet outperforms recent approaches on the online calibration task.
翻訳日:2023-06-21 15:11:39 公開日:2023-06-20
# kiut: 放射線レポート生成のための知識インジェクション型u変換器

KiUT: Knowledge-injected U-Transformer for Radiology Report Generation ( http://arxiv.org/abs/2306.11345v1 )

ライセンス: Link先を確認
Zhongzhen Huang, Xiaofan Zhang, Shaoting Zhang(参考訳) 放射線医学レポートの作成は、x線画像から臨床的に正確で一貫性のある段落を自動的に生成することを目的としている。 様々な画像キャプション手法は自然画像分野において顕著な性能を示しているが、医療画像の正確なレポートを生成するには視覚、言語、医学用語を含む複数のモダリティの知識が必要である。 本稿では,多段階の視覚的表現を学習し,文脈的および臨床的知識を適応的に抽出して単語予測を行う知識インジェクションu-transformer(kiut)を提案する。 詳しくは、エンコーダとデコーダの間のU接続スキーマは、異なるモード間の相互作用をモデル化するように設計されている。 そして、レポート生成を支援するために、症状グラフと注入知識蒸留器を開発する。 実験では、広く使われている2つのベンチマークデータセット、iu-xray と mimic-cxr で最先端の手法を上回っている。 さらなる実験により、アーキテクチャの利点と、注入された知識の相補的な利点が証明された。

Radiology report generation aims to automatically generate a clinically accurate and coherent paragraph from the X-ray image, which could relieve radiologists from the heavy burden of report writing. Although various image caption methods have shown remarkable performance in the natural image field, generating accurate reports for medical images requires knowledge of multiple modalities, including vision, language, and medical terminology. We propose a Knowledge-injected U-Transformer (KiUT) to learn multi-level visual representation and adaptively distill the information with contextual and clinical knowledge for word prediction. In detail, a U-connection schema between the encoder and decoder is designed to model interactions between different modalities. And a symptom graph and an injected knowledge distiller are developed to assist the report generation. Experimentally, we outperform state-of-the-art methods on two widely used benchmark datasets: IU-Xray and MIMIC-CXR. Further experimental results prove the advantages of our architecture and the complementary benefits of the injected knowledge.
翻訳日:2023-06-21 15:11:13 公開日:2023-06-20
# ノード分類のためのグラフ上のコントラストディスタングル学習

Contrastive Disentangled Learning on Graph for Node Classification ( http://arxiv.org/abs/2306.11344v1 )

ライセンス: Link先を確認
Xiaojuan Zhang and Jun Fu and Shuang Li(参考訳) グラフ構造化データの解析において顕著な成功を収めたコントラスト学習手法が注目されている。 コントラスト学習の成功にインスパイアされた,グラフ上の非絡み合い学習のための新しいフレームワークを提案し,非絡み合いグラフエンコーダと2つの慎重に構築された自己超越信号を用いた。 具体的には, 基礎となる意味情報に対応する様々な潜在要因を識別し, 不連続ノード埋め込みを学習するために, フレームワークを強制するグラフエンコーダを導入する。 さらに,ラベルに大きく依存する2つの自己超越信号,すなわちノード特異性とチャネル独立性を克服し,ラベル付きデータを必要とせずに情報的知識を収集し,ノードの自動切り離しを誘導する。 最後に,3つの引用ネットワーク上のノード分類タスクを非交叉ノード埋め込みを用いて実行し,関連する解析を行う。 提案手法の有効性を各種ベースラインと比較し実験により検証した。

Contrastive learning methods have attracted considerable attention due to their remarkable success in analyzing graph-structured data. Inspired by the success of contrastive learning, we propose a novel framework for contrastive disentangled learning on graphs, employing a disentangled graph encoder and two carefully crafted self-supervision signals. Specifically, we introduce a disentangled graph encoder to enforce the framework to distinguish various latent factors corresponding to underlying semantic information and learn the disentangled node embeddings. Moreover, to overcome the heavy reliance on labels, we design two self-supervision signals, namely node specificity and channel independence, which capture informative knowledge without the need for labeled data, thereby guiding the automatic disentanglement of nodes. Finally, we perform node classification tasks on three citation networks by using the disentangled node embeddings, and the relevant analysis is provided. Experimental results validate the effectiveness of the proposed framework compared with various baselines.
翻訳日:2023-06-21 15:10:57 公開日:2023-06-20
# 集合観測からの普遍的偏りのない分類法

A Universal Unbiased Method for Classification from Aggregate Observations ( http://arxiv.org/abs/2306.11343v1 )

ライセンス: Link先を確認
Zixi Wei, Lei Feng, Bo Han, Tongliang Liu, Gang Niu, Xiaofeng Zhu, Heng Tao Shen(参考訳) 従来の教師付き分類では、個々のインスタンスには真のラベルが必要である。 しかし、プライバシの懸念や不適切なアノテーションコストのために、個々のインスタンスの真のラベルを収集することは禁止される可能性がある。 これは、個々のインスタンスではなく、インスタンスのグループに監督を提供する集合観察(CFAO)からの分類の研究を動機付けている。 CFAOは、多言語学習やラベル比率からの学習など、さまざまな学習問題を含む一般化学習フレームワークである。 本研究の目的は,任意の損失に対する分類リスクの偏りのない推定値を保持する,新しいCFAOの普遍的手法を提案することである。 実際、本手法はグループ内の各インスタンスに対する各ラベルの重要性を考慮し、分類器が学習するパーソナライズされた監督を提供する。 理論的には,提案手法は不偏リスク推定器によるリスクの整合性を保証するだけでなく,任意の損失に対応できる。 CFAOの諸問題に対する大規模な実験により,提案手法の優位性を示した。

In conventional supervised classification, true labels are required for individual instances. However, it could be prohibitive to collect the true labels for individual instances, due to privacy concerns or unaffordable annotation costs. This motivates the study on classification from aggregate observations (CFAO), where the supervision is provided to groups of instances, instead of individual instances. CFAO is a generalized learning framework that contains various learning problems, such as multiple-instance learning and learning from label proportions. The goal of this paper is to present a novel universal method of CFAO, which holds an unbiased estimator of the classification risk for arbitrary losses -- previous research failed to achieve this goal. Practically, our method works by weighing the importance of each label for each instance in the group, which provides purified supervision for the classifier to learn. Theoretically, our proposed method not only guarantees the risk consistency due to the unbiased risk estimator but also can be compatible with arbitrary losses. Extensive experiments on various problems of CFAO demonstrate the superiority of our proposed method.
翻訳日:2023-06-21 15:10:41 公開日:2023-06-20
# マルチタスク協調型事前学習と個人適応型微調整:脳表現学習のための統一フレームワーク

Multi-task Collaborative Pre-training and Individual-adaptive-tokens Fine-tuning: A Unified Framework for Brain Representation Learning ( http://arxiv.org/abs/2306.11378v1 )

ライセンス: Link先を確認
Ning Jiang, Gongshu Wang, and Tianyi Yan(参考訳) 構造磁気共鳴イメージング(sMRI)は、脳の構造的構造を正確に推定し、sMRIから不変の脳表現を学習することは、神経科学における持続的な問題である。 従来の深層表現学習モデルは、人間の認知活動の中核である脳が解剖学が主な特徴である他の器官と異なるという事実を無視している。 したがって、個人間認知の多様性を支配する意味構造を捉えることは、脳を正確に表現するための鍵となる。 この高レベルのセマンティック情報が微妙で、分散し、依存的に脳構造に潜伏していることを考えると、sMRIベースのモデルは細かな詳細を捉え、それらが全体的構造とどのように関係しているかを理解する必要がある。 しかし、既存のモデルは単純な目的によって最適化され、特徴が均質に崩壊し、きめ細かい情報と全体論的意味論の同時表現が悪化し、生物学的な妥当性の欠如と認識の解釈を引き起こす。 本稿では,マルチタスク協調型プレトレーニングと個別適応型微調整を組み合わせた統合フレームワークであるMCIATを提案する。 具体的には, 深部意味表現学習を主目的として, 復元学習, 年齢予測補助学習, 敵学習を合成した。 そして,識別特徴を強調するために,相互注意に基づくトークン選択手法を提案する。 提案したMCIATは、いくつかのsMRIベースのアプローチと比較してADHD-200データセットの最先端診断性能を達成し、MCICおよびOASISデータセットの優れた一般化を示す。 さらに,12の行動課題について検討し,認知機能とMCIATが確立した表現との間に有意な関連性を見出した。

Structural magnetic resonance imaging (sMRI) provides accurate estimates of the brain's structural organization and learning invariant brain representations from sMRI is an enduring issue in neuroscience. Previous deep representation learning models ignore the fact that the brain, as the core of human cognitive activity, is distinct from other organs whose primary attribute is anatomy. Therefore, capturing the semantic structure that dominates interindividual cognitive variability is key to accurately representing the brain. Given that this high-level semantic information is subtle, distributed, and interdependently latent in the brain structure, sMRI-based models need to capture fine-grained details and understand how they relate to the overall global structure. However, existing models are optimized by simple objectives, making features collapse into homogeneity and worsening simultaneous representation of fine-grained information and holistic semantics, causing a lack of biological plausibility and interpretation of cognition. Here, we propose MCIAT, a unified framework that combines Multi-task Collaborative pre-training and Individual-Adaptive-Tokens fine-tuning. Specifically, we first synthesize restorative learning, age prediction auxiliary learning and adversarial learning as a joint proxy task for deep semantic representation learning. Then, a mutual-attention-based token selection method is proposed to highlight discriminative features. The proposed MCIAT achieves state-of-the-art diagnosis performance on the ADHD-200 dataset compared with several sMRI-based approaches and shows superior generalization on the MCIC and OASIS datasets. Moreover, we studied 12 behavioral tasks and found significant associations between cognitive functions and MCIAT-established representations, which verifies the interpretability of our proposed framework.
翻訳日:2023-06-21 15:05:41 公開日:2023-06-20
# HabiCrowd: クラウド対応ビジュアルナビゲーションのための高性能シミュレータ

HabiCrowd: A High Performance Simulator for Crowd-Aware Visual Navigation ( http://arxiv.org/abs/2306.11377v1 )

ライセンス: Link先を確認
An Dinh Vuong, Toan Tien Nguyen, Minh Nhat VU, Baoru Huang, Dzung Nguyen, Huynh Thi Thanh Binh, Thieu Vo, Anh Nguyen(参考訳) Embodied AI(E-AI)の基礎的な側面である視覚ナビゲーションは、ここ数年で大きく研究されている。 視覚ナビゲーションタスクをサポートするために多くの3Dシミュレータが導入されたが、人間のダイナミクスを組み合わせるための作業はほとんど行われておらず、シミュレーションと現実世界のアプリケーションの間にギャップが生じた。 さらに、人間の力学を取り入れた現在の3Dシミュレータには、特にE-AIシミュレータの約束である計算効率の面で、いくつかの制限がある。 このような欠点を克服するために、habicrowdを紹介する。habicrowdはクラウドアウェアビジュアルナビゲーションのための最初の標準ベンチマークで、クラウド・ダイナミクスモデルと多様な人間の設定をフォトリアリスティックな環境に統合する。 実験的な評価により,提案モデルが衝突回避における最先端の性能を達成し,計算効率も同等であることを示した。 我々はHabiCrowdを利用して、クラウド対応視覚ナビゲーションタスクと人間とロボットのインタラクションに関する包括的な研究を行っている。 ソースコードとデータはhttps://habicrowd.github.io/にある。

Visual navigation, a foundational aspect of Embodied AI (E-AI), has been significantly studied in the past few years. While many 3D simulators have been introduced to support visual navigation tasks, scarcely works have been directed towards combining human dynamics, creating the gap between simulation and real-world applications. Furthermore, current 3D simulators incorporating human dynamics have several limitations, particularly in terms of computational efficiency, which is a promise of E-AI simulators. To overcome these shortcomings, we introduce HabiCrowd, the first standard benchmark for crowd-aware visual navigation that integrates a crowd dynamics model with diverse human settings into photorealistic environments. Empirical evaluations demonstrate that our proposed human dynamics model achieves state-of-the-art performance in collision avoidance, while exhibiting superior computational efficiency compared to its counterparts. We leverage HabiCrowd to conduct several comprehensive studies on crowd-aware visual navigation tasks and human-robot interactions. The source code and data can be found at https://habicrowd.github.io/.
翻訳日:2023-06-21 15:05:09 公開日:2023-06-20
# 粗粒タンパク質力場のトップダウン機械学習

Top-down machine learning of coarse-grained protein force-fields ( http://arxiv.org/abs/2306.11375v1 )

ライセンス: Link先を確認
Cales Navarro, Maciej Majewski and Gianni de Fabritiis(参考訳) タンパク質の正確な、効率的な粗粒度の表現を作ることは、その折りたたみ、機能、相互作用を拡張タイムスケールで理解するために重要である。 我々の手法は、タンパク質を分子動力学でシミュレートし、その結果の軌跡を利用して、異なる軌道重み付けによってニューラルネットワーク電位を訓練する。 驚くべきことに、この方法はタンパク質のネイティブコンフォメーションのみを必要とし、広範囲なシミュレーションやメモリ集約的なエンドツーエンドの微分可能なシミュレーションから得られるラベル付きデータの必要性をなくす。 一度トレーニングすると、モデルを使用して、並列分子動力学シミュレーションと、トレーニング分布内およびその外挿能力を示すタンパク質のサンプル折り畳みイベントを実行することができる。 マルコフ状態モデルを適用することで、粗粒シミュレーションからシミュレーションタンパク質のネイティブ様配座を予測できる。 実験的な静的構造のみをトレーニングデータとして用いる理論的伝達性や能力から,新たなタンパク質力場の開発や,タンパク質のダイナミクス,折り畳み,相互作用の研究の進展に有利であることが期待できる。

Developing accurate and efficient coarse-grained representations of proteins is crucial for understanding their folding, function, and interactions over extended timescales. Our methodology involves simulating proteins with molecular dynamics and utilizing the resulting trajectories to train a neural network potential through differentiable trajectory reweighting. Remarkably, this method requires only the native conformation of proteins, eliminating the need for labeled data derived from extensive simulations or memory-intensive end-to-end differentiable simulations. Once trained, the model can be employed to run parallel molecular dynamics simulations and sample folding events for proteins both within and beyond the training distribution, showcasing its extrapolation capabilities. By applying Markov State Models, native-like conformations of the simulated proteins can be predicted from the coarse-grained simulations. Owing to its theoretical transferability and ability to use solely experimental static structures as training data, we anticipate that this approach will prove advantageous for developing new protein force fields and further advancing the study of protein dynamics, folding, and interactions.
翻訳日:2023-06-21 15:04:52 公開日:2023-06-20
# 英語支配能力を活用した低リソース言語のためのllmの民主化

Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts ( http://arxiv.org/abs/2306.11372v1 )

ライセンス: Link先を確認
Xuan-Phi Nguyen and Sharifah Mahani Aljunied and Shafiq Joty and Lidong Bing(参考訳) 大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。 しかし、低リソース言語では、そのような手書きの例を入手することは依然として困難であり、教師なしの技術が必要かもしれない。 さらに、LLMの有能な生成能力は、高リソース言語でのみ観察されるが、非表現言語における性能は、事前学習データの不均衡により低下する。 教師付きデータを持たない低リソース言語にLLMの能力を引き出すため,多種多様な高リソース言語から合成例を合成し,LLMが任意の言語から英語に翻訳するように促すことを提案する。 これらのプロンプトは、対象言語でタスクを実行するための言語内exemplarの作成に使用される。 教師なしのプロンプト手法は,英語,13のindic,21のアフリカ低リソース言語間の翻訳において,異なる大きさのllmで教師付き少数ショット学習と同等の性能を発揮する。 また,本手法から生成したデータに対して7Bモデルを微調整することで,175Bモデルと競合することを示す。 非英語翻訳タスクでは、多くの低リソース言語で最大3chrF++による教師あり命令よりも優れています。 ゼロショット多言語要約で評価すると,本手法は他の英単語ベースラインを最大4ルージュlで上回り,gpt-4でも好まれる。

Large language models (LLMs) are known to effectively perform tasks by simply observing few exemplars. However, in low-resource languages, obtaining such hand-picked exemplars can still be challenging, where unsupervised techniques may be necessary. Moreover, competent generative capabilities of LLMs are observed only in high-resource languages, while their performances among under-represented languages fall behind due to pre-training data imbalance. To elicit LLMs' ability onto low-resource languages without any supervised data, we propose to assemble synthetic exemplars from a diverse set of high-resource languages to prompt the LLMs to translate from any language into English. These prompts are then used to create intra-lingual exemplars to perform tasks in the target languages. Our unsupervised prompting method performs on par with supervised few-shot learning in LLMs of different sizes for translations between English and 13 Indic and 21 African low-resource languages. We also show that fine-tuning a 7B model on data generated from our method helps it perform competitively with a 175B model. In non-English translation tasks, our method even outperforms supervised prompting by up to 3 chrF++ in many low-resource languages. When evaluated on zero-shot multilingual summarization, our method surpasses other English-pivoting baselines by up to 4 ROUGE-L and is also favored by GPT-4.
翻訳日:2023-06-21 15:04:33 公開日:2023-06-20
# 低リソース環境下での視覚的単語学習

Visually grounded few-shot word learning in low-resource settings ( http://arxiv.org/abs/2306.11371v1 )

ライセンス: Link先を確認
Leanne Nortje, Dan Oneata, Herman Kamper(参考訳) 本稿では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。 テスト画像と音声クエリのセットが与えられた場合、どの画像がクエリワードを表現しているかをモデルに尋ねる。 以前の研究では、デジタルワードイメージペアの人工的な設定を使うか、クラス毎に多数の例を使用することで、この少数ショット学習問題を単純化している。 また,これまでの研究はすべて英語音声画像データを用いて行われた。 我々は,自然の単語と画像のペアを扱うことができるが,サンプルが少ない場合,すなわちショットが少ない場合,このアプローチが実際の低リソース言語であるyorubaでマルチモーダルな少数ショット学習にどのように適用できるかを説明する。 提案手法では,与えられた単語イメージのサンプルペアを用いて,未知の音声と画像の集合から教師なしの単語イメージトレーニングペアを抽出する。 さらに,単語画像の類似性を決定するために,単語間注意機構を用いる。 この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを達成する。 モデルの間違いの多くは、同じ文脈で共起する視覚概念の混乱によるものです。 ヨルバにおける実験は、より大きな英単語画像データに基づいて訓練されたマルチモーダルモデルから知識を伝達する利点を示す

We propose a visually grounded speech model that learns new words and their visual depictions from just a few word-image example pairs. Given a set of test images and a spoken query, we ask the model which image depicts the query word. Previous work has simplified this few-shot learning problem by either using an artificial setting with digit word-image pairs or by using a large number of examples per class. Moreover, all previous studies were performed using English speech-image data. We propose an approach that can work on natural word-image pairs but with less examples, i.e. fewer shots, and then illustrate how this approach can be applied for multimodal few-shot learning in a real low-resource language, Yoruba. Our approach involves using the given word-image example pairs to mine new unsupervised word-image training pairs from large collections of unlabelledspeech and images. Additionally, we use a word-to-image attention mechanism to determine word-image similarity. With this new model, we achieve better performance with fewer shots than previous approaches on an existing English benchmark. Many of the model's mistakes are due to confusion between visual concepts co-occurring in similar contexts. The experiments on Yoruba show the benefit of transferring knowledge from a multimodal model trained on a larger set of English speech-image data
翻訳日:2023-06-21 15:04:07 公開日:2023-06-20
# CrossKD:高密度物体検出のためのクロスヘッド知識蒸留

CrossKD: Cross-Head Knowledge Distillation for Dense Object Detection ( http://arxiv.org/abs/2306.11369v1 )

ライセンス: Link先を確認
Jiabao Wang, Yuming Chen, Zhaohui Zheng, Xiang Li, Ming-Ming Cheng, Qibin Hou(参考訳) 知識蒸留(KD)は、コンパクト物体検出器の学習に有効なモデル圧縮技術として検証されている。 既存のオブジェクト検出のための最先端KD法は、主に特徴模倣に基づいているが、一般的には予測模倣よりも優れていると考えられている。 本稿では, 地中構造信号と蒸留目標との最適化目標の不整合が, 予測模倣の非効率性の鍵となる理由であることを示す。 この問題を軽減するために,学生の検知ヘッドの中間的特徴を教師の検知ヘッドに伝達する,CrossKDと呼ばれる簡易かつ効果的な蒸留方式を提案する。 結果として生じるクロスヘッド予測は、教師の予測を模倣するよう強制される。 このような蒸留法により、生徒の頭部は、地中アノテーションや教師の予測から矛盾する監督信号を受け取れなくなり、学生の検知性能が大幅に向上する。 MS COCOでは、損失の予測のみを適用した場合、CrossKDはGFL ResNet-50の平均精度を40.2から43.7に引き上げ、既存のKD法よりもオブジェクト検出に優れる。 コードはhttps://github.com/jbwang1997/CrossKDで入手できる。

Knowledge Distillation (KD) has been validated as an effective model compression technique for learning compact object detectors. Existing state-of-the-art KD methods for object detection are mostly based on feature imitation, which is generally observed to be better than prediction mimicking. In this paper, we show that the inconsistency of the optimization objectives between the ground-truth signals and distillation targets is the key reason for the inefficiency of prediction mimicking. To alleviate this issue, we present a simple yet effective distillation scheme, termed CrossKD, which delivers the intermediate features of the student's detection head to the teacher's detection head. The resulting cross-head predictions are then forced to mimic the teacher's predictions. Such a distillation manner relieves the student's head from receiving contradictory supervision signals from the ground-truth annotations and the teacher's predictions, greatly improving the student's detection performance. On MS COCO, with only prediction mimicking losses applied, our CrossKD boosts the average precision of GFL ResNet-50 with 1x training schedule from 40.2 to 43.7, outperforming all existing KD methods for object detection. Code is available at https://github.com/jbwang1997/CrossKD.
翻訳日:2023-06-21 15:03:45 公開日:2023-06-20
# RoMe:メッシュ表現による大規模道路表面再構築に向けて

RoMe: Towards Large Scale Road Surface Reconstruction via Mesh Representation ( http://arxiv.org/abs/2306.11368v1 )

ライセンス: Link先を確認
Ruohong Mei, Wei Sui, Jiaxin Zhang, Qian Zhang, Tao Peng, Cong Yang(参考訳) 自動運転システムにとって、大規模な路面再構築が重要になってきており、貴重なトレーニングとテストデータを効果的に提供する。 本稿では,メッシュ表現による道路表面の大規模再構築のための簡易かつ効率的なRoMe法を提案する。 問題を単純化するために,RoMeは3次元道路表面を三角形メッシュと多層知覚ネットワークに分解し,暗黙的に道路標高をモデル化する。 表面の詳細を維持するために、各メッシュ頂点には2つの追加属性、すなわち色と意味がある。 大規模環境におけるローマの効率を向上させるため,新しいウェイポイントサンプリング法を提案する。 そのため、RoMeは路面の詳細を適切に保存することができ、路面領域に線形計算の複雑さしか持たない。 さらに,RoMeの精度を向上させるために,不正確な外因性キャリブレーションを軽減するために,外因性最適化を提案する。 人気のある公開データセットの実験結果もまた、RoMeの高効率性と精度を示している。

Large-scale road surface reconstruction is becoming important to autonomous driving systems, as it provides valuable training and testing data effectively. In this paper, we introduce a simple yet efficient method, RoMe, for large-scale Road surface reconstruction via Mesh representations. To simplify the problem, RoMe decomposes a 3D road surface into a triangle-mesh and a multilayer perception network to model the road elevation implicitly. To retain fine surface details, each mesh vertex has two extra attributes, namely color and semantics. To improve the efficiency of RoMe in large-scale environments, a novel waypoint sampling method is introduced. As such, RoMe can properly preserve road surface details, with only linear computational complexity to road areas. In addition, to improve the accuracy of RoMe, extrinsics optimization is proposed to mitigate inaccurate extrinsic calibrations. Experimental results on popular public datasets also demonstrate the high efficiency and accuracy of RoMe.
翻訳日:2023-06-21 15:03:25 公開日:2023-06-20
# テキストから画像への生成の実践

The Cultivated Practices of Text-to-Image Generation ( http://arxiv.org/abs/2306.11393v1 )

ライセンス: Link先を確認
Jonas Oppenlaender(参考訳) 人間は、誰でも生成人工知能(AI)を使ってデジタル情報を合成できる新しい創造的時代に入った。 特にテキスト・ツー・イメージ・ジェネレーションは非常に人気があり、何百万人もの実践者がAI生成画像やAIアートをオンラインで制作している。 この章ではまず、テキスト・ツー・イメージ生成に関する健全な共創造的なオンラインエコシステムが急速に出現し、続いて、このエコシステムにおける重要な要素の高レベルな説明を行う。 AIアートコミュニティによって受け入れられた創造的なプラクティスである、プロンプトエンジニアリングに特に焦点が当てられている。 次に、新興の共同創造的エコシステムは、人間の創造性をサポートするだけでなく、将来の世代を誘引し、aiにおける将来の開発努力を制限するシステムという、それ自体で知的なシステムを構成していると論じる。 この章では、今日のトレーニングデータに固有のバイアス、合成データによる将来の画像生成システムの潜在的な品質劣化、人々の想像力、野心、発展に対するテキスト・ツー・イメージ・ジェネレーションの長期的な影響など、この共同創造的エコシステムを育む潜在的なリスクと危険性について論じている。

Humankind is entering a novel creative era in which anybody can synthesize digital information using generative artificial intelligence (AI). Text-to-image generation, in particular, has become vastly popular and millions of practitioners produce AI-generated images and AI art online. This chapter first gives an overview of the key developments that enabled a healthy co-creative online ecosystem around text-to-image generation to rapidly emerge, followed by a high-level description of key elements in this ecosystem. A particular focus is placed on prompt engineering, a creative practice that has been embraced by the AI art community. It is then argued that the emerging co-creative ecosystem constitutes an intelligent system on its own - a system that both supports human creativity, but also potentially entraps future generations and limits future development efforts in AI. The chapter discusses the potential risks and dangers of cultivating this co-creative ecosystem, such as the bias inherent in today's training data, potential quality degradation in future image generation systems due to synthetic data becoming common place, and the potential long-term effects of text-to-image generation on people's imagination, ambitions, and development.
翻訳日:2023-06-21 15:02:26 公開日:2023-06-20
# モデルはドキュメントを理解できたか? 文書レベル関係抽出における言語理解のためのベンチマークモデル

Did the Models Understand Documents? Benchmarking Models for Language Understanding in Document-Level Relation Extraction ( http://arxiv.org/abs/2306.11386v1 )

ライセンス: Link先を確認
Haotian Chen, Bingsheng Chen, Xiangdong Zhou(参考訳) 近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。 モデルがDocREで一貫したパフォーマンス向上を達成する一方で、その根底にある決定ルールはまだ検討されている。 本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。 具体的には、DocREで人間が考える理性を提供するために、まずアノテーションを実践する。 人間とは対照的に、DocREの代表的な最先端(SOTA)モデルは、異なる決定ルールを示します。 提案する再特定攻撃により、モデルと人間の決定規則の重大な不一致がモデルの堅牢性に重大なダメージを与え、実際のreシナリオに適用できないことを実証する。 その後、モデルの理解と推論能力を評価するために平均平均精度(MAP)を導入する。 広範な実験結果により,性能評価とモデル理解能力の両立について検討する今後の研究に,我々は最終的にアピールする。 私たちはアノテーションとコードを公開しています。

Document-level relation extraction (DocRE) attracts more research interest recently. While models achieve consistent performance gains in DocRE, their underlying decision rules are still understudied: Do they make the right predictions according to rationales? In this paper, we take the first step toward answering this question and then introduce a new perspective on comprehensively evaluating a model. Specifically, we first conduct annotations to provide the rationales considered by humans in DocRE. Then, we conduct investigations and reveal the fact that: In contrast to humans, the representative state-of-the-art (SOTA) models in DocRE exhibit different decision rules. Through our proposed RE-specific attacks, we next demonstrate that the significant discrepancy in decision rules between models and humans severely damages the robustness of models and renders them inapplicable to real-world RE scenarios. After that, we introduce mean average precision (MAP) to evaluate the understanding and reasoning capabilities of models. According to the extensive experimental results, we finally appeal to future work to consider evaluating both performance and the understanding ability of models for the development of their applications. We make our annotations and code publicly available.
翻訳日:2023-06-21 15:02:04 公開日:2023-06-20
# ガウス過程ネットワークに対するベイズ的アプローチ

A Bayesian Take on Gaussian Process Networks ( http://arxiv.org/abs/2306.11380v1 )

ライセンス: Link先を確認
Enrico Giudice, Jack Kuipers, Giusi Moffa(参考訳) ガウス過程ネットワーク(英: gaussian process network、gpns)は、ネットワーク内の各変数の条件付き期待値の事前としてガウス過程を用いる有向グラフィカルモデルのクラスである。 このモデルは、変数間の依存関係に関する最小限のパラメトリック仮定で、コンパクトで柔軟な方法で連続的なジョイント分布を記述することができる。 GPNのベイズ構造学習は、ネットワークのグラフの後方を計算し、低次元でも計算不可能である。 この研究はモンテカルロとマルコフ連鎖モンテカルロ法を実装し、ネットワーク構造の後方分布からサンプルを得る。 このように、このアプローチはベイズパラダイムに従い、その限界確率によるモデルの比較とGPN特徴の後方確率の計算を行う。 シミュレーションにより,本手法はネットワークのグラフィカルな構造の復元において最先端のアルゴリズムよりも優れており,その後方分布を精度良く近似できることを示した。

Gaussian Process Networks (GPNs) are a class of directed graphical models which employ Gaussian processes as priors for the conditional expectation of each variable given its parents in the network. The model allows describing continuous joint distributions in a compact but flexible manner with minimal parametric assumptions on the dependencies between variables. Bayesian structure learning of GPNs requires computing the posterior over graphs of the network and is computationally infeasible even in low dimensions. This work implements Monte Carlo and Markov Chain Monte Carlo methods to sample from the posterior distribution of network structures. As such, the approach follows the Bayesian paradigm, comparing models via their marginal likelihood and computing the posterior probability of the GPN features. Simulation studies show that our method outperforms state-of-the-art algorithms in recovering the graphical structure of the network and provides an accurate approximation of its posterior distribution.
翻訳日:2023-06-21 15:01:46 公開日:2023-06-20
# 理論に基づくモラルAI:規範的倫理理論に基づくモデル集約型モラルAI

Towards Theory-based Moral AI: Moral AI with Aggregating Models Based on Normative Ethical Theory ( http://arxiv.org/abs/2306.11432v1 )

ライセンス: Link先を確認
Masashi Takeshita and Rzepka Rafal and Kenji Araki(参考訳) 道徳的AIは哲学と人工知能の分野で研究されている。 既存の研究のほとんどは理論的にのみ存在するが、近年のAIの発展により、道徳的なAIを実装する必要性がますます高まっている。 一方、人間は道徳的に正しいことを知らないという道徳的不確実性の下にいる。 本稿では、3つの規範的倫理理論に基づいてモデルの出力を集約し、最も適切な出力を生成する最大選択性(MEC)アルゴリズムを実装した。 MECは道徳的不確実性の下で適切な道徳判断を行う方法である。 実験の結果,MECの出力はコモンセンスのモラルとある程度相関し,MECが既存手法と同等以上の出力を生成できることが示唆された。

Moral AI has been studied in the fields of philosophy and artificial intelligence. Although most existing studies are only theoretical, recent developments in AI have made it increasingly necessary to implement AI with morality. On the other hand, humans are under the moral uncertainty of not knowing what is morally right. In this paper, we implement the Maximizing Expected Choiceworthiness (MEC) algorithm, which aggregates outputs of models based on three normative theories of normative ethics to generate the most appropriate output. MEC is a method for making appropriate moral judgments under moral uncertainty. Our experimental results suggest that the output of MEC correlates to some extent with commonsense morality and that MEC can produce equally or more appropriate output than existing methods.
翻訳日:2023-06-21 14:53:43 公開日:2023-06-20
# 携帯端末におけるNLP用変圧器モデルの性能と効率の探索

Exploring the Performance and Efficiency of Transformer Models for NLP on Mobile Devices ( http://arxiv.org/abs/2306.11426v1 )

ライセンス: Link先を確認
Ioannis Panopoulos, Sokratis Nikolaidis, Stylianos I. Venieris, Iakovos S. Venieris(参考訳) ディープラーニング(dl)はそのダイナミックな性質によって特徴付けられ、新しいディープニューラルネットワーク(dnn)アーキテクチャとアプローチが数年毎に出現し、この分野の進歩を促している。 それと同時に、モバイルデバイス(MD)の利用が増加し、DNNベースのモバイルアプリケーションが急増している。 cnnやrnnといった従来のアーキテクチャはmdsにうまく統合されているが、aiタスク間で新たなレベルの精度を達成した比較的新しいモデルファミリであるtransformersでは、これは当てはまらない。 本研究では,トランスフォーマーのオンデバイス実行の現状を調べることで,このギャップを埋めるためのステップを構築することを目的とする。 この目的のために,代表モデルのベンチマークを構築し,計算能力の異なるmds間の性能を徹底的に評価する。 実験の結果,トランスフォーマーはアクセルフレンドリではなく,効率的なデプロイメントを実現するためのソフトウェアやハードウェアの最適化の必要性が示された。

Deep learning (DL) is characterised by its dynamic nature, with new deep neural network (DNN) architectures and approaches emerging every few years, driving the field's advancement. At the same time, the ever-increasing use of mobile devices (MDs) has resulted in a surge of DNN-based mobile applications. Although traditional architectures, like CNNs and RNNs, have been successfully integrated into MDs, this is not the case for Transformers, a relatively new model family that has achieved new levels of accuracy across AI tasks, but poses significant computational challenges. In this work, we aim to make steps towards bridging this gap by examining the current state of Transformers' on-device execution. To this end, we construct a benchmark of representative models and thoroughly evaluate their performance across MDs with different computational capabilities. Our experimental results show that Transformers are not accelerator-friendly and indicate the need for software and hardware optimisations to achieve efficient deployment.
翻訳日:2023-06-21 14:53:32 公開日:2023-06-20
# 翻訳データセットを用いた多言語構成一般化の評価について

On Evaluating Multilingual Compositional Generalization with Translated Datasets ( http://arxiv.org/abs/2306.11420v1 )

ライセンス: Link先を確認
Zi Wang and Daniel Hershcovich(参考訳) 構成一般化は効率的な学習と人間のような帰納バイアスを可能にする。 NLPの合成一般化に関するほとんどの研究は英語で行われているため、重要な疑問は未解決のままである。 必要な構成一般化能力は言語によって異なるか? モデルの構成的一般化は可能か? これらの質問に答える第一歩として、最近の研究では、セマンティック解析における合成一般化を評価するために、データセットの翻訳にニューラルネットワーク翻訳を用いた。 しかし,これは重要な意味的歪みを伴うことを示す。 この制限に対処するため、MCWQデータセットを英語から中国語、日本語に忠実に翻訳する。 MCWQ-Rと呼ばれるロバストなベンチマークが得られたとしても、構成の分布は言語的ばらつきによって依然として苦しめられ、多言語モデルも言語間合成の一般化に苦慮している。 我々のデータセットと方法論は、他のタスクにおける言語間合成の一般化の研究に有用である。

Compositional generalization allows efficient learning and human-like inductive biases. Since most research investigating compositional generalization in NLP is done on English, important questions remain underexplored. Do the necessary compositional generalization abilities differ across languages? Can models compositionally generalize cross-lingually? As a first step to answering these questions, recent work used neural machine translation to translate datasets for evaluating compositional generalization in semantic parsing. However, we show that this entails critical semantic distortion. To address this limitation, we craft a faithful rule-based translation of the MCWQ dataset from English to Chinese and Japanese. Even with the resulting robust benchmark, which we call MCWQ-R, we show that the distribution of compositions still suffers due to linguistic divergences, and that multilingual models still struggle with cross-lingual compositional generalization. Our dataset and methodology will be useful resources for the study of cross-lingual compositional generalization in other tasks.
翻訳日:2023-06-21 14:53:15 公開日:2023-06-20
# 機械学習に基づく確率力学系の大規模偏差プレファクタの計算

Computing large deviation prefactors of stochastic dynamical systems based on machine learning ( http://arxiv.org/abs/2306.11418v1 )

ライセンス: Link先を確認
Yang Li, Shenglan Yuan, Linghongzhi Lu, Xianbin Liu(参考訳) 本稿では,弱雑音の限界における確率力学系の希少事象の指数的推定を特徴付ける大偏差理論を提案する。 本研究は,機械学習による大規模偏差要素の計算を通じて,より正確な平均終了時間の計算を行うために,次から次への近似を検討することを目的とする。 より具体的には、ベクトル場の直交分解に基づく準ポテンシャル、最も確率の高い経路とプレファクタを計算するためのニューラルネットワークフレームワークを設計する。 我々は,本アルゴリズムの有効性と精度を実例で検証した。 数値実験は、弱いランダム変動によって引き起こされる稀な事象の内部メカニズムを探索する上で、その強力な機能を示す。

In this paper, we present large deviation theory that characterizes the exponential estimate for rare events of stochastic dynamical systems in the limit of weak noise. We aim to consider next-to-leading-order approximation for more accurate calculation of mean exit time via computing large deviation prefactors with the research efforts of machine learning. More specifically, we design a neural network framework to compute quasipotential, most probable paths and prefactors based on the orthogonal decomposition of vector field. We corroborate the higher effectiveness and accuracy of our algorithm with a practical example. Numerical experiments demonstrate its powerful function in exploring internal mechanism of rare events triggered by weak random fluctuations.
翻訳日:2023-06-21 14:53:00 公開日:2023-06-20
# PyRCA: メトリクスベースのルート原因分析ライブラリ

PyRCA: A Library for Metric-based Root Cause Analysis ( http://arxiv.org/abs/2306.11417v1 )

ライセンス: Link先を確認
Chenghao Liu, Wenzhuo Yang, Himanshu Mittal, Manpreet Singh, Doyen Sahoo, Steven C. H. Hoi(参考訳) 我々は、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースのPython機械学習ライブラリであるPyRCAを紹介する。 複雑なメトリック因果依存関係を解明し、インシデントの根本原因を自動的に特定するための、包括的なフレームワークを提供する。 複数のRCAモデルに対して統一インターフェースを提供し、グラフの構成とスコアリングの両方を包含する。 このライブラリは、it運用スタッフ、データサイエンティスト、研究者に、迅速なモデル開発、モデル評価、オンラインアプリケーションへのデプロイのためのワンステップソリューションを提供することを目的としている。 特に,本ライブラリには,因果グラフ構築を支援する様々な因果探索手法と,ベイズ解析,グラフ解析,因果解析等に触発された複数の原因抽出手法が含まれている。 私たちのguiダッシュボードは、直感的なポイント・アンド・クリックのインターフェースを実践者に提供します。 因果グラフとインシデントの根本原因を視覚化する能力によって、実践者はすぐに洞察を得てワークフローの効率を改善することができる。 この技術報告では、PyRCAのアーキテクチャと主要な機能を紹介するとともに、様々なベースラインモデルと比較してベンチマーク性能を示す。 さらに、いくつかのユースケースを通してPyRCAの機能を示す。

We introduce PyRCA, an open-source Python machine learning library of Root Cause Analysis (RCA) for Artificial Intelligence for IT Operations (AIOps). It provides a holistic framework to uncover the complicated metric causal dependencies and automatically locate root causes of incidents. It offers a unified interface for multiple commonly used RCA models, encompassing both graph construction and scoring tasks. This library aims to provide IT operations staff, data scientists, and researchers a one-step solution to rapid model development, model evaluation and deployment to online applications. In particular, our library includes various causal discovery methods to support causal graph construction, and multiple types of root cause scoring methods inspired by Bayesian analysis, graph analysis and causal analysis, etc. Our GUI dashboard offers practitioners an intuitive point-and-click interface, empowering them to easily inject expert knowledge through human interaction. With the ability to visualize causal graphs and the root cause of incidents, practitioners can quickly gain insights and improve their workflow efficiency. This technical report introduces PyRCA's architecture and major functionalities, while also presenting benchmark performance numbers in comparison to various baseline models. Additionally, we demonstrate PyRCA's capabilities through several example use cases.
翻訳日:2023-06-21 14:52:43 公開日:2023-06-20
# CVPR 2023のマルチスケールOcc:第4位, 3次元稼働予測問題

Multi-Scale Occ: 4th Place Solution for CVPR 2023 3D Occupancy Prediction Challenge ( http://arxiv.org/abs/2306.11414v1 )

ライセンス: Link先を確認
Yangyang Ding, Luying Huang, Jiachen Zhong(参考訳) 本稿では,CVPR 2023の3D占有率予測問題に対する第4位ソリューションを提案する。 本稿では,複数フレームの時間融合により,より優れたマルチスケール3Dボクセル特徴を生成するためのマルチスケール画像特徴を導入する,リフト・スパッチ・シューティング・フレームワークに基づく占有予測のためのマルチスケールOccという簡単な手法を提案する。 モデルアンサンブル、テスト時間拡張、クラスワイズthreshを含む後処理が採用され、最終的なパフォーマンスがさらに向上する。 リーダーボードに示すように,提案手法は49.36mIoUの4位にランクインする。

In this report, we present the 4th place solution for CVPR 2023 3D occupancy prediction challenge. We propose a simple method called Multi-Scale Occ for occupancy prediction based on lift-splat-shoot framework, which introduces multi-scale image features for generating better multi-scale 3D voxel features with temporal fusion of multiple past frames. Post-processing including model ensemble, test-time augmentation, and class-wise thresh are adopted to further boost the final performance. As shown on the leaderboard, our proposed occupancy prediction method ranks the 4th place with 49.36 mIoU.
翻訳日:2023-06-21 14:52:23 公開日:2023-06-20
# 大規模グラフ生成のための階層型GNN

Hierarchical GNNs for Large Graph Generation ( http://arxiv.org/abs/2306.11412v1 )

ライセンス: Link先を確認
Alex O. Davies, Nirav S. Ajmeri, Telmo M. Silva Filho(参考訳) 大規模なグラフは、ソーシャルネットワーク、民間インフラ、物理科学など、いくつかの分野に存在している。 グラフ生成も同様に広く普及し、創薬、ネットワーク分析、合成データセットなどに応用されている。 GNN(Graph Neural Network)モデルはこれらの領域に適用されているが、高インメモリコストは小さなグラフに制限されている。 逆に、コストのかかるルールベースの手法は複雑な構造を再現するのに苦労する。 HIGGS (Hierarchical Generation of Graphs) を現実的な局所構造を持つグラフを生成するモデルに依存しないフレームワークとして提案する。 HIGGSは、条件生成機能を備えたGNNモデルを使用して、解像度の階層内のグラフをサンプリングする。 その結果、HIGGSは与えられたGNNモデルから生成されたグラフのスケールを2次順序で拡張する能力を持つ。 実演として,新しいエッジ予測拡散変種エッジディグレスを含むグラフ拡散モデルであるDiGressを用いてHIGGSを実装した。 この実装を使用して、数万のノードで分類的に属性付けられたグラフを生成する。 これらのHIGGS生成グラフは、以前GNNで作成されたグラフよりもはるかに大きい。 このスケールの飛躍にもかかわらず、HIGGSが生成するグラフは、局所的なスケールで、ルールベースのモデルであるBTERよりも現実的であることを示す。

Large graphs are present in a variety of domains, including social networks, civil infrastructure, and the physical sciences to name a few. Graph generation is similarly widespread, with applications in drug discovery, network analysis and synthetic datasets among others. While GNN (Graph Neural Network) models have been applied in these domains their high in-memory costs restrict them to small graphs. Conversely less costly rule-based methods struggle to reproduce complex structures. We propose HIGGS (Hierarchical Generation of Graphs) as a model-agnostic framework of producing large graphs with realistic local structures. HIGGS uses GNN models with conditional generation capabilities to sample graphs in hierarchies of resolution. As a result HIGGS has the capacity to extend the scale of generated graphs from a given GNN model by quadratic order. As a demonstration we implement HIGGS using DiGress, a recent graph-diffusion model, including a novel edge-predictive-diffusion variant edge-DiGress. We use this implementation to generate categorically attributed graphs with tens of thousands of nodes. These HIGGS generated graphs are far larger than any previously produced using GNNs. Despite this jump in scale we demonstrate that the graphs produced by HIGGS are, on the local scale, more realistic than those from the rule-based model BTER.
翻訳日:2023-06-21 14:52:10 公開日:2023-06-20
# 不変残差学習による3次元特性の安定・一貫性予測

Stable and Consistent Prediction of 3D Characteristic Orientation via Invariant Residual Learning ( http://arxiv.org/abs/2306.11406v1 )

ライセンス: Link先を確認
Seungwook Kim, Chunghyun Park, Yoonwoo Jeong, Jaesik Park, Minsu Cho(参考訳) 3次元点雲の信頼性のある特性配向を予測することは、同じクラスの異なる点雲に大きく異なる外観があるため、重要な課題である。 本稿では,入力点雲の形状形状と意味を分離し,安定性と一貫性を両立させる新しい手法を提案する。 提案手法は形状幾何学に基づくSO(3)-同変学習と形状意味に基づくSO(3)-不変残差学習を統合し,SO(3)-同変残差回転を用いてSO(3)-同変配向仮説を校正することにより最終特性配向を求める。 実験では, 提案手法は安定性と整合性を向上するだけでなく, ランダムに回転した入力に対して, 点雲部分のセグメンテーションに適用した場合に, 最先端の性能を示す。

Learning to predict reliable characteristic orientations of 3D point clouds is an important yet challenging problem, as different point clouds of the same class may have largely varying appearances. In this work, we introduce a novel method to decouple the shape geometry and semantics of the input point cloud to achieve both stability and consistency. The proposed method integrates shape-geometry-based SO(3)-equivariant learning and shape-semantics-based SO(3)-invariant residual learning, where a final characteristic orientation is obtained by calibrating an SO(3)-equivariant orientation hypothesis using an SO(3)-invariant residual rotation. In experiments, the proposed method not only demonstrates superior stability and consistency but also exhibits state-of-the-art performances when applied to point cloud part segmentation, given randomly rotated inputs.
翻訳日:2023-06-21 14:51:51 公開日:2023-06-20
# 均一電場及び磁場中の平面フェルミオンに対するフェルミオン縮合と真空エネルギー-モーメントテンソル

Fermionic condensate and the vacuum energy-momentum tensor for planar fermions in homogeneous electric and magnetic fields ( http://arxiv.org/abs/2306.11402v1 )

ライセンス: Link先を確認
V. V. Parazian(参考訳) 外部定数と均質な電場と磁場の平面上に局在した巨大なフェルミイオン量子場を考える。 磁場は平面に垂直であり、電場は平行である。 ディラック方程式に対する完全な解の集合が提示される。 真空状態の重要な物理特性として,フェルミオン凝縮とエネルギー-運動テンソルの期待値について検討した。 再正規化はHurwitz関数を用いて行われる。 結果は、ゼロ電界の場合の研究結果と比較される。 問題パラメータの値について,各領域における真空期待値の挙動について考察する。 その結果は、長波長近似におけるディラックモデルにより記述されたグラフェンシートの電子サブシステムを含む。

We consider a massive fermionic quantum field localized on a plane in external constant and homogeneous electric and magnetic fields. The magnetic field is perpendicular to the plane and the electric field is parallel. The complete set of solutions to the Dirac equation is presented. As important physical characteristics of the vacuum state, the fermion condensate and the expectation value of the energy-momentum tensor are investigated. The renormalization is performed using the Hurwitz function. The results are compared with those previously studied in the case of zero electric field. We discuss the behavior of the vacuum expectation values in different regions for the values of the problem parameters. Applications of the results include the electronic subsystem of graphene sheet described by the Dirac model in the long-wavelength approximation.
翻訳日:2023-06-21 14:51:34 公開日:2023-06-20
# MuDPT:大規模視力訓練モデルのためのマルチモーダルディープ・サイバティフィック・プロンプト・チューニング

MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models ( http://arxiv.org/abs/2306.11400v1 )

ライセンス: Link先を確認
Yongzhu Miao, Shasha Li, Jintao Tang and Ting Wang(参考訳) CoOpのようなプロンプトチューニングは、CLIPのような大規模トレーニング済みの視覚言語モデルの出現とともに、様々な下流タスクにおいて、将来有望な視覚認識と伝達学習能力を示した。 しかし,既存のユニモーダル・プロンプト・チューニング手法は,このユニモーダル設計が事前学習モデルにおけるテキストおよび視覚表現の本来のアライメントを損なうため,準最適性能をもたらす可能性がある。 事前学習された視覚言語モデルの性質に着想を得て,インシデントチューニングの完全性を実現し,MDPT(Multi-modal Deep-symphysis Prompt Tuning)と呼ばれる新しいアプローチを提案する。 画像認識および領域外一般化タスクにおける MuDPT の有効性を評価する。 最先端の手法と比較して、MDPTはテキストと視覚表現の相乗的アライメントにより、明らかなマージンで認識と一般化能力の向上を実現している。 コードはhttps://github.com/mechrev0/mudpt.com/。

Prompt tuning, like CoOp, has recently shown promising vision recognizing and transfer learning ability on various downstream tasks with the emergence of large pre-trained vision-language models like CLIP. However, we identify that existing uni-modal prompt tuning approaches may result in sub-optimal performance since this uni-modal design breaks the original alignment of textual and visual representations in the pre-trained model. Inspired by the nature of pre-trained vision-language models, we aim to achieve completeness in prompt tuning and propose a novel approach called Multi-modal Deep-symphysis Prompt Tuning, dubbed as MuDPT, which extends independent multi-modal prompt tuning by additionally learning a model-agnostic transformative network to allow deep hierarchical bi-directional prompt fusion. We evaluate the effectiveness of MuDPT on few-shot vision recognition and out-of-domain generalization tasks. Compared with the state-of-the-art methods, MuDPT achieves better recognition and generalization ability with an apparent margin thanks to synergistic alignment of textual and visual representations. Our code is available at: https://github.com/Mechrev0/MuDPT.
翻訳日:2023-06-21 14:51:23 公開日:2023-06-20
# 一般化不確実性原理モデルにおける準位置表現に関する考察

Remarks on the quasi-position representation in models of generalized uncertainty principle ( http://arxiv.org/abs/2306.11469v1 )

ライセンス: Link先を確認
Andr\'e H. Gomes(参考訳) このノートは、一般化不確実性原理(GUP)に基づく一次元モデルの研究で頻繁に使用される準位数表現の特定の側面を解明することを目的としている。 特に2つの重要な点に焦点を合わせます (i)最近の主張とは対照的に、準位作用素は非エルミート的であっても物理的な意味を持つことができ、また (ii) 準ポジション表現において、ポテンシャルエネルギーのような位置に関連する作用素は、期待値の計算方法が変更されない限り、準ポジション座標上で微分作用素として振る舞う。 両点の発展は、位置と準位作用素が同じ固有値の集合を共有し、非単項正準変換によって接続されるという観察を中心に展開される。 この結果は、GAPパラメータに広く参照される制約に影響を及ぼす可能性がある。

This note aims to elucidate certain aspects of the quasi-position representation frequently used in the investigation of one-dimensional models based on the generalized uncertainty principle (GUP). We specifically focus on two key points: (i) Contrary to recent claims, the quasi-position operator can possess physical significance even though it is non-Hermitian, and (ii) in the quasi-position representation, operators associated with the position, such as the potential energy, also behave as a derivative operator on the quasi-position coordinate, unless the method of computing expectation values is modified. The development of both points revolves around the observation that the position and quasi-position operators share the same set of eigenvalues and are connected through a non-unitary canonical transformation. This outcome may have implications for widely referenced constraints on GUP parameters.
翻訳日:2023-06-21 14:46:04 公開日:2023-06-20
# 各種シミュレート運転における自動運転のための深層強化学習の総合的訓練と評価

Comprehensive Training and Evaluation on Deep Reinforcement Learning for Automated Driving in Various Simulated Driving Maneuvers ( http://arxiv.org/abs/2306.11466v1 )

ライセンス: Link先を確認
Yongqi Dong, Tobias Datema, Vincent Wassenaar, Joris van de Weg, Cahit Tolga Kopar, and Harim Suleman(参考訳) 自動運転車を現実世界で開発してテストすることは、難しいし、危険かもしれない。 深層強化学習(DRL)は、複雑な意思決定やタスクの制御に学習と環境との相互作用を通じて取り組む可能性があり、まだ詳細は明らかにされていないが、自動走行の開発に適している。 本研究では,高速道路環境シミュレーションプラットフォーム上での自動走行の訓練を行うために,DQN(Deep Q-networks)とTRPO(Trust Region Policy Optimization)の2つのDRLアルゴリズムの実装,評価,比較を行った。 有効でカスタマイズされた報酬関数が開発され、実装されたアルゴリズムはオンレーンの精度(車線内の道路の走行速度)、効率性(車の走行速度)、安全性(車が障害物に衝突する確率)、快適性(例えば、車が突然加速またはブレーキする速度)で評価された。 その結果,修正報酬機能を備えたtrpoモデルが最も優れた性能を得られた。 さらに,特定道路以外の運転操作に対処可能な一様運転モデルの訓練を行うため,道路環境を拡大し,複合道路,各種運転操作と複数の道路シナリオを一体化して,さらにカスタマイズした訓練環境を構築した。 設計されたComplexRoads環境で訓練されたモデルは、他の運転操作にうまく適応でき、全体的な性能が期待できる。 最後に、この作業を実施するためにいくつかの機能が追加された。 コードはgithubのhttps://github.com/alaineman/drlcarsim.comで公開されている。

Developing and testing automated driving models in the real world might be challenging and even dangerous, while simulation can help with this, especially for challenging maneuvers. Deep reinforcement learning (DRL) has the potential to tackle complex decision-making and controlling tasks through learning and interacting with the environment, thus it is suitable for developing automated driving while not being explored in detail yet. This study carried out a comprehensive study by implementing, evaluating, and comparing the two DRL algorithms, Deep Q-networks (DQN) and Trust Region Policy Optimization (TRPO), for training automated driving on the highway-env simulation platform. Effective and customized reward functions were developed and the implemented algorithms were evaluated in terms of onlane accuracy (how well the car drives on the road within the lane), efficiency (how fast the car drives), safety (how likely the car is to crash into obstacles), and comfort (how much the car makes jerks, e.g., suddenly accelerates or brakes). Results show that the TRPO-based models with modified reward functions delivered the best performance in most cases. Furthermore, to train a uniform driving model that can tackle various driving maneuvers besides the specific ones, this study expanded the highway-env and developed an extra customized training environment, namely, ComplexRoads, integrating various driving maneuvers and multiple road scenarios together. Models trained on the designed ComplexRoads environment can adapt well to other driving maneuvers with promising overall performance. Lastly, several functionalities were added to the highway-env to implement this work. The codes are open on GitHub at https://github.com/alaineman/drlcarsim.
翻訳日:2023-06-21 14:45:52 公開日:2023-06-20
# 深層強化学習に基づくラウンドアバウトによる安全・効率的・快適・省エネルギー自動運転

Safe, Efficient, Comfort, and Energy-saving Automated Driving through Roundabout Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2306.11465v1 )

ライセンス: Link先を確認
Henan Yuan, Penghui Li, Bart van Arem, Liujiang Kang, and Yongqi Dong(参考訳) ラウンドアバウンドでの交通シナリオは、自動走行にかなりの複雑さをもたらす。 可能なすべてのシナリオを状態空間に手動でマッピングすることは、労働集約的で難しい。 環境との相互作用から学習する能力を備えた深層強化学習(DRL)は、そのような自動運転モデルのトレーニングのための有望なソリューションとして現れる。 本研究は,自動車のラウンドアバウトを通した運転を指示するために,DDPG(Deep Deterministic Policy Gradient),PPO(Proximal Policy Optimization),TRPO(Trust Region Policy Optimization)といったDRLアルゴリズムを探索し,採用し,実装する。 駆動状態空間、動作空間、報酬関数が設計される。 報酬関数は、現実世界の要求に合わせて安全、効率、快適、エネルギー消費を考慮する。 3つの試験されたDRLアルゴリズムはいずれも、自動運転車がラウンドアバウンドを走行できるようにすることに成功した。 これらのアルゴリズムの性能を確率的に評価するために,安全性,効率,快適度などの複数の指標を考慮した評価手法を構築した。 これらの評価指標を評価するために,解析階層プロセスを用いた手法も開発されている。 様々なテストシナリオにおける実験結果から,TRPOアルゴリズムはDDPGとPPOよりも安全性と効率が優れており,PPOは快適度において最高であることがわかった。 最後に、他の運転シナリオに対するモデルの適応性と堅牢性を検証するために、TRPOによって訓練されたモデルを、高速道路運転やマージなど、さまざまなテストシナリオに展開する。 実験結果から, 実走行シナリオのみを訓練したTRPOモデルは, ハイウェイ走行およびマージシナリオにおいて一定の習熟度を示した。 本研究は,実際の交通環境におけるDRLを用いた自動走行の基盤を提供する。

Traffic scenarios in roundabouts pose substantial complexity for automated driving. Manually mapping all possible scenarios into a state space is labor-intensive and challenging. Deep reinforcement learning (DRL) with its ability to learn from interacting with the environment emerges as a promising solution for training such automated driving models. This study explores, employs, and implements various DRL algorithms, namely Deep Deterministic Policy Gradient (DDPG), Proximal Policy Optimization (PPO), and Trust Region Policy Optimization (TRPO) to instruct automated vehicles' driving through roundabouts. The driving state space, action space, and reward function are designed. The reward function considers safety, efficiency, comfort, and energy consumption to align with real-world requirements. All three tested DRL algorithms succeed in enabling automated vehicles to drive through the roundabout. To holistically evaluate the performance of these algorithms, this study establishes an evaluation methodology considering multiple indicators such as safety, efficiency, and comfort level. A method employing the Analytic Hierarchy Process is also developed to weigh these evaluation indicators. Experimental results on various testing scenarios reveal that the TRPO algorithm outperforms DDPG and PPO in terms of safety and efficiency, and PPO performs best in terms of comfort level. Lastly, to verify the model's adaptability and robustness regarding other driving scenarios, this study also deploys the model trained by TRPO to a range of different testing scenarios, e.g., highway driving and merging. Experimental results demonstrate that the TRPO model trained on only roundabout driving scenarios exhibits a certain degree of proficiency in highway driving and merging scenarios. This study provides a foundation for the application of automated driving with DRL in real traffic environments.
翻訳日:2023-06-21 14:45:24 公開日:2023-06-20
# カオス量子系における変動流体力学の創発

Emergence of fluctuating hydrodynamics in chaotic quantum systems ( http://arxiv.org/abs/2306.11457v1 )

ライセンス: Link先を確認
Julian F. Wienand, Simon Karch, Alexander Impertro, Christian Schweizer, Ewan McCulloch, Romain Vasseur, Sarang Gopalakrishnan, Monika Aidelsburger, Immanuel Bloch(参考訳) カオス量子力学の基本的な原理は、局所サブシステムは最終的に熱平衡状態に近づくことである。 大きなサブシステムは熱を遅くし、その平衡へのアプローチは大規模変動の流体力学的蓄積によって制限される。 古典的外均衡系では、近年、ゆらぎの流体力学をモデル化するためにマクロ的ゆらぎ理論(MFT)の枠組みが開発された。 我々は,硬質コアボゾンラダーの粒子数変動の全計数統計をモニタする大規模量子シミュレーションを行い,弾道力学とカオス力学の対比を行った。 この結果とMTT予測との間には優れた一致が見られ、変動成長から拡散定数を正確に抽出することができる。 その結果, 孤立量子系の大規模変動は創発的な流体力学的挙動を示し, MFTの量子状態への適用性を高めることが示唆された。

A fundamental principle of chaotic quantum dynamics is that local subsystems eventually approach a thermal equilibrium state. Large subsystems thermalize slower: their approach to equilibrium is limited by the hydrodynamic build-up of large-scale fluctuations. For classical out-of-equilibrium systems, the framework of macroscopic fluctuation theory (MFT) was recently developed to model the hydrodynamics of fluctuations. We perform large-scale quantum simulations that monitor the full counting statistics of particle-number fluctuations in hard-core boson ladders, contrasting systems with ballistic and chaotic dynamics. We find excellent agreement between our results and MFT predictions, which allows us to accurately extract diffusion constants from fluctuation growth. Our results suggest that large-scale fluctuations of isolated quantum systems display emergent hydrodynamic behavior, expanding the applicability of MFT to the quantum regime.
翻訳日:2023-06-21 14:44:53 公開日:2023-06-20
# 重み付き報酬に対する頑健な時間差学習

Provably Robust Temporal Difference Learning for Heavy-Tailed Rewards ( http://arxiv.org/abs/2306.11455v1 )

ライセンス: Link先を確認
Semih Cayci and Atilla Eryilmaz(参考訳) 広範な強化学習アプリケーションでは、確率的報酬は重み付き分布を持ち、政策評価と直接政策最適化における確率的(半)段階の無限二階モーメントをもたらす。 そのような場合、既存のRL法は、しばしば統計的外れ値によって不運に失敗することがある。 本研究では,動的勾配クリッピング機構による時間差(TD)学習と,それに対応する自然なアクター・クリティカル(NAC)学習を,重み付き報酬分布に対して確実に堅牢化できることを示す。 線形関数近似の枠組みにおいて, この動的勾配クリッピング機構により, バイアスと確率勾配の変動性との間に好適なトレードオフが得られることを示した。 特に、td学習の頑健なバージョンは、$\mathcal{o}(\varepsilon^{-\frac{1}{p}})$ と$\mathcal{o}(\varepsilon^{-1-\frac{1}{p}})$ という順序のサンプル複素性を達成することを証明している。 我々は、ロバストなTD学習に基づくNACの堅牢な変種が、サンプルの複雑さに対して$\tilde{\mathcal{O}}(\varepsilon^{-4-\frac{2}{p}})を達成することを示す。 我々は理論結果を数値実験で裏付ける。

In a broad class of reinforcement learning applications, stochastic rewards have heavy-tailed distributions, which lead to infinite second-order moments for stochastic (semi)gradients in policy evaluation and direct policy optimization. In such instances, the existing RL methods may fail miserably due to frequent statistical outliers. In this work, we establish that temporal difference (TD) learning with a dynamic gradient clipping mechanism, and correspondingly operated natural actor-critic (NAC), can be provably robustified against heavy-tailed reward distributions. It is shown in the framework of linear function approximation that a favorable tradeoff between bias and variability of the stochastic gradients can be achieved with this dynamic gradient clipping mechanism. In particular, we prove that robust versions of TD learning achieve sample complexities of order $\mathcal{O}(\varepsilon^{-\frac{1}{p}})$ and $\mathcal{O}(\varepsilon^{-1-\frac{1}{p}})$ with and without the full-rank assumption on the feature matrix, respectively, under heavy-tailed rewards with finite moments of order $(1+p)$ for some $p\in(0,1]$, both in expectation and with high probability. We show that a robust variant of NAC based on Robust TD learning achieves $\tilde{\mathcal{O}}(\varepsilon^{-4-\frac{2}{p}})$ sample complexity. We corroborate our theoretical results with numerical experiments.
翻訳日:2023-06-21 14:44:39 公開日:2023-06-20
# ニューラルネットワークにおけるルールライクな一般化のための新しいタスクであるBlackbird Language matrices (BLM):動機と形式仕様

Blackbird language matrices (BLM), a new task for rule-like generalization in neural networks: Motivations and Formal Specifications ( http://arxiv.org/abs/2306.11444v1 )

ライセンス: Link先を確認
Paola Merlo(参考訳) 我々は,大規模言語モデルにおけるルールライクな一般化を微調整するための新しいタスクをモチベーションし,正式に定義する。 現在のLLMの欠点は、一般化する能力の欠如によるものであると推測されている。 その代わりに、複雑なデータから規則を抽出する傾向があるため、人間は一般化が優れていると論じられている。 この傾向をルールベースの一般化に再現しようと試みる。 例えばvisual raven iq testのような分析知性テストに曝されると、人間の問題解決者は、画像内の関連するオブジェクトとその関連する属性と理由を、これらのオブジェクトと属性に適用されるルールに基づいて識別する。 誘導されたルールに基づいて、彼らはテストの解決策を提供することができます。 我々はこのIQタスクを言語に変換するタスクを提案する。 本稿では,そのタスクの形式的仕様と,そのデータセットの生成プロセスについて述べる。

We motivate and formally define a new task for fine-tuning rule-like generalization in large language models. It is conjectured that the shortcomings of current LLMs are due to a lack of ability to generalize. It has been argued that, instead, humans are better at generalization because they have a tendency at extracting rules from complex data. We try to recreate this tendency to rule-based generalization. When exposed to tests of analytic intelligence, for example, the visual RAVEN IQ test, human problem-solvers identify the relevant objects in the picture and their relevant attributes and reason based on rules applied to these objects and attributes. Based on the induced rules, they are able to provide a solution to the test. We propose a task that translates this IQ task into language. In this paper, we provide the formal specification for the task and the generative process of its datasets.
翻訳日:2023-06-21 14:44:04 公開日:2023-06-20
# UUKG:都市時空間予測のための統一都市知識グラフデータセット

UUKG: Unified Urban Knowledge Graph Dataset for Urban Spatiotemporal Prediction ( http://arxiv.org/abs/2306.11443v1 )

ライセンス: Link先を確認
Yansong Ning, Hao Liu, Hao Wang, Zhenyu Zeng and Hui Xiong(参考訳) 正確な都市時空間予測(USTP)はスマートシティの開発と運用において非常に重要である。 ビルディングブロックとして、マルチソースの都市データは、都市時空間予測モデルに対する重要な知識を提供するために、通常都市知識グラフ(UrbanKG)として統合される。 しかし、既存のUrbanKGは特定の下流予測タスク用に調整されており、公開されていないため、潜在的な進歩は制限されている。 本稿では,知識強化型都市時空間予測のための統合都市知識グラフデータセットUUKGを提案する。 具体的には、行政区、POI、道路セグメントなどの異質な都市組織を接続することで、2つの都市圏に数百万のトリプルからなる都市KGを最初に構築する。 さらに,構築した都市kgの質的・定量的解析を行い,下流のustpタスクに活用可能な階層やサイクルといった多種多様な高次構造パターンを明らかにする。 我々は,UrbanKGの有効利用を検証するため,KG完了タスクに15個のKG埋め込み手法を実装し,学習したKG埋め込みを5つの異なるUTPタスクのための9つの時空間モデルに統合した。 この実験結果は、異なるタスク設定下での知識強化USTPモデルのベンチマークを提供するだけでなく、最先端の高次構造対応UrbanKG埋め込み手法の可能性も浮き彫りにしている。 提案するuukgは,都市ナレッジグラフと幅広いスマートシティ応用に関する研究を促進することを願っている。 データセットとソースコードはhttps://github.com/usail-hkust/UUKG/で入手できる。

Accurate Urban SpatioTemporal Prediction (USTP) is of great importance to the development and operation of the smart city. As an emerging building block, multi-sourced urban data are usually integrated as urban knowledge graphs (UrbanKGs) to provide critical knowledge for urban spatiotemporal prediction models. However, existing UrbanKGs are often tailored for specific downstream prediction tasks and are not publicly available, which limits the potential advancement. This paper presents UUKG, the unified urban knowledge graph dataset for knowledge-enhanced urban spatiotemporal predictions. Specifically, we first construct UrbanKGs consisting of millions of triplets for two metropolises by connecting heterogeneous urban entities such as administrative boroughs, POIs, and road segments. Moreover, we conduct qualitative and quantitative analysis on constructed UrbanKGs and uncover diverse high-order structural patterns, such as hierarchies and cycles, that can be leveraged to benefit downstream USTP tasks. To validate and facilitate the use of UrbanKGs, we implement and evaluate 15 KG embedding methods on the KG completion task and integrate the learned KG embeddings into 9 spatiotemporal models for five different USTP tasks. The extensive experimental results not only provide benchmarks of knowledge-enhanced USTP models under different task settings but also highlight the potential of state-of-the-art high-order structure-aware UrbanKG embedding methods. We hope the proposed UUKG fosters research on urban knowledge graphs and broad smart city applications. The dataset and source code are available at https://github.com/usail-hkust/UUKG/.
翻訳日:2023-06-21 14:43:48 公開日:2023-06-20
# 連続変数系における和不確かさ関係と量子絡み合いに対するトモグラフィー的アプローチ

A tomographic approach to the sum uncertainty relation and quantum entanglement in continuous variable systems ( http://arxiv.org/abs/2306.11436v1 )

ライセンス: Link先を確認
Soumyabrata Paul, S. Lakshmibala, V. Balakrishnan, and S. Ramanan(参考訳) エントロピック不確実性関係(EUR)は、主に量子ビット系において、ハイゼンベルクの不確実性原理を仮定して、絡み合いとの関係を含む様々な文脈で研究されている。 シャノンエントロピーにおけるそれらの生成により、eursは量子情報と量子光学の応用を見つける。 EURは状態に依存しており、状態はトモグラム(実験ですぐに利用できるヒストグラム)から再構成する必要がある。 これは、連続変数(CV)やある種のハイブリッド量子(HQ)システムのように、ヒルベルト空間が大きい場合の挑戦である。 別のアプローチとして、未知の量子状態に関する情報を適切なトモグラムから直接取り出す方法がある。 EURの多くの変種はトモグラムから計算できる。 文献では、トモグラフィから計算できる多くのトモグラフィエンタングルメントインジケータ(TEI)が定義されている。 この作品の目的は以下の通りである。 i) CVおよび本社システムにおけるEURとTEIの相互関係の時間的変化について, トモグラフィー手法を用いて検討した。 (II)EURの時間的進化を最もよく追跡するTEIを同定する。 2つのジェネリックシステムを考える。 1つ目は、量子化された放射場と相互作用する非線形振動子としてモデル化された多層原子である。 2つ目は、2つの放射場と相互作用する$\Lambda$-atomである。 前者のモデルは、teis と eurs の接続における場の初期状態と相互作用の強さと非線形性の比の役割に関する調査に対応している。 第2のモデルは、原子レベルが有限であるとき、混合状態二部構造とEURの間の接続を調べる可能性を開く。 トモグラムは古典的確率論の要求を尊重するので、この試みはシャノンエントロピーに根付いているこれらのEURの時間的挙動をTEIが反映する程度にも光を当てる。

Entropic uncertainty relations (EURs) have been examined in various contexts, primarily in qubit systems, including their links with entanglement, as they subsume the Heisenberg uncertainty principle. With their genesis in the Shannon entropy, EURs find applications in quantum information and quantum optics. EURs are state-dependent, and the state has to be reconstructed from tomograms (which are histograms readily available from experiments). This is a challenge when the Hilbert space is large, as in continuous variable (CV) and certain hybrid quantum (HQ) systems. An alternative approach is to extract information about the unknown quantum state directly from appropriate tomograms. Many variants of EURs can be computed from tomograms. In the literature many tomographic entanglement indicators (TEIs) that can be calculated from tomograms have been defined. The objectives of this work are as follows: (i) Use the tomographic approach to investigate the links between EURs and TEIs in CV and HQ systems as they evolve in time. (ii) Identify the TEI that most closely tracks the temporal evolution of EURs. We consider two generic systems. The first is a multilevel atom modeled as a nonlinear oscillator interacting with a quantized radiation field. The second is the $\Lambda$-atom interacting with two radiation fields. The former model accommodates investigations on the role of the initial state of the field and the ratio of the strengths of interaction and nonlinearity in the connection between TEIs and EURs. The second model opens up the possibility of examining the connection between mixed state bipartite entanglement and EURs, when the number of atomic levels is finite. Since the tomogram respects the requirements of classical probability theory, this effort also sheds light on the extent to which TEIs reflect the temporal behaviour of those EURs which are rooted in the Shannon entropy.
翻訳日:2023-06-21 14:43:23 公開日:2023-06-20
# ブラウン力学学習のためのグラフニューラル確率微分方程式

Graph Neural Stochastic Differential Equations for Learning Brownian Dynamics ( http://arxiv.org/abs/2306.11435v1 )

ライセンス: Link先を確認
Suresh Bishnoi, Jayadeva, Sayan Ranu, N. M. Anoop Krishnan(参考訳) 物理法則と対称性に基づく強い帰納的バイアスを利用するニューラルネットワーク(nns)は、その軌道から直接物理システムのダイナミクスを学ぶことに顕著な成功を示している。 しかし、これらの研究は、例えばニュートン力学やハミルトニアン力学など、決定論的ダイナミクスに従うシステムのみに焦点を当てている。 本稿では,確率微分方程式 (sdes) と gnn を組み合わせたブラウングラフニューラルネットワーク (brognet) を提案する。 理論的には、BROGNETはシステムの線形運動量を保持しており、経験的に明らかなような学習力学における優れた性能を提供する。 このアプローチは、線形ばね、二進粒子型線形ばね、非線形ばね系などいくつかの系で実証され、全て有限温度におけるブラウン力学に従っている。 BROGNETは、ベンチマークされたすべてのブラウン系システムで提案されたベースラインを著しく上回っている。 さらに,ブログネットのゼロショット一般化性を実証し,2桁の大きさで,トレーニング中に使用したものとは異なる温度のシステムサイズをシミュレートする。 本研究はブラウン運動の複雑なダイナミクスの理解の促進に寄与し,複雑なシステムのモデリングにおけるグラフニューラルネットワークの有効性を実証する。

Neural networks (NNs) that exploit strong inductive biases based on physical laws and symmetries have shown remarkable success in learning the dynamics of physical systems directly from their trajectory. However, these works focus only on the systems that follow deterministic dynamics, for instance, Newtonian or Hamiltonian dynamics. Here, we propose a framework, namely Brownian graph neural networks (BROGNET), combining stochastic differential equations (SDEs) and GNNs to learn Brownian dynamics directly from the trajectory. We theoretically show that BROGNET conserves the linear momentum of the system, which in turn, provides superior performance on learning dynamics as revealed empirically. We demonstrate this approach on several systems, namely, linear spring, linear spring with binary particle types, and non-linear spring systems, all following Brownian dynamics at finite temperatures. We show that BROGNET significantly outperforms proposed baselines across all the benchmarked Brownian systems. In addition, we demonstrate zero-shot generalizability of BROGNET to simulate unseen system sizes that are two orders of magnitude larger and to different temperatures than those used during training. Altogether, our study contributes to advancing the understanding of the intricate dynamics of Brownian motion and demonstrates the effectiveness of graph neural networks in modeling such complex systems.
翻訳日:2023-06-21 14:42:52 公開日:2023-06-20
# 潜在空間古典計画のための可能性に基づくヒューリスティックス

Plausibility-Based Heuristics for Latent Space Classical Planning ( http://arxiv.org/abs/2306.11434v1 )

ライセンス: Link先を確認
Yuta Takata and Alex Fukunaga(参考訳) LatPlanに関する最近の研究は、未ラベル画像データからドメインに依存しない古典的プランナーのモデルを学ぶことができることを示した。 LatPlanによって取得されたPDDLモデルは標準のPDDLプランナーを使って解決できるが、結果として生じる潜在空間プランは、基礎となる基底構造ドメイン(例えば、潜在空間プランは幻覚/無効状態を含む)に関して無効である可能性がある。 本稿では,探索中に評価された各状態に対して計算可能な,領域非依存な可算性指標である可算性に基づくヒューリスティックスを提案し,最上位探索のためのヒューリスティック関数として用いる。 PBHは画像ベースタイルパズルとハノイ藩タワーの有効計画数を大幅に増加させることを示した。

Recent work on LatPlan has shown that it is possible to learn models for domain-independent classical planners from unlabeled image data. Although PDDL models acquired by LatPlan can be solved using standard PDDL planners, the resulting latent-space plan may be invalid with respect to the underlying, ground-truth domain (e.g., the latent-space plan may include hallucinatory/invalid states). We propose Plausibility-Based Heuristics, which are domain-independent plausibility metrics which can be computed for each state evaluated during search and uses as a heuristic function for best-first search. We show that PBH significantly increases the number of valid found plans on image-based tile puzzle and Towers of Hanoi domains.
翻訳日:2023-06-21 14:42:30 公開日:2023-06-20
# 畳み込みニューラルネットワークを用いた大規模非定常空間共分散関数推定

Efficient Large-scale Nonstationary Spatial Covariance Function Estimation Using Convolutional Neural Networks ( http://arxiv.org/abs/2306.11487v1 )

ライセンス: Link先を確認
Pratik Nag, Yiping Hong, Sameh Abdulah, Ghulam A. Qadir, Marc G. Genton, and Ying Sun(参考訳) 気候や環境科学などの様々な分野で観測される空間過程は、しばしば大規模に発生し、空間的非定常性を示す。 非定常なMat\'ern共分散によるガウス過程のフィッティングは困難である。 文献におけるこれまでの研究は、共分散関数の空間的変化のパラメータを推定するために空間分割法を用いてこの問題に取り組んできた。 パーティションの選択は重要な考慮事項だが、しばしば主観的であり、データ駆動アプローチが欠けている。 本研究では,畳み込みニューラルネットワーク(convolutional neural network, convnets)のパワーを利用して,非定常データから部分領域を導出する。 定常場と類似した挙動を示す部分領域を識別するための選択機構を用いる。 定常場と非定常場を区別するために,様々なシミュレーションデータを用いたConvNetのトレーニングを行った。 これらのシミュレーションは、幅広いパラメータ設定の下でMat\'ern共分散モデルを持つガウス過程から生成され、定常空間データと非定常空間データの適切な表現が確保される。 本研究では,合成データと実データを用いて提案手法の性能を大規模に評価する。 その結果,従来のユーザ定義手法と比較して,ConvNetベースの分割に依存するパラメータ推定精度が向上した。

Spatial processes observed in various fields, such as climate and environmental science, often occur on a large scale and demonstrate spatial nonstationarity. Fitting a Gaussian process with a nonstationary Mat\'ern covariance is challenging. Previous studies in the literature have tackled this challenge by employing spatial partitioning techniques to estimate the parameters that vary spatially in the covariance function. The selection of partitions is an important consideration, but it is often subjective and lacks a data-driven approach. To address this issue, in this study, we utilize the power of Convolutional Neural Networks (ConvNets) to derive subregions from the nonstationary data. We employ a selection mechanism to identify subregions that exhibit similar behavior to stationary fields. In order to distinguish between stationary and nonstationary random fields, we conducted training on ConvNet using various simulated data. These simulations are generated from Gaussian processes with Mat\'ern covariance models under a wide range of parameter settings, ensuring adequate representation of both stationary and nonstationary spatial data. We assess the performance of the proposed method with synthetic and real datasets at a large scale. The results revealed enhanced accuracy in parameter estimations when relying on ConvNet-based partition compared to traditional user-defined approaches.
翻訳日:2023-06-21 14:34:17 公開日:2023-06-20
# 磁気双極子相互作用を含む高密度冷原子ガスの協調効果

Cooperative effects in dense cold atomic gases including magnetic dipole interactions ( http://arxiv.org/abs/2306.11486v1 )

ライセンス: Link先を確認
N. S. Bassler, I. Varma, M. Proske, P. Windpassinger, K. P. Schmidt and C. Genes(参考訳) 理論的には、例えばジスプロシウム原子の雲など、電気的・磁気的双極子相互作用を示す冷原子ガスにおける協調効果を理論的に検討する。 我々は、多くの体物理学的なアプローチをとる量子退化の場合と、開系力学の形式主義を用いる量子非退化の場合とを区別する。 量子非縮退性気体では、高励起限界における調整可能なスピンモデルの出現を示す。 低励起限界では、散乱光の方向に対する磁気相互作用の影響を詳細に分析し、サブ放射効果と超放射効果を特徴づける。 量子退化ガスに対しては、サブ放射効果と超放射効果の相互作用と、アンサンブルのフェルミオンまたはボゾン量子統計的性質について検討する。

We theoretically investigate cooperative effects in cold atomic gases exhibiting both electric and magnetic dipole-dipole interactions, such as occurring for example in clouds of dysprosium atoms. We distinguish between the quantum degenerate case, where we take a many body physics approach and the quantum non-degenerate case, where we use the formalism of open system dynamics. For quantum non-degenerate gases, we illustrate the emergence of tailorable spin models in the high-excitation limit. In the low-excitation limit, we provide analytical and numerical results detailing the effect of magnetic interactions on the directionality of scattered light and characterize sub- and superradiant effects. For quantum degenerate gases, we study the interplay between sub- and superradiance effects and the fermionic or bosonic quantum statistics nature of the ensemble.
翻訳日:2023-06-21 14:33:56 公開日:2023-06-20
# ニューラルテキスト生成のための明示的統語指導

Explicit Syntactic Guidance for Neural Text Generation ( http://arxiv.org/abs/2306.11485v1 )

ライセンス: Link先を確認
Yafu Li, Leyang Cui, Jianhao Yan, Yongjng Yin, Wei Bi, Shuming Shi, Yue Zhang(参考訳) 既存のテキスト生成モデルはシーケンシャル・ツー・シーケンスパラダイムに従っている。 生成文法は、人間が言語文法を学習することで自然言語テキストを生成することを示唆する。 本稿では,構成構文解析木をトップダウン方向に導いたシーケンスを生成する構文誘導型生成スキーマを提案する。 復号処理は,(1)原文が与えられた語彙化構文コンテキストにおける各構成詞の入力テキストの予測,(2)次レベルの構文コンテキストを構築するために各構成詞のマッピングと拡張の2つの部分に分けられる。 そこで本研究では,構文構造を階層的に検索する構造ビーム探索手法を提案する。 パラフレーズ生成と機械翻訳の実験により,提案手法は自己回帰ベースラインを上回り,解釈可能性,制御性,多様性の面での有効性を示した。

Most existing text generation models follow the sequence-to-sequence paradigm. Generative Grammar suggests that humans generate natural language texts by learning language grammar. We propose a syntax-guided generation schema, which generates the sequence guided by a constituency parse tree in a top-down direction. The decoding process can be decomposed into two parts: (1) predicting the infilling texts for each constituent in the lexicalized syntax context given the source sentence; (2) mapping and expanding each constituent to construct the next-level syntax context. Accordingly, we propose a structural beam search method to find possible syntax structures hierarchically. Experiments on paraphrase generation and machine translation show that the proposed method outperforms autoregressive baselines, while also demonstrating effectiveness in terms of interpretability, controllability, and diversity.
翻訳日:2023-06-21 14:33:40 公開日:2023-06-20
# Int-HRL:意図に基づく階層的強化学習を目指して

Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2306.11483v1 )

ライセンス: Link先を確認
Anna Penzkofer, Simon Schaefer, Florian Strohm, Mihai B\^ace, Stefan Leutenegger, Andreas Bulling(参考訳) 深層強化学習(RL)エージェントは、ますます多くのタスクにおいて人間よりも優れていますが、トレーニングには何十年もの人間のゲームプレイに相当するデータが必要です。 近年の階層的RL法では, 決定問題の構造に固有の情報を組み込むことで, 学習過程をガイドする人間の注釈付きサブゴールを発見・使用する必要が生じた。 我々は,Atari2600ゲームスイートにおいて最も難易度の高いRLタスクであるモンテズマのリベンジの長距離スパース報酬タスクにおいても,人間の選手の意図,すなわちゴール指向決定の先駆者である意図を目視からしっかりと予測できることを示す。 Int-HRL:人間の視線から推定される意図に基づくサブゴールを持つ階層型RLを提案する。 提案するサブgoal抽出パイプラインは完全に自動化され,人間の専門家による手動サブgoalアノテーションの必要性を置き換えている。 本評価の結果,手作りサブゴールを自動抽出した意図で置き換えることにより,従来の方法よりもはるかに効率のよいHRLエージェントが得られることがわかった。

While deep reinforcement learning (RL) agents outperform humans on an increasing number of tasks, training them requires data equivalent to decades of human gameplay. Recent hierarchical RL methods have increased sample efficiency by incorporating information inherent to the structure of the decision problem but at the cost of having to discover or use human-annotated sub-goals that guide the learning process. We show that intentions of human players, i.e. the precursor of goal-oriented decisions, can be robustly predicted from eye gaze even for the long-horizon sparse rewards task of Montezuma's Revenge - one of the most challenging RL tasks in the Atari2600 game suite. We propose Int-HRL: Hierarchical RL with intention-based sub-goals that are inferred from human eye gaze. Our novel sub-goal extraction pipeline is fully automatic and replaces the need for manual sub-goal annotation by human experts. Our evaluations show that replacing hand-crafted sub-goals with automatically extracted intentions leads to a HRL agent that is significantly more sample efficient than previous methods.
翻訳日:2023-06-21 14:33:27 公開日:2023-06-20
# 局所解釈可能なルールアンサンブルの学習

Learning Locally Interpretable Rule Ensemble ( http://arxiv.org/abs/2306.11481v1 )

ライセンス: Link先を確認
Kentaro Kanamori(参考訳) 本稿では,正確かつ解釈可能なルールアンサンブルモデルを学習するための新しいフレームワークを提案する。 ルールアンサンブルは重み付き規則の線形結合に基づく解釈可能なモデルである。 実際、私たちはしばしば規則アンサンブルの正確さと解釈可能性のトレードオフに直面します。 すなわち、ルールアンサンブルは、その正確性を維持するために十分な量の重み付けされたルールを含む必要がある。 このトレードオフを回避し、精度を低下させることなく解釈可能なルールアンサンブルを学ぶために、モデル自体を表現するのではなく、モデルによってなされる個々の予測を表現するのに必要なルールの総数によって評価される、ローカル解釈可能性という新しい概念を導入する。 次に,局所的な解釈可能性を促進する正規化子を提案し,局所探索と座標降下によって規則アンサンブルを学習するための効率的なアルゴリズムを提案する。 実験の結果,ルールファイトを含む既存手法と比較して,個々の予測を少ないルールで説明できるルールアンサンブルを学習し,精度を同等に維持できることがわかった。

This paper proposes a new framework for learning a rule ensemble model that is both accurate and interpretable. A rule ensemble is an interpretable model based on the linear combination of weighted rules. In practice, we often face the trade-off between the accuracy and interpretability of rule ensembles. That is, a rule ensemble needs to include a sufficiently large number of weighted rules to maintain its accuracy, which harms its interpretability for human users. To avoid this trade-off and learn an interpretable rule ensemble without degrading accuracy, we introduce a new concept of interpretability, named local interpretability, which is evaluated by the total number of rules necessary to express individual predictions made by the model, rather than to express the model itself. Then, we propose a regularizer that promotes local interpretability and develop an efficient algorithm for learning a rule ensemble with the proposed regularizer by coordinate descent with local search. Experimental results demonstrated that our method learns rule ensembles that can explain individual predictions with fewer rules than the existing methods, including RuleFit, while maintaining comparable accuracy.
翻訳日:2023-06-21 14:33:08 公開日:2023-06-20
# CATS: 大規模で高品質な現実的な中国語アンサーシーケンスデータセット

CATS: A Pragmatic Chinese Answer-to-Sequence Dataset with Large Scale and High Quality ( http://arxiv.org/abs/2306.11477v1 )

ライセンス: Link先を確認
Liang Li, Ruiying Geng, Chengyang Fang, Bing Li, Can Ma, Rongyu Cao, Binhua Li, Fei Huang, Yongbin Li(参考訳) 一般的なデータセットには3つの問題がある。 まず、大規模なデータセットはノイズを含むか、実際のアプリケーションシナリオを欠いている。 第二に、実際のアプリケーションに近いデータセットは比較的小さい。 最後に、現在のデータセットは、他の言語を過小評価しながら、英語に偏っている。 これらの制約を緩和するために,本論文では,大規模で高品質な実効的な中国語応答列データセットであるCATSを提案する。 このデータセットは、実用的なTableQAシステムで回答のテキスト記述を生成することを目的としている。 さらに、入力SQLとテーブル間の構造的ギャップを埋め、セマンティックアライメントを改善するために、2つのハイブリッドな知識リソースのための共同符号化空間を確立し、このタスクをグラフからテキストに変換する統一グラフ変換手法を提案する。 実験の結果,提案手法の有効性が示された。 CATSに関するさらなる分析は、データセットの高品質と課題の両方を証明している。

There are three problems existing in the popular data-to-text datasets. First, the large-scale datasets either contain noise or lack real application scenarios. Second, the datasets close to real applications are relatively small in size. Last, current datasets bias in the English language while leaving other languages underexplored. To alleviate these limitations, in this paper, we present CATS, a pragmatic Chinese answer-to-sequence dataset with large scale and high quality. The dataset aims to generate textual descriptions for the answer in the practical TableQA system. Further, to bridge the structural gap between the input SQL and table and establish better semantic alignments, we propose a Unified Graph Transformation approach to establish a joint encoding space for the two hybrid knowledge resources and convert this task to a graph-to-text problem. The experiment results demonstrate the effectiveness of our proposed method. Further analysis on CATS attests to both the high quality and challenges of the dataset.
翻訳日:2023-06-21 14:32:48 公開日:2023-06-20
# デリゲート分類

Delegated Classification ( http://arxiv.org/abs/2306.11475v1 )

ライセンス: Link先を確認
Eden Saig, Inbal Talgam-Cohen, Nir Rosenfeld(参考訳) 機械学習が合理的エージェントにアウトソースされると、関心の衝突が起こり、予測性能に深刻な影響を及ぼす可能性がある。 本研究では,機械学習タスクのインセンティブ対応デリゲーションに関する理論的枠組みを提案する。 我々は、パフォーマンスベースの契約を用いて、精度の高い学習をプリンシパルによってインセンティブ化できるプリンシパルエージェントゲームとしてデリゲーションをモデル化する。 契約設計の経済理論をこの設定に適用し、予算最適契約を定義し、合理的な仮定の下で単純なしきい値を取ることを証明します。 双対作用の場合、そのような契約の最適性は古典的なニーマン・ピアソン補題と同値であることが示され、契約設計と統計的仮説検定の間の形式的接続が確立される。 実証的に, 学習曲線やスケーリング則の研究の最近の進歩を活用して, 小規模データを用いて予算最適契約を構築できることを実証する。 実世界および実世界の分類タスクを用いて,パフォーマンスと経済性を評価する。

When machine learning is outsourced to a rational agent, conflicts of interest might arise and severely impact predictive performance. In this work, we propose a theoretical framework for incentive-aware delegation of machine learning tasks. We model delegation as a principal-agent game, in which accurate learning can be incentivized by the principal using performance-based contracts. Adapting the economic theory of contract design to this setting, we define budget-optimal contracts and prove they take a simple threshold form under reasonable assumptions. In the binary-action case, the optimality of such contracts is shown to be equivalent to the classic Neyman-Pearson lemma, establishing a formal connection between contract design and statistical hypothesis testing. Empirically, we demonstrate that budget-optimal contracts can be constructed using small-scale data, leveraging recent advances in the study of learning curves and scaling laws. Performance and economic outcomes are evaluated using synthetic and real-world classification tasks.
翻訳日:2023-06-21 14:32:34 公開日:2023-06-20
# 受動性に基づく加速凸最適化法

A Passivity-Based Method for Accelerated Convex Optimisation ( http://arxiv.org/abs/2306.11474v1 )

ライセンス: Link先を確認
Namhoon Cho, Hyo-Sang Shin(参考訳) 本研究では,連続時間領域における加速凸最適化アルゴリズムの設計手法を提案する。 2つの主要な実現要因は、制御理論におけるパッシリティの古典的な概念と、内部力学系の出力を最適化変数にマッピングする時間依存変数の変化である。 最適化ダイナミクスに関連するリアプノフ関数は、状態の進化をパッシブ線形時間不変量系として駆動する内部ダイナミクスを特定する自然な結果として得られる。 受動性に基づく手法は、目的関数値に異なる収束率境界を保証し、凸最適化アルゴリズムを生成する柔軟性を持つ汎用フレームワークを提供する。 同じ原理は、内部ダイナミクスの出力を再定義し、トラッキングエラーダイナミクスとのフィードバック相互接続を可能にすることで、適応制御のためのオンラインパラメータ更新アルゴリズムの設計にも適用される。

This study presents a constructive methodology for designing accelerated convex optimisation algorithms in continuous-time domain. The two key enablers are the classical concept of passivity in control theory and the time-dependent change of variables that maps the output of the internal dynamic system to the optimisation variables. The Lyapunov function associated with the optimisation dynamics is obtained as a natural consequence of specifying the internal dynamics that drives the state evolution as a passive linear time-invariant system. The passivity-based methodology provides a general framework that has the flexibility to generate convex optimisation algorithms with the guarantee of different convergence rate bounds on the objective function value. The same principle applies to the design of online parameter update algorithms for adaptive control by re-defining the output of internal dynamics to allow for the feedback interconnection with tracking error dynamics.
翻訳日:2023-06-21 14:32:19 公開日:2023-06-20
# タイムスタンプ付き埋め込み型音響言語CTC ASR

Timestamped Embedding-Matching Acoustic-to-Word CTC ASR ( http://arxiv.org/abs/2306.11473v1 )

ライセンス: Link先を確認
Woojay Jeon(参考訳) 本稿では,音声認識に加えて,実世界の多くのアプリケーションで要求される単語開始時間と継続時間を直接生成するように,単語レベル接続型時間分類 (ctc) 自動音声認識 (asr) を学習する新しい手法について述べる。 単語タイムスタンプにより、テスト時に二次モデルや強制アライメントプロセスに頼ることなく、ASRは単語分割と単語混乱ネットワークを出力できる。 提案システムは,単語開始時間の平均絶対誤差が3ms未満のDNN-HMM(Deep Neural Network-Hidden Markov Model)システムと類似した単語分割精度を有する。 同時に、同じ音声訓練データとほぼ同一のモデルサイズを使用する場合、単語誤り率を非タイムスタンプシステムと比較すると、単語誤り率の5%未満の増加を観測した。 また, 組込み型ASRのより厳密な解析にも貢献する。

In this work, we describe a novel method of training an embedding-matching word-level connectionist temporal classification (CTC) automatic speech recognizer (ASR) such that it directly produces word start times and durations, required by many real-world applications, in addition to the transcription. The word timestamps enable the ASR to output word segmentations and word confusion networks without relying on a secondary model or forced alignment process when testing. Our proposed system has similar word segmentation accuracy as a hybrid DNN-HMM (Deep Neural Network-Hidden Markov Model) system, with less than 3ms difference in mean absolute error in word start times on TIMIT data. At the same time, we observed less than 5% relative increase in the word error rate compared to the non-timestamped system when using the same audio training data and nearly identical model size. We also contribute more rigorous analysis of multiple-hypothesis embedding-matching ASR in general.
翻訳日:2023-06-21 14:32:04 公開日:2023-06-20
# 補間と確率予測のための時空間ディープクリグ

Spatio-temporal DeepKriging for Interpolation and Probabilistic Forecasting ( http://arxiv.org/abs/2306.11472v1 )

ライセンス: Link先を確認
Pratik Nag, Ying Sun, Brian J Reich(参考訳) ガウス過程(GP)とクリギング(Kriging)は、伝統的な時空間変調と予測に広く用いられている。 これらの手法は、データがパラメトリック共分散構造を持つ定常gpから観測されることを前提としている。 しかし、実世界の応用におけるプロセスは、しばしば非ガウス性および非定常性を示す。 さらに、GPの確率ベース推論は計算コストが高く、大規模なデータセットでは禁止される。 本稿では,時空間補間と予測のための深層ニューラルネットワーク(dnn)に基づく2段階モデルを提案する。 補間は第1ステップで行われ、時空間基底関数で構築された埋め込み層を持つ依存dnnを利用する。 第2段階では、Long-Short Term Memory (LSTM) と畳み込みLSTMを用いて、ある場所における将来の観測を予測する。 我々は,DNNにおける量子的損失関数を用いて確率予測を行う。 krigingと比較して,提案手法は共分散関数の指定や定常性仮定を必要とせず,計算効率が高い。 したがって、複雑な時空間過程の大規模予測に適している。 我々は,1999年1月から2022年12月までの時空位置を20万ドル以上で月間PM_{2.5}$データに適用し,不確実性のある値や予測の高速な計算を行った。

Gaussian processes (GP) and Kriging are widely used in traditional spatio-temporal mod-elling and prediction. These techniques typically presuppose that the data are observed from a stationary GP with parametric covariance structure. However, processes in real-world applications often exhibit non-Gaussianity and nonstationarity. Moreover, likelihood-based inference for GPs is computationally expensive and thus prohibitive for large datasets. In this paper we propose a deep neural network (DNN) based two-stage model for spatio-temporal interpolation and forecasting. Interpolation is performed in the first step, which utilizes a dependent DNN with the embedding layer constructed with spatio-temporal basis functions. For the second stage, we use Long-Short Term Memory (LSTM) and convolutional LSTM to forecast future observations at a given location. We adopt the quantile-based loss function in the DNN to provide probabilistic forecasting. Compared to Kriging, the proposed method does not require specifying covariance functions or making stationarity assumption, and is computationally efficient. Therefore, it is suitable for large-scale prediction of complex spatio-temporal processes. We apply our method to monthly $PM_{2.5}$ data at more than $200,000$ space-time locations from January 1999 to December 2022 for fast imputation of missing values and forecasts with uncertainties.
翻訳日:2023-06-21 14:31:46 公開日:2023-06-20
# 物理インフォームドニューラルネットワークを用いた室内インパルス応答の初期部分再構成のためのインプシット神経表現

Implicit neural representation with physics-informed neural networks for the reconstruction of the early part of room impulse responses ( http://arxiv.org/abs/2306.11509v1 )

ライセンス: Link先を確認
Mirco Pezzoli, Fabio Antonacci, Augusto Sarti(参考訳) 近年、音響学の様々な応用にディープラーニングと機械学習のアプローチが広く採用されている。 しかし,音場処理やリコンストラクションでは,波動方程式の解法に基づく古典的手法が普及している。 近年、物理インフォームドニューラルネットワークは、物理現象を管理する偏微分方程式を解くためのディープラーニングパラダイムとして提案され、純粋にデータ駆動とモデルに基づく方法のギャップを埋めている。 そこで, 物理インフォームドニューラルネットワークを用いて, 部屋のインパルス応答の初期部分を均一な線形配列で再構成する。 この手法により、基礎となる音響法則、すなわち波動方程式を活用でき、限られた数のデータポイントしか与えない物理的意味のある解をニューラルネットワークが生成せざるを得なくなる。 実測結果から,提案手法は,軽量なアーキテクチャを維持しつつ,最先端の深層学習・圧縮センシング技術に対して,精度の高い再現と性能を実現することを示す。

Recently deep learning and machine learning approaches have been widely employed for various applications in acoustics. Nonetheless, in the area of sound field processing and reconstruction classic methods based on the solutions of wave equation are still widespread. Recently, physics-informed neural networks have been proposed as a deep learning paradigm for solving partial differential equations which govern physical phenomena, bridging the gap between purely data-driven and model based methods. Here, we exploit physics-informed neural networks to reconstruct the early part of missing room impulse responses in an uniform linear array. This methodology allows us to exploit the underlying law of acoustics, i.e., the wave equation, forcing the neural network to generate physically meaningful solutions given only a limited number of data points. The results on real measurements show that the proposed model achieves accurate reconstruction and performance in line with respect to state-of-the-art deep-learning and compress sensing techniques while maintaining a lightweight architecture.
翻訳日:2023-06-21 14:26:41 公開日:2023-06-20
# TrustGPT: 信頼できる、責任のある大規模言語モデルのベンチマーク

TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models ( http://arxiv.org/abs/2306.11507v1 )

ライセンス: Link先を確認
Yue Huang and Qihui Zhang and Philip S. Y and Lichao Sun(参考訳) ChatGPTのような大規模言語モデル(LLM)は、その印象的な自然言語処理能力によって大きな注目を集めている。 これらのモデルを利用する際には、人間中心の原則を優先することが重要です。 LLMの倫理的および道徳的コンプライアンスを守ることは、非常に重要である。 しかし、最近のLSMでは、個々の倫理的問題が十分に研究されていない。 そこで本研究では,新たなベンチマークであるTrustGPTを導入することで,これらのギャップに対処することを目的とする。 TrustGPTは、毒性、バイアス、価値調整の3つの重要な領域におけるLCMの包括的な評価を提供する。 当初、TrustGPTは社会規範から派生した有毒なプロンプトテンプレートを用いて言語モデルの毒性を調べる。 その後、異なる群にわたる定量的毒性値を測定することにより、モデルのバイアスの程度を定量化する。 最後に、TrustGPTはアクティブバリューアライメントとパッシブバリューアライメントの両方から会話生成モデルの価値を評価する。 TrustGPTの実装を通じて、会話生成モデルの性能の理解を深め、より倫理的で社会的に責任のある言語モデルの開発を促進することを目的としている。

Large Language Models (LLMs) such as ChatGPT, have gained significant attention due to their impressive natural language processing capabilities. It is crucial to prioritize human-centered principles when utilizing these models. Safeguarding the ethical and moral compliance of LLMs is of utmost importance. However, individual ethical issues have not been well studied on the latest LLMs. Therefore, this study aims to address these gaps by introducing a new benchmark -- TrustGPT. TrustGPT provides a comprehensive evaluation of LLMs in three crucial areas: toxicity, bias, and value-alignment. Initially, TrustGPT examines toxicity in language models by employing toxic prompt templates derived from social norms. It then quantifies the extent of bias in models by measuring quantifiable toxicity values across different groups. Lastly, TrustGPT assesses the value of conversation generation models from both active value-alignment and passive value-alignment tasks. Through the implementation of TrustGPT, this research aims to enhance our understanding of the performance of conversation generation models and promote the development of language models that are more ethical and socially responsible.
翻訳日:2023-06-21 14:26:26 公開日:2023-06-20
# アライメント・アダプティブ・インジェクション:音誘導統一画像生成

Align, Adapt and Inject: Sound-guided Unified Image Generation ( http://arxiv.org/abs/2306.11504v1 )

ライセンス: Link先を確認
Yue Yang, Kaipeng Zhang, Yuying Ge, Wenqi Shao, Zeyue Xue, Yu Qiao, Ping Luo(参考訳) テキスト誘導画像生成は拡散モデルの開発により前例のない進歩をみせた。 テキストや画像以外にも、音は人間の知覚領域において重要な要素であり、鮮やかな表現を提供し、対応するシーンと自然に一致する。 そのため、音の活用は画像生成研究における探究に有望な道筋を示している。 しかし、音声と画像の監督の関係は未発達であり、関連する高品質データセットの不足はさらなる障害をもたらす。 本稿では、音声誘導画像生成、編集、スタイリングのための統合されたフレームワーク「Align, Adapt, and Inject」(AAI)を提案する。 特に,本手法では,従来の拡散型テキスト・トゥ・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。 具体的には、まずマルチモーダルエンコーダを訓練し、音声表現を予め学習したテキスト多様体と視覚多様体に合わせる。 そこで本研究では,凍結したT2Iモデルに柔軟に注入可能な,特定のセマンティクスに富んだ音声トークンに音声表現を適応させるオーディオアダプタを提案する。 このようにして、既存のT2Iモデルの強大な能力を利用して、様々な音の動的情報を抽出し、音声誘導画像生成、編集、スタイリゼーションを便利かつ安価に行うことができる。 実験の結果,提案したAAIは,他のテキストや音声誘導手法よりも優れていることを確認した。 また,マルチモーダル・エンコーダは,音声・視覚検索や音声・テキスト検索における他の手法と競合する。

Text-guided image generation has witnessed unprecedented progress due to the development of diffusion models. Beyond text and image, sound is a vital element within the sphere of human perception, offering vivid representations and naturally coinciding with corresponding scenes. Taking advantage of sound therefore presents a promising avenue for exploration within image generation research. However, the relationship between audio and image supervision remains significantly underdeveloped, and the scarcity of related, high-quality datasets brings further obstacles. In this paper, we propose a unified framework 'Align, Adapt, and Inject' (AAI) for sound-guided image generation, editing, and stylization. In particular, our method adapts input sound into a sound token, like an ordinary word, which can plug and play with existing powerful diffusion-based Text-to-Image (T2I) models. Specifically, we first train a multi-modal encoder to align audio representation with the pre-trained textual manifold and visual manifold, respectively. Then, we propose the audio adapter to adapt audio representation into an audio token enriched with specific semantics, which can be injected into a frozen T2I model flexibly. In this way, we are able to extract the dynamic information of varied sounds, while utilizing the formidable capability of existing T2I models to facilitate sound-guided image generation, editing, and stylization in a convenient and cost-effective manner. The experiment results confirm that our proposed AAI outperforms other text and sound-guided state-of-the-art methods. And our aligned multi-modal encoder is also competitive with other approaches in the audio-visual retrieval and audio-text retrieval tasks.
翻訳日:2023-06-21 14:26:11 公開日:2023-06-20
# Heteroskedastic Dataによる条件付き独立試験と因果発見への応用

Conditional Independence Testing with Heteroskedastic Data and Applications to Causal Discovery ( http://arxiv.org/abs/2306.11498v1 )

ライセンス: Link先を確認
Wiebke G\"unther, Urmi Ninad, jonas Wahl, Jakob Runge(参考訳) 条件独立テスト(CI)は、様々な科学分野におけるデータ分析や機械学習に頻繁に使われ、制約に基づく因果発見の基礎を形成する。 多くの場合、CIテストは強い、むしろ非現実的な仮定に依存します。 これらの仮定の1つはホモスケダスティック性であり、言い換えれば、一定の条件分散が仮定される。 我々は,構造因果モデルフレームワークにおけるヘテロケキスティック性に着目し,ヘテロケキスティックなノイズの存在下でうまく機能する部分相関ciテストの適応を示す。 さらに,ある仮定の下で因果発見を行うCIテストの理論的整合性について検討した。 数値因果探索実験により、適応された部分相関CIテストはヘテロスケダスティック性の存在下で標準試験より優れ、ホモスケダスティック性の場合と同程度であることが示された。 最後に,因果関係の発見において,ヘテロセクチュアリティに関する専門家の知識がどのように説明できるかについて,一般的な課題と限界について論じる。

Conditional independence (CI) testing is frequently used in data analysis and machine learning for various scientific fields and it forms the basis of constraint-based causal discovery. Oftentimes, CI testing relies on strong, rather unrealistic assumptions. One of these assumptions is homoskedasticity, in other words, a constant conditional variance is assumed. We frame heteroskedasticity in a structural causal model framework and present an adaptation of the partial correlation CI test that works well in the presence of heteroskedastic noise, given that expert knowledge about the heteroskedastic relationships is available. Further, we provide theoretical consistency results for the proposed CI test which carry over to causal discovery under certain assumptions. Numerical causal discovery experiments demonstrate that the adapted partial correlation CI test outperforms the standard test in the presence of heteroskedasticity and is on par for the homoskedastic case. Finally, we discuss the general challenges and limits as to how expert knowledge about heteroskedasticity can be accounted for in causal discovery.
翻訳日:2023-06-21 14:25:40 公開日:2023-06-20
# マルコフ鎖を経由する定数ステップサイズsgdの収束と濃度特性

Convergence and concentration properties of constant step-size SGD through Markov chains ( http://arxiv.org/abs/2306.11497v1 )

ライセンス: Link先を確認
Ibrahim Merad and St\'ephane Ga\"iffas(参考訳) 定常ステップサイズ確率勾配勾配(SGD)を用いた滑らかで強凸な対象の最適化を考察し,マルコフ連鎖のプリズムを通じてその特性を研究する。 ゆるやかに制御された分散を持つ偏りのない勾配推定では、反復は全変動距離の不変分布に収束する。 また, 勾配雑音分布の緩和された仮定下でのwasserstein-2距離の収束を, 従来よりも確立した。 極限分布の不変性により, 解析により, これらが勾配に当てはまるとき, 後者が準ガウス的あるいは準指数的濃度特性を継承することを示した。 これにより、最終的な推定に対する高信頼境界の導出が可能になる。 最後に、線形の場合のそのような条件下では、テール列のポリアック・ラッパート平均に対して無次元の偏差を求める。 結果はすべて非漸近的であり,その影響はいくつかの応用を通じて議論されている。

We consider the optimization of a smooth and strongly convex objective using constant step-size stochastic gradient descent (SGD) and study its properties through the prism of Markov chains. We show that, for unbiased gradient estimates with mildly controlled variance, the iteration converges to an invariant distribution in total variation distance. We also establish this convergence in Wasserstein-2 distance under a relaxed assumption on the gradient noise distribution compared to previous work. Thanks to the invariance property of the limit distribution, our analysis shows that the latter inherits sub-Gaussian or sub-exponential concentration properties when these hold true for the gradient. This allows the derivation of high-confidence bounds for the final estimate. Finally, under such conditions in the linear case, we obtain a dimension-free deviation bound for the Polyak-Ruppert average of a tail sequence. All our results are non-asymptotic and their consequences are discussed through a few applications.
翻訳日:2023-06-21 14:25:20 公開日:2023-06-20
# EMoG:拡散モデルによる運動性3Dジェスチャーの合成

EMoG: Synthesizing Emotive Co-speech 3D Gesture with Diffusion Model ( http://arxiv.org/abs/2306.11496v1 )

ライセンス: Link先を確認
Lianying Yin, Yijun Wang, Tianyu He, Jinming Liu, Wei Zhao, Bohan Li, Xin Jin, Jianxin Lin(参考訳) 従来の共同音声ジェスチャ生成手法は、音声の内容に合わせて動きを合成できるが、多種多様な複雑な動き分布を扱うには十分ではない。 主な課題は: 1) 発話内容とジェスチャーの間の一対一の性質 2) 関節の相関モデルについて検討した。 本稿では,上記の拡散モデルにおける課題に取り組むための新しい枠組み(emog)を提案する。 1)一対多の問題を軽減するため、生成プロセスのガイドに感情手がかりを取り入れ、生成をより容易にする。 2)ジョイント相関をモデル化するために,ジョイント相関モデリングと時間力学モデリングの2つのサブプロブレムに分割する。 そして,2つのサブプロブレムは,提案したJCFormer(Joint correlation-aware transFormer)に明示的に取り組まれる。 広範な評価を通じて,提案手法が従来の最先端手法を上回っており,ジェスチャ合成において極めて優れていることを示す。

Although previous co-speech gesture generation methods are able to synthesize motions in line with speech content, it is still not enough to handle diverse and complicated motion distribution. The key challenges are: 1) the one-to-many nature between the speech content and gestures; 2) the correlation modeling between the body joints. In this paper, we present a novel framework (EMoG) to tackle the above challenges with denoising diffusion models: 1) To alleviate the one-to-many problem, we incorporate emotion clues to guide the generation process, making the generation much easier; 2) To model joint correlation, we propose to decompose the difficult gesture generation into two sub-problems: joint correlation modeling and temporal dynamics modeling. Then, the two sub-problems are explicitly tackled with our proposed Joint Correlation-aware transFormer (JCFormer). Through extensive evaluations, we demonstrate that our proposed method surpasses previous state-of-the-art approaches, offering substantial superiority in gesture synthesis.
翻訳日:2023-06-21 14:24:54 公開日:2023-06-20
# ワイヤタップチャネル上の連続可変量子鍵分布に対する状態判別受信器の最適化

Optimizing state-discrimination receivers for continuous-variable quantum key distribution over a wiretap channel ( http://arxiv.org/abs/2306.11493v1 )

ライセンス: Link先を確認
Michele N. Notarnicola, Marcin Jarzyna, Stefano Olivares and Konrad Banaszek(参考訳) 我々は、コヒーレント状態の第四相シフトキー(QPSK)を用いた連続可変量子鍵分布(CV-QKD)プロトコルと、量子状態判別シナリオにおける誤差確率を最小化する量子受信機にインスパイアされた非ガウス計測に対処する。 純粋な損失量子ワイヤータップチャネルを仮定し、そのチャネルの損失を収集するために盗聴者を制限する。 状態判別受信機の特性評価を行い、鍵生成率(kgr)を最大化する最適化受信機、すなわち鍵レート最適化受信機(kor)を設計し、その性能をかなり良い測定値(pgm)とヘテロダインベースのプロトコルと比較する。 我々はKORが大都市圏間ネットワーク距離のKGRを増大させることを示す。 最後に, 移動フィードフォワード受信機などの実現可能なスキームの実装についても検討し, 特にkgrの増加について検討した。

We address a continuous-variable quantum key distribution (CV-QKD) protocol employing quaternary phase-shift-keying (QPSK) of coherent states and a non-Gaussian measurement inspired by quantum receivers minimizing the error probability in a quantum-state-discrimination scenario. We assume a pure-loss quantum wiretap channel, in which a possible eavesdropper is limited to collect the sole channel losses. We perform a characterization of state-discrimination receivers and design an optimized receiver maximizing the key generation rate (KGR), namely the key-rate optimized receiver (KOR), comparing its performance with respect to the pretty good measurement (PGM) and the heterodyne-based protocol. We show that the KOR increases the KGR for metropolitan-network distances. Finally, we also investigate the implementations of feasible schemes, such as the displacement feed-forward receiver, obtaining an increase in the KGR in particular regimes.
翻訳日:2023-06-21 14:24:28 公開日:2023-06-20
# UM-CAM:弱教師付き胎児脳分節のための不確実なマルチレゾリューションクラス活性化マップ

UM-CAM: Uncertainty-weighted Multi-resolution Class Activation Maps for Weakly-supervised Fetal Brain Segmentation ( http://arxiv.org/abs/2306.11490v1 )

ライセンス: Link先を確認
Jia Fu, Tao Lu, Shaoting Zhang, Guotai Wang(参考訳) MRIによる胎児脳の正確なセグメンテーションは胎児発生の出生前評価に重要である。 ディープラーニングは、このタスクを実現する可能性を示していますが、収集が難しい大きな細かい注釈付きデータセットが必要です。 この問題に対処するため,画像タグを訓練した分類ネットワークからのクラスアクティベーションマップに基づいて,画像レベルラベルを用いた弱い教師付きセグメント化手法が注目されている。 しかし、これらの手法のほとんどは、詳細な境界手がかりを伴わない低解像度の局在のため、不完全な活性化領域に苦しむ。 そこで本研究では,意味的特徴と文脈情報探索に基づく画像レベルのラベル付き弱教師付き手法を提案する。 まず,高品質な画素レベルの監視を実現するために,不確実なマルチ解像度クラス活性化マップ(UM-CAM)を提案する。 そこで我々は, UM-CAMの曖昧な境界を補正するための文脈情報を提供するために, 測地線距離に基づくシード拡張(GSE)法を設計する。 胎児脳データセットにおける広範囲な実験により,um-camは既存のcam変種に比べて偽陽性領域が少なく,より正確な活性化領域を提供できることが示された。

Accurate segmentation of the fetal brain from Magnetic Resonance Image (MRI) is important for prenatal assessment of fetal development. Although deep learning has shown the potential to achieve this task, it requires a large fine annotated dataset that is difficult to collect. To address this issue, weakly-supervised segmentation methods with image-level labels have gained attention, which are commonly based on class activation maps from a classification network trained with image tags. However, most of these methods suffer from incomplete activation regions, due to the low-resolution localization without detailed boundary cues. To this end, we propose a novel weakly-supervised method with image-level labels based on semantic features and context information exploration. We first propose an Uncertainty-weighted Multi-resolution Class Activation Map (UM-CAM) to generate high-quality pixel-level supervision. Then, we design a Geodesic distance-based Seed Expansion (GSE) method to provide context information for rectifying the ambiguous boundaries of UM-CAM. Extensive experiments on a fetal brain dataset show that our UM-CAM can provide more accurate activation regions with fewer false positive regions than existing CAM variants, and our proposed method outperforms state-of-the-art weakly-supervised methods with image-level labels.
翻訳日:2023-06-21 14:23:58 公開日:2023-06-20
# chatgptは不十分: 事実認識言語モデリングのための知識グラフによる大規模言語モデルの拡張

ChatGPT is not Enough: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling ( http://arxiv.org/abs/2306.11489v1 )

ライセンス: Link先を確認
Linyao Yang and Hongyang Chen and Zhao Li and Xiao Ding and Xindong Wu(参考訳) 近年,代表的大規模言語モデル(LLM)であるChatGPTは,その強力な創発的能力によって注目されている。 一部の研究者は、LLMが知識グラフ(KG)のような構造化知識ベースを置き換える可能性があり、パラメータ化された知識ベースとして機能することを示唆している。 しかし、LLMは大きなコーパスに基づいて確率的言語パターンを学習し、人間との会話を行うのに長けているが、以前のより小さな事前学習言語モデル(PLM)と同様に、知識を基盤としたコンテンツを生成しながら事実を思い出すのが困難である。 これらの制限を克服するために、研究者は、知識に基づくKGを用いてデータ駆動型PLMを拡張して、PLMに明示的な事実知識を組み込むことを提案している。 本稿では、既存の知識グラフ強化事前学習言語モデル(kgplms)とその応用を詳述した、kgsによるplmの強化に関する研究を概観する。 本稿では,知識グラフ強化大言語モデル(KGLLM)を開発することにより,KGPLMに関する既存の研究からヒントを得て,LLMをKGで拡張することを提案する。 KGLLMはLLMの事実推論能力を高めるソリューションを提供し、LLM研究のための新たな道を開く。

Recently, ChatGPT, a representative large language model (LLM), has gained considerable attention due to its powerful emergent abilities. Some researchers suggest that LLMs could potentially replace structured knowledge bases like knowledge graphs (KGs) and function as parameterized knowledge bases. However, while LLMs are proficient at learning probabilistic language patterns based on large corpus and engaging in conversations with humans, they, like previous smaller pre-trained language models (PLMs), still have difficulty in recalling facts while generating knowledge-grounded contents. To overcome these limitations, researchers have proposed enhancing data-driven PLMs with knowledge-based KGs to incorporate explicit factual knowledge into PLMs, thus improving their performance to generate texts requiring factual knowledge and providing more informed responses to user queries. This paper reviews the studies on enhancing PLMs with KGs, detailing existing knowledge graph enhanced pre-trained language models (KGPLMs) as well as their applications. Inspired by existing studies on KGPLM, this paper proposes to enhance LLMs with KGs by developing knowledge graph-enhanced large language models (KGLLMs). KGLLM provides a solution to enhance LLMs' factual reasoning ability, opening up new avenues for LLM research.
翻訳日:2023-06-21 14:23:14 公開日:2023-06-20
# informd pomdp: モデルベースのrlで追加情報を活用する

Informed POMDP: Leveraging Additional Information in Model-Based RL ( http://arxiv.org/abs/2306.11488v1 )

ライセンス: Link先を確認
Gaspard Lambrechts, Adrien Bolland, Damien Ernst(参考訳) 本研究では,POMDPにおけるインタラクションによる学習の問題を,トレーニング時に利用できる付加情報から一般化する。 まず,訓練情報と実行観察とを明確に区別する新たな学習パラダイムである情報PMDPを紹介する。 次に,この情報を活用する最適制御のために,歴史から十分な統計を学習する目的を提案する。 次に,このインフォームド・ターゲットが,潜在トラジェクタをサンプル化できる環境モデル学習から成り立っていることを示す。 最後に,このインフォメーション環境モデルを用いて,複数の環境においてポリシーの収束速度が大幅に改善されることをDreamerアルゴリズムで示す。 これらの結果と提案手法の単純さは,モデルベースrlを用いたpomdp学習における最終的な付加情報の体系的考察を示唆するものである。

In this work, we generalize the problem of learning through interaction in a POMDP by accounting for eventual additional information available at training time. First, we introduce the informed POMDP, a new learning paradigm offering a clear distinction between the training information and the execution observation. Next, we propose an objective for learning a sufficient statistic from the history for the optimal control that leverages this information. We then show that this informed objective consists of learning an environment model from which we can sample latent trajectories. Finally, we show for the Dreamer algorithm that the convergence speed of the policies is sometimes greatly improved on several environments by using this informed environment model. Those results and the simplicity of the proposed adaptation advocate for a systematic consideration of eventual additional information when learning in a POMDP using model-based RL.
翻訳日:2023-06-21 14:22:45 公開日:2023-06-20
# 複数のデコード入力を用いた潜在拡散モデルを用いた脳活動からの視覚画像再構成の改善

Improving visual image reconstruction from human brain activity using latent diffusion models via multiple decoded inputs ( http://arxiv.org/abs/2306.11536v1 )

ライセンス: Link先を確認
Yu Takagi, Shinji Nishimoto(参考訳) 深層学習と神経科学の統合は急速に進展しており、脳活動の分析や、神経科学の観点からの深層学習モデルの理解の改善につながっている。 大量の自然画像に基づいて訓練されたディープラーニングモデルを使用することで、その品質が大幅に向上し、視覚的体験に含まれる多様な情報を組み合わせたアプローチが近年急速に普及している。 本稿では,我々が提案したシンプルで汎用的な枠組み(高木・西本・CVPR2023)を活かして,様々な復号化技術が視覚体験再構成の性能に与える影響について検討する。 具体的には、脳活動からの復号テキストの使用、構造画像再構成のための非線形最適化、脳活動からの復号深度情報の利用の3つの手法と組み合わせた。 これらの手法がベースラインの精度向上に寄与していることを確認した。 また,大規模データセット上で訓練された深層生成モデルを用いて,視覚再構成を行う際に研究者が考慮すべきことを論じる。 https://sites.google.com/view/stablediffusion-with-brain/ コードはhttps://github.com/yu-takagi/stablediffusionrestructionでも利用できる。

The integration of deep learning and neuroscience has been advancing rapidly, which has led to improvements in the analysis of brain activity and the understanding of deep learning models from a neuroscientific perspective. The reconstruction of visual experience from human brain activity is an area that has particularly benefited: the use of deep learning models trained on large amounts of natural images has greatly improved its quality, and approaches that combine the diverse information contained in visual experiences have proliferated rapidly in recent years. In this technical paper, by taking advantage of the simple and generic framework that we proposed (Takagi and Nishimoto, CVPR 2023), we examine the extent to which various additional decoding techniques affect the performance of visual experience reconstruction. Specifically, we combined our earlier work with the following three techniques: using decoded text from brain activity, nonlinear optimization for structural image reconstruction, and using decoded depth information from brain activity. We confirmed that these techniques contributed to improving accuracy over the baseline. We also discuss what researchers should consider when performing visual reconstruction using deep generative models trained on large datasets. Please check our webpage at https://sites.google.com/view/stablediffusion-with-brain/. Code is also available at https://github.com/yu-takagi/StableDiffusionReconstruction.
翻訳日:2023-06-21 14:15:22 公開日:2023-06-20
# マルチバッファ通信による進化戦略誘導強化学習

Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer Communication ( http://arxiv.org/abs/2306.11535v1 )

ライセンス: Link先を確認
Adam Callaghan, Karl Mason, Patrick Mannion(参考訳) 進化的アルゴリズムと深層強化学習は、様々な領域にわたる制御問題をうまく解決した。 近年,両手法の強みを活用し,両手法の弱みを軽減すべく,これら2つの手法を組み合わせたアルゴリズムが提案されている。 本稿では,進化戦略と呼ばれる特定の進化的アルゴリズム群とオフポリシー深層強化学習アルゴリズムtd3を組み合わせた新しい進化的強化学習モデルを提案する。 このフレームワークは、単一の共有再生バッファではなく、マルチバッファシステムを利用する。 マルチバッファシステムにより、進化的戦略がポリシーの検索空間内で自由に探索できるようになり、共有フレームワーク内の深層強化学習の可能性に悪影響を及ぼすような望ましい政策行動例の数を制限した粗悪なトラジェクトリでリプレイバッファを過疎化させるリスクを負わない。 提案アルゴリズムは, MuJoCo制御タスクにおける現在の進化強化学習アルゴリズムと競合し, テスト対象4つの環境のうち3つにおいて, 最先端のCEM-RLよりも優れていた。

Evolutionary Algorithms and Deep Reinforcement Learning have both successfully solved control problems across a variety of domains. Recently, algorithms have been proposed which combine these two methods, aiming to leverage the strengths and mitigate the weaknesses of both approaches. In this paper we introduce a new Evolutionary Reinforcement Learning model which combines a particular family of Evolutionary algorithm called Evolutionary Strategies with the off-policy Deep Reinforcement Learning algorithm TD3. The framework utilises a multi-buffer system instead of using a single shared replay buffer. The multi-buffer system allows for the Evolutionary Strategy to search freely in the search space of policies, without running the risk of overpopulating the replay buffer with poorly performing trajectories which limit the number of desirable policy behaviour examples thus negatively impacting the potential of the Deep Reinforcement Learning within the shared framework. The proposed algorithm is demonstrated to perform competitively with current Evolutionary Reinforcement Learning algorithms on MuJoCo control tasks, outperforming the well known state-of-the-art CEM-RL on 3 of the 4 environments tested.
翻訳日:2023-06-21 14:15:00 公開日:2023-06-20
# 暗黙表現学習を用いた3次元キーポイント推定

3D Keypoint Estimation Using Implicit Representation Learning ( http://arxiv.org/abs/2306.11529v1 )

ライセンス: Link先を確認
Xiangyu Zhu, Dong Du, Haibin Huang, Chongyang Ma, Xiaoguang Han(参考訳) 本稿では,新しい暗黙表現を用いた一般物体の3次元キーポイント推定の課題に挑戦する。 従来の研究は、直接座標回帰や熱マップに基づく推論によるキーポイント予測の有望な結果を示している。 しかし、これらの手法は特定のキーポイント構造を持つ人体や顔などの特定の対象に対して一般的に研究されている。 また、画像や部分点雲など、明示的あるいは完全な幾何学が与えられていないいくつかの実用的なシナリオに苦しむ。 再建作業における先進的な暗黙的表現の成功に触発され,キーポイントを表現するために暗黙的フィールドを使うという考えを探求する。 具体的には,球体を用いて3次元キーポイントを表現し,対応する符号付き距離場を学習可能とする。 Hough 変換に基づいて,提案アルゴリズムによりキーポイントを抽出することができる。 定量的および定性的な評価は、予測精度の観点から表現の優位性を示す。

In this paper, we tackle the challenging problem of 3D keypoint estimation of general objects using a novel implicit representation. Previous works have demonstrated promising results for keypoint prediction through direct coordinate regression or heatmap-based inference. However, these methods are commonly studied for specific subjects, such as human bodies and faces, which possess fixed keypoint structures. They also suffer in several practical scenarios where explicit or complete geometry is not given, including images and partial point clouds. Inspired by the recent success of advanced implicit representation in reconstruction tasks, we explore the idea of using an implicit field to represent keypoints. Specifically, our key idea is employing spheres to represent 3D keypoints, thereby enabling the learnability of the corresponding signed distance field. Explicit keypoints can be extracted subsequently by our algorithm based on the Hough transform. Quantitative and qualitative evaluations also show the superiority of our representation in terms of prediction accuracy.
翻訳日:2023-06-21 14:14:40 公開日:2023-06-20
# transref:参照誘導画像インパインティングのためのマルチスケール参照埋め込みトランス

TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting ( http://arxiv.org/abs/2306.11528v1 )

ライセンス: Link先を確認
Liang Liao, Taorong Liu, Delin Chen, Jing Xiao, Zheng Wang, Chia-Wen Lin(参考訳) 複雑なセマンティクス環境と腐敗した画像の多様な穴パターンを完了させるためのイメージインペインティングは、大規模データでトレーニングされた最先端の学習ベースのインペインティング手法でも難しい。 破損した画像の同一シーンをキャプチャする参照画像は、破損した画像の穴に先立って類似したテクスチャや構造を共有するので、破損した画像を完成させるための情報的ガイダンスを提供する。 本稿では,参照誘導画像インパインティングのためのトランスフォーマベースのエンコーダ・デコーダネットワークであるtransrefを提案する。 具体的には、参照埋め込み手順により段階的に誘導を行い、その後、参照特徴が整列され、劣化した画像の特徴と融合する。 参照特徴を正確に活用するために、参照パッチアライメント(Ref-PA)モジュールが参照画像のパッチ特徴を整列し、それらのスタイルの違いを調和させるとともに、参照パッチトランスフォーマー(Ref-PT)モジュールが埋め込み参照特徴を洗練するために提案される。 さらに,参照誘導画像復元タスクの研究を容易にするために,50万対の入力画像と参照画像を含む公開アクセス型ベンチマークデータセットを構築した。 定量的・定性的評価は, 複素孔の完成における基準情報の有効性と, 提案手法の有効性を実証するものである。 コードとデータセットはhttps://github.com/cameltr/transrefでアクセスできる。

Image inpainting for completing complicated semantic environments and diverse hole patterns of corrupted images is challenging even for state-of-the-art learning-based inpainting methods trained on large-scale data. A reference image capturing the same scene of a corrupted image offers informative guidance for completing the corrupted image as it shares similar texture and structure priors to that of the holes of the corrupted image. In this work, we propose a transformer-based encoder-decoder network, named TransRef, for reference-guided image inpainting. Specifically, the guidance is conducted progressively through a reference embedding procedure, in which the referencing features are subsequently aligned and fused with the features of the corrupted image. For precise utilization of the reference features for guidance, a reference-patch alignment (Ref-PA) module is proposed to align the patch features of the reference and corrupted images and harmonize their style differences, while a reference-patch transformer (Ref-PT) module is proposed to refine the embedded reference feature. Moreover, to facilitate the research of reference-guided image restoration tasks, we construct a publicly accessible benchmark dataset containing 50K pairs of input and reference images. Both quantitative and qualitative evaluations demonstrate the efficacy of the reference information and the proposed method over the state-of-the-art methods in completing complex holes. Code and dataset can be accessed at https://github.com/Cameltr/TransRef.
翻訳日:2023-06-21 14:14:26 公開日:2023-06-20
# マージンレンズによるコントラスト学習の理解

Understanding Contrastive Learning Through the Lens of Margins ( http://arxiv.org/abs/2306.11526v1 )

ライセンス: Link先を確認
Daniel Rho, TaeSoo Kim, Sooill Park, Jaehyun Park, JaeHan Park(参考訳) 自己教師付き学習(SSL)は、人間の監督を緩和することで、現実世界のタスクにおける機械学習の利用を拡大する鍵を握る。 対照的な学習とその種類は様々な分野におけるssl戦略である。 我々は、比較学習がより深いレベルでどのように機能するかを理解し、表現学習を改善する潜在的な方向性を提供するための足掛かりとしてマージンを使用します。 勾配解析により, 正試料の強調, 正試料の角度が広い場合の正試料の非強調, 推定確率が目標確率に近づいた場合の減少勾配の減衰, の3つの異なる方法が得られた。 それぞれを別々に分析し、SSLフレームワークを改善するための可能な方向性を提供します。 実験結果から,これらの特性がより良い表現の獲得に寄与できることが確認できた。

Self-supervised learning, or SSL, holds the key to expanding the usage of machine learning in real-world tasks by alleviating heavy human supervision. Contrastive learning and its varieties have been SSL strategies in various fields. We use margins as a stepping stone for understanding how contrastive learning works at a deeper level and providing potential directions to improve representation learning. Through gradient analysis, we found that margins scale gradients in three different ways: emphasizing positive samples, de-emphasizing positive samples when angles of positive samples are wide, and attenuating the diminishing gradients as the estimated probability approaches the target probability. We separately analyze each and provide possible directions for improving SSL frameworks. Our experimental results demonstrate that these properties can contribute to acquiring better representations, which can enhance performance in both seen and unseen datasets.
翻訳日:2023-06-21 14:13:58 公開日:2023-06-20
# 幻覚が最後に必要なもの

Hallucination is the last thing you need ( http://arxiv.org/abs/2306.11520v1 )

ライセンス: Link先を確認
Shawn Curran, Sam Lansley, Oliver Bethell(参考訳) 法律専門職は、個人的経験に基づく洞察に富んだ解説と、関連する立法、規制、事件法に関する包括的理解を組み合わせることで、インフォームドな法的解決を提供するために、法的問題を深く理解することを含む多次元的アプローチを必要とする。 現在のモデルでは、理解、経験、事実チェックといった複雑な相互作用の統合とナビゲートに苦労しているため、生成AIによる現在の提供は、これを複製する上で大きな障害となる。 生成的AIが理解と経験を出力し、同様のトピックに関する様々な主観的な見解を反映している場合、これはしばしば重要な法的事実からモデルの注意を逸脱させ、幻覚をもたらす。 そこで,本稿では,既存のモノリシック生成型AIモデルによる現在の課題を効果的に対処するために,一つのアンサンブルモデルとして,理解,経験,事実に焦点を当てた3つの独立したLLMの実現可能性について論じる。 我々は、共通の法律判断のような重要な情報資産を保護するために、ミュートリ長のトークン化の概念を導入し、最後に、法的な幻覚のために最も高度な公開モデルに疑問を投げかける。

The legal profession necessitates a multidimensional approach that involves synthesizing an in-depth comprehension of a legal issue with insightful commentary based on personal experience, combined with a comprehensive understanding of pertinent legislation, regulation, and case law, in order to deliver an informed legal solution. The present offering with generative AI presents major obstacles in replicating this, as current models struggle to integrate and navigate such a complex interplay of understanding, experience, and fact-checking procedures. It is noteworthy that where generative AI outputs understanding and experience, which reflect the aggregate of various subjective views on similar topics, this often deflects the model's attention from the crucial legal facts, thereby resulting in hallucination. Hence, this paper delves into the feasibility of three independent LLMs, each focused on understanding, experience, and facts, synthesising as one single ensemble model to effectively counteract the current challenges posed by the existing monolithic generative AI models. We introduce an idea of mutli-length tokenisation to protect key information assets like common law judgements, and finally we interrogate the most advanced publicly available models for legal hallucination, with some interesting results.
翻訳日:2023-06-21 14:13:42 公開日:2023-06-20
# 操作理論の対称性とウィグナー表現

Symmetries and Wigner representations of operational theories ( http://arxiv.org/abs/2306.11519v1 )

ライセンス: Link先を確認
Ties-A. Ohst, Martin Pl\'avala(参考訳) 我々は、古典理論と量子論の両方を含む大きな操作理論のクラスに対するウィグナー表現の理論を発展させる。 我々が導入するウィグナー表現は、いくつかの固定可観測性の観点から理論を記述する自然な方法であり、これらの可観測性はしばしば位置と運動量またはスピン可観測性として選択される。 これにより、ウィグナー表現を構成するために用いられる可観測関数の結果を変換する対称性を導入することができ、これらの対称性が適切に定義されたときや、それらがウィグナー表現をユニークに指定する場合に、いくつかの結果が得られる。

We develop the theory of Wigner representations for a large class of operational theories that include both classical and quantum theory. The Wigner representations that we introduce are a natural way to describe the theory in terms of some fixed observables; these observables are often picked to be position and momentum or spin observables. This allows us to introduce symmetries which transform the outcomes of the observables used to construct the Wigner representation; we obtain several results for when these symmetries are well defined or when they uniquely specify the Wigner representation.
翻訳日:2023-06-21 14:13:21 公開日:2023-06-20
# それら全てを支配する一つのモデル:スロベニアの要約者ランキング

One model to rule them all: ranking Slovene summarizers ( http://arxiv.org/abs/2306.11518v1 )

ライセンス: Link先を確認
Ale\v{s} \v{Z}agar, Marko Robnik-\v{S}ikonja(参考訳) テキスト要約は自然言語処理において必須の課題であり、研究者たちはルールベースのシステムからニューラルネットワークまで、長年にわたり様々なアプローチを開発してきた。 しかし、あらゆるタイプのテキストでうまく機能する単一のモデルやアプローチは存在しない。 与えられたテキストに対して最適な要約モデルを推奨するシステムを提案する。 提案システムでは,入力内容を分析し,与えられた入力に対するルージュスコアの観点で,どの要約者が最善のスコアを取るべきかを予測する,完全接続型ニューラルネットワークを用いる。 メタモデルは、入力の異なる特性、特にDoc2Vec文書表現を用いて、スロベニア語で開発された4つの異なる要約モデルの中から選択する。 4つのスロヴェニア要約モデルは、低リソース言語におけるテキスト要約に関連する様々な課題に対処する。 提案したSloMetaSumモデルの性能を自動評価し,その一部を手動で評価する。 その結果,システムは手動で最適なモデルを選択するステップを自動生成することがわかった。

Text summarization is an essential task in natural language processing, and researchers have developed various approaches over the years, ranging from rule-based systems to neural networks. However, there is no single model or approach that performs well on every type of text. We propose a system that recommends the most suitable summarization model for a given text. The proposed system employs a fully connected neural network that analyzes the input content and predicts which summarizer should score the best in terms of ROUGE score for a given input. The meta-model selects among four different summarization models, developed for the Slovene language, using different properties of the input, in particular its Doc2Vec document representation. The four Slovene summarization models deal with different challenges associated with text summarization in a less-resourced language. We evaluate the proposed SloMetaSum model performance automatically and parts of it manually. The results show that the system successfully automates the step of manually selecting the best model.
翻訳日:2023-06-21 14:13:12 公開日:2023-06-20
# メジャー化に基づく資源理論の概観--量子情報と量子熱力学

A Compendious Review of Majorization-Based Resource Theories: Quantum Information and Quantum Thermodynamics ( http://arxiv.org/abs/2306.11513v1 )

ライセンス: Link先を確認
G\"okhan Torun, Onur Pusuluk, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 量子資源理論(QRT)の分野は、従来の統計処理によって課される境界を越えて、小さく強い相関の強い量子系を調べるための重要な枠組みとして登場した。 一般的なQRTの基本的な目的は、実験者に達成可能な制御レベルを正確に定量化することで、これらのシステムを特徴づけることである。 本稿では,QRTに関する広範な文献について概説することを避けた。 むしろ、我々の焦点は、偏化理論に基づく特定のサブ文学に焦点を当てている。 主な目的は、多種多様な技術応用にまたがる真の量子現象の理解を深め、複数の種類の資源を含む新しい資源理論を探求することである。 その結果, 2成分量子エンタングルメント, 量子コヒーレンス, 重ね合わせなど, 情報的, 熱的, 一般非平衡的資源と並んで, 様々な資源が共有する基礎となる類似性を強調した。

The field of quantum resource theory (QRT) has emerged as an invaluable framework for the examination of small and strongly correlated quantum systems, surpassing the boundaries imposed by traditional statistical treatments. The fundamental objective of general QRTs is to characterize these systems by precisely quantifying the level of control attainable to an experimenter. In this review article, we refrain from providing an exhaustive summary of the extensive literature on QRT. Rather, our focus centers on a specific sub-literature founded upon the theory of majorization. The primary aim is to augment our comprehension of genuine quantum phenomena manifested across diverse technological applications and incite investigations into novel resource theories encompassing multiple types of resources. Consequently, we emphasize the underlying similarities shared by various resources, including bipartite quantum entanglement, quantum coherence, and superposition, alongside informational, thermal, and generalized nonequilibrium resources.
翻訳日:2023-06-21 14:12:56 公開日:2023-06-20
# 大規模3次元形状生成の限界を押し上げる

Pushing the Limits of 3D Shape Generation at Scale ( http://arxiv.org/abs/2306.11510v1 )

ライセンス: Link先を確認
Wang Yu, Xuelin Qian, Jingyang Huo, Tiejun Huang, Bo Zhao, Yanwei Fu(参考訳) 我々は,前例のない次元に拡大することで,3次元形状生成における大きなブレークスルーを示す。 自己回帰モデルの適用と大規模言語モデルの利用を通じて,360億のトレーニング可能なパラメータを持つ驚くべきモデルを開発し,argus-3dという,これまでで最大の3次元形状生成モデルとして確立した。 提案手法は,生成した3次元形状の品質と多様性を高めることで,既存の手法の限界に対処する。 高分解能3次元形状生成の課題に取り組むため,三平面特徴を潜在表現として取り入れ,計算複雑性を効果的に低減した。 さらに,これらの表現の効率的な量子化のための離散コードブックも紹介する。 変圧器のパワーを活用することで,マルチモーダル条件生成を可能にし,多様で視覚的に印象的な3d形状の生成を容易にする。 拡張モデルをトレーニングするために、ModelNet40、ShapeNet、Pix3D、3D-Future、Objaverseといった有名なリポジトリから約90,000オブジェクトの包括的なコレクションで構成された、公開可能な3Dデータセットの集合を利用する。 この多様なデータセットは、我々のモデルに幅広い種類のオブジェクトから学習する権限を与え、高品質で多様な3D形状を生成する能力を高めます。 広範な実験により, 生成した3次元形状の視覚的品質を著しく向上させる効果が示された。 3次元生成の限界を押し進め、潜在表現学習のための新しい手法を導入し、マルチモーダル条件生成にトランスフォーマーのパワーを活用することで、この分野における実質的な進歩への道を開いた。 私たちの仕事は、高品質で多様な3Dオブジェクトを必要とするゲーム、バーチャルリアリティ、製品デザイン、その他の分野のアプリケーションに新たな可能性を開く。

We present a significant breakthrough in 3D shape generation by scaling it to unprecedented dimensions. Through the adaptation of the Auto-Regressive model and the utilization of large language models, we have developed a remarkable model with an astounding 3.6 billion trainable parameters, establishing it as the largest 3D shape generation model to date, named Argus-3D. Our approach addresses the limitations of existing methods by enhancing the quality and diversity of generated 3D shapes. To tackle the challenges of high-resolution 3D shape generation, our model incorporates tri-plane features as latent representations, effectively reducing computational complexity. Additionally, we introduce a discrete codebook for efficient quantization of these representations. Leveraging the power of transformers, we enable multi-modal conditional generation, facilitating the production of diverse and visually impressive 3D shapes. To train our expansive model, we leverage an ensemble of publicly-available 3D datasets, consisting of a comprehensive collection of approximately 900,000 objects from renowned repositories such as ModelNet40, ShapeNet, Pix3D, 3D-Future, and Objaverse. This diverse dataset empowers our model to learn from a wide range of object variations, bolstering its ability to generate high-quality and diverse 3D shapes. Extensive experimentation demonstrate the remarkable efficacy of our approach in significantly improving the visual quality of generated 3D shapes. By pushing the boundaries of 3D generation, introducing novel methods for latent representation learning, and harnessing the power of transformers for multi-modal conditional generation, our contributions pave the way for substantial advancements in the field. Our work unlocks new possibilities for applications in gaming, virtual reality, product design, and other domains that demand high-quality and diverse 3D objects.
翻訳日:2023-06-21 14:12:37 公開日:2023-06-20
# 注釈における生態的誤り--人間のラベル変動のモデル化はソシオドモグラフィーを超えて

The Ecological Fallacy in Annotation: Modelling Human Label Variation goes beyond Sociodemographics ( http://arxiv.org/abs/2306.11559v1 )

ライセンス: Link先を確認
Matthias Orlikowski (1), Paul R\"ottger (2), Philipp Cimiano (1), Dirk Hovy (3) ((1) Bielefeld University, (2) University of Oxford, (3) Computing Sciences Department, Bocconi University, Milan, Italy)(参考訳) 多くのNLPタスクは、異なるアノテータが同じテキストに異なるラベルを与える、人間のラベルのバリエーションを示す。 この変異は、少なくとも部分的には、アノテーターの社会デマトグラフィーに依存することが知られている。 近年の研究では,集計ラベルを予測するのではなく,個々のアノテータの振る舞いをモデル化することを目的としている。 一方、生態学的誤りは、平均的な女性アノテータの振る舞いのような集団の行動が必ずしも個々の行動を説明するとは限らないことを述べている。 個々のアノテータ行動モデルにおける社会デマトグラフィーを考慮に入れ,マルチアノテータモデルにグループ固有の層を導入する。 有害なコンテンツ検出のための一連の実験において、このような社会デマログラフィー属性を明示的に説明することは、モデル性能を著しく改善しないことがわかった。 この結果は、個々のアノテーション行動が単なる社会デモグラフィ以上のものに依存していることを示している。

Many NLP tasks exhibit human label variation, where different annotators give different labels to the same texts. This variation is known to depend, at least in part, on the sociodemographics of annotators. Recent research aims to model individual annotator behaviour rather than predicting aggregated labels, and we would expect that sociodemographic information is useful for these models. On the other hand, the ecological fallacy states that aggregate group behaviour, such as the behaviour of the average female annotator, does not necessarily explain individual behaviour. To account for sociodemographics in models of individual annotator behaviour, we introduce group-specific layers to multi-annotator models. In a series of experiments for toxic content detection, we find that explicitly accounting for sociodemographic attributes in this way does not significantly improve model performance. This result shows that individual annotation behaviour depends on much more than just sociodemographics.
翻訳日:2023-06-21 14:06:37 公開日:2023-06-20
# 米国、英国、インドの医療機関におけるプライバシーポリシーの比較監査

A Comparative Audit of Privacy Policies from Healthcare Organizations in USA, UK and India ( http://arxiv.org/abs/2306.11557v1 )

ライセンス: Link先を確認
Gunjan Balde, Aryendra Singh, Niloy Ganguly, Mainack Mondal(参考訳) 医療におけるデータのプライバシは、患者データの非常に敏感な性質のため、最重要(したがってHIPAAのような法律で規制される)である。 そのために医療機関は、プライバシーポリシーを通じてこのデータ(すなわちデータプラクティス)を収集、処理、保存、共有する方法について言及している。 したがって、これらの方針を監査し、各法令の遵守を確認する必要がある。 本稿では,米国,英国,インドという3つの国の医療機関のプライバシーポリシーを監査するための大規模データ駆動研究について述べる。 我々は監査のための3段階の小説『textit{workflow}』を開発した。 まず、これらの国にある何千もの医療機関のプライバシーポリシーを収集し、クラスタリングベースの混合手法を用いてプライバシーポリシーデータをきれいにしました。 これらの方針では、ユーザの個人医療データ(医療履歴)とサイトプライバシ(cookie, logs)に関するデータプラクティスを特定した。 第2に,国間の広範にわたるデータプラクティスを明確化し,重要な相違点に気づくために,要約に基づく手法を適用した。 最後に、法的なコンプライアンス(法的専門家のフィードバック)のレンズを用いて、クロスカントリーデータプラクティスを評価し、文脈整合性(CI)の理論を基礎とした。 同時に、当社の法律専門家が指摘した6つの非アライメント(インドで調査されたデータプラクティスの21.8\%)のテーマを特定しました。 さらに、我々の法律専門家が指摘しているように、インドの裁判所の判例による4つの‘textit{potential violations’がある。 本論文は、監査ワークフローの有用性と、異なる利害関係者に対する調査結果の影響について論じる。

Data privacy in healthcare is of paramount importance (and thus regulated using laws like HIPAA) due to the highly sensitive nature of patient data. To that end, healthcare organizations mention how they collect/process/store/share this data (i.e., data practices) via their privacy policies. Thus there is a need to audit these policies and check compliance with respective laws. This paper addresses this need and presents a large-scale data-driven study to audit privacy policies from healthcare organizations in three countries -- USA, UK, and India. We developed a three-stage novel \textit{workflow} for our audit. First, we collected the privacy policies of thousands of healthcare organizations in these countries and cleaned this privacy policy data using a clustering-based mixed-method technique. We identified data practices regarding users' private medical data (medical history) and site privacy (cookie, logs) in these policies. Second, we adopted a summarization-based technique to uncover exact broad data practices across countries and notice important differences. Finally, we evaluated the cross-country data practices using the lens of legal compliance (with legal expert feedback) and grounded in the theory of Contextual Integrity (CI). Alarmingly, we identified six themes of non-alignment (observed in 21.8\% of data practices studied in India) pointed out by our legal experts. Furthermore, there are four \textit{potential violations} according to case verdicts from Indian Courts as pointed out by our legal experts. We conclude this paper by discussing the utility of our auditing workflow and the implication of our findings for different stakeholders.
翻訳日:2023-06-21 14:06:19 公開日:2023-06-20
# シェーディング誘導によるNeRF合成

NeRF synthesis with shading guidance ( http://arxiv.org/abs/2306.11556v1 )

ライセンス: Link先を確認
Chenbin Li, Yu Xin, Gaoyi Liu, Xiang Zeng, Ligang Liu(参考訳) 新たなNeural Radiance Field(NeRF)は、3Dシーンを表現する大きな可能性を示している。 しかし、現実のシーンを再現するためにNeRFを利用するには、異なる視点からの画像が必要であるため、実用的利用が制限される。 この問題は、大きなシーンではもっとわかりやすい。 本稿では、NeRFパッチの類似した構造的内容を利用して、大規模な新しい放射場を構築する、NeRF合成という新しいタスクを提案する。 幾何学や外観に連続した新しいシーンを合成する2相手法を提案する。 また,任意のサイズのシーンをアーティファクトなしで合成するための境界制約手法を提案する。 具体的には、シーンを分離する代わりにシェーディングガイダンスを用いて合成シーンの照明効果を制御する。 我々は,複雑な照明シーンであっても,一貫した形状と外観で高品質な結果が得られることを示した。 また, 任意の照明効果を持つ曲面上の新たなシーンを合成することで, 提案手法の実用性を高めることができる。

The emerging Neural Radiance Field (NeRF) shows great potential in representing 3D scenes, which can render photo-realistic images from novel view with only sparse views given. However, utilizing NeRF to reconstruct real-world scenes requires images from different viewpoints, which limits its practical application. This problem can be even more pronounced for large scenes. In this paper, we introduce a new task called NeRF synthesis that utilizes the structural content of a NeRF patch exemplar to construct a new radiance field of large size. We propose a two-phase method for synthesizing new scenes that are continuous in geometry and appearance. We also propose a boundary constraint method to synthesize scenes of arbitrary size without artifacts. Specifically, we control the lighting effects of synthesized scenes using shading guidance instead of decoupling the scene. We have demonstrated that our method can generate high-quality results with consistent geometry and appearance, even for scenes with complex lighting. We can also synthesize new scenes on curved surface with arbitrary lighting effects, which enhances the practicality of our proposed NeRF synthesis approach.
翻訳日:2023-06-21 14:05:50 公開日:2023-06-20
# トランスファー・ラーニングによる細胞間ネットワークスライシングによるマルチエージェント深層強化学習

Inter-Cell Network Slicing With Transfer Learning Empowered Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2306.11552v1 )

ライセンス: Link先を確認
Tianlun Hu, Qi Liao, Qiang Liu, and Georg Carle(参考訳) ネットワークスライシングにより、オペレータは共通の物理インフラ上で多様なアプリケーションを効率的にサポートできる。 ネットワーク展開の増大は複雑で非自明なセル間干渉を引き起こし、ネットワークスライスのためのリソース管理を動的に最適化するためには、不正確な分析モデル以上のものが必要になる。 本稿では,複数の深層学習(DRL)エージェントを用いたDIRPアルゴリズムを開発し,各スライス要求を満たすために,各セルの資源分配を協調的に最適化する。 それにもかかわらず、既存のDRLアプローチは、訓練済みのモデルパラメータを特定のネットワーク環境に低転送性で結びつけるのが一般的である。 そこで我々は, サンプル効率, モデル再現性, アルゴリズムスケーラビリティの観点から, 異なるネットワーク環境におけるDIRPエージェントの転送を容易にするために, トランスファー学習支援型DIRP (TL-DIRP) アルゴリズムを設計した。 TL-DIRPアルゴリズムはまず、一般化されたモデルを集中的に訓練し、各ローカルエージェントに分散微調整と実行を伴う「スペシャリスト」として「ジェネラリスト」を転送する。 tl-dirpは2つのステップからなる。 1)一般化分散モデルの集中的なトレーニング。 2)分散微調整と実行で「ジェネラリスト」を各「専門家」に転送する。 さらに, tl-dirpは探索コストの低減, 収束速度の高速化, モデルの再現性の向上などにより, サービス性能を大幅に向上させた。 トラフィック対応ベースラインと比較して、TL-DIRPは、最悪のスライスサービスにおけるサービス品質(QoS)の違反率を15%削減し、平均サービスQoSに対して8.8%低減する。

Network slicing enables operators to efficiently support diverse applications on a common physical infrastructure. The ever-increasing densification of network deployment leads to complex and non-trivial inter-cell interference, which requires more than inaccurate analytic models to dynamically optimize resource management for network slices. In this paper, we develop a DIRP algorithm with multiple deep reinforcement learning (DRL) agents to cooperatively optimize resource partition in individual cells to fulfill the requirements of each slice, based on two alternative reward functions. Nevertheless, existing DRL approaches usually tie the pretrained model parameters to specific network environments with poor transferability, which raises practical deployment concerns in large-scale mobile networks. Hence, we design a novel transfer learning-aided DIRP (TL-DIRP) algorithm to ease the transfer of DIRP agents across different network environments in terms of sample efficiency, model reproducibility, and algorithm scalability. The TL-DIRP algorithm first centrally trains a generalized model and then transfers the "generalist" to each local agent as "specialist" with distributed finetuning and execution. TL-DIRP consists of two steps: 1) centralized training of a generalized distributed model, 2) transferring the "generalist" to each "specialist" with distributed finetuning and execution. The numerical results show that not only DIRP outperforms existing baseline approaches in terms of faster convergence and higher reward, but more importantly, TL-DIRP significantly improves the service performance, with reduced exploration cost, accelerated convergence rate, and enhanced model reproducibility. As compared to a traffic-aware baseline, TL-DIRP provides about 15% less violation ratio of the quality of service (QoS) for the worst slice service and 8.8% less violation on the average service QoS.
翻訳日:2023-06-21 14:05:33 公開日:2023-06-20
# IMP-MARL:MARLによる大規模インフラ管理計画のための環境スイート

IMP-MARL: a Suite of Environments for Large-scale Infrastructure Management Planning via MARL ( http://arxiv.org/abs/2306.11551v1 )

ライセンス: Link先を確認
Pascal Leroy, Pablo G. Morato, Jonathan Pisane, Athanasios Kolios, Damien Ernst(参考訳) 本稿では,大規模なインフラ管理計画(IMP)のためのマルチエージェント強化学習(MARL)環境のオープンソーススイートであるIMP-MARLを紹介する。 IMPでは、多成分工学系は、部品の損傷条件により故障する危険性がある。 具体的には、各エージェントは、システム障害リスクを最小限に抑えつつ、メンテナンスコストを最小限に抑えながら、特定のシステムコンポーネントの検査と修復を計画する。 IMP-MARLでは、持続的で信頼性の高いエネルギーシステムを支援するための経営戦略の改善に向けた今日のニーズを満たすため、オフショア風力構造システムに関連するものを含むいくつかの環境をリリースする。 IMPの実践的エンジニアリング環境によって最大100個のエージェントがサポートされ、最先端の協調型MARL手法のスケーラビリティと性能を専門家によるヒューリスティックポリシーと比較するベンチマークキャンペーンを実施している。 その結果、分散実行方式による集中型トレーニングは、完全に集中化されたRLアプローチや分散化されたRLアプローチよりもエージェント数でスケールし、多くのIMP環境で専門家ベースのヒューリスティックポリシーよりも優れていた。 この結果に基づき、今後のMARL手法が取り組まなければならないコラボレーションとスケーラビリティの課題についても概説する。 IMP-MARL を通じて,新しい環境の実装と MARL 手法のさらなる開発を奨励する。

We introduce IMP-MARL, an open-source suite of multi-agent reinforcement learning (MARL) environments for large-scale Infrastructure Management Planning (IMP), offering a platform for benchmarking the scalability of cooperative MARL methods in real-world engineering applications. In IMP, a multi-component engineering system is subject to a risk of failure due to its components' damage condition. Specifically, each agent plans inspections and repairs for a specific system component, aiming to minimise maintenance costs while cooperating to minimise system failure risk. With IMP-MARL, we release several environments including one related to offshore wind structural systems, in an effort to meet today's needs to improve management strategies to support sustainable and reliable energy systems. Supported by IMP practical engineering environments featuring up to 100 agents, we conduct a benchmark campaign, where the scalability and performance of state-of-the-art cooperative MARL methods are compared against expert-based heuristic policies. The results reveal that centralised training with decentralised execution methods scale better with the number of agents than fully centralised or decentralised RL approaches, while also outperforming expert-based heuristic policies in most IMP environments. Based on our findings, we additionally outline remaining cooperation and scalability challenges that future MARL methods should still address. Through IMP-MARL, we encourage the implementation of new environments and the further development of MARL methods.
翻訳日:2023-06-21 14:05:01 公開日:2023-06-20
# 量子物理学の経験--すべての理論へ向けて

Experience in quantum physics: toward a theory of everything ( http://arxiv.org/abs/2306.11549v1 )

ライセンス: Link先を確認
Ding Jia(参考訳) あらゆるものの理論は、物質、重力、そしておそらくは宇宙の境界条件に関する法則を教えてくれるだけではありません。 さらに、理論と経験の関係を規定する必要がある。 ここでは,経路積分から経験的予測を抽出し,代替処方が不当であることを示す際の,最小限の処方を論じる。 この最小限の処方において、1つの経験の相対確率は、その経験に適合する全ての構成を総和することによって得られる。 ウィグナーの友人設定への応用は、量子論が主観的経験に対する客観的な予測を認めたことを示している。 それでも、量子論は、経験の集団的説明とは対照的に個別化を提供するという古典的な理論とは異なる。 この基礎理論における経験の考察は、一般的な量子解釈に対するいくつかの課題を提起し、全ての物理理論を理解するための経験の理論の必要性を指摘している。

A theory of everything should not only tell us the laws for matter, gravity, and possibly boundary condition for the universe. In addition, it should specify the relation between theory and experience. Here I argue for a minimal prescription in extracting empirical predictions from path integrals by showing that alternative prescriptions are unjustifiable. In this minimal prescription, the relative probability for one experience is obtained by summing over all configurations compatible with that experience, without any further restriction associated with other experiences of the same or other experiential beings. An application to Wigner's friend settings shows that quantum theory admits objective predictions for subjective experiences. Still, quantum theory differs from classical theory in offering individualized as opposed to collective accounts of experiences. This consideration of experience in fundamental theories issues several challenges to popular quantum interpretations, and points to the outstanding need for a theory of experience in understanding physical theories of everything.
翻訳日:2023-06-21 14:04:36 公開日:2023-06-20
# event stream gpt: 複合イベントの連続時間列上の生成・事前学習トランスフォーマーのためのデータ前処理・モデリングライブラリ

Event Stream GPT: A Data Pre-processing and Modeling Library for Generative, Pre-trained Transformers over Continuous-time Sequences of Complex Events ( http://arxiv.org/abs/2306.11547v1 )

ライセンス: Link先を確認
Matthew B. A. McDermott, Bret Nestor, Peniel Argaw, Isaac Kohane(参考訳) 生成前訓練型トランスフォーマー(GPT、別名「創始モデル」)は、様々な下流タスクの汎用性を通じて自然言語処理(NLP)を再構築した。 しかし、その潜在能力はNLPを超えている。 本稿では,この可能性を実現するためのソフトウェアユーティリティを提供し,GPTの適用性を医療記録データセットなどの内部依存関係を持つ複雑なイベントの連続的なシーケンスに拡張する。 それらの可能性にもかかわらず、これらのドメインにおける基礎モデルの採用は、モデルの構築と評価に適したツールの欠如によって妨げられている。 このギャップを埋めるために、連続的なイベントシーケンスのためのGPTを構築するためのエンドツーエンドプロセスを合理化するオープンソースライブラリであるEvent Stream GPT(ESGPT)を紹介します。 ESGPTは,(1)最小構成ファイルのみを指定してフレキシブルで基礎モデルスケールの入力データセットを構築すること,(2) 内部因果依存性構造と自己回帰生成機能を備えたGPT用のHugging Face互換モデリングAPIを活用すること,(3) ユーザが指定した微調整タスクにおいて,事前訓練されたモデルのほとんど,あるいはゼロショットのパフォーマンスを評価できない標準化プロセスによるモデル評価を可能にする。

Generative, pre-trained transformers (GPTs, a.k.a. "Foundation Models") have reshaped natural language processing (NLP) through their versatility in diverse downstream tasks. However, their potential extends far beyond NLP. This paper provides a software utility to help realize this potential, extending the applicability of GPTs to continuous-time sequences of complex events with internal dependencies, such as medical record datasets. Despite their potential, the adoption of foundation models in these domains has been hampered by the lack of suitable tools for model construction and evaluation. To bridge this gap, we introduce Event Stream GPT (ESGPT), an open-source library designed to streamline the end-to-end process for building GPTs for continuous-time event sequences. ESGPT allows users to (1) build flexible, foundation-model scale input datasets by specifying only a minimal configuration file, (2) leverage a Hugging Face compatible modeling API for GPTs over this modality that incorporates intra-event causal dependency structures and autoregressive generation capabilities, and (3) evaluate models via standardized processes that can assess few and even zero-shot performance of pre-trained models on user-specified fine-tuning tasks.
翻訳日:2023-06-21 14:04:20 公開日:2023-06-20
# Bullying10K:プライバシ保護のためのニューロモーフィックデータセット

Bullying10K: A Neuromorphic Dataset towards Privacy-Preserving Bullying Recognition ( http://arxiv.org/abs/2306.11546v1 )

ライセンス: Link先を確認
Yiting Dong, Yang Li, Dongcheng Zhao, Guobin Shen, Yi Zeng(参考訳) 日常生活における暴力の流行は、個人の身体的および精神的健康に重大な脅威をもたらす。 公共空間での監視カメラの使用は、このような事件を積極的に抑止し防止するのに有効であることが証明されている。 しかし、プライバシの侵入に関する懸念は、広く展開されているため現れている。 この問題に対処するために、ダイナミックビジョンセンサー(DVS)カメラを使用して暴力的なインシデントを検出し、静的画像の代わりにピクセル輝度の変動をキャプチャするのでプライバシーを保護する。 我々は,現実のシナリオから様々な行動や複雑な動き,オクルージョンを包含するbullying10kデータセットを紹介する。 アクション認識、時間的アクションローカライゼーション、ポーズ推定という3つのタスクを評価するためのベンチマークを提供する。 1万のイベントセグメントがあり、合計120億のイベントと255gbのデータがある。 またそれは、ニューロモルフィックなデータセットにも挑戦する。 プライバシー保護ビデオシステムを訓練し、開発するための貴重なリソースとなる。 Bullying10Kは、これらの領域における革新的なアプローチの新たな可能性を開く。

The prevalence of violence in daily life poses significant threats to individuals' physical and mental well-being. Using surveillance cameras in public spaces has proven effective in proactively deterring and preventing such incidents. However, concerns regarding privacy invasion have emerged due to their widespread deployment. To address the problem, we leverage Dynamic Vision Sensors (DVS) cameras to detect violent incidents and preserve privacy since it captures pixel brightness variations instead of static imagery. We introduce the Bullying10K dataset, encompassing various actions, complex movements, and occlusions from real-life scenarios. It provides three benchmarks for evaluating different tasks: action recognition, temporal action localization, and pose estimation. With 10,000 event segments, totaling 12 billion events and 255 GB of data, Bullying10K contributes significantly by balancing violence detection and personal privacy persevering. And it also poses a challenge to the neuromorphic dataset. It will serve as a valuable resource for training and developing privacy-protecting video systems. The Bullying10K opens new possibilities for innovative approaches in these domains.
翻訳日:2023-06-21 14:03:54 公開日:2023-06-20
# インザ・ワイルド・ビデオによる音声駆動3d顔アニメーション

Audio-Driven 3D Facial Animation from In-the-Wild Videos ( http://arxiv.org/abs/2306.11541v1 )

ライセンス: Link先を確認
Liying Lu, Tianke Zhang, Yunfei Liu, Xuangeng Chu, Yu Li(参考訳) 任意のオーディオクリップが与えられたとき、オーディオ駆動の3D顔アニメーションは、ライフスタイルの唇の動きと3Dヘッドのための表情を生成することを目的としている。 既存の方法は通常、限られた数のオーディオ3dスキャンペアを含む限られた公開3dデータセットを使用してモデルをトレーニングする。 そのため、その一般化能力は限られている。 本稿では,3次元顔アニメーションモデルを訓練するために,この2Dビデオを利用した新しい手法を提案する。 簡単にアクセスできる2dトークヘッドビデオの豊富さは、我々のモデルに堅牢な一般化能力を提供する。 これらの映像を既存の3次元顔再構成法と組み合わせることで,一貫した高忠実度唇同期を生成することができる。 さらに,本モデルでは,異なる個人の発話スタイルを巧みに捉え,異なる個人スタイルの3D音声ヘッドを生成する。 大規模定性的および定量的実験により,本手法の優位性を示した。

Given an arbitrary audio clip, audio-driven 3D facial animation aims to generate lifelike lip motions and facial expressions for a 3D head. Existing methods typically rely on training their models using limited public 3D datasets that contain a restricted number of audio-3D scan pairs. Consequently, their generalization capability remains limited. In this paper, we propose a novel method that leverages in-the-wild 2D talking-head videos to train our 3D facial animation model. The abundance of easily accessible 2D talking-head videos equips our model with a robust generalization capability. By combining these videos with existing 3D face reconstruction methods, our model excels in generating consistent and high-fidelity lip synchronization. Additionally, our model proficiently captures the speaking styles of different individuals, allowing it to generate 3D talking-heads with distinct personal styles. Extensive qualitative and quantitative experimental results demonstrate the superiority of our method.
翻訳日:2023-06-21 14:03:36 公開日:2023-06-20
# 分散量子コンピューティングのためのシミュレーションフレームワーク

A Simulation Framework for Distributed Quantum Computing ( http://arxiv.org/abs/2306.11539v1 )

ライセンス: Link先を確認
Davide Ferrari and Michele Amoretti(参考訳) 現在の量子プロセッサは、一様でない品質と非常に制約のある物理的接続を持つ数百の量子ビットによって特徴づけられる。 したがって、大規模量子コンピュータの需要の増加は、分散量子コンピューティング(dqc)アーキテクチャの研究を、計算タスクの利用可能な量子ビット数を増やすためのスケーラブルなアプローチとして推進している。 最近の実験的試みは、そのような設計のためのビルディングブロックのいくつかを実証している。 実際、Quantum Internetが提供するネットワークと通信機能により、リモート量子処理ユニット(QPU)は、各デバイスが単独では扱えない計算タスクの実行と協調を行うことができる。 この分野ではシミュレーションが重要な役割を果たす。 量子コンピューティングと量子ネットワーク技術の設計と評価において、ハードウェア、プロトコル、アプリケーションを含む研究コミュニティを支援するために、近年多くのシミュレーションツールが開発されている。 しかし、DQCシミュレーションで計算面とネットワーク面に等しく重点を置くフレームワークは、これまで提案されていない。 本稿では,このギャップを埋めることに貢献する。

Current quantum processors are characterized by few hundreds of qubits with non-uniform quality and highly constrained physical connectivity. Hence, the increasing demand for large-scale quantum computers is pushing research on Distributed Quantum Computing (DQC) architectures as a scalable approach for increasing the number of available qubits for computational tasks. Recent experimental efforts have demonstrated some of the building blocks for such a design. Indeed, network and communications functionalities provided by the Quantum Internet allow remote quantum processing units (QPUs) to communicate and cooperate for executing computational tasks that each single device cannot handle by itself. Simulation plays a major role in this field. Many simulation tools have been recently developed to support the research community in the design and evaluation of quantum computing and quantum network technologies, including hardware, protocols and applications. However, a framework for DQC simulation putting equal emphasis on computational and networking aspects has never been proposed, so far. In this paper, we contribute to filling this gap.
翻訳日:2023-06-21 14:03:21 公開日:2023-06-20
# ランク付けとLLM融合による記述性向上

Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion ( http://arxiv.org/abs/2306.11593v1 )

ライセンス: Link先を確認
Simone Bianco and Luigi Celona and Marco Donzella and Paolo Napoletano(参考訳) State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。 このデータセットには、人間のアノテーションによって提供されるアノテーションが含まれている。 しかし,この制約は複雑なシーンを効果的に捉え,詳細な情報を伝える上での課題となる。 さらに、キャプションモデルは'平均'キャプションに対するバイアスを示す傾向があり、より一般的な側面のみをキャプチャする。 もし私たちが自動的に長いキャプションを生成できたら、どうなるでしょう? 従来のMS-COCOのキャプションと比べて、画像の内容は多かれ少なかれ人間によって評価されるのか? 本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させることによって,よりリッチなキャプションを実現する手法を提案する。 提案手法は文献から既存のモデルを活用し,追加のトレーニングを不要とした。 代わりに、画像テキストベースのメトリクスを使用して、与えられた画像に対してSoTAモデルによって生成されたキャプションをランク付けする。 その後、上位2つのキャプションはLarge Language Model (LLM)で融合される。 実験の結果,MS-COCOテストセットで評価すると,本モデルが生成したキャプションが人間の判断と一致していることが確認できた。 様々なSoTAモデルの強みを組み合わせることで,画像キャプションの品質と魅力を高め,自動システムと人為的記述の豊かな情報的性質のギャップを埋める。 この進歩は、視覚言語とキャプションモデルの両方のトレーニングに適したキャプションを生成する新しい可能性を開く。

State-of-The-Art (SoTA) image captioning models often rely on the Microsoft COCO (MS-COCO) dataset for training. This dataset contains annotations provided by human annotators, who typically produce captions averaging around ten tokens. However, this constraint presents a challenge in effectively capturing complex scenes and conveying detailed information. Furthermore, captioning models tend to exhibit bias towards the ``average'' caption, which captures only the more general aspects. What would happen if we were able to automatically generate longer captions, thereby making them more detailed? Would these captions, evaluated by humans, be more or less representative of the image content compared to the original MS-COCO captions? In this paper, we present a novel approach to address previous challenges by showcasing how captions generated from different SoTA models can be effectively fused, resulting in richer captions. Our proposed method leverages existing models from the literature, eliminating the need for additional training. Instead, it utilizes an image-text based metric to rank the captions generated by SoTA models for a given image. Subsequently, the top two captions are fused using a Large Language Model (LLM). Experimental results demonstrate the effectiveness of our approach, as the captions generated by our model exhibit higher consistency with human judgment when evaluated on the MS-COCO test set. By combining the strengths of various SoTA models, our method enhances the quality and appeal of image captions, bridging the gap between automated systems and the rich, informative nature of human-generated descriptions. This advance opens up new possibilities for generating captions that are more suitable for the training of both vision-language and captioning models.
翻訳日:2023-06-21 13:56:52 公開日:2023-06-20
# ディープダブル自己表現型部分空間クラスタリング

Deep Double Self-Expressive Subspace Clustering ( http://arxiv.org/abs/2306.11592v1 )

ライセンス: Link先を確認
Ling Zhao, Yunpeng Ma, Shanxiong Chen, Jun Zhou(参考訳) オートエンコーダに基づく深部サブスペースクラスタリングが注目されている。 しかし、オートエンコーダに基づくほとんどのサブスペースクラスタリングは、クラスタリング性能を制限する自己表現係数行列の構造情報を利用しない。 本稿では,二重自己表現型サブスペースクラスタリングアルゴリズムを提案する。 我々の解の鍵となる考え方は、自己表現係数を例の特徴表現として、別の係数行列を得ることである。 次に,2つの係数行列を用いてスペクトルクラスタリングのための親和性行列を構築する。 サブスペース保存表現エラーを低減し、接続性を向上させることができる。 クラスタ化性能をさらに高めるために,コントラスト学習に基づく自己教師付きモジュールを提案し,ネットワークの性能をさらに向上させた。 いくつかのベンチマークデータセットの実験により、提案アルゴリズムは最先端の手法よりも優れたクラスタリングを実現することができることが示された。

Deep subspace clustering based on auto-encoder has received wide attention. However, most subspace clustering based on auto-encoder does not utilize the structural information in the self-expressive coefficient matrix, which limits the clustering performance. In this paper, we propose a double self-expressive subspace clustering algorithm. The key idea of our solution is to view the self-expressive coefficient as a feature representation of the example to get another coefficient matrix. Then, we use the two coefficient matrices to construct the affinity matrix for spectral clustering. We find that it can reduce the subspace-preserving representation error and improve connectivity. To further enhance the clustering performance, we proposed a self-supervised module based on contrastive learning, which can further improve the performance of the trained network. Experiments on several benchmark datasets demonstrate that the proposed algorithm can achieve better clustering than state-of-the-art methods.
翻訳日:2023-06-21 13:56:27 公開日:2023-06-20
# 確率勾配Descence を用いたガウスプロセス後部からのサンプリング

Sampling from Gaussian Process Posteriors using Stochastic Gradient Descent ( http://arxiv.org/abs/2306.11589v1 )

ライセンス: Link先を確認
Jihao Andreas Lin and Javier Antor\'an and Shreyas Padhy and David Janz and Jos\'e Miguel Hern\'andez-Lobato and Alexander Terenin(参考訳) ガウス過程は不確実性の定量化とシーケンシャルな意思決定のための強力なフレームワークであるが、線形システムを解く必要性によって制限されている。 一般に、これはデータセットのサイズが立方体コストであり、条件付けに敏感である。 確率勾配アルゴリズムを線形系を近似的に解くための計算効率の良い手法として検討し, 後方からサンプリングする低分散最適化目標を開発し, 誘導点まで拡張する。 反対に、確率勾配勾配は、最適値に急速に収束しない場合でも、しばしば正確な予測をもたらす。 非収束性からの暗黙バイアスのスペクトル的評価によりこれを説明できる。 確率勾配降下は、十分なデータカバレッジを持つ領域と、データから十分に離れた領域の両方において、真の後部に近い予測分布を生成する。 実験的に、確率勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。 その不確実性推定は、大規模なベイズ最適化〜タスクにおけるはるかに高価なベースラインのパフォーマンスと一致する。

Gaussian processes are a powerful framework for quantifying uncertainty and for sequential decision-making but are limited by the requirement of solving linear systems. In general, this has a cubic cost in dataset size and is sensitive to conditioning. We explore stochastic gradient algorithms as a computationally efficient method of approximately solving these linear systems: we develop low-variance optimization objectives for sampling from the posterior and extend these to inducing points. Counterintuitively, stochastic gradient descent often produces accurate predictions, even in cases where it does not converge quickly to the optimum. We explain this through a spectral characterization of the implicit bias from non-convergence. We show that stochastic gradient descent produces predictive distributions close to the true posterior both in regions with sufficient data coverage, and in regions sufficiently far away from the data. Experimentally, stochastic gradient descent achieves state-of-the-art performance on sufficiently large-scale or ill-conditioned regression tasks. Its uncertainty estimates match the performance of significantly more expensive baselines on a large-scale Bayesian~optimization~task.
翻訳日:2023-06-21 13:56:13 公開日:2023-06-20
# 有望な有向多重グラフ用グラフニューラルネットワーク

Provably Powerful Graph Neural Networks for Directed Multigraphs ( http://arxiv.org/abs/2306.11586v1 )

ライセンス: Link先を確認
B\'eni Egressy, Luc von Niederh\"ausern, Jovan Blanusa, Erik Altman, Roger Wattenhofer, Kubilay Atasu(参考訳) 本稿では,標準メッセージパスグラフニューラルネットワーク(GNN)を実証可能な有向多グラフニューラルネットワークに変換するための簡単な適応セットを提案する。 適応には、マルチグラフポート番号、ego ID、リバースメッセージパッシングが含まれる。 これらの組み合わせが任意の有向部分グラフパターンの検出を可能にすることを理論的に証明する。 提案手法の有効性を検証するために, 合成サブグラフ検出タスクの実験を行い, ほぼ完璧な結果を得た。 さらに,提案手法を2つの財務犯罪分析課題に適用した。 我々は、マネーロンダリング取引の検出において劇的な改善を行い、標準メッセージパスGNNのマイノリティクラスF1スコアを最大45%向上させ、ツリーベースおよびGNNベースラインよりも明らかに向上させた。 同様に、実際のフィッシング検出データセットで印象的な結果が観測され、標準のGNNのF1スコアが15%以上上昇し、すべてのベースラインを上回ります。

This paper proposes a set of simple adaptations to transform standard message-passing Graph Neural Networks (GNN) into provably powerful directed multigraph neural networks. The adaptations include multigraph port numbering, ego IDs, and reverse message passing. We prove that the combination of these theoretically enables the detection of any directed subgraph pattern. To validate the effectiveness of our proposed adaptations in practice, we conduct experiments on synthetic subgraph detection tasks, which demonstrate outstanding performance with almost perfect results. Moreover, we apply our proposed adaptations to two financial crime analysis tasks. We observe dramatic improvements in detecting money laundering transactions, improving the minority-class F1 score of a standard message-passing GNN by up to 45%, and clearly outperforming tree-based and GNN baselines. Similarly impressive results are observed on a real-world phishing detection dataset, boosting a standard GNN's F1 score by over 15% and outperforming all baselines.
翻訳日:2023-06-21 13:55:58 公開日:2023-06-20
# FAIR: 判断の逆転を正確に推測するための因果関係フレームワーク

FAIR: A Causal Framework for Accurately Inferring Judgments Reversals ( http://arxiv.org/abs/2306.11585v1 )

ライセンス: Link先を確認
Minghua He, Nanfei Gu, Yuntao Shi, Qionghui Zhang, Yaying Chen(参考訳) 人工知能研究者は近年、法的なインテリジェンスに大きな進歩を遂げている。 しかし、既存の研究は、法的知性の効率の向上を制限する判断の反転に埋め込まれた重要な価値に焦点を絞ってはいない。 本稿では,実際の中国語の判断をモデルとしたケースリバーサル(FAIR)の高精度推論のための因果的枠組みを提案する。 因果推論法による判断反転の原因を抽出し,得られた因果関係を事前知識としてニューラルネットワークに注入する。 そして、我々のフレームワークは、法的判断予測タスクとして挑戦的なデータセット上で検証される。 実験の結果,提案手法は判断の反転において最も重要な要素を活用でき,得られた因果関係はニューラルネットワークの性能を効果的に改善できることがわかった。 さらに、ChatGPTを例として、法的な知能タスクのための大規模言語モデルの一般化能力について論じる。 実験の結果,大規模言語モデルの一般化能力にはまだ欠陥が残っており,因果関係のマイニングは,モデル予測の精度を効果的に向上し,説明できることがわかった。

Artificial intelligence researchers have made significant advances in legal intelligence in recent years. However, the existing studies have not focused on the important value embedded in judgments reversals, which limits the improvement of the efficiency of legal intelligence. In this paper, we propose a causal Framework for Accurately Inferring case Reversals (FAIR), which models the problem of judgments reversals based on real Chinese judgments. We mine the causes of judgments reversals by causal inference methods and inject the obtained causal relationships into the neural network as a priori knowledge. And then, our framework is validated on a challenging dataset as a legal judgment prediction task. The experimental results show that our framework can tap the most critical factors in judgments reversal, and the obtained causal relationships can effectively improve the neural network's performance. In addition, we discuss the generalization ability of large language models for legal intelligence tasks using ChatGPT as an example. Our experiment has found that the generalization ability of large language models still has defects, and mining causal relationships can effectively improve the accuracy and explain ability of model predictions.
翻訳日:2023-06-21 13:55:41 公開日:2023-06-20
# 安定再帰視覚モデルを用いた人為的反応時間測定の計算

Computing a human-like reaction time metric from stable recurrent vision models ( http://arxiv.org/abs/2306.11582v1 )

ライセンス: Link先を確認
Lore Goetschalckx, Lakshmi Narasimhan Govindarajan, Alekh Karkada Ashok, Aarit Ahuja, David L. Sheinberg, Thomas Serre(参考訳) 視覚の計算モデルとしてのディープニューラルネットワークの採用は、これらのモデルを人間と「分離」する取り組みに刺激を与えた。 アライメントには行動選択があるが、選択パターンを特徴付けるだけでなく、視覚的な意思決定の時間的側面を捉えることは困難である。 本稿では、刺激計算可能なタスク最適化モデルから、反応時間の計算量を構築するための汎用方法論をスケッチする。 具体的には、繰り返し視覚モデルに蓄積された証拠を要約する主観的論理理論からの洞察を活用する新しい指標を提案する。 本尺度は,知覚的グループ化,メンタルシミュレーション,シーン分類の4つの異なる視覚的意思決定タスクにわたる刺激操作に対する人間の反応時間パターンに適合することを示す。 この研究は、他の様々な認知タスクの文脈におけるモデルと人間の視覚戦略の時間的アライメントを探索し、神経科学の検証可能な仮説を生成するための道を開いた。

The meteoric rise in the adoption of deep neural networks as computational models of vision has inspired efforts to "align" these models with humans. One dimension of interest for alignment includes behavioral choices, but moving beyond characterizing choice patterns to capturing temporal aspects of visual decision-making has been challenging. Here, we sketch a general-purpose methodology to construct computational accounts of reaction times from a stimulus-computable, task-optimized model. Specifically, we introduce a novel metric leveraging insights from subjective logic theory summarizing evidence accumulation in recurrent vision models. We demonstrate that our metric aligns with patterns of human reaction times for stimulus manipulations across four disparate visual decision-making tasks spanning perceptual grouping, mental simulation, and scene categorization. This work paves the way for exploring the temporal alignment of model and human visual strategies in the context of various other cognitive tasks toward generating testable hypotheses for neuroscience.
翻訳日:2023-06-21 13:55:24 公開日:2023-06-20
# Dzyaloshinskii-Moriya相互作用を持つXXZハイゼンベルクモデルにおけるロバスト一方向ファントムヘリックス状態

Robust unidirectional phantom helix states in the XXZ Heisenberg model with Dzyaloshinskii-Moriya interaction ( http://arxiv.org/abs/2306.11578v1 )

ライセンス: Link先を確認
Y. B. Shi and Z. Song(参考訳) ファントム・ヘリックス状態(phantom helix states)は、ゼロエネルギーの周りのエネルギー準位にあり、双方向に等しいxxzハイゼンベルク模型の退化固有状態の特別な集合である。 本研究では,dmi(dzyaloshinskii-moriya interaction)を用いてxxzハイゼンベルク模型のヘリックス状態について検討する。 一方向のヘリックス状態のみが共鳴DMIの存在下で変化しないことを示す。 Holstein--Primakoff(HP)変換に基づいて、量子スピンモデルをボソンモデルにマッピングすることで、基礎となるメカニズムを理解することができる。 さらに、そのような幻状態が強いDMIによってスペクトルから分離され、状態の堅牢性を高めることも示している。 数値シミュレーションにより一方向ファントムヘリックス状態の動的形成過程を示す。 その結果,DMIは高い効率でフィルタとして機能することが示唆された。

The phantom helix states are a special set of degenerate eigenstates of the XXZ Heisenberg model, which lie in the energy levels around zero energy and are bidirectionally equal. In this work, we study the helix state in the XXZ Heisenberg model with the Dzyaloshinskii-Moriya interaction (DMI). We show exactly that only the helix states in one direction remain unchanged in the presence of resonant DMI. Based on the Holstein--Primakoff (HP) transformation, the quantum spin model is mapped to a boson model, which allows us to understand the underlying mechanism. Furthermore, it also indicates that such phantom states can be separated from the spectrum by the strong DMI to enhance the robustness of the states. We demonstrate the dynamic formation processes of unidirectional phantom helix states by numerical simulations. The results indicate that the DMI as expected acts as a filter with high efficiency.
翻訳日:2023-06-21 13:55:10 公開日:2023-06-20
# 網膜血管セグメンテーションのための深層学習法:未熟児網膜症画像の検討

Deep Learning Methods for Retinal Blood Vessel Segmentation: Evaluation on Images with Retinopathy of Prematurity ( http://arxiv.org/abs/2306.11576v1 )

ライセンス: Link先を確認
Gorana Goji\'c, Veljko Petrovi\'c, Radovan Turovi\'c, Dinu Dragan, Ana Oros, Du\v{s}an Gaji\'c, Neboj\v{s}a Horvat(参考訳) 網膜画像からの血管の自動分割は、未熟児網膜症を含む多くの全身および眼疾患の診断において重要な役割を果たす。 網膜画像からの血管セグメンテーションの最先端の研究は、畳み込みニューラルネットワークに基づいている。 これまでに提案されたソリューションは、いくつかの利用可能な網膜血管セグメンテーションデータセットの画像に基づいてトレーニングされ、テストされている。 本稿では,未熟な網膜画像の網膜症における血管分画の文脈において,高パフォーマンス畳み込みニューラルネットワークを用いた3つの網膜血管分画の性能を評価する。 この研究の主な動機は、未熟な診断の網膜症で眼科医を助ける高性能な予測器を開発するのに、既存の公開データセットが十分かどうかをテストすることである。 そこで我々は2人の観察者によって手動でラベル付けされた網膜血管アノテーションを用いた未熟児画像の網膜症のみからなるデータセットを作成し,その1人は未熟児治療の網膜症に経験した眼科医である。 実験の結果, 乳児の網膜血管の検出には, 分類感度の大幅な低下が示されるように, 公共データセットの画像と比較して, コントラストが低いため, いずれも困難であることがわかった。 これら3つの溶液は、未熟の網膜症を診断するために使われず、代わりにノイズを表し、網膜血管と混同される脈絡膜血管も含む。 視的および数値的観察により,未熟児の網膜症に対する眼科医の補助として,既存の網膜血管分画のソリューションは,より詳細なデータセットや深層モデルへの改善が必要であることを観察した。

Automatic blood vessel segmentation from retinal images plays an important role in the diagnosis of many systemic and eye diseases, including retinopathy of prematurity. Current state-of-the-art research in blood vessel segmentation from retinal images is based on convolutional neural networks. The solutions proposed so far are trained and tested on images from a few available retinal blood vessel segmentation datasets, which might limit their performance when given an image with retinopathy of prematurity signs. In this paper, we evaluate the performance of three high-performing convolutional neural networks for retinal blood vessel segmentation in the context of blood vessel segmentation on retinopathy of prematurity retinal images. The main motive behind the study is to test if existing public datasets suffice to develop a high-performing predictor that could assist an ophthalmologist in retinopathy of prematurity diagnosis. To do so, we create a dataset consisting solely of retinopathy of prematurity images with retinal blood vessel annotations manually labeled by two observers, where one is the ophthalmologist experienced in retinopathy of prematurity treatment. Experimental results show that all three solutions have difficulties in detecting the retinal blood vessels of infants due to a lower contrast compared to images from public datasets as demonstrated by a significant drop in classification sensitivity. All three solutions segment alongside retinal also choroidal blood vessels which are not used to diagnose retinopathy of prematurity, but instead represent noise and are confused with retinal blood vessels. By visual and numerical observations, we observe that existing solutions for retinal blood vessel segmentation need improvement toward more detailed datasets or deeper models in order to assist the ophthalmologist in retinopathy of prematurity diagnosis.
翻訳日:2023-06-21 13:54:52 公開日:2023-06-20
# HomeRobot:オープン語彙モバイル操作

HomeRobot: Open-Vocabulary Mobile Manipulation ( http://arxiv.org/abs/2306.11565v1 )

ライセンス: Link先を確認
Sriram Yenamandra, Arun Ramachandran, Karmesh Yadav, Austin Wang, Mukul Khanna, Theophile Gervet, Tsung-Yen Yang, Vidhi Jain, Alexander William Clegg, John Turner, Zsolt Kira, Manolis Savva, Angel Chang, Devendra Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi, Yonatan Bisk, Chris Paxton(参考訳) homerobot(名詞)は、家庭をナビゲートし、さまざまなオブジェクトを操作する安価なロボットで、日常的なタスクを完了させる。 Open-Vocabulary Mobile Manipulation (OVMM)は、目に見えない環境でオブジェクトを選択し、命令された場所に配置する問題である。 ロボットの認識、言語理解、ナビゲーション、操作は、すべてovmmにとって不可欠である。 さらに、これらのサブプロブレムへのソリューションの統合は、それ自体が大きな課題となる。 この領域の研究を進めるために,HomeRobot OVMMベンチマークを導入し,エージェントが家庭環境をナビゲートして新しい物体を把握し,対象のレセプタクルに配置する。 homerobotには2つのコンポーネントがある: 大規模で多様なキュレートされたオブジェクトセットを新しい高品質のマルチルームホーム環境に使用するシミュレーションコンポーネントと、低コストのhelloロボットストレッチのためのソフトウェアスタックを提供する現実世界コンポーネント。 強化学習とヒューリスティックベースライン(モデルベース)の両方を実装し,sim-to-real転送の証拠を示す。 私たちの実験では、将来の研究成果がパフォーマンスを改善する方法を特定しました。 私たちのWebサイトにあるビデオを参照してください。

HomeRobot (noun): An affordable compliant robot that navigates homes and manipulates a wide range of objects in order to complete everyday tasks. Open-Vocabulary Mobile Manipulation (OVMM) is the problem of picking any object in any unseen environment, and placing it in a commanded location. This is a foundational challenge for robots to be useful assistants in human environments, because it involves tackling sub-problems from across robotics: perception, language understanding, navigation, and manipulation are all essential to OVMM. In addition, integration of the solutions to these sub-problems poses its own substantial challenges. To drive research in this area, we introduce the HomeRobot OVMM benchmark, where an agent navigates household environments to grasp novel objects and place them on target receptacles. HomeRobot has two components: a simulation component, which uses a large and diverse curated object set in new, high-quality multi-room home environments; and a real-world component, providing a software stack for the low-cost Hello Robot Stretch to encourage replication of real-world experiments across labs. We implement both reinforcement learning and heuristic (model-based) baselines and show evidence of sim-to-real transfer. Our baselines achieve a 20% success rate in the real world; our experiments identify ways future research work improve performance. See videos on our website: https://ovmm.github.io/.
翻訳日:2023-06-21 13:54:25 公開日:2023-06-20
# mild: ノイズラベルを用いた学習のためのインスタンス学習ダイナミクスのモデリング

MILD: Modeling the Instance Learning Dynamics for Learning with Noisy Labels ( http://arxiv.org/abs/2306.11560v1 )

ライセンス: Link先を確認
Chuanyang Hu, Shipeng Yan, Zhitong Gao, Xuming He(参考訳) ディープラーニングは大きな成功を収めていますが、正確なラベルを持つ大量のトレーニングデータに依存することが少なくありません。 コストを削減するための顕著な方向は、現実のアプリケーションでユビキタスなノイズラベルで学習することだ。 このような学習タスクにおける重要な課題は、偽ラベルデータに対するネットワーク記憶の影響を減らすことである。 本研究では,各データインスタンスの学習ダイナミクスを総合的に考慮し,クリーンデータを識別するweibull混合モデルに基づく反復的選択手法を提案する。 従来の小損失ヒューリスティックとは対照的に,ディープネットワークは記憶が容易で,クリーンなデータを忘れにくいという観測結果を活用する。 特に,誤分類されたり,トレーニング中に記憶されたりする移行時間を通じて,各インスタンスの記憶と記憶の難しさを計測し,選択のための新しい指標に統合する。 提案するメトリックに基づいて,特定されたクリーンデータのサブセットを保持し,選択手順を繰り返すことで,クリーンなサブセットを反復的に洗練し,最終的にモデルトレーニングに使用する。 提案手法を検証するため,我々は,合成ノイズデータセットと実世界のWebデータについて広範な実験を行った。

Despite deep learning has achieved great success, it often relies on a large amount of training data with accurate labels, which are expensive and time-consuming to collect. A prominent direction to reduce the cost is to learn with noisy labels, which are ubiquitous in the real-world applications. A critical challenge for such a learning task is to reduce the effect of network memorization on the falsely-labeled data. In this work, we propose an iterative selection approach based on the Weibull mixture model, which identifies clean data by considering the overall learning dynamics of each data instance. In contrast to the previous small-loss heuristics, we leverage the observation that deep network is easy to memorize and hard to forget clean data. In particular, we measure the difficulty of memorization and forgetting for each instance via the transition times between being misclassified and being memorized in training, and integrate them into a novel metric for selection. Based on the proposed metric, we retain a subset of identified clean data and repeat the selection procedure to iteratively refine the clean subset, which is finally used for model training. To validate our method, we perform extensive experiments on synthetic noisy datasets and real-world web data, and our strategy outperforms existing noisy-label learning methods.
翻訳日:2023-06-21 13:54:02 公開日:2023-06-20
# 量子ドットからの単一光子生成のための小型チャープファイバブラッググレーティング

Compact Chirped Fiber Bragg Gratings for Single-Photon Generation from Quantum Dots ( http://arxiv.org/abs/2306.11635v1 )

ライセンス: Link先を確認
Vikas Remesh, Ria G. Kr\"amer, Ren\'e Schwarz, Florian Kappe, Yusuf Karli, Malte Per Siems, Thomas K. Bracht, Saimon Filipe Covre da Silva, Armando Rastelli, Doris E. Reiter, Daniel Richter, Stefan Nolte, Gregor Weihs(参考訳) 単一光子のスケーラブルな源は、効率的な量子フォトニックアーキテクチャの重要な構成要素である。 これを実現するには、高効率で集合的に励起できる量子エミッタのアンサンブルを持つことが有益である。 半導体量子ドットは、光物理特性が優れているため、この文脈で大きなポテンシャルを持つ。 量子ドットのスペクトル変動は、一般に製造法によって導入された欠点と見なされる。 しかし、これは周波数多重単一光子プラットフォームを実現するのに有益である。 チャープパルス励起は、いわゆる断熱的急速通過に依存し、個々の量子ドットパラメータへの免疫により量子ドットアンサンブルを励起する最も効率的なスキームである。 しかし、量子エミッターを励起するチャープレーザーパルスを生成する既存の方法は、バルクで、損失があり、機械的に不安定であり、量子ドット光子源の見通しを著しく損なう。 本稿では、固体量子エミッタのチャープパルス励起に対するコンパクトでロバストで高効率な代替方法を提案する。 単純なプラグ・アンド・プレイモジュールはチャープファイバブラッググレーティング(cfbgs)で構成されており、フェムト秒碑文によって作製され、量子ドットが放出される近赤外スペクトル範囲において高い分散値を提供する。 我々は、GaAs量子ドットのチャープ励起による手法の性能評価とベンチマークを行い、高忠実度単一光子生成を確立した。 光子源に結合した非常に汎用性の高いチャープモジュールは、実用的な量子フォトニックデバイスを実現するための重要なマイルストーンです。

A scalable source of single photons is a key constituent of an efficient quantum photonic architecture. To realize this, it is beneficial to have an ensemble of quantum emitters that can be collectively excited with high efficiency. Semiconductor quantum dots hold great potential in this context, due to their excellent photophysical properties. Spectral variability of quantum dots is commonly regarded as a drawback introduced by the fabrication method. However, this is beneficial to realize a frequency-multiplexed single-photon platform. Chirped pulse excitation, relying on the so-called adiabatic rapid passage, is the most efficient scheme to excite a quantum dot ensemble due to its immunity to individual quantum dot parameters. Yet, the existing methods of generating chirped laser pulses to excite a quantum emitter are bulky, lossy, and mechanically unstable, which severely hampers the prospects of a quantum dot photon source. Here, we present a compact, robust, and high-efficiency alternative for chirped pulse excitation of solid-state quantum emitters. Our simple plug-and-play module consists of chirped fiber Bragg gratings (CFBGs), fabricated via femtosecond inscription, to provide high values of dispersion in the near-infrared spectral range, where the quantum dots emit. We characterize and benchmark the performance of our method via chirped excitation of a GaAs quantum dot, establishing high-fidelity single-photon generation. Our highly versatile chirping module coupled to a photon source is a significant milestone toward realizing practical quantum photonic devices.
翻訳日:2023-06-21 13:47:48 公開日:2023-06-20
# 量子力学教室におけるLandau-Zener問題による計算プロジェクト

Computational projects with the Landau-Zener problem in the quantum mechanics classroom ( http://arxiv.org/abs/2306.11633v1 )

ライセンス: Link先を確認
Livia A. J. Guttieres, Marko D. Petrovic, and James K. Freericks(参考訳) 2状態量子力学系において最小エネルギー分離が一定速度で渡されるランダウ・ツェナー問題(landau-zener problem)は、計算プロジェクトにおいて優れたモデル量子システムである。 低レベルの計算労力を必要とするが、専用の作業によって解決できる複雑な数値的およびアルゴリズム的な問題が多い。 正確性、離散化、外挿といった計算概念を教えるのに用いられ、時間次積と時間依存摂動理論による無限時間への外挿によって時間発展の量子概念を強化する。 さらに、多くの先進的な量子コンピューティング戦略に採用されている圧縮アルゴリズムの概念について論じ、ランドー・ツェナー問題と簡単に説明できる。

The Landau-Zener problem, where a minimum energy separation is passed with constant rate in a two-state quantum-mechanical system, is an excellent model quantum system for a computational project. It requires a low-level computational effort, but has a number of complex numerical and algorithmic issues that can be resolved through dedicated work. It can be used to teach computational concepts such as accuracy, discretization, and extrapolation, and it reinforces quantum concepts of time-evolution via a time-ordered product and of extrapolation to infinite time via time-dependent perturbation theory. In addition, we discuss the concept of compression algorithms, which are employed in many advanced quantum computing strategies, and easy to illustrate with the Landau-Zener problem.
翻訳日:2023-06-21 13:47:21 公開日:2023-06-20
# ビリヤード系におけるスペクトルとクリロフ錯体

Spectral and Krylov Complexity in Billiard Systems ( http://arxiv.org/abs/2306.11632v1 )

ライセンス: Link先を確認
Hugo A. Camargo, Viktor Jahnke, Hyun-Sik Jeong, Keun-Young Kim, Mitsuhiro Nishida(参考訳) 本研究では,有限温度における量子ビリヤード系のスペクトル複雑性とクリロフ複雑性について検討する。 球面と球面のビリヤードは、それぞれ可積分および非可積分量子力学系のパラダイム的な例である。 円ビリヤードに対して計算すると, スタジアムビリヤードと比較して, 後続のスケールで飽和することがわかったので, スペクトル複雑性の飽和値と時間スケールを用いて, システムの非可積分性を調べることができる。 この観測は異なる温度で検証される。 さらに、位置演算子のクリロフ複雑性とその関連するランツォス係数を、ワイトマン内積を用いて有限温度で研究する。 ランチョス係数の成長速度は、予想された普遍的な境界を低温で飽和させる。 さらに、Lanczos係数のサブセットでさえ、スタジアムビリヤードとは対照的に円ビリヤードの場合で特に不規則な振る舞いを示すため、可積分性の指標として機能する可能性があることも分かる。 最後に、Krylovエントロピーを研究し、両方のビリヤード系におけるKrylov複雑性との早期対数関係を検証する。

In this work, we investigate spectral complexity and Krylov complexity in quantum billiard systems at finite temperature. We study both circle and stadium billiards as paradigmatic examples of integrable and non-integrable quantum-mechanical systems, respectively. We show that the saturation value and time scale of spectral complexity may be used to probe the non-integrability of the system since we find that when computed for the circle billiard, it saturates at a later time scale compared to the stadium billiards. This observation is verified for different temperatures. Furthermore, we study the Krylov complexity of the position operator and its associated Lanczos coefficients at finite temperature using the Wightman inner product. We find that the growth rate of the Lanczos coefficients saturates the conjectured universal bound at low temperatures. Additionally, we also find that even a subset of the Lanczos coefficients can potentially serve as an indicator of integrability, as they demonstrate erratic behavior specifically in the circle billiard case, in contrast to the stadium billiard. Finally, we also study Krylov entropy and verify its early-time logarithmic relation with Krylov complexity in both types of billiard systems.
翻訳日:2023-06-21 13:47:09 公開日:2023-06-20
# 正規化ロバストMDPとリスク感性MDP--等価性、政策勾配、サンプル複雑度

Regularized Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity ( http://arxiv.org/abs/2306.11626v1 )

ライセンス: Link先を確認
Runyu Zhang, Yang Hu, Na Li(参考訳) 本稿では、ロバストなMDPフレームワークの拡張である正則化されたロバストなマルコフ決定プロセス(MDP)問題に対する強化学習に焦点を当てる。 まず、リスクに敏感なMDPを導入し、リスクに敏感なMDPと正規化された堅牢なMDPの等価性を確立する。 この等価性は、正規化されたRMDPに対処するための代替的な視点を提供し、効率的な学習アルゴリズムの設計を可能にする。 この同値性から、正規化されたロバストなMDP問題に対するポリシー勾配定理を導出し、直接パラメタライゼーションを伴う表層設定の下で、正確なポリシー勾配法を大域的に収束させることを証明する。 また、KL分割正規化項を持つ特定の正則化ロバストMDP問題に対して、サンプルベースのオフライン学習アルゴリズム、すなわち、ロバスト適合Z反復(RFZI)を提案し、アルゴリズムのサンプル複雑性を解析する。 この結果は数値シミュレーションでも支持されている。

This paper focuses on reinforcement learning for the regularized robust Markov decision process (MDP) problem, an extension of the robust MDP framework. We first introduce the risk-sensitive MDP and establish the equivalence between risk-sensitive MDP and regularized robust MDP. This equivalence offers an alternative perspective for addressing the regularized RMDP and enables the design of efficient learning algorithms. Given this equivalence, we further derive the policy gradient theorem for the regularized robust MDP problem and prove the global convergence of the exact policy gradient method under the tabular setting with direct parameterization. We also propose a sample-based offline learning algorithm, namely the robust fitted-Z iteration (RFZI), for a specific regularized robust MDP problem with a KL-divergence regularization term and analyze the sample complexity of the algorithm. Our results are also supported by numerical simulations.
翻訳日:2023-06-21 13:46:47 公開日:2023-06-20
# 一般化誤差の平均場解析

Mean-field Analysis of Generalization Errors ( http://arxiv.org/abs/2306.11623v1 )

ライセンス: Link先を確認
Gholamali Aminian, Samuel N. Cohen, {\L}ukasz Szpruch(参考訳) 確率測度空間上の微分積分のレンズによるアルゴリズムの弱いおよび$L_2$一般化誤差を探索する新しい枠組みを提案する。 具体的には、kl-正規化経験的リスク最小化問題を検討し、一般化誤差収束率が$n$のサンプルでトレーニングする場合に$\mathcal{o}(1/n)$となるような一般的な条件を確立する。 平均場状態における一層ニューラルネットワークによる教師あり学習の文脈では、これらの条件は、損失と活性化関数に対する適切な積分性と規則性仮定に反映される。

We propose a novel framework for exploring weak and $L_2$ generalization errors of algorithms through the lens of differential calculus on the space of probability measures. Specifically, we consider the KL-regularized empirical risk minimization problem and establish generic conditions under which the generalization error convergence rate, when training on a sample of size $n$, is $\mathcal{O}(1/n)$. In the context of supervised learning with a one-hidden layer neural network in the mean-field regime, these conditions are reflected in suitable integrability and regularity assumptions on the loss and activation functions.
翻訳日:2023-06-21 13:46:29 公開日:2023-06-20
# 容易に実装可能なユニバーサルゲートセットを持つ多モードボソニック猫符号

Multimode bosonic cat codes with an easily implementable universal gate set ( http://arxiv.org/abs/2306.11621v1 )

ライセンス: Link先を確認
Aur\'elie Denys, Anthony Leverrier(参考訳) 本稿では、このグループが(有限)ユニタリな1-設計であるとして、論理演算の特定のグループを単純な物理演算を用いて実装する量子誤り訂正符号を設計する手法を提案する。 これらの物理演算は、キュービット符号のトランスバーサルゲートや、ボソニック符号のガウスユニタリである。 後者の場合、このアプローチを利用してキャット qubit のマルチモード拡張を定義することができ、すべての単量子クリフォード論理ゲートは二次ハミルトニアンから得られる。 制御された回転のような四次ハミルトニアンも利用可能であれば、cnot と cs ゲートを実装し、普遍ゲートセットを提供することができる。

We present a method for designing quantum error correcting codes such that a specific group of logical operations is implemented using simple physical operations, provided that this group is a (finite) unitary 1-design. These physical operations can be transversal gates for qubit codes, or Gaussian unitaries for bosonic codes. In the latter case, one can exploit this approach to define multimode extensions of the cat qubit, wherein all single-qubit Clifford logical gates are obtained from a quadratic Hamiltonian. If a quartic Hamiltonian is also available, such as a controlled rotation, then it can be used to implement the CNOT and CS gates, providing a universal gate set.
翻訳日:2023-06-21 13:46:17 公開日:2023-06-20
# 磁気トンネル接合に基づく直列連結スピントルク振動子の相互同期に向けて

Towards mutual synchronization of serially connected Spin Torque Oscillators based on magnetic tunnel junctions ( http://arxiv.org/abs/2306.11608v1 )

ライセンス: Link先を確認
Piotr Rzeszut, Jakub Mojsiejuk, Witold Skowro\'nski, Sumito Tsunegi, Hitoshi Kubota, Shinji Yuasa(参考訳) 複数のニューロモルフィックアプリケーションは、2つ以上のデバイスを共通の信号にチューニングする必要がある。 様々な種類のニューロモルフィック計算はスピントロニック発振器を用いて実現され、直流電流は磁化前兆を誘導し、交流電圧発生器となる。 しかし、スピントロニクスでは、dc信号を用いた2つの発振器の同期は、同期すべきデバイス間のある程度の類似性を必要とするため、製造過程におけるデバイスパラメータ分布のため達成が難しいため、依然として困難な問題である。 本研究では,スピントルク発振器の同期機構に関する実験結果を示す。 デバイスは垂直に磁化された自由層を持つ磁気トンネル接合に基づいており、磁場と直流バイアスの存在下で均一な磁化精度を利用する。 外部マイクロ波源を用いて、磁気トンネル接合の同期に最適な条件を示す。 最後に、2つの接合の直列接続に関する結果を示し、振動パワーと直線幅を改善するための経路について議論する。 また、結合振動子モデルの数値シミュレーションを用いて、実験条件を再現し、同期を実現するための耐性を決定することを目的とする。

Multiple neuromorphic applications require the tuning of two or more devices to a common signal. Various types of neuromorphic computation can be realized using spintronic oscillators, where the DC current induces magnetization precession, which turns into an AC voltage generator. However, in spintronics, synchronization of two oscillators using a DC signal is still a challenging problem because it requires a certain degree of similarity between devices that are to be synchronized, which may be difficult to achieve due to device parameter distribution during the fabrication process. In this work, we present experimental results on the mechanisms of synchronization of spin-torque oscillators. Devices are based on magnetic tunnel junction with a perpendicularly magnetized free layer and take advantage of a uniform magnetization precision in the presence of the magnetic field and a DC bias. By using an external microwave source, we show the optimal condition for the synchronization of the magnetic tunnel junctions. Finally, we present results on the in-series connection of two junctions and discuss the possible path towards improving oscillation power and linewidth. In addition, using numerical simulations of the coupled oscillators model, we aim to reproduce the conditions of the experiments and determine the tolerance for achieving synchronization.
翻訳日:2023-06-21 13:46:03 公開日:2023-06-20
# コンテンツに基づく画像検索のための注釈コスト効率の良い能動学習

Annotation Cost Efficient Active Learning for Content Based Image Retrieval ( http://arxiv.org/abs/2306.11605v1 )

ライセンス: Link先を確認
Julia Henkel, Genc Hoxha, Gencer Sumbul, Lars M\"ollenbrok, Beg\"um Demir(参考訳) ディープメトリックラーニング(DML)に基づく手法は,リモートセンシング(RS)におけるコンテントベース画像検索(CBIR)に極めて有効であることがわかった。 ディープニューラルネットワークのモデルパラメータを正確に学習するためには、ほとんどのDML手法は、大量の注釈付きトレーニングイメージを必要とする。 この問題に対処するため,本論文では,アノテーションコストの高効率能動学習法(ANNEAL)を提案する。 提案手法は,最も有益な画像対を類似あるいは異質なものとしてアノテートし,単純なyes/no質問を%アンスし,深い距離空間を正確にモデル化することにより,反復的にトレーニングセットを充実させることを目的としている。 これは2段階連続で達成される。 最初のステップでは、ペアワイズイメージの類似性は、利用可能なトレーニングセットに基づいてモデル化される。 そして、第2ステップでは、最も不確実で多様な(情報的)画像対をアノテーションとして選択する。 CBIRの既存のALメソッドとは異なり、ANNEALの各ALイテレーションでは、人間の専門家が、最も情報に富んだイメージペアを類似/異種として注釈付けするよう求められる。 これは、ランドユース/ランドカバークラスラベルで注釈を付けるのに比べ、アノテーションコストを大幅に削減する。 実験の結果,本手法の有効性が示された。 ANNEALのコードはhttps://git.tu-berlin.de/rsim/ANNEALで公開されている。

Deep metric learning (DML) based methods have been found very effective for content-based image retrieval (CBIR) in remote sensing (RS). For accurately learning the model parameters of deep neural networks, most of the DML methods require a high number of annotated training images, which can be costly to gather. To address this problem, in this paper we present an annotation cost efficient active learning (AL) method (denoted as ANNEAL). The proposed method aims to iteratively enrich the training set by annotating the most informative image pairs as similar or dissimilar, %answering a simple yes/no question, while accurately modelling a deep metric space. This is achieved by two consecutive steps. In the first step the pairwise image similarity is modelled based on the available training set. Then, in the second step the most uncertain and diverse (i.e., informative) image pairs are selected to be annotated. Unlike the existing AL methods for CBIR, at each AL iteration of ANNEAL a human expert is asked to annotate the most informative image pairs as similar/dissimilar. This significantly reduces the annotation cost compared to annotating images with land-use/land cover class labels. Experimental results show the effectiveness of our method. The code of ANNEAL is publicly available at https://git.tu-berlin.de/rsim/ANNEAL.
翻訳日:2023-06-21 13:45:45 公開日:2023-06-20
# BEVScope:動的シナリオにおける鳥のEye-Viewを活用する自己監督深度推定の強化

BEVScope: Enhancing Self-Supervised Depth Estimation Leveraging Bird's-Eye-View in Dynamic Scenarios ( http://arxiv.org/abs/2306.11598v1 )

ライセンス: Link先を確認
Yucheng Mao, Ruowen Zhao, Tianbao Zhang and Hang Zhao(参考訳) 深度推定は、自動運転とロボットシステムにおける知覚の基礎である。 LiDARシステムのかなりのコストと比較的少ないデータ取得により、コスト効率の良い代替案、特に自己監督深度推定の探索につながった。 とはいえ、現在の自己監督型深度推定手法は、(1)情報の多カメラビューを適切に活用できないこと。 (2)動的オブジェクトを効果的に扱う能力の制限。 これらの課題に対処するために,我々は,Bird's-Eye-View(BEV)機能を活用した自己教師付き深度推定の革新的なアプローチであるBEVScopeを提案する。 同時に,移動物体に付随する複雑性を緩和する適応的損失関数を提案する。 nuscenesデータセットで行った経験的評価は、我々のアプローチを検証し、競争力を示す。 コードはhttps://github.com/myc634/bevscopeでリリースされる。

Depth estimation is a cornerstone of perception in autonomous driving and robotic systems. The considerable cost and relatively sparse data acquisition of LiDAR systems have led to the exploration of cost-effective alternatives, notably, self-supervised depth estimation. Nevertheless, current self-supervised depth estimation methods grapple with several limitations: (1) the failure to adequately leverage informative multi-camera views. (2) the limited capacity to handle dynamic objects effectively. To address these challenges, we present BEVScope, an innovative approach to self-supervised depth estimation that harnesses Bird's-Eye-View (BEV) features. Concurrently, we propose an adaptive loss function, specifically designed to mitigate the complexities associated with moving objects. Empirical evaluations conducted on the Nuscenes dataset validate our approach, demonstrating competitive performance. Code will be released at https://github.com/myc634/BEVScope.
翻訳日:2023-06-21 13:45:19 公開日:2023-06-20
# 自由電子の量子デコヒーレンスと遠方物体との相互作用

Quantum decoherence of free electrons and interaction with distant objects ( http://arxiv.org/abs/2306.11595v1 )

ライセンス: Link先を確認
Cruz I. Velasco, Valerio Di Giulio, and F. Javier Garc\'ia de Abajo(参考訳) 量子物理学は、微視的な長さスケールで相互作用する小さな物体の力学を規定する。 それにもかかわらず、マクロ距離を含む量子相関は、低温で原子ガスや物質波と同様に絡み合った光子の間で観測することができる。 荷電粒子と拡張物体との間の電磁結合の長距離的性質は、大きな距離で量子現象を引き起こすこともできる。 ここでは、マクロ距離を含む量子力学の顕在化と、遠方拡張物体の存在下での電子-放射結合によって生じる電子-電子間干渉によるコヒーレンスのほぼ完全な減少を示す。 この効果を半無限板と相互作用する2経路電子ビームの厳密な理論的解析により説明し、ゼロ温度での経路分離に比例して有限温度で指数関数的に消失する経路間コヒーレンスを見出した。 この巨視的量子現象の基本的な関心に加えて、この結果は真空温度を測定し、遠方の物体の存在を非破壊的に検知するアプローチを示唆している。

Quantum physics rules the dynamics of small objects as they interact over microscopic length scales. Nevertheless, quantum correlations involving macroscopic distances can be observed between entangled photons as well as in atomic gases and matter waves at low temperatures. The long-range nature of the electromagnetic coupling between charged particles and extended objects could also trigger quantum phenomena over large distances. Here, we reveal a manifestation of quantum mechanics that involves macroscopic distances and results in a nearly complete depletion of coherence associated with which-way free-electron interference produced by electron--radiation coupling in the presence of a distant extended object. We illustrate this effect by a rigorous theoretical analysis of a two-path electron beam interacting with a semi-infinite plate and find the inter-path coherence to vanish proportionally to the path separation at zero temperature and exponentially at finite temperature. Besides the fundamental interest of this macroscopic quantum phenomenon, our results suggest an approach to measuring the vacuum temperature and nondestructively sensing the presence of distant objects.
翻訳日:2023-06-21 13:45:04 公開日:2023-06-20
# reluアクティベーションを持つグラフニューラルネットワークにおける初期化とアーキテクチャ選択の原則

Principles for Initialization and Architecture Selection in Graph Neural Networks with ReLU Activations ( http://arxiv.org/abs/2306.11668v1 )

ライセンス: Link先を確認
Gage DeZoort, Boris Hanin(参考訳) 本稿では、ReLU活性化を伴う有限幅グラフニューラルネットワーク(GNN)の初期化とアーキテクチャ選択の3つの原則を導出し、検証する。 まず、よく知られたHe-initializationのReLU GNNへの一意の一般化を理論的に導出する。 我々の初期化スキームは、初期化時にネットワーク出力と勾配の平均スケールが順に残ることを保証している。 第2に、有限幅のバニラReLU GNNにおいて、初期化にかかわらず、固定集約演算子を使用する場合、過密は大きな深さでは避けられないことを示す。 そして、固定集約演算子を同一性で補間することで得られる残余集約演算子を用いることで、初期化時の過度なスムース化を確実に軽減できることを証明した。 最後に,固定型初期化で残差接続を使用する場合,初期化時に最終層特徴の相関崩壊を回避できることを示す。 アブレーション研究により, フォワードにおける初期化, 残余集約演算子, 残余接続を用いることで, 様々なタスクにおける深部ReLU GNNの早期トレーニングのダイナミクスを著しく, 確実に高速化できることがわかった。

This article derives and validates three principles for initialization and architecture selection in finite width graph neural networks (GNNs) with ReLU activations. First, we theoretically derive what is essentially the unique generalization to ReLU GNNs of the well-known He-initialization. Our initialization scheme guarantees that the average scale of network outputs and gradients remains order one at initialization. Second, we prove in finite width vanilla ReLU GNNs that oversmoothing is unavoidable at large depth when using fixed aggregation operator, regardless of initialization. We then prove that using residual aggregation operators, obtained by interpolating a fixed aggregation operator with the identity, provably alleviates oversmoothing at initialization. Finally, we show that the common practice of using residual connections with a fixup-type initialization provably avoids correlation collapse in final layer features at initialization. Through ablation studies we find that using the correct initialization, residual aggregation operators, and residual connections in the forward pass significantly and reliably speeds up early training dynamics in deep ReLU GNNs on a variety of tasks.
翻訳日:2023-06-21 13:37:37 公開日:2023-06-20
# G-NM:数値時系列予測モデルのグループ

G-NM: A Group of Numerical Time Series Prediction Models ( http://arxiv.org/abs/2306.11667v1 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,数値時系列予測モデル群 (G-NM) と総称される数値時系列予測モデルの包括的アンサンブルの開発と実装に焦点を当てた。 この包括的セットは、リカレントニューラルネットワーク(RNN)やLong Short-Term Memory(LSTM)といった現代のニューラルネットワークモデルに加えて、Autoregressive Integrated moving Average(ARIMA)、Holt-Wintersのメソッド、SVR(Support Vector Regression)といった従来のモデルを含む。 G-NMは、複雑な自然現象に固有のパターンや傾向に関連する予測能力を増強するために明確に構成されている。 これらの事象に関連する時系列データを利用することで、g-nmは長期にわたってそのような現象の予測を容易にする。 本研究の目的は,このような事象に対する我々の理解を深めることと,予測の精度を著しく向上させることである。 g-nmは時系列データに現れる線形および非線形の依存関係、季節性、トレンドの両方をカプセル化する。 これらのモデルはそれぞれ、線形トレンドと季節性を扱うARIMAのレジリエンス、非線形パターンをキャプチャするSVRの習熟度、時系列データの様々なコンポーネントをモデル化するLSTMの適応性など、さまざまな長所に貢献している。 g-nmポテンシャルの活用を通じて,大規模時系列予測モデルにおける最先端の進歩を試みている。 我々は,本研究が,自然界を構成する複雑な事象を理解し,予測するための,現在進行中の取り組みにおいて,重要な足掛かりとなることを期待する。

In this study, we focus on the development and implementation of a comprehensive ensemble of numerical time series forecasting models, collectively referred to as the Group of Numerical Time Series Prediction Model (G-NM). This inclusive set comprises traditional models such as Autoregressive Integrated Moving Average (ARIMA), Holt-Winters' method, and Support Vector Regression (SVR), in addition to modern neural network models including Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM). G-NM is explicitly constructed to augment our predictive capabilities related to patterns and trends inherent in complex natural phenomena. By utilizing time series data relevant to these events, G-NM facilitates the prediction of such phenomena over extended periods. The primary objective of this research is to both advance our understanding of such occurrences and to significantly enhance the accuracy of our forecasts. G-NM encapsulates both linear and non-linear dependencies, seasonalities, and trends present in time series data. Each of these models contributes distinct strengths, from ARIMA's resilience in handling linear trends and seasonality, SVR's proficiency in capturing non-linear patterns, to LSTM's adaptability in modeling various components of time series data. Through the exploitation of the G-NM potential, we strive to advance the state-of-the-art in large-scale time series forecasting models. We anticipate that this research will represent a significant stepping stone in our ongoing endeavor to comprehend and forecast the complex events that constitute the natural world.
翻訳日:2023-06-21 13:37:15 公開日:2023-06-20
# 神経天体風モデル

Neural Astrophysical Wind Models ( http://arxiv.org/abs/2306.11666v1 )

ライセンス: Link先を確認
Dustin D. Nguyen(参考訳) 熱い超新星を駆動する銀河風のバルク運動と熱力学は、急激な冷却雲の量と非球面コリメートフロー幾何学の両方に依存する。 しかしながら、これらの物理を正確にパラメータ化することは、それらの機能形式がしばしば未知であり、結合された非線形フロー方程式が特異点を含むため困難である。 本研究では, 直交常微分方程式 (ODE) に個々の項として埋め込まれたディープニューラルネットワークが, 教師付き学習課題として, 真の関数構造に関する事前の知識を必要とせず, 両者をしっかりと発見できることを示す。 我々は,3変数を明示的に解くのではなく,マッハ数に基づく損失関数を最適化し,近似平均解に対してペナルティ項を適用する。 同じニューラルネットワークアーキテクチャを使って、隠れたマスローディングと表面積の拡大率の両方を学ぶ。 この研究は、非線形逆問題に対する機械論的解釈性を備えた有望な発見ツールとしてのニューラルODEの実現性をさらに強調する。

The bulk kinematics and thermodynamics of hot supernovae-driven galactic winds is critically dependent on both the amount of swept up cool clouds and non-spherical collimated flow geometry. However, accurately parameterizing these physics is difficult because their functional forms are often unknown, and because the coupled non-linear flow equations contain singularities. We show that deep neural networks embedded as individual terms in the governing coupled ordinary differential equations (ODEs) can robustly discover both of these physics, without any prior knowledge of the true function structure, as a supervised learning task. We optimize a loss function based on the Mach number, rather than the explicitly solved-for 3 conserved variables, and apply a penalty term towards near-diverging solutions. The same neural network architecture is used for learning both the hidden mass-loading and surface area expansion rates. This work further highlights the feasibility of neural ODEs as a promising discovery tool with mechanistic interpretability for non-linear inverse problems.
翻訳日:2023-06-21 13:36:43 公開日:2023-06-20
# fednoisy:federated noise label learningベンチマーク

FedNoisy: Federated Noisy Label Learning Benchmark ( http://arxiv.org/abs/2306.11650v1 )

ライセンス: Link先を確認
Siqi Liang, Jintao Huang, Dun Zeng, Junyuan Hong, Jiayu Zhou and Zenglin Xu(参考訳) フェデレーション学習は、クライアントからセンシティブなデータを集約することなく、分散学習で人気を集めている。 しかし、データ分離の分散的で分離された性質は、データ品質によって複雑になり、ノイズの多いラベルに対してより脆弱になる。 集中的または連合的設定におけるノイズラベルの悪影響を防御する多くの取り組みが存在する。 しかし、様々な典型的なfl設定におけるノイズラベルの影響を包括的に考慮したベンチマークが欠如している。 この研究は、研究者が有意なノイズ設定を十分に探求するのに役立つ最初の標準ベンチマークを提供する。 また,これらのデータ設定の特徴について総合的な実験を行い,今後の手法開発を導く可能性のある,連合型雑音ラベル学習における難解なシナリオを明らかにする。 本ベンチマークで提案する5つ以上のデータセットの20の基本的な設定と,連合型雑音ラベル学習のための標準シミュレーションパイプラインについて紹介する。 このベンチマークが、ノイズラベルによる連合学習におけるアイデア検証を促進することを願っている。 \texttt{FedNoisy} は \codeword{https://github.com/SMILELab-FL/FedNoisy} で入手できる。

Federated learning has gained popularity for distributed learning without aggregating sensitive data from clients. But meanwhile, the distributed and isolated nature of data isolation may be complicated by data quality, making it more vulnerable to noisy labels. Many efforts exist to defend against the negative impacts of noisy labels in centralized or federated settings. However, there is a lack of a benchmark that comprehensively considers the impact of noisy labels in a wide variety of typical FL settings. In this work, we serve the first standardized benchmark that can help researchers fully explore potential federated noisy settings. Also, we conduct comprehensive experiments to explore the characteristics of these data settings and unravel challenging scenarios on the federated noisy label learning, which may guide method development in the future. We highlight the 20 basic settings for more than 5 datasets proposed in our benchmark and standardized simulation pipeline for federated noisy label learning. We hope this benchmark can facilitate idea verification in federated learning with noisy labels. \texttt{FedNoisy} is available at \codeword{https://github.com/SMILELab-FL/FedNoisy}.
翻訳日:2023-06-21 13:36:25 公開日:2023-06-20
# 天文学におけるロバスト仮説生成のための逆プロンプティングと大規模言語モデルの力の調和

Harnessing the Power of Adversarial Prompting and Large Language Models for Robust Hypothesis Generation in Astronomy ( http://arxiv.org/abs/2306.11648v1 )

ライセンス: Link先を確認
Ioana Ciuc\u{a}, Yuan-Sen Ting, Sandor Kruk, Kartheik Iyer(参考訳) 本研究では、天文学における大規模言語モデル(LLM)、特にGPT-4の適用について検討する。 我々は、ドメイン固有の文献にモデルを没入させることで、パフォーマンスを向上できる範囲を探索するために、NASA Astrophysics Data Systemから1000以上の論文をモデルに供給するインコンテキストプロンプトを採用している。 本研究は, 文脈内プロンプトを用いた場合, 仮説生成が著しく向上することが示唆された。 我々は,gpt-4の知識基盤から本質的な詳細を抽出して有意義な仮説を導き,天文学における科学研究にllmを活用するための革新的なステップを示唆する。

This study investigates the application of Large Language Models (LLMs), specifically GPT-4, within Astronomy. We employ in-context prompting, supplying the model with up to 1000 papers from the NASA Astrophysics Data System, to explore the extent to which performance can be improved by immersing the model in domain-specific literature. Our findings point towards a substantial boost in hypothesis generation when using in-context prompting, a benefit that is further accentuated by adversarial prompting. We illustrate how adversarial prompting empowers GPT-4 to extract essential details from a vast knowledge base to produce meaningful hypotheses, signaling an innovative step towards employing LLMs for scientific research in Astronomy.
翻訳日:2023-06-21 13:36:09 公開日:2023-06-20
# 音声からテキストへの直接翻訳の最近の進歩

Recent Advances in Direct Speech-to-text Translation ( http://arxiv.org/abs/2306.11646v1 )

ライセンス: Link先を確認
Chen Xu, Rong Ye, Qianqian Dong, Chengqi Zhao, Tom Ko, Mingxuan Wang, Tong Xiao, Jingbo Zhu(参考訳) 近年,音声からテキストへの翻訳が注目され,研究が急速に進んでいる。 本稿では,現在の技術動向を要約する直接音声翻訳に関する総合的な調査を行う。 まず、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。 モデリング負荷の問題に取り組むため、エンコーダ・デコーダフレームワーク(トランスフォーマと変種)とマルチタスクフレームワークという2つの主要な構造が提案されている。 データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。 我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングを含むアプリケーションの問題を分析・要約する。 最後に,今後の作業への有望な方向性について論じる。

Recently, speech-to-text translation has attracted more and more attention and many studies have emerged rapidly. In this paper, we present a comprehensive survey on direct speech translation aiming to summarize the current state-of-the-art techniques. First, we categorize the existing research work into three directions based on the main challenges -- modeling burden, data scarcity, and application issues. To tackle the problem of modeling burden, two main structures have been proposed, encoder-decoder framework (Transformer and the variants) and multitask frameworks. For the challenge of data scarcity, recent work resorts to many sophisticated techniques, such as data augmentation, pre-training, knowledge distillation, and multilingual modeling. We analyze and summarize the application issues, which include real-time, segmentation, named entity, gender bias, and code-switching. Finally, we discuss some promising directions for future work.
翻訳日:2023-06-21 13:35:55 公開日:2023-06-20
# 教科書は必要なだけ

Textbooks Are All You Need ( http://arxiv.org/abs/2306.11644v1 )

ライセンス: Link先を確認
Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio C\'esar Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, S\'ebastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li(参考訳) phi-1は1.3Bパラメータを持つトランスフォーマーベースのモデルで、8A100sで4日間トレーニングされ、Webから `textbook Quality" データのセレクション(6Bトークン)と、GPT-3.5(1Bトークン)で合成生成された教科書とエクササイズを使用しています。 この小さなスケールにもかかわらず、phi-1はHumanEvalで50.6%、MBPPで55.5%の精度でパス@1に達する。 また、コーディング演習のデータセットを微調整する前のモデルである phi-1-base や、HumanEval で 45% を達成する phi-1-small と同じパイプラインで 350M のパラメータをトレーニングした小さなモデルである phi-1-small と比較すると、驚くべき創発的な特性も示しています。

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook quality" data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.
翻訳日:2023-06-21 13:35:39 公開日:2023-06-20
# マルチエージェント軌道予測のための衝突回避法

Collision Avoidance Detour for Multi-Agent Trajectory Forecasting ( http://arxiv.org/abs/2306.11638v1 )

ライセンス: Link先を確認
Hsu-kuang Chiu and Stephen F. Smith(参考訳) 我々は2023 cvpr workshop on autonomous drivingで開催中の2023 waymo open dataset challenge - sim agentsで3位に輝いた衝突回避デトゥール(collaboration avoidance detour, cad)というアプローチを提案する。 動作予測因子化要件を満たすため,有効な対象を,自律走行車(ADV),ワールドトラック・トゥ・予測,ワールドトラックの3つの排他的セットに分割する。 我々は異なる運動モデルを用いて将来の軌跡を独立に予測する。 さらに, シミュレーション結果のリアリズムを改善するために, 衝突回避デタンス・デタンプ, 付加ガウス雑音, 速度に基づく方向推定を適用した。

We present our approach, Collision Avoidance Detour (CAD), which won the 3rd place award in the 2023 Waymo Open Dataset Challenge - Sim Agents, held at the 2023 CVPR Workshop on Autonomous Driving. To satisfy the motion prediction factorization requirement, we partition all the valid objects into three mutually exclusive sets: Autonomous Driving Vehicle (ADV), World-tracks-to-predict, and World-others. We use different motion models to forecast their future trajectories independently. Furthermore, we also apply collision avoidance detour resampling, additive Gaussian noise, and velocity-based heading estimation to improve the realism of our simulation result.
翻訳日:2023-06-21 13:35:21 公開日:2023-06-20
# 量子情報科学における半定義型プログラミング

Semidefinite Programming in Quantum Information Science ( http://arxiv.org/abs/2306.11637v1 )

ライセンス: Link先を確認
Paul Skrzypczyk and Daniel Cavalcanti(参考訳) 半定プログラム(SDP)は、物理学、工学、数学の様々な分野に適用できる最適化問題のクラスである。 半定義型プログラミングは特に量子物理学や量子情報科学の問題に適している。 半定義型プログラミングの理論のレビューに続いて、本書は量子情報科学全体から幅広い重要な問題にどのように対処できるかを記述している。 特定の用途には、量子状態、測定、チャネル推定と識別、絡み合い検出と量子化、量子距離測定、測定非互換性などがある。 SDPは量子情報科学においてますます重要なツールになりつつあるが、数学の学生が日常的に学ぶようなものはまだない。 線形代数、量子物理学、量子情報に関する基本的な知識のみを仮定すると、この大学院レベルの本は、量子情報科学で使われる重要な数値手法の1つを統一してアクセス可能とする。

Semidefinite programs (SDPs) are a class of optimisation problems that find application in numerous areas of physics, engineering and mathematics. Semidefinite programming is particularly suited to problems in quantum physics and quantum information science. Following a review of the theory of semidefinite programming, the book proceeds to describe how it can be used to address a wide range of important problems from across quantum information science. Specific applications include quantum state, measurement, and channel estimation and discrimination, entanglement detection and quantification, quantum distance measures, and measurement incompatibility. Though SDPs have become an increasingly important tool in quantum information science it's not yet the kind of mathematics students learn routinely. Assuming only a basic knowledge of linear algebra and quantum physics and quantum information, this graduate-level book provides a unified and accessible presentation of one of the key numerical methods used in quantum information science.
翻訳日:2023-06-21 13:35:07 公開日:2023-06-20
# SeFNet: セマンティックな特徴ネットでタブラルデータセットをブリッジする

SeFNet: Bridging Tabular Datasets with Semantic Feature Nets ( http://arxiv.org/abs/2306.11636v1 )

ライセンス: Link先を確認
Katarzyna Wo\'znica, Piotr Wilczy\'nski, Przemys{\l}aw Biecek(参考訳) 機械学習アプリケーションは、表形式のデータセットが重要な役割を果たす幅広い予測タスクをカバーする。 しかし、それらはしばしば同様の問題に対処するが、表型データセットは通常スタンドアロンのタスクとして扱われる。 以前に解決された問題を使う可能性は、その特徴に関する構造化された文脈情報やそれらの関係の理解の欠如によって限られている。 この制限を克服するために,Semantic Feature Net (SeFNet) と呼ばれる新しい手法を提案する。 既存のオントロジーとドメイン知識を活用することで、sefnetは様々な予測タスク間で洞察を共有する新しい機会を開く。 このような機会の1つは、データセットのオントロジに基づく意味的類似度(doss)測定であり、それらの特徴間の関係を使ってデータセット間の類似度を定量化する。 本稿では, SNOMED-CTオントロジーから得られた特徴量と, 医療における予測タスクの収集のために準備されたSeFNetの例を示す。 提案したSeFNetフレームワークと付随するDOSS尺度は、表データセットの限られたコンテキスト情報の問題に対処する。 ドメイン知識を取り入れ、機能間のセマンティックな関係を確立することで、メタ学習の可能性を高め、さまざまな予測タスク間で価値ある洞察を共有できるようにします。

Machine learning applications cover a wide range of predictive tasks in which tabular datasets play a significant role. However, although they often address similar problems, tabular datasets are typically treated as standalone tasks. The possibilities of using previously solved problems are limited due to the lack of structured contextual information about their features and the lack of understanding of the relations between them. To overcome this limitation, we propose a new approach called Semantic Feature Net (SeFNet), capturing the semantic meaning of the analyzed tabular features. By leveraging existing ontologies and domain knowledge, SeFNet opens up new opportunities for sharing insights between diverse predictive tasks. One such opportunity is the Dataset Ontology-based Semantic Similarity (DOSS) measure, which quantifies the similarity between datasets using relations across their features. In this paper, we present an example of SeFNet prepared for a collection of predictive tasks in healthcare, with the features' relations derived from the SNOMED-CT ontology. The proposed SeFNet framework and the accompanying DOSS measure address the issue of limited contextual information in tabular datasets. By incorporating domain knowledge and establishing semantic relations between features, we enhance the potential for meta-learning and enable valuable insights to be shared across different predictive tasks.
翻訳日:2023-06-21 13:34:51 公開日:2023-06-20
# 非相互作用多体フェルミオン状態の統計:多体移動エッジの問題

Statistics of noninteracting many-body fermionic states: The question of a many-body mobility edge ( http://arxiv.org/abs/2306.11692v1 )

ライセンス: Link先を確認
Ke Huang, DinhDuy Vu, Sankar Das Sarma, and Xiao Li(参考訳) 本研究では, 単一粒子が単一粒子移動端(SPME)を有する一般非相互作用多体フェルミオン系の統計について検討する。 我々はまず,SPME によらず熱力学的限界において,スペクトルと保存量の多変量正規分布が消滅する標準偏差 $\sim O(1/\sqrt L)$ に従うことを証明した。 その結果、この定理は、一般的な非相互作用性フェルミオン系に対する無限温度または高温多体移動エッジ(MBME)を規定する。 さらに,短距離相互作用を持つフェルミオン多体系のスペクトルは,3次モーメントまでの非相互作用多体系のスペクトルと質的に類似していることも証明した。 これらの結果は、短距離[1]も長距離相互作用系も無限温度MBMEを持たない理由を部分的に説明できる。

In this work, we study the statistics of a generic noninteracting many-body fermionic system whose single-particle counterpart has a single-particle mobility edge (SPME). We first prove that the spectrum and the extensive conserved quantities follow the multivariate normal distribution with a vanishing standard deviation $\sim O(1/\sqrt L)$ in the thermodynamic limit, regardless of SPME. Consequently, the theorem rules out an infinite-temperature or high-temperature many-body mobility edge (MBME) for generic noninteracting fermionic systems. Further, we also prove that the spectrum of a fermionic many-body system with short-range interactions is qualitatively similar to that of a noninteracting many-body system up to the third-order moment. These results partially explain why neither short-range [1] nor long-range interacting systems exhibit an infinite-temperature MBME.
翻訳日:2023-06-21 13:28:37 公開日:2023-06-20
# トポロジカル絶縁体と量子メモリ

Topological insulator and quantum memory ( http://arxiv.org/abs/2306.11691v1 )

ライセンス: Link先を確認
M. Kulig, P. Kurashvili, C. Jasiukiewicz, M. Inglot, S. Wolski, S. Stagraczy\'nski, T. Mas{\l}owski, T. Szczepa\'nski, R. Stagraczy\'nski, V. K. Dugaev, and L. Chotorlishvili(参考訳) 量子系における測定は特殊すぎる。 古典派とは対照的に、量子測定は侵入的であり、関心の状態を破壊できる。 加えて、量子性は量子システム上で行った測定の精度を制限する。 不確実性関係は、量子測定の普遍的精度限界を定義する。 比較的最近、量子相関と量子メモリが量子測定の不確実性を減少させることが発見された。 本研究では,トポロジカルシステム上で行った2種類の測定方法について検討する。 具体的には、スピン作用素と正準作用素の対である運動量と座標について述べる。 我々は、不確実性のエントロピー測度を通じてスピン作用素の測定を定量化し、量子記憶の概念を利用する。 運動量や座標演算子に対して、改良された不確実性関係を利用する。 量子メモリはスピン測定の不確かさを減少させることを発見した。 一方, 座標と運動量演算子の測定の不確かさは運動量の値に依存し, 偏極電子と局在電子(大運動量限界)の間の距離で実質的に増大することを示した。 我々は、系の位相的性質がスピン運動量ロックにつながることに注意する。 電子の運動量はスピンとその逆に依存する。 そこで,スピン演算子を通した運動量と座標演算子の間接計測手法を提案する。 量子記憶の要因のため、位相絶縁体における間接的な測定は直接測定よりも不確かさが少ない。

Measurements done on the quantum systems are too specific. Contrary to their classical counterparts, quantum measurements can be invasive and destroy the state of interest. Besides, quantumness limits the accuracy of measurements done on quantum systems. Uncertainty relations define the universal accuracy limit of the quantum measurements. Relatively recently, it was discovered that quantum correlations and quantum memory might reduce the uncertainty of quantum measurements. In the present work, we study two different types of measurements done on the topological system. Namely, we discuss measurements done on the spin operators and the canonical pair of operators: momentum and coordinate. We quantify the spin operator's measurements through the entropic measures of uncertainty and exploit the concept of quantum memory. While for the momentum and coordinate operators, we exploit the improved uncertainty relations. We discovered that quantum memory reduces the uncertainties of spin measurements. On the hand, we proved that the uncertainties in the measurements of the coordinate and momentum operators depend on the value of the momentum and are substantially enhanced at small distances between itinerant and localized electrons (the large momentum limit). We note that the topological nature of the system leads to the spin-momentum locking. The momentum of the electron depends on the spin and vice versa. Therefore, we suggest the indirect measurement scheme for the momentum and coordinate operators through the spin operator. Due to the factor of quantum memory, such indirect measurements in topological insulators have smaller uncertainties rather than direct measurements.
翻訳日:2023-06-21 13:28:23 公開日:2023-06-20
# 人間の意思決定者をアルゴリズムで置き換える統計的テスト

Statistical Tests for Replacing Human Decision Makers with Algorithms ( http://arxiv.org/abs/2306.11689v1 )

ライセンス: Link先を確認
Kai Feng, Han Hong, Ke Tang, Jingyuan Wang(参考訳) 本稿では,人工知能が人間の意思決定を改善するための統計的枠組みを提案する。 各人間の意思決定者のパフォーマンスはまず、機械の予測に対してベンチマークされ、次に、決定者のサブセットによる決定を、提案された人工知能アルゴリズムの推奨に置き換える。 妊婦の妊娠成績の大規模データセットと妊娠前診察から診断する医師データを用いて, 異常出生検出への応用として, ヒューリスティック・頻繁性アプローチとベイズ後方損失関数アプローチの両方を実験した。 テストデータセット上のアルゴリズムは、医師のみによる診断よりも、全体として真正率が高く、偽陽性率が低いことがわかりました。 また,農村部からの医師の診断は,より頻繁に置き換えられることが判明し,発達度の低い地域では,人工知能による意思決定によって精度が向上する傾向が示唆された。

This paper proposes a statistical framework with which artificial intelligence can improve human decision making. The performance of each human decision maker is first benchmarked against machine predictions; we then replace the decisions made by a subset of the decision makers with the recommendation from the proposed artificial intelligence algorithm. Using a large nationwide dataset of pregnancy outcomes and doctor diagnoses from prepregnancy checkups of reproductive age couples, we experimented with both a heuristic frequentist approach and a Bayesian posterior loss function approach with an application to abnormal birth detection. We find that our algorithm on a test dataset results in a higher overall true positive rate and a lower false positive rate than the diagnoses made by doctors only. We also find that the diagnoses of doctors from rural areas are more frequently replaceable, suggesting that artificial intelligence assisted decision making tends to improve precision more in less developed regions.
翻訳日:2023-06-21 13:28:05 公開日:2023-06-20
# SkyGPT:物理制約ビデオGPTの合成スカイビデオによる確率的短期太陽予測

SkyGPT: Probabilistic Short-term Solar Forecasting Using Synthetic Sky Videos from Physics-constrained VideoGPT ( http://arxiv.org/abs/2306.11682v1 )

ライセンス: Link先を確認
Yuhao Nie, Eric Zelikman, Andea Scott, Quentin Paletta, Adam Brandt(参考訳) 近年,全天球画像を用いたディープラーニングによる太陽予測が,太陽光発電の不確実性を軽減するための有望なアプローチとして浮上している。 しかし、雲の動きの確率的な性質は、正確で信頼性の高い太陽予測にとって大きな課題である。 生成人工知能の最近の進歩により、視覚的に可視だが多様化したスカイビデオの合成は予測に寄与する可能性がある。 本研究では,過去の空画像シーケンスを入力として,様々な雲の動きパターンを用いて,複数の将来像を生成可能な物理インフォームド確率的ビデオ予測モデルである \emph{SkyGPT} を紹介する。 大規模実験とベンチマークビデオ予測モデルとの比較は、クラウドダイナミクスを捉え、高リアリズムと多様性を備えた将来のスカイイメージを生成する際に提案モデルの有効性を実証する。 さらに,30kWの屋根上PVシステムに対して,ビデオ予測モデルから生成した将来の天空画像を,エンドツーエンドのディープラーニングベースラインモデルSUNSETとスマート永続モデルと比較した。 PV出力予測の信頼性とシャープさは、SkyGPTで生成された予測スカイイメージを他のベンチマークモデルと比較し、連続的なランク付け確率スコア(CRPS)が2.81(SUNSETより13倍、スマート永続性より23倍)、ウィンクラースコアが26.70であることを示す。 過去のスカイ画像から任意の数の未来を生成できるが、結果は10の将来のシナリオは確率的太陽予測性能と計算コストのバランスをとる良い選択であることを示唆している。

In recent years, deep learning-based solar forecasting using all-sky images has emerged as a promising approach for alleviating uncertainty in PV power generation. However, the stochastic nature of cloud movement remains a major challenge for accurate and reliable solar forecasting. With the recent advances in generative artificial intelligence, the synthesis of visually plausible yet diversified sky videos has potential for aiding in forecasts. In this study, we introduce \emph{SkyGPT}, a physics-informed stochastic video prediction model that is able to generate multiple possible future images of the sky with diverse cloud motion patterns, by using past sky image sequences as input. Extensive experiments and comparison with benchmark video prediction models demonstrate the effectiveness of the proposed model in capturing cloud dynamics and generating future sky images with high realism and diversity. Furthermore, we feed the generated future sky images from the video prediction models for 15-minute-ahead probabilistic solar forecasting for a 30-kW roof-top PV system, and compare it with an end-to-end deep learning baseline model SUNSET and a smart persistence model. Better PV output prediction reliability and sharpness is observed by using the predicted sky images generated with SkyGPT compared with other benchmark models, achieving a continuous ranked probability score (CRPS) of 2.81 (13\% better than SUNSET and 23\% better than smart persistence) and a Winkler score of 26.70 for the test set. Although an arbitrary number of futures can be generated from a historical sky image sequence, the results suggest that 10 future scenarios is a good choice that balances probabilistic solar forecasting performance and computational cost.
翻訳日:2023-06-21 13:27:47 公開日:2023-06-20
# MoleCLUE:不確かさの最小化による分子コンバータの最適化

MoleCLUEs: Optimizing Molecular Conformers by Minimization of Differentiable Uncertainty ( http://arxiv.org/abs/2306.11681v1 )

ライセンス: Link先を確認
Michael Maser, Natasa Tagasovska, Jae Hyeon Lee, Andrew Watkins(参考訳) 分子科学における構造ベースのモデルは入力ジオメトリに非常に敏感であり、微妙な座標摂動の下で大きなばらつきを持つ予測を与えることができる。 本稿では,予測モデルにおける不確実性を明確に抑えるコンフォーメーションを生成することによって,この障害モードを緩和するアプローチを提案する。 これを達成するために、学習埋め込みから直接、アレエータ型 \textit{and} 認識的不確かさの微分可能な推定を計算する。 次に、これらの不確実性を勾配に応じて減少させるために埋め込みを反復的にサンプリングするオプティマイザを訓練する。 我々の予測モデルは変分オートエンコーダとして構成されるので、新しい埋め込みは対応する入力に復号化することができ、それをtextit{MoleCLUEs} または (分子) 反ファクト的潜在不確実性説明をcitep{antoran 2020getting} と呼ぶ。 本稿では, 薬物特性を最大信頼度で予測するアルゴリズムと, 異種構造シミュレーションの解析結果について述べる。

Structure-based models in the molecular sciences can be highly sensitive to input geometries and give predictions with large variance under subtle coordinate perturbations. We present an approach to mitigate this failure mode by generating conformations that explicitly minimize uncertainty in a predictive model. To achieve this, we compute differentiable estimates of aleatoric \textit{and} epistemic uncertainties directly from learned embeddings. We then train an optimizer that iteratively samples embeddings to reduce these uncertainties according to their gradients. As our predictive model is constructed as a variational autoencoder, the new embeddings can be decoded to their corresponding inputs, which we call \textit{MoleCLUEs}, or (molecular) counterfactual latent uncertainty explanations \citep{antoran2020getting}. We provide results of our algorithm for the task of predicting drug properties with maximum confidence as well as analysis of the differentiable structure simulations.
翻訳日:2023-06-21 13:27:17 公開日:2023-06-20
# 線形モデルと2層線形畳み込みニューラルネットワークにおけるバッチ正規化の必然的バイアス

The Implicit Bias of Batch Normalization in Linear Models and Two-layer Linear Convolutional Neural Networks ( http://arxiv.org/abs/2306.11680v1 )

ライセンス: Link先を確認
Yuan Cao, Difan Zou, Yuanzhi Li, Quanquan Gu(参考訳) 勾配降下によって訓練されたバッチ正規化の暗黙的バイアスについて検討する。 2進分類のためのバッチ正規化を伴う線形モデルを学ぶとき、勾配勾配は$\exp(-\Omega(\log^2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束する。 これは、バッチ正規化を伴う線形モデルと、暗黙バイアスのタイプと収束率の両方の観点から、バッチ正規化のないモデルとを区別する。 さらに、この結果を2層線形畳み込みニューラルネットワークのクラスに拡張し、バッチ正規化がパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。 2つの例に基づいて,パッチワイズ一様マージン分類器は,特定の学習問題において最大マージン分類器よりも優れることを示す。 この結果は,バッチ正規化の理論的理解に寄与する。

We study the implicit bias of batch normalization trained by gradient descent. We show that when learning a linear model with batch normalization for binary classification, gradient descent converges to a uniform margin classifier on the training data with an $\exp(-\Omega(\log^2 t))$ convergence rate. This distinguishes linear models with batch normalization from those without batch normalization in terms of both the type of implicit bias and the convergence rate. We further extend our result to a class of two-layer, single-filter linear convolutional neural networks, and show that batch normalization has an implicit bias towards a patch-wise uniform margin. Based on two examples, we demonstrate that patch-wise uniform margin classifiers can outperform the maximum margin classifiers in certain learning problems. Our results contribute to a better theoretical understanding of batch normalization.
翻訳日:2023-06-21 13:26:57 公開日:2023-06-20
# Pseudorandom Unitaryは実でもスパースでもノイズロバストでもない

Pseudorandom unitaries are neither real nor sparse nor noise-robust ( http://arxiv.org/abs/2306.11677v1 )

ライセンス: Link先を確認
Tobias Haug, Kishor Bharti, Dax Enshan Koh(参考訳) Pseudorandom quantum state (PRSs) と pseudorandom unitary (PRUs) は、効率的な量子アルゴリズムに完全にランダムに現れながら効率的に構成できるという双対の性質を持っている。 本研究では,擬似ランダム性の基本的境界を確立する。 PRSとPRUは、エラーが発生する確率が無視可能である場合にのみ存在し、ノイズの多い中間スケールおよび早期フォールトトレラント量子コンピュータで生成を除外する。 さらに、PSR と PRU の虚数性とコヒーレンスに関する下位境界を導出し、スパースや実 PRU の存在を除外し、PSR よりも PRU が生成しにくいことを示す。 また,本研究では,実量子状態と虚量子状態の区別における指数関数的複雑性を,ユニタリイマジナリティの効率的な測定可能性とは対照的に,特性テストの効率性に関する厳密な境界を確立する。 さらに,コヒーレンス検査の限界が低くなることを証明した。 最後に、コンプレックスから量子計算の実モデルへの変換は、効率的である逆過程とは対照的に非効率であることを示す。 全体として、我々の結果は性質試験の基本的な限界を確立し、量子擬似ランダム性に関する貴重な洞察を提供する。

Pseudorandom quantum states (PRSs) and pseudorandom unitaries (PRUs) possess the dual nature of being efficiently constructible while appearing completely random to any efficient quantum algorithm. In this study, we establish fundamental bounds on pseudorandomness. We show that PRSs and PRUs exist only when the probability that an error occurs is negligible, ruling out their generation on noisy intermediate-scale and early fault-tolerant quantum computers. Additionally, we derive lower bounds on the imaginarity and coherence of PRSs and PRUs, rule out the existence of sparse or real PRUs, and show that PRUs are more difficult to generate than PRSs. Our work also establishes rigorous bounds on the efficiency of property testing, demonstrating the exponential complexity in distinguishing real quantum states from imaginary ones, in contrast to the efficient measurability of unitary imaginarity. Furthermore, we prove lower bounds on the testing of coherence. Lastly, we show that the transformation from a complex to a real model of quantum computation is inefficient, in contrast to the reverse process, which is efficient. Overall, our results establish fundamental limits on property testing and provide valuable insights into quantum pseudorandomness.
翻訳日:2023-06-21 13:26:39 公開日:2023-06-20
# 量子進化のための量子時間の研究

Insights of quantum time for quantum evolution ( http://arxiv.org/abs/2306.11675v1 )

ライセンス: Link先を確認
Ngo Phuc Duc Loc(参考訳) 時間が出現すると、量子系は進化するにつれて量子時間と絡み合う。 システム自体に絡み合いがある場合、それは「外的」時間系の絡み合いと区別するために \textit{internal entanglement} と呼ぶことができ、進化の速度が向上する。 本稿では、2つの絡み合った量子ビットを含むシステムの進化における量子時間の洞察について検討する。 1)局所力学の下で進化する2つの初期絡み合い量子ビット、(2)その間の絡み合いが時間とともに生じる2つの相互作用量子ビットを考える。 両方のケースにおいて、鍵となるメッセージは、内部絡み合いの増加が進化を加速させ、システムの時間とともに絡み合うようにすることである。 この結果は、膨張する宇宙におけるブラックホールの蒸発や宇宙の摂動の量子時間に関する新たな知見を得るのに役立つかもしれない。

If time is emergent, quantum system is entangled with quantum time as it evolves. If the system contains entanglement within itself, which we can call \textit{internal entanglement} to distinguish it from the ``external" time-system entanglement, the speed of evolution is enhanced. In this paper, we explore the insights of quantum time for the evolution of a system that contains two entangled qubits. We consider two cases: (1) two initially entangled qubits that evolve under local dynamics; (2) two interacting qubits such that entanglement between them is generated over time. In both cases, the key message is that increasing internal entanglement speeds up the evolution and makes the system more entangled with time. This result could be useful to gain new insights of quantum time for black hole evaporation or cosmological perturbations in an expanding Universe, because we also have an evolving entangled bipartite system in those cases.
翻訳日:2023-06-21 13:26:17 公開日:2023-06-20
# ダイヤモンド色中心からの光子抽出効率向上のための添加GaN固体浸漬レンズ

Additive GaN solid immersion lenses for enhanced photon extraction efficiency from diamond color centers ( http://arxiv.org/abs/2306.11671v1 )

ライセンス: Link先を確認
Xingrui Cheng, Nils Kolja Wessling, Saptarsi Ghosh, Andrew R. Kirkpatrick, Menno J. Kappers, Yashna N. D. Lekhai, Gavin W. Morley, Rachel A. Oliver, Jason M. Smith, Martin D. Dawson, Patrick S. Salter, Michael J. Strain(参考訳) 高インデックス半導体ホスト結晶内の光学活性な固体スピン中心からの有効光抽出は、これら疑似原子中心をより広い量子系に統合する上で重要な要素である。 マイクロトランスファープリントGaN固体浸漬レンズによるバルクダイヤモンド中の窒素空孔中心(NV)からの蛍光集光効率の向上について報告する。 NV中心のレーザーライティングとマイクロレンズ構造の転写印刷はどちらも高空間分解能と互換性があり、将来のスケーラブルなシステム開発に向けた決定論的製造経路を可能にする。 マイクロレンズは非侵襲的に集積され、非構造ダイヤモンド表面に付加され、ヴァンダーワールス力によって結合される。 深さ5マイクロメートルのエミッタでは, 数値開口率0.95の空気目標を用いた蛍光光の約2倍の改善がシミュレーションとよく一致している。 同様に、固体浸漬レンズは、NA = 0.5の目標を用いた場合の光収集を強く強化し、統合後のNVの量子特性を維持しながら、NV中心放射の信号対雑音比を著しく改善した。

Effective light extraction from optically active solid-state spin centres inside high-index semiconductor host crystals is an important factor in integrating these pseudo-atomic centres in wider quantum systems. Here we report increased fluorescent light collection efficiency from laser-written nitrogen vacancy centers (NV) in bulk diamond facilitated by micro-transfer printed GaN solid immersion lenses. Both laser-writing of NV centres and transfer printing of micro-lens structures are compatible with high spatial resolution, enabling deterministic fabrication routes towards future scalable systems development. The micro-lenses are integrated in a non-invasive manner, as they are added on top of the unstructured diamond surface and bond by Van-der-Waals forces. For emitters at 5 micrometer depth, we find approximately 2x improvement of fluorescent light collection using an air objective with a numerical aperture of NA = 0.95 in good agreement with simulations. Similarly, the solid immersion lenses strongly enhance light collection when using an objective with NA = 0.5, significantly improving the signal-to-noise ratio of the NV center emission while maintaining the NV's quantum properties after integration.
翻訳日:2023-06-21 13:26:01 公開日:2023-06-20
# GIO: トレーニングデータセット選択のための勾配情報最適化

GIO: Gradient Information Optimization for Training Dataset Selection ( http://arxiv.org/abs/2306.11670v1 )

ライセンス: Link先を確認
Dante Everaert, Christopher Potts(参考訳) 利用可能な列車の例のサブセット上でモデルのトレーニングを行うことは、その例が可変品質であることや、パフォーマンスを犠牲にすることなく、少ない例でトレーニングしたいという理由から、しばしば有利である。 本稿では、このデータ選択問題に対するスケーラブルでタスクに依存しないアプローチであるグラディエント情報最適化(GIO)を提案する。 GIOは自然で情報理論的な目的から始まり、実際は難解である。 私たちの貢献は、目的のシンプルな緩和と高効率な実装によって、高度にスケーラブルにできることを示すことです。 機械翻訳,綴り修正,画像認識を用いた実験において,gioが極めて小さな列車セットで優れた結果をもたらすことを示す。 これらの結果は、GIO自体の異なる表現モデルとハイパーパラメータに対して堅牢である。 GIOはタスクとドメインに依存しないため、新しいデータセットやドメインに最初から適用することができる。

It is often advantageous to train models on a subset of the available train examples, because the examples are of variable quality or because one would like to train with fewer examples, without sacrificing performance. We present Gradient Information Optimization (GIO), a scalable, task-agnostic approach to this data selection problem that requires only a small set of (unlabeled) examples representing a target distribution. GIO begins from a natural, information-theoretic objective that is intractable in practice. Our contribution is in showing that it can be made highly scalable through a simple relaxation of the objective and a highly efficient implementation. In experiments with machine translation, spelling correction, and image recognition, we show that GIO delivers outstanding results with very small train sets. These findings are robust to different representation models and hyperparameters for GIO itself. GIO is task- and domain-agnostic and can be applied out-of-the-box to new datasets and domains.
翻訳日:2023-06-21 13:25:41 公開日:2023-06-20
# 脳病変の分節化のための転移学習のメタ分析

Meta-Analysis of Transfer Learning for Segmentation of Brain Lesions ( http://arxiv.org/abs/2306.11714v1 )

ライセンス: Link先を確認
Sovesh Mohapatra, Advait Gosai, Anant Shinde, Aleksei Rutkovskii, Sirisha Nouduri, Gottfried Schlaug(参考訳) 脳卒中研究と脳卒中回復予測における大きな課題は、脳卒中病変の範囲と関連する脳系への影響の決定である。 現在の金本位制である3次元磁気共鳴(mr)画像から手作業による脳卒中病変の分割は、非常に時間を要するだけでなく、その精度も操作者の経験に大きく依存する。 その結果, 臨床的, 翻訳的, 研究的設定に有益と思われる障害・回復可能性を予測するために, 病変範囲と各病変の影響を効率的に客観的に測定できる完全自動分節法が必要となる。 我々は,転写学習(TL)と混合データを用いた8つの異なる2次元モデルアーキテクチャを用いて,脳卒中病変の完全自動分割法を開発した。 さらに、最終的な予測は、積み重ねと合意窓を含む新しいアンサンブル手法を用いて行われた。 提案手法は,22T1wの脳MR画像を含む新しい社内データセットで評価され,様々な視点から見れば困難であったが,その主な原因は,亜急性病変(典型的にはあまり定義されていないT1病変)と慢性脳卒中期(典型的にはよく定義されているT1-lesions)のT1wのMR画像を含んでいたことである。 クロスバリデーションの結果,新しい手法は,地中真実と比較して高速かつ高精度に病変を分割できることがわかった。 セグメンテーションに加えて,脳幹の皮質運動野から最下端まで伸びる正準構造運動系と,病変の重ね合わせに基づいて,関連する脳系の病変容積と重み付き病変負荷を提供する。

A major challenge in stroke research and stroke recovery predictions is the determination of a stroke lesion's extent and its impact on relevant brain systems. Manual segmentation of stroke lesions from 3D magnetic resonance (MR) imaging volumes, the current gold standard, is not only very time-consuming, but its accuracy highly depends on the operator's experience. As a result, there is a need for a fully automated segmentation method that can efficiently and objectively measure lesion extent and the impact of each lesion to predict impairment and recovery potential which might be beneficial for clinical, translational, and research settings. We have implemented and tested a fully automatic method for stroke lesion segmentation which was developed using eight different 2D-model architectures trained via transfer learning (TL) and mixed data approaches. Additionally, the final prediction was made using a novel ensemble method involving stacking and agreement window. Our novel method was evaluated in a novel in-house dataset containing 22 T1w brain MR images, which were challenging in various perspectives, but mostly because they included T1w MR images from the subacute (which typically less well defined T1 lesions) and chronic stroke phase (which typically means well defined T1-lesions). Cross-validation results indicate that our new method can efficiently and automatically segment lesions fast and with high accuracy compared to ground truth. In addition to segmentation, we provide lesion volume and weighted lesion load of relevant brain systems based on the lesions' overlap with a canonical structural motor system that stretches from the cortical motor region to the lowest end of the brain stem.
翻訳日:2023-06-21 13:18:06 公開日:2023-06-20
# データ駆動だがプライバシーに配慮した:全体人合成による歩行者データセットの識別

Data-Driven but Privacy-Conscious: Pedestrian Dataset De-identification via Full-Body Person Synthesis ( http://arxiv.org/abs/2306.11710v1 )

ライセンス: Link先を確認
Maxim Maximov, Tim Meinhardt, Ismail Elezi, Zoe Papakipos, Caner Hazirbas, Cristian Canton, Laura Leal-Taix\'e(参考訳) データ駆動技術ソリューションの出現は、データプライバシに関する懸念の高まりに伴うものだ。 これは、歩行者の検出、再同定、追跡などの人間中心の画像認識タスクにおいて特に重要である。 プライバシー問題の重要性を強調し、将来の研究を動機づけるため、歩行者データセット識別(PDI)タスクをモチベーションし、導入する。 PDIは、所定の非識別法に対して、非識別度とダウンストリームタスクトレーニング性能を評価する。 第1のベースラインとして,生成型adversarial networkを用いた画像合成に基づく2段階の非識別パイプラインであるincognimotを提案する。 最初のステージは、ターゲット歩行者を合成IDで置き換える。 下流のタスク性能を改善するためにステージ2を適用し、合成画像部品をデータにブレンドし、適応させる。 incognimotの有効性を実証するために,mot17歩行者追跡データセットの完全非識別版を作成し,歩行者再識別,検出,追跡モデルの訓練データとして解析する。 さらに,当社のデータが,プライバシを意識した方法で合成と実性能のギャップを狭める方法を示す。

The advent of data-driven technology solutions is accompanied by an increasing concern with data privacy. This is of particular importance for human-centered image recognition tasks, such as pedestrian detection, re-identification, and tracking. To highlight the importance of privacy issues and motivate future research, we motivate and introduce the Pedestrian Dataset De-Identification (PDI) task. PDI evaluates the degree of de-identification and downstream task training performance for a given de-identification method. As a first baseline, we propose IncogniMOT, a two-stage full-body de-identification pipeline based on image synthesis via generative adversarial networks. The first stage replaces target pedestrians with synthetic identities. To improve downstream task performance, we then apply stage two, which blends and adapts the synthetic image parts into the data. To demonstrate the effectiveness of IncogniMOT, we generate a fully de-identified version of the MOT17 pedestrian tracking dataset and analyze its application as training data for pedestrian re-identification, detection, and tracking models. Furthermore, we show how our data is able to narrow the synthetic-to-real performance gap in a privacy-conscious manner.
翻訳日:2023-06-21 13:17:34 公開日:2023-06-20
# RoboCat:ロボットマニピュレーションのための自己改善基盤エージェント

RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation ( http://arxiv.org/abs/2306.11706v1 )

ライセンス: Link先を確認
Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, Antoine Laurens, Claudio Fantacci, Valentin Dalibard, Martina Zambelli, Murilo Martins, Rugile Pevceviciute, Michiel Blokzijl, Misha Denil, Nathan Batchelor, Thomas Lampe, Emilio Parisotto, Konrad \.Zo{\l}na, Scott Reed, Sergio G\'omez Colmenarejo, Jon Scholz, Abbas Abdolmaleki, Oliver Groth, Jean-Baptiste Regli, Oleg Sushkov, Tom Roth\"orl, Jos\'e Enrique Chen, Yusuf Aytar, Dave Barker, Joy Ortiz, Martin Riedmiller, Jost Tobias Springenberg, Raia Hadsell, Francesco Nori, Nicolas Heess(参考訳) 異なるロボットやタスクから異種ロボット体験を活用し、新しいスキルや体格を素早く習得できる能力は、ロボット学習を変革する可能性がある。 近年の視覚・言語基盤モデルの発展に触発されて,ロボット操作のための基礎エージェントを提案する。 robocatという名のこのエージェントは、マルチアンボディメントアクションラベルの視覚体験を消費できる視覚目標条件決定トランスフォーマである。 このデータは、シミュレートされた本物のロボットアームから、さまざまな観察とアクションのセットでモーターコントロールスキルの大規模なレパートリーにまたがる。 RoboCatでは、ゼロショットだけでなく、ターゲットタスクの100-1000例のみを用いて適用することで、新しいタスクやロボットに一般化する能力を実証する。 また、トレーニングされたモデル自体が、その後のトレーニングイテレーションでデータを生成するためにどのように使われるかを示し、自律的な改善ループのための基本的な構築ブロックを提供する。 本研究は,シミュレーションと3種類の実ロボットを用いた大規模評価を行い,エージェントの能力について検討する。 トレーニングデータの拡大と多様化が進むにつれ、robocatはクロスタスク転送の兆候を示すだけでなく、新しいタスクへの適応もより効率的になります。

The ability to leverage heterogeneous robotic experience from different robots and tasks to quickly master novel skills and embodiments has the potential to transform robot learning. Inspired by recent advances in foundation models for vision and language, we propose a foundation agent for robotic manipulation. This agent, named RoboCat, is a visual goal-conditioned decision transformer capable of consuming multi-embodiment action-labelled visual experience. This data spans a large repertoire of motor control skills from simulated and real robotic arms with varying sets of observations and actions. With RoboCat, we demonstrate the ability to generalise to new tasks and robots, both zero-shot as well as through adaptation using only 100--1000 examples for the target task. We also show how a trained model itself can be used to generate data for subsequent training iterations, thus providing a basic building block for an autonomous improvement loop. We investigate the agent's capabilities, with large-scale evaluations both in simulation and on three different real robot embodiments. We find that as we grow and diversify its training data, RoboCat not only shows signs of cross-task transfer, but also becomes more efficient at adapting to new tasks.
翻訳日:2023-06-21 13:17:14 公開日:2023-06-20
# Lingua Manga: データキュレーションのための汎用大規模言語モデル百科事典システム

Lingua Manga: A Generic Large Language Model Centric System for Data Curation ( http://arxiv.org/abs/2306.11702v1 )

ライセンス: Link先を確認
Zui Chen, Lei Cao, Sam Madden(参考訳) データキュレーションは、多くの重要なが時間を要するデータ処理タスクを含む広範囲な領域である。 しかし,このようなタスクの多様性は汎用データキュレーションシステムの開発を困難にしている。 本稿では,事前学習された大規模言語モデルを用いたユーザフレンドリーで汎用性の高いシステムであるlingua mangaを提案する。 lingua mangaは、柔軟性と迅速な開発を促進しながら、高性能とラベル効率を達成するための自動最適化を提供する。 異なる目的を持つ3つのサンプルアプリケーションと様々なレベルの技術スキルを持つユーザを通じて、lingua mangaが、データキュレーションの課題に対処する上で、熟練したプログラマとローコードユーザ、さらにはコードなしユーザの両方を効果的に支援できることを実証する。

Data curation is a wide-ranging area which contains many critical but time-consuming data processing tasks. However, the diversity of such tasks makes it challenging to develop a general-purpose data curation system. To address this issue, we present Lingua Manga, a user-friendly and versatile system that utilizes pre-trained large language models. Lingua Manga offers automatic optimization for achieving high performance and label efficiency while facilitating flexible and rapid development. Through three example applications with distinct objectives and users of varying levels of technical proficiency, we demonstrate that Lingua Manga can effectively assist both skilled programmers and low-code or even no-code users in addressing data curation challenges.
翻訳日:2023-06-21 13:16:54 公開日:2023-06-20
# 制約付きmdpのためのラストiterate convergent policy gradient primal-dual method

Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs ( http://arxiv.org/abs/2306.11700v1 )

ライセンス: Link先を確認
Dongsheng Ding and Chen-Yu Wei and Kaiqing Zhang and Alejandro Ribeiro(参考訳) 本研究では,無限水平割引制約付きマルコフ決定過程(制約付きMDP)の最適ポリシの計算問題について検討する。 実際にはラグランジアンベースの政策探索手法が普及しているにもかかわらず、これらの手法におけるポリシーの振動は十分に理解されておらず、制約違反やハイパーパラメータに対する感度といった問題が発生する。 このギャップを埋めるために、ラグランジアン法を用いて、最大/最小のプレイヤーがそれぞれ原始的/双対変数に対応する制約付きサドルポイント問題に制約付きMDPを投入し、それらのポリシーの漸近収束が最適な制約付きポリシーに反復する2つの単一時間スケールポリシーベースの原始双対アルゴリズムを開発する。 具体的には、まず、エントロピー正規化ポリシー勾配(RPG-PD)と2次正規化ポリシー勾配(RPG-PD)を同時に更新する手法を提案する。 我々は,rpg-pdの原理的二元的イテレートが準線形率で正規化されたサドル点に収束するのに対し,政策イテレートは最適制約付きポリシーに準線形に収束することを示す。 我々はさらに,政策パラメトリゼーションにおける関数近似を含め,rpg-pdを大きな状態や動作空間でインスタンス化し,同様のサブリニア・ラストイテレート・ポリシー収束を確立する。 第2に,楽観的勾配法を用いて一次/二重変数を同時に更新する楽観的方針勾配法(OPG-PD)を提案する。 我々は,opg-pdの原理的二元的イテレートが,線形率の最適制約付きポリシーを含む鞍点に収束することを証明する。 我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。

We study the problem of computing an optimal policy of an infinite-horizon discounted constrained Markov decision process (constrained MDP). Despite the popularity of Lagrangian-based policy search methods used in practice, the oscillation of policy iterates in these methods has not been fully understood, bringing out issues such as violation of constraints and sensitivity to hyper-parameters. To fill this gap, we employ the Lagrangian method to cast a constrained MDP into a constrained saddle-point problem in which max/min players correspond to primal/dual variables, respectively, and develop two single-time-scale policy-based primal-dual algorithms with non-asymptotic convergence of their policy iterates to an optimal constrained policy. Specifically, we first propose a regularized policy gradient primal-dual (RPG-PD) method that updates the policy using an entropy-regularized policy gradient, and the dual via a quadratic-regularized gradient ascent, simultaneously. We prove that the policy primal-dual iterates of RPG-PD converge to a regularized saddle point with a sublinear rate, while the policy iterates converge sublinearly to an optimal constrained policy. We further instantiate RPG-PD in large state or action spaces by including function approximation in policy parametrization, and establish similar sublinear last-iterate policy convergence. Second, we propose an optimistic policy gradient primal-dual (OPG-PD) method that employs the optimistic gradient method to update primal/dual variables, simultaneously. We prove that the policy primal-dual iterates of OPG-PD converge to a saddle point that contains an optimal constrained policy, with a linear rate. To the best of our knowledge, this work appears to be the first non-asymptotic policy last-iterate convergence result for single-time-scale algorithms in constrained MDPs.
翻訳日:2023-06-21 13:16:38 公開日:2023-06-20
# GenPlot: チャートデータのスケールと多様性の向上

GenPlot: Increasing the Scale and Diversity of Chart Derendering Data ( http://arxiv.org/abs/2306.11699v1 )

ライセンス: Link先を確認
Brendan Artley(参考訳) 垂直バー、水平バー、ドット、散乱、線プロットは、データを表現するための様々な視覚化セットを提供する。 これらのプロットを理解するためには、テキストコンポーネントを認識し、プロット内のデータポイントを特定し、様々な視覚的コンテキストを処理して情報を抽出する必要がある。 Pix2Struct、Matcha、Deplotといった最近の研究で、OCRなしのチャート・トゥ・テキスト翻訳は視覚言語タスクにおける最先端の結果を得た。 これらの結果は、事前学習対象としてチャートデレンダリングの重要性を概説するが、既存のデータセットはトレーニング例の固定セットを提供する。 本稿では,合成データを用いたチャートデペンダリングのために,数十億のプロットを生成するプロット生成器genplotを提案する。

Vertical bars, horizontal bars, dot, scatter, and line plots provide a diverse set of visualizations to represent data. To understand these plots, one must be able to recognize textual components, locate data points in a plot, and process diverse visual contexts to extract information. In recent works such as Pix2Struct, Matcha, and Deplot, OCR-free chart-to-text translation has achieved state-of-the-art results on visual language tasks. These results outline the importance of chart-derendering as a pre-training objective, yet existing datasets provide a fixed set of training examples. In this paper, we propose GenPlot; a plot generator that can generate billions of additional plots for chart-derendering using synthetic data.
翻訳日:2023-06-21 13:15:56 公開日:2023-06-20
# DecodingTrust: GPTモデルにおける信頼性の総合評価

DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models ( http://arxiv.org/abs/2306.11698v1 )

ライセンス: Link先を確認
Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang T. Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li(参考訳) ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルは、実践者や一般大衆の関心を捉えながら、能力のエキサイティングな進歩を見せている。 しかし、GPTモデルの信頼性に関する文献は依然として限られているが、医療やファイナンスへの敏感な応用に有能なGPTモデルを採用することを提案した。 本研究は, GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案し, 毒性, ステレオタイプバイアス, 敵意的堅牢性, 分布外堅牢性, 敵意的実証に対する堅牢性, プライバシ, マシン倫理, 公正性など,様々な観点から考察する。 評価の結果,信頼の脅威に対する未公表の脆弱性が発見された。 例えば、GPTモデルは、有毒で偏りのある出力を生成し、トレーニングデータと会話履歴の両方のプライベート情報を漏らすために、容易に誤解される。 また、GPT-4は標準ベンチマークではGPT-3.5よりも信頼性が高いが、GPT-4はJailbreakingシステムやユーザプロンプトによって脆弱である。 我々の研究は、GPTモデルの総合的信頼性評価を示し、信頼性のギャップに光を当てている。 私たちのベンチマークはhttps://decodingtrust.github.io/で公開されています。

Generative Pre-trained Transformer (GPT) models have exhibited exciting progress in capabilities, capturing the interest of practitioners and the public alike. Yet, while the literature on the trustworthiness of GPT models remains limited, practitioners have proposed employing capable GPT models for sensitive applications to healthcare and finance - where mistakes can be costly. To this end, this work proposes a comprehensive trustworthiness evaluation for large language models with a focus on GPT-4 and GPT-3.5, considering diverse perspectives - including toxicity, stereotype bias, adversarial robustness, out-of-distribution robustness, robustness on adversarial demonstrations, privacy, machine ethics, and fairness. Based on our evaluations, we discover previously unpublished vulnerabilities to trustworthiness threats. For instance, we find that GPT models can be easily misled to generate toxic and biased outputs and leak private information in both training data and conversation history. We also find that although GPT-4 is usually more trustworthy than GPT-3.5 on standard benchmarks, GPT-4 is more vulnerable given jailbreaking system or user prompts, potentially due to the reason that GPT-4 follows the (misleading) instructions more precisely. Our work illustrates a comprehensive trustworthiness evaluation of GPT models and sheds light on the trustworthiness gaps. Our benchmark is publicly available at https://decodingtrust.github.io/.
翻訳日:2023-06-21 13:15:42 公開日:2023-06-20
# エクストリームレジームにおける個別治療効果

Individual Treatment Effects in Extreme Regimes ( http://arxiv.org/abs/2306.11697v1 )

ライセンス: Link先を確認
Ahmed Aloui, Ali Hasan, Yuting Ng, Miroslav Pajic, Vahid Tarokh(参考訳) 極端な体制における個々の治療効果を理解することは、異なる介入に関連するリスクを特徴づけるのに重要である。 これは、極端なレジームデータが収集しにくいため、実際にはほとんど観測されないという事実によって妨げられている。 この問題に対処するため,極端政権における個別治療効果(ITE$_2$)を推定するための新しい枠組みを提案する。 具体的には, この効果は, 治療の有無による潜在的結果のテール崩壊率の変化によって定量化される。 その後、ITE$_2$を計算できる条件を確立し、その計算のためのアルゴリズムを開発する。 提案手法の各種合成および半合成データセットに対する有効性を示す。

Understanding individual treatment effects in extreme regimes is important for characterizing risks associated with different interventions. This is hindered by the fact that extreme regime data may be hard to collect, as it is scarcely observed in practice. In addressing this issue, we propose a new framework for estimating the individual treatment effect in extreme regimes (ITE$_2$). Specifically, we quantify this effect by the changes in the tail decay rates of potential outcomes in the presence or absence of the treatment. Subsequently, we establish conditions under which ITE$_2$ may be calculated and develop algorithms for its computation. We demonstrate the efficacy of our proposed method on various synthetic and semi-synthetic datasets.
翻訳日:2023-06-21 13:15:16 公開日:2023-06-20
# RoTaR:教師学習による効率的なRow-based Table Representation Learning

RoTaR: Efficient Row-Based Table Representation Learning via Teacher-Student Training ( http://arxiv.org/abs/2306.11696v1 )

ライセンス: Link先を確認
Zui Chen, Lei Cao, Sam Madden(参考訳) 本稿では,既存の表表現学習手法が直面する効率性とスケーラビリティの問題に対処する行ベースの表表現学習法であるRoTaRを提案する。 RoTaRのキーとなるアイデアは、クエリ固有の集約を通じて再利用可能な、クエリに依存しない行表現を生成することだ。 行ベースのアーキテクチャに加えて,セルアウェアな位置埋め込み,教師と学生のトレーニングパラダイム,そしてロターモデルの性能向上のための選択的後方的手法も紹介する。

We propose RoTaR, a row-based table representation learning method, to address the efficiency and scalability issues faced by existing table representation learning methods. The key idea of RoTaR is to generate query-agnostic row representations that could be re-used via query-specific aggregation. In addition to the row-based architecture, we introduce several techniques: cell-aware position embedding, teacher-student training paradigm, and selective backward to improve the performance of RoTaR model.
翻訳日:2023-06-21 13:15:06 公開日:2023-06-20
# 大規模言語モデルに対する単純かつ効果的なプルーニング手法

A Simple and Effective Pruning Approach for Large Language Models ( http://arxiv.org/abs/2306.11695v1 )

ライセンス: Link先を確認
Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter(参考訳) そのサイズが大きくなるにつれて、LLM(Large Languages Models)は、ネットワークプルーニング手法の自然な候補となる。 しかし、既存の手法では、数十億ドル規模のLLMにはめったに手に入らない再訓練や、2次情報に依存する重み付け問題の解決が求められている。 本稿では,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を提案する。 llmsにおける創発的大等級特徴の最近の観測に動機づけられ,我々は,入力アクティベーションに乗じた最小等級の重みを,出力単位に設定した。 特筆すべきは、wandaはリトレーニングやウェイトアップデートを必要とせず、pruned llmをそのまま使用できることだ。 我々は,様々な言語ベンチマークを用いてllama法を徹底的に評価する。 ワンダは確立されたマグニチュードプルーニングの基準線を著しく上回り、集中的な重量更新を含む最近の手法と好適に競合する。 コードはhttps://github.com/locuslab/wandaで入手できる。

As their size increases, Large Languages Models (LLMs) are natural candidates for network pruning methods: approaches that drop a subset of network weights while striving to preserve performance. Existing methods, however, require either retraining, which is rarely affordable for billion-scale LLMs, or solving a weight reconstruction problem reliant on second-order information, which may also be computationally expensive. In this paper, we introduce a novel, straightforward yet effective pruning method, termed Wanda (Pruning by Weights and activations), designed to induce sparsity in pretrained LLMs. Motivated by the recent observation of emergent large magnitude features in LLMs, our approach prune weights with the smallest magnitudes multiplied by the corresponding input activations, on a per-output basis. Notably, Wanda requires no retraining or weight update, and the pruned LLM can be used as is. We conduct a thorough evaluation of our method on LLaMA across various language benchmarks. Wanda significantly outperforms the established baseline of magnitude pruning and competes favorably against recent methods involving intensive weight update. Code is available at https://github.com/locuslab/wanda.
翻訳日:2023-06-21 13:14:56 公開日:2023-06-20
# 複数の視覚ポリティクス指導型強化学習によるNFT画像拡散の学習

Learning Profitable NFT Image Diffusions via Multiple Visual-Policy Guided Reinforcement Learning ( http://arxiv.org/abs/2306.11731v1 )

ライセンス: Link先を確認
Huiguo He, Tianfu Wang, Huan Yang, Jianlong Fu, Nicholas Jing Yuan, Jian Yin, Hongyang Chao, Qi Zhang(参考訳) ユーザ入力テキストからNFT(Non-Fungible Token)画像を生成するタスクについて検討する。 近年の拡散モデルの発展は画像生成に大きな可能性を示している。 しかし、既存の作品は、主に不足のため、視覚的に供給され、高収益のNFT画像を生成するのに不足する可能性がある。 1)NFT画像のための多彩できめ細かな視覚特性プロンプト、及び 2)高品質なNFT画像を生成するための効果的な最適化指標。 これらの課題を解決するために,NFT画像に対する報酬(Diffusion-MVP)として,複数ビジュアルポリシーを用いた拡散生成フレームワークを提案する。 提案するフレームワークは,大規模言語モデル (LLM) と拡散型画像生成装置,および設計による視覚的報酬からなる。 まず、LLMは「忍者スタイルと緑の背景を持つパンダ」のような特定の視覚特性を含むより包括的なNTTスタイルのプロンプトを生成することで、基本的な人間の入力(パンダなど)を強化する。 第2に、拡散に基づく画像生成装置は、大規模なNFTデータセットを用いて微調整され、一般的なNFT要素の微細な画像スタイルとアクセサリー構成をキャプチャする。 第3に,視覚的照度レベル,視覚的美的スコア,CLIPに基づくテキスト画像関連性など,複数の視覚政治を最適化目標として活用することを提案する。 この設計により、提案したDiffusion-MVPは、高い視覚的品質と市場価値でNFT画像をマイニングできる。 この研究を容易にするために、我々は150万の高品質画像と対応するテキストと市場価値からなる、これまでで最大のnftイメージデータセットを収集した。 客観的評価やユーザスタディを含む大規模な実験により、我々のフレームワークは、SOTAアプローチと比較して、より視覚的に魅力的な要素と高い市場価値を示すNFT画像を生成することができることを示した。

We study the task of generating profitable Non-Fungible Token (NFT) images from user-input texts. Recent advances in diffusion models have shown great potential for image generation. However, existing works can fall short in generating visually-pleasing and highly-profitable NFT images, mainly due to the lack of 1) plentiful and fine-grained visual attribute prompts for an NFT image, and 2) effective optimization metrics for generating high-quality NFT images. To solve these challenges, we propose a Diffusion-based generation framework with Multiple Visual-Policies as rewards (i.e., Diffusion-MVP) for NFT images. The proposed framework consists of a large language model (LLM), a diffusion-based image generator, and a series of visual rewards by design. First, the LLM enhances a basic human input (such as "panda") by generating more comprehensive NFT-style prompts that include specific visual attributes, such as "panda with Ninja style and green background." Second, the diffusion-based image generator is fine-tuned using a large-scale NFT dataset to capture fine-grained image styles and accessory compositions of popular NFT elements. Third, we further propose to utilize multiple visual-policies as optimization goals, including visual rarity levels, visual aesthetic scores, and CLIP-based text-image relevances. This design ensures that our proposed Diffusion-MVP is capable of minting NFT images with high visual quality and market value. To facilitate this research, we have collected the largest publicly available NFT image dataset to date, consisting of 1.5 million high-quality images with corresponding texts and market values. Extensive experiments including objective evaluations and user studies demonstrate that our framework can generate NFT images showing more visually engaging elements and higher market value, compared with SOTA approaches.
翻訳日:2023-06-21 13:09:31 公開日:2023-06-20
# 放射線腫瘍学のためのセグメンテーションモデル(SAM)

Segment Anything Model (SAM) for Radiation Oncology ( http://arxiv.org/abs/2306.11730v1 )

ライセンス: Link先を確認
Lian Zhang, Zhengliang Liu, Lu Zhang, Zihao Wu, Xiaowei Yu, Jason Holmes, Hongying Feng, Haixing Dai, Xiang Li, Quanzheng Li, Dajiang Zhu, Tianming Liu, Wei Liu(参考訳) 本研究では,臨床放射線治療におけるSegment Anything Model(SAM)モデルの性能評価を行った。 前立腺,肺,消化管,頭頸部の4つの領域から,放射線腫瘍学の典型的治療部位である症例を実検した。 各症例について,放射線治療計画における関心事のOARを選択し,臨床手技による記述,SAMのセグメンテーションモードを用いた自動セグメンテーション,SAMによるボックスプロンプトを用いた自動セグメンテーションを比較した。 以上より,前立腺領域と肺領域の自動分画ではSAMが良好であり,消化管領域と頭頸部領域の成績は比較的低かった。 臓器の大きさと境界の明確さを考慮すると、samは、肺や肝臓のような明確な境界を持つより大きな臓器に対して、より優れた性能を示し、耳下腺や内耳のような境界が不明瞭な小さな臓器ではより悪化する。 これらの所見は, 臨床放射線治療において, 異なる部位の異なる臓器を手作業で脱線させる際の難易度の変化と一致した。 SAMが4つの領域におけるOARのデライン化を処理できることを考えると、これらの結果はSAMの自動セグメンテーションにおける堅牢な一般化能力、すなわち一般的な自動セグメンテーションモデルを用いて異なる放射線療法OARのデライン化を実現することの証明でもある。 SAMの様々な領域における一般化能力は、放射線治療における自動セグメンテーションのための一般的なモデルを開発することができる。

In this study, we evaluate the performance of the Segment Anything Model (SAM) model in clinical radiotherapy. We collected real clinical cases from four regions at the Mayo Clinic: prostate, lung, gastrointestinal, and head \& neck, which are typical treatment sites in radiation oncology. For each case, we selected the OARs of concern in radiotherapy planning and compared the Dice and Jaccard outcomes between clinical manual delineation, automatic segmentation using SAM's "segment anything" mode, and automatic segmentation using SAM with box prompt. Our results indicate that SAM performs better in automatic segmentation for the prostate and lung regions, while its performance in the gastrointestinal and head \& neck regions was relatively inferior. When considering the size of the organ and the clarity of its boundary, SAM displays better performance for larger organs with clear boundaries, such as the lung and liver, and worse for smaller organs with unclear boundaries, like the parotid and cochlea. These findings align with the generally accepted variations in difficulty level associated with manual delineation of different organs at different sites in clinical radiotherapy. Given that SAM, a single trained model, could handle the delineation of OARs in four regions, these results also demonstrate SAM's robust generalization capabilities in automatic segmentation for radiotherapy, i.e., achieving delineation of different radiotherapy OARs using a generic automatic segmentation model. SAM's generalization capabilities across different regions make it technically feasible to develop a generic model for automatic segmentation in radiotherapy.
翻訳日:2023-06-21 13:08:49 公開日:2023-06-20
# 解離スーパービジョンからの高精細映像オブジェクトキャプション

Dense Video Object Captioning from Disjoint Supervision ( http://arxiv.org/abs/2306.11729v1 )

ライセンス: Link先を確認
Xingyi Zhou, Anurag Arnab, Chen Sun, Cordelia Schmid(参考訳) 本研究では,ビデオ中の全オブジェクトの軌跡の検出,追跡,キャプションを行うための新しいタスクとモデルを提案する。 このタスクはビデオの空間的および時間的理解を統一し、詳細な言語記述を必要とする。 高密度ビデオキャプションのモデルはエンドツーエンドで訓練され、空間的ローカライゼーション、追跡、キャプションのための異なるモジュールで構成されている。 そのため、さまざまなタスクを混在させてモデルをトレーニングし、モデルのさまざまな部分を監督する多種多様な大規模データセットを活用できます。 これにより、注目すべきゼロショット性能が得られる。 さらに、この初期化からモデルを微調整することで、強い画像ベースベースラインをかなりの差で超えて、パフォーマンスをさらに向上させることができる。 我々は、このタスクを実行する他の作業について知らないが、既存のビデオグラウンドデータセット、すなわちVidSTGとVLNを再利用することができる。 我々のタスクは接地よりも一般的であり、我々のタスクでトレーニングされたモデルは、クエリ文を生成する最大可能性のバウンディングボックスを見つけることによって、接地に直接適用できる。 我々のモデルは、VdSTGとVLNの両方の空間接地のための、最先端の専用モデルよりも優れている。

We propose a new task and model for dense video object captioning -- detecting, tracking, and captioning trajectories of all objects in a video. This task unifies spatial and temporal understanding of the video, and requires fine-grained language description. Our model for dense video object captioning is trained end-to-end and consists of different modules for spatial localization, tracking, and captioning. As such, we can train our model with a mixture of disjoint tasks, and leverage diverse, large-scale datasets which supervise different parts of our model. This results in noteworthy zero-shot performance. Moreover, by finetuning a model from this initialization, we can further improve our performance, surpassing strong image-based baselines by a significant margin. Although we are not aware of other work performing this task, we are able to repurpose existing video grounding datasets for our task, namely VidSTG and VLN. We show our task is more general than grounding, and models trained on our task can directly be applied to grounding by finding the bounding box with the maximum likelihood of generating the query sentence. Our model outperforms dedicated, state-of-the-art models for spatial grounding on both VidSTG and VLN.
翻訳日:2023-06-21 13:08:03 公開日:2023-06-20
# oam状態を持つ層状ネットワークにおけるタスク依存半量子セキュア通信

Task-dependent semi-quantum secure communication in layered networks with OAM states of light ( http://arxiv.org/abs/2306.11728v1 )

ライセンス: Link先を確認
Rajni Bala, Sooryansh Asthana, V. Ravishankar(参考訳) 異なる参加者が好まれる階層ネットワークにおけるセキュアな通信は、多くの研究の注目を集めている。 M. Pivoluska et al., Phys. Rev. A 97, 032312] では、非対称な絡み合った多重量子状態を用いて、階層ネットワークにおける鍵分布のプロトコルが最近提案されている。 非対称に絡み合った多量子状態を用いるため、これらのプロトコルの収率は極めて低い。 この問題に対処するため、本研究では、より優れた収率と高いキー生成率を与える分離可能な状態のみを用いる半量子安全な通信プロトコルを提案する。 図示として2つの代表的なプロトコルを示す。 最初のプロトコルでは、2つのレイヤのネットワークで同時に2つのキーを共有することができる。 第2のプロトコルは、一方の層における直接通信ともう一方の層における鍵分配を容易にする。 分離可能な状態、すなわち、プロトコルに必要な軌道角運動量のコヒーレントなパルスは、現在の技術で容易に実現可能である。

Secure communication in layered networks having differently preferred participants has attracted a lot of research attention. Protocols for key distribution in a layered network have been recently proposed in [M. Pivoluska et al., Phys. Rev. A 97, 032312] by employing asymmetrically entangled multiqudit states. Due to the employment of asymmetrically entangled multiqudit states, the yield of these protocols is very low. To address this issue, in this work, we have proposed semi-quantum secure communication protocols by employing separable states only which give a better yield and a higher key generation rate. As illustrations, we present two representative protocols. The first protocol allows sharing of two keys simultaneously in a network of two layers. The second protocol facilitates direct communication in one layer and key distribution in the other. The separable states, i.e., coherent pulses of orbital angular momentum required in the protocols are easily realizable with current technologies.
翻訳日:2023-06-21 13:07:44 公開日:2023-06-20
# Aquila: QuEraの256量子ビット中立原子量子コンピュータ

Aquila: QuEra's 256-qubit neutral-atom quantum computer ( http://arxiv.org/abs/2306.11727v1 )

ライセンス: Link先を確認
Jonathan Wurtz, Alexei Bylinskii, Boris Braverman, Jesse Amato-Grill, Sergio H. Cantu, Florian Huber, Alexander Lukin, Fangli Liu, Phillip Weinberg, John Long, Sheng-Tao Wang, Nathan Gemelke, Alexander Keesling(参考訳) 中立原子量子コンピュータ"Aquila"は、Amazon Web Services(AWS)上のBraketクラウドサービスを通じて利用可能なQuEraの最新デバイスである。 Aquilaは、ユーザ構成可能なアーキテクチャ上でアナログハミルトンシミュレータとして動作し、256個の中性原子量子ビット上でプログラム可能なコヒーレント量子力学を実行する「フィールドプログラマブル量子ビットアレイ」(FPQA)である。 このホワイトペーパーは、aquilaとその機能の概要として、その動作方法、主要なパフォーマンスベンチマーク、そしていくつかの素晴らしいアプリケーションを示す例である。 これには中性原子量子コンピューティングの概要と、Aquila上に実装された単一量子ビットダイナミクスから組合せ最適化までの複雑さの増大例が含まれる。 このホワイトペーパーは、中立原子量子コンピューティングについてもっと学びたい読者向けのもので、Aquilaを使い始める準備ができている人々のためのガイドであり、アナログ量子コンピュータとしてのパフォーマンスの基準点である。

The neutral-atom quantum computer "Aquila" is QuEra's latest device available through the Braket cloud service on Amazon Web Services (AWS). Aquila is a "field-programmable qubit array" (FPQA) operated as an analog Hamiltonian simulator on a user-configurable architecture, executing programmable coherent quantum dynamics on up to 256 neutral-atom qubits. This whitepaper serves as an overview of Aquila and its capabilities: how it works under the hood, key performance benchmarks, and examples that demonstrate some quintessential applications. This includes an overview of neutral-atom quantum computing, as well as five examples of increasing complexity from single-qubit dynamics to combinatorial optimization, implemented on Aquila. This whitepaper is intended for readers who are interested in learning more about neutral-atom quantum computing, as a guide for those who are ready to start using Aquila, and as a reference point for its performance as an analog quantum computer.
翻訳日:2023-06-21 13:07:27 公開日:2023-06-20
# オブジェクトはどのようにアクション認識に役立つか?

How can objects help action recognition? ( http://arxiv.org/abs/2306.11726v1 )

ライセンス: Link先を確認
Xingyi Zhou, Anurag Arnab, Chen Sun, Cordelia Schmid(参考訳) 現在の最先端ビデオモデルは、ビデオクリップを時空間トークンの長いシーケンスとして処理する。 しかし、ビデオを通してオブジェクトやインタラクションを明示的にモデル化するのではなく、ビデオ内のすべてのトークンを処理する。 本稿では,オブジェクトの知識を用いて,より優れたビデオモデル,すなわち少ないトークン処理と認識精度の向上を実現する方法について検討する。 これは、トークンを精度の犠牲に落としたり、必要な計算量を増やしながら精度を高めたりする以前の作業とは対照的である。 まず,入力トークンのごく一部を精度への影響を最小限に抑えることを可能にする,オブジェクト誘導トークンサンプリング戦略を提案する。 次に,特徴表現をオブジェクト情報で豊かにし,全体的な精度を向上させるオブジェクト認識アテンションモジュールを提案する。 結果として得られるフレームワークは、強力なベースラインよりも少ないトークンを使用する場合のパフォーマンスが向上します。 特に、私たちのベースラインは、それぞれwhatelse、 something-something v2、epic-kitchensの入力トークンの30%、40%、60%と一致しています。 我々のモデルを使ってベースラインと同じ数のトークンを処理すると、これらのデータセットの0.6から4.2ポイントが改善されます。

Current state-of-the-art video models process a video clip as a long sequence of spatio-temporal tokens. However, they do not explicitly model objects, their interactions across the video, and instead process all the tokens in the video. In this paper, we investigate how we can use knowledge of objects to design better video models, namely to process fewer tokens and to improve recognition accuracy. This is in contrast to prior works which either drop tokens at the cost of accuracy, or increase accuracy whilst also increasing the computation required. First, we propose an object-guided token sampling strategy that enables us to retain a small fraction of the input tokens with minimal impact on accuracy. And second, we propose an object-aware attention module that enriches our feature representation with object information and improves overall accuracy. Our resulting framework achieves better performance when using fewer tokens than strong baselines. In particular, we match our baseline with 30%, 40%, and 60% of the input tokens on SomethingElse, Something-something v2, and Epic-Kitchens, respectively. When we use our model to process the same number of tokens as our baseline, we improve by 0.6 to 4.2 points on these datasets.
翻訳日:2023-06-21 13:07:09 公開日:2023-06-20
# 低複素多次元dct近似

Low-complexity Multidimensional DCT Approximations ( http://arxiv.org/abs/2306.11724v1 )

ライセンス: Link先を確認
V. A. Coutinho, R. J. Cintra, F. M. Bayer(参考訳) 本稿では,低複素多次元離散コサイン変換(dct)近似を提案する。 3次元DCT(3次元DCT)近似は高次テンソル理論で定式化される。 この定式化は任意の長さの高次元に拡張される。 8\times 8\times 8$ 近似法を複数提案し, 一般多次元の場合の計算複雑性について考察した。 提案手法の複雑性を評価した結果,正確な3次元dctと比較して算術演算の精度が有意に低下した。 提案手法は3次元DCTに基づくビデオ符号化方式に組み込まれ,量子化のステップが変更された。 シミュレーションの結果, 近似3次元DCT符号化法は, 正確な3次元DCT方式と比較してほぼ同一の視覚的品質が得られることがわかった。 提案する3次元近似は視覚追跡のためのツールとしても用いられた。 近似3次元DCTに基づく提案システムは、元の正確な3次元DCTに基づく手法と同様に動作する。 一般に,提案手法は計算コストがかなり低い競争性能を示した。

In this paper, we introduce low-complexity multidimensional discrete cosine transform (DCT) approximations. Three dimensional DCT (3D DCT) approximations are formalized in terms of high-order tensor theory. The formulation is extended to higher dimensions with arbitrary lengths. Several multiplierless $8\times 8\times 8$ approximate methods are proposed and the computational complexity is discussed for the general multidimensional case. The proposed methods complexity cost was assessed, presenting considerably lower arithmetic operations when compared with the exact 3D DCT. The proposed approximations were embedded into 3D DCT-based video coding scheme and a modified quantization step was introduced. The simulation results showed that the approximate 3D DCT coding methods offer almost identical output visual quality when compared with exact 3D DCT scheme. The proposed 3D approximations were also employed as a tool for visual tracking. The approximate 3D DCT-based proposed system performs similarly to the original exact 3D DCT-based method. In general, the suggested methods showed competitive performance at a considerably lower computational cost.
翻訳日:2023-06-21 13:06:51 公開日:2023-06-20
# 量子相関の空間構造再構成

Reconstructing the spatial structure of quantum correlations ( http://arxiv.org/abs/2306.11723v1 )

ライセンス: Link先を確認
Allen Scheie and Pontus Laurell and Elbio Dagotto and D. Alan Tennant and Tommaso Roscilde(参考訳) 量子相関は、量子多体状態の基本特性である。 しかし、それらは実験的に解明され続け、特に量子材料における真の量子挙動の証明を妨げる。 そこで,非弾性中性子散乱による運動量依存性の動的感受性は,任意の距離における2つのスピンの揺らぎにおける量子コヒーレンス度を表す量子相関関数の体系的再構成を可能にすることを示す。 KCuF$_3$$\unicode{x2014}$ 弱結合な$S=1/2$ハイゼンベルク鎖の系と数値的に正確な量子モンテカルロデータを用いて、量子相関が従来の相関関係に関して根本的に異なる空間構造を持つことを示す。 実際、彼らは新しい量子力学起源の創発的長さ $\unicode{x2014}$ 量子コヒーレンス長 $\unicode{x2014}$ を示し、これは任意の有限温度において有限である。 さらに理論上、結合したハイゼンベルクスピン鎖は量子一夫一夫一婦制の形を示し、量子相関とスピン鎖への変換の間のトレードオフを示す。 これらの結果は、実空間量子相関子を、実量子物質の基礎となる量子状態を調べるための情報的、モデルに依存しない手段として強調する。

Quantum correlations are a fundamental property of quantum many-body states. Yet they remain experimentally elusive, hindering certification of genuine quantum behavior, especially in quantum materials. Here we show that the momentum-dependent dynamical susceptibility measured via inelastic neutron scattering enables the systematic reconstruction of quantum correlation functions, which express the degree of quantum coherence in the fluctuations of two spins at arbitrary mutual distance. Using neutron scattering data on the compound KCuF$_3$ $\unicode{x2014}$ a system of weakly coupled $S=1/2$ Heisenberg chains $\unicode{x2014}$ and of numerically exact quantum Monte Carlo data, we show that quantum correlations possess a radically different spatial structure with respect to conventional correlations. Indeed, they exhibit a new emergent length of quantum-mechanical origin $\unicode{x2014}$ the quantum coherence length $\unicode{x2014}$ which is finite at any finite temperature (including when long-range magnetic order develops). Moreover, we show theoretically that coupled Heisenberg spin chains exhibit a form of quantum monogamy, with a trade-off between quantum correlations along and transverse to the spin chains. These results highlight real-space quantum correlators as an informative, model-independent means of probing the underlying quantum state of real quantum materials.
翻訳日:2023-06-21 13:06:36 公開日:2023-06-20
# 前方モデルとの拡散:直接スーパービジョンのない確率的逆問題の解法

Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision ( http://arxiv.org/abs/2306.11719v1 )

ライセンス: Link先を確認
Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Fr\'edo Durand, William T. Freeman, Vincent Sitzmann(参考訳) デノイジング拡散モデルは実世界の信号の複雑な分布を捉えるために使用される強力な生成モデルである。 しかし、それらの適用性はトレーニングサンプルが容易に利用できるシナリオに限られており、実際のアプリケーションでは必ずしもそうではない。 例えば、逆グラフィックスでは、与えられた画像と一致する3dシーンの分布からサンプルを生成することが目標だが、地上の3dシーンは使用できず、2dイメージのみがアクセス可能である。 この制限に対処するために, 直接観測されない信号の分布からサンプルを収集することを学ぶ, 分散確率モデルの新しいクラスを提案する。 代わりに、これらの信号は、未知の信号の部分的な観測を生成する既知の微分可能前方モデルを通して間接的に測定される。 我々のアプローチは、フォワードモデルをデノイジングプロセスに直接統合することです。 この統合は、観測の生成モデルと基礎となる信号の生成モデルとを効果的に結びつけ、信号上の条件付き生成モデルのエンドツーエンドトレーニングを可能にする。 推測中,本手法は,所定の部分観測値と一致した基礎信号の分布からのサンプリングを可能にする。 3つのコンピュータビジョン課題に対する提案手法の有効性を実証する。 例えば、逆グラフィックスの文脈では、このモデルは1つの2d入力画像に一致する3dシーンの分布から直接サンプリングすることができる。

Denoising diffusion models are a powerful type of generative models used to capture complex distributions of real-world signals. However, their applicability is limited to scenarios where training samples are readily available, which is not always the case in real-world applications. For example, in inverse graphics, the goal is to generate samples from a distribution of 3D scenes that align with a given image, but ground-truth 3D scenes are unavailable and only 2D images are accessible. To address this limitation, we propose a novel class of denoising diffusion probabilistic models that learn to sample from distributions of signals that are never directly observed. Instead, these signals are measured indirectly through a known differentiable forward model, which produces partial observations of the unknown signal. Our approach involves integrating the forward model directly into the denoising process. This integration effectively connects the generative modeling of observations with the generative modeling of the underlying signals, allowing for end-to-end training of a conditional generative model over signals. During inference, our approach enables sampling from the distribution of underlying signals that are consistent with a given partial observation. We demonstrate the effectiveness of our method on three challenging computer vision tasks. For instance, in the context of inverse graphics, our model enables direct sampling from the distribution of 3D scenes that align with a single 2D input image.
翻訳日:2023-06-21 13:06:08 公開日:2023-06-20
# GFlowNetsを用いた多要素アクティブラーニング

Multi-Fidelity Active Learning with GFlowNets ( http://arxiv.org/abs/2306.11715v1 )

ライセンス: Link先を確認
Alex Hernandez-Garcia and Nikita Saxena and Moksh Jain and Cheng-Hao Liu and Yoshua Bengio(参考訳) 過去数十年間、科学と工学の応用において大量のデータを生成する能力は着実に成長してきた。 一方、機械学習の進歩は、利用可能なデータを処理し、利用するのに適したツールになった。 それでも、関連する科学や工学の問題の多くは、現在の機械学習手法が利用可能なデータやリソースを効率的に活用できないという課題を提起している。 例えば、科学的な発見では、高忠実度でブラックボックスの目的関数のクエリは非常に高価であるような、非常に大きな高次元空間を探索する問題に直面することが多い。 このような問題に効率的に対処できる機械学習手法の進歩は、薬物や材料の発見のような現在重要な領域を加速するのに役立つだろう。 本稿では,複数のブラックボックス関数の近似を低忠実度かつ低コストで利用できる多忠実能動学習のためのGFlowNetsを提案する。 GFlowNetは近年,大規模で高次元空間の探索に有効な確率的推論手法として提案されている。 本稿では,gflownetsを用いた多元的アクティブラーニングのためのアルゴリズムについて述べるとともに,その性能について,よく研究された合成タスクと分子発見の実際的応用の両方において評価する。 以上の結果から,gflownetsを用いた多元的アクティブラーニングは,異なるコストとフィディティーを持つ複数のオラクルの可用性を効率的に活用し,科学的発見とエンジニアリング設計を加速できることが示されている。

In the last decades, the capacity to generate large amounts of data in science and engineering applications has been growing steadily. Meanwhile, the progress in machine learning has turned it into a suitable tool to process and utilise the available data. Nonetheless, many relevant scientific and engineering problems present challenges where current machine learning methods cannot yet efficiently leverage the available data and resources. For example, in scientific discovery, we are often faced with the problem of exploring very large, high-dimensional spaces, where querying a high fidelity, black-box objective function is very expensive. Progress in machine learning methods that can efficiently tackle such problems would help accelerate currently crucial areas such as drug and materials discovery. In this paper, we propose the use of GFlowNets for multi-fidelity active learning, where multiple approximations of the black-box function are available at lower fidelity and cost. GFlowNets are recently proposed methods for amortised probabilistic inference that have proven efficient for exploring large, high-dimensional spaces and can hence be practical in the multi-fidelity setting too. Here, we describe our algorithm for multi-fidelity active learning with GFlowNets and evaluate its performance in both well-studied synthetic tasks and practically relevant applications of molecular discovery. Our results show that multi-fidelity active learning with GFlowNets can efficiently leverage the availability of multiple oracles with different costs and fidelities to accelerate scientific discovery and engineering design.
翻訳日:2023-06-21 13:05:47 公開日:2023-06-20
# clip2protect: テキスト誘導メイクによる顔のプライバシー保護

CLIP2Protect: Protecting Facial Privacy using Text-Guided Makeup via Adversarial Latent Search ( http://arxiv.org/abs/2306.10008v2 )

ライセンス: Link先を確認
Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar(参考訳) ディープラーニングベースの顔認識システムの成功は、デジタル世界でのユーザを不正に追跡する機能によって、深刻なプライバシー上の懸念を引き起こしている。 既存のプライバシー強化方法は、ユーザー体験を損なうことなく、顔のプライバシーを保護することができる自然なイメージを生成することができない。 本稿では,事前学習された生成モデルの低次元多様体における逆潜時符号の発見に依存する,顔のプライバシー保護のための新しい2段階のアプローチを提案する。 第1ステップは、与えられた顔画像を潜在空間に反転させ、生成モデルを微調整し、その潜在コードから与えられた画像を正確に再構成する。 このステップは、与えられたアイデンティティに似た高品質な顔の生成を支援する優れた初期化を生成する。 その後、ユーザ定義のメイクアップテキストプロンプトとID保存正規化を使用して、潜伏空間における敵コード検索をガイドする。 広範な実験により,顔認証タスクにおける顔プライバシー保護アプローチの絶対値が12.06%と,ブラックボックス転送性が強くなることが示された。 最後に,商用顔認識システムにおける提案手法の有効性を示す。 私たちのコードはhttps://github.com/fahadshamshad/clip2protectで利用可能です。

The success of deep learning based face recognition systems has given rise to serious privacy concerns due to their ability to enable unauthorized tracking of users in the digital world. Existing methods for enhancing privacy fail to generate naturalistic images that can protect facial privacy without compromising user experience. We propose a novel two-step approach for facial privacy protection that relies on finding adversarial latent codes in the low-dimensional manifold of a pretrained generative model. The first step inverts the given face image into the latent space and finetunes the generative model to achieve an accurate reconstruction of the given image from its latent code. This step produces a good initialization, aiding the generation of high-quality faces that resemble the given identity. Subsequently, user-defined makeup text prompts and identity-preserving regularization are used to guide the search for adversarial codes in the latent space. Extensive experiments demonstrate that faces generated by our approach have stronger black-box transferability with an absolute gain of 12.06% over the state-of-the-art facial privacy protection approach under the face verification task. Finally, we demonstrate the effectiveness of the proposed approach for commercial face recognition systems. Our code is available at https://github.com/fahadshamshad/Clip2Protect.
翻訳日:2023-06-21 11:19:02 公開日:2023-06-20
# コード生成のためのGPT自己修復

Demystifying GPT Self-Repair for Code Generation ( http://arxiv.org/abs/2306.09896v2 )

ライセンス: Link先を確認
Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama(参考訳) 大規模言語モデル(LLM)はコード生成に顕著な適性を示しているが、それでも難しいプログラミングタスクに苦戦している。 自己修復(Self-repair) — モデルが自身のコードでエラーをデバッグし修正する — は、最近、これらの設定のパフォーマンスを向上する一般的な方法になっている。 しかし、どのようにして自己修復が効果的に機能するかに関するごく限られた研究だけが文献に存在し、同じモデルによってコードが生成されたときにコードがなぜ間違っているのかを、モデルが正確にフィードバックできるかどうか疑問に思うかもしれない。 本稿では,GPT-3.5とGPT-4がAPPS上で自己修復を行う能力について分析する。 そこで我々はまず,モデルからサンプリングされたトークンの総数に対してタスクの通過率を測定するpass@tと呼ばれる新しい評価戦略を確立し,純粋にサンプリングベースのアプローチと公正な比較を可能にする。 この評価戦略により, GPT-4にのみ自己修復の有効性が認められる。 また, GPT-4 を用いて GPT-3.5 で生成されたプログラムにフィードバックを与え, 専門家のプログラムに GPT-4 で生成されたプログラムにフィードバックを与えると, 大幅な性能向上が期待できる。

Large Language Models (LLMs) have shown remarkable aptitude in code generation but still struggle on challenging programming tasks. Self-repair -- in which the model debugs and fixes mistakes in its own code -- has recently become a popular way to boost performance in these settings. However, only very limited studies on how and when self-repair works effectively exist in the literature, and one might wonder to what extent a model is really capable of providing accurate feedback on why the code is wrong when that code was generated by the same model. In this paper, we analyze GPT-3.5 and GPT-4's ability to perform self-repair on APPS, a challenging dataset consisting of diverse coding challenges. To do so, we first establish a new evaluation strategy dubbed pass@t that measures the pass rate of the tasks against the total number of tokens sampled from the model, enabling a fair comparison to purely sampling-based approaches. With this evaluation strategy, we find that the effectiveness of self-repair is only seen in GPT-4. We also observe that self-repair is bottlenecked by the feedback stage; using GPT-4 to give feedback on the programs generated by GPT-3.5 and using expert human programmers to give feedback on the programs generated by GPT-4, we unlock significant performance gains.
翻訳日:2023-06-21 11:18:11 公開日:2023-06-20
# 連続学習におけるメモリベース手法の一般化に関する研究

Studying Generalization on Memory-Based Methods in Continual Learning ( http://arxiv.org/abs/2306.09890v2 )

ライセンス: Link先を確認
Felipe del Rio, Julio Hurtado, Cristian Buc, Alvaro Soto and Vincenzo Lomonaco(参考訳) 継続的学習の目的の1つは、一連の経験を通して新しい概念を継続的に学び、同時に破滅的な忘れ物を避けることである。 完全な知識オーバーライトを軽減するため、メモリベースのメソッドは、トレーニング中に使用する以前のデータ分布の比率を格納する。 これらの手法は良好な結果をもたらすが、その分散の一般化特性とリプレイメモリに過剰に適合するかどうかを試験した研究は少ない。 本研究では,これらの手法が従来の分布内一般化に有効であるが,突発的特徴と相関を学習することで分布外一般化を強く損なうことができることを示す。 制御された環境であるsynbolベンチマークジェネレータ(lacoste et al., 2020)を用いて、この分散的一般化の欠如が主に線形分類器で発生することを実証する。

One of the objectives of Continual Learning is to learn new concepts continually over a stream of experiences and at the same time avoid catastrophic forgetting. To mitigate complete knowledge overwriting, memory-based methods store a percentage of previous data distributions to be used during training. Although these methods produce good results, few studies have tested their out-of-distribution generalization properties, as well as whether these methods overfit the replay memory. In this work, we show that although these methods can help in traditional in-distribution generalization, they can strongly impair out-of-distribution generalization by learning spurious features and correlations. Using a controlled environment, the Synbol benchmark generator (Lacoste et al., 2020), we demonstrate that this lack of out-of-distribution generalization mainly occurs in the linear classifier.
翻訳日:2023-06-21 11:17:45 公開日:2023-06-20
# OCTScenes: オブジェクト中心学習のためのテーブルトップシーンのマルチワールドデータセット

OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning ( http://arxiv.org/abs/2306.09682v2 )

ライセンス: Link先を確認
Yinxuan Huang, Tonglin Chen, Zhimeng Shen, Jinghao Huang, Bin Li, Xiangyang Xue(参考訳) 人間は構成的にシーンを理解する認知能力を持っている。 オブジェクト中心表現学習は、類似した能力を持つAIシステムを強化するために、視覚的なシーンから個々のオブジェクトの表現を取得することを目的としている。 オブジェクト中心表現学習の最近の進歩は複雑な合成データセットにおいて著しい進歩を遂げてきたが、複雑な実世界での応用には大きな課題がある。 重要な理由の1つは、オブジェクト中心の表現学習に特化された現実世界のデータセットの不足である。 そこで本研究では,オブジェクト中心表現学習手法の比較,評価,分析のためのベンチマークとして設計された,オブジェクト中心学習のための多目的な実世界データセット octscenes を提案する。 OCTScenesには5000のテーブルトップシーンがあり、合計15の日常的なオブジェクトがある。 各シーンは360度視界をカバーする60フレームで撮影される。 その結果、OCTScenesは、静的シーン、動的シーン、マルチビューシーンタスク間でオブジェクト中心の表現学習手法の評価を同時に満足できる汎用的なベンチマークデータセットである。 静的,動的,多視点のシーンに対するオブジェクト中心表現学習手法の広範囲な実験を八段線上で行った。 その結果,複雑な合成データセットの性能に優れるにもかかわらず,実世界のデータから意味のある表現を学習するための最先端手法の欠点が示された。 さらに、octascenesは、既存の最先端の手法を前進させる触媒となり、現実世界のシーンに適応するよう促す。 データセットとコードはhttps://huggingface.co/datasets/Yinxuan/OCTScenesで入手できる。

Humans possess the cognitive ability to comprehend scenes in a compositional manner. To empower AI systems with similar abilities, object-centric representation learning aims to acquire representations of individual objects from visual scenes without any supervision. Although recent advancements in object-centric representation learning have achieved remarkable progress on complex synthesis datasets, there is a huge challenge for application in complex real-world scenes. One of the essential reasons is the scarcity of real-world datasets specifically tailored to object-centric representation learning methods. To solve this problem, we propose a versatile real-world dataset of tabletop scenes for object-centric learning called OCTScenes, which is meticulously designed to serve as a benchmark for comparing, evaluating and analyzing object-centric representation learning methods. OCTScenes contains 5000 tabletop scenes with a total of 15 everyday objects. Each scene is captured in 60 frames covering a 360-degree perspective. Consequently, OCTScenes is a versatile benchmark dataset that can simultaneously satisfy the evaluation of object-centric representation learning methods across static scenes, dynamic scenes, and multi-view scenes tasks. Extensive experiments of object-centric representation learning methods for static, dynamic and multi-view scenes are conducted on OCTScenes. The results demonstrate the shortcomings of state-of-the-art methods for learning meaningful representations from real-world data, despite their impressive performance on complex synthesis datasets. Furthermore, OCTScenes can serves as a catalyst for advancing existing state-of-the-art methods, inspiring them to adapt to real-world scenes. Dataset and code are available at https://huggingface.co/datasets/Yinxuan/OCTScenes.
翻訳日:2023-06-21 11:17:13 公開日:2023-06-20
# the false dawn: チップマクロ配置のためのgoogleの強化学習の再評価

The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement ( http://arxiv.org/abs/2306.09633v2 )

ライセンス: Link先を確認
Igor L. Markov(参考訳) Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習(RL)が論争を引き起こした。 nature紙は、報告された結果を生成するために必要なほとんどの入力と、方法論におけるいくつかの重要なステップを支持した。 しかし、2つの異なる評価がギャップを埋め、Google RLが人間設計者より遅れており、よく知られたアルゴリズム(Simulated Annealing)、そして一般的な商用ソフトウェアよりも遅れていることを示した。 クロスチェックデータによると、Nature論文の完全性は、行動、分析、報告の誤りによって著しく損なわれている。

Reinforcement learning (RL) for physical design of silicon chips in a Google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and attracted critical media coverage. The Nature paper withheld most inputs needed to produce reported results and some critical steps in the methodology. But two separate evaluations filled in the gaps and demonstrated that Google RL lags behind human designers, behind a well-known algorithm (Simulated Annealing), and also behind generally-available commercial software. Crosschecked data indicate that the integrity of the Nature paper is substantially undermined owing to errors in the conduct, analysis and reporting.
翻訳日:2023-06-21 11:16:46 公開日:2023-06-20
# コンテンツモデレーションのためのGPT-3生成説明の評価

Evaluating GPT-3 Generated Explanations for Hateful Content Moderation ( http://arxiv.org/abs/2305.17680v3 )

ライセンス: Link先を確認
Han Wang, Ming Shan Hee, Md Rabiul Awal, Kenny Tsu Wei Choo, Roy Ka-Wei Lee(参考訳) 最近の研究は、大規模言語モデル(LLM)を使用して、微調整やプロンプトを通じてヘイトスピーチの説明を生成することに焦点を当てている。 この領域への関心が高まりつつあるにもかかわらず、これらの発生した説明の有効性と潜在的な限界は未だ理解されていない。 LLMによって生成されたこれらの説明は、ユーザとコンテンツモデレーターの両方がフラグ付きコンテンツの性質について誤った判断を下す可能性がある。 例えば、LCMが生成した説明は、コンテンツモデレーターが良質なコンテンツが憎悪であることを不正確に納得させるかもしれない。 これを踏まえて,ヘイトスピーチの説明を解析するための枠組みを提案し,その説明を評価するための広範囲な調査を行った。 具体的には、GPT-3にヘイトフルコンテンツと非ヘイトフルコンテンツの両方を説明するよう促し、2,400人の独特な回答者を対象に調査を行った。 その結果,(1) 人間の評価者は, GPT による説明を, 言語流布度, 情報伝達性, 説得性, 論理音性の観点から高い品質と評価し, それらの説明の説得性は, 実施する促進戦略によって異なること, (3) 内容の嫌悪性について誤った判断を下す可能性が示唆された。 本研究は,コンテンツモデレーションにllm生成説明を適用する際に注意が必要であることを強調する。 コードと結果はhttps://github.com/Social-AI-Studio/GPT3-HateEvalで公開されている。

Recent research has focused on using large language models (LLMs) to generate explanations for hate speech through fine-tuning or prompting. Despite the growing interest in this area, these generated explanations' effectiveness and potential limitations remain poorly understood. A key concern is that these explanations, generated by LLMs, may lead to erroneous judgments about the nature of flagged content by both users and content moderators. For instance, an LLM-generated explanation might inaccurately convince a content moderator that a benign piece of content is hateful. In light of this, we propose an analytical framework for examining hate speech explanations and conducted an extensive survey on evaluating such explanations. Specifically, we prompted GPT-3 to generate explanations for both hateful and non-hateful content, and a survey was conducted with 2,400 unique respondents to evaluate the generated explanations. Our findings reveal that (1) human evaluators rated the GPT-generated explanations as high quality in terms of linguistic fluency, informativeness, persuasiveness, and logical soundness, (2) the persuasive nature of these explanations, however, varied depending on the prompting strategy employed, and (3) this persuasiveness may result in incorrect judgments about the hatefulness of the content. Our study underscores the need for caution in applying LLM-generated explanations for content moderation. Code and results are available at https://github.com/Social-AI-Studio/GPT3-HateEval.
翻訳日:2023-06-21 11:16:00 公開日:2023-06-20