このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230721となっている論文です。

PDF登録状況(公開日: 20230721)

TitleAuthorsAbstract論文公表日・翻訳日
# pythonのセキュリティコミットの探求

Exploring Security Commits in Python ( http://arxiv.org/abs/2307.11853v1 )

ライセンス: Link先を確認
Shiyu Sun, Shu Wang, Xinda Wang, Yunlong Xing, Elisa Zhang, Kun Sun(参考訳) Pythonは初心者向けの開発に親しみやすいため、最も人気のあるプログラミング言語となっている。 しかし、最近の研究によると、Pythonのほとんどのセキュリティ問題はCVEによってインデックス化されておらず、ソフトウェアセキュリティへの脅威となり、下流ソフトウェアに対するセキュリティ修正を妨げる'サイレント'セキュリティコミットによってのみ修正される可能性がある。 隠れたセキュリティコミットを特定することは重要であるが、Pythonのセキュリティコミット検出には、制限されたデータバリアント、非包括的コードセマンティクス、解釈不能な学習機能のために、既存のデータセットとメソッドが不十分である。 本稿では,pythonにおける最初のセキュリティコミットデータセット,すなわち,ベースデータセット,パイロットデータセット,拡張データセットを含む3つのサブセットからなるpysecdbを構築する。 ベースデータセットには、MITREが提供するCVEレコードに関連するセキュリティコミットが含まれている。 さまざまなセキュリティコミットを増やすために、コミットメッセージ内のキーワードをフィルタリングすることで、githubからパイロットデータセットを構築します。 すべてのコミットがコミットメッセージを提供するわけではないので、コード変更の意味を理解することで拡張データセットをさらに構築します。 拡張データセットを構築するために,commitcpgと呼ばれる新しいグラフ表現とscopyと呼ばれる多属性グラフ学習モデルを提案し,シーケンシャルおよび構造的コードセマンティクスを用いてセキュリティコミット候補を識別する。 評価の結果,提案アルゴリズムは最大40ポイントまでデータ収集効率を向上させることができることがわかった。 3人のセキュリティ専門家による手動検証の後、PySecDBは1,258のセキュリティコミットと2,791の非セキュリティコミットで構成される。 さらに、PySecDBに関する広範なケーススタディを実施し、Pythonの85%以上のセキュリティコミットをカバーする4つの一般的なセキュリティ修正パターンを発見し、セキュアなソフトウェアメンテナンス、脆弱性検出、自動プログラム修正に関する洞察を提供する。

Python has become the most popular programming language as it is friendly to work with for beginners. However, a recent study has found that most security issues in Python have not been indexed by CVE and may only be fixed by 'silent' security commits, which pose a threat to software security and hinder the security fixes to downstream software. It is critical to identify the hidden security commits; however, the existing datasets and methods are insufficient for security commit detection in Python, due to the limited data variety, non-comprehensive code semantics, and uninterpretable learned features. In this paper, we construct the first security commit dataset in Python, namely PySecDB, which consists of three subsets including a base dataset, a pilot dataset, and an augmented dataset. The base dataset contains the security commits associated with CVE records provided by MITRE. To increase the variety of security commits, we build the pilot dataset from GitHub by filtering keywords within the commit messages. Since not all commits provide commit messages, we further construct the augmented dataset by understanding the semantics of code changes. To build the augmented dataset, we propose a new graph representation named CommitCPG and a multi-attributed graph learning model named SCOPY to identify the security commit candidates through both sequential and structural code semantics. The evaluation shows our proposed algorithms can improve the data collection efficiency by up to 40 percentage points. After manual verification by three security experts, PySecDB consists of 1,258 security commits and 2,791 non-security commits. Furthermore, we conduct an extensive case study on PySecDB and discover four common security fix patterns that cover over 85% of security commits in Python, providing insight into secure software maintenance, vulnerability detection, and automated program repair.
翻訳日:2023-10-23 16:53:19 公開日:2023-07-21
# 高性能コンピューティングの科学的応用を維持するソフトウェアエンジニアリング: qmcpack

Software engineering to sustain a high-performance computing scientific application: QMCPACK ( http://arxiv.org/abs/2307.11502v1 )

ライセンス: Link先を確認
William F. Godoy, Steven E. Hahn, Michael M. Walsh, Philip W. Fackler, Jaron T. Krogel, Peter W. Doak, Paul R. C. Kent, Alfredo A. Correa, Ye Luo, Mark Dewing(参考訳) 本稿では,ハイパフォーマンスコンピューティング(HPC)システムを対象とした生産レベルのQuantum Monte CarloオープンソースコードであるQMCPACKにおけるソフトウェアエンジニアリングの取り組みとその影響の概要を紹介する。 以下を含む。 i) 自己ホスト型ハードウェアを使用して,GitHub ActionsランナーとNVIDIAおよびAMD GPUを使用して,CPUを対象とした継続的インテグレーション(CI)の戦略的拡張。 (ii)サニタイザーを用いたメモリリークの漸進的削減 (iii)ciと再現性のためのdockerコンテナの組み込み (iv)メンテナンス性、テストカバレッジ、メモリ寿命管理を改善するためのリファクタリングの取り組み。 リアクティブで持続可能なメンテナンスアプローチではなく、予測的なアプローチへの移行を示す指標を提供することで、これらの改善の価値を定量化します。 我々の目標は、これらの取り組みがQMCPACKに与える影響を文書化することであり、研究ソフトウェア工学(RSE)の重要性と、コミュニティのHPCコードの持続可能性、大規模での科学的発見に貢献することである。

We provide an overview of the software engineering efforts and their impact in QMCPACK, a production-level ab-initio Quantum Monte Carlo open-source code targeting high-performance computing (HPC) systems. Aspects included are: (i) strategic expansion of continuous integration (CI) targeting CPUs, using GitHub Actions runners, and NVIDIA and AMD GPUs in pre-exascale systems, using self-hosted hardware; (ii) incremental reduction of memory leaks using sanitizers, (iii) incorporation of Docker containers for CI and reproducibility, and (iv) refactoring efforts to improve maintainability, testing coverage, and memory lifetime management. We quantify the value of these improvements by providing metrics to illustrate the shift towards a predictive, rather than reactive, sustainable maintenance approach. Our goal, in documenting the impact of these efforts on QMCPACK, is to contribute to the body of knowledge on the importance of research software engineering (RSE) for the sustainability of community HPC codes and scientific discovery at scale.
翻訳日:2023-10-23 16:52:52 公開日:2023-07-21
# stack overflowのセキュリティ問題における技術的負債の探求

Exploring Technical Debt in Security Questions on Stack Overflow ( http://arxiv.org/abs/2307.11387v1 )

ライセンス: Link先を確認
Joshua Aldrich Edbert, Sahrima Jannat Oishwee, Shubhashis Karmakar, Zadia Codabux, Roberto Verdecchia(参考訳) 背景: ソフトウェアセキュリティは、データが失われ、その後金融が失われる可能性のあるマルウェア攻撃など、ユーザが望ましくない結果から保護されることを保証するために不可欠である。 技術的負債(td: technical debt)は、管理されていない場合の欠陥や脆弱性の増加など、長期的な影響をもたらす副次的な決定によって引き起こされるメタファーである。 これまでの研究でセキュリティとtdの関係が研究されてきたが、stack overflow(so)に関する開発者の議論の共通点についてはまだ検討されていない。 Aims: 本研究は, SOにおけるセキュリティ関連TD質問の特徴について検討する。 より具体的には、セキュリティ関連クエリにおけるTDの出現状況を調べ、TDに最も多いセキュリティタグを特定し、どのユーザグループがよりTDを認識しているかを調べる。 方法: SOに117,233のセキュリティ関連質問をマイニングし,45,078のセキュリティ関連TD質問をディープラーニングアプローチで同定した。 その後,感情分析を含むセキュリティ関連TD質問の定量的および質的分析を行った。 結果: 分析の結果, SOのセキュリティ問題のうち38%がセキュリティ関連TD質問であることがわかった。 セキュリティ関連のtd質問の中で、最も頻繁なタグは、"security"と"encryption"である。 後者は通常中立的な感情を持ち、より長く、高い評価スコアを持つユーザーによって引き起こされる。 結論: 当社の調査結果は,開発者がTDを暗黙的に議論していることを示し,セキュリティ領域におけるTDメタファに関する潜在的な知識ギャップがあることを示唆している。 さらに、TD関連の投稿で言及される最も一般的なセキュリティトピックを特定し、TDを最小化し、ソフトウェアセキュリティを強化するためにセキュリティ上の懸念を優先順位付けするのを開発者や研究者が支援する貴重な洞察を提供する。

Background: Software security is crucial to ensure that the users are protected from undesirable consequences such as malware attacks which can result in loss of data and, subsequently, financial loss. Technical Debt (TD) is a metaphor incurred by suboptimal decisions resulting in long-term consequences such as increased defects and vulnerabilities if not managed. Although previous studies have studied the relationship between security and TD, examining their intersection in developers' discussion on Stack Overflow (SO) is still unexplored. Aims: This study investigates the characteristics of security-related TD questions on SO. More specifically, we explore the prevalence of TD in security-related queries, identify the security tags most prone to TD, and investigate which user groups are more aware of TD. Method: We mined 117,233 security-related questions on SO and used a deep-learning approach to identify 45,078 security-related TD questions. Subsequently, we conducted quantitative and qualitative analyses of the collected security-related TD questions, including sentiment analysis. Results: Our analysis revealed that 38% of the security questions on SO are security-related TD questions. The most recurrent tags among the security-related TD questions emerged as "security" and "encryption." The latter typically have a neutral sentiment, are lengthier, and are posed by users with higher reputation scores. Conclusions: Our findings reveal that developers implicitly discuss TD, suggesting developers have a potential knowledge gap regarding the TD metaphor in the security domain. Moreover, we identified the most common security topics mentioned in TD-related posts, providing valuable insights for developers and researchers to assist developers in prioritizing security concerns in order to minimize TD and enhance software security.
翻訳日:2023-10-23 16:52:35 公開日:2023-07-21
# 欲しがる:計算実験の自動再現性基準

Wanted: standards for automatic reproducibility of computational experiments ( http://arxiv.org/abs/2307.11383v1 )

ライセンス: Link先を確認
Samuel Grayson, Reed Milewicz, Joshua Teves, Daniel S. Katz, Darko Marinov(参考訳) 計算実験を再現しようとする人は、必要なライブラリを構築し、パラメータを設定し、データを見つけ、実験を実行する方法を確認するために、手動でコードを見る必要がある。 自動再現性はより厳密な目標であるが、それに取り組むことはコミュニティに利益をもたらすだろう。 本稿では,計算機実験の実行方法を指定するための機械可読言語について述べる。 利害関係者はこの言語について、https://github.com/charmoniumq/execution-description.comで議論する。

Those seeking to reproduce a computational experiment often need to manually look at the code to see how to build necessary libraries, configure parameters, find data, and invoke the experiment; it is not automatic. Automatic reproducibility is a more stringent goal, but working towards it would benefit the community. This work discusses a machine-readable language for specifying how to execute a computational experiment. We invite interested stakeholders to discuss this language at https://github.com/charmoniumQ/execution-description .
翻訳日:2023-10-23 16:52:07 公開日:2023-07-21
# 量子ソフトウェア分析: 機会と課題

Quantum Software Analytics: Opportunities and Challenges ( http://arxiv.org/abs/2307.11305v1 )

ライセンス: Link先を確認
Thong Hoang, Hoa Khanh Dam, Tingting Bi, Qinghua Lu, Zhenchang Xing, Liming Zhu, Lam Duc Nguyen, Shiping Chen(参考訳) 量子コンピューティングシステムは、量子力学の原理に依拠し、従来のものよりも複数の挑戦的なタスクを効率的に実行する。 古典的なソフトウェア工学において、ソフトウェアライフサイクルは、ソフトウェアアプリケーションの設計、実装、保守プロセスの文書化と構造化に使用される。 ステークホルダーがアプリケーション構築の仕方を理解するのに役立つ。 本稿では,量子ソフトウェアアプリケーション開発に活用・統合可能な,開発ライフサイクルにおける一連のソフトウェア分析トピックとテクニックを要約する。 この研究の結果は、研究者や実践者が次世代の量子ソフトウェアにおける量子固有の新興開発活動、課題、そして機会をよりよく理解するのに役立つ。

Quantum computing systems depend on the principles of quantum mechanics to perform multiple challenging tasks more efficiently than their classical counterparts. In classical software engineering, the software life cycle is used to document and structure the processes of design, implementation, and maintenance of software applications. It helps stakeholders understand how to build an application. In this paper, we summarize a set of software analytics topics and techniques in the development life cycle that can be leveraged and integrated into quantum software application development. The results of this work can assist researchers and practitioners in better understanding the quantum-specific emerging development activities, challenges, and opportunities in the next generation of quantum software.
翻訳日:2023-10-23 16:51:59 公開日:2023-07-21
# 機械学習に基づくコードレビュア推薦の公正性についての一考察

A First Look at Fairness of Machine Learning Based Code Reviewer Recommendation ( http://arxiv.org/abs/2307.11298v1 )

ライセンス: Link先を確認
Mohammad Mahdi Mohajer, Alvine Boaye Belle, Nima Shiri harzevili, Junjie Wang, Hadi Hemmati, Song Wang, Zhen Ming (Jack) Jiang(参考訳) 機械学習(ML)アプローチの公正性は、現代の人工知能システムの信頼性に不可欠である。 このトピックに関する広範な研究にもかかわらず、ソフトウェア工学(SE)領域におけるMLモデルの公平性はまだ十分に研究されていない。 その結果、多くのml駆動のソフトウェアシステム、特にソフトウェアエンジニアリングコミュニティで使われているシステムは、公正な問題に陥りがちである。 本論文は、コードレビュア推奨という典型的なSEタスクの1つを主題として、SEドメインにおけるMLアプリケーションの公平性に関する最初の研究を行う。 我々の実証研究は、現在最先端のMLベースのコードレビュアーレコメンデーション技術が不公平で差別的な行動を示すことを示している。 特に、男性のレビュアーは、レビュアーセットの配布と比較して、女性のコードレビュアーよりも平均7.25%多くレコメンデーションを受ける。 本稿では,MLベースのコードレビュアレコメンデーションシステムが不公平である理由についても論じ,不公平を緩和するための解決策を提供する。 本研究は,保護群と特権群が類似するプロジェクトにおいて,既存の緩和手法により100%公平性を高めることができることを示唆するが,不均衡・歪データに対する公平性向上効果は限られている。 最終的には、既存の緩和技術の欠点を克服し、不均衡や歪んだデータセットのバイアスに取り組むソリューションを提案する。

The fairness of machine learning (ML) approaches is critical to the reliability of modern artificial intelligence systems. Despite extensive study on this topic, the fairness of ML models in the software engineering (SE) domain has not been well explored yet. As a result, many ML-powered software systems, particularly those utilized in the software engineering community, continue to be prone to fairness issues. Taking one of the typical SE tasks, i.e., code reviewer recommendation, as a subject, this paper conducts the first study toward investigating the issue of fairness of ML applications in the SE domain. Our empirical study demonstrates that current state-of-the-art ML-based code reviewer recommendation techniques exhibit unfairness and discriminating behaviors. Specifically, male reviewers get on average 7.25% more recommendations than female code reviewers compared to their distribution in the reviewer set. This paper also discusses the reasons why the studied ML-based code reviewer recommendation systems are unfair and provides solutions to mitigate the unfairness. Our study further indicates that the existing mitigation methods can enhance fairness by 100% in projects with a similar distribution of protected and privileged groups, but their effectiveness in improving fairness on imbalanced or skewed data is limited. Eventually, we suggest a solution to overcome the drawbacks of existing mitigation techniques and tackle bias in datasets that are imbalanced or skewed.
翻訳日:2023-10-23 16:51:48 公開日:2023-07-21
# parslの生涯におけるrsesの役割の変化

The Changing Role of RSEs over the Lifetime of Parsl ( http://arxiv.org/abs/2307.11060v2 )

ライセンス: Link先を確認
Daniel S. Katz, Ben Clifford, Yadu Babuji, Kevin Hunter Kesling, Anna Woodard, Kyle Chard(参考訳) 本稿では,parslオープンソース研究ソフトウェアプロジェクトとその7年間のさまざまなフェーズについて述べる。 このフェーズでは、プロジェクトにとって重要な4つのタイプの研究ソフトウェアエンジニア(rses)を定義しています。

This position paper describes the Parsl open source research software project and its various phases over seven years. It defines four types of research software engineers (RSEs) who have been important to the project in those phases; we believe this is also applicable to other research software projects.
翻訳日:2023-10-23 16:51:08 公開日:2023-07-21
# 逆ファジィ法による脆弱性検出

Vulnerability Detection Through an Adversarial Fuzzing Algorithm ( http://arxiv.org/abs/2307.11917v1 )

ライセンス: Link先を確認
Michael Wang, Michael Robinson(参考訳) Fuzzingは、プロフェッショナルや幅広いコミュニティが利用する、一般的な脆弱性自動テスト手法である。 しかし、その能力にもかかわらず、ファジィングは時間を要する計算コストの高いプロセスである。 これはオープンソースコミュニティや小さな開発者にとって問題であり、ほとんどの人は独自のテストを実行するための専門的なセキュリティ専門家や知識を持っていない。 プロジェクトの目的は、ファジィザがより多くの経路を探索し、より短い時間でバグを見つけることができる一方で、パーソナルデバイス上でも操作性を維持しながら、既存のファジィザの効率を向上させることである。 これを実現するために、現在の進化アルゴリズムの上に敵法を構築し、より効率的にファジィングのためのテストケースを生成する。 この結果、敵対的な攻撃は既存のファザーを大幅に上回り、その結果、クラッシュが発見された。

Fuzzing is a popular vulnerability automated testing method utilized by professionals and broader community alike. However, despite its abilities, fuzzing is a time-consuming, computationally expensive process. This is problematic for the open source community and smaller developers, as most people will not have dedicated security professionals and/or knowledge to perform extensive testing on their own. The goal of this project is to increase the efficiency of existing fuzzers by allowing fuzzers to explore more paths and find more bugs in shorter amounts of time, while still remaining operable on a personal device. To accomplish this, adversarial methods are built on top of current evolutionary algorithms to generate test cases for further and more efficient fuzzing. The results of this show that adversarial attacks do in fact increase outpaces existing fuzzers significantly and, consequently, crashes found.
翻訳日:2023-10-23 16:43:43 公開日:2023-07-21
# 効率的な運転シナリオの獲得:コスト最適シナリオ獲得の予測的評価のための枠組み

Acquire Driving Scenarios Efficiently: A Framework for Prospective Assessment of Cost-Optimal Scenario Acquisition ( http://arxiv.org/abs/2307.11647v1 )

ライセンス: Link先を確認
Christoph Glasmacher, Michael Schuldes, Hendrik Weber, Nicolas Wagener, Lutz Eckstein(参考訳) シナリオベースのテストは、自動運転の安全性保証においてますます重要になっている。 しかしながら、シナリオ空間の包括的かつ十分に完全なカバレッジは、現実世界のデータのみを使用する場合、かなりの労力とリソースを必要とする。 この問題に対処するため,運転シナリオ生成手法が開発され,頻繁に使用されるようになったが,実世界のデータに生成データを置換するメリットはまだ定量化されていない。 さらに、与えられた論理シナリオ空間内の具体的なシナリオのカバレッジはまだ予測されていない。 本稿では,与えられた品質制約とパラメトリゼーションの下で確実に完全なシナリオ空間範囲に到達するためのシナリオ生成手法のコスト最適利用を定量化する手法を提案する。 そこで,知識ベースおよびデータ駆動手法の抽象化のためのメタモデルを用いて,シナリオ生成と利用のための個別プロセスステップを調査し,評価した。 さらに, 到達可能な完全カバレッジ, 品質基準, コストの予測を含むメタモデルに適合する手法を提案する。 最後に,実世界の異なるシナリオマイニング手法と比較して,技術的,経済的,品質的制約下でのハイブリッド生成モデルの適合性について考察する。

Scenario-based testing is becoming increasingly important in safety assurance for automated driving. However, comprehensive and sufficiently complete coverage of the scenario space requires significant effort and resources if using only real-world data. To address this issue, driving scenario generation methods are developed and used more frequently, but the benefit of substituting generated data for real-world data has not yet been quantified. Additionally, the coverage of a set of concrete scenarios within a given logical scenario space has not been predicted yet. This paper proposes a methodology to quantify the cost-optimal usage of scenario generation approaches to reach a certainly complete scenario space coverage under given quality constraints and parametrization. Therefore, individual process steps for scenario generation and usage are investigated and evaluated using a meta model for the abstraction of knowledge-based and data-driven methods. Furthermore, a methodology is proposed to fit the meta model including the prediction of reachable complete coverage, quality criteria, and costs. Finally, the paper exemplary examines the suitability of a hybrid generation model under technical, economical, and quality constraints in comparison to different real-world scenario mining methods.
翻訳日:2023-10-23 16:42:25 公開日:2023-07-21
# アンチパターンフレームワークによるTDD成熟モデルに向けて

Towards a TDD maturity model through an anti-patterns framework ( http://arxiv.org/abs/2307.11534v1 )

ライセンス: Link先を確認
Matheus Marabesi, Francisco Jose Garcia-Penalvo, Alicia Garcia-Holgado(参考訳) アジャイルソフトウェア開発は、ビジネスの変化に素早く対応するために、業界で採用されています。 その始まりから、学界と業界の両方で、アジャイルプロセスと技術的なプラクティスが日々の学生とプロの開発者の日々の影を議論しています。 プロフェッショナルな環境の一部としてソフトウェアを開発するためのテスト駆動開発(TDD)プラクティスの長所と短所を理解する努力がなされている。 TDDを実践する場合、コードに望ましくない影響を示すTDDアンチパターンをリストアップする努力にもかかわらず、その原因を理解するためには作業が必要である。 その意味では、tddアンチパターンのコンテキストと実践者がソフトウェア開発のコンテキストでそれと向き合うきっかけを探求する研究プロジェクトを提案する。 その結果、テストによってガイドされたコードを書くプロセスにおける実践者を支援し、アンチパターンの追加を防止するためのTDD成熟フレームワークが提供されることを期待しています。

Agile software development has been adopted in the industry to quickly react to business change. Since its inception both academia and industry debate the different shades that agile processes and technical practices play in the day-to-day of students and professional developers. Efforts have been made to understand the pros and cons of the Test Driven Development (TDD) practice to develop software as part of a professional environment. Despite the effort of practitioners to list the TDD anti-patterns that unveil undesired effects in the code when practicing TDD, work is needed to understand the causes that lead to that. In that sense, this paper proposes a research project that explores the TDD anti-patterns context and what leads practitioners to face them in the software development context. As a result, we expect to offer a TDD maturity framework to help practitioners in the process of writing code guided by tests and prevent the addition of anti-patterns
翻訳日:2023-10-23 16:42:08 公開日:2023-07-21
# スパースIMUセンシングによる効率的な人文推定のための設計空間探索

Design Space Exploration on Efficient and Accurate Human Pose Estimation from Sparse IMU-Sensing ( http://arxiv.org/abs/2308.02397v1 )

ライセンス: Link先を確認
Iris F\"urst-Walter, Antonio Nappi, Tanja Harbaum, J\"urgen Becker(参考訳) スポーツ、リハビリテーション、作業安全における人間の動作を評価するためのヒューマンポーズ推定(human pose estimation, hpe)は、センシティブな基礎となる個人データを妥協することなく正確なセンシングを必要とする。 したがって、局所処理は必要であり、そのようなシステムにおける限られたエネルギー予算は、一般的なカメラセンシングの代わりに慣性計測ユニット(IMU)によって対処することができる。 ハードウェアリソースの正確性と効率的な利用との間の中心的なトレードオフは、研究ではほとんど議論されない。 このトレードオフを,IMUセンサの様々な量と位置の模擬設計空間探索(DSE)によって解決する。 まず,センサ構成の異なる公開ボディモデルデータセットから imu-dataを生成し,このデータを用いてディープラーニングモデルをトレーニングする。 さらに、精度とリソースのトレードオフを評価するための組み合わせ指標を提案する。 我々はDSEをセンサ構成の評価ツールとして使用し、特定のユースケースに有用なものを特定した。 例えば、精度とリソースが等しいシステムでは、メッシュ誤差が6.03 cmの4つのセンサの最適なセンサ構成を特定し、精度を32.7%向上させ、2つのセンサーによるハードウェアの労力を削減する。 私たちの研究は、適切なセンサーの位置決めとデータプライバシとリソース認識への注意による健康アプリケーションの設計に使用できます。

Human Pose Estimation (HPE) to assess human motion in sports, rehabilitation or work safety requires accurate sensing without compromising the sensitive underlying personal data. Therefore, local processing is necessary and the limited energy budget in such systems can be addressed by Inertial Measurement Units (IMU) instead of common camera sensing. The central trade-off between accuracy and efficient use of hardware resources is rarely discussed in research. We address this trade-off by a simulative Design Space Exploration (DSE) of a varying quantity and positioning of IMU-sensors. First, we generate IMU-data from a publicly available body model dataset for different sensor configurations and train a deep learning model with this data. Additionally, we propose a combined metric to assess the accuracy-resource trade-off. We used the DSE as a tool to evaluate sensor configurations and identify beneficial ones for a specific use case. Exemplary, for a system with equal importance of accuracy and resources, we identify an optimal sensor configuration of 4 sensors with a mesh error of 6.03 cm, increasing the accuracy by 32.7% and reducing the hardware effort by two sensors compared to state of the art. Our work can be used to design health applications with well-suited sensor positioning and attention to data privacy and resource-awareness.
翻訳日:2023-08-14 01:48:26 公開日:2023-07-21
# 雑音下のアノテーションからセグメンテーションへの学習:空間補正アプローチ

Learning to Segment from Noisy Annotations: A Spatial Correction Approach ( http://arxiv.org/abs/2308.02498v1 )

ライセンス: Link先を確認
Jiachen Yao, Yikai Zhang, Songzhu Zheng, Mayank Goswami, Prateek Prasanna, Chao Chen(参考訳) ノイズラベルはディープニューラルネットワーク(DNN)の性能に大きな影響を与える。 医用画像のセグメンテーションタスクでは、アノテーション時間やアノテーションの専門知識の要求が高いため、アノテーションはエラーを起こしやすい。 既存の方法は、主に異なるピクセルのノイズラベルが \textit{i.i.d} であると仮定する。 しかしながら、セグメンテーションラベルノイズは通常強い空間相関を持ち、分布の偏りが顕著である。 本稿では,空間的相関とバイアスの両方を符号化したセグメンテーションノイズアノテーションのための新しいマルコフモデルを提案する。 さらに、そのようなラベルノイズを軽減するために、真のラベルを段階的に復元するラベル補正手法を提案する。 提案手法の正確性を理論的に保証する。 実験により,本手法は,合成および実世界の雑音アノテーションにおいて,最先端の手法よりも優れていることが示された。

Noisy labels can significantly affect the performance of deep neural networks (DNNs). In medical image segmentation tasks, annotations are error-prone due to the high demand in annotation time and in the annotators' expertise. Existing methods mostly assume noisy labels in different pixels are \textit{i.i.d}. However, segmentation label noise usually has strong spatial correlation and has prominent bias in distribution. In this paper, we propose a novel Markov model for segmentation noisy annotations that encodes both spatial correlation and bias. Further, to mitigate such label noise, we propose a label correction method to recover true label progressively. We provide theoretical guarantees of the correctness of the proposed method. Experiments show that our approach outperforms current state-of-the-art methods on both synthetic and real-world noisy annotations.
翻訳日:2023-08-14 01:28:53 公開日:2023-07-21
# グリーンモバイルコンピューティングにおけるAIの2つの顔:文献レビュー

The Two Faces of AI in Green Mobile Computing: A Literature Review ( http://arxiv.org/abs/2308.04436v1 )

ライセンス: Link先を確認
Wander Siemers, June Sallou, Lu\'is Cruz(参考訳) 人工知能(ai)は、現在必須と考えられているモバイルデバイス(カメラや音声アシスタント、レコメンダシステムなど)の領域に、新たな機能をもたらす。 しかし、人工知能の運用は膨大なエネルギーを必要とする。 しかし、人工知能はモバイルシステムに対するよりエネルギー効率の良いソリューションを可能にするためにも利用されている。 したがって、人工知能には2つの面があり、望まれる(効率的な)モバイル機能の実現と、これらのデバイスに対する主要なパワードローの両方であり、ソリューションと問題の両方において重要な役割を果たしている。 本稿では,グリーンモバイルコンピューティングの領域における人工知能の利用について,過去10年間の文献を概観する。 34の論文の分析から,新たなパターンを強調し,詳細を要約した13のトピックにフィールドをマップする。 われわれの調査結果によると、この分野は過去数年間、より具体的には2019年以来徐々に成長している。 AIがモバイルエネルギー消費に与える影響については、エネルギー効率のよいモバイルコンピューティングにおけるAIの使用と比較して、AIベースのモバイルシステムのエネルギー消費が過小評価されている。 ほとんどの研究はソリューションペーパー(94%)としてフレーム化されているが、大多数はこれらのソリューションをコミュニティに公開していない。 さらに、ほとんどの貢献が純粋に学術的(34論文中28論文)であり、この分野におけるモバイルソフトウェア産業の関与を促進する必要があることも示しています。

Artificial intelligence is bringing ever new functionalities to the realm of mobile devices that are now considered essential (e.g., camera and voice assistants, recommender systems). Yet, operating artificial intelligence takes up a substantial amount of energy. However, artificial intelligence is also being used to enable more energy-efficient solutions for mobile systems. Hence, artificial intelligence has two faces in that regard, it is both a key enabler of desired (efficient) mobile functionalities and a major power draw on these devices, playing a part in both the solution and the problem. In this paper, we present a review of the literature of the past decade on the usage of artificial intelligence within the realm of green mobile computing. From the analysis of 34 papers, we highlight the emerging patterns and map the field into 13 main topics that are summarized in details. Our results showcase that the field is slowly increasing in the past years, more specifically, since 2019. Regarding the double impact AI has on the mobile energy consumption, the energy consumption of AI-based mobile systems is under-studied in comparison to the usage of AI for energy-efficient mobile computing, and we argue for more exploratory studies in that direction. We observe that although most studies are framed as solution papers (94%), the large majority do not make those solutions publicly available to the community. Moreover, we also show that most contributions are purely academic (28 out of 34 papers) and that we need to promote the involvement of the mobile software industry in this field.
翻訳日:2023-08-14 00:28:54 公開日:2023-07-21
# 誰と協力すべきか? NLPにおける産学連携と産学連携の比較研究

Who should I Collaborate with? A Comparative Study of Academia and Industry Research Collaboration in NLP ( http://arxiv.org/abs/2308.04524v1 )

ライセンス: Link先を確認
Hussain Sadiq Abuwala, Bohan Zhang, Mushi Wang(参考訳) 本研究の目的は,学術と産業の連携が自然言語処理(NLP)に与える影響を検討することである。 そこで我々は,NLP論文からアフィリエイトと引用を抽出するパイプラインを作成し,これらを,アカデミック,産業,ハイブリッド(アカデミックと産業の連携)の3つのカテゴリに分けた。 分析の結果,産学・産学連携の出版物の増加傾向がみられ,これらの出版物は産学のみの出版物よりも影響力が高い傾向がみられた。

The goal of our research was to investigate the effects of collaboration between academia and industry on Natural Language Processing (NLP). To do this, we created a pipeline to extract affiliations and citations from NLP papers and divided them into three categories: academia, industry, and hybrid (collaborations between academia and industry). Our empirical analysis found that there is a trend towards an increase in industry and academia-industry collaboration publications and that these types of publications tend to have a higher impact compared to those produced solely within academia.
翻訳日:2023-08-14 00:21:08 公開日:2023-07-21
# 質的専門家知識に基づく定量的エージェントモデル構築のための枠組み--組織犯罪事例

Framework for developing quantitative agent based models based on qualitative expert knowledge: an organised crime use-case ( http://arxiv.org/abs/2308.00505v1 )

ライセンス: Link先を確認
Frederike Oetker, Vittorio Nespeca, Thijs Vis, Paul Duijn, Peter Sloot, Rick Quax(参考訳) 法執行目的で犯罪ネットワークをモデル化するには、限られたデータの供給を検証されたエージェントベースモデルに変換する必要がある。 現在の犯罪モデルに欠けているのは、定性的データを量的規則に変換することを含む、計算犯罪モデリングのモデリング手順を確立するモデラーとドメインエキスパートのための体系的で透明なフレームワークである。 そこで我々はFREIDA (Framework for Expert-Informed Data-driven Agent-based model)を提案する。 論文全体を通して、犯罪コカイン代替モデル(CCRM)がFREIDA方法論の実証例として使用される。 CCRMにとって、オランダの犯罪コカインネットワークは、キングピンノードが削除されている場所をモデル化しており、残りのエージェントが破壊後に再編成し、ネットワークを安定した状態に戻すことが目標である。 事例ファイル、文献、インタビューなどの定性的データソースを経験則に翻訳し、データベースなどの量的ソースと組み合わせて、ネットワーク化されたabmの3次元(環境、エージェント、行動)を形成する。 4つのケースファイルがモデリングされ、トレーニングと検証スコアの両方でスコア付けされ、それぞれが計算モデルとアプリケーションフェーズに遷移する。 最後のフェーズでは、反復感度分析、不確実性定量化、シナリオテストが最終的に、法執行機関の介入戦略計画を支援する堅牢なモデルにつながる。 結果は、フレキシブルパラメータと追加のケースファイルシミュレーションの必要性を示している。

In order to model criminal networks for law enforcement purposes, a limited supply of data needs to be translated into validated agent-based models. What is missing in current criminological modelling is a systematic and transparent framework for modelers and domain experts that establishes a modelling procedure for computational criminal modelling that includes translating qualitative data into quantitative rules. For this, we propose FREIDA (Framework for Expert-Informed Data-driven Agent-based models). Throughout the paper, the criminal cocaine replacement model (CCRM) will be used as an example case to demonstrate the FREIDA methodology. For the CCRM, a criminal cocaine network in the Netherlands is being modelled where the kingpin node is being removed, the goal being for the remaining agents to reorganize after the disruption and return the network into a stable state. Qualitative data sources such as case files, literature and interviews are translated into empirical laws, and combined with the quantitative sources such as databases form the three dimensions (environment, agents, behaviour) of a networked ABM. Four case files are being modelled and scored both for training as well as for validation scores to transition to the computational model and application phase respectively. In the last phase, iterative sensitivity analysis, uncertainty quantification and scenario testing eventually lead to a robust model that can help law enforcement plan their intervention strategies. Results indicate the need for flexible parameters as well as additional case file simulations to be performed.
翻訳日:2023-08-06 11:01:52 公開日:2023-07-21
# 近代産業レコメンデーションシステム改善のための方法論

Methodologies for Improving Modern Industrial Recommender Systems ( http://arxiv.org/abs/2308.01204v1 )

ライセンス: Link先を確認
Shusen Wang(参考訳) Recommender System(RS)は、ソーシャルメディア、eコマース、エンターテイメントなどの分野で成功した技術である。 YouTube、Tik Tok、Xiaohongshu、Bilibiliなど、多くの人気のあるAPPの成功の鍵はRSにある。 本稿では,現代産業rss改善の方法論について考察する。 保守や持続時間といった重要なパフォーマンス指標の改善に熱心に取り組んでいる経験豊富なRSエンジニアのために書かれたものだ。 この論文で共有されている経験は、実際の産業用rssでテストされており、他のrssにも一般化される可能性が高い。 本論文のほとんどの内容は、公開参照のない業界経験である。

Recommender system (RS) is an established technology with successful applications in social media, e-commerce, entertainment, and more. RSs are indeed key to the success of many popular APPs, such as YouTube, Tik Tok, Xiaohongshu, Bilibili, and others. This paper explores the methodology for improving modern industrial RSs. It is written for experienced RS engineers who are diligently working to improve their key performance indicators, such as retention and duration. The experiences shared in this paper have been tested in some real industrial RSs and are likely to be generalized to other RSs as well. Most contents in this paper are industry experience without publicly available references.
翻訳日:2023-08-06 10:53:14 公開日:2023-07-21
# 年齢予測におけるeXplainable Artificial Intelligence(XAI)の意義

eXplainable Artificial Intelligence (XAI) in age prediction: A systematic review ( http://arxiv.org/abs/2307.13704v1 )

ライセンス: Link先を確認
Alena Kalyakulina and Igor Yusipov(参考訳) eXplainable Artificial Intelligence (XAI)は現在、機械学習の重要な部分であり、複雑なモデルの予測を説明することができる。 XAIは特にリスクの高いアプリケーション、特に人間の生活がAIシステムの決定に依存する医療において必要である。 医学研究の1つの領域は、年齢予測と年齢関連疾患のバイオマーカーの同定である。 しかし, 年齢予測タスクにおけるXAIの役割は, 直接的に検討されていない。 本稿では,年齢予測タスクへのXAIアプローチの適用について論じる。 我々は、身体システムによって組織された研究の体系的なレビューを行い、医療応用、特に年齢予測領域におけるXAIの利点について議論する。

eXplainable Artificial Intelligence (XAI) is now an important and essential part of machine learning, allowing to explain the predictions of complex models. XAI is especially required in risky applications, particularly in health care, where human lives depend on the decisions of AI systems. One area of medical research is age prediction and identification of biomarkers of aging and age-related diseases. However, the role of XAI in the age prediction task has not previously been explored directly. In this review, we discuss the application of XAI approaches to age prediction tasks. We give a systematic review of the works organized by body systems, and discuss the benefits of XAI in medical applications and, in particular, in the age prediction domain.
翻訳日:2023-07-30 03:56:32 公開日:2023-07-21
# 古典量子チャネル上の隠密通信

Covert Communication over Classical-Quantum Channels ( http://arxiv.org/abs/1601.06826v7 )

ライセンス: Link先を確認
Michael S. Bullock, Azadeh Sheikholeslami, Mehrdad Tahmasbi, Robert C. Macdonald, Saikat Guha, Boulat A. Bash(参考訳) 固定有限サイズの入力アルファベットを持つ一般メモリレス古典量子チャネルにおける秘密通信について検討する。 l_{\rm srl}\sqrt{n}+o(\sqrt{n})$ covert bits (ただしそれ以上ではない) は、classic-quantum channel の $n$ で確実に送信され、ここで $l_{\rm srl}>0$ はcovert capacity と呼ばれるチャネル依存定数である。 また、秘密性を保証するには、送信前に通信側が共有する$j_{\rm srl}\sqrt{n}+o(\sqrt{n})$bitsシークレットが必要であり、$j_{\rm srl}\geq0$ はチャネル依存定数である。 我々は、n$チャンネルのすべての使用で任意のジョイント(アンタングリング)測定を行う量子強力な逆境を仮定する。 我々は、$L_{\rm SRL}$と$J_{\rm SRL}$のシングルレター式を決定し、$J_{\rm SRL}=0$の条件を確立する(つまり、事前共有された秘密は必要ない)。 最後に,SRLによって秘密通信が制御されないシナリオを評価する。

We investigate covert communication over general memoryless classical-quantum channels with fixed finite-size input alphabets. We show that the square root law (SRL) governs covert communication in this setting when product of $n$ input states is used: $L_{\rm SRL}\sqrt{n}+o(\sqrt{n})$ covert bits (but no more) can be reliably transmitted in $n$ uses of classical-quantum channel, where $L_{\rm SRL}>0$ is a channel-dependent constant that we call covert capacity. We also show that ensuring covertness requires $J_{\rm SRL}\sqrt{n}+o(\sqrt{n})$ bits secret shared by the communicating parties prior to transmission, where $J_{\rm SRL}\geq0$ is a channel-dependent constant. We assume a quantum-powerful adversary that can perform an arbitrary joint (entangling) measurement on all $n$ channel uses. We determine the single-letter expressions for $L_{\rm SRL}$ and $J_{\rm SRL}$, and establish conditions when $J_{\rm SRL}=0$ (i.e., no pre-shared secret is needed). Finally, we evaluate the scenarios where covert communication is not governed by the SRL.
翻訳日:2023-07-26 22:12:34 公開日:2023-07-21
# 固有実在論」と量子力学のオントロジについて

On "agential realism" and ontology of quantum mechanics ( http://arxiv.org/abs/2307.12993v1 )

ライセンス: Link先を確認
Francois-Igor Pris(参考訳) k. barad は自然現象と社会現象の統一的なアプローチとして "agential realism" を提案する。 この位置は量子力学、特に量子絡み合いの現象にインスパイアされている。 バラドはまた、N・ボーアの見解とC・ロヴェルリのリレーショナル量子力学の類似性も見出している。 我々の見解では、エージェントリアリズムは存在論的相関論の一種であり、現実主義ではない。 ボーアとロヴェルリのアプローチの類似性は部分的である。 エージェントリアリズムは量子力学の間違った解釈である。 また、オントロジーの文脈に対する感受性を考慮に入れる社会理論化にも不向きである。 代替として、実数とイデアルの圏論的双対性(英語版)(classgorical dualism of the real and the ideal)を否定する文脈的量子現実性(英語版)を提案する。 このアプローチは、ボーアの位置をよりよく理解し、ロヴェリの関係性量子力学を正すこともできる。

K. Barad proposes "agential realism" as a unified approach to natural and social phenomena. The position is inspired by quantum mechanics and in particular the phenomenon of quantum entanglement. Barad also sees similarities between her approach, N. Bohr's view and C. Rovelli's relational quantum mechanics. In our view, agential realism is a kind of ontological correlationism, not a realism. The analogy with the Bohr and Rovelli approaches is only partial. Agential realism is a wrong interpretation of quantum mechanics. It is also unsuitable for social theorizing, for which taking into account the sensitivity of ontology to the context is fundamental. As an alternative, we propose a contextual quantum realism that rejects substantive dualisms (as does Barad), but at the same time accepts the categorical dualism of the real and the ideal. Our approach also allows one to better understand Bohr's position and to correct Rovelli's relational quantum mechanics.
翻訳日:2023-07-26 19:44:04 公開日:2023-07-21
# 量子原理論について

On quantum fundamentalism ( http://arxiv.org/abs/2307.12992v1 )

ライセンス: Link先を確認
Francois-Igor Pris(参考訳) 量子計測問題の1つの考えられる診断によれば、これは世界のオントロジーと認識論は量子論のみであり、古典物理学は近似にすぎないと主張する量子原理論の結果である。 n. bohr について、任意の量子現象が実験的な設定の古典的な文脈とそれを記述する古典的な概念の使用を前提にしているため、測定問題は疑似問題である。 我々はボアの立場を、後のヴィトゲンシュタイン哲学に触発された文脈的量子実在論(cqr)の観点から考える。 我々のアプローチはH. Zinkernagelの解釈と一致しており、ボーアの立場は認識論的反基礎主義だけでなく、存在論的反基礎主義でもある。

According to one possible diagnosis of the quantum measurement problem, it is a consequence of quantum fundamentalism claiming that ontology and epistemology of the world are exclusively quantum, and classical physics is only an approximation. For N. Bohr, the measurement problem is a pseudo-problem because any quantum phenomenon presupposes the classical context of an experimental setup and the use of classical concepts to describe it. We consider Bohr's position from the point of view of our contextual quantum realism (CQR), inspired by the later Wittgenstein philosophy. Our approach is consistent with H. Zinkernagel's interpretation, according to which Bohr's position is not only epistemological anti-fundamentalism, but also ontological anti-fundamentalism.
翻訳日:2023-07-26 19:43:48 公開日:2023-07-21
# 深層学習の規制に向けて

Towards Regulated Deep Learning ( http://arxiv.org/abs/1912.13122v6 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Camino(参考訳) マルチエージェントシステム(mas)と宣言型電子機関(deis)の規制は、(物理的およびソフトウェア)エージェントと法に関する過去10年間の多分野にわたる研究テーマであったが、最近は2016年以来、ニュースを流用するロボット弁護士へと進化した。 ソフトウェアエージェントの行動を制限する最初の提案の1つは電子機関であったが、近年のディープラーニング(dl)としての人工ニューラルネットワーク(anns)の改革により、dlの使用に関するセキュリティ、プライバシ、倫理、法的な問題により、人工知能(ai)コミュニティの懸念が高まっている。 現在、MASの規制はほぼ正しく対処されているため、我々はInstitutional Neural Network (INN)と呼ぶ特殊なタイプの制御ニューラルネットワークのエージェントベーストレーニングとして、ニューラルネットワークの規制を提案する。 本研究の目的は,人工学習(AT)に注意を向けることであり,Regulated Deep Learning(RDL)の概念実証実装を示す仮の回答を与えることである。 本稿では,前者の概念を紹介し,これまで宣言的にモデル化し,電子施設を拡張するために用いられてきた言語である$I^*$について,人工ニューラルネットワークの実行と人工教師との相互作用を規制する手段として紹介する。

Regulation of Multi-Agent Systems (MAS) and Declarative Electronic Institutions (DEIs) was a multidisciplinary research topic of the past decade involving (Physical and Software) Agents and Law since the beginning, but recently evolved towards News-claimed Robot Lawyer since 2016. One of these first proposals of restricting the behaviour of Software Agents was Electronic Institutions.However, with the recent reformulation of Artificial Neural Networks (ANNs) as Deep Learning (DL), Security, Privacy,Ethical and Legal issues regarding the use of DL has raised concerns in the Artificial Intelligence (AI) Community. Now that the Regulation of MAS is almost correctly addressed, we propose the Regulation of Artificial Neural Networks as Agent-based Training of a special type of regulated Artificial Neural Network that we call Institutional Neural Network (INN).The main purpose of this paper is to bring attention to Artificial Teaching (AT) and to give a tentative answer showing a proof-of-concept implementation of Regulated Deep Learning (RDL). This paper introduces the former concept and provide $I^*$, a language previously used to model declaratively and extend Electronic Institutions, as a means to regulate the execution of Artificial Neural Networks and their interactions with Artificial Teachers (ATs)
翻訳日:2023-07-26 01:46:30 公開日:2023-07-21
# Pandoraのボックスを相関で近似する

Approximating Pandora's Box with Correlations ( http://arxiv.org/abs/2108.12976v4 )

ライセンス: Link先を確認
Shuchi Chawla, Evangelia Gergatsouli, Jeremy McMahan, Christos Tzamos(参考訳) 古典的なpandora's box (pb) 問題をボックス値の相関分布の下で再検討する。 arXiv:1911.01632の最近の研究は、ボックスを一定の順序で訪問する問題に対する制限されたポリシーのクラスに対して、一定の近似アルゴリズムを得た。 本研究では,これまで見てきた値に基づいて,次に訪れるボックスを適応的に選択できる最適ポリシーの近似の複雑さについて検討する。 本研究の主な成果は,確率的最適化による一様決定木(UDT)問題に対するPBの近似保存等価性を確立し,Min-Sum Set Cover(\text{MSSC}_f$)問題の変種を定式化することである。 サポート$m$の分布に対して、UDTは$\log m$近似を認め、多項式時間における定数係数近似は長年の開問題であるが、定数係数近似は半周期時間(arXiv:1906.11385)で達成可能である。 私たちの主な結果は、PBと$\text{MSSC}_f$のプロパティが同じであることを示している。 また、値の分布がより簡潔に$m$の製品分布の混合物として与えられる場合についても検討する。 この問題は、さらに困難である最適決定木(Optimal Decision Tree)のうるさい変種と再び関係している。 時間$n^{ \tilde O(m^2/\varepsilon^2 ) }$ 各ボックス上の混合成分が同一またはテレビ距離で$\varepsilon$で分離された場合、定数係数近似を与える。

We revisit the classic Pandora's Box (PB) problem under correlated distributions on the box values. Recent work of arXiv:1911.01632 obtained constant approximate algorithms for a restricted class of policies for the problem that visit boxes in a fixed order. In this work, we study the complexity of approximating the optimal policy which may adaptively choose which box to visit next based on the values seen so far. Our main result establishes an approximation-preserving equivalence of PB to the well studied Uniform Decision Tree (UDT) problem from stochastic optimization and a variant of the Min-Sum Set Cover ($\text{MSSC}_f$) problem. For distributions of support $m$, UDT admits a $\log m$ approximation, and while a constant factor approximation in polynomial time is a long-standing open problem, constant factor approximations are achievable in subexponential time (arXiv:1906.11385). Our main result implies that the same properties hold for PB and $\text{MSSC}_f$. We also study the case where the distribution over values is given more succinctly as a mixture of $m$ product distributions. This problem is again related to a noisy variant of the Optimal Decision Tree which is significantly more challenging. We give a constant-factor approximation that runs in time $n^{ \tilde O( m^2/\varepsilon^2 ) }$ when the mixture components on every box are either identical or separated in TV distance by $\varepsilon$.
翻訳日:2023-07-26 01:40:48 公開日:2023-07-21
# hhlアルゴリズムを用いた多変量多項式系の解法に対するマコーレー行列法の適用限界

Limitations of the Macaulay matrix approach for using the HHL algorithm to solve multivariate polynomial systems ( http://arxiv.org/abs/2111.00405v2 )

ライセンス: Link先を確認
Jintai Ding, Vlad Gheorghiu, Andr\'as Gily\'en, Sean Hallgren, Jianqiang Li(参考訳) 最近、Chen and Gao~\cite{ChenGao2017} はブール多項式系の解法のための新しい量子アルゴリズムを提案した。 彼らのアプローチの鍵となる考え方は、ブール多項式系から派生した$\mathbb{C}$上のマカオレー線型系に量子線形系(QLS)アルゴリズムを適用することである。 アルゴリズムの効率は、マコーレー行列の条件数に依存する。 本稿では,ブール解のハミング重みの関数として条件数に強い下限を与え,多くの(すべてではないにせよ)グロバーに基づく排他的探索アルゴリズムがアルゴリズムを上回ることを示す。 そこで,Chen と Gao のアルゴリズムを改良し,ブール・マコーレー線形系を$\mathbb{C}$ 上に導入し,元のマコーレー線形系を減らした。 この改良されたアルゴリズムは、溶液のハミング重みがブール変数の数で対数である場合、ブルト力アルゴリズムを著しく上回る可能性がある。 さらに,Valiant-Vaziraniアフィンハッシュ法を用いて,改良アルゴリズムの正しさを簡易かつ基礎的に証明するとともに,Chen,Gao,Yuan \cite{ChenGao2018} によるその後の研究を改良した$\mathbb{F}_q$以上の多項式系に拡張する。 また,量子クーポンコレクタ問題 \cite{arunachalam2020quantumcouponcollector} の一般化を通じてブール多項式系の解を抽出する新しい手法を提案する。

Recently Chen and Gao~\cite{ChenGao2017} proposed a new quantum algorithm for Boolean polynomial system solving, motivated by the cryptanalysis of some post-quantum cryptosystems. The key idea of their approach is to apply a Quantum Linear System (QLS) algorithm to a Macaulay linear system over $\mathbb{C}$, which is derived from the Boolean polynomial system. The efficiency of their algorithm depends on the condition number of the Macaulay matrix. In this paper, we give a strong lower bound on the condition number as a function of the Hamming weight of the Boolean solution, and show that in many (if not all) cases a Grover-based exhaustive search algorithm outperforms their algorithm. Then, we improve upon Chen and Gao's algorithm by introducing the Boolean Macaulay linear system over $\mathbb{C}$ by reducing the original Macaulay linear system. This improved algorithm could potentially significantly outperform the brute-force algorithm, when the Hamming weight of the solution is logarithmic in the number of Boolean variables. Furthermore, we provide a simple and more elementary proof of correctness for our improved algorithm using a reduction employing the Valiant-Vazirani affine hashing method, and also extend the result to polynomial systems over $\mathbb{F}_q$ improving on subsequent work by Chen, Gao and Yuan \cite{ChenGao2018}. We also suggest a new approach for extracting the solution of the Boolean polynomial system via a generalization of the quantum coupon collector problem \cite{arunachalam2020QuantumCouponCollector}.
翻訳日:2023-07-26 01:30:45 公開日:2023-07-21
# 合成クラスタリング:マルチラベルオブジェクト認識と話者識別への応用

Compositional Clustering: Applications to Multi-Label Object Recognition and Speaker Identification ( http://arxiv.org/abs/2109.04160v4 )

ライセンス: Link先を確認
Zeqian Li, Xinlu He, and Jacob Whitehill(参考訳) 例えば、1つのクラスタが長方形のイメージを、もう1つは円のイメージを、もう1つのクラスタが両方のオブジェクトを持つイメージをそれぞれ含むような、新しいクラスタリングタスクを考える。 親クラスタが子クラスタの性質の交点を表す階層的クラスタリングとは対照的に、本問題は構成クラスタの性質の結合を表す構成的クラスタを見つけることである。 このタスクは、最近開発された少数ショット学習と埋め込みモデルによって、サンプルに割り当てられた個々のラベルだけでなく、ラベルセットを区別することができる。 本稿では,構成親和性伝達(CAP),構成k平均(CKM),Greedy Composal Reassignment(GCR)の3つの新しいアルゴリズムを提案する。 我々は,OmniGlotとLibriSpeechのデータセット上で,ガウス混合,ファジィc平均,Agglomerative Clusteringなどの一般的なアルゴリズムと比較して,有望な結果を示す。 本研究は,マルチラベル物体認識と話者識別とダイアリゼーションを,複数話者の同時発話に応用する。

We consider a novel clustering task in which clusters can have compositional relationships, e.g., one cluster contains images of rectangles, one contains images of circles, and a third (compositional) cluster contains images with both objects. In contrast to hierarchical clustering in which a parent cluster represents the intersection of properties of the child clusters, our problem is about finding compositional clusters that represent the union of the properties of the constituent clusters. This task is motivated by recently developed few-shot learning and embedding models can distinguish the label sets, not just the individual labels, assigned to the examples. We propose three new algorithms -- Compositional Affinity Propagation (CAP), Compositional k-means (CKM), and Greedy Compositional Reassignment (GCR) -- that can partition examples into coherent groups and infer the compositional structure among them. We show promising results, compared to popular algorithms such as Gaussian mixtures, Fuzzy c-means, and Agglomerative Clustering, on the OmniGlot and LibriSpeech datasets. Our work has applications to open-world multi-label object recognition and speaker identification & diarization with simultaneous speech from multiple speakers.
翻訳日:2023-07-26 01:29:28 公開日:2023-07-21
# TabText: タブラルデータ表現に対するフレキシブルでコンテキスト的なアプローチ

TabText: A Flexible and Contextual Approach to Tabular Data Representation ( http://arxiv.org/abs/2206.10381v4 )

ライセンス: Link先を確認
Kimberly Villalobos Carballo, Liangyuan Na, Yu Ma, L\'eonard Boussioux, Cynthia Zeng, Luis R. Soenksen, Dimitris Bertsimas(参考訳) タブラルデータは、機械学習タスクをさまざまな産業に適用するために欠かせない。 しかし、従来のデータ処理手法では、テーブルで利用可能な全ての情報を十分に活用せず、カラムヘッダ記述のような重要なコンテキスト情報を無視している。 さらに、前処理データを表形式にすることは、モデル開発における労働集約的なボトルネックであり続ける可能性がある。 この作業では,表データ構造からコンテキスト情報を抽出する処理および特徴抽出フレームワークであるTabTextを導入する。 tabtextは、コンテンツを言語に変換し、事前訓練された大型言語モデル(llm)を活用することで、処理の困難に対処する。 患者の退院, ICU入院, 死亡に至る9つの医療予測課題の枠組みについて検討した。 私たちはそれを示します 1) TabTextフレームワークを適用することで、最小限のデータ前処理を伴う高性能でシンプルな機械学習ベースラインモデルの生成が可能になります。 2) TabText表現による事前処理タブラデータの増大により,標準機械学習モデルの平均および最悪のAUC性能は最大6%向上する。

Tabular data is essential for applying machine learning tasks across various industries. However, traditional data processing methods do not fully utilize all the information available in the tables, ignoring important contextual information such as column header descriptions. In addition, pre-processing data into a tabular format can remain a labor-intensive bottleneck in model development. This work introduces TabText, a processing and feature extraction framework that extracts contextual information from tabular data structures. TabText addresses processing difficulties by converting the content into language and utilizing pre-trained large language models (LLMs). We evaluate our framework on nine healthcare prediction tasks ranging from patient discharge, ICU admission, and mortality. We show that 1) applying our TabText framework enables the generation of high-performing and simple machine learning baseline models with minimal data pre-processing, and 2) augmenting pre-processed tabular data with TabText representations improves the average and worst-case AUC performance of standard machine learning models by as much as 6%.
翻訳日:2023-07-26 01:10:37 公開日:2023-07-21
# MUG:2次元空間からの3次元メッシュ再構成のためのマルチヒューマングラフネットワーク

MUG: Multi-human Graph Network for 3D Mesh Reconstruction from 2D Pose ( http://arxiv.org/abs/2205.12583v3 )

ライセンス: Link先を確認
Chenyan Wu, Yandong Li, Xianfeng Tang, James Wang(参考訳) 単一の単眼画像からマルチヒューマンボディメッシュを再構築することは、重要なが挑戦的なコンピュータビジョンの問題である。 個々のボディーメッシュモデルに加えて,被験者間の相対的3d位置を推定し,コヒーレント表現を生成する必要がある。 本研究では,mug(multi-human graph network)と呼ばれる単一グラフニューラルネットワークを用いて,複数人の2dポーズのみを入力として,コヒーレントなマルチヒューマンメッシュを構築する。 検出スタイルのパイプライン(画像の特徴を抽出し、人間のインスタンスを抽出し、それからボディメッシュを回復する)を採用し、ラボで収集されたトレーニングデータセットとin-the-wildテストデータセットの間の大きなドメインギャップに苦しむ既存の方法と比較すると、この方法はデータセット間で比較的一貫した幾何学的特性を持つ2dポーズの恩恵を受ける。 まず、マルチヒューマン環境をモデル化するために、マルチヒューマン2Dのポーズを処理し、新しい異種グラフを構築します。 第2に,二重分岐グラフニューラルネットワーク構造 – 人間間の深さ関係の予測と,ルートジョイント関係メッシュ座標の予測だ。 最後に、両枝からの出力を組み合わせることで、全マルチヒューマン3Dメッシュを構築する。 MUGは従来のマルチヒューマンメッシュ推定手法(Panoptic, MuPoTS-3D, 3DPW)よりも優れていた。

Reconstructing multi-human body mesh from a single monocular image is an important but challenging computer vision problem. In addition to the individual body mesh models, we need to estimate relative 3D positions among subjects to generate a coherent representation. In this work, through a single graph neural network, named MUG (Multi-hUman Graph network), we construct coherent multi-human meshes using only multi-human 2D pose as input. Compared with existing methods, which adopt a detection-style pipeline (i.e., extracting image features and then locating human instances and recovering body meshes from that) and suffer from the significant domain gap between lab-collected training datasets and in-the-wild testing datasets, our method benefits from the 2D pose which has a relatively consistent geometric property across datasets. Our method works like the following: First, to model the multi-human environment, it processes multi-human 2D poses and builds a novel heterogeneous graph, where nodes from different people and within one person are connected to capture inter-human interactions and draw the body geometry (i.e., skeleton and mesh structure). Second, it employs a dual-branch graph neural network structure -- one for predicting inter-human depth relation and the other one for predicting root-joint-relative mesh coordinates. Finally, the entire multi-human 3D meshes are constructed by combining the output from both branches. Extensive experiments demonstrate that MUG outperforms previous multi-human mesh estimation methods on standard 3D human benchmarks -- Panoptic, MuPoTS-3D and 3DPW.
翻訳日:2023-07-26 01:09:39 公開日:2023-07-21
# グラフニューラルネットワークの表現力:代数解析による表現性の向上

Representation Power of Graph Neural Networks: Improved Expressivity via Algebraic Analysis ( http://arxiv.org/abs/2205.09801v3 )

ライセンス: Link先を確認
Charilaos I. Kanatsoulis and Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)の顕著な成功にもかかわらず、その表現力は限られており、Weisfeiler-Lehman(WL)アルゴリズムと同程度に表現力があるという共通の信念がある。 本稿では、その逆を論じ、匿名入力を持つ標準GNNがWLアルゴリズムよりも差別的な表現を生成することを示す。 本稿では,線形代数ツールを用いてグラフ演算子の固有値分解に関して,GNNの表現力を特徴付ける。 我々は、GNNが、少なくとも異なる固有値を持つ全てのグラフに対して、白い非形式的な入力から特徴的な出力を生成することができることを証明した。 また、ホワイトインプットを持つ単純な畳み込みアーキテクチャは、グラフの閉路を数え、WL表現よりも確実に表現できる同変特徴を持つことを示す。 グラフ同型とグラフ分類データセットに関する徹底的な実験分析により,提案手法の有効性が実証された。

Despite the remarkable success of Graph Neural Networks (GNNs), the common belief is that their representation power is limited and that they are at most as expressive as the Weisfeiler-Lehman (WL) algorithm. In this paper, we argue the opposite and show that standard GNNs, with anonymous inputs, produce more discriminative representations than the WL algorithm. Our novel analysis employs linear algebraic tools and characterizes the representation power of GNNs with respect to the eigenvalue decomposition of the graph operators. We prove that GNNs are able to generate distinctive outputs from white uninformative inputs, for, at least, all graphs that have different eigenvalues. We also show that simple convolutional architectures with white inputs, produce equivariant features that count the closed paths in the graph and are provably more expressive than the WL representations. Thorough experimental analysis on graph isomorphism and graph classification datasets corroborates our theoretical results and demonstrates the effectiveness of the proposed approach.
翻訳日:2023-07-26 01:09:07 公開日:2023-07-21
# ボソニック量子不純物の有限周波応答の解明

Revealing the finite-frequency response of a bosonic quantum impurity ( http://arxiv.org/abs/2208.03053v4 )

ライセンス: Link先を確認
S\'ebastien L\'eger, Th\'eo S\'epulcre, Dorian Fraudet, Olivier Buisson, C\'ecile Naud, Wiebke Hasch-Guichard, Serge Florens, Izak Snyman, Denis M. Basko, and Nicolas Roch(参考訳) 量子不純物は凝縮物質物理学においてユビキタスであり、多体問題の最も取り除かれた実現である。 有限周波応答を測定することで励起スペクトルや力学特性などの重要な特性にアクセスできるが、ナノ電子量子ドットの研究が20年以上続いたにもかかわらず、この目標は解明されていない。 非常に強い結合と大きな測定帯域の実験的制約を同時に満たさなければならない。 我々はcqedツールを用いてこの問題を回避し,非自明なボソニック不純物問題である境界正弦模型の量子シミュレータを構築した。 我々は,この系の有限周波数線形応答の完全マップ化に成功した。 その反応性部分は、非摂動計算と一致する境界における非線形性の強い再正規化を証明している。 散逸部分は多光子変換による劇的な多体拡大を示す。 実験結果は, 微視的キャリブレーションモデルに基づく再仮定図式計算と定量的に一致した。 さらに、多体量子回路をモデル化するためのより高度な理論ツールを要求するダイアグラム計算が崩壊する状態へとデバイスを押し込む。 cQEDプラットフォームが普遍的なスケーリング法に到達するための技術的制限についても批判的に検討する。 この研究は、量子臨界点近傍における量子絡み合いの定量化や、非自明な多体問題の動的性質へのアクセスなど、未来のエキサイティングな視点を開く。

Quantum impurities are ubiquitous in condensed matter physics and constitute the most stripped-down realization of many-body problems. While measuring their finite-frequency response could give access to key characteristics such as excitations spectra or dynamical properties, this goal has remained elusive despite over two decades of studies in nanoelectronic quantum dots. Conflicting experimental constraints of very strong coupling and large measurement bandwidths must be met simultaneously. We get around this problem using cQED tools, and build a precisely characterized quantum simulator of the boundary sine-Gordon model, a non-trivial bosonic impurity problem. We succeeded to fully map out the finite frequency linear response of this system. Its reactive part evidences a strong renormalisation of the nonlinearity at the boundary in agreement with non-perturbative calculations. Its dissipative part reveals a dramatic many-body broadening caused by multi-photon conversion. The experimental results are matched quantitatively to a resummed diagrammatic calculation based on a microscopically calibrated model. Furthermore, we push the device into a regime where diagrammatic calculations break down, which calls for more advanced theoretical tools to model many-body quantum circuits. We also critically examine the technological limitations of cQED platforms to reach universal scaling laws. This work opens exciting perspectives for the future such as quantifying quantum entanglement in the vicinity of a quantum critical point or accessing the dynamical properties of non-trivial many-body problems.
翻訳日:2023-07-26 00:59:38 公開日:2023-07-21
# 有限サンプルFDR制御ベイズ線形モデルにおける準最適多重検定

Near-optimal multiple testing in Bayesian linear models with finite-sample FDR control ( http://arxiv.org/abs/2211.02778v3 )

ライセンス: Link先を確認
Taejoo Ahn, Licong Lin, Song Mei(参考訳) 高次元変数選択問題において、統計学者はしばしば偽発見率(fdr)を制御する複数のテスト手順を設計し、関連する変数の多くを同時に特定しようとする。 Knockoffsや条件付きランダム化テストのようなモデルX法は、共変量の既知の分布を仮定して有限サンプルFDR制御の第一目標を達成する。 しかし、これらの手法が発見の最大化という二次的な目的を達成できるかどうかは不明のままである。 実際、有限サンプルFDR制御によりより関連性の高い変数を発見する手順を設計することは、最も単純な線形モデルでさえも、ほとんど明らかな問題である。 本稿では,等方性共変量を持つ高次元ベイズ線形モデルの近似最適多重試験法を開発する。 ベイズ線形モデルに従えば,モデルが不定形化されている場合でも,有限サンプルから頻繁なfdrを制御するためのmodel-x手順を導入する。 提案手法である poedce には, 後方期待法, 蒸留条件ランダム化試験 (dcrt) および e-値を用いたbenjamini-hochberg 法 (ebh) の3つの主成分が組み込まれている。 poedce の最適性予想は、その漸近的正比例 (tpp) と偽発見比例 (fdp) のヒューリスティックな計算に基づいている。 その結果,複数のテスト手順のパワーを比較するベンチマークとしてベイズ線形モデルが確立された。

In high dimensional variable selection problems, statisticians often seek to design multiple testing procedures that control the False Discovery Rate (FDR), while concurrently identifying a greater number of relevant variables. Model-X methods, such as Knockoffs and conditional randomization tests, achieve the primary goal of finite-sample FDR control, assuming a known distribution of covariates. However, whether these methods can also achieve the secondary goal of maximizing discoveries remains uncertain. In fact, designing procedures to discover more relevant variables with finite-sample FDR control is a largely open question, even within the arguably simplest linear models. In this paper, we develop near-optimal multiple testing procedures for high dimensional Bayesian linear models with isotropic covariates. We introduce Model-X procedures that provably control the frequentist FDR from finite samples, even when the model is misspecified, and conjecturally achieve near-optimal power when the data follow the Bayesian linear model. Our proposed procedure, PoEdCe, incorporates three key ingredients: Posterior Expectation, distilled Conditional randomization test (dCRT), and the Benjamini-Hochberg procedure with e-values (eBH). The optimality conjecture of PoEdCe is based on a heuristic calculation of its asymptotic true positive proportion (TPP) and false discovery proportion (FDP), which is supported by methods from statistical physics as well as extensive numerical simulations. Our result establishes the Bayesian linear model as a benchmark for comparing the power of various multiple testing procedures.
翻訳日:2023-07-26 00:42:12 公開日:2023-07-21
# 量子臨界における創発的連続対称性の検出

Detecting emergent continuous symmetries at quantum criticality ( http://arxiv.org/abs/2210.17539v3 )

ライセンス: Link先を確認
Mingru Yang, Bram Vanhecke, Norbert Schuch(参考訳) 新しくあるいは拡大された対称性は、ハミルトン群の非正規化群フローにおいて対称性の破れ項が無関係である場合、対称性を持たないハミルトニアンの低エネルギースペクトルに現れる。 本稿では,量子スピンチェーンの基底状態から創発的保存電流の格子作用素近似を数値的に抽出するテンソルネットワークに基づくアルゴリズムを提案する。 スピン-1/2$J$-$Q$Heisenberg 連鎖と分解量子臨界点 (DQCP) の1次元バージョンに対する我々の結果は、創発格子 Kac-Moody 生成器を得るための方法の力を示している。 これはまた、可積分モデルの局所的な運動積分と臨界ギャップのない基底状態の局所親ハミルトニアンを見つける方法として見ることもできる。

New or enlarged symmetries can emerge at the low-energy spectrum of a Hamiltonian that does not possess the symmetries, if the symmetry breaking terms in the Hamiltonian are irrelevant under the renormalization group flow. In this letter, we propose a tensor network based algorithm to numerically extract lattice operator approximation of the emergent conserved currents from the ground state of any quantum spin chains, without the necessity to have prior knowledge about its low-energy effective field theory. Our results for the spin-1/2 $J$-$Q$ Heisenberg chain and a one-dimensional version of the deconfined quantum critical points (DQCP) demonstrate the power of our method to obtain the emergent lattice Kac-Moody generators. It can also be viewed as a way to find the local integrals of motion of an integrable model and the local parent Hamiltonian of a critical gapless ground state.
翻訳日:2023-07-26 00:41:18 公開日:2023-07-21
# 放射線学レポートの要約範囲を複数の解剖学とモダリティに広げる

Toward expanding the scope of radiology report summarization to multiple anatomies and modalities ( http://arxiv.org/abs/2211.08584v3 )

ライセンス: Link先を確認
Zhihong Chen, Maya Varma, Xiang Wan, Curtis Langlotz, Jean-Benoit Delbrouck(参考訳) radiology report summarization (rrs) は研究の分野である。 放射線学レポートの発見セクションを考えると、その目的は、放射線学研究の重要な観察と結論を強調する要約(印象セクションと呼ばれる)を作成することである。 しかし、RSは現在必須の制約に直面しており、まず、多くの先行研究がプライベートデータセットの実験を行い、結果の再現や異なるシステムやソリューション間の公正な比較を防止している。 第2に、最も初期のアプローチは胸部x線のみで評価される。 これらの制約に対処するため,MIMIC-IIIおよびMIMIC-CXRデータセットに基づく3つの新しいモダリティと7つの新しい解剖を含むデータセット(MIMIC-RRS)を提案する。 次に、MIMIC-RRSにおけるモード-解剖的ペア内および横断的なモデルの性能を評価するための広範囲な実験を行った。 また, 実効性評価指標であるRadGraphを用いて臨床効果を評価する。

Radiology report summarization (RRS) is a growing area of research. Given the Findings section of a radiology report, the goal is to generate a summary (called an Impression section) that highlights the key observations and conclusions of the radiology study. However, RRS currently faces essential limitations.First, many prior studies conduct experiments on private datasets, preventing reproduction of results and fair comparisons across different systems and solutions. Second, most prior approaches are evaluated solely on chest X-rays. To address these limitations, we propose a dataset (MIMIC-RRS) involving three new modalities and seven new anatomies based on the MIMIC-III and MIMIC-CXR datasets. We then conduct extensive experiments to evaluate the performance of models both within and across modality-anatomy pairs in MIMIC-RRS. In addition, we evaluate their clinical efficacy via RadGraph, a factual correctness metric.
翻訳日:2023-07-26 00:31:01 公開日:2023-07-21
# C3: クロスインスタンスガイドによるコントラストクラスタリング

C3: Cross-instance guided Contrastive Clustering ( http://arxiv.org/abs/2211.07136v3 )

ライセンス: Link先を確認
Mohammadreza Sadeghi, Hadi Hojjati, Narges Armanfard(参考訳) クラスタリングは、事前に定義されたラベルを使わずに、類似したデータサンプルをクラスタに収集するタスクである。 機械学習文学において広く研究され、近年のディープラーニングの進歩はこの分野への関心を復活させてきた。 対比クラスタリング(CC)モデルは、データ拡張によって各データインスタンスの正と負のペアが生成されるディープクラスタリングの基盤である。 CCモデルは、正のペアのインスタンスレベルとクラスタレベルの表現がグループ化される特徴空間を学習することを目的としている。 sotaの改善にもかかわらず、これらのアルゴリズムはクラスタリング性能を改善するための必須情報を含むクロスインスタンスパターンを無視している。 これにより、真正対数率を下げながらモデルの偽負対数率を増加させる。 本稿では,クロスサンプル関係を考慮し,正のペア数を増加させ,偽陰性,ノイズ,異常サンプルがデータ表現に与える影響を緩和する,新しいコントラストクラスタリング法であるcross-instance guided contrastive clustering (c3)を提案する。 特に、インスタンスレベルの表現を使って類似のインスタンスを識別し、それらを集約する新たなロス関数を定義します。 さらに,より効率的な方法で負のサンプルを選択する新しい重み付け法を提案する。 提案手法は,ベンチマークコンピュータビジョンデータセットにおける最先端アルゴリズムを6.6%, 3.3%, 5.0%, 1.3%, 0.3%, cifar-10, cifar-100, imagenet-10, imagenet-dogs, tiny-imagenetで改善する。

Clustering is the task of gathering similar data samples into clusters without using any predefined labels. It has been widely studied in machine learning literature, and recent advancements in deep learning have revived interest in this field. Contrastive clustering (CC) models are a staple of deep clustering in which positive and negative pairs of each data instance are generated through data augmentation. CC models aim to learn a feature space where instance-level and cluster-level representations of positive pairs are grouped together. Despite improving the SOTA, these algorithms ignore the cross-instance patterns, which carry essential information for improving clustering performance. This increases the false-negative-pair rate of the model while decreasing its true-positive-pair rate. In this paper, we propose a novel contrastive clustering method, Cross-instance guided Contrastive Clustering (C3), that considers the cross-sample relationships to increase the number of positive pairs and mitigate the impact of false negative, noise, and anomaly sample on the learned representation of data. In particular, we define a new loss function that identifies similar instances using the instance-level representation and encourages them to aggregate together. Moreover, we propose a novel weighting method to select negative samples in a more efficient way. Extensive experimental evaluations show that our proposed method can outperform state-of-the-art algorithms on benchmark computer vision datasets: we improve the clustering accuracy by 6.6%, 3.3%, 5.0%, 1.3% and 0.3% on CIFAR-10, CIFAR-100, ImageNet-10, ImageNet-Dogs, and Tiny-ImageNet.
翻訳日:2023-07-26 00:30:45 公開日:2023-07-21
# 後進カリキュラム強化学習

Backward Curriculum Reinforcement Learning ( http://arxiv.org/abs/2212.14214v3 )

ライセンス: Link先を確認
KyungMin Ko(参考訳) 現在の強化学習アルゴリズムは、エージェントが可能な限り探索できるように、前向きに生成された軌道を使ってエージェントを訓練する。 十分な探索から強化学習結果の価値を実現する一方で,本手法はアルゴリズムの性能に重要な要因であるサンプル効率の低下にトレードオフをもたらす。 以前のタスクでは、サンプル効率を向上させるために報酬シェーピング技術とネットワーク構造の変更を使用する。 しかし、これらの方法は実装に多くのステップを必要とする。 そこで本研究では,本エピソードの後方軌跡を用いてエージェントを訓練し始める新しい後進カリキュラム強化学習を提案する。 このアプローチはエージェントに強い報酬信号を与え、サンプル効率のよい学習を可能にする。 さらに,本手法ではエージェントの訓練前に軌道の順序を逆転させるアルゴリズムを少しだけ変更するだけで,どの最先端アルゴリズムにも簡単に適用できる。

Current reinforcement learning algorithms train an agent using forward-generated trajectories, which provide little guidance so that the agent can explore as much as possible. While realizing the value of reinforcement learning results from sufficient exploration, this approach leads to a trade-off in losing sample efficiency, an essential factor impacting algorithm performance. Previous tasks use reward-shaping techniques and network structure modification to increase sample efficiency. However, these methods require many steps to implement. In this work, we propose novel backward curriculum reinforcement learning that begins training the agent using the backward trajectory of the episode instead of the original forward trajectory. This approach provides the agent with a strong reward signal, enabling more sample-efficient learning. Moreover, our method only requires a minor change in the algorithm of reversing the order of the trajectory before agent training, allowing a straightforward application to any state-of-the-art algorithm.
翻訳日:2023-07-26 00:22:34 公開日:2023-07-21
# 逆散乱に対する深い噴射前処理

Deep Injective Prior for Inverse Scattering ( http://arxiv.org/abs/2301.03092v2 )

ライセンス: Link先を確認
AmirEhsan Khorashadizadeh, Vahid Khorashadizadeh, Sepehr Eskandari, Guy A.E. Vandenbosch, Ivan Dokmani\'c(参考訳) 電磁的逆散乱では、散乱波を用いて物体の誘電率を再構成することが目的である。 ディープラーニングは反復型解法に代わるものとして期待されているが、主に分散フィールドの分散ドリフトに敏感な教師付きフレームワークで使われている。 さらに、これらの手法は典型的には誘電率パターンの単一推定を提供するが、これはノイズや問題の不適切さによって不適切あるいは誤解を招く可能性がある。 本稿では,深部生成モデルに基づく逆散乱のためのデータ駆動フレームワークを提案する。 本手法は, 目標誘電率の回復のための正則化として低次元多様体を学習する。 分散フィールドと対象の誘電率の両方を必要とする教師付き手法とは異なり、本手法は目標の誘電率のみを必要とするため、実験的な設定で使用することができる。 また,ターゲット誘電率の後方分布を近似するベイズフレームワークを導入し,複数の推定と不確実性定量化を可能にした。 合成および実験データを用いた広範な実験により,本フレームワークが従来の反復型解法,特に強力な散乱器よりも優れ,かつu-netのような最先端の教師付き学習法に匹敵する再構成品質を実現していることが示された。

In electromagnetic inverse scattering, the goal is to reconstruct object permittivity using scattered waves. While deep learning has shown promise as an alternative to iterative solvers, it is primarily used in supervised frameworks which are sensitive to distribution drift of the scattered fields, common in practice. Moreover, these methods typically provide a single estimate of the permittivity pattern, which may be inadequate or misleading due to noise and the ill-posedness of the problem. In this paper, we propose a data-driven framework for inverse scattering based on deep generative models. Our approach learns a low-dimensional manifold as a regularizer for recovering target permittivities. Unlike supervised methods that necessitate both scattered fields and target permittivities, our method only requires the target permittivities for training; it can then be used with any experimental setup. We also introduce a Bayesian framework for approximating the posterior distribution of the target permittivity, enabling multiple estimates and uncertainty quantification. Extensive experiments with synthetic and experimental data demonstrate that our framework outperforms traditional iterative solvers, particularly for strong scatterers, while achieving comparable reconstruction quality to state-of-the-art supervised learning methods like the U-Net.
翻訳日:2023-07-26 00:11:49 公開日:2023-07-21
# ビデオ制作のためのエンジンベース仮想環境における動的ストーリーボード生成

Dynamic Storyboard Generation in an Engine-based Virtual Environment for Video Production ( http://arxiv.org/abs/2301.12688v3 )

ライセンス: Link先を確認
Anyi Rao, Xuekun Jiang, Yuwei Guo, Linning Xu, Lei Yang, Libiao Jin, Dahua Lin, Bo Dai(参考訳) ミニフィルムやショートフォームビデオに取り組んでいるアマチュアは通常、シーン、プロット、カメラの設定と調整の複雑なプロセスに多くの時間と労力を費やし、満足のいくビデオショットを提供する。 撮影スタッフが実際の撮影前に簡単に撮影設定をテストできる仮想環境でのストーリーボード撮影を可能にするために,仮想動的ストーリーボード(vds)を提案する。 フォーマットされたストーリースクリプトとカメラスクリプトが入力として与えられると、事前に定義されたストーリーとシネマティックルールに従って複数のキャラクターアニメーションとカメラムーブメントの提案を生成し、オフザシェルフシミュレーションエンジンでビデオをレンダリングする。 候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。 vdsは広範囲な実験とユーザー研究を通じて包括的に検証され、その効率性、有効性、アマチュアビデオ制作を支援する大きな可能性を示す。

Amateurs working on mini-films and short-form videos usually spend lots of time and effort on the multi-round complicated process of setting and adjusting scenes, plots, and cameras to deliver satisfying video shots. We present Virtual Dynamic Storyboard (VDS) to allow users storyboarding shots in virtual environments, where the filming staff can easily test the settings of shots before the actual filming. VDS runs on a "propose-simulate-discriminate" mode: Given a formatted story script and a camera script as input, it generates several character animation and camera movement proposals following predefined story and cinematic rules to allow an off-the-shelf simulation engine to render videos. To pick up the top-quality dynamic storyboard from the candidates, we equip it with a shot ranking discriminator based on shot quality criteria learned from professional manual-created data. VDS is comprehensively validated via extensive experiments and user studies, demonstrating its efficiency, effectiveness, and great potential in assisting amateur video production.
翻訳日:2023-07-25 23:59:47 公開日:2023-07-21
# ヌル状態を持つダイソン・シュウィンガー方程式の改定

Taming Dyson-Schwinger equations with null states ( http://arxiv.org/abs/2303.10978v3 )

ライセンス: Link先を確認
Wenliang Li(参考訳) 量子場理論において、ダイソン・シュウィンガー方程式(英: dyson-schwinger equation)は、自己整合性のある方法で、n$-point green 関数に関連する結合方程式の無限集合である。 彼らは、量子色力学やハドロン物理学から強い相関電子系まで、非摂動研究において重要な応用を見出した。 しかし、それらは解決するのが非常に難しい。 主な問題の1つは、無限系の有限切断が過小評価されていることである。 最近では、benderらも参加している。 [Phys. Rev. 130, 101602 (2023)] は、n$の漸近的な振る舞いを利用し、D=0$の時空で正確な結果を得ることに成功した。 高い$d$では、大きな$n$の振る舞いを推測するのがより難しくなります。 本稿では、nullブートストラップに照らして別の経路を提案する。 未決定システムは、null状態条件を付与することで解決される。 このアプローチは、より簡単に$d>0$に拡張できる。 具体例として、$D=0$ と $D=1$ の場合には、複素解を含む $g\phi^n$ 型のエルミート理論および非エルミート理論の正確な結果に実際に収束することを示す。

In quantum field theory, the Dyson-Schwinger equations are an infinite set of coupled equations relating $n$-point Green's functions in a self-consistent manner. They have found important applications in non-perturbative studies, ranging from quantum chromodynamics and hadron physics to strongly correlated electron systems. However, they are notoriously formidable to solve. One of the main problems is that a finite truncation of the infinite system is underdetermined. Recently, Bender et al. [Phys. Rev. Lett. 130, 101602 (2023)] proposed to make use of the large-$n$ asymptotic behaviors and successfully obtained accurate results in $D=0$ spacetime. At higher $D$, it seems more difficult to deduce the large-$n$ behaviors. In this paper, we propose another avenue in light of the null bootstrap. The underdetermined system is solved by imposing the null state condition. This approach can be extended to $D>0$ more readily. As concrete examples, we show that the cases of $D=0$ and $D=1$ indeed converge to the exact results for several Hermitian and non-Hermitian theories of the $g\phi^n$ type, including the complex solutions.
翻訳日:2023-07-25 23:43:04 公開日:2023-07-21
# 言語モデルのプレフィックスチューニングによるオープンエンド医療視覚質問応答

Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models ( http://arxiv.org/abs/2303.05977v2 )

ライセンス: Link先を確認
Tom van Sonsbeek, Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees G. M. Snoek and Marcel Worring(参考訳) VQA(Medicical Visual Question Answering)は、より迅速かつ正確な診断と治療の決定につながるため、重要な課題である。 既存のほとんどの手法では、結果を事前に定義されたクローズドな回答に制限するマルチクラス分類問題としてアプローチしている。 我々は,VQAのオープン化に重点を置いており,近年の言語モデルの発展に動機付けられている。 事前学習された言語モデルを活用して,小型でドメイン固有な医療データセットに適した新しい手法を提案する。 医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。 そして、これらの学習可能なトークンが言語モデルを直接刺激する。 本稿では,近年のパラメータ効率の高い言語モデルの微調整戦略について考察する。 我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。 その結果,本手法は様々な学習環境における既存手法よりも優れ,計算効率も優れていた。

Medical Visual Question Answering (VQA) is an important challenge, as it would lead to faster and more accurate diagnoses and treatment decisions. Most existing methods approach it as a multi-class classification problem, which restricts the outcome to a predefined closed-set of curated answers. We focus on open-ended VQA and motivated by the recent advances in language models consider it as a generative task. Leveraging pre-trained language models, we introduce a novel method particularly suited for small, domain-specific, medical datasets. To properly communicate the medical images to the language model, we develop a network that maps the extracted visual features to a set of learnable tokens. Then, alongside the question, these learnable tokens directly prompt the language model. We explore recent parameter-efficient fine-tuning strategies for language models, which allow for resource- and data-efficient fine-tuning. We evaluate our approach on the prime medical VQA benchmarks, namely, Slake, OVQA and PathVQA. The results demonstrate that our approach outperforms existing methods across various training settings while also being computationally efficient.
翻訳日:2023-07-25 23:40:12 公開日:2023-07-21
# 到達可能な集合の凸包の厳密なキャラクタリゼーション

Exact Characterization of the Convex Hulls of Reachable Sets ( http://arxiv.org/abs/2303.17674v2 )

ライセンス: Link先を確認
Thomas Lew, Riccardo Bonalli, Marco Pavone(参考訳) 境界外乱を持つ非線形システムの到達可能な集合の凸包について検討する。 到達可能な集合は制御において重要な役割を果たすが、計算が困難であることで知られており、既存の過剰近似ツールは保守的あるいは計算的に高価である傾向がある。 本研究では、到達可能な集合の凸包を、外乱のすべての可能な初期値から通常の微分方程式の解の凸包として正確に特徴づける。 この有限次元キャラクタリゼーションは、高速サンプリングベースの手法で正確にオーバー近似リーチブル集合を解き放つ。 ニューラルフィードバックループ解析とロバストモデル予測制御への応用について述べる。

We study the convex hulls of reachable sets of nonlinear systems with bounded disturbances. Reachable sets play a critical role in control, but remain notoriously challenging to compute, and existing over-approximation tools tend to be conservative or computationally expensive. In this work, we exactly characterize the convex hulls of reachable sets as the convex hulls of solutions of an ordinary differential equation from all possible initial values of the disturbances. This finite-dimensional characterization unlocks a fast sampling-based method to accurately over-approximate reachable sets. We give applications to neural feedback loop analysis and robust model predictive control.
翻訳日:2023-07-25 23:34:13 公開日:2023-07-21
# タブラルデータに基づく効率的な多段階推論

Efficient Multi-stage Inference on Tabular Data ( http://arxiv.org/abs/2303.11580v2 )

ライセンス: Link先を確認
Daniel S Johnson and Igor L Markov(参考訳) 多くのMLアプリケーションや製品は、中程度の入力データをトレーニングするが、リアルタイム推論ではボトルネックになる。 MLシステムを実装する際、従来の知恵は、リモートプロシージャコール(RPC)APIを介して製品コードによってクエリされるサービスにMLコードを分離することを好んでいる。 このアプローチはソフトウェアアーキテクチャ全体を明確化し、ML内部を抽象化することでプロダクトコードを単純化する。 しかし、分離によってネットワークレイテンシが増加し、CPUオーバーヘッドが増大する。 したがって、推論アルゴリズムを単純化し、製品コードに組み込むことにより、ネットワーク通信の削減を図る。 グラフデータを扱う公開データセットと高性能リアルタイムプラットフォームでは、入力の半数以上がそのような最適化に適しており、残りの部分は元のモデルで処理可能であることを示す。 トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論のレイテンシを1.3倍削減し、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を、毎秒数百万のリアルタイム決定を提供する商用のエンドツーエンドMLプラットフォームで約50%削減します。

Many ML applications and products train on medium amounts of input data but get bottlenecked in real-time inference. When implementing ML systems, conventional wisdom favors segregating ML code into services queried by product code via Remote Procedure Call (RPC) APIs. This approach clarifies the overall software architecture and simplifies product code by abstracting away ML internals. However, the separation adds network latency and entails additional CPU overhead. Hence, we simplify inference algorithms and embed them into the product code to reduce network communication. For public datasets and a high-performance real-time platform that deals with tabular data, we show that over half of the inputs are often amenable to such optimization, while the remainder can be handled by the original model. By applying our optimization with AutoML to both training and inference, we reduce inference latency by 1.3x, CPU resources by 30%, and network communication between application front-end and ML back-end by about 50% for a commercial end-to-end ML platform that serves millions of real-time decisions per second.
翻訳日:2023-07-25 23:31:56 公開日:2023-07-21
# ファインチューニングとプロンプトエンジニアリングによるプログラム修復の自動化

Enhancing Automated Program Repair through Fine-tuning and Prompt Engineering ( http://arxiv.org/abs/2304.07840v2 )

ライセンス: Link先を確認
Rishov Paul, Md. Mohib Hossain, Mohammed Latif Siddiq, Masum Hasan, Anindya Iqbal, and Joanna C. S. Santos(参考訳) sequence-to-sequenceモデルは、十分な量のデータセットでトレーニングされた場合、誤ったプログラムを正しいプログラムに変換するために使用されます。 最近の研究でも、コードレビューがプログラムの修復をさらに改善できるという強い実証的証拠が示されている。 自然言語(nl)とプログラミング言語(pl)で訓練された大規模言語モデルは、両方の固有の知識を含むことができる。 本研究では,PLとNLの本質的な知識が,プログラムの自動修復に有効かどうかを検討する。 plとnlの両方で事前学習された2つの最先端言語モデルであるplbartとcodet5を、このような自然言語ベースのプログラム修復データセットに適用し、事前学習された言語モデルは、コードレビューとその後のコード変更の両方を含むデータセットで微調整され、前モデルよりも著しく優れていたことを突き止めた。 CodexやGPT-3.5-Turboといったコード生成モデルの出現とともに、ゼロショットと数ショットの学習ベースのプロンプトエンジニアリングも実施して、これらのデータセットのパフォーマンスを評価しました。 しかし、自動プログラム修復の文脈でLLMを使うことの実践的応用は、学習モデルによる生成した修復コードの手動解析に基づいて、まだ長い道のりをたどっている。

Sequence-to-sequence models have been used to transform erroneous programs into correct ones when trained with a large enough dataset. Some recent studies also demonstrated strong empirical evidence that code review could improve the program repair further. Large language models, trained with Natural Language (NL) and Programming Language (PL), can contain inherent knowledge of both. In this study, we investigate if this inherent knowledge of PL and NL can be utilized to improve automated program repair. We applied PLBART and CodeT5, two state-of-the-art language models that are pre-trained with both PL and NL, on two such natural language-based program repair datasets and found that the pre-trained language models fine-tuned with datasets containing both code review and subsequent code changes notably outperformed each of the previous models. With the advent of code generative models like Codex and GPT-3.5-Turbo, we also performed zero-shot and few-shots learning-based prompt engineering to assess their performance on these datasets. However, the practical application of using LLMs in the context of automated program repair is still a long way off based on our manual analysis of the generated repaired codes by the learning models.
翻訳日:2023-07-25 23:12:08 公開日:2023-07-21
# 分子共役学習によるアノテータによる病理画像分割の民主化

Democratizing Pathological Image Segmentation with Lay Annotators via Molecular-empowered Learning ( http://arxiv.org/abs/2306.00047v2 )

ライセンス: Link先を確認
Ruining Deng, Yanwei Li, Peize Li, Jiacheng Wang, Lucas W. Remedios, Saydolimkhon Agzamkhodjaev, Zuhayr Asad, Quan Liu, Can Cui, Yaohong Wang, Yihan Wang, Yucheng Tang, Haichun Yang, Yuankai Huo(参考訳) 高解像度ギガピクセル全スライド画像(WSI)における多クラス細胞セグメンテーションは臨床応用において重要である。 このようなAIモデルをトレーニングするには、通常、経験豊富なドメインエキスパート(例えば病理学者)からの労働集約的なピクセル単位の手動アノテーションが必要である。 また、肉眼で細粒の細胞型(例えば、ポドサイトやメサンギウム細胞)を区別する場合、このようなアノテーションはエラーを起こしやすい。 本研究では,レイアノテータ(医学領域の知識を持たないアノテータ)のみを用いて,病的AIデプロイメントの民主化の実現可能性を評価する。 The contribution of this paper is threefold: (1) We proposed a molecular-empowered learning scheme for multi-class cell segmentation using partial labels from lay annotators; (2) The proposed method integrated Giga-pixel level molecular-morphology cross-modality registration, molecular-informed annotation, and molecular-oriented segmentation model, so as to achieve significantly superior performance via 3 lay annotators as compared with 2 experienced pathologists; (3) A deep corrective learning (learning with imperfect label) method is proposed to further improve the segmentation performance using partially annotated noisy data. 実験結果より,経験豊富な病理学者の従来の形態的アノテーション (f1 = 0.7015) よりも優れた分子型アノテーションを用いて,f1 = 0.8496を得た。 本手法は,非医学的コンピュータビジョンタスクと類似した学習プロセスをスケールアップし,病理学的なセグメンテーション深層モデルの開発をlay annotatorレベルに民主化する。 公式実装とセルアノテーションはhttps://github.com/hrlblab/MolecularELで公開されている。

Multi-class cell segmentation in high-resolution Giga-pixel whole slide images (WSI) is critical for various clinical applications. Training such an AI model typically requires labor-intensive pixel-wise manual annotation from experienced domain experts (e.g., pathologists). Moreover, such annotation is error-prone when differentiating fine-grained cell types (e.g., podocyte and mesangial cells) via the naked human eye. In this study, we assess the feasibility of democratizing pathological AI deployment by only using lay annotators (annotators without medical domain knowledge). The contribution of this paper is threefold: (1) We proposed a molecular-empowered learning scheme for multi-class cell segmentation using partial labels from lay annotators; (2) The proposed method integrated Giga-pixel level molecular-morphology cross-modality registration, molecular-informed annotation, and molecular-oriented segmentation model, so as to achieve significantly superior performance via 3 lay annotators as compared with 2 experienced pathologists; (3) A deep corrective learning (learning with imperfect label) method is proposed to further improve the segmentation performance using partially annotated noisy data. From the experimental results, our learning method achieved F1 = 0.8496 using molecular-informed annotations from lay annotators, which is better than conventional morphology-based annotations (F1 = 0.7015) from experienced pathologists. Our method democratizes the development of a pathological segmentation deep model to the lay annotator level, which consequently scales up the learning process similar to a non-medical computer vision task. The official implementation and cell annotations are publicly available at https://github.com/hrlblab/MolecularEL.
翻訳日:2023-07-25 21:07:15 公開日:2023-07-21
# NuCLR: 原子力共同学習表現

NuCLR: Nuclear Co-Learned Representations ( http://arxiv.org/abs/2306.06099v2 )

ライセンス: Link先を確認
Ouail Kitouni, Niklas Nolte, Sokratis Trifinopoulos, Subhash Kantamneni, Mike Williams(参考訳) 我々は, 結合や崩壊エネルギー, 核電荷半径など, 様々な核観測可能性を予測する深層学習モデルであるNuCLRを紹介する。 このモデルは、共有表現を持つマルチタスクアプローチを用いて訓練され、核(宇宙)物理学の基本的な現象を理解するのに不可欠な精度のレベルを達成する。 また,NuCLRの学習表現が核殻モデルの重要な側面,すなわちよく知られたマジックナンバーを含むシェル構造やパウリ排他原理の顕著な出現を示すという興味深い発見を報告する。 これは、このモデルが基礎となる物理原理を捉えることができ、我々のアプローチが核理論に価値ある洞察を与える可能性があることを示唆している。

We introduce Nuclear Co-Learned Representations (NuCLR), a deep learning model that predicts various nuclear observables, including binding and decay energies, and nuclear charge radii. The model is trained using a multi-task approach with shared representations and obtains state-of-the-art performance, achieving levels of precision that are crucial for understanding fundamental phenomena in nuclear (astro)physics. We also report an intriguing finding that the learned representation of NuCLR exhibits the prominent emergence of crucial aspects of the nuclear shell model, namely the shell structure, including the well-known magic numbers, and the Pauli Exclusion Principle. This suggests that the model is capable of capturing the underlying physical principles and that our approach has the potential to offer valuable insights into nuclear theory.
翻訳日:2023-07-25 20:55:43 公開日:2023-07-21
# 推測時間干渉:言語モデルからの真理回答の除去

Inference-Time Intervention: Eliciting Truthful Answers from a Language Model ( http://arxiv.org/abs/2306.03341v3 )

ライセンス: Link先を確認
Kenneth Li, Oam Patel, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg(参考訳) Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の真正性を高めるために設計された手法である。 ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。 この介入により、TruthfulQAベンチマークにおけるLLaMAモデルの性能が大幅に向上する。 アルパカ (Alpaca) と呼ばれる命令を微調整したLLaMAでは、ITIは真実性を32.5%から65.1%に改善している。 真理と有益さのトレードオフを特定し,介入力の調整によってバランスをとる方法を示す。 ITIは最小限の侵襲性と計算コストがかかる。 さらに、この手法はデータ効率が良い: RLHFのようなアプローチは広範なアノテーションを必要とするが、ITIは数百の例を使って真正な方向を見つける。 以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。

We introduce Inference-Time Intervention (ITI), a technique designed to enhance the truthfulness of large language models (LLMs). ITI operates by shifting model activations during inference, following a set of directions across a limited number of attention heads. This intervention significantly improves the performance of LLaMA models on the TruthfulQA benchmark. On an instruction-finetuned LLaMA called Alpaca, ITI improves its truthfulness from 32.5% to 65.1%. We identify a tradeoff between truthfulness and helpfulness and demonstrate how to balance it by tuning the intervention strength. ITI is minimally invasive and computationally inexpensive. Moreover, the technique is data efficient: while approaches like RLHF require extensive annotations, ITI locates truthful directions using only few hundred examples. Our findings suggest that LLMs may have an internal representation of the likelihood of something being true, even as they produce falsehoods on the surface.
翻訳日:2023-07-25 20:55:03 公開日:2023-07-21
# 分子動力学シミュレータにおける探索空間の制御強化 : 生成的制御政策によるド・ノボ解析の合理化

Augmenting Control over Exploration Space in Molecular Dynamics Simulators to Streamline De Novo Analysis through Generative Control Policies ( http://arxiv.org/abs/2306.14705v2 )

ライセンス: Link先を確認
Paloma Gonzalez-Rojas, Andrew Emmel, Luis Martinez, Neil Malur, Gregory Rutledge(参考訳) 本研究では,分子動力学シミュレーション(md)における制御,有効性,拡張性を高めるために強化学習(rl)を用いた基礎的手法であるp5モデルを紹介する。 我々の革新的な戦略は、標的となるポリマー鎖の配列のサンプリングを最適化し、37.1%以上の効率改善を示す。 RLによって引き起こされる制御ポリシーは誘導バイアスとして機能し、ブラウン力を変化させてシステムを望ましい状態へと誘導し、従来のMDが許す以上の構成空間の探索を拡大する。 この拡張された探索は、より多様なコンフォメーションと特定の特性を目標とし、ポリマーの開発、薬物発見、材料設計の進展に欠かせない特徴である。 本手法は, 先行知識が限られている新しいシステムにおいて, 複雑なシミュレーション問題を生成技術で解くための新しい手法を開拓する上で, 重要な利点を提供する。

This study introduces the P5 model - a foundational method that utilizes reinforcement learning (RL) to augment control, effectiveness, and scalability in molecular dynamics simulations (MD). Our innovative strategy optimizes the sampling of target polymer chain conformations, marking an efficiency improvement of over 37.1%. The RL-induced control policies function as an inductive bias, modulating Brownian forces to steer the system towards the preferred state, thereby expanding the exploration of the configuration space beyond what traditional MD allows. This broadened exploration generates a more varied set of conformations and targets specific properties, a feature pivotal for progress in polymer development, drug discovery, and material design. Our technique offers significant advantages when investigating new systems with limited prior knowledge, opening up new methodologies for tackling complex simulation problems with generative techniques.
翻訳日:2023-07-25 20:45:59 公開日:2023-07-21
# データサイエンスの公理:データサイエンスの性質、価値、リスク

A data science axiology: the nature, value, and risks of data science ( http://arxiv.org/abs/2307.10460v2 )

ライセンス: Link先を確認
Michael L. Brodie(参考訳) データサイエンスは科学ではない。 未知のスコープ、スケール、複雑さ、知識発見の力を持つ研究パラダイムであり、そうでなければ不可能であり、人間の推論を超えることができる。 AIアームレースのあらゆる分野において、すでに何万ものアプリケーションに広く展開されている私たちの世界は、現実的にも深くも変化しています。 本稿では,データ科学の公理,その目的,性質,重要性,リスク,および問題解決の価値について,その顕著な,決定的な特徴を探求し,評価する。 データ科学が初期段階にあるため、この初期の投機的公理学は、データ科学を理解して定義し、その潜在的な利益、リスク、そしてオープンな研究課題を認識することを目的としている。 AIベースのデータサイエンスは本質的に、科学の確実性よりも現実的な不確実性に関するものです。 データサイエンスは、知識発見を超えて、世界を理解する新しい方法に私たちを導いてくれるでしょう。

Data science is not a science. It is a research paradigm with an unfathomed scope, scale, complexity, and power for knowledge discovery that is not otherwise possible and can be beyond human reasoning. It is changing our world practically and profoundly already widely deployed in tens of thousands of applications in every discipline in an AI Arms Race that, due to its inscrutability, can lead to unfathomed risks. This paper presents an axiology of data science, its purpose, nature, importance, risks, and value for problem solving, by exploring and evaluating its remarkable, definitive features. As data science is in its infancy, this initial, speculative axiology is intended to aid in understanding and defining data science to recognize its potential benefits, risks, and open research challenges. AI based data science is inherently about uncertainty that may be more realistic than our preference for the certainty of science. Data science will have impacts far beyond knowledge discovery and will take us into new ways of understanding the world.
翻訳日:2023-07-25 19:59:02 公開日:2023-07-21
# トーラス上の多成分領域におけるキラルフェルミオンのモジュラー共役

Modular conjugation for the chiral fermion in multicomponent regions on the torus ( http://arxiv.org/abs/2307.11819v1 )

ライセンス: Link先を確認
Nicol\'as Abate, Mateo Koifman(参考訳) 我々は1+1ドルの時空次元の一般多成分領域における無質量ディラック場に対する富田・竹崎モジュラー共役の研究を継続する。 本稿では,円上の熱状態の計算,すなわちユークリッドトーラスに焦点をあてる。 モジュラーフローからの解析的継続により、このシナリオにおけるモジュラー共役の明示的な表現に到達し、その関連する極限を導出する。 直線上の真空の場合とは対照的に、この新しい結果は連結領域においても非局所的な挙動を持つ。 これはまた、混合状態を扱うために導入しなければならない浄化から生じる新しい寄与、すなわち、領域の作用素の代数を大域の作用素のコピー、いわゆる「第二世界」代数のコピーにマッピングする用語も提示する。

We continue the study of the Tomita-Takesaki modular conjugation for a massless Dirac field in a generic multicomponent region in $1+1$ spacetime dimensions. In this paper we focus on the computations for a thermal state on a circle, namely on the euclidean torus. By analytic continuation from the modular flow we arrive at an explicit expression for the modular conjugation in this scenario and derive its relevant limits. In contrast to the case of the vacuum on the line, this new result has a non-local behaviour even for connected regions. It also presents a novel contribution coming from the purification one has to introduce in order to deal with a mixed state: a term that maps the algebra of operators of the region to a copy of the global one, the so called 'second world' algebra.
翻訳日:2023-07-25 19:40:51 公開日:2023-07-21
# バイレベル最適化を用いた病理画像の自動データ拡張学習

Automatic Data Augmentation Learning using Bilevel Optimization for Histopathological Images ( http://arxiv.org/abs/2307.11808v1 )

ライセンス: Link先を確認
Saypraseuth Mounsaveng and Issam Laradji and David V\'azquez and Marco Perdersoli and Ismail Ben Ayed(参考訳) 組織像を分類するための深層学習モデルの訓練は、細胞や組織の色と形状の多様性と、それらのバリエーションを適切に学べない利用可能なデータの量が少ないため、困難である。 例えば、異なる細胞染色プロトコルや組織変形のために、画像取得プロセスから変化が生じることがある。 この課題に対処するために、Data Augmentation (DA) はトレーニング中に既存のデータに変換を適用してサンプルを追加することで、モデルが色や形状の変換に不変になるのに役立つ。 daの問題は、データセットに特有なだけでなく、ドメインの知識も必要だということです。 この知識がなければ、正しい変換の選択はヒューリスティックスや計算に要求される探索によってのみ行うことができる。 そこで本稿では,自動DA学習手法を提案する。 本手法では,モデルトレーニングを改善するのに必要な変換パラメータであるDAパラメータを学習可能とみなし,二段階最適化手法を高速かつ効率的な方法で学習する。 この手法を6つの異なるデータセットで検証した。 実験の結果,本モデルは,事前定義されたda変換よりも画像分類器の訓練に有用な色およびアフィン変換を学習できることがわかった。 また、RandAugmentでトレーニングされたモデルと同様に、我々のモデルはチューニングするメソッド固有のハイパーパラメータもわずかにしかありませんが、パフォーマンスは向上しています。 これにより,本モデルは最高のDAパラメータ,特に組織像の文脈において,潜在的に有用な変換をヒューリスティックに定義することは容易ではない。

Training a deep learning model to classify histopathological images is challenging, because of the color and shape variability of the cells and tissues, and the reduced amount of available data, which does not allow proper learning of those variations. Variations can come from the image acquisition process, for example, due to different cell staining protocols or tissue deformation. To tackle this challenge, Data Augmentation (DA) can be used during training to generate additional samples by applying transformations to existing ones, to help the model become invariant to those color and shape transformations. The problem with DA is that it is not only dataset-specific but it also requires domain knowledge, which is not always available. Without this knowledge, selecting the right transformations can only be done using heuristics or through a computationally demanding search. To address this, we propose an automatic DA learning method. In this method, the DA parameters, i.e. the transformation parameters needed to improve the model training, are considered learnable and are learned automatically using a bilevel optimization approach in a quick and efficient way using truncated backpropagation. We validated the method on six different datasets. Experimental results show that our model can learn color and affine transformations that are more helpful to train an image classifier than predefined DA transformations, which are also more expensive as they need to be selected before the training by grid search on a validation set. We also show that similarly to a model trained with RandAugment, our model has also only a few method-specific hyperparameters to tune but is performing better. This makes our model a good solution for learning the best DA parameters, especially in the context of histopathological images, where defining potentially useful transformation heuristically is not trivial.
翻訳日:2023-07-25 19:40:36 公開日:2023-07-21
# オーバーパラメータ畳み込みニューラルネットワークにおける特徴学習のメカニズムとしての局所カーネル再正規化

Local Kernel Renormalization as a mechanism for feature learning in overparametrized Convolutional Neural Networks ( http://arxiv.org/abs/2307.11807v1 )

ライセンス: Link先を確認
R. Aiudi, R. Pacelli, A. Vezzani, R. Burioni, P. Rotondo(参考訳) 機能学習、あるいはディープニューラルネットワークが生データから関連する機能を自動学習する能力は、複雑なタスクを解決するための例外的な能力の基盤となる。 しかし、機能学習は完全連結(FC)や畳み込みアーキテクチャ(CNN)において異なる方法で実現されているようである。 実証的な証拠は、無限幅限界のfcニューラルネットワークが最終的に有限幅のニューラルネットワークを上回ることを示している。 無限幅ネットワークを記述するカーネルはトレーニング中に進化しないので、深いfcアーキテクチャで起こるどんな特徴学習も一般化を改善するのにはあまり役に立たない。 一方,畳み込み層を持つ最先端アーキテクチャは有限幅環境において最適性能を達成し,この場合,効果的な特徴学習が出現することが示唆された。 本稿では,これらの差異の理論的根拠を1つの隠れ層ネットワークで提供する,単純な理論的枠組みを提案する。 まず,有限幅fcネットワークの一般化性能は,ガウス前駆体の適切な選択により,無限幅ネットワークによって得られることを示す。 第2に,一つの畳み込み隠れ層を持つアーキテクチャに対して,有限幅有効作用を導出し,fcネットワークで得られる結果と比較する。 FCアーキテクチャのカーネルは1つのスカラーパラメータによってグローバルに再正規化されているのに対し、CNNカーネルは局所的な再正規化を受けており、ネットワークはデータ依存の方法で最終的な予測に寄与するローカルコンポーネントを選択できる。 この発見は、過パラメータな浅いcnnでは起こり得るが、浅いfcアーキテクチャや、重みを共有することなくローカルに接続されたニューラルネットワークでは起こり得ない、機能学習のための単純なメカニズムを強調している。

Feature learning, or the ability of deep neural networks to automatically learn relevant features from raw data, underlies their exceptional capability to solve complex tasks. However, feature learning seems to be realized in different ways in fully-connected (FC) or convolutional architectures (CNNs). Empirical evidence shows that FC neural networks in the infinite-width limit eventually outperform their finite-width counterparts. Since the kernel that describes infinite-width networks does not evolve during training, whatever form of feature learning occurs in deep FC architectures is not very helpful in improving generalization. On the other hand, state-of-the-art architectures with convolutional layers achieve optimal performances in the finite-width regime, suggesting that an effective form of feature learning emerges in this case. In this work, we present a simple theoretical framework that provides a rationale for these differences, in one hidden layer networks. First, we show that the generalization performance of a finite-width FC network can be obtained by an infinite-width network, with a suitable choice of the Gaussian priors. Second, we derive a finite-width effective action for an architecture with one convolutional hidden layer and compare it with the result available for FC networks. Remarkably, we identify a completely different form of kernel renormalization: whereas the kernel of the FC architecture is just globally renormalized by a single scalar parameter, the CNN kernel undergoes a local renormalization, meaning that the network can select the local components that will contribute to the final prediction in a data-dependent way. This finding highlights a simple mechanism for feature learning that can take place in overparametrized shallow CNNs, but not in shallow FC architectures or in locally connected neural networks without weight sharing.
翻訳日:2023-07-25 19:40:08 公開日:2023-07-21
# ボース・アインシュタイン凝縮ネックレスのダークソリトンを用いた自由ボーソンガスのスペクトル記憶におけるソリトン状態のインプリント

Using dark solitons from a Bose-Einstein condensate necklace to imprint soliton states in the spectral memory of a free boson gas ( http://arxiv.org/abs/2307.11803v1 )

ライセンス: Link先を確認
Alain M. Dikande(参考訳) 自由ボソン気体の量子メモリにソリトン状態を保存するために、ボース・アインシュタイン凝縮体によって生成される物質-波ダークソリトン結晶の応用の可能性を探る。 分散とボース・アインシュタイン凝縮体の有限サイズを組み合わせた自己焦点の非線形性は、自由ボーソン気体のスペクトルにジャコビ楕円型ソリトン波動関数と量子状態をインプリントする暗いソリトン結晶の生成を好む。 この問題はGross-Pitaevskii方程式を正の散乱長で考慮し、自由ボソン気体に対する線形シュリンガー方程式と結合することによって定式化される。 物質-波のダークソリトン-結晶溶液の助けを借りて、自由ボソン気体中に生成される境界状態のスペクトルは、Lam\'e固有値問題によって決定される。 このスペクトルは$\vert \nu, \mathcal{l} \rangle$ 量子状態から成り、波動関数とエネルギー固有値は曖昧に識別できる。 これらの固有状態の中には、生成するダークソリトン結晶のレプリカである波動関数を持つものもある。

A possible use of matter-wave dark-soliton crystal produced by a Bose-Einstein condensate with ring geometry, to store soliton states in the quantum memory of a free boson gas, is explored. A self-defocusing nonlinearity combined with dispersion and the finite size of the Bose-Einstein condensate, favor the creation of dark-soliton crystals that imprint quantum states with Jacobi elliptic-type soliton wavefunctions in the spectrum of the free boson gas. The problem is formulated by considering the Gross-Pitaevskii equation with a positive scattering length, coupled to a linear Schr\"odinger equation for the free boson gas. With the help of the matter-wave dark soliton-crystal solution, the spectrum of bound states created in the free boson gas is shown to be determined by the Lam\'e eigenvalue problem. This spectrum consists of $\vert \nu, \mathcal{L} \rangle$ quantum states whose wave functions and energy eigenvalues can be unambiguously identified. Among these eigenstates some have their wave functions that are replicas of the generating dark soliton crystal.
翻訳日:2023-07-25 19:39:13 公開日:2023-07-21
# 動的車両経路に対するハイブリッド遺伝的探索の適用

Adapting Hybrid Genetic Search for Dynamic Vehicle Routing ( http://arxiv.org/abs/2307.11800v1 )

ライセンス: Link先を確認
Mohammed Ghannam and Ambros Gleixner(参考訳) 時間窓付き動的車両ルーティング問題(DVRPTW)は、従来のVRPTWをオンライン環境に一般化したものである。 本稿では,VRPTWのためのヒューリスティックアルゴリズムであるHybrid Genetic Search (HGS)アルゴリズムを動的変種に適用する。 本稿では,hgsアルゴリズムの影響を受ける構成要素として,巨大ツーリング表現,コスト計算,初期個体数,クロスオーバー,局所探索について論じる。 弊社のアプローチでは、これらのコンポーネントをDVRPTWに修正し、ソリューションの品質と今後の顧客の到着に対する制約のバランスを図っている。 この目的のために私たちは,異なるサイズのソリューションを比較し,コストを正規化し,事前のトレーニングを必要としない将来の時代を計算するための手法を考案する。 この制限にもかかわらず、EUROのデータに対する計算結果がNeurIPS Vehicle Routing Competition 2022と一致し、最高の性能のベースラインアルゴリズムよりも解の質が大幅に向上した。

The dynamic vehicle routing problem with time windows (DVRPTW) is a generalization of the classical VRPTW to an online setting, where customer data arrives in batches and real-time routing solutions are required. In this paper we adapt the Hybrid Genetic Search (HGS) algorithm, a successful heuristic for VRPTW, to the dynamic variant. We discuss the affected components of the HGS algorithm including giant-tour representation, cost computation, initial population, crossover, and local search. Our approach modifies these components for DVRPTW, attempting to balance solution quality and constraints on future customer arrivals. To this end, we devise methods for comparing different-sized solutions, normalizing costs, and accounting for future epochs that do not require any prior training. Despite this limitation, computational results on data from the EURO meets NeurIPS Vehicle Routing Competition 2022 demonstrate significantly improved solution quality over the best-performing baseline algorithm.
翻訳日:2023-07-25 19:38:20 公開日:2023-07-21
# ウェアラブルセンサデータを用いた人間行動認識のための教師なし埋め込み学習

Unsupervised Embedding Learning for Human Activity Recognition Using Wearable Sensor Data ( http://arxiv.org/abs/2307.11796v1 )

ライセンス: Link先を確認
Taoran Sheng and Manfred Huber(参考訳) 広く使われているスマートフォンやその他のウェアラブルデバイスに埋め込まれたセンサーは、人間の活動のデータをアクセスしやすくする。 しかし,ウェアラブルセンサデータから異なるヒューマンアクティビティを認識することはユビキタスコンピューティングにおける課題である。 理由のひとつは、取得したデータの大部分にラベルがないことだ。 本稿では,人間活動の性質に基づいて,人間活動が密接に連携する組込み空間に人間活動を投影する非監督的アプローチを提案する。 これを使うことで、後続のクラスタリングアルゴリズムは、人が実行する異なるアクティビティを表す行動クラスタを形成する組込みの恩恵を受けることができる。 3つのラベル付きベンチマークデータセットにおける実験の結果、このフレームワークの有効性を実証し、クラスタリングアルゴリズムが基礎となるヒューマンアクティビティの識別と分類において、元のデータセットに直接適用される教師なしのテクニックに比べて優れたパフォーマンスを達成するのに役立つことを示した。

The embedded sensors in widely used smartphones and other wearable devices make the data of human activities more accessible. However, recognizing different human activities from the wearable sensor data remains a challenging research problem in ubiquitous computing. One of the reasons is that the majority of the acquired data has no labels. In this paper, we present an unsupervised approach, which is based on the nature of human activity, to project the human activities into an embedding space in which similar activities will be located closely together. Using this, subsequent clustering algorithms can benefit from the embeddings, forming behavior clusters that represent the distinct activities performed by a person. Results of experiments on three labeled benchmark datasets demonstrate the effectiveness of the framework and show that our approach can help the clustering algorithm achieve improved performance in identifying and categorizing the underlying human activities compared to unsupervised techniques applied directly to the original data set.
翻訳日:2023-07-25 19:37:51 公開日:2023-07-21
# 音声認識能力を有する大規模言語モデルの提案

Prompting Large Language Models with Speech Recognition Abilities ( http://arxiv.org/abs/2307.11795v1 )

ライセンス: Link先を確認
Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Ke Li, Jinxi Guo, Wenhan Xiong, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer(参考訳) 大規模な言語モデルは、非常に柔軟であることが証明され、抽象的な要約やオープンな質問応答など、幅広い生成タスクを解くことができる。 本稿では,小型オーディオエンコーダを内蔵し,音声認識を実現することで,llmの機能を拡張する。 テキストトークン埋め込みへの聴覚埋め込みのシーケンスを直接予測することにより、LLMは自動音声認識(ASR)システムに変換することができ、そのテキストと全く同じ方法で使用することができる。 MLS(Multilingual LibriSpeech)の実験によると、オープンソースのLLaMA-7Bにコンバータエンコーダを組み込むことで、LLaMAは英語のテキストで圧倒的に訓練されているにも関わらず、モノリンガルベースラインを18%上回り、多言語音声認識を行うことができる。 さらに,学習中にLLMが完全に凍結して元の能力を維持することができるか,オーディオエンコーダをスケールアップし,オーディオエンコーダを増大させ,埋め込みを減らそうとしている。 これらの結果から,LLMが凍結した場合でも,あるいは1秒近いストライドが音声エンコーダで使用されている場合でも,LLMが長めの音声で操作できる可能性が示唆された。

Large language models have proven themselves highly flexible, able to solve a wide range of generative tasks, such as abstractive summarization and open-ended question answering. In this paper we extend the capabilities of LLMs by directly attaching a small audio encoder allowing it to perform speech recognition. By directly prepending a sequence of audial embeddings to the text token embeddings, the LLM can be converted to an automatic speech recognition (ASR) system, and be used in the exact same manner as its textual counterpart. Experiments on Multilingual LibriSpeech (MLS) show that incorporating a conformer encoder into the open sourced LLaMA-7B allows it to outperform monolingual baselines by 18% and perform multilingual speech recognition despite LLaMA being trained overwhelmingly on English text. Furthermore, we perform ablation studies to investigate whether the LLM can be completely frozen during training to maintain its original capabilities, scaling up the audio encoder, and increasing the audio encoder striding to generate fewer embeddings. The results from these studies show that multilingual ASR is possible even when the LLM is frozen or when strides of almost 1 second are used in the audio encoder opening up the possibility for LLMs to operate on long-form audio.
翻訳日:2023-07-25 19:37:36 公開日:2023-07-21
# 改良されたトランスフォーマーとcganニューラルネットワークによる人工知能によるテラヘルツ多重共鳴メタサーフェス

Artificial Intelligence-Generated Terahertz Multi-Resonant Metasurfaces via Improved Transformer and CGAN Neural Networks ( http://arxiv.org/abs/2307.11794v1 )

ライセンス: Link先を確認
Yangpeng Huang, Naixing Feng, Yijun Cai(参考訳) 従来のディープニューラルネットワーク(DNN)を用いたテラヘルツ(THz)多共振グラフェン準曲面の逆設計は、限定的な一般化能力を有することが知られている。 本稿では, THz多共振吸収スペクトルに基づくグラフェン準曲面の逆設計のための改良型トランスフォーマーと条件付き逆方向ニューラルネットワーク(CGAN)を提案する。 改良されたトランスフォーマーは、従来のマルチ層パーセプトロン(MLP)ニューラルネットワークと比較してStoV(Spectrum to Vector)設計の精度と一般化性能が向上し、CGANにより達成されたStoI(Spectrum to Image)設計は、MLPによって得られたStoV設計よりもより包括的な情報と精度を提供することができる。 さらに,改良されたCGANは,所望の多共振吸収スペクトルから直接グラフェン変色画像の逆設計を実現することができる。 この研究は、AIGM(AIGM)の設計プロセスの簡易化に役立ち、生成ニューラルネットワークを用いた2次元材料に基づく複雑なTHz変成層の開発に有用なガイドを提供することができることが判明した。

It is well known that the inverse design of terahertz (THz) multi-resonant graphene metasurfaces by using traditional deep neural networks (DNNs) has limited generalization ability. In this paper, we propose improved Transformer and conditional generative adversarial neural networks (CGAN) for the inverse design of graphene metasurfaces based upon THz multi-resonant absorption spectra. The improved Transformer can obtain higher accuracy and generalization performance in the StoV (Spectrum to Vector) design compared to traditional multilayer perceptron (MLP) neural networks, while the StoI (Spectrum to Image) design achieved through CGAN can provide more comprehensive information and higher accuracy than the StoV design obtained by MLP. Moreover, the improved CGAN can achieve the inverse design of graphene metasurface images directly from the desired multi-resonant absorption spectra. It is turned out that this work can finish facilitating the design process of artificial intelligence-generated metasurfaces (AIGM), and even provide a useful guide for developing complex THz metasurfaces based on 2D materials using generative neural networks.
翻訳日:2023-07-25 19:37:13 公開日:2023-07-21
# 銀行業務自動化のためのマルチモーダル文書分析

Multimodal Document Analytics for Banking Process Automation ( http://arxiv.org/abs/2307.11845v1 )

ライセンス: Link先を確認
Christopher Gerling, Stefan Lessmann(参考訳) 本研究は,フィンテックの競争の激化と運用効率の向上の必要性に対して,銀行プロセスにおける高度な文書分析,特にマルチモーダルモデルの利用の可能性を理解することに焦点を当てる。 我々は、顧客ビジネスにおける自動化と高度な分析技術による効率向上の機会を強調し、多様な銀行文書の展望を包括的に分析する。 自然言語処理(NLP)の急速に発展する分野を基盤として,銀行部門における多言語・多モーダル・事前訓練モデルであるLayoutXLMのようなモデルの可能性について述べる。 このモデルでは、ドイツの企業レジスタ抽出データに対して、F1スコア全体の約80\%のパフォーマンスでテキストトークン分類を行う。 実験結果から,レイアウト情報のモデル性能向上に重要な役割が果たされ,画像情報統合のメリットがさらに強調された。 興味深いことに,本研究ではトレーニングデータのわずか30%で75%以上のF1スコアが達成でき,LayoutXLMの効率性が示された。 本研究は,最先端の文書分析フレームワークに取り組み,プロセス効率の向上と,銀行におけるマルチモーダルモデルの適用性とメリットの実証を目的とする。

In response to growing FinTech competition and the need for improved operational efficiency, this research focuses on understanding the potential of advanced document analytics, particularly using multimodal models, in banking processes. We perform a comprehensive analysis of the diverse banking document landscape, highlighting the opportunities for efficiency gains through automation and advanced analytics techniques in the customer business. Building on the rapidly evolving field of natural language processing (NLP), we illustrate the potential of models such as LayoutXLM, a cross-lingual, multimodal, pre-trained model, for analyzing diverse documents in the banking sector. This model performs a text token classification on German company register extracts with an overall F1 score performance of around 80\%. Our empirical evidence confirms the critical role of layout information in improving model performance and further underscores the benefits of integrating image information. Interestingly, our study shows that over 75% F1 score can be achieved with only 30% of the training data, demonstrating the efficiency of LayoutXLM. Through addressing state-of-the-art document analysis frameworks, our study aims to enhance process efficiency and demonstrate the real-world applicability and benefits of multimodal models within banking.
翻訳日:2023-07-25 19:28:46 公開日:2023-07-21
# izhikevichニューロンを用いたloihi 2のバイオリアリスティックニューラルネットワークによる実装

Bio-realistic Neural Network Implementation on Loihi 2 with Izhikevich Neurons ( http://arxiv.org/abs/2307.11844v1 )

ライセンス: Link先を確認
Recep Bu\u{g}ra Uluda\u{g} and Serhat \c{C}a\u{g}da\c{s} and Yavuz Selim \.I\c{s}ler and Neslihan Serap \c{S}eng\"or and Ismail Akturk(参考訳) 本稿では,バイオリアリスティックな基底神経節ニューラルネットワークと,intelのloihiニューロモルフィックプロセッサと統合することにより,単純なgo/no-goタスクを実現する。 よりバイオリアリスティックで多様なニューロン動態を組み込むために、Loihiを内蔵したLeaky-Integrate and Fire(LIF)ニューロンモデルの代わりに、マイクロコードとして実装されたIzhikevichニューロンモデルを使用しました。 本研究は,これらのカスタムニューロンを特徴とするスパイクニューラルネットワーク(snn)構築のためのloihi上の計算効率の高いカスタムニューロンモデルの実現可能性を示すことを目的としている。

In this paper, we presented a bio-realistic basal ganglia neural network and its integration into Intel's Loihi neuromorphic processor to perform simple Go/No-Go task. To incorporate more bio-realistic and diverse set of neuron dynamics, we used Izhikevich neuron model, implemented as microcode, instead of Leaky-Integrate and Fire (LIF) neuron model that has built-in support on Loihi. This work aims to demonstrate the feasibility of implementing computationally efficient custom neuron models on Loihi for building spiking neural networks (SNNs) that features these custom neurons to realize bio-realistic neural networks.
翻訳日:2023-07-25 19:28:25 公開日:2023-07-21
# ユニバーサル空間モード再構築のためのスマートマシンビジョン

Smart Machine Vision for Universal Spatial Mode Reconstruction ( http://arxiv.org/abs/2307.11841v1 )

ライセンス: Link先を確認
Jos\'e D. Huerta-Morales and Chenglong You and Omar S. Maga\~na-Loaiza and Shi-Hai Dong and Roberto de J. Le\'on-Montiel and Mario A. Quiroz-Ju\'arez(参考訳) 構造化光線、特に軌道角運動量(oam)を担っている光は、通信システムの伝送能力を拡大する可能性があるため、多くの注目を集めている。 しかし、通信におけるOAM光の利用は、大気や光ファイバーなどの乱れた媒体の伝搬中に発生する歪みと、高次OAMモードが経験する大きなばらつきの2つの大きな問題に直面している。 非直交モードを使用すると高次oamフィールドの発散を回避することができるが、ai(artificial intelligence)アルゴリズムはモード歪み問題を解決する可能性を示している。 残念なことに、現在のAIベースのアルゴリズムでは、大きな処理時間と高消費電力につながる大規模なデータ処理プロトコルを使用している。 ここでは,低消費電力で低コストなイメージセンサが,歪んだoam搬送ビームを同時に検出し再構成する人工ニューラルネットワークとして機能することを示す。 我々は,各Vortex,Laguerre-Gaussian(LG),Besselモード,およびそのようなモードのハイブリッド(直交でない)コヒーレントな重ね合わせを再構成することにより,デバイスの性能を実証する。 我々の研究は、低消費電力光ベースの通信装置の開発に有用な基盤を提供する。

Structured light beams, in particular those carrying orbital angular momentum (OAM), have gained a lot of attention due to their potential for enlarging the transmission capabilities of communication systems. However, the use of OAM-carrying light in communications faces two major problems, namely distortions introduced during propagation in disordered media, such as the atmosphere or optical fibers, and the large divergence that high-order OAM modes experience. While the use of non-orthogonal modes may offer a way to circumvent the divergence of high-order OAM fields, artificial intelligence (AI) algorithms have shown promise for solving the mode-distortion issue. Unfortunately, current AI-based algorithms make use of large-amount data-handling protocols that generally lead to large processing time and high power consumption. Here we show that a low-power, low-cost image sensor can itself act as an artificial neural network that simultaneously detects and reconstructs distorted OAM-carrying beams. We demonstrate the capabilities of our device by reconstructing (with a 95$\%$ efficiency) individual Vortex, Laguerre-Gaussian (LG) and Bessel modes, as well as hybrid (non-orthogonal) coherent superpositions of such modes. Our work provides a potentially useful basis for the development of low-power-consumption, light-based communication devices.
翻訳日:2023-07-25 19:28:12 公開日:2023-07-21
# スパースセンサのデータ誘起相互作用

Data-Induced Interactions of Sparse Sensors ( http://arxiv.org/abs/2307.11838v1 )

ライセンス: Link先を確認
Andrei A. Klishin, J. Nathan Kutz, Krithika Manohar(参考訳) 科学と工学における大次元経験データはしばしば低位構造を持ち、数個の固有モードの組み合わせとして表現できる。 この構造により、複雑なシステムの完全な状態を再構築するために、空間的局所化センサの測定をわずかに行うことができる。 この再構成の質、特にセンサノイズの存在下では、センサーの空間的配置に大きく依存する。 センサ配置を最適化するために、ギャップ補間とqr因子分解に基づく複数のアルゴリズムが提案されている。 ここでは、特異な「最適」センサ構成を出力するアルゴリズムの代わりに、トレーニングデータによって誘導されるセンサインタラクションの全体像を熱力学ビューで計算する。 ランドスケープは統計物理学におけるイジングモデル(Ising model)の形式を採り、各センサーの位置とセンサー間のクロストークで取得したデータのばらつきを考慮に入れている。 これらのデータによるセンサーの相互作用をマッピングすることで、外部選択基準と組み合わせ、センサーの代替効果を予測することができる。

Large-dimensional empirical data in science and engineering frequently has low-rank structure and can be represented as a combination of just a few eigenmodes. Because of this structure, we can use just a few spatially localized sensor measurements to reconstruct the full state of a complex system. The quality of this reconstruction, especially in the presence of sensor noise, depends significantly on the spatial configuration of the sensors. Multiple algorithms based on gappy interpolation and QR factorization have been proposed to optimize sensor placement. Here, instead of an algorithm that outputs a singular "optimal" sensor configuration, we take a thermodynamic view to compute the full landscape of sensor interactions induced by the training data. The landscape takes the form of the Ising model in statistical physics, and accounts for both the data variance captured at each sensor location and the crosstalk between sensors. Mapping out these data-induced sensor interactions allows combining them with external selection criteria and anticipating sensor replacement impacts.
翻訳日:2023-07-25 19:27:47 公開日:2023-07-21
# PINNsFormer:物理インフォームドニューラルネットワークのためのトランスフォーマーベースのフレームワーク

PINNsFormer: A Transformer-Based Framework For Physics-Informed Neural Networks ( http://arxiv.org/abs/2307.11833v1 )

ライセンス: Link先を確認
Leo Zhiyuan Zhao, Xueying Ding, B. Aditya Prakash(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の数値解を近似するための有望なディープラーニングフレームワークとして登場した。 従来のPINNおよびほとんどの研究は、バックボーン構造として完全連結多層パーセプトロン(MLP)を採用しているが、彼らはPDEの時間的関係を無視し、真の解を近似しなかった。 本稿では,多頭部注意機構を用いたトランスフォーマモデルにおいて,pdesの解を高精度に近似する新しいトランスフォーマフレームワークであるpinnsformerを提案する。 PINNsFormerは、点予測を近似する代わりに、入力ベクトルを擬似シーケンスに適応し、ポイントワイズPINNの損失を逐次PINNの損失に適応させる。 さらに、PINNsFormerは、ディープニューラルネットワークを介してフーリエ分解を予測する、新しいアクティベーション機能であるWaveletを備えている。 従来の PINN が学習に失敗した様々なシナリオで PDE ソリューションをキャプチャする PINNsFormer の能力を実証的に示す。 また, PINNsFormerは, 差分計算とメモリコストのトレードオフにより, 従来の非感度ハイパーパラメータのPINNよりも高い近似精度を実現し, 広範囲な実験を行った。

Physics-Informed Neural Networks (PINNs) have emerged as a promising deep learning framework for approximating numerical solutions for partial differential equations (PDEs). While conventional PINNs and most related studies adopt fully-connected multilayer perceptrons (MLP) as the backbone structure, they have neglected the temporal relations in PDEs and failed to approximate the true solution. In this paper, we propose a novel Transformer-based framework, namely PINNsFormer, that accurately approximates PDEs' solutions by capturing the temporal dependencies with multi-head attention mechanisms in Transformer-based models. Instead of approximating point predictions, PINNsFormer adapts input vectors to pseudo sequences and point-wise PINNs loss to a sequential PINNs loss. In addition, PINNsFormer is equipped with a novel activation function, namely Wavelet, which anticipates the Fourier decomposition through deep neural networks. We empirically demonstrate PINNsFormer's ability to capture the PDE solutions for various scenarios, in which conventional PINNs have failed to learn. We also show that PINNsFormer achieves superior approximation accuracy on such problems than conventional PINNs with non-sensitive hyperparameters, in trade of marginal computational and memory costs, with extensive experiments.
翻訳日:2023-07-25 19:27:31 公開日:2023-07-21
# ハミルトンsu(2)シミュレーションの新しい基礎

A new basis for Hamiltonian SU(2) simulations ( http://arxiv.org/abs/2307.11829v1 )

ライセンス: Link先を確認
Christian W. Bauer, Irian D'Andrea, Marat Freytsis, Dorota M. Grabowska(参考訳) 量子コンピューティングハードウェアの急速な改善により、相対論的格子場理論のハミルトンシミュレーションは注目を集めている。 この計算ツールは、完全理論の形式的な無限次元ヒルベルト空間を有限次元空間に変換する必要がある。 ゲージ理論において、ヒルベルト空間の広く用いられる基底は、下層のゲージ群によって誘導される表現に依存し、最も低い次元表現の集合のみを保持するトランケーションを持つ。 これは大きな裸ゲージのカップリングではうまく機能するが、格子理論の連続体極限に必要な小さなカップリングでは効率が低下する。 本研究では、最大木ゲージにおけるSU(2)格子ゲージ理論のシミュレーションに適した新しい基礎を開発する。 特に、磁束固定されたハミルトニアンと電気ゲージ固定されたハミルトニアンの両方の固有値がほとんど保存されるように、ハミルトニアン切断を実行する方法を示し、この基底を結合のすべての値で使用できる。 ほとんど事前の知識が仮定されないため、これは格子ゲージ理論のハミルトン的定式化の主題の紹介としても用いられる。

Due to rapidly improving quantum computing hardware, Hamiltonian simulations of relativistic lattice field theories have seen a resurgence of attention. This computational tool requires turning the formally infinite-dimensional Hilbert space of the full theory into a finite-dimensional one. For gauge theories, a widely-used basis for the Hilbert space relies on the representations induced by the underlying gauge group, with a truncation that keeps only a set of the lowest dimensional representations. This works well at large bare gauge coupling, but becomes less efficient at small coupling, which is required for the continuum limit of the lattice theory. In this work, we develop a new basis suitable for the simulation of an SU(2) lattice gauge theory in the maximal tree gauge. In particular, we show how to perform a Hamiltonian truncation so that the eigenvalues of both the magnetic and electric gauge-fixed Hamiltonian are mostly preserved, which allows for this basis to be used at all values of the coupling. Little prior knowledge is assumed, so this may also be used as an introduction to the subject of Hamiltonian formulations of lattice gauge theories.
翻訳日:2023-07-25 19:27:07 公開日:2023-07-21
# トレーニング済みのDETRをボックスリファインメントで強化する

Enhancing Your Trained DETRs with Box Refinement ( http://arxiv.org/abs/2307.11828v1 )

ライセンス: Link先を確認
Yiqun Chen, Qiang Chen, Peize Sun, Shoufa Chen, Jingdong Wang, Jian Cheng(参考訳) 本稿では,DETR型モデルにおける局所化問題に対する概念的,単純,効率的,汎用的な枠組みを提案する。 非効率に新しいモデルを設計し、スクラッチからトレーニングする代わりに、よく訓練されたモデルにプラグインを追加します。 RefineBoxと呼ばれるこの方法は、軽量な精細化ネットワークによってDETRライクな検出器の出力を洗練する。 RefineBoxは、よく訓練された検出モデルから機能と予測ボックスのみを活用するため、実装とトレーニングが容易である。 トレーニング中にトレーニングされた検出器を凍結するので,本手法も効率的である。 さらに、RefineBoxを様々な訓練された検出モデルに容易に一般化できます。 我々はCOCOとLVISを1.0$で実験する。 実験結果から,RefineBox for DETRとその代表的変種の有効性が示された(第1報)。 例えば、DETR、Conditinal-DETR、DAB-DETR、DN-DETRのパフォーマンスゲインはそれぞれ2.4 AP、2.5 AP、1.9 AP、1.6 APである。 私たちは、現在のdetrライクなモデルのローカライズボトルネックに検出コミュニティの注意を向け、refineboxフレームワークの可能性を強調したいと考えています。 コードとモデルは以下で公開されている。 \href{https://github.com/YiqunChen 1999/RefineBox}{https://github.com/YiqunChen1999/RefineBox}。

We present a conceptually simple, efficient, and general framework for localization problems in DETR-like models. We add plugins to well-trained models instead of inefficiently designing new models and training them from scratch. The method, called RefineBox, refines the outputs of DETR-like detectors by lightweight refinement networks. RefineBox is easy to implement and train as it only leverages the features and predicted boxes from the well-trained detection models. Our method is also efficient as we freeze the trained detectors during training. In addition, we can easily generalize RefineBox to various trained detection models without any modification. We conduct experiments on COCO and LVIS $1.0$. Experimental results indicate the effectiveness of our RefineBox for DETR and its representative variants (Figure 1). For example, the performance gains for DETR, Conditinal-DETR, DAB-DETR, and DN-DETR are 2.4 AP, 2.5 AP, 1.9 AP, and 1.6 AP, respectively. We hope our work will bring the attention of the detection community to the localization bottleneck of current DETR-like models and highlight the potential of the RefineBox framework. Code and models will be publicly available at: \href{https://github.com/YiqunChen1999/RefineBox}{https://github.com/YiqunChen1999/RefineBox}.
翻訳日:2023-07-25 19:26:46 公開日:2023-07-21
# ランダム化半量子行列処理

Randomized semi-quantum matrix processing ( http://arxiv.org/abs/2307.11824v1 )

ライセンス: Link先を確認
Allan Tosta, Thais de Lima Silva, Giancarlo Camilo, Leandro Aolita(参考訳) 量子コンピュータは、重要な行列パラメータ問題に対するゲーム変更実行時のスピードアップの可能性を秘めている。 量子特異値変換(QSVT)形式は、一元的ブロック符号化とチェビシェフ近似による入力行列へのコヒーレントなアクセスの設定における、量子特異値変換(QSVT)形式である。 それでも、有用なエンドユーザーアプリケーションのための物理実装には、大規模なフォールトトレラント量子コンピュータが必要である。 本稿では,初期のフォールトトレラント量子ハードウェアに適した汎用行列関数のモンテカルロシミュレーションのためのハイブリッド量子古典フレームワークを提案する。 我々のアルゴリズムはチェビシェフ多項式上のランダム化を行うが、行列オラクル量子を保ち、選択後の必要性を取り除くアダマールテストの変種によって補助される。 結果として、標準QSVTの完全量子の場合と同様の統計的オーバーヘッドを特徴とし、回路深さの劣化は生じない。 逆に、平均回路深度は著しく小さい。 本手法は,量子マルコフ連鎖モンテカルロと仮想時間発展によるパーティショニング関数推定,エンドツーエンド線形系解法,基底状態エネルギー推定の4つのユースケースに適用する。 これらの場合、コストのかかるパラメータの二次速度アップや近似誤差依存性の除去など、最大深度よりも平均的な利点が証明される。 なぜなら、ノイズの有害な効果は、ノイズの非分極化とコヒーレントエラーを明示的に示すように、平均的な(そして最大ではない)クエリ深さにスケールするためである。 全体として、我々のフレームワークは、初期のフォールトトレラントな量子線形代数アプリケーションへの実践的な経路を提供する。

Quantum computers have the potential for game-changing runtime speed-ups for important matrix-arithmetic problems. A prominent toolbox for that is the quantum singular-value transformation (QSVT) formalism in the setting of coherent access to the input matrix via a unitary block encoding and Chebyshev approximations to a target matrix function. Nonetheless, physical implementations for useful end-user applications require large-scale fault-tolerant quantum computers. Here, we present a hybrid quantum-classical framework for Monte Carlo simulation of generic matrix functions tailored to early fault-tolerant quantum hardware. Our algorithms randomize over the Chebyshev polynomials but keep the matrix oracle quantum, and are assisted by a variant of the Hadamard test that removes the need for post-selection. As a result, they feature a similar statistical overhead to the fully-quantum case of standard QSVT and do not incur any degradation in circuit depth. On the contrary, the average circuit depth is significantly smaller. We apply our technique to four specific use cases: partition-function estimation via quantum Markov-chain Monte Carlo and via imaginary-time evolution; end-to-end linear system solvers; and ground-state energy estimation. For these cases, we prove significant advantages of average over maximal depths, including quadratic speed-ups on costly parameters and even the removal of an approximation-error dependence. These translate into equivalent reductions of noise sensitivity, because the detrimental effect of noise scales with the average (and not the maximal) query depth, as we explicitly show for depolarizing noise and coherent errors. All in all, our framework provides a practical pathway towards early fault-tolerant quantum linear-algebra applications.
翻訳日:2023-07-25 19:26:26 公開日:2023-07-21
# HybridAugment++: モデルロバストネスのための統一周波数スペクトル摂動

HybridAugment++: Unified Frequency Spectra Perturbations for Model Robustness ( http://arxiv.org/abs/2307.11823v1 )

ライセンス: Link先を確認
Mehmet Kerim Yucel, Ramazan Gokberk Cinbis, Pinar Duygulu(参考訳) 畳み込みニューラルネットワーク(CNN)は,分散シフト下での一般化性能が低いことが知られている。 彼らの一般化は広く研究されており、一つの作業は周波数中心の観点からこの問題にアプローチしている。 これらの研究は、人間とcnnが画像の異なる周波数成分に焦点を当てているという事実を強調している。 まず,これらの観測結果に触発されて,cnnの高周波成分への依存度を低減し,クリーンな精度を維持しつつロバスト性を向上させる,簡易かつ効果的なデータ拡張手法を提案する。 第2にhybridaugment++を提案する。これは様々な周波数スペクトル拡張を統一しようとする階層的拡張手法である。 HybridAugment++はHybridAugment上に構築されており、画像の振幅成分へのCNN依存を低減し、代わりにフェーズ情報を促進する。 この統合は、クリーンな精度(CIFAR-10/100とImageNet)、汚職ベンチマーク(ImageNet-C、CIFAR-10-C、CIFAR-100-C)、CIFAR-10の対向的堅牢性、および様々なデータセットにおけるアウト・オブ・ディストリビューション検出に関する最先端結果よりも優れている。 HybridAugmentとHybridAugment++は数行のコードで実装されており、追加のデータやアンサンブルモデル、追加のネットワークを必要としない。

Convolutional Neural Networks (CNN) are known to exhibit poor generalization performance under distribution shifts. Their generalization have been studied extensively, and one line of work approaches the problem from a frequency-centric perspective. These studies highlight the fact that humans and CNNs might focus on different frequency components of an image. First, inspired by these observations, we propose a simple yet effective data augmentation method HybridAugment that reduces the reliance of CNNs on high-frequency components, and thus improves their robustness while keeping their clean accuracy high. Second, we propose HybridAugment++, which is a hierarchical augmentation method that attempts to unify various frequency-spectrum augmentations. HybridAugment++ builds on HybridAugment, and also reduces the reliance of CNNs on the amplitude component of images, and promotes phase information instead. This unification results in competitive to or better than state-of-the-art results on clean accuracy (CIFAR-10/100 and ImageNet), corruption benchmarks (ImageNet-C, CIFAR-10-C and CIFAR-100-C), adversarial robustness on CIFAR-10 and out-of-distribution detection on various datasets. HybridAugment and HybridAugment++ are implemented in a few lines of code, does not require extra data, ensemble models or additional networks.
翻訳日:2023-07-25 19:25:58 公開日:2023-07-21
# ギンツブルク-ランダウ理論のソリトンとしてのハバード模型における分断超伝導

Fragmented superconductivity in the Hubbard model as solitons in Ginzburg-Landau theory ( http://arxiv.org/abs/2307.11820v1 )

ライセンス: Link先を確認
Niccol\`o Baldelli, Benedikt Kloss, Matthew Fishman, and Alexander Wietek(参考訳) 超伝導と電荷密度波の現象は、多くの強い相関を持つ材料で近くで観測される。 実験や数値シミュレーションによるエビデンスの増加は、超伝導秩序パラメータが電子密度に結合する中間的な方法でも、両方の現象が生じることを示唆している。 密度行列再正規化群シミュレーションを用いて, 強結合系における初等値$t$-t^\prime$-u$ハバード模型の相図で安定化された物質の絡み合い状態の性質について検討する。 注目すべきは、クーパー対の凝縮は、1つ以上のペアリング波関数がマクロ的に占有される電荷密度波の存在下で断片化されることである。 さらに, 超伝導フラグメントのマクロ波動関数が, 電荷密度波によって構成される周期ポテンシャルにおけるギンズバーグ・ランダウ方程式のソリトン解によってよく説明されることを示す。 軌道磁場が存在する場合、秩序パラメータはゲージ不変であり、ストリングの間に超伝導渦がピン留めされる。 この絡み合ったギンツブルク-ランダウ理論は、帯状分断超伝導体の効果的な低エネルギー記述として提案されている。

The phenomena of superconductivity and charge density waves are observed in close vicinity in many strongly correlated materials. Increasing evidence from experiments and numerical simulations suggests both phenomena can also occur in an intertwined manner, where the superconducting order parameter is coupled to the electronic density. Employing density matrix renormalization group simulations, we investigate the nature of such an intertwined state of matter stabilized in the phase diagram of the elementary $t$-$t^\prime$-$U$ Hubbard model in the strong coupling regime. Remarkably, the condensate of Cooper pairs is shown to be fragmented in the presence of a charge density wave where more than one pairing wave function is macroscopically occupied. Moreover, we provide conclusive evidence that the macroscopic wave functions of the superconducting fragments are well-described by soliton solutions of a Ginzburg-Landau equation in a periodic potential constituted by the charge density wave. In the presence of an orbital magnetic field, the order parameters are gauge invariant, and superconducting vortices are pinned between the stripes. This intertwined Ginzburg-Landau theory is proposed as an effective low-energy description of the stripe fragmented superconductor.
翻訳日:2023-07-25 19:25:28 公開日:2023-07-21
# 線形再帰と非線形射影の普遍性について

On the Universality of Linear Recurrences Followed by Nonlinear Projections ( http://arxiv.org/abs/2307.11888v1 )

ライセンス: Link先を確認
Antonio Orvieto, Soham De, Caglar Gulcehre, Razvan Pascanu, Samuel L. Smith(参考訳) 本項では、(S4, S5, LRUを含む)リカレント線形層~に基づく列モデルの族が、位置対応多層パーセプトロン~(MLP)とインターリーブされ、任意の正則な非線形列列列列写像を任意に近似することができることを示す。 結果の背景にある主な考え方は、非常に表現力の高いMLPによって処理される前に、入力シーケンスに関する情報を内部状態に忠実に保存できる圧縮アルゴリズムとして、繰り返しのレイヤを見ることである。

In this note (work in progress towards a full-length paper) we show that a family of sequence models based on recurrent linear layers~(including S4, S5, and the LRU) interleaved with position-wise multi-layer perceptrons~(MLPs) can approximate arbitrarily well any sufficiently regular non-linear sequence-to-sequence map. The main idea behind our result is to see recurrent layers as compression algorithms that can faithfully store information about the input sequence into an inner state, before it is processed by the highly expressive MLP.
翻訳日:2023-07-25 19:20:18 公開日:2023-07-21
# Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Paul Lukowicz

Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Paul Lukowicz ( http://arxiv.org/abs/2307.11881v1 )

ライセンス: Link先を確認
Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Paul Lukowicz(参考訳) スマートウェアラブルの研究者は、あらゆる種類のゆるい衣服に対して、モーションキャプチャー(MoCap)を最適に行うために、光学マーカーベースおよびマーカーレスMoCapの性能を評価するためのベンチマークであるDrapeMoCapBench(DMCB)を提案する。 高精度マーカーベースのMoCapシステムは、正確な黄金標準としてよく知られている。 しかし、あまり知られていないのは、特定の精度を確保するために骨の部位に皮膚に密着するマーカーが必要であり、ゆるい衣服に疑わしいという点である。 一方で、コンピュータビジョンモデルを利用したマーカーレスmocap手法は、ここ数年で成熟し、スマートフォンのカメラが十分であるほど、コストが低くなる。 この目的のためにdmcbは、大規模な現実世界で記録されたmocapデータセットを使用して、幅広い多様性を持つ並列3d物理シミュレーションを行う。スキンタイトから極端にドレープされた衣服まで6段階のドレープ、3段階のモーション、6種類のボディタイプ - 男女の組み合わせ - ベンチマークの光学マーカーベースとマーカーレスのmocap法により、異なるシナリオで最高のパフォーマンスの方法を識別する。 カジュアルな緩い衣服に対するマーカーベースおよび低コストなマーカーレスMoCapの性能評価において、両アプローチは大きな性能損失(>10cm)を示すが、基本的な動作と高速動作を含む日常的な活動ではマーカーレスMoCapはマーカーベースのMoCapよりわずかに優れており、ウェアラブル研究において好適かつ費用効果の高い選択である。

To help smart wearable researchers choose the optimal ground truth methods for motion capturing (MoCap) for all types of loose garments, we present a benchmark, DrapeMoCapBench (DMCB), specifically designed to evaluate the performance of optical marker-based and marker-less MoCap. High-cost marker-based MoCap systems are well-known as precise golden standards. However, a less well-known caveat is that they require skin-tight fitting markers on bony areas to ensure the specified precision, making them questionable for loose garments. On the other hand, marker-less MoCap methods powered by computer vision models have matured over the years, which have meager costs as smartphone cameras would suffice. To this end, DMCB uses large real-world recorded MoCap datasets to perform parallel 3D physics simulations with a wide range of diversities: six levels of drape from skin-tight to extremely draped garments, three levels of motions and six body type - gender combinations to benchmark state-of-the-art optical marker-based and marker-less MoCap methods to identify the best-performing method in different scenarios. In assessing the performance of marker-based and low-cost marker-less MoCap for casual loose garments both approaches exhibit significant performance loss (>10cm), but for everyday activities involving basic and fast motions, marker-less MoCap slightly outperforms marker-based MoCap, making it a favorable and cost-effective choice for wearable studies.
翻訳日:2023-07-25 19:20:04 公開日:2023-07-21
# MORE:マルチクラス化のための測定と相関に基づく変分量子回路

MORE: Measurement and Correlation Based Variational Quantum Circuit for Multi-classification ( http://arxiv.org/abs/2307.11875v1 )

ライセンス: Link先を確認
Jindi Wu, Tianjie Hu, Qun Li(参考訳) 近年、量子コンピューティングは計算集約的なタスクにかなり期待されている。 例えば、量子ニューラルネットワーク(QNN)に基づく分類タスクは、研究者から大きな関心を集め、様々なシナリオで評価されてきた。 しかし、量子分類器の大多数は、制限された量子コンピューティング資源または古典的な後処理の必要性のため、現在二項分類タスクに限られている。 本稿では,計測と相関に基づく変分型量子多重分類器の略である more と呼ばれる効率的な量子多重分類器を提案する。 more はバイナリ分類器と同じ変分 ansatz を採用し、単一の読み出しキュービットの量子情報を完全に活用してマルチクラス化を行う。 読み出しキュービットから完全情報を抽出するために、2次元ヒルベルト空間の基底となる3つの可観測空間を選択する。 次に、量子状態トモグラフィー法を用いて測定結果から読み出し状態を再構成する。 その後、クラス間の相関関係を調べ、変分的量子クラスタリング手法を用いて、クラスの量子ラベルを決定する。 次に、量子ラベルに基づく教師付き学習を行い、入力データとその対応する量子ラベル間のマッピングを特定する。 最後に、予測ラベルは、分類器を使用する際に、最も近い量子ラベルによって決定される。 本稿では,Qiskit Pythonライブラリを用いて,雑音のない量子システムとノイズの多い量子システムの両方に関する広範囲な実験により評価する。 評価の結果,単純なアンサッツと限られた量子リソースを用いながら,高度な性能を実現することができた。

Quantum computing has shown considerable promise for compute-intensive tasks in recent years. For instance, classification tasks based on quantum neural networks (QNN) have garnered significant interest from researchers and have been evaluated in various scenarios. However, the majority of quantum classifiers are currently limited to binary classification tasks due to either constrained quantum computing resources or the need for intensive classical post-processing. In this paper, we propose an efficient quantum multi-classifier called MORE, which stands for measurement and correlation based variational quantum multi-classifier. MORE adopts the same variational ansatz as binary classifiers while performing multi-classification by fully utilizing the quantum information of a single readout qubit. To extract the complete information from the readout qubit, we select three observables that form the basis of a two-dimensional Hilbert space. We then use the quantum state tomography technique to reconstruct the readout state from the measurement results. Afterward, we explore the correlation between classes to determine the quantum labels for classes using the variational quantum clustering approach. Next, quantum label-based supervised learning is performed to identify the mapping between the input data and their corresponding quantum labels. Finally, the predicted label is determined by its closest quantum label when using the classifier. We implement this approach using the Qiskit Python library and evaluate it through extensive experiments on both noise-free and noisy quantum systems. Our evaluation results demonstrate that MORE, despite using a simple ansatz and limited quantum resources, achieves advanced performance.
翻訳日:2023-07-25 19:19:30 公開日:2023-07-21
# 故障車両の再挿入を考慮した混合モデルシークエンシング:自動車産業を事例として

Mixed-model Sequencing with Reinsertion of Failed Vehicles: A Case Study for Automobile Industry ( http://arxiv.org/abs/2307.11869v1 )

ライセンス: Link先を確認
I. Ozan Yilmazlar, Mary E. Kurz(参考訳) 自動車業界では、資材不足、塗料の故障などの理由により、計画されたスケジュールに従って製造できない車もある。 これらの車両はシーケンスから引き出され、作業負荷の増加につながる可能性がある。 一方、故障車両の復帰は適切な位置において動的に実行される。 このような位置が十分に発生しない場合には、再沈降待ちの車両を生産効率を犠牲にして悪化させる。 本研究では,2段階の確率的プログラムを提案し,確率的製品故障と統合再サーションプロセスを伴う混合モデルシークエンシング問題に対する定式化改善を提案する。 さらに,進化的最適化アルゴリズム,二段階局所探索アルゴリズム,ハイブリッド手法を開発した。 ケーススタディ上の数値実験により、ハイブリッドアルゴリズムはパレートフロント表現をよりよく探索するが、局所探索アルゴリズムは作業過負荷の目的に関するより信頼性の高いソリューションを提供する。 最後に, 動的再送シミュレーションの結果から, 車両故障を考慮したり, 混合モデル解析問題に再送プロセスを統合することで, 作業過負荷を約20\%低減し, 故障車両の待ち時間を大幅に削減できることがわかった。

In the automotive industry, some vehicles, failed vehicles, cannot be produced according to the planned schedule due to some reasons such as material shortage, paint failure, etc. These vehicles are pulled out of the sequence, potentially resulting in an increased work overload. On the other hand, the reinsertion of failed vehicles is executed dynamically as suitable positions occur. In case such positions do not occur enough, either the vehicles waiting for reinsertion accumulate or reinsertions are made to worse positions by sacrificing production efficiency. This study proposes a bi-objective two-stage stochastic program and formulation improvements for a mixed-model sequencing problem with stochastic product failures and integrated reinsertion process. Moreover, an evolutionary optimization algorithm, a two-stage local search algorithm, and a hybrid approach are developed. Numerical experiments over a case study show that while the hybrid algorithm better explores the Pareto front representation, the local search algorithm provides more reliable solutions regarding work overload objective. Finally, the results of the dynamic reinsertion simulations show that we can decrease the work overload by ~20\% while significantly decreasing the waiting time of the failed vehicles by considering vehicle failures and integrating the reinsertion process into the mixed-model sequencing problem.
翻訳日:2023-07-25 19:19:06 公開日:2023-07-21
# cartier: ロボットの命令実行を目的とした地図言語推論

CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction Execution for Robots ( http://arxiv.org/abs/2307.11865v1 )

ライセンス: Link先を確認
Nikhil Kakodkar, Dmitriy Rivkin, Bobak H. Baghi, Francois Hogan, Gregory Dudek(参考訳) 本研究は、空間計画とナビゲーションのための自然言語インタフェースの交点における問題に対処する大規模言語モデル(LLM)の能力について検討し、ロボット工学で見られる従来の明示的な手続き的指示よりも自然な会話に類似した比較的複雑な指示に従うことに焦点を当てる。 ナビゲーションディレクティブが命令コマンド(例えば冷蔵庫に行くなど)として提供される以前のほとんどの作業とは異なり、会話の相互作用の中で暗黙のディレクティブを調べる。 我々は3DシミュレータAI2Thorを利用して、大規模かつ反復可能なシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。 llmを用いてシーン内のオブジェクトのリストのコンテキストにおけるユーザインタラクションを解釈することにより,ロボットは既存の手法よりも記述型言語クエリを解析できることを実証する。

This work explores the capacity of large language models (LLMs) to address problems at the intersection of spatial planning and natural language interfaces for navigation.Our focus is on following relatively complex instructions that are more akin to natural conversation than traditional explicit procedural directives seen in robotics. Unlike most prior work, where navigation directives are provided as imperative commands (e.g., go to the fridge), we examine implicit directives within conversational interactions. We leverage the 3D simulator AI2Thor to create complex and repeatable scenarios at scale, and augment it by adding complex language queries for 40 object types. We demonstrate that a robot can better parse descriptive language queries than existing methods by using an LLM to interpret the user interaction in the context of a list of the objects in the scene.
翻訳日:2023-07-25 19:18:44 公開日:2023-07-21
# フェイクおよびllm生成のlinkedinプロファイルの脅威: 検出と防止のための挑戦と機会

The Looming Threat of Fake and LLM-generated LinkedIn Profiles: Challenges and Opportunities for Detection and Prevention ( http://arxiv.org/abs/2307.11864v1 )

ライセンス: Link先を確認
Navid Ayoobi, Sadat Shahriar, Arjun Mukherjee(参考訳) 本稿では,LinkedIn Online Social Networkにおいて,登録直後および接続確立直前に偽・大規模言語モデル(LLM)生成プロファイルを検出する新しい手法を提案する。 初期のフェイクプロファイルの識別は、正当なユーザーのプライベートで機密性の高い情報を取得し、将来のフィッシングや詐欺行為に対する信頼性を高める機会を得ることを禁止しているため、プラットフォームの完全性を維持するために重要である。 この作業では、LinkedInプロファイルに提供されるテキスト情報を使用し、セクションおよびサブセクションタグ埋め込み(SSTE)メソッドを導入し、これらのデータの識別特性を高めて、正規プロファイルとインポスタが手動で作成したプロファイル、あるいはLLMを使用して区別する。 さらに、大規模な公開可能なLinkedInデータセットの発掘により、研究のために3600のLinkedInプロファイルを収集しました。 研究目的のためにデータセットを公開します。 これは私たちの知る限りでは、偽のLinkedInアカウント検出のための最初の大規模な公開LinkedInデータセットです。 本パラダイムでは,GloVe, Flair, BERT, RoBERTaなどの静的および文脈的単語埋め込みを評価する。 提案手法は,すべての単語埋め込みにおいて正統なプロファイルと偽のプロファイルを95%の精度で識別できることを示す。 さらに, SSTEは, LLM生成プロファイルをトレーニング期間中に使用しなかったにもかかわらず, LLM生成プロファイルの同定に有望な精度を示し, 20個のLLM生成プロファイルをトレーニングセットに追加した場合, 約90%の精度が得られることを示した。 近い将来に複数のLSMが増殖すると、様々なLSMで生成されたプロファイルを識別できる単一のシステムの設計が極めて困難になるため、重要な発見である。

In this paper, we present a novel method for detecting fake and Large Language Model (LLM)-generated profiles in the LinkedIn Online Social Network immediately upon registration and before establishing connections. Early fake profile identification is crucial to maintaining the platform's integrity since it prevents imposters from acquiring the private and sensitive information of legitimate users and from gaining an opportunity to increase their credibility for future phishing and scamming activities. This work uses textual information provided in LinkedIn profiles and introduces the Section and Subsection Tag Embedding (SSTE) method to enhance the discriminative characteristics of these data for distinguishing between legitimate profiles and those created by imposters manually or by using an LLM. Additionally, the dearth of a large publicly available LinkedIn dataset motivated us to collect 3600 LinkedIn profiles for our research. We will release our dataset publicly for research purposes. This is, to the best of our knowledge, the first large publicly available LinkedIn dataset for fake LinkedIn account detection. Within our paradigm, we assess static and contextualized word embeddings, including GloVe, Flair, BERT, and RoBERTa. We show that the suggested method can distinguish between legitimate and fake profiles with an accuracy of about 95% across all word embeddings. In addition, we show that SSTE has a promising accuracy for identifying LLM-generated profiles, despite the fact that no LLM-generated profiles were employed during the training phase, and can achieve an accuracy of approximately 90% when only 20 LLM-generated profiles are added to the training set. It is a significant finding since the proliferation of several LLMs in the near future makes it extremely challenging to design a single system that can identify profiles created with various LLMs.
翻訳日:2023-07-25 19:18:28 公開日:2023-07-21
# 大規模核メタマテリアルニューラルネットワークのディジタルモデリング

Digital Modeling on Large Kernel Metamaterial Neural Network ( http://arxiv.org/abs/2307.11862v1 )

ライセンス: Link先を確認
Quan Liu, Hanyu Zheng, Brandon T. Swartz, Ho hin Lee, Zuhayr Asad, Ivan Kravchenko, Jason G. Valentine and Yuankai Huo(参考訳) 最近使用されているディープニューラルネットワーク(dnn)は、計算ユニット(cpuやgpuなど)を物理的にデプロイする。 このような設計は、計算上の重荷、大きなレイテンシ、集中的な電力消費につながる可能性がある。これはIoT(Internet of Things)やエッジコンピューティング、ドローンの使用など、アプリケーションにおいて重要な制限である。 光学計算ユニット(メタマテリアルなど)の最近の進歩は、エネルギーのない光速ニューラルネットワークに光を当てている。 しかし、メタマテリアルニューラルネットワーク(MNN)のディジタル設計は、製造中の精度、ノイズ、帯域幅といった物理的な制限によって基本的に制限されている。 さらに、MNNのユニークな利点(例えば、光速計算)は標準の3x3畳み込みカーネルを通して完全には探索されない。 本稿では,新しい大規模カーネルメタマテリアルニューラルネットワーク(LMNN)を提案する。これは,モデル再パラメータ化とネットワーク圧縮による最先端(SOTA)MNNのディジタルキャパシティを最大化するとともに,光学的制限を明示的に検討する。 新しいデジタル学習方式は、メタ光学の物理的制約をモデル化しながら、MNNの学習能力を最大化することができる。 提案したLMNNでは、畳み込みフロントエンドの計算コストを光学ハードウェアにオフロードすることができる。 2つの公開データセットにおける実験結果は、最適化されたハイブリッド設計により、計算遅延を低減しながら分類精度が向上したことを示している。 提案されたLMNNの開発は、エネルギーフリーで軽量なAIの究極の目標に向けた有望なステップである。

Deep neural networks (DNNs) utilized recently are physically deployed with computational units (e.g., CPUs and GPUs). Such a design might lead to a heavy computational burden, significant latency, and intensive power consumption, which are critical limitations in applications such as the Internet of Things (IoT), edge computing, and the usage of drones. Recent advances in optical computational units (e.g., metamaterial) have shed light on energy-free and light-speed neural networks. However, the digital design of the metamaterial neural network (MNN) is fundamentally limited by its physical limitations, such as precision, noise, and bandwidth during fabrication. Moreover, the unique advantages of MNN's (e.g., light-speed computation) are not fully explored via standard 3x3 convolution kernels. In this paper, we propose a novel large kernel metamaterial neural network (LMNN) that maximizes the digital capacity of the state-of-the-art (SOTA) MNN with model re-parametrization and network compression, while also considering the optical limitation explicitly. The new digital learning scheme can maximize the learning capacity of MNN while modeling the physical restrictions of meta-optic. With the proposed LMNN, the computation cost of the convolutional front-end can be offloaded into fabricated optical hardware. The experimental results on two publicly available datasets demonstrate that the optimized hybrid design improved classification accuracy while reducing computational latency. The development of the proposed LMNN is a promising step towards the ultimate goal of energy-free and light-speed AI.
翻訳日:2023-07-25 19:17:58 公開日:2023-07-21
# levitated optomechanics: チュートリアルと展望

Levitated optomechanics: A tutorial and perspective ( http://arxiv.org/abs/2307.11858v1 )

ライセンス: Link先を確認
George Winstone, Mishkat Bhattacharya, Andrew A. Geraci, Tongcang Li, Peter J. Pauzauskie, and Nick Vamivakas(参考訳) 光と物質との力学的相互作用を研究するオプトメカニクスは実りある研究領域であることが証明され、キロメートル規模の光学干渉計における重力波の直接検出など多くの顕著な成果をもたらした。 光は個々のイオンと原子の機械的自由度に対する量子制御の冷却と実証に使われ、より最近では、kgスケールでも大きな質量の物体における量子「メカニクス」の観測が促進された。 物体が放射圧で吊り下げられ、ほとんど環境から切り離される浮揚光力学は、最近、精密測定、量子情報科学、量子力学と基礎物理学の基礎実験に関連する多くの注目すべき結果とともに、リッチな研究分野としての地位を確立した。 本稿では、実験的および理論的アプローチから、フィールドにおけるいくつかの現在の活動と関連する重要な概念と方法を説明するチュートリアルを紹介する。 本研究は,この成長分野に慣れた若手研究者や,大学院生の育成に資することを目的としている。 このチュートリアルは、将来望まれる実験プラットフォームと将来の理論的発展の両方の観点から締めくくられている。

Optomechanics, the study of the mechanical interaction of light with matter, has proven to be a fruitful area of research that has yielded many notable achievements, including the direct detection of gravitational waves in kilometer-scale optical interferometers. Light has been used to cool and demonstrate quantum control over the mechanical degrees of freedom of individual ions and atoms, and more recently has facilitated the observation of quantum ``mechanics'' in objects of larger mass, even at the kg-scale. Levitated optomechanics, where an object can be suspended by radiation pressure and largely decoupled from its environment, has recently established itself as a rich field of study, with many notable results relevant for precision measurement, quantum information science, and foundational tests of quantum mechanics and fundamental physics. This article provides a survey of several current activities in field along with a tutorial describing associated key concepts and methods, both from an experimental and theoretical approach. It is intended as a resource for junior researchers who are new to this growing field as well as beginning graduate students. The tutorial is concluded with a perspective on both promising emerging experimental platforms and anticipated future theoretical developments.
翻訳日:2023-07-25 19:17:30 公開日:2023-07-21
# 整数値OneMax関数の時間境界の実行

Run Time Bounds for Integer-Valued OneMax Functions ( http://arxiv.org/abs/2307.11855v1 )

ライセンス: Link先を確認
Jonathan Gadea Harder, Timo K\"otzing, Xiaoyue Li, Aishwarya Radhakrishnan(参考訳) 離散ランダム化探索ヒューリスティックのほとんどの理論的実行時間解析は有限探索空間に焦点を当てているが、探索空間 $\mathbb{z}^n$ を考える。 これは、多値決定変数 $\{0,\ldots,r-1\}^n$ の探索空間のさらなる一般化である。 フィットネス関数として、(単調な)非ゼロの最適な$a$($l_1$-metricに基づく)と、変化が決定される各コンポーネントにステップ操作を適用することによって変化する \ooea までの距離を考える。 $\pm 1$ で変更する場合、期待される最適化時間は$\theta(n \cdot (|a|_{\infty} + \log(|a|_h))$である。 特に、時間は最適な$a$の最大値において線形である。 期待値が無限であるような分布からステップサイズを選択する異なるステップ演算子を用いて、最適化時間は$O(n \cdot \log^2 (|a|_1) \cdot \left(\log (\log (|a|_1))\right)^{1 + \epsilon})$である。 さらに、ステップサイズ適応を持つrlsは$\theta(n \cdot \log(|a|_1))$の最適化時間を達成する。 本稿では,これらのアルゴリズムを離散探索空間に対するCMA-ESの変種と比較し,実験的な解析を行った。

While most theoretical run time analyses of discrete randomized search heuristics focused on finite search spaces, we consider the search space $\mathbb{Z}^n$. This is a further generalization of the search space of multi-valued decision variables $\{0,\ldots,r-1\}^n$. We consider as fitness functions the distance to the (unique) non-zero optimum $a$ (based on the $L_1$-metric) and the \ooea which mutates by applying a step-operator on each component that is determined to be varied. For changing by $\pm 1$, we show that the expected optimization time is $\Theta(n \cdot (|a|_{\infty} + \log(|a|_H)))$. In particular, the time is linear in the maximum value of the optimum $a$. Employing a different step operator which chooses a step size from a distribution so heavy-tailed that the expectation is infinite, we get an optimization time of $O(n \cdot \log^2 (|a|_1) \cdot \left(\log (\log (|a|_1))\right)^{1 + \epsilon})$. Furthermore, we show that RLS with step size adaptation achieves an optimization time of $\Theta(n \cdot \log(|a|_1))$. We conclude with an empirical analysis, comparing the above algorithms also with a variant of CMA-ES for discrete search spaces.
翻訳日:2023-07-25 19:17:08 公開日:2023-07-21
# MythQA:マルチ回答オープンドメイン質問応答によるクエリベースの大規模チェックウェアクレーム検出

MythQA: Query-Based Large-Scale Check-Worthy Claim Detection through Multi-Answer Open-Domain Question Answering ( http://arxiv.org/abs/2307.11848v1 )

ライセンス: Link先を確認
Yang Bai, Anthony Colas, Daisy Zhe Wang(参考訳) check-worthy claims detectionは、ダウンストリームのファクトチェックシステムや人間の専門家に、信頼できる誤った情報を提供することを目的としている。 これはファクトチェックプロセスを加速するための重要なステップです。 しかし、twitterのような大規模な情報ソースから直接、チェックに値する請求を効率的に検出する方法は、未調査のままである。 このギャップを埋めるために、クエリベースの大規模チェックアワークレーム検出のための矛盾するスタンスマイニングを含む、複数回答のオープンドメイン質問応答(QA)タスクであるMythQAを導入する。 この背景にある考え方は、矛盾する主張は、適切な当局による精査に値する誤報の強い指標であるということである。 この課題を考察するために,議論を呼んだトピックに基づいた522のファクトイド質問を含む評価データセットTweetMythQAを構築した。 各質問には複数の回答が添付されている。 さらに,それぞれの回答について関連性のあるツイートを収集し,その回答を“Supporting”,“Refuting”,“Neutral”の3つのカテゴリに分類する。 合計で5.3kのツイートをアノテートした。 データセット内のすべての回答に対して、対照的な証拠が収集される。 最後に、MythQAのベースラインシステムを提案し、TweetMythQAデータセットを用いて、各システムコンポーネントの既存のNLPモデルを評価する。 最初のベンチマークを提供し、将来のモデルが改善すべき重要な課題を特定します。 コードとデータは、https://github.com/TonyBY/Myth-QA.comで入手できる。

Check-worthy claim detection aims at providing plausible misinformation to downstream fact-checking systems or human experts to check. This is a crucial step toward accelerating the fact-checking process. Many efforts have been put into how to identify check-worthy claims from a small scale of pre-collected claims, but how to efficiently detect check-worthy claims directly from a large-scale information source, such as Twitter, remains underexplored. To fill this gap, we introduce MythQA, a new multi-answer open-domain question answering(QA) task that involves contradictory stance mining for query-based large-scale check-worthy claim detection. The idea behind this is that contradictory claims are a strong indicator of misinformation that merits scrutiny by the appropriate authorities. To study this task, we construct TweetMythQA, an evaluation dataset containing 522 factoid multi-answer questions based on controversial topics. Each question is annotated with multiple answers. Moreover, we collect relevant tweets for each distinct answer, then classify them into three categories: "Supporting", "Refuting", and "Neutral". In total, we annotated 5.3K tweets. Contradictory evidence is collected for all answers in the dataset. Finally, we present a baseline system for MythQA and evaluate existing NLP models for each system component using the TweetMythQA dataset. We provide initial benchmarks and identify key challenges for future models to improve upon. Code and data are available at: https://github.com/TonyBY/Myth-QA
翻訳日:2023-07-25 19:16:35 公開日:2023-07-21
# 学術学術出版における著作者への出版者・ジャーナル指導に関する文献分析

Bibliometric Analysis of Publisher and Journal Instructions to Authors on Generative-AI in Academic and Scientific Publishing ( http://arxiv.org/abs/2307.11918v1 )

ライセンス: Link先を確認
Conner Ganjavi, Michael B. Eppler, Asli Pekcan, Brett Biedermann, Andre Abreu, Gary S. Collins, Inderbir S. Gill, Giovanni E. Cacciamani(参考訳) 本稿では,科学界における学術出版・雑誌上位100社のうち,ジェネラティブ・ai(gai),ジェネラティブ・プリトレーニング・モデル(gpts)および大規模言語モデル(llm)の利用に関する著者のガイダンスの範囲と内容を明らかにすることを目的とする。 これらの出版社や雑誌のウェブサイトは2023年5月19日から20日にかけて閲覧された。 大手100社のうち17%がGAIの使用に関するガイダンスを提供しており、そのうち12社(70.6%)が上位25社であった。 上位100誌のうち70%がGAIに関するガイダンスを提供している。 指導を受けた者のうち、出版社の94.1%、雑誌の95.7%はGAIを作家として含めることを禁止した。 4つのジャーナル(5.7%)は、原稿の世代におけるGAIの使用を明示的に禁止し、3つの出版社(17.6%)と15のジャーナル(21.4%)は、そのガイダンスが執筆プロセスにのみ適用されることを示した。 GAIの使用を公表したとき、出版社の42.8%、雑誌の44.3%は特定の開示基準を含んでいた。 GAIの使用方法や認定書,カバーレター,あるいは新たなセクションなど,GAIの使用方法の開示に関するガイダンスのバリエーションがあった。 また、gaiのガイダンスへのアクセス方法や、雑誌や出版者の指示を著者とリンクする方法にも変化があった。 著者によるGAIの使用に関して、一部の大手出版社や雑誌によるガイダンスの欠如がある。 ガイダンスを提供する出版社や雑誌のなかには、GAIの許容可能な使用方法や、その開示方法にはかなり異質性があり、一部では関連出版社や雑誌の間でもこの異質性は持続している。 標準化の欠如は著者を負担し、これらの規則の有効性を制限することを脅かす。 GAIの人気が高まっているため、科学的成果の完全性を保護するため、標準化されたガイドラインが必要である。

We aim to determine the extent and content of guidance for authors regarding the use of generative-AI (GAI), Generative Pretrained models (GPTs) and Large Language Models (LLMs) powered tools among the top 100 academic publishers and journals in science. The websites of these publishers and journals were screened from between 19th and 20th May 2023. Among the largest 100 publishers, 17% provided guidance on the use of GAI, of which 12 (70.6%) were among the top 25 publishers. Among the top 100 journals, 70% have provided guidance on GAI. Of those with guidance, 94.1% of publishers and 95.7% of journals prohibited the inclusion of GAI as an author. Four journals (5.7%) explicitly prohibit the use of GAI in the generation of a manuscript, while 3 (17.6%) publishers and 15 (21.4%) journals indicated their guidance exclusively applies to the writing process. When disclosing the use of GAI, 42.8% of publishers and 44.3% of journals included specific disclosure criteria. There was variability in guidance of where to disclose the use of GAI, including in the methods, acknowledgments, cover letter, or a new section. There was also variability in how to access GAI guidance and the linking of journal and publisher instructions to authors. There is a lack of guidance by some top publishers and journals on the use of GAI by authors. Among those publishers and journals that provide guidance, there is substantial heterogeneity in the allowable uses of GAI and in how it should be disclosed, with this heterogeneity persisting among affiliated publishers and journals in some instances. The lack of standardization burdens authors and threatens to limit the effectiveness of these regulations. There is a need for standardized guidelines in order to protect the integrity of scientific output as GAI continues to grow in popularity.
翻訳日:2023-07-25 19:09:52 公開日:2023-07-21
# 歪調ダイヤモンド膜ヘテロ構造におけるスズ空スピン量子ビットのマイクロ波量子制御とコヒーレンス保護

Microwave-based quantum control and coherence protection of tin-vacancy spin qubits in a strain-tuned diamond membrane heterostructure ( http://arxiv.org/abs/2307.11916v1 )

ライセンス: Link先を確認
Xinghan Guo, Alexander M. Stramma, Zixi Li, William G. Roth, Benchen Huang, Yu Jin, Ryan A. Parker, Jes\'us Arjona Mart\'inez, Noah Shofer, Cathryn P. Michaels, Carola P. Purser, Martin H. Appel, Evgeny M. Alexeev, Tianle Liu, Andrea C. Ferrari, David D. Awschalom, Nazar Delegan, Benjamin Pingault, Giulia Galli, F. Joseph Heremans, Mete Atat\"ure, Alexander A. High(参考訳) 固体中のロバストスピン光子界面は、量子ネットワークおよびセンシング技術において必須の構成要素である。 理想的には、これらのインターフェースは長寿命のスピンメモリ、コヒーレントな光学遷移、高速で高忠実なスピン操作、簡単なデバイス統合とスケーリングを組み合わせる。 ダイヤモンド中のスズ空孔中心(SnV)は、1.7Kで望ましい光学特性とスピン特性を持つ有望なスピン光子界面であるが、SnVスピンは効率的なマイクロ波制御を欠き、スピンコヒーレンスは高温で劣化する。 本研究では, これらの課題を克服する新たなプラットフォーム, SnV を均一に歪んだ薄いダイヤモンド膜に導入する。 制御された結晶ひずみの生成は、99.36(9)%ゲート忠実度と1ミリ秒を超えるスピンコヒーレンス保護によるスピン状態のマイクロ波制御を可能にする軌道混合を導入する。 さらに, 結晶ひずみの存在は, 温度依存性の劣化を抑制し, 223(10)${\mu}$sまでのコヒーレンス時間を4Kで大幅に改善した。 臨界的に、光遷移のコヒーレンスは高温の影響を受けず、ほぼ終生の光線幅を示す。 ダイヤモンド膜とデバイス統合の互換性と組み合わせて、このデモプラットフォームは将来の量子技術のための理想的なスピン光子インターフェースである。

Robust spin-photon interfaces in solids are essential components in quantum networking and sensing technologies. Ideally, these interfaces combine a long-lived spin memory, coherent optical transitions, fast and high-fidelity spin manipulation, and straightforward device integration and scaling. The tin-vacancy center (SnV) in diamond is a promising spin-photon interface with desirable optical and spin properties at 1.7 K. However, the SnV spin lacks efficient microwave control and its spin coherence degrades with higher temperature. In this work, we introduce a new platform that overcomes these challenges - SnV centers in uniformly strained thin diamond membranes. The controlled generation of crystal strain introduces orbital mixing that allows microwave control of the spin state with 99.36(9) % gate fidelity and spin coherence protection beyond a millisecond. Moreover, the presence of crystal strain suppresses temperature dependent dephasing processes, leading to a considerable improvement of the coherence time up to 223(10) ${\mu}$s at 4 K, a widely accessible temperature in common cryogenic systems. Critically, the coherence of optical transitions is unaffected by the elevated temperature, exhibiting nearly lifetime-limited optical linewidths. Combined with the compatibility of diamond membranes with device integration, the demonstrated platform is an ideal spin-photon interface for future quantum technologies.
翻訳日:2023-07-25 19:09:20 公開日:2023-07-21
# Building3D: ポイントクラウドからルーフ構造を学ぶための都市規模のデータセットとベンチマーク

Building3D: An Urban-Scale Dataset and Benchmarks for Learning Roof Structures from Point Clouds ( http://arxiv.org/abs/2307.11914v1 )

ライセンス: Link先を確認
Ruisheng Wang, Shangfeng Huang and Hongxin Yang(参考訳) LiDARポイントクラウドからの都市モデリングは、コンピュータビジョン、コンピュータグラフィックス、フォトグラム、リモートセンシングにおいて重要なトピックである。 3Dの都市モデルは、スマートシティ、自律ナビゲーション、都市計画、マッピングなど、幅広い応用を見出している。 しかし、既存の3dモデリングのデータセットは主に家具や車といった共通のオブジェクトに焦点を当てている。 データセット構築の欠如は、都市モデリングのような特定のドメインにディープラーニング技術を適用する上で大きな障害となっている。 本稿では,エストニアの16都市を約998Km2でカバーする,160万以上の建物と対応する点雲,メッシュ,ワイヤフレームモデルからなる都市規模データセットを提案する。 我々は,手作りおよび深層特徴量に基づく手法を含む最先端アルゴリズムの性能を広範囲に評価した。 実験の結果,ビルディング3dはクラス内分散度,データ不均衡,大規模騒音の課題があることがわかった。 building3dは最初の都市規模の建築モデリングベンチマークであり、教師あり学習法と自己教師あり学習法を比較することができる。 我々は,ビル3Dが都市モデリング,空路計画,メッシュ単純化,セマンティック/パートセグメンテーションなどの今後の研究を促進すると信じている。

Urban modeling from LiDAR point clouds is an important topic in computer vision, computer graphics, photogrammetry and remote sensing. 3D city models have found a wide range of applications in smart cities, autonomous navigation, urban planning and mapping etc. However, existing datasets for 3D modeling mainly focus on common objects such as furniture or cars. Lack of building datasets has become a major obstacle for applying deep learning technology to specific domains such as urban modeling. In this paper, we present a urban-scale dataset consisting of more than 160 thousands buildings along with corresponding point clouds, mesh and wire-frame models, covering 16 cities in Estonia about 998 Km2. We extensively evaluate performance of state-of-the-art algorithms including handcrafted and deep feature based methods. Experimental results indicate that Building3D has challenges of high intra-class variance, data imbalance and large-scale noises. The Building3D is the first and largest urban-scale building modeling benchmark, allowing a comparison of supervised and self-supervised learning methods. We believe that our Building3D will facilitate future research on urban modeling, aerial path planning, mesh simplification, and semantic/part segmentation etc.
翻訳日:2023-07-25 19:08:56 公開日:2023-07-21
# 問合せ効率の良いブラックボックス攻撃による解釈可能な深層学習システムにおける脆弱性の解消

Unveiling Vulnerabilities in Interpretable Deep Learning Systems with Query-Efficient Black-box Attacks ( http://arxiv.org/abs/2307.11906v1 )

ライセンス: Link先を確認
Eldor Abdukhamidov, Mohammed Abuhamad, Simon S. Woo, Eric Chan-Tin, Tamer Abuhmed(参考訳) ディープラーニングは多くの産業に革命をもたらす多くのアプリケーションで急速に採用されてきたが、敵の攻撃に弱いことが知られている。 このような攻撃は、その完全性、信頼性、信頼性を損なうディープラーニングベースのシステムにとって深刻な脅威となる。 解釈可能なディープラーニングシステム(IDLS)は、システムをより透明で説明しやすいように設計されているが、攻撃を受けやすいことも示されている。 本研究では,ターゲットモデルとその解釈モデルに関する事前知識を必要としない,新規な微生物遺伝アルゴリズムによるIDLSに対するブラックボックス攻撃を提案する。 提案された攻撃は、転送ベースとスコアベースのメソッドを組み合わせたクエリ効率のよいアプローチであり、IDLS脆弱性を公開する強力なツールである。 この攻撃実験は,良性サンプルと非常に類似した帰属マップを用いた敵の例を用いて高い攻撃成功率を示し,人間の分析による検出を困難にしている。 本結果は,IDLSセキュリティの改善の必要性を強調した。

Deep learning has been rapidly employed in many applications revolutionizing many industries, but it is known to be vulnerable to adversarial attacks. Such attacks pose a serious threat to deep learning-based systems compromising their integrity, reliability, and trust. Interpretable Deep Learning Systems (IDLSes) are designed to make the system more transparent and explainable, but they are also shown to be susceptible to attacks. In this work, we propose a novel microbial genetic algorithm-based black-box attack against IDLSes that requires no prior knowledge of the target model and its interpretation model. The proposed attack is a query-efficient approach that combines transfer-based and score-based methods, making it a powerful tool to unveil IDLS vulnerabilities. Our experiments of the attack show high attack success rates using adversarial examples with attribution maps that are highly similar to those of benign samples which makes it difficult to detect even by human analysts. Our results highlight the need for improved IDLS security to ensure their practical reliability.
翻訳日:2023-07-25 19:08:37 公開日:2023-07-21
# 古典記憶を用いたマルチ時間量子プロセスの階層化

Characterising the Hierarchy of Multi-time Quantum Processes with Classical Memory ( http://arxiv.org/abs/2307.11905v1 )

ライセンス: Link先を確認
Philip Taranto and Marco T\'ulio Quintino and Mio Murao and Simon Milz(参考訳) メモリは時間的複雑性の基本的な形態である: 存在するが制御できないとき、非マルコフノイズとして現れ、逆に制御可能であれば、メモリは情報処理の強力なリソースとなる。 メモリ効果は、システムと環境の間の相互作用を通じて伝達される。 現実的な観点では、古典的なメモリを持つ量子プロセスは、短期的な適用性を約束する:それらは、メモリレスよりも強力だが、デコヒーレンスによって損なわれることなく、かなりの時間枠で制御できる。 しかし、実用的で基礎的な価値にもかかわらず、単純な2時間シナリオを除いて、量子メモリと古典メモリの区別は未解明のままである。 我々はまず,古典記憶の適切な定義に関する様々な物理的動機付け候補を分析し,マルチ時間設定において顕著な現象をもたらす。 その後,量子力学におけるマルチタイムメモリ効果の階層構造を体系的に特徴付け,その階層構造は2倍に崩壊し,その結果は真にマルチタイム現象となる。

Memory is the fundamental form of temporal complexity: when present but uncontrollable, it manifests as non-Markovian noise; conversely, if controllable, memory can be a powerful resource for information processing. Memory effects arise from/are transmitted via interactions between a system and its environment; as such, they can be either classical or quantum in nature. From a practical standpoint, quantum processes with classical memory promise near-term applicability: they are more powerful than their memoryless counterpart, yet at the same time can be controlled over significant timeframes without being spoiled by decoherence. However, despite practical and foundational value, apart from simple two-time scenarios, the distinction between quantum and classical memory remains unexplored. We first analyse various physically-motivated candidates regarding a suitable definition for classical memory that lead to remarkably distinct phenomena in the multi-time setting. Subsequently, we systematically characterise the hierarchy of multi-time memory effects in quantum mechanics, many levels of which collapse in the two-time setting, thereby making our results genuinely multi-time phenomena.
翻訳日:2023-07-25 19:08:20 公開日:2023-07-21
# yolov5のモデル圧縮手法 : レビュー

Model Compression Methods for YOLOv5: A Review ( http://arxiv.org/abs/2307.11904v1 )

ライセンス: Link先を確認
Mohammad Jani, Jamil Fayyad, Younes Al-Younes, Homayoun Najjaran(参考訳) 過去数年間、YOLOオブジェクト検出器の強化に多くの研究が費やされてきた。 YOLOの導入以来、精度と効率を向上させるために8つのメジャーバージョンが導入された。 YOLOの明らかなメリットは多くの領域で広く利用されているが、リソース制限されたデバイスにデプロイすることが課題となっている。 この問題に対処するために,ネットワークプルーニング,量子化,知識蒸留という3つの主要なカテゴリに分類されるニューラルネットワーク圧縮手法が開発されている。 メモリ使用率の低下や推論時間などのモデル圧縮手法を利用した実りある成果は、ハードウェア制約のエッジデバイスに大規模なニューラルネットワークをデプロイする上で、必要なくても好都合である。 本稿では,比較モジュール性の観点から,刈り取りと量子化に焦点をあてる。 これらを分類し,これらの手法をYOLOv5に適用する実践的結果を解析した。 そこで我々は, YOLOv5の圧縮にプルーニングと量子化を適用する際のギャップを同定し, さらなる探索のための今後の方向性を示す。 YOLOのいくつかのバージョンの中で、文学におけるリプライと人気の間の優れたトレードオフとして、特にYOLOv5を選択します。 この論文は、yolov5の実装の観点からpruningとquantization法を調査した最初の具体的なレビュー論文である。 我々の研究は、リソース制限されたデバイスに実装することで、新しいバージョンのYOLOにも拡張可能である。 本稿では, YOLOv5 上でのモデル圧縮手法の実践的展開や, YOLO のその後のバージョンに使用可能な様々な圧縮手法の探索に関心がある人を対象としている。

Over the past few years, extensive research has been devoted to enhancing YOLO object detectors. Since its introduction, eight major versions of YOLO have been introduced with the purpose of improving its accuracy and efficiency. While the evident merits of YOLO have yielded to its extensive use in many areas, deploying it on resource-limited devices poses challenges. To address this issue, various neural network compression methods have been developed, which fall under three main categories, namely network pruning, quantization, and knowledge distillation. The fruitful outcomes of utilizing model compression methods, such as lowering memory usage and inference time, make them favorable, if not necessary, for deploying large neural networks on hardware-constrained edge devices. In this review paper, our focus is on pruning and quantization due to their comparative modularity. We categorize them and analyze the practical results of applying those methods to YOLOv5. By doing so, we identify gaps in adapting pruning and quantization for compressing YOLOv5, and provide future directions in this area for further exploration. Among several versions of YOLO, we specifically choose YOLOv5 for its excellent trade-off between recency and popularity in literature. This is the first specific review paper that surveys pruning and quantization methods from an implementation point of view on YOLOv5. Our study is also extendable to newer versions of YOLO as implementing them on resource-limited devices poses the same challenges that persist even today. This paper targets those interested in the practical deployment of model compression methods on YOLOv5, and in exploring different compression techniques that can be used for subsequent versions of YOLO.
翻訳日:2023-07-25 19:08:00 公開日:2023-07-21
# SNAP & Displacement ゲートへの SU(N) 操作の効率的な直接コンパイル

Efficient, direct compilation of SU(N) operations into SNAP & Displacement gates ( http://arxiv.org/abs/2307.11900v1 )

ライセンス: Link先を確認
Joshua Job(参考訳) 超伝導空洞のフォック状態に符号化されたキューディット上で作用する選択的数依存任意の位相(SNAP)と変位ゲートのパラメータを、与えられた回転の角度に$V_k(\alpha)=D(\alpha)R_\pi(k)D(-2\alpha)R_\pi(k)D(\alpha)$で接続する関数を、レベル$|k\rangle,|k+1\rangle$で表すと、その列は$\alpha=\Phi(\theta) = \frac{\theta}{4\sqrt{k+1$である。 以前の出版物はコンパイル時に数値最適化に適切な$\alpha$の決定を残した。 写像 $\phi$ により、任意の$d$-dimensionalユニタリを$o(d^3)$の複素浮動小数点演算でスナップゲートと変位ゲートの列にコンパイルでき、数値最適化の必要性を回避できる。 数値的な研究は、生成ゲート列$V_k$ per givens 回転 $G$ scales がおよそ$O(\theta^6)$であることを示した。 各ローテーションを$m$$$\theta/m$ローテーションに分割することで、コンパイルされた回路の誤差を任意に小さくすることができ、全$d\times d$ユニタリ忠実度スケーリングを約$o(m^{-4})$とする。 これは、チューディユニタリをSNAPと変位ゲートにコンパイルするか、あるいは最適な制御によって直接低レベルパルス最適化によって生成するための計算労力を大幅に削減することを意味する。

We present a function which connects the parameter of a previously published short sequence of selective number-dependent arbitrary phase (SNAP) and displacement gates acting on a qudit encoded into the Fock states of a superconducting cavity, $V_k(\alpha)=D(\alpha)R_\pi(k)D(-2\alpha)R_\pi(k)D(\alpha)$ to the angle of the Givens rotation $G(\theta)$ on levels $|k\rangle,|k+1\rangle$ that sequence approximates, namely $\alpha=\Phi(\theta) = \frac{\theta}{4\sqrt{k+1}}$. Previous publications left the determination of an appropriate $\alpha$ to numerical optimization at compile time. The map $\Phi$ gives us the ability to compile directly any $d$-dimensional unitary into a sequence of SNAP and displacement gates in $O(d^3)$ complex floating point operations with low constant prefactor, avoiding the need for numerical optimization. Numerical studies demonstrate that the infidelity of the generated gate sequence $V_k$ per Givens rotation $G$ scales as approximately $O(\theta^6)$. We find numerically that the error on compiled circuits can be made arbitrarily small by breaking each rotation into $m$ $\theta/m$ rotations, with the full $d\times d$ unitary infidelity scaling as approximately $O(m^{-4})$. This represents a significant reduction in the computational effort to compile qudit unitaries either to SNAP and displacement gates or to generate them via direct low-level pulse optimization via optimal control.
翻訳日:2023-07-25 19:07:34 公開日:2023-07-21
# Project Florida: フェデレーション学習が簡単になった

Project Florida: Federated Learning Made Easy ( http://arxiv.org/abs/2307.11899v1 )

ライセンス: Link先を確認
Daniel Madrigal Diaz, Andre Manoel, Jialei Chen, Nalin Singal, Robert Sim(参考訳) 我々は,システムアーキテクチャとソフトウェア開発キット(SDK)であるProject Floridaを紹介した。 フェデレーション学習(federated learning)は、強力なデータ主権原則に基づく機械学習のアプローチである。すなわち、データのプライバシとセキュリティは、エンドユーザデバイスであれ、分離されたクラウドストレージサイロであれ、その起源に格納することで有効になる。 フェデレーション学習は、モデルスナップショットをバウンダリ内で実行されているクライアントに配布し、モデルを更新するためにクライアントコードを実行し、中央オーケストレータ内の多くのクライアント間で更新されたスナップショットを集約することにより、デバイスとサイロ間のモデルトレーニングを可能にする。 FLソリューションのデプロイには、複雑なプライバシとセキュリティメカニズムの実装とスケーラブルなオーケストレーションインフラストラクチャが必要です。 モデルトレーニングプロセスは、多種多様なパフォーマンス特性を持つ多くのクライアントデバイスへの完全参加の恩恵を受けるため、スケールとパフォーマンスが最大の懸念事項である。 Project Floridaは、クラウドにホストされたインフラストラクチャとタスク管理インターフェースを提供し、C++、Java、Pythonを含むほとんどの主要なプログラミング言語をサポートするマルチプラットフォームSDKを提供し、幅広いオペレーティングシステム(OS)とハードウェア仕様でFLトレーニングを可能にすることで、デバイス間のFLソリューションのデプロイを簡単にすることを目指している。 このアーキテクチャはサービス管理をFLワークフローから切り離し、クラウドサービスプロバイダがFL-as-a-service(FLaaS)をMLエンジニアとアプリケーション開発者に提供できるようにする。 本稿では,フロリダの概要を概観し,システム機能を示すアーキテクチャ,サンプルコード,図示実験について述べる。

We present Project Florida, a system architecture and software development kit (SDK) enabling deployment of large-scale Federated Learning (FL) solutions across a heterogeneous device ecosystem. Federated learning is an approach to machine learning based on a strong data sovereignty principle, i.e., that privacy and security of data is best enabled by storing it at its origin, whether on end-user devices or in segregated cloud storage silos. Federated learning enables model training across devices and silos while the training data remains within its security boundary, by distributing a model snapshot to a client running inside the boundary, running client code to update the model, and then aggregating updated snapshots across many clients in a central orchestrator. Deploying a FL solution requires implementation of complex privacy and security mechanisms as well as scalable orchestration infrastructure. Scale and performance is a paramount concern, as the model training process benefits from full participation of many client devices, which may have a wide variety of performance characteristics. Project Florida aims to simplify the task of deploying cross-device FL solutions by providing cloud-hosted infrastructure and accompanying task management interfaces, as well as a multi-platform SDK supporting most major programming languages including C++, Java, and Python, enabling FL training across a wide range of operating system (OS) and hardware specifications. The architecture decouples service management from the FL workflow, enabling a cloud service provider to deliver FL-as-a-service (FLaaS) to ML engineers and application developers. We present an overview of Florida, including a description of the architecture, sample code, and illustrative experiments demonstrating system capabilities.
翻訳日:2023-07-25 19:06:53 公開日:2023-07-21
# Hindsight-DICE: 深層強化学習のための安定したクレジットアサインメント

Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning ( http://arxiv.org/abs/2307.11897v1 )

ライセンス: Link先を確認
Akash Velu, Skanda Vaidyanath, Dilip Arumugam(参考訳) 多くの場合、強化学習エージェントを指導するための評価フィードバックの提供においては、逐次的な意思決定問題のための環境は極めて少ない。 極端な場合、行動の長い軌跡はただ一つの終端フィードバック信号で句読されるだけであり、非自明な報酬の観察とそのようなフィードバックを導き出すための個々の行動ステップの間にかなりの時間的遅延が生じる。 このような信用割当課題に対処することは、強化学習の要点の一つであり、本研究では、既存の重要サンプリング比率推定手法をオフポリシー評価に活用し、信用割当の取扱いを政策段階の手法で劇的に改善する。 いわゆる「後見政策」は、観察された軌跡の返却に対する塩分による政治データの重み付けを原則としたメカニズムを提供する一方で、重要サンプリングの結果を不安定あるいは過度にラグした学習に適用する。 対照的に、私たちの後ろ向きの分散補正は、クレジット割り当てがベースラインメソッドを悩ませる幅広い環境において、安定して効率的な学習を促進する。

Oftentimes, environments for sequential decision-making problems can be quite sparse in the provision of evaluative feedback to guide reinforcement-learning agents. In the extreme case, long trajectories of behavior are merely punctuated with a single terminal feedback signal, engendering a significant temporal delay between the observation of non-trivial reward and the individual steps of behavior culpable for eliciting such feedback. Coping with such a credit assignment challenge is one of the hallmark characteristics of reinforcement learning and, in this work, we capitalize on existing importance-sampling ratio estimation techniques for off-policy evaluation to drastically improve the handling of credit assignment with policy-gradient methods. While the use of so-called hindsight policies offers a principled mechanism for reweighting on-policy data by saliency to the observed trajectory return, naively applying importance sampling results in unstable or excessively lagged learning. In contrast, our hindsight distribution correction facilitates stable, efficient learning across a broad range of environments where credit assignment plagues baseline methods.
翻訳日:2023-07-25 19:06:24 公開日:2023-07-21
# 悪騒音に対するフェアネス制約学習の脆弱性について

On the Vulnerability of Fairness Constrained Learning to Malicious Noise ( http://arxiv.org/abs/2307.11892v1 )

ライセンス: Link先を確認
Avrim Blum, Princewill Okoroafor, Aadirupa Saha, Kevin Stangl(参考訳) トレーニングデータにおいて、公平性に制約された学習の脆弱性を少数の悪意のある雑音に対して考慮する。 konstantinov と lampert (2021) はこの問題の研究を開始し、いくつかの公平な制約に対して、グループのサイズが不均衡な場合、適切な学習者が高い脆弱性を示すデータ分布が存在することを示した。 ここでは、より楽観的な見解を示し、ランダム化分類器を許すと、風景はより微妙になることを示す。 例えば、人口統計学的パリティの場合、精度の低下は$\theta(\alpha)$であり、$\alpha$は悪意のあるノイズレートであり、公平さの制約なしにも最良に一致する。 同じ機会のために、我々は$o(\sqrt{\alpha})$損失を発生させ、一致する$\omega(\sqrt{\alpha})$lowerバウンドを与えることができることを示します。 対照的に、Konstantinov と Lampert (2021) は、適切な学習者に対して、両方の概念の精度の損失は$\Omega(1)$であることを示した。 我々の研究の重要な技術的ノベルティは、敵が彼の力を増幅するために使える単純な「トリック」をランダム化がどのようにバイパスできるかである。 また、等化オッズや校正を含む追加の公平性の概念も検討する。 これらの公平性の概念に対して、過剰な精度のクラスターは3つの自然界に$O(\alpha)$,$O(\sqrt{\alpha})$と$O(1)$である。 これらの結果は、訓練データにおける対向雑音に対する公平性制約学習の感度をよりきめ細かなビューを提供する。

We consider the vulnerability of fairness-constrained learning to small amounts of malicious noise in the training data. Konstantinov and Lampert (2021) initiated the study of this question and presented negative results showing there exist data distributions where for several fairness constraints, any proper learner will exhibit high vulnerability when group sizes are imbalanced. Here, we present a more optimistic view, showing that if we allow randomized classifiers, then the landscape is much more nuanced. For example, for Demographic Parity we show we can incur only a $\Theta(\alpha)$ loss in accuracy, where $\alpha$ is the malicious noise rate, matching the best possible even without fairness constraints. For Equal Opportunity, we show we can incur an $O(\sqrt{\alpha})$ loss, and give a matching $\Omega(\sqrt{\alpha})$lower bound. In contrast, Konstantinov and Lampert (2021) showed for proper learners the loss in accuracy for both notions is $\Omega(1)$. The key technical novelty of our work is how randomization can bypass simple "tricks" an adversary can use to amplify his power. We also consider additional fairness notions including Equalized Odds and Calibration. For these fairness notions, the excess accuracy clusters into three natural regimes $O(\alpha)$,$O(\sqrt{\alpha})$ and $O(1)$. These results provide a more fine-grained view of the sensitivity of fairness-constrained learning to adversarial noise in training data.
翻訳日:2023-07-25 19:06:04 公開日:2023-07-21
# 微分プライベート確率勾配降下のためのバッチクリッピングと適応層分割クリッピング

Batch Clipping and Adaptive Layerwise Clipping for Differential Private Stochastic Gradient Descent ( http://arxiv.org/abs/2307.11939v1 )

ライセンス: Link先を確認
Toan N. Nguyen, Phuong Ha Nguyen, Lam M. Nguyen, Marten Van Dijk(参考訳) 微分プライベート確率勾配降下 (dpsgd) の各ラウンドは、ガウスノイズを伴わないクリップされた勾配の和を中央サーバに送信し、これを用いて、ディープニューラルネットワークをしばしば表現するグローバルモデルを更新する。 クリップング勾配は個別クリッピング(ic)と呼ばれる別々に計算されるため、resnet-18のようなディープニューラルネットワークでは、高精度を達成するためにディープニューラルネットワークの重要なコンポーネントであるバッチ正規化層(bnl)を使用できない。 BNLを利用するために、Batch Clipping (BC)を導入し、DPSGDのように単一の勾配をクリップする代わりに、平均およびクリップの勾配をクリップする。 さらに、異なる層のモデルエントリは、付加ガウス雑音に対する感受性が異なる。 したがって,各層が適応的に微調整されたクリッピング定数を有する適応的層毎クリッピング法(alc)が導入され,検討されているが,厳密なdp証明は行われていない。 本稿では,新たな ALC を提案し,BC と ALC の両方に対して厳密な DP 証明を提供する。 実験の結果,CIFARが10ドル,resnetが18ドル,ICとALCが10ドル,DPSGDがICとALCが10ドルであった。

Each round in Differential Private Stochastic Gradient Descent (DPSGD) transmits a sum of clipped gradients obfuscated with Gaussian noise to a central server which uses this to update a global model which often represents a deep neural network. Since the clipped gradients are computed separately, which we call Individual Clipping (IC), deep neural networks like resnet-18 cannot use Batch Normalization Layers (BNL) which is a crucial component in deep neural networks for achieving a high accuracy. To utilize BNL, we introduce Batch Clipping (BC) where, instead of clipping single gradients as in the orginal DPSGD, we average and clip batches of gradients. Moreover, the model entries of different layers have different sensitivities to the added Gaussian noise. Therefore, Adaptive Layerwise Clipping methods (ALC), where each layer has its own adaptively finetuned clipping constant, have been introduced and studied, but so far without rigorous DP proofs. In this paper, we propose {\em a new ALC and provide rigorous DP proofs for both BC and ALC}. Experiments show that our modified DPSGD with BC and ALC for CIFAR-$10$ with resnet-$18$ converges while DPSGD with IC and ALC does not.
翻訳日:2023-07-25 18:59:15 公開日:2023-07-21
# LAMP:マルチパーソン・ポース推定のための言語プロンプトの活用

LAMP: Leveraging Language Prompts for Multi-person Pose Estimation ( http://arxiv.org/abs/2307.11934v1 )

ライセンス: Link先を確認
Shengnan Hu, Ce Zheng, Zixiang Zhou, Chen Chen, and Gita Sukthankar(参考訳) 人間中心の視覚理解は、効果的な人間とロボットの相互作用にとって重要なデシデラタムである。 混雑した公共の場所をナビゲートするためには、社会ロボットが周囲の人間の活動を理解する必要がある。 本稿では,人間中心の視覚的理解,多人数ポーズ推定における重要な側面について述べる。 混み合った場面における多人数ポーズ推定における良好な性能の実現は,オクルードジョイントやインスタンス分離の課題から困難である。 これらの課題に取り組み,目に見えない部分を表現する際の画像特徴の限界を克服するために,lamp(language assisted multi-person pose estimation)と呼ばれる新しいプロンプトベースポーズ推論戦略を提案する。 CLIP( well-trained language model)によって生成されたテキスト表現を利用することで、LAMPはインスタンスや関節レベルでのポーズの理解を容易にし、閉塞に弱いより堅牢な視覚表現を学習することができる。 本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を高めることを示し,インスタンスレベルと共同レベルのプロンプトの両方がトレーニングに有用であることを示す。 コードはhttps://github.com/shengnanh20/LAMPで公開されている。

Human-centric visual understanding is an important desideratum for effective human-robot interaction. In order to navigate crowded public places, social robots must be able to interpret the activity of the surrounding humans. This paper addresses one key aspect of human-centric visual understanding, multi-person pose estimation. Achieving good performance on multi-person pose estimation in crowded scenes is difficult due to the challenges of occluded joints and instance separation. In order to tackle these challenges and overcome the limitations of image features in representing invisible body parts, we propose a novel prompt-based pose inference strategy called LAMP (Language Assisted Multi-person Pose estimation). By utilizing the text representations generated by a well-trained language model (CLIP), LAMP can facilitate the understanding of poses on the instance and joint levels, and learn more robust visual representations that are less susceptible to occlusion. This paper demonstrates that language-supervised training boosts the performance of single-stage multi-person pose estimation, and both instance-level and joint-level prompts are valuable for training. The code is available at https://github.com/shengnanh20/LAMP.
翻訳日:2023-07-25 18:58:46 公開日:2023-07-21
# rico:汎用的なシーン再構成のためのローテーションインペイントコンプリート

RICo: Rotate-Inpaint-Complete for Generalizable Scene Reconstruction ( http://arxiv.org/abs/2307.11932v1 )

ライセンス: Link先を確認
Isaac Kasahara, Shubham Agrawal, Selim Engin, Nikhil Chavan-Dafle, Shuran Song, Volkan Isler(参考訳) 一般的なシーン再構成は、これまで見えない物体を含むシーンの完全な3次元形状とテクスチャを推定する作業である。 AR/VR、自律ナビゲーション、ロボット工学といった多くの実践的応用において、シーンの単一のビューしか利用できないため、シーン再構築は非常に難しい作業である。 本稿では,2次元から3次元のシーン昇降による新規なビューの描画という2つのステップを構造的に分割して,シーンの再構成を行う手法を提案する。 具体的には,大規模言語モデルの一般化機能を活用し,異なる視点から描画されたシーンカラー画像の欠落領域を描画する。 次に, 塗装画像の正常さを予測し, 欠損深度値の解法により, 塗装画像の3次元化を行う。 本手法では, 深度分布やスケールの変化に対して, 直接的に正規分布を予測できる。 厳密な定量的評価により,提案手法が複数のベースラインを上回り,新たなオブジェクトやシーンを一般化する。

General scene reconstruction refers to the task of estimating the full 3D geometry and texture of a scene containing previously unseen objects. In many practical applications such as AR/VR, autonomous navigation, and robotics, only a single view of the scene may be available, making the scene reconstruction a very challenging task. In this paper, we present a method for scene reconstruction by structurally breaking the problem into two steps: rendering novel views via inpainting and 2D to 3D scene lifting. Specifically, we leverage the generalization capability of large language models to inpaint the missing areas of scene color images rendered from different views. Next, we lift these inpainted images to 3D by predicting normals of the inpainted image and solving for the missing depth values. By predicting for normals instead of depth directly, our method allows for robustness to changes in depth distributions and scale. With rigorous quantitative evaluation, we show that our method outperforms multiple baselines while providing generalization to novel objects and scenes.
翻訳日:2023-07-25 18:58:27 公開日:2023-07-21
# 完全離散化有限量子力学

Completely Discretized, Finite Quantum Mechanics ( http://arxiv.org/abs/2307.11927v1 )

ライセンス: Link先を確認
Sean M. Carroll(参考訳) 実世界のモデルである離散的かつ有限な状態を特徴とする量子力学のバージョンを提案する。 このモデルは有限次元ヒルベルト空間を持つ閉システムの標準ユニタリ量子論に基づいている。 ハミルトニアンのスペクトル上のある種の単純な条件を考えると、Schr\"odinger進化は周期的であり、連続時間を離散バージョンに置き換えることは簡単であり、結果として系は離散的かつ有限な状態ベクトルの集合のみを訪問する。 このようなモデルの実現可能性に対する最大の課題は、宇宙論的考察である。 この理論は、数学的実在論とフィニスティズムの問題に意味を持つかもしれない。

I propose a version of quantum mechanics featuring a discrete and finite number of states that is plausibly a model of the real world. The model is based on standard unitary quantum theory of a closed system with a finite-dimensional Hilbert space. Given certain simple conditions on the spectrum of the Hamiltonian, Schr\"odinger evolution is periodic, and it is straightforward to replace continuous time with a discrete version, with the result that the system only visits a discrete and finite set of state vectors. The biggest challenges to the viability of such a model come from cosmological considerations. The theory may have implications for questions of mathematical realism and finitism.
翻訳日:2023-07-25 18:58:07 公開日:2023-07-21
# PartDiff:部分拡散モデルによる画像超解像

PartDiff: Image Super-resolution with Partial Diffusion Models ( http://arxiv.org/abs/2307.11926v1 )

ライセンス: Link先を確認
Kai Zhao, Alex Ling Yu Hung, Kaifeng Pang, Haoxin Zheng, and Kyunghyun Sung(参考訳) 拡散確率モデル(DDPM)は画像超解像を含む様々な画像生成タスクにおいて顕著な性能を達成している。 データの分布をガウス雑音に徐々に拡散させる過程を学習することにより、ddpmはランダムノイズから反復的に切り離して新しいデータを生成する。 そこで本稿では, 拡散に基づく生成モデルにおいて, 低解像度画像と高分解能画像の拡散により, 中間潜時状態が徐々に収束し, 識別不能となることを最初に観察した。 この観察をきっかけに,低解像度画像の拡散の潜在性によって中間的潜在状態が近似される純粋なランダムノイズではなく,中間的潜在状態へ拡散する部分拡散モデル(partdiff)を提案する。 生成中、部分拡散モデルは中間分布からデノナイズを開始し、デノナイズステップの一部のみを実行する。 さらに,この近似による誤差を軽減するために,訓練中の低解像度画像と高解像度画像との潜伏を整合させる「相対的アライメント」を導入する。 磁気共鳴画像(MRI)と自然画像の両方の実験では、拡散に基づく超解像法と比較して、部分拡散モデルは生成の質を犠牲にすることなくデノナイジングステップの数を著しく減少させる。

Denoising diffusion probabilistic models (DDPMs) have achieved impressive performance on various image generation tasks, including image super-resolution. By learning to reverse the process of gradually diffusing the data distribution into Gaussian noise, DDPMs generate new data by iteratively denoising from random noise. Despite their impressive performance, diffusion-based generative models suffer from high computational costs due to the large number of denoising steps.In this paper, we first observed that the intermediate latent states gradually converge and become indistinguishable when diffusing a pair of low- and high-resolution images. This observation inspired us to propose the Partial Diffusion Model (PartDiff), which diffuses the image to an intermediate latent state instead of pure random noise, where the intermediate latent state is approximated by the latent of diffusing the low-resolution image. During generation, Partial Diffusion Models start denoising from the intermediate distribution and perform only a part of the denoising steps. Additionally, to mitigate the error caused by the approximation, we introduce "latent alignment", which aligns the latent between low- and high-resolution images during training. Experiments on both magnetic resonance imaging (MRI) and natural images show that, compared to plain diffusion-based super-resolution methods, Partial Diffusion Models significantly reduce the number of denoising steps without sacrificing the quality of generation.
翻訳日:2023-07-25 18:57:56 公開日:2023-07-21
# リッジ関数から見たMercurer大規模カーネルマシン

Mercer Large-Scale Kernel Machines from Ridge Function Perspective ( http://arxiv.org/abs/2307.11925v1 )

ライセンス: Link先を確認
Karol Dziedziul and Sergey Kryzhevich(参考訳) リッジ関数の観点からMercurerの大規模カーネルマシンを提案するため、リッジ関数の基本性からLinとPinkusの結果を思い出す。 我々は,rachimi and rechtによる最近の論文の主定理を,近似理論の観点から,大規模カーネルマシンのランダム特徴を考察する。 我々は、x$と$y$に依存する引数を持つコサイン関数積の和によって、どのカーネルを近似することができるかを調べ、そのようなアプローチの障害を提示する。 この論文の結果は、特に画像処理に関する問題において、ディープラーニングに様々な応用がある可能性がある。

To present Mercer large-scale kernel machines from a ridge function perspective, we recall the results by Lin and Pinkus from Fundamentality of ridge functions. We consider the main theorem of the recent paper by Rachimi and Recht, 2008, Random features for large-scale kernel machines in terms of the Approximation Theory. We study which kernels can be approximated by a sum of cosine function products with arguments depending on $x$ and $y$ and present the obstacles of such an approach. The results of this article may have various applications in Deep Learning, especially in problems related to Image Processing.
翻訳日:2023-07-25 18:57:30 公開日:2023-07-21
# 選択知覚:言語モデルアクターの強化学習による状態記述の最適化

Selective Perception: Optimizing State Descriptions with Reinforcement Learning for Language Model Actors ( http://arxiv.org/abs/2307.11922v1 )

ライセンス: Link先を確認
Kolby Nottingham, Yasaman Razeghi, Kyungmin Kim, JB Lanier, Pierre Baldi, Roy Fox, Sameer Singh(参考訳) 大規模言語モデル(LLM)は、ロボット工学やゲームなどの分野におけるシーケンシャルな意思決定タスクにアクターとして応用され、一般的な世界の知識と計画能力を活用している。 しかし、これまでの研究では、LLMアクターが言語を介してどのような環境状態情報を提供するかは明らかになっていない。 高次元状態を記述することは、LLMアクターの性能を損なう可能性がある。 以前のllmアクタは、ハンドエンジニアリングされたタスク固有のプロトコルを使用して、状態について通信する機能と、それを除外する機能を決定することで、この問題を回避する。 本研究では,タスク条件付き状態記述のための値関数を学習することにより,簡潔な状態記述を自動的に選択するBLINDERを提案する。 難易度の高いビデオゲームnethackとロボット操作タスクのブラインド評価を行った。 提案手法はタスク成功率を改善し,入力サイズと計算コストを削減し,LLMアクター間の一般化を行う。

Large language models (LLMs) are being applied as actors for sequential decision making tasks in domains such as robotics and games, utilizing their general world knowledge and planning abilities. However, previous work does little to explore what environment state information is provided to LLM actors via language. Exhaustively describing high-dimensional states can impair performance and raise inference costs for LLM actors. Previous LLM actors avoid the issue by relying on hand-engineered, task-specific protocols to determine which features to communicate about a state and which to leave out. In this work, we propose Brief Language INputs for DEcision-making Responses (BLINDER), a method for automatically selecting concise state descriptions by learning a value function for task-conditioned state descriptions. We evaluate BLINDER on the challenging video game NetHack and a robotic manipulation task. Our method improves task success rate, reduces input size and compute costs, and generalizes between LLM actors.
翻訳日:2023-07-25 18:57:20 公開日:2023-07-21
# マルチモーダルサーベイと地球観測データを用いた貧困率予測

Poverty rate prediction using multi-modal survey and earth observation data ( http://arxiv.org/abs/2307.11921v1 )

ライセンス: Link先を確認
Simone Fobi, Manuel Cardona, Elliott Collins, Caleb Robinson, Anthony Ortiz, Tina Sederholm, Rahul Dodhia, Juan Lavista Ferres(参考訳) 本研究では、家庭の人口統計と生活水準調査を衛星画像から得られた特徴と組み合わせて、地域の貧困率を予測するアプローチを提案する。 提案手法は,10m/pxのSentinel-2表面反射率衛星画像に一段加工法を適用した視覚的特徴を利用する。 これらの視覚的特徴は、世帯が貧困線以下であるかどうかを推定するために、プロキシ手段テスト(PMT)における10の調査質問と組み合わせられる。 視覚機能の導入により,貧困率の推定値の平均誤差が4.09%から3.88%に低下することが判明した。 衛星画像の特徴をプロキシ手段テストに含めることに加えて,衛星画像から抽出した視覚特徴を補完する調査質問のサブセットを選択するアプローチを提案する。 具体的には、全調査および画像特徴によって導かれる調査変数選択アプローチを設計し、この手法を用いて、PMTに含まれる最も関連性の高い調査質問の集合を決定する。 少人数の質問を用いて貧困率を予測する下流課題における小規模調査質問の選択を検証した。 このアプローチは最高のパフォーマンスをもたらす -- 貧困率のエラーは4.09%から3.71%に減少する。 抽出された視覚特徴は地域間の地理的・都市的差異を暗示している。

This work presents an approach for combining household demographic and living standards survey questions with features derived from satellite imagery to predict the poverty rate of a region. Our approach utilizes visual features obtained from a single-step featurization method applied to freely available 10m/px Sentinel-2 surface reflectance satellite imagery. These visual features are combined with ten survey questions in a proxy means test (PMT) to estimate whether a household is below the poverty line. We show that the inclusion of visual features reduces the mean error in poverty rate estimates from 4.09% to 3.88% over a nationally representative out-of-sample test set. In addition to including satellite imagery features in proxy means tests, we propose an approach for selecting a subset of survey questions that are complementary to the visual features extracted from satellite imagery. Specifically, we design a survey variable selection approach guided by the full survey and image features and use the approach to determine the most relevant set of small survey questions to include in a PMT. We validate the choice of small survey questions in a downstream task of predicting the poverty rate using the small set of questions. This approach results in the best performance -- errors in poverty rate decrease from 4.09% to 3.71%. We show that extracted visual features encode geographic and urbanization differences between regions.
翻訳日:2023-07-25 18:57:03 公開日:2023-07-21
# 人の興味と自己利益のバランスの予測-ai-bility

Predict-AI-bility of how humans balance self-interest with the interest of others ( http://arxiv.org/abs/2307.12776v1 )

ライセンス: Link先を確認
Valerio Capraro, Roberto Di Paolo, Veronica Pizziol(参考訳) 生成型人工知能(generative artificial intelligence)は、意思決定プロセスに革命をもたらす大きな可能性を秘めている。 しかし、多くの決定が社会的意味を持ち、AIが意思決定の信頼できるアシスタントになるためには、自己利益と他者の利益のバランスを捉えることが不可欠である。 12カ国の人間と78の実験で、最も先進的なチャットボットの3つが独裁的ゲーム決定を予測できる能力について調査した。 GPT-4(BardでもBingでもない)だけが質的な行動パターンを正しく捉え、自己関心、不平等、完全に利他的という3つの主要な行動のクラスを特定する。 にもかかわらず、GPT-4は非無視的な振る舞いを常に過大評価し、不等式と完全な利他的参加者の比率を膨らませている。 このバイアスは、ai開発者とユーザに大きな影響を与える。

Generative artificial intelligence holds enormous potential to revolutionize decision-making processes, from everyday to high-stake scenarios. However, as many decisions carry social implications, for AI to be a reliable assistant for decision-making it is crucial that it is able to capture the balance between self-interest and the interest of others. We investigate the ability of three of the most advanced chatbots to predict dictator game decisions across 78 experiments with human participants from 12 countries. We find that only GPT-4 (not Bard nor Bing) correctly captures qualitative behavioral patterns, identifying three major classes of behavior: self-interested, inequity-averse, and fully altruistic. Nonetheless, GPT-4 consistently overestimates other-regarding behavior, inflating the proportion of inequity-averse and fully altruistic participants. This bias has significant implications for AI developers and users.
翻訳日:2023-07-25 14:25:12 公開日:2023-07-21
# calda: コントラスト型逆学習によるマルチソース時系列ドメイン適応の改善

CALDA: Improving Multi-Source Time Series Domain Adaptation with Contrastive Adversarial Learning ( http://arxiv.org/abs/2109.14778v2 )

ライセンス: Link先を確認
Garrett Wilson, Janardhan Rao Doppa, Diane J. Cook(参考訳) unsupervised domain adaptation (uda)は、基盤となる真理ラベルがアクセスできないが関連する(ソース)ドメインで見られるデータ豊富な(ターゲット)ドメインにおける機械学習のパフォーマンスを改善する戦略を提供する。 ラベル分布のようなメタドメイン情報を利用できる場合、弱い監督はパフォーマンスをさらに向上させる。 これら2つの問題に対処するための新しいフレームワークであるCALDAを提案する。 CALDAは、時系列データに対するマルチソースUDA(MS-UDA)を強力にサポートするために、コントラスト学習と逆学習の原則を相乗的に組み合わせている。 従来の手法と同様に、CALDAは逆学習を利用して、ソースとターゲットの特徴表現を整列させる。 以前のアプローチとは異なり、caldaはドメイン間のクロスソースラベル情報を活用する。 caldaは、同じラベルを持つ例を互いに近くで引き寄せ、異なるラベルで例を押して、コントラスト学習を通じて空間を再形成する。 従来のコントラスト適応法とは異なり、CALDAはデータ拡張も擬似ラベリングも必要としない。 提案したアプローチを実証的に検証する。 人間の活動認識、筋電図、合成データセットの結果から、クロスソース情報を利用することで、過去の時系列やコントラスト法よりも性能が向上することがわかった。 CALDA は,MS-UDA に対して一般化可能な戦略を提供することができるため,ノイズの存在下でも性能が向上する。 コードは、https://github.com/floft/calda.comで入手できる。

Unsupervised domain adaptation (UDA) provides a strategy for improving machine learning performance in data-rich (target) domains where ground truth labels are inaccessible but can be found in related (source) domains. In cases where meta-domain information such as label distributions is available, weak supervision can further boost performance. We propose a novel framework, CALDA, to tackle these two problems. CALDA synergistically combines the principles of contrastive learning and adversarial learning to robustly support multi-source UDA (MS-UDA) for time series data. Similar to prior methods, CALDA utilizes adversarial learning to align source and target feature representations. Unlike prior approaches, CALDA additionally leverages cross-source label information across domains. CALDA pulls examples with the same label close to each other, while pushing apart examples with different labels, reshaping the space through contrastive learning. Unlike prior contrastive adaptation methods, CALDA requires neither data augmentation nor pseudo labeling, which may be more challenging for time series. We empirically validate our proposed approach. Based on results from human activity recognition, electromyography, and synthetic datasets, we find utilizing cross-source information improves performance over prior time series and contrastive methods. Weak supervision further improves performance, even in the presence of noise, allowing CALDA to offer generalizable strategies for MS-UDA. Code is available at: https://github.com/floft/calda
翻訳日:2023-07-24 17:06:35 公開日:2023-07-21
# rSVDdpd:ロバストでスケーラブルなビデオ監視バックグラウンドモデリングアルゴリズム

rSVDdpd: A Robust Scalable Video Surveillance Background Modelling Algorithm ( http://arxiv.org/abs/2109.10680v2 )

ライセンス: Link先を確認
Subhrajyoty Roy, Ayanendranath Basu and Abhik Ghosh(参考訳) 自動化ビデオ監視における基本的なアルゴリズムタスクは、背景と前景のオブジェクトを分離することである。 カメラの改ざん、騒がしいビデオ、低フレームレートなど、問題解決には困難が伴う。 改ざんされたフレームを分類し、改ざんしたフレームを捨てた後の残りのフレームを解析する一般的な手法は、情報の喪失をもたらす。 この問題を解決するためにロバスト主成分分析(pca)に基づくいくつかのロバストな手法が導入された。 現在までに、計算コストを削減し、フォアグラウンド検出を視覚的にアピールする主成分探索法(PCP)による堅牢なPCAの開発にかなりの努力が費やされている。 しかし、これらのアルゴリズムで使用される凸最適化は、大きな行列反転ステップのため、実世界の大規模データセットにうまくスケールしない。 また、これらの前景検出アルゴリズムの積分成分は、非ロバストである特異値分解である。 本稿では,これらの問題に対処する新しいロバストな特異値分解手法であるrSVDdpdに基づく,ビデオ監視バックグラウンドモデリングアルゴリズムを提案する。 また,提案アルゴリズムは,カメラの改ざんに際し,ベンチマークデータセットとリアルタイムビデオ監視データセットに優れていることを示す。 ソフトウェアコードと追加のイラストは、付随するウェブサイトrsvddpdホームページで入手できる(https://subroy13.github.io/rsvddpd-home/)。

A basic algorithmic task in automated video surveillance is to separate background and foreground objects. Camera tampering, noisy videos, low frame rate, etc., pose difficulties in solving the problem. A general approach that classifies the tampered frames, and performs subsequent analysis on the remaining frames after discarding the tampered ones, results in loss of information. Several robust methods based on robust principal component analysis (PCA) have been introduced to solve this problem. To date, considerable effort has been expended to develop robust PCA via Principal Component Pursuit (PCP) methods with reduced computational cost and visually appealing foreground detection. However, the convex optimizations used in these algorithms do not scale well to real-world large datasets due to large matrix inversion steps. Also, an integral component of these foreground detection algorithms is singular value decomposition which is nonrobust. In this paper, we present a new video surveillance background modelling algorithm based on a new robust singular value decomposition technique rSVDdpd which takes care of both these issues. We also demonstrate the superiority of our proposed algorithm on a benchmark dataset and a new real-life video surveillance dataset in the presence of camera tampering. Software codes and additional illustrations are made available at the accompanying website rSVDdpd Homepage (https://subroy13.github.io/rsvddpd-home/)
翻訳日:2023-07-24 17:06:02 公開日:2023-07-21
# テラバイトスケール教師付きマウス腎臓の3dトレーニングとベンチマークデータセット

Terabyte-scale supervised 3D training and benchmarking dataset of the mouse kidney ( http://arxiv.org/abs/2108.02226v2 )

ライセンス: Link先を確認
Willy Kuo, Diego Rossinelli, Georg Schulz, Roland H. Wenger, Simone Hieber, Bert M\"uller, Vartan Kurtcuoglu(参考訳) 3dバイオメディカル画像のセグメンテーションに使用される機械学習アルゴリズムの性能は、2d写真で得られた結果に基づいて期待値に達しない。 これは、最先端のイメージング設備、アノテーションのドメインエキスパート、大規模な計算および個人リソースを必要とする、高ボリュームで高品質なトレーニングデータセットの欠如によって説明できる。 この研究で提示されたhr-kidneyデータセットは、1.7tbの人工物による放射光ベースのx線位相コントラストマイクロトモグラフィー画像と、現在利用可能な生体医学データセットよりも1桁から2桁増加する33個の729個の糸球体からなる検証されたセグメントを提供することで、このギャップを埋める。 画像セットには、基礎となる生データ、しきい値と形態に基づく腎血管と尿細管の半自動セグメンテーション、そして真の3D手動アノテーションが含まれている。 そこで我々は、画像処理、データ拡張、機械学習、特に教師なしおよび半教師なしの学習調査、および転送学習と生成的敵ネットワークの分野において、科学コミュニティが構築し拡張するための広い基盤を提供する。

The performance of machine learning algorithms, when used for segmenting 3D biomedical images, does not reach the level expected based on results achieved with 2D photos. This may be explained by the comparative lack of high-volume, high-quality training datasets, which require state-of-the-art imaging facilities, domain experts for annotation and large computational and personal resources. The HR-Kidney dataset presented in this work bridges this gap by providing 1.7 TB of artefact-corrected synchrotron radiation-based X-ray phase-contrast microtomography images of whole mouse kidneys and validated segmentations of 33 729 glomeruli, which corresponds to a one to two orders of magnitude increase over currently available biomedical datasets. The image sets also contain the underlying raw data, threshold- and morphology-based semi-automatic segmentations of renal vasculature and uriniferous tubules, as well as true 3D manual annotations. We therewith provide a broad basis for the scientific community to build upon and expand in the fields of image processing, data augmentation and machine learning, in particular unsupervised and semi-supervised learning investigations, as well as transfer learning and generative adversarial networks.
翻訳日:2023-07-24 17:05:24 公開日:2023-07-21
# cluereader: マルチホップ機械読解のためのヘテロジニアスグラフアテンションネットワーク

ClueReader: Heterogeneous Graph Attention Network for Multi-hop Machine Reading Comprehension ( http://arxiv.org/abs/2107.00841v3 )

ライセンス: Link先を確認
Peng Gao, Feng Gao, Peng Wang, Jian-Cheng Ni, Fei Wang, Hamido Fujita(参考訳) マルチホップ機械読解は、複数の文書にまたがる推論能力を必要とするため、自然言語処理において難しい課題である。 グラフ畳み込みネットワークに基づくスペクトルモデルは、優れた推論能力を示し、競争結果をもたらす。 しかし、いくつかの分析と推論は人間の分析と矛盾している。 認知神経科学における祖母細胞の概念に触発され,祖母細胞の概念を模倣するヘテロジニアスグラフアテンションネットワークモデルClueReaderを提案する。 このモデルは、マルチレベル表現における意味的特徴を組み立て、注意機構を通じて推論のための情報を自動的に集中または緩和するように設計されている。 クエリの主題を手掛かりの出発点として、推論エンティティをブリッジポイントとして、潜在候補エンティティを祖母セルとして、手掛かりを候補エンティティとして考慮します。 提案モデルは推論グラフの可視化を可能にし,エンティティを接続するエッジの重要性と参照ノードと候補ノードの選択性を分析し,経験的に理解しやすくする。 open-domain multi-hop reading dataset wikihop および drug-drug interaction dataset medhop の評価により, cluereader の有効性が証明され,分子生物学領域におけるモデルの適用の可能性が示された。

Multi-hop machine reading comprehension is a challenging task in natural language processing as it requires more reasoning ability across multiple documents. Spectral models based on graph convolutional networks have shown good inferring abilities and lead to competitive results. However, the analysis and reasoning of some are inconsistent with those of humans. Inspired by the concept of grandmother cells in cognitive neuroscience, we propose a heterogeneous graph attention network model named ClueReader to imitate the grandmother cell concept. The model is designed to assemble the semantic features in multi-level representations and automatically concentrate or alleviate information for reasoning through the attention mechanism. The name ClueReader is a metaphor for the pattern of the model: it regards the subjects of queries as the starting points of clues, takes the reasoning entities as bridge points, considers the latent candidate entities as grandmother cells, and the clues end up in candidate entities. The proposed model enables the visualization of the reasoning graph, making it possible to analyze the importance of edges connecting entities and the selectivity in the mention and candidate nodes, which is easier to comprehend empirically. Evaluations on the open-domain multi-hop reading dataset WikiHop and drug-drug interaction dataset MedHop proved the validity of ClueReader and showed the feasibility of its application of the model in the molecular biology domain.
翻訳日:2023-07-24 17:04:55 公開日:2023-07-21
# グラフニューラルネットワークにはホモフィリーが必要か?

Is Homophily a Necessity for Graph Neural Networks? ( http://arxiv.org/abs/2106.06134v4 )

ライセンス: Link先を確認
Yao Ma, Xiaorui Liu, Neil Shah, Jiliang Tang(参考訳) グラフニューラルネットワーク(GNN)は、多数のグラフベースの機械学習タスクに適した学習表現において大きな進歩を示している。 半教師付きノード分類に適用すると、GNNはホモフィリーな仮定(アトラクション等)のためにうまく機能し、異種ノードが接続する異種グラフに一般化できないと広く信じられている。 最近の研究は、このような不均一な制限を克服する新しいアーキテクチャを設計し、ベースライン性能の低さと、この概念の証拠として、いくつかの異種グラフベンチマークデータセットに対するアーキテクチャの改善を引用している。 実験では、標準的なグラフ畳み込みネットワーク(GCN)が、よく使われるヘテロ親和性グラフのこのような慎重に設計された手法よりも、実際に優れた性能を達成できることを実証的に見出した。 このことは、GNNのパフォーマンス向上にホモフィリーが本当に必要かどうかを再考する動機となっている。 実際、GCNは特定の条件下でのヘテロ親和性グラフ上での強い性能を達成することができる。 我々の研究はこれらの条件を慎重に特徴づけ、理論的理解と経験的観察を支援する。 最後に、既存の異種グラフベンチマークを検証し、この理解に基づいてGCNがどのように機能するかを精査する。

Graph neural networks (GNNs) have shown great prowess in learning representations suitable for numerous graph-based machine learning tasks. When applied to semi-supervised node classification, GNNs are widely believed to work well due to the homophily assumption ("like attracts like"), and fail to generalize to heterophilous graphs where dissimilar nodes connect. Recent works design new architectures to overcome such heterophily-related limitations, citing poor baseline performance and new architecture improvements on a few heterophilous graph benchmark datasets as evidence for this notion. In our experiments, we empirically find that standard graph convolutional networks (GCNs) can actually achieve better performance than such carefully designed methods on some commonly used heterophilous graphs. This motivates us to reconsider whether homophily is truly necessary for good GNN performance. We find that this claim is not quite true, and in fact, GCNs can achieve strong performance on heterophilous graphs under certain conditions. Our work carefully characterizes these conditions, and provides supporting theoretical understanding and empirical observations. Finally, we examine existing heterophilous graphs benchmarks and reconcile how the GCN (under)performs on them based on this understanding.
翻訳日:2023-07-24 17:04:34 公開日:2023-07-21
# オンラインニュースのセマンティックネットワーク分析による消費者信頼度予測

Forecasting consumer confidence through semantic network analysis of online news ( http://arxiv.org/abs/2105.04900v2 )

ライセンス: Link先を確認
A. Fronzetti Colladon, F. Grippa, B. Guardabascio, G. Costante, F. Ravazzolo(参考訳) 本研究では,オンラインニュースが社会・経済消費者の認識に与える影響を意味ネットワーク分析によって調査する。 4年間にわたるイタリアのメディア上の180万以上のオンライン記事を用いて、特定の経済関連キーワードの意味的重要性を計算し、記事に現れる単語が、経済状況と消費者信頼指数に関する消費者の判断を予測できるかどうかを検証した。 我々は,テキストマイニングとソーシャル・ネットワーク分析の手法とツールを組み合わせて,大規模テキストデータの解析に革新的手法を用いる。 結果は、現在の世帯や国家状況についての判断に強い予測力を示す。 本指標は,消費者の信頼度を推定するための補完的アプローチを提供し,従来のサーベイベース手法の限界を緩和する。

This research studies the impact of online news on social and economic consumer perceptions through semantic network analysis. Using over 1.8 million online articles on Italian media covering four years, we calculate the semantic importance of specific economic-related keywords to see if words appearing in the articles could anticipate consumers' judgments about the economic situation and the Consumer Confidence Index. We use an innovative approach to analyze big textual data, combining methods and tools of text mining and social network analysis. Results show a strong predictive power for the judgments about the current households and national situation. Our indicator offers a complementary approach to estimating consumer confidence, lessening the limitations of traditional survey-based methods.
翻訳日:2023-07-24 17:04:14 公開日:2023-07-21
# スムース粒子流体力学の量子アルゴリズム

Quantum Algorithm for Smoothed Particle Hydrodynamics ( http://arxiv.org/abs/2006.06719v4 )

ライセンス: Link先を確認
Rhonda Au-Yeung and Anthony J. Williams and Viv M. Kendon and Steven J. Lind(参考訳) 本研究ではスムーズな粒子流体力学(SPH)法に対する量子計算アルゴリズムを提案する。 sph演算子のエンコードには正規化手順と量子レジスタ内の領域離散化を用いる。 次に、量子レジスタの内部積を介してSPH和を実行する。 1次元関数を用いて、1次元関数のカーネル和と1次元関数の第1および第2微分に対する古典的な意味でのアプローチをガウス関数とウェンドランド関数の両方を用いて検証し、解析結果と比較する。 誤差収束は量子ビット数において指数関数的に高速である。 流体シミュレーションでよく見られる一次元移流方程式と拡散偏微分方程式の解法を拡張する。 この研究はより一般的なSPHアルゴリズムの基礎を提供し、ゲートベースの量子コンピュータにおける複雑な工学問題のシミュレーションを高効率に行う。

We present a quantum computing algorithm for the smoothed particle hydrodynamics (SPH) method. We use a normalization procedure to encode the SPH operators and domain discretization in a quantum register. We then perform the SPH summation via an inner product of quantum registers. Using a one-dimensional function, we test the approach in a classical sense for the kernel sum and first and second derivatives of a one-dimensional function, using both the Gaussian and Wendland kernel functions, and compare various register sizes against analytical results. Error convergence is exponentially fast in the number of qubits. We extend the method to solve the one-dimensional advection and diffusion partial differential equations, which are commonly encountered in fluids simulations. This work provides a foundation for a more general SPH algorithm, eventually leading to highly efficient simulations of complex engineering problems on gate-based quantum computers.
翻訳日:2023-07-24 17:04:01 公開日:2023-07-21
# 量子および古典アルゴリズムにおけるMAX 2-SAT問題インスタンスの硬さの比較

Comparing the hardness of MAX 2-SAT problem instances for quantum and classical algorithms ( http://arxiv.org/abs/2206.06876v2 )

ライセンス: Link先を確認
Puya Mirkarimi, Adam Callison, Lewis Light, Nicholas Chancellor, Viv Kendon(参考訳) 特定の問題に対するアルゴリズムは、固定された入力サイズであっても、問題のいくつかの例がより簡単であり、解決が困難である可能性がある。 我々は, MAX 2-SAT問題インスタンスの相対的硬度を, 連続時間量子アルゴリズムと同等の古典的アルゴリズムに対して数値解析する。 ベンチマークのために量子アルゴリズムの数値シミュレーションで一般的に使用される小型問題インスタンスが、解くのが難しいという観点で大規模インスタンスのよい表現であるかどうかを調べること、ポートフォリオアプローチにおける連続時間量子アルゴリズムの適用性を決定すること、そして、異なるアルゴリズム間のインスタンスの難易度の変化を並列に実行することによって活用すること、の2つの動機がある。 すべてのアルゴリズムが考慮した困難さには相関関係があるが、ポートフォリオアプローチが実際には望ましいと思われるほど弱いように見える。 また,問題の規模が大きくなるにつれて,ランダムに生成されたインスタンスの硬度が広範囲に広がることを示し,小サイズでの硬度分布の違いと,極めて硬度の高いインスタンス数を減らすポートフォリオアプローチの価値を示した。 ポートフォリオアプローチによって克服できるこれらの量子アルゴリズムの特定の弱点を特定し、満足できる(古典的には容易な)インスタンスを効率的に解決できないようにする。

An algorithm for a particular problem may find some instances of the problem easier and others harder to solve, even for a fixed input size. We numerically analyse the relative hardness of MAX 2-SAT problem instances for various continuous-time quantum algorithms and a comparable classical algorithm. This has two motivations: to investigate whether small-sized problem instances, which are commonly used in numerical simulations of quantum algorithms for benchmarking purposes, are a good representation of larger instances in terms of their hardness to solve, and to determine the applicability of continuous-time quantum algorithms in a portfolio approach, where we take advantage of the variation in the hardness of instances between different algorithms by running them in parallel. We find that, while there are correlations in instance hardness between all of the algorithms considered, they appear weak enough that a portfolio approach would likely be desirable in practice. Our results also show a widening range of hardness of randomly generated instances as the problem size is increased, which demonstrates both the difference in the distribution of hardness at small sizes and the value of a portfolio approach that can reduce the number of extremely hard instances. We identify specific weaknesses of these quantum algorithms that can be overcome with a portfolio approach, such their inability to efficiently solve satisfiable instances (which is easy classically).
翻訳日:2023-07-24 16:59:56 公開日:2023-07-21
# 量子ゲート集合の校正における統計的誤差の最小化

Minimising statistical errors in calibration of quantum-gate sets ( http://arxiv.org/abs/2206.03417v2 )

ライセンス: Link先を確認
Yaiza Aragon\'es-Soria, Ren\'e Otten, Tobias Hangleiter, Pascal Cerfontaine, David Gross(参考訳) 量子ゲートの校正は、信頼できる量子コンピュータへの道のりを乗り越えるために必要なハードルである。 最近の論文では、マルチ量子ビット量子ゲートからのコヒーレントエラーを学習するために、ゲートセットキャリブレーションプロトコル(gsc)と呼ばれるプロトコルが導入されている。 まず,測定の不確かさを統計的に分析する。 第二に、この不確実性を最小限に抑える明示的な測定設定を見つけると同時に、このプロトコルには少数の異なるゲートしか必要とせず、物理的実現性に寄与する。 GSCにさらに2つのシングルキュービットゲートを追加するだけで、CNOTゲートの校正時に発生する統計的誤差が2つ以上の因子で分割されることを数値的に示す。

Calibration of quantum gates is a necessary hurdle to overcome on the way to a reliable quantum computer. In a recent paper, a protocol called Gate Set Calibration protocol (GSC) has been introduced and used to learn coherent errors from multi-qubit quantum gates. Here, we extend this study in a number of ways: First, we perform a statistical analysis of the measurement uncertainties. Second, we find explicit measurement settings that minimize this uncertainty, while also requiring that the protocol involves only a small number of distinct gates, aiding physical realizability. We numerically demonstrate that, just by adding two more single-qubit gates to GSC, the statistical error produced in the calibration of a CNOT gate is divided by a factor of more than two.
翻訳日:2023-07-24 16:59:05 公開日:2023-07-21
# 並列および分散グラフニューラルネットワーク: 詳細な並列処理解析

Parallel and Distributed Graph Neural Networks: An In-Depth Concurrency Analysis ( http://arxiv.org/abs/2205.09702v5 )

ライセンス: Link先を確認
Maciej Besta, Torsten Hoefler(参考訳) グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も強力なツールのひとつだ。 ノード分類、グラフ分類、リンク予測といった非構造化ネットワーク上の複雑な問題を、精度良く日常的に解決する。 しかし、GNNの推論と訓練は複雑であり、不規則なグラフ処理の特徴と密度計算と正規計算を一意に組み合わせている。 この複雑さにより、現代の大規模並列アーキテクチャ上でのGNNの効率的な実行が非常に困難になる。 これを緩和するために、まず、データとモデル並列性、および異なる形式のパイプライニングを考慮して、GNNにおける並列性の分類を設計する。 そして、この分類法を用いて、多数のGNNモデル、GNN駆動機械学習タスク、ソフトウェアフレームワーク、ハードウェアアクセラレーターにおける並列性の量を調べる。 作業深度モデルを用いて通信量と同期性を評価する。 特に,ベクトル化などの手法を効果的に適用する方法を理解するために,関連するテンソルのスパーシティ/密度に着目した。 我々はまた、GNNパイプラインのパイプライン化を公式に分析し、GNNモデルの確立されたメッセージパッシングクラスを任意のパイプライン深さをカバーするために一般化し、将来の最適化を容易にする。 最後に,非同期並列GNNパイプラインの経路をナビゲートする,様々な非同期性について検討する。 分析の結果は、GNNの性能を最大化するための一連の洞察と、効率的なGNN計算のさらなる研究のための課題と機会の包括的リストで合成される。 我々の仕事は将来のGNNの設計を前進させるのに役立ちます。

Graph neural networks (GNNs) are among the most powerful tools in deep learning. They routinely solve complex problems on unstructured networks, such as node classification, graph classification, or link prediction, with high accuracy. However, both inference and training of GNNs are complex, and they uniquely combine the features of irregular graph processing with dense and regular computations. This complexity makes it very challenging to execute GNNs efficiently on modern massively parallel architectures. To alleviate this, we first design a taxonomy of parallelism in GNNs, considering data and model parallelism, and different forms of pipelining. Then, we use this taxonomy to investigate the amount of parallelism in numerous GNN models, GNN-driven machine learning tasks, software frameworks, or hardware accelerators. We use the work-depth model, and we also assess communication volume and synchronization. We specifically focus on the sparsity/density of the associated tensors, in order to understand how to effectively apply techniques such as vectorization. We also formally analyze GNN pipelining, and we generalize the established Message-Passing class of GNN models to cover arbitrary pipeline depths, facilitating future optimizations. Finally, we investigate different forms of asynchronicity, navigating the path for future asynchronous parallel GNN pipelines. The outcomes of our analysis are synthesized in a set of insights that help to maximize GNN performance, and a comprehensive list of challenges and opportunities for further research into efficient GNN computations. Our work will help to advance the design of future GNNs.
翻訳日:2023-07-24 16:58:50 公開日:2023-07-21
# Torchhd:超次元コンピューティングとベクトル記号アーキテクチャの研究を支援するオープンソースのPythonライブラリ

Torchhd: An Open Source Python Library to Support Research on Hyperdimensional Computing and Vector Symbolic Architectures ( http://arxiv.org/abs/2205.09208v3 )

ライセンス: Link先を確認
Mike Heddes, Igor Nunes, Pere Verg\'es, Denis Kleyko, Danny Abraham, Tony Givargis, Alexandru Nicolau, Alexander Veidenbaum(参考訳) 超次元コンピューティング (HD) またはベクトル記号アーキテクチャ (VSA) は、ランダムな高次元ベクトル空間の性質を利用して分散表現を計算するためのフレームワークである。 この特に学際的な分野の研究を集約し、広めるという科学コミュニティのコミットメントは、その進歩の基盤となっている。 これらの取り組みの一環として、HD/VSA用の高性能オープンソースPythonライブラリであるTorchhdを紹介します。 Torchhdは、HD/VSAをよりアクセスしやすくし、さらなる研究とアプリケーション開発のための効率的な基盤となることを目指している。 PyTorch上に構築された使いやすいライブラリには、最先端のHD/VSA機能、明確なドキュメント、有名な出版物による実装例などがある。 公開されているコードと対応するtorchhd実装を比較すると、実験は最大100倍高速に実行できる。 Torchhd は https://github.com/hyperdimensional-computing/torchhd で利用可能である。

Hyperdimensional computing (HD), also known as vector symbolic architectures (VSA), is a framework for computing with distributed representations by exploiting properties of random high-dimensional vector spaces. The commitment of the scientific community to aggregate and disseminate research in this particularly multidisciplinary area has been fundamental for its advancement. Joining these efforts, we present Torchhd, a high-performance open source Python library for HD/VSA. Torchhd seeks to make HD/VSA more accessible and serves as an efficient foundation for further research and application development. The easy-to-use library builds on top of PyTorch and features state-of-the-art HD/VSA functionality, clear documentation, and implementation examples from well-known publications. Comparing publicly available code with their corresponding Torchhd implementation shows that experiments can run up to 100x faster. Torchhd is available at: https://github.com/hyperdimensional-computing/torchhd.
翻訳日:2023-07-24 16:58:26 公開日:2023-07-21
# 確率時系列予測のためのマルチスケール注意フロー

Multi-scale Attention Flow for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2205.07493v3 )

ライセンス: Link先を確認
Shibo Feng and Chunyan Miao and Ke Xu and Jiaxiang Wu and Pengcheng Wu and Yang Zhang and Peilin Zhao(参考訳) 多変量時系列の確率予測は、非常に難しいが実用的な課題である。 一方, 相互作用する時系列間の相互相関を効果的に捉え, 正確な分布モデリングを実現することが課題である。 一方、時系列の多変量時間ダイナミクスをモデル化するために、時系列内の文脈情報をより正確にキャプチャする方法を検討する必要がある。 本研究では,マルチスケールアテンション正規化フロー(MANF)と呼ばれる新しい非自己回帰型ディープラーニングモデルを提案し,マルチスケールアテンションと相対位置情報を統合し,多変量データ分布を条件付き正規化フローで表現する。 さらに,自己回帰モデリング手法と比較して,累積誤差の影響を回避し,時間の複雑さを増すことはない。 大規模な実験により,多くの多変量データセットの最先端性能が得られた。

The probability prediction of multivariate time series is a notoriously challenging but practical task. On the one hand, the challenge is how to effectively capture the cross-series correlations between interacting time series, to achieve accurate distribution modeling. On the other hand, we should consider how to capture the contextual information within time series more accurately to model multivariate temporal dynamics of time series. In this work, we proposed a novel non-autoregressive deep learning model, called Multi-scale Attention Normalizing Flow(MANF), where we integrate multi-scale attention and relative position information and the multivariate data distribution is represented by the conditioned normalizing flow. Additionally, compared with autoregressive modeling methods, our model avoids the influence of cumulative error and does not increase the time complexity. Extensive experiments demonstrate that our model achieves state-of-the-art performance on many popular multivariate datasets.
翻訳日:2023-07-24 16:58:11 公開日:2023-07-21
# 熱平衡における量子多体系

Quantum many-body systems in thermal equilibrium ( http://arxiv.org/abs/2204.08349v2 )

ライセンス: Link先を確認
\'Alvaro M. Alhambra(参考訳) 熱的または平衡的アンサンブルは、物質の最もユビキタスな状態の1つである。 局所的に相互作用する多くの量子粒子からなるモデルでは、凝縮物物理学、高エネルギー物理学、量子化学、量子コンピューティングなどに関連する幅広い物理的状況を記述する。 これらの状態の物理と複雑性に関する最も重要な普遍的特徴のいくつかについて、その中心にハミルトニアンの局所性を持つ、教育学的概要を示す。 我々は数学的に厳密な言明に注目し、その多くが量子情報理論のアイデアやツールに触発されている。 それらの相関の限界、サブシステムの形式、様々な統計特性、古典的アルゴリズムや量子アルゴリズムの性能などが含まれる。 また、最も重要な技術ツールのいくつかの概要や、自己完結型証明も含まれています。

The thermal or equilibrium ensemble is one of the most ubiquitous states of matter. For models comprised of many locally interacting quantum particles, it describes a wide range of physical situations, relevant to condensed matter physics, high energy physics, quantum chemistry and quantum computing, among others. We give a pedagogical overview of some of the most important universal features about the physics and complexity of these states, which have the locality of the Hamiltonian at its core. We focus on mathematically rigorous statements, many of them inspired by ideas and tools from quantum information theory. These include bounds on their correlations, the form of the subsystems, various statistical properties, and the performance of classical and quantum algorithms. We also include a summary of a few of the most important technical tools, as well as some self-contained proofs.
翻訳日:2023-07-24 16:57:57 公開日:2023-07-21
# フィードフォワードニューラルネットワークにおける活動重双対性:一般化の幾何学的決定因子

The activity-weight duality in feed forward neural networks: The geometric determinants of generalization ( http://arxiv.org/abs/2203.10736v3 )

ライセンス: Link先を確認
Yu Feng and Yuhai Tu(参考訳) 機械学習の基本的な問題の1つは一般化である。 多くの重み(パラメータ)を持つニューラルネットワークモデルでは、多くの解がトレーニングデータに等しく適合していることが分かる。 鍵となる問題は、どのソリューションがトレーニングセットにないテストデータを記述することができるかである。 本稿では、ニューロンの特定の層における活動の変化と、任意のフィードフォワード神経ネットワーク内の密結合層内のニューロンの次の層に接続する重みの変化の正確な双対性(等価性)を発見したことを報告する。 アクティビティー重み(a-w)の双対性により、入力(データ)のバリエーションを対応する双対重みのバリエーションにマップできる。 この写像を用いることで、一般化損失は重み空間の解における損失関数のヘッセン行列の異なる固有方向からの寄与の和に分解できることを示した。 与えられた固有方向からの寄与は、2つの幾何学的要因(決定要因)の積である:損失の風景の鋭さと双対重みの標準偏差であり、これは解の重みのノルムでスケールすることが分かる。 提案手法は,定式化手法の違い(バッチサイズや学習率の異なる確率勾配降下,ドロップアウト,トレーニングデータサイズ,ラベル付けノイズ)が,一般化のためにこれらの2つの幾何学的行列式のいずれかを制御することによって,一般化性能にどのように影響するかを明らかにするものである。 これらの洞察は、過度にパラメータ化されたニューラルネットワークでより一般化可能なソリューションを見つけるアルゴリズムの開発を導くために使用できる。

One of the fundamental problems in machine learning is generalization. In neural network models with a large number of weights (parameters), many solutions can be found to fit the training data equally well. The key question is which solution can describe testing data not in the training set. Here, we report the discovery of an exact duality (equivalence) between changes in activities in a given layer of neurons and changes in weights that connect to the next layer of neurons in a densely connected layer in any feed forward neural network. The activity-weight (A-W) duality allows us to map variations in inputs (data) to variations of the corresponding dual weights. By using this mapping, we show that the generalization loss can be decomposed into a sum of contributions from different eigen-directions of the Hessian matrix of the loss function at the solution in weight space. The contribution from a given eigen-direction is the product of two geometric factors (determinants): the sharpness of the loss landscape and the standard deviation of the dual weights, which is found to scale with the weight norm of the solution. Our results provide an unified framework, which we used to reveal how different regularization schemes (weight decay, stochastic gradient descent with different batch sizes and learning rates, dropout), training data size, and labeling noise affect generalization performance by controlling either one or both of these two geometric determinants for generalization. These insights can be used to guide development of algorithms for finding more generalizable solutions in overparametrized neural networks.
翻訳日:2023-07-24 16:57:44 公開日:2023-07-21
# 因子グラフを用いた表層強化学習のためのマルチエージェントスキルの学習

Learning Multi-agent Skills for Tabular Reinforcement Learning using Factor Graphs ( http://arxiv.org/abs/2201.08227v3 )

ライセンス: Link先を確認
Jiayu Chen, Jingdi Chen, Tian Lan, Vaneet Aggarwal(参考訳) 状態遷移グラフのフィドラーベクトルによって提供される埋め込み空間における最も遠い状態の接続により、粗い報酬信号を持つ単一エージェントシナリオにおける強化学習の探索を改善するために、被覆技術(すなわちオプション)が開発された。 しかし、結合状態空間はシステム内のエージェント数で指数関数的に増加するため、これらのオプション発見手法をマルチエージェントシナリオに直接拡張することはできない。 このように、マルチエージェントシナリオにおけるオプションの採用に関する既存の研究は、シングルエージェントオプション発見に依存しており、エージェントの結合状態空間の接続性を改善するためのジョイントオプションを直接発見できない。 本稿では,エージェント間の協調的な探索行動を伴うマルチエージェントオプションを,分解の容易さを享受しながら直接計算することが可能であることを示す。 我々の重要なアイデアは、個々のエージェントの状態遷移グラフのクロネッカー積であるクロネッカーグラフとしてジョイント状態空間を近似することであり、それによって個々のエージェントの遷移グラフのラプラシアンスペクトルを用いてジョイント状態空間のフィドラーベクトルを直接推定することができる。 この分解により、推定されたジョイントフィドラーベクトルの最小値または最大値に対応するサブゴールジョイント状態の接続を促すことで、マルチエージェントジョイントオプションを効率的に構築できる。 マルチエージェント協調タスクに基づく評価は,提案アルゴリズムがマルチエージェントオプションの同定に成功し,より高速な探索と高い累積報酬の両面から,シングルエージェントオプションやノーオプションを用いた先行作業よりも大幅に優れていたことを示す。

Covering skill (a.k.a., option) discovery has been developed to improve the exploration of reinforcement learning in single-agent scenarios with sparse reward signals, through connecting the most distant states in the embedding space provided by the Fiedler vector of the state transition graph. However, these option discovery methods cannot be directly extended to multi-agent scenarios, since the joint state space grows exponentially with the number of agents in the system. Thus, existing researches on adopting options in multi-agent scenarios still rely on single-agent option discovery and fail to directly discover the joint options that can improve the connectivity of the joint state space of agents. In this paper, we show that it is indeed possible to directly compute multi-agent options with collaborative exploratory behaviors among the agents, while still enjoying the ease of decomposition. Our key idea is to approximate the joint state space as a Kronecker graph -- the Kronecker product of individual agents' state transition graphs, based on which we can directly estimate the Fiedler vector of the joint state space using the Laplacian spectrum of individual agents' transition graphs. This decomposition enables us to efficiently construct multi-agent joint options by encouraging agents to connect the sub-goal joint states which are corresponding to the minimum or maximum values of the estimated joint Fiedler vector. The evaluation based on multi-agent collaborative tasks shows that the proposed algorithm can successfully identify multi-agent options, and significantly outperforms prior works using single-agent options or no options, in terms of both faster exploration and higher cumulative rewards.
翻訳日:2023-07-24 16:57:16 公開日:2023-07-21
# ユニタリなMathieu演算子について、ほとんどすべて

Almost Everything About the Unitary Almost Mathieu Operator ( http://arxiv.org/abs/2112.03216v2 )

ライセンス: Link先を確認
Christopher Cedzich, Jake Fillman, Darren C. Ong(参考訳) 一様磁場中の2次元量子ウォークから得られるユニタリなニアマチュー演算子を導入する。 これはパラメータ空間を3つの領域に分割するもので、超臨界領域と亜臨界領域は互いに双対であり、臨界レジームは自己双対である。 各パラメータ領域において、関連する一般化固有値方程式によって生成される移動行列コサイクルのコサイクルダイナミクスを特徴付ける。 特に、このモデルでは、超臨界、臨界、亜臨界の挙動がすべて起こることを示す。 アビラの大域的な1周波共サイクル理論を用いて、与えられたパラメータの観点でスペクトルのリアプノフ指数を正確に計算する。 また、結合定数、ほぼ全ての周波数、ほぼ全ての位相の各値についてスペクトル型を特徴付ける。 すなわち、ほぼ全ての周波数および全ての位相において、スペクトル型は、亜臨界領域において純粋に絶対連続であり、超臨界領域において純点であり、臨界領域において純粋に特異連続であることを示す。 いくつかのパラメータ領域では、ほぼ確実に結果を洗練する。 例えば、臨界の場合において、スペクトルは任意の不合理周波数に対するゼロルベーグ測度のカントール集合であり、スペクトルは純粋に多くの位相に対して特異連続であることを示す。

We introduce a unitary almost-Mathieu operator, which is obtained from a two-dimensional quantum walk in a uniform magnetic field. We exhibit a version of Aubry--Andr\'{e} duality for this model, which partitions the parameter space into three regions: a supercritical region and a subcritical region that are dual to one another, and a critical regime that is self-dual. In each parameter region, we characterize the cocycle dynamics of the transfer matrix cocycle generated by the associated generalized eigenvalue equation. In particular, we show that supercritical, critical, and subcritical behavior all occur in this model. Using Avila's global theory of one-frequency cocycles, we exactly compute the Lyapunov exponent on the spectrum in terms of the given parameters. We also characterize the spectral type for each value of the coupling constant, almost every frequency, and almost every phase. Namely, we show that for almost every frequency and every phase the spectral type is purely absolutely continuous in the subcritical region, pure point in the supercritical region, and purely singular continuous in the critical region. In some parameter regions, we refine the almost-sure results. In the critical case for instance, we show that the spectrum is a Cantor set of zero Lebesgue measure for arbitrary irrational frequency and that the spectrum is purely singular continuous for all but countably many phases.
翻訳日:2023-07-24 16:56:46 公開日:2023-07-21
# マルチエージェントDeep Covering Skill Discovery

Multi-agent Deep Covering Skill Discovery ( http://arxiv.org/abs/2210.03269v2 )

ライセンス: Link先を確認
Jiayu Chen, Marina Haliem, Tian Lan, Vaneet Aggarwal(参考訳) スキル(すなわちオプション)の使用は強化学習における探索を大幅に加速させることができる。 個々のエージェントに対してオプション発見手法が提案されているが、マルチエージェント強化学習環境では、複数のエージェントの振る舞いを調整し、共同状態空間の未調査領域を訪問するよう促す協調的オプションの発見は検討されていない。 本稿では,複数エージェントの結合状態空間のカバータイムを最小化することで,マルチエージェントオプションを構築するマルチエージェントディープ・カバーリング・オプションディスカバリを提案する。 また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。 実際には、マルチエージェントタスクは通常、いくつかのサブタスクに分割され、それぞれがエージェントのサブグループによって完了する。 したがって,本アルゴリズムフレームワークは,まず注意機構を活用し,協調行動の恩恵を受ける協調エージェントを探索する。 次に、階層型アルゴリズムHA-MSACを開発し、各サブグループのマルチエージェントオプションを学習し、まずサブタスクを完了し、タスク全体の解として高レベルポリシーを通じてそれらを統合する。 この階層的なオプション構成により、当社のフレームワークは、スケーラビリティとエージェント間の効果的なコラボレーションのバランスをとることができます。 マルチエージェント協調課題に基づく評価の結果,提案手法は,アテンション機構とのエージェントインタラクションを効果的に捉え,マルチエージェントオプションの同定に成功し,より高速な探索と高いタスク報酬の両面で,シングルエージェントオプションやnoオプションを用いた先行作業を大幅に上回ることがわかった。

The use of skills (a.k.a., options) can greatly accelerate exploration in reinforcement learning, especially when only sparse reward signals are available. While option discovery methods have been proposed for individual agents, in multi-agent reinforcement learning settings, discovering collaborative options that can coordinate the behavior of multiple agents and encourage them to visit the under-explored regions of their joint state space has not been considered. In this case, we propose Multi-agent Deep Covering Option Discovery, which constructs the multi-agent options through minimizing the expected cover time of the multiple agents' joint state space. Also, we propose a novel framework to adopt the multi-agent options in the MARL process. In practice, a multi-agent task can usually be divided into some sub-tasks, each of which can be completed by a sub-group of the agents. Therefore, our algorithm framework first leverages an attention mechanism to find collaborative agent sub-groups that would benefit most from coordinated actions. Then, a hierarchical algorithm, namely HA-MSAC, is developed to learn the multi-agent options for each sub-group to complete their sub-tasks first, and then to integrate them through a high-level policy as the solution of the whole task. This hierarchical option construction allows our framework to strike a balance between scalability and effective collaboration among the agents. The evaluation based on multi-agent collaborative tasks shows that the proposed algorithm can effectively capture the agent interactions with the attention mechanism, successfully identify multi-agent options, and significantly outperforms prior works using single-agent options or no options, in terms of both faster exploration and higher task rewards.
翻訳日:2023-07-24 16:48:16 公開日:2023-07-21
# 陽子量子ビットによる光マター系の対称性の破れの探索

Probing the symmetry breaking of a light--matter system by an ancillary qubit ( http://arxiv.org/abs/2209.05747v2 )

ライセンス: Link先を確認
Shuai-Peng Wang, Alessandro Ridolfo, Tiefu Li, Salvatore Savasta, Franco Nori, Y. Nakamura, and J. Q. You(参考訳) 超強のハイブリッド量子システム、さらに深い強結合系では、エキゾチックな物理現象を示し、量子技術における新しい応用を約束することができる。 これらの非摂動状態において、クビット共振器系は、共振器内の非ゼロ平均光子数で絡み合った量子真空を持ち、光子が仮想であり直接検出できない。 しかし、真空場は分散結合されたプローブ量子ビットの対称性の破れを誘導することができる。 本研究では, 円柱状超伝導共振器の磁場とフラックス量子ビットを強く結合したアシラリーXmon人工原子のパリティ対称性の破れを実験的に観察した。 この結果は、深結合系に現れる新しい量子真空効果を実験的に探究する方法を開く。

Hybrid quantum systems in the ultrastrong, and even more in the deep-strong, coupling regimes can exhibit exotic physical phenomena and promise new applications in quantum technologies. In these nonperturbative regimes, a qubit--resonator system has an entangled quantum vacuum with a nonzero average photon number in the resonator, where the photons are virtual and cannot be directly detected. The vacuum field, however, is able to induce the symmetry breaking of a dispersively coupled probe qubit. We experimentally observe the parity symmetry breaking of an ancillary Xmon artificial atom induced by the field of a lumped-element superconducting resonator deep-strongly coupled with a flux qubit. This result opens a way to experimentally explore the novel quantum-vacuum effects emerging in the deep-strong coupling regime.
翻訳日:2023-07-24 16:47:45 公開日:2023-07-21
# 意味的自己適応:単一サンプルによる一般化の強化

Semantic Self-adaptation: Enhancing Generalization with a Single Sample ( http://arxiv.org/abs/2208.05788v2 )

ライセンス: Link先を確認
Sherwin Bahmani, Oliver Hahn, Eduard Zamfir, Nikita Araslanov, Daniel Cremers and Stefan Roth(参考訳) ドメイン外一般化の欠如は、セマンティックセグメンテーションのためのディープネットワークの重要な弱点である。 これまでの研究は静的モデルの仮定に頼っていた。 e. トレーニングプロセスが完了すると、モデルパラメータはテスト時に固定されます。 本研究では,各入力サンプルに対する推論プロセスを調整する意味セグメンテーションに対する自己適応的アプローチによって,この前提に挑戦する。 自己適応は2つのレベルで動作する。 まず、一貫性の正規化を用いて畳み込み層のパラメータを入力画像に微調整する。 第二に、バッチ正規化層では、トレーニングと単一のテストサンプルに由来する参照分布の間に自己適応が補間される。 どちらの技法も文献でよく知られているが、それらの組み合わせは合成から実への一般化ベンチマークにおいて新しい最先端の精度を設定する。 本研究は,学習時間におけるモデル正規化の確立した実践を自己適応が補完し,ドメイン外データへのディープネットワーク一般化を改善する可能性を示唆する。 私たちのコードと事前訓練されたモデルはhttps://github.com/visinf/self-adaptive.comで利用可能です。

The lack of out-of-domain generalization is a critical weakness of deep networks for semantic segmentation. Previous studies relied on the assumption of a static model, i. e., once the training process is complete, model parameters remain fixed at test time. In this work, we challenge this premise with a self-adaptive approach for semantic segmentation that adjusts the inference process to each input sample. Self-adaptation operates on two levels. First, it fine-tunes the parameters of convolutional layers to the input image using consistency regularization. Second, in Batch Normalization layers, self-adaptation interpolates between the training and the reference distribution derived from a single test sample. Despite both techniques being well known in the literature, their combination sets new state-of-the-art accuracy on synthetic-to-real generalization benchmarks. Our empirical study suggests that self-adaptation may complement the established practice of model regularization at training time for improving deep network generalization to out-of-domain data. Our code and pre-trained models are available at https://github.com/visinf/self-adaptive.
翻訳日:2023-07-24 16:47:10 公開日:2023-07-21
# SiamixFormer: 両時間リモートセンシング画像の正確なビルディング検出と変更検出のための時間核融合を用いた完全変圧シマセネットワーク

SiamixFormer: a fully-transformer Siamese network with temporal Fusion for accurate building detection and change detection in bi-temporal remote sensing images ( http://arxiv.org/abs/2208.00657v2 )

ライセンス: Link先を確認
Amir Mohammadian, Foad Ghaderi(参考訳) リモートセンシング画像による建物検出と変更検出は、都市と救助計画に役立つ。 また、自然災害後の建物被害評価にも利用できる。 現在、建物検出の既存のモデルのほとんどは、建物を検出するのに1つの画像(以前の画像)しか使用していない。 これは、解体後の建物の存在により、モデルの性能が低下するという考え方に基づいている。 本稿では,ディザスタ前画像とディザスタ後画像を入力として使用するsiamixformerモデルを提案する。 我々のモデルは2つのエンコーダを持ち、階層的なトランスフォーマーアーキテクチャを持っている。 両エンコーダの各ステージの出力は、前ディスカスター画像からクエリが生成され、後ディスカスター画像から(キー、値)が生成されるように、機能融合のための時間変換器に与えられる。 この目的のために、時間的特徴も機能融合において考慮される。 機能融合における時間変換器のもう1つの利点は、CNNと比較して、トランスフォーマーエンコーダによって生成される大きな受容場をよりよく維持できることである。 最後に、時間変換器の出力は各段階で単純なMPPデコーダに与えられる。 SiamixFormerモデルは、xBDとWHUデータセットで評価され、検出の構築と変更検出のためのLEVIR-CDとCDDデータセットで評価される。

Building detection and change detection using remote sensing images can help urban and rescue planning. Moreover, they can be used for building damage assessment after natural disasters. Currently, most of the existing models for building detection use only one image (pre-disaster image) to detect buildings. This is based on the idea that post-disaster images reduce the model's performance because of presence of destroyed buildings. In this paper, we propose a siamese model, called SiamixFormer, which uses pre- and post-disaster images as input. Our model has two encoders and has a hierarchical transformer architecture. The output of each stage in both encoders is given to a temporal transformer for feature fusion in a way that query is generated from pre-disaster images and (key, value) is generated from post-disaster images. To this end, temporal features are also considered in feature fusion. Another advantage of using temporal transformers in feature fusion is that they can better maintain large receptive fields generated by transformer encoders compared with CNNs. Finally, the output of the temporal transformer is given to a simple MLP decoder at each stage. The SiamixFormer model is evaluated on xBD, and WHU datasets, for building detection and on LEVIR-CD and CDD datasets for change detection and could outperform the state-of-the-art.
翻訳日:2023-07-24 16:46:56 公開日:2023-07-21
# 分子量子回路設計:グラフに基づくアプローチ

Molecular Quantum Circuit Design: A Graph-Based Approach ( http://arxiv.org/abs/2207.12421v2 )

ライセンス: Link先を確認
Jakob S. Kottmann(参考訳) 科学は複雑なプロセスを驚くほど単純な方法で捉える抽象概念に富んでいる。 顕著な例は分子の単純なグラフへの還元である。 この研究は、化学グラフに基づくパラメタライズド量子回路の設計原則を導入し、分子系の量子回路設計における3つの主要な障害(演算子順序付け、パラメータ初期化、初期状態準備)を先導する。 個々の成分の物理的解釈を可能にし、分子の個々のインスタンスに対して基底状態を作成することの難しさを定性的に見積もるヒューリスティックを提供する。

Science is rich in abstract concepts that capture complex processes in astonishingly simple ways. A prominent example is the reduction of molecules to simple graphs. This work introduces a design principle for parametrized quantum circuits based on chemical graphs, providing a way forward in three major obstacles in quantum circuit design for molecular systems: Operator ordering, parameter initialization and initial state preparation. It allows physical interpretation of each individual component and provides an heuristic to qualitatively estimate the difficulty of preparing ground states for individual instances of molecules.
翻訳日:2023-07-24 16:46:31 公開日:2023-07-21
# ハードウェアフレンドリーなハミルトニアンシミュレーションのための条件付き多積公式

Well-conditioned multi-product formulas for hardware-friendly Hamiltonian simulation ( http://arxiv.org/abs/2207.11268v2 )

ライセンス: Link先を確認
Almudena Carrera Vazquez and Daniel J. Egger and David Ochsner and Stefan Woerner(参考訳) ハミルトンの時間発展をシミュレートすることは、量子コンピュータの最も有望な応用の1つである。 マルチプロダクトフォーミュラ(MPF)は、時間や近似誤差に関してスケールが良く、標準製品式を置き換えるのに適している。 MPFを用いたハミルトンシミュレーションは、ユニタリの線形結合を用いた完全量子環境で最初に提案された。 本稿では,古典的に期待値を量子コンピュータと組み合わせたMPFのハイブリッド量子古典的アプローチを解析し,実証する。 これは完全量子mpfsと同じ近似境界を持つが、対照的に、追加の量子ビットや制御された演算は不要であり、確率的ではない。 ハードウェアを増幅せず、エラーをサンプリングしないMPFの設計方法を示し、その性能を実証する。 特に、古典的難解なスピンボーソンモデルに適用した場合の利点を理論的に解析し、量子ハードウェアと同様に古典的シミュレータを用いて横磁場イジングモデルのダイナミクスを計算することにより、我々の仕事の可能性を示す。 本稿では,Pauli Twirlingによるハードウェアノイズの抑制,パルス効率の変換,スケールしたクロス共振パルスに基づく新しいゼロノイズ外挿による製品公式アプローチと比較して,最大1桁の誤差低減を観測する。 MPF法は回路深さを減少させるため、ノイズの多いハードウェア上でのハミルトンシミュレーションにおける量子優位性への重要なステップを示す可能性がある。

Simulating the time-evolution of a Hamiltonian is one of the most promising applications of quantum computers. Multi-Product Formulas (MPFs) are well suited to replace standard product formulas since they scale better with respect to time and approximation errors. Hamiltonian simulation with MPFs was first proposed in a fully quantum setting using a linear combination of unitaries. Here, we analyze and demonstrate a hybrid quantum-classical approach to MPFs that classically combines expectation values evaluated with a quantum computer. This has the same approximation bounds as the fully quantum MPFs, but, in contrast, requires no additional qubits, no controlled operations, and is not probabilistic. We show how to design MPFs that do not amplify the hardware and sampling errors, and demonstrate their performance. In particular, we illustrate the potential of our work by theoretically analyzing the benefits when applied to a classically intractable spin-boson model, and by computing the dynamics of the transverse field Ising model using a classical simulator as well as quantum hardware. We observe an error reduction of up to an order of magnitude when compared to a product formula approach by suppressing hardware noise with Pauli Twirling, pulse efficient transpilation, and a novel zero-noise extrapolation based on scaled cross-resonance pulses. The MPF methodology reduces the circuit depth and may therefore represent an important step towards quantum advantage for Hamiltonian simulation on noisy hardware.
翻訳日:2023-07-24 16:46:21 公開日:2023-07-21
# 連邦災害支援政策の簡易宣言モデル -透明性のモデル化と測定-

A simple declarative model of the Federal Disaster Assistance Policy -- modelling and measuring transparency ( http://arxiv.org/abs/2207.07392v4 )

ライセンス: Link先を確認
Mark Dukes(参考訳) 本稿では,3つの異なる利害関係者の視点から,連邦災害支援政策の簡易モデルに関する定量的分析を行う。 この定量的手法は新しいもので、ビジネスや医療といった他の分野にも応用できる。 ステークホルダーはプロセスの透明性に興味を持っているが、それぞれが透明性を構成するものについて、正確に異なる意見を持っている。 我々はまた、連邦災害支援政策の3つの変更を検討し、株主の観点から、株主の満足度がプロセスからプロセスにどのように変化するかを分析する。 この分析は、すべての集合的利害関係者の選好に関する4つのポリシーの好適性をランク付けするために使用される。

In this paper we will provide a quantitative analysis of a simple model of the Federal Disaster Assistance policy from the viewpoint of three different stakeholders. This quantitative methodology is new and has applications to other areas such as business and healthcare processes. The stakeholders are interested in process transparency but each has a different opinion on precisely what constitutes transparency. We will also consider three modifications to the Federal Disaster Assistance policy and analyse, from a stakeholder viewpoint, how stakeholder satisfaction changes from process to process. This analysis is used to rank the favourability of four policies with respect to all collective stakeholder preferences.
翻訳日:2023-07-24 16:45:38 公開日:2023-07-21
# タスクに色を付ける:Color Quantisation Transformerを使ってColor Namingを人工的に発見する

Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer ( http://arxiv.org/abs/2212.03434v5 )

ライセンス: Link先を確認
Shenghan Su and Lin Gu and Yue Yang and Zenghui Zhang and Tatsuya Harada(参考訳) カラーナミングシステムが効率的なコミュニケーションと知覚機構の二重の圧力の下で進化するという長年の理論は、ナファアナラ語から40年分のダイアクロニックデータを分析することを含む、より多くの言語研究によって支持されている。 これは、ハイレベルな認識性能で表現される通信効率を最適化することで、機械学習が進化し、類似のカラーナミングシステムを見つけることができるかどうかを探求するきっかけとなる。 そこで本研究では,色空間を定量化する新しいカラー量子化変換器CQFormerを提案する。 rgb画像が与えられると、アノテーションブランチは色パレットで定量化された画像を生成する前にインデックスマップにマップし、パレットブランチは色空間全体の中で適切な色を見つけるためにキーポイント検出手段を利用する。 色アノテーションと相互作用することで、cqformerは、検出された色システムのために、マシンビジョンの正確さと、異なる色分布や安定した色分布のような色知覚構造の両方をバランスさせることができる。 興味深いことに、私たちは人工色システムと人間の言語における基本色用語の一貫性のある進化パターンも観察しています。 また,色量化手法は,分類や検出などのハイレベルな認識タスクにおいて高い性能を維持しながら,画像記憶を効果的に圧縮する効率的な定量化手法も提供する。 広範にわたる実験により,極端に低ビットレート色で,画像からネットワークアクティベーションまでの量に量子化ネットワークに統合できる可能性が示された。 ソースコードはhttps://github.com/ryeocthiv/CQFormerで入手できる。

The long-standing theory that a colour-naming system evolves under dual pressure of efficient communication and perceptual mechanism is supported by more and more linguistic studies, including analysing four decades of diachronic data from the Nafaanra language. This inspires us to explore whether machine learning could evolve and discover a similar colour-naming system via optimising the communication efficiency represented by high-level recognition performance. Here, we propose a novel colour quantisation transformer, CQFormer, that quantises colour space while maintaining the accuracy of machine recognition on the quantised images. Given an RGB image, Annotation Branch maps it into an index map before generating the quantised image with a colour palette; meanwhile the Palette Branch utilises a key-point detection way to find proper colours in the palette among the whole colour space. By interacting with colour annotation, CQFormer is able to balance both the machine vision accuracy and colour perceptual structure such as distinct and stable colour distribution for discovered colour system. Very interestingly, we even observe the consistent evolution pattern between our artificial colour system and basic colour terms across human languages. Besides, our colour quantisation method also offers an efficient quantisation method that effectively compresses the image storage while maintaining high performance in high-level recognition tasks such as classification and detection. Extensive experiments demonstrate the superior performance of our method with extremely low bit-rate colours, showing potential to integrate into quantisation network to quantities from image to network activation. The source code is available at https://github.com/ryeocthiv/CQFormer
翻訳日:2023-07-24 16:40:13 公開日:2023-07-21
# ホーキング効果は物理的に到達不能な真の三部体非局所性を生み出す

Hawking effect can generate physically inaccessible genuine tripartite nonlocality ( http://arxiv.org/abs/2212.02245v2 )

ライセンス: Link先を確認
Tinggui Zhang, Xin Wang and Shao-Ming Fei(参考訳) 真空場に結合した1つまたは2つの加速検出器の真の三分極非局所性(GTN)に対する加速効果について検討した。 ホーキング放射は、特定の臨界ホーキング温度で「鈍い死」に苦しむ物理的にアクセス可能なgtnを劣化させる。 ホーキング効果が、曲面時空におけるフェルミオン場に対する物理的に到達不能な gtn、物理的に到達不能な gtn を生成できるという新しい現象が初めて観測された。 この結果は、GTNが特定の混合初期状態に対してブラックホールの事象水平線を通過可能であることを示している。 また,ホーキング効果の影響により,gte(real tripartite entanglement)と量子コヒーレンス(quantum coherence)のトレードオフ関係を解析的に導出した。

We explore the acceleration effect on the genuine tripartite nonlocality (GTN) for one or two accelerated detector(s) coupled to the vacuum field with initial mixed tripartite states. We show that the Hawking radiation degrades the physically accessible GTN, which suffers from "sudden death" at certain critical Hawking temperature. An novel phenomenon has been observed first time that the Hawking effect can generate the physically inaccessible GTN for fermion fields in curved spacetime, the "sudden birth" of the physically inaccessible GTN. This result shows that the GTN can pass through the event horizon of black hole for certain mixed initial states. We also derived analytically the tradeoff relations of genuine tripartite entanglement (GTE) and quantum coherence under the influence of Hawking effect.
翻訳日:2023-07-24 16:39:48 公開日:2023-07-21
# 決定的点過程に基づくスキルの教師なし発見のための統一アルゴリズムフレームワーク

A Unified Algorithm Framework for Unsupervised Discovery of Skills based on Determinantal Point Process ( http://arxiv.org/abs/2212.00211v2 )

ライセンス: Link先を確認
Jiayu Chen, Vaneet Aggarwal, Tian Lan(参考訳) 外部報酬の監督なしに時間的抽象化を通じて豊かなスキルを学ぶことは、強化学習研究の最前線にある。 現存する作品は、主に変奏法とラプラシア語に基づくスキル(オプション)の2つの特徴あるカテゴリに分類される。 前者は相互情報損失によって発見された選択肢の多様性を最大化するが、州空間の範囲を見落とし、後者は探検中に接続性を高めてオプションの範囲を改善することに注力するが、多様性は考慮しない。 本稿では,dpp(decisionantal point process)を新規に利用し,両目的を明示的に最適化した非教師なしオプション発見を可能にする統一フレームワークを提案する。 具体的には、状態遷移グラフのラプラシアンスペクトルを持つdppカーネル行列を定義し、軌道上の期待モード番号を、学習されたオプションの多様性と範囲をキャプチャし、拡張する目的とする。 提案するオプション探索アルゴリズムは,MujocoとAtariで構築した課題を用いて広範に評価され,提案アルゴリズムは多様性とカバレッジ駆動のカテゴリからSOTAベースラインを大幅に上回ることを示した。 コードはhttps://github.com/lucascjysdl/odppで入手できる。

Learning rich skills through temporal abstractions without supervision of external rewards is at the frontier of Reinforcement Learning research. Existing works mainly fall into two distinctive categories: variational and Laplacian-based skill (a.k.a., option) discovery. The former maximizes the diversity of the discovered options through a mutual information loss but overlooks coverage of the state space, while the latter focuses on improving the coverage of options by increasing connectivity during exploration, but does not consider diversity. In this paper, we propose a unified framework that quantifies diversity and coverage through a novel use of the Determinantal Point Process (DPP) and enables unsupervised option discovery explicitly optimizing both objectives. Specifically, we define the DPP kernel matrix with the Laplacian spectrum of the state transition graph and use the expected mode number in the trajectories as the objective to capture and enhance both diversity and coverage of the learned options. The proposed option discovery algorithm is extensively evaluated using challenging tasks built with Mujoco and Atari, demonstrating that our proposed algorithm substantially outperforms SOTA baselines from both diversity- and coverage-driven categories. The codes are available at https://github.com/LucasCJYSDL/ODPP.
翻訳日:2023-07-24 16:39:34 公開日:2023-07-21
# 後量子$\kappa$-to-1 トラップドア爪のない外挿二面体コセット

Post-Quantum $\kappa$-to-1 Trapdoor Claw-free Functions from Extrapolated Dihedral Cosets ( http://arxiv.org/abs/2211.16993v2 )

ライセンス: Link先を確認
Xingyu Yan (1), Licheng Wang (2), Lize Gu (1), Ziyi Li (3), Jingwen Suo (1) ((1) State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing, 100876, China. (2) School of Cyberspace Science and Technology, Beijing Institute of Technology, Beijing, 100081, China. (3) State Key Laboratory of Information Security, Institute of Information Engineering, University of Chinese Academy of Sciences, Beijing, 100049, China.)(参考訳) 強力な量子暗号ツールとしてのntcfは、信頼できない量子デバイスの動作を効率的に制限することができる。 しかし、元の NTCF は本質的には \emph{2-to-1} 片道関数 (NTCF$^1_2$) である。 本研究では, ntcf$^1_2$をさらに拡張し, 多項式有界な前像サイズを持つtrapdoor claw-free関数を実現する。 具体的には、外挿された二面体コセットを描画することにより、NTCF$^1_2$のかなりの外挿に焦点を合わせ、$\kappa$ が多項式整数であるような NTCF$^1_{\kappa}$ のモデルを与える。 そこで, NTCF$^1_{\kappa}$の効率的な構成法として, 誤り付き学習におけるemph{quantum hardness of the learning with error (LWE) を提案する。 NTCFはLWEと二面コセット問題(DCP)の橋渡しに利用できる。 NTCF$^1_2$(resp)を利用する。 NTCF$^1_{\kappa}$, 我々の研究は、LWE問題から DCP (resp. expolated DCP) への新しい量子還元経路を明らかにする。 最後に、NTCF$^1_{\kappa}$を自然にNTCF$^1_2$に還元できることを示し、量子性を証明するために同じ用途を達成する。

\emph{Noisy trapdoor claw-free function} (NTCF) as a powerful post-quantum cryptographic tool can efficiently constrain actions of untrusted quantum devices. However, the original NTCF is essentially \emph{2-to-1} one-way function (NTCF$^1_2$). In this work, we attempt to further extend the NTCF$^1_2$ to achieve \emph{many-to-one} trapdoor claw-free functions with polynomial bounded preimage size. Specifically, we focus on a significant extrapolation of NTCF$^1_2$ by drawing on extrapolated dihedral cosets, thereby giving a model of NTCF$^1_{\kappa}$ where $\kappa$ is a polynomial integer. Then, we present an efficient construction of NTCF$^1_{\kappa}$ assuming \emph{quantum hardness of the learning with errors (LWE)} problem. We point out that NTCF can be used to bridge the LWE and the dihedral coset problem (DCP). By leveraging NTCF$^1_2$ (resp. NTCF$^1_{\kappa}$), our work reveals a new quantum reduction path from the LWE problem to the DCP (resp. extrapolated DCP). Finally, we demonstrate the NTCF$^1_{\kappa}$ can naturally be reduced to the NTCF$^1_2$, thereby achieving the same application for proving the quantumness.
翻訳日:2023-07-24 16:39:04 公開日:2023-07-21
# Cosine Transformerを用いたFew-shot画像分類の高速化

Enhancing Few-shot Image Classification with Cosine Transformer ( http://arxiv.org/abs/2211.06828v3 )

ライセンス: Link先を確認
Quang-Huy Nguyen, Cuong Q. Nguyen, Dung D. Le, Hieu H. Pham(参考訳) 本稿では,少数のラベル付きサポートサンプルのみを指定したラベル付きクエリサンプルに対して,分類タスクを実行する,少数の画像分類問題に対処する。 少数ショット学習問題の1つの大きな課題は、サポートサンプルがそのオブジェクトを包括的に表現することを防ぐ、多種多様なオブジェクトの視覚的外観である。 これは、サポートとクエリのサンプルの間に重大な違いをもたらす可能性があるため、少数のアルゴリズムのパフォーマンスを損なうことになる。 本稿では,提案手法を用いて,サポートとクエリ間の関係マップを効果的に取得するfs-ctを提案する。 FS-CTは、ハードケースを持つサポートサンプルからカテゴリ表現を得るための学習可能なプロトタイプ埋め込みネットワークと、2つの異なるサポートとクエリサンプルからリレーショナルマップを効果的に達成するトランスフォーマーエンコーダとからなる。 より堅牢で安定した注目モジュールであるCosine Attentionを導入し、トランスフォーマーモジュールを大幅に強化し、デフォルトのスケールドドット生成機構と比較して、FS-CTの性能を5%から20%以上向上させる。 提案手法は,ミニイメージネット,CUB-200,CIFAR-FSにおいて,1ショット学習と5ショット学習タスクをバックボーンと少数ショット構成で行う。 また,本手法の実用性を示すために,ヨガポーズ認識のためのカスタムマイナショットデータセットを開発した。 当社のfs-ctとcosine attentionは,医療や医療,セキュリティ監視など,幅広いアプリケーションに適用可能な軽量でシンプルな少数ショットアルゴリズムです。 公式実装コードはhttps://github.com/vinuni-vishc/few-shot-cosine-transformerで利用可能です。

This paper addresses the few-shot image classification problem, where the classification task is performed on unlabeled query samples given a small amount of labeled support samples only. One major challenge of the few-shot learning problem is the large variety of object visual appearances that prevents the support samples to represent that object comprehensively. This might result in a significant difference between support and query samples, therefore undermining the performance of few-shot algorithms. In this paper, we tackle the problem by proposing Few-shot Cosine Transformer (FS-CT), where the relational map between supports and queries is effectively obtained for the few-shot tasks. The FS-CT consists of two parts, a learnable prototypical embedding network to obtain categorical representations from support samples with hard cases, and a transformer encoder to effectively achieve the relational map from two different support and query samples. We introduce Cosine Attention, a more robust and stable attention module that enhances the transformer module significantly and therefore improves FS-CT performance from 5% to over 20% in accuracy compared to the default scaled dot-product mechanism. Our method performs competitive results in mini-ImageNet, CUB-200, and CIFAR-FS on 1-shot learning and 5-shot learning tasks across backbones and few-shot configurations. We also developed a custom few-shot dataset for Yoga pose recognition to demonstrate the potential of our algorithm for practical application. Our FS-CT with cosine attention is a lightweight, simple few-shot algorithm that can be applied for a wide range of applications, such as healthcare, medical, and security surveillance. The official implementation code of our Few-shot Cosine Transformer is available at https://github.com/vinuni-vishc/Few-Shot-Cosine-Transformer
翻訳日:2023-07-24 16:38:39 公開日:2023-07-21
# 量子ジャンプを含む位相拡張

Topological extension including quantum jump ( http://arxiv.org/abs/2211.04233v4 )

ライセンス: Link先を確認
Xiangyu Niu, Junjie Wang(参考訳) 非エルミート系(NH)とオープン量子系は常に散逸的モデリングの信頼できるツールとみなされてきた。 興味深いことに、モデル複雑性を減らすために、既存の文献は通常、リンドブラッドマスター方程式の量子ジャンプ項を無視して有効なNHハミルトン式を得る。 しかし、廃語の影響やこれら2つのアプローチの統一的な関係についての調査は行われていない。 本研究では,SSH(Su-Schrieffer-Heeger)モデルについて,トポロジカルな視点から検討した。 一般化されたブリルアンゾーン(gbz)理論を形状行列に適用することにより、ジャンプの欠如位相特性は従来の理論と一貫性を示し、ジャンプ項が絡むと遷移点が変化する。 本研究は,量子ジャンプ項の影響を定性的に解析し,量子システムにおけるそのユニークな役割を明らかにする。

Non-Hermitian (NH) systems and open quantum systems have always been regarded as reliable tools in dissipative modeling. Intriguingly, in order to reduce the model complexity, existing literature usually obtains an effective NH Hamiltonian by ignoring the quantum jumping terms in Lindblad master equation. However, there lacks investigation into the effects of discarded terms as well as the unified connection between these two approaches. In this study, we investigate the Su-Schrieffer-Heeger (SSH) model with collective loss and gain from a topological perspective. By employing the generalized Brillouin zone (GBZ) theory to the shape matrix, the jump absence topological properties exhibits consistency with traditional theory, while the transitions points may shift when jumping terms are involved. Our study provides qualitative analysis of the impact of quantum jumping terms and reveals their unique role in quantum systems.
翻訳日:2023-07-24 16:38:06 公開日:2023-07-21
# 自己教師付き音声学習における声道構音の証拠

Evidence of Vocal Tract Articulation in Self-Supervised Learning of Speech ( http://arxiv.org/abs/2210.11723v3 )

ライセンス: Link先を確認
Cheol Jun Cho, Peter Wu, Abdelrahman Mohamed, Gopala K. Anumanchipalli(参考訳) 近年の自己教師付き学習(SSL)モデルは、多様な下流タスクで容易に利用可能な、豊かな音声表現を学習できることが証明されている。 このようなユーティリティを理解するために,音声SSLモデルに対して,学習した表現にどの情報をエンコードしているかを明らかにする様々な分析を行った。 先行分析の範囲は音響的,音声的,意味的な視点において広いが,音声生成による物理的基盤化は,まだ十分に注目されていない。 このギャップを埋めるため,電磁動脈造影法(EMA)で測定した音声表現と音声軌跡をリンクする包括的解析を行った。 EMAに対する線形写像の平均的相関として調音スコアを測定する線形探索法に基づく。 superbベンチマークのリーダボードから選択したsslモデルのセットを分析し,最も成功した2つのモデルであるwav2vec 2.0とhubertの層別分析を行った。 驚くべきことに、最近の音声SSLモデルの表現はEMAトレースと高い相関関係があり(ベスト: r = 0.81)、高性能な線形モデルのトレーニングには5分しかかからない(r = 0.77)。 以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。

Recent self-supervised learning (SSL) models have proven to learn rich representations of speech, which can readily be utilized by diverse downstream tasks. To understand such utilities, various analyses have been done for speech SSL models to reveal which and how information is encoded in the learned representations. Although the scope of previous analyses is extensive in acoustic, phonetic, and semantic perspectives, the physical grounding by speech production has not yet received full attention. To bridge this gap, we conduct a comprehensive analysis to link speech representations to articulatory trajectories measured by electromagnetic articulography (EMA). Our analysis is based on a linear probing approach where we measure articulatory score as an average correlation of linear mapping to EMA. We analyze a set of SSL models selected from the leaderboard of the SUPERB benchmark and perform further layer-wise analyses on two most successful models, Wav2Vec 2.0 and HuBERT. Surprisingly, representations from the recent speech SSL models are highly correlated with EMA traces (best: r = 0.81), and only 5 minutes are sufficient to train a linear model with high performance (r = 0.77). Our findings suggest that SSL models learn to align closely with continuous articulations, and provide a novel insight into speech SSL.
翻訳日:2023-07-24 16:37:51 公開日:2023-07-21
# FedForgery: 残留フェデレーション学習による汎用顔偽造検出

FedForgery: Generalized Face Forgery Detection with Residual Federated Learning ( http://arxiv.org/abs/2210.09563v2 )

ライセンス: Link先を確認
Decheng Liu, Zhan Dang, Chunlei Peng, Yu Zheng, Shuang Li, Nannan Wang, Xinbo Gao(参考訳) 画像生成モデルの分野でのディープラーニングの継続的な発展に伴い、多数の鮮明な偽造顔がインターネット上で生成され、普及している。 これらの高美的な人工物は社会保障への脅威に成長する可能性がある。 既存の顔偽造検出手法は、取得した公開共有データや集中型データを直接利用してトレーニングを行うが、現実のシナリオでは個人データが集中的に共有できない場合、個人のプライバシーやセキュリティの問題を無視している。 さらに、多種多様なアーティファクトタイプによる異なる分布は、偽造検出タスクにさらに悪影響を及ぼす。 そこで本稿では,フェースフォージェリー検出(FedForgery)のための一般化された残差フェデレーション学習を提案する。 設計された変分オートエンコーダは、ロバストな識別的残余特徴マップを学習し、偽造顔(多様または未知のアーティファクト型)を検出することを目的としている。 さらに、汎用学習戦略を導入し、複数の局所分散デバイスと協調的に訓練された分散検出モデルを構築し、表現一般化をさらに促進する。 顔偽造検出データセットの公開実験は、提案したFedForgeryの優れた性能を示す。 デザインされた新しい顔偽造検出プロトコルとソースコードは一般公開される予定である。

With the continuous development of deep learning in the field of image generation models, a large number of vivid forged faces have been generated and spread on the Internet. These high-authenticity artifacts could grow into a threat to society security. Existing face forgery detection methods directly utilize the obtained public shared or centralized data for training but ignore the personal privacy and security issues when personal data couldn't be centralizedly shared in real-world scenarios. Additionally, different distributions caused by diverse artifact types would further bring adverse influences on the forgery detection task. To solve the mentioned problems, the paper proposes a novel generalized residual Federated learning for face Forgery detection (FedForgery). The designed variational autoencoder aims to learn robust discriminative residual feature maps to detect forgery faces (with diverse or even unknown artifact types). Furthermore, the general federated learning strategy is introduced to construct distributed detection model trained collaboratively with multiple local decentralized devices, which could further boost the representation generalization. Experiments conducted on publicly available face forgery detection datasets prove the superior performance of the proposed FedForgery. The designed novel generalized face forgery detection protocols and source code would be publicly available.
翻訳日:2023-07-24 16:36:45 公開日:2023-07-21
# 不変スロット注意:スロット中心参照フレームによるオブジェクト発見

Invariant Slot Attention: Object Discovery with Slot-Centric Reference Frames ( http://arxiv.org/abs/2302.04973v2 )

ライセンス: Link先を確認
Ondrej Biza, Sjoerd van Steenkiste, Mehdi S. M. Sajjadi, Gamaleldin F. Elsayed, Aravindh Mahendran and Thomas Kipf(参考訳) 生の知覚データから構成可能な抽象化を自動的に発見することは、機械学習における長年の課題である。 自己監督的な方法でオブジェクトを学習する最近のスロットベースのニューラルネットワークは、この方向にエキサイティングな進歩を遂げている。 しかし、一般的には、視覚の世界に存在する空間対称性を適切に捉えられないため、オブジェクトの外観やポーズを絡めるようなサンプルの非効率性が生じる。 本稿では,スロット中心参照フレームによる空間対称性を組み込んだ簡易かつ高効率な手法を提案する。 対象毎のポーズ変換に対する等価性を,変換,スケーリング,回転位置符号化によるスロットアテンションの注意と生成機構に組み込む。 これらの変更は計算オーバーヘッドが少なく、実装が容易であり、データ効率とオブジェクト発見の全体的な改善の観点から大きな利益をもたらす可能性がある。 提案手法は,CLEVR,Tetrominoes,CLEVRTex,Objects Room,MultiShapeNetといった多種多様な合成オブジェクト探索ベンチマークを用いて評価し,現実のWaymo Openデータセットに有望な改善を示す。

Automatically discovering composable abstractions from raw perceptual data is a long-standing challenge in machine learning. Recent slot-based neural networks that learn about objects in a self-supervised manner have made exciting progress in this direction. However, they typically fall short at adequately capturing spatial symmetries present in the visual world, which leads to sample inefficiency, such as when entangling object appearance and pose. In this paper, we present a simple yet highly effective method for incorporating spatial symmetries via slot-centric reference frames. We incorporate equivariance to per-object pose transformations into the attention and generation mechanism of Slot Attention by translating, scaling, and rotating position encodings. These changes result in little computational overhead, are easy to implement, and can result in large gains in terms of data efficiency and overall improvements to object discovery. We evaluate our method on a wide range of synthetic object discovery benchmarks namely CLEVR, Tetrominoes, CLEVRTex, Objects Room and MultiShapeNet, and show promising improvements on the challenging real-world Waymo Open dataset.
翻訳日:2023-07-24 16:29:09 公開日:2023-07-21
# 変分オートエンコーダによる近道検出

Shortcut Detection with Variational Autoencoders ( http://arxiv.org/abs/2302.04246v2 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Simon Roschmann, Shahbaz Khan, Philip Sperl, Konstantin B\"ottinger(参考訳) 機械学習(ML)の現実的な応用においては、モデルがデータの素早い相関ではなく、適切に一般化された特徴に基づいて予測を行うことが不可欠である。 このようなスプリアス相関の同定はショートカットとしても知られ、難しい問題であり、これまでほとんど解決されていない。 本稿では,可変オートエンコーダ(vaes)を用いて,画像および音声データセットのショートカットを検出する新しい手法を提案する。 VAEの潜在空間における特徴の分散により、データセット内の特徴目標相関を発見し、MLショートカットに対して半自動評価することができる。 本手法の適用性を実世界のいくつかのデータセットに適用し,これまで発見されていないショートカットを同定する。

For real-world applications of machine learning (ML), it is essential that models make predictions based on well-generalizing features rather than spurious correlations in the data. The identification of such spurious correlations, also known as shortcuts, is a challenging problem and has so far been scarcely addressed. In this work, we present a novel approach to detect shortcuts in image and audio datasets by leveraging variational autoencoders (VAEs). The disentanglement of features in the latent space of VAEs allows us to discover feature-target correlations in datasets and semi-automatically evaluate them for ML shortcuts. We demonstrate the applicability of our method on several real-world datasets and identify shortcuts that have not been discovered before.
翻訳日:2023-07-24 16:28:48 公開日:2023-07-21
# SpArX: ニューラルネットワークのスパース説明的説明

SpArX: Sparse Argumentative Explanations for Neural Networks ( http://arxiv.org/abs/2301.09559v2 )

ライセンス: Link先を確認
Hamed Ayoobi, Nico Potyka, Francesca Toni(参考訳) ニューラルネットワーク(NN)はAIにさまざまな応用があるが、その決定を説明することは依然として難しい。 既存のアプローチはしばしば、個々の入力の変化がNNの出力にどのように影響するかを説明することに重点を置いている。 しかし、NNの入出力動作と一致する説明は、その実際の力学に必ずしも忠実ではない。 本稿では,多層パーセプトロン(MLP)と量的議論フレームワーク(QAF)の関係を利用して,MLPの力学に関する議論的な説明を作成する。 我々のSpArX法は、可能な限り元の構造を維持しながら、まずMLPを分散させる。 その後、スパースMLPを等価なQAFに変換することで、MPPの根底にある決定プロセスに光を当て、グローバルおよび/またはローカルな説明を生み出す。 実験により,SpArXは既存のアプローチよりも忠実に説明できると同時に,MLPの実際の推論過程について深い洞察を与えることができることを示した。

Neural networks (NNs) have various applications in AI, but explaining their decisions remains challenging. Existing approaches often focus on explaining how changing individual inputs affects NNs' outputs. However, an explanation that is consistent with the input-output behaviour of an NN is not necessarily faithful to the actual mechanics thereof. In this paper, we exploit relationships between multi-layer perceptrons (MLPs) and quantitative argumentation frameworks (QAFs) to create argumentative explanations for the mechanics of MLPs. Our SpArX method first sparsifies the MLP while maintaining as much of the original structure as possible. It then translates the sparse MLP into an equivalent QAF to shed light on the underlying decision process of the MLP, producing global and/or local explanations. We demonstrate experimentally that SpArX can give more faithful explanations than existing approaches, while simultaneously providing deeper insights into the actual reasoning process of MLPs.
翻訳日:2023-07-24 16:27:53 公開日:2023-07-21
# 自律運転における協調的知覚 : 方法・データセット・課題

Collaborative Perception in Autonomous Driving: Methods, Datasets and Challenges ( http://arxiv.org/abs/2301.06262v3 )

ライセンス: Link先を確認
Yushan Han, Hui Zhang, Huifang Li, Yi Jin, Congyan Lang, Yidong Li(参考訳) 協調認識は、自律運転における閉塞とセンサ障害の問題に対処するために不可欠である。 近年,協調的知覚のための新作の理論的,実験的研究が著しく増加している。 しかし、これまでのところ、体系的なコラボレーションモジュールと大規模な協調認識データセットに焦点を当てたレビューはほとんどない。 この研究は、このギャップを埋め、将来の研究を動機付けるために、この分野における最近の成果をレビューする。 まずは、コラボレーションスキームの概要から始めます。 その後,理想的シナリオと実世界の課題に対する協調的知覚手法を体系的に要約する。 前者はコラボレーションモジュールと効率に重点を置いており、後者は実際のアプリケーションの問題に対処する。 さらに, 大規模公開データセットを提示し, これらのベンチマークを定量的に要約する。 最後に,現在の学術研究と実世界の応用とのギャップと課題を強調する。 プロジェクトページはhttps://github.com/catonetwo/collaborative-perception-in-autonomous-driving。

Collaborative perception is essential to address occlusion and sensor failure issues in autonomous driving. In recent years, theoretical and experimental investigations of novel works for collaborative perception have increased tremendously. So far, however, few reviews have focused on systematical collaboration modules and large-scale collaborative perception datasets. This work reviews recent achievements in this field to bridge this gap and motivate future research. We start with a brief overview of collaboration schemes. After that, we systematically summarize the collaborative perception methods for ideal scenarios and real-world issues. The former focuses on collaboration modules and efficiency, and the latter is devoted to addressing the problems in actual application. Furthermore, we present large-scale public datasets and summarize quantitative results on these benchmarks. Finally, we highlight gaps and overlook challenges between current academic research and real-world applications. The project page is https://github.com/CatOneTwo/Collaborative-Perception-in-Autonomous-Driving
翻訳日:2023-07-24 16:27:39 公開日:2023-07-21
# 共有事項認証のためのクオタブル署名

Quotable Signatures for Authenticating Shared Quotes ( http://arxiv.org/abs/2212.10963v3 )

ライセンス: Link先を確認
Joan Boyar, Simon Erfurth, Kim S. Larsen, Ruben Niederhagen(参考訳) quotableシグネチャスキームは、メッセージのシグネチャから、秘密鍵を知ることなく、あるいは元のメッセージのシグネチャと対話することなく、メッセージから(許容)引用のためのシグネチャを抽出することができる追加のプロパティを持つデジタルシグネチャスキームである。 重要なことに、抽出された署名は、元の秘密鍵で署名される。 本稿では,商号スキームのセキュリティの概念を定義し,メルクル木と古典的デジタル署名スキームを用いた商号シグネチャスキームの具体例を構築した。 上記のセキュリティの概念に関して、このスキームは安全であることが示されている。 さらに、構築したスキームの複雑さの境界を証明し、署名、引用、検証のためのアルゴリズムを提供する。 最後に、quanttable signaturesの具体的ユースケースを考察し、ソーシャルメディア上の真正なコンテンツを強化することによって誤情報と戦う。 引用可能なシグネチャの使用方法と、それを使用することによって偽ニュースの影響を緩和できる理由の両方について検討する。

Quotable signature schemes are digital signature schemes with the additional property that from the signature for a message, any party can extract signatures for (allowable) quotes from the message, without knowing the secret key or interacting with the signer of the original message. Crucially, the extracted signatures are still signed with the original secret key. We define a notion of security for quotable signature schemes and construct a concrete example of a quotable signature scheme, using Merkle trees and classical digital signature schemes. The scheme is shown to be secure, with respect to the aforementioned notion of security. Additionally, we prove bounds on the complexity of the constructed scheme and provide algorithms for signing, quoting, and verifying. Finally, concrete use cases of quotable signatures are considered, using them to combat misinformation by bolstering authentic content on social media. We consider both how quotable signatures can be used, and why using them could help mitigate the effects of fake news.
翻訳日:2023-07-24 16:27:09 公開日:2023-07-21
# 調査実験による議論に基づく意見力学の検証

Validating argument-based opinion dynamics with survey experiments ( http://arxiv.org/abs/2212.10143v2 )

ライセンス: Link先を確認
Sven Banisch and Hawal Shamon(参考訳) モデルの実証的な検証は、意見のダイナミクスにおける最も重要な課題の1つです。 本稿では,調査実験データと意見形成の計算モデルを組み合わせた最近の研究について報告する。 バイアスド・プロセッシングが原理メカニズムである意見力学のための議論に基づくモデルの実証的評価に関する先行研究を拡張した。 前回の論文(Banisch & Shamon, press)では、議論による意見の変化に関する実験データによるマイクロメカニズムの校正に重点を置いているが、本研究では、調査実験で収集した経験データを用いてマクロレベルに集中している。 この目的のために、議論モデルはバランスの取れた情報の外部ソースによって拡張され、他のノイズのあるプロセスと比較してピア影響プロセスの影響を制御できる。 その結果,調査対象の意見分布はパラメータ空間内の特定の領域において高い精度で一致し,社会的影響と外部騒音の影響が等しいことが示された。 さらに重要なことに、マクロデータに対するバイアス処理の推定強度は、マイクロレベルで高い可能性を達成するこれらの値と互換性がある。 この論文の主な貢献は、拡張された議論ベースモデルが、議論によって引き起こされる態度変化のマイクロプロセスからマクロレベルの意見分布への固い橋渡しとなることを示すことである。 さらに、議論に基づくモデルの開発を概観し、モデル結果の自動分類のための新しい方法を提案する。

The empirical validation of models remains one of the most important challenges in opinion dynamics. In this contribution, we report on recent developments on combining data from survey experiments with computational models of opinion formation. We extend previous work on the empirical assessment of an argument-based model for opinion dynamics in which biased processing is the principle mechanism. While previous work (Banisch & Shamon, in press) has focused on calibrating the micro mechanism with experimental data on argument-induced opinion change, this paper concentrates on the macro level using the empirical data gathered in the survey experiment. For this purpose, the argument model is extended by an external source of balanced information which allows to control for the impact of peer influence processes relative to other noisy processes. We show that surveyed opinion distributions are matched with a high level of accuracy in a specific region in the parameter space, indicating an equal impact of social influence and external noise. More importantly, the estimated strength of biased processing given the macro data is compatible with those values that achieve high likelihood at the micro level. The main contribution of the paper is hence to show that the extended argument-based model provides a solid bridge from the micro processes of argument-induced attitude change to macro level opinion distributions. Beyond that, we review the development of argument-based models and present a new method for the automated classification of model outcomes.
翻訳日:2023-07-24 16:26:49 公開日:2023-07-21
# NusaCrowd: インドネシアのNLPリソースのためのオープンソースイニシアティブ

NusaCrowd: Open Source Initiative for Indonesian NLP Resources ( http://arxiv.org/abs/2212.09648v4 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Alham Fikri Aji, Genta Indra Winata, Bryan Wilie, Rahmad Mahendra, Christian Wibisono, Ade Romadhony, Karissa Vincentio, Fajri Koto, Jennifer Santoso, David Moeljadi, Cahya Wirawan, Frederikus Hudi, Ivan Halim Parmonangan, Ika Alfina, Muhammad Satrio Wicaksono, Ilham Firdausi Putra, Samsul Rahmadani, Yulianti Oenang, Ali Akbar Septiandri, James Jaya, Kaustubh D. Dhole, Arie Ardiyanti Suryani, Rifki Afina Putri, Dan Su, Keith Stevens, Made Nindyatama Nityasya, Muhammad Farid Adilazuarda, Ryan Ignatius, Ryandito Diandaru, Tiezheng Yu, Vito Ghifari, Wenliang Dai, Yan Xu, Dyah Damapuspita, Cuk Tho, Ichwanul Muslim Karo Karo, Tirana Noor Fatyanosa, Ziwei Ji, Pascale Fung, Graham Neubig, Timothy Baldwin, Sebastian Ruder, Herry Sujaini, Sakriani Sakti, Ayu Purwarianti(参考訳) 我々は,インドネシア語の既存の資源を収集し,統一するための協力的イニシアティブであるnusacrowdを提案する。 このイニシアティブを通じて、127のデータセットと118の標準化データローダをまとめました。 データセットの品質は手動および自動で評価され、その値は複数の実験を通じて実証されている。 nusacrowdのデータ収集は、インドネシアおよびインドネシアのローカル言語における自然言語理解と生成のための最初のゼロショットベンチマークの作成を可能にする。 さらに、NusaCrowdはインドネシアとインドネシアの地方言語で最初の多言語自動音声認識ベンチマークを作成した。 我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。

We present NusaCrowd, a collaborative initiative to collect and unify existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have brought together 137 datasets and 118 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their value is demonstrated through multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and the local languages of Indonesia. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and the local languages of Indonesia. Our work strives to advance natural language processing (NLP) research for languages that are under-represented despite being widely spoken.
翻訳日:2023-07-24 16:26:28 公開日:2023-07-21
# 逆音響障害物散乱問題に対するニューラルネットワークウォームスタート法

A Neural Network Warm-Start Approach for the Inverse Acoustic Obstacle Scattering Problem ( http://arxiv.org/abs/2212.08736v2 )

ライセンス: Link先を確認
Mo Zhou, Jiequn Han, Manas Rachh, Carlos Borges(参考訳) 物体外部の受信機群における散乱場の測定から、障害物の境界が決定される2次元の音響ソフトな星形障害物に対する逆音響障害物問題を考える。 この問題を解決するための標準的なアプローチの1つは最適化問題として、分散フィールドの計算値と与えられた測定データの間の$L^2$距離を最小化する領域の境界を見つけることである。 局所凸性の集合は周波数の増加とともに減少し、真の解の近傍で局所最小値が増加するので、最適化問題は計算的に困難である。 多くの実用的な実験環境では、実験装置の限界や測定に用いられるセンサーのために低周波の測定は不可能である。 したがって、最適化問題に対する適切な初期推測を得ることは、この環境において重要な役割を果たす。 本稿では,ニューラルネットワークを用いて最適化問題の初期推定を求める逆散乱問題を解くためのニューラルネットワークウォームスタート手法を提案する。 本手法の有効性をいくつかの数値例で示す。 高周波問題では、gauss-newton のような従来のイテレーティブメソッドを先行せずに初期化(単位円を用いて初期化)するか、線形サンプリング法のような直接メソッドの解を用いて初期化する手法よりも、このアプローチは優れている。 このアルゴリズムは散乱場測定における雑音に対して頑健であり、また制限された開口データに対する真の解に収束する。 しかしながら、ニューラルネットワークのトレーニングに必要なトレーニングサンプルの数は、頻度と考慮される障害の複雑さが指数関数的に増加する。 本稿では,この現象と今後の研究の方向性について論じる。

We consider the inverse acoustic obstacle problem for sound-soft star-shaped obstacles in two dimensions wherein the boundary of the obstacle is determined from measurements of the scattered field at a collection of receivers outside the object. One of the standard approaches for solving this problem is to reformulate it as an optimization problem: finding the boundary of the domain that minimizes the $L^2$ distance between computed values of the scattered field and the given measurement data. The optimization problem is computationally challenging since the local set of convexity shrinks with increasing frequency and results in an increasing number of local minima in the vicinity of the true solution. In many practical experimental settings, low frequency measurements are unavailable due to limitations of the experimental setup or the sensors used for measurement. Thus, obtaining a good initial guess for the optimization problem plays a vital role in this environment. We present a neural network warm-start approach for solving the inverse scattering problem, where an initial guess for the optimization problem is obtained using a trained neural network. We demonstrate the effectiveness of our method with several numerical examples. For high frequency problems, this approach outperforms traditional iterative methods such as Gauss-Newton initialized without any prior (i.e., initialized using a unit circle), or initialized using the solution of a direct method such as the linear sampling method. The algorithm remains robust to noise in the scattered field measurements and also converges to the true solution for limited aperture data. However, the number of training samples required to train the neural network scales exponentially in frequency and the complexity of the obstacles considered. We conclude with a discussion of this phenomenon and potential directions for future research.
翻訳日:2023-07-24 16:26:17 公開日:2023-07-21
# MOISST:時空間キャリブレーションのための不規則シーンのマルチモーダル最適化

MOISST: Multimodal Optimization of Implicit Scene for SpatioTemporal calibration ( http://arxiv.org/abs/2303.03056v3 )

ライセンス: Link先を確認
Quentin Herau, Nathan Piasco, Moussab Bennehar, Luis Rold\~ao, Dzmitry Tsishkou, Cyrille Migniot, Pascal Vasseur and C\'edric Demonceaux(参考訳) 近年の自動運転の進歩とLiDARのコスト削減により、マルチモーダルセンサーシステムの利用が増加している。 しかし,様々な補足センサによって提供される情報を活用するためには,正確な校正が必要である。 コンピュータグラフィックスと暗黙のボリュームシーン表現の最近の進歩を利用して、マルチセンサ空間と時間的キャリブレーションの問題に取り組む。 ニューラル・レージアンス・フィールド(NeRF)最適化の新たな定式化により,放射計および幾何計測に基づくシーン表現とともにキャリブレーションパラメータを協調的に最適化することができる。 本手法は, 未制御・非構造都市環境におけるデータから, 高精度でロバストなキャリブレーションを可能にし, 既存のキャリブレーションソリューションよりもスケーラブルである。 提案手法の精度とロバスト性について,運転シナリオで典型的に発生する都市シーンで実証する。

With the recent advances in autonomous driving and the decreasing cost of LiDARs, the use of multimodal sensor systems is on the rise. However, in order to make use of the information provided by a variety of complimentary sensors, it is necessary to accurately calibrate them. We take advantage of recent advances in computer graphics and implicit volumetric scene representation to tackle the problem of multi-sensor spatial and temporal calibration. Thanks to a new formulation of the Neural Radiance Field (NeRF) optimization, we are able to jointly optimize calibration parameters along with scene representation based on radiometric and geometric measurements. Our method enables accurate and robust calibration from data captured in uncontrolled and unstructured urban environments, making our solution more scalable than existing calibration solutions. We demonstrate the accuracy and robustness of our method in urban scenes typically encountered in autonomous driving scenarios.
翻訳日:2023-07-24 16:20:38 公開日:2023-07-21
# フォトニック量子ホール系におけるカイラル量子光学

Chiral quantum optics in the bulk of photonic quantum Hall systems ( http://arxiv.org/abs/2302.14863v2 )

ライセンス: Link先を確認
Daniele De Bernardis, Francesco Piccioli, Peter Rabl, and Iacopo Carusotto(参考訳) 2次元フォトニック格子系のバルクにおける光-物質相互作用について検討し,光子は合成磁場と直交合成電界の複合効果を受けることを示した。 この構成では、キラル導波路モードは格子のバルク領域に現れ、電子系における横ホール電流と直接類似している。 これらのモードに結合したエミッタの非マルコフダイナミクスを評価することにより、自発的に放出される光子の形状がほぼ完全に対称となる臨界結合条件を同定する。 この性質は、指向性で分散のない伝播と組み合わせて、時間依存的な制御に頼ることなく、別の遠方のエミッタによる光子の完全な再吸収を可能にする。 この機構は任意の面内合成ポテンシャルに一般化できるため、任意のキラル接続を持つ量子エミッタの再構成可能なネットワークを柔軟に実現することができる。

We study light-matter interactions in the bulk of a two-dimensional photonic lattice system, where photons are subject to the combined effect of a synthetic magnetic field and an orthogonal synthetic electric field. In this configuration, chiral waveguide modes appear in the bulk region of the lattice, in direct analogy to transverse Hall currents in electronic systems. By evaluating the non-Markovian dynamics of emitters that are coupled to those modes, we identify critical coupling conditions, under which the shape of the spontaneously emitted photons becomes almost fully symmetric. Combined with a directional, dispersionless propagation, this property enables a complete reabsorption of the photon by another distant emitter, without relying on any time-dependent control. We show that this mechanism can be generalized to arbitrary in-plane synthetic potentials, thereby enabling flexible realizations of re-configurable networks of quantum emitters with arbitrary chiral connectivity.
翻訳日:2023-07-24 16:19:36 公開日:2023-07-21
# 測定誘起絡み合い相転移に対する指数的ショートカット

Exponential shortcut to measurement-induced entanglement phase transitions ( http://arxiv.org/abs/2302.14044v2 )

ライセンス: Link先を確認
Ali G. Moghaddam, Kim P\"oyh\"onen, Teemu Ojanen(参考訳) 最近発見された測定誘起量子回路の絡み合い相転移は、非平衡量子臨界の新たな例である。 本稿では,これらの遷移を変動を通じて実験的にアクセスするための高効率戦略を提案する。 サブシステムのサイズで指数関数的な数の計測を必要とするエントロピーを直接測定するのではなく,保存量の存在下でのエンタングルメント遷移へのスケーラブルなアプローチを提供する。 絡み合いエントロピーと相互情報との類似性として, 2成分と多成分の揺らぎを用いて, 測定誘起臨界性を分析する方法を示す。 注目すべきことに、位相遷移は少数の量子ビットのゆらぎを測定することで明らかにできる。

Recently discovered measurement-induced entanglement phase transitions in monitored quantum circuits provide a novel example of far-from-equilibrium quantum criticality. Here, we propose a highly efficient strategy for experimentally accessing these transitions through fluctuations. Instead of directly measuring entanglement entropy, which requires an exponential number of measurements in the subsystem size, our method provides a scalable approach to entanglement transitions in the presence of conserved quantities. In analogy to entanglement entropy and mutual information, we illustrate how bipartite and multipartite fluctuations can both be employed to analyze the measurement-induced criticality. Remarkably, the phase transition can be revealed by measuring fluctuations of only a handful of qubits.
翻訳日:2023-07-24 16:19:08 公開日:2023-07-21
# 生成モデルに対する著作権保護の証明について

On Provable Copyright Protection for Generative Models ( http://arxiv.org/abs/2302.10870v2 )

ライセンス: Link先を確認
Nikhil Vyas, Sham Kakade, Boaz Barak(参考訳) 学習条件生成モデルが、トレーニングセットにあった著作権付きデータ$c$と実質的に類似したサンプルを出力する可能性があるという懸念が高まっている。 我々は、$\textit{near access-freeness (NAF)}$の正式な定義を与え、もし$C$がトレーニングセットに含まれているとしても、この定義を満たすモデルが$C$に類似したサンプルを出力する確率の有界性を証明する。 大まかに言えば、生成モデル $p$ が $\textit{$k$-naf}$ であることは、著作権のあるすべてのデータ $c$ に対して、$p$ の出力が $q$ の出力から少なくとも $k$-bit を分岐することであり、$\textit{did は $c$ に全くアクセスしない。 また,元の生成モデル学習アルゴリズムをブラックボックス方式で効率的に修正する生成モデル学習アルゴリズムを与え,保護されたコンテンツをサンプリングする確率に強い境界を持つ生成モデルを出力する。 さらに,言語(トランスフォーマー)と画像(拡散)生成モデルの両方に対して有望な実験を行い,出力品質の低下を最小限に抑えつつ,保護されたコンテンツのサンプリングに対する強い保護を確保した。

There is a growing concern that learned conditional generative models may output samples that are substantially similar to some copyrighted data $C$ that was in their training set. We give a formal definition of $\textit{near access-freeness (NAF)}$ and prove bounds on the probability that a model satisfying this definition outputs a sample similar to $C$, even if $C$ is included in its training set. Roughly speaking, a generative model $p$ is $\textit{$k$-NAF}$ if for every potentially copyrighted data $C$, the output of $p$ diverges by at most $k$-bits from the output of a model $q$ that $\textit{did not access $C$ at all}$. We also give generative model learning algorithms, which efficiently modify the original generative model learning algorithm in a black box manner, that output generative models with strong bounds on the probability of sampling protected content. Furthermore, we provide promising experiments for both language (transformers) and image (diffusion) generative models, showing minimal degradation in output quality while ensuring strong protections against sampling protected content.
翻訳日:2023-07-24 16:18:05 公開日:2023-07-21
# モーメントベース正定値部分多様体最適化の簡易化とディープラーニングへの応用

Simplifying Momentum-based Positive-definite Submanifold Optimization with Applications to Deep Learning ( http://arxiv.org/abs/2302.09738v5 )

ライセンス: Link先を確認
Wu Lin, Valentin Duruisseaux, Melvin Leok, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 運動量を持つリーマン部分多様体の最適化は、イテレートが部分多様体上に残ることを保証するために、しばしば難しい微分方程式を解く必要があるため、計算的に難しい。 ここでは、アフィン不変距離を持つ構造化対称正定行列のクラスに対するそのような困難を単純化する。 我々は、計量を動的に正規化するリーマン正規座標の一般化バージョンを提案し、その問題をユークリッド空間の非拘束問題へと局所的に変換する。 提案手法は,行列乗算のみを用いることで,構造化共分散の既存手法を単純化し,低精度深層学習のための行列逆フリー2ドル^\text{nd}$-orderオプティマイザを開発する。 コード: https://github.com/yorkerlin/structuredngd-dl

Riemannian submanifold optimization with momentum is computationally challenging because, to ensure that the iterates remain on the submanifold, we often need to solve difficult differential equations. Here, we simplify such difficulties for a class of structured symmetric positive-definite matrices with the affine-invariant metric. We do so by proposing a generalized version of the Riemannian normal coordinates that dynamically orthonormalizes the metric and locally converts the problem into an unconstrained problem in the Euclidean space. We use our approach to simplify existing approaches for structured covariances and develop matrix-inverse-free $2^\text{nd}$-order optimizers for deep learning with low precision by using only matrix multiplications. Code: https://github.com/yorkerlin/StructuredNGD-DL
翻訳日:2023-07-24 16:17:39 公開日:2023-07-21
# 階層構造学習のためのマルチレゾリューショングラフトランスフォーマとウェーブレット位置符号化

Multiresolution Graph Transformers and Wavelet Positional Encoding for Learning Hierarchical Structures ( http://arxiv.org/abs/2302.08647v4 )

ライセンス: Link先を確認
Nhat Khang Ngo, Truong Son Hy, Risi Kondor(参考訳) 現代のグラフ学習アルゴリズムは、大分子の分子特性を決定するのに必須である原子間の階層的相互作用を考慮しないため、大分子では明確に定義されていない。 本研究では,複数スケールで大きな分子を表現できる最初のグラフトランスアーキテクチャであるMulti resolution Graph Transformer (MGT)を提案する。 MGTは原子の表現を学習し、それらを意味のある機能群または繰り返し単位に分類することができる。 また、スペクトル領域と空間領域の両方でローカライズを保証できる新しい位置符号化手法であるWavePE(Wavelet Positional Encoding)を導入する。 提案モデルでは, 高分子とペプチドからなる2つのマクロ分子データセットと, 1つの薬物様分子データセットの競合結果を得た。 本モデルでは, 分子特性(GAP, HOMO, LUMO)を, 密度汎関数理論(DFT)で計算した分子特性を推定し, 化学的精度で評価する。 さらに, マクロ分子とそれらの表現の低次元空間のクラスタリング結果を含む可視化により, 長距離階層構造を表現できる手法の可能性を実証した。 私たちのPyTorch実装はhttps://github.com/HySonLab/Multires-Graph-Transformerで公開されています。

Contemporary graph learning algorithms are not well-defined for large molecules since they do not consider the hierarchical interactions among the atoms, which are essential to determine the molecular properties of macromolecules. In this work, we propose Multiresolution Graph Transformers (MGT), the first graph transformer architecture that can learn to represent large molecules at multiple scales. MGT can learn to produce representations for the atoms and group them into meaningful functional groups or repeating units. We also introduce Wavelet Positional Encoding (WavePE), a new positional encoding method that can guarantee localization in both spectral and spatial domains. Our proposed model achieves competitive results on two macromolecule datasets consisting of polymers and peptides, and one drug-like molecule dataset. Importantly, our model outperforms other state-of-the-art methods and achieves chemical accuracy in estimating molecular properties (e.g., GAP, HOMO and LUMO) calculated by Density Functional Theory (DFT) in the polymers dataset. Furthermore, the visualizations, including clustering results on macromolecules and low-dimensional spaces of their representations, demonstrate the capability of our methodology in learning to represent long-range and hierarchical structures. Our PyTorch implementation is publicly available at https://github.com/HySonLab/Multires-Graph-Transformer
翻訳日:2023-07-24 16:17:23 公開日:2023-07-21
# 量子時空境界問題:局所因果情報による大域因果構造

Quantum space-time marginal problem: global causal structure from local causal information ( http://arxiv.org/abs/2303.12819v2 )

ライセンス: Link先を確認
Zhian Jia, Minjeong Song, Dagomir Kaszlikowski(参考訳) 空間的および時間的量子相関は擬密度演算子の枠組みで統一することができ、実験における関連する事象間の量子因果関係は対応する擬密度演算子に符号化される。 局所因果情報とグローバル因果構造との関係について検討する。 因果構造が擬密度演算子によって表されるような与えられた辺縁因果構造から大域因果構造を推定する時空境界問題を提案する。 この解集合に対応する制約を課すことで、正の半定値境界問題や分離可能な限界問題などのような特別クラス境界問題の解を得ることができる。 本稿では,時空エントロピーを導入し,ニューラルネットワークを用いて効果的に解くことができる最大エントロピー原理に基づいて大域的因果構造を決定する手法を提案する。 量子疑似チャネルの概念も導入され、チャネル状態双対性を介して疑似密度作用素境界問題に変換することで量子疑似チャネル境界問題を解くことができることを実証する。

Spatial and temporal quantum correlations can be unified in the framework of the pseudo-density operators, and quantum causality between the involved events in an experiment is encoded in the corresponding pseudo-density operator. We study the relationship between local causal information and global causal structure. A space-time marginal problem is proposed to infer global causal structures from given marginal causal structures where causal structures are represented by the pseudo-density operators; we show that there almost always exists a solution in this case. By imposing the corresponding constraints on this solution set, we could obtain the required solutions for special classes of marginal problems, like a positive semidefinite marginal problem, separable marginal problem, etc. We introduce a space-time entropy and propose a method to determine the global causal structure based on the maximum entropy principle, which can be solved effectively by using a neural network. The notion of quantum pseudo-channel is also introduced and we demonstrate that the quantum pseudo-channel marginal problem can be solved by transforming it into a pseudo-density operator marginal problem via the channel-state duality.
翻訳日:2023-07-24 16:09:49 公開日:2023-07-21
# BoxSnake: Box Supervisionによる多角形のインスタンスセグメンテーション

BoxSnake: Polygonal Instance Segmentation with Box Supervision ( http://arxiv.org/abs/2303.11630v2 )

ライセンス: Link先を確認
Rui Yang, Lin Song, Yixiao Ge, Xiu Li(参考訳) ボックス教師付きインスタンスセグメンテーションは、コストのかかるマスクやポリゴンアノテーションの代わりに単純なボックスアノテーションのみを必要とするため、多くの注目を集めています。 しかし、既存のボックス管理インスタンスセグメンテーションモデルは、主にマスクベースのフレームワークに焦点を当てている。 ボックスアノテーションのみを用いた効率的な多角形インスタンスセグメンテーションを実現するために,BoxSnakeと呼ばれる新しいエンドツーエンドトレーニング手法を提案する。 本手法は,(1)予測された多角形の境界ボックスを制約して粗粒分節化を実現する点ベース不規則損失,(2)予測された多角形を対象境界に適合させる距離認識一辺損失の2つの損失関数からなる。 BoxSnakeはマスクベースの弱教師付き手法と比較して、予測セグメンテーションとバウンディングボックスの間のパフォーマンスギャップをさらに減らし、Cityscapesデータセットに顕著な優位性を示す。

Box-supervised instance segmentation has gained much attention as it requires only simple box annotations instead of costly mask or polygon annotations. However, existing box-supervised instance segmentation models mainly focus on mask-based frameworks. We propose a new end-to-end training technique, termed BoxSnake, to achieve effective polygonal instance segmentation using only box annotations for the first time. Our method consists of two loss functions: (1) a point-based unary loss that constrains the bounding box of predicted polygons to achieve coarse-grained segmentation; and (2) a distance-aware pairwise loss that encourages the predicted polygons to fit the object boundaries. Compared with the mask-based weakly-supervised methods, BoxSnake further reduces the performance gap between the predicted segmentation and the bounding box, and shows significant superiority on the Cityscapes dataset.
翻訳日:2023-07-24 16:09:18 公開日:2023-07-21
# 変形可能な物体マニピュレーションのための目視の精度の学習

Learning Foresightful Dense Visual Affordance for Deformable Object Manipulation ( http://arxiv.org/abs/2303.11057v3 )

ライセンス: Link先を確認
Ruihai Wu, Chuanruo Ning, Hao Dong(参考訳) 変形可能な物体(例えばロープや布地)の理解と操作は、幅広い応用において不可欠だが困難な課題である。 困難は複雑な状態とダイナミクス、多様な構成、変形可能な物体の高次元の作用空間から生じる。 さらに、操作タスクは通常、達成するために複数のステップを必要とし、欲求的なポリシーは容易に局所的な最適状態につながる可能性がある。 既存の研究は通常、強化学習や専門家のデモンストレーションを模倣してこの問題に取り組み、複雑な状態をモデル化したり、手作りのエキスパートポリシーを必要とする。 本稿では,多種多様な状態への一般化をめざして,高密度な視覚能力を用いた変形可能な物体の操作について検討し,長期的操作のための状態値の推定により局所的最適性を回避する新しい種類の高密度物体の操作法を提案する。 本稿では,多段階安定学習や効率的な自己教師付きデータ収集など,専門家のいない新しい設計を用いて,この表現を学習するためのフレームワークを提案する。 提案した高密度化の優位性を示す実験を行った。 プロジェクトページ: https://hyperplane-lab.github.io/deformableaffordance

Understanding and manipulating deformable objects (e.g., ropes and fabrics) is an essential yet challenging task with broad applications. Difficulties come from complex states and dynamics, diverse configurations and high-dimensional action space of deformable objects. Besides, the manipulation tasks usually require multiple steps to accomplish, and greedy policies may easily lead to local optimal states. Existing studies usually tackle this problem using reinforcement learning or imitating expert demonstrations, with limitations in modeling complex states or requiring hand-crafted expert policies. In this paper, we study deformable object manipulation using dense visual affordance, with generalization towards diverse states, and propose a novel kind of foresightful dense affordance, which avoids local optima by estimating states' values for long-term manipulation. We propose a framework for learning this representation, with novel designs such as multi-stage stable learning and efficient self-supervised data collection without experts. Experiments demonstrate the superiority of our proposed foresightful dense affordance. Project page: https://hyperplane-lab.github.io/DeformableAffordance
翻訳日:2023-07-24 16:09:00 公開日:2023-07-21
# More from Less: Self-Supervised Knowledge Distillation for Routine Histopathology data

More From Less: Self-Supervised Knowledge Distillation for Routine Histopathology Data ( http://arxiv.org/abs/2303.10656v2 )

ライセンス: Link先を確認
Lucas Farndale, Robert Insall and Ke Yuan(参考訳) 医療画像技術は、ますます大量の高品質な情報密度データを生み出している。 進歩にもかかわらず、研究・診断に先進的な画像技術の実用化は、コストと可用性によって制限されているため、H&E染色などの情報分散データは実際は頼っている。 疾患組織の研究には、これらの情報密度データを利用して、日常的な情報分離データからより多くの価値を抽出する手法が必要である。 自己教師付き深層学習を用いて,学習中の知識を情報伝達データから推論のための情報スパースデータのみを必要とするモデルに分化できることを実証する。 これにより、情報スパースデータの下流分類精度が向上し、完全な教師付きベースラインに匹敵する。 学習した表現にかなりの効果があり、この学習プロセスは検出されない微妙な特徴を識別する。 このアプローチは、ルーチンイメージのみを必要とするが、最先端のデータからの洞察を含むモデルの設計を可能にする。

Medical imaging technologies are generating increasingly large amounts of high-quality, information-dense data. Despite the progress, practical use of advanced imaging technologies for research and diagnosis remains limited by cost and availability, so information-sparse data such as H&E stains are relied on in practice. The study of diseased tissue requires methods which can leverage these information-dense data to extract more value from routine, information-sparse data. Using self-supervised deep learning, we demonstrate that it is possible to distil knowledge during training from information-dense data into models which only require information-sparse data for inference. This improves downstream classification accuracy on information-sparse data, making it comparable with the fully-supervised baseline. We find substantial effects on the learned representations, and this training process identifies subtle features which otherwise go undetected. This approach enables the design of models which require only routine images, but contain insights from state-of-the-art data, allowing better use of the available resources.
翻訳日:2023-07-24 16:08:42 公開日:2023-07-21
# mednext: 医用画像セグメンテーションのためのconvnetのトランスフォーマー駆動スケーリング

MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation ( http://arxiv.org/abs/2303.09975v4 )

ライセンス: Link先を確認
Saikat Roy, Gregor Koehler, Constantin Ulrich, Michael Baumgartner, Jens Petersen, Fabian Isensee, Paul F. Jaeger, Klaus Maier-Hein(参考訳) 医療画像セグメンテーションのためにTransformerベースのアーキテクチャを採用することへの関心は爆発的に高まっている。 しかし、大規模な注釈付き医療データセットの欠如により、自然画像のそれと同等のパフォーマンスを達成することは困難である。 対照的に畳み込みネットワークは誘導バイアスが高く、その結果、高い性能で容易に訓練できる。 近年、convnextアーキテクチャはトランスフォーマーブロックをミラーリングすることで標準convnetの近代化を試みた。 そこで本研究では, 医療現場の課題に合わせてカスタマイズした, 現代的でスケーラブルな畳み込み型アーキテクチャの設計を改良した。 トランスフォーマーにインスパイアされた大規模カーネルセグメンテーションネットワークであるMedNeXtを導入し,1)医療画像セグメンテーションのための完全なConvNeXt 3Dエンコーダデコーダネットワークを導入する。 2) 規模にまたがる意味的豊かさを維持するため,残留ConvNeXtのアップアンドダウンサンプリングブロック。 3)小規模カーネルネットワークのアップサンプリングによるカーネルサイズを反復的に増加させ,限られた医療データの性能飽和を防止する新手法 4)MedNeXtの複数レベルの複合スケーリング(深さ,幅,カーネルサイズ)。 これにより、CTとMRIの4つのタスクにおける最先端のパフォーマンスと、さまざまなデータセットサイズが実現され、医療画像セグメンテーションのための近代化されたディープアーキテクチャが表される。 私たちのコードは、https://github.com/MIC-DKFZ/MedNeXt.comで公開されています。

There has been exploding interest in embracing Transformer-based architectures for medical image segmentation. However, the lack of large-scale annotated medical datasets make achieving performances equivalent to those in natural images challenging. Convolutional networks, in contrast, have higher inductive biases and consequently, are easily trainable to high performance. Recently, the ConvNeXt architecture attempted to modernize the standard ConvNet by mirroring Transformer blocks. In this work, we improve upon this to design a modernized and scalable convolutional architecture customized to challenges of data-scarce medical settings. We introduce MedNeXt, a Transformer-inspired large kernel segmentation network which introduces - 1) A fully ConvNeXt 3D Encoder-Decoder Network for medical image segmentation, 2) Residual ConvNeXt up and downsampling blocks to preserve semantic richness across scales, 3) A novel technique to iteratively increase kernel sizes by upsampling small kernel networks, to prevent performance saturation on limited medical data, 4) Compound scaling at multiple levels (depth, width, kernel size) of MedNeXt. This leads to state-of-the-art performance on 4 tasks on CT and MRI modalities and varying dataset sizes, representing a modernized deep architecture for medical image segmentation. Our code is made publicly available at: https://github.com/MIC-DKFZ/MedNeXt.
翻訳日:2023-07-24 16:08:22 公開日:2023-07-21
# StyleGANEX:StyleGANベースの顔操作

StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces ( http://arxiv.org/abs/2303.06146v2 )

ライセンス: Link先を確認
Shuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy(参考訳) StyleGANを用いた顔操作の最近の進歩は印象的な結果をもたらした。 しかし、StyleGANは本質的には、事前にトレーニングされている固定画像解像度で整列された顔に限られている。 本稿では,StyleGANの浅い層の受容場をモデルパラメータを変更することなく拡張畳み込みを用いて再スケールすることで,この制限に対する簡便かつ効果的な解を提案する。 これにより、浅い層に固定サイズの小さな特徴を拡張して、可変解像度を許容できる大きな特徴にすることができる。 実際の顔の反転と操作を可能にするために,拡張されたStyleGANの第一層機能と潜在スタイルコードを提供する対応するエンコーダを導入する。 本手法は,顔属性編集,超解像,スケッチ・マスク・ツー・フェイス翻訳,顔トーン化など,多様な顔操作タスクにおいて,様々な解像度の非整合入力を用いて有効性を検証する。

Recent advances in face manipulation using StyleGAN have produced impressive results. However, StyleGAN is inherently limited to cropped aligned faces at a fixed image resolution it is pre-trained on. In this paper, we propose a simple and effective solution to this limitation by using dilated convolutions to rescale the receptive fields of shallow layers in StyleGAN, without altering any model parameters. This allows fixed-size small features at shallow layers to be extended into larger ones that can accommodate variable resolutions, making them more robust in characterizing unaligned faces. To enable real face inversion and manipulation, we introduce a corresponding encoder that provides the first-layer feature of the extended StyleGAN in addition to the latent style code. We validate the effectiveness of our method using unaligned face inputs of various resolutions in a diverse set of face manipulation tasks, including facial attribute editing, super-resolution, sketch/mask-to-face translation, and face toonification.
翻訳日:2023-07-24 16:07:57 公開日:2023-07-21
# 時間的プロセスによるイベントとインタラクションのモデリング -- 調査

Modeling Events and Interactions through Temporal Processes -- A Survey ( http://arxiv.org/abs/2303.06067v2 )

ライセンス: Link先を確認
Angelica Liguori, Luciano Caroprese, Marco Minici, Bruno Veloso, Francesco Spinnato, Mirco Nanni, Giuseppe Manco, Joao Gama(参考訳) 現実のシナリオでは、多くの現象が連続して起こる事象の集合を生み出す。 ポイントプロセスは、これらのイベントのシーケンスをモデル化するための自然な数学的フレームワークを提供する。 本研究では,時間過程を通じて事象列をモデル化する確率モデルについて検討する。 我々は、イベントモデリングの概念を改訂し、そのトピックに関する文献を特徴づける数学的基礎を提供する。 既存のアプローチを3つのファミリー(simple, marked, and spatio-temporal point process)で分類するためにオントロジーを定義する。 各家族に対して,ディープラーニングに基づく既存アプローチを体系的にレビューする。 最後に,提案手法が予測やモデリングの側面に応用できるシナリオを分析した。

In real-world scenario, many phenomena produce a collection of events that occur in continuous time. Point Processes provide a natural mathematical framework for modeling these sequences of events. In this survey, we investigate probabilistic models for modeling event sequences through temporal processes. We revise the notion of event modeling and provide the mathematical foundations that characterize the literature on the topic. We define an ontology to categorize the existing approaches in terms of three families: simple, marked, and spatio-temporal point processes. For each family, we systematically review the existing approaches based based on deep learning. Finally, we analyze the scenarios where the proposed techniques can be used for addressing prediction and modeling aspects.
翻訳日:2023-07-24 16:07:42 公開日:2023-07-21
# 符号付き距離関数を用いた医用画像分割のためのスコアベース生成モデル

Score-Based Generative Models for Medical Image Segmentation using Signed Distance Functions ( http://arxiv.org/abs/2303.05966v2 )

ライセンス: Link先を確認
Lea Bogensperger, Dominik Narnhofer, Filip Ilic, Thomas Pock(参考訳) 医用画像のセグメンテーションは、医用画像の関心領域を正確に識別し、分離する能力に依存する重要な課題である。 これにより、生成的アプローチにより、各構造に依存するセグメンテーションマスクの統計的性質を捉えることができる。 本研究では,符号付き距離関数(sdf)を表現するための条件付きスコアに基づく生成モデリングフレームワークを提案する。 SDFを利用する利点は、二元マスクに比べて、より自然な歪みである。 sdfsの条件分布のスコア関数を学習することにより,セグメンテーションマスクの分布から精度良くサンプリングすることができ,統計量の評価が可能となる。 したがって、この確率的表現は分散によって表される不確かさ写像の生成を可能にし、さらなる分析と予測ロバスト性の向上に役立つ。 提案手法の核・腺分節データセットにおける競合性能を質的,定量的に検証し,医用画像の分節への応用の可能性を明らかにする。

Medical image segmentation is a crucial task that relies on the ability to accurately identify and isolate regions of interest in medical images. Thereby, generative approaches allow to capture the statistical properties of segmentation masks that are dependent on the respective structures. In this work we propose a conditional score-based generative modeling framework to represent the signed distance function (SDF) leading to an implicit distribution of segmentation masks. The advantage of leveraging the SDF is a more natural distortion when compared to that of binary masks. By learning the score function of the conditional distribution of SDFs we can accurately sample from the distribution of segmentation masks, allowing for the evaluation of statistical quantities. Thus, this probabilistic representation allows for the generation of uncertainty maps represented by the variance, which can aid in further analysis and enhance the predictive robustness. We qualitatively and quantitatively illustrate competitive performance of the proposed method on a public nuclei and gland segmentation data set, highlighting its potential utility in medical image segmentation applications.
翻訳日:2023-07-24 16:07:33 公開日:2023-07-21
# 決定推定係数による$\gamma$-regretの厳密な境界

Tight Bounds for $\gamma$-Regret via the Decision-Estimation Coefficient ( http://arxiv.org/abs/2303.03327v2 )

ライセンス: Link先を確認
Margalit Glasgow and Alexander Rakhlin(参考訳) 本研究では、任意の構造化バンドイット問題に対する$\gamma$-regretの統計的特徴を与えるが、これは、$\gamma$-regretが最適解の$\gamma$のベンチマークと比較した場合に生じる後悔である。 $\gamma$-regret は、関数クラス $\mathcal{F}$ 上の構造化バンディット問題に現れ、$f \in \mathcal{F}$ の正確な最適値を見つけることは難解である。 我々の特徴付けは、foster et al., 2023の制約付き決定推定係数 (dec) の修正である$\mathcal{f}$ の統計複雑性パラメータである $\gamma$-dec の項で与えられる(そして、foster et al., 2021 のオリジナルのオフセット dec と密接に関連している)。 我々の下限は、$\gamma$-DEC が任意のモデルクラス $\mathcal{F}$ の基本極限であることを示している: 任意のアルゴリズムに対して、ある $f \in \mathcal{F}$ が存在し、そのアルゴリズムの $\gamma$-regret は $\mathcal{F}$ の $\gamma$-DEC と(ほぼ)スケールする。 我々は、ほぼ一致する$\gamma$-regretとなるアルゴリズムが存在することを示す上界を提供する。 DECの先行結果を$\gamma$-regretのケースに適用する上で大きな課題があるため、我々の下限と上限はどちらも新しい手法と新しいアルゴリズムを必要とする。

In this work, we give a statistical characterization of the $\gamma$-regret for arbitrary structured bandit problems, the regret which arises when comparing against a benchmark that is $\gamma$ times the optimal solution. The $\gamma$-regret emerges in structured bandit problems over a function class $\mathcal{F}$ where finding an exact optimum of $f \in \mathcal{F}$ is intractable. Our characterization is given in terms of the $\gamma$-DEC, a statistical complexity parameter for the class $\mathcal{F}$, which is a modification of the constrained Decision-Estimation Coefficient (DEC) of Foster et al., 2023 (and closely related to the original offset DEC of Foster et al., 2021). Our lower bound shows that the $\gamma$-DEC is a fundamental limit for any model class $\mathcal{F}$: for any algorithm, there exists some $f \in \mathcal{F}$ for which the $\gamma$-regret of that algorithm scales (nearly) with the $\gamma$-DEC of $\mathcal{F}$. We provide an upper bound showing that there exists an algorithm attaining a nearly matching $\gamma$-regret. Due to significant challenges in applying the prior results on the DEC to the $\gamma$-regret case, both our lower and upper bounds require novel techniques and a new algorithm.
翻訳日:2023-07-24 16:07:15 公開日:2023-07-21
# 物理ノイズレス線形増幅器を用いた長距離連続可変量子鍵分布

Long-distance continuous-variable quantum key distribution with feasible physical noiseless linear amplifiers ( http://arxiv.org/abs/2305.10976v2 )

ライセンス: Link先を確認
Michele N. Notarnicola and Stefano Olivares(参考訳) ノイズレス線形増幅器(NLA)は、非単位整合効率の現実的なセットアップの存在下で、長距離連続可変量子鍵分布(CV-QKD)を実現する強力なツールを提供する。 現実的な物理NLA、すなわち量子ハサミ(QS)と単光子触媒(SPC)を用いて実装されたNLA支援CV-QKDプロトコルに対処し、その性能を理想的NLA$g^{\hat{n}}$と比較する。 また、非効率な条件検出に対する2つのスキームの堅牢性についても検討し、NLAに関連する利得が固定または最適化される2つの代替シナリオについて考察する。

Noiseless linear amplifiers (NLAs) provide a powerful tool to achieve long-distance continuous-variable quantum key distribution (CV-QKD) in the presence of realistic setups with non unit reconciliation efficiency. We address a NLA-assisted CV-QKD protocol implemented via realistic physical NLAs, namely, quantum scissors (QS) and single-photon catalysis (SPC), and compare their performance with respect to the ideal NLA $g^{\hat{n}}$. We investigate also the robustness of two schemes against inefficient conditional detection, and discuss the two alternative scenarios in which the gain associated with the NLA is either fixed or optimized.
翻訳日:2023-07-24 16:00:59 公開日:2023-07-21
# 畳み込みとして表される境界を持つウィグナー関数ダイナミクス

Wigner function dynamics with boundaries expressed as convolution ( http://arxiv.org/abs/2304.14928v3 )

ライセンス: Link先を確認
S. S. Seidov(参考訳) 本稿では,無限量子井戸における粒子のウィグナー関数のダイナミクスの探索法を開発した。 計算不能な壁からの反射の問題から始め、得られた解は任意の次元において無限の井戸に閉じ込められた粒子の場合に一般化される。 量子力学の位相空間の定式化における境界値問題は驚くほど難しいことが知られている。 この合併症は、ウィグナー関数の計算にかかわる表現の非局所性から生じる。 このような問題を扱ういくつかの方法が提案された。 それらはかなり複雑でエキゾチックであり、例えばディラックデルタ関数の微分に比例する運動エネルギーの補正を含む。 解析的視点と数値計算の両面から,本手法による提案はより単純である。 解は、井戸の形状によって定義されるある種の関数を持つ自由粒子溶液の畳み込みの形に導かれる。 この手順には積分の計算が必要であり、解析的および数値的手法が開発されている。

In the present paper a method of finding the dynamics of the Wigner function of a particle in an infinite quantum well is developed. Starting with the problem of a reflection from an impenetrable wall, the obtained solution is then generalized to the case of a particle confined in an infinite well in arbitrary dimensions. It is known, that boundary value problems in the phase space formulation of the quantum mechanics are surprisingly tricky. The complications arise from nonlocality of the expression involved in calculation of the Wigner function. Several ways of treating such problems were proposed. They are rather complicated and even exotic, involving, for example, corrections to the kinetic energy proportional to the derivatives of the Dirac delta--function. The presented in the manuscript approach is simpler both from analytical point of view and regarding numerical calculation. The solution is brought to a form of convolution of the free particle solution with some function, defined by the shape of the well. This procedure requires calculation of an integral, which can be done by developed analytical and numerical methods.
翻訳日:2023-07-24 16:00:47 公開日:2023-07-21
# VERITE:一様バイアスに対するマルチモーダル誤情報検出会計のためのロバストベンチマーク

VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias ( http://arxiv.org/abs/2304.14133v2 )

ライセンス: Link先を確認
Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis(参考訳) マルチメディアコンテンツは、ソーシャルメディアプラットフォーム上で広く普及し、マルチモーダル誤報(MM)の台頭と、その拡散を検知し防止するための効果的な戦略の急激な要求につながっている。 近年、マルチモーダル誤情報検出(mmd)の課題は研究者から大きな注目を集め、主に注釈付き、弱い注釈付き、あるいは合成的に生成されたトレーニングデータセットの作成や、様々なディープラーニングmmdモデルの開発に関わってきた。 しかし、mmdベンチマークにおけるユニモーダルバイアスの問題は、バイアスやユニモーダルのメソッドが本質的にマルチモーダルなタスクでマルチモーダルのメソッドよりも優れています。 本研究では,広く使用されているmmdベンチマーク(vmu-twitter,cosmos)におけるユニモーダルバイアスの存在を体系的に調査し,信頼性の高い評価に適することへの懸念を提起する。 この問題に対処するために,実世界データを取り入れたmmdのための「画像テキストペアの検証」(verite)ベンチマークを導入し,「非対称マルチモーダル情報」を除外し,「モダリティバランス」を利用する。 我々は,ユニモーダルバイアスに対して verite が効果的に対処できることを示すトランスフォーマティブベースのアーキテクチャとの比較研究を行い,mmd に対する堅牢な評価フレームワークとした。 さらに,正規画像と偽人書き字幕との相互関係を保存したリアルな合成訓練データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。 トレーニングプロセスでCHASMAを活用することで、VERITEにおける予測性能の一貫性と顕著な改善が観察され、精度は9.2%向上した。 https://github.com/stevejpapad/image-text-verification

Multimedia content has become ubiquitous on social media platforms, leading to the rise of multimodal misinformation (MM) and the urgent need for effective strategies to detect and prevent its spread. In recent years, the challenge of multimodal misinformation detection (MMD) has garnered significant attention by researchers and has mainly involved the creation of annotated, weakly annotated, or synthetically generated training datasets, along with the development of various deep learning MMD models. However, the problem of unimodal bias in MMD benchmarks -- where biased or unimodal methods outperform their multimodal counterparts on an inherently multimodal task -- has been overlooked. In this study, we systematically investigate and identify the presence of unimodal bias in widely-used MMD benchmarks (VMU-Twitter, COSMOS), raising concerns about their suitability for reliable evaluation. To address this issue, we introduce the "VERification of Image-TExtpairs" (VERITE) benchmark for MMD which incorporates real-world data, excludes "asymmetric multimodal misinformation" and utilizes "modality balancing". We conduct an extensive comparative study with a Transformer-based architecture that shows the ability of VERITE to effectively address unimodal bias, rendering it a robust evaluation framework for MMD. Furthermore, we introduce a new method -- termed Crossmodal HArd Synthetic MisAlignment (CHASMA) -- for generating realistic synthetic training data that preserve crossmodal relations between legitimate images and false human-written captions. By leveraging CHASMA in the training process, we observe consistent and notable improvements in predictive performance on VERITE; with a 9.2% increase in accuracy. We release our code at: https://github.com/stevejpapad/image-text-verification
翻訳日:2023-07-24 16:00:30 公開日:2023-07-21
# パラメータ誘導チャネルアテンションを用いたニューラルPDE解の学習

Learning Neural PDE Solvers with Parameter-Guided Channel Attention ( http://arxiv.org/abs/2304.14118v2 )

ライセンス: Link先を確認
Makoto Takamoto, Francesco Alesiani, and Mathias Niepert(参考訳) 科学機械学習(SciML)は、偏微分方程式(PDE)によって制御される物理系の学習エミュレータの開発に関係している。 天気予知、分子動力学、逆設計といったアプリケーション領域では、MLベースのサロゲートモデルは非効率でしばしば微分不可能な数値シミュレーションアルゴリズムの強化や置き換えにますます利用されている。 PDEの解を近似するMLベースの方法が近年提案されているが、一般的にはPDEのパラメータに適応せず、トレーニング中に見られないPDEパラメータに一般化することが困難である。 本稿では,ニューラルサロゲートモデルのためのPDEパラメータ埋め込み(CAPE)コンポーネントでガイドされるチャネルアテンション機構と,シンプルで効果的なカリキュラム学習戦略を提案する。 CAPEモジュールは、未知のPDEパラメータに適応できるように、ニューラルPDEソルバと組み合わせることができる。 カリキュラム学習戦略は、教師強制と完全自己回帰トレーニングのシームレスな移行を提供する。 一般的なPDEベンチマークを用いたカリキュラム学習戦略と組み合わせてCAPEを比較し,ベースラインモデルよりも一貫した,重要な改善点を得た。 実験では、推論時間やパラメータ数を大きく増加させることなく、PDEパラメータに一般化する能力の増大など、CAPEのいくつかの利点も示している。

Scientific Machine Learning (SciML) is concerned with the development of learned emulators of physical systems governed by partial differential equations (PDE). In application domains such as weather forecasting, molecular dynamics, and inverse design, ML-based surrogate models are increasingly used to augment or replace inefficient and often non-differentiable numerical simulation algorithms. While a number of ML-based methods for approximating the solutions of PDEs have been proposed in recent years, they typically do not adapt to the parameters of the PDEs, making it difficult to generalize to PDE parameters not seen during training. We propose a Channel Attention mechanism guided by PDE Parameter Embeddings (CAPE) component for neural surrogate models and a simple yet effective curriculum learning strategy. The CAPE module can be combined with neural PDE solvers allowing them to adapt to unseen PDE parameters. The curriculum learning strategy provides a seamless transition between teacher-forcing and fully auto-regressive training. We compare CAPE in conjunction with the curriculum learning strategy using a popular PDE benchmark and obtain consistent and significant improvements over the baseline models. The experiments also show several advantages of CAPE, such as its increased ability to generalize to unseen PDE parameters without large increases inference time and parameter count.
翻訳日:2023-07-24 15:59:56 公開日:2023-07-21
# クラスタ割り当ての対比によるディープマルチビュークラスタリング

Deep Multiview Clustering by Contrasting Cluster Assignments ( http://arxiv.org/abs/2304.10769v3 )

ライセンス: Link先を確認
Jie Chen, Hua Mao, Wai Lok Woo, and Xi Peng(参考訳) マルチビュークラスタリング(MVC)は、データサンプルをクラスタに分類することで、マルチビューデータの基盤構造を明らかにすることを目的としている。 ディープラーニングベースの手法は、大規模データセットに強力な特徴学習能力を示す。 既存の多くのディープMVCメソッドでは、複数のビューの不変表現を探索することは、いまだに難解な問題である。 本稿では,複数ビュー間のクラスタ割り当てを対比することにより,ビュー不変表現を学習し,クラスタリング結果を生成するクロスビューコントラスト学習(cvcl)手法を提案する。 具体的には、まず、事前学習段階におけるビュー依存の特徴を抽出するために、ディープオートエンコーダを用いる。 次に、クラスタレベルのCVCL戦略を示し、微調整段階における複数のビュー間の一貫性のあるセマンティックラベル情報を探索する。 そこで,提案手法は,この学習戦略を活かして,より識別的なクラスタ割り当てを生成することができる。 さらに,ソフトクラスタ割り当てアライメントの理論解析を行う。 複数のデータセットで得られた広範囲な実験結果から,提案手法が最先端手法よりも優れていることが示された。

Multiview clustering (MVC) aims to reveal the underlying structure of multiview data by categorizing data samples into clusters. Deep learning-based methods exhibit strong feature learning capabilities on large-scale datasets. For most existing deep MVC methods, exploring the invariant representations of multiple views is still an intractable problem. In this paper, we propose a cross-view contrastive learning (CVCL) method that learns view-invariant representations and produces clustering results by contrasting the cluster assignments among multiple views. Specifically, we first employ deep autoencoders to extract view-dependent features in the pretraining stage. Then, a cluster-level CVCL strategy is presented to explore consistent semantic label information among the multiple views in the fine-tuning stage. Thus, the proposed CVCL method is able to produce more discriminative cluster assignments by virtue of this learning strategy. Moreover, we provide a theoretical analysis of soft cluster assignment alignment. Extensive experimental results obtained on several datasets demonstrate that the proposed CVCL method outperforms several state-of-the-art approaches.
翻訳日:2023-07-24 15:59:20 公開日:2023-07-21
# テキストレコメンデーションのための編集可能なユーザプロファイル

Editable User Profiles for Controllable Text Recommendation ( http://arxiv.org/abs/2304.04250v2 )

ライセンス: Link先を確認
Sheshera Mysore, Mahmood Jasim, Andrew McCallum, Hamed Zamani(参考訳) 高品質なレコメンデーションを行う方法は、しばしば相互作用データから潜在表現を学ぶことに依存している。 これらのメソッドは、performantだが、ユーザが受信したレコメンデーションを制御するための準備されたメカニズムを提供していない。 我々の研究は、制御可能なテキストレコメンデーションのための新しい概念価値ボトルネックモデルであるLACEを提案し、この問題に対処する。 LACEは、ユーザが操作した文書を検索し、ユーザ文書に基づいて概念のパーソナライズされた表現を学ぶことによって、簡潔な人間可読概念のセットでユーザを表現する。 このコンセプトに基づくユーザープロフィールは、レコメンデーションに活用される。 モデルの設計は,透過的なユーザプロファイルとの直感的な対話を通じて,レコメンデーションを制御できる。 まず、ウォームスタート、コールドスタート、ゼロショット設定の6つのデータセットにまたがる3つのレコメンデーションタスクのオフライン評価において、LACEから得られるレコメンデーションの品質を確立する。 次に,ユーザインタラクションシミュレーションによるlaceの制御性を検証する。 最後に,対話型制御可能なレコメンデーションシステムにLACEを実装し,ユーザが編集可能なユーザプロファイルとのインタラクションを通じて,レコメンデーションの質を向上させることができることを示す。

Methods for making high-quality recommendations often rely on learning latent representations from interaction data. These methods, while performant, do not provide ready mechanisms for users to control the recommendation they receive. Our work tackles this problem by proposing LACE, a novel concept value bottleneck model for controllable text recommendations. LACE represents each user with a succinct set of human-readable concepts through retrieval given user-interacted documents and learns personalized representations of the concepts based on user documents. This concept based user profile is then leveraged to make recommendations. The design of our model affords control over the recommendations through a number of intuitive interactions with a transparent user profile. We first establish the quality of recommendations obtained from LACE in an offline evaluation on three recommendation tasks spanning six datasets in warm-start, cold-start, and zero-shot setups. Next, we validate the controllability of LACE under simulated user interactions. Finally, we implement LACE in an interactive controllable recommender system and conduct a user study to demonstrate that users are able to improve the quality of recommendations they receive through interactions with an editable user profile.
翻訳日:2023-07-24 15:59:02 公開日:2023-07-21
# 支配のマトリックスを決定づける:AIフェアネスにおける間欠性の批判的レビューと再想像

Factoring the Matrix of Domination: A Critical Review and Reimagination of Intersectionality in AI Fairness ( http://arxiv.org/abs/2303.17555v2 )

ライセンス: Link先を確認
Anaelia Ovalle, Arjun Subramonian, Vagrant Gautam, Gilbert Gee, Kai-Wei Chang(参考訳) 交叉性(intersectionality)は、調査とpraxisを通じて、構造と規律のドメインを通じて社会的不平等がいかに持続するかを検証できる重要なフレームワークである。 AIフェアネスの「フェアネス」の放射率を考えると、分析的な枠組みとして交差性を採用することはフェアネスを効果的に運用するために重要であると我々は主張する。 AIフェアネス文学の30の論文において、交叉性がどのように議論されるかという批判的なレビューを通じて、私たちは誘惑的に、帰納的に。 1)AIフェアネスパラダイム内での交差性テレットの運用方法のマップ化 2)交差性の概念化と運用化のギャップを明らかにする。 研究者らは、集団的サブグループよりも公平な指標を最適化するために、圧倒的に交差性を減らしている。 また、彼らの社会的状況についても議論せず、権力について言及する場合、主にAIパイプライン内でのみ議論する。 私たち 3)批判的調査・実施におけるこれらのギャップの影響の概要と評価 4)AIフェアネス研究者に対して,AI認識学に基礎を置くことで,作業の交差性に関わるための行動可能なレコメンデーションを提供する。

Intersectionality is a critical framework that, through inquiry and praxis, allows us to examine how social inequalities persist through domains of structure and discipline. Given AI fairness' raison d'etre of "fairness", we argue that adopting intersectionality as an analytical framework is pivotal to effectively operationalizing fairness. Through a critical review of how intersectionality is discussed in 30 papers from the AI fairness literature, we deductively and inductively: 1) map how intersectionality tenets operate within the AI fairness paradigm and 2) uncover gaps between the conceptualization and operationalization of intersectionality. We find that researchers overwhelmingly reduce intersectionality to optimizing for fairness metrics over demographic subgroups. They also fail to discuss their social context and when mentioning power, they mostly situate it only within the AI pipeline. We: 3) outline and assess the implications of these gaps for critical inquiry and praxis, and 4) provide actionable recommendations for AI fairness researchers to engage with intersectionality in their work by grounding it in AI epistemology.
翻訳日:2023-07-24 15:58:42 公開日:2023-07-21
# 野生生物の自動画像分類:生態学応用のためのアクティブラーニングツール

Automated wildlife image classification: An active learning tool for ecological applications ( http://arxiv.org/abs/2303.15823v2 )

ライセンス: Link先を確認
Ludwig Bothmann, Lisa Wimmer, Omid Charrakh, Tobias Weber, Hendrik Edelhoff, Wibke Peters, Hien Nguyen, Caryl Benjamin, Annette Menzel(参考訳) 野生生物のカメラトラップ画像は、動物の存在、生息地の関連、行動を調べるために広く使われており、専門家がまず手動で分類しなければならないという事実によって複雑である。 人工知能システムは、このタスクを引き継ぐことができるが、通常は十分なパフォーマンスを達成するために、既にラベル付けされた多数のトレーニングイメージを必要とする。 この要件は、人間の専門家の労力を必要とし、カメラや短い期間のプロジェクトにとって特別な課題となる。 本研究では,中小規模の画像データベースを用いた研究者が現代の機械学習の可能性を活用できるようなラベル効率の高い学習戦略を提案する。 提案手法は,(1)物体検出と画像分類を両モデルのハイパーパラメータの調整により組み合わせる現在の戦略を改善する。 2)人間ラベルトレーニング画像を用いて,ディープラーニングモデルのトレーニングを極めて効率的に行うことができるアクティブラーニング(al)システムを提供する。 我々は,これらの手法を直接利用して,提案手法が生態学的実践において広く適用可能であることを保証するソフトウェアパッケージを提供する。 チューニング戦略が予測性能を向上させることを示す。 我々は、ALパイプラインが特定の予測性能を達成するのに必要なラベル付きデータの量を減らし、特にサンプル外予測性能を改善する上で価値があることを実証する。 チューニングとalの組み合わせは予測性能を大幅に向上させると結論づけた。 さらに、当社の作業は、提供済みのソフトウェアパッケージを通じて、コミュニティに幅広い影響を及ぼす可能性があると論じています。 最後に、欧州の野生動物データに合わせたモデルを公開することで、アフリカと北米のデータに基づいてトレーニングされた既存のモデルベースを豊かにします。

Wildlife camera trap images are being used extensively to investigate animal abundance, habitat associations, and behavior, which is complicated by the fact that experts must first classify the images manually. Artificial intelligence systems can take over this task but usually need a large number of already-labeled training images to achieve sufficient performance. This requirement necessitates human expert labor and poses a particular challenge for projects with few cameras or short durations. We propose a label-efficient learning strategy that enables researchers with small or medium-sized image databases to leverage the potential of modern machine learning, thus freeing crucial resources for subsequent analyses. Our methodological proposal is two-fold: (1) We improve current strategies of combining object detection and image classification by tuning the hyperparameters of both models. (2) We provide an active learning (AL) system that allows training deep learning models very efficiently in terms of required human-labeled training images. We supply a software package that enables researchers to use these methods directly and thereby ensure the broad applicability of the proposed framework in ecological practice. We show that our tuning strategy improves predictive performance. We demonstrate how the AL pipeline reduces the amount of pre-labeled data needed to achieve a specific predictive performance and that it is especially valuable for improving out-of-sample predictive performance. We conclude that the combination of tuning and AL increases predictive performance substantially. Furthermore, we argue that our work can broadly impact the community through the ready-to-use software package provided. Finally, the publication of our models tailored to European wildlife data enriches existing model bases mostly trained on data from Africa and North America.
翻訳日:2023-07-24 15:58:23 公開日:2023-07-21
# マルチエージェント学習におけるリワードシェイピングによる文脈情報の埋め込み:Google Footballを事例として

Embedding Contextual Information through Reward Shaping in Multi-Agent Learning: A Case Study from Google Football ( http://arxiv.org/abs/2303.15471v3 )

ライセンス: Link先を確認
Chaoyi Gu, Varuna De Silva, Corentin Artaud, Rafael Pina(参考訳) 人工知能は、意思決定や手作業の置き換えのために最適化された戦略を提供することによって、複雑な環境で人間の困難なタスクを完遂するのに役立つ。 サッカーのような複数のエージェントを含む環境では、エージェントを訓練する最も一般的な方法は模倣学習とマルチエージェント強化学習(marl)である。 しかし、イミテーション・ラーニングによって訓練されたエージェントは、専門家のデモレーターを上回り得ないため、学習方針から新たな洞察を得られることはほとんどない。 さらに、marlはクレジット割り当ての問題に陥りやすい。 スパース報酬信号を持つ環境では、この方法は非効率である。 本研究の目的は、上記の課題を解決するために、報酬関数に文脈情報を埋め込むことにより、新たな報酬形成手法を作ることである。 Google Research Football (GRF) 環境でこれを実証する。 ゲーム状態観測から抽出した文脈情報を定量化し、この定量化と元のスパース報酬を併用して、形状の報酬を生成する。 GRF環境における実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最先端のMARLアルゴリズムに,報奨形状法が有用であることを証明した。

Artificial Intelligence has been used to help human complete difficult tasks in complicated environments by providing optimized strategies for decision-making or replacing the manual labour. In environments including multiple agents, such as football, the most common methods to train agents are Imitation Learning and Multi-Agent Reinforcement Learning (MARL). However, the agents trained by Imitation Learning cannot outperform the expert demonstrator, which makes humans hardly get new insights from the learnt policy. Besides, MARL is prone to the credit assignment problem. In environments with sparse reward signal, this method can be inefficient. The objective of our research is to create a novel reward shaping method by embedding contextual information in reward function to solve the aforementioned challenges. We demonstrate this in the Google Research Football (GRF) environment. We quantify the contextual information extracted from game state observation and use this quantification together with original sparse reward to create the shaped reward. The experiment results in the GRF environment prove that our reward shaping method is a useful addition to state-of-the-art MARL algorithms for training agents in environments with sparse reward signal.
翻訳日:2023-07-24 15:57:59 公開日:2023-07-21
# MSKdeX:筋骨格(MSK)のX線像からの分解による筋量および筋容積の微粒化評価

MSKdeX: Musculoskeletal (MSK) decomposition from an X-ray image for fine-grained estimation of lean muscle mass and muscle volume ( http://arxiv.org/abs/2305.19920v2 )

ライセンス: Link先を確認
Yi Gu, Yoshito Otake, Keisuke Uemura, Masaki Takao, Mazen Soufi, Yuta Hiasa, Hugues Talbot, Seiji Okata, Nobuhiko Sugano, Yoshinobu Sato(参考訳) サルコペンタニアやオステオポローシスなどの筋骨格疾患は加齢に伴う健康への大きな障害である。 dxa (d-energy x-ray absorptiometry) とct (ct) は筋骨格状態の評価に使用できるが、コストやアクセシビリティ(ctでは高放射線曝露)のため、頻繁な監視は困難である。 我々は,ctの細粒化を利用した筋骨格の分解を通じて,単純x線画像,低コスト,低放射能,高可視性から細粒度の筋特性を推定する手法(mskdex)を提案する。 本研究では,マルチチャネル定量的画像変換モデルを訓練し,x線像を個々の筋のct像に分解し,筋量と筋容積を推定する。 本研究は,同じ患者から収集したct画像とx線画像の情報を活用し,筋変形と投射方向に対する単純かつ驚くほど有効な測定値である物体方向強度-サム損失を提案する。 本手法は基本的に不対画像変換であるが, 骨の剛性も活用し, 2次元3次元剛性登録によるデータ提供を行い, アンペアトレーニングにおける画素単位の強い監督を行う。 539例の患者データを用いた評価により,提案法が従来の方法を大きく上回ることを示した。 予測値とct由来の基底真理指標の平均ピアソン相関係数は0.460から0.863に増加した。 本手法は,新しい筋骨格診断法を開拓し,多チャンネル定量的画像翻訳タスクに広く応用できる可能性が示唆された。 ソースコードはもうすぐリリースされます。

Musculoskeletal diseases such as sarcopenia and osteoporosis are major obstacles to health during aging. Although dual-energy X-ray absorptiometry (DXA) and computed tomography (CT) can be used to evaluate musculoskeletal conditions, frequent monitoring is difficult due to the cost and accessibility (as well as high radiation exposure in the case of CT). We propose a method (named MSKdeX) to estimate fine-grained muscle properties from a plain X-ray image, a low-cost, low-radiation, and highly accessible imaging modality, through musculoskeletal decomposition leveraging fine-grained segmentation in CT. We train a multi-channel quantitative image translation model to decompose an X-ray image into projections of CT of individual muscles to infer the lean muscle mass and muscle volume. We propose the object-wise intensity-sum loss, a simple yet surprisingly effective metric invariant to muscle deformation and projection direction, utilizing information in CT and X-ray images collected from the same patient. While our method is basically an unpaired image-to-image translation, we also exploit the nature of the bone's rigidity, which provides the paired data through 2D-3D rigid registration, adding strong pixel-wise supervision in unpaired training. Through the evaluation using a 539-patient dataset, we showed that the proposed method significantly outperformed conventional methods. The average Pearson correlation coefficient between the predicted and CT-derived ground truth metrics was increased from 0.460 to 0.863. We believe our method opened up a new musculoskeletal diagnosis method and has the potential to be extended to broader applications in multi-channel quantitative image translation tasks. Our source code will be released soon.
翻訳日:2023-07-24 15:51:01 公開日:2023-07-21
# 離散切断ウィグナー近似における集団放射相互作用

Collective Radiative Interactions in the Discrete Truncated Wigner Approximation ( http://arxiv.org/abs/2305.19829v2 )

ライセンス: Link先を確認
Christopher D. Mink and Michael Fleischhauer(参考訳) 光と物質の界面は、エキサイティングな多体物理学とフォトニック量子技術のためのプラットフォームとして機能する。 サブ波長間隔での原子配列の実験的実現により、スーパーラジアンスのような集団的な相互作用効果が大きな関心を集めている。 しかし、その分析と数値処理は非常に困難である。 ここでは、相互作用スピンのコヒーレントかつ散逸的多体ダイナミクスを、最低次量子揺らぎを考慮しながら記述できる、この問題に対する半古典的アプローチを展開する。 この目的のために、離散切断ウィグナー近似(離散切断ウィグナー近似、英: discrete truncated wigner approximation)は、もともとユニタリ結合スピンのために開発されたもので、切断された対応規則によって集団的、散逸的なスピン過程を含む。 これは原子アンサンブルの力学を半古典的で数値的に安価な確率微分方程式の集合にマッピングする。 提案手法をディック崩壊の場合の正確な結果でベンチマークし,良好な一致を示した。 次に、空間的に拡張された3次元コヒーレント駆動ガス中の超放射能を研究し、量子化された放射場に結合した原子配列のダイナミクスを研究する。 小さな配列の場合、私たちは正確なシミュレーションを比較し、早い段階でも中程度から強い運転でも良い一致を示します。

Interfaces of light and matter serve as a platform for exciting many-body physics and photonic quantum technologies. Due to the recent experimental realization of atomic arrays at sub-wavelength spacings, collective interaction effects such as superradiance have regained substantial interest. Their analytical and numerical treatment is however quite challenging. Here we develop a semiclassical approach to this problem that allows to describe the coherent and dissipative many-body dynamics of interacting spins while taking into account lowest-order quantum fluctuations. For this purpose we extend the discrete truncated Wigner approximation, originally developed for unitarily coupled spins, to include collective, dissipative spin processes by means of truncated correspondence rules. This maps the dynamics of the atomic ensemble onto a set of semiclassical, numerically inexpensive stochastic differential equations. We benchmark our method with exact results for the case of Dicke decay, which shows excellent agreement. We then study superradiance in a spatially extended three-dimensional, coherently driven gas and study the dynamics of atomic arrays coupled to the quantized radiation field. For small arrays we compare to exact simulations, again showing good agreement at early times and at moderate to strong driving.
翻訳日:2023-07-24 15:50:28 公開日:2023-07-21
# セマンティック3次元医用画像合成のための条件拡散モデル

Conditional Diffusion Models for Semantic 3D Medical Image Synthesis ( http://arxiv.org/abs/2305.18453v2 )

ライセンス: Link先を確認
Zolnamar Dorjsembe, Hsing-Kuo Pao, Sodtavilan Odonchimed, Furen Xiao(参考訳) 医療における人工知能(AI)の需要は急速に増加している。 しかし、特に医療画像において、データの不足とプライバシー上の懸念から大きな課題が生じる。 既存の生成モデルは、画像合成と画像間翻訳タスクで成功しているが、3Dセマンティック医療画像の生成には差がある。 このギャップに対処するために、データ不足やプライバシー問題に効果的に取り組むために、セマンティック3次元医用画像合成に特化した拡散モデルであるMed-DDPMを導入する。 Med-DDPMの新規性はセマンティックコンディショニングの導入にあり、画像生成プロセス中に正確な制御を可能にする。 我々のモデルでは,GAN(Generative Adversarial Networks)の安定性と性能に優れ,多彩で解剖学的に整合した画像を生成する。 Med-DDPMは, モデル精度を向上させるためのデータ拡張ツールとしての可能性を強調した。 結論として、Med-DDPMは高品質で解剖学的に整合した画像を提供することにより、3Dセマンティックな医用画像合成を開拓した。 さらに、Med-DDPMとセマンティックコンディショニングの統合は、バイオメディカルイメージングの分野で画像匿名化を約束しており、データの不足やプライバシーに関する問題に対処する上で、モデルの能力を示す。

The demand for artificial intelligence (AI) in healthcare is rapidly increasing. However, significant challenges arise from data scarcity and privacy concerns, particularly in medical imaging. While existing generative models have achieved success in image synthesis and image-to-image translation tasks, there remains a gap in the generation of 3D semantic medical images. To address this gap, we introduce Med-DDPM, a diffusion model specifically designed for semantic 3D medical image synthesis, effectively tackling data scarcity and privacy issues. The novelty of Med-DDPM lies in its incorporation of semantic conditioning, enabling precise control during the image generation process. Our model outperforms Generative Adversarial Networks (GANs) in terms of stability and performance, generating diverse and anatomically coherent images with high visual fidelity. Comparative analysis against state-of-the-art augmentation techniques demonstrates that Med-DDPM produces comparable results, highlighting its potential as a data augmentation tool for enhancing model accuracy. In conclusion, Med-DDPM pioneers 3D semantic medical image synthesis by delivering high-quality and anatomically coherent images. Furthermore, the integration of semantic conditioning with Med-DDPM holds promise for image anonymization in the field of biomedical imaging, showcasing the capabilities of the model in addressing challenges related to data scarcity and privacy concerns.
翻訳日:2023-07-24 15:50:06 公開日:2023-07-21
# ラット対応ビデオ位置予測のためのモーションスセナリオデカップリング:戦略とベンチマーク

Motion-Scenario Decoupling for Rat-Aware Video Position Prediction: Strategy and Benchmark ( http://arxiv.org/abs/2305.18310v2 )

ライセンス: Link先を確認
Xiaofeng Liu, Jiaxin Gao, Yaohua Liu, Risheng Liu and Nenggan Zheng(参考訳) 近年、深層学習技術を用いた人間の行動認識と行動予測において顕著な進歩が見られ、視覚に基づく意味理解が向上した。 しかし、小さなバイオロボティクスのための高品質なモーションデータセットがまだ存在しないため、第三者の観察に基づく長期移動予測と行動制御のためのより困難なシナリオが提示されている。 本研究では,事前定義されたアノテーションルールに基づいて,個人や環境への影響要因を考慮し,生物ロボットの動き予測データセットであるRatPoseを紹介する。 これらの要因に対する動き予測のロバスト性を高めるために、シナリオ指向と動き指向の機能を効果的に分離し、シナリオコントラスト損失とモーションクラスタリング損失を総合訓練のために設計するデュアルストリーム運動分離(\textit{DMSD})フレームワークを提案する。 このような特有なアーキテクチャでは、二重分岐特徴フロー情報が相互作用して補償される。 さらに,難易度が異なるタスクにおいて,提案する‘textit{DMSD} フレームワークの大幅な性能向上を示す。 また,提案するデータセットの一般化能力を検証するために,長期離散軌道予測タスクを実装した。

Recently significant progress has been made in human action recognition and behavior prediction using deep learning techniques, leading to improved vision-based semantic understanding. However, there is still a lack of high-quality motion datasets for small bio-robotics, which presents more challenging scenarios for long-term movement prediction and behavior control based on third-person observation. In this study, we introduce RatPose, a bio-robot motion prediction dataset constructed by considering the influence factors of individuals and environments based on predefined annotation rules. To enhance the robustness of motion prediction against these factors, we propose a Dual-stream Motion-Scenario Decoupling (\textit{DMSD}) framework that effectively separates scenario-oriented and motion-oriented features and designs a scenario contrast loss and motion clustering loss for overall training. With such distinctive architecture, the dual-branch feature flow information is interacted and compensated in a decomposition-then-fusion manner. Moreover, we demonstrate significant performance improvements of the proposed \textit{DMSD} framework on different difficulty-level tasks. We also implement long-term discretized trajectory prediction tasks to verify the generalization ability of the proposed dataset.
翻訳日:2023-07-24 15:49:24 公開日:2023-07-21
# 距離空間と長田次元における$k$-NN則の普遍的整合性。 II年

Universal consistency of the $k$-NN rule in metric spaces and Nagata dimension. II ( http://arxiv.org/abs/2305.17282v2 )

ライセンス: Link先を確認
Sushma Kumari and Vladimir G. Pestov(参考訳) 分離可能な距離空間における近接学習規則の$k$を引き続き検討する。 C\'erou と Guyader (2006) と Preiss (1983) の結果により、この規則は長田の意味でのシグマ有限次元であるすべての計量空間 $X$ において普遍的に整合であることが知られている。 ここで、この規則は結び付きのない空間において強く普遍的に一貫していることを示す。 devroye が適用したタイマーキング戦略では gy\"{o}rfi, krzy\ である。 ユークリッド集合における {z}ak, and Lugosi (1994) は、非アーキメディア計量空間(すなわち、長田次元 0 の空間)において強い普遍的整合性を示す。 C\'erou と Guyader の定理と Assouad と Quentin de Gromard (2006) の結果を組み合わせると、$k$-NN 則はデ・グルートの意味で有限次元の計量空間において普遍的に一貫したものであると推測される。 特に、$k$-nn の規則は、kor\'anyi and reimann (1995) と sawyer and wheeden (1992) によって独立に構築された例から、永田の意味でシグマ有限次元でないハイゼンベルク群において普遍的に一致する。

We continue to investigate the $k$ nearest neighbour learning rule in separable metric spaces. Thanks to the results of C\'erou and Guyader (2006) and Preiss (1983), this rule is known to be universally consistent in every metric space $X$ that is sigma-finite dimensional in the sense of Nagata. Here we show that the rule is strongly universally consistent in such spaces in the absence of ties. Under the tie-breaking strategy applied by Devroye, Gy\"{o}rfi, Krzy\.{z}ak, and Lugosi (1994) in the Euclidean setting, we manage to show the strong universal consistency in non-Archimedian metric spaces (that is, those of Nagata dimension zero). Combining the theorem of C\'erou and Guyader with results of Assouad and Quentin de Gromard (2006), one deduces that the $k$-NN rule is universally consistent in metric spaces having finite dimension in the sense of de Groot. In particular, the $k$-NN rule is universally consistent in the Heisenberg group which is not sigma-finite dimensional in the sense of Nagata as follows from an example independently constructed by Kor\'anyi and Reimann (1995) and Sawyer and Wheeden (1992).
翻訳日:2023-07-24 15:49:02 公開日:2023-07-21
# FSD:ニューラルアーキテクチャサーチによる完全特殊化検出器

FSD: Fully-Specialized Detector via Neural Architecture Search ( http://arxiv.org/abs/2305.16649v4 )

ライセンス: Link先を確認
Zhe Huang and Yudian Li(参考訳) ほとんどのジェネリックオブジェクト検出器は、COCOやPASCAL VOCのような標準オブジェクト検出タスクのために構築されている。 標準的なデータセットと視覚的に異なるイメージからなる他のドメインのタスクでは、うまく動作せず、効率的に動作しないかもしれない。 この目的のために、ドメイン固有の設計に制限のある汎用オブジェクト検出器の適応に多くの進歩が注がれている。 しかし、成功したタスク特異的検出器の設計には、試行錯誤による余計な手動実験とパラメータチューニングが必要となる。 本稿では,バックボーンとタスク固有頭部上の理想的なネットワーク構造を探索することにより,主に神経構造探索モデルを含む完全特殊化検出器(FSD)を設計するための完全自動パイプラインを提案し,検討する。 DeepLesionデータセットでは、FSDは2次病変検出タスクのパラメータを約40%削減しつつ3.1mAPのゲインを達成でき、既存の汎用医学的病変検出ネットワークと比較して、領域認識グラフモデリングによる多型病変検出タスクでは約10%改善した。

Most generic object detectors are mainly built for standard object detection tasks such as COCO and PASCAL VOC. They might not work well and/or efficiently on tasks of other domains consisting of images that are visually different from standard datasets. To this end, many advances have been focused on adapting a general-purposed object detector with limited domain-specific designs. However, designing a successful task-specific detector requires extraneous manual experiments and parameter tuning through trial and error. In this paper, we first propose and examine a fully-automatic pipeline to design a fully-specialized detector (FSD) which mainly incorporates a neural-architectural-searched model by exploring ideal network structures over the backbone and task-specific head. On the DeepLesion dataset, extensive results show that FSD can achieve 3.1 mAP gain while using approximately 40% fewer parameters on binary lesion detection task and improved the mAP by around 10% on multi-type lesion detection task via our region-aware graph modeling compared with existing general-purposed medical lesion detection networks.
翻訳日:2023-07-24 15:48:30 公開日:2023-07-21
# あなたのモデルは"MADD"ですか? 予測的学生モデルのためのアルゴリズムフェアネス評価手法の提案

Is Your Model "MADD"? A Novel Metric to Evaluate Algorithmic Fairness for Predictive Student Models ( http://arxiv.org/abs/2305.15342v2 )

ライセンス: Link先を確認
M\'elina Verger, S\'ebastien Lall\'e, Fran\c{c}ois Bouchet, Vanda Luengo(参考訳) 予測学習モデルは,教育成果の向上や利害関係者の支援などにより,学習環境においてますます活用されている。 しかし、予測モデルは偏りがあり、不公平な結果をもたらし、一部の学生に対する潜在的な差別と潜在的に有害な長期的影響をもたらす可能性がある。 このことは、そのようなバイアスを捕捉し定量化するための公正度メトリクスの研究を促している。 それにもかかわらず、教育で使われる既存の公平度指標は予測パフォーマンス指向であり、モデルの振る舞いや結果のバイアスの深刻さを考慮せずに、学生のグループ間での偏りのある結果を評価することに焦点を当てている。 そこで本研究では,予測性能から独立してモデルの識別行動を分析するために,モデル絶対密度距離(MADD)を提案する。 また,モデルが学生のグループ間でどのように区別されるかの詳細な人的評価を可能にするために,補完的な可視化に基づく分析も提供する。 オープン教育データセット上での予測分類モデルを用いて,オンラインコースにおける学生成功予測の共通課題に対するアプローチを評価した。 また、教育で開発された唯一の予測パフォーマンス指向公正度指標であるabrocaと比較した。 その結果,(1)公平な予測性能は,公平なモデルの行動を保証するものではない,(2)データバイアスと予測パフォーマンスバイアスと識別行動バイアスの間に直接的な関係がない,(3)同じデータで訓練されたモデルでは,異なる敏感な特徴によって異なる識別行動を示す,という結果が得られた。 そこで我々は,予測性能を満足するモデル上でMADDを使用することで,モデル選択とその使用方法のより詳細な理解を得ることを推奨する。

Predictive student models are increasingly used in learning environments due to their ability to enhance educational outcomes and support stakeholders in making informed decisions. However, predictive models can be biased and produce unfair outcomes, leading to potential discrimination against some students and possible harmful long-term implications. This has prompted research on fairness metrics meant to capture and quantify such biases. Nonetheless, so far, existing fairness metrics used in education are predictive performance-oriented, focusing on assessing biased outcomes across groups of students, without considering the behaviors of the models nor the severity of the biases in the outcomes. Therefore, we propose a novel metric, the Model Absolute Density Distance (MADD), to analyze models' discriminatory behaviors independently from their predictive performance. We also provide a complementary visualization-based analysis to enable fine-grained human assessment of how the models discriminate between groups of students. We evaluate our approach on the common task of predicting student success in online courses, using several common predictive classification models on an open educational dataset. We also compare our metric to the only predictive performance-oriented fairness metric developed in education, ABROCA. Results on this dataset show that: (1) fair predictive performance does not guarantee fair models' behaviors and thus fair outcomes, (2) there is no direct relationship between data bias and predictive performance bias nor discriminatory behaviors bias, and (3) trained on the same data, models exhibit different discriminatory behaviors, according to different sensitive features too. We thus recommend using the MADD on models that show satisfying predictive performance, to gain a finer-grained understanding on how they behave and to refine models selection and their usage.
翻訳日:2023-07-24 15:48:12 公開日:2023-07-21
# 無線ネットワーク上の非同期多モデル動的フェデレーション学習:理論,モデリング,最適化

Asynchronous Multi-Model Dynamic Federated Learning over Wireless Networks: Theory, Modeling, and Optimization ( http://arxiv.org/abs/2305.13503v2 )

ライセンス: Link先を確認
Zhan-Lun Chang, Seyyedali Hosseinalipour, Mung Chiang, Christopher G. Brinton(参考訳) federated learning(fl)は、分散機械学習(ml)の鍵となるテクニックとして登場した。 FLに関するほとんどの文献はMLモデルのトレーニングに重点を置いている (i)一つのタスク/モデル (ii)モデルパラメータのアップリンク/ダウンリンク転送のための同期スキーム、 (iii)デバイス間での静的なデータ分散の設定。 これらの仮定は、実際のfl環境で発生する条件をよく表さないことが多い。 そこで我々は,複数の下流タスクを伴う動的FLを非同期モデル伝送アーキテクチャ上でトレーニングするDMA-FLを開発した。 まず,DMA-FL下でのMLモデルトレーニングの収束を,機器のスケジューリングを捉えるために,テンソルと矩形関数のファミリーを導入して特徴付ける。 我々の収束分析は、資源配分、デバイススケジューリング、および個々のモデル状態がMLモデルの性能に与える影響に光を当てる。 次に,資源割当とデバイススケジューリングを共同で構成する非凸混合整数最適化問題を定式化し,エネルギー消費とml性能の効率的なトレードオフを実現する。 定常点への収束保証を伴う連続凸近似を用いた解法を開発した。 数値シミュレーションにより,dma-flの利点をモデル性能とネットワーク資源節約の観点から明らかにする。

Federated learning (FL) has emerged as a key technique for distributed machine learning (ML). Most literature on FL has focused on ML model training for (i) a single task/model, with (ii) a synchronous scheme for uplink/downlink transfer of model parameters, and (iii) a static data distribution setting across devices. These assumptions are often not well representative of conditions encountered in practical FL environments. To address this, we develop DMA-FL, which considers dynamic FL with multiple downstream tasks to be trained over an asynchronous model transmission architecture. We first characterize the convergence of ML model training under DMA-FL via introducing a family of scheduling tensors and rectangular functions to capture the scheduling of devices. Our convergence analysis sheds light on the impact of resource allocation, device scheduling, and individual model states on the performance of ML models. We then formulate a non-convex mixed integer optimization problem for jointly configuring the resource allocation and device scheduling to strike an efficient trade-off between energy consumption and ML performance. We develop a solution methodology employing successive convex approximations with convergence guarantee to a stationary point. Through numerical simulations, we reveal the advantages of DMA-FL in terms of model performance and network resource savings.
翻訳日:2023-07-24 15:47:42 公開日:2023-07-21
# マルチタスク学習による抽出要約のコヒーレンス向上

Enhancing Coherence of Extractive Summarization with Multitask Learning ( http://arxiv.org/abs/2305.12851v2 )

ライセンス: Link先を確認
Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 本研究では,コヒーレンス向上を伴う抽出要約のためのマルチタスク学習アーキテクチャを提案する。 アーキテクチャは、抽出要約器とコヒーレント判別モジュールを含む。 このコヒーレント判別器は、拡張テキスト入力の文ベクトルに基づいてオンラインで訓練され、入力文がコヒーレントかどうかを判定する一般的な能力を向上させる。 一方,要約者のパラメータを更新することにより,コヒーレント判別器からのコヒーレントスコアを最大化する。 抽出文を異なる方法で訓練できるようにするため,事前学習された変換モデル(モデルベース)と,文章表現をマージする変換行列(MATベース)の2つの戦略を導入する。 実験の結果,提案手法は,抽出した要約中の連続文の割合を原文の位置(すなわち,自動文レベルのコヒーレンス尺度)に基づいて有意に改善し,他の自動指標(ルージュスコア,ベルトスコア)の良さが保存されていることがわかった。 また,人間の評価は,抽出した要約の一貫性と一貫性の向上を実証している。

This study proposes a multitask learning architecture for extractive summarization with coherence boosting. The architecture contains an extractive summarizer and coherent discriminator module. The coherent discriminator is trained online on the sentence vectors of the augmented textual input, thus improving its general ability of judging whether the input sentences are coherent. Meanwhile, we maximize the coherent scores from the coherent discriminator by updating the parameters of the summarizer. To make the extractive sentences trainable in a differentiable manner, we introduce two strategies, including pre-trained converting model (model-based) and converting matrix (MAT-based) that merge sentence representations. Experiments show that our proposed method significantly improves the proportion of consecutive sentences in the extracted summaries based on their positions in the original article (i.e., automatic sentence-level coherence metric), while the goodness in terms of other automatic metrics (i.e., Rouge scores and BertScores) are preserved. Human evaluation also evidences the improvement of coherence and consistency of the extracted summaries given by our method.
翻訳日:2023-07-24 15:47:25 公開日:2023-07-21
# サウンドデミックスチャレンジ2023 music demixing track technical report: tfc-tdf-unet v3

Sound Demixing Challenge 2023 Music Demixing Track Technical Report: TFC-TDF-UNet v3 ( http://arxiv.org/abs/2306.09382v3 )

ライセンス: Link先を確認
Minseok Kim, Jun Hyung Lee, Soonyoung Jung(参考訳) 本報告では,2023年の音楽デミキシング・チャレンジの音楽デミキシング・トラックの受賞ソリューションについて述べる。 まずtfc-tdf-unet v3を提案する。musedbベンチマークで最新の結果を得るための,時間効率の高い音楽ソース分離モデルである。 次に、ノイズロバストトレーニングの損失マスキングアプローチを含む、各リーダボードに対するソリューションに関する詳細を述べます。 モデルトレーニングと最終提案を再現するコードはgithub.com/kuielab/sdx23で入手できる。

In this report, we present our award-winning solutions for the Music Demixing Track of Sound Demixing Challenge 2023. First, we propose TFC-TDF-UNet v3, a time-efficient music source separation model that achieves state-of-the-art results on the MUSDB benchmark. We then give full details regarding our solutions for each Leaderboard, including a loss masking approach for noise-robust training. Code for reproducing model training and final submissions is available at github.com/kuielab/sdx23.
翻訳日:2023-07-24 15:41:33 公開日:2023-07-21
# IsoEx: イベントログのサイバー調査を処理するための説明不能なアプローチ

IsoEx: an explainable unsupervised approach to process event logs cyber investigation ( http://arxiv.org/abs/2306.09260v2 )

ライセンス: Link先を確認
Pierre Lavieille and Ismail Alaoui Hassani Atlas(参考訳) 39秒 2023年の2回の連続サイバー攻撃のタイムラプスです。 つまり、この要約を読み終える頃には、世界のどこかで、さらに1、2件のサイバー攻撃が起きたことになる。 サイバー脅威の頻度が高くなったこの文脈では、セキュリティオペレーションセンター(SOC)とコンピュータ緊急対応チーム(CERT)が圧倒される可能性がある。 サイバーセキュリティチームの調査努力を緩和し、さらに付加価値の高いタスクに集中するために、マシンラーニングのアプローチとメソッドが登場し始めた。 本稿では, 汚染装置の調査中に異常かつ潜在的に問題のあるコマンドラインを検出する新しい手法であるisoexを提案する。 IsoExは、コマンドラインのログ構造と親子関係を利用して、従来のメソッドよりも高い精度を達成する一連の機能を中心に構築されている。 異常を検出するために、IsoExは高度に敏感かつ軽量な教師なしの異常検出技術を利用する。 この論文の重要な貢献は、機能そのものとeXplainable Artificial Intelligence(XAI)技術と視覚化の応用を通じて達成された解釈可能性に重点を置いていることである。 SOCおよびCERTチームによる手法の採用を確実にするためには、ログ調査のための機械学習に関する現在の文献は、説明可能性の問題に適切に対処していない、と論文は主張する。 この方法は,企業のSOCとCERTをサポートするために構築された実環境において有効であることが証明された。

39 seconds. That is the timelapse between two consecutive cyber attacks as of 2023. Meaning that by the time you are done reading this abstract, about 1 or 2 additional cyber attacks would have occurred somewhere in the world. In this context of highly increased frequency of cyber threats, Security Operation Centers (SOC) and Computer Emergency Response Teams (CERT) can be overwhelmed. In order to relieve the cybersecurity teams in their investigative effort and help them focus on more added-value tasks, machine learning approaches and methods started to emerge. This paper introduces a novel method, IsoEx, for detecting anomalous and potentially problematic command lines during the investigation of contaminated devices. IsoEx is built around a set of features that leverages the log structure of the command line, as well as its parent/child relationship, to achieve a greater accuracy than traditional methods. To detect anomalies, IsoEx resorts to an unsupervised anomaly detection technique that is both highly sensitive and lightweight. A key contribution of the paper is its emphasis on interpretability, achieved through the features themselves and the application of eXplainable Artificial Intelligence (XAI) techniques and visualizations. This is critical to ensure the adoption of the method by SOC and CERT teams, as the paper argues that the current literature on machine learning for log investigation has not adequately addressed the issue of explainability. This method was proven efficient in a real-life environment as it was built to support a company\'s SOC and CERT
翻訳日:2023-07-24 15:41:23 公開日:2023-07-21
# 深層学習に基づく電気機械の多目的技術最適化のためのメタモデリング

Deep learning based Meta-modeling for Multi-objective Technology Optimization of Electrical Machines ( http://arxiv.org/abs/2306.09087v2 )

ライセンス: Link先を確認
Vivek Parekh, Dominik Flore, Sebastian Sch\"ops(参考訳) 回転電気機械の最適化は時間的にも計算的にも高価である。 異なるパラメトリゼーションのため、設計最適化は各機械技術ごとに個別に実行される。 本稿では,2つの異なる機械技術,すなわち非同期機械と永久磁石同期機を同時に最適化するための変分自動エンコーダ(VAE)の適用について述べる。 トレーニング後、ディープニューラルネットワークとデコーダをメタモデルとして、グローバルキーパフォーマンスインジケータ(kpi)を予測し、最適化ループ内の統一潜在空間を通じて、関連する新しい設計を生成する。 数値実験により、高次元設計空間における並列パラメトリック多目的技術最適化を示す。 VAEベースのアプローチは、KPI予測のための古典的なディープラーニングベースの直接アプローチと定量的に比較される。

Optimization of rotating electrical machines is both time- and computationally expensive. Because of the different parametrization, design optimization is commonly executed separately for each machine technology. In this paper, we present the application of a variational auto-encoder (VAE) to optimize two different machine technologies simultaneously, namely an asynchronous machine and a permanent magnet synchronous machine. After training, we employ a deep neural network and a decoder as meta-models to predict global key performance indicators (KPIs) and generate associated new designs, respectively, through unified latent space in the optimization loop. Numerical results demonstrate concurrent parametric multi-objective technology optimization in the high-dimensional design space. The VAE-based approach is quantitatively compared to a classical deep learning-based direct approach for KPIs prediction.
翻訳日:2023-07-24 15:40:56 公開日:2023-07-21
# 最適化に触発されたディープニューラルネットワークを用いた自己教師付きハイパースペクトルインパインティング

Self-Supervised Hyperspectral Inpainting with the Optimisation inspired Deep Neural Network Prior ( http://arxiv.org/abs/2306.07308v3 )

ライセンス: Link先を確認
Shuo Li and Mehrdad Yaghoobi(参考訳) ハイパースペクトル画像(HSI)は、数百から数千の狭いスペクトル帯域をカバーし、多くの空間およびスペクトル情報を伝達する。 しかし、インストゥルメンタルエラーや大気の変化により、実際に得られたhsiはしばしばノイズやデッドピクセル(ライン)によって汚染され、結果として、その後の応用を著しく損なう可能性のある情報が欠落する。 本稿では,新しいHSI欠落画素予測アルゴリズム,Low Rank and Sparsity Constraint Plug-and-Play (LRS-PnP)を紹介する。 LRS-PnPは、画像の全てのスペクトル帯域が欠落している場合でも、欠落した画素や帯域を予測することができる。 LRS-PnPアルゴリズムは、LSS-PnPとDeep Image Prior (DIP)を組み合わせた自己教師型モデルにさらに拡張される。 実データを用いた一連の実験において、LSS-PnP-DIPは、他の学習ベース手法と比較して最先端の塗装性能を達成するか、性能を上回ることを示した。

Hyperspectral Image (HSI)s cover hundreds or thousands of narrow spectral bands, conveying a wealth of spatial and spectral information. However, due to the instrumental errors and the atmospheric changes, the HSI obtained in practice are often contaminated by noise and dead pixels(lines), resulting in missing information that may severely compromise the subsequent applications. We introduce here a novel HSI missing pixel prediction algorithm, called Low Rank and Sparsity Constraint Plug-and-Play (LRS-PnP). It is shown that LRS-PnP is able to predict missing pixels and bands even when all spectral bands of the image are missing. The proposed LRS-PnP algorithm is further extended to a self-supervised model by combining the LRS-PnP with the Deep Image Prior (DIP), called LRS-PnP-DIP. In a series of experiments with real data, It is shown that the LRS-PnP-DIP either achieves state-of-the-art inpainting performance compared to other learning-based methods, or outperforms them.
翻訳日:2023-07-24 15:40:29 公開日:2023-07-21
# 大言語モデル拡張ナラティブ駆動レコメンデーション

Large Language Model Augmented Narrative Driven Recommendations ( http://arxiv.org/abs/2306.02250v2 )

ライセンス: Link先を確認
Sheshera Mysore, Andrew McCallum, Hamed Zamani(参考訳) ナラティブ・ドリブン・レコメンデーション(ndr)は、ユーザーが自分の好みと状況の冗長な記述でレコメンデーションを募集する情報アクセス問題を提示している。 これらの要求は、検索とレコメンデーションシステムのための自然言語ベースの会話インターフェースの台頭と共にますます重要になっている。 しかし、NDRはモデルのための豊富なトレーニングデータがなく、現在のプラットフォームは一般的にこれらの要求をサポートしない。 幸いなことに、古典的なユーザとイテムのインタラクションデータセットには、リッチなテキストデータ(レビューなど、ユーザの好みやコンテキストをしばしば記述する)が含まれており、これはNDRモデルのトレーニングのブートストラップに使用される。 本研究では,大規模言語モデル(LLM)を用いてデータ拡張を行い,NDRモデルのトレーニングを行う。 我々は,合成クエリとユーザ-itemインタラクションデータに基づくNDR検索モデルを用いて,ユーザ-itemインタラクションからの合成ナラティブクエリのオーサリングにLLMを使用する。 提案手法は,他の検索ベースラインやllmベースラインを上回ってナラティブ駆動のレコメンデーションを行う小パラメータ検索モデルを学習するための効果的な戦略であることを示す。

Narrative-driven recommendation (NDR) presents an information access problem where users solicit recommendations with verbose descriptions of their preferences and context, for example, travelers soliciting recommendations for points of interest while describing their likes/dislikes and travel circumstances. These requests are increasingly important with the rise of natural language-based conversational interfaces for search and recommendation systems. However, NDR lacks abundant training data for models, and current platforms commonly do not support these requests. Fortunately, classical user-item interaction datasets contain rich textual data, e.g., reviews, which often describe user preferences and context - this may be used to bootstrap training for NDR models. In this work, we explore using large language models (LLMs) for data augmentation to train NDR models. We use LLMs for authoring synthetic narrative queries from user-item interactions with few-shot prompting and train retrieval models for NDR on synthetic queries and user-item interaction data. Our experiments demonstrate that this is an effective strategy for training small-parameter retrieval models that outperform other retrieval and LLM baselines for narrative-driven recommendation.
翻訳日:2023-07-24 15:39:49 公開日:2023-07-21
# 量子情報の動的測度について

On dynamical measures of quantum information ( http://arxiv.org/abs/2306.01831v2 )

ライセンス: Link先を確認
James Fullwood and Arthur J. Parzygnat(参考訳) この研究では、時間とともに量子状態の理論を使い、エントロピー $s(\rho,\mathcal{e})$ と量子プロセス $(\rho,\mathcal{e})$ が関連づけられ、ここで $\rho$ は状態であり、$\mathcal{e}$ は $\rho$ の力学進化に責任を持つ量子チャネルである。 エントロピー$S(\rho,\mathcal{E})$は、フォン・ノイマンのエントロピーの一般化であり、$S(\rho,\mathrm{id})=S(\rho)$(ここで$\mathrm{id}$はアイデンティティーチャネルを表す)という意味で、二部会状態の量子ジョイントエントロピーの動的アナログである。 このようなエントロピーは、量子条件エントロピーと量子相互情報の動的定式化を定義するために使用され、そのような情報測度が量子エントロピーベイズ則のような多くの望ましい性質を満たすことを示す。 また、エントロピー関数を用いて量子系の動的進化に関連する情報損失/利得を定量化し、量子プロセスの情報保存の正確な概念を定式化することができる。

In this work, we use the theory of quantum states over time to define an entropy $S(\rho,\mathcal{E})$ associated with quantum processes $(\rho,\mathcal{E})$, where $\rho$ is a state and $\mathcal{E}$ is a quantum channel responsible for the dynamical evolution of $\rho$. The entropy $S(\rho,\mathcal{E})$ is a generalization of the von Neumann entropy in the sense that $S(\rho,\mathrm{id})=S(\rho)$ (where $\mathrm{id}$ denotes the identity channel), and is a dynamical analogue of the quantum joint entropy for bipartite states. Such an entropy is then used to define dynamical formulations of the quantum conditional entropy and quantum mutual information, and we show such information measures satisfy many desirable properties, such as a quantum entropic Bayes' rule. We also use our entropy function to quantify the information loss/gain associated with the dynamical evolution of quantum systems, which enables us to formulate a precise notion of information conservation for quantum processes.
翻訳日:2023-07-24 15:39:25 公開日:2023-07-21
# 量子ニューラルネットワークにおける有限サンプリングノイズの低減

Reduction of finite sampling noise in quantum neural networks ( http://arxiv.org/abs/2306.01639v2 )

ライセンス: Link先を確認
David A. Kreplin and Marco Roth(参考訳) 量子ニューラルネットワーク(QNN)は、データ依存の入力を持つパラメータ化量子回路を使用し、期待値の評価を通じて出力を生成する。 これらの期待値を計算することは繰り返し回路評価を必要とするため、エラーのない量子コンピュータでも基本的な有限サンプリングノイズが生じる。 このノイズを量子モデルトレーニング中に期待値の分散を減少させる手法である分散正規化を導入することで低減する。 この手法は、QNNが適切に構築されている場合、追加の回路評価を必要としない。 実験の結果,分散速度の低下がトレーニングを高速化し,出力ノイズを低減し,グラデーション回路に必要な評価回数を減少させることが示された。 この正則化法は多重関数の回帰に基づいてベンチマークされる。 私たちの例では、平均で1桁のばらつきが減少し、qnnのノイズレベルが著しく低下することを示している。 最後に,実量子デバイス上でqnnトレーニングを行い,誤差軽減の効果を評価する。 ここでは, ばらつきの低減による勾配評価において, 必要なショット数が少ないためのみ, 最適化が可能となる。

Quantum neural networks (QNNs) use parameterized quantum circuits with data-dependent inputs and generate outputs through the evaluation of expectation values. Calculating these expectation values necessitates repeated circuit evaluations, thus introducing fundamental finite-sampling noise even on error-free quantum computers. We reduce this noise by introducing the variance regularization, a technique for reducing the variance of the expectation value during the quantum model training. This technique requires no additional circuit evaluations if the QNN is properly constructed. Our empirical findings demonstrate the reduced variance speeds up the training and lowers the output noise as well as decreases the number of necessary evaluations of gradient circuits. This regularization method is benchmarked on the regression of multiple functions. We show that in our examples, it lowers the variance by an order of magnitude on average and leads to a significantly reduced noise level of the QNN. We finally demonstrate QNN training on a real quantum device and evaluate the impact of error mitigation. Here, the optimization is feasible only due to the reduced number of necessary shots in the gradient evaluation resulting from the reduced variance.
翻訳日:2023-07-24 15:38:55 公開日:2023-07-21
# 腹部多臓器・腫瘍分節の連続的学習

Continual Learning for Abdominal Multi-Organ and Tumor Segmentation ( http://arxiv.org/abs/2306.00988v2 )

ライセンス: Link先を確認
Yixiao Zhang, Xinyi Li, Huimiao Chen, Alan Yuille, Yaoyao Liu, Zongwei Zhou(参考訳) モデルを新しいデータやクラスに動的に拡張する能力は、複数の臓器と腫瘍のセグメンテーションに不可欠である。 しかし、プライバシ規制のため、医療領域では、以前のデータやアノテーションにアクセスすることが問題となる。 これは、破滅的な忘れの問題から新しいクラスから学ぶ際に、古いクラスの高いセグメンテーション精度を維持する上で重要な障壁となる。 本稿では,まず,高品質な擬似ラベルを用いるだけで,臓器のセグメンテーションの設定において,この問題をかなり軽減できることを示す。 さらに,連続臓器と腫瘍の分節化に特化して設計された革新的なアーキテクチャを提案し,計算オーバーヘッドを最小限に抑えた。 提案する設計では,従来の出力層を軽量なクラス固有のヘッドに置き換えることで,新たなクラスに対応する柔軟性を実現する。 これらのヘッドは、新しく導入され、以前に学習されたクラスに対する独立した予測を可能にし、継続学習の過程で新しいクラスが古いクラスに与える影響を効果的に最小化する。 さらに,臓器特異的な頭部にCLIP(Contrastive Language- Image Pretraining)を組み込むことを提案する。 これらの埋め込みは各クラスの意味情報をカプセル化し、広範な画像テキストのコトレーニングによって通知される。 本手法は,臓器および腫瘍の分節タスク下での腹腔内および腹腔内CTデータセットを用いて評価した。 実験結果から,提案手法は学習軌道に沿って新たに導入および学習したクラス上でのベースラインニューラルネットワークのセグメンテーション性能を向上させることが示唆された。

The ability to dynamically extend a model to new data and classes is critical for multiple organ and tumor segmentation. However, due to privacy regulations, accessing previous data and annotations can be problematic in the medical domain. This poses a significant barrier to preserving the high segmentation accuracy of the old classes when learning from new classes because of the catastrophic forgetting problem. In this paper, we first empirically demonstrate that simply using high-quality pseudo labels can fairly mitigate this problem in the setting of organ segmentation. Furthermore, we put forward an innovative architecture designed specifically for continuous organ and tumor segmentation, which incurs minimal computational overhead. Our proposed design involves replacing the conventional output layer with a suite of lightweight, class-specific heads, thereby offering the flexibility to accommodate newly emerging classes. These heads enable independent predictions for newly introduced and previously learned classes, effectively minimizing the impact of new classes on old ones during the course of continual learning. We further propose incorporating Contrastive Language-Image Pretraining (CLIP) embeddings into the organ-specific heads. These embeddings encapsulate the semantic information of each class, informed by extensive image-text co-training. The proposed method is evaluated on both in-house and public abdominal CT datasets under organ and tumor segmentation tasks. Empirical results suggest that the proposed design improves the segmentation performance of a baseline neural network on newly-introduced and previously-learned classes along the learning trajectory.
翻訳日:2023-07-24 15:38:40 公開日:2023-07-21
# セルフリー大量MIMOのためのハイブリッド知識駆動チャネルセマンティック獲得とビームフォーミング

Hybrid Knowledge-Data Driven Channel Semantic Acquisition and Beamforming for Cell-Free Massive MIMO ( http://arxiv.org/abs/2307.03070v2 )

ライセンス: Link先を確認
Zhen Gao, Shicong Liu, Yu Su, Zhongxiang Li, Dezhi Zheng(参考訳) 本稿では,ユビキタスな拡張現実(XR)アプリケーションをサポートし,現在の屋内無線通信能力とのギャップを埋めるため,屋外無線システムの進歩に焦点をあてる。 セルレス大規模マルチインプットマルチアウトプット(MIMO)システムにおけるチャネル意味獲得とマルチユーザビームフォーミングのためのハイブリッド知識データ駆動方式を提案する。 具体的には、まず、パイロット信号、チャネルセマンティック埋め込みのためのCSI量子化器、チャネルセマンティック抽出のためのCSI再構成をエンドツーエンドで共同で最適化する、チャネルセマンティック取得のためのデータ駆動多重層パーセプトロン(MLP)ベースの自動エンコーダを提案する。 さらに、取得したチャネルセマンティクスに基づいて、屋外XRシナリオにおけるCSIの完全性に優れたスペクトル効率を実現することができる知識駆動型深層展開型マルチユーザビームフォーマを提案する。 従来の逐次オーバーリラクシエーション(sor)に基づく線形ビームフォーミングスキームをディープラーニングで展開することにより,最適なパラメータを適応的に学習し,収束を加速し,不完全csiに対するロバスト性を向上させることができる。 提案手法は,完全ディジタル配列のアクセスポイント (aps) とハイブリッドアナログディジタル配列のaps (aps) に使用可能である。 シミュレーションの結果,提案手法がチャネル獲得精度の向上に有効であり,csi取得とビームフォーマ設計の複雑さを低減できることを示した。 提案手法は,ダウンリンク伝送を3回繰り返しただけで,収束スペクトル効率の約96%を達成し,その効果とアウトドアxr応用の可能性を示した。

This paper focuses on advancing outdoor wireless systems to better support ubiquitous extended reality (XR) applications, and close the gap with current indoor wireless transmission capabilities. We propose a hybrid knowledge-data driven method for channel semantic acquisition and multi-user beamforming in cell-free massive multiple-input multiple-output (MIMO) systems. Specifically, we firstly propose a data-driven multiple layer perceptron (MLP)-Mixer-based auto-encoder for channel semantic acquisition, where the pilot signals, CSI quantizer for channel semantic embedding, and CSI reconstruction for channel semantic extraction are jointly optimized in an end-to-end manner. Moreover, based on the acquired channel semantic, we further propose a knowledge-driven deep-unfolding multi-user beamformer, which is capable of achieving good spectral efficiency with robustness to imperfect CSI in outdoor XR scenarios. By unfolding conventional successive over-relaxation (SOR)-based linear beamforming scheme with deep learning, the proposed beamforming scheme is capable of adaptively learning the optimal parameters to accelerate convergence and improve the robustness to imperfect CSI. The proposed deep unfolding beamforming scheme can be used for access points (APs) with fully-digital array and APs with hybrid analog-digital array. Simulation results demonstrate the effectiveness of our proposed scheme in improving the accuracy of channel acquisition, as well as reducing complexity in both CSI acquisition and beamformer design. The proposed beamforming method achieves approximately 96% of the converged spectrum efficiency performance after only three iterations in downlink transmission, demonstrating its efficacy and potential to improve outdoor XR applications.
翻訳日:2023-07-24 15:31:04 公開日:2023-07-21
# SegNetr:U字型ネットワークにおけるローカル-グローバルインタラクションとスキップ接続の再考

SegNetr: Rethinking the local-global interactions and skip connections in U-shaped networks ( http://arxiv.org/abs/2307.02953v2 )

ライセンス: Link先を確認
Junlong Cheng, Chengrui Gao, Fengjie Wang, Min Zhu(参考訳) 近年,U字型ネットワークは,シンプルで手軽に調整可能な構造であるため,医用画像セグメンテーションの分野を支配している。 しかし、既存のu字型セグメンテーションネットワーク: 1) 主に、畳み込み操作に基づく長期依存の欠如を補う複雑な自己注意モジュールの設計に焦点が当てられ、ネットワークのパラメータの総数と計算複雑性が増大する。 2) 単にエンコーダとデコーダの特徴を融合させ, 空間的位置の接続を無視する。 本稿では、上記の問題を再考し、SegNetrと呼ばれる軽量な医用画像分割ネットワークを構築する。 具体的には,任意の段階で動的に局所的・局所的相互作用を行なえる新しいSegNetrブロックを提案する。 同時に、エンコーダ特徴の空間的位置情報を保存し、デコーダ特徴との正確な融合を実現するための汎用情報保持スキップ接続(IRSC)を設計する。 我々は,4つの主流な医用画像セグメンテーションデータセットに対するSegNetrの有効性を検証し,59 %,76 %のパラメータとGFLOPをバニラU-Netよりも少なくし,最先端の手法に匹敵するセグメンテーション性能を実現した。 特に,本論文で提案するコンポーネントを他のU字型ネットワークに適用し,セグメンテーション性能を向上させる。

Recently, U-shaped networks have dominated the field of medical image segmentation due to their simple and easily tuned structure. However, existing U-shaped segmentation networks: 1) mostly focus on designing complex self-attention modules to compensate for the lack of long-term dependence based on convolution operation, which increases the overall number of parameters and computational complexity of the network; 2) simply fuse the features of encoder and decoder, ignoring the connection between their spatial locations. In this paper, we rethink the above problem and build a lightweight medical image segmentation network, called SegNetr. Specifically, we introduce a novel SegNetr block that can perform local-global interactions dynamically at any stage and with only linear complexity. At the same time, we design a general information retention skip connection (IRSC) to preserve the spatial location information of encoder features and achieve accurate fusion with the decoder features. We validate the effectiveness of SegNetr on four mainstream medical image segmentation datasets, with 59\% and 76\% fewer parameters and GFLOPs than vanilla U-Net, while achieving segmentation performance comparable to state-of-the-art methods. Notably, the components proposed in this paper can be applied to other U-shaped networks to improve their segmentation performance.
翻訳日:2023-07-24 15:30:32 公開日:2023-07-21
# gpt-finre: 大言語モデルを用いた金融関係抽出のためのインコンテキスト学習

GPT-FinRE: In-context Learning for Financial Relation Extraction using Large Language Models ( http://arxiv.org/abs/2306.17519v2 )

ライセンス: Link先を確認
Pawan Kumar Rajpoot, Ankur Parikh(参考訳) 関係抽出(re)は自然言語処理(nlp)において重要なタスクであり、テキストで言及されるエンティティ間の関係を識別し分類することを目的としている。 金融分野では、ニュース記事や決算報告、会社書類などの財務資料から貴重な情報を抽出する上で、関係抽出が重要な役割を担っている。 本稿では,そのようなデータセットREFinDにおける関係抽出のソリューションについて述べる。 データセットは、SIGIR 2023と共同で、金融サービスにおける非構造化データからの知識発見に関する第4回ワークショップの一部として、共有タスクとともにリリースされた。 本稿では,文脈内学習(ICL)の枠組みのもと,OpenAIモデルを用いた。 2つの検索戦略を用いて、あるテスト例のトレーニングデータから、関連するトップkのインコンテキスト学習デモ/サンプルを見つける。 最初に採用した検索機構は,学習フリーの密集型検索システムであり,他システムは学習ベースの検索システムである。 総合3位を達成できた。 最高のF1スコアは0.718です。

Relation extraction (RE) is a crucial task in natural language processing (NLP) that aims to identify and classify relationships between entities mentioned in text. In the financial domain, relation extraction plays a vital role in extracting valuable information from financial documents, such as news articles, earnings reports, and company filings. This paper describes our solution to relation extraction on one such dataset REFinD. The dataset was released along with shared task as a part of the Fourth Workshop on Knowledge Discovery from Unstructured Data in Financial Services, co-located with SIGIR 2023. In this paper, we employed OpenAI models under the framework of in-context learning (ICL). We utilized two retrieval strategies to find top K relevant in-context learning demonstrations / examples from training data for a given test example. The first retrieval mechanism, we employed, is a learning-free dense retriever and the other system is a learning-based retriever. We were able to achieve 3rd rank overall. Our best F1-score is 0.718.
翻訳日:2023-07-24 15:30:08 公開日:2023-07-21
# 部分デコーダとしての信念伝播

Belief propagation as a partial decoder ( http://arxiv.org/abs/2306.17142v2 )

ライセンス: Link先を確認
Laura Caune, Brendan Reid, Joan Camps, and Earl Campbell(参考訳) フォールトトレラント量子計算の基本的な課題の1つは、十分に高速な量子デコーダの実現である。 本稿では,デコードサイクルを高速化し,精度を向上する2段デコーダを提案する。 第一段階では、信念伝播に基づく部分復号器を用いて、高い確率で発生した誤りを訂正する。 第2段階では、従来のデコーダが残したエラーを補正する。 回路レベル雑音下での表面符号を用いた2段デコーダの性能をシミュレーションにより検討した。 従来のデコーダが最小ウェイトの完全マッチングである場合、部分デコーダを付加することで帯域幅要件が減少し、速度が向上し、論理精度が向上する。 具体的には、部分復号化はパラメータの条件によって平均2ドルから4ドルの間、最小限の完全マッチングステージを一貫して高速化し、閾値を0.94\%から1.02\%に引き上げる。

One of the fundamental challenges in enabling fault-tolerant quantum computation is realising fast enough quantum decoders. We present a new two-stage decoder that accelerates the decoding cycle and boosts accuracy. In the first stage, a partial decoder based on belief propagation is used to correct errors that occurred with high probability. In the second stage, a conventional decoder corrects any remaining errors. We study the performance of our two-stage decoder with simulations using the surface code under circuit-level noise. When the conventional decoder is minimum-weight perfect matching, adding the partial decoder decreases bandwidth requirements, increases speed and improves logical accuracy. Specifically, we observe partial decoding consistently speeds up the minimum-weight perfect matching stage by between $2$x-$4$x on average depending on the parameter regime, and raises the threshold from $0.94\%$ to $1.02\%$.
翻訳日:2023-07-24 15:29:52 公開日:2023-07-21
# 雑音との戦い - 確率的投影型量子固有解法

Fighting noise with noise: a stochastic projective quantum eigensolver ( http://arxiv.org/abs/2306.14540v2 )

ライセンス: Link先を確認
Maria-Andreea Filip(参考訳) 量子モンテカルロ(QMC)アルゴリズムは、古典的な環境での電子構造計算の計算オーバーヘッドを下げるのに極めて効果的であることが証明されている。 量子計算の現在のノイズの多い中間スケール量子(NISQ)時代には、低量子ビット数、短いデコヒーレンス時間、高ゲートノイズなど、利用可能なハードウェア資源にいくつかの制限があり、これは現在の多くのハイブリッド量子古典アルゴリズムの非自明な量子化学問題への適用を妨げる。 本稿では,従来のqmcアルゴリズムの基本要素 -波動関数とハミルトニアンの両方の確率的サンプリング - と仮想時間伝播に基づく量子固有解法を組み合わせることを提案する。 古典的モンテカルロ推定法において容易に平均化できる雑音の増加コストにおいて, 一般に低く, 高い可変性を有する量子計算要件を持つ手法を求める。

Quantum Monte Carlo (QMC) algorithms have proven extremely effective at lowering the computational overhead of electronic structure calculations in a classical setting. In the current noisy intermediate scale quantum (NISQ) era of quantum computation, there are several limitations on the available hardware resources, such as low qubit counts, short decoherence times and high gate noise, which preclude the application of many current hybrid quantum-classical algorithms to non-trivial quantum chemistry problems. Here, we propose combining some of the fundamental elements of conventional QMC algorithms -- stochastic sampling of both the wavefunction and the Hamiltonian of interest -- with an imaginary-time propagation based projective quantum eigensolver. At the cost of increased noise, which can be easily averaged over in a classical Monte Carlo estimation, we obtain a method with quantum computational requirements that are both generally low and highly tunable.
翻訳日:2023-07-24 15:28:58 公開日:2023-07-21
# 大規模言語モデルによる中国のきめ細かな金融感情分析

Chinese Fine-Grained Financial Sentiment Analysis with Large Language Models ( http://arxiv.org/abs/2306.14096v3 )

ライセンス: Link先を確認
Yinyu Lan, Yanru Wu, Wang Xu, Weiqiang Feng, Youhao Zhang(参考訳) 金融ドメインにおけるエンティティレベルのきめ細かい感情分析は、感情分析の重要なサブタスクであり、現在多くの課題に直面している。 主な課題は、財務的なテキスト感情分析用に特別に設計された高品質で大規模な注釈付きコーパスが欠如していることであり、それによって効果的なテキスト処理技術を開発するために必要なデータの利用が制限される。 大規模言語モデル(llm)の最近の進歩は、自然言語処理タスクにおいて、主に言語パターンマッチングを中心に顕著なパフォーマンスをもたらした。 本稿では,企業早期警戒のための中国における財務感情分析データセットFinChina SAを提案する。 我々のデータセットを用いて、よく知られたオープンソースのLCMを徹底的に評価し、実験した。 我々は、我々のデータセットが、将来の研究の焦点となる実世界の財務感情分析タスクの探索を進めるための貴重なリソースとなると強く信じている。 私たちのデータセットと実験結果を複製するすべてのコードがリリースされます。

Entity-level fine-grained sentiment analysis in the financial domain is a crucial subtask of sentiment analysis and currently faces numerous challenges. The primary challenge stems from the lack of high-quality and large-scale annotated corpora specifically designed for financial text sentiment analysis, which in turn limits the availability of data necessary for developing effective text processing techniques. Recent advancements in large language models (LLMs) have yielded remarkable performance in natural language processing tasks, primarily centered around language pattern matching. In this paper, we propose a novel and extensive Chinese fine-grained financial sentiment analysis dataset, FinChina SA, for enterprise early warning. We thoroughly evaluate and experiment with well-known existing open-source LLMs using our dataset. We firmly believe that our dataset will serve as a valuable resource to advance the exploration of real-world financial sentiment analysis tasks, which should be the focus of future research. Our dataset and all code to replicate the experimental results will be released.
翻訳日:2023-07-24 15:28:42 公開日:2023-07-21
# 非事実拡大によるロバストなアスペクトに基づく感性分析に向けて

Towards Robust Aspect-based Sentiment Analysis through Non-counterfactual Augmentations ( http://arxiv.org/abs/2306.13971v2 )

ライセンス: Link先を確認
Xinyu Liu, Yan Ding, Kaikai An, Chunyang Xiao, Pranava Madhyastha, Tong Xiao and Jingbo Zhu(参考訳) 現状のNLPモデルはアスペクトベース感情分析(ABSA)に優れた性能を示してきたが、その堅牢性の欠如についてかなりの証拠が提示されている。 これは特に、アウトオブディストリビューションデータに直面した場合のパフォーマンスの大幅な低下として現れます。 相反的に拡張されたデータセットに依存する最近のソリューションは有望な結果を示しているが、明示的な因果構造へのアクセスがないため、本質的に制限されている。 本稿では,非数値データ拡張に依拠する代替手法を提案する。 提案手法は,目的とする側面に関連づけられたセマンティクスを格納した,ノイズの多いコスト効率の高いデータ拡張を用いる。 我々のアプローチは、ロバスト性を改善するために、異なるバージョンのデータ間の不変性をモデル化することに依存する。 総合的な実験結果から,提案手法は,標準およびロバスト性に特有なデータセット上で,トレーニング済みの強いベースラインで大幅に改善されることが示された。 我々のアプローチはさらにABSAロバストネスベンチマークの新たな最先端を確立し、ドメイン間でうまく転送する。

While state-of-the-art NLP models have demonstrated excellent performance for aspect based sentiment analysis (ABSA), substantial evidence has been presented on their lack of robustness. This is especially manifested as significant degradation in performance when faced with out-of-distribution data. Recent solutions that rely on counterfactually augmented datasets show promising results, but they are inherently limited because of the lack of access to explicit causal structure. In this paper, we present an alternative approach that relies on non-counterfactual data augmentation. Our proposal instead relies on using noisy, cost-efficient data augmentations that preserve semantics associated with the target aspect. Our approach then relies on modelling invariances between different versions of the data to improve robustness. A comprehensive suite of experiments shows that our proposal significantly improves upon strong pre-trained baselines on both standard and robustness-specific datasets. Our approach further establishes a new state-of-the-art on the ABSA robustness benchmark and transfers well across domains.
翻訳日:2023-07-24 15:28:25 公開日:2023-07-21
# 物理に基づく生体力学シミュレーションによる歩行データ増大

Gait Data Augmentation using Physics-Based Biomechanical Simulation ( http://arxiv.org/abs/2307.08092v2 )

ライセンス: Link先を確認
Mritula Chandrasekaran, Jarek Francik, Dimitrios Makris(参考訳) 本稿では,歩行分析におけるデータ不足の問題に焦点をあてる。 標準的な増強法は、人間の歩行の生体力学的制約と一致しない歩行配列を生成することができる。 そこで本研究では,バイオメカニカル・プラウシブル・ウォーキング・シーケンスを合成するための物理シミュレーションOpenSIMを用いて,歩行データ拡張のための新しいフレームワークを提案する。 提案手法は,WBDSデータセットとCASIA-Bデータセットを拡張し,それぞれ3次元歩行分類と2次元歩行個人識別のための歩行ベース分類器を訓練することによって検証される。 CASIA-Bデータセットで96.11%の精度で、モデルに基づく歩行分類器の性能を改善し、歩行に基づく人物識別の最先端結果を提供できることを示す。

This paper focuses on addressing the problem of data scarcity for gait analysis. Standard augmentation methods may produce gait sequences that are not consistent with the biomechanical constraints of human walking. To address this issue, we propose a novel framework for gait data augmentation by using OpenSIM, a physics-based simulator, to synthesize biomechanically plausible walking sequences. The proposed approach is validated by augmenting the WBDS and CASIA-B datasets and then training gait-based classifiers for 3D gender gait classification and 2D gait person identification respectively. Experimental results indicate that our augmentation approach can improve the performance of model-based gait classifiers and deliver state-of-the-art results for gait-based person identification with an accuracy of up to 96.11% on the CASIA-B dataset.
翻訳日:2023-07-24 15:22:03 公開日:2023-07-21
# 非可換対象位相空間における開フェルミオン弦理論

Open fermionic string theory in a non commutative target phase-space ( http://arxiv.org/abs/2307.07060v2 )

ライセンス: Link先を確認
Mohamed Adib Abdelmoumene, Nadir Belaloui(参考訳) 非可換な対象位相空間における開フェルミオン弦理論と、空間部分と運動量部分について検討する。 振動モードによる変換可換関係が導出される。 修正された超ビラソロ代数は、新しい異常項が現れるラモンド・シュワルツセクターとノイヴェウ・シュワルツセクターで得られる。 非可換性はローレンツ共分散に影響し、質量作用素は通常のフォック空間ではもはや対角的ではない。 フォック空間の再定義により、非可換パラメータ行列を対角化して対角化質量作用素を得る。 非可換性パラメータのいくつかの制限は、非可換性によるヴィラソロ・アルジャーブラ異常項を除去するために課せられ、同時に通常の質量スペクトルが得られる。 GSO射影は、時空超対称性が得られれば可能である。 非可換パラメータのゼロモードに対するさらなる制限が課され、ローレンツ共分散が復元される。

We investigate an open fermionic string theory in a non-commutative target phase space as well as for the space part and the momentum part. The modified commutation relations in terms of oscillating modes are derived. Modified super-Virasoro algebras are obtained in the Ramond and Neuveu-Schwarz sectors where new anomaly terms appears. The non-commutativity affect the Lorentz covariance and the mass operator is no more diagonal in the usual Fock space. A redefinition of the Fock space is proposed to diagonalize the non-commutativity parameters matrices to obtain a diagonalized mass operator. Some restrictions on the non commutativity parameters are imposed to eliminate the Virasoro algerbra anomaly terms due to the non-commutativity, where at the same time the usual mass spectrum is obtained. The GSO projection is now possible where a space time supersymmetry is obtained. More restrictions on the non-commutativity parameters zero modes are imposed and the Lorentz covariance is restored.
翻訳日:2023-07-24 15:21:47 公開日:2023-07-21
# 変圧器を用いた可変長体積データのエンドツーエンド分類

Transformer-based end-to-end classification of variable-length volumetric data ( http://arxiv.org/abs/2307.06666v2 )

ライセンス: Link先を確認
Marzieh Oghbaie, Teresa Araujo, Taha Emre, Ursula Schmidt-Erfurth, Hrvoje Bogunovic(参考訳) 3D医療データの自動分類はメモリ集約的である。 また、サンプル間のスライス数の変化も一般的である。 サブサンプリングのようなna\"iveなソリューションはこれらの問題を解決することができるが、関連する診断情報を排除するコストがかかる。 トランスフォーマーはシーケンシャルなデータ分析に有望な性能を示した。 しかし、長いシーケンスに対するそれらの応用は、データ、計算、メモリ要求である。 本稿では,可変長のボリュームデータを効率的に分類できるエンドツーエンドトランスフォーマーベースのフレームワークを提案する。 特に,学習中に入力された体積分解能(#スライス)をランダム化することにより,各ボリュームスライスに割り当てられた学習可能な位置埋め込みの能力を高める。 これにより、テスト時に高解像度ボリュームであっても、各位置埋め込みにおける累積位置情報を隣り合うスライスに一般化することができる。 そうすることで、モデルは可変体積長に対してより堅牢になり、異なる計算予算に対処できる。 我々は、網膜CTボリューム分類における提案手法の評価を行い、9クラス診断タスクにおける平均精度を21.96%向上させた。 以上の結果から, トレーニング中の入力の体積分解能の変化は, 1体積あたりのスライス数を一定に設定したトレーニングに比べて, より情報量的な表現をもたらすことがわかった。

The automatic classification of 3D medical data is memory-intensive. Also, variations in the number of slices between samples is common. Na\"ive solutions such as subsampling can solve these problems, but at the cost of potentially eliminating relevant diagnosis information. Transformers have shown promising performance for sequential data analysis. However, their application for long sequences is data, computationally, and memory demanding. In this paper, we propose an end-to-end Transformer-based framework that allows to classify volumetric data of variable length in an efficient fashion. Particularly, by randomizing the input volume-wise resolution(#slices) during training, we enhance the capacity of the learnable positional embedding assigned to each volume slice. Consequently, the accumulated positional information in each positional embedding can be generalized to the neighbouring slices, even for high-resolution volumes at the test time. By doing so, the model will be more robust to variable volume length and amenable to different computational budgets. We evaluated the proposed approach in retinal OCT volume classification and achieved 21.96% average improvement in balanced accuracy on a 9-class diagnostic task, compared to state-of-the-art video transformers. Our findings show that varying the volume-wise resolution of the input during training results in more informative volume representation as compared to training with fixed number of slices per volume.
翻訳日:2023-07-24 15:21:33 公開日:2023-07-21
# ローカルを超越:グローバルグラフによるパーソナライズされたニュースレコメンデーション

Going Beyond Local: Global Graph-Enhanced Personalized News Recommendations ( http://arxiv.org/abs/2307.06576v3 )

ライセンス: Link先を確認
Boming Yang, Dairui Liu, Toyotaro Suzumura, Ruihai Dong, Irene Li(参考訳) 候補ニュース記事をユーザに正確に推薦することは、パーソナライズされたニュースレコメンデーションシステムにとって、常に重要な課題だった。 最近の研究は主に、現地の歴史的ニュースから派生したコンテンツに基づく手法を用いて、リッチテキストデータから意味情報を抽出する高度な自然言語処理技術に焦点を当てている。 しかし、このアプローチはグローバルな視点に欠けており、セマンティック情報を超えたユーザの隠されたモチベーションや振る舞いを説明できない。 そこで本研究では,他のユーザから学習したグローバル表現とローカル表現を組み合わせることで,パーソナライズドレコメンデーションシステムを強化する,gloly(グローバルローカルニュースレコメンデーションシステム)という新しいモデルを提案する。 我々は,グローバルニュースグラフを含むグローバルな歴史ニュースエンコーダを構築し,ゲートグラフニューラルネットワークを用いてニュース表現を充実させ,歴史的ニュースアグリゲータによる歴史的ニュース表現を融合させることにより,これを実現する。 同様に、グローバルエンティティグラフと候補ニュースアグリゲータを利用して、このアプローチをグローバル候補ニュースエンコーダにも拡張し、候補ニュース表現を強化します。 2つの公開ニュースデータセットの評価結果は,提案手法が既存手法より優れていることを示す。 さらに,より多様なレコメンデーションを提供する。

Precisely recommending candidate news articles to users has always been a core challenge for personalized news recommendation systems. Most recent works primarily focus on using advanced natural language processing techniques to extract semantic information from rich textual data, employing content-based methods derived from local historical news. However, this approach lacks a global perspective, failing to account for users' hidden motivations and behaviors beyond semantic information. To address this challenge, we propose a novel model called GLORY (Global-LOcal news Recommendation sYstem), which combines global representations learned from other users with local representations to enhance personalized recommendation systems. We accomplish this by constructing a Global-aware Historical News Encoder, which includes a global news graph and employs gated graph neural networks to enrich news representations, thereby fusing historical news representations by a historical news aggregator. Similarly, we extend this approach to a Global Candidate News Encoder, utilizing a global entity graph and a candidate news aggregator to enhance candidate news representation. Evaluation results on two public news datasets demonstrate that our method outperforms existing approaches. Furthermore, our model offers more diverse recommendations.
翻訳日:2023-07-24 15:21:14 公開日:2023-07-21
# ディープニューラルネットワークにおける量的clt

Quantitative CLTs in Deep Neural Networks ( http://arxiv.org/abs/2307.06092v3 )

ライセンス: Link先を確認
Stefano Favaro, Boris Hanin, Domenico Marinucci, Ivan Nourdin, Giovanni Peccati(参考訳) ランダムなガウス重みとバイアスを持つ完全連結ニューラルネットワークの分布について検討し,隠れた層幅が大きな定数$n$に比例することを示した。 非線形性に関する穏やかな仮定の下では、正規近似の量的境界は、大きなが有限の n$ と任意の固定されたネットワーク深さで有効である。 この定理は有限次元分布と全過程の両方について示しており、ランダムな完全連結ネットワーク(とその微分)と対応する無限幅ガウス過程の間の距離は、例えば$n^{-\gamma}$ for $\gamma>0$ のようにスケールする。 我々の境界は、それまでの文献よりもネットワーク幅に依存しているという点で強く、一次元の場合、それらが最適であること、すなわち一致した下界を確立することを証明する。

We study the distribution of a fully connected neural network with random Gaussian weights and biases in which the hidden layer widths are proportional to a large constant $n$. Under mild assumptions on the non-linearity, we obtain quantitative bounds on normal approximations valid at large but finite $n$ and any fixed network depth. Our theorems show both for the finite-dimensional distributions and the entire process, that the distance between a random fully connected network (and its derivatives) to the corresponding infinite width Gaussian process scales like $n^{-\gamma}$ for $\gamma>0$, with the exponent depending on the metric used to measure discrepancy. Our bounds are strictly stronger in terms of their dependence on network width than any previously available in the literature; in the one-dimensional case, we also prove that they are optimal, i.e., we establish matching lower bounds.
翻訳日:2023-07-24 15:20:40 公開日:2023-07-21
# モード数推定のためのベイズタウトスプライン

Bayesian taut splines for estimating the number of modes ( http://arxiv.org/abs/2307.05825v2 )

ライセンス: Link先を確認
Jos\'e E. Chac\'on, Javier Fern\'andez Serrano(参考訳) 確率密度関数のモード数はモデルの複雑さを表すものであり、既存のサブ集団の数と見なすこともできる。 その関連性にもかかわらず、その推定にはほとんど研究がなされていない。 単変量設定に焦点をあて,問題の見過ごされた側面に着想を得た予測精度を目標とした新しい手法を提案する。 我々は, 解の構造の必要性, モードの主観的かつ不確かな性質, 大域的および局所的な密度特性を混合した全体的視点の利便性について論じる。 本手法は, フレキシブルカーネル推定器と擬似合成スプラインを組み合わせて構築する。 特徴探索、モデル選択、モードテストはベイズ推論パラダイムで実装され、ソフトソリューションを提供し、プロセスに専門家の判断を組み込むことができる。 本提案の有用性は,複数のコンパニオンビジュアライゼーションツールを紹介するスポーツアナリティクスのケーススタディを通して示す。 徹底的なシミュレーション研究は、伝統的なモダリティ駆動アプローチがパラドックス的に正確な結果を提供するのに苦労していることを示している。 この文脈では、我々の手法はアナリストに革新的なソリューションを提供する最上位の代替手段として現れる。

The number of modes in a probability density function is representative of the model's complexity and can also be viewed as the number of existing subpopulations. Despite its relevance, little research has been devoted to its estimation. Focusing on the univariate setting, we propose a novel approach targeting prediction accuracy inspired by some overlooked aspects of the problem. We argue for the need for structure in the solutions, the subjective and uncertain nature of modes, and the convenience of a holistic view blending global and local density properties. Our method builds upon a combination of flexible kernel estimators and parsimonious compositional splines. Feature exploration, model selection and mode testing are implemented in the Bayesian inference paradigm, providing soft solutions and allowing to incorporate expert judgement in the process. The usefulness of our proposal is illustrated through a case study in sports analytics, showcasing multiple companion visualisation tools. A thorough simulation study demonstrates that traditional modality-driven approaches paradoxically struggle to provide accurate results. In this context, our method emerges as a top-tier alternative offering innovative solutions for analysts.
翻訳日:2023-07-24 15:20:21 公開日:2023-07-21
# 非エルミート系に対するオーフバウ原理

Aufbau Principle for Non-Hermitian Systems ( http://arxiv.org/abs/2307.04696v2 )

ライセンス: Link先を確認
Gaoyong Sun and Su-Peng Kou(参考訳) 非エルミート系に対する一般化されたアウフバウ原理を開発し、不明瞭な粒子の構成を構築できる。 非エルミート系のオーフバウ則は、複素エネルギー準位の実部が考慮されたときにエルミート系で開発されたものと同じであることが予想外に示されている。 運動量空間における単一粒子エネルギーレベルを充填することにより、フェルミオンおよびボソニックハタノ・ネルソンモデルの全多体エネルギースペクトルを導出する。 開境界条件では、フェルミオンとボソンの両方の多体非エルミト皮膚効果が全ての多体固有状態において持続することを示す。 さらに、ボソンの基底状態が、ハイゼンベルクの不確実性原理を超えた実空間と運動量空間の両方に同時に局在する全ての粒子との異常なボース=アインシュタイン凝縮であることが驚くべきことに分かる。 周期境界条件に対しては、ハードコアボソンをフェルミオンにマッピングできないことを示す。 この研究は、非エルミート系の多体物理学を理解するための一般的な枠組みを確立し、リッチな非エルミート多体物理学を明らかにする。

We develop a generalized Aufbau principle for non-Hermitian systems that allows for building up the configurations of indistinguishable particles. The Aufbau rule of non-Hermitian systems is unexpectedly shown to be identical to that developed in Hermitian systems when the real parts of the complex energy levels are considered. We derive full many-body energy spectra of the fermionic and bosonic Hatano-Nelson models as examples by filling single-particle energy levels in the momentum space. For open boundary conditions, we show that many-body non-Hermitian skin effects persist in all many-body eigenstates for both fermions and bosons. Furthermore, we find surprisingly that the ground state of bosons is an anomalous Bose-Einstein condensation with all of the particles simultaneously localizing in both the real and momentum space beyond the Heisenberg uncertainty principle. For periodic boundary conditions, we show that hard-core bosons cannot be mapped to fermions. This work establishes a general framework for understanding the many-body physics of non-Hermitian systems, revealing rich unique non-Hermitian many-body physics.
翻訳日:2023-07-24 15:20:03 公開日:2023-07-21
# オープンセット医療診断のための大きなマージンスパース埋め込みの学習

Learning Large Margin Sparse Embeddings for Open Set Medical Diagnosis ( http://arxiv.org/abs/2307.04541v2 )

ライセンス: Link先を確認
Mingyuan Liu, Lu Xu, Jicong Zhang(参考訳) ディープラーニングにより、コンピュータ支援診断は大きな進歩を遂げる。 しかし、制御された実験室環境では、アルゴリズムは複数の課題に直面する可能性がある。 オープンセット認識(OSR)は、トレーニングで見えないカテゴリがテストに現れる可能性があることを、重要なものとして述べている。 医学分野では、不完全に収集されたトレーニングデータセットと、絶えず出現する新しいまたはまれな疾患に由来する可能性がある。 OSRは、既知のクラスを正しく分類するだけでなく、未知のクラスを認識し、さらなる診断のために専門家に転送するアルゴリズムを必要とする。 OSRに取り組むために、既知のクラスは埋め込み空間の小さな部分を密に占有し、残りのスパース領域は未知として認識できると仮定する。 続いて,2つの機構を統一したopen margin cosine loss (omcl)を提案する。 前者はMargin Loss with Adaptive Scale (MLAS)と呼ばれ、クラス内コンパクト性とクラス間分離性を強化するための角マージンと、一般化能力を強化するための適応スケーリング係数を導入している。 後者はOpen-Space Suppression (OSS)と呼ばれ、提案された特徴空間記述子を用いて、スパース埋め込み空間を未知として認識することで分類器を開く。 さらに、医療用OSRはまだ初期段階であるため、比較のために2つの公開ベンチマークデータセットが提案されている。 広範なアブレーション研究と特徴の可視化は、それぞれの設計の有効性を実証する。 最先端の手法と比較して、MLASはACC、AUROC、OSCRによって測定される優れた性能を達成する。

Fueled by deep learning, computer-aided diagnosis achieves huge advances. However, out of controlled lab environments, algorithms could face multiple challenges. Open set recognition (OSR), as an important one, states that categories unseen in training could appear in testing. In medical fields, it could derive from incompletely collected training datasets and the constantly emerging new or rare diseases. OSR requires an algorithm to not only correctly classify known classes, but also recognize unknown classes and forward them to experts for further diagnosis. To tackle OSR, we assume that known classes could densely occupy small parts of the embedding space and the remaining sparse regions could be recognized as unknowns. Following it, we propose Open Margin Cosine Loss (OMCL) unifying two mechanisms. The former, called Margin Loss with Adaptive Scale (MLAS), introduces angular margin for reinforcing intra-class compactness and inter-class separability, together with an adaptive scaling factor to strengthen the generalization capacity. The latter, called Open-Space Suppression (OSS), opens the classifier by recognizing sparse embedding space as unknowns using proposed feature space descriptors. Besides, since medical OSR is still a nascent field, two publicly available benchmark datasets are proposed for comparison. Extensive ablation studies and feature visualization demonstrate the effectiveness of each design. Compared with state-of-the-art methods, MLAS achieves superior performances, measured by ACC, AUROC, and OSCR.
翻訳日:2023-07-24 15:19:44 公開日:2023-07-21
# 全身性糖尿病網膜症への展開

Towards Generalizable Diabetic Retinopathy Grading in Unseen Domains ( http://arxiv.org/abs/2307.04378v3 )

ライセンス: Link先を確認
Haoxuan Che, Yuhan Cheng, Haibo Jin, Hao Chen(参考訳) 糖尿病網膜症(英: Diabetic Retinopathy, DR)は、糖尿病の合併症の一つであり、世界中の視覚障害の主要な原因である。 早期かつ正確な重症度評価は疾患管理に不可欠である。 ディープラーニングは自動DRグレーディングに大きな可能性を示しているが、ドメイン一般化問題として知られるソースとターゲットドメイン間の分散シフトのため、実際のデプロイメントは依然として困難である。 既存の作業は主に、複雑な現実世界のシナリオを処理できない単純な視覚的相違に起因する限られたドメインシフトによるパフォーマンス低下に起因する。 代わりに,視覚と劣化のスタイルシフト,診断パターンの多様性,データの不均衡という,3次元の一般化問題の存在を示唆する予備的な証拠を示す。 これらの課題に対処するため、我々はGeneralizable Diabetic Retinopathy Grading Network (GDRNet) という新しい統合フレームワークを提案する。 GDRNetは、Fundus visual-artifact augmentation (FundusAug), dynamic hybrid-supervised loss (DahLoss), domain-class-aware re-balancing (DCR)の3つの重要なコンポーネントで構成されている。 FundusAugは、視覚変換と画像劣化によって現実的な拡張現実画像を生成する一方、DahLossはピクセルレベルの一貫性と画像レベルのセマンティクスを併用して、多様な診断パターンをキャプチャし、一般化可能な特徴表現を構築する。 さらに、dcrは、ドメインクラスビューからのデータ不均衡を緩和し、まれなドメインクラスペアに対する望ましくない過剰強調を回避する。 最後に、公正な評価のための公開ベンチマークを設計する。 GDRNetの有効性と一般化能力について,先進的手法と徹底的アブレーション法との比較実験を行った。

Diabetic Retinopathy (DR) is a common complication of diabetes and a leading cause of blindness worldwide. Early and accurate grading of its severity is crucial for disease management. Although deep learning has shown great potential for automated DR grading, its real-world deployment is still challenging due to distribution shifts among source and target domains, known as the domain generalization problem. Existing works have mainly attributed the performance degradation to limited domain shifts caused by simple visual discrepancies, which cannot handle complex real-world scenarios. Instead, we present preliminary evidence suggesting the existence of three-fold generalization issues: visual and degradation style shifts, diagnostic pattern diversity, and data imbalance. To tackle these issues, we propose a novel unified framework named Generalizable Diabetic Retinopathy Grading Network (GDRNet). GDRNet consists of three vital components: fundus visual-artifact augmentation (FundusAug), dynamic hybrid-supervised loss (DahLoss), and domain-class-aware re-balancing (DCR). FundusAug generates realistic augmented images via visual transformation and image degradation, while DahLoss jointly leverages pixel-level consistency and image-level semantics to capture the diverse diagnostic patterns and build generalizable feature representations. Moreover, DCR mitigates the data imbalance from a domain-class view and avoids undesired over-emphasis on rare domain-class pairs. Finally, we design a publicly available benchmark for fair evaluations. Extensive comparison experiments against advanced methods and exhaustive ablation studies demonstrate the effectiveness and generalization ability of GDRNet.
翻訳日:2023-07-24 15:19:22 公開日:2023-07-21
# (ab)マルチモーダルllmにおける間接インジェクションのための画像と音の利用

(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs ( http://arxiv.org/abs/2307.10490v2 )

ライセンス: Link先を確認
Eugene Bagdasaryan, Tsung-Yin Hsieh, Ben Nassi, Vitaly Shmatikov(参考訳) マルチモーダルLLMにおける間接的プロンプトおよびインジェクションインジェクションに画像と音をどのように利用できるかを示す。 攻撃者は、プロンプトに対応する敵対的摂動を生成し、画像または音声記録にブレンドする。 ユーザが摂動画像またはオーディオに関する(修正されていない、良心的な)モデルを尋ねると、摂動はモデルを操り、攻撃長文を出力し、/またはその後のダイアログを攻撃者の指示に従うようにする。 この攻撃をLLaVaとPandaGPTをターゲットにした概念実証例で説明する。

We demonstrate how images and sounds can be used for indirect prompt and instruction injection in multi-modal LLMs. An attacker generates an adversarial perturbation corresponding to the prompt and blends it into an image or audio recording. When the user asks the (unmodified, benign) model about the perturbed image or audio, the perturbation steers the model to output the attacker-chosen text and/or make the subsequent dialog follow the attacker's instruction. We illustrate this attack with several proof-of-concept examples targeting LLaVa and PandaGPT.
翻訳日:2023-07-24 15:11:23 公開日:2023-07-21
# 薬局GPT:AI薬剤師

PharmacyGPT: The AI Pharmacist ( http://arxiv.org/abs/2307.10432v2 )

ライセンス: Link先を確認
Zhengliang Liu, Zihao Wu, Mengxuan Hu, Bokai Zhao, Lin Zhao, Tianyi Zhang, Haixing Dai, Xianyan Chen, Ye Shen, Sheng Li, Brian Murray, Tianming Liu, Andrea Sikora(参考訳) 本研究では, chatgpt や gpt-4 などの大規模言語モデル (llm) が臨床薬剤師の役割を模倣する能力を評価するための新しい枠組みである pharmacygpt を紹介する。 本手法は, 患者クラスターの生成, 医薬品計画の定式化, 患者結果の予測にLLMの利用を包含する。 我々はノースカロライナ大学チャペルヒル病院(UNC)で集中治療室(ICU)から取得した実データを用いて調査を行った。 今回の分析は、臨床薬局におけるllmの応用可能性と限界について、患者ケアと将来のai駆動医療ソリューション開発の両方に有意義な洞察を与えてくれる。 薬局GPTの性能を評価することにより、医療環境における人工知能の統合に関する継続的な議論に寄与し、最終的にはこれらの技術の責任と有効利用を促進することを目指している。

In this study, we introduce PharmacyGPT, a novel framework to assess the capabilities of large language models (LLMs) such as ChatGPT and GPT-4 in emulating the role of clinical pharmacists. Our methodology encompasses the utilization of LLMs to generate comprehensible patient clusters, formulate medication plans, and forecast patient outcomes. We conduct our investigation using real data acquired from the intensive care unit (ICU) at the University of North Carolina Chapel Hill (UNC) Hospital. Our analysis offers valuable insights into the potential applications and limitations of LLMs in the field of clinical pharmacy, with implications for both patient care and the development of future AI-driven healthcare solutions. By evaluating the performance of PharmacyGPT, we aim to contribute to the ongoing discourse surrounding the integration of artificial intelligence in healthcare settings, ultimately promoting the responsible and efficacious use of such technologies.
翻訳日:2023-07-24 15:11:13 公開日:2023-07-21
# 日本語文分類と名前付きエンティティ認識課題における相互強化効果

Mutual Reinforcement Effects in Japanese Sentence Classification and Named Entity Recognition Tasks ( http://arxiv.org/abs/2307.10291v2 )

ライセンス: Link先を確認
Chengguang Gan, Qinghao Zhang, and Tatsunori Mori(参考訳) 情報抽出(IE)は自然言語処理において重要なサブフィールドである。 しかし、伝統的に分節化された文分類と名前付きエンティティ認識のアプローチでは、これらの個々のサブタスク間の複雑な相互作用はほとんど調査されていない。 本研究では,これら2つの情報抽出サブタスクにおける相互強化効果の顕在化と理解を目的として,名前付きエンティティ認識による文分類を収束させる統合的分析手法を提案する。 そこで本研究では,Sentence Classification (SC) と Named Entity Recognition (NER) を組み合わせた,Sentence Classification and Named Entity Recognition Multi-task (SCNM) アプローチを提案する。 我々はSCNMのためのSLGフレームワークを開発し、SCとNERの両方を含むウィキペディアデータセットを構築する。 フォーマット変換器を用いて入力形式を統一し,生成モデルを用いてscラベル,nerラベル,関連するテキストセグメントを生成する。 生成フォーマットの精度を向上させるための制約機構(cm)を提案する。 その結果,SCの精度はSCNMでは1.13ポイント,NERでは1.06ポイント向上し,CMでは63.61から100に向上した。 その結果,scとnerの相互強化効果が示され,統合により両タスクの性能が向上した。 また,単一のSCタスクに対してSLGフレームワークを実装した。 2つの異なるSCデータセットのベースラインと比較すると, 精度は良好であった。 特に、少数ショット学習の実験では、slgフレームワークは、微調整されたメソッドよりもずっと優れたパフォーマンスを示している。 これらの経験的発見はSLGフレームワークの有効性を裏付ける追加の証拠となる。

Information extraction(IE) is a crucial subfield within natural language processing. However, for the traditionally segmented approach to sentence classification and Named Entity Recognition, the intricate interactions between these individual subtasks remain largely uninvestigated. In this study, we propose an integrative analysis, converging sentence classification with Named Entity Recognition, with the objective to unveil and comprehend the mutual reinforcement effect within these two information extraction subtasks. To achieve this, we introduce a Sentence Classification and Named Entity Recognition Multi-task (SCNM) approach that combines Sentence Classification (SC) and Named Entity Recognition (NER). We develop a Sentence-to-Label Generation (SLG) framework for SCNM and construct a Wikipedia dataset containing both SC and NER. Using a format converter, we unify input formats and employ a generative model to generate SC-labels, NER-labels, and associated text segments. We propose a Constraint Mechanism (CM) to improve generated format accuracy. Our results show SC accuracy increased by 1.13 points and NER by 1.06 points in SCNM compared to standalone tasks, with CM raising format accuracy from 63.61 to 100. The findings indicate mutual reinforcement effects between SC and NER, and integration enhances both tasks' performance. We additionally implemented the SLG framework on single SC task. It yielded superior accuracies compared to the baseline on two distinct Japanese SC datasets. Notably, in the experiment of few-shot learning, SLG framework shows much better performance than fine-tune method. These empirical findings contribute additional evidence to affirm the efficacy of the SLG framework.
翻訳日:2023-07-24 15:10:59 公開日:2023-07-21
# NFT評価の力学--AI倫理とソーシャルメディア

On the Mechanics of NFT Valuation: AI Ethics and Social Media ( http://arxiv.org/abs/2307.10201v2 )

ライセンス: Link先を確認
Luyao Zhang, Yutong Sun, Yutong Quan, Jiaxun Cao, Xin Tong(参考訳) CryptoPunksはAIとアートにおけるNFT(Non-fungible tokens)の革新の先駆けとして、NFTのバリュエーションメカニズムがトレンドとなっている。 以前の研究では、倫理と社会がCryptoPunksの価格予測に与える影響を明らかにしていた。 2021年のNFT市場のブーム以来、CryptoPunksの議論はソーシャルメディアで広まった。 それでも、既存の文献は、NFTの評価の歴史的転換点以降、社会的感情要因を考慮していない。 本稿では,ソーシャルメディア,ブロックチェーン,暗号取引データの実証分析により,ソーシャルメディアの感情とジェンダーとスキントーンがNFT評価にどのように貢献するかを検討する。 われわれは、ソーシャルな感情がcryptopunkの価格予測に大きく貢献していることを証明している。 さらに,2021年以降における評価力学の構造変化について報告する。 クリプトパンクに対する人々の態度は概ね肯定的であるが、この結果は性別や肌色に基づく取引活動や価格の不均衡を反映している。 本研究の結果は, 性別や肌の色など, 可読性のある属性のセットに基づいて, NFTの希少性を制御し, 一貫性と堅牢性を実現した。 私たちの研究は、分散AIやブロックチェーンのエコシステムに焦点を当てた、AI、倫理、社会の交差点における学際的な研究に貢献しています。 GitHubのオープンアクセスとして、複製性のためのデータとコードを提供しています。

As CryptoPunks pioneers the innovation of non-fungible tokens (NFTs) in AI and art, the valuation mechanics of NFTs has become a trending topic. Earlier research identifies the impact of ethics and society on the price prediction of CryptoPunks. Since the booming year of the NFT market in 2021, the discussion of CryptoPunks has propagated on social media. Still, existing literature hasn't considered the social sentiment factors after the historical turning point on NFT valuation. In this paper, we study how sentiments in social media, together with gender and skin tone, contribute to NFT valuations by an empirical analysis of social media, blockchain, and crypto exchange data. We evidence social sentiments as a significant contributor to the price prediction of CryptoPunks. Furthermore, we document structure changes in the valuation mechanics before and after 2021. Although people's attitudes towards Cryptopunks are primarily positive, our findings reflect imbalances in transaction activities and pricing based on gender and skin tone. Our result is consistent and robust, controlling for the rarity of an NFT based on the set of human-readable attributes, including gender and skin tone. Our research contributes to the interdisciplinary study at the intersection of AI, Ethics, and Society, focusing on the ecosystem of decentralized AI or blockchain. We provide our data and code for replicability as open access on GitHub.
翻訳日:2023-07-24 15:10:34 公開日:2023-07-21
# ldp: 言語駆動型デュアルピクセル画像デフォーカスデブラリングネットワーク

LDP: Language-driven Dual-Pixel Image Defocus Deblurring Network ( http://arxiv.org/abs/2307.09815v2 )

ライセンス: Link先を確認
Hao Yang, Liyuan Pan, Yan Yang, Miaomiao Liu(参考訳) 両画素(DP)ペアから鮮明な画像と不透明度に依存したぼやけを復元することは難しい課題である。 既存のぼやけた地図に基づくデブラリング手法は有望な結果を示している。 本稿では,我々の知識を最大限に活用し,対照言語画像事前学習フレームワーク(clip)を導入した最初のフレームワークを提案する。 この目的のために,まずテキストプロンプトを慎重に設計し,クリップがdpペアからぼやけに関連した幾何学的事前知識を理解できるようにする。 そこで我々は,CLIPが単眼画像上で事前学習されるような微調整をせずに,ステレオDPペアをCLIPに入力する方式を提案する。 推定されたぼかしマップを考えると、ぼかし優先注意ブロック、ぼかし強調損失、ぼかし認識損失を導入し、全フォーカス画像の復元を行う。 本手法は広範な実験で最先端の性能を実現する。

Recovering sharp images from dual-pixel (DP) pairs with disparity-dependent blur is a challenging task.~Existing blur map-based deblurring methods have demonstrated promising results. In this paper, we propose, to the best of our knowledge, the first framework to introduce the contrastive language-image pre-training framework (CLIP) to achieve accurate blur map estimation from DP pairs unsupervisedly. To this end, we first carefully design text prompts to enable CLIP to understand blur-related geometric prior knowledge from the DP pair. Then, we propose a format to input stereo DP pair to the CLIP without any fine-tuning, where the CLIP is pre-trained on monocular images. Given the estimated blur map, we introduce a blur-prior attention block, a blur-weighting loss and a blur-aware loss to recover the all-in-focus image. Our method achieves state-of-the-art performance in extensive experiments.
翻訳日:2023-07-24 15:10:13 公開日:2023-07-21
# 超伝導量子プロセッサ上でのサブ線形資源を持つ整数のベクトル化」へのコメント

A comment on "Factoring integers with sublinear resources on a superconducting quantum processor" ( http://arxiv.org/abs/2307.09651v2 )

ライセンス: Link先を確認
Tanuj Khattar, Noureldin Yosri(参考訳) 量子コンピューティングは、RSAやDiffie-Hellmanのような古典的な公開鍵暗号スキームを破り、暗号に革命をもたらす可能性がある。 しかし、Shorの量子因数分解アルゴリズムを用いて広く使われている2048ビットRSAを破るには、何百万ものノイズの多い物理量子ビットが必要であり、現在の量子コンピュータの能力をはるかに超えている。 Yanらによる最近の提案。 al.は、量子オプティマイザ(qaoa)を用いて広く議論されているシュノールの格子ベースの整数分解アルゴリズムを改善し、さらに372量子ビットでrsa 2048を破ることができると主張する。 本稿では,yanらによって提案されたアルゴリズムのオープンソース実装を提案する。 完璧な量子オプティマイザ(QAOAのようなヒューリスティックではなく)があったとしても、提案された主張は真実ではない。 具体的には、Schnorrのアルゴリズムのハイブリッド量子+古典版に対する主張されるサブ線形格子次元は、70ビットまでの整数しか分解できず、80ビット以上のランダムな整数に対して十分な分解関係が見つからないことを示す。 さらに我々は、我々の実装が、格子に基づく還元を用いて、他のハイブリッド量子+古典整数分解アルゴリズムのアイデアを簡単にテストできる場となることを望んでいる。

Quantum computing has the potential to revolutionize cryptography by breaking classical public-key cryptography schemes, such as RSA and Diffie-Hellman. However, breaking the widely used 2048-bit RSA using Shor's quantum factoring algorithm is expected to require millions of noisy physical qubits and is well beyond the capabilities of present day quantum computers. A recent proposal by Yan et. al. tries to improve the widely debated Schnorr's lattice-based integer factorization algorithm using a quantum optimizer (QAOA), and further claim that one can break RSA 2048 using only 372 qubits. In this work, we present an open-source implementation of the algorithm proposed by Yan et. al. and show that, even if we had a perfect quantum optimizer (instead of a heuristic like QAOA), the proposed claims don't hold true. Specifically, our implementation shows that the claimed sublinear lattice dimension for the Hybrid quantum+classical version of Schnorr's algorithm successfully factors integers only up to 70 bits and fails to find enough factoring relations for random 80 bit integers and beyond. We further hope that our implementation serves as a playground for the community to easily test other hybrid quantum + classical integer factorization algorithm ideas using lattice based reductions.
翻訳日:2023-07-24 15:09:27 公開日:2023-07-21
# MolFM:マルチモーダル分子基盤モデル

MolFM: A Multimodal Molecular Foundation Model ( http://arxiv.org/abs/2307.09484v2 )

ライセンス: Link先を確認
Yizhen Luo, Kai Yang, Massimo Hong, Xing Yi Liu, and Zaiqing Nie(参考訳) 分子知識は、分子構造、生物医学文書、知識基盤の3つの異なる情報源の様相に存在する。 これらのモダリティから分子知識を効果的に組み込むことは、生体医学研究の促進に最重要となる。 しかし、既存のマルチモーダル分子基礎モデルでは、分子構造とテキストの間の複雑な結合を捉えることに限界があり、さらに重要なことに、知識グラフから派生した豊富な分子知識を活用しようとはしない。 本研究では,分子構造,バイオメディカルテキスト,知識グラフからの共同表現学習を容易にするためのマルチモーダル分子基盤モデルであるMolFMを紹介する。 本稿では,分子構造の原子間,分子の近傍,意味的関連テキスト間のクロスモーダル・アテンションを提案する。 クロスモーダル事前学習は、同じ分子の異なるモダリティ間の特徴空間における距離を最小化し、同じ構造や機能を共有する分子を最小化することで、局所的および大域的な分子知識を捉えているという理論的分析を提供する。 MolFMは様々な下流タスクで最先端のパフォーマンスを達成する。 クロスモーダル検索では、MolFMは既存のモデルよりも12.13%、絶対利得は5.04%、ゼロショットと微調整がそれぞれ優れている。 さらに、質的分析は分子のサブ構造と知識グラフからの接地を提供する mofm の暗黙の能力を示す。 コードとモデルはhttps://github.com/BioFM/OpenBioMed.comで入手できる。

Molecular knowledge resides within three different modalities of information sources: molecular structures, biomedical documents, and knowledge bases. Effective incorporation of molecular knowledge from these modalities holds paramount significance in facilitating biomedical research. However, existing multimodal molecular foundation models exhibit limitations in capturing intricate connections between molecular structures and texts, and more importantly, none of them attempt to leverage a wealth of molecular expertise derived from knowledge graphs. In this study, we introduce MolFM, a multimodal molecular foundation model designed to facilitate joint representation learning from molecular structures, biomedical texts, and knowledge graphs. We propose cross-modal attention between atoms of molecular structures, neighbors of molecule entities and semantically related texts to facilitate cross-modal comprehension. We provide theoretical analysis that our cross-modal pre-training captures local and global molecular knowledge by minimizing the distance in the feature space between different modalities of the same molecule, as well as molecules sharing similar structures or functions. MolFM achieves state-of-the-art performance on various downstream tasks. On cross-modal retrieval, MolFM outperforms existing models with 12.13% and 5.04% absolute gains under the zero-shot and fine-tuning settings, respectively. Furthermore, qualitative analysis showcases MolFM's implicit ability to provide grounding from molecular substructures and knowledge graphs. Code and models are available on https://github.com/BioFM/OpenBioMed.
翻訳日:2023-07-24 15:08:59 公開日:2023-07-21
# Ord2Seq: 正規回帰をラベルシーケンス予測として扱う

Ord2Seq: Regarding Ordinal Regression as Label Sequence Prediction ( http://arxiv.org/abs/2307.09004v2 )

ライセンス: Link先を確認
Jinhong Wang, Yi Cheng, Jintai Chen, Tingting Chen, Danny Chen and Jian Wu(参考訳) 通常の回帰とは、オブジェクトインスタンスを順序カテゴリーに分類することを指す。 医学的疾患の格付けや映画評価など、多くのシナリオで広く研究されている。 既知の手法は、クラス間の順序関係の学習のみに焦点をあてるが、これまでのところ、隣接するカテゴリの識別には制限が伴う。 本稿では,Ord2Seqと呼ばれる順序回帰のための簡単なシーケンス予測フレームワークを提案する。このフレームワークは,各順序圏ラベルを特別なラベルシーケンスに変換することで,順序回帰タスクをシーケンス予測プロセスとみなす。 このように、順序回帰タスクを一連の再帰的な二分分類ステップに分解し、隣接するカテゴリを部分的に区別する。 総合的な実験により,隣接するカテゴリを識別して性能向上を図り,新しいアプローチが4つのシナリオにおいて最先端のパフォーマンスを上回ることを示す。 コードはhttps://github.com/wjh892521292/ord2seqで入手できる。

Ordinal regression refers to classifying object instances into ordinal categories. It has been widely studied in many scenarios, such as medical disease grading, movie rating, etc. Known methods focused only on learning inter-class ordinal relationships, but still incur limitations in distinguishing adjacent categories thus far. In this paper, we propose a simple sequence prediction framework for ordinal regression called Ord2Seq, which, for the first time, transforms each ordinal category label into a special label sequence and thus regards an ordinal regression task as a sequence prediction process. In this way, we decompose an ordinal regression task into a series of recursive binary classification steps, so as to subtly distinguish adjacent categories. Comprehensive experiments show the effectiveness of distinguishing adjacent categories for performance improvement and our new approach exceeds state-of-the-art performances in four different scenarios. Codes are available at https://github.com/wjh892521292/Ord2Seq.
翻訳日:2023-07-24 15:08:33 公開日:2023-07-21
# 高密度サンプルディープラーニング

Dense Sample Deep Learning ( http://arxiv.org/abs/2307.10991v2 )

ライセンス: Link先を確認
Stephen Jos\`e Hanson, Vivek Yadav, Catherine Hanson(参考訳) 1980年代に最初に提案されたニューラルネットワークアルゴリズムの変種であるdeep learning(dl)は、言語翻訳、タンパク質の折り畳み、自動運転車、最近では人間に似た言語モデル(チャットボット)に至るまで、人工知能(ai)において驚くべき進歩を遂げた。 ディープラーニング(dl)ネットワークの利用は増加しているが、これらのネットワークをさまざまなアプリケーションで効果的にする学習メカニズムや表現については、実際にはほとんど理解されていない。 答えの一部はアーキテクチャの巨大なスケールでなければならないし、もちろんデータの大規模なスケールでなければならない。 しかし、深層学習表現の性質はほとんど不明である。 残念なことに、数百万から数十億のトークンを持つトレーニングセットには未知のコンビネータがあり、数百万から数十億の隠れたユニットを持つネットワークは容易に可視化できず、そのメカニズムは容易に明らかにできない。 本稿では,これらの質問を高密度サンプルタスク(最低500個以上のトークンを含む5つのユニークなトークン)における大きな (1.24M 重量; VGG) DL を用いて探索し,カテゴリ構造と特徴構成の出現をより注意深く追従することを可能にする。 これらの結果から,dlの学習ダイナミクスに関する基礎的な観察を収集し,本研究に基づく複雑な特徴構築の新たな理論を提案する。

Deep Learning (DL) , a variant of the neural network algorithms originally proposed in the 1980s, has made surprising progress in Artificial Intelligence (AI), ranging from language translation, protein folding, autonomous cars, and more recently human-like language models (CHATbots), all that seemed intractable until very recently. Despite the growing use of Deep Learning (DL) networks, little is actually understood about the learning mechanisms and representations that makes these networks effective across such a diverse range of applications. Part of the answer must be the huge scale of the architecture and of course the large scale of the data, since not much has changed since 1987. But the nature of deep learned representations remain largely unknown. Unfortunately training sets with millions or billions of tokens have unknown combinatorics and Networks with millions or billions of hidden units cannot easily be visualized and their mechanisms cannot be easily revealed. In this paper, we explore these questions with a large (1.24M weights; VGG) DL in a novel high density sample task (5 unique tokens with at minimum 500 exemplars per token) which allows us to more carefully follow the emergence of category structure and feature construction. We use various visualization methods for following the emergence of the classification and the development of the coupling of feature detectors and structures that provide a type of graphical bootstrapping, From these results we harvest some basic observations of the learning dynamics of DL and propose a new theory of complex feature construction based on our results.
翻訳日:2023-07-24 15:03:18 公開日:2023-07-21
# 3次元医用画像分割における信頼区間の評価

Confidence intervals for performance estimates in 3D medical image segmentation ( http://arxiv.org/abs/2307.10926v2 )

ライセンス: Link先を確認
R. El Jurdi, G. Varoquaux, O. Colliot(参考訳) 医療セグメンテーションモデルは経験的に評価される。 このような評価は、サンプル画像の限られたセットに基づいているため、避けられない騒音である。 平均的なパフォーマンス指標を超えて、信頼区間の報告が重要である。 しかし、医用画像分割ではめったに行われない。 信頼区間の幅は、テストセットのサイズとパフォーマンス測定値の広がりに依存する(テストセット全体の標準緩和)。 分類には、幅広い信頼区間を避けるために多くのテスト画像が必要である。 しかし、セグメンテーションは研究されておらず、与えられたテスト画像によってもたらされる情報量によって異なる。 本稿では,医用画像分割における典型的な信頼区間について検討する。 標準のnnu-netフレームワークを用いた3次元画像分割実験を行い,医療用デカロンチャレンジから得られた2つのデータセットと,dice精度とハウスドルフ距離の2つの性能測定を行った。 パラメトリック信頼区間は,種々のテストセットサイズと性能指標の拡散に対するブートストラップ推定値の妥当な近似であることを示す。 重要となるのは,特定の精度を達成するのに必要なテストサイズが,分類タスクよりもはるかに低いことだ。 通常、1%の広信頼区間は、拡散が低い場合(標準偏差は約3%)、100-200のテストサンプルを必要とする。 より難しいセグメンテーションタスクは、より高いスプレッドをもたらし、1000以上のサンプルを必要とする。

Medical segmentation models are evaluated empirically. As such an evaluation is based on a limited set of example images, it is unavoidably noisy. Beyond a mean performance measure, reporting confidence intervals is thus crucial. However, this is rarely done in medical image segmentation. The width of the confidence interval depends on the test set size and on the spread of the performance measure (its standard-deviation across of the test set). For classification, many test images are needed to avoid wide confidence intervals. Segmentation, however, has not been studied, and it differs by the amount of information brought by a given test image. In this paper, we study the typical confidence intervals in medical image segmentation. We carry experiments on 3D image segmentation using the standard nnU-net framework, two datasets from the Medical Decathlon challenge and two performance measures: the Dice accuracy and the Hausdorff distance. We show that the parametric confidence intervals are reasonable approximations of the bootstrap estimates for varying test set sizes and spread of the performance metric. Importantly, we show that the test size needed to achieve a given precision is often much lower than for classification tasks. Typically, a 1% wide confidence interval requires about 100-200 test samples when the spread is low (standard-deviation around 3%). More difficult segmentation tasks may lead to higher spreads and require over 1000 samples.
翻訳日:2023-07-24 15:02:50 公開日:2023-07-21
# 双方向積分近似による完全拡散反転

Exact Diffusion Inversion via Bi-directional Integration Approximation ( http://arxiv.org/abs/2307.10829v2 )

ライセンス: Link先を確認
Guoqiang Zhang and J. P. Lewis and W. Bastiaan Kleijn(参考訳) 近年, EDICT \cite{Wallace23EDICT} や Null-text inversion \cite{Mokady23NullTestInv} などの画像編集を可能にするために, DDIM の矛盾問題に対処する様々な手法が提案されている。 しかし、上記の手法は計算オーバーヘッドがかなり大きい。 本稿では,BDIA(emph{bi-directional integration approximation)と呼ばれる新しい手法を提案する。 次の拡散状態 $\boldsymbol{z}_{i-1}$ at timestep $t_i$ と履歴情報 $(i,\boldsymbol{z}_i)$ と $(i+1,\boldsymbol{z}_{i+1})$ を推定する。 まず、推定されたガウスノイズ $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$ を取得し、次に次回の時間スロット$[t_i, t_{i-1}]$ と前回の時間スロット$[t_i, t_{t+1}]$ を後方方向に近似するためにDDIM更新手順を2回適用する。 以前の時間スロットのDDIMステップは、$\boldsymbol{z}_i$を計算する際に以前になされた積分近似を洗練するために使用される。 bdia-ddim の素晴らしい性質の一つは、$\boldsymbol{z}_{i-1}$ の更新式が $(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$ の線形結合であるということである。 これにより、$\boldsymbol{z}_{i+1}$が与えられた$(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$の正確な逆計算が可能になり、正確な拡散反転をもたらす。 画像再構成と画像編集の両方の実験を行い,確認した。 BDIAはDDIMに加えて他のODEソルバの性能向上にも応用できる。 本研究では,EDMサンプリング法にBDIAを適用することにより,CIFAR10よりも若干優れたFIDスコアが得られた。

Recently, different methods have been proposed to address the inconsistency issue of DDIM inversion to enable image editing, such as EDICT \cite{Wallace23EDICT} and Null-text inversion \cite{Mokady23NullTestInv}. However, the above methods introduce considerable computational overhead. In this paper, we propose a new technique, named \emph{bi-directional integration approximation} (BDIA), to perform exact diffusion inversion with neglible computational overhead. Suppose we would like to estimate the next diffusion state $\boldsymbol{z}_{i-1}$ at timestep $t_i$ with the historical information $(i,\boldsymbol{z}_i)$ and $(i+1,\boldsymbol{z}_{i+1})$. We first obtain the estimated Gaussian noise $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$, and then apply the DDIM update procedure twice for approximating the ODE integration over the next time-slot $[t_i, t_{i-1}]$ in the forward manner and the previous time-slot $[t_i, t_{t+1}]$ in the backward manner. The DDIM step for the previous time-slot is used to refine the integration approximation made earlier when computing $\boldsymbol{z}_i$. One nice property with BDIA-DDIM is that the update expression for $\boldsymbol{z}_{i-1}$ is a linear combination of $(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$. This allows for exact backward computation of $\boldsymbol{z}_{i+1}$ given $(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$, thus leading to exact diffusion inversion. Experiments on both image reconstruction and image editing were conducted, confirming our statement. BDIA can also be applied to improve the performance of other ODE solvers in addition to DDIM. In our work, it is found that applying BDIA to the EDM sampling procedure produces slightly better FID score over CIFAR10.
翻訳日:2023-07-24 15:02:27 公開日:2023-07-21
# 簡単な検出による量子状態による物体検出とレンジフィンディング

Object detection and rangefinding with quantum states using simple detection ( http://arxiv.org/abs/2307.10785v2 )

ライセンス: Link先を確認
Richard J. Murchie, Jonathan D. Pritchard, John Jeffers(参考訳) 単一レベルが弱い雑音環境において、量子照明は、非同時位相非感受性の偶然数に基づく準最適測定の限界においても、対象物の存在と範囲を決定する際に古典的な照明よりも優れる。 現実的な実験プロトコルによって動機付けされ、簡単な検出器で同時マルチショットデータを解析するための理論的枠組みを提案する。 このアプローチは、見過ごされがちな非結合データを含めることを可能にし、オブジェクトの存在と範囲を推測するキャリブレーションフリーのしきい値を提供し、異なる検出レジーム間の公正な比較を可能にする。 本研究は, 雑音環境下でのターゲット識別を行う際の古典的照明に対する量子の利点を定量化し, 所定の信頼度でターゲットを検出するのに必要なショット数を推定することを含む。

In a noisy environment with weak single levels, quantum illumination can outperform classical illumination in determining the presence and range of a target object even in the limit of sub-optimal measurements based on non-simultaneous, phase-insensitive coincidence counts. Motivated by realistic experimental protocols, we present a theoretical framework for analysing coincident multi-shot data with simple detectors. This approach allows for the often-overlooked non-coincidence data to be included, as well as providing a calibration-free threshold for inferring the presence and range of an object, enabling a fair comparison between different detection regimes. Our results quantify the advantage of quantum over classical illumination when performing target discrimination in a noisy thermal environment, including estimating the number of shots required to detect a target with a given confidence level.
翻訳日:2023-07-24 15:01:32 公開日:2023-07-21
# 共役DPM:拡散確率モデルの勾配バックプロパゲーションのための随伴感度法

AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models ( http://arxiv.org/abs/2307.10711v2 )

ライセンス: Link先を確認
Jiachun Pan, Jun Hao Liew, Vincent Y. F. Tan, Jiashi Feng, Hanshu Yan(参考訳) 既存のカスタマイズ方法は、事前訓練された拡散確率モデル(DPM)をユーザが提供する概念に合わせるために、複数の参照例にアクセスする必要がある。 本論文は、DPMカスタマイズの課題として、生成コンテンツ上で定義された差別化可能な指標が唯一利用可能な監督基準である場合に解決することを目的とする。 dpms のサンプリング手順は再帰的な unet への呼び出しを必要とするため、na\"ive gradient backpropagation では全てのイテレーションの中間状態を格納する必要があるため、メモリ消費が非常に高い。 そこで本研究では,まず拡散モデルから,対応する確率フローODEを解き,新しいサンプルを生成する手法であるAdjointDPMを提案する。 次に、随伴感度法を用いて、別の拡張ODEを解くことで、損失の勾配をモデルのパラメータ(条件信号、ネットワーク重み、初期雑音を含む)に戻す。 さらに, 指数積分を用いて, 確率フローODEと拡張ODEを単純な非剛性ODEとして再パラメータ化する。 最後に、視覚効果を識別テキストの埋め込みに変換すること、特定のスタイル化のためのDPMを微調整すること、セキュリティ監査のための反対サンプルを生成するために初期ノイズを最適化すること、の3つの興味深い課題に対するAdjointDPMの有効性を実証する。

Existing customization methods require access to multiple reference examples to align pre-trained diffusion probabilistic models (DPMs) with user-provided concepts. This paper aims to address the challenge of DPM customization when the only available supervision is a differentiable metric defined on the generated contents. Since the sampling procedure of DPMs involves recursive calls to the denoising UNet, na\"ive gradient backpropagation requires storing the intermediate states of all iterations, resulting in extremely high memory consumption. To overcome this issue, we propose a novel method AdjointDPM, which first generates new samples from diffusion models by solving the corresponding probability-flow ODEs. It then uses the adjoint sensitivity method to backpropagate the gradients of the loss to the models' parameters (including conditioning signals, network weights, and initial noises) by solving another augmented ODE. To reduce numerical errors in both the forward generation and gradient backpropagation processes, we further reparameterize the probability-flow ODE and augmented ODE as simple non-stiff ODEs using exponential integration. Finally, we demonstrate the effectiveness of AdjointDPM on three interesting tasks: converting visual effects into identification text embeddings, finetuning DPMs for specific types of stylization, and optimizing initial noise to generate adversarial samples for security auditing.
翻訳日:2023-07-24 15:01:18 公開日:2023-07-21
# 逆知識蒸留:限定データを用いた網膜画像マッチングのための小型モデルによる大規模モデルの訓練

Reverse Knowledge Distillation: Training a Large Model using a Small One for Retinal Image Matching on Limited Data ( http://arxiv.org/abs/2307.10698v2 )

ライセンス: Link先を確認
Sahar Almahfouz Nasser, Nihar Gupte, and Amit Sethi(参考訳) 網膜画像マッチングは、疾患の進行と治療反応のモニタリングにおいて重要な役割を果たす。 しかしながら、時間分割された画像のペア間で一致したキーポイントを持つデータセットは、トランスフォーマティブベースのモデルのトレーニングには不十分である。 本稿では, オーバーフィッティングを防止しつつ, 限られたデータで大規模モデルを訓練するための, 逆知識蒸留に基づく新しい手法を提案する。 まず,一般公開されたデータセット上での結果を改善するために,cnnベースのsuperretinaと呼ばれる半教師付きメソッドのアーキテクチャ修正を提案する。 次に,より重いモデルに基づくより軽いモデルを訓練する分野の知識蒸留研究において直観に反するcnnベースのモデルを用いて,視覚トランスフォーマエンコーダに基づく計算量より重いモデルを訓練する。 驚くべきことに、このような逆知識蒸留は一般化をさらに改善する。 実験により,表現空間における高次元の嵌合は,最終出力に適合する訓練と異なり過度な適合を防止できる可能性が示唆された。 また、網膜画像のキーポイント検出とマッチングのためのアノテーションを付加したパブリックデータセットを提供し、網膜画像応用のためのアルゴリズムの開発を支援する。

Retinal image matching plays a crucial role in monitoring disease progression and treatment response. However, datasets with matched keypoints between temporally separated pairs of images are not available in abundance to train transformer-based model. We propose a novel approach based on reverse knowledge distillation to train large models with limited data while preventing overfitting. Firstly, we propose architectural modifications to a CNN-based semi-supervised method called SuperRetina that help us improve its results on a publicly available dataset. Then, we train a computationally heavier model based on a vision transformer encoder using the lighter CNN-based model, which is counter-intuitive in the field knowledge-distillation research where training lighter models based on heavier ones is the norm. Surprisingly, such reverse knowledge distillation improves generalization even further. Our experiments suggest that high-dimensional fitting in representation space may prevent overfitting unlike training directly to match the final output. We also provide a public dataset with annotations for retinal image keypoint detection and matching to help the research community develop algorithms for retinal image applications.
翻訳日:2023-07-24 15:00:53 公開日:2023-07-21
# レビューにおける偽りの顕在化: nlp技術の探求

Unmasking Falsehoods in Reviews: An Exploration of NLP Techniques ( http://arxiv.org/abs/2307.10617v2 )

ライセンス: Link先を確認
Anusuya Baby Hari Krishnan(参考訳) 現代のデジタルランドスケープでは、オンラインレビューは様々なビジネスで製品やサービスを宣伝するのに欠かせないツールとなっている。 マーケター、広告主、オンラインビジネスは、自社製品の偽りの肯定的なレビューや競合製品の否定的なレビューを作成するインセンティブを見出した。 その結果、自己の宣伝やライバルの弱体化を図る企業にとって、偽りのレビューを書くことは避けられない習慣となっている。 このような疑わしいレビューの検出は、現在進行中の研究領域となっている。 本研究は,レストランに焦点をあてた認知的レビューを識別する機械学習モデルを提案する。 本研究は,偽証的意見スパムコーパスとして知られるレストランレビューのデータセット上で実施した多数の実験の結果を考察する。 これを実現するため、特に偽レビューに焦点を当てたn-gramモデルとmax機能を開発し、偽コンテンツを効果的に識別する。 ベンチマーク研究により、2つの異なる特徴抽出手法の性能を調査し、5つの異なる機械学習分類アルゴリズムと組み合わせた。 実験結果から,パッシブ・アグレッシブ・アグレッシブ・クラシファイアは,テキスト分類だけでなく,偽レビューを識別する上でも高い精度を示すことが明らかとなった。 さらに、この研究はデータ拡張を掘り下げ、様々な深層学習技術を実装して、偽りのレビューを検出するプロセスをさらに強化する。 この調査結果は、提案された機械学習アプローチの有効性を浮き彫りにし、オンラインビジネスの領域における偽レビューを扱うための貴重な洞察を提供する。

In the contemporary digital landscape, online reviews have become an indispensable tool for promoting products and services across various businesses. Marketers, advertisers, and online businesses have found incentives to create deceptive positive reviews for their products and negative reviews for their competitors' offerings. As a result, the writing of deceptive reviews has become an unavoidable practice for businesses seeking to promote themselves or undermine their rivals. Detecting such deceptive reviews has become an intense and ongoing area of research. This research paper proposes a machine learning model to identify deceptive reviews, with a particular focus on restaurants. This study delves into the performance of numerous experiments conducted on a dataset of restaurant reviews known as the Deceptive Opinion Spam Corpus. To accomplish this, an n-gram model and max features are developed to effectively identify deceptive content, particularly focusing on fake reviews. A benchmark study is undertaken to explore the performance of two different feature extraction techniques, which are then coupled with five distinct machine learning classification algorithms. The experimental results reveal that the passive aggressive classifier stands out among the various algorithms, showcasing the highest accuracy not only in text classification but also in identifying fake reviews. Moreover, the research delves into data augmentation and implements various deep learning techniques to further enhance the process of detecting deceptive reviews. The findings shed light on the efficacy of the proposed machine learning approach and offer valuable insights into dealing with deceptive reviews in the realm of online businesses.
翻訳日:2023-07-24 15:00:32 公開日:2023-07-21
# 多目的フェデレーション学習によるSecureBoostハイパーパラメータチューニング

SecureBoost Hyperparameter Tuning via Multi-Objective Federated Learning ( http://arxiv.org/abs/2307.10579v2 )

ライセンス: Link先を確認
Ziyao Ren, Yan Kang, Lixin Fan, Linghua Yang, Tao Fan, Yongxin Tong and Qiang Yang(参考訳) SecureBoostは、準同型暗号化を活用して、垂直連邦学習環境でデータのプライバシを保護するツリーブースティングアルゴリズムである。 金融や医療などの分野では、解釈可能性、有効性、プライバシー保護能力によって広く利用されている。 しかしSecureBoostは、高い計算複雑性とラベルリークのリスクに悩まされている。 SecureBoostの潜在能力を最大限活用するためには、SecureBoostのハイパーパラメータを慎重に選択して、ユーティリティ、効率、プライバシの最適なバランスをとる必要がある。 既存の手法では経験的あるいはヒューリスティックにハイパーパラメータを設定するが、それらは最適とはほど遠い。 このギャップを埋めるために、制約付きマルチオブジェクトセキュアBoost(CMOSB)アルゴリズムを提案し、各ソリューションがユーティリティ損失、トレーニングコスト、プライバシリークの間の最適なトレードオフを達成するためのハイパーパラメータのセットである、Pareto最適解を見つける。 3つの目的の測定を設計する。 特に,提案したインスタンスクラスタリング攻撃を用いて,プライバシリークを測定する。 実験により、CMOSBはベースラインよりも優れたハイパーパラメータを得るだけでなく、FL参加者のフレキシブルな要求を満たすための最適なハイパーパラメータセットも得られることが示された。

SecureBoost is a tree-boosting algorithm leveraging homomorphic encryption to protect data privacy in vertical federated learning setting. It is widely used in fields such as finance and healthcare due to its interpretability, effectiveness, and privacy-preserving capability. However, SecureBoost suffers from high computational complexity and risk of label leakage. To harness the full potential of SecureBoost, hyperparameters of SecureBoost should be carefully chosen to strike an optimal balance between utility, efficiency, and privacy. Existing methods either set hyperparameters empirically or heuristically, which are far from optimal. To fill this gap, we propose a Constrained Multi-Objective SecureBoost (CMOSB) algorithm to find Pareto optimal solutions that each solution is a set of hyperparameters achieving optimal tradeoff between utility loss, training cost, and privacy leakage. We design measurements of the three objectives. In particular, the privacy leakage is measured using our proposed instance clustering attack. Experimental results demonstrate that the CMOSB yields not only hyperparameters superior to the baseline but also optimal sets of hyperparameters that can support the flexible requirements of FL participants.
翻訳日:2023-07-24 15:00:08 公開日:2023-07-21
# ethosight:ジョイントエンベディングと文脈ラベル親和性に基づくニュアンス知覚のための推論誘導反復学習システム

Ethosight: A Reasoning-Guided Iterative Learning System for Nuanced Perception based on Joint-Embedding & Contextual Label Affinity ( http://arxiv.org/abs/2307.10577v2 )

ライセンス: Link先を確認
Hugo Latapie, Kristinn R. Thorisson, Shan Yu, Vahagn Petrosyan, Patrick Hammer, Pei Wang, Brandon Kynoch, Hanning Chen, Tangrui Li(参考訳) 従来のコンピュータビジョンモデルは、データ取得、アノテーション、検証、特に微妙な振る舞いのニュアンスやイベントを検出するために、広範囲な手作業を必要とする。 日常的な買い物と潜在的な万引きを区別するといった、現実世界のアプリケーションにおける潜在的なリスクとルーチンの振る舞いを区別することの難しさは、さらにプロセスを複雑にする。 さらに、これらのモデルは、トレーニングデータの条件と大きく異なる実世界のシナリオに露出した場合、高い偽陽性率と不正確な事象検出を示す可能性がある。 これらのハードルを克服するために,我々は新しいゼロショットコンピュータビジョンシステムであるethosightを提案する。 Ethosightは、ユーザの要求と関心に関するセマンティックな知識に基づいて、クリーンなスレートで開始する。 局所ラベル親和性計算と推論誘導反復学習ループを用いて、Ethosightはシーンの詳細を推測し、ラベルセットを反復的に洗練する。 推論メカニズムは、GPT4のような大きな言語モデル、OpenNARS\cite{wang2013}\cite{wang2006}のようなシンボリック推論モデル、ハイブリッドシステムから派生することができる。 評価の結果,健康,安全,セキュリティなどの領域にまたがる40の複雑なユースケースにおいて,ethosightの有効性が示された。 本論文の本体内における詳細な結果とケーススタディと付録は,微妙でニュアンスな動作の検出と抽出において,コンピュータビジョンモデルの適応性とレジリエンスを高めるための有望な軌道を示すものである。

Traditional computer vision models often require extensive manual effort for data acquisition, annotation and validation, particularly when detecting subtle behavioral nuances or events. The difficulty in distinguishing routine behaviors from potential risks in real-world applications, such as differentiating routine shopping from potential shoplifting, further complicates the process. Moreover, these models may demonstrate high false positive rates and imprecise event detection when exposed to real-world scenarios that differ significantly from the conditions of the training data. To overcome these hurdles, we present Ethosight, a novel zero-shot computer vision system. Ethosight initiates with a clean slate based on user requirements and semantic knowledge of interest. Using localized label affinity calculations and a reasoning-guided iterative learning loop, Ethosight infers scene details and iteratively refines the label set. Reasoning mechanisms can be derived from large language models like GPT4, symbolic reasoners like OpenNARS\cite{wang2013}\cite{wang2006}, or hybrid systems. Our evaluations demonstrate Ethosight's efficacy across 40 complex use cases, spanning domains such as health, safety, and security. Detailed results and case studies within the main body of this paper and an appendix underscore a promising trajectory towards enhancing the adaptability and resilience of computer vision models in detecting and extracting subtle and nuanced behaviors.
翻訳日:2023-07-24 14:59:47 公開日:2023-07-21
# 特殊モデルに対する競争学習アプローチ--異なる機能的レジームをもつ複雑な物理システムに対する解法

A Competitive Learning Approach for Specialized Models: A Solution for Complex Physical Systems with Distinct Functional Regimes ( http://arxiv.org/abs/2307.10496v2 )

ライセンス: Link先を確認
Okezzi F. Ukorigho and Opeoluwa Owoyele(参考訳) 科学と工学の複雑なシステムは、しばしば異なる体制にまたがって変化する振る舞いを示す。 従来のグローバルモデルは、この複雑な振る舞いの完全な範囲を捉えるのに苦労し、システムを正確に表現する能力を制限する。 そこで本研究では,物理システムのデータ駆動モデルを得るための新しい競争学習手法を提案する。 提案手法の背後にある主要なアイデアは、データ上で同時にトレーニングされる一連のモデルに対して動的損失関数を採用することである。 各モデルは、トレーニング中の各観察を競い合い、データセット内で異なる機能的レジームを識別できるようにする。 学習手法の有効性を示すために,グラデーションに基づく学習最適化を用いた様々な回帰手法と組み合わせた。 提案手法は, モデル探索と関数近似を含む様々な問題に対して検証され, 機能的状態の同定, 真の支配方程式の発見, テスト誤差の低減を実現した。

Complex systems in science and engineering sometimes exhibit behavior that changes across different regimes. Traditional global models struggle to capture the full range of this complex behavior, limiting their ability to accurately represent the system. In response to this challenge, we propose a novel competitive learning approach for obtaining data-driven models of physical systems. The primary idea behind the proposed approach is to employ dynamic loss functions for a set of models that are trained concurrently on the data. Each model competes for each observation during training, allowing for the identification of distinct functional regimes within the dataset. To demonstrate the effectiveness of the learning approach, we coupled it with various regression methods that employ gradient-based optimizers for training. The proposed approach was tested on various problems involving model discovery and function approximation, demonstrating its ability to successfully identify functional regimes, discover true governing equations, and reduce test errors.
翻訳日:2023-07-24 14:59:21 公開日:2023-07-21
# generative programs フレームワーク

The Generative Programs Framework ( http://arxiv.org/abs/2307.11282v1 )

ライセンス: Link先を確認
Mordecai Waegell, Kelvin J. McQueen, and Emily C. Adlam(参考訳) 近年、因果モデリング技術を用いて物理理論の構造を理解することに大きな関心が寄せられている。 しかし、「因果関係」の概念は限定的であり、物理的理論が因果構造を伴わなければならないという主張は、既に理論がとるべき形態に重大な制約を課している。 そこで本稿では,より汎用的な構造的枠組みの確立を目指す。 我々は、任意の量的物理理論は、生成プログラムの形式で表現できる、すなわち、経験的データを生成する方法を示す命令のリスト、すなわち、このプログラムに関連する情報処理構造は、有向非巡回グラフ(DAG)で表すことができると主張している。 これらのグラフは「オントロジー優先性」の関係を符号化したものと解釈でき、存在論的優先性は自然因果構造を持たない理論にも当てはまる因果関係の適切な一般化である。 我々は,現実主義,操作主義,自由意志,局所性,微調整に関する哲学的疑問に対するフレームワークの応用について論じる。

Recently there has been significant interest in using causal modelling techniques to understand the structure of physical theories. However, the notion of `causation' is limiting - insisting that a physical theory must involve causal structure already places significant constraints on the form that theory may take. Thus in this paper, we aim to set out a more general structural framework. We argue that any quantitative physical theory can be represented in the form of a generative program, i.e. a list of instructions showing how to generate the empirical data; the information-processing structure associated with this program can be represented by a directed acyclic graph (DAG). We suggest that these graphs can be interpreted as encoding relations of `ontological priority,' and that ontological priority is a suitable generalisation of causation which applies even to theories that don't have a natural causal structure. We discuss some applications of our framework to philosophical questions about realism, operationalism, free will, locality and fine-tuning.
翻訳日:2023-07-24 14:13:00 公開日:2023-07-21
# epsilon*: マシンラーニングモデルのためのプライバシメトリック

Epsilon*: Privacy Metric for Machine Learning Models ( http://arxiv.org/abs/2307.11280v1 )

ライセンス: Link先を確認
Diana M. Negoescu, Humberto Gonzalez, Saad Eddin Al Orjany, Jilei Yang, Yuliia Lut, Rahul Tandra, Xiaowen Zhang, Xinyi Zheng, Zach Douglas, Vidita Nolkha, Parvez Ahammad, Gennady Samorodnitsky(参考訳) epsilon*は,プライバシ緩和戦略の展開前後において,単一のモデルインスタンスのプライバシリスクを測定するための,新たなプライバシ指標です。 メトリックは、トレーニングデータサンプリングやモデルトレーニングアルゴリズムへのアクセスを必要としない。 エプシロン*は、メンバーシップ推論攻撃で敵が使用する仮説テストにおいて真正正正率と偽正率の関数である。 我々は、トレーニングされたモデルインスタンスのプライバシー損失の定量化と、このモデルインスタンスを生成するトレーニングメカニズムのプライバシー損失の定量化を区別する。 既存のプライバシ監査文献のアプローチは後者のバウンダリを低くし、我々のメトリクスは({\epsilon}$,${\delta}$)トレーニングされたモデルインスタンスのプライバシの定量化のタイプに依存することで、前者のバウンダリを低くします。 我々は,これらの下界の関係を確立し,数値および雑音増幅の不安定性を回避するためにEpsilon*の実装方法を示す。 さらに,非dpトレーニングベースラインモデルのepsilon*値と比較して,epsilon*値が最大800%低減される差分プライバシ(dp)を用いたトレーニングにより,epsilon*がプライバシリスク軽減に敏感であることをベンチマーク公開データセットで実証した。 このメトリクスは、プライバシ監査者がモデル所有者から独立することを可能にし、すべての意思決定者がプライバシユーティリティの展望を視覚化し、モデルプライバシとユーティリティ間のトレードオフに関する情報的な決定を可能にする。

We introduce Epsilon*, a new privacy metric for measuring the privacy risk of a single model instance prior to, during, or after deployment of privacy mitigation strategies. The metric does not require access to the training data sampling or model training algorithm. Epsilon* is a function of true positive and false positive rates in a hypothesis test used by an adversary in a membership inference attack. We distinguish between quantifying the privacy loss of a trained model instance and quantifying the privacy loss of the training mechanism which produces this model instance. Existing approaches in the privacy auditing literature provide lower bounds for the latter, while our metric provides a lower bound for the former by relying on an (${\epsilon}$,${\delta}$)-type of quantification of the privacy of the trained model instance. We establish a relationship between these lower bounds and show how to implement Epsilon* to avoid numerical and noise amplification instability. We further show in experiments on benchmark public data sets that Epsilon* is sensitive to privacy risk mitigation by training with differential privacy (DP), where the value of Epsilon* is reduced by up to 800% compared to the Epsilon* values of non-DP trained baseline models. This metric allows privacy auditors to be independent of model owners, and enables all decision-makers to visualize the privacy-utility landscape to make informed decisions regarding the trade-offs between model privacy and utility.
翻訳日:2023-07-24 14:12:43 公開日:2023-07-21
# Generator-Retriever-Generator:オープンドメイン質問応答の新しいアプローチ

Generator-Retriever-Generator: A Novel Approach to Open-domain Question Answering ( http://arxiv.org/abs/2307.11278v1 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Adam Jatowt(参考訳) オープンドメイン質問応答(QA)タスクは通常、正確な回答を生成するために、大きなコーパスから関連する情報を検索する必要がある。 そこで本研究では, 文書検索手法と大規模言語モデル(llm)を組み合わせた新しい手法であるgenerator-retriever-generator (grg)を提案する。 並行して、デュアルエンコーダネットワークは、外部コーパスから質問に関連する文書を取得する。 生成された文書と検索された文書は、最終回答を生成する第2のLSMに渡される。 文書検索とLLM生成を組み合わせることで,情報的および文脈的関連性のある回答を生成するなど,オープンドメインQAの課題に対処する。 GRGは、TriviaQA、NQ、およびWebQデータセット上で、少なくとも+5.2、+4.2、+1.6の性能を改善した、最先端のgenREADおよびRFiDパイプライン(genREADとRFiD)より優れている。 私たちはコード、データセット、チェックポイント \footnote{\url{https://github.com/abdoelsayed2016/grg}}を提供します。

Open-domain question answering (QA) tasks usually require the retrieval of relevant information from a large corpus to generate accurate answers. We propose a novel approach called Generator-Retriever-Generator (GRG) that combines document retrieval techniques with a large language model (LLM), by first prompting the model to generate contextual documents based on a given question. In parallel, a dual-encoder network retrieves documents that are relevant to the question from an external corpus. The generated and retrieved documents are then passed to the second LLM, which generates the final answer. By combining document retrieval and LLM generation, our approach addresses the challenges of open-domain QA, such as generating informative and contextually relevant answers. GRG outperforms the state-of-the-art generate-then-read and retrieve-then-read pipelines (GENREAD and RFiD) improving their performance at least by +5.2, +4.2, and +1.6 on TriviaQA, NQ, and WebQ datasets, respectively. We provide code, datasets, and checkpoints \footnote{\url{https://github.com/abdoelsayed2016/GRG}}
翻訳日:2023-07-24 14:12:13 公開日:2023-07-21
# 乳癌検診

Screening Mammography Breast Cancer Detection ( http://arxiv.org/abs/2307.11274v1 )

ライセンス: Link先を確認
Debajyoti Chakraborty(参考訳) 乳癌はがん関連死亡の主な原因であるが、現在のプログラムは高価であり、偽陽性になりやすいため、不要なフォローアップや患者の不安につながる。 本稿では,検診プログラムの効率と精度を向上させるため,乳がん検診の自動化手法を提案する。 約2万例の乳房x線画像のrsnaデータセットに対して異なる方法がテストされ,各方法で平均検証症例 pf1 スコア 0.56 が得られた。

Breast cancer is a leading cause of cancer-related deaths, but current programs are expensive and prone to false positives, leading to unnecessary follow-up and patient anxiety. This paper proposes a solution to automated breast cancer detection, to improve the efficiency and accuracy of screening programs. Different methodologies were tested against the RSNA dataset of radiographic breast images of roughly 20,000 female patients and yielded an average validation case pF1 score of 0.56 across methods.
翻訳日:2023-07-24 14:11:51 公開日:2023-07-21
# 状態判別による標準量子理論の導出

Derivation of Standard Quantum Theory via State Discrimination ( http://arxiv.org/abs/2307.11271v1 )

ライセンス: Link先を確認
Hayato Arai and Masahito Hayashi(参考訳) 一般的なモデルから標準量子論のモデルを操作条件で特徴付けることは重要な問題である。 GPT(General Probabilistic Theories)の枠組みは、標準量子論を単一化するための新しい情報理論のアプローチである。 従来の性質、例えばベル-CHSHの不等式は、GPTの可能なモデルの中で標準量子論を選別するのに十分ではないことが知られている。 より正確な特性として、一般的なモデルにおける状態識別と呼ばれる情報タスクのパフォーマンスの限界に焦点を当てる。 我々は、標準量子論の下で最小判別誤差確率を上回る等価条件を与え、これはトレースノルムによって与えられる。 さらに、等価条件を適用することにより、条件下での一般モデルのクラスから標準量子理論を導出する。

It is a key issue to characterize the model of standard quantum theory out of general models by an operational condition. The framework of General Probabilistic Theories (GPTs) is a new information theoretical approach to single out standard quantum theory. It is known that traditional properties, for example, Bell-CHSH inequality are not sufficient to single out standard quantum theory among possible models in GPTs. As a more precise property, we focus on the bound of the performance for an information task called state discrimination in general models. We give an equivalent condition for outperforming the minimum discrimination error probability under the standard quantum theory, which is given by the trace norm. Besides, by applying the equivalent condition, we derive standard quantum theory out of classes of general models under a condition.
翻訳日:2023-07-24 14:11:43 公開日:2023-07-21
# きめ細かな画像分類を改善した画像特定テキスト生成

Generating Image-Specific Text Improves Fine-grained Image Classification ( http://arxiv.org/abs/2307.11315v1 )

ライセンス: Link先を確認
Emily Mu and Kathleen M. Lewis and Adrian V. Dalca and John Guttag(参考訳) 最近の視覚言語モデルは、多くの画像分類タスクで視覚のみのモデルを上回る。 しかし、テキスト/画像のペア記述がないため、細かな画像分類のためにこれらのモデルを微調整することは困難である。 本研究では,画像のみのデータセットから画像固有の細粒度テキスト記述を生成する手法gistを提案し,これらの記述が分類の改善に利用できることを示す。 私たちの方法の主な部分は 1. 事前訓練された大規模言語モデルにドメイン固有のプロンプトを付与し、各クラスごとに多種多様な詳細なテキスト記述を生成する。 2.画像中の関連する視覚特徴をキャプチャするラベル保存テキスト記述と、各画像にマッチする事前訓練された視覚言語モデルを使用すること。 画像と生成テキストのペア上で視覚言語モデルを微調整することでgistの有用性を実証し,分類改善のための協調した視覚言語表現空間を学習する。 学習した表現空間を,異なる領域の4つの細粒度分類データセットのフルショットおよび数ショットシナリオで評価した。 提案手法は,CLIP線形プローブよりも平均4.1\%の精度向上と,フルショットデータセット上での従来の最先端画像テキスト分類法よりも平均1.1\%の精度向上を実現している。 本手法は, マイトショット方式において同様の改善を実現する。 コードはhttps://github.com/emu1729/GISTで入手できる。

Recent vision-language models outperform vision-only models on many image classification tasks. However, because of the absence of paired text/image descriptions, it remains difficult to fine-tune these models for fine-grained image classification. In this work, we propose a method, GIST, for generating image-specific fine-grained text descriptions from image-only datasets, and show that these text descriptions can be used to improve classification. Key parts of our method include 1. prompting a pretrained large language model with domain-specific prompts to generate diverse fine-grained text descriptions for each class and 2. using a pretrained vision-language model to match each image to label-preserving text descriptions that capture relevant visual features in the image. We demonstrate the utility of GIST by fine-tuning vision-language models on the image-and-generated-text pairs to learn an aligned vision-language representation space for improved classification. We evaluate our learned representation space in full-shot and few-shot scenarios across four diverse fine-grained classification datasets, each from a different domain. Our method achieves an average improvement of $4.1\%$ in accuracy over CLIP linear probes and an average of $1.1\%$ improvement in accuracy over the previous state-of-the-art image-text classification method on the full-shot datasets. Our method achieves similar improvements across few-shot regimes. Code is available at https://github.com/emu1729/GIST.
翻訳日:2023-07-24 14:03:42 公開日:2023-07-21
# 前向きタイムラインを用いた時空間パターンのニューロモルフィックオンライン学習

Neuromorphic Online Learning for Spatiotemporal Patterns with a Forward-only Timeline ( http://arxiv.org/abs/2307.11314v1 )

ライセンス: Link先を確認
Zhenhang Zhang, Jingang Jin, Haowen Fang, Qinru Qiu(参考訳) spiking neural networks (snns) は、高エネルギー効率のバイオプラッシブル・コンピューティングモデルである。 ニューロンとシナプスの時間的ダイナミクスは、時間的パターンを検出し、シーケンスを生成することができる。 Backproagation Through Time (BPTT) は伝統的にSNNのトレーニングに使用されているが、高い計算とメモリコストと拡張遅延のため、組み込みアプリケーションのオンライン学習には適していない。 従来の研究はオンライン学習アルゴリズムを提案しているが、シナプスダイナミクスやリセットフィードバックを伴わずに非常に単純化されたスパイクニューロンモデルを使用することが多かった。 本稿では,SOLSA(Spatiotemporal Online Learning for Synaptic Adaptation)を提案する。これは,指数的に崩壊したシナプスとソフトリセットを持つLeaky Integrate and Fire(LIF)ニューロンからなるSNNのオンライン学習用に特別に設計されたものだ。 このアルゴリズムはシナプス重みを学習するだけでなく、シナプスに関連する時間フィルタにも適応する。 BPTTアルゴリズムと比較して、SOLSAはメモリ要件がはるかに低く、時間的ワークロードの分散をよりバランスよく実現している。 さらに、SOLSAは、スケジュールされた重み付け更新、早期停止訓練、適応的なシナプスフィルタなどの強化技術を導入し、収束を高速化し、学習性能を向上させる。 他の非BPTTベースのSNN学習と比較して、SOLSAは平均的な学習精度が14.2%向上したことを示した。 さらに,BPTTと比較して,SOLSAは平均学習精度を5%高め,メモリコストを72%削減する。

Spiking neural networks (SNNs) are bio-plausible computing models with high energy efficiency. The temporal dynamics of neurons and synapses enable them to detect temporal patterns and generate sequences. While Backpropagation Through Time (BPTT) is traditionally used to train SNNs, it is not suitable for online learning of embedded applications due to its high computation and memory cost as well as extended latency. Previous works have proposed online learning algorithms, but they often utilize highly simplified spiking neuron models without synaptic dynamics and reset feedback, resulting in subpar performance. In this work, we present Spatiotemporal Online Learning for Synaptic Adaptation (SOLSA), specifically designed for online learning of SNNs composed of Leaky Integrate and Fire (LIF) neurons with exponentially decayed synapses and soft reset. The algorithm not only learns the synaptic weight but also adapts the temporal filters associated to the synapses. Compared to the BPTT algorithm, SOLSA has much lower memory requirement and achieves a more balanced temporal workload distribution. Moreover, SOLSA incorporates enhancement techniques such as scheduled weight update, early stop training and adaptive synapse filter, which speed up the convergence and enhance the learning performance. When compared to other non-BPTT based SNN learning, SOLSA demonstrates an average learning accuracy improvement of 14.2%. Furthermore, compared to BPTT, SOLSA achieves a 5% higher average learning accuracy with a 72% reduction in memory cost.
翻訳日:2023-07-24 14:03:18 公開日:2023-07-21
# グローバルとローカルのフィデリティが等しい場合の必要十分条件

The necessary and sufficient conditions when global and local fidelities are equal ( http://arxiv.org/abs/2307.11310v1 )

ライセンス: Link先を確認
Seong-Kun Kim, Yonghae Lee(参考訳) 量子情報理論の分野では、2つの量子状態間の類似性を定量化するために量子忠実性の概念が用いられる。 2部量子系の$A \otimes B$を記述する2つの状態間の忠実度は常に、サブシステム$A$のみの状態間の量子忠実度よりも小さいか等しいことが観察されている。 この忠実不等式はよく理解されているが、不等式が等式となる条件を決定することは未解決の問題である。 本稿では, 純量子状態を考慮した二成分系 $a \otimes b$ とサブシステム $a$ の等価性に必要な十分条件を提案する。 さらに、得られた結果に基づいて、忠実度平等を満たす量子状態の明示的な表現を提供する。

In the field of quantum information theory, the concept of quantum fidelity is employed to quantify the similarity between two quantum states. It has been observed that the fidelity between two states describing a bipartite quantum system $A \otimes B$ is always less than or equal to the quantum fidelity between the states in subsystem $A$ alone. While this fidelity inequality is well understood, determining the conditions under which the inequality becomes an equality remains an open question. In this paper, we present the necessary and sufficient conditions for the equality of fidelities between a bipartite system $A \otimes B$ and subsystem $A$, considering pure quantum states. Moreover, we provide explicit representations of quantum states that satisfy the fidelity equality, based on our derived results.
翻訳日:2023-07-24 14:02:52 公開日:2023-07-21
# DPM-OT: 最適輸送に基づく新しい拡散確率モデル

DPM-OT: A New Diffusion Probabilistic Model Based on Optimal Transport ( http://arxiv.org/abs/2307.11308v1 )

ライセンス: Link先を確認
Zezeng Li, ShengHao Li, Zhanpeng Wang, Na Lei, Zhongxuan Luo, Xianfeng Gu(参考訳) 拡散確率モデル(dpms)からのサンプリングは分断分布変換と見なすことができ、高品質の画像を得るためには一般に数百から数千ステップの逆拡散軌道を必要とする。 近年のDPM用高速サンプリング器の設計は, 知識蒸留によるサンプリング速度と試料品質のトレードオフ, 分散スケジュールの調整, あるいはデノナイジング方程式のトレードオフを実現している。 しかし、どちらの面でも最適ではなく、短いステップでモード混合に苦しむことが多い。 この問題に対処するために,異なる段階の潜伏者間での最適輸送(OT)問題として逆拡散を革新的に考慮し,OTマップに代表される直接表現路を持つ高速DPMのための統合学習フレームワークであるDPM-OTを提案し,約10の関数評価で高品質なサンプルを生成する。 本研究では,データ潜時とホワイトノイズ間の半離散的最適輸送マップを算出し,先行分布からデータ分布までの高速道路を得るとともに,モード混合の問題を大幅に緩和する。 さらに,アルゴリズムの安定性を理論的に保証する提案手法の誤差境界を与える。 広汎な実験は、DPM-OTの有効性と利点を、速度と品質(FIDとモードの混合)の観点から検証し、生成モデリングの効率的な解を示す。 ソースコードはhttps://github.com/cognaclee/DPM-OTで入手できる。

Sampling from diffusion probabilistic models (DPMs) can be viewed as a piecewise distribution transformation, which generally requires hundreds or thousands of steps of the inverse diffusion trajectory to get a high-quality image. Recent progress in designing fast samplers for DPMs achieves a trade-off between sampling speed and sample quality by knowledge distillation or adjusting the variance schedule or the denoising equation. However, it can't be optimal in both aspects and often suffer from mode mixture in short steps. To tackle this problem, we innovatively regard inverse diffusion as an optimal transport (OT) problem between latents at different stages and propose the DPM-OT, a unified learning framework for fast DPMs with a direct expressway represented by OT map, which can generate high-quality samples within around 10 function evaluations. By calculating the semi-discrete optimal transport map between the data latents and the white noise, we obtain an expressway from the prior distribution to the data distribution, while significantly alleviating the problem of mode mixture. In addition, we give the error bound of the proposed method, which theoretically guarantees the stability of the algorithm. Extensive experiments validate the effectiveness and advantages of DPM-OT in terms of speed and quality (FID and mode mixture), thus representing an efficient solution for generative modeling. Source codes are available at https://github.com/cognaclee/DPM-OT
翻訳日:2023-07-24 14:02:37 公開日:2023-07-21
# EndoSurf:ステレオ内視鏡による変形性組織の神経表面再構成

EndoSurf: Neural Surface Reconstruction of Deformable Tissues with Stereo Endoscope Videos ( http://arxiv.org/abs/2307.11307v1 )

ライセンス: Link先を確認
Ruyi Zha, Xuelian Cheng, Hongdong Li, Mehrtash Harandi, Zongyuan Ge(参考訳) ステレオ内視鏡ビデオから軟組織を再構成することは、多くの医療応用にとって必須の前提条件である。 従来の手法では、3Dシーンの表現が不十分なため、高品質な幾何学や外観を作り出すのに苦労していた。 この問題に対処するため,我々は,RGBD配列から変形面を表現することを効果的に学習する,EndoSurfと呼ばれるニューラルフィールドベースの新しい手法を提案する。 endosurfでは、表面ダイナミクス、形状、テクスチャを3つの神経場でモデル化する。 まず、変形場を用いて、観測された空間から標準空間へ3Dポイントを変換する。 符号付き距離関数(SDF)フィールドと放射場はそれぞれSDFと色を予測し、RGBD画像は異なるボリュームレンダリングによって合成できる。 複数の正則化戦略を調整し、幾何学と外観を分離することで学習した形状を制約する。 公開内視鏡データセットの実験では、特に高忠実度形状の再構成において、EndoSurfが既存のソリューションよりも大幅に優れていることが示されている。 コードはhttps://github.com/Ruyi-Zha/endosurf.gitで入手できる。

Reconstructing soft tissues from stereo endoscope videos is an essential prerequisite for many medical applications. Previous methods struggle to produce high-quality geometry and appearance due to their inadequate representations of 3D scenes. To address this issue, we propose a novel neural-field-based method, called EndoSurf, which effectively learns to represent a deforming surface from an RGBD sequence. In EndoSurf, we model surface dynamics, shape, and texture with three neural fields. First, 3D points are transformed from the observed space to the canonical space using the deformation field. The signed distance function (SDF) field and radiance field then predict their SDFs and colors, respectively, with which RGBD images can be synthesized via differentiable volume rendering. We constrain the learned shape by tailoring multiple regularization strategies and disentangling geometry and appearance. Experiments on public endoscope datasets demonstrate that EndoSurf significantly outperforms existing solutions, particularly in reconstructing high-fidelity shapes. Code is available at https://github.com/Ruyi-Zha/endosurf.git.
翻訳日:2023-07-24 14:02:12 公開日:2023-07-21
# PI-VEGAN:確率微分方程式に対する物理インフォームド変分埋め込み生成逆数ネットワーク

PI-VEGAN: Physics Informed Variational Embedding Generative Adversarial Networks for Stochastic Differential Equations ( http://arxiv.org/abs/2307.11289v1 )

ライセンス: Link先を確認
Ruisong Gao, Yufeng Wang, Min Yang, Chuanjun Chen(参考訳) 本稿では, 確率微分方程式の前方, 逆, 混合問題に効果的に取り組んだ, 変動埋め込み生成逆数ネットワーク (PI-VEGAN) と呼ばれる新しい物理情報ニューラルネットワークのカテゴリを提案する。 これらのシナリオでは、支配方程式が知られているが、システムパラメータのセンサ測定は限られた数しかない。 実測値の潜在変数を近似する変分エンコーダを導入しながら, 物理法則をPI-VEGANと自動微分に統合する。 これらの潜在変数は生成器に統合され、確率的部分方程式の特性の正確な学習を容易にする。 本モデルは, エンコーダ, ジェネレータ, 判別器の3成分で構成され, それぞれが確率勾配降下アルゴリズムを用いて更新される。 我々は,システムパラメータと解の同時計算を必要とする,前方・逆・混合問題に対するPI-VEGANの有効性を評価する。 提案手法は,従来の物理式生成逆ネットワーク (pi-wgan) と比較して,安定性と精度が良好であることを示す。

We present a new category of physics-informed neural networks called physics informed variational embedding generative adversarial network (PI-VEGAN), that effectively tackles the forward, inverse, and mixed problems of stochastic differential equations. In these scenarios, the governing equations are known, but only a limited number of sensor measurements of the system parameters are available. We integrate the governing physical laws into PI-VEGAN with automatic differentiation, while introducing a variational encoder for approximating the latent variables of the actual distribution of the measurements. These latent variables are integrated into the generator to facilitate accurate learning of the characteristics of the stochastic partial equations. Our model consists of three components, namely the encoder, generator, and discriminator, each of which is updated alternatively employing the stochastic gradient descent algorithm. We evaluate the effectiveness of PI-VEGAN in addressing forward, inverse, and mixed problems that require the concurrent calculation of system parameters and solutions. Numerical results demonstrate that the proposed method achieves satisfactory stability and accuracy in comparison with the previous physics-informed generative adversarial network (PI-WGAN).
翻訳日:2023-07-24 14:01:53 公開日:2023-07-21
# カーネル化されたオフラインデュエルバンド

Kernelized Offline Contextual Dueling Bandits ( http://arxiv.org/abs/2307.11288v1 )

ライセンス: Link先を確認
Viraj Mehta and Ojash Neopane and Vikramjeet Das and Sen Lin and Jeff Schneider and Willie Neiswanger(参考訳) 選好に基づくフィードバックは、報酬関数の直接評価が不可能である多くのアプリケーションにとって重要である。 最近の顕著な例は、大規模な言語モデルに対する人間のフィードバックからの強化学習である。 これらのアプリケーションの多くは、人間のフィードバックを取得するコストが相当か、あるいは禁止的になる可能性がある。 本研究では,適切な方針を最も効率的に特定するために,エージェントがヒューマンフィードバックを得るコンテキストを選択できる場合が多いことを利用し,オフラインのコンテクスト・デュエル・バンディット設定を導入する。 我々は,この設定に対して上位信頼バウンド型アルゴリズムを与え,後悔バウンドを証明する。 また,本手法が一様サンプルコンテキストを用いた類似の手法よりも優れていることを示す。

Preference-based feedback is important for many applications where direct evaluation of a reward function is not feasible. A notable recent example arises in reinforcement learning from human feedback on large language models. For many of these applications, the cost of acquiring the human feedback can be substantial or even prohibitive. In this work, we take advantage of the fact that often the agent can choose contexts at which to obtain human feedback in order to most efficiently identify a good policy, and introduce the offline contextual dueling bandit setting. We give an upper-confidence-bound style algorithm for this setting and prove a regret bound. We also give empirical confirmation that this method outperforms a similar strategy that uses uniformly sampled contexts.
翻訳日:2023-07-24 14:01:32 公開日:2023-07-21
# 高速量子計算とセンシングのためのインパルススピン運動エンタングルメント

Impulsive Spin-Motion Entanglement for Fast Quantum Computation and Sensing ( http://arxiv.org/abs/2307.11287v1 )

ライセンス: Link先を確認
Randall Putnam, Adam D. West, Wesley C. Campbell, and Paul Hamilton(参考訳) 我々は、1つの基底状態に閉じ込められたイオンのスピンと運動自由度の絡み合いを16ドルpsレーザーパルスを用いて行う。 相互作用の持続時間は、運動時間スケール(約10$$$\mu$s)とスピン先行時間スケール(約10$ ns)の両方よりもかなり短いため、量子情報処理におけるこの操作に基本的な速度制限が与えられていないことを示している。 位相空間における波動関数のスピン成分としてのスピンコヒーレンスの崩壊と復活によって、絡み合いが証明される。 我々は、これらのシングルキュービット操作の忠実度を9.7(3)\%$と推測する。

We perform entanglement of spin and motional degrees of freedom of a single, ground-state trapped ion through the application of a $16$ ps laser pulse. The duration of the interaction is significantly shorter than both the motional timescale ($\approx 10$ $\mu$s) and spin precession timescale ($\approx 10$ ns), demonstrating that neither sets a fundamental speed limit on this operation for quantum information processing. Entanglement is demonstrated through the collapse and revival of spin coherence as the spin components of the wavefunction separate and recombine in phase space. We infer the fidelity of these single qubit operations to be $97(3)\%$.
翻訳日:2023-07-24 14:01:21 公開日:2023-07-21
# ハイブリッド推論システムのための意図しない安定固定点の除去

Eliminating Unintended Stable Fixpoints for Hybrid Reasoning Systems ( http://arxiv.org/abs/2307.11286v1 )

ライセンス: Link先を確認
Spencer Killen, Jia-Huai You(参考訳) AFT(Approximation Fixpoint Theory)の下で定義された近似子として表すことができる。 従来の AFT 理論では、以前の安定リビジョンの反復で計算された情報に依存する近似器を定義することはできない。 しかし、この情報は古典否定を非単調な推論に組み込む意味論に豊富である。 本稿では,事前計算された上界を利用して意味論をより正確に捉える aft に似た手法を提案する。 我々は,最先端の近似器を拡張し,ハイブリッドmknf (minimal knowledge and negation as failure) 知識ベースへの適用性を示す。

A wide variety of nonmonotonic semantics can be expressed as approximators defined under AFT (Approximation Fixpoint Theory). Using traditional AFT theory, it is not possible to define approximators that rely on information computed in previous iterations of stable revision. However, this information is rich for semantics that incorporate classical negation into nonmonotonic reasoning. In this work, we introduce a methodology resembling AFT that can utilize priorly computed upper bounds to more precisely capture semantics. We demonstrate our framework's applicability to hybrid MKNF (minimal knowledge and negation as failure) knowledge bases by extending the state-of-the-art approximator.
翻訳日:2023-07-24 14:01:07 公開日:2023-07-21
# MAS:資源効率の良いマルチタスク学習を目指して

MAS: Towards Resource-Efficient Federated Multiple-Task Learning ( http://arxiv.org/abs/2307.11285v1 )

ライセンス: Link先を確認
Weiming Zhuang, Yonggang Wen, Lingjuan Lyu, Shuai Zhang(参考訳) Federated Learning(FL)は、分散型エッジデバイス上でのその場でモデルトレーニングを可能にする、新興の分散機械学習手法である。 しかし、複数のFLタスクがリソース制約されたデバイスをオーバーロードする可能性がある。 本研究では,複数の同時flタスクを効率的に調整・訓練する初のflシステムを提案する。 まず,同時flタスクの学習問題を定式化する。 次に,複数の同時flタスクの学習性能を最適化するために,mas(merge and split)という新しい手法を提案する。 MASは、FLタスクをマルチタスクアーキテクチャでオールインワンのFLタスクにマージすることから始まる。 数ラウンドのトレーニングの後、MASはオールインワンのFLタスクを2つ以上のFLタスクに分割し、オールインワンのトレーニング中に測定されたタスク間の親和性を利用する。 その後、オールインワンのトレーニングからモデルパラメータに基づいてFLタスクの分割をトレーニングする。 大規模な実験により、MASは訓練時間を2倍に減らし、エネルギー消費を40%減らしながら、他の方法よりも優れていることが示された。 この取り組みがコミュニティにさらなる研究を促し、同時FLタスクのトレーニングを最適化することを期待しています。

Federated learning (FL) is an emerging distributed machine learning method that empowers in-situ model training on decentralized edge devices. However, multiple simultaneous FL tasks could overload resource-constrained devices. In this work, we propose the first FL system to effectively coordinate and train multiple simultaneous FL tasks. We first formalize the problem of training simultaneous FL tasks. Then, we present our new approach, MAS (Merge and Split), to optimize the performance of training multiple simultaneous FL tasks. MAS starts by merging FL tasks into an all-in-one FL task with a multi-task architecture. After training for a few rounds, MAS splits the all-in-one FL task into two or more FL tasks by using the affinities among tasks measured during the all-in-one training. It then continues training each split of FL tasks based on model parameters from the all-in-one training. Extensive experiments demonstrate that MAS outperforms other methods while reducing training time by 2x and reducing energy consumption by 40%. We hope this work will inspire the community to further study and optimize training simultaneous FL tasks.
翻訳日:2023-07-24 14:00:56 公開日:2023-07-21
# ベイズ攻撃による敵例の伝達性向上

Improving Transferability of Adversarial Examples via Bayesian Attacks ( http://arxiv.org/abs/2307.11334v1 )

ライセンス: Link先を確認
Qizhang Li, Yiwen Guo, Xiaochen Yang, Wangmeng Zuo, Hao Chen(参考訳) 本稿では, iclr における研究成果の大幅な拡張について述べる。 本稿では,モデルパラメータにベイズ的定式化を組み込むことで,モデルパラメータにベイズ的定式化を組み込むことにより,モデル入力にベイズ的定式化を組み込むことにより,モデル入力にベイズ的定式化を組み込むことにより,新たな拡張を導入することを提案する。 私たちの実証的な発見は 1) モデル入力とモデルパラメータの両方に対するベイズ式の組み合わせは、転送可能性に大きな改善をもたらす。 2) モデル入力に対する後続分布の高度な近似を導入することにより, モデル微調整を伴わない攻撃において, 対向転写性はさらに向上する。 さらに,このような拡張ベイズ式における微動モデルパラメータに対する原理的アプローチを提案する。 導出された最適化目的は、パラメータ空間と入力空間の平坦な最小化を本質的に促進する。 ICLRの基本ベイズ法と比較すると,画像ネットとCIFAR-10の平均成功率は19.14%,CIFAR-10は2.08%向上した。 私たちはコードを公開します。

This paper presents a substantial extension of our work published at ICLR. Our ICLR work advocated for enhancing transferability in adversarial examples by incorporating a Bayesian formulation into model parameters, which effectively emulates the ensemble of infinitely many deep neural networks, while, in this paper, we introduce a novel extension by incorporating the Bayesian formulation into the model input as well, enabling the joint diversification of both the model input and model parameters. Our empirical findings demonstrate that: 1) the combination of Bayesian formulations for both the model input and model parameters yields significant improvements in transferability; 2) by introducing advanced approximations of the posterior distribution over the model input, adversarial transferability achieves further enhancement, surpassing all state-of-the-arts when attacking without model fine-tuning. Moreover, we propose a principled approach to fine-tune model parameters in such an extended Bayesian formulation. The derived optimization objective inherently encourages flat minima in the parameter space and input space. Extensive experiments demonstrate that our method achieves a new state-of-the-art on transfer-based attacks, improving the average success rate on ImageNet and CIFAR-10 by 19.14% and 2.08%, respectively, when comparing with our ICLR basic Bayesian method. We will make our code publicly available.
翻訳日:2023-07-24 13:54:32 公開日:2023-07-21
# 部分的情報分解を用いたフェデレーション学習における地域・グローバルフェアネストレードオフのデミステレーション

Demystifying Local and Global Fairness Trade-offs in Federated Learning Using Partial Information Decomposition ( http://arxiv.org/abs/2307.11333v1 )

ライセンス: Link先を確認
Faisal Hamman, Sanghamitra Dutta(参考訳) 本稿では,フェデレーション学習(FL)におけるグループフェアネスのトレードオフに対する情報理論的視点を,性別や人種などのセンシティブな属性に対して提示する。 既存の作業は、トレードオフを常に考慮せずに、主に \emph{global fairness} (すべてのクライアントでモデルが異なる) または \emph{local fairness} (各クライアントでモデルが異なる) のいずれかに焦点を当てています。 FLにおけるグローバル・フェアネスとローカル・フェアネスの相互作用の理解の欠如と、一方が他方を暗示しているかどうかの理解の欠如がある。 このギャップに対処するために、情報理論における部分的情報分解(PID)という、まずFLにおける不公平な3つの源、すなわち \emph{Unique Disparity} 、 \emph{Redundant Disparity} 、 \emph{Masked Disparity} の同定を行う。 標準的な例を用いて、これらの3つの相違がグローバルおよびローカルフェアネスにどのように貢献するかを示す。 この分解は、大域的あるいは局所的な公平性、特にデータの不均質性の下での基本的な限界とトレードオフを導出し、一方が他方を意味する条件を導出するのに役立つ。 また,ベンチマークデータセットについて実験結果を示し,理論的な知見を裏付ける。 この研究は、FLにおける格差の源泉をより微妙に理解し、局所的な格差緩和技術の使用と、実際に展開する際の収束と効果を知らせる。

In this paper, we present an information-theoretic perspective to group fairness trade-offs in federated learning (FL) with respect to sensitive attributes, such as gender, race, etc. Existing works mostly focus on either \emph{global fairness} (overall disparity of the model across all clients) or \emph{local fairness} (disparity of the model at each individual client), without always considering their trade-offs. There is a lack of understanding of the interplay between global and local fairness in FL, and if and when one implies the other. To address this gap, we leverage a body of work in information theory called partial information decomposition (PID) which first identifies three sources of unfairness in FL, namely, \emph{Unique Disparity}, \emph{Redundant Disparity}, and \emph{Masked Disparity}. Using canonical examples, we demonstrate how these three disparities contribute to global and local fairness. This decomposition helps us derive fundamental limits and trade-offs between global or local fairness, particularly under data heterogeneity, as well as, derive conditions under which one implies the other. We also present experimental results on benchmark datasets to support our theoretical findings. This work offers a more nuanced understanding of the sources of disparity in FL that can inform the use of local disparity mitigation techniques, and their convergence and effectiveness when deployed in practice.
翻訳日:2023-07-24 13:54:09 公開日:2023-07-21
# 収束を超えて:機械学習とディープラーニングモデルの識別可能性

Beyond Convergence: Identifiability of Machine Learning and Deep Learning Models ( http://arxiv.org/abs/2307.11332v1 )

ライセンス: Link先を確認
Reza Sameni(参考訳) 機械学習(ML)とディープラーニングモデルはパラメータ最適化や回帰問題に広く利用されている。 しかし、MLにおけるすべての逆問題「特定可能」は、モデルパラメータが利用可能なデータとデータモデルの入出力関係から一意に決定されないことを示すものではない。 本研究では,運動センサデータからのパラメータ推定に着目したケーススタディにより,モデルパラメータ識別可能性の概念を検討する。 2足歩行-バネ集団歩行ダイナミクスモデルを用いて,多様な歩行パターンと条件を表す合成データを生成する。 深層ニューラルネットワークを用いて, 質量, 剛性, 平衡脚長などの主観的パラメータを推定する。 その結果、特定のパラメータは観測データから識別できるが、他のパラメータは識別不能であり、識別不能は実験セットアップの固有の制限であり、データ収集と実験シナリオの変更が必要であることを強調する。 この特定のケーススタディの他に、識別可能性の概念はMLとディープラーニングに幅広い意味を持つ。 識別不能に対処するには、(理論的サポート付き)証明可能なモデル、マルチモーダルデータ融合技術、モデルベース機械学習の進歩が必要である。 識別不能な課題の理解と解決は、さまざまなドメインにまたがる信頼性と正確性の向上、単なるモデルの収束、マシンラーニングモデルの信頼性向上につながる。

Machine learning (ML) and deep learning models are extensively used for parameter optimization and regression problems. However, not all inverse problems in ML are ``identifiable,'' indicating that model parameters may not be uniquely determined from the available data and the data model's input-output relationship. In this study, we investigate the notion of model parameter identifiability through a case study focused on parameter estimation from motion sensor data. Utilizing a bipedal-spring mass human walk dynamics model, we generate synthetic data representing diverse gait patterns and conditions. Employing a deep neural network, we attempt to estimate subject-wise parameters, including mass, stiffness, and equilibrium leg length. The results show that while certain parameters can be identified from the observation data, others remain unidentifiable, highlighting that unidentifiability is an intrinsic limitation of the experimental setup, necessitating a change in data collection and experimental scenarios. Beyond this specific case study, the concept of identifiability has broader implications in ML and deep learning. Addressing unidentifiability requires proven identifiable models (with theoretical support), multimodal data fusion techniques, and advancements in model-based machine learning. Understanding and resolving unidentifiability challenges will lead to more reliable and accurate applications across diverse domains, transcending mere model convergence and enhancing the reliability of machine learning models.
翻訳日:2023-07-24 13:53:20 公開日:2023-07-21
# 機械振動子とキャビティ-マグノン偏光子の強結合の観測

Observation of strong coupling between a mechanical oscillator and a cavity-magnon polariton ( http://arxiv.org/abs/2307.11328v1 )

ライセンス: Link先を確認
Rui-Chang Shen, Jie Li, Wei-Jiang Wu, Xuan Zuo, Yi-Pu Wang, Shi-Yao Zhu, J. Q. You(参考訳) キャビティマグノメカニクス(cmm)は新興分野であり、過去10年間、多くの注目を集めてきた。 マイクロ波共振器光子、マグノン、振動フォノン間のコヒーレントカップリングを扱う。 これまでのCMM実験はすべて、弱い結合状態で行われた。 これはシステムの様々な応用を著しく制限する。 ここでは, 強結合系におけるCMMシステムを実証し, 関連する正規モード分割を観察する。 この状態において、機械振動子は、強く結合されたキャビティ光子とマグノンによって形成されるキャビティ・マグノン・ポラリトンに強く結合され、ポラリトン・メカニクスの協調性は4\times10^3$に達し、従来のCMM実験よりも3桁改善される。 この系は三重結合系にあり、系の通常のモードはマイクロ波光子、マグノン、フォノンのハイブリッド化である。 これは、コヒーレント完全吸収を用いてポラリトンモードの直線幅を著しく減少させ、その直線幅を4桁小さくすることで達成される。 この研究はフォノン、光子、マグノンの完全な量子制御への道を開き、マルチパーティイトハイブリッドシステムにおけるリッチな強結合効果の研究のための新しいプラットフォームを提供する。

Cavity magnomechanics (CMM) is an emerging field and has received much attention in the past decade. It deals with coherent couplings among microwave cavity photons, magnons and vibration phonons. So far, all previous CMM experiments have been operated in the weak-coupling regime. This considerably limits prospective various applications of the system. Here, we demonstrate the CMM system in the strong-coupling regime and observe the associated normal-mode splitting. In this regime, the mechanical oscillator is strongly coupled to a cavity-magnon polariton that is formed by strongly coupled cavity photons and magnons, and the polariton-mechanics cooperativity reaches $4\times10^3$, which is improved by three orders of magnitude than previous CMM experiments. The system is then in the triple-strong-coupling regime and the normal modes of the system are the hybridization of microwave photons, magnons and phonons. This is achieved by significantly reducing the linewidth of the polariton mode using coherent perfect absorption and the linewidth is reduced by four orders of magnitude. The work paves the way towards full quantum control of phonons, photons and magnons, and provides a new platform for the study of rich strong-coupling effects in multipartite hybrid systems.
翻訳日:2023-07-24 13:52:46 公開日:2023-07-21
# ロボット協調のための実環境から仮想環境へのコミュニケーション型機械学習モデルの体系的適応

Systematic Adaptation of Communication-focused Machine Learning Models from Real to Virtual Environments for Human-Robot Collaboration ( http://arxiv.org/abs/2307.11327v1 )

ライセンス: Link先を確認
Debasmita Mukherjee, Ritwik Singhai and Homayoun Najjaran(参考訳) 仮想現実は、ゲーム、医療、トレーニングから、人間とロボットのコラボレーションを可能にするインターフェイスの開発まで、いくつかの分野のアプリケーションで有用であることが証明されている。 デザイナーは現実世界の環境が課す制約の外のアプリケーションを探索し、革新的なソリューションやエクスペリエンスを開発することができる。 実世界の多くの研究とその後の商業化のトピックである手振り認識は、大きなラベル付きデータセットの作成によって可能になった。 協調ロボットの具体化された遠隔操作を可能にするために、仮想領域における自然および直感的な手のジェスチャーの力を利用するためには、同様に大きなデータセットを作成して、作業インターフェースを学習しやすくし、さらにジェスチャを追加するのに十分な柔軟性を持たせる必要がある。 アプリケーションによっては、計算上または経済的に禁止される可能性がある。 したがって、実環境と仮想環境でうまく機能するトレーニングされたディープラーニングモデルの適応は、この課題の解決策となるかもしれない。 本稿では,仮想データセットのサイズを限定した現実から仮想への適応のための体系的フレームワークと,キュレートされたデータセットを作成するためのガイドラインを提案する。 最後に、手振りをコミュニケーションモードとみなす一方で、提示されたガイドラインや勧告は一般的である。 これらは、実際のドメインで利用可能な大きなデータセットを持つボディポーズや表情などの他のモードにも適用できます。

Virtual reality has proved to be useful in applications in several fields ranging from gaming, medicine, and training to development of interfaces that enable human-robot collaboration. It empowers designers to explore applications outside of the constraints posed by the real world environment and develop innovative solutions and experiences. Hand gestures recognition which has been a topic of much research and subsequent commercialization in the real world has been possible because of the creation of large, labelled datasets. In order to utilize the power of natural and intuitive hand gestures in the virtual domain for enabling embodied teleoperation of collaborative robots, similarly large datasets must be created so as to keep the working interface easy to learn and flexible enough to add more gestures. Depending on the application, this may be computationally or economically prohibitive. Thus, the adaptation of trained deep learning models that perform well in the real environment to the virtual may be a solution to this challenge. This paper presents a systematic framework for the real to virtual adaptation using limited size of virtual dataset along with guidelines for creating a curated dataset. Finally, while hand gestures have been considered as the communication mode, the guidelines and recommendations presented are generic. These are applicable to other modes such as body poses and facial expressions which have large datasets available in the real domain which must be adapted to the virtual one.
翻訳日:2023-07-24 13:52:17 公開日:2023-07-21
# サハラ以南のアフリカにおけるエレファント運動の分析 : 生態学的・気候学的・保全的視点

Analysis of Elephant Movement in Sub-Saharan Africa: Ecological, Climatic, and Conservation Perspectives ( http://arxiv.org/abs/2307.11325v1 )

ライセンス: Link先を確認
Matthew Hines, Gregory Glatzer, Shreya Ghosh, Prasenjit Mitra(参考訳) ゾウと環境との相互作用は、生態学と保全戦略の両方に重大な影響を及ぼす。 本研究は,サハラ以南アフリカにおけるゾウの移動の複雑なパターンを解明し,季節変動や降雨パターンといった重要な生態要因に着目した解析的手法を提案する。 これらの要因を取り囲む複雑さにもかかわらず、この分析はアフリカの動的景観の文脈における象の移動行動の全体論的見解を提供する。 総合的なアプローチにより,これらの生態決定要因がゾウの移動に与える影響を予測できる。 この予測は、地球規模の気候変動が季節や降雨パターンに与える影響を考えると特に重要であり、将来象の動きに大きな影響を及ぼす可能性がある。 本研究の目的は,移動生態学の理解を深めるだけでなく,サハラ以南のアフリカにおけるヒトとゾウの持続可能な共存を促進することである。 エレファントルートの可能性を予測することにより,人為的衝突を最小限に抑え,土地利用を効果的に管理し,密猟対策を強化するための戦略を提示することができる。 本研究は、効果的な野生生物管理と保全計画のための運動生態学と気候変数の統合の重要性を強調した。

The interaction between elephants and their environment has profound implications for both ecology and conservation strategies. This study presents an analytical approach to decipher the intricate patterns of elephant movement in Sub-Saharan Africa, concentrating on key ecological drivers such as seasonal variations and rainfall patterns. Despite the complexities surrounding these influential factors, our analysis provides a holistic view of elephant migratory behavior in the context of the dynamic African landscape. Our comprehensive approach enables us to predict the potential impact of these ecological determinants on elephant migration, a critical step in establishing informed conservation strategies. This projection is particularly crucial given the impacts of global climate change on seasonal and rainfall patterns, which could substantially influence elephant movements in the future. The findings of our work aim to not only advance the understanding of movement ecology but also foster a sustainable coexistence of humans and elephants in Sub-Saharan Africa. By predicting potential elephant routes, our work can inform strategies to minimize human-elephant conflict, effectively manage land use, and enhance anti-poaching efforts. This research underscores the importance of integrating movement ecology and climatic variables for effective wildlife management and conservation planning.
翻訳日:2023-07-24 13:51:51 公開日:2023-07-21
# HVDetFusion: シンプルでロバストなカメラレーダーフュージョンフレームワーク

HVDetFusion: A Simple and Robust Camera-Radar Fusion Framework ( http://arxiv.org/abs/2307.11323v1 )

ライセンス: Link先を確認
Kai Lei, Zhan Chen, Shuman Jia, Xiaoteng Zhang(参考訳) 自動運転の分野では、3dオブジェクト検出は、非常に重要な知覚モジュールである。 現在のSOTAアルゴリズムは、Lidarの価格に制限されたカメラとLidarのセンサーを組み合わせているが、現在の主流のランディングスキームは、純粋なカメラセンサーまたはCamera+Radarセンサーである。 本研究では,HVDetFusionと呼ばれる新しい検出アルゴリズムを提案する。HVDetFusionは,検出用入力として純粋なカメラデータをサポートするだけでなく,レーダデータとカメラデータの融合入力を行うマルチモーダル検出アルゴリズムである。 カメラストリームはRadarデータの入力に依存しないので、以前の方法の欠点に対処する。 純粋なカメラストリームでは、Bevdet4Dのフレームワークを改良し、より知覚を良くし、より効率的な推論を行い、このストリームは全3D検出出力を持つ。 また、レーダー信号の利点を取り入れるために、レーダーセンサが記録した測位情報及び放射速度情報に基づいて、異なる対象位置の先行情報を用いて、元のレーダーデータの偽陽性情報をフィルタリングし、元のカメラデータから生成されたbev特徴を補足して融合させ、核融合訓練の過程で効果をさらに向上させる。 最後に、hvdetfusionは、カメラ・レーダー3dオブジェクト検出器の挑戦的なヌースセンシングテストセットにおいて、新たな67.4\% ndsを達成した。 コードはhttps://github.com/HVXLab/HVDetFusionで入手できる。

In the field of autonomous driving, 3D object detection is a very important perception module. Although the current SOTA algorithm combines Camera and Lidar sensors, limited by the high price of Lidar, the current mainstream landing schemes are pure Camera sensors or Camera+Radar sensors. In this study, we propose a new detection algorithm called HVDetFusion, which is a multi-modal detection algorithm that not only supports pure camera data as input for detection, but also can perform fusion input of radar data and camera data. The camera stream does not depend on the input of Radar data, thus addressing the downside of previous methods. In the pure camera stream, we modify the framework of Bevdet4D for better perception and more efficient inference, and this stream has the whole 3D detection output. Further, to incorporate the benefits of Radar signals, we use the prior information of different object positions to filter the false positive information of the original radar data, according to the positioning information and radial velocity information recorded by the radar sensors to supplement and fuse the BEV features generated by the original camera data, and the effect is further improved in the process of fusion training. Finally, HVDetFusion achieves the new state-of-the-art 67.4\% NDS on the challenging nuScenes test set among all camera-radar 3D object detectors. The code is available at https://github.com/HVXLab/HVDetFusion
翻訳日:2023-07-24 13:51:31 公開日:2023-07-21
# テーブルを整理する方法:あいまいな目的を持つロボットタスクのための視覚的およびセマンティックな常識推論

How to Tidy Up a Table: Fusing Visual and Semantic Commonsense Reasoning for Robotic Tasks with Vague Objectives ( http://arxiv.org/abs/2307.11319v1 )

ライセンス: Link先を確認
Yiqing Xu, David Hsu(参考訳) 多くの現実のシナリオにおけるVagの目標は、ルール、報酬、最適化の制約を定義することが難しいため、ロボット工学にとって長年の課題となる。 乱雑なテーブルを整列するといったタスクは、人間にとって単純に見えるかもしれないが、常識推論の曖昧さと柔軟性のために、整列の基準を明確化することは複雑である。 大規模言語モデル(LLM)の最近の進歩は、これらの曖昧な目的を解明する機会を与えてくれる。 しかし、LLMは言語入力のみに基づいて訓練されているため、知覚と低レベル制御を考慮に入れる能力が限られているため、ロボットタスクに苦労する可能性がある。 本研究では,曖昧な目的を持ったロボットタスクの例であるテーブルタイディングの課題を解決するための簡易な手法を提案する。 具体的には、テーブルを分類するタスクは、型別や機能別にオブジェクトをクラスタリングするだけでなく、視覚的に楽しむためのオブジェクトの空間的・視覚的関係も考慮する。 我々は,LLMのセマンティックティディポリシを基盤として,視覚的ティディネスを実現するために,軽量でイメージベースのティディネススコア関数を学習することを提案する。 我々は,ランダムウォークを用いて収集した合成データを用いて,ティディネススコアを革新的にトレーニングする。 このような軌道は、自然に怠慢の順序を符号化し、努力と高価な人間のデモンストレーションの必要性を排除している。 実験の結果、パイプラインは見えないオブジェクトや複雑な3Dアレンジメントに適用できることがわかった。

Vague objectives in many real-life scenarios pose long-standing challenges for robotics, as defining rules, rewards, or constraints for optimization is difficult. Tasks like tidying a messy table may appear simple for humans, but articulating the criteria for tidiness is complex due to the ambiguity and flexibility in commonsense reasoning. Recent advancement in Large Language Models (LLMs) offers us an opportunity to reason over these vague objectives: learned from extensive human data, LLMs capture meaningful common sense about human behavior. However, as LLMs are trained solely on language input, they may struggle with robotic tasks due to their limited capacity to account for perception and low-level controls. In this work, we propose a simple approach to solve the task of table tidying, an example of robotic tasks with vague objectives. Specifically, the task of tidying a table involves not just clustering objects by type and functionality for semantic tidiness but also considering spatial-visual relations of objects for a visually pleasing arrangement, termed as visual tidiness. We propose to learn a lightweight, image-based tidiness score function to ground the semantically tidy policy of LLMs to achieve visual tidiness. We innovatively train the tidiness score using synthetic data gathered using random walks from a few tidy configurations. Such trajectories naturally encode the order of tidiness, thereby eliminating the need for laborious and expensive human demonstrations. Our empirical results show that our pipeline can be applied to unseen objects and complex 3D arrangements.
翻訳日:2023-07-24 13:51:06 公開日:2023-07-21
# XLDA: エッジにおける極端分類への連続学習のスケーリングのための線形判別分析

XLDA: Linear Discriminant Analysis for Scaling Continual Learning to Extreme Classification at the Edge ( http://arxiv.org/abs/2307.11317v1 )

ライセンス: Link先を確認
Karan Shah, Vishruth Veerendranath, Anushka Hebbar and Raghavendra Bhat(参考訳) LDA(Streaming Linear Discriminant Analysis)は、限られたクラス(最大1000まで)を持つエッジでのクラスインクリメンタルラーニングデプロイメントで証明されているが、極端な分類シナリオでのデプロイメントでは証明されていない。 本稿では,本稿で述べる。 (a) XLDA - LDA分類器が極端な分類シナリオを含むFC層と等価であることが証明されたエッジデプロイメントにおけるクラスILのためのフレームワーク。 b) 利用可能な計算リソースに制約があるエッジデプロイメントにおいて,XLDAベースのトレーニングと推論を可能にする最適化。 バッチトレーニングアプローチによる最大42倍のスピードアップと、aliproducts(50kクラス)やgoogle landmarks v2(81kクラス)といった極端なデータセットの近接探索による最大5倍の推論スピードアップを実現しています。

Streaming Linear Discriminant Analysis (LDA) while proven in Class-incremental Learning deployments at the edge with limited classes (upto 1000), has not been proven for deployment in extreme classification scenarios. In this paper, we present: (a) XLDA, a framework for Class-IL in edge deployment where LDA classifier is proven to be equivalent to FC layer including in extreme classification scenarios, and (b) optimizations to enable XLDA-based training and inference for edge deployment where there is a constraint on available compute resources. We show up to 42x speed up using a batched training approach and up to 5x inference speedup with nearest neighbor search on extreme datasets like AliProducts (50k classes) and Google Landmarks V2 (81k classes)
翻訳日:2023-07-24 13:50:36 公開日:2023-07-21
# タスクソルバと自己校正器の事前学習言語モデルの作成

Making Pre-trained Language Models both Task-solvers and Self-calibrators ( http://arxiv.org/abs/2307.11316v1 )

ライセンス: Link先を確認
Yangyi Chen, Xingyao Wang, Heng Ji(参考訳) プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。 高精細なアプリケーションには、予測に合理的な信頼度を推定することが不可欠です。 PLMのバニラ信頼スコアは、既に有効に活用できるが、実際には望ましくない誤った予測を常に過信する。 以前の研究では、追加のキャリブレーションタスクの導入がこの問題を緩和できることが示されている。 基本的な考え方は、初期予測の信頼性を予測するために、モデルをトレーニングするための追加データを取得することである。 しかし,本手法は,導入したキャリブレーションタスクに余分なサンプルが存在することを仮定して,その実現可能性を示すことしかできない。 本研究では, PLMをタスク解決器と自己校正器の両方にするために, トレーニングサンプルを効果的に活用する必要がある実践シナリオについて考察する。 限られたトレーニングサンプル、データ不均衡、分散シフトを含む3つの課題が提示される。 まず,校正作業における様々な決定要因を定量化する実験を行った。 実験的な分析結果に基づいて,課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。 実験の結果,LM-TOASTはトレーニングデータを効果的に活用し,PLMが元のタスク性能を維持しながら合理的な信頼度を推定できることがわかった。 さらに, lm-トーストの実用的有用性を示すために, 選択的分類, 逆防御, モデルカスケードの3つの下流応用を検討した。 コードは \url{https://github.com/Yangyi-Chen/LM-TOAST} で公開される。

Pre-trained language models (PLMs) serve as backbones for various real-world systems. For high-stake applications, it's equally essential to have reasonable confidence estimations in predictions. While the vanilla confidence scores of PLMs can already be effectively utilized, PLMs consistently become overconfident in their wrong predictions, which is not desirable in practice. Previous work shows that introducing an extra calibration task can mitigate this issue. The basic idea involves acquiring additional data to train models in predicting the confidence of their initial predictions. However, it only demonstrates the feasibility of this kind of method, assuming that there are abundant extra available samples for the introduced calibration task. In this work, we consider the practical scenario that we need to effectively utilize training samples to make PLMs both task-solvers and self-calibrators. Three challenges are presented, including limited training samples, data imbalance, and distribution shifts. We first conduct pilot experiments to quantify various decisive factors in the calibration task. Based on the empirical analysis results, we propose a training algorithm LM-TOAST to tackle the challenges. Experimental results show that LM-TOAST can effectively utilize the training data to make PLMs have reasonable confidence estimations while maintaining the original task performance. Further, we consider three downstream applications, namely selective classification, adversarial defense, and model cascading, to show the practical usefulness of LM-TOAST. The code will be made public at \url{https://github.com/Yangyi-Chen/LM-TOAST}.
翻訳日:2023-07-24 13:50:18 公開日:2023-07-21
# Count-based Conservatismを用いたモデルベースオフライン強化学習

Model-based Offline Reinforcement Learning with Count-based Conservatism ( http://arxiv.org/abs/2307.11352v1 )

ライセンス: Link先を確認
Byeongchan Kim, Min-hwan Oh(参考訳) 本稿では,計算量に基づく保存性を統合したモデルベースオフライン強化学習手法である$\texttt{count-morl}$を提案する。 本手法は,モデルに基づくオフライン深部RLにおけるカウントベース保存性の有効性を示すアルゴリズムとして,モデル推定誤差の定量化に状態-作用対のカウント推定を利用する。 提案手法では,推定誤差が状態-作用対の周波数に逆比例することを示す。 第2に, 数に基づく保守モデルに基づく学習方針が, ほぼ最適に近い性能を保証することを実証する。 D4RLベンチマークデータセットにおいて,ハッシュコード実装による$\texttt{Count-MORL}$が既存のオフラインRLアルゴリズムよりも大幅に優れていることを検証する。 コードは$\href{https://github.com/oh-lab/Count-MORL}{https://github.com/oh-lab/Count-MORL}$でアクセスできる。

In this paper, we propose a model-based offline reinforcement learning method that integrates count-based conservatism, named $\texttt{Count-MORL}$. Our method utilizes the count estimates of state-action pairs to quantify model estimation error, marking the first algorithm of demonstrating the efficacy of count-based conservatism in model-based offline deep RL to the best of our knowledge. For our proposed method, we first show that the estimation error is inversely proportional to the frequency of state-action pairs. Secondly, we demonstrate that the learned policy under the count-based conservative model offers near-optimality performance guarantees. Through extensive numerical experiments, we validate that $\texttt{Count-MORL}$ with hash code implementation significantly outperforms existing offline RL algorithms on the D4RL benchmark datasets. The code is accessible at $\href{https://github.com/oh-lab/Count-MORL}{https://github.com/oh-lab/Count-MORL}$.
翻訳日:2023-07-24 13:44:07 公開日:2023-07-21
# パラメトリックプログラミングに基づく選択推論における境界P値

Bounded P-values in Parametric Programming-based Selective Inference ( http://arxiv.org/abs/2307.11351v1 )

ライセンス: Link先を確認
Tomohiro Shiraishi, Daiki Miwa, Vo Nguyen Le Duy, Ichiro Takeuchi(参考訳) 選択的推論(si)は、データ駆動仮説に対する統計的仮説検証の有望な枠組みとして積極的に研究されてきた。 SIの基本的な考え方は、仮説が選択された事象に推論を条件付けることである。 SIを実行するには、このイベントをトレース可能な形で特徴付ける必要がある。 選択イベントの特徴付けが難しい場合には、トラクタビリティのために追加条件を導入する。 この追加の条件はしばしば電力の損失を引き起こし、この問題はオーバーコンディショニングと呼ばれる。 オーバーコンディショニング問題に対処する手段として、パラメトリックプログラミングベースのSI(PPベースのSI)が提案されている。 PPベースのSIの主な問題は、データ空間を徹底的に探索する必要があるため、計算コストが高いことである。 本研究では,p値の上下境界を計算する手法を提案することにより,所望の精度を確保しつつ計算コストを削減する手法を提案する。 また,これらの境界を効率的に改善する3種類の探索戦略も提案した。 本稿では,線形モデルにおける特徴選択問題と深層ニューラルネットワークにおける注意領域同定における提案手法の有効性を示す。

Selective inference (SI) has been actively studied as a promising framework for statistical hypothesis testing for data-driven hypotheses. The basic idea of SI is to make inferences conditional on an event that a hypothesis is selected. In order to perform SI, this event must be characterized in a traceable form. When selection event is too difficult to characterize, additional conditions are introduced for tractability. This additional conditions often causes the loss of power, and this issue is referred to as over-conditioning. Parametric programming-based SI (PP-based SI) has been proposed as one way to address the over-conditioning issue. The main problem of PP-based SI is its high computational cost due to the need to exhaustively explore the data space. In this study, we introduce a procedure to reduce the computational cost while guaranteeing the desired precision, by proposing a method to compute the upper and lower bounds of p-values. We also proposed three types of search strategies that efficiently improve these bounds. We demonstrate the effectiveness of the proposed method in hypothesis testing problems for feature selection in linear models and attention region identification in deep neural networks.
翻訳日:2023-07-24 13:43:48 公開日:2023-07-21
# 全てのホログラムシステムは傷跡がある

All holographic systems have scar states ( http://arxiv.org/abs/2307.11348v1 )

ライセンス: Link先を確認
Alexey Milekhin, Nikolay Sukhov(参考訳) scar状態は特別な有限エネルギー密度であるが、カオスハミルトンの非熱状態である。 我々は、$\mathcal{N}=4$ Super Yang--Millsを含むすべてのホログラフィック量子場理論は不足状態であると主張する。 その存在は、重力における非トポロジーで地平線のないソリトン解の存在に結びついている:オシロンと励起ボソン星の新しい族である。 これらの解は相関関数に周期的振動を持ち,スカー状態において期待される低エンタングルメントエントロピーを示す。 また、それらはユークリッド経路積分で非常に容易に準備できることが分かる。

Scar states are special finite-energy density, but non-thermal states of chaotic Hamiltonians. We argue that all holographic quantum field theories, including $\mathcal{N}=4$ super Yang--Mills, have scar states. Their presence is tied to the existence of non-topological, horizonless soliton solutions in gravity: oscillons and a novel family of excited boson stars. We demonstrate that these solutions have periodic oscillations in the correlation functions and posses low-entanglement entropy as expected for scar states. Also we find that they can be very easily prepared with Euclidean path integral.
翻訳日:2023-07-24 13:43:34 公開日:2023-07-21
# CohortGPT : 臨床研究における参加型リクルートのための強化GPT

CohortGPT: An Enhanced GPT for Participant Recruitment in Clinical Study ( http://arxiv.org/abs/2307.11346v1 )

ライセンス: Link先を確認
Zihan Guan, Zihao Wu, Zhengliang Liu, Dufan Wu, Hui Ren, Quanzheng Li, Xiang Li, Ninghao Liu(参考訳) 臨床ノートや放射線学報告などの非構造化医療文献に基づく参加採用は、臨床研究におけるコホート確立にとって難しいが重要な課題である。 近年、ChatGPTのような大規模言語モデル(LLM)は、言語理解、推論、生成における有望なパフォーマンスのおかげで、様々な下流タスクで大きな成功を収めている。 そして、与えられた医学文献の段落を疾病ラベルに分類するコホート採用タスクの解決可能性をテストするのは自然である。 しかし、医学的テキスト分類などの知識集約的な問題設定に適用すると、LSMは人間の専門家による決定を理解し、インプリード疾患ラベルを正確に特定することが期待されるため、LSMは概略的なパフォーマンスを示す。 考えられる説明は、医学的テキストのみを使用することで、LLMは言語が利用できる追加情報のリッチな文脈を無視するということである。 そこで本研究では,知識グラフを補助情報として,LLMの予測を導くことを提案する。 さらに,LLMを問題設定に適応させるために,強化学習によって強化されたチェーン・オブ・シント(CoT)サンプル選択戦略を適用し,個々の医療報告毎に一連のCoTサンプルを選択する。 実験結果と各種アブレーション実験により,本手法は微調整戦略に比べて良好な性能を得られ,利用可能なデータに制限がある場合の優れた性能が得られることが示された。 提案されたCohortGPTモデルのコードとサンプルデータセットは、https://anonymous.4open.science/r/CohortGPT-4872/で公開されている。

Participant recruitment based on unstructured medical texts such as clinical notes and radiology reports has been a challenging yet important task for the cohort establishment in clinical research. Recently, Large Language Models (LLMs) such as ChatGPT have achieved tremendous success in various downstream tasks thanks to their promising performance in language understanding, inference, and generation. It is then natural to test their feasibility in solving the cohort recruitment task, which involves the classification of a given paragraph of medical text into disease label(s). However, when applied to knowledge-intensive problem settings such as medical text classification, where the LLMs are expected to understand the decision made by human experts and accurately identify the implied disease labels, the LLMs show a mediocre performance. A possible explanation is that, by only using the medical text, the LLMs neglect to use the rich context of additional information that languages afford. To this end, we propose to use a knowledge graph as auxiliary information to guide the LLMs in making predictions. Moreover, to further boost the LLMs adapt to the problem setting, we apply a chain-of-thought (CoT) sample selection strategy enhanced by reinforcement learning, which selects a set of CoT samples given each individual medical report. Experimental results and various ablation studies show that our few-shot learning method achieves satisfactory performance compared with fine-tuning strategies and gains superb advantages when the available data is limited. The code and sample dataset of the proposed CohortGPT model is available at: https://anonymous.4open.science/r/CohortGPT-4872/
翻訳日:2023-07-24 13:43:25 公開日:2023-07-21
# DEFTri:eコマースにおける製品欠陥トリアージのためのコンテキスト表現学習

DEFTri: A Few-Shot Label Fused Contextual Representation Learning For Product Defect Triage in e-Commerce ( http://arxiv.org/abs/2307.11344v1 )

ライセンス: Link先を確認
Ipsita Mohanty(参考訳) Defect Triageは、Eコマースのための大規模なアジャイルソフトウェア開発ライフサイクルにおいて、時間に敏感で重要なプロセスである。 このドメインにおける人間とプロセス依存性から生じる非効率性は、機械学習を使用して、適格なチームに欠陥を正確に割り当てる自動アプローチの研究を動機付けています。 本研究では,人為的に生成した製品欠陥からコンテキスト表現を改善するために,ラベルを融合したテキスト埋め込み上で,微細調整された最先端のBERTを用いた自動欠陥トリアージ(DEFTri)を提案する。 当社のマルチラベルテキスト分類欠陥トリアージタスクでは,弱い監督と敵意学習を用いたwalmart独自の製品欠陥データセットも,少数の設定で導入しています。

Defect Triage is a time-sensitive and critical process in a large-scale agile software development lifecycle for e-commerce. Inefficiencies arising from human and process dependencies in this domain have motivated research in automated approaches using machine learning to accurately assign defects to qualified teams. This work proposes a novel framework for automated defect triage (DEFTri) using fine-tuned state-of-the-art pre-trained BERT on labels fused text embeddings to improve contextual representations from human-generated product defects. For our multi-label text classification defect triage task, we also introduce a Walmart proprietary dataset of product defects using weak supervision and adversarial learning, in a few-shot setting.
翻訳日:2023-07-24 13:42:59 公開日:2023-07-21
# 体操AIの汎用マニピュレーションスキルのための2段階微調整戦略

A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of Embodied AI ( http://arxiv.org/abs/2307.11343v1 )

ライセンス: Link先を確認
Fang Gao, XueTao Li, Jun Yu, Feng Shaung(参考訳) Chat-GPTの出現は、Embodied AIへの関心の高まりにつながった。 しかし、既存のEmbodied AIモデルの多くは、実際の状況では実用的ではないトレーニング環境との大規模なインタラクションに大きく依存している。 この目的のためにmaniskill2は、様々な3dオブジェクトを操作するためのフルフィジカルシミュレーションベンチマークを導入した。 このベンチマークでは、さまざまなデモンストレーションデータセットを使用してエージェントをトレーニングし、テスト環境で見えないシナリオに一般化する能力を評価する。 本稿では,Maniskill2ベンチマークに基づくモデル一般化能力の向上を目的とした,新しい2段階ファインチューニング戦略を提案する。 広範な実験を通じて,maniskill2チャレンジの3トラックすべてにおいて,第1回賞の達成により,このアプローチの有効性を実証した。 本研究は,Embodied AIモデルの一般化能力を向上し,現実シナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。 私たちのソリューションのコードとモデルはすべてhttps://github.com/xtli12/GXU-LIPE.gitで公開されています。

The advent of Chat-GPT has led to a surge of interest in Embodied AI. However, many existing Embodied AI models heavily rely on massive interactions with training environments, which may not be practical in real-world situations. To this end, the Maniskill2 has introduced a full-physics simulation benchmark for manipulating various 3D objects. This benchmark enables agents to be trained using diverse datasets of demonstrations and evaluates their ability to generalize to unseen scenarios in testing environments. In this paper, we propose a novel two-stage fine-tuning strategy that aims to further enhance the generalization capability of our model based on the Maniskill2 benchmark. Through extensive experiments, we demonstrate the effectiveness of our approach by achieving the 1st prize in all three tracks of the ManiSkill2 Challenge. Our findings highlight the potential of our method to improve the generalization abilities of Embodied AI models and pave the way for their ractical applications in real-world scenarios. All codes and models of our solution is available at https://github.com/xtli12/GXU-LIPE.git
翻訳日:2023-07-24 13:42:45 公開日:2023-07-21
# モーメントプローブによる事前学習モデルのチューニング

Tuning Pre-trained Model via Moment Probing ( http://arxiv.org/abs/2307.11342v1 )

ライセンス: Link先を確認
Mingze Gao and Qilong Wang and Zhenyi Lin and Pengfei Zhu and Qinghua Hu and Jingbo Zhou(参考訳) 近年、大規模事前学習モデルの効率的な微調整が研究の興味を惹きつけ、基本モジュールとしての線形探索(LP)がタスク依存分類の最終表現の活用に関与している。 しかし,既存の手法のほとんどは,学習可能なパラメータのいくつかを効果的に導入する方法に重点を置いている。 本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。 最終特徴(例えばvitの単語トークン)や分類トークンの平均に基づいて線形分類ヘッドを構築するlpと区別して,特徴分布の線形分類を行い,特徴に固有のより豊かな統計情報を活用することにより,より強力な表現能力を提供する。 具体的には,特徴関数を用いて特徴分布を表現し,特徴の1次および2次モーメントを用いて効率よく近似する。 さらに, 2次モーメントを効率的かつ効果的に計算するためのマルチヘッド畳み込み共分散(MHC$^3$)を提案する。 また,MPが特徴学習に影響を及ぼす可能性を考慮し,MPをベースとした2つのバックボーン(PSRP)、すなわちMP$_{+}$を学習するための部分共有モジュールを導入する。 様々なモデルを用いた10のベンチマーク実験の結果、MPはLPを著しく上回り、トレーニングコストが低いのに対して、MP$_{+}$は最先端のパフォーマンスを実現していることがわかった。

Recently, efficient fine-tuning of large-scale pre-trained models has attracted increasing research interests, where linear probing (LP) as a fundamental module is involved in exploiting the final representations for task-dependent classification. However, most of the existing methods focus on how to effectively introduce a few of learnable parameters, and little work pays attention to the commonly used LP module. In this paper, we propose a novel Moment Probing (MP) method to further explore the potential of LP. Distinguished from LP which builds a linear classification head based on the mean of final features (e.g., word tokens for ViT) or classification tokens, our MP performs a linear classifier on feature distribution, which provides the stronger representation ability by exploiting richer statistical information inherent in features. Specifically, we represent feature distribution by its characteristic function, which is efficiently approximated by using first- and second-order moments of features. Furthermore, we propose a multi-head convolutional cross-covariance (MHC$^3$) to compute second-order moments in an efficient and effective manner. By considering that MP could affect feature learning, we introduce a partially shared module to learn two recalibrating parameters (PSRP) for backbones based on MP, namely MP$_{+}$. Extensive experiments on ten benchmarks using various models show that our MP significantly outperforms LP and is competitive with counterparts at less training cost, while our MP$_{+}$ achieves state-of-the-art performance.
翻訳日:2023-07-24 13:42:29 公開日:2023-07-21
# OpenGDA: クロスネットワーク学習のためのグラフドメイン適応ベンチマーク

OpenGDA: Graph Domain Adaptation Benchmark for Cross-network Learning ( http://arxiv.org/abs/2307.11341v1 )

ライセンス: Link先を確認
Boshen Shi, Yongqing Wang, Fangda Guo, Jiangli Shao, Huawei Shen and Xueqi Cheng(参考訳) グラフドメイン適応モデルは、ラベル付けや構造知識の転送を目的として、クロスネットワーク学習タスクに広く採用されている。 現在、グラフ領域適応モデルの評価には2つの制限がある。 一方、それらは主に特定のクロスネットワークノード分類タスクのためにテストされ、タスクはエッジレベルとグラフレベルでほとんど未検討のままである。 さらに、主にソーシャルネットワークや引用ネットワークのような限られたシナリオでテストされ、よりリッチなシナリオにおけるモデルの能力を検証できない。 実世界のアプリケーションにおけるモデルの実用性を総合的に評価することにより,OpenGDAとして知られるベンチマークを提案する。 さまざまなタイプのタスク(ノード、エッジ、グラフ)に対して、豊富な事前処理と統一データセットを提供する。 web情報システムや都市システム,自然システムなど,さまざまなシナリオから生まれたものだ。 さらに、最先端モデルと標準化されたエンドツーエンドパイプラインを統合する。 全体として、opengdaはグラフドメイン適応モデルを評価するためのユーザフレンドリーでスケーラブルで再現可能なベンチマークを提供する。 ベンチマーク実験は、GDAモデルを一貫した優れたパフォーマンスを持つ現実世界のアプリケーションに適用することの課題を強調し、将来の研究に洞察を与える可能性がある。 新たなプロジェクトとして、OpenGDAは新しいデータセットとモデルで定期的に更新される。 https://github.com/Skyorca/OpenGDAからアクセスできる。

Graph domain adaptation models are widely adopted in cross-network learning tasks, with the aim of transferring labeling or structural knowledge. Currently, there mainly exist two limitations in evaluating graph domain adaptation models. On one side, they are primarily tested for the specific cross-network node classification task, leaving tasks at edge-level and graph-level largely under-explored. Moreover, they are primarily tested in limited scenarios, such as social networks or citation networks, lacking validation of model's capability in richer scenarios. As comprehensively assessing models could enhance model practicality in real-world applications, we propose a benchmark, known as OpenGDA. It provides abundant pre-processed and unified datasets for different types of tasks (node, edge, graph). They originate from diverse scenarios, covering web information systems, urban systems and natural systems. Furthermore, it integrates state-of-the-art models with standardized and end-to-end pipelines. Overall, OpenGDA provides a user-friendly, scalable and reproducible benchmark for evaluating graph domain adaptation models. The benchmark experiments highlight the challenges of applying GDA models to real-world applications with consistent good performance, and potentially provide insights to future research. As an emerging project, OpenGDA will be regularly updated with new datasets and models. It could be accessed from https://github.com/Skyorca/OpenGDA.
翻訳日:2023-07-24 13:42:05 公開日:2023-07-21
# ロバストナンバープレート認識のための文字時系列マッチング

Character Time-series Matching For Robust License Plate Recognition ( http://arxiv.org/abs/2307.11336v1 )

ライセンス: Link先を確認
Quang Huy Che and Tung Do Thanh and Cuong Truong Van(参考訳) 自動ナンバープレート認識(ALPR)が普及し,交通やスマートシティなど多くの分野に適用されている。 しかし、光変化や不明瞭なライセンスプレート(lp)文字、画質など、現実の状況が変化するため、現在の手法を実用的問題に適用する場合は、まだいくつかの制限がある。 ほぼ最近のalprアルゴリズムは単一のフレーム上で処理されるため、画質が悪い場合の精度が低下する。 本稿では,複数フレームのライセンスプレートを追跡することにより,ライセンスプレート認識精度を向上させる手法を提案する。 まず、検出されたナンバープレートを正しく整列するために、Adaptive License Plate Rotationアルゴリズムを適用する。 第2に,多くの結果フレームからライセンスプレート文字を認識する文字時系列マッチング法を提案する。 提案手法は,RTX A5000 GPUカード上でリアルタイムに精度96.7$%のUFPR-ALPRデータセットを高速にアーカイブする。 また,ベトナムのalprシステムに対してアルゴリズムを展開する。 ナンバープレート検出と文字認識の精度はそれぞれ0.881と0.979$mAP^{test}$@.5である。 ソースコードはhttps://github.com/chequanghuy/Character-Time-Series-Matching.gitで入手できる。

Automatic License Plate Recognition (ALPR) is becoming a popular study area and is applied in many fields such as transportation or smart city. However, there are still several limitations when applying many current methods to practical problems due to the variation in real-world situations such as light changes, unclear License Plate (LP) characters, and image quality. Almost recent ALPR algorithms process on a single frame, which reduces accuracy in case of worse image quality. This paper presents methods to improve license plate recognition accuracy by tracking the license plate in multiple frames. First, the Adaptive License Plate Rotation algorithm is applied to correctly align the detected license plate. Second, we propose a method called Character Time-series Matching to recognize license plate characters from many consequence frames. The proposed method archives high performance in the UFPR-ALPR dataset which is \boldmath$96.7\%$ accuracy in real-time on RTX A5000 GPU card. We also deploy the algorithm for the Vietnamese ALPR system. The accuracy for license plate detection and character recognition are 0.881 and 0.979 $mAP^{test}$@.5 respectively. The source code is available at https://github.com/chequanghuy/Character-Time-series-Matching.git
翻訳日:2023-07-24 13:41:46 公開日:2023-07-21
# Tri-MipRF:効率的な反エイリアス性神経放射場のためのTri-Mip表現

Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields ( http://arxiv.org/abs/2307.11335v1 )

ライセンス: Link先を確認
Wenbo Hu, Yuling Wang, Lin Ma, Bangbang Yang, Lin Gao, Xiao Liu, Yuewen Ma(参考訳) ニューラル・ラジアンス・フィールド(nerf:neural radiance field)の飛躍的な進歩にもかかわらず、我々は品質と効率のトレードオフ、例えば、mipnerfは細分化されたアンチエイリアスドレンダリングを提示するが、トレーニングには数日かかり、instant-ngpは数分で再構築を完了できるが、サンプリング領域を無視して様々な距離や解像度でレンダリングする際にはぼやけやエイリアスに苦しむ。 この目的のために,ニューラルラディアンスフィールドの即時再構成とアンチエイリアス化による高忠実性レンダリングを可能にする新しいTri-Mip符号化を提案する。 鍵となるのは、プリフィルターされた3d特徴空間を3つの直交mipmapで分解することだ。 このようにして,2次元プリフィルタ特徴マップを活用し,効率を犠牲にすることなくレンダリング品質を大幅に向上させる3次元領域サンプリングを効率的に行うことができる。 新規なTri-Mip表現に対処するために,画素画像と観測距離の両方を考慮したTri-Mip符号化を用いて,アンチエイリアス化3D特徴量を効率的にサンプリングするコーンキャストレンダリング手法を提案する。 Instant-ngpと比較して25%のモデルサイズを縮小するコンパクトな表現を維持しつつ、最先端のレンダリング品質と再構築速度を達成することを実証した。

Despite the tremendous progress in neural radiance fields (NeRF), we still face a dilemma of the trade-off between quality and efficiency, e.g., MipNeRF presents fine-detailed and anti-aliased renderings but takes days for training, while Instant-ngp can accomplish the reconstruction in a few minutes but suffers from blurring or aliasing when rendering at various distances or resolutions due to ignoring the sampling area. To this end, we propose a novel Tri-Mip encoding that enables both instant reconstruction and anti-aliased high-fidelity rendering for neural radiance fields. The key is to factorize the pre-filtered 3D feature spaces in three orthogonal mipmaps. In this way, we can efficiently perform 3D area sampling by taking advantage of 2D pre-filtered feature maps, which significantly elevates the rendering quality without sacrificing efficiency. To cope with the novel Tri-Mip representation, we propose a cone-casting rendering technique to efficiently sample anti-aliased 3D features with the Tri-Mip encoding considering both pixel imaging and observing distance. Extensive experiments on both synthetic and real-world datasets demonstrate our method achieves state-of-the-art rendering quality and reconstruction speed while maintaining a compact representation that reduces 25% model size compared against Instant-ngp.
翻訳日:2023-07-24 13:41:27 公開日:2023-07-21
# CLR: 継続的な学習のためのチャネルワイドライトウェイトプログラミング

CLR: Channel-wise Lightweight Reprogramming for Continual Learning ( http://arxiv.org/abs/2307.11386v1 )

ライセンス: Link先を確認
Yunhao Ge, Yuecheng Li, Shuo Ni, Jiaping Zhao, Ming-Hsuan Yang, Laurent Itti(参考訳) 継続的学習は、逐次的なタスクに対して継続的に知識を蓄積する人間の能力を模倣することを目的としている。 主な課題は、新しいタスク、すなわち破滅的な忘れ物を避けるために、以前に学習したタスクのパフォーマンスを維持することである。 本稿では,畳み込みニューラルネットワーク(cnns)が連続学習中に壊滅的な忘れを克服するのに役立つチャネルワイズ軽量リプログラミング(clr)手法を提案する。 我々は,従来のタスク(あるいは自己教師型プロキシタスク)でトレーニングされたCNNモデルを,提案した軽量(非常に安価な)再プログラミングパラメータを使って,新たなタスクを"再プログラム"することができることを示す。CLRの助けを借りて,継続的な学習問題を解決するための,より優れた安定性と塑性のトレードオフが得られる。 次にタスク固有の軽量リプログラミングパラメータを加え、不変部品の出力を再解釈し、可塑性を実現し、新しい知識を統合する。 シーケンシャルなタスクを学習するには、新しいタスクを学習するために、軽量なプログラミングパラメータのみをトレーニングする。 再プログラムパラメータはタスク固有であり,各タスクに排他的である。 新しいタスクを学習する際のパラメータ要求を最小限に抑えるため、本質的なカーネルを調整し、アンカーパラメータからタスク固有のドメイン知識へのチャネルワイドなマッピングを学習することで、リプログラミングを軽量化する。 一般的なCNNでは、CLRパラメータの増大は、新しいタスクに対して0.6\%未満であることを示す。 提案手法は,53の画像分類データセットの新しい挑戦的シーケンスに基づいて,最先端の連続学習ベースラインを13に上回る。 コードとデータはhttps://github.com/gyhandy/channel-wise-lightweight-reprogrammingで入手できる。

Continual learning aims to emulate the human ability to continually accumulate knowledge over sequential tasks. The main challenge is to maintain performance on previously learned tasks after learning new tasks, i.e., to avoid catastrophic forgetting. We propose a Channel-wise Lightweight Reprogramming (CLR) approach that helps convolutional neural networks (CNNs) overcome catastrophic forgetting during continual learning. We show that a CNN model trained on an old task (or self-supervised proxy task) could be ``reprogrammed" to solve a new task by using our proposed lightweight (very cheap) reprogramming parameter. With the help of CLR, we have a better stability-plasticity trade-off to solve continual learning problems: To maintain stability and retain previous task ability, we use a common task-agnostic immutable part as the shared ``anchor" parameter set. We then add task-specific lightweight reprogramming parameters to reinterpret the outputs of the immutable parts, to enable plasticity and integrate new knowledge. To learn sequential tasks, we only train the lightweight reprogramming parameters to learn each new task. Reprogramming parameters are task-specific and exclusive to each task, which makes our method immune to catastrophic forgetting. To minimize the parameter requirement of reprogramming to learn new tasks, we make reprogramming lightweight by only adjusting essential kernels and learning channel-wise linear mappings from anchor parameters to task-specific domain knowledge. We show that, for general CNNs, the CLR parameter increase is less than 0.6\% for any new task. Our method outperforms 13 state-of-the-art continual learning baselines on a new challenging sequence of 53 image classification datasets. Code and data are available at https://github.com/gyhandy/Channel-wise-Lightweight-Reprogramming
翻訳日:2023-07-24 13:34:03 公開日:2023-07-21
# ChatGPTはテキストに関わっているか? ChatGPT生成テキスト検出のためのポーランド率の測定

Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect ChatGPT-Generated Text ( http://arxiv.org/abs/2307.11380v1 )

ライセンス: Link先を確認
Lingyi Yang, Feng Jiang, Haizhou Li(参考訳) テキスト生成におけるChatGPTのような大規模言語モデルの顕著な機能により、研究者は誤情報、フィッシング、学術的不正など潜在的なリスクを軽減するために検知器を考案した。 それにもかかわらず、HC3を含むこれまでのほとんどの研究は、純粋なChatGPT生成テキストと人間が認可したテキストとを区別する検出器の作成を主な目的としてきた。 しかし、このアプローチは、ChatGPTをポリケートしたテキストのような人間と機械のコラボレーションによって生成されたテキストの識別に失敗する。 このギャップに対処し,より堅牢な検出器の構築を容易にする新しいデータセットであるhpt(chatgpt-polished academic abstracts)を導入する。 純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。 さらに,編集距離に基づくテキスト生成におけるchatgptの関与の革新的な尺度である「ポリッシュ比」法を提案する。 これは、結果のテキストにおける人間の独創性の度合いを測定するメカニズムを提供する。 実験の結果,提案モデルではHPPTデータセットと既存の2つのデータセット(HC3とCDB)がより堅牢であることがわかった。 さらに,提案する "polish ratio" は,chatgpt の関与度を定量化することにより,より包括的な説明を提供するとともに,0.2以上のポーランド比が chatgpt の関与を示し,0.6以上の値が chatgpt がテキストの大部分を生成することを示す。

The remarkable capabilities of large-scale language models, such as ChatGPT, in text generation have incited awe and spurred researchers to devise detectors to mitigate potential risks, including misinformation, phishing, and academic dishonesty. Despite this, most previous studies, including HC3, have been predominantly geared towards creating detectors that differentiate between purely ChatGPT-generated texts and human-authored texts. This approach, however, fails to work on discerning texts generated through human-machine collaboration, such as ChatGPT-polished texts. Addressing this gap, we introduce a novel dataset termed HPPT (ChatGPT-polished academic abstracts), facilitating the construction of more robust detectors. It diverges from extant corpora by comprising pairs of human-written and ChatGPT-polished abstracts instead of purely ChatGPT-generated texts. Additionally, we propose the "Polish Ratio" method, an innovative measure of ChatGPT's involvement in text generation based on editing distance. It provides a mechanism to measure the degree of human originality in the resulting text. Our experimental results show our proposed model has better robustness on the HPPT dataset and two existing datasets (HC3 and CDB). Furthermore, the "Polish Ratio" we proposed offers a more comprehensive explanation by quantifying the degree of ChatGPT involvement, which indicates that a Polish Ratio value greater than 0.2 signifies ChatGPT involvement and a value exceeding 0.6 implies that ChatGPT generates most of the text.
翻訳日:2023-07-24 13:33:27 公開日:2023-07-21
# フェアネス・ユーティリティのトレードオフに向けた総合的測定ベース強化学習フレームワーク

Towards Better Fairness-Utility Trade-off: A Comprehensive Measurement-Based Reinforcement Learning Framework ( http://arxiv.org/abs/2307.11379v1 )

ライセンス: Link先を確認
Simiao Zhang, Jitao Bai, Menghong Guan, Yihao Huang, Yueling Zhang, Jun Sun and Geguang Pu(参考訳) 機械学習は、銀行ローンの承認、刑事判決、フィルタリングの再開などの社会的影響による意思決定に広く用いられている。 実用性を維持しながら公平性を確保する方法は、難しいが重要な問題だ。 フェアネスは70以上の測定基準を持つ複雑でコンテキストに依存した概念である。 既存の規制は、どの基準を使うか、または異なる組織が異なる公平度指標を好むかという点で曖昧であることが多いため、公平度を包括的に改善する手段を持つことが重要である。 既存の緩和技術は、しばしば特定の公正度を目標としており、同時に公平性の複数の概念を改善するのに制限がある。 本研究では,機械学習分類器の公平性・実用性トレードオフを効率的に改善するための強化学習に基づくフレームワークであるCFU(Comprehensive Fairness-Utility)を提案する。 複数のフェアネス概念と有用性を同時に考慮できる包括的な測定が確立され、異なるフェアネスメトリクス間の関係を深く分析した新しい指標が提案されている。 CFUの報酬関数は、包括的測定と新しいメトリクスによって構成される。 6つのタスクでcfuを評価し,3つの機械学習モデルと15の公平性測定を行った。 その結果,CFUは有効性を犠牲にすることなく,複数のフェアネス指標の分類器を改良できることを示した。 最先端の技術をすべて上回り、平均で37.5%改善している。

Machine learning is widely used to make decisions with societal impact such as bank loan approving, criminal sentencing, and resume filtering. How to ensure its fairness while maintaining utility is a challenging but crucial issue. Fairness is a complex and context-dependent concept with over 70 different measurement metrics. Since existing regulations are often vague in terms of which metric to use and different organizations may prefer different fairness metrics, it is important to have means of improving fairness comprehensively. Existing mitigation techniques often target at one specific fairness metric and have limitations in improving multiple notions of fairness simultaneously. In this work, we propose CFU (Comprehensive Fairness-Utility), a reinforcement learning-based framework, to efficiently improve the fairness-utility trade-off in machine learning classifiers. A comprehensive measurement that can simultaneously consider multiple fairness notions as well as utility is established, and new metrics are proposed based on an in-depth analysis of the relationship between different fairness metrics. The reward function of CFU is constructed with comprehensive measurement and new metrics. We conduct extensive experiments to evaluate CFU on 6 tasks, 3 machine learning models, and 15 fairness-utility measurements. The results demonstrate that CFU can improve the classifier on multiple fairness metrics without sacrificing its utility. It outperforms all state-of-the-art techniques and has witnessed a 37.5% improvement on average.
翻訳日:2023-07-24 13:32:58 公開日:2023-07-21
# LatentAugment: GANの潜在空間のガイド操作によるデータ拡張

LatentAugment: Data Augmentation via Guided Manipulation of GAN's Latent Space ( http://arxiv.org/abs/2307.11375v1 )

ライセンス: Link先を確認
Lorenzo Tronchin, Minh H. Vu, Paolo Soda, Tommy L\"ofstedt(参考訳) データ拡張(DA)は、トレーニングデータの量と多様性を高める技術であり、それによって過度に適合し、一般化を改善する。 しかし、標準daは限定された多様性で拡張のための合成データを生成する。 GAN(Generative Adversarial Networks)は、実際の画像の外観を持つ合成サンプルを生成することにより、データセットに追加情報をアンロックすることができる。 しかし、これらのモデルは、忠実度と高品質なサンプル、多様性とモードカバレッジ、高速サンプリングの3つの重要な要件に同時に対処するのに苦労している。 実際、ganは高品質なサンプルを迅速に生成するが、モードカバレッジが悪く、daアプリケーションへの採用が制限される。 本稿では,GANの多様性の低いDA戦略であるLatentAugmentを提案する。 外部の監督なしに、LatentAugmentは潜在ベクトルを修正し、それらを潜在空間領域に移動して合成画像の多様性と忠実度を最大化する。 データセットやダウンストリームタスクにも依存しない。 幅広い実験により、LatentAugmentはMRIからCTへ翻訳するディープモデルの一般化を改善し、標準DAとGANに基づくサンプリングの両方を達成している。 さらに, GAN法と比較すると, LatentAugment 合成試料はモードカバレッジと多様性に優れていた。 コードは、https://github.com/ltronchin/LatentAugment.comで入手できる。

Data Augmentation (DA) is a technique to increase the quantity and diversity of the training data, and by that alleviate overfitting and improve generalisation. However, standard DA produces synthetic data for augmentation with limited diversity. Generative Adversarial Networks (GANs) may unlock additional information in a dataset by generating synthetic samples having the appearance of real images. However, these models struggle to simultaneously address three key requirements: fidelity and high-quality samples; diversity and mode coverage; and fast sampling. Indeed, GANs generate high-quality samples rapidly, but have poor mode coverage, limiting their adoption in DA applications. We propose LatentAugment, a DA strategy that overcomes the low diversity of GANs, opening up for use in DA applications. Without external supervision, LatentAugment modifies latent vectors and moves them into latent space regions to maximise the synthetic images' diversity and fidelity. It is also agnostic to the dataset and the downstream task. A wide set of experiments shows that LatentAugment improves the generalisation of a deep model translating from MRI-to-CT beating both standard DA as well GAN-based sampling. Moreover, still in comparison with GAN-based sampling, LatentAugment synthetic samples show superior mode coverage and diversity. Code is available at: https://github.com/ltronchin/LatentAugment.
翻訳日:2023-07-24 13:32:36 公開日:2023-07-21
# フェンシェル双対性によるディバースオフライン模倣

Diverse Offline Imitation via Fenchel Duality ( http://arxiv.org/abs/2307.11373v1 )

ライセンス: Link先を確認
Marin Vlastelica, Pavel Kolev, Jin Cheng, Georg Martius(参考訳) 教師なしスキル発見の分野では近年,本質的なモチベーションの源泉として,相互情報に基づく目的を提唱する様々な研究が目覚ましい進歩を遂げている。 先行研究は主に、環境へのオンラインアクセスを必要とするアルゴリズムの設計に重点を置いている。 これとは対照的に,我々はスキル発見アルゴリズムを開発した。 本問題定式化は,kl-divergenceによって制約される相互情報目的の最大化を考える。 より正確に言うと、制約は、適切な状態アクションカバレッジを持つオフラインデータセットのサポート内で、各スキルの状態占有率が専門家の状態占有率に近いことを保証する。 私たちの主な貢献は、Fenchelの双対性、強化学習、教師なしのスキル発見を結びつけ、専門家と整合した多様なスキルを学ぶための単純なオフラインアルゴリズムを提供することです。

There has been significant recent progress in the area of unsupervised skill discovery, with various works proposing mutual information based objectives, as a source of intrinsic motivation. Prior works predominantly focused on designing algorithms that require online access to the environment. In contrast, we develop an \textit{offline} skill discovery algorithm. Our problem formulation considers the maximization of a mutual information objective constrained by a KL-divergence. More precisely, the constraints ensure that the state occupancy of each skill remains close to the state occupancy of an expert, within the support of an offline dataset with good state-action coverage. Our main contribution is to connect Fenchel duality, reinforcement learning and unsupervised skill discovery, and to give a simple offline algorithm for learning diverse skills that are aligned with an expert.
翻訳日:2023-07-24 13:32:14 公開日:2023-07-21
# ランダム分離超平面定理と学習多面体

Random Separating Hyperplane Theorem and Learning Polytopes ( http://arxiv.org/abs/2307.11371v1 )

ライセンス: Link先を確認
Chiranjib Bhattacharyya and Ravindran Kannan and Amit Kumar(参考訳) 分離超平面定理は、無数の応用を伴う凸幾何学の基本的な結果である。 我々の最初の結果であるランダム分離超平面定理(rsh)は、ポリトープに対するこの強化である。 $\rsh$ は、$a$ と $k$ のポリトープ $k$ との間の距離が少なくとも$\delta$ であり、$\delta$ は $(0,1)$ の固定定数であるなら、ランダムに選択された超平面は $a$ と $k$ を少なくとも $1/poly(k)$ で分離し、少なくとも $\omega \left(\delta/\sqrt{d} \right)$ となる。 この結果の即時的な結果は、分離オラクルからポリトープ上の最適化オラクルへの還元における誤差増加に関する最初の最適境界である。 RSHはポリトープの学習にアルゴリズム的応用がある。 我々は「ハウスドルフ問題」と表記される基本的な問題を考えると、単位直径のポリトープがハウスドルフ距離で$k$であり、最適化されたオラクルが$k$である。 RSHを用いて、最適化オラクルに対して多項式的に多くのランダムクエリを適用すれば、$K$はエラー$O(\delta)$内で近似できることを示す。 我々の知る限り、これはハウスドルフ問題の証明可能な最初のアルゴリズムである。 この結果に基づいて、$K$ の頂点が十分に分離された場合、最適化オラクルを使って点のリストを生成することができ、それぞれが Hausdorff distance $O(\delta)$ of $K$ 内にあり、リストが $K$ の各頂点に近い点を含むという性質を持つ。 さらに、このリストをpruneして、ポリトープの各頂点に(unique)近似を生成する方法を示す。 適切なSVD部分空間にプロジェクションすれば、トピックモデリング、LDA、最適化オラクルなど、多くの潜時変数設定で存在することが証明できる。 したがって,本研究は,潜在ポリトープの頂点への近似を求める最初の効率的なアルゴリズムである。

The Separating Hyperplane theorem is a fundamental result in Convex Geometry with myriad applications. Our first result, Random Separating Hyperplane Theorem (RSH), is a strengthening of this for polytopes. $\rsh$ asserts that if the distance between $a$ and a polytope $K$ with $k$ vertices and unit diameter in $\Re^d$ is at least $\delta$, where $\delta$ is a fixed constant in $(0,1)$, then a randomly chosen hyperplane separates $a$ and $K$ with probability at least $1/poly(k)$ and margin at least $\Omega \left(\delta/\sqrt{d} \right)$. An immediate consequence of our result is the first near optimal bound on the error increase in the reduction from a Separation oracle to an Optimization oracle over a polytope. RSH has algorithmic applications in learning polytopes. We consider a fundamental problem, denoted the ``Hausdorff problem'', of learning a unit diameter polytope $K$ within Hausdorff distance $\delta$, given an optimization oracle for $K$. Using RSH, we show that with polynomially many random queries to the optimization oracle, $K$ can be approximated within error $O(\delta)$. To our knowledge this is the first provable algorithm for the Hausdorff Problem. Building on this result, we show that if the vertices of $K$ are well-separated, then an optimization oracle can be used to generate a list of points, each within Hausdorff distance $O(\delta)$ of $K$, with the property that the list contains a point close to each vertex of $K$. Further, we show how to prune this list to generate a (unique) approximation to each vertex of the polytope. We prove that in many latent variable settings, e.g., topic modeling, LDA, optimization oracles do exist provided we project to a suitable SVD subspace. Thus, our work yields the first efficient algorithm for finding approximations to the vertices of the latent polytope under the well-separatedness assumption.
翻訳日:2023-07-24 13:32:00 公開日:2023-07-21
# Photo2Relief: 写真に写っている人間を遠ざける

Photo2Relief: Let Human in the Photograph Stand Out ( http://arxiv.org/abs/2307.11364v1 )

ライセンス: Link先を確認
Zhongping Ji, Feifei Che, Hanshuo Liu, Ziyi Zhao, Yu-Wei Zhang and Wenping Wang(参考訳) 本稿では,写真の人物をリリーフのように突き出す手法を提案する。 顔と頭に焦点を当てた従来の手法とは異なり、本手法はキャラクターの身体活動全体を記述するアートワークを作成することを目的としている。 ひとつの課題は、教師付きディープラーニングの基盤が存在しないことだ。 我々は,勾配領域で定義された損失関数を具備することで,勾配を巧みに操作し,ニューラルネットワークを訓練するためのシグモイド変種関数を導入する。 第2の課題は、実際の写真がしばしば異なる光条件を越えていることだ。 画像ベースのレンダリング技術を用いて,異なる照明条件下でのレンダリング画像と深度データを取得する。 ネットワークモジュールにおける作業の明確な分割を実現するため,一枚の写真から高品質なリリーフを実現するための2スケールアーキテクチャを提案する。 様々な場面における広範囲な実験結果から,本手法は写真から2次元デジタルアートワークを生成するための極めて効果的なソリューションであることが示された。

In this paper, we propose a technique for making humans in photographs protrude like reliefs. Unlike previous methods which mostly focus on the face and head, our method aims to generate art works that describe the whole body activity of the character. One challenge is that there is no ground-truth for supervised deep learning. We introduce a sigmoid variant function to manipulate gradients tactfully and train our neural networks by equipping with a loss function defined in gradient domain. The second challenge is that actual photographs often across different light conditions. We used image-based rendering technique to address this challenge and acquire rendering images and depth data under different lighting conditions. To make a clear division of labor in network modules, a two-scale architecture is proposed to create high-quality relief from a single photograph. Extensive experimental results on a variety of scenes show that our method is a highly effective solution for generating digital 2.5D artwork from photographs.
翻訳日:2023-07-24 13:31:09 公開日:2023-07-21
# ParGANDA: 合成歩行者をオブジェクト検出の現実にする

ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection ( http://arxiv.org/abs/2307.11360v1 )

ライセンス: Link先を確認
Daria Reshetova, Guanhang Wu, Marcel Puyat, Chunhui Gu, Huizhong Chen(参考訳) オブジェクト検出は多くのコンピュータビジョンアプリケーションにとって重要な技術であるが、適切な結果を得るためには大量の注釈付きデータを必要とすることが多い。 さらに、特に歩行者検出のために、収集されたデータは、多くの国で非常に制限されている個人識別情報(PII)を含む可能性がある。 このラベルの集中性とプライバシに関するタスクは、最近、フォトリアリスティックなビデオゲームエンジンで収集された合成された歩行者データセットを使用して検出モデルをトレーニングすることへの関心が高まっている。 エンジンは厳密で一貫したアノテーションで無制限のデータを生成することができ、現実世界のアプリケーションにおいて大きな利益をもたらす可能性がある。 しかし、トレーニングに合成データを用いることで、最終的なパフォーマンスが向上する合成から現実へのドメインシフトがもたらされる。 実データと合成データのギャップを埋めるため、よりリアルな画像を生成するためにパラメータ化されていない画像と画像の変換を行うGAN(Generative Adversarial Network)を提案する。 GANを使用する主な利点は、幾何学的画像に対する低レベルな変更を本質的に好むことである。つまり、与えられた合成画像のアノテーションは、ドメイン翻訳が実行された後も正確であり、実際のデータのラベル付けは不要である。 提案手法はMOTSynthデータセットを用いて,MOT17およびMOT20検出データセットのトレーニングを行い,本手法の有効性を実験的に検証した。 我々のアプローチは、視覚的にもっともらしいサンプルを生成するだけでなく、実際のドメインのラベルも必要とせず、様々な下流タスクに適用できる。

Object detection is the key technique to a number of Computer Vision applications, but it often requires large amounts of annotated data to achieve decent results. Moreover, for pedestrian detection specifically, the collected data might contain some personally identifiable information (PII), which is highly restricted in many countries. This label intensive and privacy concerning task has recently led to an increasing interest in training the detection models using synthetically generated pedestrian datasets collected with a photo-realistic video game engine. The engine is able to generate unlimited amounts of data with precise and consistent annotations, which gives potential for significant gains in the real-world applications. However, the use of synthetic data for training introduces a synthetic-to-real domain shift aggravating the final performance. To close the gap between the real and synthetic data, we propose to use a Generative Adversarial Network (GAN), which performsparameterized unpaired image-to-image translation to generate more realistic images. The key benefit of using the GAN is its intrinsic preference of low-level changes to geometric ones, which means annotations of a given synthetic image remain accurate even after domain translation is performed thus eliminating the need for labeling real data. We extensively experimented with the proposed method using MOTSynth dataset to train and MOT17 and MOT20 detection datasets to test, with experimental results demonstrating the effectiveness of this method. Our approach not only produces visually plausible samples but also does not require any labels of the real domain thus making it applicable to the variety of downstream tasks.
翻訳日:2023-07-24 13:30:52 公開日:2023-07-21
# 領域ランダム化とメタ学習を用いた強化学習に基づく交通信号制御の現実的ギャップの橋渡し

Bridging the Reality Gap of Reinforcement Learning based Traffic Signal Control using Domain Randomization and Meta Learning ( http://arxiv.org/abs/2307.11357v1 )

ライセンス: Link先を確認
Arthur M\"uller, Matthia Sabatelli(参考訳) 強化学習(rl)はtsc(traffic signal control)アプリケーションで広く研究されてきたが、実際にはそのようなシステムは採用されていない。 この領域における進歩の鍵となる障壁は現実のギャップであり、シミュレーションモデルと現実の等価性の違いから生じる相違である。 本稿では,この現実のギャップに寄与する潜在的なシミュレーションパラメータを包括的に分析することで,この問題に対処する。 さらに、ドメインランダム化(DR)とモデル非依存メタラーニング(MAML)という、このギャップを橋渡しできる有望な2つの戦略についても検討する。 どちらの戦略も交差点の交通シミュレーションモデルで訓練された。 さらにこのモデルは、現実的で安全に重要な要件をコントロールシステムに統合するフレームワークであるLemgoRLに埋め込まれた。 続いて,異なるトラヒックシミュレータを用いて開発した同一交差点の別モデルにおける2つの手法の性能評価を行った。 このように、現実のギャップを模倣します。 実験の結果,DRとMAMLはいずれも最先端のRLアルゴリズムより優れており,RTCシステムにおける現実的ギャップを緩和する可能性を示している。

Reinforcement Learning (RL) has been widely explored in Traffic Signal Control (TSC) applications, however, still no such system has been deployed in practice. A key barrier to progress in this area is the reality gap, the discrepancy that results from differences between simulation models and their real-world equivalents. In this paper, we address this challenge by first presenting a comprehensive analysis of potential simulation parameters that contribute to this reality gap. We then also examine two promising strategies that can bridge this gap: Domain Randomization (DR) and Model-Agnostic Meta-Learning (MAML). Both strategies were trained with a traffic simulation model of an intersection. In addition, the model was embedded in LemgoRL, a framework that integrates realistic, safety-critical requirements into the control system. Subsequently, we evaluated the performance of the two methods on a separate model of the same intersection that was developed with a different traffic simulator. In this way, we mimic the reality gap. Our experimental results show that both DR and MAML outperform a state-of-the-art RL algorithm, therefore highlighting their potential to mitigate the reality gap in RLbased TSC systems.
翻訳日:2023-07-24 13:30:25 公開日:2023-07-21
# 単一注意層は何を学べるか? ランダム特徴レンズに関する研究

What can a Single Attention Layer Learn? A Study Through the Random Features Lens ( http://arxiv.org/abs/2307.11353v1 )

ライセンス: Link先を確認
Hengyu Fu, Tianyu Guo, Yu Bai, Song Mei(参考訳) 一連の入力を一連の出力にマッピングするアテンション層は、トランスフォーマーアーキテクチャの中核的な構成要素であり、現代の人工知能において大きなブレークスルーを成し遂げた。 本稿では、キーベクトル列と個別クエリベクトルを入力として、単一のマルチヘッドアテンション層の学習と一般化に関する厳密な理論的研究を提案する。 我々は,アテンション層が多数のヘッドを持つランダムな特徴設定について検討し,ランダムにサンプルされた凍結クエリとキー行列,学習可能な値行列について考察する。 このような無作為特徴注意層は、鍵ベクトルに置換不変な対象関数の幅広いクラスを表現することができる。 さらに, 有限個の頭部を持つランダム特徴点に着目し, 有限個のサンプルから対象関数を学習するために, 定量的に過剰なリスク境界を与える。 Our results feature several implications unique to the attention structure compared with existing random features theory for neural networks, such as (1) Advantages in the sample complexity over standard two-layer random-feature networks; (2) Concrete and natural classes of functions that can be learned efficiently by a random-feature attention layer; and (3) The effect of the sampling distribution of the query-key weight matrix (the product of the query and key matrix), where Gaussian random weights with a non-zero mean result in better sample complexities over the zero-mean counterpart for learning certain natural target functions. シミュレーションデータによる実験は、我々の理論的知見を裏付け、さらに、サンプルサイズとターゲット関数の複雑さの間の相互作用を示す。

Attention layers -- which map a sequence of inputs to a sequence of outputs -- are core building blocks of the Transformer architecture which has achieved significant breakthroughs in modern artificial intelligence. This paper presents a rigorous theoretical study on the learning and generalization of a single multi-head attention layer, with a sequence of key vectors and a separate query vector as input. We consider the random feature setting where the attention layer has a large number of heads, with randomly sampled frozen query and key matrices, and trainable value matrices. We show that such a random-feature attention layer can express a broad class of target functions that are permutation invariant to the key vectors. We further provide quantitative excess risk bounds for learning these target functions from finite samples, using random feature attention with finitely many heads. Our results feature several implications unique to the attention structure compared with existing random features theory for neural networks, such as (1) Advantages in the sample complexity over standard two-layer random-feature networks; (2) Concrete and natural classes of functions that can be learned efficiently by a random-feature attention layer; and (3) The effect of the sampling distribution of the query-key weight matrix (the product of the query and key matrix), where Gaussian random weights with a non-zero mean result in better sample complexities over the zero-mean counterpart for learning certain natural target functions. Experiments on simulated data corroborate our theoretical findings and further illustrate the interplay between the sample size and the complexity of the target function.
翻訳日:2023-07-24 13:30:05 公開日:2023-07-21
# ハイブリッド討論 : ポストパンデミック時代の市民対話

Hybrid deliberation: Citizen dialogues in a post-pandemic era ( http://arxiv.org/abs/2307.11412v1 )

ライセンス: Link先を確認
Weiyu Zhang(参考訳) 本報告はまず, 市民議会, 市民抽選, 市民陪審, 審議投票, 参加予算など, 様々な形態の対話型参加について概観する。 これらの長期的実践に関連する課題が特定され、課題に対処するための概念としてハイブリッドな議論が提案される。 報告書は、市民対話のデジタルまたはハイブリッド形式の6つの主要な例を分析している。 このケースの比較を通じて、報告書はデジタルおよびアナログ参加形式を補完的に利用する上でのハードル/リスク、成功要因/不一致、ベストプラクティスについて結論付けている。 ハイクオリティな成果を生み出す集団による対話型参加の今後の方向性として,ハイブリッドな審議が提案されている。

This report first provides a brief review of various forms of dialogue-based participation, e.g., Citizen Assembly, Citizen Lottery, Citizen Jury, Deliberative Polling, and Participatory Budgeting. Challenges associated with these long-lasting practices are identified and hybrid deliberation is proposed as a concept to address the challenges. The report then analyzes six leading examples of digital or hybrid formats of citizen dialogues. Through the comparison of the cases, the report concludes about the hurdles/risks, success factors/opportunities, and best practices for a complementary use of digital and analogue participation formats. Hybrid deliberation is proposed to be the future direction for dialogue-based participation that involves masses and generates high-quality outcomes.
翻訳日:2023-07-24 13:23:46 公開日:2023-07-21
# 物体検出のための深層直接学習スパイクニューラルネットワーク

Deep Directly-Trained Spiking Neural Networks for Object Detection ( http://arxiv.org/abs/2307.11411v1 )

ライセンス: Link先を確認
Qiaoyi Su and Yuhong Chou and Yifan Hu and Jianing Li and Shijie Mei and Ziyang Zhang and Guoqi Li(参考訳) スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、時空間力学で情報をエンコードする脳誘発エネルギー効率モデルである。 近年, 直接訓練された深層SNNは, 極めて少ない時間ステップで, 分類タスクの高性能化に成功している。 しかし、オブジェクト検出の回帰タスクを直接訓練したSNNを設計する方法はまだ難しい問題である。 そこで本研究では,オブジェクト検出のためのSNNフレームワークであるEMS-YOLOを提案する。 具体的には、電力消費の少ない直接学習SNNの深さを効果的に拡張できるフルスパイク残差ブロック EMS-ResNet を設計する。 さらに、理論的には、EMS-ResNetは勾配の消失や爆発を避けることができると証明する。 その結果,提案手法は,最先端のANN-SNN変換手法(少なくとも500タイムステップ)よりも極めて少ない時間ステップ(4タイムステップのみ)で優れていた。 このモデルでは,フレームベースCOCOデータセットとイベントベースGen1データセットの5.83倍のエネルギーを消費しながら,同じアーキテクチャでANNに匹敵する性能を実現することができた。

Spiking neural networks (SNNs) are brain-inspired energy-efficient models that encode information in spatiotemporal dynamics. Recently, deep SNNs trained directly have shown great success in achieving high performance on classification tasks with very few time steps. However, how to design a directly-trained SNN for the regression task of object detection still remains a challenging problem. To address this problem, we propose EMS-YOLO, a novel directly-trained SNN framework for object detection, which is the first trial to train a deep SNN with surrogate gradients for object detection rather than ANN-SNN conversion strategies. Specifically, we design a full-spike residual block, EMS-ResNet, which can effectively extend the depth of the directly-trained SNN with low power consumption. Furthermore, we theoretically analyze and prove the EMS-ResNet could avoid gradient vanishing or exploding. The results demonstrate that our approach outperforms the state-of-the-art ANN-SNN conversion methods (at least 500 time steps) in extremely fewer time steps (only 4 time steps). It is shown that our model could achieve comparable performance to the ANN with the same architecture while consuming 5.83 times less energy on the frame-based COCO Dataset and the event-based Gen1 Dataset.
翻訳日:2023-07-24 13:23:32 公開日:2023-07-21
# 被験者拡散:テスト時間微調整を伴わないオープンドメインパーソナライズされたテキスト画像生成

Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning ( http://arxiv.org/abs/2307.11410v1 )

ライセンス: Link先を確認
Jian Ma, Junhao Liang, Chen Chen, Haonan Lu(参考訳) 拡散モデルを用いたパーソナライズ画像生成の最近の進歩は大きい。 しかし、オープンドメインと非微調整のパーソナライズ画像生成領域の開発は徐々に進んでいる。 本稿では,新しいオープンドメインパーソナライズド画像生成モデルである subject-diffusion を提案する。このモデルでは,テスト時の微調整を必要とせず,また任意のドメインにおける単一または複数サブジェクトのパーソナライズをサポートするために,単一の参照画像のみを必要とする。 まず,自動データラベリングツールを構築し,laion-aestheticsデータセットを用いて,76m画像とその対象検出バウンディングボックス,セグメンテーションマスク,テキスト記述からなる大規模データセットを構築する。 次に,対象の忠実性と一般化を最大化するために,粗い位置と細粒度参照画像制御を組み込むことにより,テキストと画像のセマンティクスを組み合わせた新しい統一フレームワークを設計する。 さらに,マルチサブジェクト生成をサポートするための注意制御機構も採用している。 広範に質的かつ定量的な結果から,本手法は他の sota フレームワークよりも単一,複数,人間のカスタマイズ画像生成に優れることが示された。 https://oppo-mente-lab.github.io/subject_diffusion/}{project page} を参照。

Recent progress in personalized image generation using diffusion models has been significant. However, development in the area of open-domain and non-fine-tuning personalized image generation is proceeding rather slowly. In this paper, we propose Subject-Diffusion, a novel open-domain personalized image generation model that, in addition to not requiring test-time fine-tuning, also only requires a single reference image to support personalized generation of single- or multi-subject in any domain. Firstly, we construct an automatic data labeling tool and use the LAION-Aesthetics dataset to construct a large-scale dataset consisting of 76M images and their corresponding subject detection bounding boxes, segmentation masks and text descriptions. Secondly, we design a new unified framework that combines text and image semantics by incorporating coarse location and fine-grained reference image control to maximize subject fidelity and generalization. Furthermore, we also adopt an attention control mechanism to support multi-subject generation. Extensive qualitative and quantitative results demonstrate that our method outperforms other SOTA frameworks in single, multiple, and human customized image generation. Please refer to our \href{https://oppo-mente-lab.github.io/subject_diffusion/}{project page}
翻訳日:2023-07-24 13:23:12 公開日:2023-07-21
# femモデル学習によるソフトロボットの直接および逆モデリング

Direct and inverse modeling of soft robots by learning a condensed FEM model ( http://arxiv.org/abs/2307.11408v1 )

ライセンス: Link先を確認
Etienne M\'enager, Tanguy Navez, Olivier Goury and Christian Duriez(参考訳) 有限要素法(fem)はソフトロボットの挙動を予測するための強力なモデリングツールである。 しかし、数値計算の非専門家にとって制御に使用することは困難であり、リアルタイムに計算を最適化する必要がある。 本稿では,コンパクトだが十分にリッチな機械表現を実現するための学習に基づく手法を提案する。 この選択は,femモデルの凝縮によるアクチュエータ/エフェクタ空間における非線形コンプライアンスデータに基づく。 このコンパクトなモデルは、適切な量のデータで学習できると同時に、ロボットの直接および逆運動学を推定できるため、モデリングの面では非常に効率的である。 また、2本の柔らかい指からなるグリッパーの例として、個別に学習したモデルをどう組み合わせるかを示す。 他の結果は、フルFEMモデルから得られた逆モデルとコンパクト学習版から得られた逆モデルを比較することで示される。 この研究は、ソフトロボットの組込み制御だけでなく、その設計にも新たな視点を開放する。 これらの視点も論文で論じられている。

The Finite Element Method (FEM) is a powerful modeling tool for predicting the behavior of soft robots. However, its use for control can be difficult for non-specialists of numerical computation: it requires an optimization of the computation to make it real-time. In this paper, we propose a learning-based approach to obtain a compact but sufficiently rich mechanical representation. Our choice is based on nonlinear compliance data in the actuator/effector space provided by a condensation of the FEM model. We demonstrate that this compact model can be learned with a reasonable amount of data and, at the same time, be very efficient in terms of modeling, since we can deduce the direct and inverse kinematics of the robot. We also show how to couple some models learned individually in particular on an example of a gripper composed of two soft fingers. Other results are shown by comparing the inverse model derived from the full FEM model and the one from the compact learned version. This work opens new perspectives, namely for the embedded control of soft robots, but also for their design. These perspectives are also discussed in the paper.
翻訳日:2023-07-24 13:22:49 公開日:2023-07-21
# Latent-OFER: 顔表情認識のための潜在ベクトルを用いた検出・マスク・再構成

Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for Occluded Facial Expression Recognition ( http://arxiv.org/abs/2307.11404v1 )

ライセンス: Link先を確認
Isack Lee, Eungi Lee, Seok Bong Yoo(参考訳) 表情認識(fer)に関するほとんどの研究は高度に制御された環境で行われているが、実際の状況に適用するとその性能は受け入れられないことが多い。 これは、予期せぬ物体が顔を遮蔽すると、ferネットワークは顔の特徴を抽出し、表情を正確に予測することが困難になるためである。 したがって、隠蔽FER(OFER)は難しい問題である。 Occclusion-aware FER に関する以前の研究は、訓練のために完全に注釈付けされた顔画像を必要とするのが一般的である。 しかし、様々な閉塞や表現アノテーションによる顔画像の収集には時間と費用がかかる。 提案手法であるLatent-OFERは、隠蔽を検知し、顔の隠蔽部分を隠蔽していないかのように復元し、認識し、FER精度を向上させる。 まず、視覚トランスフォーマ(vit)ベースのオクルージョンパッチ検出器は、サポートベクターデータ記述アルゴリズムを用いて、未オクルードパッチから潜在ベクターのみをトレーニングすることにより、オクルード位置をマスクする。 第2に、ハイブリッド再構成ネットワークは、ViTと畳み込みニューラルネットワーク(CNN)を用いて、完全な画像としてマスキング位置を生成する。 最後に、式関連潜在ベクター抽出器は、cnnベースのクラスアクティベーションマップを適用して、すべての潜在ベクターから表現関連情報を検索して使用する。 この機構は、目に見えない物体による性能劣化を防止する上で大きな利点がある。 複数のデータベースに対する実験結果から,提案手法が最先端手法よりも優れていることを示す。

Most research on facial expression recognition (FER) is conducted in highly controlled environments, but its performance is often unacceptable when applied to real-world situations. This is because when unexpected objects occlude the face, the FER network faces difficulties extracting facial features and accurately predicting facial expressions. Therefore, occluded FER (OFER) is a challenging problem. Previous studies on occlusion-aware FER have typically required fully annotated facial images for training. However, collecting facial images with various occlusions and expression annotations is time-consuming and expensive. Latent-OFER, the proposed method, can detect occlusions, restore occluded parts of the face as if they were unoccluded, and recognize them, improving FER accuracy. This approach involves three steps: First, the vision transformer (ViT)-based occlusion patch detector masks the occluded position by training only latent vectors from the unoccluded patches using the support vector data description algorithm. Second, the hybrid reconstruction network generates the masking position as a complete image using the ViT and convolutional neural network (CNN). Last, the expression-relevant latent vector extractor retrieves and uses expression-related information from all latent vectors by applying a CNN-based class activation map. This mechanism has a significant advantage in preventing performance degradation from occlusion by unseen objects. The experimental results on several databases demonstrate the superiority of the proposed method over state-of-the-art methods.
翻訳日:2023-07-24 13:22:32 公開日:2023-07-21
# 医用画像分割におけるobserver間およびinter-in-observer variabilityの確率論的モデル化

Probabilistic Modeling of Inter- and Intra-observer Variability in Medical Image Segmentation ( http://arxiv.org/abs/2307.11397v1 )

ライセンス: Link先を確認
Arne Schmidt and Pablo Morales-\'Alvarez and Rafael Molina(参考訳) 医療画像のセグメンテーションは、特に医療専門家の間でさえ、サーバ間およびサーバ内変動のため、難しい課題である。 本稿では,確率的インターオブザーバとiNtra-Observer変異NetwOrk(Pionono)と呼ばれる新しいモデルを提案する。 各レートラーのラベリング挙動を多次元確率分布で捉え、その情報を画像の特徴マップと統合して確率的セグメンテーション予測を生成する。 モデルは変分推論によって最適化され、エンドツーエンドでトレーニングすることができる。 ステープル、確率的u-net、および混乱行列に基づくモデルのような最先端のモデルを上回る。 さらに、ピオノノは、パーサーのエキスパートの意見を模倣した複数のコヒーレントなセグメンテーションマップを予測し、診断プロセスに付加的な情報を提供する。 実世界のがんセグメンテーションデータセットの実験は、ピオノの精度と効率を実証し、医療画像解析の強力なツールとなった。

Medical image segmentation is a challenging task, particularly due to inter- and intra-observer variability, even between medical experts. In this paper, we propose a novel model, called Probabilistic Inter-Observer and iNtra-Observer variation NetwOrk (Pionono). It captures the labeling behavior of each rater with a multidimensional probability distribution and integrates this information with the feature maps of the image to produce probabilistic segmentation predictions. The model is optimized by variational inference and can be trained end-to-end. It outperforms state-of-the-art models such as STAPLE, Probabilistic U-Net, and models based on confusion matrices. Additionally, Pionono predicts multiple coherent segmentation maps that mimic the rater's expert opinion, which provides additional valuable information for the diagnostic process. Experiments on real-world cancer segmentation datasets demonstrate the high accuracy and efficiency of Pionono, making it a powerful tool for medical image analysis.
翻訳日:2023-07-24 13:22:10 公開日:2023-07-21
# 一般化量子分岐プログラム

A Generalized Quantum Branching Program ( http://arxiv.org/abs/2307.11395v1 )

ライセンス: Link先を確認
Debajyoti Bera and Tharrmashastha Sapv(参考訳) 古典分岐プログラムは計算問題の空間複雑性を理解するために研究されている。 この研究に先立ち、中西とアブラエフは、NQBPとAQBPと呼ばれる分岐プログラムの2つの異なる量子バージョンを別々に定義した。 しかし、私たちの満足のいくものはいずれも、分岐プログラムトラバースの一段階において、重ね合わせで異なる変数をクエリできるという直感的なアイデアを捉えていない。 本稿では,gqbpと呼ばれる量子分岐プログラムモデルを提案する。 我々の定義を動機づけるために、最適長を持つ n ビットのDeutsch-Jozsa, n ビットのパリティ, 3 ビットのプライマリティに対する GQBP の例を明示的に提示する。 本稿では,GQBPとAQBP,GQBP,NQBP,GQBP,およびGQBPと問合せ複雑度(オラクルゲートとQRAMを用いて入力ビットを問合せする)の等価性を示す。 このようにして、この2つの以前の分岐プログラムの異なる結果を統一し、それらをクエリの複雑さに結びつける。 我々は、gqbpが組合せ問題に対する量子解の空間と時空下限を証明するのに使えることを望んでいる。

Classical branching programs are studied to understand the space complexity of computational problems. Prior to this work, Nakanishi and Ablayev had separately defined two different quantum versions of branching programs that we refer to as NQBP and AQBP. However, none of them, to our satisfaction, captures the intuitive idea of being able to query different variables in superposition in one step of a branching program traversal. Here we propose a quantum branching program model, referred to as GQBP, with that ability. To motivate our definition, we explicitly give examples of GQBP for n-bit Deutsch-Jozsa, n-bit Parity, and 3-bit Majority with optimal lengths. We the show several equivalences, namely, between GQBP and AQBP, GQBP and NQBP, and GQBP and query complexities (using either oracle gates and a QRAM to query input bits). In way this unifies the different results that we have for the two earlier branching programs, and also connects them to query complexity. We hope that GQBP can be used to prove space and space-time lower bounds for quantum solutions to combinatorial problems.
翻訳日:2023-07-24 13:21:51 公開日:2023-07-21
# MeetEval: 会議記述システムのための単語誤り率計算用ツールキット

MeetEval: A Toolkit for Computation of Word Error Rates for Meeting Transcription Systems ( http://arxiv.org/abs/2307.11394v1 )

ライセンス: Link先を確認
Thilo von Neumann, Christoph Boeddeker, Marc Delcroix, Reinhold Haeb-Umbach(参考訳) meetevalは、あらゆる種類の会議転写システムを評価するためのオープンソースのツールキットである。 一般に使われているワードエラー率(WER)、特にcpWER、ORC WER、MIMO WERの計算に統一されたインターフェースを提供する。 我々は,時間的制約によってcpwer計算を拡張し,時間的アライメントが妥当な場合にのみ単語が正しいと認識されるようにする。 これにより、仮説文字列と実際の書き起こし品質によりよく似た参照文字列とのマッチングの品質が向上し、時間が不足している場合にペナルティが課される。 単語レベルのタイミング情報はしばしば入手できないため、セグメントレベルのタイミング(例えば文)から正確な単語レベルのタイミングを近似する方法を示し、その近似が正確な単語レベルのアノテーションと一致したWERにつながることを示す。 同時に、時間制約はマッチングアルゴリズムの高速化につながるため、タイムスタンプの処理によるオーバーヘッドが増大する。

MeetEval is an open-source toolkit to evaluate all kinds of meeting transcription systems. It provides a unified interface for the computation of commonly used Word Error Rates (WERs), specifically cpWER, ORC WER and MIMO WER along other WER definitions. We extend the cpWER computation by a temporal constraint to ensure that only words are identified as correct when the temporal alignment is plausible. This leads to a better quality of the matching of the hypothesis string to the reference string that more closely resembles the actual transcription quality, and a system is penalized if it provides poor time annotations. Since word-level timing information is often not available, we present a way to approximate exact word-level timings from segment-level timings (e.g., a sentence) and show that the approximation leads to a similar WER as a matching with exact word-level annotations. At the same time, the time constraint leads to a speedup of the matching algorithm, which outweighs the additional overhead caused by processing the time stamps.
翻訳日:2023-07-24 13:21:31 公開日:2023-07-21
# ダイヤモンド中のシリコン空孔中心から通信Cバンドへの単一光子の2段階低雑音量子周波数変換

Two-stage, low noise quantum frequency conversion of single photons from silicon-vacancy centers in diamond to the telecom C-band ( http://arxiv.org/abs/2307.11389v1 )

ライセンス: Link先を確認
Marlon Sch\"afer, Benjamin Kambs, Dennis Herrmann, Tobias Bauer, Christoph Becher(参考訳) ダイヤモンドのシリコン真空センターは量子通信ネットワークの量子ビットとして大きな期待を抱いている。 しかし、光遷移は可視赤色スペクトル領域内にあるため、低損失の通信波長への量子周波数変換は長距離ファイバリンクネットワークでの使用に必須となる。 この研究は、ダイヤモンド中のシリコン空孔(SiV)中心から放出される光子の高効率で低ノイズの量子周波数変換装置を通信Cバンドに提示する。 2段差周波混合方式を用いることでSPDCノイズは回避され、ラマンノイズは最小化され、非常に低いノイズレートは毎秒10.4 \pm 0.7$光子となり、デバイス全体の効率は35.6\, \%$となる。 単一光子をSiV中心から変換することで、変換による光子統計の保存を示す。

The silicon-vacancy center in diamond holds great promise as a qubit for quantum communication networks. However, since the optical transitions are located within the visible red spectral region, quantum frequency conversion to low-loss telecommunication wavelengths becomes a necessity for its use in long-range, fiber-linked networks. This work presents a highly efficient, low-noise quantum frequency conversion device for photons emitted by a silicon-vacancy (SiV) center in diamond to the telecom C-band. By using a two-stage difference-frequency mixing scheme SPDC noise is circumvented and Raman noise is minimized, resulting in a very low noise rate of $10.4 \pm 0.7$ photons per second as well as an overall device efficiency of $35.6\, \%$. By converting single photons from SiV centers we demonstrate the preservation of photon statistics upon conversion.
翻訳日:2023-07-24 13:21:13 公開日:2023-07-21
# 授業準備学習における学生への即時フィードバックのための大規模言語モデルベースシステム

Large Language Model-based System to Provide Immediate Feedback to Students in Flipped Classroom Preparation Learning ( http://arxiv.org/abs/2307.11388v1 )

ライセンス: Link先を確認
Shintaro Uchiyama, Kyoji Umemura and Yusuke Morita(参考訳) 本稿では,大規模な言語モデルを用いて授業準備学習における学生に即時フィードバックを提供するシステムを提案する。 本研究は,学生の情緒的関与と学習意欲の確保など,反省した授業モデルにおける課題を解決することを目的とした。 講義映像の内容については,授業準備時に質問することが多いが,教師がすぐに答えることは困難である。 実戦で使用されている準備学習のためのビデオ視聴支援システムとして,ChatGPT APIを用いたシステムを開発した。 ChatGPTからの回答は、しばしば学生の質問の文脈と一致しない。 そこで,本稿では,回答と文脈を整合させる手法を提案する。 また,本論文では,教師の質問に対する回答を収集し,追加のガイドとして活用する方法を提案する。 本稿では,提案システムの設計と実装について述べる。

This paper proposes a system that uses large language models to provide immediate feedback to students in flipped classroom preparation learning. This study aimed to solve challenges in the flipped classroom model, such as ensuring that students are emotionally engaged and motivated to learn. Students often have questions about the content of lecture videos in the preparation of flipped classrooms, but it is difficult for teachers to answer them immediately. The proposed system was developed using the ChatGPT API on a video-watching support system for preparation learning that is being used in real practice. Answers from ChatGPT often do not align with the context of the student's question. Therefore, this paper also proposes a method to align the answer with the context. This paper also proposes a method to collect the teacher's answers to the students' questions and use them as additional guides for the students. This paper discusses the design and implementation of the proposed system.
翻訳日:2023-07-24 13:20:57 公開日:2023-07-21
# ランダムテンソル平坦化の$\mathfrak S_k$-circular limit

The $\mathfrak S_k$-circular limit of random tensor flattenings ( http://arxiv.org/abs/2307.11439v1 )

ライセンス: Link先を確認
St\'ephane Dartois, Camille Male, Ion Nechita(参考訳) テンソル平坦化は、純量子状態の自由度を部分的にトレースすることで密度行列を生成するときに自然に量子情報に現れる。 本稿では,自由確率論の意味で,ゆるやかな仮定の下での大きなランダムテンソルの平坦化の合同的$^*$分布について検討する。 共分散構造を記述した置換群代数上のアマルガメーションを持つ作用素値円系への収束を示す。 応用として、ボゾン量子状態の大きなランダム密度行列の法則を記述する。

The tensor flattenings appear naturally in quantum information when one produces a density matrix by partially tracing the degrees of freedom of a pure quantum state. In this paper, we study the joint $^*$-distribution of the flattenings of large random tensors under mild assumptions, in the sense of free probability theory. We show the convergence toward an operator-valued circular system with amalgamation on permutation group algebras for which we describe the covariance structure. As an application we describe the law of large random density matrix of bosonic quantum states.
翻訳日:2023-07-24 13:13:19 公開日:2023-07-21
# 顔偽造検出の一般化のための注意一致修正マスク付き周波数偽造表現

Attention Consistency Refined Masked Frequency Forgery Representation for Generalizing Face Forgery Detection ( http://arxiv.org/abs/2307.11438v1 )

ライセンス: Link先を確認
Decheng Liu, Tao Chen, Chunlei Peng, Nannan Wang, Ruimin Hu, Xinbo Gao(参考訳) 深層画像生成技術の発展が成功したため、視覚データ偽造検出は社会と経済の安全においてより重要な役割を果たす。 既存の偽造検出方法は、未発見領域の真正性を決定するための不十分な一般化能力に苦しむ。 本稿では,顔偽造検出アルゴリズム(acmf)の一般化に向けて,新しい注意一貫性向上マスク偽造表現モデルを提案する。 ほとんどの偽造技術は、常に高い頻度で認識する手がかりをもたらし、ソースの信頼性を識別しやすくするが、目に見えないアーティファクトタイプへの一般化は困難である。 masked frequency forgery representation moduleは、高周波情報をランダムに捨てることで、堅牢なforgery cuesを探索するように設計されている。 さらに,検出ネットワークを介した偽造注意マップの不整合が一般化性に影響を及ぼすことを見出した。 これにより,検出者に類似した注意領域に着目して一般化能力を高めるために,偽造注意一貫性が導入された。 顔偽造データ(FaceForensic++,DFD,Celeb-DF,WDF)を用いた実験では,最先端の手法と比較して提案手法の優れた性能を示した。

Due to the successful development of deep image generation technology, visual data forgery detection would play a more important role in social and economic security. Existing forgery detection methods suffer from unsatisfactory generalization ability to determine the authenticity in the unseen domain. In this paper, we propose a novel Attention Consistency Refined masked frequency forgery representation model toward generalizing face forgery detection algorithm (ACMF). Most forgery technologies always bring in high-frequency aware cues, which make it easy to distinguish source authenticity but difficult to generalize to unseen artifact types. The masked frequency forgery representation module is designed to explore robust forgery cues by randomly discarding high-frequency information. In addition, we find that the forgery attention map inconsistency through the detection network could affect the generalizability. Thus, the forgery attention consistency is introduced to force detectors to focus on similar attention regions for better generalization ability. Experiment results on several public face forgery datasets (FaceForensic++, DFD, Celeb-DF, and WDF datasets) demonstrate the superior performance of the proposed method compared with the state-of-the-art methods.
翻訳日:2023-07-24 13:13:10 公開日:2023-07-21
# 双曲型pideの遅延補償制御のためのニューラル演算子

Neural Operators for Delay-Compensating Control of Hyperbolic PIDEs ( http://arxiv.org/abs/2307.11436v1 )

ライセンス: Link先を確認
Jie Qi, Jing Zhang, Miroslav Krstic(参考訳) PDE制御のための最近導入されたDeepONet演算子学習フレームワークは、基本的双曲型および放物型PDEの結果から、状態とシステム出力と入力の両方の遅延を伴う高度な双曲型クラスへと拡張されている。 PDEバックステッピング設計は、非線形演算子の出力であるゲイン関数を生成し、空間領域上の関数を空間領域上の関数にマッピングし、このゲイン生成演算子の入力をPDEの係数とする。 この演算子は、DeepONetニューラルネットワークと近似して、任意にきつい精度の程度に近似する。 この近似理論的な結果を無限次元で生成すると、近似ゲインを用いるフィードバックの下で閉ループの安定性が確立される。 実状態フィードバックによる結果の供給に加えて,DeepONet近似オブザーバや出力フィードバック法則も開発し,ニューラル演算子近似による安定化特性の証明を行う。 数値シミュレーションにより, 数値pde解法をdeeponet法に置き換えることで, 理論的な結果を示し, 2桁の数値的労力節約を定量化する。

The recently introduced DeepONet operator-learning framework for PDE control is extended from the results for basic hyperbolic and parabolic PDEs to an advanced hyperbolic class that involves delays on both the state and the system output or input. The PDE backstepping design produces gain functions that are outputs of a nonlinear operator, mapping functions on a spatial domain into functions on a spatial domain, and where this gain-generating operator's inputs are the PDE's coefficients. The operator is approximated with a DeepONet neural network to a degree of accuracy that is provably arbitrarily tight. Once we produce this approximation-theoretic result in infinite dimension, with it we establish stability in closed loop under feedback that employs approximate gains. In addition to supplying such results under full-state feedback, we also develop DeepONet-approximated observers and output-feedback laws and prove their own stabilizing properties under neural operator approximations. With numerical simulations we illustrate the theoretical results and quantify the numerical effort savings, which are of two orders of magnitude, thanks to replacing the numerical PDE solving with the DeepONet.
翻訳日:2023-07-24 13:12:49 公開日:2023-07-21
# グリーンAIのためのバッチ - 推論に関する探索的研究

Batching for Green AI -- An Exploratory Study on Inference ( http://arxiv.org/abs/2307.11434v1 )

ライセンス: Link先を確認
Tim Yarally, Lu\'is Cruz, Daniel Feitosa, June Sallou, Arie van Deursen(参考訳) 新しいニューラルネットワークの開発において、バッチサイズはチューニングに必須のパラメータである。 他の品質指標の中でも、モデルの正確性、一般化可能性、トレーニング時間、並列性に大きな影響を与える。 この事実は一般に知られ、一般に研究されている。 しかし、ディープラーニングモデルの適用段階では、モデルがエンドユーザーが推論に利用する場合、バッチサイズを導入することの潜在的な利点を無視することがある。 本研究では,入力バッチ処理がコンピュータビジョンのための5つの完全学習ニューラルネットワークのエネルギー消費と応答時間に及ぼす影響について検討した。 その結果、どちらの指標にもバッチ処理が大きな影響を与えることが示唆された。 さらに,過去10年間のニューラルネットワークのエネルギー効率と精度の時系列について述べる。 一般的に、エネルギー消費は正確性よりもずっと急なペースで上昇し、この進化の必要性に疑問を呈する。 さらに1つの特定のネットワークであるShuffleNetV2(2018)を強調し、エネルギー消費をはるかに低く保ちながら、当時競争力を発揮した。 それでも、結果はモデルに依存しています。

The batch size is an essential parameter to tune during the development of new neural networks. Amongst other quality indicators, it has a large degree of influence on the model's accuracy, generalisability, training times and parallelisability. This fact is generally known and commonly studied. However, during the application phase of a deep learning model, when the model is utilised by an end-user for inference, we find that there is a disregard for the potential benefits of introducing a batch size. In this study, we examine the effect of input batching on the energy consumption and response times of five fully-trained neural networks for computer vision that were considered state-of-the-art at the time of their publication. The results suggest that batching has a significant effect on both of these metrics. Furthermore, we present a timeline of the energy efficiency and accuracy of neural networks over the past decade. We find that in general, energy consumption rises at a much steeper pace than accuracy and question the necessity of this evolution. Additionally, we highlight one particular network, ShuffleNetV2(2018), that achieved a competitive performance for its time while maintaining a much lower energy consumption. Nevertheless, we highlight that the results are model dependent.
翻訳日:2023-07-24 13:12:28 公開日:2023-07-21
# 層状六方晶窒化ホウ素の室温におけるHuang-Rhys値の低いサイト特異的安定決定性単一光子発光体

Site-specific stable deterministic single photon emitters with low Huang-Rhys value in layered hexagonal boron nitride at room temperature ( http://arxiv.org/abs/2307.11433v1 )

ライセンス: Link先を確認
Amit Bhunia, Pragya Joshi, Nitesh Singh, Biswanath Chakraborty and Rajesh V Nair(参考訳) ヘキサゴナルボロン窒化フレーク(h-bn)の原子欠陥を利用した安定な室温単光子エミッタの開発は量子技術に大きな期待を与える。 しかし、h-BNの顕著な課題は、非常に低いHuang-Rhys (HR) 因子を持つサイト特異的で安定で高放射率の単一光子放出体を作ることである。 ここでは、高放射率かつ前例のない低いHR値0.6の単一光子を室温で放出する、サイト特異的で孤立した安定量子エミッタのフォトニック特性について論じる。 走査共焦点画像は、ゼロフォノンラインが約578nm、飽和光子数105秒のサイト固有の単一光子エミッタを確認する。 2階の強度-強度相関測定は、放出寿命が2.46 nsの反膨らみが0.25であることを示している。 安定な単一光子エミッタを実現するためには、低エネルギー電子線照射とその後の熱処理が重要である。

Development of stable room-temperature bright single-photon emitters using atomic defects in hexagonal-boron nitride flakes (h-BN) provides significant promises for quantum technologies. However, an outstanding challenge in h-BN is creating site-specific, stable, high emission rate single photon emitters with very low Huang-Rhys (HR) factor. Here, we discuss the photonic properties of site-specific, isolated, stable quantum emitter that emit single photons with a high emission rate and unprecedented low HR value of 0.6 at room temperature. Scanning confocal image confirms site-specific single photon emitter with a prominent zero-phonon line at ~578 nm with saturation photon counts of 105 counts/second. The second-order intensity-intensity correlation measurement shows an anti-bunching dip of ~0.25 with an emission lifetime of 2.46 ns. Low-energy electron beam irradiation and subsequent annealing are important to achieve stable single photon emitters.
翻訳日:2023-07-24 13:12:12 公開日:2023-07-21
# 分散型在庫管理システムにおけるマルチエージェント強化学習の解析

An Analysis of Multi-Agent Reinforcement Learning for Decentralized Inventory Control Systems ( http://arxiv.org/abs/2307.11432v1 )

ライセンス: Link先を確認
Marwan Mousa and Damien van de Berg and Niki Kotecha and Ehecatl Antonio del Rio-Chanona and Max Mowbray(参考訳) 在庫管理問題に対するほとんどのソリューションは、実際のサプライチェーンネットワークにおける組織的制約と互換性のない情報の集中化を前提としている。 在庫管理問題は、サプライチェーンにおけるノードの最適な再注文ポリシーを見つけることに関するオペレーション研究において、よく知られた計画問題である。 この問題に対する多くの集中型ソリューションが存在するが、それらは独立したエンティティからなる実世界のサプライチェーンには適用できない。 しかし、問題は自然に分解され、それぞれが独立した実体に関連付けられ、マルチエージェントシステムへと変換される。 そこで,エージェントが各エンティティを制御するマルチエージェント強化学習を用いて,在庫管理問題に対する分散データ駆動型ソリューションを提案する。 近位政策最適化アルゴリズムの3つのマルチエージェント変動を,異なるサプライチェーンネットワークのシミュレーションと不確実性のレベルを用いて検討した。 集中型トレーニング 分散実行フレームワークは、シミュレーションベースのポリシ識別中にオフライン集中化に依存するが、実際のシステムにポリシがオンラインにデプロイされた場合に分散化を可能にする。 その結果, 集中型評論家によるマルチエージェント近似ポリシー最適化は, 集中型データ駆動型ソリューションに非常に近い性能を示し, システムの情報制約を尊重しながら, 分散モデルベースソリューションよりも優れていることがわかった。

Most solutions to the inventory management problem assume a centralization of information that is incompatible with organisational constraints in real supply chain networks. The inventory management problem is a well-known planning problem in operations research, concerned with finding the optimal re-order policy for nodes in a supply chain. While many centralized solutions to the problem exist, they are not applicable to real-world supply chains made up of independent entities. The problem can however be naturally decomposed into sub-problems, each associated with an independent entity, turning it into a multi-agent system. Therefore, a decentralized data-driven solution to inventory management problems using multi-agent reinforcement learning is proposed where each entity is controlled by an agent. Three multi-agent variations of the proximal policy optimization algorithm are investigated through simulations of different supply chain networks and levels of uncertainty. The centralized training decentralized execution framework is deployed, which relies on offline centralization during simulation-based policy identification, but enables decentralization when the policies are deployed online to the real system. Results show that using multi-agent proximal policy optimization with a centralized critic leads to performance very close to that of a centralized data-driven solution and outperforms a distributed model-based solution in most cases while respecting the information constraints of the system.
翻訳日:2023-07-24 13:11:53 公開日:2023-07-21
# エントロピーコミュニケーションへの注意

Attention to Entropic Communication ( http://arxiv.org/abs/2307.11423v1 )

ライセンス: Link先を確認
Torsten En{\ss}lin, Carolin Weidinger, Philipp Frank(参考訳) 特定のデータの重要性を強調する数値重みの概念は、人工知能に非常に関係があることが証明されている。 相対エントロピー(re、別名kullback-leibler divergence)はコミュニケーション理論において中心的な役割を果たす。 ここではこれらの概念と注意と再評価を組み合わせる。 REは、帯域幅制限通信におけるメッセージの最適符号化と、最大エントロピー原理(MEP)による最適なメッセージ復号を導く。 コーディングシナリオでは、reは分析、局所、固有、校正という4つの要件から導出することができる。 コミュニケーションにおける注意制御に使用される重み付きREは、不適切であることが判明した。 適切な注意コミュニケーションが生じるかを確認するため、メッセージ受信者が適切に情報交換を行うことができることを確実にしたいメッセージ送信者のシナリオを分析します。 受信側がMEPを使用してメッセージをデコードした場合、送信側は受信側のユーティリティ機能を知るだけで、受信側の初期知識状態は知らせられる。 実用機能最大値の曲率しか分かっていない場合には、この曲率重み付き再正規化確率関数により、注意関数を正確に伝達することが望ましい。 エントロピック・アテンション・コミュニケーションは、適切な方法で重み付けを可能にするエントロピック・コミュニケーションの望ましい一般化として提案され、技術的応用における最適な通信プロトコルの設計を支援し、ヒューマン・コミュニケーションの理解を支援する。 例えば、我々の分析は、非正直なコミュニケーションパートナーの利益の相違により期待される協力のレベルを導出する方法を示している。

The concept of attention, numerical weights that emphasize the importance of particular data, has proven to be very relevant in artificial intelligence. Relative entropy (RE, aka Kullback-Leibler divergence) plays a central role in communication theory. Here we combine these concepts, attention and RE. RE guides optimal encoding of messages in bandwidth-limited communication as well as optimal message decoding via the maximum entropy principle (MEP). In the coding scenario, RE can be derived from four requirements, namely being analytical, local, proper, and calibrated. Weighted RE, used for attention steering in communications, turns out to be improper. To see how proper attention communication can emerge, we analyze a scenario of a message sender who wants to ensure that the receiver of the message can perform well-informed actions. If the receiver decodes the message using the MEP, the sender only needs to know the receiver's utility function to inform optimally, but not the receiver's initial knowledge state. In case only the curvature of the utility function maxima are known, it becomes desirable to accurately communicate an attention function, in this case a by this curvature weighted and re-normalized probability function. Entropic attention communication is here proposed as the desired generalization of entropic communication that permits weighting while being proper, thereby aiding the design of optimal communication protocols in technical applications and helping to understand human communication. For example, our analysis shows how to derive the level of cooperation expected under misaligned interests of otherwise honest communication partners.
翻訳日:2023-07-24 13:11:33 公開日:2023-07-21
# FaceCLIPNeRF:変形性ニューラルネットワークを用いたテキスト駆動型3次元顔マニピュレーション

FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields ( http://arxiv.org/abs/2307.11418v1 )

ライセンス: Link先を確認
Sungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim, Jaegul Choo(参考訳) 近年のNeural Radiance Fields(NeRF)の進歩により、高忠実度3次元顔再構成と新しいビュー合成が可能になったため、その操作は3次元視覚において必須の課題となった。 しかし,既存の操作手法では,ユーザが提供するセマンティックマスクや手動属性検索など,高度な人的労力を必要とする。 我々のアプローチは、NeRFで再構成された顔を操作するために単一のテキストを必要とするように設計されている。 そこで,我々はまず動的シーン上で,潜在コード条件変形可能なnerfであるシーンマニピュレータを訓練し,潜在コードを用いて顔変形を制御する。 しかし、1つの潜在コードでシーン変形を表現することは、異なるインスタンスで観測される局所変形を合成するのに不利である。 そこで,提案する位置条件アンカーコンポジタ(pac)は,空間的に変化する潜在コードを用いて操作されたシーンを表現することを学習する。 シーンマニピュレータによるレンダリングは、テキスト駆動操作のためのCLIP埋め込み空間のターゲットテキストと高いコサイン類似性を得るために最適化される。 我々の知る限りでは、NeRFで再構築された顔のテキスト駆動操作に最初に取り組むアプローチである。 大規模な結果,比較,アブレーション研究は,我々のアプローチの有効性を示すものである。

As recent advances in Neural Radiance Fields (NeRF) have enabled high-fidelity 3D face reconstruction and novel view synthesis, its manipulation also became an essential task in 3D vision. However, existing manipulation methods require extensive human labor, such as a user-provided semantic mask and manual attribute search unsuitable for non-expert users. Instead, our approach is designed to require a single text to manipulate a face reconstructed with NeRF. To do so, we first train a scene manipulator, a latent code-conditional deformable NeRF, over a dynamic scene to control a face deformation using the latent code. However, representing a scene deformation with a single latent code is unfavorable for compositing local deformations observed in different instances. As so, our proposed Position-conditional Anchor Compositor (PAC) learns to represent a manipulated scene with spatially varying latent codes. Their renderings with the scene manipulator are then optimized to yield high cosine similarity to a target text in CLIP embedding space for text-driven manipulation. To the best of our knowledge, our approach is the first to address the text-driven manipulation of a face reconstructed with NeRF. Extensive results, comparisons, and ablation studies demonstrate the effectiveness of our approach.
翻訳日:2023-07-24 13:11:08 公開日:2023-07-21
# Qrisp高レベル量子プログラミングフレームワークにおける非計算

Uncomputation in the Qrisp high-level Quantum Programming Framework ( http://arxiv.org/abs/2307.11417v1 )

ライセンス: Link先を確認
Raphael Seidel, Nikolay Tcholtchev, Sebastian Bock and Manfred Hauswirth(参考訳) 非計算は可逆コンピューティングの重要な部分であり、量子コンピューティングにおいて重要な役割を果たす。 この技術を用いることで、メモリリソースを非可逆的削除処理を行なわずに安全に再配置することができる。 量子コンピューティングの場合、いくつかのアルゴリズムは、実行中に無絡状態を必要とするため、これに依存する。 したがって、非計算はリソース管理だけでなく、アルゴリズムの観点からも必要である。 しかし、非計算回路の合成は退屈で自動化できる。 本稿では,Qrispフレームワークにおける非計算回路の自動生成インタフェースについて述べる。 Qrispで非計算回路を合成するアルゴリズムは、Paradisらによって提案されたソリューションである"Unqomp"の改良版に基づいている。 アル 提案手法は,高レベルプログラミングフレームワークのニーズに適合するため,元のアルゴリズムにいくつかの改良を加えている。 Qrisp自体は、ゲートベースの量子コンピュータのための完全コンパイル可能でハイレベルなプログラミング言語/フレームワークであり、基礎となるハードウェアの詳細の多くを抽象化している。 Qrispの目標は、古典的なソフトウェア開発で知られているハイレベルプログラミングパラダイムをサポートすることである。

Uncomputation is an essential part of reversible computing and plays a vital role in quantum computing. Using this technique, memory resources can be safely deallocated without performing a nonreversible deletion process. For the case of quantum computing, several algorithms depend on this as they require disentangled states in the course of their execution. Thus, uncomputation is not only about resource management, but is also required from an algorithmic point of view. However, synthesizing uncomputation circuits is tedious and can be automated. In this paper, we describe the interface for automated generation of uncomputation circuits in our Qrisp framework. Our algorithm for synthesizing uncomputation circuits in Qrisp is based on an improved version of "Unqomp", a solution presented by Paradis et. al. Our paper also presents some improvements to the original algorithm, in order to make it suitable for the needs of a high-level programming framework. Qrisp itself is a fully compilable, high-level programming language/framework for gate-based quantum computers, which abstracts from many of the underlying hardware details. Qrisp's goal is to support a high-level programming paradigm as known from classical software development.
翻訳日:2023-07-24 13:10:44 公開日:2023-07-21
# OpenPose を用いた検査における注意点検出装置

A Video-based Detector for Suspicious Activity in Examination with OpenPose ( http://arxiv.org/abs/2307.11413v1 )

ライセンス: Link先を確認
Reuben Moyo, Stanley Ndebvu, Michael Zimba, Jimmy Mbelwa(参考訳) 試験は学習過程の重要な部分であり、学術機関は学生やファシリテーターからの不正行為を防止し、その完全性を維持するために重要なリソースを投入している。 しかし、不正行為は試験のセットアップで盛んになり、その完全性を損なうことになる。 すべての生徒を監視するためにインヴィゲータに依存する伝統的な方法は非実用的で非効率である。 この問題に対処するためには,学生の疑わしい活動を監視するために,試験セッションを継続的に記録する必要がある。 しかし、これらの録音はインヴィゲータが効果的に分析するには長すぎることが多く、疲労は重要な詳細を見逃してしまう可能性がある。 範囲を広げるために、インヴィゲータは頭上固定カメラやウェアラブルカメラを使うことができた。 本稿では,自動化を利用して映像を分析し,検査中の不審な活動を効率的に検出するフレームワークを提案する。 我々は,OpenPoseフレームワークと畳み込みニューラルネットワーク(CNN)を用いて,試験中にオブジェクトを交換する学生を特定した。 この検出システムは,学術的完全性,公平性,質の高い教育の不正防止と促進に不可欠である。

Examinations are a crucial part of the learning process, and academic institutions invest significant resources into maintaining their integrity by preventing cheating from students or facilitators. However, cheating has become rampant in examination setups, compromising their integrity. The traditional method of relying on invigilators to monitor every student is impractical and ineffective. To address this issue, there is a need to continuously record exam sessions to monitor students for suspicious activities. However, these recordings are often too lengthy for invigilators to analyze effectively, and fatigue may cause them to miss significant details. To widen the coverage, invigilators could use fixed overhead or wearable cameras. This paper introduces a framework that uses automation to analyze videos and detect suspicious activities during examinations efficiently and effectively. We utilized the OpenPose framework and Convolutional Neural Network (CNN) to identify students exchanging objects during exams. This detection system is vital in preventing cheating and promoting academic integrity, fairness, and quality education for institutions.
翻訳日:2023-07-24 13:10:26 公開日:2023-07-21
# 6gネットワークにおける普及型人工知能のゼロタッチ実現

Zero-touch realization of Pervasive Artificial Intelligence-as-a-service in 6G networks ( http://arxiv.org/abs/2307.11468v1 )

ライセンス: Link先を確認
Emna Baccour and Mhd Saria Allahham and Aiman Erbad and Amr Mohamed and Ahmed Refaey Hussein and Mounir Hamdi(参考訳) 超高密度ネットワーク、低レイテンシ、高速データレートを特徴とする次の6G技術のビジョンは、セルフX(セルフコンフィグレーション、セルフモニタリング、セルフヒーリング)サービスを可能にするゼロタッチソリューションを使用してPervasive AI(PAI)をサポートすることである。 しかし、6Gの研究はまだ初期段階であり、その設計を概念化し、その実装を調査し、ユースケースを計画する最初の段階に過ぎなかった。 この目的に向けて、学術と産業のコミュニティは、AI配布の理論研究から現実の展開と標準化へと徐々に移行してきた。 それでも、ゼロタッチサービスプロビジョニングによって支援されたサードパーティアプリケーションを使用して、サービスへのアクセスを容易にすることで、aiディストリビューションを体系化するエンドツーエンドフレームワークの設計は、十分に検討されていない。 この文脈では、ブロックチェーンベースのスマートシステムによってサポートされている6Gネットワークに、ゼロタッチPAI-as-a-Service(PAIaaS)をデプロイするための新しいプラットフォームアーキテクチャを導入する。 このプラットフォームの目的は、アーキテクチャのあらゆるレベルで広く普及するAIを標準化し、アプリケーションとインフラストラクチャドメイン間のサービスのデプロイを容易にするためにインターフェースを統合すること、コスト、セキュリティ、リソース割り当てに関する心配を和らげること、そして同時に、6Gの厳格なパフォーマンス要件を尊重することである。 概念実証として,提案するシステムが6gネットワークのダイナミックスに自己最適化し,自己適応する能力を評価するとともに,ユーザの認識するコストを最小化する,フェデレート学習・アズ・ア・サービスユースケースを提案する。

The vision of the upcoming 6G technologies, characterized by ultra-dense network, low latency, and fast data rate is to support Pervasive AI (PAI) using zero-touch solutions enabling self-X (e.g., self-configuration, self-monitoring, and self-healing) services. However, the research on 6G is still in its infancy, and only the first steps have been taken to conceptualize its design, investigate its implementation, and plan for use cases. Toward this end, academia and industry communities have gradually shifted from theoretical studies of AI distribution to real-world deployment and standardization. Still, designing an end-to-end framework that systematizes the AI distribution by allowing easier access to the service using a third-party application assisted by a zero-touch service provisioning has not been well explored. In this context, we introduce a novel platform architecture to deploy a zero-touch PAI-as-a-Service (PAIaaS) in 6G networks supported by a blockchain-based smart system. This platform aims to standardize the pervasive AI at all levels of the architecture and unify the interfaces in order to facilitate the service deployment across application and infrastructure domains, relieve the users worries about cost, security, and resource allocation, and at the same time, respect the 6G stringent performance requirements. As a proof of concept, we present a Federated Learning-as-a-service use case where we evaluate the ability of our proposed system to self-optimize and self-adapt to the dynamics of 6G networks in addition to minimizing the users' perceived costs.
翻訳日:2023-07-24 13:06:04 公開日:2023-07-21
# matspectnet: domain-aware と physical-constrained hyperspectral reconstruction を用いた材料セグメンテーションネットワーク

MatSpectNet: Material Segmentation Network with Domain-Aware and Physically-Constrained Hyperspectral Reconstruction ( http://arxiv.org/abs/2307.11466v1 )

ライセンス: Link先を確認
Yuwen Heng, Yihong Wu, Jiawen Chen, Srinandan Dasmahapatra, Hansung Kim(参考訳) 3チャンネルのrgb画像の正確な材質分割を達成することは、材料の外観にかなりのばらつきがあるため困難である。 複数の波長でサンプリングされたスペクトルのセットである超スペクトル画像は、表面から反射される電磁波の強度の変動がシーンの材料組成に依存するため、理論的に物質識別のための異なる情報を提供する。 しかし, 既存のハイパースペクトルデータセットは, 高密度材料分割作業における画像や材料カテゴリの数が不足しているため, スペクトルカメラによるハイパースペクトル画像の収集・注釈は極めて高価である。 そこで我々は,RGB画像から高スペクトル像を復元した材料を分割する新しいモデルであるMatSpectNetを提案する。 ネットワークは、再構成されたハイパースペクトル画像を制限するために、現代のカメラにおける色知覚の原理を活用し、スペクトル回復データセットから材料セグメンテーションデータセットへのハイパースペクトル再構成機能を一般化するドメイン適応法を採用している。 再構成されたハイパースペクトル画像は、さらに学習応答曲線を用いてフィルタされ、人間の知覚により強化される。 MatSpectNetのパフォーマンスは、LMDデータセットとOpenSurfacesデータセットで評価される。 実験の結果,matspectnetは平均画素精度が1.60%向上し,平均クラス精度が3.42%向上した。 プロジェクトコードは補足資料に添付され、githubで公開される予定だ。

Achieving accurate material segmentation for 3-channel RGB images is challenging due to the considerable variation in a material's appearance. Hyperspectral images, which are sets of spectral measurements sampled at multiple wavelengths, theoretically offer distinct information for material identification, as variations in intensity of electromagnetic radiation reflected by a surface depend on the material composition of a scene. However, existing hyperspectral datasets are impoverished regarding the number of images and material categories for the dense material segmentation task, and collecting and annotating hyperspectral images with a spectral camera is prohibitively expensive. To address this, we propose a new model, the MatSpectNet to segment materials with recovered hyperspectral images from RGB images. The network leverages the principles of colour perception in modern cameras to constrain the reconstructed hyperspectral images and employs the domain adaptation method to generalise the hyperspectral reconstruction capability from a spectral recovery dataset to material segmentation datasets. The reconstructed hyperspectral images are further filtered using learned response curves and enhanced with human perception. The performance of MatSpectNet is evaluated on the LMD dataset as well as the OpenSurfaces dataset. Our experiments demonstrate that MatSpectNet attains a 1.60% increase in average pixel accuracy and a 3.42% improvement in mean class accuracy compared with the most recent publication. The project code is attached to the supplementary material and will be published on GitHub.
翻訳日:2023-07-24 13:05:40 公開日:2023-07-21
# 欠落値を用いた総合的生存分析のための深層学習手法

A Deep Learning Approach for Overall Survival Analysis with Missing Values ( http://arxiv.org/abs/2307.11465v1 )

ライセンス: Link先を確認
Camillo Maria Caruso, Valerio Guarrasi, Sara Ramella and Paolo Soda(参考訳) 人工知能(AI)が適用可能な最も困難な分野の1つは、肺癌の研究、特に非小細胞肺癌(NSCLC)である。 特に、総合生存率(OS)は患者の状態を示す重要な指標であり、様々な生存確率を持つサブグループを特定するのに役立つ。 この分析では、考慮すべき課題が2つあります。 第一に、各患者から得られる情報を効果的に活用し、無検閲患者(つまり死亡者)と検閲患者(つまり生存者)の両方を活用し、死亡時刻も考慮した研究はほとんどない。 第二に、医療分野では不完全なデータの取り扱いが一般的な問題である。 この問題は、通常、インプテーション法を用いて取り組まれる。 本研究の目的は,NSCLC患者に対するOSの予測のために,検閲および非検閲患者の双方から効果的に学習し,これらの限界を克服できるAIモデルを提供することである。 NSCLCの文脈における生存分析への新しいアプローチを提案する。この手法は,計算戦略を必要とせず,利用可能な機能のみを考慮したトランスフォーマーアーキテクチャの強みを利用する。 OSのアドホックな損失を利用すると、検閲された患者と無検閲の患者の両方が、時間の経過とともにリスクを考慮に入れられる。 c-indexの時間依存型であるct-indexを1ヶ月,1年,2年の時間単位でそれぞれ71.97,77.58,80.72の異なる時間粒度を用いて6年間の結果を評価した。

One of the most challenging fields where Artificial Intelligence (AI) can be applied is lung cancer research, specifically non-small cell lung cancer (NSCLC). In particular, overall survival (OS) is a vital indicator of patient status, helping to identify subgroups with diverse survival probabilities, enabling tailored treatment and improved OS rates. In this analysis, there are two challenges to take into account. First, few studies effectively exploit the information available from each patient, leveraging both uncensored (i.e., dead) and censored (i.e., survivors) patients, considering also the death times. Second, the handling of incomplete data is a common issue in the medical field. This problem is typically tackled through the use of imputation methods. Our objective is to present an AI model able to overcome these limits, effectively learning from both censored and uncensored patients and their available features, for the prediction of OS for NSCLC patients. We present a novel approach to survival analysis in the context of NSCLC, which exploits the strengths of the transformer architecture accounting for only available features without requiring any imputation strategy. By making use of ad-hoc losses for OS, it accounts for both censored and uncensored patients, considering risks over time. We evaluated the results over a period of 6 years using different time granularities obtaining a Ct-index, a time-dependent variant of the C-index, of 71.97, 77.58 and 80.72 for time units of 1 month, 1 year and 2 years, respectively, outperforming all state-of-the-art methods regardless of the imputation method used.
翻訳日:2023-07-24 13:05:14 公開日:2023-07-21
# 多層社会物理ネットワークにおけるエージェントモデルによる災害後回復支援

Supporting Post-disaster Recovery with Agent-based Modeling in Multilayer Socio-physical Networks ( http://arxiv.org/abs/2307.11464v1 )

ライセンス: Link先を確認
Jiawei Xue, Sangung Park, Washim Uddin Mondal, Sandro Martinelli Reia, Tong Yao, and Satish V. Ukkusuri(参考訳) 社会物理システムにおけるポスト・ディザスター・リカバリ(PDR)の検証により,人間とインフラの複雑な関係を解明することができる。 既存の研究では、PDRプロセスにおける多くのパターンが特定されているが、個々の回復がシステム全体の回復にどのように貢献するかを説明するには不足している。 個々の戻り行動の理解を深め,pois(point-of-interests)の回復を図るため,postdisastersimと呼ばれるエージェントベースモデル(abm)を提案する。 2017年のハリケーン・ハービー以降のテキサス州5郡の回復分析にこのモデルを適用した。 具体的には,携帯電話の位置データとpoiデータを用いて,人間層,社会基盤層,物理インフラ層からなる3層ネットワークを構築する。 先行研究と世帯調査に基づき,避難民の自宅復帰をシミュレートし,社会的・身体的インフラを回復させるabmを開発した。 ABMを実装することで,エージェントタイプ,住宅タイプ,家計所得水準,地理的位置といった観点から,回復動態の不均一性を明らかにする。 さらに,9つのシナリオにまたがるシミュレーション結果から,社会・物理的インフラ整備計画の効果を定量的に検証した。 本研究は,災害科学者が資源割当などの政策を実践的に翻訳する上で,ニュアンス的リカバリパターンや政策立案者を明らかにすることを支援する。

The examination of post-disaster recovery (PDR) in a socio-physical system enables us to elucidate the complex relationships between humans and infrastructures. Although existing studies have identified many patterns in the PDR process, they fall short of describing how individual recoveries contribute to the overall recovery of the system. To enhance the understanding of individual return behavior and the recovery of point-of-interests (POIs), we propose an agent-based model (ABM), called PostDisasterSim. We apply the model to analyze the recovery of five counties in Texas following Hurricane Harvey in 2017. Specifically, we construct a three-layer network comprising the human layer, the social infrastructure layer, and the physical infrastructure layer, using mobile phone location data and POI data. Based on prior studies and a household survey, we develop the ABM to simulate how evacuated individuals return to their homes, and social and physical infrastructures recover. By implementing the ABM, we unveil the heterogeneity in recovery dynamics in terms of agent types, housing types, household income levels, and geographical locations. Moreover, simulation results across nine scenarios quantitatively demonstrate the positive effects of social and physical infrastructure improvement plans. This study can assist disaster scientists in uncovering nuanced recovery patterns and policymakers in translating policies like resource allocation into practice.
翻訳日:2023-07-24 13:04:41 公開日:2023-07-21
# エラーの一時的再スケーリングによる長期記憶学習の改善

Improve Long-term Memory Learning Through Rescaling the Error Temporally ( http://arxiv.org/abs/2307.11462v1 )

ライセンス: Link先を確認
Shida Wang, Zhanglu Yan(参考訳) 本稿では,シーケンスモデリングにおける長期記憶学習における誤差メトリック選択について検討する。 平均絶対/二乗誤差を含む一般的な誤差における短期記憶に対するバイアスについて検討する。 以上の結果から, 時間的正重み付き誤差はすべて, 線形機能学習における短期記憶に偏っていることがわかった。 このバイアスを軽減し、長期記憶学習を改善するために、時間的再スケール誤差の利用を提案する。 短期記憶へのバイアスを減らすことに加えて、このアプローチは消滅する勾配問題を軽減することもできる。 異なる長記憶タスクとシーケンスモデルについて数値実験を行い,クレームを検証する。 長期記憶学習における適切な時間的再スケール誤差の重要性を数値的に検証した。 我々の知る限りでは、これはシーケンスモデリングにおける短期記憶に対する異なるエラーのメモリバイアスを定量的に分析する最初の研究である。

This paper studies the error metric selection for long-term memory learning in sequence modelling. We examine the bias towards short-term memory in commonly used errors, including mean absolute/squared error. Our findings show that all temporally positive-weighted errors are biased towards short-term memory in learning linear functionals. To reduce this bias and improve long-term memory learning, we propose the use of a temporally rescaled error. In addition to reducing the bias towards short-term memory, this approach can also alleviate the vanishing gradient issue. We conduct numerical experiments on different long-memory tasks and sequence models to validate our claims. Numerical results confirm the importance of appropriate temporally rescaled error for effective long-term memory learning. To the best of our knowledge, this is the first work that quantitatively analyzes different errors' memory bias towards short-term memory in sequence modelling.
翻訳日:2023-07-24 13:04:18 公開日:2023-07-21
# Strip-MLP:視覚MLPのための効率的なトークンインタラクション

Strip-MLP: Efficient Token Interaction for Vision MLP ( http://arxiv.org/abs/2307.11458v1 )

ライセンス: Link先を確認
Guiping Cao, Shengda Luo, Wenjian Huang, Xiangyuan Lan, Dongmei Jiang, Yaowei Wang, Jianguo Zhang(参考訳) トークン相互作用操作は、異なる空間的位置間で情報を交換・集約するMLPモデルにおける中核モジュールの1つである。 しかし、空間次元におけるトークン相互作用のパワーは特徴写像の空間分解能に大きく依存しており、特にその特徴が小さな空間サイズにダウンサンプリングされた深層において、モデルの表現能力を制限する。 この問題に対処するために,トークン相互作用パワーを3つの方法で強化する,textbf{Strip-MLP} という新しい手法を提案する。 まず、Strip MLP層と呼ばれる新しいMLPパラダイムを導入し、トークンが他のトークンとクロスストリップで対話できるようにし、行(または列)内のトークンが隣り合うが異なる行(または列)内の情報集約に寄与できるようにする。 次に,小さな空間的特徴量による性能劣化を克服するために, \textbf{c}ascade \textbf{g}roup \textbf{s}trip \textbf{m}ixing \textbf{m}odule (cgsmm) を提案する。 このモジュールにより、トークンは、特徴空間サイズに依存しない、内部パッチと横断パッチの方法でより効果的に対話できる。 最後に、Strip MLP層に基づいて、局所領域におけるトークン相互作用力を高めるために、新しい \textbf{L}ocal \textbf{S}trip \textbf{M}ixing \textbf{M}odule (LSMM) を提案する。 大規模な実験により、Strip-MLPは小さなデータセット上でのMLPベースのモデルの性能を著しく改善し、ImageNetで同等またはそれ以上の結果を得ることができることが示された。 特に、Strip-MLPモデルは、Caltech-101で+2.44\%、CIFAR-100で+2.16\%、既存のMLPベースのモデルよりも平均Top-1精度が高い。 ソースコードは~\href{https://github.com/Med-Process/Strip_MLP{https://github.com/Med-Process/Strip\_MLP}で入手できる。

Token interaction operation is one of the core modules in MLP-based models to exchange and aggregate information between different spatial locations. However, the power of token interaction on the spatial dimension is highly dependent on the spatial resolution of the feature maps, which limits the model's expressive ability, especially in deep layers where the feature are down-sampled to a small spatial size. To address this issue, we present a novel method called \textbf{Strip-MLP} to enrich the token interaction power in three ways. Firstly, we introduce a new MLP paradigm called Strip MLP layer that allows the token to interact with other tokens in a cross-strip manner, enabling the tokens in a row (or column) to contribute to the information aggregations in adjacent but different strips of rows (or columns). Secondly, a \textbf{C}ascade \textbf{G}roup \textbf{S}trip \textbf{M}ixing \textbf{M}odule (CGSMM) is proposed to overcome the performance degradation caused by small spatial feature size. The module allows tokens to interact more effectively in the manners of within-patch and cross-patch, which is independent to the feature spatial size. Finally, based on the Strip MLP layer, we propose a novel \textbf{L}ocal \textbf{S}trip \textbf{M}ixing \textbf{M}odule (LSMM) to boost the token interaction power in the local region. Extensive experiments demonstrate that Strip-MLP significantly improves the performance of MLP-based models on small datasets and obtains comparable or even better results on ImageNet. In particular, Strip-MLP models achieve higher average Top-1 accuracy than existing MLP-based models by +2.44\% on Caltech-101 and +2.16\% on CIFAR-100. The source codes will be available at~\href{https://github.com/Med-Process/Strip_MLP{https://github.com/Med-Process/Strip\_MLP}.
翻訳日:2023-07-24 13:03:58 公開日:2023-07-21
# 英トルコ文学機械翻訳に人間の翻訳スタイルを取り入れること

Incorporating Human Translator Style into English-Turkish Literary Machine Translation ( http://arxiv.org/abs/2307.11457v1 )

ライセンス: Link先を確認
Zeynep Yirmibe\c{s}o\u{g}lu, Olgun Dursun, Harun Dall{\i}, Mehmet \c{S}ahin, Ena Hodzik, Sabri G\"urses, Tunga G\"ung\"or(参考訳) 機械翻訳システムは主に一般のドメインで機能するように設計されているが、文学翻訳など他のドメインに適応する傾向が強まっている。 本稿では,英トルコ語文体翻訳に注目し,翻訳者の文体的特徴を考慮した機械翻訳モデルを開発する。 我々は、特定の翻訳者の手作業による学習済み機械翻訳モデルを微調整する。 本稿では,手作業および自動アライメント,データ拡張手法,コーパスサイズが翻訳に与える影響について詳細に分析する。 出力変換における翻訳者のスタイルを評価するためのスタイル的特徴に基づく手法を提案する。 対象の機械翻訳において、翻訳者のスタイルにモデルを適用することにより、人間の翻訳スタイルを高度に再現できることを示す。

Although machine translation systems are mostly designed to serve in the general domain, there is a growing tendency to adapt these systems to other domains like literary translation. In this paper, we focus on English-Turkish literary translation and develop machine translation models that take into account the stylistic features of translators. We fine-tune a pre-trained machine translation model by the manually-aligned works of a particular translator. We make a detailed analysis of the effects of manual and automatic alignments, data augmentation methods, and corpus size on the translations. We propose an approach based on stylistic features to evaluate the style of a translator in the output translations. We show that the human translator style can be highly recreated in the target machine translations by adapting the models to the style of the translator.
翻訳日:2023-07-24 13:02:31 公開日:2023-07-21
# パーソナライズされた説明を提供する:会話的アプローチ

Providing personalized Explanations: a Conversational Approach ( http://arxiv.org/abs/2307.11452v1 )

ライセンス: Link先を確認
Jieting Luo, Thomas Studer, Mehdi Dastani(参考訳) aiシステムの応用が増えているため、利害関係者はさまざまな知識や背景を持っている可能性があるため、さまざまな利害関係者に対する行動のパーソナライズされた説明が必要となる。 一般に、説明者と説明者の会話は、説明者の背景を得るだけでなく、説明者が説明をよりよく理解することを可能にする。 本稿では,説明者との対話を通じて,パーソナライズされた説明を説明人に伝達する手法を提案する。 説明者が理解し、説明者が認識している最初の主張に対して説明がある限り、説明者の最初の主張の正当化によって会話が終了することを証明する。

The increasing applications of AI systems require personalized explanations for their behaviors to various stakeholders since the stakeholders may have various knowledge and backgrounds. In general, a conversation between explainers and explainees not only allows explainers to obtain the explainees' background, but also allows explainees to better understand the explanations. In this paper, we propose an approach for an explainer to communicate personalized explanations to an explainee through having consecutive conversations with the explainee. We prove that the conversation terminates due to the explainee's justification of the initial claim as long as there exists an explanation for the initial claim that the explainee understands and the explainer is aware of.
翻訳日:2023-07-24 13:02:03 公開日:2023-07-21
# 自発音声の話題識別:埋め込み言語情報による音声特徴の充実

Topic Identification For Spontaneous Speech: Enriching Audio Features With Embedded Linguistic Information ( http://arxiv.org/abs/2307.11450v1 )

ライセンス: Link先を確認
Dejan Porjazovski, Tam\'as Gr\'osz, Mikko Kurimo(参考訳) 音声からの伝統的な話題識別ソリューションは、テキストベースモデルへの入力として使われる文字を生成するために自動音声認識システム(ASR)に依存している。 これらのアプローチは、パイプラインの両方のコンポーネントをトレーニングするのに十分なデータがある、高リソースのシナリオでうまく機能する。 しかし、低リソースの状況では、asrシステムは利用可能であっても低品質の書き起こしを生成し、悪いテキストベースの分類器に繋がる。 さらに, 自然発声音声は, ASRモデルの性能をさらに低下させることができる。 本稿では,テキストと音声を共同利用するための音声のみとハイブリッド技術を比較することで,標準テキストのみの代替手段を検討する。 フィンランドの自然発話で評価されたモデルは、ASRコンポーネントが利用できない場合、純粋にオーディオベースのソリューションが実行可能な選択肢であることを示している。

Traditional topic identification solutions from audio rely on an automatic speech recognition system (ASR) to produce transcripts used as input to a text-based model. These approaches work well in high-resource scenarios, where there are sufficient data to train both components of the pipeline. However, in low-resource situations, the ASR system, even if available, produces low-quality transcripts, leading to a bad text-based classifier. Moreover, spontaneous speech containing hesitations can further degrade the performance of the ASR model. In this paper, we investigate alternatives to the standard text-only solutions by comparing audio-only and hybrid techniques of jointly utilising text and audio features. The models evaluated on spontaneous Finnish speech demonstrate that purely audio-based solutions are a viable option when ASR components are not available, while the hybrid multi-modal solutions achieve the best results.
翻訳日:2023-07-24 13:01:51 公開日:2023-07-21
# AIGCがテレコムセクターのホワイトペーパーを活用

AIGC Empowering Telecom Sector White Paper ( http://arxiv.org/abs/2307.11449v1 )

ライセンス: Link先を確認
Ye Ouyang, Yaqin Zhang, Xiaozhou Ye, Yunxin Liu, Yong Song, Yang Liu, Sen Bian, Zhiyong Liu(参考訳) GPTの世界的な流行の中で、人々は、AIが変革的技術であり、経済と社会開発における重要な力であるとして、世界産業に大きな飛躍とブレークスルーをもたらし、将来の競争パターンに深く影響することに深く気付きました。 情報通信インフラストラクチャのビルダー兼オペレータとして、テレコムセクターは、AI開発のためのインフラストラクチャサポートを提供し、AIアプリケーションの実装でもリードしている。 テレコムセクターにおけるAIGC(GPT)の適用とAIGCの実装は、テレコム実践者が考慮し、答えなければならない問題である。 AIGCの代表的な代表であるGPTの研究を通じて、GPTがテレコムセクターをシナリオとしていかに強化するかを分析し、現在のGPTジェネラルモデルとテレコムサービスのギャップについて論じ、テレコムセクターにおける通信サービスGPTの構築方法に対する回答を提供し、様々な実践を行った。 業界内の当社は、テレコムとAIに関する共同イノベーションに注力し、オープンで共有されたイノベーションエコシステムを構築し、AIとテレコムセクターの深い統合を促進し、経済と社会のデジタルトランスフォーメーションを促進するために、次世代情報インフラの構築を加速することが期待されている。

In the global craze of GPT, people have deeply realized that AI, as a transformative technology and key force in economic and social development, will bring great leaps and breakthroughs to the global industry and profoundly influence the future world competition pattern. As the builder and operator of information and communication infrastructure, the telecom sector provides infrastructure support for the development of AI, and even takes the lead in the implementation of AI applications. How to enable the application of AIGC (GPT) and implement AIGC in the telecom sector are questions that telecom practitioners must ponder and answer. Through the study of GPT, a typical representative of AIGC, the authors have analyzed how GPT empowers the telecom sector in the form of scenarios, discussed the gap between the current GPT general model and telecom services, proposed for the first time a Telco Augmented Cognition capability system, provided answers to how to construct a telecom service GPT in the telecom sector, and carried out various practices. Our counterparts in the industry are expected to focus on collaborative innovation around telecom and AI, build an open and shared innovation ecosystem, promote the deep integration of AI and telecom sector, and accelerate the construction of next-generation information infrastructure, in an effort to facilitate the digital transformation of the economy and society.
翻訳日:2023-07-24 13:01:36 公開日:2023-07-21
# 予測・精細・合成:確率的時系列予測のための自己誘導拡散モデル

Predict, Refine, Synthesize: Self-Guiding Diffusion Models for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2307.11494v1 )

ライセンス: Link先を確認
Marcel Kollovieh, Abdul Fatir Ansari, Michael Bohlke-Schneider, Jasper Zschiegner, Hao Wang, Yuyang Wang(参考訳) 拡散モデルは、様々な領域にわたる生成モデリングタスクにおいて最先端のパフォーマンスを達成した。 時系列拡散モデルに関する先行研究は、主に特定の予測や計算タスクに適した条件付きモデルの開発に焦点を当てている。 本研究では,複数の時系列アプリケーションにおけるタスクに依存しない非条件拡散モデルの可能性について検討する。 時系列の非条件学習拡散モデルであるTSDiffを提案する。 提案する自己誘導機構は,補助ネットワークやトレーニング手順の変更を必要とせず,推論中の下流タスクの条件付きtsdiffを可能にする。 本手法は,予測,改良,合成データ生成という3つの異なる時系列タスクにおいて有効であることを示す。 まず,TSDiffは複数のタスク固有の条件予測手法(予測)と競合することを示す。 第二に、学習したTSDiffの確率密度を利用して、逆拡散(refine)による計算オーバーヘッドを低減したベース予測器の予測を反復的に洗練する。 tsdiffの合成サンプルでトレーニングされた下流の予測者は、他の最先端生成時系列モデルのサンプルでトレーニングされ、時には実データ(synthesize)でトレーニングされたモデルよりもパフォーマンスが良い場合もあります。

Diffusion models have achieved state-of-the-art performance in generative modeling tasks across various domains. Prior works on time series diffusion models have primarily focused on developing conditional models tailored to specific forecasting or imputation tasks. In this work, we explore the potential of task-agnostic, unconditional diffusion models for several time series applications. We propose TSDiff, an unconditionally trained diffusion model for time series. Our proposed self-guidance mechanism enables conditioning TSDiff for downstream tasks during inference, without requiring auxiliary networks or altering the training procedure. We demonstrate the effectiveness of our method on three different time series tasks: forecasting, refinement, and synthetic data generation. First, we show that TSDiff is competitive with several task-specific conditional forecasting methods (predict). Second, we leverage the learned implicit probability density of TSDiff to iteratively refine the predictions of base forecasters with reduced computational overhead over reverse diffusion (refine). Notably, the generative performance of the model remains intact -- downstream forecasters trained on synthetic samples from TSDiff outperform forecasters that are trained on samples from other state-of-the-art generative time series models, occasionally even outperforming models trained on real data (synthesize).
翻訳日:2023-07-24 12:53:51 公開日:2023-07-21
# 種ランダム性のないランダム性の証明

Certification of randomness without seed randomness ( http://arxiv.org/abs/2307.11492v1 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 暗号スキームのセキュリティは乱数生成器へのアクセスに依存している。 デバイス独立に認証された乱数生成装置は、これらのデバイスによって生成される統計のみを考慮して侵入者の存在を破棄できるため、最大限のセキュリティを提供する。 ランダム性を証明するための既知のデバイス非依存のスキームは、デバイスにランダム性を初期供給する必要がある。 本研究では,初期シードランダム性なしで2ビットのランダム性を認証する一方的なデバイス非依存方式を提案する。 我々の目的のために、入力のない量子ネットワークのフレームワークと、2つの独立したソースを相互に共有し、そのうちの1つは信頼されている。 それと同時に, 最大絡み合い状態とベル基底測定を, 信頼できない者に対して確認し, 信頼できない装置から発生したランダム性を確認する。

The security of any cryptographic scheme relies on access to random number generators. Device-independently certified random number generators provide maximum security as one can discard the presence of an intruder by considering only the statistics generated by these devices. Any of the known device-independent schemes to certify randomness require an initial feed of randomness into the devices, which can be called seed randomness. In this work, we propose a one-sided device-independent scheme to certify two bits of randomness without the initial seed randomness. For our purpose, we utilise the framework of quantum networks with no inputs and two independent sources shared among two parties with one of them being trusted. Along with it, we also certify the maximally entangled state and the Bell basis measurement with the untrusted party which is then used to certify the randomness generated from the untrusted device.
翻訳日:2023-07-24 12:53:31 公開日:2023-07-21
# Brillouin Lasing Thresholdの2次コヒーレンス

Second-Order Coherence Across the Brillouin Lasing Threshold ( http://arxiv.org/abs/2307.11490v1 )

ライセンス: Link先を確認
E. A. Cryer-Jenkins, G. Enzian, L. Freisem, N. Moroney, J. J. Price, A. {\O}. Svela, K. D. Major, and M. R. Vanner(参考訳) ブリルアン・マンデルシュタム散乱は最もアクセスしやすい非線形光学現象の一つであり、100年前の理論的な発見以来広く研究されてきた。 散乱機構は2つの光場と1つの音場の間の3波混合プロセスであり、顕微鏡から超狭帯域レーザーまで幅広い応用が発見されている。 古典的なレベルでこの非線形性を利用する成功に基づいて、量子光学のパラダイムの中でブリルアン散乱を探索するために、リッチな道が開かれた。 ここでは、ブリュアン散乱にはまだ使われていない量子光学技術を用いて、ブリュアンラシングしきい値を越えたストークス散乱の2階コヒーレンスを特徴づける。 我々は、シリカマイクロスフェア共振器と単一光子カウンタを用いて、発振閾値以下の熱光の束ね合わせ統計から閾値を超えるコヒーレント光のポアソニアン統計への期待遷移を観測した。 特に、浸漬しきい値に近づく力では、ポンプ場が過渡的に枯渇するにつれて、不安定性や浸漬内外における'flickering'が原因で生じる超熱的統計も観測する。 Flickering'' を含む遷移を通して観測される統計は、完全な非線形3波混合プロセスの結果であり、線形化されたモデルでは取得できない。 これらの測定は3波ランゲヴィン方程式の数値解とよく一致しており、不安定性およびラシングしきい値に関する解析式によってよく区切られている。 これらの結果から, 2次コヒーレンスおよび光子計数測定をブリルアン散乱に適用することで, ブリルアン散乱自体の理解を深め, 量子状態合成と音響モードのキャラクタリゼーションへ進む新しい方法が得られた。

Brillouin-Mandelstam scattering is one of the most accessible nonlinear optical phenomena and has been widely studied since its theoretical discovery one hundred years ago. The scattering mechanism is a three-wave mixing process between two optical fields and one acoustic field and has found a broad range of applications spanning microscopy to ultra-narrow-linewidth lasers. Building on the success of utilizing this nonlinearity at a classical level, a rich avenue is now being opened to explore Brillouin scattering within the paradigm of quantum optics. Here, we take a key step in this direction by employing quantum optical techniques yet to be utilized for Brillouin scattering to characterize the second-order coherence of Stokes scattering across the Brillouin lasing threshold. We use a silica microsphere resonator and single-photon counters to observe the expected transition from bunched statistics of thermal light below the lasing threshold to Poissonian statistics of coherent light above the threshold. Notably, at powers approaching the lasing threshold, we also observe super-thermal statistics, which arise due to instability and a ``flickering'' in and out of lasing as the pump field is transiently depleted. The statistics observed across the transition, including the ``flickering'', are a result of the full nonlinear three-wave mixing process and cannot be captured by a linearized model. These measurements are in good agreement with numerical solutions of the three-wave Langevin equations and are well demarcated by analytical expressions for the instability and the lasing thresholds. These results demonstrate that applying second-order-coherence and photon-counting measurements to Brillouin scattering provides new methods to advance our understanding of Brillouin scattering itself and progress toward quantum-state preparation and characterization of acoustic modes.
翻訳日:2023-07-24 12:53:16 公開日:2023-07-21
# EHR時系列データを用いた患者潜在状態推定・分類のための新しい深部状態空間分析フレームワーク

A New Deep State-Space Analysis Framework for Patient Latent State Estimation and Classification from EHR Time Series Data ( http://arxiv.org/abs/2307.11487v1 )

ライセンス: Link先を確認
Aya Nakamura, Ryosuke Kojima, Yuji Okamoto, Eiichiro Uchino, Yohei Mineharu, Yohei Harada, Mayumi Kamada, Manabu Muto, Motoko Yanagita, Yasushi Okuno(参考訳) がんや慢性疾患を含む多くの疾患は、治療期間と長期戦略を必要とする。 電子健康記録(EHR)に焦点を当てた機械学習とAI研究が、このニーズに対処するために現れている。 効果的な治療戦略は、患者の検査値のシーケンシャルな変化を捉えない。 患者の内部状態を時間とともに捉え、説明可能かつ臨床的に解釈可能なモデルが必要である。 本研究では,EHRの時系列教師なし学習と深部状態空間モデルを用いた「深部状態空間分析フレームワーク」を提案する。 このフレームワークは、病気の進行に関連する患者潜伏状態における時間的変化の学習、可視化、およびクラスタリングを可能にする。 12,695人のがん患者の時系列検査データを用いて評価した。 潜伏状態の推定により,予後に関連する潜伏状態の発見に成功した。 可視化とクラスター分析により,各抗がん剤の状態遷移特性における患者状態と検査項目の経時的推移を同定した。 我々のフレームワークは解釈可能な潜在空間をキャプチャする既存の手法を超越している。 EHRによる疾患進展の理解を深め、治療適応と予後決定を支援することが期待できる。

Many diseases, including cancer and chronic conditions, require extended treatment periods and long-term strategies. Machine learning and AI research focusing on electronic health records (EHRs) have emerged to address this need. Effective treatment strategies involve more than capturing sequential changes in patient test values. It requires an explainable and clinically interpretable model by capturing the patient's internal state over time. In this study, we propose the "deep state-space analysis framework," using time-series unsupervised learning of EHRs with a deep state-space model. This framework enables learning, visualizing, and clustering of temporal changes in patient latent states related to disease progression. We evaluated our framework using time-series laboratory data from 12,695 cancer patients. By estimating latent states, we successfully discover latent states related to prognosis. By visualization and cluster analysis, the temporal transition of patient status and test items during state transitions characteristic of each anticancer drug were identified. Our framework surpasses existing methods in capturing interpretable latent space. It can be expected to enhance our comprehension of disease progression from EHRs, aiding treatment adjustments and prognostic determinations.
翻訳日:2023-07-24 12:52:44 公開日:2023-07-21
# 高精度3次元物体検出のためのレンジビューからの省略

Redemption from Range-view for Accurate 3D Object Detection ( http://arxiv.org/abs/2307.11482v1 )

ライセンス: Link先を確認
Yihan Wang and Qiao Yan(参考訳) 近年の3Dオブジェクト検出のアプローチは、主に点視や鳥眼視の表現に依存しており、範囲視に基づく手法は限られている。 レンジビュー表現は、スケールの変化と表面テクスチャの欠乏に苦しむが、どちらも対応する方法を開発する上で大きな制限を与える。 特に、表面テクスチャ損失問題は、レンジビューに基づく3Dオブジェクト検出の精度に大きな影響を与えているにもかかわらず、既存のすべての手法によって無視されている。 本研究では、レンジビュー表現を包括的に探求する新規かつ正確なR-CNN(R2 R-CNN)を提案する。 提案手法は,複数のスケールでレンジビューの幾何情報をキャプチャするHD Meta Kernelによるスケール変動に対処する。 さらに,広視野から3次元表面テクスチャ情報を復元するためにFPR(Feature Points Redemption)を導入し,高精度なボックスリファインメントのための複数の受容場を備えたマルチスケールアプローチであるS-Grid RoI Pooling(S-Grid RoI Pooling)を紹介した。 我々のR2 R-CNNは既存のレンジビューベースの手法より優れており、KITTIベンチマークとWaymo Open Datasetの両方で最先端のパフォーマンスを実現しています。 本研究は, 3次元物体検出における表面テクスチャ損失問題に対処する上で重要な課題について述べる。 コードは公開される予定だ。

Most recent approaches for 3D object detection predominantly rely on point-view or bird's-eye view representations, with limited exploration of range-view-based methods. The range-view representation suffers from scale variation and surface texture deficiency, both of which pose significant limitations for developing corresponding methods. Notably, the surface texture loss problem has been largely ignored by all existing methods, despite its significant impact on the accuracy of range-view-based 3D object detection. In this study, we propose Redemption from Range-view R-CNN (R2 R-CNN), a novel and accurate approach that comprehensively explores the range-view representation. Our proposed method addresses scale variation through the HD Meta Kernel, which captures range-view geometry information in multiple scales. Additionally, we introduce Feature Points Redemption (FPR) to recover the lost 3D surface texture information from the range view, and Synchronous-Grid RoI Pooling (S-Grid RoI Pooling), a multi-scaled approach with multiple receptive fields for accurate box refinement. Our R2 R-CNN outperforms existing range-view-based methods, achieving state-of-the-art performance on both the KITTI benchmark and the Waymo Open Dataset. Our study highlights the critical importance of addressing the surface texture loss problem for accurate 3D object detection in range-view-based methods. Codes will be made publicly available.
翻訳日:2023-07-24 12:52:30 公開日:2023-07-21
# 量子線型光学における光子状態変換のノーゴー定理

No-go theorems for photon state transformations in quantum linear optics ( http://arxiv.org/abs/2307.11478v1 )

ライセンス: Link先を確認
Pablo V. Parellada, Vicent Gimeno i Garcia, Julio-Jos\'e Moyano-Fern\'andez, Juan Carlos Garcia-Escartin(参考訳) 我々は光子の総数を保存する線形光学装置において光子状態変換に必要な条件を与える。 量子進化を記述する代数の解析から、すべての許容された光学変換に現れる保存量を見つける。 サンプルコードを含むいくつかの例と数値アプリケーションにコメントし、3つの一般的なno-go結果を与える。 以下を含む。 (i)光子を1から2つの異なるモードに分配する決定論的変換の不可能性。 (二)任意の数のアシリー光子及びモードと固定ヘラルドに対して分離可能な入力で、ヘラルドされたスキームにおいて完全なベル状態を生成することができないことの証明 (iii)異なる種類の絡み合い(ghzからw状態への変換)間の変換の制限。

We give a necessary condition for photon state transformations in linear optical setups preserving the total number of photons. From an analysis of the algebra describing the quantum evolution, we find a conserved quantity that appears in all allowed optical transformations. We comment some examples and numerical applications, with example code, and give three general no-go results. These include (i) the impossibility of deterministic transformations which redistribute the photons from one to two different modes, (ii) a proof that it is impossible to generate a perfect Bell state in heralded schemes with a separable input for any number of ancillary photons and modes and a fixed herald and (iii) a restriction for the conversion between different types of entanglement (converting GHZ to W states).
翻訳日:2023-07-24 12:52:03 公開日:2023-07-21
# sa-bev: 多視点3dオブジェクト検出のためのセマンティックアウェアバードズ・アイビュー機能の生成

SA-BEV: Generating Semantic-Aware Bird's-Eye-View Feature for Multi-view 3D Object Detection ( http://arxiv.org/abs/2307.11477v1 )

ライセンス: Link先を確認
Jinqing Zhang, Yanan Zhang, Qingjie Liu, Yunhong Wang(参考訳) 近年、純粋なカメラベースのBird's-Eye-View(BEV)の認識は、経済的自律運転の実現可能なソリューションとなっている。 しかしながら、既存のBEVベースのマルチビュー3D検出器は、背景情報の多数が対象情報に沈み込むという問題を考慮せずに、すべての画像特徴をBEV特徴に変換する。 本稿では,画像特徴のセマンティクスセグメンテーションに従って背景情報をフィルタリングし,画像特徴をセマンティクス対応のbev特徴に変換する,セマンティクス対応bevプーリング(sa-bevpool)を提案する。 そこで我々は,セマンティック・アウェアのBEV機能と密接にマッチする効果的なデータ拡張戦略であるBEV-Pasteを提案する。 さらに,タスク固有情報とタスク横断情報を組み合わせたマルチスケールクロスタスク(msct)ヘッドの設計を行い,奥行き分布とセマンティクスセグメンテーションをより正確に予測し,semantic-aware bev機能の品質をさらに向上させる。 最後に、上記のモジュールを新しい多視点3Dオブジェクト検出フレームワーク、SA-BEVに統合する。 nuScenesの実験では、SA-BEVは最先端のパフォーマンスを達成する。 コードはhttps://github.com/mengtan00/sa-bev.gitで入手できる。

Recently, the pure camera-based Bird's-Eye-View (BEV) perception provides a feasible solution for economical autonomous driving. However, the existing BEV-based multi-view 3D detectors generally transform all image features into BEV features, without considering the problem that the large proportion of background information may submerge the object information. In this paper, we propose Semantic-Aware BEV Pooling (SA-BEVPool), which can filter out background information according to the semantic segmentation of image features and transform image features into semantic-aware BEV features. Accordingly, we propose BEV-Paste, an effective data augmentation strategy that closely matches with semantic-aware BEV feature. In addition, we design a Multi-Scale Cross-Task (MSCT) head, which combines task-specific and cross-task information to predict depth distribution and semantic segmentation more accurately, further improving the quality of semantic-aware BEV feature. Finally, we integrate the above modules into a novel multi-view 3D object detection framework, namely SA-BEV. Experiments on nuScenes show that SA-BEV achieves state-of-the-art performance. Code has been available at https://github.com/mengtan00/SA-BEV.git.
翻訳日:2023-07-24 12:51:51 公開日:2023-07-21
# 頑健なビジュアル質問回答:データセット,メソッド,今後の課題

Robust Visual Question Answering: Datasets, Methods, and Future Challenges ( http://arxiv.org/abs/2307.11471v1 )

ライセンス: Link先を確認
Jie Ma, Pinghui Wang, Dechen Kong, Zewei Wang, Jun Liu, Hongbin Pei, Junzhou Zhao(参考訳) 視覚質問応答は、画像と自然言語質問を与えられた正確な自然言語応答を提供するシステムが必要である。 しかし,従来の一般的なVQA手法では,解答前の画像のグラウンド化など,適切な行動を学習するよりも,トレーニングデータに存在するバイアスを記憶する傾向があることが広く認識されている。 したがって、これらの手法は通常、分配性能は高いが、分配性能は低い。 近年,VQAのロバスト性を評価するために,様々なデータセットとデバイアス法が提案されている。 本稿は,この新興ファッションに焦点をあてた初の総合調査を行う。 具体的には、まず、分布内および分布外の観点からデータセットの開発プロセスの概要を示す。 次に,これらのデータセットを用いた評価指標について検討する。 第3に, 開発プロセス, 類似性, 差異, 堅牢性比較, および既存のデバイアス手法の技術的特徴を提示するタイポロジーを提案する。 さらに,VQA上での視覚・言語事前学習モデルのロバスト性を分析し,議論する。 最後に、利用可能な文献の徹底的なレビューと実験分析を通じて、様々な観点から今後の研究の要点について論じる。

Visual question answering requires a system to provide an accurate natural language answer given an image and a natural language question. However, it is widely recognized that previous generic VQA methods often exhibit a tendency to memorize biases present in the training data rather than learning proper behaviors, such as grounding images before predicting answers. Therefore, these methods usually achieve high in-distribution but poor out-of-distribution performance. In recent years, various datasets and debiasing methods have been proposed to evaluate and enhance the VQA robustness, respectively. This paper provides the first comprehensive survey focused on this emerging fashion. Specifically, we first provide an overview of the development process of datasets from in-distribution and out-of-distribution perspectives. Then, we examine the evaluation metrics employed by these datasets. Thirdly, we propose a typology that presents the development process, similarities and differences, robustness comparison, and technical features of existing debiasing methods. Furthermore, we analyze and discuss the robustness of representative vision-and-language pre-training models on VQA. Finally, through a thorough review of the available literature and experimental analysis, we discuss the key areas for future research from various viewpoints.
翻訳日:2023-07-24 12:51:30 公開日:2023-07-21
# 物理対応半監督水中画像強調

Physics-Aware Semi-Supervised Underwater Image Enhancement ( http://arxiv.org/abs/2307.11470v1 )

ライセンス: Link先を確認
Hao Qi and Xinghui Dong(参考訳) 水中画像は通常、水域の透過媒質による劣化に悩まされる。 この問題には、従来の事前ベースアプローチとディープラーニングベースの方法の両方が使用されている。 しかしながら、前者の非フレキシブルな仮定は、多様な水中シーンを扱う上での有効性を損なうことが多いが、後者のイメージの一般化は、不十分なデータによって弱まることが多い。 本研究では,物理に基づく水中画像形成モデル (IFM) と深層学習技術の両方を水中画像強調(UIE)に活用する。 そこで本研究では,伝送推定水蒸気 (T-Stream) とアンビエント光推定水蒸気 (A-Stream) を組み合わせた新しい物理対応デュアルストリーム水中画像強調ネットワークPA-UIENetを提案する。 このネットワークはIFMの劣化パラメータを明示的に推定することでUIEタスクを満たす。 また,ラベル付き画像とラベルなし画像の両方を活用したifmによる半教師付き学習フレームワークを採用し,データ不足の問題に対処した。 本手法は, 劣化推定およびUIEタスクにおいて, 5つのテストセットにまたがる8つのベースラインよりも, あるいは少なくとも比較可能な性能を発揮する。 これは、劣化をモデル化できるだけでなく、様々な水中シーンの特徴を学ぶことができるためである。

Underwater images normally suffer from degradation due to the transmission medium of water bodies. Both traditional prior-based approaches and deep learning-based methods have been used to address this problem. However, the inflexible assumption of the former often impairs their effectiveness in handling diverse underwater scenes, while the generalization of the latter to unseen images is usually weakened by insufficient data. In this study, we leverage both the physics-based underwater Image Formation Model (IFM) and deep learning techniques for Underwater Image Enhancement (UIE). To this end, we propose a novel Physics-Aware Dual-Stream Underwater Image Enhancement Network, i.e., PA-UIENet, which comprises a Transmission Estimation Steam (T-Stream) and an Ambient Light Estimation Stream (A-Stream). This network fulfills the UIE task by explicitly estimating the degradation parameters of the IFM. We also adopt an IFM-inspired semi-supervised learning framework, which exploits both the labeled and unlabeled images, to address the issue of insufficient data. Our method performs better than, or at least comparably to, eight baselines across five testing sets in the degradation estimation and UIE tasks. This should be due to the fact that it not only can model the degradation but also can learn the characteristics of diverse underwater scenes.
翻訳日:2023-07-24 12:51:10 公開日:2023-07-21
# Web 収集画像を用いた知識蒸留における分布シフト

Distribution Shift Matters for Knowledge Distillation with Webly Collected Images ( http://arxiv.org/abs/2307.11469v1 )

ライセンス: Link先を確認
Jialiang Tang, Shuo Chen, Gang Niu, Masashi Sugiyama, Chen Gong(参考訳) 知識蒸留は,教師ネットワークから軽量な学生ネットワークを学習することを目的としている。 実際、既存の知識蒸留法は、プライバシの問題やデータ管理の考慮により、元のトレーニングデータが利用できない場合、通常は不可能である。 そのため,インターネットからトレーニングインスタンスを収集するためのデータフリー知識蒸留手法が提案されている。 しかし、そのほとんどは、元のトレーニングデータとWebで収集したデータとの共通分散シフトを無視しており、訓練された学生ネットワークの信頼性に影響を与える。 そこで本研究では, 3成分からなる「異なる分布間の知識蒸留」(kd$^{3}$)という新しい方法を提案する。 具体的には,教師ネットワークと学生ネットワークの複合予測に基づいて,webで収集したデータから有用なトレーニングインスタンスを動的に選択する。 その後、2つのネットワークの重み付け特徴と分類器パラメータを整列させて知識記憶を行う。 また,mixdistributionと呼ばれる新しいコントラスト学習ブロックを構築し,学習者のネットワークがさらに分散不変表現を学習できるように,新しい分布を用いた摂動データを生成する。 様々なベンチマークデータセットにおける集中的な実験は、提案するkd$^{3}$が最先端のデータフリー知識蒸留アプローチを上回ることを示しています。

Knowledge distillation aims to learn a lightweight student network from a pre-trained teacher network. In practice, existing knowledge distillation methods are usually infeasible when the original training data is unavailable due to some privacy issues and data management considerations. Therefore, data-free knowledge distillation approaches proposed to collect training instances from the Internet. However, most of them have ignored the common distribution shift between the instances from original training data and webly collected data, affecting the reliability of the trained student network. To solve this problem, we propose a novel method dubbed ``Knowledge Distillation between Different Distributions" (KD$^{3}$), which consists of three components. Specifically, we first dynamically select useful training instances from the webly collected data according to the combined predictions of teacher network and student network. Subsequently, we align both the weighted features and classifier parameters of the two networks for knowledge memorization. Meanwhile, we also build a new contrastive learning block called MixDistribution to generate perturbed data with a new distribution for instance alignment, so that the student network can further learn a distribution-invariant representation. Intensive experiments on various benchmark datasets demonstrate that our proposed KD$^{3}$ can outperform the state-of-the-art data-free knowledge distillation approaches.
翻訳日:2023-07-24 12:50:47 公開日:2023-07-21
# 対向訓練による視覚認知のための視点ロバスト性の向上

Improving Viewpoint Robustness for Visual Recognition via Adversarial Training ( http://arxiv.org/abs/2307.11528v1 )

ライセンス: Link先を確認
Shouwei Ruan, Yinpeng Dong, Hang Su, Jianteng Peng, Ning Chen, and Xingxing Wei(参考訳) 3次元世界における視点不変性は、視方向の変化が同じ物体の予測に大きな影響を及ぼすため、視覚的認識において依然として困難である。 ニューラルネットを2次元画像の翻訳や回転に不変にする試みが盛んに行われているが、視点不変性が研究されることはほとんどない。 モデルのロバスト性向上における敵意訓練の成功に動機づけられ,画像分類器の視点ロバスト性を改善するために,viat(viewer-invariant adversarial training)を提案する。 攻撃としての視点変換について,提案手法であるgmvfoolに基づいてガウス混合分布を学習することにより,内部最大化が多様な敵視点を特徴付けるミニマックス最適化問題としてviatを定式化する。 外部最小化は、同一カテゴリ内の異なる対象に対して同じものを共有できる最悪の視点分布に対する期待損失を最小化することにより、視点不変の分類器を得る。 GMVFoolをベースとしたImageNet-V+と呼ばれる大規模データセットを,視点ロバスト性の評価に貢献する。 実験の結果,gmvfool が生成する敵対的視点の多様性に基づき,viat は様々な画像分類器の視点ロバスト性を大幅に改善した。 さらに, 理論的な視点からviatの有効性を示すために, 半径と精度を認定した, 認定視点ロバストネス手法であるviewrsを提案する。

Viewpoint invariance remains challenging for visual recognition in the 3D world, as altering the viewing directions can significantly impact predictions for the same object. While substantial efforts have been dedicated to making neural networks invariant to 2D image translations and rotations, viewpoint invariance is rarely investigated. Motivated by the success of adversarial training in enhancing model robustness, we propose Viewpoint-Invariant Adversarial Training (VIAT) to improve the viewpoint robustness of image classifiers. Regarding viewpoint transformation as an attack, we formulate VIAT as a minimax optimization problem, where the inner maximization characterizes diverse adversarial viewpoints by learning a Gaussian mixture distribution based on the proposed attack method GMVFool. The outer minimization obtains a viewpoint-invariant classifier by minimizing the expected loss over the worst-case viewpoint distributions that can share the same one for different objects within the same category. Based on GMVFool, we contribute a large-scale dataset called ImageNet-V+ to benchmark viewpoint robustness. Experimental results show that VIAT significantly improves the viewpoint robustness of various image classifiers based on the diversity of adversarial viewpoints generated by GMVFool. Furthermore, we propose ViewRS, a certified viewpoint robustness method that provides a certified radius and accuracy to demonstrate the effectiveness of VIAT from the theoretical perspective.
翻訳日:2023-07-24 12:44:52 公開日:2023-07-21
# CopyRNeRF:神経放射場のCopyRightを保護する

CopyRNeRF: Protecting the CopyRight of Neural Radiance Fields ( http://arxiv.org/abs/2307.11526v1 )

ライセンス: Link先を確認
Ziyuan Luo and Qing Guo and Ka Chun Cheung and Simon See and Renjie Wan(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、メディアの主要な表現である可能性がある。 NeRFのトレーニングは容易な作業ではないため、モデル著作権の保護が優先されるべきである。 本稿では,著作権保護ソリューションの長所と短所を分析し,NeRFの原色表現を透かし色表現に置き換えることで,NeRFモデルの著作権を保護することを提案する。 次に,NRFの2次元レンダリングにおけるロバストなメッセージ抽出を保証するために,歪み耐性レンダリング方式を設計する。 提案手法は,オプションソリューションと比較して高いレンダリング品質とビット精度を維持しつつ,NeRFモデルの著作権を直接保護することができる。

Neural Radiance Fields (NeRF) have the potential to be a major representation of media. Since training a NeRF has never been an easy task, the protection of its model copyright should be a priority. In this paper, by analyzing the pros and cons of possible copyright protection solutions, we propose to protect the copyright of NeRF models by replacing the original color representation in NeRF with a watermarked color representation. Then, a distortion-resistant rendering scheme is designed to guarantee robust message extraction in 2D renderings of NeRF. Our proposed method can directly protect the copyright of NeRF models while maintaining high rendering quality and bit accuracy when compared among optional solutions.
翻訳日:2023-07-24 12:44:29 公開日:2023-07-21
# 認定AIのためのモデルレポート:EU規制をAI開発に統合する提案

Model Reporting for Certifiable AI: A Proposal from Merging EU Regulation into AI Development ( http://arxiv.org/abs/2307.11525v1 )

ライセンス: Link先を確認
Danilo Brajovic, Niclas Renner, Vincent Philipp Goebels, Philipp Wagner, Benjamin Fresz, Martin Biller, Mara Klaeb, Janika Kutz, Jens Neuhuettler, Marco F. Huber(参考訳) ExplainableとSafe AIの大きな進歩にもかかわらず、実践者はAI安全性の規制と標準の欠如に悩まされている。 この作業では、欧州連合(EU)による最近の規制活動と、AIガイドラインの最初の提案と、最近の研究動向であるデータとモデルカードを統合する。 我々は、開発プロセス全体を通してAIアプリケーションを文書化するための標準化されたカードの使用を提案する。 主なコントリビューションは、ユースケースとオペレーションカードの導入、および規制要件に対処するためのデータとモデルカードのアップデートです。 我々は,最近の研究と,カードにおける規制の源泉の両方を参考にし,可能な限り追加のサポート材料やツールボックスへの参照を提供する。 目標は、開発プロセスを通じて安全なaiシステムを開発するためのカードの設計と、aiアプリケーションの効率的なサードパーティ監査を可能にし、理解しやすく、システムへの信頼を構築することにある。 私たちの研究には、認定専門家と、開発中のAIアプリケーションに取り組んでいる開発者や個人とのインタビューからの洞察が含まれています。

Despite large progress in Explainable and Safe AI, practitioners suffer from a lack of regulation and standards for AI safety. In this work we merge recent regulation efforts by the European Union and first proposals for AI guidelines with recent trends in research: data and model cards. We propose the use of standardized cards to document AI applications throughout the development process. Our main contribution is the introduction of use-case and operation cards, along with updates for data and model cards to cope with regulatory requirements. We reference both recent research as well as the source of the regulation in our cards and provide references to additional support material and toolboxes whenever possible. The goal is to design cards that help practitioners develop safe AI systems throughout the development process, while enabling efficient third-party auditing of AI applications, being easy to understand, and building trust in the system. Our work incorporates insights from interviews with certification experts as well as developers and individuals working with the developed AI applications.
翻訳日:2023-07-24 12:44:17 公開日:2023-07-21
# BatMobility:無人ドローンを見ずに飛行を目指す

BatMobility: Towards Flying Without Seeing for Autonomous Drones ( http://arxiv.org/abs/2307.11518v1 )

ライセンス: Link先を確認
Emerson Sie, Zikun Liu, Deepak Vasisht(参考訳) 無人航空機(uavs)は、カメラやライダーなどの光学センサーを利用して自律運転を行う。 しかし、このような光学センサーは、照明の悪さ、霧や煙などの悪天候、テクスチャレスや透明な表面の周囲でエラーを起こしやすい。 この論文では、光学センサーを使わずにUAVを飛行することは可能か、つまり、UAVは見えずに飛べるのか、と問う。 本稿では,光センサを不要としたUAV用軽量ミリ波レーダー認識システムBatMobilityを提案する。 BatMobilityは、UAVの2つのコア機能 - ラジオフロー推定(表面並列ドップラーシフトに基づく新しいFMCWレーダーベースの光学フロー代替)とレーダーベースの衝突回避 - を可能にする。 我々は、コモディティセンサーを使用してBatMobilityを構築し、未修正の飛行制御装置を実行する小型クワッドコプターにリアルタイムシステムとして展開する。 評価の結果,BatMobilityは様々なシナリオにおいて,市販の光学センサと同等あるいは同等の性能を発揮することがわかった。

Unmanned aerial vehicles (UAVs) rely on optical sensors such as cameras and lidar for autonomous operation. However, such optical sensors are error-prone in bad lighting, inclement weather conditions including fog and smoke, and around textureless or transparent surfaces. In this paper, we ask: is it possible to fly UAVs without relying on optical sensors, i.e., can UAVs fly without seeing? We present BatMobility, a lightweight mmWave radar-only perception system for UAVs that eliminates the need for optical sensors. BatMobility enables two core functionalities for UAVs -- radio flow estimation (a novel FMCW radar-based alternative for optical flow based on surface-parallel doppler shift) and radar-based collision avoidance. We build BatMobility using commodity sensors and deploy it as a real-time system on a small off-the-shelf quadcopter running an unmodified flight controller. Our evaluation shows that BatMobility achieves comparable or better performance than commercial-grade optical sensors across a wide range of scenarios.
翻訳日:2023-07-24 12:44:01 公開日:2023-07-21
# IndigoVX:人工知能が最適な意思決定のためにAIと出会う

IndigoVX: Where Human Intelligence Meets AI for Optimal Decision Making ( http://arxiv.org/abs/2307.11516v1 )

ライセンス: Link先を確認
Kais Dukes(参考訳) 本稿では、最適なゴール解決のためのAIによる人間の知能向上のための新しいアプローチを定義する。 提案するAIであるIndigoは、反復ゴール指向最適化によるインフォームド数値決定の頭字語である。 人間の協力者と組み合わせると、仮想専門家のためのジョイントシステムindigovxと名づける。 システムは概念的には単純である。 我々は、この手法をゲームやビジネス戦略に適用し、人間は戦略的なコンテキストを提供し、aiは最適なデータ駆動の動きを提供する、と考えている。 Indigoは反復的なフィードバックループを通し、人間の専門家のコンテキスト知識とAIのデータ駆動による洞察を活用して、明確に定義された目標に向けて戦略を構築および洗練する。 定量化された3スコアスキーマを使用することで、このハイブリッド化によって、統合チームは戦略を評価し、計画を洗練し、リアルタイムの課題や変更に適応することが可能になります。

This paper defines a new approach for augmenting human intelligence with AI for optimal goal solving. Our proposed AI, Indigo, is an acronym for Informed Numerical Decision-making through Iterative Goal-Oriented optimization. When combined with a human collaborator, we term the joint system IndigoVX, for Virtual eXpert. The system is conceptually simple. We envisage this method being applied to games or business strategies, with the human providing strategic context and the AI offering optimal, data-driven moves. Indigo operates through an iterative feedback loop, harnessing the human expert's contextual knowledge and the AI's data-driven insights to craft and refine strategies towards a well-defined goal. Using a quantified three-score schema, this hybridization allows the combined team to evaluate strategies and refine their plan, while adapting to challenges and changes in real-time.
翻訳日:2023-07-24 12:43:42 公開日:2023-07-21
# CORE : マルチエージェント・パーセプションのための協調的再建

CORE: Cooperative Reconstruction for Multi-Agent Perception ( http://arxiv.org/abs/2307.11514v1 )

ライセンス: Link先を確認
Binglu Wang, Lei Zhang, Zhaozhong Wang, Yongqiang Zhao, Tianfei Zhou(参考訳) 本稿では,マルチエージェント協調認識のための概念的,シンプルで効果的かつコミュニケーション効率の良いモデルであるCOREを提案する。 それは2つの重要な洞察に基づいて、新しい協力的再構築の観点からその課題に対処する。 1)協力するエージェントは、より総合的な環境観察を提供し、 2)包括的観察は,協調に基づく理想的な観察の再構築方法について,モデル学習を明示的に指導する上で,貴重な監督となる。 COREは、各エージェントが効率的な放送のためによりコンパクトな特徴表現を作成するための圧縮機、クロスエージェントメッセージアグリゲーションのための軽量な注意協調コンポーネント、集約された特徴表現に基づいて観察を再構築する再構築モジュールの3つの主要なコンポーネントでアイデアをインスタンス化する。 この学習から再構築までのアイデアはタスク非依存であり、より効果的なコラボレーションを刺激し、最終的には知覚タスクを促進するための明確で合理的な監督を提供する。 大規模マルチエージェント知覚データセットであるopv2vのコアを,3次元オブジェクト検出と意味セグメンテーションという2つのタスクで検証した。 その結果,両タスクの最先端性能が得られ,通信効率が向上した。

This paper presents CORE, a conceptually simple, effective and communication-efficient model for multi-agent cooperative perception. It addresses the task from a novel perspective of cooperative reconstruction, based on two key insights: 1) cooperating agents together provide a more holistic observation of the environment, and 2) the holistic observation can serve as valuable supervision to explicitly guide the model learning how to reconstruct the ideal observation based on collaboration. CORE instantiates the idea with three major components: a compressor for each agent to create more compact feature representation for efficient broadcasting, a lightweight attentive collaboration component for cross-agent message aggregation, and a reconstruction module to reconstruct the observation based on aggregated feature representations. This learning-to-reconstruct idea is task-agnostic, and offers clear and reasonable supervision to inspire more effective collaboration, eventually promoting perception tasks. We validate CORE on OPV2V, a large-scale multi-agent percetion dataset, in two tasks, i.e., 3D object detection and semantic segmentation. Results demonstrate that the model achieves state-of-the-art performance on both tasks, and is more communication-efficient.
翻訳日:2023-07-24 12:43:28 公開日:2023-07-21
# 骨分離CTの投影への分解過程の学習による原X線画像からの骨密度推定

Bone mineral density estimation from a plain X-ray image by learning decomposition into projections of bone-segmented computed tomography ( http://arxiv.org/abs/2307.11513v1 )

ライセンス: Link先を確認
Yi Gu, Yoshito Otake, Keisuke Uemura, Mazen Soufi, Masaki Takao, Hugues Talbot, Seiji Okada, Nobuhiko Sugano, Yoshinobu Sato(参考訳) 骨粗しょう症(英: osteoporosis)は、脆弱な骨の骨折を引き起こす骨疾患であり、日常生活活動の低下につながる。 DXA (Dual-Energy X-ray absorptiometry) とQCT (Quantical Computed Tomography) は骨粗しょう症の診断に極めて正確であるが, 特殊な装置とスキャンプロトコルが必要である。 骨の健康状態を頻繁に監視するため、低コスト、低用量、ユビキタスに利用可能な診断方法が期待されている。 本研究では, 骨密度(bmd)を簡易x線画像から推定し, 早期診断に有用である日和見スクリーニングを行うことを目的としている。 既存の手法では、関心領域の抽出と、大量のトレーニングデータを必要とするbmdの推定に簡単な回帰を含む多段階アプローチを採用している。 そこで本研究では,bmd推定のための骨セグメントqctの投射への分解を,限られたデータセットで学習する効率的な手法を提案する。 提案手法は, DXA測定BMDおよびQCT測定BMD推定タスクにおいてピアソン相関係数0.880, 0.920のPearson相関係数をそれぞれ観測し, 変動係数の根平均正方形が3.27から3.79%であった。 さらに,日常的な臨床応用に向けて,マルチポジション,uncalibrated-ct,圧縮実験などの広範囲な検証実験を行った。

Osteoporosis is a prevalent bone disease that causes fractures in fragile bones, leading to a decline in daily living activities. Dual-energy X-ray absorptiometry (DXA) and quantitative computed tomography (QCT) are highly accurate for diagnosing osteoporosis; however, these modalities require special equipment and scan protocols. To frequently monitor bone health, low-cost, low-dose, and ubiquitously available diagnostic methods are highly anticipated. In this study, we aim to perform bone mineral density (BMD) estimation from a plain X-ray image for opportunistic screening, which is potentially useful for early diagnosis. Existing methods have used multi-stage approaches consisting of extraction of the region of interest and simple regression to estimate BMD, which require a large amount of training data. Therefore, we propose an efficient method that learns decomposition into projections of bone-segmented QCT for BMD estimation under limited datasets. The proposed method achieved high accuracy in BMD estimation, where Pearson correlation coefficients of 0.880 and 0.920 were observed for DXA-measured BMD and QCT-measured BMD estimation tasks, respectively, and the root mean square of the coefficient of variation values were 3.27 to 3.79% for four measurements with different poses. Furthermore, we conducted extensive validation experiments, including multi-pose, uncalibrated-CT, and compression experiments toward actual application in routine clinical practice.
翻訳日:2023-07-24 12:43:05 公開日:2023-07-21
# 共変量シフト適応における一般正規化

General regularization in covariate shift adaptation ( http://arxiv.org/abs/2307.11503v1 )

ライセンス: Link先を確認
Duc Hoan Nguyen and Sergei V. Pereverzyev and Werner Zellinger(参考訳) サンプル再重み付けは、トレーニングデータ分布とは異なる将来のデータ分布に起因するカーネル・ヒルベルト空間(RKHS)における最小二乗学習アルゴリズムの誤差を修正する最も広く使われている方法の1つである。 実際の状況では、サンプル重量は、将来のデータ分布w.r.t.~のトレーニングデータ分布の推定ラドン-ニコド-'ym誘導体の値によって決定される。 本稿では、RKHSにおける再重み付きカーネル回帰の既知のエラー境界をレビューし、組み合わせて新しい結果を得る。 弱平滑性条件下では,データ分布の差を伴わない標準教師あり学習と同等の精度を達成するために必要なサンプル量は,最先端分析によって証明されるよりも小さい。

Sample reweighting is one of the most widely used methods for correcting the error of least squares learning algorithms in reproducing kernel Hilbert spaces (RKHS), that is caused by future data distributions that are different from the training data distribution. In practical situations, the sample weights are determined by values of the estimated Radon-Nikod\'ym derivative, of the future data distribution w.r.t.~the training data distribution. In this work, we review known error bounds for reweighted kernel regression in RKHS and obtain, by combination, novel results. We show under weak smoothness conditions, that the amount of samples, needed to achieve the same order of accuracy as in the standard supervised learning without differences in data distributions, is smaller than proven by state-of-the-art analyses.
翻訳日:2023-07-24 12:42:31 公開日:2023-07-21
# リソース制約型IoTシステムにおける分散推論のための適応型ResNetアーキテクチャ

Adaptive ResNet Architecture for Distributed Inference in Resource-Constrained IoT Systems ( http://arxiv.org/abs/2307.11499v1 )

ライセンス: Link先を確認
Fazeela Mazhar Khan and Emna Baccour and Aiman Erbad and Mounir Hamdi(参考訳) ディープニューラルネットワークが拡大し、さらに複雑化するにつれて、ほとんどのエッジデバイスは、その広範な処理要求に対処できない。 したがって、分散推論の概念は、ニューラルネットワークをノードのクラスタに分散するために不可欠である。 しかし、分布は不安定な伝送速度に苦しむデバイス間でエネルギー消費と依存を増大させる可能性がある。 不安定な送信速度は、低レイテンシ、高エネルギー使用量、潜在的な障害を引き起こすIoTデバイスのリアルタイムパフォーマンスを損なう。 したがって、動的システムには、利用可能なリソースに応じて縮小可能な適応アーキテクチャを備えた回復力のあるDNNが必要である。 本稿では,リソース不足時に分散を実現するために,モデルの性能に大きな影響を与えることなく,ドロップできるresnetの接続を識別する実験的な研究を行う。 この結果に基づき,複数目的最適化問題を定式化し,レイテンシを最小化し,資源当たりの精度を最大化する。 実験により,アダプティブresnetアーキテクチャは,高い精度を維持しつつ,共有データ,エネルギー消費,分散全体のレイテンシを低減できることを実証した。

As deep neural networks continue to expand and become more complex, most edge devices are unable to handle their extensive processing requirements. Therefore, the concept of distributed inference is essential to distribute the neural network among a cluster of nodes. However, distribution may lead to additional energy consumption and dependency among devices that suffer from unstable transmission rates. Unstable transmission rates harm real-time performance of IoT devices causing low latency, high energy usage, and potential failures. Hence, for dynamic systems, it is necessary to have a resilient DNN with an adaptive architecture that can downsize as per the available resources. This paper presents an empirical study that identifies the connections in ResNet that can be dropped without significantly impacting the model's performance to enable distribution in case of resource shortage. Based on the results, a multi-objective optimization problem is formulated to minimize latency and maximize accuracy as per available resources. Our experiments demonstrate that an adaptive ResNet architecture can reduce shared data, energy consumption, and latency throughout the distribution while maintaining high accuracy.
翻訳日:2023-07-24 12:42:16 公開日:2023-07-21
# ソーシャルメディア上の誤情報の拡散を抑える摩擦干渉

Friction Interventions to Curb the Spread of Misinformation on Social Media ( http://arxiv.org/abs/2307.11498v1 )

ライセンス: Link先を確認
Laura Jahn, Rasmus K. Rendsvig, Alessandro Flammini, Filippo Menczer, Vincent F. Hendricks(参考訳) ソーシャルメディアは、前例のないスピードとスケールで情報の拡散を可能にし、高いエンゲージメントと低品質コンテンツの普及をもたらした。 Friction* -- コンテンツの共有をより面倒なものにする行動設計手法 -- は、オンラインで拡散するコンテンツの質を高める方法かもしれない。 本稿では,品質認知学習における摩擦の効果について検討する。 エージェントベースのモデルによる実験では、摩擦だけで品質を向上することなく投稿数を減らすことが示唆されている。 しかし、少量の摩擦と学習が組み合わさることで、投稿の平均品質が著しく向上する。 この予備的なエビデンスに基づいて,フィールド実験によりテストを行うための,プラットフォームのコミュニティ標準に関する学習コンポーネントとの摩擦介入を提案する。 提案された介入はエンゲージメントに最小限の影響を与え、簡単に大規模に展開できる。

Social media has enabled the spread of information at unprecedented speeds and scales, and with it the proliferation of high-engagement, low-quality content. *Friction* -- behavioral design measures that make the sharing of content more cumbersome -- might be a way to raise the quality of what is spread online. Here, we study the effects of friction with and without quality-recognition learning. Experiments from an agent-based model suggest that friction alone decreases the number of posts without improving their quality. A small amount of friction combined with learning, however, increases the average quality of posts significantly. Based on this preliminary evidence, we propose a friction intervention with a learning component about the platform's community standards, to be tested via a field experiment. The proposed intervention would have minimal effects on engagement and may easily be deployed at scale.
翻訳日:2023-07-24 12:41:59 公開日:2023-07-21
# cycleik:神経インスパイアされた逆運動学

CycleIK: Neuro-inspired Inverse Kinematics ( http://arxiv.org/abs/2307.11554v1 )

ライセンス: Link先を確認
Jan-Gerrit Habekost, Erik Strahl, Philipp Allgeuer, Matthias Kerzel, Stefan Wermter(参考訳) 本稿では,逆キネマティクス(IK)課題,GAN(Generative Adversarial Network),マルチ層パーセプトロンアーキテクチャ(Multi-Layer Perceptron architecture)の2つの新しい手法をラップする神経ロボティクス手法であるCycleIKを紹介する。 これらの手法はスタンドアロンで使用することができるが、これらをハイブリッド神経遺伝IKパイプラインに組み込むことで、逐次最小二乗プログラミング(SLSQP)や遺伝的アルゴリズム(GA)を介してさらに最適化できることを示す。 モデルは、2つの冗長な8-DoFマニピュレータを備えた半人型ロボットであるNICOL(Neuro-Inspired COLlaborator)のランダムなロボット構成から収集された高密度データセットに基づいてトレーニングされ、テストされる。 我々は,最先端のbioik法による重み付き多目的関数を用いて,学習過程とハイブリッドニューロジェネティックアーキテクチャを支援する。 ニューラルモデルは最先端のIKアプローチと競合し、ロボットハードウェアに直接デプロイできることを示す。 さらに, 遺伝的アルゴリズムの導入により, 全体の実行時間を削減すると同時に精度が向上することを示した。

The paper introduces CycleIK, a neuro-robotic approach that wraps two novel neuro-inspired methods for the inverse kinematics (IK) task, a Generative Adversarial Network (GAN), and a Multi-Layer Perceptron architecture. These methods can be used in a standalone fashion, but we also show how embedding these into a hybrid neuro-genetic IK pipeline allows for further optimization via sequential least-squares programming (SLSQP) or a genetic algorithm (GA). The models are trained and tested on dense datasets that were collected from random robot configurations of the new Neuro-Inspired COLlaborator (NICOL), a semi-humanoid robot with two redundant 8-DoF manipulators. We utilize the weighted multi-objective function from the state-of-the-art BioIK method to support the training process and our hybrid neuro-genetic architecture. We show that the neural models can compete with state-of-the-art IK approaches, which allows for deployment directly to robotic hardware. Additionally, it is shown that the incorporation of the genetic algorithm improves the precision while simultaneously reducing the overall runtime.
翻訳日:2023-07-24 12:34:44 公開日:2023-07-21
# El Ni\~no Southern Oscillation Diversityの多モード表現

A multi-modal representation of El Ni\~no Southern Oscillation Diversity ( http://arxiv.org/abs/2307.11552v1 )

ライセンス: Link先を確認
Jakob Schl\"or, Felix Strnad, Antonietta Capotondi, Bedartha Goswami(参考訳) El Ni\~no-Southern Oscillation (ENSO) は、赤道太平洋における温暖な (El Ni\~no) と冷たい (La Ni\~na) 海面温度異常 (SSTA) の交互周期を特徴とする。 El Ni\~no と La Ni\~na は明確に定義された気候パターンであるが、2つの事象は類似していない。 現在までに、ENSOの多様性は、主に東太平洋(EP)および中央太平洋(CP)型の事象のバイモーダル分類を定義するために使用されるSSTAの縦方向の位置について記述されている。 ここでは、太平洋SSTAの低次元表現を用いて、二項カテゴリーのメンバーシップはENSOイベントを記述するのに不適であると主張する。 ファジィな教師なしクラスタリングを用いて、既知の4つのENSOカテゴリと5番目のカテゴリであるExtreme El Ni\~noを復元する。 極端El Ni\~nosは、正準EP El Ni\~nosとは異なる強度と時間的進化を示す。 また, CP La Ni\~nas, EP El Ni\~nos, Extreme El Ni\~nosは, 学際的なENSO変動に最も寄与している。

The El Ni\~no-Southern Oscillation (ENSO) is characterized by alternating periods of warm (El Ni\~no) and cold (La Ni\~na) sea surface temperature anomalies (SSTA) in the equatorial Pacific. Although El Ni\~no and La Ni\~na are well-defined climate patterns, no two events are alike. To date, ENSO diversity has been described primarily in terms of the longitudinal location of peak SSTA, used to define a bimodal classification of events in Eastern Pacific (EP) and Central Pacific (CP) types. Here, we use low-dimensional representations of Pacific SSTAs to argue that binary categorical memberships are unsuitable to describe ENSO events. Using fuzzy unsupervised clustering, we recover the four known ENSO categories, along with a fifth category: an Extreme El Ni\~no. We show that Extreme El Ni\~nos differ both in their intensity and temporal evolution from canonical EP El Ni\~nos. We also find that CP La Ni\~nas, EP El Ni\~nos, and Extreme El Ni\~nos contribute the most to interdecadal ENSO variability.
翻訳日:2023-07-24 12:34:19 公開日:2023-07-21
# yolopose v2: トランスフォーマーベースの6次元ポーズ推定の理解と改善

YOLOPose V2: Understanding and Improving Transformer-based 6D Pose Estimation ( http://arxiv.org/abs/2307.11550v1 )

ライセンス: Link先を確認
Arul Selvam Periyasamy, Arash Amini, Vladimir Tsaturyan, and Sven Behnke(参考訳) 6dオブジェクトポーズ推定は、自律ロボット操作アプリケーションにとって重要な前提条件である。 ポーズ推定の最先端モデルは畳み込みニューラルネットワーク(CNN)に基づくものである。 近年、自然言語処理のために提案されたアーキテクチャであるTransformersは、多くのコンピュータビジョンタスクでも最先端の結果を達成している。 マルチヘッドセルフアテンション機構を備えるトランスフォーマは、オブジェクト検出と6dオブジェクトポーズ推定を共同で学習するために、単純な1段のエンドツーエンドアーキテクチャを可能にする。 本稿では,キーポイント回帰に基づくトランスフォーマーベースの多目的6Dポーズ推定手法であるYOLOPose(You Only Look Once Pose Estimation)を提案し,改良されたYOLOPoseモデルを提案する。 画像中のキーポイントを予測するための標準的なヒートマップとは対照的に、キーポイントを直接回帰する。 さらに,学習可能な方向推定モジュールを用いて,キーポイントから方向を予測する。 別個の翻訳推定モジュールとともに、我々のモデルはエンドツーエンドで微分可能である。 提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。 アーキテクチャにおけるオブジェクトクエリの役割を分析し、オブジェクトクエリが特定の画像領域におけるオブジェクトの検出に特化していることを明らかにする。 さらに、より小さなデータセットを使ってモデルをトレーニングする際の精度のトレードオフを定量化する。

6D object pose estimation is a crucial prerequisite for autonomous robot manipulation applications. The state-of-the-art models for pose estimation are convolutional neural network (CNN)-based. Lately, Transformers, an architecture originally proposed for natural language processing, is achieving state-of-the-art results in many computer vision tasks as well. Equipped with the multi-head self-attention mechanism, Transformers enable simple single-stage end-to-end architectures for learning object detection and 6D object pose estimation jointly. In this work, we propose YOLOPose (short form for You Only Look Once Pose estimation), a Transformer-based multi-object 6D pose estimation method based on keypoint regression and an improved variant of the YOLOPose model. In contrast to the standard heatmaps for predicting keypoints in an image, we directly regress the keypoints. Additionally, we employ a learnable orientation estimation module to predict the orientation from the keypoints. Along with a separate translation estimation module, our model is end-to-end differentiable. Our method is suitable for real-time applications and achieves results comparable to state-of-the-art methods. We analyze the role of object queries in our architecture and reveal that the object queries specialize in detecting objects in specific image regions. Furthermore, we quantify the accuracy trade-off of using datasets of smaller sizes to train our model.
翻訳日:2023-07-24 12:33:53 公開日:2023-07-21
# トカマク磁気制御の実用的強化学習に向けて

Towards practical reinforcement learning for tokamak magnetic control ( http://arxiv.org/abs/2307.11546v1 )

ライセンス: Link先を確認
Brendan D. Tracey and Andrea Michi and Yuri Chervonyi and Ian Davies and Cosmin Paduraru and Nevena Lazic and Federico Felici and Timo Ewalds and Craig Donner and Cristian Galperti and Jonas Buchli and Michael Neunert and Andrea Huber and Jonathan Evens and Paula Kurylowicz and Daniel J. Mankowitz and Martin Riedmiller and The TCV Team(参考訳) 強化学習(rl)はプラズマ磁気制御の領域を含むリアルタイム制御システムにおいて有望な結果を示している。 しかし、磁気閉じ込めに対する従来のフィードバック制御手法と比較しても大きな欠点がある。 本研究では, RL法の重要な欠点に対処し, 所望のプラズマ特性に対する制御精度の向上, 定常誤差の低減, 新たなタスクの学習に必要な時間短縮を実現する。 我々は, \cite{degrave2022magnetic}上に構築し,エージェントアーキテクチャとトレーニング手順のアルゴリズム的改善を提案する。 本研究では, 形状精度が最大65\%向上し, プラズマ電流の長期バイアスが大幅に低減し, 新たなタスクの学習に要する訓練時間を3倍以上削減したシミュレーション結果を示す。 我々は,TCVトカマクに改良されたRLベースの制御器を用いた新しい実験を行い,シミュレーション結果を検証し,RLアプローチを用いて正確な放電を実現する方法を示す。

Reinforcement learning (RL) has shown promising results for real-time control systems, including the domain of plasma magnetic control. However, there are still significant drawbacks compared to traditional feedback control approaches for magnetic confinement. In this work, we address key drawbacks of the RL method; achieving higher control accuracy for desired plasma properties, reducing the steady-state error, and decreasing the required time to learn new tasks. We build on top of \cite{degrave2022magnetic}, and present algorithmic improvements to the agent architecture and training procedure. We present simulation results that show up to 65\% improvement in shape accuracy, achieve substantial reduction in the long-term bias of the plasma current, and additionally reduce the training time required to learn new tasks by a factor of 3 or more. We present new experiments using the upgraded RL-based controllers on the TCV tokamak, which validate the simulation results achieved, and point the way towards routinely achieving accurate discharges using the RL approach.
翻訳日:2023-07-24 12:33:33 公開日:2023-07-21
# ブリッジングビジョンと言語エンコーダ:画像セグメント参照のためのパラメータ効率の高いチューニング

Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation ( http://arxiv.org/abs/2307.11545v1 )

ライセンス: Link先を確認
Zunnan Xu, Zhihong Chen, Yong Zhang, Yibing Song, Xiang Wan, Guanbin Li(参考訳) パラメータ効率調整 (PET) は, 性能を維持しつつパラメータ数を減らし, ハードウェア資源の節約を図っているが, 密集した予測タスクやモダリティ間の相互作用についてはほとんど研究されていない。 本稿では,画像分割参照における効率的なチューニング問題について検討する。 クロスモーダルな情報交換を容易にし,タスク固有の情報を事前学習モデルに注入する,Bridgerと呼ばれる新しいアダプタを提案する。 画像分割のための軽量デコーダも設計する。 提案手法は,1.61 %から3.38 %までのバックボーンパラメータの更新で同等あるいは優れた性能を達成する。 コードは \url{https://github.com/kkakka/etris} で入手できる。

Parameter Efficient Tuning (PET) has gained attention for reducing the number of parameters while maintaining performance and providing better hardware resource savings, but few studies investigate dense prediction tasks and interaction between modalities. In this paper, we do an investigation of efficient tuning problems on referring image segmentation. We propose a novel adapter called Bridger to facilitate cross-modal information exchange and inject task-specific information into the pre-trained model. We also design a lightweight decoder for image segmentation. Our approach achieves comparable or superior performance with only 1.61\% to 3.38\% backbone parameter updates, evaluated on challenging benchmarks. The code is available at \url{https://github.com/kkakkkka/ETRIS}.
翻訳日:2023-07-24 12:33:17 公開日:2023-07-21
# 侵入検知システムの開発のためのCSE-CIC-IDS2018データセットの関連性同定

Identifying Relevant Features of CSE-CIC-IDS2018 Dataset for the Development of an Intrusion Detection System ( http://arxiv.org/abs/2307.11544v1 )

ライセンス: Link先を確認
L\'aszl\'o G\"ocs, Zsolt Csaba Johany\'ak(参考訳) 侵入検知システム(IDS)はITシステムにとって重要な要素である。 主要なコンポーネントは分類モジュールで、ネットワークトラフィックのいくつかの機能を継続的に評価し、潜在的な脅威を特定する。 その効率は、監視対象の機能の適切な選択によって大きく影響を受ける。 したがって、IDSの開発において、悪意のあるトラフィックと良性のあるトラフィックを安全に区別するために必要な、最小限の機能セットの識別は不可欠である。 本稿では,AWSデータセット上でのCSE-CIC-IDS2018における前処理と機能選択のワークフローと,その結果について述べる。 関連する特徴を識別するために,6つの特徴選択法を適用し,その平均値に基づいて最終ランク付けを行った。 次に,いくつかの特徴のサブセットを異なるランク付けしきい値に基づいて生成し,各サブセットを5つの分類アルゴリズムを用いて攻撃タイプごとに最適な特徴セットを判定した。 評価中に4つの広く使用されている指標が考慮された。

Intrusion detection systems (IDSs) are essential elements of IT systems. Their key component is a classification module that continuously evaluates some features of the network traffic and identifies possible threats. Its efficiency is greatly affected by the right selection of the features to be monitored. Therefore, the identification of a minimal set of features that are necessary to safely distinguish malicious traffic from benign traffic is indispensable in the course of the development of an IDS. This paper presents the preprocessing and feature selection workflow as well as its results in the case of the CSE-CIC-IDS2018 on AWS dataset, focusing on five attack types. To identify the relevant features, six feature selection methods were applied, and the final ranking of the features was elaborated based on their average score. Next, several subsets of the features were formed based on different ranking threshold values, and each subset was tried with five classification algorithms to determine the optimal feature set for each attack type. During the evaluation, four widely used metrics were taken into consideration.
翻訳日:2023-07-24 12:33:03 公開日:2023-07-21
# KVN: ステレオポース推定のための微分可能なRANSACによる投票ネットワーク

KVN: Keypoints Voting Network with Differentiable RANSAC for Stereo Pose Estimation ( http://arxiv.org/abs/2307.11543v1 )

ライセンス: Link先を確認
Ivano Donadi and Alberto Pretto(参考訳) オブジェクトポーズ推定は、いくつかのロボティクスや拡張現実アプリケーションで利用される基本的なコンピュータビジョンタスクである。 多くの確立されたアプローチでは、RANSAC (Random sample consensus) を用いて2D-3Dキーポイント対応を予測し、PnP (Perspective-n-Point) アルゴリズムを用いてオブジェクトのポーズを推定する。 RANSACは非微分可能であるため、通信はエンドツーエンドで直接学習することはできない。 本稿では,ステレオ画像に基づく物体ポーズ推定問題に対処する。 二 識別可能なRANSAC層をよく知られた単眼ポーズ推定ネットワークに導入すること。 (ii)複数のビューから情報を融合できる不確実性駆動型マルチビューpnpソルバの活用。 提案手法は, 公的なステレオオブジェクトポーズ推定データセットに対するアプローチを評価し, 最近のアプローチに対して最先端の成果をもたらす。 さらに,本研究では,RANSAC層が提案手法の精度において重要な役割を担っていることを示す。 本稿では,本手法のオープンソース実装について述べる。

Object pose estimation is a fundamental computer vision task exploited in several robotics and augmented reality applications. Many established approaches rely on predicting 2D-3D keypoint correspondences using RANSAC (Random sample consensus) and estimating the object pose using the PnP (Perspective-n-Point) algorithm. Being RANSAC non-differentiable, correspondences cannot be directly learned in an end-to-end fashion. In this paper, we address the stereo image-based object pose estimation problem by (i) introducing a differentiable RANSAC layer into a well-known monocular pose estimation network; (ii) exploiting an uncertainty-driven multi-view PnP solver which can fuse information from multiple views. We evaluate our approach on a challenging public stereo object pose estimation dataset, yielding state-of-the-art results against other recent approaches. Furthermore, in our ablation study, we show that the differentiable RANSAC layer plays a significant role in the accuracy of the proposed method. We release with this paper the open-source implementation of our method.
翻訳日:2023-07-24 12:32:45 公開日:2023-07-21
# 完全分解に基づく混合量子古典法による多状態ダイナミクスの異なるフレーバー

Different Flavors of Exact-Factorization-Based Mixed Quantum-Classical Methods for Multistate Dynamics ( http://arxiv.org/abs/2307.11535v1 )

ライセンス: Link先を確認
Evaristo Villaseco Arribas, Patricia Vindel-Zandbergen, Saswata Roy and Neepa T. Maitra(参考訳) 正確な因子分解アプローチは、結合電子-イオンダイナミクスをシミュレートする新しい混合量子古典法の開発につながった。 2つの電子状態が所定の時間に占有された場合のパフォーマンスを比較し,(1)電子核相関項の評価における結合と補助の軌跡の利用,(2)表面ホッピングとエレンフェストの枠組みにおけるこれらの用語の使用の近似,(3)非断熱結合領域からのゼロ集団移動の正確な条件と総エネルギー保存の関係を解析した。 ウラシルラジカルカチオンの3状態円錐交叉と1次元のポーラリトニックモデルによるダイナミクスについて研究した。

The exact factorization approach has led to the development of new mixed quantum-classical methods for simulating coupled electron-ion dynamics. We compare their performance for dynamics when more than two electronic states are occupied at a given time, and analyze: (1) the use of coupled versus auxiliary trajectories in evaluating the electron-nuclear correlation terms, (2) the approximation of using these terms within surface-hopping and Ehrenfest frameworks, and (3) the relevance of the exact conditions of zero population transfer away from nonadiabatic coupling regions and total energy conservation. Dynamics through the three-state conical intersection in the uracil radical cation as well as polaritonic models in one dimension are studied.
翻訳日:2023-07-24 12:32:30 公開日:2023-07-21
# モデル分割可能なフェデレーションエッジラーニングのための学習遅延最小化

Training Latency Minimization for Model-Splitting Allowed Federated Edge Learning ( http://arxiv.org/abs/2307.11532v1 )

ライセンス: Link先を確認
Yao Wen, Guopeng Zhang, Kezhi Wang, and Kun Yang(参考訳) フェデレートラーニング(FL)を用いたディープニューラルネットワーク(DNN)のトレーニングにおいて,クライアントが直面する計算能力の不足を軽減するため,エッジコンピューティングとスプリットラーニングを活用して,テスト精度を損なうことなくトレーニング遅延を最小限に抑えるため,モデル分割許容FL(SFL)フレームワークを提案する。 同期したグローバルアップデート設定では、グローバルトレーニングを完了するためのレイテンシは、クライアントがローカルトレーニングセッションを完了するための最大レイテンシによって決定される。 したがって、トレーニング遅延最小化問題(TLMP)は最小化最大化問題としてモデル化される。 この混合整数非線形計画問題の解法として,AIモデルのカット層と他のパラメータの量的関係に適合する回帰法を提案し,TLMPを連続的な問題に変換する。 TLMPに関わる2つのサブプロブレム、すなわち、クライアントのカット層選択問題とパラメータサーバのコンピューティングリソース割り当て問題は相対的な独立性を考えると、多項式時間複雑性の交互最適化に基づくアルゴリズムを開発し、TLMPの高品質な解を得る。 データセットMNISTを用いたDNNモデルEfficientNetV2の大規模な実験を行い,提案フレームワークの有効性と性能の改善について検証した。

To alleviate the shortage of computing power faced by clients in training deep neural networks (DNNs) using federated learning (FL), we leverage the edge computing and split learning to propose a model-splitting allowed FL (SFL) framework, with the aim to minimize the training latency without loss of test accuracy. Under the synchronized global update setting, the latency to complete a round of global training is determined by the maximum latency for the clients to complete a local training session. Therefore, the training latency minimization problem (TLMP) is modelled as a minimizing-maximum problem. To solve this mixed integer nonlinear programming problem, we first propose a regression method to fit the quantitative-relationship between the cut-layer and other parameters of an AI-model, and thus, transform the TLMP into a continuous problem. Considering that the two subproblems involved in the TLMP, namely, the cut-layer selection problem for the clients and the computing resource allocation problem for the parameter-server are relative independence, an alternate-optimization-based algorithm with polynomial time complexity is developed to obtain a high-quality solution to the TLMP. Extensive experiments are performed on a popular DNN-model EfficientNetV2 using dataset MNIST, and the results verify the validity and improved performance of the proposed SFL framework.
翻訳日:2023-07-24 12:32:16 公開日:2023-07-21
# UWAT-GAN:超広角変換によるFlurescein Angiographyの合成

UWAT-GAN: Fundus Fluorescein Angiography Synthesis via Ultra-wide-angle Transformation Multi-scale GAN ( http://arxiv.org/abs/2307.11530v1 )

ライセンス: Link先を確認
Zhaojie Fang, Zhanghao Chen, Pengxue Wei, Wangting Li, Shaochong Zhang, Ahmed Elazab, Gangyong Jia, Ruiquan Ge, Changmiao Wang(参考訳) 眼底撮影は眼底疾患の臨床および鑑別診断に必須の検査である。 近年,ultra-wide-angle fundus (uwf) 法, uwf fluorescein angiography (uwf-fa) 法, uwf scanning laser ophthalmoscopy (uwf-slo) が徐々に用いられている。 しかし、Fluorescein Angiography (FA) と UWF-FA は、有害な影響のあるフッ素ナトリウムを注射する必要がある。 負の影響を避けるため、異質な医療画像生成アルゴリズムが提案されている。 しかし, 基礎撮影では高解像度画像が得られず, 微小血管病変領域の撮影が困難であった。 本稿では,UWF-SLOからUWF-FAを合成する条件付き生成対向ネットワーク(UWAT-GAN)を提案する。 マルチスケールジェネレータと融合モジュールパッチを用いてグローバルおよびローカル情報を抽出し,高解像度の画像を生成する。 さらに,デコーダの学習を支援するために,アテンション送信モジュールを提案する。 さらに、教師付きアプローチは、異なるスケールのデータで複数の新しい重み付き損失を使用してネットワークをトレーニングするために使用されます。 社内UWFイメージデータセットの実験は、最先端の手法よりもUWAT-GANの方が優れていることを示している。 ソースコードはhttps://github.com/tinysqua/uwat-gan。

Fundus photography is an essential examination for clinical and differential diagnosis of fundus diseases. Recently, Ultra-Wide-angle Fundus (UWF) techniques, UWF Fluorescein Angiography (UWF-FA) and UWF Scanning Laser Ophthalmoscopy (UWF-SLO) have been gradually put into use. However, Fluorescein Angiography (FA) and UWF-FA require injecting sodium fluorescein which may have detrimental influences. To avoid negative impacts, cross-modality medical image generation algorithms have been proposed. Nevertheless, current methods in fundus imaging could not produce high-resolution images and are unable to capture tiny vascular lesion areas. This paper proposes a novel conditional generative adversarial network (UWAT-GAN) to synthesize UWF-FA from UWF-SLO. Using multi-scale generators and a fusion module patch to better extract global and local information, our model can generate high-resolution images. Moreover, an attention transmit module is proposed to help the decoder learn effectively. Besides, a supervised approach is used to train the network using multiple new weighted losses on different scales of data. Experiments on an in-house UWF image dataset demonstrate the superiority of the UWAT-GAN over the state-of-the-art methods. The source code is available at: https://github.com/Tinysqua/UWAT-GAN.
翻訳日:2023-07-24 12:31:52 公開日:2023-07-21
# 半監督医療画像分割のための一貫性誘導メタラーニング

Consistency-guided Meta-Learning for Bootstrapping Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2307.11604v1 )

ライセンス: Link先を確認
Qingyue Wei, Lequan Yu, Xianhang Li, Wei Shao, Cihang Xie, Lei Xing, and Yuyin Zhou(参考訳) 医用画像撮影は目覚ましい進歩を遂げてきたが、通常は大量の高品質な注釈データを必要とする。 この負担を軽減するため、半教師付き学習は潜在的な解決策として注目を集めている。 本稿では,半教師付き医用画像セグメンテーションの課題に取り組むための新しい手法である,医療用画像セグメンテーション(mlb-seg)をブートストラップするメタラーニングについて述べる。 具体的には、まず、クリーンラベル付き画像の小さなセットでセグメンテーションモデルをトレーニングし、ラベル付きデータの初期ラベルを生成する。 このブートストラッププロセスをさらに最適化するために,初期化ラベルとモデル独自の予測の両方に動的に重みを割り当てる画素単位の重みマッピングシステムを導入する。 これらの重みは、正確な注釈付き画像の小さなセットに基づくクリーンデータに近い損失勾配方向の画素を優先するメタプロセスによって決定される。 メタラーニングプロセスを容易にするために,複数の拡張された入力から予測をセンシングすることにより,モデル自身の予測の品質を向上させる一貫性に基づく擬似ラベル強調(ple)スキームも導入する。 一つの入力を複数追加することで得られる重みマップの品質を向上させるために,平均教師をpleスキームに導入する。 この方法は重量マップのノイズ低減と生成過程の安定化に役立つ。 心房および前立腺のセグメンテーションデータセットに関する広範な実験結果から,提案手法が半スーパービジョンで最先端の結果が得られることを証明した。 私たちのコードはhttps://github.com/aijinrjinr/mlb-segで入手できる。

Medical imaging has witnessed remarkable progress but usually requires a large amount of high-quality annotated data which is time-consuming and costly to obtain. To alleviate this burden, semi-supervised learning has garnered attention as a potential solution. In this paper, we present Meta-Learning for Bootstrapping Medical Image Segmentation (MLB-Seg), a novel method for tackling the challenge of semi-supervised medical image segmentation. Specifically, our approach first involves training a segmentation model on a small set of clean labeled images to generate initial labels for unlabeled data. To further optimize this bootstrapping process, we introduce a per-pixel weight mapping system that dynamically assigns weights to both the initialized labels and the model's own predictions. These weights are determined using a meta-process that prioritizes pixels with loss gradient directions closer to those of clean data, which is based on a small set of precisely annotated images. To facilitate the meta-learning process, we additionally introduce a consistency-based Pseudo Label Enhancement (PLE) scheme that improves the quality of the model's own predictions by ensembling predictions from various augmented versions of the same input. In order to improve the quality of the weight maps obtained through multiple augmentations of a single input, we introduce a mean teacher into the PLE scheme. This method helps to reduce noise in the weight maps and stabilize its generation process. Our extensive experimental results on public atrial and prostate segmentation datasets demonstrate that our proposed method achieves state-of-the-art results under semi-supervision. Our code is available at https://github.com/aijinrjinr/MLB-Seg.
翻訳日:2023-07-24 12:26:41 公開日:2023-07-21
# 血管分割と中心線抽出のためのトポロジ的損失を用いたカスケードマルチタスクU-Net

Cascaded multitask U-Net using topological loss for vessel segmentation and centerline extraction ( http://arxiv.org/abs/2307.11603v1 )

ライセンス: Link先を確認
Pierre Roug\'e, Nicolas Passat, Odyss\'ee Merveille(参考訳) 血管のセグメンテーションと中心線抽出は、血管疾患を扱う多くのコンピュータ支援診断ツールにとって重要な2つの予備課題である。 近年,これらの課題に対してディープラーニングに基づく手法が広く適用されている。 しかし、古典的なディープラーニングアプローチは、ほとんどのアプリケーションで最も重要な、血管ネットワークの複雑な幾何学と特定のトポロジーを捉えるのに苦労している。 これらの制限を克服するため、船舶中心に焦点をあてたトポロジカルな損失であるclDice損失が最近提案されている。 この損失は計算を必要とし、提案されたソフトスケルトンアルゴリズムでは、基底真理と予測セグメンテーションの両方の骨格が必要とされる。 しかし,ソフトスケルトンアルゴリズムは3次元画像に準最適結果を与えるため,clDiceは3次元画像にはほとんど適さない。 本稿では,血管骨格を直接セグメント化から計算するU-Netによるソフトスケルトンアルゴリズムの置き換えを提案する。 本手法はソフトスケルトンアルゴリズムよりも正確な骨格を提供することを示す。 次に、このネットワーク上に、セグメンテーション中にトポロジ的制約を埋め込むためにclDice損失をトレーニングしたカスケードU-Netを構築します。 結果として得られたモデルは、より正確なトポロジーで容器のセグメンテーションと中心線の両方を予測できる。

Vessel segmentation and centerline extraction are two crucial preliminary tasks for many computer-aided diagnosis tools dealing with vascular diseases. Recently, deep-learning based methods have been widely applied to these tasks. However, classic deep-learning approaches struggle to capture the complex geometry and specific topology of vascular networks, which is of the utmost importance in most applications. To overcome these limitations, the clDice loss, a topological loss that focuses on the vessel centerlines, has been recently proposed. This loss requires computing, with a proposed soft-skeleton algorithm, the skeletons of both the ground truth and the predicted segmentation. However, the soft-skeleton algorithm provides suboptimal results on 3D images, which makes the clDice hardly suitable on 3D images. In this paper, we propose to replace the soft-skeleton algorithm by a U-Net which computes the vascular skeleton directly from the segmentation. We show that our method provides more accurate skeletons than the soft-skeleton algorithm. We then build upon this network a cascaded U-Net trained with the clDice loss to embed topological constraints during the segmentation. The resulting model is able to predict both the vessel segmentation and centerlines with a more accurate topology.
翻訳日:2023-07-24 12:26:12 公開日:2023-07-21
# 複合生物社会対策 : 生活システムとしての地域福祉の評価

Mixbiotic society measures: Assessment of community well-going as living system ( http://arxiv.org/abs/2307.11594v1 )

ライセンス: Link先を確認
Takeshi Kato, Jyunichi Miyakoshi, Tadayuki Matsumura, Ryuji Mine, Hiroyuki Mizuno, Yasuo Deguchi(参考訳) 社会的孤立は共同体の貧困(アトミズム)によって引き起こされ、断片化はグループ内(モビズム)の拡大によって引き起こされる。 これらの問題を解決するため、哲学の世界では、自由と多様な価値を持つ個人が混ざり合って、それぞれの「基礎的無能」を認識し、連帯する「混生社会」の概念が提唱されている。 本研究は, 生体現象をシミュレートする細胞オートマトンと粒子反応拡散の分類を参考に, 動的コミュニケーションパターンを評価するための新しい混合生物社会尺度を提案する。 具体的には、4つのクラスに対応する尺度の仮説を定式化し、コミュニケーションの生成と消失をシミュレーションして仮説を検証する。 その結果, コミュニケーションパターンを多次元ベクトルとして考えると, 「モビズム」のユークリッド距離の平均, 「原子主義」の相対的変化の分散, 「混合主義」のコサイン類似度の平均と分散を乗じる複合尺度, 「混合主義」のほぼゼロの尺度が適していることがわかった。 そして,これらの尺度を用いて7つの実社会データセットを評価した結果,混合性尺度はコミュニケーションの生活性を評価するのに有用であり,複数の尺度に基づいてコミュニティをタイプできることを示した。 本研究で確立された尺度は,動的パターンの評価が可能であり,計算が容易であり,その意味を解釈しやすいという従来の分析よりも優れている。 今後の発展としては、デジタル民主主義とプラットフォーム協力主義の分野において、望ましい社会に向けたミックスバイオティクス社会対策が使われる。

Social isolation is caused by the impoverishment of community (atomism) and fragmentation is caused by the enlargement of in-group (mobism), both of which can be viewed as social problems related to communication. To solve these problems, the philosophical world has proposed the concept of "mixbiotic society," in which individuals with freedom and diverse values mix and mingle to recognize their respective "fundamental incapability" each other and sublimate into solidarity. Based on this concept, this study proposes new mixbiotic society measures to evaluate dynamic communication patterns with reference to classification in cellular automata and particle reaction diffusion that simulate living phenomena. Specifically, the hypothesis of measures corresponding to the four classes was formulated, and the hypothesis was validated by simulating the generation and disappearance of communication. As a result, considering communication patterns as multidimensional vectors, it found that the mean of Euclidean distance for "mobism," the variance of the relative change in distance for "atomism," the composite measure that multiplies the mean and variance of cosine similarity for "mixism," which corresponds to the well-going of mixbiotic society, and the almost zero measures for "nihilism," are suitable. Then, evaluating seven real-society datasets using these measures, we showed that the mixism measure is useful for assessing the livingness of communication, and that it is possible to typify communities based on plural measures. The measures established in this study are superior to conventional analysis in that they can evaluate dynamic patterns, they are simple to calculate, and their meanings are easy to interpret. As a future development, the mixbiotic society measures will be used in the fields of digital democracy and platform cooperativism toward a desirable society.
翻訳日:2023-07-24 12:25:51 公開日:2023-07-21
# 周波数変調連続波を用いた量子LiDAR

Quantum LiDAR with Frequency Modulated Continuous Wave ( http://arxiv.org/abs/2307.11590v1 )

ライセンス: Link先を確認
Ming-Da Huang, Zhan-Feng Jiang, Hong-Yi Chen, Ying Zuo, Xiao-Peng Hu, Hai-Dong Yuan, Li-Jian Zhang, Qi Qin(参考訳) 移動物体の範囲と速度は、光検出・測光(LiDAR)と呼ばれるセンシング技術を用いて確認することができる。 近年、光の絡み合った状態を利用する量子LiDARは、LiDARの能力を高めることが示唆されている。 絡み合ったパルス光は、以前の量子LiDARアプローチで、飛行時間とドップラーシフトを用いて、距離と速度の両方を同時に評価するために用いられる。 パルス量子ライダーにとって重要なエンタングルパルス光の発生と検出は、しばしば非効率である。 本稿では、パルスではなく周波数変調連続波(FMCW)で動作する量子LiDARについて検討する。 まず、Mach-Zehnder干渉計の周波数変調光子を用いた量子FMCW LiDARの設計について概説し、それぞれ$\sqrt{n}$と$n$$で、距離と速度の測定の精度と解像度を$n$で向上させることができることを示した。 また, 量子fmcwライダーは, パルス量子ライダーにおいて必要となる量子パルス圧縮を必要とせずに, 距離と速度を同時に測定できることを示した。 絡み合った光子の生成が唯一の非効率な非線形光学プロセスであるため、量子FMCW LiDARは実用的な実装に適している。 さらに、量子FMCW LiDARのほとんどの測定は、光信号をマイクロ波領域にダウンコンバートすることで電子的に行うことができる。

The range and speed of a moving object can be ascertained using the sensing technique known as light detection and ranging (LiDAR). It has recently been suggested that quantum LiDAR, which uses entangled states of light, can enhance the capabilities of LiDAR. Entangled pulsed light is used in prior quantum LiDAR approaches to assess both range and velocity at the same time using the pulses' time of flight and Doppler shift. The entangled pulsed light generation and detection, which are crucial for pulsed quantum LiDAR, are often inefficient. Here, we study a quantum LiDAR that operates on a frequency-modulated continuous wave (FMCW), as opposed to pulses. We first outline the design of the quantum FMCW LiDAR using entangled frequency-modulated photons in a Mach-Zehnder interferometer, and we demonstrate how it can increase accuracy and resolution for range and velocity measurements by $\sqrt{n}$ and $n$, respectively, with $n$ entangled photons. We also demonstrate that quantum FMCW LiDAR may perform simultaneous measurements of the range and velocity without the need for quantum pulsed compression, which is necessary in pulsed quantum LiDAR. Since the generation of entangled photons is the only inefficient nonlinear optical process needed, the quantum FMCW LiDAR is better suited for practical implementations. Additionally, most measurements in the quantum FMCW LiDAR can be carried out electronically by down-converting optical signal to microwave region.
翻訳日:2023-07-24 12:25:18 公開日:2023-07-21
# 定常学習課題における畳み込みニューラルネットワークの伝達可能性

Transferability of Convolutional Neural Networks in Stationary Learning Tasks ( http://arxiv.org/abs/2307.11588v1 )

ライセンス: Link先を確認
Damian Owerko, Charilaos I. Kanatsoulis, Jennifer Bondarchuk, Donald J. Bucci Jr, Alejandro Ribeiro(参考訳) 近年のハードウェアとビッグデータの獲得は,ディープラーニング技術の発展を加速させている。 長期にわたって、モデルの複雑さが増すことで、様々なタスクのパフォーマンスが向上した。 しかし、この傾向は持続不可能になりつつあり、計算的に軽量な方法が求められている。 本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。 そこで本研究では,CNNの信号が定常なタスクに対する特性について検討する。 このような信号の小さなウィンドウ上で訓練されたCNNは、リトレーニングなしで、はるかに大きなウィンドウ上でほぼ性能を発揮することを示す。 この主張は我々の理論解析によって支持され、性能劣化の限界を提供する。 さらに,マルチターゲット・トラッキングとモバイル・インフラストラクチャ・オン・デマンドという2つのタスクについて,徹底的な実験分析を行う。 この結果から、CNNは10人未満の訓練を受けた後、何百ものエージェントによる問題に対処できることがわかった。 したがって、cnnアーキテクチャは、計算に難解なスケールでこれらの問題の解を提供する。

Recent advances in hardware and big data acquisition have accelerated the development of deep learning techniques. For an extended period of time, increasing the model complexity has led to performance improvements for various tasks. However, this trend is becoming unsustainable and there is a need for alternative, computationally lighter methods. In this paper, we introduce a novel framework for efficient training of convolutional neural networks (CNNs) for large-scale spatial problems. To accomplish this we investigate the properties of CNNs for tasks where the underlying signals are stationary. We show that a CNN trained on small windows of such signals achieves a nearly performance on much larger windows without retraining. This claim is supported by our theoretical analysis, which provides a bound on the performance degradation. Additionally, we conduct thorough experimental analysis on two tasks: multi-target tracking and mobile infrastructure on demand. Our results show that the CNN is able to tackle problems with many hundreds of agents after being trained with fewer than ten. Thus, CNN architectures provide solutions to these problems at previously computationally intractable scales.
翻訳日:2023-07-24 12:24:49 公開日:2023-07-21
# 心の変化:音声からテキストへのモダリティ変換による音声感情認識の改善

A Change of Heart: Improving Speech Emotion Recognition through Speech-to-Text Modality Conversion ( http://arxiv.org/abs/2307.11584v1 )

ライセンス: Link先を確認
Zeinab Sadat Taghavi, Ali Satvaty, Hossein Sameti(参考訳) 音声感情認識(SER)は難しい課題である。 本稿では,MELDデータセット上での感情認識性能の向上を目的としたモダリティ変換の概念を提案する。 まず、自動音声認識(ASR)システムとテキスト分類器を併用したModality-Conversion法、次に、完璧なASR出力を仮定し、SERにおけるModality-Conversionの影響を調査し、この手法をModality-Conversion++と呼ぶ。 以上の結果から,第1の手法は有意な結果が得られ,第2の手法はMELDデータセット上でのSER重み付きF1スコア(WF1)の手法よりも優れていた。 本研究は、代替モダリティで実行できるタスクに対するモダリティ変換の可能性を強調する。

Speech Emotion Recognition (SER) is a challenging task. In this paper, we introduce a modality conversion concept aimed at enhancing emotion recognition performance on the MELD dataset. We assess our approach through two experiments: first, a method named Modality-Conversion that employs automatic speech recognition (ASR) systems, followed by a text classifier; second, we assume perfect ASR output and investigate the impact of modality conversion on SER, this method is called Modality-Conversion++. Our findings indicate that the first method yields substantial results, while the second method outperforms state-of-the-art (SOTA) speech-based approaches in terms of SER weighted-F1 (WF1) score on the MELD dataset. This research highlights the potential of modality conversion for tasks that can be conducted in alternative modalities.
翻訳日:2023-07-24 12:24:35 公開日:2023-07-21
# CortexMorph:VoxelMorphを用いた高速皮質厚推定法

CortexMorph: fast cortical thickness estimation via diffeomorphic registration using VoxelMorph ( http://arxiv.org/abs/2307.11567v1 )

ライセンス: Link先を確認
Richard McKinley, Christian Rummel(参考訳) 皮質帯の厚みは様々な神経学的、精神医学的条件と結びついており、MRI研究においてフリーサーファーのような表面ベースの方法によって推定されることが多い。 表面面への灰色の物質界面の微分変形を用いて皮質の厚さを計算するDiReCT法は、表面ベースの方法に代わる方法である。 合成大脳皮質厚ファントムを用いた最近の研究により、DiReCTと深層学習に基づくセグメンテーションの組み合わせは、Freesurferよりも下位大脳皮質の薄化に敏感であることが示されている。 t1重み付き画像の解剖学的セグメンテーションには現在数秒かかるが、既存の実装では1ボリュームあたり最大1時間かかる反復的な画像登録方法に依存している。 一方、VoxelMorphのような学習に基づく変形可能な画像登録法は、従来の方法よりも高速であり、登録精度は向上している。 本稿では,無教師深層学習を用いて直接変形場を直接後退させる新しい手法であるcortexmorphを提案する。 CortexMorphとディープラーニングに基づくセグメンテーションモデルを組み合わせることで、皮質萎縮を検出する能力を維持しつつ、T1強調画像から秒単位の領域幅の厚さを推定できる。 我々はこの主張を,OASIS-3データセットとRusak等の合成皮質厚ファントム上で検証した。

The thickness of the cortical band is linked to various neurological and psychiatric conditions, and is often estimated through surface-based methods such as Freesurfer in MRI studies. The DiReCT method, which calculates cortical thickness using a diffeomorphic deformation of the gray-white matter interface towards the pial surface, offers an alternative to surface-based methods. Recent studies using a synthetic cortical thickness phantom have demonstrated that the combination of DiReCT and deep-learning-based segmentation is more sensitive to subvoxel cortical thinning than Freesurfer. While anatomical segmentation of a T1-weighted image now takes seconds, existing implementations of DiReCT rely on iterative image registration methods which can take up to an hour per volume. On the other hand, learning-based deformable image registration methods like VoxelMorph have been shown to be faster than classical methods while improving registration accuracy. This paper proposes CortexMorph, a new method that employs unsupervised deep learning to directly regress the deformation field needed for DiReCT. By combining CortexMorph with a deep-learning-based segmentation model, it is possible to estimate region-wise thickness in seconds from a T1-weighted image, while maintaining the ability to detect cortical atrophy. We validate this claim on the OASIS-3 dataset and the synthetic cortical thickness phantom of Rusak et al.
翻訳日:2023-07-24 12:24:21 公開日:2023-07-21
# FMT:ディープニューラルネットワークにおける特徴マップテストによるバックドアフィーチャーマップの除去

FMT: Removing Backdoor Feature Maps via Feature Map Testing in Deep Neural Networks ( http://arxiv.org/abs/2307.11565v1 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu, Yahao Qing, Yichao Fu, Heming Cui(参考訳) 深層ニューラルネットワークは、自動運転車や医療診断など、多くの重要な用途で広く使われている。 しかし、それらのセキュリティは、特定のトレーニングデータに人工パターンを追加することで達成されるバックドア攻撃によって脅かされている。 既存の防衛戦略は、主にリバースエンジニアリングを使用して攻撃者が生成したバックドアトリガを再現し、その後、インプットにトリガーを追加してモデルをグランドトラストラベルで微調整することでDNNモデルを修復する。 しかし、攻撃者が生成したトリガーが複雑で目に見えなくなると、ディフェンダーはトリガーをうまく再現できない。 従って、トリガが効果的に削除されないため、DNNモデルは修復されない。 本研究では,FMT(Feature Map Testing)を提案する。 バックドアトリガーを再現する既存の防衛戦略とは異なり、FMTはバックドアの特徴マップを検出し、入力からバックドア情報を抽出する訓練を行っている。 これらのバックドアの特徴マップを検出した後、FMTはそれらを消去し、トレーニングデータの安全なサブセットでモデルを微調整する。 我々の実験は、既存の防衛戦略と比較して、FMTは最も複雑で目に見えない攻撃トリガーに対しても、攻撃成功率(ASR)を効果的に低減できることを示した。 第2に、ロバスト精度の低い従来の防御方法(すなわち、毒性データに対するモデルの精度)とは異なり、FMTは高いRAを達成するとともに、バックドア攻撃の影響を緩和しつつ、モデル性能を維持する上で優位性を示す(例えば、CIFAR10では87.40\%のRAを得る)。 第3に、既存のフィーチャーマッププルーニング技術と比較して、FMTはより多くのバックドアフィーチャーマップをカバーできる(例えば、FMTはCIFAR10 \& BadNetシナリオでモデルから83.33\%のバックドアフィーチャーマップを除去する)。

Deep neural networks have been widely used in many critical applications, such as autonomous vehicles and medical diagnosis. However, their security is threatened by backdoor attack, which is achieved by adding artificial patterns to specific training data. Existing defense strategies primarily focus on using reverse engineering to reproduce the backdoor trigger generated by attackers and subsequently repair the DNN model by adding the trigger into inputs and fine-tuning the model with ground-truth labels. However, once the trigger generated by the attackers is complex and invisible, the defender can not successfully reproduce the trigger. Consequently, the DNN model will not be repaired since the trigger is not effectively removed. In this work, we propose Feature Map Testing~(FMT). Different from existing defense strategies, which focus on reproducing backdoor triggers, FMT tries to detect the backdoor feature maps, which are trained to extract backdoor information from the inputs. After detecting these backdoor feature maps, FMT will erase them and then fine-tune the model with a secure subset of training data. Our experiments demonstrate that, compared to existing defense strategies, FMT can effectively reduce the Attack Success Rate (ASR) even against the most complex and invisible attack triggers. Second, unlike conventional defense methods that tend to exhibit low Robust Accuracy (i.e., the model's accuracy on the poisoned data), FMT achieves higher RA, indicating its superiority in maintaining model performance while mitigating the effects of backdoor attacks~(e.g., FMT obtains 87.40\% RA in CIFAR10). Third, compared to existing feature map pruning techniques, FMT can cover more backdoor feature maps~(e.g., FMT removes 83.33\% of backdoor feature maps from the model in the CIFAR10 \& BadNet scenario).
翻訳日:2023-07-24 12:23:58 公開日:2023-07-21
# ディープニューラルネットワークのための特徴マップテスト

Feature Map Testing for Deep Neural Networks ( http://arxiv.org/abs/2307.11563v1 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu, Yahao Qing, Yichao Fu, Heming Cui(参考訳) 安全クリティカルなタスクにおけるディープニューラルネットワーク(dnn)の広範な適用により、ディープラーニングテストが注目を集めている。 テストプロセス中、テストメトリクスを使用してファジットまたは選択されたテストケースをモデルに入力し、フォールトインジェクションテストユニット(例えば、ニューロンや特徴マップ、ほぼ確実にモデルエラーとなるような活性化)を見つけ、それらをDNN開発者に報告し、その後修正する(例えば、テストケースでモデルを再訓練する)。 しかし、現在のテストメトリクスは、主にニューロンに関係しており、ガイドファジィングまたはこれらのメトリクスの選択によって検出されるテストケースは、障害誘発機能マップの検出に失敗しながら、障害誘発ニューロンの検出に焦点を当てている。 本稿では,機能マップレベルからDNNをテストするDeepFeatureを提案する。 テストが実行されると、deepfeatureはモデル内のすべての内部機能マップを調査し、モデル全体のパフォーマンスを向上させるために修復によって拡張可能な脆弱性を特定する。 1)deepfeatureはモデルの脆弱な特徴マップを検出するための強力なツールであり, (2) deepfeatureのテストケース選択は障害検出率が高く,より多くの種類の障害を検出することができる(deepfeatureをカバレッジガイド選択技術と比較すると,障害検出率は49.32\%向上する)。 (3)DeepFeatureのファザは、現在のファザリング技術より優れ、より効率的なテストケースを生成する。

Due to the widespread application of deep neural networks~(DNNs) in safety-critical tasks, deep learning testing has drawn increasing attention. During the testing process, test cases that have been fuzzed or selected using test metrics are fed into the model to find fault-inducing test units (e.g., neurons and feature maps, activating which will almost certainly result in a model error) and report them to the DNN developer, who subsequently repair them~(e.g., retraining the model with test cases). Current test metrics, however, are primarily concerned with the neurons, which means that test cases that are discovered either by guided fuzzing or selection with these metrics focus on detecting fault-inducing neurons while failing to detect fault-inducing feature maps. In this work, we propose DeepFeature, which tests DNNs from the feature map level. When testing is conducted, DeepFeature will scrutinize every internal feature map in the model and identify vulnerabilities that can be enhanced through repairing to increase the model's overall performance. Exhaustive experiments are conducted to demonstrate that (1) DeepFeature is a strong tool for detecting the model's vulnerable feature maps; (2) DeepFeature's test case selection has a high fault detection rate and can detect more types of faults~(comparing DeepFeature to coverage-guided selection techniques, the fault detection rate is increased by 49.32\%). (3) DeepFeature's fuzzer also outperforms current fuzzing techniques and generates valuable test cases more efficiently.
翻訳日:2023-07-24 12:23:21 公開日:2023-07-21
# シーン知識による視覚的接地の改善:ベンチマークと方法

Advancing Visual Grounding with Scene Knowledge: Benchmark and Method ( http://arxiv.org/abs/2307.11558v1 )

ライセンス: Link先を確認
Zhihong Chen, Ruifei Zhang, Yibing Song, Xiang Wan, Guanbin Li(参考訳) ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。 理想的には、視覚言語モデルにとって、画像とテキストの理解とその共同空間における推論能力を評価するためのテストベッドである。 しかし、既存のVGデータセットの多くは単純な記述テキストを使用して構築されており、画像やテキストに対する十分な推論を必要としない。 LSTMベースの単純なテキストエンコーダを事前学習せずに、主流のVGデータセット上で最先端のパフォーマンスを達成できる。 そこで,本稿では,画像の内容や参照表現が対象オブジェクトを接地するのに十分でないような,k-vg(ununderline{s}cene \underline{k}nowledge-guided \underline{v}isual \underline{g}rounding)の新たなベンチマークを提案する。 提案手法では,画像とクエリの相互作用の前に知識を画像特徴量に組み込む手法と,画像とテキストのマッチングの計算に言語構造を活用する手法を提案する。 以上の方法を分析するために広範な実験を行い,提案手法が有望な結果が得られるが,性能や解釈可能性など改善の余地は残されていることを示す。 データセットとコードは \url{https://github.com/zhjohnchan/sk-vg} で入手できる。

Visual grounding (VG) aims to establish fine-grained alignment between vision and language. Ideally, it can be a testbed for vision-and-language models to evaluate their understanding of the images and texts and their reasoning abilities over their joint space. However, most existing VG datasets are constructed using simple description texts, which do not require sufficient reasoning over the images and texts. This has been demonstrated in a recent study~\cite{luo2022goes}, where a simple LSTM-based text encoder without pretraining can achieve state-of-the-art performance on mainstream VG datasets. Therefore, in this paper, we propose a novel benchmark of \underline{S}cene \underline{K}nowledge-guided \underline{V}isual \underline{G}rounding (SK-VG), where the image content and referring expressions are not sufficient to ground the target objects, forcing the models to have a reasoning ability on the long-form scene knowledge. To perform this task, we propose two approaches to accept the triple-type input, where the former embeds knowledge into the image features before the image-query interaction; the latter leverages linguistic structure to assist in computing the image-text matching. We conduct extensive experiments to analyze the above methods and show that the proposed approaches achieve promising results but still leave room for improvement, including performance and interpretability. The dataset and code are available at \url{https://github.com/zhjohnchan/SK-VG}.
翻訳日:2023-07-24 12:22:53 公開日:2023-07-21
# 二部分極問題の複雑さについて:中性から高分極的考察

On the Complexity of the Bipartite Polarization Problem: from Neutral to Highly Polarized Discussions ( http://arxiv.org/abs/2307.11621v1 )

ライセンス: Link先を確認
Teresa Alsinet, Josep Argelich, Ram\'on B\'ejar and Santi Mart\'inez(参考訳) バイパルタイト分極問題 (Bipartite Polarization Problem) は、あるソーシャルネットワークを通じて開発された議論を表す重み付きラベル付きグラフ上で、ノードがユーザの意見や意見の一致やユーザ間の意見の相違を表す、最も高い分極分極を求める最適化問題である。 この問題はマックスカット問題の一般化と見なすことができ、過去の研究ではRedditの議論から得られた実例に対して、近似解と正確な解が得られており、そのような実例は非常に容易に解決できることが示されている。 本稿では,単一パラメータがインスタンスの分極を制御するインスタンス生成モデルを導入することにより,この問題の複雑さをさらに解明する。 私たちが得られる平均的な複雑性結果は、我々の仮説と一致している: インスタンスの偏極性が高いほど、対応する偏極二分割を見つけるのがより簡単である。

The Bipartite Polarization Problem is an optimization problem where the goal is to find the highest polarized bipartition on a weighted and labelled graph that represents a debate developed through some social network, where nodes represent user's opinions and edges agreement or disagreement between users. This problem can be seen as a generalization of the maxcut problem, and in previous work approximate solutions and exact solutions have been obtained for real instances obtained from Reddit discussions, showing that such real instances seem to be very easy to solve. In this paper, we investigate further the complexity of this problem, by introducing an instance generation model where a single parameter controls the polarization of the instances in such a way that this correlates with the average complexity to solve those instances. The average complexity results we obtain are consistent with our hypothesis: the higher the polarization of the instance, the easier is to find the corresponding polarized bipartition.
翻訳日:2023-07-24 12:15:35 公開日:2023-07-21
# 暗黙的グローバル-ローカル値正規化によるオフラインマルチエージェント強化学習

Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local Value Regularization ( http://arxiv.org/abs/2307.11620v1 )

ライセンス: Link先を確認
Xiangsen Wang, Haoran Xu, Yinan Zheng, Xianyuan Zhan(参考訳) 近年,オフライン強化学習 (RL) は, 環境相互作用のないオフラインデータセットから学習ポリシーを学習する魅力的な機能として注目されている。 シングルエージェント設定の成功にもかかわらず、オフラインマルチエージェントrl(marl)は依然として課題である。 大きな結合状態-作用空間と結合したマルチエージェントの挙動は、オフラインポリシーの最適化に余分な複雑さをもたらす。 既存のオフラインMARL研究の多くは、グローバルレベルでマルチエージェントシステムを完全に考慮することなく、個々のエージェントにオフラインデータ関連正規化を適用する。 本研究では,暗黙のグローバル-ローカル-ローカル v alue 正規化を備えた新しいオフライン m ulti-agent RL アルゴリズム OMIGA を提案する。 OMIGAは、グローバルレベルの値正規化を等価な暗黙的局所値正規化に変換するための原則的なフレームワークを提供し、同時にサンプル内学習を可能にする。 オフラインマルチエージェントの MuJoCo と StarCraft II のマイクロマネジメントタスクに関する総合的な実験から,OMIGA は最先端のオフライン MARL 手法よりもほぼ全てのタスクにおいて優れた性能を発揮することを示す。

Offline reinforcement learning (RL) has received considerable attention in recent years due to its attractive capability of learning policies from offline datasets without environmental interactions. Despite some success in the single-agent setting, offline multi-agent RL (MARL) remains to be a challenge. The large joint state-action space and the coupled multi-agent behaviors pose extra complexities for offline policy optimization. Most existing offline MARL studies simply apply offline data-related regularizations on individual agents, without fully considering the multi-agent system at the global level. In this work, we present OMIGA, a new offline m ulti-agent RL algorithm with implicit global-to-local v alue regularization. OMIGA provides a principled framework to convert global-level value regularization into equivalent implicit local value regularizations and simultaneously enables in-sample learning, thus elegantly bridging multi-agent value decomposition and policy learning with offline regularizations. Based on comprehensive experiments on the offline multi-agent MuJoCo and StarCraft II micro-management tasks, we show that OMIGA achieves superior performance over the state-of-the-art offline MARL methods in almost all tasks.
翻訳日:2023-07-24 12:14:48 公開日:2023-07-21
# 可換作用素フレームワークにおけるSchmidtランク

The Schmidt rank for the commuting operator framework ( http://arxiv.org/abs/2307.11619v1 )

ライセンス: Link先を確認
Lauritz van Luijk, Ren\'e Schwonnek, Alexander Stottmeister, and Reinhard F. Werner(参考訳) 量子情報理論において、シュミット階数は純粋な二部状態の絡み合いの次元の基本的な尺度である。 その自然な定義は、局所系の可観測代数が一般の C*-代数となることを許すならば、バイパルタイトヒルベルト空間上のベクトルのシュミット分解(英語版)(Schmidt decomposition of vectors on bipartite Hilbert space)を用いる。 本研究では、シュミットのランクを、結合系が必ずしも極小テンソル積によって記述されるのではなく、一般二成分代数によって記述される可換作用素フレームワークに一般化する。 シュミット階の代数的および操作的定義を与え、それらの同値を示す。 量子場理論における真空、アラキ・ウッドズ・パワーズ状態、およびスピン鎖上の基底状態と変換不変状態など、左右の半鎖の2成分系と見なされるいくつかの例で、二成分状態を分析し、シュミットランクを計算する。 我々は、通勤オペレーターフレームワークのオープンな問題のリストで結論付けている。

In quantum information theory, the Schmidt rank is a fundamental measure for the entanglement dimension of a pure bipartite state. Its natural definition uses the Schmidt decomposition of vectors on bipartite Hilbert spaces, which does not exist (or at least is not canonically given) if the observable algebras of the local systems are allowed to be general C*-algebras. In this work, we generalize the Schmidt rank to the commuting operator framework where the joint system is not necessarily described by the minimal tensor product but by a general bipartite algebra. We give algebraic and operational definitions for the Schmidt rank and show their equivalence. We analyze bipartite states and compute the Schmidt rank in several examples: The vacuum in quantum field theory, Araki-Woods-Powers states, as well as ground states and translation invariant states on spin chains which are viewed as bipartite systems for the left and right half chains. We conclude with a list of open problems for the commuting operator framework.
翻訳日:2023-07-24 12:14:27 公開日:2023-07-21
# DivideとAdapt: カスタマイズ学習によるアクティブドメイン適応

Divide and Adapt: Active Domain Adaptation via Customized Learning ( http://arxiv.org/abs/2307.11618v1 )

ライセンス: Link先を確認
Duojun Huang, Jichang Li, Weikai Chen, Junshi Huang, Zhenhua Chai, Guanbin Li(参考訳) アクティブドメイン適応(ada)は、ターゲットサンプルの最大インフォーマルなサブセットをラベル付けするアクティブラーニング(al)技術を組み込むことで、モデル適応性能を向上させることを目的としている。 従来のal法はドメインシフトの存在を考慮せず、したがってドメイン適応の文脈において真に価値のあるサンプルを識別できない。 アクティブな学習とドメイン適応を実現するために、この2つの自然に異なるタスクを協調するフレームワークにおいて、ターゲットデータに対するカスタマイズされた学習戦略がADAソリューションの成功の鍵であると主張する。 対象インスタンスを成層化可能な4つのカテゴリに分割する新しいADAフレームワークであるDiaNA(Divide-and-Adapt)を提案する。 不確実性とドメイン性に基づく新しいデータサブディビジョンプロトコルにより、dianaは最も有益なサンプルを正確に認識できる。 アノテーションのための情報インスタンスを送信する一方で、dianaは残りのカテゴリにカスタマイズされた学習戦略を採用している。 さらに,データ分割基準を統一した情報度スコアを提案する。 これにより、ガウス混合モデル(gmm)を使用して、ラベルのないデータを提案4つのカテゴリに自動的にサンプリングすることができる。 の精神のおかげで、DiaNAはドメインギャップの大きなバリエーションでデータを処理できる。 さらに、DiaNAは、教師なしドメイン適応(UDA)、半教師なしドメイン適応(SSDA)、ソースフリードメイン適応(SFDA)など、異なるドメイン適応設定に一般化可能であることを示す。

Active domain adaptation (ADA) aims to improve the model adaptation performance by incorporating active learning (AL) techniques to label a maximally-informative subset of target samples. Conventional AL methods do not consider the existence of domain shift, and hence, fail to identify the truly valuable samples in the context of domain adaptation. To accommodate active learning and domain adaption, the two naturally different tasks, in a collaborative framework, we advocate that a customized learning strategy for the target data is the key to the success of ADA solutions. We present Divide-and-Adapt (DiaNA), a new ADA framework that partitions the target instances into four categories with stratified transferable properties. With a novel data subdivision protocol based on uncertainty and domainness, DiaNA can accurately recognize the most gainful samples. While sending the informative instances for annotation, DiaNA employs tailored learning strategies for the remaining categories. Furthermore, we propose an informativeness score that unifies the data partitioning criteria. This enables the use of a Gaussian mixture model (GMM) to automatically sample unlabeled data into the proposed four categories. Thanks to the "divideand-adapt" spirit, DiaNA can handle data with large variations of domain gap. In addition, we show that DiaNA can generalize to different domain adaptation settings, such as unsupervised domain adaptation (UDA), semi-supervised domain adaptation (SSDA), source-free domain adaptation (SFDA), etc.
翻訳日:2023-07-24 12:14:09 公開日:2023-07-21
# 一般アーキテクチャ上の分散トレーニングのためのロバスト完全同期法

Robust Fully-Asynchronous Methods for Distributed Training over General Architecture ( http://arxiv.org/abs/2307.11617v1 )

ライセンス: Link先を確認
Zehan Zhu, Ye Tian, Yan Huang, Jinming Xu, Shibo He(参考訳) 分散機械学習問題における完全な同期は、レイテンシ、パッケージロス、ストラグラーの存在により、非効率であり、さらには不可能である。 そこで本研究では,各デバイスが局所的な計算と通信を自速で行うロバストな完全同期型確率的勾配追従法(r-fast)を提案する。 既存の非同期分散アルゴリズムとは異なり、R-FASTはデバイス間のデータ不均一性の影響を排除し、全体的な勾配ベクトルの追跡とバッファリングのために適切に設計された補助変数に依存する堅牢な勾配追跡戦略を採用することにより、パケットロスを可能にする。 さらに,本提案手法は,少なくとも1つの共通根を共有できる限り,2つのスパンニングツリーグラフを用いて通信アーキテクチャの柔軟な設計を可能にする。 本研究では,R-FASTは,滑らかかつ強凸な目的に対して幾何速度で最適近傍に収束し,一般の非凸設定に対して線形速度で静止点に収束することを示す。 Ring-AllReduceやD-PSGDのような同期ベンチマークアルゴリズムよりも1.5~2倍高速で動作し、精度は高いが、AD-PSGDやOSGPのような既存の非同期SOTAアルゴリズムよりも優れている。

Perfect synchronization in distributed machine learning problems is inefficient and even impossible due to the existence of latency, package losses and stragglers. We propose a Robust Fully-Asynchronous Stochastic Gradient Tracking method (R-FAST), where each device performs local computation and communication at its own pace without any form of synchronization. Different from existing asynchronous distributed algorithms, R-FAST can eliminate the impact of data heterogeneity across devices and allow for packet losses by employing a robust gradient tracking strategy that relies on properly designed auxiliary variables for tracking and buffering the overall gradient vector. More importantly, the proposed method utilizes two spanning-tree graphs for communication so long as both share at least one common root, enabling flexible designs in communication architectures. We show that R-FAST converges in expectation to a neighborhood of the optimum with a geometric rate for smooth and strongly convex objectives; and to a stationary point with a sublinear rate for general non-convex settings. Extensive experiments demonstrate that R-FAST runs 1.5-2 times faster than synchronous benchmark algorithms, such as Ring-AllReduce and D-PSGD, while still achieving comparable accuracy, and outperforms existing asynchronous SOTA algorithms, such as AD-PSGD and OSGP, especially in the presence of stragglers.
翻訳日:2023-07-24 12:13:43 公開日:2023-07-21
# CausE: 因果知識グラフの埋め込みを目指して

CausE: Towards Causal Knowledge Graph Embedding ( http://arxiv.org/abs/2307.11610v1 )

ライセンス: Link先を確認
Yichi Zhang, Wen Zhang(参考訳) 知識グラフ埋め込み(KGE)は、知識グラフの実体と関係を連続ベクトル空間に表現することに焦点を当て、知識グラフ完備化(KGC)を達成するために欠落した三重項を予測するために使用できる。 しかし、KGEモデルはトリプルデータの構造的相関しか学習せず、埋め込みは実世界のKGにおける自明なパターンやノイズの多いリンクによって誤解される。 この問題に対処するため、我々はKGEの新しいパラダイムを因果関係とエンタングルメントの埋め込みという文脈で構築する。 さらに,CausE(Causality Enhanced Knowledge Graph Embedding)フレームワークを提案する。 CausEは、共同創設者の埋め込みの因果効果を推定するために因果介入を採用し、安定した予測を行うために新しい訓練目標を設計する。 実験結果から,CausEはベースラインモデルより優れ,最先端のKGC性能が得られることが示された。 コードをhttps://github.com/zjukg/CausEでリリースします。

Knowledge graph embedding (KGE) focuses on representing the entities and relations of a knowledge graph (KG) into the continuous vector spaces, which can be employed to predict the missing triples to achieve knowledge graph completion (KGC). However, KGE models often only briefly learn structural correlations of triple data and embeddings would be misled by the trivial patterns and noisy links in real-world KGs. To address this issue, we build the new paradigm of KGE in the context of causality and embedding disentanglement. We further propose a Causality-enhanced knowledge graph Embedding (CausE) framework. CausE employs causal intervention to estimate the causal effect of the confounder embeddings and design new training objectives to make stable predictions. Experimental results demonstrate that CausE could outperform the baseline models and achieve state-of-the-art KGC performance. We release our code in https://github.com/zjukg/CausE.
翻訳日:2023-07-24 12:13:18 公開日:2023-07-21
# 量子スピン鎖の最適制御による永続的弾道絡み広がり

Persistent Ballistic Entanglement Spreading with Optimal Control in Quantum Spin Chains ( http://arxiv.org/abs/2307.11609v1 )

ライセンス: Link先を確認
Ying Lu, Pei Shi, Xiao-Han Wang, Jie Hu, and Shi-Ju Ran(参考訳) 絡み合い伝播は、平衡内外における量子多体力学を理解するための鍵となるルーチンを提供する。 本研究では,変数エンハンシング'場(VEEF)が量子スピン鎖におけるエンハンシングの持続的拡散を強く誘導することを明らかにする。 VEEFは時間依存であり、最終状態の2部エンタングルメントエントロピー(EE)を最大化するために最適に制御される。 このような線形成長は、EEが真の飽和点に達するまで持続する: $\tilde{S} = - \log_{2} 2^{-\frac{N}{2}}=\frac{N}{2}$,$N$ スピンの総数。 EE は $S(t) = v t$ を $t \leq \frac{N}{2v}$ とし、速度は $v$ とする。 これらの結果はveefのない振る舞いとは対照的で、一般にeeはページ値 $\tilde{s}_{p} =\tilde{s} - \frac{1}{2\ln{2}}$ として知られるサブ飽和に長い時間制限で接近し、エンタングルメント成長はページ値に達する前に線形であることから逸脱する。 速度と相互作用の依存性は、それぞれiing、xy、heisenberg相互作用を持つスピンチェーンに対して$v \simeq 2.76$、$4.98$、$5.75$である。 さらに,eeの非線形成長は長距離相互作用の存在によって現れることを示した。

Entanglement propagation provides a key routine to understand quantum many-body dynamics in and out of equilibrium. In this work, we uncover that the ``variational entanglement-enhancing'' field (VEEF) robustly induces a persistent ballistic spreading of entanglement in quantum spin chains. The VEEF is time dependent, and is optimally controlled to maximize the bipartite entanglement entropy (EE) of the final state. Such a linear growth persists till the EE reaches the genuine saturation $\tilde{S} = - \log_{2} 2^{-\frac{N}{2}}=\frac{N}{2}$ with $N$ the total number of spins. The EE satisfies $S(t) = v t$ for the time $t \leq \frac{N}{2v}$, with $v$ the velocity. These results are in sharp contrast with the behaviors without VEEF, where the EE generally approaches a sub-saturation known as the Page value $\tilde{S}_{P} =\tilde{S} - \frac{1}{2\ln{2}}$ in the long-time limit, and the entanglement growth deviates from being linear before the Page value is reached. The dependence between the velocity and interactions is explored, with $v \simeq 2.76$, $4.98$, and $5.75$ for the spin chains with Ising, XY, and Heisenberg interactions, respectively. We further show that the nonlinear growth of EE emerges with the presence of long-range interactions.
翻訳日:2023-07-24 12:13:02 公開日:2023-07-21
# 変分オートエンコーダを用いた確率過程の最小表現の学習

Learning minimal representations of stochastic processes with variational autoencoders ( http://arxiv.org/abs/2307.11608v1 )

ライセンス: Link先を確認
Gabriel Fern\'andez-Fern\'andez, Carlo Manzo, Maciej Lewenstein, Alexandre Dauphin, Gorka Mu\~noz-Gil(参考訳) 確率過程は、様々な自然現象をモデル化するために広く用いられるので、科学において多くの応用を見出している。 しかし、本質的なランダム性と不確実性のため、特徴付けは困難である。 本稿では,確率過程のダイナミクスを効果的に記述するために必要なパラメータの最小セットを決定するために,教師なし機械学習手法を提案する。 我々の手法は拡張された$\beta$-variational autoencoderアーキテクチャに基づいている。 パラダイム拡散モデルに対応するシミュレーションデータセットを用いて、これらのダイナミクスを正確に記述する最小限のパラメータを抽出する効果を示す。 さらに、期待された確率挙動を忠実に再現する新たな軌跡を生成することができる。 全体としては,確率過程を記述する未知のパラメータを自律的に発見することで,様々な分野にまたがる複雑な現象の理解を深める。

Stochastic processes have found numerous applications in science, as they are broadly used to model a variety of natural phenomena. Due to their intrinsic randomness and uncertainty, they are however difficult to characterize. Here, we introduce an unsupervised machine learning approach to determine the minimal set of parameters required to effectively describe the dynamics of a stochastic process. Our method builds upon an extended $\beta$-variational autoencoder architecture. By means of simulated datasets corresponding to paradigmatic diffusion models, we showcase its effectiveness in extracting the minimal relevant parameters that accurately describe these dynamics. Furthermore, the method enables the generation of new trajectories that faithfully replicate the expected stochastic behavior. Overall, our approach enables for the autonomous discovery of unknown parameters describing stochastic processes, hence enhancing our comprehension of complex phenomena across various fields.
翻訳日:2023-07-24 12:12:31 公開日:2023-07-21
# 代替特徴選択による最適横特徴集合の探索

Finding Optimal Diverse Feature Sets with Alternative Feature Selection ( http://arxiv.org/abs/2307.11607v1 )

ライセンス: Link先を確認
Jakob Bach(参考訳) 特徴選択は小さく、解釈可能で、高精度な予測モデルを得るために人気がある。 従来の機能選択手法は、1つの機能セットのみを生成するが、いくつかのシナリオでは十分ではない。 例えば、ユーザーは同様の予測品質を持つ代替機能セットを見つけ、データの異なる説明を提供することに興味があるかもしれない。 本稿では,代替機能の選択を導入し,最適化問題として定式化する。 特に,制約によって代替品を定義し,利用者が代替品の数や相違を制御できるようにする。 次に,この最適化問題の複雑性を分析し,np硬度を示す。 さらに,従来の特徴選択手法を目的として統合する方法についても論じる。 最後に,30個の分類データセットを用いた代替特徴選択の評価を行った。 代替特徴集合が実際に高い予測品質を持つ可能性があることを観察し、この結果に影響を及ぼすいくつかの要因を分析する。

Feature selection is popular for obtaining small, interpretable, yet highly accurate prediction models. Conventional feature-selection methods typically yield one feature set only, which might not suffice in some scenarios. For example, users might be interested in finding alternative feature sets with similar prediction quality, offering different explanations of the data. In this article, we introduce alternative feature selection and formalize it as an optimization problem. In particular, we define alternatives via constraints and enable users to control the number and dissimilarity of alternatives. Next, we analyze the complexity of this optimization problem and show NP-hardness. Further, we discuss how to integrate conventional feature-selection methods as objectives. Finally, we evaluate alternative feature selection with 30 classification datasets. We observe that alternative feature sets may indeed have high prediction quality, and we analyze several factors influencing this outcome.
翻訳日:2023-07-24 12:12:19 公開日:2023-07-21
# 量子都市をつなぐ:衛星ベースの量子ネットワークのシミュレーション

Connecting Quantum Cities: Simulation of a Satellite-Based Quantum Network ( http://arxiv.org/abs/2307.11606v1 )

ライセンス: Link先を確認
Raja Yehia, Matteo Schiavon, Valentina Marulanda Acosta, Tim Coopmans, Iordanis Kerenidis, David Elkouss and Eleni Diamanti(参考訳) 我々は,エンドユーザーに最小限のハードウェア要件を課すメトロポリタン量子ネットワークである量子都市を,サテライトリンクを用いて接続する欧州規模の量子ネットワークのアーキテクチャを提示,解析する。 離散イベントに基づく量子ネットワークシミュレーションツールであるNetSquidを用いて、現在利用可能または短期技術における現実的なパラメータを考慮して、ヨーロッパにおける遠隔地をリンクするネットワークの性能を評価し、ベンチマークする。 本研究は,現在の衛星量子通信リンクの重要なパラメータと限界を明らかにし,今後のミッションの設計を支援する。 また、衛星の代替として高高度気球を用いる可能性についても論じる。

We present and analyse an architecture for a European-scale quantum network using satellite links to connect Quantum Cities, which are metropolitan quantum networks with minimal hardware requirements for the end users. Using NetSquid, a quantum network simulation tool based on discrete events, we assess and benchmark the performance of such a network linking distant locations in Europe in terms of quantum key distribution rates, considering realistic parameters for currently available or near-term technology. Our results highlight the key parameters and the limits of current satellite quantum communication links and can be used to assist the design of future missions. We also discuss the possibility of using high-altitude balloons as an alternative to satellites.
翻訳日:2023-07-24 12:12:00 公開日:2023-07-21
# 決定論的に進化する状態を持つバンディット

Bandits with Deterministically Evolving States ( http://arxiv.org/abs/2307.11655v1 )

ライセンス: Link先を確認
Khashayar Khosravi, Renato Paes Leme, Chara Podimata, and Apostolis Tsorvantzis(参考訳) そこで本稿では,Bandits with Deterministically Evolving Statesと呼ぶ,決定論的に進化し,観測不能な状態を考慮しながら,帯域フィードバックによる学習モデルを提案する。 私たちのモデルのワークホースアプリケーションは、レコメンデーションシステムのための学習とオンライン広告のための学習です。 どちらの場合も、アルゴリズムが各ラウンドで得られる報酬は、選択されたアクションの短期的な報酬の関数であり、システムがどのように「健康」である(すなわち、その状態によって測定される)。 例えば、レコメンデーションシステムでは、プラットフォームが特定のタイプのコンテンツに対するユーザのエンゲージメントから得られる報酬は、特定のコンテンツの固有の特徴だけでなく、プラットフォーム上の他のタイプのコンテンツとのインタラクションの結果、ユーザの好みがどのように進化したかにも依存する。 我々の一般的なモデルは、状態が進化する異なるレートの$\lambda \in [0,1]$(例えば、以前のコンテンツ消費の結果、ユーザの嗜好がどれだけ速く変化するか)を考慮し、特殊なケースとして標準のマルチアームバンディットを包含する。 このアルゴリズムの目標は、最も固定されたアームのシーケンスに対する後悔の概念を最小化することである。 進化率$\lambda$のパラメータ化が可能なオンライン学習アルゴリズムを解析する。 具体的には、$\lambda \in [0, 1/t^2]$:$\widetilde o(\sqrt{kt})$;$\lambda = t^{-a/b}$ with $b < a < 2b$: $\widetilde o (t^{b/a})$;$\lambda \in (1/t, 1 - 1/\sqrt{t}): \widetilde o (k^{1/3}t^{2/3})$;$\lambda \in [1 - 1/\sqrt{t}, 1]: \widetilde o (k\sqrt{t})$;$;$\lambda \in [1 - 1/\sqrt{t}, 1]: \widetilde o (k\sqrt{t})$;$である。

We propose a model for learning with bandit feedback while accounting for deterministically evolving and unobservable states that we call Bandits with Deterministically Evolving States. The workhorse applications of our model are learning for recommendation systems and learning for online ads. In both cases, the reward that the algorithm obtains at each round is a function of the short-term reward of the action chosen and how ``healthy'' the system is (i.e., as measured by its state). For example, in recommendation systems, the reward that the platform obtains from a user's engagement with a particular type of content depends not only on the inherent features of the specific content, but also on how the user's preferences have evolved as a result of interacting with other types of content on the platform. Our general model accounts for the different rate $\lambda \in [0,1]$ at which the state evolves (e.g., how fast a user's preferences shift as a result of previous content consumption) and encompasses standard multi-armed bandits as a special case. The goal of the algorithm is to minimize a notion of regret against the best-fixed sequence of arms pulled. We analyze online learning algorithms for any possible parametrization of the evolution rate $\lambda$. Specifically, the regret rates obtained are: for $\lambda \in [0, 1/T^2]$: $\widetilde O(\sqrt{KT})$; for $\lambda = T^{-a/b}$ with $b < a < 2b$: $\widetilde O (T^{b/a})$; for $\lambda \in (1/T, 1 - 1/\sqrt{T}): \widetilde O (K^{1/3}T^{2/3})$; and for $\lambda \in [1 - 1/\sqrt{T}, 1]: \widetilde O (K\sqrt{T})$.
翻訳日:2023-07-24 12:08:08 公開日:2023-07-21
# FEDD -- 公平で効率的な拡散型病変分割と悪性度分類

FEDD -- Fair, Efficient, and Diverse Diffusion-based Lesion Segmentation and Malignancy Classification ( http://arxiv.org/abs/2307.11654v1 )

ライセンス: Link先を確認
H\'ector Carri\'on, Narges Norouzi(参考訳) 皮膚疾患は世界中の何百万人もの人々に影響を与えます。 診断アクセシビリティの増大は、皮膚科画像の公平かつ正確なセグメンテーションと分類を必要とする。 しかし、特に稀な疾患や表出の少ない皮膚のトーンに対して、注釈付き医用画像の不足は、公正で正確なモデルの開発に困難をもたらす。 本研究では,皮膚病変の分類と悪性度分類のためのFair,Efficient,Diverse Diffusionベースのフレームワークを提案する。 FEDDは、拡散確率的バックボーンによって学習された意味的に意味のある特徴埋め込みを活用し、それらを線形プローブによって処理し、DDI(Diverse Dermatology Images)の最先端のパフォーマンスを達成する。 その結果,0.18,0.13,0.06,0.07の交点が改善され,それぞれ5%,10%,15%,20%の標識標本が得られた。 さらに、DDIの10%で訓練されたFEDDでは、悪性度分類の精度が81%、最先端と比較して14%高いことが示されている。 多様な肌色やまれな悪性疾患に対して公平な性能を提供しながら,データ制約されたシナリオにおいて高い効率を示す。 新たに注釈を付けたDDIセグメンテーションマスクとトレーニングコードはhttps://github.com/hectorcarrion/fedd.comで確認できます。

Skin diseases affect millions of people worldwide, across all ethnicities. Increasing diagnosis accessibility requires fair and accurate segmentation and classification of dermatology images. However, the scarcity of annotated medical images, especially for rare diseases and underrepresented skin tones, poses a challenge to the development of fair and accurate models. In this study, we introduce a Fair, Efficient, and Diverse Diffusion-based framework for skin lesion segmentation and malignancy classification. FEDD leverages semantically meaningful feature embeddings learned through a denoising diffusion probabilistic backbone and processes them via linear probes to achieve state-of-the-art performance on Diverse Dermatology Images (DDI). We achieve an improvement in intersection over union of 0.18, 0.13, 0.06, and 0.07 while using only 5%, 10%, 15%, and 20% labeled samples, respectively. Additionally, FEDD trained on 10% of DDI demonstrates malignancy classification accuracy of 81%, 14% higher compared to the state-of-the-art. We showcase high efficiency in data-constrained scenarios while providing fair performance for diverse skin tones and rare malignancy conditions. Our newly annotated DDI segmentation masks and training code can be found on https://github.com/hectorcarrion/fedd.
翻訳日:2023-07-24 12:05:54 公開日:2023-07-21
# 会話レコメンダシステムにおけるロングテール問題の緩和

Alleviating the Long-Tail Problem in Conversational Recommender Systems ( http://arxiv.org/abs/2307.11650v1 )

ライセンス: Link先を確認
Zhipeng Zhao, Kun Zhou, Xiaolei Wang, Wayne Xin Zhao, Fan Pan, Zhao Cao and Ji-Rong Wen(参考訳) conversational recommender systems(crs)は、自然言語会話を通じてレコメンデーションサービスを提供することを目的としている。 効率的なCRSを開発するためには、高品質なCRSデータセットが非常に重要です。 しかし、既存のCRSデータセットは、長い尾の問題に悩まされており、会話で言及されるアイテムのかなりの割合はめったに言及されない(あるいは決して言及されない)。 その結果、これらのデータセットでトレーニングされたCRSは、頻繁なアイテムを推奨する傾向があり、推奨アイテムの多様性は大幅に低下し、ユーザが退屈しやすくなる。 本論では, CRSの推薦性能を改善するために, バランスのとれたCRSデータセット(すべての項目を均等にカバーする)をシミュレートし, 活用することを目的とした新しいフレームワークである \textbf{LOT-CRS を提案する。 提案手法では,2つの事前学習タスクを設計し,ロングテール項目に対する模擬会話の理解を高めるとともに,ラベルスムーズな戦略による検索強化ファインタニングを採用し,ロングテール項目の推薦をさらに改善する。 2つのパブリックCRSデータセットに対する大規模な実験は、特にロングテールレコメンデーションにおいて、我々のアプローチの有効性と拡張性を実証した。

Conversational recommender systems (CRS) aim to provide the recommendation service via natural language conversations. To develop an effective CRS, high-quality CRS datasets are very crucial. However, existing CRS datasets suffer from the long-tail issue, \ie a large proportion of items are rarely (or even never) mentioned in the conversations, which are called long-tail items. As a result, the CRSs trained on these datasets tend to recommend frequent items, and the diversity of the recommended items would be largely reduced, making users easier to get bored. To address this issue, this paper presents \textbf{LOT-CRS}, a novel framework that focuses on simulating and utilizing a balanced CRS dataset (\ie covering all the items evenly) for improving \textbf{LO}ng-\textbf{T}ail recommendation performance of CRSs. In our approach, we design two pre-training tasks to enhance the understanding of simulated conversation for long-tail items, and adopt retrieval-augmented fine-tuning with label smoothness strategy to further improve the recommendation of long-tail items. Extensive experiments on two public CRS datasets have demonstrated the effectiveness and extensibility of our approach, especially on long-tail recommendation.
翻訳日:2023-07-24 12:05:30 公開日:2023-07-21
# クエンチ後の局所作用素の期待値計算の時間エントロピーと複雑性について

On temporal entropy and the complexity of computing the expectation value of local operators after a quench ( http://arxiv.org/abs/2307.11649v1 )

ライセンス: Link先を確認
Stefano Carignano, Carlos Ramos Marim\'on and Luca Tagliacozzo(参考訳) 時間的行列積状態を用いて1次元量子システムにおける局所演算子の時間依存期待値をシミュレーションする計算複雑性について検討する。 このようなコストは、時間遷移行列とその部分的トレースを符号化するコストと密接に関連している。 特に、局所作用素のハイゼンベルク発展の1つによってこれらの還元された遷移行列の階数を上限にすることができ、したがって明らかに異なる2つの量(時間的絡み合いと局所作用素絡み合い)の間に接続できることを示した。 その結果、時間的に局所作用素の絡み合いが線形よりも遅くなると、時間的行列積状態を用いた局所作用素の時間依存期待値が、標準行列積状態を用いた同じ量の計算に対して有利であることを示す。

We study the computational complexity of simulating the time-dependent expectation value of a local operator in a one-dimensional quantum system by using temporal matrix product states. We argue that such cost is intimately related to that of encoding temporal transition matrices and their partial traces. In particular, we show that we can upper-bound the rank of these reduced transition matrices by the one of the Heisenberg evolution of local operators, thus making connection between two apparently different quantities, the temporal entanglement and the local operator entanglement. As a result, whenever the local operator entanglement grows slower than linearly in time, we show that computing time-dependent expectation values of local operators using temporal matrix product states is likely advantageous with respect to computing the same quantities using standard matrix product states techniques.
翻訳日:2023-07-24 12:05:09 公開日:2023-07-21
# AIに基づく欠陥検出と分類モデルを用いた推論のための形態的画像解析と特徴抽出

Morphological Image Analysis and Feature Extraction for Reasoning with AI-based Defect Detection and Classification Models ( http://arxiv.org/abs/2307.11643v1 )

ライセンス: Link先を確認
Jiajun Zhang, Georgina Cosma, Sarah Bugby, Axel Finke and Jason Watkins(参考訳) 人工知能(AI)モデルの使用が工学や製造などの産業で普及するにつれて、これらのモデルが予測の背後にある透明な推論を提供することが不可欠である。 本稿では,画像から欠陥(果柄)の形態的特徴を抽出し,決定木を用いて果柄値の推論を行うai-reasonerを提案する。 その後、AI-Reasonerは視覚化(チャート)とテキストの説明をエクスポートし、マスクによる欠陥検出と分類モデルによるアウトプットに関する洞察を提供する。 また、データ前処理と全体的なモデルパフォーマンスを強化する効果的な緩和戦略も提供する。 AI-Reasonerは、欠陥を含む366イメージのセットを使用して、IE Mask R-CNNモデルの出力を説明するためにテストされた。 この結果は,IE Mask R-CNNモデルの予測を説明する上での有効性を示した。 全体として、提案されたAI-Reasonerは、欠陥分析を必要とする産業アプリケーションにおけるAIモデルのパフォーマンスを改善するソリューションを提供する。

As the use of artificial intelligent (AI) models becomes more prevalent in industries such as engineering and manufacturing, it is essential that these models provide transparent reasoning behind their predictions. This paper proposes the AI-Reasoner, which extracts the morphological characteristics of defects (DefChars) from images and utilises decision trees to reason with the DefChar values. Thereafter, the AI-Reasoner exports visualisations (i.e. charts) and textual explanations to provide insights into outputs made by masked-based defect detection and classification models. It also provides effective mitigation strategies to enhance data pre-processing and overall model performance. The AI-Reasoner was tested on explaining the outputs of an IE Mask R-CNN model using a set of 366 images containing defects. The results demonstrated its effectiveness in explaining the IE Mask R-CNN model's predictions. Overall, the proposed AI-Reasoner provides a solution for improving the performance of AI models in industrial applications that require defect analysis.
翻訳日:2023-07-24 12:04:52 公開日:2023-07-21
# 術中ハイパースペクトルビデオオートフォーカスのための深層強化学習システム

Deep Reinforcement Learning Based System for Intraoperative Hyperspectral Video Autofocusing ( http://arxiv.org/abs/2307.11638v1 )

ライセンス: Link先を確認
Charlie Budd, Jianrong Qiu, Oscar MacCormac, Martin Huber, Christopher Mower, Mirek Janatka, Th\'eo Trotouin, Jonathan Shapey, Mads S. Bergholt and Tom Vercauteren(参考訳) hyperspectral imaging (hsi) は従来の光学イメージングよりも高いレベルのスペクトル詳細を捉えており、正確な組織分化が不可欠である場合、術中検査に有用である可能性がある。 ハンドヘルドリアルタイムビデオhsiで使用される現在の光学系のハードウェアの限界は、焦点深度の制限を生じさせ、手術室にこの技術を統合する際にユーザビリティの問題を引き起こす。 本研究は、焦点調整可能な液体レンズをビデオHSIエクソスコープに統合し、深部強化学習に基づく新しいビデオオートフォーカス手法を提案する。 現実的で再現可能なテストデータセットを作成するために、第一種ロボット焦点時間スキャンが実施された。 提案したオートフォーカスアルゴリズムを従来の手法に対してベンチマークし、従来の手法よりも高い性能(0.070\pm.098$平均絶対焦点誤差が0.146\pm.148$)を示す新しい手法を発見した。 さらに,両神経外科医に異なるオートフォーカスポリシーを比較させ,盲目的なユーザビリティ試験を行った結果,本システムが最も好適であり,術中hsiに好適な追加となることがわかった。

Hyperspectral imaging (HSI) captures a greater level of spectral detail than traditional optical imaging, making it a potentially valuable intraoperative tool when precise tissue differentiation is essential. Hardware limitations of current optical systems used for handheld real-time video HSI result in a limited focal depth, thereby posing usability issues for integration of the technology into the operating room. This work integrates a focus-tunable liquid lens into a video HSI exoscope, and proposes novel video autofocusing methods based on deep reinforcement learning. A first-of-its-kind robotic focal-time scan was performed to create a realistic and reproducible testing dataset. We benchmarked our proposed autofocus algorithm against traditional policies, and found our novel approach to perform significantly ($p<0.05$) better than traditional techniques ($0.070\pm.098$ mean absolute focal error compared to $0.146\pm.148$). In addition, we performed a blinded usability trial by having two neurosurgeons compare the system with different autofocus policies, and found our novel approach to be the most favourable, making our system a desirable addition for intraoperative HSI.
翻訳日:2023-07-24 12:04:35 公開日:2023-07-21
# サイバー物理生産システムにおけるドメインエキスパートオントロジー設計のCRISP-DMへの統合

Integration of Domain Expert-Centric Ontology Design into the CRISP-DM for Cyber-Physical Production Systems ( http://arxiv.org/abs/2307.11637v1 )

ライセンス: Link先を確認
Milapji Singh Gill, Tom Westermann, Marvin Schieseck, Alexander Fay(参考訳) 産業 4.0 とサイバー物理生産システム (CPPS) の時代には、膨大な量の潜在的価値のあるデータが生成される。 機械学習(ML)とデータマイニング(DM)の手法は、収集されたデータから複雑で隠れたパターンを抽出する上で有望であることが証明されている。 得られた知識は、診断やメンテナンス計画などのタスクを改善するために使用できる。 しかし、このようなデータ駆動プロジェクトは、通常CRISP-DM(Cross-Industry Standard Process for Data Mining)で実行され、データの理解と準備に要する時間が不均等であるために失敗することが多い。 ドメイン固有のオントロジーの応用は、上記の課題に関する様々な業界 4.0 アプリケーションシナリオにおいて、その優位性を示している。 しかし、CPPSのオントロジー設計のワークフローやアーティファクトは、まだCRISP-DMに体系的に統合されていない。 したがって、このコントリビューションは、データサイエンティストがCPPSに関するより迅速かつ確実な洞察を得られるように、統合されたアプローチを提案することを目的としている。 その結果は、異常検出ユースケースに例示的に適用される。

In the age of Industry 4.0 and Cyber-Physical Production Systems (CPPSs) vast amounts of potentially valuable data are being generated. Methods from Machine Learning (ML) and Data Mining (DM) have proven to be promising in extracting complex and hidden patterns from the data collected. The knowledge obtained can in turn be used to improve tasks like diagnostics or maintenance planning. However, such data-driven projects, usually performed with the Cross-Industry Standard Process for Data Mining (CRISP-DM), often fail due to the disproportionate amount of time needed for understanding and preparing the data. The application of domain-specific ontologies has demonstrated its advantageousness in a wide variety of Industry 4.0 application scenarios regarding the aforementioned challenges. However, workflows and artifacts from ontology design for CPPSs have not yet been systematically integrated into the CRISP-DM. Accordingly, this contribution intends to present an integrated approach so that data scientists are able to more quickly and reliably gain insights into the CPPS. The result is exemplarily applied to an anomaly detection use case.
翻訳日:2023-07-24 12:04:17 公開日:2023-07-21
# オックスフォードTVG-HIC:マシンは画像からハモラスなキャプションを作れるか?

OxfordTVG-HIC: Can Machine Make Humorous Captions from Images? ( http://arxiv.org/abs/2307.11636v1 )

ライセンス: Link先を確認
Runjia Li, Shuyang Sun, Mohamed Elhoseiny, Philip Torr(参考訳) 本稿では,ユーモア生成と理解のための大規模データセットであるOxfordTVG-HIC(Humorous Image Captions)を提案する。 ユーモアは抽象的、主観的、文脈依存的な認知的構成であり、いくつかの認知的要因を含んでいる。 したがって、ユーモアの生成と理解は、抽象的および主観的な情報を処理するためのディープラーニング手法の能力を評価する新しいタスクとなりうる。 データ不足のため、キャプションなどのユーモア関連の生成タスクは未探索のままである。 このギャップに対処するため、OxfordTVG-HICは約2.9Mの画像テキストペアとユーモアスコアを提供し、一般化可能なユーモアキャプションモデルを訓練する。 既存のキャプションデータセットとは対照的に、OxfordTVG-HICは幅広い感情的・意味的な多様性を特徴としており、特にユーモアを発生させるのに効果がある。 さらに、OxfordTVG-HICは攻撃的コンテンツを欠いている。 また,oxfordtvg-hicを用いて,生成されたテキストのユーモアを評価する方法を示す。 学習モデルの説明可能性分析を通じて,ユーモアの予測(および生成)に影響を及ぼす視覚的および言語的手がかりを同定する。 我々は,これらの手がかりが認知心理学におけるユーモアの良心的違反理論と一致することを質的に観察する。

This paper presents OxfordTVG-HIC (Humorous Image Captions), a large-scale dataset for humour generation and understanding. Humour is an abstract, subjective, and context-dependent cognitive construct involving several cognitive factors, making it a challenging task to generate and interpret. Hence, humour generation and understanding can serve as a new task for evaluating the ability of deep-learning methods to process abstract and subjective information. Due to the scarcity of data, humour-related generation tasks such as captioning remain under-explored. To address this gap, OxfordTVG-HIC offers approximately 2.9M image-text pairs with humour scores to train a generalizable humour captioning model. Contrary to existing captioning datasets, OxfordTVG-HIC features a wide range of emotional and semantic diversity resulting in out-of-context examples that are particularly conducive to generating humour. Moreover, OxfordTVG-HIC is curated devoid of offensive content. We also show how OxfordTVG-HIC can be leveraged for evaluating the humour of a generated text. Through explainability analysis of the trained models, we identify the visual and linguistic cues influential for evoking humour prediction (and generation). We observe qualitatively that these cues are aligned with the benign violation theory of humour in cognitive psychology.
翻訳日:2023-07-24 12:04:00 公開日:2023-07-21
# Kroneckerグラフに基づくスケーラブルなマルチエージェントスキル発見

Scalable Multi-agent Skill Discovery based on Kronecker Graphs ( http://arxiv.org/abs/2307.11629v1 )

ライセンス: Link先を確認
Jiayu Chen, Jingdi Chen, Tian Lan, Vaneet Aggarwal(参考訳) 被覆技術(オプション)は、状態遷移グラフのフィドラーベクトルによって提供される埋め込み空間の最も遠い状態を接続することで、スパース報酬信号を持つ単一エージェントシナリオにおけるRLの探索を改善するために開発された。 結合状態空間がマルチエージェントシステムのエージェント数で指数関数的に増加することを考えると、単一エージェントのオプション発見に依存する既存の研究は、結合状態空間の接続性を改善するジョイントオプションを直接発見することができない。 本稿では,協調探索行動を伴うマルチエージェントオプションを,分解の容易さを享受しながら直接計算する方法を示す。 我々の重要なアイデアは、個々のエージェントの遷移グラフのラプラシアンスペクトルを用いて直接そのフィドラーベクトルを推定できるクロネッカーグラフとして合同状態空間を近似することである。 さらに,ラプラシアンスペクトルを直接計算することは,無限大の状態空間を持つタスクでは難解であると考え,nnに基づく表現学習手法を用いて固有関数を推定することで,この手法の深層学習拡張を提案する。 Mujocoのようなシミュレータで構築されたマルチエージェントタスクの評価は、提案アルゴリズムがマルチエージェントオプションの同定に成功し、最先端のタスクよりも大幅に優れていることを示す。 コードは以下の通り:https://github.itap.purdue.edu/Clan-labs/Scalable_MAOD_via_KP。

Covering skill (a.k.a., option) discovery has been developed to improve the exploration of RL in single-agent scenarios with sparse reward signals, through connecting the most distant states in the embedding space provided by the Fiedler vector of the state transition graph. Given that joint state space grows exponentially with the number of agents in multi-agent systems, existing researches still relying on single-agent option discovery either become prohibitive or fail to directly discover joint options that improve the connectivity of the joint state space. In this paper, we show how to directly compute multi-agent options with collaborative exploratory behaviors while still enjoying the ease of decomposition. Our key idea is to approximate the joint state space as a Kronecker graph, based on which we can directly estimate its Fiedler vector using the Laplacian spectrum of individual agents' transition graphs. Further, considering that directly computing the Laplacian spectrum is intractable for tasks with infinite-scale state spaces, we further propose a deep learning extension of our method by estimating eigenfunctions through NN-based representation learning techniques. The evaluation on multi-agent tasks built with simulators like Mujoco, shows that the proposed algorithm can successfully identify multi-agent options, and significantly outperforms the state-of-the-art. Codes are available at: https://github.itap.purdue.edu/Clan-labs/Scalable_MAOD_via_KP.
翻訳日:2023-07-24 12:03:37 公開日:2023-07-21
# 不均質アンサンブルにおける大サンプル集合崩壊のn$スケーリング

$N$ Scaling of Large-Sample Collective Decay in Inhomogeneous Ensembles ( http://arxiv.org/abs/2307.11623v1 )

ライセンス: Link先を確認
Sergiy Stryzhenko, Alexander Bruns, and Thorsten Peters(参考訳) superradianceと-fluorescenceは、互いに結合した$n$の同一のエミッターが、独立のエミッターよりも総じて$n$倍の速さで崩壊する現象である。 これは、均一な励起条件に対してピーク光子レートが$\propto N^2$の激しいバーストを伴う。 しかし、不均一な励起では、アンサンブルの異なる部分が同期して放出されないため、集団崩壊は積み上げられないか、スケーリングが崩壊する。 本稿では,中空コアファイバに結合した原子集合体に対する超蛍光の実験的研究について報告する。 放射される放射線は、リングを含む強いバーストを示す。 内在的な半径と縦方向の不均一性にもかかわらず, 2桁の等級で増大する崩壊速度を示す。 簡単なモデルを考案し、不均一な拡張と光減衰を考慮して、有効数の集合エミッタを決定する。 これは分散が無視できる限り、幅広いパラメータで均質なアンサンブルに知られている$n$のスケーリングを回復することを示している。 この結果は、不均一な条件が集団崩壊の促進に与える影響を、簡単な物理的に理解するものである。 これは、量子光学、精密時間維持、導波路qedで一般的に使用される拡張アンサンブルにおける集団効果の最適化に関係している。

Superradiance and -fluorescence are phenomena where $N$ identical emitters coupled to each other synchronize and decay collectively $N$ times faster than independent emitters would. This is accompanied by an intense burst whose peak photon rate is $\propto N^2$ for homogeneous excitation conditions. For inhomogeneous excitation, however, collective decay either cannot build up or its scaling breaks down, as different parts of the ensemble do not emit in sync. We here report on an experimental study of superfluorescence for a disordered ensemble of atoms coupled to a hollow-core fiber. The emitted radiation exhibits strong bursts, including a ringing. We demonstrate a decay rate enhanced by two orders of magnitude, despite intrinsic radial and longitudinal inhomogeneities. By devising a simple model, taking inhomogeneous broadening and light attenuation into account, we determine an effective number of collective emitters. We show that this recovers the $N$ scaling known to homogeneous ensembles over a large range of parameters, as long as dispersion is negligible. Our results provide a simple physical understanding of the effects inhomogeneous conditions have on enhanced collective decay. This is relevant to optimize collective effects in extended ensembles as typically used in quantum optics, precision time-keeping or waveguide QED.
翻訳日:2023-07-24 12:03:10 公開日:2023-07-21
# ニューラルソースコード要約のための文ベースメモリ

Statement-based Memory for Neural Source Code Summarization ( http://arxiv.org/abs/2307.11709v1 )

ライセンス: Link先を確認
Aakash Bansal, Siyuan Jiang, Sakib Haque, and Collin McMillan(参考訳) ソースコードの要約は、ソースコードの振る舞いを自然言語で記述する作業である。 コードの要約はプログラマのソフトウェアドキュメントを支える。 コードに関する短い記述は、プログラマがコード自体を読まずにプログラムを素早く理解するのに役立ちます。 近年,自動コード要約技術の研究のフロンティアとして,ニューラルネットワークの要約が登場している。 要約の最も一般的なターゲットはプログラムサブルーチンである。 基本的には、コードリポジトリから抽出されたサブルーチンの大規模な例セットを使用して、エンコーダ-デコーダニューラルネットワークアーキテクチャをトレーニングすることだ。 エンコーダはコードを表し、デコーダはサマリを表す。 しかし、現在のほとんどのアプローチはサブルーチンを単一の単位として扱う。 例えば、サブルーチン全体をtransformerまたはrnnベースのエンコーダへの入力として取得する。 しかし、コードの振る舞いはステートメントからステートメントへのフローに依存します。 通常、動的解析はこの流れに光を当てるが、大規模なデータセットにおける数十万の例の動的解析は実用的ではない。 本稿では,学習中のフローの重要な要素を学習し,動的解析を必要とせずに文ベースのサブルーチン表現を実現する文ベースのメモリエンコーダを提案する。 コード要約のためのエンコーダを実装し、最先端技術に対する大幅な改善を示す。

Source code summarization is the task of writing natural language descriptions of source code behavior. Code summarization underpins software documentation for programmers. Short descriptions of code help programmers understand the program quickly without having to read the code itself. Lately, neural source code summarization has emerged as the frontier of research into automated code summarization techniques. By far the most popular targets for summarization are program subroutines. The idea, in a nutshell, is to train an encoder-decoder neural architecture using large sets of examples of subroutines extracted from code repositories. The encoder represents the code and the decoder represents the summary. However, most current approaches attempt to treat the subroutine as a single unit. For example, by taking the entire subroutine as input to a Transformer or RNN-based encoder. But code behavior tends to depend on the flow from statement to statement. Normally dynamic analysis may shed light on this flow, but dynamic analysis on hundreds of thousands of examples in large datasets is not practical. In this paper, we present a statement-based memory encoder that learns the important elements of flow during training, leading to a statement-based subroutine representation without the need for dynamic analysis. We implement our encoder for code summarization and demonstrate a significant improvement over the state-of-the-art.
翻訳日:2023-07-24 11:54:42 公開日:2023-07-21
# ロボットプルーニングのための複合グレープビンの3次元骨格化

3D Skeletonization of Complex Grapevines for Robotic Pruning ( http://arxiv.org/abs/2307.11706v1 )

ライセンス: Link先を確認
Eric Schneider and Sushanth Jayanth and Abhisesh Silwal and George Kantor(参考訳) 休眠したブドウを刈り取るロボットは、ブドウのバランスとブドウの品質を高めるために活発に研究されている分野であるが、これまでのロボットの努力は、商業的なブドウ畑を代表しない平面的で簡素なブドウに重点を置いてきた。 本研究の目的は,植物骨格化技術の拡張により,より密集した複雑なブドウ構造を刈り取るのに必要なロボット認識能力を向上することである。 提案するパイプラインは、ベースラインアルゴリズムよりも低い再投影誤差と高い接続性を持つ骨格グレープバインモデルを生成する。 また,3次元および骨格情報により,プレニングサイト選択に影響を及ぼす重要なブドウの定量値として,前処理を超越した高密度ブドウの刈り上げ重量の予測精度が期待できることを示す。

Robotic pruning of dormant grapevines is an area of active research in order to promote vine balance and grape quality, but so far robotic efforts have largely focused on planar, simplified vines not representative of commercial vineyards. This paper aims to advance the robotic perception capabilities necessary for pruning in denser and more complex vine structures by extending plant skeletonization techniques. The proposed pipeline generates skeletal grapevine models that have lower reprojection error and higher connectivity than baseline algorithms. We also show how 3D and skeletal information enables prediction accuracy of pruning weight for dense vines surpassing prior work, where pruning weight is an important vine metric influencing pruning site selection.
翻訳日:2023-07-24 11:54:23 公開日:2023-07-21
# JoinGym:強化学習のための効率的なクエリ最適化環境

JoinGym: An Efficient Query Optimization Environment for Reinforcement Learning ( http://arxiv.org/abs/2307.11704v1 )

ライセンス: Link先を確認
Kaiwen Wang, Junxiong Wang, Yueying Li, Nathan Kallus, Immanuel Trummer, Wen Sun(参考訳) 本稿では、強化学習(RL)のための効率的で軽量なクエリ最適化環境であるtextsc{JoinGym}を提案する。 結合順序選択(JOS)は、データベースクエリ最適化から古典的なNPハード組合せ最適化問題であり、RLアルゴリズムの一般化のための実用的なテストベッドとして機能する。 本稿では,JOS 問題における各左深度およびブッシーな変形を Markov Decision Process (MDP) として定式化し,標準の Gymnasium API に準拠した実装を提供する。 実装 \textsc{JoinGym} は、すべての可能な結合のオフライントレースを完全にベースとしており、RL の実践者は、システムをセットアップすることなく、現実的なデータ管理問題でメソッドを簡単かつ迅速にテストできる。 さらに、IMDBデータセットから生成される3300ドルの新しいSQLクエリに対して、可能なすべてのジョイントレースも提供します。 一般的なRLアルゴリズムをベンチマークすると、少なくとも1つの手法が列車セットクエリでほぼ最適性能を得ることができるが、その性能はテストセットクエリで数桁低下する。 このギャップは、マルチタスク組合せ最適化問題においてよく一般化されるRLアルゴリズムのさらなる研究を動機付けている。

In this paper, we present \textsc{JoinGym}, an efficient and lightweight query optimization environment for reinforcement learning (RL). Join order selection (JOS) is a classic NP-hard combinatorial optimization problem from database query optimization and can serve as a practical testbed for the generalization capabilities of RL algorithms. We describe how to formulate each of the left-deep and bushy variants of the JOS problem as a Markov Decision Process (MDP), and we provide an implementation adhering to the standard Gymnasium API. We highlight that our implementation \textsc{JoinGym} is completely based on offline traces of all possible joins, which enables RL practitioners to easily and quickly test their methods on a realistic data management problem without needing to setup any systems. Moreover, we also provide all possible join traces on $3300$ novel SQL queries generated from the IMDB dataset. Upon benchmarking popular RL algorithms, we find that at least one method can obtain near-optimal performance on train-set queries but their performance degrades by several orders of magnitude on test-set queries. This gap motivates further research for RL algorithms that generalize well in multi-task combinatorial optimization problems.
翻訳日:2023-07-24 11:54:07 公開日:2023-07-21
# sacreg:視覚局所化のためのシーン非依存座標回帰

SACReg: Scene-Agnostic Coordinate Regression for Visual Localization ( http://arxiv.org/abs/2307.11702v1 )

ライセンス: Link先を確認
Jerome Revaud, Yohann Cabon, Romain Br\'egier, JongMin Lee and Philippe Weinzaepfel(参考訳) シーン座標回帰(SCR)、すなわち、ある画像の各ピクセルの3D座標を予測することは、最近、有望な可能性を示している。 しかし、既存の手法はほとんどシーン固有のものであり、小さなシーンに限定されているため、現実的なデータセットにはスケールしにくい。 本稿では,1つの汎用SCRモデルを一度訓練して,そのスケールによらず,さらに微調整を行わずに新しいテストシーンに展開する,新しいパラダイムを提案する。 与えられた問合せ画像に対して、オフ・ザ・シェルフの画像検索技術とstructure-from-motionデータベースから入力を収集する。 このモデルはトランスアーキテクチャに基づいており、可変数の画像とスパース2D-3Dアノテーションを入力として取り込むことができる。 さまざまなデータセットでトレーニングされ、視覚的なローカライゼーションのために、シーン固有のモデルを含むいくつかのベンチマークで、他のシーン回帰アプローチを著しく上回っている。 特に、ケンブリッジのローカライゼーションベンチマークに新しい技術状況を設定し、機能マッチングベースのアプローチよりも優れています。

Scene coordinates regression (SCR), i.e., predicting 3D coordinates for every pixel of a given image, has recently shown promising potential. However, existing methods remain mostly scene-specific or limited to small scenes and thus hardly scale to realistic datasets. In this paper, we propose a new paradigm where a single generic SCR model is trained once to be then deployed to new test scenes, regardless of their scale and without further finetuning. For a given query image, it collects inputs from off-the-shelf image retrieval techniques and Structure-from-Motion databases: a list of relevant database images with sparse pointwise 2D-3D annotations. The model is based on the transformer architecture and can take a variable number of images and sparse 2D-3D annotations as input. It is trained on a few diverse datasets and significantly outperforms other scene regression approaches on several benchmarks, including scene-specific models, for visual localization. In particular, we set a new state of the art on the Cambridge localization benchmark, even outperforming feature-matching-based approaches.
翻訳日:2023-07-24 11:53:44 公開日:2023-07-21
# シミュレーションを用いた獣医学における実データ取得の校正

Using simulation to calibrate real data acquisition in veterinary medicine ( http://arxiv.org/abs/2307.11695v1 )

ライセンス: Link先を確認
Krystian Strza{\l}ka, Szymon Mazurek, Maciej Wielgosz, Pawe{\l} Russek, Jakub Caputa, Daria {\L}ukasik, Jan Krupi\'nski, Jakub Grzeszczyk, Micha{\l} Karwatowski, Rafa{\l} Fr\k{a}czek, Ernest Jamro, Marcin Pietro\'n, Sebastian Koryciak, Agnieszka D\k{a}browska-Boruch, Kazimierz Wiatr(参考訳) 本稿では,犬における歩行分析に焦点をあて,獣医学におけるデータ取得と診断を促進するためのシミュレーション環境の革新的利用について検討する。 この研究はblenderとblenderprocライブラリの力を利用して、様々な解剖学的、環境的、行動的条件を反映した合成データセットを生成する。 生成されたデータはグラフ形式で表現され、最適な分析のために標準化され、正常な歩行と異常な歩行を識別するための機械学習アルゴリズムを訓練するために使用される。 異なるカメラ角度の粒度の異なる2つの異なるデータセットを作成し、カメラ視点がモデル精度に与える影響をさらに調査する。 予備的な結果は、このシミュレーションに基づくアプローチが、より正確なデータ取得とより効果的な機械学習モデルを可能にすることにより、獣医学診断の進歩を約束していることを示唆している。 人工的および現実的な患者データを統合することで、獣医学の全体的な効果と効率を改善するための強固な基礎を築いた。

This paper explores the innovative use of simulation environments to enhance data acquisition and diagnostics in veterinary medicine, focusing specifically on gait analysis in dogs. The study harnesses the power of Blender and the Blenderproc library to generate synthetic datasets that reflect diverse anatomical, environmental, and behavioral conditions. The generated data, represented in graph form and standardized for optimal analysis, is utilized to train machine learning algorithms for identifying normal and abnormal gaits. Two distinct datasets with varying degrees of camera angle granularity are created to further investigate the influence of camera perspective on model accuracy. Preliminary results suggest that this simulation-based approach holds promise for advancing veterinary diagnostics by enabling more precise data acquisition and more effective machine learning models. By integrating synthetic and real-world patient data, the study lays a robust foundation for improving overall effectiveness and efficiency in veterinary medicine.
翻訳日:2023-07-24 11:53:28 公開日:2023-07-21
# 堅牢な機能を持つ高速適応型テストタイム防御

Fast Adaptive Test-Time Defense with Robust Features ( http://arxiv.org/abs/2307.11672v1 )

ライセンス: Link先を確認
Anurag Singh, Mahalakshmi Sabanayagam, Krikamol Muandet, Debarghya Ghoshdastidar(参考訳) 適応的テストタイムディフェンスは、ディープニューラルネットワークの敵の例への堅牢性を改善するために使用される。 しかし、既存の手法ではモデルパラメータやテスト時の入力を最適化するため、推論時間が大幅に増加する。 そこで本研究では,既存の(ロバスト)訓練手順と容易に統合できる適応型テストタイム防御戦略を提案する。 私たちが提示する特徴の堅牢性の概念に基づいて、鍵となるアイデアは、トレーニングされたモデルを最も堅牢な特徴空間に投影することで、非破壊的な攻撃に対する脆弱性を減らすことである。 理論的には、特徴行列の上位固有空間は一般化された加法モデルに対してより堅牢であることを示し、ニューラルタンジェントカーネル(NTK)等価性を持つ大幅ニューラルネットワークの議論を支援する。 我々は,ロバストベンチの最先端手法を含む,いくつかのロバストネスベンチマークのためのCIFAR-10およびCIFAR-100データセットの広範な実験を行い,提案手法が既存の適応テスト時間ディフェンスをはるかに低い計算コストで上回ることを示した。

Adaptive test-time defenses are used to improve the robustness of deep neural networks to adversarial examples. However, existing methods significantly increase the inference time due to additional optimization on the model parameters or the input at test time. In this work, we propose a novel adaptive test-time defense strategy that is easy to integrate with any existing (robust) training procedure without additional test-time computation. Based on the notion of robustness of features that we present, the key idea is to project the trained models to the most robust feature space, thereby reducing the vulnerability to adversarial attacks in non-robust directions. We theoretically show that the top eigenspace of the feature matrix are more robust for a generalized additive model and support our argument for a large width neural network with the Neural Tangent Kernel (NTK) equivalence. We conduct extensive experiments on CIFAR-10 and CIFAR-100 datasets for several robustness benchmarks, including the state-of-the-art methods in RobustBench, and observe that the proposed method outperforms existing adaptive test-time defenses at much lower computation costs.
翻訳日:2023-07-24 11:53:12 公開日:2023-07-21
# オンライン凸最適化のための効率的な内部点法

An Efficient Interior-Point Method for Online Convex Optimization ( http://arxiv.org/abs/2307.11668v1 )

ライセンス: Link先を確認
Elad Hazan and Nimrod Megiddo(参考訳) オンライン凸最適化における後悔の最小化のための新しいアルゴリズムについて述べる。 T$時間後のアルゴリズムの後悔は$O(\sqrt{T \log T})$-であり、対数項まで最小限である。 さらに、新しいアルゴリズムは適応的であり、後悔の限度が1,\ldots,t$の期間だけでなく、各サブインターバル$s,s+1,\ldots,t$の時間も保持する。 アルゴリズムの実行時間は、新しく導入された内部点アルゴリズムの最小化と一致する:$n$次元空間において、新しいアルゴリズムは本質的に$n$の線形方程式のシステムを、$n$次元の制約付き凸最適化問題を解くのではなく、$n$次元で解く。

A new algorithm for regret minimization in online convex optimization is described. The regret of the algorithm after $T$ time periods is $O(\sqrt{T \log T})$ - which is the minimum possible up to a logarithmic term. In addition, the new algorithm is adaptive, in the sense that the regret bounds hold not only for the time periods $1,\ldots,T$ but also for every sub-interval $s,s+1,\ldots,t$. The running time of the algorithm matches that of newly introduced interior point algorithms for regret minimization: in $n$-dimensional space, during each iteration the new algorithm essentially solves a system of linear equations of order $n$, rather than solving some constrained convex optimization problem in $n$ dimensions and possibly many constraints.
翻訳日:2023-07-24 11:52:35 公開日:2023-07-21
# c軸サファイア上の低損失超伝導ta薄膜の結晶粒径

Grain size in low loss superconducting Ta thin films on c-axis sapphire ( http://arxiv.org/abs/2307.11667v1 )

ライセンス: Link先を確認
Sarah Garcia Jones, Nicholas Materise, Ka Wun Leung, Brian D. Isakov, Xi Chen, Jiangchang Zheng, Andras Gyenis, Berthold Jaeck, Corey Rae H. McRae(参考訳) 近年、Ta薄膜の実装により超伝導回路におけるコヒーレンス時間が改善されている。 この材料セットをさらに最適化する努力は、超伝導量子コンピューティングの材料サブフィールドの焦点となっている。 以前は、粒径はデバイスの性能と相関できると仮定されていた。 本研究では,$c$-ax sapphire 上で $\alpha$-Ta を用いて比較粒径実験を行う。 本評価法は, 室温, 構造特性および低温マイクロ波測定の両方を含むが, 粒径924nm$^2$と1700nm$^2$の小型・大型のデバイスでは, 装置性能の統計的差異は認められない。 これらの結果は, c軸サファイア上に生育したtaのパラメータの損失と粒度は相関せず, 最適化のためのパラメータ空間を狭めることを示唆する。

In recent years, the implementation of thin-film Ta has led to improved coherence times in superconducting circuits. Efforts to further optimize this materials set have become a focus of the subfield of materials for superconducting quantum computing. It has been previously hypothesized that grain size could be correlated with device performance. In this work, we perform a comparative grain size experiment with $\alpha$-Ta on $c$-axis sapphire. Our evaluation methods include both room-temperature chemical and structural characterization and cryogenic microwave measurements, and we report no statistical difference in device performance between small- and larger-grain-size devices with grain sizes of 924 nm$^2$ and 1700 nm$^2$, respectively. These findings suggest that grain size is not correlated with loss in the parameter regime of interest for Ta grown on c-axis sapphire, narrowing the parameter space for optimization of this materials set.
翻訳日:2023-07-24 11:52:18 公開日:2023-07-21
# GPT-4によるCLIPの強化: プロンプトとしての視覚記述の調和

Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts ( http://arxiv.org/abs/2307.11661v1 )

ライセンス: Link先を確認
Mayug Maniparambil, Chris Vorster, Derek Molloy, Noel Murphy, Kevin McGuinness, Noel E. O'Connor(参考訳) 対照的に、CLIPのような大きなVLM(Vision-Language Model)は、下流データセットで優れたパフォーマンスを提供することで、視覚表現学習に革命をもたらした。 VLMは、データセットに関連するプロンプトを設計することで、下流データセットに0ショットで適合する。 このような迅速なエンジニアリングはドメインの専門知識と検証データセットを利用する。 一方、gpt-4のような生成前訓練モデルの最近の開発は、高度なインターネット検索ツールとして使用できることを意味する。 また、どんな構造でも視覚情報を提供するために操作することもできる。 本稿では,GPT-4を用いて視覚的に記述可能なテキストを生成し,CLIPを下流タスクに適応させる方法について述べる。 我々は、CLIPのデフォルトプロンプトと比較して、EuroSAT (~7%)、DTD (~7%)、SUN397 (~4.6%)、CUB (~3.3%)のような特殊な細粒度データセットの0ショット転送精度を大幅に改善したことを示す。 また,提案するcocoopを平均で約2%上回り,4つの特殊細粒度データセットで4%以上上回る汎用分類器を構築するために,最善の文を選択できる簡単な数ショットアダプタも設計した。 受け入れ次第、コード、プロンプト、補助的なテキストデータセットをリリースします。

Contrastive pretrained large Vision-Language Models (VLMs) like CLIP have revolutionized visual representation learning by providing good performance on downstream datasets. VLMs are 0-shot adapted to a downstream dataset by designing prompts that are relevant to the dataset. Such prompt engineering makes use of domain expertise and a validation dataset. Meanwhile, recent developments in generative pretrained models like GPT-4 mean they can be used as advanced internet search tools. They can also be manipulated to provide visual information in any structure. In this work, we show that GPT-4 can be used to generate text that is visually descriptive and how this can be used to adapt CLIP to downstream tasks. We show considerable improvements in 0-shot transfer accuracy on specialized fine-grained datasets like EuroSAT (~7%), DTD (~7%), SUN397 (~4.6%), and CUB (~3.3%) when compared to CLIP's default prompt. We also design a simple few-shot adapter that learns to choose the best possible sentences to construct generalizable classifiers that outperform the recently proposed CoCoOP by ~2% on average and by over 4% on 4 specialized fine-grained datasets. We will release the code, prompts, and auxiliary text dataset upon acceptance.
翻訳日:2023-07-24 11:51:51 公開日:2023-07-21
# フェデレーション解析を用いた個人別ヘビーヒッター検出

Differentially Private Heavy Hitter Detection using Federated Analytics ( http://arxiv.org/abs/2307.11749v1 )

ライセンス: Link先を確認
Karan Chadha, Junye Chen, John Duchi, Vitaly Feldman, Hanieh Hashemi, Omid Javidbakht, Audra McMillan, Kunal Talwar(参考訳) 本研究では,プレフィックスツリーに基づくアルゴリズムの性能向上のための実用的ヒューリスティックスについて検討する。 我々のモデルは、各ユーザが複数のデータポイントを持っていると仮定し、その目標は、すべてのユーザのデータを集約的および局所的な差分プライバシーで可能な限り多くのデータポイントを学習することである。 本稿では,計算,通信,プライバシーの制約を満たしながらアルゴリズムの性能を向上させる適応型ハイパーパラメータチューニングアルゴリズムを提案する。 本稿では,異なるデータ選択方式の影響と,アルゴリズムの複数実行における否定リストの導入の影響について検討する。 我々は、最も頻度の高い単語を学習するタスクで、redditデータセットで広範囲な実験を行い、これらの改善をテストします。

In this work, we study practical heuristics to improve the performance of prefix-tree based algorithms for differentially private heavy hitter detection. Our model assumes each user has multiple data points and the goal is to learn as many of the most frequent data points as possible across all users' data with aggregate and local differential privacy. We propose an adaptive hyperparameter tuning algorithm that improves the performance of the algorithm while satisfying computational, communication and privacy constraints. We explore the impact of different data-selection schemes as well as the impact of introducing deny lists during multiple runs of the algorithm. We test these improvements using extensive experimentation on the Reddit dataset~\cite{caldas2018leaf} on the task of learning the most frequent words.
翻訳日:2023-07-24 11:45:51 公開日:2023-07-21
# BandRe: スケールワイズオブジェクト検出のためのバンドパスフィルタの再検討

BandRe: Rethinking Band-Pass Filters for Scale-Wise Object Detection Evaluation ( http://arxiv.org/abs/2307.11748v1 )

ライセンス: Link先を確認
Yosuke Shinya(参考訳) オブジェクト検出器のスケールワイド評価は,現実の応用において重要である。 しかし、既存のメトリクスは粗いか十分に信頼できないかのいずれかである。 本稿では,三角帯域通過フィルタと台形帯域通過フィルタを組み合わせたフィルタバンクを用いて,微細度と信頼性のバランスをとる新しい尺度を提案する。 2つのデータセットに対して2つの手法による実験を行い、提案手法とデータセット間の差異を強調できることを示す。 コードはhttps://github.com/shinya7y/UniverseNetで入手できる。

Scale-wise evaluation of object detectors is important for real-world applications. However, existing metrics are either coarse or not sufficiently reliable. In this paper, we propose novel scale-wise metrics that strike a balance between fineness and reliability, using a filter bank consisting of triangular and trapezoidal band-pass filters. We conduct experiments with two methods on two datasets and show that the proposed metrics can highlight the differences between the methods and between the datasets. Code is available at https://github.com/shinya7y/UniverseNet .
翻訳日:2023-07-24 11:45:37 公開日:2023-07-21
# 量子コンピューティングのためのスケーラブルなテンソル・ネットワーク誤差軽減

Scalable tensor-network error mitigation for near-term quantum computing ( http://arxiv.org/abs/2307.11740v1 )

ライセンス: Link先を確認
Sergei Filippov, Matea Leahy, Matteo A. C. Rossi, Guillermo Garc\'ia-P\'erez(参考訳) フォールトトレランスが大規模に実装される前に、量子コンピューティングはノイズ軽減技術に大きく依存する。 確率的エラー増幅(ZNE-PEA)や確率的エラーキャンセル(PEC)といったゼロノイズ外挿法は近年,ハードウェア上でのテストが成功しているが,より大きな回路へのスケーラビリティは制限されている。 本稿では,物理観測量の推定において雑音による誤差を補正するために後処理を行うテンソルネットワーク誤り軽減アルゴリズム(tem)を提案する。 この方法は、量子プロセッサの状態に影響を与える大域的ノイズチャネルの逆数を表すテンソルネットワークの構築と、ノイズ状態から得られる測定結果を情報的に完結させるためのマップの連続的な適用とから構成される。 したがって、TEMは情報的に完備なPOVMの実装以外の追加の量子演算を必要とせず、これはランダムな局所測定によって達成できる。 TEMの主な利点は、測定オーバーヘッドがPECよりも2次的に小さいことである。 我々はtemを様々な領域の数値シミュレーションで広範囲にテストする。 E. van den Berg et al., Nat のような疎い Pauli-Lindblad ノイズの現実的な条件下では、TEM は PEC の2倍の深さの回路で使用することができる。 Phys (2023). クリフォード回路を用いて、ノイズレベルの低いより広い深い回路において、この手法の能力を探索する。 100量子ビットと深さ100の場合、PECとZNEの両方が$\sim 10^5$ ショットを使用することで正確な結果が得られず、TEMはそうである。

Before fault-tolerance becomes implementable at scale, quantum computing will heavily rely on noise mitigation techniques. While methods such as zero noise extrapolation with probabilistic error amplification (ZNE-PEA) and probabilistic error cancellation (PEC) have been successfully tested on hardware recently, their scalability to larger circuits may be limited. Here, we introduce the tensor-network error mitigation (TEM) algorithm, which acts in post-processing to correct the noise-induced errors in estimations of physical observables. The method consists of the construction of a tensor network representing the inverse of the global noise channel affecting the state of the quantum processor, and the consequent application of the map to informationally complete measurement outcomes obtained from the noisy state. TEM does therefore not require additional quantum operations other than the implementation of informationally complete POVMs, which can be achieved through randomised local measurements. The key advantage of TEM is that the measurement overhead is quadratically smaller than in PEC. We test TEM extensively in numerical simulations in different regimes. We find that TEM can be used in circuits twice as deep as PEC in realistic conditions with the sparse Pauli-Lindblad noise, such as those in E. van den Berg et al., Nat. Phys. (2023). By using Clifford circuits, we explore the capabilities of the method in wider and deeper circuits with lower noise levels. We find that in the case of 100 qubits and depth 100, both PEC and ZNE fail to produce accurate results by using $\sim 10^5$ shots, while TEM does.
翻訳日:2023-07-24 11:45:29 公開日:2023-07-21
# 重み付きグラフの絡み合いは、可変範囲相互作用モデルにおける遷移を明らかにする

Entanglement of weighted graphs uncovers transitions in variable-range interacting models ( http://arxiv.org/abs/2307.11739v1 )

ライセンス: Link先を確認
Debkanta Ghosh, Keshav Das Agarwal, Pritam Halder, Aditi Sen De(参考訳) ほぼ分離可能な状態からneighbor(nn)イジングモデルを進化させることで得られるクラスタ状態は、測定に基づく量子計算のリソースである。 NNシステムの代わりに、Isingモデルと相互作用する可変レンジパワー法則は、進化するハミルトンの本質的な特性を明らかにすることができる真のマルチパートエンタングルドグラフ状態(GME)を生成することができる。 任意の数の量子ビットを持つ進化状態における一般化幾何測度(GGM)のパターンは、フォールオフ率と進化するハミルトンの相互作用の範囲に敏感であることを示す。 本報告では, 時間微分および時間平均GGMは, 1次元および2次元格子の長範囲, 準局所および局所の異なる領域を分離し, 相互作用強度の低下速度に存在する遷移点を検出することができる。 さらに、準局所的および局所的レジームでは、長距離モデルのggmを模倣できる固定された全量子ビット数に対する進化的イジングモデルに最小のコーディネーション数が存在することを示す。 システム全体から有限サイズのサブシステムを実現するため,任意の量子ビット数の WGS を,修正重み付き量子ビットの少ない局所単位等価な WGS に還元可能な局所測定戦略を設計する。

The cluster state acquired by evolving the nearest-neighbor (NN) Ising model from a completely separable state is the resource for measurement-based quantum computation. Instead of an NN system, a variable-range power law interacting Ising model can generate a genuine multipartite entangled (GME) weighted graph state (WGS) that may reveal intrinsic characteristics of the evolving Hamiltonian. We establish that the pattern of generalized geometric measure (GGM) in the evolved state with an arbitrary number of qubits is sensitive to fall-off rates and the range of interactions of the evolving Hamiltonian. We report that the time-derivative and time-averaged GGM at a particular time can detect the transition points present in the fall-off rates of the interaction strength, separating different regions, namely long-range, quasi-local and local ones in one- and two-dimensional lattices with deformation. Moreover, we illustrate that in the quasi-local and local regimes, there exists a minimum coordination number in the evolving Ising model for a fixed total number of qubits which can mimic the GGM of the long-range model. In order to achieve a finite-size subsystem from the entire system, we design a local measurement strategy that allows a WGS of an arbitrary number of qubits to be reduced to a local unitarily equivalent WGS having fewer qubits with modified weights.
翻訳日:2023-07-24 11:44:59 公開日:2023-07-21
# 広告オークションリアリズムの推進:実践的洞察とモデル化

Advancing Ad Auction Realism: Practical Insights & Modeling Implications ( http://arxiv.org/abs/2307.11732v1 )

ライセンス: Link先を確認
Ming Chen, Sareh Nabi, Marciano Siniscalchi(参考訳) 本稿では,従来のオンラインオークションの4つの重要な現実的な特徴を活かしたオンラインオークションの学習モデルを提案する。(1) 広告スロットはユーザの検索クエリによって異なる値とクリックスルー率を持つことができ,(2) 競合広告主の数は観測されず,各オークションで変化し,(3) 広告主は部分的,集約的フィードバックのみを受け取り,(4) 支払いルールは部分的にのみ指定される。 我々は,広告主を,売出し機構の複雑さとは無関係に,敵対的盗賊アルゴリズムが支配するエージェントとしてモデル化する。 当社の目的は、偽りの分析、予測、推論の目的で広告主の行動をシミュレートすることです。 より豊かな環境では, 入札者が同じ人口から引かれる場合でも, 「ソフトフロア」が重要なパフォーマンス指標を向上できることがわかった。 さらに,観測された入札から広告主の価値分布を推定する方法を実証し,より現実的なオークション設定においても,我々のアプローチの有効性を確認する。

This paper proposes a learning model of online ad auctions that allows for the following four key realistic characteristics of contemporary online auctions: (1) ad slots can have different values and click-through rates depending on users' search queries, (2) the number and identity of competing advertisers are unobserved and change with each auction, (3) advertisers only receive partial, aggregated feedback, and (4) payment rules are only partially specified. We model advertisers as agents governed by an adversarial bandit algorithm, independent of auction mechanism intricacies. Our objective is to simulate the behavior of advertisers for counterfactual analysis, prediction, and inference purposes. Our findings reveal that, in such richer environments, "soft floors" can enhance key performance metrics even when bidders are drawn from the same population. We further demonstrate how to infer advertiser value distributions from observed bids, thereby affirming the practical efficacy of our approach even in a more realistic auction setting.
翻訳日:2023-07-24 11:44:34 公開日:2023-07-21
# 移動目標防衛による分散学習におけるコミュニケーションの脅威の軽減

Mitigating Communications Threats in Decentralized Federated Learning through Moving Target Defense ( http://arxiv.org/abs/2307.11730v1 )

ライセンス: Link先を確認
Enrique Tom\'as Mart\'inez Beltr\'an and Pedro Miguel S\'anchez S\'anchez and Sergio L\'opez Bernal and G\'er\^ome Bovet and Manuel Gil P\'erez and Gregorio Mart\'inez P\'erez and Alberto Huertas Celdr\'an(参考訳) 分散フェデレーション学習(DFL)の台頭は、フェデレーションされた参加者間で機械学習モデルのトレーニングを可能にし、分散モデルの集約を促進し、サーバへの依存を減らす。 しかし,本手法では,本論文では未解決の独特な通信セキュリティ上の課題が提起されている。 これらの課題は、主に集約プロセスの分散的な性質、参加者の役割と責任の多様性、脅威を監督し緩和する中央機関の欠如に由来する。 これらの課題に対処するため,本稿ではまず,dfl通信の潜在的なリスクを浮き彫りにした包括的脅威モデルについて述べる。 これらの特定されたリスクに対応するため、この研究はDFLプラットフォーム用に設計されたセキュリティモジュールを導入し、通信ベースの攻撃に対処する。 このモジュールは、対称暗号や非対称暗号のようなセキュリティ技術と、ランダムな隣人選択やIP/ポート切替を含む移動目標防衛(MTD)技術を組み合わせる。 セキュリティモジュールは、federstellarと呼ばれるdflプラットフォームに実装され、フェデレーションのデプロイと監視を可能にする。 8つの物理デバイスが3つのセキュリティ構成を実装したDFLシナリオがデプロイされた。 (i)セキュリティのないベースライン (ii)暗号化された構成、及び (iii)暗号化とMTD技術を統合した構成。 セキュリティモジュールの有効性は、MNISTデータセットと日食攻撃の実験を通じて検証される。 結果は、CPU使用率(63.2% +-3.5%)とネットワークトラフィック(230MB +-15MB)が、最も安全な構成で、盗聴や日食によるリスクを軽減した、95%の平均的なF1スコアを示した。

The rise of Decentralized Federated Learning (DFL) has enabled the training of machine learning models across federated participants, fostering decentralized model aggregation and reducing dependence on a server. However, this approach introduces unique communication security challenges that have yet to be thoroughly addressed in the literature. These challenges primarily originate from the decentralized nature of the aggregation process, the varied roles and responsibilities of the participants, and the absence of a central authority to oversee and mitigate threats. Addressing these challenges, this paper first delineates a comprehensive threat model, highlighting the potential risks of DFL communications. In response to these identified risks, this work introduces a security module designed for DFL platforms to counter communication-based attacks. The module combines security techniques such as symmetric and asymmetric encryption with Moving Target Defense (MTD) techniques, including random neighbor selection and IP/port switching. The security module is implemented in a DFL platform called Fedstellar, allowing the deployment and monitoring of the federation. A DFL scenario has been deployed, involving eight physical devices implementing three security configurations: (i) a baseline with no security, (ii) an encrypted configuration, and (iii) a configuration integrating both encryption and MTD techniques. The effectiveness of the security module is validated through experiments with the MNIST dataset and eclipse attacks. The results indicated an average F1 score of 95%, with moderate increases in CPU usage (up to 63.2% +-3.5%) and network traffic (230 MB +-15 MB) under the most secure configuration, mitigating the risks posed by eavesdropping or eclipse attacks.
翻訳日:2023-07-24 11:44:15 公開日:2023-07-21
# OUTFOX: 逆生成例を用いた文脈内学習によるLLM検出

OUTFOX: LLM-generated Essay Detection through In-context Learning with Adversarially Generated Examples ( http://arxiv.org/abs/2307.11729v1 )

ライセンス: Link先を確認
Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki(参考訳) 大規模言語モデル (LLM) はテキスト生成において人間レベルの流布を達成しており、人間の書き起こしとLLM生成の区別が難しい。 これはLSMを誤用するリスクが増大し、LSM生成テキストを特定するための検出器の開発が要求される。 しかし、既存の検出器はLPM生成テキストを単純に言い換えることで検出精度を低下させる。 さらに、学生がLLMを使って宿題(例えばエッセイ)を書いて、これらの検出器の回避方法を素早く学ぶなど、現実的な状況におけるこれらの検出器の有効性は研究されていない。 本稿では,LLM生成テキスト検出器のロバスト性を向上する新しいフレームワークであるOUTFOXを提案し,検出器と攻撃器の双方が相互の出力を考慮し,これを学生エッセイの領域に適用する。 本フレームワークでは,検出者の予測ラベルをコンテキスト内学習の例として使用し,検出が困難なエッセイを逆向きに生成する。 検出器は、逆向きに生成されたエッセイをコンテキスト内学習の例として使用し、強力な攻撃者からのエッセイを検出する。 実験の結果,攻撃者から学習したインコンテキスト検出器は,攻撃されたデータセットの検出性能を最大41.3ポイントf1-score向上させることがわかった。 提案する攻撃者は, パラフレージング法と比較して-57.0点f1-scoreまで検出器の性能を劇的に低下させることができる。

Large Language Models (LLMs) have achieved human-level fluency in text generation, making it difficult to distinguish between human-written and LLM-generated texts. This poses a growing risk of misuse of LLMs and demands the development of detectors to identify LLM-generated texts. However, existing detectors degrade detection accuracy by simply paraphrasing LLM-generated texts. Furthermore, the effectiveness of these detectors in real-life situations, such as when students use LLMs for writing homework assignments (e.g., essays) and quickly learn how to evade these detectors, has not been explored. In this paper, we propose OUTFOX, a novel framework that improves the robustness of LLM-generated-text detectors by allowing both the detector and the attacker to consider each other's output and apply this to the domain of student essays. In our framework, the attacker uses the detector's prediction labels as examples for in-context learning and adversarially generates essays that are harder to detect. While the detector uses the adversarially generated essays as examples for in-context learning to learn to detect essays from a strong attacker. Our experiments show that our proposed detector learned in-context from the attacker improves the detection performance on the attacked dataset by up to +41.3 point F1-score. While our proposed attacker can drastically degrade the performance of the detector by up to -57.0 point F1-score compared to the paraphrasing method.
翻訳日:2023-07-24 11:43:46 公開日:2023-07-21
# 量子力学ブートストラップにおける一次元反射

One-dimensional reflection in the quantum mechanical bootstrap ( http://arxiv.org/abs/2307.11724v1 )

ライセンス: Link先を確認
David Berenstein, George Hulsey(参考訳) 量子力学的ブートストラップの1次元散乱問題の解への応用について述べる。 境界を固定し、境界条件のロビンパラメータを変調することで、様々なポテンシャルに対する反射係数を抽出し、物理的期待値と比較することができる。 これには半定義プログラミングの応用が含まれており、任意のロビン境界条件を持つ半直線シュロッディンガー問題を解く。 最後に、WKB近似を用いて、リウヴィル理論の指数ポテンシャルの散乱挙動を数値的に決定する。

We describe the application of the quantum mechanical bootstrap to the solution of one-dimensional scattering problems. By fixing a boundary and modulating the Robin parameter of the boundary conditions we are able to extract the reflection coefficient for various potentials and compare to physical expectations. This includes an application of semidefinite programming to solving a half-line Schrodinger problem with arbitrary Robin boundary conditions. Finally, the WKB approximation is used to numerically determine the scattering behavior of the exponential potential of Liouville theory.
翻訳日:2023-07-24 11:43:23 公開日:2023-07-21
# 否定文を用いたバイオメディカル知識グラフのベンチマークデータセット

Benchmark datasets for biomedical knowledge graphs with negative statements ( http://arxiv.org/abs/2307.11719v1 )

ライセンス: Link先を確認
Rita T. Sousa, Sara Silva, Catia Pesquita(参考訳) 知識グラフは現実世界の実体に関する事実を表す。 これらの事実の多くは正の言明として定義される。 否定的な発言は少ないが、オープンワールドの仮定では極めて関連性が高い。 さらに、バイオメディカル領域において、いくつかのアプリケーションの性能向上が実証されている。 しかしながら、これらの負のステートメントを考慮したメソッドの評価をサポートするベンチマークデータセットは存在しない。 本稿では, タンパク質間相互作用予測, 遺伝子発現関連予測, 疾患予測の3つの関係予測用データセットについて, 負のステートメントを持つ知識グラフのベンチマーク構築の難しさを回避することを目的とした。 これらのデータセットには、2つの成功した生物医学的オントロジー、遺伝子オントロジーとヒト現象型オントロジーのデータが含まれており、負のステートメントが豊富である。 また,2つの一般的なパスベース手法を用いて,各データセットに対する知識グラフ埋め込みを生成し,各タスクの性能評価を行う。 その結果, 負の文は知識グラフ埋め込みの性能を向上させることができることがわかった。

Knowledge graphs represent facts about real-world entities. Most of these facts are defined as positive statements. The negative statements are scarce but highly relevant under the open-world assumption. Furthermore, they have been demonstrated to improve the performance of several applications, namely in the biomedical domain. However, no benchmark dataset supports the evaluation of the methods that consider these negative statements. We present a collection of datasets for three relation prediction tasks - protein-protein interaction prediction, gene-disease association prediction and disease prediction - that aim at circumventing the difficulties in building benchmarks for knowledge graphs with negative statements. These datasets include data from two successful biomedical ontologies, Gene Ontology and Human Phenotype Ontology, enriched with negative statements. We also generate knowledge graph embeddings for each dataset with two popular path-based methods and evaluate the performance in each task. The results show that the negative statements can improve the performance of knowledge graph embeddings.
翻訳日:2023-07-24 11:43:15 公開日:2023-07-21
# スライスされたwasserstein損失を伴うニューラルネットワーク学習のためのsgdの収束

Convergence of SGD for Training Neural Networks with Sliced Wasserstein Losses ( http://arxiv.org/abs/2307.11714v1 )

ライセンス: Link先を確認
Eloi Tanguy(参考訳) 最適輸送は近年、特にwasserstein距離のおかげで活発な関心を惹きつけており、これは幾何学的に賢明で直感的に確率測度を比較する方法を提供している。 計算上の理由から、スライデッド・ワッサースタイン距離(SW)はワッサースタイン距離の代替として導入され、生成ニューラルネットワーク(NN)のトレーニングに利用されてきた。 確率勾配Descent (SGD) の収束は, 実際にこのような状況下で観測されているが, この観測に対する理論的保証はない。 ビアンキらによる非滑らか・非凸関数に対するSGDの収束に関する最近の研究(2022年)を活用し、我々はその知識ギャップを橋渡しし、NNパラメータ上のSW損失に対する固定ステップSGD軌道が収束する現実的な文脈を提供する。 より正確には、軌道がステップが減少するにつれて(sub)勾配流れ方程式の集合に近づくことを示す。 より厳密な仮定の下では、雑音および射影されたSGDスキームに対してより強い収束結果を示す。

Optimal Transport has sparked vivid interest in recent years, in particular thanks to the Wasserstein distance, which provides a geometrically sensible and intuitive way of comparing probability measures. For computational reasons, the Sliced Wasserstein (SW) distance was introduced as an alternative to the Wasserstein distance, and has seen uses for training generative Neural Networks (NNs). While convergence of Stochastic Gradient Descent (SGD) has been observed practically in such a setting, there is to our knowledge no theoretical guarantee for this observation. Leveraging recent works on convergence of SGD on non-smooth and non-convex functions by Bianchi et al. (2022), we aim to bridge that knowledge gap, and provide a realistic context under which fixed-step SGD trajectories for the SW loss on NN parameters converge. More precisely, we show that the trajectories approach the set of (sub)-gradient flow equations as the step decreases. Under stricter assumptions, we show a much stronger convergence result for noised and projected SGD schemes, namely that the long-run limits of the trajectories approach a set of generalised critical points of the loss function.
翻訳日:2023-07-24 11:42:58 公開日:2023-07-21