このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230903となっている論文です。

PDF登録状況(公開日: 20230903)

TitleAuthorsAbstract論文公表日・翻訳日
# IoT管理のためのディジタルツインとブロックチェーン

Digital Twins and Blockchain for IoT Management ( http://arxiv.org/abs/2309.01042v1 )

ライセンス: Link先を確認
Mayra Samaniego, Ralph Deters, (参考訳) セキュリティとプライバシは、IoT管理の主要な関心事である。 スマートセンサーなどのIoTリソースのセキュリティ侵害は、機密データを漏洩し、個人のプライバシーを侵害する可能性がある。 効果的なIoT管理には、アクセスセキュリティとデータプライバシ保護を優先する包括的なアプローチが必要だ。 デジタルツインはIoTリソースの仮想表現を生成する。 BlockchainはIoTシステムに分散化、透過性、信頼性を追加する。 この研究は、IoTデータストリーミングへのアクセスを管理するために、デジタルツインとブロックチェーンを統合する。 デジタルツインは、データアクセスとビュー設定をカプセル化するために使用される。 IoTリソースに直接アクセスするのではなく、デジタルツイン上でアクセスが可能である。 スマートコントラクトとしてプログラムされたトラスト構造は、ディジタルツインへのアクセスを管理するものだ。 その結果、IoTリソースはサードパーティに公開されず、アクセスセキュリティ違反を防止できる。 ブロックチェーンは、ディジタルツインの検証と構成の保存に使用されている。 本稿では,データストリーミングビューのマルチテナントアクセスとカスタマイズを可能にし,データアクセス管理の複雑さを抽象化する。 このアプローチはアクセスとコンフィギュレーションのセキュリティとデータのプライバシ保護を提供する。

Security and privacy are primary concerns in IoT management. Security breaches in IoT resources, such as smart sensors, can leak sensitive data and compromise the privacy of individuals. Effective IoT management requires a comprehensive approach to prioritize access security and data privacy protection. Digital twins create virtual representations of IoT resources. Blockchain adds decentralization, transparency, and reliability to IoT systems. This research integrates digital twins and blockchain to manage access to IoT data streaming. Digital twins are used to encapsulate data access and view configurations. Access is enabled on digital twins, not on IoT resources directly. Trust structures programmed as smart contracts are the ones that manage access to digital twins. Consequently, IoT resources are not exposed to third parties, and access security breaches can be prevented. Blockchain has been used to validate digital twins and store their configuration. The research presented in this paper enables multitenant access and customization of data streaming views and abstracts the complexity of data access management. This approach provides access and configuration security and data privacy protection.
翻訳日:2024-03-25 23:29:06 公開日:2023-09-03
# DPoSブロックチェーンにおける液状民主主義

Liquid Democracy in DPoS Blockchains ( http://arxiv.org/abs/2309.01090v1 )

ライセンス: Link先を確認
Chao Li, Runhua Xu, Li Duan, (参考訳) 投票メカニズムは、ブロックチェーンシステムの分散ガバナンスにおいて重要な役割を果たす。 液状民主主義(英: liquid democracy, 英: delegative voting, 英: delegative voting, 英: liquid democracy)は、有権者が直接投票したり、投票権を他人に委譲したりすることを可能にし、投票者の投票率の低下などの問題の解決に寄与する。 近年、液状民主主義はDelegated-Proof-of-Stake(DPoS)ブロックチェーンによって広く採用され、数百万のユーザを持つプラットフォーム上でうまく実装されている。 しかし、分散統治における液状民主主義の特徴と実効性についてはほとんど分かっていない。 本稿では,DPoSブロックチェーンシステムにおける液状民主主義の実践的実装を初めて検討した。 EOSとSteemの2つの主要なDPoSブロックチェーンから収集された実際のデータを用いて、DPoSブロックチェーンシステムの液状民主主義におけるさまざまなタイプのユーザの関与を比較し、評価し、システム内の液状民主主義の過程で形成されたデリゲートチェーンとネットワークを抽出し分析した。 本研究の成果は, 分散統治における液状民主主義及びその他の投票機構の設計と実施に関するさらなる研究に寄与すると考えられる。

Voting mechanisms play a crucial role in decentralized governance of blockchain systems. Liquid democracy, also known as delegative voting, allows voters to vote directly or delegate their voting power to others, thereby contributing to the resolution of problems such as low voter turnout. In recent years, liquid democracy has been widely adopted by Delegated-Proof-of-Stake (DPoS) blockchains and implemented successfully on platforms with millions of users. However, little is known regarding the characteristics and actual effectiveness of liquid democracy in decentralized governance. This paper explored for the first time the practical implementation of liquid democracy in DPoS blockchain systems. Using actual data collected from two major DPoS blockchains, EOS and Steem, our study compared and evaluated the participation of different types of users of DPoS blockchain systems in liquid democracy, as well as extracting and analyzing the delegation chains and networks formed during the process of liquid democracy within the systems. We believe that the findings of this paper will contribute to further studies on the design and implementation of liquid democracy and other voting mechanisms in decentralized governance.
翻訳日:2024-03-25 23:29:06 公開日:2023-09-03
# カノニカルIoTボットネットの終焉:Miraiの子孫の計測研究

The End of the Canonical IoT Botnet: A Measurement Study of Mirai's Descendants ( http://arxiv.org/abs/2309.01130v1 )

ライセンス: Link先を確認
Leon Böck, Valentin Sundermann, Isabella Fusari, Shankar Karuppayah, Max Mühlhäuser, Dave Levin, (参考訳) 急成長するIoTの時代から、Miraiは標準的なIoTボットネットとして確立されてきた。 コードの公開から間もなく、多くのMirai変種が、同じ脆弱性のあるホストの多くで互いに競合することを発見した。 やがて、無数のミライ亜種は独自の脆弱性、防御、地域集中を組み込むように進化していった。 本稿では,三井変種は根本的に異なる点へと進化したのだろうか,と問う。 我々は,最もポピュラーな三井の子孫であるハジメとモジを測ることで,この問題に答える。 両ボットネットを同時にスキャンするために,ロバストな計測基盤であるBMSを開発し,8ヶ月以上にわたって動作させた。 結果として得られたデータセットは、これらの2つの人気ボットネットが、共通の祖先から複数の方法で進化を遂げたことを示している。 まとめると、私たちの結果は、もはや1つの標準的なIoTボットネットが存在しないことを示している。 この発見が研究者や実践者に与える影響について論じる。

Since the burgeoning days of IoT, Mirai has been established as the canonical IoT botnet. Not long after the public release of its code, researchers found many Mirai variants compete with one another for many of the same vulnerable hosts. Over time, the myriad Mirai variants evolved to incorporate unique vulnerabilities, defenses, and regional concentrations. In this paper, we ask: have Mirai variants evolved to the point that they are fundamentally distinct? We answer this question by measuring two of the most popular Mirai descendants: Hajime and Mozi. To actively scan both botnets simultaneously, we developed a robust measurement infrastructure, BMS, and ran it for more than eight months. The resulting datasets show that these two popular botnets have diverged in their evolutions from their common ancestor in multiple ways: they have virtually no overlapping IP addresses, they exhibit different behavior to network events such as diurnal rate limiting in China, and more. Collectively, our results show that there is no longer one canonical IoT botnet. We discuss the implications of this finding for researchers and practitioners.
翻訳日:2024-03-25 23:19:22 公開日:2023-09-03
# 分散システムセキュリティにおけるゲーム理論 - 基礎,課題,今後の方向性

Game Theory in Distributed Systems Security: Foundations, Challenges, and Future Directions ( http://arxiv.org/abs/2309.01281v1 )

ライセンス: Link先を確認
Mustafa Abdallah, Saurabh Bagchi, Shaunak D. Bopardikar, Kevin Chan, Xing Gao, Murat Kantarcioglu, Congmiao Li, Peng Liu, Quanyan Zhu, (参考訳) 重要なインフラストラクチャシステムやパーソナルコンピューティングシステムの多くは、分散コンピューティングシステム構造を持っています。 それらを攻撃するインセンティブは、接続度の増加による攻撃面の増加とともに急速に成長している。 したがって、このようなシステムを厳格に推し進める時が来たと感じている。 分散システムのセキュリティとゲーム理論の技術コミュニティが集結して、この課題に効果的に対処することができる。 この記事では、目標を達成するために構築できるそれぞれの基盤をレイアウトします。 次に、分析、システム、統合という3つのカテゴリに分かれたコミュニティのための一連の研究課題について述べる。 この記事は、2022年のSF SaTC PI 会議でコミュニティの議論を通じて考案された。

Many of our critical infrastructure systems and personal computing systems have a distributed computing systems structure. The incentives to attack them have been growing rapidly as has their attack surface due to increasing levels of connectedness. Therefore, we feel it is time to bring in rigorous reasoning to secure such systems. The distributed system security and the game theory technical communities can come together to effectively address this challenge. In this article, we lay out the foundations from each that we can build upon to achieve our goals. Next, we describe a set of research challenges for the community, organized into three categories -- analytical, systems, and integration challenges, each with "short term" time horizon (2-3 years) and "long term" (5-10 years) items. This article was conceived of through a community discussion at the 2022 NSF SaTC PI meeting.
翻訳日:2024-03-25 23:19:22 公開日:2023-09-03
# 自動プログラム修復のための逆パッチ生成

Adversarial Patch Generation for Automated Program Repair ( http://arxiv.org/abs/2012.11060v4 )

ライセンス: Link先を確認
Abdulaziz Alhefdhi (1 and 2), Hoa Khanh Dam (1), Thanh Le-Cong (3), Bach Le (3), Aditya Ghose (1) ((1) University of Wollongong, (2) Prince Sattam bin Abdulaziz University, (3) The University of Melbourne)(参考訳) 自動プログラム修復は近年、検索ベースとセマンティックベースのプログラム修復という2つの主な方向性に焦点をあてる様々な技術に結びついている。 前者の手法は、巨大な検索空間のためにしばしば問題に直面し、正しい解決策を見つけるのが困難になるが、後者のアプローチは、基礎となるセマンティック分析器の機能によって制限され、スケーラビリティは制限される。 本稿では,バグや修正の敵対的性質に触発された,新しい学習ベースのメカニズムであるnevermoreを提案する。 NEVERMOREはGenerative Adversarial Networksアーキテクチャに基づいて構築されており、人為的な修正を忠実に模倣する修復を生成するために、歴史的なバグ修正を訓練している。 実世界の500のバグに対する実証的な評価は、NEVERMOREがバグ修正に有効であることを示し、調査対象のバグの21.2%が人間の修正にマッチする修復を生成する。 さらに,Defects4Jデータセット上でNEVERMOREを評価し,最先端のベースラインで未解決の4つのバグの修復を行う。 nevermoreはまた、これらのベースラインのサブセットによってのみ解決された8つのバグも修正した。 最後に,入力スタイルとトレーニングスタイルがnevermoreのパフォーマンスに与える影響を詳細に分析し,選択したスタイルがモデルのバグ修正機能に与える影響を明らかにする。

Automated Program Repair has attracted significant research in recent years, leading to diverse techniques that focus on two main directions: search-based and semantic-based program repair. The former techniques often face challenges due to the vast search space, resulting in difficulties in identifying correct solutions, while the latter approaches are constrained by the capabilities of the underlying semantic analyser, limiting their scalability. In this paper, we propose NEVERMORE, a novel learning-based mechanism inspired by the adversarial nature of bugs and fixes. NEVERMORE is built upon the Generative Adversarial Networks architecture and trained on historical bug fixes to generate repairs that closely mimic human-produced fixes. Our empirical evaluation on 500 real-world bugs demonstrates the effectiveness of NEVERMORE in bug-fixing, generating repairs that match human fixes for 21.2% of the examined bugs. Moreover, we evaluate NEVERMORE on the Defects4J dataset, where our approach generates repairs for 4 bugs that remained unresolved by state-of-the-art baselines. NEVERMORE also fixes another 8 bugs which were only resolved by a subset of these baselines. Finally, we conduct an in-depth analysis of the impact of input and training styles on NEVERMORE's performance, revealing where the chosen style influences the model's bug-fixing capabilities.
翻訳日:2023-10-24 15:59:34 公開日:2023-09-03
# 税制の協調的ソフトウェア工学

Taxing Collaborative Software Engineering ( http://arxiv.org/abs/2304.06539v2 )

ライセンス: Link先を確認
Michael Dorner, Maximilian Capraro, Oliver Treidler, Tom-Eric Kunz, Darja \v{S}mite, Ehsan Zabardast, Daniel Mendez, Krzysztof Wnuk(参考訳) 複雑なソフトウェアシステムのエンジニアリングは、しばしば非常に協力的な努力の結果である。 しかし、多国籍企業内のコラボレーションは、開発者が国境を越えて協力するときに見過ごされる法的意味がある:それは課税可能である。 本稿では、国境を越えて協調ソフトウェア工学を課税する未解決問題について議論する。 我々は,(1)国際課税の基本原則を読者に紹介し,(2)ソフトウェア工学問題として協調的ソフトウェア工学を課税するための3つの主な課題を特定し,(3)多国籍ソフトウェア企業におけるクロスボーダコードレビューの測定により,現代ソフトウェア工学におけるクロスボーダコラボレーションの産業的意義を推定する。

The engineering of complex software systems is often the result of a highly collaborative effort. However, collaboration within a multinational enterprise has an overlooked legal implication when developers collaborate across national borders: It is taxable. In this article, we discuss the unsolved problem of taxing collaborative software engineering across borders. We (1) introduce the reader to the basic principle of international taxation, (2) identify three main challenges for taxing collaborative software engineering making it a software engineering problem, and (3) estimate the industrial significance of cross-border collaboration in modern software engineering by measuring cross-border code reviews at a multinational software company.
翻訳日:2023-10-24 12:46:47 公開日:2023-09-03
# 開発者がテストをどう考えるかに関する調査

A Survey on What Developers Think About Testing ( http://arxiv.org/abs/2309.01154v1 )

ライセンス: Link先を確認
Philipp Straubinger, Gordon Fraser(参考訳) ソフトウェアは品質が悪く、頻繁にバグが発生することで悪名高い。 徹底したテストが十分な品質を確保するための適切な答えであることは疑いないが、ソフトウェアの貧弱な状況は一般的に、開発者は常に必要以上にテストに精通しているとは限らないことを示唆している。 この観察は、開発者が単にテストを書くのが好きではないという一般的な信念と一致します。 この信念の真相を見極めるため,我々は,(1)開発者によるテストに対する現在の関与を評価すること,(2)テストへの傾きに影響を与える要因を特定すること,(2)実際にテストしたいが作業環境によって妨げられるか,あるいはもし選択した場合,テストがもっと少なくなりたいか,という21の質問を包括的に調査した。 プロのソフトウェア開発者から284の回答を引き合いに出し、開発者がテストする動機に肯定的かつ否定的な影響を与える理由を明らかにする。 特に、より多くのテストを書く動機の理由は、ソフトウェアの品質を追求するだけでなく、個人の満足度も追求している。 しかし、開発者はテストは平凡であると認識し、他のタスクを優先する傾向がある。 これらのネガティブな要因を軽減するための反応から生まれるアプローチのひとつは、開発者のテスト活動に対するより良い認識を提供することだ。

Software is infamous for its poor quality and frequent occurrence of bugs. While there is no doubt that thorough testing is an appropriate answer to ensure sufficient quality, the poor state of software generally suggests that developers may not always engage as thoroughly with testing as they should. This observation aligns with the prevailing belief that developers simply do not like writing tests. In order to determine the truth of this belief, we conducted a comprehensive survey with 21 questions aimed at (1) assessing developers' current engagement with testing and (2) identifying factors influencing their inclination toward testing; that is, whether they would actually like to test more but are inhibited by their work environment, or whether they would really prefer to test even less if given the choice. Drawing on 284 responses from professional software developers, we uncover reasons that positively and negatively impact developers' motivation to test. Notably, reasons for motivation to write more tests encompass not only a general pursuit of software quality but also personal satisfaction. However, developers nevertheless perceive testing as mundane and tend to prioritize other tasks. One approach emerging from the responses to mitigate these negative factors is by providing better recognition for developers' testing efforts.
翻訳日:2023-10-23 09:15:37 公開日:2023-09-03
# 誰がコピーしたの? コードクローン作成者の経験的分析

Who Made This Copy? An Empirical Analysis of Code Clone Authorship ( http://arxiv.org/abs/2309.01116v1 )

ライセンス: Link先を確認
Reishi Yokomori and Katsuro Inoue(参考訳) コードクローンは、同一または異なるファイル内の他のスニペットと同一または類似のコードスニペットである。 それらはしばしば、開発や保守活動中にコピー&ペーストによって作られる。 コードクローンは一貫性のある更新と一貫性のある管理を必要とする可能性があるため、ソフトウェアメンテナンスにおいて難しい問題が発生する。 そのため、精度、スケーラビリティ、性能の様々なクローンを見つけるために多くの研究が行われている。 しかし、コードクローンの性質の探索は限られている。 同じクローンセットのコードスニペットが同じ著者によって書かれたのか、あるいは異なる著者によって書かれたのかという根本的な問題でさえ、徹底的に調査されていない。 本稿では,著者に焦点をあてたコードクローンの特性について検討する。 我々は、GitHubに保管されている153のApacheプロジェクトで、Javaファイルの行レベルの粒度のコードクローンのオーサシップを分析し、3つの研究課題に対処した。 これらの研究の質問に基づいて、すべてのプロジェクトにかなりの数のクローンラインがあることが分かりました(すべてのプロジェクトに対して平均18.5\%)。 さらに、多くの非クローンラインに貢献している著者も多くのクローンラインに貢献している。 さらに、クローン集合の3分の1は、主に複数の主要な著者によって貢献されていることがわかった。 これらの結果はクローン特性の直感的な理解を裏付けるものであるが、複数のプロジェクトからの経験的検証データを提供していない。 結果は,より優れたクローン管理技術の設計を支援することができるため,有効なクローン管理ツールを開発することの意味について検討する。

Code clones are code snippets that are identical or similar to other snippets within the same or different files. They are often created through copy-and-paste practices during development and maintenance activities. Since code clones may require consistent updates and coherent management, they present a challenging issue in software maintenance. Therefore, many studies have been conducted to find various types of clones with accuracy, scalability, or performance. However, the exploration of the nature of code clones has been limited. Even the fundamental question of whether code snippets in the same clone set were written by the same author or different authors has not been thoroughly investigated. In this paper, we investigate the characteristics of code clones with a focus on authorship. We analyzed the authorship of code clones at the line-level granularity for Java files in 153 Apache projects stored on GitHub and addressed three research questions. Based on these research questions, we found that there are a substantial number of clone lines across all projects (an average of 18.5\% for all projects). Furthermore, authors who contribute to many non-clone lines also contribute to many clone lines. Additionally, we found that one-third of clone sets are primarily contributed to by multiple leading authors. These results confirm our intuitive understanding of clone characteristics, although no previous publications have provided empirical validation data from multiple projects. As the results could assist in designing better clone management techniques, we will explore the implications of developing an effective clone management tool.
翻訳日:2023-10-23 09:15:16 公開日:2023-09-03
# ImageNetにおける敵攻撃防止のためのロバストかつ効率的な干渉ニューラルネットワーク

Robust and Efficient Interference Neural Networks for Defending Against Adversarial Attacks in ImageNet ( http://arxiv.org/abs/2310.05947v1 )

ライセンス: Link先を確認
Yunuo Xiong, Shujuan Liu, Hongwei Xiong(参考訳) 敵対的画像の存在は、画像認識やディープラーニングの実用化の課題に深刻な影響を与えており、深層学習が緊急に解決しなければならない重要な科学的問題でもある。 最も効果的なアプローチは、多数の敵の例でニューラルネットワークをトレーニングすることである。 しかし,本手法では,ImageNetに適用する場合,膨大な計算資源を必要とするため,高強度の攻撃に対して十分な処理結果が得られていない。 本稿では,新たな背景画像とラベルを適用して干渉ニューラルネットワークを構築し,事前学習したResNet-152を用いてトレーニングを効率的に完了する。 PGD攻撃による最先端の結果と比較すると、より小さなコンピューティングリソースで防御効果が向上する。 本研究は, 学術研究の新たな考え方と, 敵対的攻撃に対する効果的な防御の実際的応用を提供する。

The existence of adversarial images has seriously affected the task of image recognition and practical application of deep learning, it is also a key scientific problem that deep learning urgently needs to solve. By far the most effective approach is to train the neural network with a large number of adversarial examples. However, this adversarial training method requires a huge amount of computing resources when applied to ImageNet, and has not yet achieved satisfactory results for high-intensity adversarial attacks. In this paper, we construct an interference neural network by applying additional background images and corresponding labels, and use pre-trained ResNet-152 to efficiently complete the training. Compared with the state-of-the-art results under the PGD attack, it has a better defense effect with much smaller computing resources. This work provides new ideas for academic research and practical applications of effective defense against adversarial attacks.
翻訳日:2023-10-23 03:52:56 公開日:2023-09-03
# クジラ最適化アルゴリズムにおける探索と搾取相のバランス:洞察力と経験的分析

Balancing exploration and exploitation phases in whale optimization algorithm: an insightful and empirical analysis ( http://arxiv.org/abs/2310.12155v1 )

ライセンス: Link先を確認
Aram M. Ahmed, Tarik A. Rashid, Bryar A. Hassan, Jaffer Majidpour, Kaniaw A. Noori, Chnoor Maheadeen Rahman, Mohmad Hussein Abdalla, Shko M. Qader, Noor Tayfor, Naufel B Mohammed(参考訳) メタヒューリスティックアルゴリズムのエージェントは、探索と搾取という2つのモードで動いている。 任意のアルゴリズムで堅牢な結果を得ることは、これらの2つのモードのバランスをとる方法に強く依存する。 文献におけるロバストでよく知られたメタヒューリスティックなアルゴリズムとしての鯨最適化アルゴリズムは、このバランスを達成するための新しいスキームを提案している。 また、幅広い応用において優れた結果も示している。 さらに,前章では,アルゴリズムの公平かつ公平な性能評価を行った。 しかし、この点において最終結果の比較のみを考慮すると、これらの結果がどのように得られたかは説明できない。 そこで本章では,WOAアルゴリズムの局所的およびグローバルな探索能力,すなわち探索と利用の比率を実証的に分析する。 この目的を達成するために、最適化プロセスの様々な段階において、人口の収束度と多様性を統計的に評価する次元ワイド多様性測定を用いる。

Agents of any metaheuristic algorithms are moving in two modes, namely exploration and exploitation. Obtaining robust results in any algorithm is strongly dependent on how to balance between these two modes. Whale optimization algorithm as a robust and well recognized metaheuristic algorithm in the literature, has proposed a novel scheme to achieve this balance. It has also shown superior results on a wide range of applications. Moreover, in the previous chapter, an equitable and fair performance evaluation of the algorithm was provided. However, to this point, only comparison of the final results is considered, which does not explain how these results are obtained. Therefore, this chapter attempts to empirically analyze the WOA algorithm in terms of the local and global search capabilities i.e. the ratio of exploration and exploitation phases. To achieve this objective, the dimension-wise diversity measurement is employed, which, at various stages of the optimization process, statistically evaluates the population's convergence and diversity.
翻訳日:2023-10-23 02:10:27 公開日:2023-09-03
# デジタルツインデータとアーキテクチャのモデリング: 実装技術としてのファーウェイによる建築ガイド

Modeling Digital Twin Data and Architecture: A Building Guide with FIWARE as Enabling Technology ( http://arxiv.org/abs/2309.12358v1 )

ライセンス: Link先を確認
Javier Conde, Andr\'es Munoz-Arcentales, \'Alvaro Alonso, Sonsoles L\'opez-Pernas, Joaqu\'in Salvach\'ua(参考訳) 産業におけるデジタルツインの利用は近年増加傾向にあり、物理的な世界と仮想世界の関係を利用して、あらゆるプロセスのライフサイクルを改善することができる。 既存の文献は、デジタルツインを構築する上でのいくつかの課題を定式化している。 しかし、ほとんどの場合、提示されるアーキテクチャや技術は、デジタル双生児が適用される領域に強く制限されている。 本稿では、コンポーネントのカタログとスマートデータモデルを組み合わせたFIWAREエコシステムを、デジタルツインの開発のためのソリューションとして提案する。 我々はまた、Parking Digital Twinの完全な例を通して、Digital Twinsの構築にFIWAREを使用する方法を示すユースケースを提供する。 FIWAREエコシステムは、あらゆるドメインでDTを開発するための真の参照オプションである。

The use of Digital Twins in the industry has become a growing trend in recent years, allowing to improve the lifecycle of any process by taking advantage of the relationship between the physical and the virtual world. Existing literature formulates several challenges for building Digital Twins, as well as some proposals for overcoming them. However, in the vast majority of the cases, the architectures and technologies presented are strongly bounded to the domain where the Digital Twins are applied. This article proposes the FIWARE Ecosystem, combining its catalog of components and its Smart Data Models, as a solution for the development of any Digital Twin. We also provide a use case to showcase how to use FIWARE for building Digital Twins through a complete example of a Parking Digital Twin. We conclude that the FIWARE Ecosystem constitutes a real reference option for developing DTs in any domain.
翻訳日:2023-10-01 12:45:07 公開日:2023-09-03
# ジャーナリズム研究におけるAI引数のマッピング

Mapping AI Arguments in Journalism Studies ( http://arxiv.org/abs/2309.12357v1 )

ライセンス: Link先を確認
Gregory Gondwe(参考訳) 本研究は,ジャーナリズムとマスコミュニケーション研究の領域における人工知能(AI)の分類について検討し,提案する。 具体例と実践的応用の提供を通じて、機械学習、自然言語処理(NLP)、音声認識、エキスパートシステム、計画、スケジューリング、最適化、ロボット工学、コンピュータビジョンを含むAIの7つの異なるサブフィールドを解明することを目指している。 第一の目的は、ジャーナリズムの分野でai研究者を支援する構造化フレームワークを開発することである。 各サブフィールドの運用原則を理解すれば、研究者は特定の研究トピックを分析する際に、特定の側面に集中する能力を高めることができる。

This study investigates and suggests typologies for examining Artificial Intelligence (AI) within the domains of journalism and mass communication research. We aim to elucidate the seven distinct subfields of AI, which encompass machine learning, natural language processing (NLP), speech recognition, expert systems, planning, scheduling, optimization, robotics, and computer vision, through the provision of concrete examples and practical applications. The primary objective is to devise a structured framework that can help AI researchers in the field of journalism. By comprehending the operational principles of each subfield, scholars can enhance their ability to focus on a specific facet when analyzing a particular research topic.
翻訳日:2023-10-01 12:44:52 公開日:2023-09-03
# LLMコード生成におけるバイアス評価と緩和

Bias Assessment and Mitigation in LLM-based Code Generation ( http://arxiv.org/abs/2309.14345v1 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu, Jie Zhang, Xiaofei Xie, Junjie Chen, Heming Cui(参考訳) 最先端の大規模言語モデル(LLM)を利用することで、自動コード生成モデルは、ソフトウェア開発のコーディング手順の生産性と効率を高める上で重要な役割を果たす。 ソフトウェアコーディングのエコシステムにおいて、llmの採用がより普及するにつれて、問題が発生する。 生成されたコードは年齢、性別、人種に関連するような社会的バイアスを含んでいるか? この問題は、これらのモデルによって生成されたコードに依存するソフトウェアアプリケーションの完全性、公平性、倫理的基盤に関するものである。 本稿では,コード生成タスク用に特別に設計されたバイアスアセスメントフレームワークを提案する。 このフレームワークに基づき、我々は9つの最先端llmベースのコード生成モデルのバイアスを広範囲に評価する。 その結果、まず、評価されたコード生成モデルによって生成された31.45\%から79.93\%のコード関数にバイアスがかかり、9.68\%から37.37\%のコード関数の機能はバイアスによって影響を受けることが判明した。 コード生成モデルからのバイアスを軽減するために、バイアスのあるコード比率を0.4\%から4.57\%に下げる3つの緩和戦略を提案する。

Utilizing state-of-the-art Large Language Models (LLMs), automatic code generation models play a pivotal role in enhancing the productivity and efficiency of software development coding procedures. As the adoption of LLMs becomes more widespread in software coding ecosystems, a pressing issue has emerged: does the generated code contain social biases, such as those related to age, gender, and race? This issue concerns the integrity, fairness, and ethical foundation of software applications that depend on the code generated by these models, yet is under-explored in the literature. This paper presents a novel bias assessment framework that is specifically designed for code generation tasks. Based on this framework, we conduct an extensive evaluation on the bias of nine state-of-the-art LLM-based code generation models. Our findings reveal that first, 31.45\% to 79.93\% code functions generated by our evaluated code generation models are biased, and 9.68\% to 37.37\% code functions' functionality are affected by the bias, which means biases not only exist in code generation models but in some cases, directly affect the functionality of the generated code, posing risks of unintended and possibly harmful software behaviors. To mitigate bias from code generation models, we propose three mitigation strategies, which can decrease the biased code ratio to a very low level of 0.4\% to 4.57\%.
翻訳日:2023-10-01 12:15:03 公開日:2023-09-03
# トラベリングウェーブは近年の変遷とシーケンス学習をエンコードする

Traveling Waves Encode the Recent Past and Enhance Sequence Learning ( http://arxiv.org/abs/2309.08045v1 )

ライセンス: Link先を確認
T. Anderson Keller, Lyle Muller, Terrence Sejnowski, Max Welling(参考訳) 神経活動の進行波は脳全体で様々な領域やスケールで観測されているが、その正確な計算的役割は議論されている。 物理的に根拠のある仮説では、皮質シートは、皮質表面を横切る誘導波を通してシーケンシャルな刺激の短期記憶を記憶できる波場のように振る舞うことができる。 しかし、このアイデアの計算的意味は、そのような波を表現できる単純なリカレントニューラルネットワークアーキテクチャが欠如しているため、いまだに仮説的のままである。 本稿では、このギャップを埋めるモデルを紹介し、Wave-RNN (wRNN) を表現し、接続制約と初期化の両方が、ウェーブライクなダイナミクスの出現において重要な役割を果たすことを示す。 そして、このようなアーキテクチャが、wRNNがより速く学習し、ウェーブフリーのタスクよりもはるかに優れた性能を発揮する合成メモリタスクによって、最近の過去をいかに効率的にエンコードしているかを実証的に示す。 最後に, 逐次画像分類などの複雑なシーケンスモデリングタスクにおいて, このメモリ記憶システムが持つ意味を考察し, パラメータを著しく減らしながら, またLSTMやGRUといった複雑なゲートアーキテクチャに対して, ウェーブベースモデルが同等のウェーブフリーRNNよりも優れていることを示す。 結論として,これらの結果が神経科学と機械学習の両方に与える影響について論じた。

Traveling waves of neural activity have been observed throughout the brain at a diversity of regions and scales; however, their precise computational role is still debated. One physically grounded hypothesis suggests that the cortical sheet may act like a wave-field capable of storing a short-term memory of sequential stimuli through induced waves traveling across the cortical surface. To date, however, the computational implications of this idea have remained hypothetical due to the lack of a simple recurrent neural network architecture capable of exhibiting such waves. In this work, we introduce a model to fill this gap, which we denote the Wave-RNN (wRNN), and demonstrate how both connectivity constraints and initialization play a crucial role in the emergence of wave-like dynamics. We then empirically show how such an architecture indeed efficiently encodes the recent past through a suite of synthetic memory tasks where wRNNs learn faster and perform significantly better than wave-free counterparts. Finally, we explore the implications of this memory storage system on more complex sequence modeling tasks such as sequential image classification and find that wave-based models not only again outperform comparable wave-free RNNs while using significantly fewer parameters, but additionally perform comparably to more complex gated architectures such as LSTMs and GRUs. We conclude with a discussion of the implications of these results for both neuroscience and machine learning.
翻訳日:2023-09-24 04:23:47 公開日:2023-09-03
# LLMを用いた生成データ拡張による質問応答における分布ロバスト性の改善

Generative Data Augmentation using LLMs improves Distributional Robustness in Question Answering ( http://arxiv.org/abs/2309.06358v1 )

ライセンス: Link先を確認
Arijit Ghosh Chowdhury, Aman Chadha(参考訳) 自然言語処理におけるロバスト性は相変わらず問題であり続けており、アートモデルの状態は自然にシフトした分布の下でパフォーマンスが低い。 質問への回答という文脈では、ドメイン適応法の研究は依然として研究の段階である。 しかし、対象領域が不明な自然分布シフトの下での領域一般化の概念にはほとんど注目されていない。 生成モデルの品質とアクセスの劇的な改善により、私たちは疑問に答える。 生成データセットは、自然分布シフトの下でのQAモデルの性能にどのように影響しますか? 分散シフトの異なる4つの異なるデータセットで実験を行い、"in-the-wild"生成がドメインの一般化にどのように役立つかを分析する。 既存のデータセットを拡張するために、コンテキストとQAペアの両方を生成します。 実験を通じて、生成したデータによる読解データセットの強化が、自然分布シフトに対するロバスト性の向上につながることを示す。

Robustness in Natural Language Processing continues to be a pertinent issue, where state of the art models under-perform under naturally shifted distributions. In the context of Question Answering, work on domain adaptation methods continues to be a growing body of research. However, very little attention has been given to the notion of domain generalization under natural distribution shifts, where the target domain is unknown. With drastic improvements in the quality and access to generative models, we answer the question: How do generated datasets influence the performance of QA models under natural distribution shifts? We perform experiments on 4 different datasets under varying amounts of distribution shift, and analyze how "in-the-wild" generation can help achieve domain generalization. We take a two-step generation approach, generating both contexts and QA pairs to augment existing datasets. Through our experiments, we demonstrate how augmenting reading comprehension datasets with generated data leads to better robustness towards natural distribution shifts.
翻訳日:2023-09-17 13:59:54 公開日:2023-09-03
# DebSDF:ニューラル・インハウス・シーン・コンストラクションの詳細と課題

DebSDF: Delving into the Details and Bias of Neural Indoor Scene Reconstruction ( http://arxiv.org/abs/2308.15536v2 )

ライセンス: Link先を確認
Yuting Xiao, Jingwei Xu, Zehao Yu, Shenghua Gao(参考訳) 近年,そのシンプルさと最先端性能から,多面的表面再構成の強力な表現として,ニューラル暗黙表面が出現している。 しかし,マルチビュー画像から室内のスムーズで詳細な表面を再構築することは,ユニークな課題である。 室内のシーンは、通常、大きなテクスチャのない領域を含み、暗黙の表面を最適化するために測光損失を信頼できない。 それまでの作業は、屋内のシーンの再構築を改善するために、単眼の幾何学的手法を用いていた。 しかし、単分子前駆体は、ドメインギャップと異なる視点から独立して導かれるとき固有の矛盾により、細い構造領域に重大な誤りを含むことが多い。 本稿では,これらの課題に対処するために,単分子前駆体における不確実性の利用とSDFに基づくボリュームレンダリングのバイアスに着目した「textbf{DebSDF}」を提案する。 そこで本研究では,より大きな不確実性と単眼前兆の誤差を関連付ける不確実性モデリング手法を提案する。 そして、バイアスを防ぐために高い未確認の優先順位を最適化から除外する。 この不確実性尺度はまた、重要誘導光サンプリングと適応的滑らか性正規化を通知し、微細構造の学習を促進する。 さらに、ビュー方向とSDF正規度の間の曲率と角度を考慮した密度変換にバイアス対応符号距離関数を導入し、より詳細な情報を再構築する。 提案手法は,いくつかの挑戦的データセットに対する広範囲な実験により検証され,室内の薄層構造を再構築する際の質的,定量的な結果が得られた。

In recent years, the neural implicit surface has emerged as a powerful representation for multi-view surface reconstruction due to its simplicity and state-of-the-art performance. However, reconstructing smooth and detailed surfaces in indoor scenes from multi-view images presents unique challenges. Indoor scenes typically contain large texture-less regions, making the photometric loss unreliable for optimizing the implicit surface. Previous work utilizes monocular geometry priors to improve the reconstruction in indoor scenes. However, monocular priors often contain substantial errors in thin structure regions due to domain gaps and the inherent inconsistencies when derived independently from different views. This paper presents \textbf{DebSDF} to address these challenges, focusing on the utilization of uncertainty in monocular priors and the bias in SDF-based volume rendering. We propose an uncertainty modeling technique that associates larger uncertainties with larger errors in the monocular priors. High-uncertainty priors are then excluded from optimization to prevent bias. This uncertainty measure also informs an importance-guided ray sampling and adaptive smoothness regularization, enhancing the learning of fine structures. We further introduce a bias-aware signed distance function to density transformation that takes into account the curvature and the angle between the view direction and the SDF normals to reconstruct fine details better. Our approach has been validated through extensive experiments on several challenging datasets, demonstrating improved qualitative and quantitative results in reconstructing thin structures in indoor scenes, thereby outperforming previous work.
翻訳日:2023-09-08 16:08:40 公開日:2023-09-03
# スポーツにおける多目的追跡のための反復的スケールアップIoUとディープ・フィーチャーズ・アソシエーション

Iterative Scale-Up ExpansionIoU and Deep Features Association for Multi-Object Tracking in Sports ( http://arxiv.org/abs/2306.13074v4 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Cheng-Yen Yang, Jiacheng Sun, Jenq-Neng Hwang, Chung-I Huang(参考訳) 深層学習に基づく物体検出装置は、多目的追跡アルゴリズムの顕著な進歩を導いている。 しかし、現在の追跡手法は主に歩行者や車両の単純で規則的な動きパターンに焦点を当てている。 これは、アスリートのような非線形不規則な動きを持つターゲットの追跡アルゴリズムのギャップを残している。 さらに、最近の追跡アルゴリズムにおけるカルマンフィルタに依存すると、物体の動きがその線形仮定に反するときに不足する。 これらの課題を克服するために,スポーツシナリオの多対象追跡に焦点を当てた,Deep ExpansionIoU(Deep-EIoU)という,オンラインかつ堅牢な多対象追跡手法を提案する。 従来の手法とは異なり、カルマンフィルタの使用を放棄し、スポーツシナリオにおける拡張IoUの反復的なスケールアップと深い特徴を活用する。 このアプローチは、トラッキングプロセスをオンラインに保ちながら、より堅牢な検出器を採用することなく、優れたトラッキング性能を実現する。 提案手法は,SportsMOTデータセットでは77.2% HOTA,SportsNet-Trackingデータセットでは85.4% HOTAを達成し,不規則な動作物体の追跡に顕著な効果を示した。 さまざまなスポーツシナリオをカバーする、さまざまな大規模マルチオブジェクトトラッキングベンチマークで、これまでの最先端のトラッカーを上回っている。

Deep learning-based object detectors have driven notable progress in multi-object tracking algorithms. Yet, current tracking methods mainly focus on simple, regular motion patterns in pedestrians or vehicles. This leaves a gap in tracking algorithms for targets with nonlinear, irregular motion, like athletes. Additionally, relying on the Kalman filter in recent tracking algorithms falls short when object motion defies its linear assumption. To overcome these issues, we propose a novel online and robust multi-object tracking approach named deep ExpansionIoU (Deep-EIoU), which focuses on multi-object tracking for sports scenarios. Unlike conventional methods, we abandon the use of the Kalman filter and leverage the iterative scale-up ExpansionIoU and deep features for robust tracking in sports scenarios. This approach achieves superior tracking performance without adopting a more robust detector, all while keeping the tracking process in an online fashion. Our proposed method demonstrates remarkable effectiveness in tracking irregular motion objects, achieving a score of 77.2% HOTA on the SportsMOT dataset and 85.4% HOTA on the SoccerNet-Tracking dataset. It outperforms all previous state-of-the-art trackers on various large-scale multi-object tracking benchmarks, covering various kinds of sports scenarios.
翻訳日:2023-09-07 18:47:21 公開日:2023-09-03
# RSDiff:拡散モデルを用いたテキストからのリモートセンシング画像生成

RSDiff: Remote Sensing Image Generation from Text Using Diffusion Model ( http://arxiv.org/abs/2309.02455v1 )

ライセンス: Link先を確認
Ahmad Sebaq, Mohamed ElHelw(参考訳) 衛星画像の生成と超高解像度化はリモートセンシングにおいて重要な課題であり、正確な分析と意思決定のために高品質で詳細な画像を必要とする。 本稿では,2段階拡散モデルを用いて,テキストのプロンプトに基づいて高解像度の衛星画像を生成する手法を提案する。 我々の革新的なパイプラインは、テキストから低解像度画像を生成する低解像度生成拡散モデル(LR-GDM)と高解像度拡散モデル(SRDM)の2つの相互接続拡散モデルからなる。 LR-GDMは、低解像度(テキスト埋め込みと画像埋め込みの相関を共有潜在空間に計算)を効果的に合成し、所望のシーンの本質的内容とレイアウトをキャプチャする。 その後、SRDMは、生成された低解像度画像とその対応するテキストをプロンプトし、その高解像度画像を効率よく生成し、きめ細かい空間的詳細を注入し、視覚的忠実度を高める。 一般的に使用されるデータセットであるRemote Sensing Image Captioning Dataset (RSICD)で実験が行われる。 提案手法は,現実的な地理的特徴,気象条件,土地構造を持つ衛星画像を生成する上で,既存のSoTAモデルよりも優れており,空間精度の向上には優れた超解像結果が得られた。

Satellite imagery generation and super-resolution are pivotal tasks in remote sensing, demanding high-quality, detailed images for accurate analysis and decision-making. In this paper, we propose an innovative and lightweight approach that employs two-stage diffusion models to gradually generate high-resolution Satellite images purely based on text prompts. Our innovative pipeline comprises two interconnected diffusion models: a Low-Resolution Generation Diffusion Model (LR-GDM) that generates low-resolution images from text and a Super-Resolution Diffusion Model (SRDM) conditionally produced. The LR-GDM effectively synthesizes low-resolution by (computing the correlations of the text embedding and the image embedding in a shared latent space), capturing the essential content and layout of the desired scenes. Subsequently, the SRDM takes the generated low-resolution image and its corresponding text prompts and efficiently produces the high-resolution counterparts, infusing fine-grained spatial details and enhancing visual fidelity. Experiments are conducted on the commonly used dataset, Remote Sensing Image Captioning Dataset (RSICD). Our results demonstrate that our approach outperforms existing state-of-the-art (SoTA) models in generating satellite images with realistic geographical features, weather conditions, and land structures while achieving remarkable super-resolution results for increased spatial precision.
翻訳日:2023-09-07 18:04:37 公開日:2023-09-03
# 確率量子理論

The Stochastic-Quantum Theorem ( http://arxiv.org/abs/2309.03085v1 )

ライセンス: Link先を確認
Jacob A. Barandes(参考訳) 本稿では、物理学や力学系の理論と密接な関係を持つ数種類の数学構造について述べる。 これらの構造のうち最も一般的なものは一般化確率系と呼ばれ、マルコフ連鎖やランダム力学系を含む多くの重要な確率過程を含んでいる。 この論文は、任意の一般化確率系とユニタリ進化量子系との間の正確な対応を確立する新しい定理を述べ、証明する。 したがって、この定理はヒルベルト空間、経路積分、準確率公式と並行して量子論の新しい定式化をもたらす。 この定理はまた、なぜ量子系が複素数、ヒルベルト空間、線型単位時間発展、ボルン則に基づいているのかを第一原理で説明する。 さらに、この定理は、適切なヒルベルト空間を選択することで、ユニタリ進化の適切な選択とともに、量子コンピュータ上の任意の一般化確率系をシミュレートし、量子コンピューティングのための新しい応用の幅広い集合を開くことができることを示唆している。

This paper introduces several new classes of mathematical structures that have close connections with physics and with the theory of dynamical systems. The most general of these structures, called generalized stochastic systems, collectively encompass many important kinds of stochastic processes, including Markov chains and random dynamical systems. This paper then states and proves a new theorem that establishes a precise correspondence between any generalized stochastic system and a unitarily evolving quantum system. This theorem therefore leads to a new formulation of quantum theory, alongside the Hilbert-space, path-integral, and quasiprobability formulations. The theorem also provides a first-principles explanation for why quantum systems are based on the complex numbers, Hilbert spaces, linear-unitary time evolution, and the Born rule. In addition, the theorem suggests that by selecting a suitable Hilbert space, together with an appropriate choice of unitary evolution, one can simulate any generalized stochastic system on a quantum computer, thereby potentially opening up an extensive set of novel applications for quantum computing.
翻訳日:2023-09-07 14:57:49 公開日:2023-09-03
# 2重ロバスト関数の選択的機械学習

Selective machine learning of doubly robust functionals ( http://arxiv.org/abs/1911.02029v6 )

ライセンス: Link先を確認
Yifan Cui and Eric Tchetgen Tchetgen(参考訳) モデル選択は、パラメトリックおよび非パラメトリック回帰または密度推定においてよく研究されているトピックであるが、半パラメトリック問題における高次元ニュアンスパラメータの選択は、はるかに少ない。 本稿では,半パラメトリックモデル上で定義される有限次元関数に関する推論を行うための選択的機械学習フレームワークを提案する。 ダブルロバスト性にインスパイアされた疑似リスクの新しい定義に基づいて,関心関数の推定におけるバイアス低減を目的とした新たな選択基準を提案する。 直感的には、提案した基準は最小の擬似リスクを持つ学習者を選択するため、推定関数はニュアンスパラメータの摂動に最も敏感である。 我々は,2組の候補学習者に対して擬似リスクの事前知識を持つオラクルと同様に,経験的基準がほぼ同等であることを示す,新しい選択基準の多次元クロスバリデーションバージョンに対するオラクル特性を確立する。 最後に, 提案手法を用いて, シミュレーションおよびデータ応用による観察研究において, 候補マシン学習者の集合を考慮し, 平均治療効果の半パラメトリック推定器のモデル選択に適用する。

While model selection is a well-studied topic in parametric and nonparametric regression or density estimation, selection of possibly high-dimensional nuisance parameters in semiparametric problems is far less developed. In this paper, we propose a selective machine learning framework for making inferences about a finite-dimensional functional defined on a semiparametric model, when the latter admits a doubly robust estimating function and several candidate machine learning algorithms are available for estimating the nuisance parameters. We introduce a new selection criterion aimed at bias reduction in estimating the functional of interest based on a novel definition of pseudo-risk inspired by the double robustness property. Intuitively, the proposed criterion selects a pair of learners with the smallest pseudo-risk, so that the estimated functional is least sensitive to perturbations of a nuisance parameter. We establish an oracle property for a multi-fold cross-validation version of the new selection criterion which states that our empirical criterion performs nearly as well as an oracle with a priori knowledge of the pseudo-risk for each pair of candidate learners. Finally, we apply the approach to model selection of a semiparametric estimator of average treatment effect given an ensemble of candidate machine learners to account for confounding in an observational study which we illustrate in simulations and a data application.
翻訳日:2023-09-07 12:39:01 公開日:2023-09-03
# Het-node2vec:不均一多グラフ埋め込みのための2次ランダムウォークサンプリング

Het-node2vec: second order random walk sampling for heterogeneous multigraphs embedding ( http://arxiv.org/abs/2101.01425v2 )

ライセンス: Link先を確認
Giorgio Valentini and Elena Casiraghi and Luca Cappelletti and Tommaso Fontana and Justin Reese and Peter Robinson(参考訳) ヘテロジニアスグラフのためのグラフ表現学習法の開発は、複数のコンテキストにおいて異なるタイプのノードとエッジによって特徴づけられるため、いくつかの実世界のアプリケーションにおいて基礎となる。 本稿では,ノード近傍サンプリング法を異種マルチグラフに拡張するアルゴリズムフレームワーク(Het-node2vec)を提案する。 その結果得られたランダムウォークサンプルは、グラフの構造的特徴と異なる種類のノードとエッジのセマンティクスの両方をキャプチャする。 提案するアルゴリズムは、特定のノードやエッジタイプに注目して、調査中の予測問題に関心のある未表示のノード/エッジタイプに対する正確な表現を可能にする。 これらの豊かでよく焦点を絞った表現は、異種グラフの教師なしおよび教師なしの学習を促進することができる。

The development of Graph Representation Learning methods for heterogeneous graphs is fundamental in several real-world applications, since in several contexts graphs are characterized by different types of nodes and edges. We introduce a an algorithmic framework (Het-node2vec) that extends the original node2vec node-neighborhood sampling method to heterogeneous multigraphs. The resulting random walk samples capture both the structural characteristics of the graph and the semantics of the different types of nodes and edges. The proposed algorithms can focus their attention on specific node or edge types, allowing accurate representations also for underrepresented types of nodes/edges that are of interest for the prediction problem under investigation. These rich and well-focused representations can boost unsupervised and supervised learning on heterogeneous graphs.
翻訳日:2023-09-07 12:32:47 公開日:2023-09-03
# エネルギーレベル統計からの動的量子エルゴディディティ

Dynamical quantum ergodicity from energy level statistics ( http://arxiv.org/abs/2205.05704v3 )

ライセンス: Link先を確認
Amit Vikram and Victor Galitski(参考訳) エルゴード理論は、エルゴード階層の形式的定義を含む古典力学系におけるカオスの厳密な数学的記述を提供する。 量子系のエネルギー準位や固有状態にエルゴード力学がどのように反映されるかは量子カオスの中心的な問題であるが、エルゴード性という厳密な量子概念はいまだに解明されていない。 古典的エルゴード階層と密接に関連しているのは、循環的周期変換(例えば、I. Cornfield, S. Fomin, and Y. Sinai, Ergodic Theory (Springer-Verlag New York, 1982))のあまり知られていない概念である。 本稿では、循環エルゴディディティが量子力学系に一般化し、厳密な観測不能な量子エルゴディディティの定義を提供することを示す。 これは、量子力学が任意の初期基底ベクトルを巡回列内の他の基底ベクトルと十分に大きな重なりを持つように輸送する正規直交基底を構成する能力を意味する。 これらの量子巡回置換の重なりを最大化する基礎は、エネルギー固有状態の離散フーリエ変換によって得られることが証明されている。 これは、量子巡回エルゴード性とエネルギー準位統計を関連づける。 ウィグナー・ダイソンランダム行列のレベル統計は、通常経験的場における量子カオスと関連付けられ、この一般関係の特別な場合として導かれる。 一般性を示すために、2次元トーラス上の不合理な流れが古典的かつ量子環状エルゴードであり、ウィグナー・ダイソンとは異なるスペクトル剛性を持つことを証明する。 最後に、演算子の量子エルゴード階層を動機付け、固有熱化との関係について論じる。 この研究はエルゴード理論の厳密な概念を量子力学系に移植するための一般的な枠組みを提供する。

Ergodic theory provides a rigorous mathematical description of chaos in classical dynamical systems, including a formal definition of the ergodic hierarchy. How ergodic dynamics is reflected in the energy levels and eigenstates of a quantum system is the central question of quantum chaos, but a rigorous quantum notion of ergodicity remains elusive. Closely related to the classical ergodic hierarchy is a less-known notion of cyclic approximate periodic transformations [see, e.g., I. Cornfield, S. Fomin, and Y. Sinai, Ergodic Theory (Springer-Verlag New York, 1982)], which maps any "ergodic" dynamical system to a cyclic permutation on a circle and arguably represents the most elementary form of ergodicity. This paper shows that cyclic ergodicity generalizes to quantum dynamical systems, and provides a rigorous observable-independent definition of quantum ergodicity. It implies the ability to construct an orthonormal basis, where quantum dynamics transports any initial basis vector to have a sufficiently large overlap with each of the other basis vectors in a cyclic sequence. It is proven that the basis, maximizing the overlap over all such quantum cyclic permutations, is obtained via the discrete Fourier transform of the energy eigenstates. This relates quantum cyclic ergodicity to energy level statistics. The level statistics of Wigner-Dyson random matrices, usually associated with quantum chaos on empirical grounds, is derived as a special case of this general relation. To demonstrate generality, we prove that irrational flows on a 2D torus are classical and quantum cyclic ergodic, with spectral rigidity distinct from Wigner-Dyson. Finally, we motivate a quantum ergodic hierarchy of operators and discuss connections to eigenstate thermalization. This work provides a general framework for transplanting some rigorous concepts of ergodic theory to quantum dynamical systems.
翻訳日:2023-09-07 12:14:16 公開日:2023-09-03
# 機能的不変経路を横断するフレキシブル機械学習システム

Engineering flexible machine learning systems by traversing functionally-invariant paths ( http://arxiv.org/abs/2205.00334v4 )

ライセンス: Link先を確認
Guruprasad Raghavan, Bahey Tharwat, Surya Narayanan Hari, Dhruvil Satani, Matt Thomson(参考訳) トランスフォーマーは自然言語処理とコンピュータビジョンのための最先端のニューラルネットワークアーキテクチャとして登場した。 基礎モデルパラダイムでは、単語や画像マスキングなどの自己教師型タスクに対して、大きなトランスフォーマーモデル(BERT, GPT3/4, Bloom, ViT)を事前訓練し、その後、インストラクションフォローや質問応答を含むダウンストリームユーザアプリケーションの微調整により適応する。 低ランク更新戦略(LoRAなど)を含むモデル微調整のための多くのアプローチが開発されているが、知識損失のないネットワーク適応を可能にする基礎となる数学的原理は理解されていない。 本稿では,機械学習の目標やネットワークスパーシフィケーションの目的に対して,ニューラルネットワークを柔軟かつ連続的に適応するための微分幾何フレームワークfip(functionally invariant paths)を提案する。 我々は、ニューラルネットワークの重み空間を、スペクトルが、事前の知識を失うことなくネットワーク適応に対応する重み空間の低階部分空間を定義する計量テンソルを備えた曲面リーマン多様体として概念化する。 重み空間における測地路に沿った移動として適応を定式化し,二次目的に対応するネットワークを探索する。 控えめな計算資源を用いて、FIPアルゴリズムは、言語モデル(BERT)、視覚変換器(ViT、DeIT)、CNN(CNN)の連続学習およびスパーシフィケーションタスクにおける技術性能の状態を同等に達成する。 広義には、ニューラルネットワークを、パスサンプリングアルゴリズムによって異なる構成に反復的に変換できる数学的対象として捉え、ユーザー目標を達成するために利用できる重み空間のサブマニフォールドを定義する。

Transformers have emerged as the state of the art neural network architecture for natural language processing and computer vision. In the foundation model paradigm, large transformer models (BERT, GPT3/4, Bloom, ViT) are pre-trained on self-supervised tasks such as word or image masking, and then, adapted through fine-tuning for downstream user applications including instruction following and Question Answering. While many approaches have been developed for model fine-tuning including low-rank weight update strategies (eg. LoRA), underlying mathematical principles that enable network adaptation without knowledge loss remain poorly understood. Here, we introduce a differential geometry framework, functionally invariant paths (FIP), that provides flexible and continuous adaptation of neural networks for a range of machine learning goals and network sparsification objectives. We conceptualize the weight space of a neural network as a curved Riemannian manifold equipped with a metric tensor whose spectrum defines low rank subspaces in weight space that accommodate network adaptation without loss of prior knowledge. We formalize adaptation as movement along a geodesic path in weight space while searching for networks that accommodate secondary objectives. With modest computational resources, the FIP algorithm achieves comparable to state of the art performance on continual learning and sparsification tasks for language models (BERT), vision transformers (ViT, DeIT), and the CNNs. Broadly, we conceptualize a neural network as a mathematical object that can be iteratively transformed into distinct configurations by the path-sampling algorithm to define a sub-manifold of weight space that can be harnessed to achieve user goals.
翻訳日:2023-09-07 12:13:16 公開日:2023-09-03
# 非許可顔認識システムに対する低mid逆摂動

Low-Mid Adversarial Perturbation against Unauthorized Face Recognition System ( http://arxiv.org/abs/2206.09410v2 )

ライセンス: Link先を確認
Jiaming Zhang, Qi Yi, Dongyuan Lu, Jitao Sang(参考訳) 顔認識システムの不正使用や個人のプライバシーへの影響に関する懸念が高まる中、潜在的な対策としての敵対的摂動の探索が勢いを増している。 しかし、JPEG圧縮がインターネット上の画像配信に与える影響により、この手法を非公認の顔認識システムに対して効果的に展開することで、最終的には敵の摂動の有効性が低下する。 既存のJPEG圧縮耐性技術は、耐性、転送可能性、攻撃能力のバランスをとるのに苦労している。 これらの制限に対処するため,我々は,emph{low frequency adversarial perturbation} (lfap) と呼ばれる新しい解を提案する。 この手法は、逆トレーニングにより低周波特性を利用するようにソースモデルに条件付けする。 さらなる性能向上のために,中周波数成分を付加的に組み込んだ改良型 'emph{low-mid frequency adversarial perturbation} (LMFAP) を導入する。 私たちの研究は、クロスバックボーン、スーパーバイザーヘッド、データセットのトレーニング、データセットのテストなど、真のアプリケーションシナリオを再現するためのさまざまな設定を含んでいる。 さらに,商用ブラックボックスapiである \texttt{face++} のアプローチを評価した。 実験結果は,提案手法による最先端性能の検証を行った。

In light of the growing concerns regarding the unauthorized use of facial recognition systems and its implications on individual privacy, the exploration of adversarial perturbations as a potential countermeasure has gained traction. However, challenges arise in effectively deploying this approach against unauthorized facial recognition systems due to the effects of JPEG compression on image distribution across the internet, which ultimately diminishes the efficacy of adversarial perturbations. Existing JPEG compression-resistant techniques struggle to strike a balance between resistance, transferability, and attack potency. To address these limitations, we propose a novel solution referred to as \emph{low frequency adversarial perturbation} (LFAP). This method conditions the source model to leverage low-frequency characteristics through adversarial training. To further enhance the performance, we introduce an improved \emph{low-mid frequency adversarial perturbation} (LMFAP) that incorporates mid-frequency components for an additive benefit. Our study encompasses a range of settings to replicate genuine application scenarios, including cross backbones, supervisory heads, training datasets, and testing datasets. Moreover, we evaluated our approaches on a commercial black-box API, \texttt{Face++}. The empirical results validate the cutting-edge performance achieved by our proposed solutions.
翻訳日:2023-09-07 12:05:18 公開日:2023-09-03
# 超エルゴトロピーの弱い測定結果

Selective weak measurement reveals super ergotropy ( http://arxiv.org/abs/2208.00634v2 )

ライセンス: Link先を確認
Mohammad Ali Balkanlu, Esfandyar Faizi and Bahram Ahansaz(参考訳) エルゴトロピーの概念は、量子状態から最大抽出可能な仕事として以前に導入された。 その強化は、投影計測による量子相関によって引き起こされ、デーモニック・エルゴトロピーとして定式化された。 本研究では,測定系に対する優雅な影響から,弱測定による量子相関の存在下でのエルゴトロピーについて検討する。 主系と主系からなる二成分相関量子系を考えることで,非選択的弱測定によるアンシラの抽出可能な仕事が,強い測定によって得られる状況と常に等しいことを証明した。 しかし、選択的な弱い測定により、デーモンのエルゴトロピーよりも多くの仕事が明らかとなり、全体系のエルゴトロピーはデイモンのエルゴトロピーよりも大きいか等しい。 また,ベル対角状態においては,量子相関を損なうコストで,総抽出能と非局所抽出能を測定により高めることができることを示した。 また,これらの場合において,量子相関と非局所抽出可能作業の間には直接関係がないことがわかった。

The concept of ergotropy was previously introduced as the maximum extractable work from a quantum state. Its enhancement, which is induced by quantum correlation via projective measurement, was formulated as the daemonic ergotropy. In this work, we investigate the ergotropy in the presence of quantum correlation via weak measurement because of its elegant effects on the measured system. By considering a bipartite correlated quantum system consisting of main and ancillary systems, we demonstrate that the extractable work by the non-selective weak measurement on the ancilla is always equal to the situation captured by the strong measurement. However, the selective weak measurement interestingly reveals more work than the daemonic ergotropy and the ergotropy of the total system is greater than or equal to the daemonic ergotropy. Moreover, it is shown that for Bell diagonal states, at the cost of losing quantum correlation, the total extractable and thus non-local extractable works can be increased by using measurement. Also, we find that there is no direct relationship between quantum correlation and non-local extractable work for these cases.
翻訳日:2023-09-07 11:55:14 公開日:2023-09-03
# トポロジカル増幅による非エルミートバルク境界対応の復元

Restoration of the non-Hermitian bulk-boundary correspondence via topological amplification ( http://arxiv.org/abs/2207.12427v4 )

ライセンス: Link先を確認
Matteo Brunelli, Clara C. Wanjura, Andreas Nunnenkamp(参考訳) 非エルミート(nh)格子ハミルトニアンは、特異なエネルギーギャップと境界条件に対する極度の感度を示す。 NH皮膚効果により、エッジとバルク状態の分離が曖昧になり、(従来の)バルク境界対応が失われる。 ここでは、NHハミルトニアンの最もパラダイム的なクラス、すなわち1つの複素バンドを持ち、対称性を持たないクラスに対するバルク境界対応を復元する。 我々は,非相互ホッピング振幅,利得および損失という形でのnh項が,(工学的かつ非工学的)貯水池とのカップリングによって明示的にモデル化される,駆動散逸キャビティアレイの(平均場)無条件進化から所望のnhハミルトニアンを得る。 このアプローチは位相不変量の定義における任意性を取り除くものであり、複素エネルギーシフトによって異なる点ガッピングスペクトルは同値ではない;複素平面の起源は位相不変量の評価のための共通の参照(基底点)を提供する。 これは、トポロジカルに非自明なハミルトニアンは点ギャップを持つ部分集合の厳密な部分集合であり、NHスキン効果がトポロジカルな起源を持たないことを意味する。 特異値分解(singular value decomposition)によって得られるnhハミルトニアンの解析により、nh バルク境界対応を次のように単純な形で表現することができる: バルクで定義される位相不変量の整数値 $\nu$ は、開境界条件下で系端で指数関数的に局在化した$\vert \nu\vert$ 特異ベクトルに対応し、$\nu$ の符号がどの辺を決定する。 非自明なトポロジーは、システムサイズが指数関数的なコヒーレント入力の方向増幅として現れる。 我々の研究は、NHトポロジカル位相の理論における卓越した問題を解決し、トポロジカルフォトニクスの新しい道を開く。

Non-Hermitian (NH) lattice Hamiltonians display a unique kind of energy gap and extreme sensitivity to boundary conditions. Due to the NH skin effect, the separation between edge and bulk states is blurred and the (conventional) bulk-boundary correspondence is lost. Here, we restore the bulk-boundary correspondence for the most paradigmatic class of NH Hamiltonians, namely those with one complex band and without symmetries. We obtain the desired NH Hamiltonian from the (mean-field) unconditional evolution of driven-dissipative cavity arrays, in which NH terms -- in the form of non-reciprocal hopping amplitudes, gain and loss -- are explicitly modeled via coupling to (engineered and non-engineered) reservoirs. This approach removes the arbitrariness in the definition of the topological invariant, as point-gapped spectra differing by a complex-energy shift are not treated as equivalent; the origin of the complex plane provides a common reference (base point) for the evaluation of the topological invariant. This implies that topologically non-trivial Hamiltonians are only a strict subset of those with a point gap and that the NH skin effect does not have a topological origin. We analyze the NH Hamiltonians so obtained via the singular value decomposition, which allows to express the NH bulk-boundary correspondence in the following simple form: an integer value $\nu$ of the topological invariant defined in the bulk corresponds to $\vert \nu\vert$ singular vectors exponentially localized at the system edge under open boundary conditions, in which the sign of $\nu$ determines which edge. Non-trivial topology manifests as directional amplification of a coherent input with gain exponential in system size. Our work solves an outstanding problem in the theory of NH topological phases and opens up new avenues in topological photonics.
翻訳日:2023-09-07 11:54:07 公開日:2023-09-03
# 半教師付き時系列分類のための自己教師付きコントラスト表現学習

Self-supervised Contrastive Representation Learning for Semi-supervised Time-Series Classification ( http://arxiv.org/abs/2208.06616v3 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li and Cuntai Guan(参考訳) ラベル付きデータやラベル付きサンプルが少ない場合に時系列表現を学ぶことは、難しい作業である。 近年, コントラスト型自己教師学習は, 異なるデータの拡張ビューを対比することにより, ラベルのないデータから有用な表現を抽出する上で大きな進歩を見せている。 本稿では,ラベルのないデータからコントラスト学習を行う時間的および文脈的コントラスト(ts-tcc)を用いた,新しい時系列表現学習フレームワークを提案する。 具体的には、時系列固有の弱弱化と強増化を提案し、その見解を用いて、提案した時間的コントラストモジュールにおける堅牢な時間的関係を学習し、提案した文脈的コントラストモジュールによる識別的表現を学習する。 さらに,コントラスト学習の重要な部分である時系列データ拡張選択の体系的研究を行った。 また、TS-TCCを半教師付き学習環境に拡張し、TS-TCCで学習した表現をさらに改善するために、いくつかのラベル付きデータから恩恵を受けるクラスアウェアTS-TCC(CA-TCC)を提案する。 具体的には、TS-TCCが生成するロバストな擬似ラベルを利用して、クラス認識の対照的な損失を実現する。 広範な実験により,提案フレームワークで学習した特徴の線形評価は,教師あり訓練と同等に機能することが示された。 さらに,本フレームワークはラベル付きデータと転送学習シナリオにおいて高い効率性を示す。 コードは \url{https://github.com/emadeldeen24/CA-TCC} で公開されている。

Learning time-series representations when only unlabeled data or few labeled samples are available can be a challenging task. Recently, contrastive self-supervised learning has shown great improvement in extracting useful representations from unlabeled data via contrasting different augmented views of data. In this work, we propose a novel Time-Series representation learning framework via Temporal and Contextual Contrasting (TS-TCC) that learns representations from unlabeled data with contrastive learning. Specifically, we propose time-series-specific weak and strong augmentations and use their views to learn robust temporal relations in the proposed temporal contrasting module, besides learning discriminative representations by our proposed contextual contrasting module. Additionally, we conduct a systematic study of time-series data augmentation selection, which is a key part of contrastive learning. We also extend TS-TCC to the semi-supervised learning settings and propose a Class-Aware TS-TCC (CA-TCC) that benefits from the available few labeled data to further improve representations learned by TS-TCC. Specifically, we leverage the robust pseudo labels produced by TS-TCC to realize a class-aware contrastive loss. Extensive experiments show that the linear evaluation of the features learned by our proposed framework performs comparably with the fully supervised training. Additionally, our framework shows high efficiency in the few labeled data and transfer learning scenarios. The code is publicly available at \url{https://github.com/emadeldeen24/CA-TCC}.
翻訳日:2023-09-07 11:13:55 公開日:2023-09-03
# セキュアなフェデレーションデータ駆動進化型多目的最適化アルゴリズム

A Secure Federated Data-Driven Evolutionary Multi-objective Optimization Algorithm ( http://arxiv.org/abs/2210.08295v2 )

ライセンス: Link先を確認
Qiqi Liu, Yuping Yan, Peter Ligeti and Yaochu Jin(参考訳) データ駆動進化アルゴリズムは、通常、限られた量のデータの背後にある情報を利用して最適化することを目的としており、多くの複雑な実世界の最適化問題を解くことに成功している。 しかし、ほとんどのデータ駆動進化アルゴリズムは中央集権化されており、プライバシーとセキュリティの懸念を引き起こす。 既存の連合ベイズアルゴリズムとデータ駆動進化アルゴリズムは、主に各クライアントの生データを保護している。 そこで本稿では,サーバ上で実行した取得関数を最適化して得られた生データと新たに満たした解の両方を保護する,セキュアなフェデレーションデータ駆動型進化的多目的最適化アルゴリズムを提案する。 このクライアントの未観測点の取得関数値を計算することにより、サロゲート更新の各ラウンドでランダムに選択されたクライアント上のクエリポイントを選択し、サンプリング対象のソリューションに関する情報を漏洩するリスクを低減する。 また、各クライアントの予測対象値にセンシティブな情報が含まれている可能性があるので、diffie-hellmannベースのノイズで対象値をマスキングし、サーバを介して他のクライアントのマスキング対象値のみを選択クライアントに送信する。 取得関数の計算には予測対象値と予測の不確かさの両方が必要であるため、予測平均目標と不確かさを正規化してノイズの影響を低減する。 広範に使用されている多目的最適化ベンチマーク実験の結果,提案アルゴリズムは,フェデレートされたデータ駆動型進化最適化の性能を犠牲にすることなく,プライバシ保護とセキュリティ向上を図っている。

Data-driven evolutionary algorithms usually aim to exploit the information behind a limited amount of data to perform optimization, which have proved to be successful in solving many complex real-world optimization problems. However, most data-driven evolutionary algorithms are centralized, causing privacy and security concerns. Existing federated Bayesian algorithms and data-driven evolutionary algorithms mainly protect the raw data on each client. To address this issue, this paper proposes a secure federated data-driven evolutionary multi-objective optimization algorithm to protect both the raw data and the newly infilled solutions obtained by optimizing the acquisition function conducted on the server. We select the query points on a randomly selected client at each round of surrogate update by calculating the acquisition function values of the unobserved points on this client, thereby reducing the risk of leaking the information about the solution to be sampled. In addition, since the predicted objective values of each client may contain sensitive information, we mask the objective values with Diffie-Hellmann-based noise, and then send only the masked objective values of other clients to the selected client via the server. Since the calculation of the acquisition function also requires both the predicted objective value and the uncertainty of the prediction, the predicted mean objective and uncertainty are normalized to reduce the influence of noise. Experimental results on a set of widely used multi-objective optimization benchmarks show that the proposed algorithm can protect privacy and enhance security with only negligible sacrifice in the performance of federated data-driven evolutionary optimization.
翻訳日:2023-09-07 07:35:01 公開日:2023-09-03
# 知識ゼロの偽音声認識

Faked Speech Detection with Zero Knowledge ( http://arxiv.org/abs/2209.12573v5 )

ライセンス: Link先を確認
Sahar Al Ajmi, Khizar Hayat, Alaa M. Al Obaidi, Naresh Kumar, Munaf Najmuldeen and Baptiste Magnier(参考訳) オーディオは人間のコミュニケーションの最もよく使われる方法の1つだが、同時に、人を騙すために簡単に誤用することができる。 aiの革命により、関連する技術はほとんどの人が利用できるようになり、犯罪者が犯罪や偽造を簡単に行えるようになった。 本研究では,入力音声を実または模倣音として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。 提案モデルでは,大規模なオーディオデータセットから抽出した重要な特徴のセットに基づいて,異なるオーディオから同じ特徴のセットでテストされた分類器を学習した。 データは2つの生のデータセットから抽出され、特にこの研究のために構成された。 これらのデータセットはGitHubを通じて、https://github.com/SaSs7/Dataset.comのリサーチコミュニティで利用できる。 比較のために,被験者を母語話者とし,人間の検査によって音声も分類した。 その後の結果は興味深いものであり、非常に正確であった。

Audio is one of the most used ways of human communication, but at the same time it can be easily misused to trick people. With the revolution of AI, the related technologies are now accessible to almost everyone thus making it simple for the criminals to commit crimes and forgeries. In this work, we introduce a neural network method to develop a classifier that will blindly classify an input audio as real or mimicked; the word 'blindly' refers to the ability to detect mimicked audio without references or real sources. The proposed model was trained on a set of important features extracted from a large dataset of audios to get a classifier that was tested on the same set of features from different audios. The data was extracted from two raw datasets, especially composed for this work; an all English dataset and a mixed dataset (Arabic plus English). These datasets have been made available, in raw form, through GitHub for the use of the research community at https://github.com/SaSs7/Dataset. For the purpose of comparison, the audios were also classified through human inspection with the subjects being the native speakers. The ensued results were interesting and exhibited formidable accuracy.
翻訳日:2023-09-07 07:33:21 公開日:2023-09-03
# 観測可能な完全平衡

Observable Perfect Equilibrium ( http://arxiv.org/abs/2210.16506v7 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) ナッシュ均衡はゲーム理論の中心的な概念として現れてきたが、多くの重要なゲームにはナッシュ均衡がいくつか含まれており、実際の戦略エージェントを作成するためにそれらの間の選択方法を決定する必要がある。 いくつかのナッシュ均衡改善の概念が提案され、シーケンシャル不完全情報ゲームのために研究され、最も顕著なのはトレムリングハンド完全均衡、準完全均衡、そして最近の片側準完全均衡である。 これらの概念は、任意の小さな誤りに対して頑健であり、常に存在することが保証されているが、不完全な情報の連続的なゲームにおいて強力なエージェントを開発するための正しい概念ではないと主張する。 我々は、可観測完全均衡(observable perfect equilibrium)と呼ばれる拡張形式のゲームに対して、解が公然と観測可能な作用確率(相手プレイヤーによって観測できないかもしれない全ての作用確率)の反動に対して頑健であるような新しい平衡改善概念を定義する。 可観測完全均衡(Observable perfect equilibrium)は、相手が観測された誤りに対して可能な限り合理的にプレイしているという仮定を正しく捉える(ただし、以前の解の概念はそうではない)。 我々は観測可能な完全平衡が常に存在することを証明し、それが以前の無制限ポーカーの広範囲な改良とは異なる解決策をもたらすことを証明している。 観測可能な完全均衡は、人工知能に興味を持つ多くの重要な不完全情報ゲームをモデリングするための有用な均衡洗練概念であることを期待している。

While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.
翻訳日:2023-09-07 07:24:04 公開日:2023-09-03
# イベントトランスフォーマー+。 効率的なイベントデータ処理のための多目的ソリューション

Event Transformer+. A multi-purpose solution for efficient event data processing ( http://arxiv.org/abs/2211.12222v2 )

ライセンス: Link先を確認
Alberto Sabater, Luis Montesano, Ana C. Murillo(参考訳) イベントカメラは、高時間分解能と高ダイナミックレンジでスパース照明変化を記録する。 少ない記録と低消費のため、AR/VRや自動運転といったアプリケーションでの利用が増えている。 現在のtopperformingメソッドは、特定のイベントデータプロパティを無視することが多いため、汎用的だが計算コストの高いアルゴリズムの開発につながった。 我々は、より正確な結果を得るために、より洗練されたパッチベースのイベント表現とより堅牢なバックボーンにより、私たちの精巧な作業EvTを改善するEvent Transformer+を提案する。 さらに,本システムでは,異なるデータモダリティで動作し,イベントストリーム分類(アクション認識)や画素ごとの予測(深度推定)のために,特定の出力ヘッドを提案する。 評価結果は、gpuとcpuの両方で最小の計算リソースを必要とする一方で、最先端の性能を示す。

Event cameras record sparse illumination changes with high temporal resolution and high dynamic range. Thanks to their sparse recording and low consumption, they are increasingly used in applications such as AR/VR and autonomous driving. Current topperforming methods often ignore specific event-data properties, leading to the development of generic but computationally expensive algorithms, while event-aware methods do not perform as well. We propose Event Transformer+, that improves our seminal work EvT with a refined patch-based event representation and a more robust backbone to achieve more accurate results, while still benefiting from event-data sparsity to increase its efficiency. Additionally, we show how our system can work with different data modalities and propose specific output heads, for event-stream classification (i.e. action recognition) and per-pixel predictions (dense depth estimation). Evaluation results show better performance to the state-of-the-art while requiring minimal computation resources, both on GPU and CPU.
翻訳日:2023-09-07 07:14:27 公開日:2023-09-03
# beyond triplet: マルチモーダル機械翻訳に最も多いデータを活用する

Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation ( http://arxiv.org/abs/2212.10313v2 )

ライセンス: Link先を確認
Yaoming Zhu, Zewei Sun, Shanbo Cheng, Luyang Huang, Liwei Wu, Mingxuan Wang(参考訳) マルチモーダル機械翻訳(MMT)は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。 従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。 これらの研究は2つの課題に直面している。 第一に、3つのデータ(画像付きバイリンガルテキスト)しか利用できず、第2に、現在のベンチマークは相対的に制限されており、現実的なシナリオに対応していない。 そこで本稿では,MTのための新しい手法と新しいデータセットについて述べる。 まず,大規模な非トリプルデータ(モノリンガル画像テキストデータと並列テキストのみのデータ)を活用することでMTの強化を図るためのフレームワーク2/3-Tripletを提案する。 第二に、emmtという英語-中国語の商業用{m}ulti{m}odal {t}ranslationデータセット(訓練とテストを含む)を構築し、ある単語が曖昧であるためにテストセットを慎重に選択し、画像の助けなしに誤って翻訳する。 実験の結果,本手法は実世界のシナリオに適しており,非トリプルデータを用いることで翻訳性能を大幅に向上できることがわかった。 さらに,従来のマルチモーダル翻訳ベンチマークでは,様々なSOTAモデルと競合する。

Multimodal machine translation (MMT) aims to improve translation quality by incorporating information from other modalities, such as vision. Previous MMT systems mainly focus on better access and use of visual information and tend to validate their methods on image-related datasets. These studies face two challenges. First, they can only utilize triple data (bilingual texts with images), which is scarce; second, current benchmarks are relatively restricted and do not correspond to realistic scenarios. Therefore, this paper correspondingly establishes new methods and new datasets for MMT. First, we propose a framework 2/3-Triplet with two new approaches to enhance MMT by utilizing large-scale non-triple data: monolingual image-text data and parallel text-only data. Second, we construct an English-Chinese {e}-commercial {m}ulti{m}odal {t}ranslation dataset (including training and testing), named EMMT, where its test set is carefully selected as some words are ambiguous and shall be translated mistakenly without the help of images. Experiments show that our method is more suitable for real-world scenarios and can significantly improve translation performance by using more non-triple data. In addition, our model also rivals various SOTA models in conventional multimodal translation benchmarks.
翻訳日:2023-09-07 07:05:32 公開日:2023-09-03
# 敵攻撃に対する3次元物体検出器のロバスト性に関する総合的研究と比較

A Comprehensive Study and Comparison of the Robustness of 3D Object Detectors Against Adversarial Attacks ( http://arxiv.org/abs/2212.10230v2 )

ライセンス: Link先を確認
Yifan Zhang, Junhui Hou, Yixuan Yuan(参考訳) 近年、ディープラーニングに基づく3dオブジェクト検出が大幅に進歩し、多くのアプリケーションで広く採用されている。 3Dオブジェクト検出器は、セキュリティクリティカルなタスクにおいてますます重要になっているため、敵攻撃に対する堅牢性を理解することが不可欠である。 本稿では,LiDARを用いた3D検出器の対向攻撃時の強靭性評価と解析を行った。 具体的には、3つの異なる対向攻撃を3Dオブジェクト検出タスクに拡張し、最先端のLiDARベースの3Dオブジェクト検出器がKITTIおよびWaymoデータセットに対する攻撃に対して堅牢であることをベンチマークする。 さらに、ロバスト性と検出器特性の関係を解析する。 さらに、クロスモデル、クロスタスク、およびデータ横断攻撃の転送可能性についても検討する。 3次元検出器の防御戦略に関する詳細な実験を行い、フリップのような単純な変換が攻撃者に対して適用された変換戦略が露出した場合の堅牢性向上にはほとんど寄与しないことを示した。 最後に,従来の対人訓練に基づく対人焦点バランストレーニングを提案し,精度と頑健さのバランスをとる。 本研究は,LiDARを用いた3次元物体検出装置の敵攻撃に対する理解と防御の促進を目的としている。 ソースコードは \url{https://github.com/Eaphan/Robust3DOD} で公開されている。

Recent years have witnessed significant advancements in deep learning-based 3D object detection, leading to its widespread adoption in numerous applications. As 3D object detectors become increasingly crucial for security-critical tasks, it is imperative to understand their robustness against adversarial attacks. This paper presents the first comprehensive evaluation and analysis of the robustness of LiDAR-based 3D detectors under adversarial attacks. Specifically, we extend three distinct adversarial attacks to the 3D object detection task, benchmarking the robustness of state-of-the-art LiDAR-based 3D object detectors against attacks on the KITTI and Waymo datasets. We further analyze the relationship between robustness and detector properties. Additionally, we explore the transferability of cross-model, cross-task, and cross-data attacks. Thorough experiments on defensive strategies for 3D detectors are conducted, demonstrating that simple transformations like flipping provide little help in improving robustness when the applied transformation strategy is exposed to attackers. Finally, we propose balanced adversarial focal training, based on conventional adversarial training, to strike a balance between accuracy and robustness. Our findings will facilitate investigations into understanding and defending against adversarial attacks on LiDAR-based 3D object detectors, thus advancing the field. The source code is publicly available at \url{https://github.com/Eaphan/Robust3DOD}.
翻訳日:2023-09-07 07:05:09 公開日:2023-09-03
# 雑音認識によるロバスト損失の耐雑音性向上

Improve Noise Tolerance of Robust Loss via Noise-Awareness ( http://arxiv.org/abs/2301.07306v2 )

ライセンス: Link先を確認
Kehui Ding, Jun Shu, Deyu Meng, Zongben Xu(参考訳) ロバスト損失最小化は、雑音ラベルの堅牢な学習問題を扱うための重要な戦略である。 頑健な損失を設計するための現在のアプローチは、ノイズロバスト性と学習性の間のトレードオフを制御するために、ハイパーパラメータと呼ばれるノイズロバスト因子を導入することである。 しかしながら、ノイズの多いラベルを持つ異なるデータセットに適したハイパーパラメータを見つけることは、困難かつ時間のかかる作業である。 さらに、既存のロバストな損失法は、通常、すべてのトレーニングサンプルがインスタンスに依存しない共通のハイパーパラメータを共有していると仮定する。 これは、異なるサンプルの個々のノイズ特性を識別するこれらの手法の能力を制限し、モデルが基礎となるパターンを理解するのに役立つ様々なトレーニングサンプルの様々な貢献を見落としている。 上記の問題に対処するため,我々は,インスタンス依存のハイパーパラメータを用いてロバストな損失を組み立て,理論的保証により耐雑音性を向上させることを提案する。 本研究では,高パラメータ予測関数であるNARL-Adjuster(NARL-Adjuster for brevity)を適応的に学習できるメタラーニング手法を提案する。 提案手法におけるハイパーパラメータ予測関数と分類器パラメータの相互改善により、両者を同時に微調整・調整し、優れた一般化能力を持つ解が得られる。 4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両方において検証した。

Robust loss minimization is an important strategy for handling robust learning issue on noisy labels. Current approaches for designing robust losses involve the introduction of noise-robust factors, i.e., hyperparameters, to control the trade-off between noise robustness and learnability. However, finding suitable hyperparameters for different datasets with noisy labels is a challenging and time-consuming task. Moreover, existing robust loss methods usually assume that all training samples share common hyperparameters, which are independent of instances. This limits the ability of these methods to distinguish the individual noise properties of different samples and overlooks the varying contributions of diverse training samples in helping models understand underlying patterns. To address above issues, we propose to assemble robust loss with instance-dependent hyperparameters to improve their noise tolerance with theoretical guarantee. To achieve setting such instance-dependent hyperparameters for robust loss, we propose a meta-learning method which is capable of adaptively learning a hyperparameter prediction function, called Noise-Aware-Robust-Loss-Adjuster (NARL-Adjuster for brevity). Through mutual amelioration between hyperparameter prediction function and classifier parameters in our method, both of them can be simultaneously finely ameliorated and coordinated to attain solutions with good generalization capability. Four SOTA robust loss functions are attempted to be integrated with our algorithm, and comprehensive experiments substantiate the general availability and effectiveness of the proposed method in both its noise tolerance and performance.
翻訳日:2023-09-07 06:57:04 公開日:2023-09-03
# 個々の古典的あるいは量子計算のコストに縛られる一般化ズレックの一般化

Generalized Zurek's bound on the cost of an individual classical or quantum computation ( http://arxiv.org/abs/2301.06838v3 )

ライセンス: Link先を確認
Artemy Kolchinsky(参考訳) 個々の計算の最小熱力学的コストを考えると、1つの入力$x$が1つの出力$y$にマッピングされる。 以前の研究で、ズレックは、このコストは$K(x\vert y)$、条件付きコルモゴロフ複雑性$x$$$$y$($x$または$y$に依存しない加法定数まで)によって与えられると提案した。 しかし、この結果は非公式な議論から導出され、決定論的計算にのみ適用され、(加法定数を介して)プロトコルの選択に任意に依存する。 ここでは確率的熱力学を用いて、厳密なハミルトン公式からzurekの束縛の一般化バージョンを導出する。 私たちの境界は、ノイズや決定論に関わらず、すべての量子プロセスや古典プロセスに適用され、プロトコルへの依存を明示的に捉えます。 k(x\vert y)$ は、熱、ノイズ、プロトコルの複雑さの組み合わせで払わなければならない x$ から y$ へのマッピングの最小コストであり、これら3つのリソース間のトレードオフを意味する。 我々の結果は、第二法則と物理教会チューリング論との関係を示唆する一種の「アルゴリズム的揺らぎ定理」である。

We consider the minimal thermodynamic cost of an individual computation, where a single input $x$ is mapped to a single output $y$. In prior work, Zurek proposed that this cost was given by $K(x\vert y)$, the conditional Kolmogorov complexity of $x$ given $y$ (up to an additive constant which does not depend on $x$ or $y$). However, this result was derived from an informal argument, applied only to deterministic computations, and had an arbitrary dependence on the choice of protocol (via the additive constant). Here we use stochastic thermodynamics to derive a generalized version of Zurek's bound from a rigorous Hamiltonian formulation. Our bound applies to all quantum and classical processes, whether noisy or deterministic, and it explicitly captures the dependence on the protocol. We show that $K(x\vert y)$ is a minimal cost of mapping $x$ to $y$ that must be paid using some combination of heat, noise, and protocol complexity, implying a tradeoff between these three resources. Our result is a kind of "algorithmic fluctuation theorem" with implications for the relationship between the Second Law and the Physical Church-Turing thesis.
翻訳日:2023-09-07 06:56:17 公開日:2023-09-03
# 連続セグメント:CTスキャンにおける143個の全身臓器の単一・統一・アクセス可能な連続セグメントモデル

Continual Segment: Towards a Single, Unified and Accessible Continual Segmentation Model of 143 Whole-body Organs in CT Scans ( http://arxiv.org/abs/2302.00162v4 )

ライセンス: Link先を確認
Zhanghexuan Ji, Dazhou Guo, Puyang Wang, Ke Yan, Le Lu, Minfeng Xu, Jingren Zhou, Qifeng Wang, Jia Ge, Mingchen Gao, Xianghua Ye, Dakai Jin(参考訳) 深層学習は、主流の医療画像セグメンテーション方法を促進する。 それでも現在のディープセグメンテーションアプローチでは、新しいインクリメンタルセグメンテーションクラス(新しいトレーニングデータセットなど)を追加する必要がある場合、トレーニングされたモデルの効率的かつ効果的な適応と更新ができない。 実際の臨床環境では、患者のプライバシやデータストレージの障害により、以前のトレーニングデータセットに(再)アクセスすることなく、セグメント化モデルを動的に新しい臓器や腫瘍に拡張することが望ましい。 このプロセスは連続的セマンティックセグメンテーション(CSS)問題と見なすことができ、マルチ組織セグメンテーションのために検討されている。 本研究では,143個の全身臓器をセグメント化するための1つの深部分割モデルを学習するための新しいアーキテクチャCSS学習フレームワークを提案する。 エンコーダ/デコーダネットワーク構造を用いて、段階的に付加されたデコーダと組み合わされた連続的に訓練された冷凍エンコーダが、新しいクラスを後続かつ有効にセグメント化するための十分な代表画像特徴を抽出し保存できることを実証する。 単一ネットワークモデルの複雑性を維持するために,ニューラルネットワーク探索と教師-学生による知識蒸留を用いて,各デコーダを段階的にトリミングする。 異なるデータセットに現れる健全な臓器と病理組織の両方を組み込むため、異なるデコーダに由来する重複する臓器の予測をマージするために、新しい異常認識および信頼性学習モジュールが提案されている。 4つのデータセットから2500人以上の患者の3次元CTスキャンをトレーニングし、検証し、我々の1つのネットワークは、合計143体の臓器を非常に高い精度で分割することができ、4つの別々のセグメンテーションモデル(データセット/タスク毎の1モデル)をトレーニングすることで、上界のパフォーマンスレベルに近づきます。

Deep learning empowers the mainstream medical image segmentation methods. Nevertheless current deep segmentation approaches are not capable of efficiently and effectively adapting and updating the trained models when new incremental segmentation classes (along with new training datasets or not) are required to be added. In real clinical environment, it can be preferred that segmentation models could be dynamically extended to segment new organs/tumors without the (re-)access to previous training datasets due to obstacles of patient privacy and data storage. This process can be viewed as a continual semantic segmentation (CSS) problem, being understudied for multi-organ segmentation. In this work, we propose a new architectural CSS learning framework to learn a single deep segmentation model for segmenting a total of 143 whole-body organs. Using the encoder/decoder network structure, we demonstrate that a continually-trained then frozen encoder coupled with incrementally-added decoders can extract and preserve sufficiently representative image features for new classes to be subsequently and validly segmented. To maintain a single network model complexity, we trim each decoder progressively using neural architecture search and teacher-student based knowledge distillation. To incorporate with both healthy and pathological organs appearing in different datasets, a novel anomaly-aware and confidence learning module is proposed to merge the overlapped organ predictions, originated from different decoders. Trained and validated on 3D CT scans of 2500+ patients from four datasets, our single network can segment total 143 whole-body organs with very high accuracy, closely reaching the upper bound performance level by training four separate segmentation models (i.e., one model per dataset/task).
翻訳日:2023-09-07 06:46:01 公開日:2023-09-03
# 動的メディエーション分析のための強化学習フレームワーク

A Reinforcement Learning Framework for Dynamic Mediation Analysis ( http://arxiv.org/abs/2301.13348v2 )

ライセンス: Link先を確認
Lin Ge, Jitao Wang, Chengchun Shi, Zhenke Wu, Rui Song(参考訳) メディエーション分析は、治療と結果の間のメディエーター変数を介して伝達される因果効果を学習し、因果関係を解明するために様々な科学領域で注目される。 現存するほとんどの研究は、各被験者が1つの時点にしか治療を受けないポイント露光の研究に焦点をあてている。 しかし、治療が時間とともに順次割り当てられ、動的メディエーション効果が主要な関心事となるアプリケーション(例えば、モバイルヘルス)が多数存在する。 強化学習(RL)フレームワークを提案することで、無限地平地の設定における動的媒介効果を初めて評価する。 平均治療効果を即時直接効果、即時媒介効果、遅延直接効果、遅延媒介効果に分解する。 それぞれの効果成分を同定すると、RLフレームワークの下でより頑健で半パラメトリックで効率的な推定器を開発し、これらの因果効果を推算する。 提案手法の優れた性能は、広範な数値研究、理論的結果、および移動型健康データセットの分析を通じて実証される。

Mediation analysis learns the causal effect transmitted via mediator variables between treatments and outcomes and receives increasing attention in various scientific domains to elucidate causal relations. Most existing works focus on point-exposure studies where each subject only receives one treatment at a single time point. However, there are a number of applications (e.g., mobile health) where the treatments are sequentially assigned over time and the dynamic mediation effects are of primary interest. Proposing a reinforcement learning (RL) framework, we are the first to evaluate dynamic mediation effects in settings with infinite horizons. We decompose the average treatment effect into an immediate direct effect, an immediate mediation effect, a delayed direct effect, and a delayed mediation effect. Upon the identification of each effect component, we further develop robust and semi-parametrically efficient estimators under the RL framework to infer these causal effects. The superior performance of the proposed method is demonstrated through extensive numerical studies, theoretical results, and an analysis of a mobile health dataset.
翻訳日:2023-09-07 06:45:26 公開日:2023-09-03
# 定常状態から量子チャネルを学ぶ

Learning a quantum channel from its steady-state ( http://arxiv.org/abs/2302.06517v2 )

ライセンス: Link先を確認
Yigal Ilin and Itai Arad(参考訳) 本稿では,局所的期待値のみを用いて局所的非単位量子チャネルを学習するスケーラブルな手法を提案する。 本手法は,局所ハミルトニアンの基底状態から学習するアルゴリズムのチャネル等価であると考えられる。 このようなチャネルは、中回路計測やリセットゲートを用いて量子コンピュータ上で効率的に実装することができる。 提案手法は, ハードウェア内のノイズモデルが, 実雑音のダイナミックスをどの程度正確に記述するかを, 非無視時間に全量子ビットがアクティブに使用されるかを確認するための簡単な方法である。 さらに, パラメータ化雑音モデルが与えられた場合, システム全体の騒音パラメータを学習するために, 提案手法を適用することができる。 提案手法をIBMQマシン上で数値的,実験的に実証し,1つの状態におけるパウリ測定から完全雑音モデルを検証および学習可能であることを示す。

We present a scalable method for learning local non-unital quantum channels using only local expectation values measured on their steady state. Our method can be seen as the channel equivalent of the algorithms for learning local Hamiltonians from their ground states. Such channels can be efficiently implemented on the quantum computer using mid-circuit measurements or RESET gates. Using engineered dissipative dynamics, our method provides a simple way to check how well a given noise model describes the actual noisy dynamics within the hardware, when all qubits are actively used for a non-negligible amount of time. Moreover, given a parameterized noise model, our method can be applied to learn the underlying noise parameters for the entire system. We demonstrate our method numerically and experimentally on an IBMQ machine, and show that a full noise model can be verified and learned from Pauli measurements on a single state.
翻訳日:2023-09-07 06:34:22 公開日:2023-09-03
# スペクトル物理学インフォームドニューラルネットワークを用いた多様体上のPDEの数値解法

Numerical Methods For PDEs Over Manifolds Using Spectral Physics Informed Neural Networks ( http://arxiv.org/abs/2302.05322v3 )

ライセンス: Link先を確認
Yuval Zelig and Shai Dekel(参考訳) 本稿では,アーキテクチャがスペクトル法に適合する物理インフォームドニューラルネットワークを用いて,多様体上のpdesの解法を提案する。 ネットワークは、初期条件、タイムスタンプ、多様体上のポイント(s)の入力サンプルとして入力し、所定の時間とポイントで解の値を出力するように訓練される。 本稿では,間隔における熱方程式の方法の証明と,球面およびトーラス上の非線形方程式に適応するユニークなネットワークアーキテクチャの例を示す。 また、スペクトルにインスパイアされたニューラルネットワークアーキテクチャは、標準的な物理情報アーキテクチャよりも優れていることを示す。 我々は,初期条件のテストデータセットをトレーニングセットよりもはるかに広い空間からランダムにサンプリングする一般化研究を含む広い実験結果を得た。

We introduce an approach for solving PDEs over manifolds using physics informed neural networks whose architecture aligns with spectral methods. The networks are trained to take in as input samples of an initial condition, a time stamp and point(s) on the manifold and then output the solution's value at the given time and point(s). We provide proofs of our method for the heat equation on the interval and examples of unique network architectures that are adapted to nonlinear equations on the sphere and the torus. We also show that our spectral-inspired neural network architectures outperform the standard physics informed architectures. Our extensive experimental results include generalization studies where the testing dataset of initial conditions is randomly sampled from a significantly larger space than the training set.
翻訳日:2023-09-07 06:33:37 公開日:2023-09-03
# パフォーマンスだけでは不十分:羅生門四重奏団が語る話

Performance is not enough: the story told by a Rashomon quartet ( http://arxiv.org/abs/2302.13356v3 )

ライセンス: Link先を確認
Przemyslaw Biecek, Hubert Baniecki, Mateusz Krzyzinski, Dianne Cook(参考訳) 予測モデリングは、選択されたパフォーマンス指標を最適化する最良のモデルを見つけるためにしばしば還元される。 しかし、第2のベストモデルが完全に異なる方法でデータを記述したらどうだろうか? 第3位は? 等しく効果的なモデルがデータの異なる関係を記述することは可能か? anscombe の quartet にインスパイアされた本論文では,合成データセットに基づく4つのモデルである rashomon quartet を紹介している。 しかし、それらの可視化は、入力変数と対象変数の関係の明確な説明を示している。 図示的な例は、視覚化を使用して、パフォーマンス以上の予測モデルを比較することを目的としています。

Predictive modelling is often reduced to finding the best model that optimizes a selected performance measure. But what if the second-best model describes the data in a completely different way? What about the third-best? Is it possible that the equally effective models describe different relationships in the data? Inspired by Anscombe's quartet, this paper introduces a Rashomon quartet, a four models built on synthetic dataset which have practically identical predictive performance. However, their visualization reveals distinct explanations of the relation between input variables and the target variable. The illustrative example aims to encourage the use of visualization to compare predictive models beyond their performance.
翻訳日:2023-09-07 06:25:32 公開日:2023-09-03
# 正確に可解な複素pt対称性ポテンシャル$a[\mathrm{sech}({\lambda}x) + i\tanh({\lambda}x)]$

Exactly solvable complex PT symmetry potential $A[\mathrm{sech}({\lambda}x) + i\tanh({\lambda}x)]$ ( http://arxiv.org/abs/2302.10609v2 )

ライセンス: Link先を確認
Wei Yang(参考訳) 我々は、$\mathcal{PT}$ symmetric potential $V(x)=A[\sech(\lambda x)+i \tanh(\lambda x)]$の正確な解を取得し、この系は境界状態を持たないことを示した。 どちらの$\mathcal{pt}$ symmetric potentialが本論文で最初に研究され、反射係数から手渡し効果が示された。 漸近的に消滅しない想像ポテンシャル成分として、入射波の方向が逆であるとき、伝達係数は複雑な位相因子を生じる。

We obtained the exactly solutions of the $\mathcal{PT}$ symmetric potential $V(x)=A[\sech(\lambda x)+i \tanh(\lambda x)]$, and found this system has no bound-state. which $\mathcal{PT}$ symmetric potential was first studied in this article, and the handedness effect is showed from reflection coefficients. As the asymptotically non-vanishing imaginary potential component, when the direction of the incident wave is opposite, that the transmission coefficient will emerge a complex phase factor.
翻訳日:2023-09-07 06:24:36 公開日:2023-09-03
# プラグ・アンド・プレイ準ニュートン法

Provably Convergent Plug-and-Play Quasi-Newton Methods ( http://arxiv.org/abs/2303.07271v3 )

ライセンス: Link先を確認
Hong Ye Tan, Subhadip Mukherjee, Junqi Tang, Carola-Bibiane Sch\"onlieb(参考訳) Plug-and-Play (PnP) は、ISTAやADMMなどの古典最適化アルゴリズムを用いて、データの忠実度項とディープデノイザを組み合わせた効率的な反復手法のクラスである。 確率的PnP法は、あるエネルギー関数の臨界点への固定点収束や収束のような収束を保証するPnP法のサブクラスである。 多くの既存の証明可能なPnP法は、それぞれ非拡張性や厳密な凸性など、デノイザ関数や忠実度関数に厳しい制限を課している。 本研究では,近位分母に基づく証明可能なpnpフレームワークに準ニュートンステップを組み込んだ新しいアルゴリズム手法を提案する。 弱凸関数の近位作用素としてデノイザを特徴付けることにより、提案した準ニュートンPnPアルゴリズムの固定点は弱凸関数の臨界点であることを示す。 画像の劣化と超解像に関する数値実験は、同様の収束結果を持つ他の証明可能なPnP法と比較して、はるかに高速な収束を示す。

Plug-and-Play (PnP) methods are a class of efficient iterative methods that aim to combine data fidelity terms and deep denoisers using classical optimization algorithms, such as ISTA or ADMM. Provable PnP methods are a subclass of PnP methods with convergence guarantees, such as fixed point convergence or convergence to critical points of some energy function. Many existing provable PnP methods impose heavy restrictions on the denoiser or fidelity function, such as non-expansiveness or strict convexity, respectively. In this work, we propose a novel algorithmic approach incorporating quasi-Newton steps into a provable PnP framework based on proximal denoisers, resulting in greatly accelerated convergence while retaining light assumptions on the denoiser. By characterizing the denoiser as the proximal operator of a weakly convex function, we show that the fixed points of the proposed quasi-Newton PnP algorithm are critical points of a weakly convex function. Numerical experiments on image deblurring and super-resolution demonstrate significantly faster convergence as compared to other provable PnP methods with similar convergence results.
翻訳日:2023-09-07 06:14:37 公開日:2023-09-03
# LiDARセグメンテーションにおける距離ビュー表現の再考

Rethinking Range View Representation for LiDAR Segmentation ( http://arxiv.org/abs/2303.05367v3 )

ライセンス: Link先を確認
Lingdong Kong and Youquan Liu and Runnan Chen and Yuexin Ma and Xinge Zhu and Yikang Li and Yuenan Hou and Yu Qiao and Ziwei Liu(参考訳) LiDARセグメンテーションは自律運転知覚に不可欠である。 近年の傾向は、従来のレンジビュー表現よりもパフォーマンスが良い点やボクセルベースの手法が好まれている。 本研究では,強力な視野モデルを構築する上で重要な要素をいくつか提示する。 我々は,「一対一」マッピング,意味的不整合,形状変形が,射影からの効果的な学習を妨げる可能性があることを観察する。 RangeFormer(リンク) - ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含むフルサイクルのフレームワークで、レンジビューからLiDARポイントクラウドの学習と処理をより良く処理する。 我々はさらに,任意の低解像度の2dレンジイメージをトレーニングしながら,良好な3dセグメンテーション精度を維持しながら,レンジビュー(str)ストラテジーからスケーラブルなトレーニングを導入する。 そこで本研究では,ScribbleKITTI,SemanticKITTI,nuScenes,ScribbleKITTIと競合するLiDARセマンティックおよびパノプティクスセグメンテーションベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。

LiDAR segmentation is crucial for autonomous driving perception. Recent trends favor point- or voxel-based methods as they often yield better performance than the traditional range view representation. In this work, we unveil several key factors in building powerful range view models. We observe that the "many-to-one" mapping, semantic incoherence, and shape deformation are possible impediments against effective learning from range view projections. We present RangeFormer -- a full-cycle framework comprising novel designs across network architecture, data augmentation, and post-processing -- that better handles the learning and processing of LiDAR point clouds from the range view. We further introduce a Scalable Training from Range view (STR) strategy that trains on arbitrary low-resolution 2D range images, while still maintaining satisfactory 3D segmentation accuracy. We show that, for the first time, a range view method is able to surpass the point, voxel, and multi-view fusion counterparts in the competing LiDAR semantic and panoptic segmentation benchmarks, i.e., SemanticKITTI, nuScenes, and ScribbleKITTI.
翻訳日:2023-09-07 06:14:17 公開日:2023-09-03
# InFusionSurf: フレームごとの固有微細化とTSDF融合事前学習によるニューラルネットワークRGB-D表面再構成

InFusionSurf: Refining Neural RGB-D Surface Reconstruction Using Per-Frame Intrinsic Refinement and TSDF Fusion Prior Learning ( http://arxiv.org/abs/2303.04508v2 )

ライセンス: Link先を確認
Seunghwan Lee, Gwanmo Park, Hyewon Son, Jiwon Ryu, Han Joo Chae(参考訳) RGB-Dビデオフレームを用いた3次元表面再構成のためのニューラルレイディアンスフィールド(NeRF)フレームワークの忠実度向上のための新しいアプローチであるInFusionSurfを紹介する。 特徴符号化を用いて最適化速度を向上する従来の手法を基盤として,最適化時間に最小限の影響を被ることなく,深度情報を精査することで再構成品質を向上する。 フレームごとの内在的な精細化は,各深度フレームのカメラ動作によるフレーム固有のぼやけを解消する。 さらに、InFusionSurfは従来のリアルタイム3次元表面再構成法であるTSDFフュージョンを用いて、トレーニングを加速しながら再構成の詳細をサポートするために特徴格子を事前訓練する。 InFusionSurfの性能と先行研究を比較した定量的・定性的実験により,最適化速度を犠牲にすることなくシーンを正確に再構築できることを示す。 また,フレームごとの本質的改良とtsdfの事前学習手法の有効性をアブレーション実験により実証した。

We introduce InFusionSurf, a novel approach to enhance the fidelity of neural radiance field (NeRF) frameworks for 3D surface reconstruction using RGB-D video frames. Building upon previous methods that have employed feature encoding to improve optimization speed, we further improve the reconstruction quality with minimal impact on optimization time by refining depth information. Our per-frame intrinsic refinement scheme addresses frame-specific blurs caused by camera motion in each depth frame. Furthermore, InFusionSurf utilizes a classical real-time 3D surface reconstruction method, the truncated signed distance field (TSDF) Fusion, as prior knowledge to pretrain the feature grid to support reconstruction details while accelerating the training. The quantitative and qualitative experiments comparing the performances of InFusionSurf against prior work indicate that our method is capable of accurately reconstructing a scene without sacrificing optimization speed. We also demonstrate the effectiveness of our per-frame intrinsic refinement and TSDF Fusion prior learning techniques via an ablation study.
翻訳日:2023-09-07 06:13:10 公開日:2023-09-03
# 精細な奥行きガイド付き注意による正確な奥行き完了--ステレオ支援型モニター蒸留アプローチ

Sparse Depth-Guided Attention for Accurate Depth Completion: A Stereo-Assisted Monitored Distillation Approach ( http://arxiv.org/abs/2303.15840v3 )

ライセンス: Link先を確認
Jia-Wei Guo, Hung-Chyun Chou, Sen-Hua Zhu, Chang-Zheng Zhang, Ming Ouyang, Ning Ding(参考訳) 本稿では,多視点改良型監視蒸留を用いて深度マップを作成できる新しい深度補完法を提案する。 提案手法は,教師モデルとしてステレオモデルを導入し,学生モデルの深度補修精度を向上する,最先端のアンサンブル蒸留法に基づいている。 アンサンブル蒸留中の目標画像の再構成誤差を最小化することにより、完成度に基づく教師の固有エラーモードの学習を回避できる。 本研究では,学生モデルの前面層にアテンションに基づくスパース・トゥ・デンス(AS2D)モジュールを導入し,スパース深度からグローバルな特徴を抽出する能力を高める。 自己教師型情報提供には,多視点深度整合性やマルチスケールの最小再計画も活用する。 これらの手法は、既存の構造制約を利用して、学生モデルトレーニングのための教師付き信号を得る。 提案手法は, ベースライン監視蒸留法の精度を著しく向上することを示した。

This paper proposes a novel method for depth completion, which leverages multi-view improved monitored distillation to generate more precise depth maps. Our approach builds upon the state-of-the-art ensemble distillation method, in which we introduce a stereo-based model as a teacher model to improve the accuracy of the student model for depth completion. By minimizing the reconstruction error of a target image during ensemble distillation, we can avoid learning inherent error modes of completion-based teachers. We introduce an Attention-based Sparse-to-Dense (AS2D) module at the front layer of the student model to enhance its ability to extract global features from sparse depth. To provide self-supervised information, we also employ multi-view depth consistency and multi-scale minimum reprojection. These techniques utilize existing structural constraints to yield supervised signals for student model training, without requiring costly ground truth depth information. Our extensive experimental evaluation demonstrates that our proposed method significantly improves the accuracy of the baseline monitored distillation method.
翻訳日:2023-09-07 06:08:02 公開日:2023-09-03
# 多言語視覚質問応答のための畳み込み系列ネットワークによる画像特徴の統合

Integrating Image Features with Convolutional Sequence-to-sequence Network for Multilingual Visual Question Answering ( http://arxiv.org/abs/2303.12671v2 )

ライセンス: Link先を確認
Triet Minh Thai, Son T. Luu(参考訳) VQA(Visual Question Answering)は、コンピュータが画像に基づいて入力された質問に対して正しい回答をする必要があるタスクである。 このタスクは、人間によって簡単に解決できますが、コンピュータにとってチャレンジです。 vlsp2022-evjvqa共有タスクは、新たにリリースされたデータセットであるuit-evjvqa上で、多言語ドメインの視覚的質問応答タスクを実行する。 我々は,この課題をシーケンシャル・ツー・シークエンス・ラーニング・タスク(Sequence-to-Sequence Learning Task)としてアプローチし,既存のVQAモデルのヒントと画像特徴を畳み込み,所望の回答を生成する。 その結果,公開テストセットでは0.3442点,プライベートテストセットでは0.4210点,コンペティションでは3位となった。

Visual Question Answering (VQA) is a task that requires computers to give correct answers for the input questions based on the images. This task can be solved by humans with ease but is a challenge for computers. The VLSP2022-EVJVQA shared task carries the Visual Question Answering task in the multilingual domain on a newly released dataset: UIT-EVJVQA, in which the questions and answers are written in three different languages: English, Vietnamese and Japanese. We approached the challenge as a sequence-to-sequence learning task, in which we integrated hints from pre-trained state-of-the-art VQA models and image features with Convolutional Sequence-to-Sequence network to generate the desired answers. Our results obtained up to 0.3442 by F1 score on the public test set, 0.4210 on the private test set, and placed 3rd in the competition.
翻訳日:2023-09-07 06:05:43 公開日:2023-09-03
# パノラマx線撮影による口腔3dv2:3次元口腔再構築

Oral-3Dv2: 3D Oral Reconstruction from Panoramic X-Ray Imaging with Implicit Neural Representation ( http://arxiv.org/abs/2303.12123v2 )

ライセンス: Link先を確認
Weinan Song, Haoxin Zheng, Dezhan Tu, Chengwen Liang, Lei He(参考訳) 近年の深層学習モデルの発展に伴い, 2次元画像からの医用画像の3次元再構成が注目されている。 限られたX線画像からの3次元再構成における従来の研究は、主に2次元画像と3次元画像からの学習に依存しており、再構成品質は収集データのスケールと変動に依存する。 これはトレーニングデータの収集に重大な課題をもたらしており、同じ期間に2種類の放射線検査を受ける患者はごくわずかである。 高次元画像からのシミュレーションはこの問題を解決できたが、実データとシミュレーションデータのばらつきは同時に大きな不確実性をもたらす可能性がある。 口腔再建では、モデルが個々の知識によって曲線形状を推測する必要がある1枚のパノラマx線画像しか利用できないため、状況はより困難になる。 これらの限界を克服するため,我々はx線管の投影像と軌跡を投影情報のみに基づいて学習することにより,この歯科医療におけるクロスディメンション翻訳問題を解決するための口腔用3dv2を提案する。 3次元空間内のボクセルの密度値に2次元座標をマッピングすることで,3次元の口腔構造を暗黙的に表現することを学ぶ。 効率と有効性を向上させるために,軸方向の2次元座標と動的サンプリング戦略とを同時に3次元空間のボクセル値の束を予測するマルチヘッドモデルを用いて,復元結果における密度分布の詳細を洗練する。 シミュレーションと実データによる広範囲な実験により,提案モデルは,ペア画像や個々の知識から学習することなく,既存の最先端モデルを大きく上回っていることが示された。 我々の知る限りでは、これは1枚のパノラマX線画像から3Dラジオグラフィ再構成における非逆学習モデルの最初の作品である。

3D reconstruction of medical imaging from 2D images has become an increasingly interesting topic with the development of deep learning models in recent years. Previous studies in 3D reconstruction from limited X-ray images mainly rely on learning from paired 2D and 3D images, where the reconstruction quality relies on the scale and variation of collected data. This has brought significant challenges in the collection of training data, as only a tiny fraction of patients take two types of radiation examinations in the same period. Although simulation from higher-dimension images could solve this problem, the variance between real and simulated data could bring great uncertainty at the same time. In oral reconstruction, the situation becomes more challenging as only a single panoramic X-ray image is available, where models need to infer the curved shape by prior individual knowledge. To overcome these limitations, we propose Oral-3Dv2 to solve this cross-dimension translation problem in dental healthcare by learning solely on projection information, i.e., the projection image and trajectory of the X-ray tube. Our model learns to represent the 3D oral structure in an implicit way by mapping 2D coordinates into density values of voxels in the 3D space. To improve efficiency and effectiveness, we utilize a multi-head model that predicts a bunch of voxel values in 3D space simultaneously from a 2D coordinate in the axial plane and the dynamic sampling strategy to refine details of the density distribution in the reconstruction result. Extensive experiments in simulated and real data show that our model significantly outperforms existing state-of-the-art models without learning from paired images or prior individual knowledge. To the best of our knowledge, this is the first work of a non-adversarial-learning-based model in 3D radiology reconstruction from a single panoramic X-ray image.
翻訳日:2023-09-07 06:05:23 公開日:2023-09-03
# S-VolSDF:Sparse Multi-View Stereo Regularization of Neural Implicit Surfaces

S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit Surfaces ( http://arxiv.org/abs/2303.17712v2 )

ライセンス: Link先を確認
Haoyu Wu, Alexandros Graikos, Dimitris Samaras(参考訳) 暗黙的表面のニューラルレンダリングは、3d視覚アプリケーションでうまく機能する。 しかし、監督には密集した入力ビューが必要である。 スパース入力画像のみが利用可能になると、形状照度曖昧性の問題により出力品質が著しく低下する。 マルチビューステレオ(MVS)の場合のように、複数のビューで3Dポイントが見える場合、この曖昧さは制約される。 そこで我々は,MVSソリューションを用いてニューラルレンダリング最適化の正規化を提案する。 MVS確率体積と一般化されたクロスエントロピー損失の使用は、耐雑音性最適化プロセスにつながる。 さらに、ニューラルレンダリングは、MVS深度仮説サンプリングをガイドするグローバルな一貫性の制約を提供するため、MVSのパフォーマンスが向上する。 3つのスパース・インプット・ビューのみを考えると,本手法は汎用的なニューラルレンダリングモデルよりも大きなマージンで優れるだけでなく,MVSモデルの再構築品質も著しく向上することが示された。 プロジェクトページ: https://hao-yu-wu.github.io/s-volsdf/

Neural rendering of implicit surfaces performs well in 3D vision applications. However, it requires dense input views as supervision. When only sparse input images are available, output quality drops significantly due to the shape-radiance ambiguity problem. We note that this ambiguity can be constrained when a 3D point is visible in multiple views, as is the case in multi-view stereo (MVS). We thus propose to regularize neural rendering optimization with an MVS solution. The use of an MVS probability volume and a generalized cross entropy loss leads to a noise-tolerant optimization process. In addition, neural rendering provides global consistency constraints that guide the MVS depth hypothesis sampling and thus improves MVS performance. Given only three sparse input views, experiments show that our method not only outperforms generic neural rendering models by a large margin but also significantly increases the reconstruction quality of MVS models. Project page: https://hao-yu-wu.github.io/s-volsdf/.
翻訳日:2023-09-07 05:54:17 公開日:2023-09-03
# 連続超解像のための暗黙的拡散モデル

Implicit Diffusion Models for Continuous Super-Resolution ( http://arxiv.org/abs/2303.16491v2 )

ライセンス: Link先を確認
Sicheng Gao and Xuhui Liu and Bohan Zeng and Sheng Xu and Yanjing Li and Xiaoyan Luo and Jianzhuang Liu and Xiantong Zhen and Baochang Zhang(参考訳) 画像超解像(SR)はその幅広い応用により注目を集めている。 しかし、現在のsrメソッドは一般的に過剰なスムーシングとアーティファクトに苦しんでおり、ほとんどは固定された倍率でしか動作しない。 本稿では,高忠実度連続画像の超解像のための暗黙拡散モデル(idm)を提案する。 IDMは暗黙のニューラル表現と暗黙の拡散モデルを統合されたエンドツーエンドフレームワークに統合し、暗黙のニューラル表現が復号プロセスで採用され、連続的なレゾリューション表現が学習される。 さらに、低解像度(LR)コンディショニングネットワークとスケーリング係数からなるスケール制御可能なコンディショニング機構を設計する。 スケーリング係数は分解能を調節し、最終出力におけるLR情報と生成された特徴の比率を調整し、連続分解能要件を満たすことができる。 IDMの有効性を検証し,先行技術よりも優れた性能を示した。

Image super-resolution (SR) has attracted increasing attention due to its wide applications. However, current SR methods generally suffer from over-smoothing and artifacts, and most work only with fixed magnifications. This paper introduces an Implicit Diffusion Model (IDM) for high-fidelity continuous image super-resolution. IDM integrates an implicit neural representation and a denoising diffusion model in a unified end-to-end framework, where the implicit neural representation is adopted in the decoding process to learn continuous-resolution representation. Furthermore, we design a scale-controllable conditioning mechanism that consists of a low-resolution (LR) conditioning network and a scaling factor. The scaling factor regulates the resolution and accordingly modulates the proportion of the LR information and generated features in the final output, which enables the model to accommodate the continuous-resolution requirement. Extensive experiments validate the effectiveness of our IDM and demonstrate its superior performance over prior arts.
翻訳日:2023-09-07 05:53:29 公開日:2023-09-03
# 未知力学系のロバスト進化演算子学習のための臨界サンプリング

Critical Sampling for Robust Evolution Operator Learning of Unknown Dynamical Systems ( http://arxiv.org/abs/2304.07485v2 )

ライセンス: Link先を確認
Ce Zhang, Kailiang Wu, Zhihai He(参考訳) 未知の力学系を考えると、その統治法則の効果的な学習と将来の進化の正確な予測に必要なサンプルの最小数と、これらの臨界試料をどうやって選択するか。 そこで本研究では,設計アプローチに基づくこの問題について検討する。 少数の初期サンプルから始めて、システム進化のより正確な学習を実現するために、臨界サンプルを適応的に発見する。 ここでの課題の1つは、地平系状態が未知であるため、ネットワークモデリングエラーを知らないことですが、これはクリティカルサンプリングに必要です。 この課題に対処するために,前向きと後向きの進化ネットワークをそれぞれ前向きと後向きの時間方向の時間的進化の挙動を学習する多段階の相互予測ネットワークを提案する。 非常に興味深いことに、所望のネットワークモデリング誤差は、現在のシステム状態から直接計算できる多段階相互予測誤差と高い相関関係にあることがわかった。 これにより、動的システムに対する高いネットワークモデリング誤差を持つ領域から臨界サンプルを動的に選択できる。 さらに、空間力学モデリングを時間的進化予測に組み込んだ共同時空間進化ネットワークを導入し、システム進化演算子を少数のサンプルで頑健に学習する。 提案手法は,未知力学系の効果的な学習に必要なサンプル数を劇的に削減し,未知力学系の進化挙動を正確に予測できることが実証された。

Given an unknown dynamical system, what is the minimum number of samples needed for effective learning of its governing laws and accurate prediction of its future evolution behavior, and how to select these critical samples? In this work, we propose to explore this problem based on a design approach. Starting from a small initial set of samples, we adaptively discover critical samples to achieve increasingly accurate learning of the system evolution. One central challenge here is that we do not know the network modeling error since the ground-truth system state is unknown, which is however needed for critical sampling. To address this challenge, we introduce a multi-step reciprocal prediction network where forward and backward evolution networks are designed to learn the temporal evolution behavior in the forward and backward time directions, respectively. Very interestingly, we find that the desired network modeling error is highly correlated with the multi-step reciprocal prediction error, which can be directly computed from the current system state. This allows us to perform a dynamic selection of critical samples from regions with high network modeling errors for dynamical systems. Additionally, a joint spatial-temporal evolution network is introduced which incorporates spatial dynamics modeling into the temporal evolution prediction for robust learning of the system evolution operator with few samples. Our extensive experimental results demonstrate that our proposed method is able to dramatically reduce the number of samples needed for effective learning and accurate prediction of evolution behaviors of unknown dynamical systems by up to hundreds of times.
翻訳日:2023-09-07 05:46:50 公開日:2023-09-03
# オペレーショナル量子フレーム:量子参照フレームに対する操作的アプローチ

Operational Quantum Frames: An operational approach to quantum reference frames ( http://arxiv.org/abs/2304.07021v2 )

ライセンス: Link先を確認
Jan G{\l}owacki(参考訳) 量子参照フレームプログラムは、参照フレームを量子物理システムとして扱うべきだという考えに基づいている。 本研究では,これらの知見と運用性を重視し,測定結果の原理的検証可能な確率に直接関係しないフレームワークオブジェクトへの導入を控えた上で,その設定を区別できないものと捉えた。 Based on intuitions from special relativity and gauge theory, we introduce an operational notion of a quantum reference frame -- which is defined as a quantum system equipped with a covariant positive operator-valued measure (POVM) -- and build a framework on the concept of operational equivalence that allows us to enforce operationality by quotienting the quantum state spaces with equivalence relation of indistinguishability by the available effects, assumed to be invariant under gauge transformations, and framed in the sense of respecting the choice of the frame's POVM. このような効果は円構成を通じてアクセスされ、ゲージ不変性とフレーミングを満足し、システムへの影響を複合システムへの影響にマッピングする。 それらは相対状態と呼ばれ、それらによって区別できない状態のクラスは相対状態と呼ばれる。 フレームが局所化可能であるとき、つまり、フレームの可観測性の非常に局所化された確率分布を生じさせる状態に対して、そのような局所化フレーム準備の相対的記述を制限することにより、量子力学の通常の非関係形式性を回復できることを示す。 フレーム交換マップを用いて、異なる相対的記述間の一貫した翻訳方法を提供し、これらを他のQRF手法における対応する概念と比較し、共通適用性領域における運用上の合意を確立する。

The quantum reference frames program is based on the idea that reference frames should be treated as quantum physical systems. In this work, we combine these insights with the emphasis on operationality, understood as refraining from introducing into the framework objects not directly related to in principle verifiable probabilities of measurement outcomes, and identifying the setups indistinguishable as such. Based on intuitions from special relativity and gauge theory, we introduce an operational notion of a quantum reference frame -- which is defined as a quantum system equipped with a covariant positive operator-valued measure (POVM) -- and build a framework on the concept of operational equivalence that allows us to enforce operationality by quotienting the quantum state spaces with equivalence relation of indistinguishability by the available effects, assumed to be invariant under gauge transformations, and framed in the sense of respecting the choice of the frame's POVM. Such effects are accessed via the yen construction, which maps effects on the system to those on the composite system, satisfying gauge invariance and framing. They are called relative, and the classes of states indistinguishable by them are referred to as relative states. We show that when the frame is localizable, meaning that it allows for states that give rise to a highly localized probability distribution of the frame's observable, by restricting the relative description upon such localized frame preparation we recover the usual, non-relational formalism of quantum mechanics. We provide a consistent way of translating between different relative descriptions by means of frame-change maps and compare these with the corresponding notions in other approaches to QRF, establishing an operational agreement in the domain of common applicability.
翻訳日:2023-09-07 05:46:29 公開日:2023-09-03
# 再調査なしの研究: 最大更新パラメトリゼーションはスケールにわたって正確な損失予測をもたらす

Research without Re-search: Maximal Update Parametrization Yields Accurate Loss Prediction across Scales ( http://arxiv.org/abs/2304.06875v3 )

ライセンス: Link先を確認
Yiqun Yao and Yequan Wang(参考訳) 言語モデルが拡大するにつれて、小さなモデルの結論が容易に大きなモデルに移行しないため、研究アイデアの検証がますます高価になる。 考えられる解決策は、小さなモデルの結果とハイパーパラメータのみに基づいて、大規模モデルのメトリクスを直接予測する汎用システムを確立することである。 スケーリングの法則に基づく既存の手法では,最大モデルのハイパーパラメータ探索が必要となる。 我々は,最大更新パラメトリゼーション(Mup)により,一般の損失流域に近接するハイパーパラメータのスケーリング法則を,探索なしで正確に適合させることができることを示す。 これにより、トレーニング開始前であっても、複数のモデルを直接比較して損失予測を行うことができる。 重計算を伴わないモデルスケールの信頼性の高い学術研究への第一歩として,新しいパラダイムを提案する。 コードはhttps://github.com/cofe-ai/mu-scalingで公開されている。

As language models scale up, it becomes increasingly expensive to verify research ideas because conclusions on small models do not trivially transfer to large ones. A possible solution is to establish a generic system that directly predicts some metrics for large models solely based on the results and hyperparameters from small models. Existing methods based on scaling laws require hyperparameter search on the largest models, which is impractical with limited resources. We address this issue by presenting our discoveries indicating that Maximal Update parametrization (Mup) enables accurate fitting of scaling laws for hyperparameters close to common loss basins, without any search. Thus, different models can be directly compared on large scales with loss prediction even before the training starts. We propose a new paradigm as a first step towards reliable academic research for any model scale without heavy computation. Code is publicly available at https://github.com/cofe-ai/Mu-scaling.
翻訳日:2023-09-07 05:46:04 公開日:2023-09-03
# 空間的に2周期ハミルトニアンを持つ連続時間量子ウォークの極限分布

Limit distribution of a continuous-time quantum walk with a spatially 2-periodic Hamiltonian ( http://arxiv.org/abs/2304.06464v2 )

ライセンス: Link先を確認
Takuya Machida(参考訳) 連続時間量子ウォークを$\mathbb{Z}=\left\{0,\pm 1,\pm 2,\ldots\right\}$に焦点をあてて、量子ウォーカーが位置で観測される確率分布を分析する。 ウォーカーは局所的な状態で離陸し、そのシステムは空間的に周期的なハミルトニアンによって操作される。 その結果、非対称な確率分布が現れる。 長時間の振る舞いをキャッチするために、我々はまた、長期極限定理を見つけ、極限分布が対称密度関数を持つことを実現する。

Focusing on a continuous-time quantum walk on $\mathbb{Z}=\left\{0,\pm 1,\pm 2,\ldots\right\}$, we analyze a probability distribution with which the quantum walker is observed at a position. The walker launches off at a localized state and its system is operated by a spatially periodic Hamiltonian. As a result, we see an asymmetric probability distribution. To catch a long-time behavior, we also try to find a long-time limit theorem and realize that the limit distribution holds a symmetric density function.
翻訳日:2023-09-07 05:45:47 公開日:2023-09-03
# GMValuator:生成モデルのための類似性に基づくデータ評価

GMValuator: Similarity-based Data Valuation for Generative Models ( http://arxiv.org/abs/2304.10701v5 )

ライセンス: Link先を確認
Jiaxi Yang, Wenglong Deng, Benlin Liu, Yangsibo Huang, James Zou, Xiaoxiao Li(参考訳) データ評価は機械学習において重要な役割を果たす。 既存のデータ評価手法は主に差別モデルに焦点を当てており、近年注目されている生成モデルを無視している。 深層生成モデルのために設計されたデータ評価手法の試行は、特定のモデルに集中するか、結果に堅牢性を欠いている。 さらに、効率性は依然として脆弱な欠点を浮き彫りにする。 このギャップを埋めるために、類似性マッチングの観点から生成モデルにおけるデータ評価問題を定式化する。 具体的には、生成タスクにデータバリュエーションを提供する最初のトレーニングフリーかつモデル非依存なアプローチである、生成モデルバリュエータ(gmvaluator)を紹介します。 革新的な類似性マッチングモジュールを通じて効率的なデータ評価を可能にし、画像品質評価を取り入れてバイアスのあるコントリビューションを校正し、生成されたサンプルへのコントリビューションに基づいて、すべてのトレーニングサンプルに属性クレジットを付与する。 さらに,生成モデルにおけるデータ評価手法を評価するための評価基準を4つ導入し,信頼性と真理性の原理に適合させた。 GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。

Data valuation plays a crucial role in machine learning. Existing data valuation methods have primarily focused on discriminative models, neglecting generative models that have recently gained considerable attention. A very few existing attempts of data valuation method designed for deep generative models either concentrates on specific models or lacks robustness in their outcomes. Moreover, efficiency still reveals vulnerable shortcomings. To bridge the gaps, we formulate the data valuation problem in generative models from a similarity-matching perspective. Specifically, we introduce Generative Model Valuator (GMValuator), the first training-free and model-agnostic approach to provide data valuation for generation tasks. It empowers efficient data valuation through our innovatively similarity matching module, calibrates biased contribution by incorporating image quality assessment, and attributes credits to all training samples based on their contributions to the generated samples. Additionally, we introduce four evaluation criteria for assessing data valuation methods in generative models, aligning with principles of plausibility and truthfulness. GMValuator is extensively evaluated on various datasets and generative architectures to demonstrate its effectiveness.
翻訳日:2023-09-07 05:33:39 公開日:2023-09-03
# PhysBench: 新しいデータセットとベースラインを備えたrPPG用のベンチマークフレームワーク

PhysBench: A Benchmark Framework for rPPG with a New Dataset and Baseline ( http://arxiv.org/abs/2305.04161v2 )

ライセンス: Link先を確認
Kegang Wang, Yantao Wei, Mingwen Tong, Jie Gao, Yi Tian, YuJian Ma, ZhongJin Zhao(参考訳) 近年,インターネットビデオの普及により,感情コンピューティングや遠隔医療の分野で生理的リモートセンシングが注目されている。 顔の映像から生理学的シグナルを復元することは、前処理、画像アルゴリズム、そして波形を復元する後処理の一連の課題である。 本稿では,統一前処理と後処理によって異なるアルゴリズムを公平に比較可能な,完全かつ効率的なエンドツーエンドのトレーニングおよびテストフレームワークを提案する。 さらに、軽量なアルゴリズムとともに、高度に同期されたロスレスフォーマットデータセットを導入する。 データセットには58名の被験者による32時間(3.53mフレーム)以上のビデオが含まれている。

In recent years, due to the widespread use of internet videos, physiological remote sensing has gained more and more attention in the fields of affective computing and telemedicine. Recovering physiological signals from facial videos is a challenging task that involves a series of preprocessing, image algorithms, and post-processing to finally restore waveforms. We propose a complete and efficient end-to-end training and testing framework that provides fair comparisons for different algorithms through unified preprocessing and post-processing. In addition, we introduce a highly synchronized lossless format dataset along with a lightweight algorithm. The dataset contains over 32 hours (3.53M frames) of video from 58 subjects; by training on our collected dataset both our proposed algorithm as well as existing ones can achieve improvements.
翻訳日:2023-09-07 05:24:27 公開日:2023-09-03
# 事前学習拡散モデルによる一発半教師付きフェデレーション学習の探索

Exploring One-shot Semi-supervised Federated Learning with A Pre-trained Diffusion Model ( http://arxiv.org/abs/2305.04063v2 )

ライセンス: Link先を確認
Mingzhao Yang, Shangchao Su, Bin Li, Xiangyang Xue(参考訳) 近年,サーバ上のラベル付きデータとクライアント上のラベルなしデータを用いた半教師付きフェデレーション学習(semi-FL)が提案されている。 しかし、既存の手法では、通信コスト、データ不均一性、クライアントデバイスに対するトレーニング圧力など、いくつかの課題に直面している。 これらの課題に対処するため,我々はsemi-flに強力な拡散モデル(dm)を導入し,federated diffusion-inspired semi-supervised co-training法であるfederated diffusion-inspired co-training法を提案する。 具体的には、まずラベル付きサーバデータのプロトタイプを抽出し、これらのプロトタイプを使用してクライアントデータの擬似ラベルを予測する。 各カテゴリについて、クラスタセンタロイドとドメイン固有表現を計算し、それらの分布の意味的および様式的情報を示す。 ノイズを追加した後、これらの表現はサーバに送信され、事前訓練されたDMを使用して、クライアントの分布に応じて合成データセットを生成し、その上でグローバルモデルをトレーニングする。 dm内の膨大な知識の助けを借りて、合成データセットはクライアントイメージと同等の品質と多様性を持ち、その後、教師付き集中トレーニングの天井を超えるパフォーマンスを達成するグローバルモデルのトレーニングを可能にする。 FedDISCは1回の通信ラウンドで動作し、ローカルなトレーニングを必要としない。 3つの大規模データセットに対する大規模な実験により、FedDISCは非IIDクライアント上の半FL問題に効果的に対処し、比較したSOTA法より優れていることが示された。 十分な可視化実験は、FedDISCが生成した合成データセットが元のクライアントデータセットに匹敵する多様性と品質を示しており、クライアントのプライバシーに敏感な情報を漏洩する可能性があることも示している。

Recently, semi-supervised federated learning (semi-FL) has been proposed to handle the commonly seen real-world scenarios with labeled data on the server and unlabeled data on the clients. However, existing methods face several challenges such as communication costs, data heterogeneity, and training pressure on client devices. To address these challenges, we introduce the powerful diffusion models (DM) into semi-FL and propose FedDISC, a Federated Diffusion-Inspired Semi-supervised Co-training method. Specifically, we first extract prototypes of the labeled server data and use these prototypes to predict pseudo-labels of the client data. For each category, we compute the cluster centroids and domain-specific representations to signify the semantic and stylistic information of their distributions. After adding noise, these representations are sent back to the server, which uses the pre-trained DM to generate synthetic datasets complying with the client distributions and train a global model on it. With the assistance of vast knowledge within DM, the synthetic datasets have comparable quality and diversity to the client images, subsequently enabling the training of global models that achieve performance equivalent to or even surpassing the ceiling of supervised centralized training. FedDISC works within one communication round, does not require any local training, and involves very minimal information uploading, greatly enhancing its practicality. Extensive experiments on three large-scale datasets demonstrate that FedDISC effectively addresses the semi-FL problem on non-IID clients and outperforms the compared SOTA methods. Sufficient visualization experiments also illustrate that the synthetic dataset generated by FedDISC exhibits comparable diversity and quality to the original client dataset, with a neglectable possibility of leaking privacy-sensitive information of the clients.
翻訳日:2023-09-07 05:24:14 公開日:2023-09-03
# 表現の勾配に基づく説明によるモデルデバイアス

Model Debiasing via Gradient-based Explanation on Representation ( http://arxiv.org/abs/2305.12178v2 )

ライセンス: Link先を確認
Jindi Zhang, Luning Wang, Dan Su, Yongxiang Huang, Caleb Chen Cao, Lei Chen(参考訳) 機械学習システムは、フェアネス問題として知られる特定の人口集団に対して偏りのある結果を生み出す。 この問題に取り組む最近のアプローチは、疎結合な表現学習を通じて潜在コード(つまり表現)を学び、敏感な属性(例えば、性別)に関連付けられた潜在コード次元を破棄する。 それでもこれらのアプローチは、実世界のデータ、特に構造化されていないデータを処理する際に、不完全な歪曲や見落としのプロキシ属性(機密属性のプロキシ)に悩まされる可能性がある。 本稿では,本論文で提案するフェアネスフレームワークを提案する。センシティブな属性とプロキシ属性の両方に対してバイアスを発生させることにより,ダウンストリームタスクモデルの予測性能が完全に乱れずに向上する。 第一に、勾配に基づく説明を活用して、2つのモデルに焦点を当てることである。 1)敏感な属性を予測するための1つの焦点 2) 下流のタスクラベルを予測するもう1つの焦点は、下流のタスクモデルのフェアネスとユーティリティの目標へのトレーニングを導く潜在コードを摂動させることである。 筆者らのフレームワークは,不整合表現学習法と非整合表現学習法の両方で動作することを実証的に示し,非構造化データセットと構造化データセットとの公平性とのトレードオフを従来の最先端手法よりも良好に実現している。

Machine learning systems produce biased results towards certain demographic groups, known as the fairness problem. Recent approaches to tackle this problem learn a latent code (i.e., representation) through disentangled representation learning and then discard the latent code dimensions correlated with sensitive attributes (e.g., gender). Nevertheless, these approaches may suffer from incomplete disentanglement and overlook proxy attributes (proxies for sensitive attributes) when processing real-world data, especially for unstructured data, causing performance degradation in fairness and loss of useful information for downstream tasks. In this paper, we propose a novel fairness framework that performs debiasing with regard to both sensitive attributes and proxy attributes, which boosts the prediction performance of downstream task models without complete disentanglement. The main idea is to, first, leverage gradient-based explanation to find two model focuses, 1) one focus for predicting sensitive attributes and 2) the other focus for predicting downstream task labels, and second, use them to perturb the latent code that guides the training of downstream task models towards fairness and utility goals. We show empirically that our framework works with both disentangled and non-disentangled representation learning methods and achieves better fairness-accuracy trade-off on unstructured and structured datasets than previous state-of-the-art approaches.
翻訳日:2023-09-07 05:16:17 公開日:2023-09-03
# 隠れた変数、自由選択、コンテキスト依存など

Hidden variables, free choice, context-independence, and all that ( http://arxiv.org/abs/2305.16132v2 )

ライセンス: Link先を確認
Ehtibar N. Dzhafarov(参考訳) 本稿では,相互排他的文脈を持つ確率変数のシステムを記述するために,隠れ変数モデル(HVM)を体系的に記述する。 そのようなシステムは、自由選択を持つモデルでも、一般に隠れた変数の可観測変数への文脈依存のマッピングでも、文脈非依存のマッピングを持つモデルでも同等に記述できる。 これら2つのHVMは不可能であり、可能なすべてのシステムに適用できる。 これは、選択の自由と文脈に依存しないマッピングは全く仮定がなく、これらの概念が科学や哲学で理解されるため、選択の自由や文脈がもたらす物理的影響については何も教えてくれないことを意味している。 しかし、これら2つの概念の結合は、乱れのないシステムや任意のシステムの構成に適用された場合の非文脈性を記述する偽造可能なhvmを定義する。 この hvm は ``context-irrelevance,''' という用語によって最も適切に捉えられ、これはモデル内の分布がコンテキストとともに変化しないことを意味する。

This paper provides a systematic account of the hidden variable models (HVMs) formulated to describe systems of random variables with mutually exclusive contexts. Any such system can be equivalently described either by a model with free choice but generally context-dependent mapping of the hidden variables into observable ones, or by a model with context-independent mapping but generally compromised free choice. These two HVMs are unfalsifiable, applicable to all possible systems. This implies that freedom of choice and context-independent mapping are no assumptions at all, and they tell us nothing about freedom of choice or physical influences exerted by contexts as these notions would be understood in science and philosophy. The conjunction of these two notions, however, defines a falsifiable HVM that describes noncontextuality when applied to systems with no disturbance or to consistifications of arbitrary systems. This HVM is most adequately captured by the term ``context-irrelevance,'' meaning that no distribution in the model changes with context.
翻訳日:2023-09-07 05:06:01 公開日:2023-09-03
# レーダオブジェクト検出ネットワークのためのポイントクラウドのマルチスケールグリッドレンダリングの改善

Improved Multi-Scale Grid Rendering of Point Clouds for Radar Object Detection Networks ( http://arxiv.org/abs/2305.15836v2 )

ライセンス: Link先を確認
Daniel K\"ohler, Maurice Quach, Michael Ulrich, Frank Meinl, Bastian Bischoff and Holger Blume(参考訳) 最初に点雲をグリッド表現に変換し、畳み込みニューラルネットワークを適用したアーキテクチャは、レーダベースのオブジェクト検出に優れたパフォーマンスを実現する。 しかしながら、不規則な点雲データから密度の高い格子構造への転送は、ポイントの離散化と集約による情報の損失としばしば関連づけられる。 本稿では,グリッドレンダリングの負の効果を軽減することを目的とした,新しいアーキテクチャであるマルチスケールKPPillarsBEVを提案する。 具体的には,新しいグリッドレンダリング手法であるkpbevを提案する。kpbevは,カーネルポイント畳み込みの記述力を利用して,グリッドレンダリング中のローカルポイントクラウドコンテキストのエンコーディングを改善する。 さらに,マルチスケール特徴マップを任意のグリッドレンダリング手法を用いた検出ネットワークの畳み込みバックボーンに組み込むための,汎用的なマルチスケールグリッドレンダリング方式を提案する。 我々はnuScenesデータセットの広範な実験を行い、検出性能と計算複雑性の観点から評価する。 提案されたマルチスケールのKPPillarsBEVアーキテクチャは、nuScenesの検証セット上で、ベースラインを5.37%、先行状態を2.88%上回る。 さらに,提案する単一スケールkpbevグリッドレンダリングにより,同一の推論速度を維持しつつ,車体ap4.0をベースラインより2.90%向上させることができる。

Architectures that first convert point clouds to a grid representation and then apply convolutional neural networks achieve good performance for radar-based object detection. However, the transfer from irregular point cloud data to a dense grid structure is often associated with a loss of information, due to the discretization and aggregation of points. In this paper, we propose a novel architecture, multi-scale KPPillarsBEV, that aims to mitigate the negative effects of grid rendering. Specifically, we propose a novel grid rendering method, KPBEV, which leverages the descriptive power of kernel point convolutions to improve the encoding of local point cloud contexts during grid rendering. In addition, we propose a general multi-scale grid rendering formulation to incorporate multi-scale feature maps into convolutional backbones of detection networks with arbitrary grid rendering methods. We perform extensive experiments on the nuScenes dataset and evaluate the methods in terms of detection performance and computational complexity. The proposed multi-scale KPPillarsBEV architecture outperforms the baseline by 5.37% and the previous state of the art by 2.88% in Car AP4.0 (average precision for a matching threshold of 4 meters) on the nuScenes validation set. Moreover, the proposed single-scale KPBEV grid rendering improves the Car AP4.0 by 2.90% over the baseline while maintaining the same inference speed.
翻訳日:2023-09-07 05:05:43 公開日:2023-09-03
# softgpt: 生成的事前学習型不均一グラフトランスフォーマによる目標指向のソフトオブジェクト操作スキルの学習

SoftGPT: Learn Goal-oriented Soft Object Manipulation Skills by Generative Pre-trained Heterogeneous Graph Transformer ( http://arxiv.org/abs/2306.12677v2 )

ライセンス: Link先を確認
Junjia Liu, Zhihao Li, Wanyu Lin, Sylvain Calinon, Kay Chen Tan and Fei Chen(参考訳) 室内のソフトオブジェクト操作タスクは、複雑な力学と可変形状特性により、既存のロボットスキル学習技術にとって大きな課題となる。 人間のデモンストレーションから新しい操作スキルを学ぶことはロボットアプリケーションにとって効果的な方法であるため、ソフトオブジェクトの表現とダイナミクスに関する事前知識を開発する必要がある。 そこで本研究では,3次元の異種グラフ表現とGPTに基づくダイナミックスモデルからなる大量の探索データを用いて,事前学習したソフトオブジェクト操作スキル学習モデルであるSoftGPTを提案する。 各ダウンストリームタスクでは、目標指向のポリシエージェントが次のアクションを予測するようにトレーニングされ、softgptがこれらのアクションの結果を生成する。 これら2つのアプローチを統合することで、ポリシー学習を促進するためのロールアウトを提供するロボットの思考プロセスを確立する。 本研究は,この思考プロセスによる事前知識の活用が,人間の実演から直接学習できる可能性とともに,様々なソフトオブジェクト操作スキルを効率的に学習できることを実証した。

Soft object manipulation tasks in domestic scenes pose a significant challenge for existing robotic skill learning techniques due to their complex dynamics and variable shape characteristics. Since learning new manipulation skills from human demonstration is an effective way for robot applications, developing prior knowledge of the representation and dynamics of soft objects is necessary. In this regard, we propose a pre-trained soft object manipulation skill learning model, namely SoftGPT, that is trained using large amounts of exploration data, consisting of a three-dimensional heterogeneous graph representation and a GPT-based dynamics model. For each downstream task, a goal-oriented policy agent is trained to predict the subsequent actions, and SoftGPT generates the consequences of these actions. Integrating these two approaches establishes a thinking process in the robot's mind that provides rollout for facilitating policy learning. Our results demonstrate that leveraging prior knowledge through this thinking process can efficiently learn various soft object manipulation skills, with the potential for direct learning from human demonstrations.
翻訳日:2023-09-07 04:36:27 公開日:2023-09-03
# ブラックホール内部の非等距離ホログラフィーモデルにおけるホーキング放射からの情報を取得する:理論と量子シミュレーション

Retrieving information from Hawking radiation in the non-isometric holographic model of black hole interior: theory and quantum simulations ( http://arxiv.org/abs/2307.01454v2 )

ライセンス: Link先を確認
Ran Li, Xuanhua Wang, Kun Zhang, Jin Wang(参考訳) ブラックホール内部の非等尺ホログラフィーモデルは、有効計算と微視的記述の間の摩擦を補うため、長年続くブラックホール情報パズルの潜在的な解決法として際立っている。 重要な側面は、ブラックホールの内部の有効場記述におけるヒルベルト空間から基本自由度へのホログラフィック写像は線型であるが非等距離写像である。 本研究では,最終状態の投射とブラックホール内部の非等方性モデルに基づいて,Hayden-Preskillプロトコルの修正版を提案し,ホーキング放射の復号化による情報取得が可能であることを示す。 このモデルは、量子極値曲面計算と一致するブラックホールのエントロピーを計算する。 ブラックホール内部のダイナミクスの完全な知識を仮定し,修正ヘイデン・プレススキルプロトコルにおける吉田・キタエフのデコード戦略について検討した。 さらに、確率的およびグロバーの探索復号戦略を7ビットのIBM量子プロセッサ上で実験し、解析結果の検証を行い、非等尺モデルにおける情報検索の可能性を確認する。 この研究は、量子プロセッサのブラックホール情報問題を探究するより多くの関心を刺激する。

The non-isometric holographic model of the black hole interior stands out as a potential resolution of the long-standing black hole information puzzle since it remedies the friction between the effective calculation and the microscopic description. The key aspect is that the holographic map from the Hilbert space in the effective field description of the black hole interior to the fundamental degrees of freedom is linear but non-isometric. In this study, building on the final-state projection and the non-isometric models of black hole interior, we propose a modified version of Hayden-Preskill protocol and demonstrate the decoupling condition under which retrieving information from decoding Hawking radiation is feasible. We show that this model computes the black hole entropy consistent with the quantum extremal surface calculation. Assuming the full knowledge of the dynamics of the black hole interior, we investigate how Yoshida-Kitaev decoding strategy can be employed in the modified Hayden-Preskill protocol. Furthermore, we perform experimental tests of both probabilistic and Grover's search decoding strategies on the 7-qubit IBM quantum processors to validate our analytical findings and confirm the feasibility of retrieving information in the non-isometric model. This study would stimulate more interests to explore black hole information problem on the quantum processors.
翻訳日:2023-09-07 04:27:02 公開日:2023-09-03
# 総会における再配置計画

Rearrangement Planning for General Part Assembly ( http://arxiv.org/abs/2307.00206v2 )

ライセンス: Link先を確認
Yulong Li, Andy Zeng, Shuran Song(参考訳) 自律的なロボット組み立ての成功のほとんどは、単一の目標またはカテゴリーに制限されている。 本稿では,未確認の部品形状を持つ新規なターゲットアセンブリ作成作業である一般部品組み立てについて検討する。 汎用的な部品組立システムの基本的なステップとして,対象部品の正確な配置を決定する作業に取り組み,これを「再配置計画」と呼ぶ。 本稿では,各部品形状が対象形状とどのように対応しているかを推定し,部品ポーズを正確に予測するトランスベースモデルであるgeneral part assembly transformer (gpat)を提案する。 実世界の3次元CADモデルと実世界のスキャンによる実験により,GPATの新規かつ多様なターゲットおよび部品形状への一般化能力を示す。

Most successes in autonomous robotic assembly have been restricted to single target or category. We propose to investigate general part assembly, the task of creating novel target assemblies with unseen part shapes. As a fundamental step to a general part assembly system, we tackle the task of determining the precise poses of the parts in the target assembly, which we we term ``rearrangement planning''. We present General Part Assembly Transformer (GPAT), a transformer-based model architecture that accurately predicts part poses by inferring how each part shape corresponds to the target shape. Our experiments on both 3D CAD models and real-world scans demonstrate GPAT's generalization abilities to novel and diverse target and part shapes.
翻訳日:2023-09-07 04:26:40 公開日:2023-09-03
# 生体画像とテキストにおけるマルチモーダル深層学習についての一考察

A scoping review on multimodal deep learning in biomedical images and texts ( http://arxiv.org/abs/2307.07362v2 )

ライセンス: Link先を確認
Zhaoyi Sun, Mingquan Lin, Qingqing Zhu, Qianqian Xie, Fei Wang, Zhiyong Lu, Yifan Peng(参考訳) 将来のコンピュータ支援診断・予後システムは、マルチモーダルデータを同時に処理できるべきである。 画像やテキストなどの複数のデータソースの統合を含むMDL(Multimodal Deep Learning)は、バイオメディカルデータの分析と解釈に革命をもたらす可能性がある。 しかし、近年は研究者の注意を引いただけである。 この目的のために、このトピックを体系的にレビューし、現在の作業の限界を特定し、今後の方向性を探求する必要がある。 本稿では,この分野の現状を総合的に概観し,生物医学的イメージとテキスト共同学習に焦点をあてた,重要な概念,研究の種類,研究ギャップを明らかにすることを目的としている。 本研究では,(1)レポート生成,(2)ビジュアル質問応答,(3)クロスモーダル検索,(4)コンピュータ支援診断,(5)意味セグメンテーションの5つの課題について,マルチモーダル深層学習の現状について検討した。 本結果はMDLの多様な応用と可能性を強調し,今後の研究の方向性を示唆するものである。 我々は,自然言語処理(nlp)と医療画像コミュニティの連携を促進し,次世代の意思決定とコンピュータ支援診断システム開発を支援することを期待する。

Computer-assisted diagnostic and prognostic systems of the future should be capable of simultaneously processing multimodal data. Multimodal deep learning (MDL), which involves the integration of multiple sources of data, such as images and text, has the potential to revolutionize the analysis and interpretation of biomedical data. However, it only caught researchers' attention recently. To this end, there is a critical need to conduct a systematic review on this topic, identify the limitations of current work, and explore future directions. In this scoping review, we aim to provide a comprehensive overview of the current state of the field and identify key concepts, types of studies, and research gaps with a focus on biomedical images and texts joint learning, mainly because these two were the most commonly available data types in MDL research. This study reviewed the current uses of multimodal deep learning on five tasks: (1) Report generation, (2) Visual question answering, (3) Cross-modal retrieval, (4) Computer-aided diagnosis, and (5) Semantic segmentation. Our results highlight the diverse applications and potential of MDL and suggest directions for future research in the field. We hope our review will facilitate the collaboration of natural language processing (NLP) and medical imaging communities and support the next generation of decision-making and computer-assisted diagnostic system development.
翻訳日:2023-09-07 04:20:24 公開日:2023-09-03
# InvVis: 可逆可視化のための大規模データ埋め込み

InvVis: Large-Scale Data Embedding for Invertible Visualization ( http://arxiv.org/abs/2307.16176v3 )

ライセンス: Link先を確認
Huayuan Ye, Chenhui Li, Yang Li and Changbo Wang(参考訳) InvVisは、画像から可視化を再構成またはさらに修正する、可逆可視化のための新しいアプローチである。 InvVisは、チャートデータ、チャート情報、ソースコードなど、膨大な量のデータを視覚化画像に埋め込むことができる。 符号化された画像は、原画像と知覚的に区別できない。 画像の形でグラフデータを効率よく表現し,大容量データの埋め込みを可能にする手法を提案する。 また,インバータブルニューラルネットワークに基づくモデルを概説し,高品質なデータ隠蔽と公開を実現する。 InvVisのさまざまなアプリケーションシナリオを調査し、実装する。 さらに,データ埋め込み品質,データ復元精度,データ符号化能力など,さまざまな観点から評価を行うための一連の評価実験を実施している。 実験の結果, 可逆可視化におけるInvVisの大きな可能性を示した。

We present InvVis, a new approach for invertible visualization, which is reconstructing or further modifying a visualization from an image. InvVis allows the embedding of a significant amount of data, such as chart data, chart information, source code, etc., into visualization images. The encoded image is perceptually indistinguishable from the original one. We propose a new method to efficiently express chart data in the form of images, enabling large-capacity data embedding. We also outline a model based on the invertible neural network to achieve high-quality data concealing and revealing. We explore and implement a variety of application scenarios of InvVis. Additionally, we conduct a series of evaluation experiments to assess our method from multiple perspectives, including data embedding quality, data restoration accuracy, data encoding capacity, etc. The result of our experiments demonstrates the great potential of InvVis in invertible visualization.
翻訳日:2023-09-07 03:55:32 公開日:2023-09-03
# mlic++: 学習画像圧縮のための線形複雑性マルチリファレンスエントロピーモデリング

MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned Image Compression ( http://arxiv.org/abs/2307.15421v2 )

ライセンス: Link先を確認
Wei Jiang, Ronggang Wang(参考訳) 近年,チャネルワイド,局所空間,大域空間相関を捉えるマルチ参照エントロピーモデルが提案されている。 以前の研究では、グローバル相関キャプチャに注意が払われているが、二次cpmプレックス性は高解像度画像符号化の可能性を制限する。 本稿では,softmax 操作の分解を通じて,線形複雑性大域的相関をキャプチャする手法を提案する。 そこで我々はMLIC$^{++}$を提案し,マルチ参照エントロピーモデリングのための線形複雑度を持つ画像圧縮手法を提案する。 我々のMLIC$^{++}$はより効率的で、PSNRで測定した場合のVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減する。 コードはhttps://github.com/JiangWeibeta/MLICで入手できる。

Recently, multi-reference entropy model has been proposed, which captures channel-wise, local spatial, and global spatial correlations. Previous works adopt attention for global correlation capturing, however, the quadratic cpmplexity limits the potential of high-resolution image coding. In this paper, we propose the linear complexity global correlations capturing, via the decomposition of softmax operation. Based on it, we propose the MLIC$^{++}$, a learned image compression with linear complexity for multi-reference entropy modeling. Our MLIC$^{++}$ is more efficient and it reduces BD-rate by 13.39% on the Kodak dataset compared to VTM-17.0 when measured in PSNR. Code is available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2023-09-07 03:54:30 公開日:2023-09-03
# 老化時計モデルにおけるeXPlainable Artificial Intelligence (XAI)

eXplainable Artificial Intelligence (XAI) in aging clock models ( http://arxiv.org/abs/2307.13704v2 )

ライセンス: Link先を確認
Alena Kalyakulina and Igor Yusipov and Maria Giulia Bacalini and Alexey Moskalev and Claudio Franceschi and Mikhail Ivanchenko(参考訳) eXplainable Artificial Intelligence (XAI)は、複雑なモデルの予測を解くことを目的として、機械学習の急速に進歩している分野である。 XAIは特に、医療、診断、レコメンデーション、治療の選択が人工知能システムによる決定に依存する場合など、機密性の高いアプリケーションで必要とされる。 AIアプローチは、老化研究、特に生物学的時計モデルの開発や老化や老化関連疾患のバイオマーカーの特定に広く用いられている。 しかし、ここでのXAIの可能性は完全に評価されるのを待っている。 本稿では,XAIの「加齢時計」開発への応用について論じるとともに,特定の生理システムに焦点をあてた文献を包括的に分析する。

eXplainable Artificial Intelligence (XAI) is a rapidly progressing field of machine learning, aiming to unravel the predictions of complex models. XAI is especially required in sensitive applications, e.g. in health care, when diagnosis, recommendations and treatment choices might rely on the decisions made by artificial intelligence systems. AI approaches have become widely used in aging research as well, in particular, in developing biological clock models and identifying biomarkers of aging and age-related diseases. However, the potential of XAI here awaits to be fully appreciated. We discuss the application of XAI for developing the "aging clocks" and present a comprehensive analysis of the literature categorized by the focus on particular physiological systems.
翻訳日:2023-09-07 03:53:54 公開日:2023-09-03
# 安定エコー状態ネットワークのエッジ

Edge of stability echo state networks ( http://arxiv.org/abs/2308.02902v2 )

ライセンス: Link先を確認
Andrea Ceni, Claudio Gallicchio(参考訳) Echo State Networks (ESN) は、Echo State Property (ESP) の原則の下で動作する時系列処理モデルである。 ESPは安定性の概念であり、入力の記憶が漸近的に暗くなる。 一方、ESNの結果として生じるアーキテクチャ上のバイアスは、情報の過剰な損失を招き、長い短期記憶要求のあるタスクのパフォーマンスを損なう可能性がある。 本稿では, フェージングメモリ特性と, できるだけ多くのメモリを保持できることを目標として, 安定エコー状態ネットワーク(ES$2$N)と呼ばれる新しいESNアーキテクチャを導入する。 導入されたES$2$Nモデルは、(標準ESNのような)非線形貯水池と直交変換を実装する線形貯水池の凸結合として貯水池層を定義することに基づいている。 我々は、導入されたモデルの数学的解析を行い、ES$2$N写像のヤコビアン全体の固有スペクトルが、制御可能な半径の複素円の環状近傍に含まれることを証明し、この性質を利用して、ES$2$Nのフォワードダイナミクスが設計によってカオスのエッジに近づくことを証明した。 また,本実験により,新たに導入された貯水池モデルにより,理論上の短期記憶容量が最大となることを示す。 同時に、ES$^2$N は、標準 ESN と比較して、メモリと非線形性の間に優れたトレードオフを提供するとともに、自己回帰非線形モデリングの性能を著しく向上することを示した。

Echo State Networks (ESNs) are time-series processing models working under the Echo State Property (ESP) principle. The ESP is a notion of stability that imposes an asymptotic fading of the memory of the input. On the other hand, the resulting inherent architectural bias of ESNs may lead to an excessive loss of information, which in turn harms the performance in certain tasks with long short-term memory requirements. With the goal of bringing together the fading memory property and the ability to retain as much memory as possible, in this paper we introduce a new ESN architecture, called the Edge of Stability Echo State Network (ES$^2$N). The introduced ES$^2$N model is based on defining the reservoir layer as a convex combination of a nonlinear reservoir (as in the standard ESN), and a linear reservoir that implements an orthogonal transformation. We provide a thorough mathematical analysis of the introduced model, proving that the whole eigenspectrum of the Jacobian of the ES$^2$N map can be contained in an annular neighbourhood of a complex circle of controllable radius, and exploit this property to demonstrate that the ES$^2$N's forward dynamics evolves close to the edge-of-chaos regime by design. Remarkably, our experimental analysis shows that the newly introduced reservoir model is able to reach the theoretical maximum short-term memory capacity. At the same time, in comparison to standard ESN, ES$^2$N is shown to offer an excellent trade-off between memory and nonlinearity, as well as a significant improvement of performance in autoregressive nonlinear modeling.
翻訳日:2023-09-07 03:47:02 公開日:2023-09-03
# アプリオリ・アソシエーション・ルール・マイニング(apriori association rule mining)を用いた回復患者および死亡者からのcovid-19の症状パターンの検出

Discovering the Symptom Patterns of COVID-19 from Recovered and Deceased Patients Using Apriori Association Rule Mining ( http://arxiv.org/abs/2308.06763v2 )

ライセンス: Link先を確認
Mohammad Dehghani, Zahra Yazdanparast(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中で壊滅的な影響を及ぼし、数百万人の命が引き起こされ、社会と経済に大きな混乱をもたらした。 意思決定を最適化し、限られた資源を割り当てるためには、新型コロナウイルスの症状を特定し、各症例の重症度を決定することが不可欠である。 機械学習アルゴリズムは、医学分野、特に有用な情報や科学的決定を導くための臨床データセットのマイニングにおいて、強力なツールを提供する。 アソシエーションルールマイニングは、データから隠れたパターンを抽出する機械学習技術である。 本稿では、アソシエーションルールマイニングに基づくAprioriアルゴリズムを用いて、新型コロナウイルス患者の症状パターンを発見する。 研究は2875人の患者の記録を用いて、最も一般的な症状と症状を無呼吸 (72%) 、うつ (64%)、発熱 (59%)、弱さ (18%)、筋痛 (14.5%)、喉痛 (12%) と同定した。 提案手法は, 疾患の管理と治療を効果的に支援できる, 臨床医に有用な洞察を与える。

The COVID-19 pandemic has a devastating impact globally, claiming millions of lives and causing significant social and economic disruptions. In order to optimize decision-making and allocate limited resources, it is essential to identify COVID-19 symptoms and determine the severity of each case. Machine learning algorithms offer a potent tool in the medical field, particularly in mining clinical datasets for useful information and guiding scientific decisions. Association rule mining is a machine learning technique for extracting hidden patterns from data. This paper presents an application of association rule mining based Apriori algorithm to discover symptom patterns from COVID-19 patients. The study, using 2875 patient's records, identified the most common signs and symptoms as apnea (72%), cough (64%), fever (59%), weakness (18%), myalgia (14.5%), and sore throat (12%). The proposed method provides clinicians with valuable insight into disease that can assist them in managing and treating it effectively.
翻訳日:2023-09-07 03:37:26 公開日:2023-09-03
# 正規化勾配の集約によるオーバーザ・エア計算によるフェデレーション学習支援

Over-the-Air Computation Aided Federated Learning with the Aggregation of Normalized Gradient ( http://arxiv.org/abs/2308.09082v2 )

ライセンス: Link先を確認
Rongfei Fan, Xuming An, Shiyuan Zuo, and Han Hu(参考訳) オーバー・ザ・エア(Over-the-air)は、連邦学習(FL)のための通信効率の高い計算方法である。 このようなシステムでは、プライベート損失関数の局所勾配が更新され、増幅され、各モバイルデバイスに送信され、サーバは全オンスに集約勾配を受信し、更新されたモデルパラメータを各モバイルデバイスに生成してブロードキャストする。 増幅係数の選択に関して、ほとんどの関連する研究は、局所勾配の極大ノルムは常に起こると仮定するが、実際には反復によって変動し、収束性能が低下する可能性がある。 この問題を回避するために,局所勾配を増幅する前に正規化する手法を提案する。 提案手法では,損失関数が滑らかな場合,提案手法が非線型速度で定常点に収束できることを実証する。 滑らかで強い凸損失関数の場合,本手法は最小のトレーニング損失を最小の正の許容範囲で線形速度で達成できることを実証する。 さらに、収束率と耐性とのトレードオフが発見された。 収束を早めるために、システムパラメータを最適化する問題を2つ以上のケースで定式化する。 非凸であるが、定式化問題の多項式複雑性を伴う最適解が導出される。 実験の結果,提案手法は収束性能のベンチマーク手法を上回ることができることがわかった。

Over-the-air computation is a communication-efficient solution for federated learning (FL). In such a system, iterative procedure is performed: Local gradient of private loss function is updated, amplified and then transmitted by every mobile device; the server receives the aggregated gradient all-at-once, generates and then broadcasts updated model parameters to every mobile device. In terms of amplification factor selection, most related works suppose the local gradient's maximal norm always happens although it actually fluctuates over iterations, which may degrade convergence performance. To circumvent this problem, we propose to turn local gradient to be normalized one before amplifying it. Under our proposed method, when the loss function is smooth, we prove our proposed method can converge to stationary point at sub-linear rate. In case of smooth and strongly convex loss function, we prove our proposed method can achieve minimal training loss at linear rate with any small positive tolerance. Moreover, a tradeoff between convergence rate and the tolerance is discovered. To speedup convergence, problems optimizing system parameters are also formulated for above two cases. Although being non-convex, optimal solution with polynomial complexity of the formulated problems are derived. Experimental results show our proposed method can outperform benchmark methods on convergence performance.
翻訳日:2023-09-07 03:28:44 公開日:2023-09-03
# DeDoDe: Detect, Don't Describe -- Describe, Don't Detect for Local Feature Matching

DeDoDe: Detect, Don't Describe -- Describe, Don't Detect for Local Feature Matching ( http://arxiv.org/abs/2308.08479v2 )

ライセンス: Link先を確認
Johan Edstedt, Georg B\"okman, M{\aa}rten Wadenb\"ack, Michael Felsberg(参考訳) キーポイント検出は、3次元再構成において重要なステップであり、シーンの各ビューで(最大)k点の集合を検出する。 重要なことに、検出された点は、ビュー、すなわちシーン内の同じ3Dポイント間で一致する必要がある。 キーポイント検出の主な課題の1つは、学習目標の定式化である。 従来の学習に基づく手法は、典型的には、キーポイントとディスクリプタを共同で学習し、キーポイント検出を隣り合う隣人の二項分類タスクとして扱う。 しかし、記述子近傍のキーポイント検出はプロキシタスクであり、3D一貫性のあるキーポイントを生成することが保証されていない。 さらに、これはキーポイントを特定の記述子に結び付け、下流の使用を複雑にする。 この作業では、3d一貫性から直接キーポイントを学習します。 この目的のために,検出器を訓練し,大規模sfmからのトラックを検出する。 これらの点はしばしば過小評価されるため、半教師付き2視点検出目的を導出して、この集合を所望の数に拡張する。 ディクリプタをトレーニングするために、キーポイント上の互いに近接する目的を個別のネットワークで最大化する。 結果は,複数の幾何ベンチマークにおいて,dedodeアプローチが有意な向上を達成したことを示している。 コードはhttps://github.com/Parskatt/DeDoDeで提供される

Keypoint detection is a pivotal step in 3D reconstruction, whereby sets of (up to) K points are detected in each view of a scene. Crucially, the detected points need to be consistent between views, i.e., correspond to the same 3D point in the scene. One of the main challenges with keypoint detection is the formulation of the learning objective. Previous learning-based methods typically jointly learn descriptors with keypoints, and treat the keypoint detection as a binary classification task on mutual nearest neighbours. However, basing keypoint detection on descriptor nearest neighbours is a proxy task, which is not guaranteed to produce 3D-consistent keypoints. Furthermore, this ties the keypoints to a specific descriptor, complicating downstream usage. In this work, we instead learn keypoints directly from 3D consistency. To this end, we train the detector to detect tracks from large-scale SfM. As these points are often overly sparse, we derive a semi-supervised two-view detection objective to expand this set to a desired number of detections. To train a descriptor, we maximize the mutual nearest neighbour objective over the keypoints with a separate network. Results show that our approach, DeDoDe, achieves significant gains on multiple geometry benchmarks. Code is provided at https://github.com/Parskatt/DeDoDe
翻訳日:2023-09-07 03:26:50 公開日:2023-09-03
# CausalLMは文脈内学習に最適ではない

CausalLM is not optimal for in-context learning ( http://arxiv.org/abs/2308.06912v2 )

ライセンス: Link先を確認
Nan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut(参考訳) 最近の実証的証拠は、インコンテキストサンプルが互いに参加できるプレフィックス言語モデル(prefixlm)を使用する場合、トランスフォーマティブベースのインコンテキスト学習が、インコンテキストサンプルが将来のサンプルに出席することを禁止する自己回帰的注意を使用する因果言語モデル(causallm)よりも優れていることを示している。 この結果は直感的であるが、理論的には理解されていない。 本稿では,あるパラメータ構成の下で,プレフィックスLMと因果LMの収束挙動を理論的に解析する。 解析の結果、両方のLM型は線形速度で定常点に収束するが、プレフィックスLMは線形回帰の最適解に収束するが、因果LM収束ダイナミクスはオンライン勾配降下アルゴリズムに従う。 我々は, 合成および実タスクおよび各種変圧器を用いた実証実験により, 理論的主張を補足する。 実験では,すべての設定において,因果LMがプレフィックスLMを一貫して過小評価することを確認した。

Recent empirical evidence indicates that transformer based in-context learning performs better when using a prefix language model (prefixLM), in which in-context samples can all attend to each other, compared to causal language models (causalLM), which use auto-regressive attention that prohibits in-context samples to attend to future samples. While this result is intuitive, it is not understood from a theoretical perspective. In this paper we take a theoretical approach and analyze the convergence behavior of prefixLM and causalLM under a certain parameter construction. Our analysis shows that both LM types converge to their stationary points at a linear rate, but that while prefixLM converges to the optimal solution of linear regression, causalLM convergence dynamics follows that of an online gradient descent algorithm, which is not guaranteed to be optimal even as the number of samples grows infinitely. We supplement our theoretical claims with empirical experiments over synthetic and real tasks and using various types of transformers. Our experiments verify that causalLM consistently underperforms prefixLM in all settings.
翻訳日:2023-09-07 03:25:33 公開日:2023-09-03
# ソフトウェア工学のための大規模言語モデル:体系的文献レビュー

Large Language Models for Software Engineering: A Systematic Literature Review ( http://arxiv.org/abs/2308.10620v3 )

ライセンス: Link先を確認
Xinyi Hou, Yanjie Zhao, Yue Liu, Zhou Yang, Kailong Wang, Li Li, Xiapu Luo, David Lo, John Grundy, Haoyu Wang(参考訳) 大規模言語モデル(llm)は、ソフトウェア工学(se)を含む多くのドメインに大きな影響を与えてきた。 最近の多くの出版物は様々なSEタスクに適用されたLSMを探索している。 それでも、SE 上の LLM の応用、効果、および可能な制限に関する包括的な理解はまだ初期段階にある。 このギャップを埋めるために,我々は LLM4SE の体系的な文献レビューを行い,プロセスと成果を最適化するために LLM をどのように活用できるかを理解することに焦点をあてた。 我々は2017年から2023年までの229の研究論文を収集し分析し、4つの重要な研究質問(RQ)に答える。 RQ1では、SEタスクに採用された異なるLLMを分類し、その特徴と用途を特徴付ける。 RQ2では、データ収集、前処理、アプリケーションで使われる手法を分析し、SE 実装における LLM を成功させるために、よく計算されたデータセットの役割を強調します。 RQ3 では,SE における LLM の性能を最適化し,評価するための戦略について検討している。 最後に、RQ4は、LLMがこれまで成功してきた特定のSEタスクを調べ、その分野への実践的な貢献を説明する。 これらのRQに対する回答から、現状とトレンド、既存の研究のギャップの特定、今後の研究に期待できる領域のフラグ付けなどについて議論する。

Large Language Models (LLMs) have significantly impacted numerous domains, including Software Engineering (SE). Many recent publications have explored LLMs applied to various SE tasks. Nevertheless, a comprehensive understanding of the application, effects, and possible limitations of LLMs on SE is still in its early stages. To bridge this gap, we conducted a systematic literature review on LLM4SE, with a particular focus on understanding how LLMs can be exploited to optimize processes and outcomes. We collect and analyze 229 research papers from 2017 to 2023 to answer four key research questions (RQs). In RQ1, we categorize different LLMs that have been employed in SE tasks, characterizing their distinctive features and uses. In RQ2, we analyze the methods used in data collection, preprocessing, and application highlighting the role of well-curated datasets for successful LLM for SE implementation. RQ3 investigates the strategies employed to optimize and evaluate the performance of LLMs in SE. Finally, RQ4 examines the specific SE tasks where LLMs have shown success to date, illustrating their practical contributions to the field. From the answers to these RQs, we discuss the current state-of-the-art and trends, identifying gaps in existing research, and flagging promising areas for future study.
翻訳日:2023-09-07 03:17:27 公開日:2023-09-03
# 近似等変グラフネットワーク

Approximately Equivariant Graph Networks ( http://arxiv.org/abs/2308.10436v2 )

ライセンス: Link先を確認
Ningyuan Huang, Ron Levie, Soledad Villar(参考訳) グラフニューラルネットワーク(GNN)は一般的に、グラフ内のノードレバーベリングに対する置換同変として記述される。 GNNのこの対称性はユークリッド畳み込みニューラルネットワーク(CNN)の翻訳同値対称性と比較されることが多い。 しかし、これらの2つの対称性は根本的に異なる: cnnの変換同分散は画像信号に作用する固定領域の対称性(しばしばアクティブ対称性と呼ばれる)に対応し、gnnでは任意の置換がグラフ信号とグラフ領域の両方に作用する(しばしばパッシブ対称性と呼ばれる)。 本研究では,GNNのアクティブな対称性に着目し,信号が固定されたグラフ上でサポートされる学習環境を検討する。 この場合、GNNの自然な対称性はグラフの自己同型である。 実世界のグラフは非対称である傾向があるので、グラフの粗化によって近似対称性を形式化することで対称性の概念を緩和する。 選択した対称性群に応じて,表現率の損失と学習推定器の正則性の利得とのトレードオフを定量化するバイアス分散式を提案する。 提案手法を説明するために, 画像の塗り絵, 交通流予測, および, 対称性の異なる人間のポーズ推定に関する広範な実験を行った。 グラフ自己同型群よりも好ましく、全置換群より小さい群を選択することにより、最適一般化性能が達成できることを理論的かつ実証的に示す。

Graph neural networks (GNNs) are commonly described as being permutation equivariant with respect to node relabeling in the graph. This symmetry of GNNs is often compared to the translation equivariance symmetry of Euclidean convolution neural networks (CNNs). However, these two symmetries are fundamentally different: The translation equivariance of CNNs corresponds to symmetries of the fixed domain acting on the image signal (sometimes known as active symmetries), whereas in GNNs any permutation acts on both the graph signals and the graph domain (sometimes described as passive symmetries). In this work, we focus on the active symmetries of GNNs, by considering a learning setting where signals are supported on a fixed graph. In this case, the natural symmetries of GNNs are the automorphisms of the graph. Since real-world graphs tend to be asymmetric, we relax the notion of symmetries by formalizing approximate symmetries via graph coarsening. We present a bias-variance formula that quantifies the tradeoff between the loss in expressivity and the gain in the regularity of the learned estimator, depending on the chosen symmetry group. To illustrate our approach, we conduct extensive experiments on image inpainting, traffic flow prediction, and human pose estimation with different choices of symmetries. We show theoretically and empirically that the best generalization performance can be achieved by choosing a suitably larger group than the graph automorphism group, but smaller than the full permutation group.
翻訳日:2023-09-07 03:17:06 公開日:2023-09-03
# 脳画像データのためのエッジ対応ハードクラスタリンググラフポーリング

Edge-aware Hard Clustering Graph Pooling for Brain Imaging Data ( http://arxiv.org/abs/2308.11909v3 )

ライセンス: Link先を確認
Cheng Zhu, Jiayi Zhu, Lijuan Zhang, Xi Wu, Shuqi Yang, Ping Liang, Honghan Chen, Ying Tan(参考訳) グラフ畳み込みネットワーク(GCN)は、異なる脳領域間の非ユークリッド空間依存性を捉えることができ、GCNにおけるグラフプーリング演算子は、表現学習能力を高め、異常な脳地図を取得する鍵となる。 しかしながら、既存の研究設計の大半は、グラフプーリングアプリケーションのシナリオを限定するだけでなく、重要なサブストラクチャをキャプチャする能力を低下させる方法で、元のエッジ機能を無視しながら、ノードの観点からのみグラフプーリング演算子を設計している。 本研究では,エッジ対応ハードクラスタリンググラフプーリング(EHCPool)と呼ばれる,多次元エッジ機能を最初にサポートするクラスタリンググラフプーリング法を開発した。 EHCPoolは、エッジ特徴に基づく最初の'Edge-to-node'スコア評価基準を提案し、ノード特徴の意義を評価する。 クリティカルな部分グラフをより効果的に捉えるために、グラフのスパースハードクラスタリング割り当てを適応的に学習するように、新しいイテレーションnトップ戦略も設計されている。 その後、各独立部分グラフの集約ノードとエッジ特徴情報に対して、革新的なN-E集約戦略を示す。 提案モデルは,多地点脳イメージングデータを用いて評価し,最新性能を得た。 この手法は、データ駆動の観点から異なるタイプの機能的脳ネットワークを探索する可能性を秘めている最初のディープラーニングツールであると考えている。 コアコードはhttps://github.com/swfen/ehcpool。

Graph Convolutional Networks (GCNs) can capture non-Euclidean spatial dependence between different brain regions, and the graph pooling operator in GCNs is key to enhancing the representation learning capability and acquiring abnormal brain maps. However, the majority of existing research designs graph pooling operators only from the perspective of nodes while disregarding the original edge features, in a way that not only confines graph pooling application scenarios, but also diminishes its ability to capture critical substructures. In this study, a clustering graph pooling method that first supports multidimensional edge features, called Edge-aware hard clustering graph pooling (EHCPool), is developed. EHCPool proposes the first 'Edge-to-node' score evaluation criterion based on edge features to assess node feature significance. To more effectively capture the critical subgraphs, a novel Iteration n-top strategy is further designed to adaptively learn sparse hard clustering assignments for graphs. Subsequently, an innovative N-E Aggregation strategy is presented to aggregate node and edge feature information in each independent subgraph. The proposed model was evaluated on multi-site brain imaging public datasets and yielded state-of-the-art performance. We believe this method is the first deep learning tool with the potential to probe different types of abnormal functional brain networks from data-driven perspective. Core code is at: https://github.com/swfen/EHCPool.
翻訳日:2023-09-07 03:08:02 公開日:2023-09-03
# CHORUS:非有界合成画像から正規化された3次元物体空間関係を学習する

CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from Unbounded Synthesized Images ( http://arxiv.org/abs/2308.12288v2 )

ライセンス: Link先を確認
Sookwan Han and Hanbyul Joo(参考訳) 本稿では,人間と物体の相互作用の空間的共通認識を3次元的に理解しモデル化する手法を提案する。 これは難しい作業であり、人間らしく自然であると考えられる相互作用の特定の多様体が存在するが、人間のポーズや物体の幾何学は類似した相互作用に対しても変化する。 このような多様性により、3dインタラクションの注釈作業は難しく、スケールしにくくなり、教師ありの方法で推論する可能性が制限される。 人間と物体の間の3d空間関係を学ぶ一つの方法は、人間が同じ種類の物体と相互作用するとき、異なる視点から撮影された複数の2d画像を示すことである。 本手法の核となる考え方は,任意のテキストプロンプト入力から高品質な2d画像を生成する生成モデルを活用することである。 実画像よりも画質が不完全であるにもかかわらず、合成画像は3次元的対象空間関係を学習するのに十分であることを示す。 We present multiple strategies to leverage the synthesized images, including (1) the first method to leverage a generative image model for 3D human-object spatial relation learning; (2) a framework to reason about the 3D spatial relations from inconsistent 2D cues in a self-supervised manner via 3D occupancy reasoning with pose canonicalization; (3) semantic clustering to disambiguate different types of interactions with the same object types; and (4) a novel metric to assess the quality of 3D spatial learning of interaction.

We present a method for teaching machines to understand and model the underlying spatial common sense of diverse human-object interactions in 3D in a self-supervised way. This is a challenging task, as there exist specific manifolds of the interactions that can be considered human-like and natural, but the human pose and the geometry of objects can vary even for similar interactions. Such diversity makes the annotating task of 3D interactions difficult and hard to scale, which limits the potential to reason about that in a supervised way. One way of learning the 3D spatial relationship between humans and objects during interaction is by showing multiple 2D images captured from different viewpoints when humans interact with the same type of objects. The core idea of our method is to leverage a generative model that produces high-quality 2D images from an arbitrary text prompt input as an "unbounded" data generator with effective controllability and view diversity. Despite its imperfection of the image quality over real images, we demonstrate that the synthesized images are sufficient to learn the 3D human-object spatial relations. We present multiple strategies to leverage the synthesized images, including (1) the first method to leverage a generative image model for 3D human-object spatial relation learning; (2) a framework to reason about the 3D spatial relations from inconsistent 2D cues in a self-supervised manner via 3D occupancy reasoning with pose canonicalization; (3) semantic clustering to disambiguate different types of interactions with the same object types; and (4) a novel metric to assess the quality of 3D spatial learning of interaction.
翻訳日:2023-09-07 02:56:15 公開日:2023-09-03
# MKL-$L_{0/1}$-SVM

MKL-$L_{0/1}$-SVM ( http://arxiv.org/abs/2308.12016v3 )

ライセンス: Link先を確認
Bin Zhu and Yijie Shi(参考訳) 本稿では,$(0, 1)$損失関数を持つサポートベクターマシン(svm)のためのマルチカーネル学習(mkl)フレームワークを提案する。 いくつかのKKTのような一階最適条件が提供され、非滑らかな非凸最適化問題を解決するために高速ADMMアルゴリズムを開発するために利用される。 実データ集合に関する数値実験により、我々のmkl-$l_{0/1}$-svmの性能は、rakotomamonjy, bach, canu, grandvaletによって開発されたsimplemklと呼ばれる主要なアプローチの1つに匹敵することが示された [journal of machine learning research, vol. 9, pp. 2491-2521, 2008]。

This paper presents a Multiple Kernel Learning (abbreviated as MKL) framework for the Support Vector Machine (SVM) with the $(0, 1)$ loss function. Some KKT-like first-order optimality conditions are provided and then exploited to develop a fast ADMM algorithm to solve the nonsmooth nonconvex optimization problem. Numerical experiments on real data sets show that the performance of our MKL-$L_{0/1}$-SVM is comparable with the one of the leading approaches called SimpleMKL developed by Rakotomamonjy, Bach, Canu, and Grandvalet [Journal of Machine Learning Research, vol. 9, pp. 2491-2521, 2008].
翻訳日:2023-09-07 02:55:13 公開日:2023-09-03
# HYPSO-1衛星による海と雲の接地構造を持つオープンハイパースペクトルデータセット

An Open Hyperspectral Dataset with Sea-Land-Cloud Ground-Truth from the HYPSO-1 Satellite ( http://arxiv.org/abs/2308.13679v2 )

ライセンス: Link先を確認
Jon A. Justo, Joseph Garrett, Dennis D. Langer, Marie B. Henriksen, Radu T. Ionescu, and Tor A. Johansen(参考訳) HYPSO-1のような人工衛星で使用されるハイパースペクトルイメージングは、ラベル付きデータセットがほとんどないため制約に直面し、これらの地平線アノテーションを要求するAIモデルのトレーニングに影響を及ぼす。 本研究では,hypso-1ミッションから得られた200種類の超スペクトル画像を含むオープンデータセットであるhypso-1 sea-land-cloud-labeled datasetについて紹介する。 さらに、異なる国の38枚の画像には、海/陸/クラウドのカテゴリでラベルされた約2500万のスペクトルシグネチャがある。 データセットとそのラベル付きサブセットの可能性を示すために、ディープラーニングモデル(1d完全畳み込みネットワーク)を最適化し、現在の技術に対して優れたパフォーマンスを実現しました。 完全なデータセット、グラウンドトルースラベル、ディープラーニングモデル、ソフトウェアコードは、Webサイト https://ntnu-smallsat-lab.github.io/hypso1_sea_land_clouds_dataset/ でダウンロード可能である。

Hyperspectral Imaging, employed in satellites for space remote sensing, like HYPSO-1, faces constraints due to few labeled data sets, affecting the training of AI models demanding these ground-truth annotations. In this work, we introduce The HYPSO-1 Sea-Land-Cloud-Labeled Dataset, an open dataset with 200 diverse hyperspectral images from the HYPSO-1 mission, available in both raw and calibrated forms for scientific research in Earth observation. Moreover, 38 of these images from different countries include ground-truth labels at pixel-level totaling about 25 million spectral signatures labeled for sea/land/cloud categories. To demonstrate the potential of the dataset and its labeled subset, we have additionally optimized a deep learning model (1D Fully Convolutional Network), achieving superior performance to the current state of the art. The complete dataset, ground-truth labels, deep learning model, and software code are openly accessible for download at the website https://ntnu-smallsat-lab.github.io/hypso1_sea_land_clouds_dataset/ .
翻訳日:2023-09-07 02:46:22 公開日:2023-09-03
# 可積分性からの非弾性崩壊

Inelastic decay from integrability ( http://arxiv.org/abs/2308.15542v2 )

ライセンス: Link先を確認
Amir Burshtein and Moshe Goldstein(参考訳) 可積分系の目印は、その励起の純粋に弾性散乱である。 このようなシステムは、多くの局所的に保存された電荷を持ち、散在する励起の数と個々のモーメントの保存に繋がる。 本研究では, 積分境界モデルの回路QED実現において, 非弾性崩壊が観測可能であることを示す。 超伝導回路における不純物からのマイクロ波光子の散乱について検討し,両者とも可積分な境界sine-gordonモデルと近藤モデルを実装した。 その結果, マイクロ波光子の非弾性減衰は, 可積分性にも拘わらず, それらの非線形関係と弾性散乱励起により可能となるだけでなく, 非弾性減衰を記述する応答関数の正確な表現が得られるような強力な解析ツールが実際に提供されることがわかった。 形状因子の枠組みを用いて, 2点応答関数から抽出したマイクロ波光子の非弾性減衰速度と弾性位相シフトを計算した。 線形応答を超越して、エネルギー分解非弾性崩壊スペクトルを正確に取得し、3点応答関数のフォームファクタ展開を評価する新しい方法を用いて、積分可能な量子場理論の他の応用で有用であることを示す。 本研究では,最近の光子分裂実験,特にschmid-bulgadaev散逸量子相転移の証拠となる最近の実験データについて述べる。

A hallmark of integrable systems is the purely elastic scattering of their excitations. Such systems possess an extensive number of locally conserved charges, leading to the conservation of the number of scattered excitations, as well as their set of individual momenta. In this work, we show that inelastic decay can nevertheless be observed in circuit QED realizations of integrable boundary models. We consider the scattering of microwave photons off impurities in superconducting circuits implementing the boundary sine-Gordon and Kondo models, which are both integrable. We show that not only inelastic decay is possible for the microwave photons, in spite of integrability, and thanks to a nonlinear relation between them and the elastically-scattered excitations, but also that integrability in fact provides powerful analytical tools allowing to obtain exact expressions for response functions describing the inelastic decay. Using the framework of form factors, we calculate the total inelastic decay rate and elastic phase shift of the microwave photons, extracted from a 2-point response function. We then go beyond linear response and obtain the exact energy-resolved inelastic decay spectrum, using a novel method to evaluate form factor expansions of 3-point response functions, which could prove useful in other applications of integrable quantum field theories. We relate our results to several recent photon splitting experiments, and in particular to recent experimental data that provides evidence for the elusive Schmid-Bulgadaev dissipative quantum phase transition.
翻訳日:2023-09-07 02:37:51 公開日:2023-09-03
# OEBench: 実世界のリレーショナルデータストリームにおけるオープン環境問題の調査

OEBench: Investigating Open Environment Challenges in Real-World Relational Data Streams ( http://arxiv.org/abs/2308.15059v2 )

ライセンス: Link先を確認
Yiqun Diao, Yutong Yang, Qinbin Li, Bingsheng He, Mian Lu(参考訳) リレーショナルデータストリームからの洞察をタイムリーに取得する方法は、ホットな研究トピックです。 このタイプのデータストリームは、分散ドリフト、異常値、新興クラス、機能変更など、マシンラーニングのオープン環境の課題として最近紹介されたユニークな課題を示すことができる。 データストリームのインクリメンタルな学習に関するこれまでの研究は行われてきたが、その評価は主に手動で分割したデータセットで行われる。 このようにして、現実のリレーショナルデータストリームにおけるこれらのオープン環境の課題と、既存のインクリメンタル学習アルゴリズムが実際のデータセットでどのように機能するか、という自然な疑問が生まれます。 このギャップを埋めるために,リレーショナルデータストリームにおけるオープン環境の課題を評価するために,oebenchというオープン環境ベンチマークを開発した。 具体的には,実世界の55のリレーショナルデータストリームを調査し,オープン環境シナリオが実世界のデータセットで実際に広く普及していることを確認し,ストリーム学習アルゴリズムの重要な課題を示す。 既存のインクリメンタル学習アルゴリズムによるベンチマークを通じて、データ量の増加は、実世界のデータストリームにおける値の欠如、分散シフト、異常によって機械学習モデルを著しく損なう可能性があるオープン環境シナリオに適用された場合、モデルの精度を一貫して向上しない可能性があることがわかった。 現在の技術は、オープン環境がもたらすこれらの課題を効果的に緩和するには不十分である。 現実世界のオープン環境問題に対処するためには、さらなる研究が必要である。 すべてのデータセットとコードはhttps://github.com/sjtudyq/OEBenchで公開されている。

How to get insights from relational data streams in a timely manner is a hot research topic. This type of data stream can present unique challenges, such as distribution drifts, outliers, emerging classes, and changing features, which have recently been described as open environment challenges for machine learning. While existing studies have been done on incremental learning for data streams, their evaluations are mostly conducted with manually partitioned datasets. Thus, a natural question is how those open environment challenges look like in real-world relational data streams and how existing incremental learning algorithms perform on real datasets. To fill this gap, we develop an Open Environment Benchmark named OEBench to evaluate open environment challenges in relational data streams. Specifically, we investigate 55 real-world relational data streams and establish that open environment scenarios are indeed widespread in real-world datasets, which presents significant challenges for stream learning algorithms. Through benchmarks with existing incremental learning algorithms, we find that increased data quantity may not consistently enhance the model accuracy when applied in open environment scenarios, where machine learning models can be significantly compromised by missing values, distribution shifts, or anomalies in real-world data streams. The current techniques are insufficient in effectively mitigating these challenges posed by open environments. More researches are needed to address real-world open environment challenges. All datasets and code are open-sourced in https://github.com/sjtudyq/OEBench.
翻訳日:2023-09-07 02:35:26 公開日:2023-09-03
# 量子状態のマヨラナ表現についての一考察

A note on Majorana representation of quantum states ( http://arxiv.org/abs/2308.14765v2 )

ライセンス: Link先を確認
Chi-Kwong Li, Mikio Nakahara(参考訳) 量子状態のマヨラナ表現をテンソルの対称性クラスを用いて研究する。 我々は、ブロッホ球面上の $d-1$ 点とその対応する $d-1$ qubits を構成する簡単な方法を示し、実質的に $d$-dimensional 量子状態を表す。 さらに、2つの$d$次元量子状態の内部積が、それらの$(d-1)$-qubit状態表現に関連する行列の永久的に表現できることを示す。 さらに、この結果が特定の分解可能な数値範囲の凸性に与える影響について論じる。

We study the Majorana representation of quantum states using symmetry class of tensors. We present a simple method to construct $d-1$ points on the Bloch sphere and their corresponding $d-1$ qubits, effectively representing a $d$-dimensional quantum state. Additionally, we demonstrate how the inner product of two $d$-dimensional quantum states can be expressed as a permanent of a matrix related to their $(d-1)$-qubit state representations. Furthermore, we discuss the implications of this result on the convexity of a specific decomposable numerical range.
翻訳日:2023-09-07 02:34:40 公開日:2023-09-03
# スパース・ビューCT再構成のための段階別ウェーブレット最適化拡散モデル

Stage-by-stage Wavelet Optimization Refinement Diffusion Model for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2308.15942v2 )

ライセンス: Link先を確認
Kai Xu, Shiyu Lu, Bin Huang, Weiwen Wu, Qiegen Liu(参考訳) 拡散モデルは, スパースビューCT再構成の課題に対処するための潜在的なツールとして出現し, 従来の方法に比べて優れた性能を示した。 しかしながら、これらの普及した拡散モデルは、主にシノグラムや画像領域に焦点を合わせ、モデルトレーニング中に不安定になり、局所的な最小解へ収束する可能性がある。 ウェーブレットトランスフォームは、画像の内容と特徴を様々なスケールで異なる周波数成分バンドに分解し、しばしば様々な方向構造を捉えている。 導電率としてウェーブレット変換を用いると、拡散モデルのロバスト性は著しく向上する。 本研究では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。 具体的には,低周波生成モデルと高周波生成モデルを統合した統一数学モデルを構築し,最適化手法を用いて解を求める。 さらに,シノグラムや画像領域ではなく,ウェーブレット分解成分の低周波および高周波生成モデルを実行し,モデルトレーニングの安定性を確保する。 提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。 提案手法は, 定量的, 定性的に, 既存の最先端手法に勝ることを示す。

Diffusion models have emerged as potential tools to tackle the challenge of sparse-view CT reconstruction, displaying superior performance compared to conventional methods. Nevertheless, these prevailing diffusion models predominantly focus on the sinogram or image domains, which can lead to instability during model training, potentially culminating in convergence towards local minimal solutions. The wavelet trans-form serves to disentangle image contents and features into distinct frequency-component bands at varying scales, adeptly capturing diverse directional structures. Employing the Wavelet transform as a guiding sparsity prior significantly enhances the robustness of diffusion models. In this study, we present an innovative approach named the Stage-by-stage Wavelet Optimization Refinement Diffusion (SWORD) model for sparse-view CT reconstruction. Specifically, we establish a unified mathematical model integrating low-frequency and high-frequency generative models, achieving the solution with optimization procedure. Furthermore, we perform the low-frequency and high-frequency generative models on wavelet's decomposed components rather than sinogram or image domains, ensuring the stability of model training. Our method rooted in established optimization theory, comprising three distinct stages, including low-frequency generation, high-frequency refinement and domain transform. Our experimental results demonstrate that the proposed method outperforms existing state-of-the-art methods both quantitatively and qualitatively.
翻訳日:2023-09-07 02:28:34 公開日:2023-09-03
# MDTD:ディープニューラルネットワークのためのマルチドメイントロイジャン検出器

MDTD: A Multi Domain Trojan Detector for Deep Neural Networks ( http://arxiv.org/abs/2308.15673v2 )

ライセンス: Link先を確認
Arezoo Rajabi, Surudhi Asokraj, Fengqing Jiang, Luyao Niu, Bhaskar Ramasubramanian, Jim Ritcey, Radha Poovendran(参考訳) ディープニューラルネットワーク(DNN)を使用する機械学習モデルは、バックドア攻撃に対して脆弱である。 バックドア攻撃を行う敵は、トリガーと呼ばれる予め定義された摂動を入力サンプルの小さなサブセットに埋め込んでDNNを訓練し、インプットにおけるトリガーの存在が敵意の出力クラスとなるようにする。 しかし、このような逆行的な再訓練は、トリガーなしで入力の出力が影響を受けないようにし、クリーンなサンプルに対して高い分類精度を提供する必要がある。 本稿では,dnn用マルチドメイントロイの木馬検出器mdtdを提案し,テスト時にトロイの木馬トリガーを含む入力を検出する。 MDTDは攻撃者のトリガー埋め込み戦略の知識を必要とせず、画像、オーディオ、グラフベースの入力を備えた訓練済みのDNNモデルに適用することができる。 MDTDは、トロイの木馬トリガーを含む入力サンプルがクリーンサンプルよりも決定境界からかなり離れた位置にあるという洞察を利用する。 MDTDは、逆学習法を用いて決定境界までの距離を推定し、この距離を用いてテスト時間入力サンプルがトロイの木馬か否かを推定する。 我々は、cifar100, cifar10, gtsrb, svhn, flowers102の5つの画像ベースのデータセット、aids, winmal, toxicant, collabの4つのグラフベースのデータセット、 speechcommand audio datasetに対するmdtdを評価した。 MDTDは、異なるタイプのトロイジャントリガーを含むサンプルを効果的に識別する。 対戦相手が堅牢なDNNを訓練し、決定境界からベニグン(トロイジャン)の入力距離を減少させる適応攻撃に対するMDTDの評価を行った。

Machine learning models that use deep neural networks (DNNs) are vulnerable to backdoor attacks. An adversary carrying out a backdoor attack embeds a predefined perturbation called a trigger into a small subset of input samples and trains the DNN such that the presence of the trigger in the input results in an adversary-desired output class. Such adversarial retraining however needs to ensure that outputs for inputs without the trigger remain unaffected and provide high classification accuracy on clean samples. In this paper, we propose MDTD, a Multi-Domain Trojan Detector for DNNs, which detects inputs containing a Trojan trigger at testing time. MDTD does not require knowledge of trigger-embedding strategy of the attacker and can be applied to a pre-trained DNN model with image, audio, or graph-based inputs. MDTD leverages an insight that input samples containing a Trojan trigger are located relatively farther away from a decision boundary than clean samples. MDTD estimates the distance to a decision boundary using adversarial learning methods and uses this distance to infer whether a test-time input sample is Trojaned or not. We evaluate MDTD against state-of-the-art Trojan detection methods across five widely used image-based datasets: CIFAR100, CIFAR10, GTSRB, SVHN, and Flowers102; four graph-based datasets: AIDS, WinMal, Toxicant, and COLLAB; and the SpeechCommand audio dataset. MDTD effectively identifies samples that contain different types of Trojan triggers. We evaluate MDTD against adaptive attacks where an adversary trains a robust DNN to increase (decrease) distance of benign (Trojan) inputs from a decision boundary.
翻訳日:2023-09-07 02:27:26 公開日:2023-09-03
# プログラミング言語は命令チューニングによって互いに強化できるのか?

Can Programming Languages Boost Each Other via Instruction Tuning? ( http://arxiv.org/abs/2308.16824v2 )

ライセンス: Link先を確認
Daoguang Zan, Ailun Yu, Bo Shen, Jiaxin Zhang, Taihong Chen, Bing Geng, Bei Chen, Jichuan Ji, Yafen Yao, Yongji Wang, Qianxiang Wang(参考訳) 人間のプログラマがプログラミング言語を習得すれば、新しいプログラミング言語を学ぶのがより簡単になるでしょう。 本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。 StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の広範な実験を行います。 結果は、プログラミング言語が互いに著しく改善できることを示しています。 例えば、pythonでトレーニングされたcodem-python 15bは、humaneval-x上で絶対17.95% pass@1でjavaを増やせる。 さらに驚くことに、htmlコーパスでトレーニングされたcodem-html 7bは、絶対15.24%のpass@1でjavaを改善することができる。 トレーニングデータはhttps://github.com/nl2code/codemで公開しています。

When human programmers have mastered a programming language, it would be easier when they learn a new programming language. In this report, we focus on exploring whether programming languages can boost each other during the instruction fine-tuning phase of code large language models. We conduct extensive experiments of 8 popular programming languages (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) on StarCoder. Results demonstrate that programming languages can significantly improve each other. For example, CodeM-Python 15B trained on Python is able to increase Java by an absolute 17.95% pass@1 on HumanEval-X. More surprisingly, we found that CodeM-HTML 7B trained on the HTML corpus can improve Java by an absolute 15.24% pass@1. Our training data is released at https://github.com/NL2Code/CodeM.
翻訳日:2023-09-07 02:09:39 公開日:2023-09-03
# 誰でも攻撃できる! 自然のバックドア攻撃の「Lossy Compression」

Everyone Can Attack: Repurpose Lossy Compression as a Natural Backdoor Attack ( http://arxiv.org/abs/2308.16684v2 )

ライセンス: Link先を確認
Sze Jue Yang and Quang Nguyen and Chee Seng Chan and Khoa D. Doan(参考訳) バックドア攻撃の脆弱性は最近、実用的なアプリケーションにおける機械学習モデルの信頼性を脅かしている。 トリガー生成アルゴリズムを設計するプロセスには、攻撃のステルス性と有効性を確保するために、かなりの労力と広範囲な実験が必要となることが多いからだ。 あるいは、誰でも簡単にアクセス可能なアルゴリズムを使ってサイレントバックドア攻撃を行うことができるという、より厳しいバックドアの脅威が存在することを示す。 特に、この攻撃者は、多数の圧縮ツールから広く使用されているロスリーな画像圧縮を使用して、目に見える痕跡を残さずに画像にトリガーパターンを無力に注入することができる。 画像圧縮のツールを使いながら"convert"ボタンや"save as"ボタンをクリックするには、広範な知識を必要としない。 この攻撃によって、敵は以前の作業で見られるようにトリガージェネレータを設計する必要はなく、データに毒を盛るのみである。 実験上,提案手法はmnist,cifar-10,gtsrb,celebaなどのベンチマークデータセットにおいて,100%のアタック成功率を達成している。 さらに、提案した攻撃は、クリーンラベル設定で非常に小さな(約10%)中毒率で、ほぼ100%の攻撃成功率を達成することができる。 1つの損失のある圧縮アルゴリズムを用いて提案された攻撃のトリガは、他の関連する圧縮アルゴリズム間で転送可能である。 この研究は、バックドア攻撃の広範囲なリスクを理解するための重要な一歩を踏み出し、実践者に同様の攻撃と関連するバックドア緩和方法を調査するよう促す。

The vulnerabilities to backdoor attacks have recently threatened the trustworthiness of machine learning models in practical applications. Conventional wisdom suggests that not everyone can be an attacker since the process of designing the trigger generation algorithm often involves significant effort and extensive experimentation to ensure the attack's stealthiness and effectiveness. Alternatively, this paper shows that there exists a more severe backdoor threat: anyone can exploit an easily-accessible algorithm for silent backdoor attacks. Specifically, this attacker can employ the widely-used lossy image compression from a plethora of compression tools to effortlessly inject a trigger pattern into an image without leaving any noticeable trace; i.e., the generated triggers are natural artifacts. One does not require extensive knowledge to click on the "convert" or "save as" button while using tools for lossy image compression. Via this attack, the adversary does not need to design a trigger generator as seen in prior works and only requires poisoning the data. Empirically, the proposed attack consistently achieves 100% attack success rate in several benchmark datasets such as MNIST, CIFAR-10, GTSRB and CelebA. More significantly, the proposed attack can still achieve almost 100% attack success rate with very small (approximately 10%) poisoning rates in the clean label setting. The generated trigger of the proposed attack using one lossy compression algorithm is also transferable across other related compression algorithms, exacerbating the severity of this backdoor threat. This work takes another crucial step toward understanding the extensive risks of backdoor attacks in practice, urging practitioners to investigate similar attacks and relevant backdoor mitigation methods.
翻訳日:2023-09-07 02:08:16 公開日:2023-09-03
# GHuNeRF:モノクラービデオから一般提供可能な人間のNeRF

GHuNeRF: Generalizable Human NeRF from a Monocular Video ( http://arxiv.org/abs/2308.16576v2 )

ライセンス: Link先を確認
Chen Li, Jiahao Lin, Gim Hee Lee(参考訳) 本稿では,モノクロビデオから一般化可能なヒトNeRFモデルを学習する上での課題に取り組む。 既存の一般化可能な人間のNeRFは印象的な結果を得たが、常に利用できるとは限らないミューティビュー画像やビデオが必要である。 一方、モノクラービデオからの人間の自由視点レンダリングに関する研究は、目に見えないアイデンティティに一般化することはできない。 これらの制約を考慮し,GHuNeRFを提案し,人間の演奏者のモノクロ映像から一般化可能なNeRFモデルを学習する。 まず,3次元特徴量の構築に使用される頂点的特徴量を計算するために,可視性に着目したアグリゲーションスキームを導入する。 特徴ボリュームは、解像度が限られているため、人間のパフォーマーの全体的な形状を不十分な精度で表現できる。 これを解決するために,注意機構を用いて時間的に整列されたポイントワイドな特徴を持つボリューム機能をさらに強化する。 最後に、強化された機能は、各サンプル点の密度と色を予測するために使用される。 訓練と推論の両方の効率を改善するため、表面ガイドによるサンプリング戦略も導入された。 我々は,ZJU-MoCapデータセットに対するアプローチを検証し,既存のマルチビュービデオベースアプローチと同等のパフォーマンスを実現する。 また,単眼人スナップショットデータセット上でテストを行い,単眼映像のみを使用する場合の既存の作業よりも優れた性能を実現する。

In this paper, we tackle the challenging task of learning a generalizable human NeRF model from a monocular video. Although existing generalizable human NeRFs have achieved impressive results, they require muti-view images or videos which might not be always available. On the other hand, some works on free-viewpoint rendering of human from monocular videos cannot be generalized to unseen identities. In view of these limitations, we propose GHuNeRF to learn a generalizable human NeRF model from a monocular video of the human performer. We first introduce a visibility-aware aggregation scheme to compute vertex-wise features, which is used to construct a 3D feature volume. The feature volume can only represent the overall geometry of the human performer with insufficient accuracy due to the limited resolution. To solve this, we further enhance the volume feature with temporally aligned point-wise features using an attention mechanism. Finally, the enhanced feature is used for predicting density and color for each sampled point. A surface-guided sampling strategy is also introduced to improve the efficiency for both training and inference. We validate our approach on the widely-used ZJU-MoCap dataset, where we achieve comparable performance with existing multi-view video based approaches. We also test on the monocular People-Snapshot dataset and achieve better performance than existing works when only monocular video is used.
翻訳日:2023-09-07 02:07:23 公開日:2023-09-03
# リモートセンシングシーン分類のためのインフォーマティブサブセット選択を用いた効率的なカリキュラムベース連続学習

Efficient Curriculum based Continual Learning with Informative Subset Selection for Remote Sensing Scene Classification ( http://arxiv.org/abs/2309.01050v1 )

ライセンス: Link先を確認
S Divakar Bhat, Biplab Banerjee, Subhasis Chaudhuri, Avik Bhattacharya(参考訳) 本稿では,光学リモートセンシング(RS)画像から土地被覆分類の領域におけるクラスインクリメンタルラーニング(CIL)の問題に取り組む。 CILのパラダイムは、データは通常、実世界の現象に対してシーケンシャルな方法で得られるという事実から、最近大きな注目を集めている。 しかし、衛星が時間的に異なる地理的位置で新しいクラスを発見する傾向があるという事実にかかわらず、CILはまだRSの領域では広く検討されていない。 このモチベーションにより,リプレイメモリベースのアプローチの成功に触発された新しいCILフレームワークを提案し,その欠点に対処する。 新しいストリームが到着したとき、古いクラスを壊滅的に忘れてしまう影響を減らすために、新しいクラスのカリキュラムを、古いクラスとの類似性に基づいて学習する。 これは、実質的に忘れられる程度に制限される。 次に、リプレイメモリを構築しながら、古いストリームからサンプルをランダムに選択するのではなく、高信頼度サンプルの選択を確実にし、ノイズの影響を低減するサンプル選択戦略を提案する。 提案したコンポーネントによるCIL性能の大幅な改善を観察する。 ベンチマークnwpu-resisc45, patternnet, eurosatデータセットにおける実験結果から,本手法は文献よりも安定性と可塑性のトレードオフが向上していることが確認された。

We tackle the problem of class incremental learning (CIL) in the realm of landcover classification from optical remote sensing (RS) images in this paper. The paradigm of CIL has recently gained much prominence given the fact that data are generally obtained in a sequential manner for real-world phenomenon. However, CIL has not been extensively considered yet in the domain of RS irrespective of the fact that the satellites tend to discover new classes at different geographical locations temporally. With this motivation, we propose a novel CIL framework inspired by the recent success of replay-memory based approaches and tackling two of their shortcomings. In order to reduce the effect of catastrophic forgetting of the old classes when a new stream arrives, we learn a curriculum of the new classes based on their similarity with the old classes. This is found to limit the degree of forgetting substantially. Next while constructing the replay memory, instead of randomly selecting samples from the old streams, we propose a sample selection strategy which ensures the selection of highly confident samples so as to reduce the effects of noise. We observe a sharp improvement in the CIL performance with the proposed components. Experimental results on the benchmark NWPU-RESISC45, PatternNet, and EuroSAT datasets confirm that our method offers improved stability-plasticity trade-off than the literature.
翻訳日:2023-09-06 23:38:08 公開日:2023-09-03
# ニューラル微分方程式による分布学習 : 非パラメトリック統計的視点

Distribution learning via neural differential equations: a nonparametric statistical perspective ( http://arxiv.org/abs/2309.01043v1 )

ライセンス: Link先を確認
Youssef Marzouk, Zhi Ren, Sven Wang, and Jakob Zech(参考訳) 通常の微分方程式(ODE)は、誘導フローマップを通じて、複素確率分布を表すために可逆変換をパラメータ化するための強力な枠組みを提供する。 このようなモデルは機械学習、特に生成的モデリングや密度推定で大きな成功を収めているが、統計的な性質についてはほとんど知られていない。 この研究は、最大化によって訓練されたODEモデルによる分布学習のための最初の一般非パラメトリック統計収束解析を確立する。 まず、ある種の単純な境界制約を満たす任意の速度場クラス $\mathcal{f}$ に適用可能な収束定理を証明する。 この一般的な結果は近似誤差(`bias')とODEモデルの複雑さ(`variance')の間のトレードオフを捉えます。 後者は、クラス $\mathcal F$ の $C^1$-metric entropy によって定量化できることを示す。 次に、この一般フレームワークを$C^k$-smoothターゲット密度の設定に適用し、2つの関連する速度場クラスに対する最小最適収束率を$\mathcal F$:$C^k$関数とニューラルネットワークに設定する。 後者は神経オデムの事実上の重要な場合である。 我々の証明技術は慎重に合成する必要がある (i)odeの解析安定性結果 (ii)ジーヴドm推定器の古典理論、及び (iii)ニューラルネットワーククラスの近似速度と計量エントロピーに関する最近の結果 結果はまた、速度場クラスの選択方法に関する理論的洞察を与え、この選択がサンプルサイズ$n$(例えば、ニューラルネットワーククラスの幅、深さ、スパーシティのスケーリング)に依存することにより、統計的パフォーマンスに影響を及ぼす。

Ordinary differential equations (ODEs), via their induced flow maps, provide a powerful framework to parameterize invertible transformations for the purpose of representing complex probability distributions. While such models have achieved enormous success in machine learning, particularly for generative modeling and density estimation, little is known about their statistical properties. This work establishes the first general nonparametric statistical convergence analysis for distribution learning via ODE models trained through likelihood maximization. We first prove a convergence theorem applicable to arbitrary velocity field classes $\mathcal{F}$ satisfying certain simple boundary constraints. This general result captures the trade-off between approximation error (`bias') and the complexity of the ODE model (`variance'). We show that the latter can be quantified via the $C^1$-metric entropy of the class $\mathcal F$. We then apply this general framework to the setting of $C^k$-smooth target densities, and establish nearly minimax-optimal convergence rates for two relevant velocity field classes $\mathcal F$: $C^k$ functions and neural networks. The latter is the practically important case of neural ODEs. Our proof techniques require a careful synthesis of (i) analytical stability results for ODEs, (ii) classical theory for sieved M-estimators, and (iii) recent results on approximation rates and metric entropies of neural network classes. The results also provide theoretical insight on how the choice of velocity field class, and the dependence of this choice on sample size $n$ (e.g., the scaling of width, depth, and sparsity of neural network classes), impacts statistical performance.
翻訳日:2023-09-06 23:37:47 公開日:2023-09-03
# 身体的参照理解のための視線回転と関係推論による空間的・視覚的パースペクティブテイキング

Spatial and Visual Perspective-Taking via View Rotation and Relation Reasoning for Embodied Reference Understanding ( http://arxiv.org/abs/2309.01073v1 )

ライセンス: Link先を確認
Cheng Shi and Sibei Yang(参考訳) 具体化参照理解(embodied reference understanding)は、送信者の言語とジェスチャーの両方で参照される対象オブジェクトを共有物理環境で見つけるために受信者が要求される、具体化された方法での参照理解を研究する。 その主な課題は、送信者に対して、エゴセントリックビューが空間的および視覚的な情報にアクセスして、送信者、すなわち空間的および視覚的な視点テイクからオブジェクトがどのように向き付けられ、どのように見えるかを判断する方法である。 本稿では、受信機と送信機と送信機とオブジェクトの関係を、新しいビューの回転と関係推論によってモデル化することで、その課題に対処するために、あなたのパースペクティブ(REP)法による推論を提案する。 具体的には、まず、送信者の位置を原点とする実施3D座標系を構築することにより、受信機を送信者の位置に回転させる。 そして、送信者の体方向とジェスチャーを符号化することにより、受信者の方向を送信者の方向に変更する。 関係推論は, ジェスチャー, 言語, 視覚的内容, 空間的位置の多モーダル協調推論により, 送信者とオブジェクト間の非言語的・言語的関係をモデル化する。 実験の結果、REPは既存のすべての最先端アルゴリズムを常に上回り、すなわちYouRefIt上でPrec0.5の絶対精度+5.22%という結果が得られた。

Embodied Reference Understanding studies the reference understanding in an embodied fashion, where a receiver is required to locate a target object referred to by both language and gesture of the sender in a shared physical environment. Its main challenge lies in how to make the receiver with the egocentric view access spatial and visual information relative to the sender to judge how objects are oriented around and seen from the sender, i.e., spatial and visual perspective-taking. In this paper, we propose a REasoning from your Perspective (REP) method to tackle the challenge by modeling relations between the receiver and the sender and the sender and the objects via the proposed novel view rotation and relation reasoning. Specifically, view rotation first rotates the receiver to the position of the sender by constructing an embodied 3D coordinate system with the position of the sender as the origin. Then, it changes the orientation of the receiver to the orientation of the sender by encoding the body orientation and gesture of the sender. Relation reasoning models the nonverbal and verbal relations between the sender and the objects by multi-modal cooperative reasoning in gesture, language, visual content, and spatial position. Experiment results demonstrate the effectiveness of REP, which consistently surpasses all existing state-of-the-art algorithms by a large margin, i.e., +5.22% absolute accuracy in terms of Prec0.5 on YouRefIt.
翻訳日:2023-09-06 23:29:04 公開日:2023-09-03
# 皮膚病変分割のためのチャンネル注意分離畳み込みネットワーク

Channel Attention Separable Convolution Network for Skin Lesion Segmentation ( http://arxiv.org/abs/2309.01072v1 )

ライセンス: Link先を確認
Changlu Guo, Jiangyan Dai, Marton Szemenyei, Yugen Yi(参考訳) 皮膚がんはヒト集団において頻繁に発生するがんであり、早期に悪性腫瘍を診断できることは非常に重要である。 病変の分節化は皮膚病変の形態変化のモニタリングに不可欠であり、早期診断で医師を助けるために疾患の局所化と同定を行う特徴を抽出する。 鏡視画像の手作業による切り離しは、エラーが発生しやすく、時間を要するため、正確かつ自動化されたセグメンテーションアルゴリズムの需要が高まっている。 U-Net, DenseNet, Separable Convolution, Channel Attention, Atrous spatial Pyramid Pooling (ASPP) などの先進的なメカニズムにインスパイアされ, 皮膚病変の分節に対するChannel Attention Separable Convolution Network (CASCN) と呼ばれる新しいネットワークを提案する。 提案したCASCNは、限られた画像でPH2データセット上で評価される。 CASCNは画像の過剰な前/後処理なしで、Dice類似度係数0.9461、精度0.9645のPH2データセット上で最先端のパフォーマンスを達成する。

Skin cancer is a frequently occurring cancer in the human population, and it is very important to be able to diagnose malignant tumors in the body early. Lesion segmentation is crucial for monitoring the morphological changes of skin lesions, extracting features to localize and identify diseases to assist doctors in early diagnosis. Manual de-segmentation of dermoscopic images is error-prone and time-consuming, thus there is a pressing demand for precise and automated segmentation algorithms. Inspired by advanced mechanisms such as U-Net, DenseNet, Separable Convolution, Channel Attention, and Atrous Spatial Pyramid Pooling (ASPP), we propose a novel network called Channel Attention Separable Convolution Network (CASCN) for skin lesions segmentation. The proposed CASCN is evaluated on the PH2 dataset with limited images. Without excessive pre-/post-processing of images, CASCN achieves state-of-the-art performance on the PH2 dataset with Dice similarity coefficient of 0.9461 and accuracy of 0.9645.
翻訳日:2023-09-06 23:28:36 公開日:2023-09-03
# 大規模言語モデルを用いたビジネスプロセステキスト自動生成

Business Process Text Sketch Automation Generation Using Large Language Model ( http://arxiv.org/abs/2309.01071v1 )

ライセンス: Link先を確認
Rui Zhu, Quanzhou Hu, Wenxin Li, Honghao Xiao, Chaogang Wang, Zixin Zhou(参考訳) ビジネスプロセス管理(BPM)は、生産と品質を高めながらコストを削減できる可能性があるため、注目を集めています。 ビジネスプロセス文書生成はBPMの重要な段階です。 しかし、データセットが不足しているため、データ駆動のディープラーニング技術は期待される結果を提供するのに苦労する。 本稿では,条件付きプロセスツリー(CPT)を大規模言語モデル(LLM)を用いてビジネスプロセステキストスケッチ(BPTS)に変換する手法を提案する。 従来のプロンプトアプローチ (few-shot in-context learning) では、正しい回答を1回で取得しようとしており、単純なcptをbptsに変換するパターンを見つけることができるが、複雑な階層を持つクローズドメインとcptでは、従来のプロンプトは弱く、低い正確性で実行する。 この手法を用いて、難易度CPTを複数の基本CPTに分解し、それぞれを次々に解き、分割・分散戦略からインスピレーションを得るよう提案する。 ランダムに2から5までの深さを持つ100のプロセスツリーと、多くのノードを持つCPT、多くの選択度、循環ネストを選択しました。 実験の結果,従来のプロンプト法よりも45.17%よい93.42%の正解率が得られることがわかった。 提案手法は,データセットの欠如によるビジネスプロセス文書生成のソリューションを提供し,第2に,プロセスモデル抽出(PME)ドメインに多数のデータセットを提供することが可能である。

Business Process Management (BPM) is gaining increasing attention as it has the potential to cut costs while boosting output and quality. Business process document generation is a crucial stage in BPM. However, due to a shortage of datasets, data-driven deep learning techniques struggle to deliver the expected results. We propose an approach to transform Conditional Process Trees (CPTs) into Business Process Text Sketches (BPTSs) using Large Language Models (LLMs). The traditional prompting approach (Few-shot In-Context Learning) tries to get the correct answer in one go, and it can find the pattern of transforming simple CPTs into BPTSs, but for close-domain and CPTs with complex hierarchy, the traditional prompts perform weakly and with low correctness. We suggest using this technique to break down a difficult CPT into a number of basic CPTs and then solve each one in turn, drawing inspiration from the divide-and-conquer strategy. We chose 100 process trees with depths ranging from 2 to 5 at random, as well as CPTs with many nodes, many degrees of selection, and cyclic nesting. Experiments show that our method can achieve a correct rate of 93.42%, which is 45.17% better than traditional prompting methods. Our proposed method provides a solution for business process document generation in the absence of datasets, and secondly, it becomes potentially possible to provide a large number of datasets for the process model extraction (PME) domain.
翻訳日:2023-09-06 23:28:17 公開日:2023-09-03
# マルチドメイントランスフォーマーを用いた深層学習によるネットワーク侵入早期検出

Multidomain transformer-based deep learning for early detection of network intrusion ( http://arxiv.org/abs/2309.01070v1 )

ライセンス: Link先を確認
Jinxin Liu, Murat Simsek, Michele Nogueira, Burak Kantarci(参考訳) ネットワーク侵入検知システム(NIDS)のタイムリー応答は,ネットワークパケットの蓄積を必要とするフロー生成プロセスによって制限される。 本稿では,多変量時系列(mts)をnidsに早期検出し,ターゲットシステムに到達する前に悪意のある流れを同定する。 そこで我々はまず,TS-NFMとCICIDS2017(SCVIC-TS-2022)のメタデータを用いて,ネットワークフローをMTSとして表現する新しい特徴抽出器であるTS-NFM(Time Series Network Flow Meter)を提案する。 さらに,マルチドメイントランスフォーマ(mdt)と呼ばれる,周波数領域をトランスフォーマに組み込んだ新しい深層学習に基づく早期検出モデルを提案する。 本研究はMD-MHA(Multi-Domain Multi-Head Attention)機構を提案する。 実験結果から,従来のNIDS(分類に使用されるパケットの比率)を5×10^4倍に改善し,60倍の時間ベースイヤーライン(フローの分類されたパケットの持続時間の割合)を改良し,SCVIC-TS-2022で84.1%のマクロF1スコア(トランスフォーマーより31%高い)を得た。 さらに、提案したMDTは、ECGデータセットとWaferデータセットで、最先端の早期検出手法を5%と6%で上回っている。

Timely response of Network Intrusion Detection Systems (NIDS) is constrained by the flow generation process which requires accumulation of network packets. This paper introduces Multivariate Time Series (MTS) early detection into NIDS to identify malicious flows prior to their arrival at target systems. With this in mind, we first propose a novel feature extractor, Time Series Network Flow Meter (TS-NFM), that represents network flow as MTS with explainable features, and a new benchmark dataset is created using TS-NFM and the meta-data of CICIDS2017, called SCVIC-TS-2022. Additionally, a new deep learning-based early detection model called Multi-Domain Transformer (MDT) is proposed, which incorporates the frequency domain into Transformer. This work further proposes a Multi-Domain Multi-Head Attention (MD-MHA) mechanism to improve the ability of MDT to extract better features. Based on the experimental results, the proposed methodology improves the earliness of the conventional NIDS (i.e., percentage of packets that are used for classification) by 5x10^4 times and duration-based earliness (i.e., percentage of duration of the classified packets of a flow) by a factor of 60, resulting in a 84.1% macro F1 score (31% higher than Transformer) on SCVIC-TS-2022. Additionally, the proposed MDT outperforms the state-of-the-art early detection methods by 5% and 6% on ECG and Wafer datasets, respectively.
翻訳日:2023-09-06 23:27:51 公開日:2023-09-03
# 分離型ハミルトンニューラルネットワーク

Separable Hamiltonian Neural Networks ( http://arxiv.org/abs/2309.01069v1 )

ライセンス: Link先を確認
Zi-Yu Khoo, Jonathan Sze Choong Low and St\'ephane Bressan(参考訳) 離散観測からの力学系のモデリングは、現代の科学・工学データシステムによって直面する課題である。 ハミルトン系はそのような基本的でユビキタスな力学系の1つである。 ハミルトニアンニューラルネットワークは、ハミルトン方程式の学習バイアスの下でベクトル場の離散的な観測から力学系のハミルトニアンを教師なしで回帰する最先端のモデルである。 しかし、ハミルトン力学はしばしば複雑であり、特にハミルトン系の状態空間がサンプル数に対して大きい高次元においてである。 状態空間における状態変数間の複雑性を軽減するための最近発見された治療法は、ハミルトン系の加法分離性を活用し、ハミルトンニューラルネットワークに加法分離性を埋め込むことである。 物理インフォームド機械学習の命名に続いて、3つの分離可能なハミルトンニューラルネットワークを提案する。 これらのモデルはハミルトンニューラルネットワーク内に加法分離性を埋め込む。 最初のモデルは加法分離性を使用して、ハミルトンニューラルネットワークをトレーニングするためのデータの量を4次スケールする。 2つ目のモデルはハミルトンニューラルネットワークの損失関数に加法分離性を埋め込む。 第3のモデルは、結合した多層的知覚を用いてハミルトンニューラルネットワークのアーキテクチャを通して加法分離性を埋め込む。 3つのモデルと最先端のハミルトンニューラルネットワークを実証的に比較し、状態変数間の複雑性を緩和する分離可能なハミルトンニューラルネットワークがハミルトンとそのベクトル場を回帰するのにより効果的であることを示す。

The modelling of dynamical systems from discrete observations is a challenge faced by modern scientific and engineering data systems. Hamiltonian systems are one such fundamental and ubiquitous class of dynamical systems. Hamiltonian neural networks are state-of-the-art models that unsupervised-ly regress the Hamiltonian of a dynamical system from discrete observations of its vector field under the learning bias of Hamilton's equations. Yet Hamiltonian dynamics are often complicated, especially in higher dimensions where the state space of the Hamiltonian system is large relative to the number of samples. A recently discovered remedy to alleviate the complexity between state variables in the state space is to leverage the additive separability of the Hamiltonian system and embed that additive separability into the Hamiltonian neural network. Following the nomenclature of physics-informed machine learning, we propose three separable Hamiltonian neural networks. These models embed additive separability within Hamiltonian neural networks. The first model uses additive separability to quadratically scale the amount of data for training Hamiltonian neural networks. The second model embeds additive separability within the loss function of the Hamiltonian neural network. The third model embeds additive separability through the architecture of the Hamiltonian neural network using conjoined multilayer perceptions. We empirically compare the three models against state-of-the-art Hamiltonian neural networks, and demonstrate that the separable Hamiltonian neural networks, which alleviate complexity between the state variables, are more effective at regressing the Hamiltonian and its vector field.
翻訳日:2023-09-06 23:27:20 公開日:2023-09-03
# MQENet: 動的グラフ注意に基づくメッシュ品質評価ニューラルネットワーク

MQENet: A Mesh Quality Evaluation Neural Network Based on Dynamic Graph Attention ( http://arxiv.org/abs/2309.01067v1 )

ライセンス: Link先を確認
Haoxuan Zhang, Haisheng Li, Nan Li and Xiaochuan Wang(参考訳) 計算流体力学の発展に伴い,産業応用における流体シミュレーションの精度の要求も高まっている。 生成されたメッシュの品質はシミュレーション精度に直接影響する。 しかしながら、従来のメッシュ品質メトリクスやモデルは、メッシュを包括的かつ客観的に評価することはできない。 そこで本研究では,動的グラフに着目した構造化メッシュ品質評価ニューラルネットワークmqenetを提案する。 MQENetは、メッシュ評価タスクを、入力された構造化メッシュの品質を分類するためのグラフ分類タスクとして扱う。 構造化メッシュから生成されるグラフをより有益なものにするため、mqenetは2つの新しい構造化メッシュ前処理アルゴリズムを導入した。 この2つのアルゴリズムは、構造化メッシュデータの変換効率を向上させることができる。 ベンチマークメッシュデータセットnaca-marketの実験結果は、メッシュ品質評価タスクにおけるmqenetの有効性を示している。

With the development of computational fluid dynamics, the requirements for the fluid simulation accuracy in industrial applications have also increased. The quality of the generated mesh directly affects the simulation accuracy. However, previous mesh quality metrics and models cannot evaluate meshes comprehensively and objectively. To this end, we propose MQENet, a structured mesh quality evaluation neural network based on dynamic graph attention. MQENet treats the mesh evaluation task as a graph classification task for classifying the quality of the input structured mesh. To make graphs generated from structured meshes more informative, MQENet introduces two novel structured mesh preprocessing algorithms. These two algorithms can also improve the conversion efficiency of structured mesh data. Experimental results on the benchmark structured mesh dataset NACA-Market show the effectiveness of MQENet in the mesh quality evaluation task.
翻訳日:2023-09-06 23:26:57 公開日:2023-09-03
# AB2CD: 気候変動の分類と検出のためのAI

AB2CD: AI for Building Climate Damage Classification and Detection ( http://arxiv.org/abs/2309.01066v1 )

ライセンス: Link先を確認
Maximilian Nitsche (1 and 2), S. Karthik Mukkavilli (3), Niklas K\"uhl (4 and 1), Thomas Brunschwiler (3) ((1) IBM Consulting, Germany, (2) Karlsruhe Institute of Technology, Germany, (3) IBM Research - Europe, Switzerland (4) University of Bayreuth, Germany)(参考訳) 本研究では,遠隔センシングデータを利用した自然災害時の建物被害評価のための深層学習手法の実装について検討する。 世界中のさまざまな災害イベントからなるxBDデータセットは、ディープラーニングモデルの評価を容易にする主要な焦点となっている。 自然災害データに内在する低品質・騒音ラベルの影響を考慮しつつ,新しい災害・地域への一般化の課題に取り組む。 さらに, 建物損傷検出に必須な最小衛星画像解像度は, 対称および非対称分解能の摂動解析を用いて分類に3メートル以下であることが定量的に証明された。 建築物の損傷検出と分類の堅牢かつ正確な評価を実現するため, 残差, 圧縮, 励振, 二重経路のネットワークバックボーン, アンサンブル技術を用いて異なる深層学習モデルの評価を行った。 総じて、f-1スコア0.812のu-net siameseネットワークアンサンブルは、xview2チャレンジベンチマークで最高の成績を収めた。 さらに,洪水専門家モデルに対するすべてのハザードを訓練したユニバーサルモデルを評価し,イベント間の一般化ギャップと,Ahrバレーのフィールドデータからの分布を調査する。 我々の研究結果は、気候変動によって引き起こされる洪水やハリケーンなどの極端な気象事象の影響評価を強化するための高度なAIソリューションの可能性と限界を示している。 これらの知見は、気候問題がエスカレートする中での災害影響評価に影響を及ぼす。

We explore the implementation of deep learning techniques for precise building damage assessment in the context of natural hazards, utilizing remote sensing data. The xBD dataset, comprising diverse disaster events from across the globe, serves as the primary focus, facilitating the evaluation of deep learning models. We tackle the challenges of generalization to novel disasters and regions while accounting for the influence of low-quality and noisy labels inherent in natural hazard data. Furthermore, our investigation quantitatively establishes that the minimum satellite imagery resolution essential for effective building damage detection is 3 meters and below 1 meter for classification using symmetric and asymmetric resolution perturbation analyses. To achieve robust and accurate evaluations of building damage detection and classification, we evaluated different deep learning models with residual, squeeze and excitation, and dual path network backbones, as well as ensemble techniques. Overall, the U-Net Siamese network ensemble with F-1 score of 0.812 performed the best against the xView2 challenge benchmark. Additionally, we evaluate a Universal model trained on all hazards against a flood expert model and investigate generalization gaps across events, and out of distribution from field data in the Ahr Valley. Our research findings showcase the potential and limitations of advanced AI solutions in enhancing the impact assessment of climate change-induced extreme weather events, such as floods and hurricanes. These insights have implications for disaster impact assessment in the face of escalating climate challenges.
翻訳日:2023-09-06 23:26:47 公開日:2023-09-03
# ディープニューラルネットワークと双方向動的時間ワープアルゴリズムを用いた半教師付き3次元映像情報検索

Semi-supervised 3D Video Information Retrieval with Deep Neural Network and Bi-directional Dynamic-time Warping Algorithm ( http://arxiv.org/abs/2309.01063v1 )

ライセンス: Link先を確認
Yintai Ma, Diego Klabjan(参考訳) 本稿では,視覚コンテンツに基づく類似した2次元および3次元映像を検索する,半教師付き深層学習アルゴリズムを提案する。 提案手法は,ディープ畳み込みニューラルネットワークとリカレントニューラルネットワークのパワーと,類似度尺度としての動的時間ウォーピングを組み合わせたものである。 提案アルゴリズムは,大規模なビデオデータセットを処理し,そのグラフィカルなフレームや内容に基づいて,最も関連性の高い映像を検索する。 候補と問合せビデオの両方を一連のクリップに分割し、各クリップをオートエンコーダが支援するディープニューラルネットワークを用いて表現ベクトルに変換する。 次に,双方向動的時間ウォーピング法を用いて埋め込みベクトル列間の類似度測度を計算する。 このアプローチは、CC\_WEB\_VIDEO、Youtube-8m、S3DIS、Synthiaを含む複数のパブリックデータセットでテストされ、最先端と比較して良い結果を示した。 このアルゴリズムは、ビデオ検索タスクを効果的に解決し、ベンチマークした最先端ディープラーニングモデルを上回る。

This paper presents a novel semi-supervised deep learning algorithm for retrieving similar 2D and 3D videos based on visual content. The proposed approach combines the power of deep convolutional and recurrent neural networks with dynamic time warping as a similarity measure. The proposed algorithm is designed to handle large video datasets and retrieve the most related videos to a given inquiry video clip based on its graphical frames and contents. We split both the candidate and the inquiry videos into a sequence of clips and convert each clip to a representation vector using an autoencoder-backed deep neural network. We then calculate a similarity measure between the sequences of embedding vectors using a bi-directional dynamic time-warping method. This approach is tested on multiple public datasets, including CC\_WEB\_VIDEO, Youtube-8m, S3DIS, and Synthia, and showed good results compared to state-of-the-art. The algorithm effectively solves video retrieval tasks and outperforms the benchmarked state-of-the-art deep learning model.
翻訳日:2023-09-06 23:26:25 公開日:2023-09-03
# 月環境における関節マニピュレータの視覚に基づく物体検出と把持の融合

Integration of Vision-based Object Detection and Grasping for Articulated Manipulator in Lunar Conditions ( http://arxiv.org/abs/2309.01055v1 )

ライセンス: Link先を確認
Camille Boucher, Gustavo H. Diaz, Shreya Santra, Kentaro Uno, and Kazuya Yoshida(参考訳) 月面ロボットアプリケーションを実現するためのビジョンベースのフレームワークの統合は、地形構成や極端な照明条件といった多くの課題に直面している。 本稿では,オブジェクト検出,インスタンス分割,把握検出を用いた汎用タスクパイプラインを提案する。 難しい照明条件下では, 岩盤上に岩盤を積み重ねる作業が可能であり, 成功率は92%であった。 最終的には、3Dプリントされたロボット部品を組み立て、より複雑なタスクを将来的に開始する実験を行う。

The integration of vision-based frameworks to achieve lunar robot applications faces numerous challenges such as terrain configuration or extreme lighting conditions. This paper presents a generic task pipeline using object detection, instance segmentation and grasp detection, that can be used for various applications by using the results of these vision-based systems in a different way. We achieve a rock stacking task on a non-flat surface in difficult lighting conditions with a very good success rate of 92%. Eventually, we present an experiment to assemble 3D printed robot components to initiate more complex tasks in the future.
翻訳日:2023-09-06 23:26:07 公開日:2023-09-03
# ラムダの自己浄化と絡み合いの復活

Self-Purification and Entanglement Revival in Lambda Matter ( http://arxiv.org/abs/2309.01054v1 )

ライセンス: Link先を確認
Dongni Chen, Stefano Chesi, Mahn-Soo Choi(参考訳) 単一モードボソンと相互作用するラムダ型レベル構造を持つクォートリットのアンサンブルにおける絡み合いのダイナミクスを探索する。 本研究は、完全対称波動関数の部分空間内のゼロエネルギー状態に焦点を当てる。 驚くべきことに, 興味をそそる再現行動を伴う絡み合いの普遍的な二段階ダイナミクスを観察した。 絡み合いの復活は、量子状態が緩和され、システム内の特別な暗黒状態に普遍的に収束する自己純化過程の結果である。

We explore the dynamics of entanglement in an ensemble of qutrits with a lambda-type level structure interacting with single-mode bosons. Our investigation focuses on zero-energy states within the subspace of totally symmetric wave functions. Remarkably, we observe a universal two-stage dynamics of entanglement with intriguing revival behavior. The revival of entanglement is a consequence of the self-purification process, where the quantum state relaxes and converges universally to a special dark state within the system.
翻訳日:2023-09-06 23:25:58 公開日:2023-09-03
# MILA:クロスドメインオブジェクト検出のためのメモリベースインスタンスレベル適応

MILA: Memory-Based Instance-Level Adaptation for Cross-Domain Object Detection ( http://arxiv.org/abs/2309.01086v1 )

ライセンス: Link先を確認
Onkar Krishna, Hiroki Ohashi, Saptarshi Sinha(参考訳) クロスドメインオブジェクト検出は困難であり、ラベル付きソースとラベルなしターゲットドメインの整列を伴う。 以前のアプローチでは、画像レベルとインスタンスレベルの両方で機能を整列するために、敵のトレーニングを使用していた。 インスタンスレベルでは、ターゲットのサンプルに合致する適切なソースサンプルを見つけることが重要です。 ソースサンプルは、方向や色などの重要でない特徴に違いがなく、ドメイン内でのみターゲットサンプルと異なる場合に適していると考えられており、ドメイン差の調整にモデルが焦点を合わせるのを妨げる可能性がある。 しかし、既存のインスタンスレベルの機能アライメントメソッドは、検索範囲がミニバッチに限定されているため、適切なソースインスタンスを見つけるのに苦労している。 ミニバッチはサイズが小さいため、必ずしも適切なソースインスタンスを含むとは限らない。 ミニバッチの多様性の不足は、特にターゲットインスタンスがクラス内ばらつきが高い場合に問題となる。 この問題に対処するため,メモリベースのインスタンスレベルのドメイン適応フレームワークを提案する。 本手法は、メモリストレージから取得した同一カテゴリの最も類似したソースインスタンスとターゲットインスタンスを一致させる。 具体的には、ラベル付けされたすべてのソースインスタンスのプールされた機能を動的に格納するメモリモジュールを紹介する。 さらに,ターゲットインスタンスにマッチするメモリスロットの集合を検索する,シンプルだが効果的なメモリ検索モジュールを導入する。 様々なドメインシフトシナリオに関する実験により、我々のアプローチが既存の非メモリベースの手法を著しく上回ることを示した。

Cross-domain object detection is challenging, and it involves aligning labeled source and unlabeled target domains. Previous approaches have used adversarial training to align features at both image-level and instance-level. At the instance level, finding a suitable source sample that aligns with a target sample is crucial. A source sample is considered suitable if it differs from the target sample only in domain, without differences in unimportant characteristics such as orientation and color, which can hinder the model's focus on aligning the domain difference. However, existing instance-level feature alignment methods struggle to find suitable source instances because their search scope is limited to mini-batches. Mini-batches are often so small in size that they do not always contain suitable source instances. The insufficient diversity of mini-batches becomes problematic particularly when the target instances have high intra-class variance. To address this issue, we propose a memory-based instance-level domain adaptation framework. Our method aligns a target instance with the most similar source instance of the same category retrieved from a memory storage. Specifically, we introduce a memory module that dynamically stores the pooled features of all labeled source instances, categorized by their labels. Additionally, we introduce a simple yet effective memory retrieval module that retrieves a set of matching memory slots for target instances. Our experiments on various domain shift scenarios demonstrate that our approach outperforms existing non-memory-based methods significantly.
翻訳日:2023-09-06 21:45:51 公開日:2023-09-03
# 量子渦系の進化--時空間的階層と臨界モードにおける乱流-

The evolution of a quantum vortices system: the spatio-temporal scale hierarchy and the turbulence in the critical mode ( http://arxiv.org/abs/2309.01085v1 )

ライセンス: Link先を確認
Talalov S.V(参考訳) 本稿では, 量子渦ループとコアの半径がa$の小さいものの進化と相互作用について検討する。 古典渦系の量子化スキームは、著者が以前に提案したアプローチに基づいている。 リング状ループの小さな変化は、ヘリカル型の形状変化と渦コア内の流れの小さな励起の両方を含むもののみである。 渦環の初期半径$R$と循環$\Gamma$の量子化は量子論第一原理から導かれるが、別々に仮定されることはない。 構築されたモデルは、渦の量子的記述における時空間スケール階層の出現につながる。 ランダムハミルトニアンの方法は渦ループの相互作用を記述するために用いられる。 これらのループ相互作用の特定のタイプは、構築された理論が臨界モードでの乱流のモデルとして機能するように選択される。

This paper investigates the evolution and interaction of the quantum vortex loops with the small radius of the core $a$. The quantization scheme of the classical vortex system is based on the approach proposed by the author earlier. We consider the small variations of the ring-shaped loops only, which include both helical-type shape variations and small excitations of the flow in the vortex core. The quantization of both an initial radius of the vortex ring $R$ and the circulation $\Gamma$ is deduced from the quantum theory first principles but is not postulated separately. The constructed model leads to the appearance of a spatio-temporal scale hierarchy in the quantum description of the vortices. The method of random Hamiltonians is used to describe the interaction of vortex loops. The specific type of these loops interaction is chosen in way that the constructed theory can serve as the model of turbulent flow at the critical mode.
翻訳日:2023-09-06 21:45:29 公開日:2023-09-03
# 画像IDS調整によるCLIP様モデルの中国語テキスト認識

Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through Image-IDS Aligning ( http://arxiv.org/abs/2309.01083v1 )

ライセンス: Link先を確認
Haiyang Yu, Xiaocong Wang, Bin Li, Xiangyang Xue(参考訳) シーンテキスト認識は、その幅広い応用のために何十年も研究されてきた。 しかし、複雑な内部構造や大きなカテゴリなど、ラテン文字とは異なる特徴を持つ漢字であっても、中国語テキスト認識(CTR)にはほとんど方法が提案されていない。 特に、大きなカテゴリの特徴は、ゼロショットと少数ショットの漢字を扱う上で問題となる。 本稿では,人間が漢文を認識する方法に触発されて,CTRの2段階フレームワークを提案する。 まず、印刷された文字画像とIdeographic Description Sequences (IDS)を調整してCLIPのようなモデルを事前訓練する。 この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。 その後、学習した表現を用いてCTRモデルを監督し、従来の単一文字認識を画像-IDSマッチングによるテキストライン認識に改善する。 提案手法の有効性を評価するため,中国語の文字認識(CCR)とCTRの両方について広範な実験を行った。 実験の結果,提案手法はCCRにおいて最良であり,CTRベンチマークのほとんどのシナリオにおいて先行手法よりも優れていた。 提案手法はテキスト画像中のゼロショット漢字を微調整なしで認識できるが,従来の手法では新しいクラスが現れると微調整が必要であった。 コードはhttps://github.com/FudanVI/FudanOCR/tree/main/image-ids-CTRで公開されている。

Scene text recognition has been studied for decades due to its broad applications. However, despite Chinese characters possessing different characteristics from Latin characters, such as complex inner structures and large categories, few methods have been proposed for Chinese Text Recognition (CTR). Particularly, the characteristic of large categories poses challenges in dealing with zero-shot and few-shot Chinese characters. In this paper, inspired by the way humans recognize Chinese texts, we propose a two-stage framework for CTR. Firstly, we pre-train a CLIP-like model through aligning printed character images and Ideographic Description Sequences (IDS). This pre-training stage simulates humans recognizing Chinese characters and obtains the canonical representation of each character. Subsequently, the learned representations are employed to supervise the CTR model, such that traditional single-character recognition can be improved to text-line recognition through image-IDS matching. To evaluate the effectiveness of the proposed method, we conduct extensive experiments on both Chinese character recognition (CCR) and CTR. The experimental results demonstrate that the proposed method performs best in CCR and outperforms previous methods in most scenarios of the CTR benchmark. It is worth noting that the proposed method can recognize zero-shot Chinese characters in text images without fine-tuning, whereas previous methods require fine-tuning when new classes appear. The code is available at https://github.com/FudanVI/FudanOCR/tree/main/image-ids-CTR.
翻訳日:2023-09-06 21:45:02 公開日:2023-09-03
# 機械学習のための熱帯幾何学ツール: tmlパッケージ

Tropical Geometric Tools for Machine Learning: the TML package ( http://arxiv.org/abs/2309.01082v1 )

ライセンス: Link先を確認
David Barnhill and Ruriko Yoshida and Georges Aliatimis and Keiji Miura(参考訳) 過去10年間、熱帯幾何学の発展は、統計学習の問題に直接適用できる多くの用途を提供してきた。 tmlパッケージは、熱帯凸性に関する基本的な計算、熱帯凸集合の可視化、および熱帯射影トーラス上のマックスプラス代数の下での熱帯メトリックを用いた教師付きおよび教師なし学習モデルのための包括的なツールと方法を含む、最初のrパッケージである。 主に、TMLパッケージは、統計推測のための主要なツールとして熱帯計量とともに、ヒッチ・アンド・ラン・マルコ連鎖モンテカルロサンプリング器を使用している。 基本計算と熱帯HARサンプル装置の様々な応用に加えて、熱帯主成分分析、熱帯ロジスティック回帰、熱帯核密度推定を含むTMLパッケージに組み込まれたいくつかの教師なしおよび教師なし手法にも着目する。

In the last decade, developments in tropical geometry have provided a number of uses directly applicable to problems in statistical learning. The TML package is the first R package which contains a comprehensive set of tools and methods used for basic computations related to tropical convexity, visualization of tropically convex sets, as well as supervised and unsupervised learning models using the tropical metric under the max-plus algebra over the tropical projective torus. Primarily, the TML package employs a Hit and Run Markov chain Monte Carlo sampler in conjunction with the tropical metric as its main tool for statistical inference. In addition to basic computation and various applications of the tropical HAR sampler, we also focus on several supervised and unsupervised methods incorporated in the TML package including tropical principal component analysis, tropical logistic regression and tropical kernel density estimation.
翻訳日:2023-09-06 21:44:19 公開日:2023-09-03
# シーン画像における向き非依存中国語テキスト認識

Orientation-Independent Chinese Text Recognition in Scene Images ( http://arxiv.org/abs/2309.01081v1 )

ライセンス: Link先を確認
Haiyang Yu, Xiaocong Wang, Bin Li, Xiangyang Xue(参考訳) シーンテキスト認識(STR)はその幅広い用途のために多くの注目を集めている。 以前の作品は、言語モデルや他の補助ネットワークを導入することで、複雑な背景を持つラテン文字画像の認識にもっと注意を払っている。 ラテン語のテキストと異なり、多くの垂直中国語のテキストが自然のシーンに存在するため、現在最先端のSTR手法には困難が伴う。 本稿では,テキスト画像の内容と方向情報を分離することにより,自然場面における水平テキストと垂直テキストの両方をロバストに認識し,方向非依存な視覚特徴を抽出する最初の試みを行う。 具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。 提案手法は,中国語のテキスト認識をベンチマークするためのシーンデータセット上で実験を行い,提案手法がコンテンツと方向情報を混在させることで,実際に性能を向上させることを示す。 提案手法の有効性をさらに検証するため,垂直中国語テキスト認識(VCTR)データセットも収集した。 実験の結果,提案手法はベースラインモデルにCIRNを導入する際にVCTRを45.63%改善することがわかった。

Scene text recognition (STR) has attracted much attention due to its broad applications. The previous works pay more attention to dealing with the recognition of Latin text images with complex backgrounds by introducing language models or other auxiliary networks. Different from Latin texts, many vertical Chinese texts exist in natural scenes, which brings difficulties to current state-of-the-art STR methods. In this paper, we take the first attempt to extract orientation-independent visual features by disentangling content and orientation information of text images, thus recognizing both horizontal and vertical texts robustly in natural scenes. Specifically, we introduce a Character Image Reconstruction Network (CIRN) to recover corresponding printed character images with disentangled content and orientation information. We conduct experiments on a scene dataset for benchmarking Chinese text recognition, and the results demonstrate that the proposed method can indeed improve performance through disentangling content and orientation information. To further validate the effectiveness of our method, we additionally collect a Vertical Chinese Text Recognition (VCTR) dataset. The experimental results show that the proposed method achieves 45.63% improvement on VCTR when introducing CIRN to the baseline model.
翻訳日:2023-09-06 21:43:43 公開日:2023-09-03
# UnsMOT:幾何学的トポロジガイダンスによる教師なしマルチオブジェクト追跡のための統一フレームワーク

UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with Geometric Topology Guidance ( http://arxiv.org/abs/2309.01078v1 )

ライセンス: Link先を確認
Son Tran, Cong Tran, Anh Tran, Cuong Pham(参考訳) 物体検出は、長い間コンピュータビジョン文学に高い関心を寄せてきた。 マルチオブジェクトトラッキング(mot)問題に対するデータアノテートが非常に高価であるという事実に動機づけられた最近の研究は、教師なしの学習環境に注意を向けている。 本稿では,オブジェクトの外観と運動の特徴を幾何学的情報と明示的に組み合わせ,より正確な追跡を行う新しいフレームワークUnsMOTを提案することによって,教師なしMOT法の最先端性能を推し進める。 具体的には,まずcnnモデルとrnnモデルを用いて出現特徴と運動特徴を抽出した。 そして, フレーム内の相対距離に基づいてオブジェクトのグラフを構築し, CNN特徴とともにGNNモデルに入力し, 教師なし損失関数を用いて最適化されたオブジェクトの幾何学的埋め込みを出力する。 最後に、オブジェクト間の関連付けは、類似した特徴だけでなく、検出やトラックレットの幾何埋め込みもマッチングすることによって見出される。 実験結果から, HOTA, IDF1, MOTAの計測値について, 最先端手法と比較して顕著な性能を示した。

Object detection has long been a topic of high interest in computer vision literature. Motivated by the fact that annotating data for the multi-object tracking (MOT) problem is immensely expensive, recent studies have turned their attention to the unsupervised learning setting. In this paper, we push forward the state-of-the-art performance of unsupervised MOT methods by proposing UnsMOT, a novel framework that explicitly combines the appearance and motion features of objects with geometric information to provide more accurate tracking. Specifically, we first extract the appearance and motion features using CNN and RNN models, respectively. Then, we construct a graph of objects based on their relative distances in a frame, which is fed into a GNN model together with CNN features to output geometric embedding of objects optimized using an unsupervised loss function. Finally, associations between objects are found by matching not only similar extracted features but also geometric embedding of detections and tracklets. Experimental results show remarkable performance in terms of HOTA, IDF1, and MOTA metrics in comparison with state-of-the-art methods.
翻訳日:2023-09-06 21:43:14 公開日:2023-09-03
# テンソル因子化によるロバスト対向防御

Robust Adversarial Defense by Tensor Factorization ( http://arxiv.org/abs/2309.01077v1 )

ライセンス: Link先を確認
Manish Bhattarai, Mehmet Cagri Kaymak, Ryan Barron, Ben Nebgen, Kim Rasmussen, Boian Alexandrov(参考訳) 機械学習の技術がデータ分析で普及するにつれて、敵対的な攻撃の脅威が急増し、堅牢な防御メカニズムが必要となった。 これらのディフェンスのうち、入力データの前処理とニューラルネットワーク(nn)パラメータの分解のために低ランク近似を利用する手法はポテンシャルを示している。 本研究は,入力データのテンソル化と低ランク分解とnnパラメータのテンソル化を統合し,逆防御を強化することで,この分野をさらに前進させる。 提案手法は強力な防御能力を示し、最も強力な自動攻撃を受けた場合でも頑健な精度を維持する。 最先端のロバストなパフォーマンスベンチマークに対する評価から,我々の結果は,利用可能な最善の防御方法に反抗するだけでなく,テンソル分解に依存する現在の防衛戦略をすべて超えていることが明らかとなった。 本研究は、機械学習における敵攻撃に対する堅牢な防御手段として、テンソル化と低ランク分解を統合する可能性を強調する。

As machine learning techniques become increasingly prevalent in data analysis, the threat of adversarial attacks has surged, necessitating robust defense mechanisms. Among these defenses, methods exploiting low-rank approximations for input data preprocessing and neural network (NN) parameter factorization have shown potential. Our work advances this field further by integrating the tensorization of input data with low-rank decomposition and tensorization of NN parameters to enhance adversarial defense. The proposed approach demonstrates significant defense capabilities, maintaining robust accuracy even when subjected to the strongest known auto-attacks. Evaluations against leading-edge robust performance benchmarks reveal that our results not only hold their ground against the best defensive methods available but also exceed all current defense strategies that rely on tensor factorizations. This study underscores the potential of integrating tensorization and low-rank decomposition as a robust defense against adversarial attacks in machine learning.
翻訳日:2023-09-06 21:42:53 公開日:2023-09-03
# エッジデバイスを用いたカフ分類のためのフェデレートフショット学習

Federated Few-shot Learning for Cough Classification with Edge Devices ( http://arxiv.org/abs/2309.01076v1 )

ライセンス: Link先を確認
Ngan Dao Hoang, Dat Tran-Anh, Manh Luong, Cong Tran and Cuong Pham(参考訳) 自動的に音を分類することは呼吸器疾患の診断と治療において最も重要な課題の1つである。 しかし、大量のラベル付きcoughデータセットの収集は、主に高い労力、データ不足、プライバシー上の懸念から困難である。 本研究の目的は,膨大なcoughデータが利用できない状況でも効果的にcough分類を行うフレームワークを開発することであり,同時にプライバシーの懸念にも対処することである。 具体的には,これらの課題に対処するための新しい問題を定式化し,F2LCoughと呼ばれる新しいフレームワークを設計するために,数ショット学習とフェデレーション学習を採用する。 F2LCoughが平均F1スコアの86%を達成しているCOVID-19 Thermal Face & Coughデータセットの他のアプローチと比較して,本手法の優位性について述べる。 以上の結果から, 連発学習と組み合わせることで, 声の分類モデルを構築することが可能となった。 この新しい手法は、データ収集の状況でcoughサウンドを分類し、プライバシプロパティを維持できる。 本研究の成果はcough関連疾患の検出と診断のための支援システムを構築するための基礎的枠組みとなりうる。

Automatically classifying cough sounds is one of the most critical tasks for the diagnosis and treatment of respiratory diseases. However, collecting a huge amount of labeled cough dataset is challenging mainly due to high laborious expenses, data scarcity, and privacy concerns. In this work, our aim is to develop a framework that can effectively perform cough classification even in situations when enormous cough data is not available, while also addressing privacy concerns. Specifically, we formulate a new problem to tackle these challenges and adopt few-shot learning and federated learning to design a novel framework, termed F2LCough, for solving the newly formulated problem. We illustrate the superiority of our method compared with other approaches on COVID-19 Thermal Face & Cough dataset, in which F2LCough achieves an average F1-Score of 86%. Our results show the feasibility of few-shot learning combined with federated learning to build a classification model of cough sounds. This new methodology is able to classify cough sounds in data-scarce situations and maintain privacy properties. The outcomes of this work can be a fundamental framework for building support systems for the detection and diagnosis of cough-related diseases.
翻訳日:2023-09-06 21:42:36 公開日:2023-09-03
# 変異段階階層食品分類

Muti-Stage Hierarchical Food Classification ( http://arxiv.org/abs/2309.01075v1 )

ライセンス: Link先を確認
Xinyue Pan, Jiangpeng He, Fengqing Zhu(参考訳) 食品画像分類は、捕食された食品画像からの栄養摂取分析を促進するため、画像に基づく食事評価の基本的な重要なステップである。 しかし、既存の食品分類では、直接栄養成分情報を持たない「食品の種類」の予測が中心となっている。 この制限は、各「食品項目」とそれぞれの情報とを関連付ける任務を担っている栄養データベースの固有の不一致から生じる。 そこで本研究では,栄養データベースに合わせて食品を分類することを目的とする。 そこで本研究では,まず,栄養成分情報を含む食品にvfnの各食品イメージをアノテートすることにより,vfn栄養データセットを導入する。 このような食品のアノテーションは、食品の種類よりも差別的であり、データセット内の階層構造を生成する。 しかし、食品の注記は栄養成分情報のみに基づいており、必ずしも相互に視覚的な関係を示すわけではないため、深層学習に基づく分類手法を適用する際に大きな課題となる。 この問題に対処するため,学習過程中に食品を反復的にクラスタリングし,マージすることで,ラベル間で識別可能な画像特徴を抽出する多段階階層型食品分類フレームワークを提案する。 本手法はVFN栄養データセットを用いて評価し,食品の種類と食品の分類の両面で既存の研究と比較して有望な結果を得た。

Food image classification serves as a fundamental and critical step in image-based dietary assessment, facilitating nutrient intake analysis from captured food images. However, existing works in food classification predominantly focuses on predicting 'food types', which do not contain direct nutritional composition information. This limitation arises from the inherent discrepancies in nutrition databases, which are tasked with associating each 'food item' with its respective information. Therefore, in this work we aim to classify food items to align with nutrition database. To this end, we first introduce VFN-nutrient dataset by annotating each food image in VFN with a food item that includes nutritional composition information. Such annotation of food items, being more discriminative than food types, creates a hierarchical structure within the dataset. However, since the food item annotations are solely based on nutritional composition information, they do not always show visual relations with each other, which poses significant challenges when applying deep learning-based techniques for classification. To address this issue, we then propose a multi-stage hierarchical framework for food item classification by iteratively clustering and merging food items during the training process, which allows the deep model to extract image features that are discriminative across labels. Our method is evaluated on VFN-nutrient dataset and achieve promising results compared with existing work in terms of both food type and food item classification.
翻訳日:2023-09-06 21:42:14 公開日:2023-09-03
# 多次元ガウス過程状態空間モデルにおける効率的なモデリングと推論に向けて

Towards Efficient Modeling and Inference in Multi-Dimensional Gaussian Process State-Space Models ( http://arxiv.org/abs/2309.01074v1 )

ライセンス: Link先を確認
Zhidi Lin, Juan Maro\~nas, Ying Li, Feng Yin and Sergios Theodoridis(参考訳) ガウス過程状態空間モデル(GPSSM)は複雑な非線形力学系をモデル化するために広く注目を集めている。 しかし、既存のGPSSMは各潜在状態次元に別々のガウス過程(GP)を採用しており、計算複雑性とパラメータの拡散をエスカレートさせ、高次元潜在状態を持つ力学系をモデル化するための課題を提起している。 この障害を克服するために、高次元潜在状態空間における遷移関数を効率的にモデル化するために、共有GPを複数の正規化フローを通してプッシュする効率的な変換ガウス過程(ETGP)をGPSSMに統合することを提案する。 さらに,パラメータ数と計算複雑性の観点から,既存の手法を超越した変分推論アルゴリズムを開発した。 多様な合成および実世界のデータセットによる実験結果は,提案手法の効率を裏付けるとともに,既存手法と類似した推論性能を実現する能力を示す。 コードは \url{https://github.com/zhidilin/gpssmProj} で入手できる。

The Gaussian process state-space model (GPSSM) has attracted extensive attention for modeling complex nonlinear dynamical systems. However, the existing GPSSM employs separate Gaussian processes (GPs) for each latent state dimension, leading to escalating computational complexity and parameter proliferation, thus posing challenges for modeling dynamical systems with high-dimensional latent states. To surmount this obstacle, we propose to integrate the efficient transformed Gaussian process (ETGP) into the GPSSM, which involves pushing a shared GP through multiple normalizing flows to efficiently model the transition function in high-dimensional latent state space. Additionally, we develop a corresponding variational inference algorithm that surpasses existing methods in terms of parameter count and computational complexity. Experimental results on diverse synthetic and real-world datasets corroborate the efficiency of the proposed method, while also demonstrating its ability to achieve similar inference performance compared to existing methods. Code is available at \url{https://github.com/zhidilin/gpssmProj}.
翻訳日:2023-09-06 21:41:52 公開日:2023-09-03
# 周波数規則化による非矩形逆ローバストMDPの解法

Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization ( http://arxiv.org/abs/2309.01107v1 )

ライセンス: Link先を確認
Uri Gadot, Esther Derman, Navdeep Kumar, Maxence Mohamed Elfatihi, Kfir Levy, Shie Mannor(参考訳) 堅牢マルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。 RMDPは、その集合から最も敵対的なモデルの下で最大リターンを目標とすることにより、不特定環境に対する性能感度に対処する。 しかし、計算の可搬性を保つため、不確かさ集合は伝統的に各状態に対して独立に構成される。 このいわゆる矩形性条件は、計算上の懸念によってのみ動機づけられている。 その結果、実践的なインセンティブがなく、過度に保守的な行動につながる可能性がある。 本研究では,トランジッションカーネルを固定した結合報酬rmdpについて検討するが,報酬関数は名目上のものから$\alpha$-radius の範囲内にある。 我々は、このタイプの非矩形報酬RMDPと政策訪問頻度正規化の直接接続を描く。 政策段階の手法を導入し,その収束性を証明する。 数値実験では、矩形不確かさと比較して学習方針の頑健さと保守的でない振る舞いが示されている。

In robust Markov decision processes (RMDPs), it is assumed that the reward and the transition dynamics lie in a given uncertainty set. By targeting maximal return under the most adversarial model from that set, RMDPs address performance sensitivity to misspecified environments. Yet, to preserve computational tractability, the uncertainty set is traditionally independently structured for each state. This so-called rectangularity condition is solely motivated by computational concerns. As a result, it lacks a practical incentive and may lead to overly conservative behavior. In this work, we study coupled reward RMDPs where the transition kernel is fixed, but the reward function lies within an $\alpha$-radius from a nominal one. We draw a direct connection between this type of non-rectangular reward-RMDPs and applying policy visitation frequency regularization. We introduce a policy-gradient method, and prove its convergence. Numerical experiments illustrate the learned policy's robustness and its less conservative behavior when compared to rectangular uncertainty.
翻訳日:2023-09-06 21:36:30 公開日:2023-09-03
# advmono3d: 奥行き認識型ロバストな対向訓練による高精度3次元物体検出

AdvMono3D: Advanced Monocular 3D Object Detection with Depth-Aware Robust Adversarial Training ( http://arxiv.org/abs/2309.01106v1 )

ライセンス: Link先を確認
Xingyuan Li, Jinyuan Liu, Long Ma, Xin Fan, Risheng Liu(参考訳) 単眼の3D物体検出は、自律運転の分野で重要な役割を担い、多くのディープラーニングベースの手法がこの領域で大きなブレークスルーを遂げている。 検出精度と効率の進歩にもかかわらず、これらのモデルはこのような攻撃に直面すると失敗する傾向にあり、効果がない。 したがって、3次元検出モデルの対角的堅牢性を高めることは、即時注意と革新的な解決策を要求する重要な問題となっている。 この問題を軽減するため,DART3Dと呼ばれるモノクローナル3次元物体検出のための,深度対応の頑健な対向学習手法を提案する。 具体的には、3次元物体検出モデル(IDP)の2次元および3次元知覚能力を反復的に劣化させる敵攻撃を設計し、その後の防御機構の基礎となる。 この攻撃に対して,不確実性に基づく残差学習法を提案する。 我々の敵の訓練アプローチは、本質的な不確実性に乗じて、敵の攻撃に対する堅牢性を大幅に向上させる。 我々は、KITTIの3Dデータセットについて広範な実験を行い、DART3Dが3Dオブジェクト検出の攻撃を受けた場合の直接対向訓練(最も一般的なアプローチ)を超過していることを示し、それぞれ4.415%、4.112%、および3.195%の改善が得られた。

Monocular 3D object detection plays a pivotal role in the field of autonomous driving and numerous deep learning-based methods have made significant breakthroughs in this area. Despite the advancements in detection accuracy and efficiency, these models tend to fail when faced with such attacks, rendering them ineffective. Therefore, bolstering the adversarial robustness of 3D detection models has become a crucial issue that demands immediate attention and innovative solutions. To mitigate this issue, we propose a depth-aware robust adversarial training method for monocular 3D object detection, dubbed DART3D. Specifically, we first design an adversarial attack that iteratively degrades the 2D and 3D perception capabilities of 3D object detection models(IDP), serves as the foundation for our subsequent defense mechanism. In response to this attack, we propose an uncertainty-based residual learning method for adversarial training. Our adversarial training approach capitalizes on the inherent uncertainty, enabling the model to significantly improve its robustness against adversarial attacks. We conducted extensive experiments on the KITTI 3D datasets, demonstrating that DART3D surpasses direct adversarial training (the most popular approach) under attacks in 3D object detection $AP_{R40}$ of car category for the Easy, Moderate, and Hard settings, with improvements of 4.415%, 4.112%, and 3.195%, respectively.
翻訳日:2023-09-06 21:36:13 公開日:2023-09-03
# エンタープライズデータに基づくLLMアプリケーションアーキテクチャを用いた生成AIサービスの実装に関する研究

A Study on the Implementation of Generative AI Services Using an Enterprise Data-Based LLM Application Architecture ( http://arxiv.org/abs/2309.01105v1 )

ライセンス: Link先を確認
Cheonsu Jeong(参考訳) 本研究では,Large Language Model (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。 最近のジェネレーティブai技術の進歩により、llmは様々な分野に普及した。 この文脈において,本研究は情報不足の課題に対処し,llm能力を活用した具体的な治療を提案する。 調査は不適切なデータの問題を緩和し、適切なソリューションを提供する戦略を練っている。 この研究は、データ不足を軽減するための微調整技術と直接文書統合の有効性について論じている。 この研究の重要な貢献は、前述の課題に対処する検索・拡張世代(RAG)モデルの開発である。 RAGモデルは、情報ストレージと検索プロセスを強化し、コンテンツ生成を改善するために慎重に設計されている。 本研究は,RAGモデルに基づく情報蓄積・検索手法の重要な段階を解明する。 これらのステップを包括的に分析し、データの不足に対処する上での重要性を強調した。 本研究は,本手法の有効性を強調し,実例による適用性を示す。 情報ストレージと検索のためのRAGモデルを実装することにより、この研究は、生成AI技術の深い理解に寄与するだけでなく、LCMを利用した企業における実用的ユーザビリティも促進する。 この作業は、生成aiの分野を前進させ、データ駆動コンテンツ生成の強化に関する洞察を提供し、企業環境におけるllmベースのサービスの積極的な利用を促進することに大きな価値がある。

This study presents a method for implementing generative AI services by utilizing the Large Language Model (LLM) application architecture. With recent advancements in generative AI technology, LLMs have gained prominence across various domains. In this context, the research addresses the challenge of information scarcity and proposes specific remedies by harnessing LLM capabilities. The investigation delves into strategies for mitigating the issue of inadequate data, offering tailored solutions. The study delves into the efficacy of employing fine-tuning techniques and direct document integration to alleviate data insufficiency. A significant contribution of this work is the development of a Retrieval-Augmented Generation (RAG) model, which tackles the aforementioned challenges. The RAG model is carefully designed to enhance information storage and retrieval processes, ensuring improved content generation. The research elucidates the key phases of the information storage and retrieval methodology underpinned by the RAG model. A comprehensive analysis of these steps is undertaken, emphasizing their significance in addressing the scarcity of data. The study highlights the efficacy of the proposed method, showcasing its applicability through illustrative instances. By implementing the RAG model for information storage and retrieval, the research not only contributes to a deeper comprehension of generative AI technology but also facilitates its practical usability within enterprises utilizing LLMs. This work holds substantial value in advancing the field of generative AI, offering insights into enhancing data-driven content generation and fostering active utilization of LLM-based services within corporate settings.
翻訳日:2023-09-06 21:35:46 公開日:2023-09-03
# フェイクを現実に:ディープフェイク検出に対する敵のヘッドターン攻撃

Turn Fake into Real: Adversarial Head Turn Attacks Against Deepfake Detection ( http://arxiv.org/abs/2309.01104v1 )

ライセンス: Link先を確認
Weijie Wang, Zhengyu Zhao, Nicu Sebe, Bruno Lepri(参考訳) ディープフェイクの悪質な使用は、人々のデジタルメディアに対する信頼を低下させ、深刻な公衆の懸念に繋がる。 効果的なディープフェイク検出器が提案されているが、敵の攻撃に対してかなり脆弱である。 検出器の堅牢性を評価するため、最近の研究では様々な攻撃を調査している。 しかし、既存の攻撃はすべて2d画像の摂動に限定されており、実際の顔変化には変換が難しい。 本稿では,1視点のフェイク画像からの顔視合成に基づいて,ディープフェイク検出器に対する3次元顔視の最初の試みである対向頭部回転(AdvHeat)を提案する。 大規模な実験は、現実的でブラックボックスのシナリオで様々な検出器のAdvHeatに対する脆弱性を検証する。 例えば、単純なランダム検索に基づくadvheatは、360探索ステップで96.8%高い攻撃成功率が得られる。 追加のクエリアクセスが許可されると、ステップ予算をさらに50に削減できます。 さらなる分析により、アドバエは従来のクロス検出器転送性と防御に対する堅牢性の両方に対する攻撃よりも優れていることが示されている。 また、advheatが生成する敵画像には自然な外観が示される。 FaceForensics++から1000のIDに対して360の合成ビューからなるマルチビューデータセットを生成するコードを含め、当社のコードはhttps://github.com/twowj/AdvHeaT.comで公開されています。

Malicious use of deepfakes leads to serious public concerns and reduces people's trust in digital media. Although effective deepfake detectors have been proposed, they are substantially vulnerable to adversarial attacks. To evaluate the detector's robustness, recent studies have explored various attacks. However, all existing attacks are limited to 2D image perturbations, which are hard to translate into real-world facial changes. In this paper, we propose adversarial head turn (AdvHeat), the first attempt at 3D adversarial face views against deepfake detectors, based on face view synthesis from a single-view fake image. Extensive experiments validate the vulnerability of various detectors to AdvHeat in realistic, black-box scenarios. For example, AdvHeat based on a simple random search yields a high attack success rate of 96.8% with 360 searching steps. When additional query access is allowed, we can further reduce the step budget to 50. Additional analyses demonstrate that AdvHeat is better than conventional attacks on both the cross-detector transferability and robustness to defenses. The adversarial images generated by AdvHeat are also shown to have natural looks. Our code, including that for generating a multi-view dataset consisting of 360 synthetic views for each of 1000 IDs from FaceForensics++, is available at https://github.com/twowwj/AdvHeaT.
翻訳日:2023-09-06 21:35:22 公開日:2023-09-03
# 強固な水中画像強調と知覚のための2重逆弾性

Dual Adversarial Resilience for Collaborating Robust Underwater Image Enhancement and Perception ( http://arxiv.org/abs/2309.01102v1 )

ライセンス: Link先を確認
Zengxi Zhang, Zhiying Jiang, Zeru Shi, Jinyuan Liu, Risheng Liu(参考訳) 水生環境における様々な光波長の不均一な散乱と吸収のため、水中の画像は視界が低く、鮮やかな色差に悩まされる。 自律型水中車両の進歩に伴い、学習に基づく水中強化アルゴリズムに関する広範な研究が進められている。 これらの研究は、視覚的に満足な強調画像を生成し、劣化した画像がその後の知覚タスクに与える影響を軽減することができる。 しかし、学習に基づく手法は、敵対的攻撃の固有の脆弱さに影響され、結果に大きな混乱をもたらす。 本研究では,水中画像の強調と検出を行うために,CARNetと呼ばれる協調的対向レジリエンスネットワークを導入する。 具体的には,水中画像から攻撃を分離する強力な摂動知覚能力を有する可逆ネットワークを導入し,画像強調や知覚課題への干渉を防止した。 さらに,ネットワークが様々な種類の攻撃を識別・除去できるように,視覚駆動型と知覚型の両方による同時攻撃訓練戦略を提案する。 さらに,攻撃パターン判別器を組み込んで,攻撃に対するネットワークの堅牢性を高める。 広汎な実験により,提案手法は画像の高画質化を図り,最先端の手法よりも平均6.71%高い検出精度を実現している。

Due to the uneven scattering and absorption of different light wavelengths in aquatic environments, underwater images suffer from low visibility and clear color deviations. With the advancement of autonomous underwater vehicles, extensive research has been conducted on learning-based underwater enhancement algorithms. These works can generate visually pleasing enhanced images and mitigate the adverse effects of degraded images on subsequent perception tasks. However, learning-based methods are susceptible to the inherent fragility of adversarial attacks, causing significant disruption in results. In this work, we introduce a collaborative adversarial resilience network, dubbed CARNet, for underwater image enhancement and subsequent detection tasks. Concretely, we first introduce an invertible network with strong perturbation-perceptual abilities to isolate attacks from underwater images, preventing interference with image enhancement and perceptual tasks. Furthermore, we propose a synchronized attack training strategy with both visual-driven and perception-driven attacks enabling the network to discern and remove various types of attacks. Additionally, we incorporate an attack pattern discriminator to heighten the robustness of the network against different attacks. Extensive experiments demonstrate that the proposed method outputs visually appealing enhancement images and perform averagely 6.71% higher detection mAP than state-of-the-art methods.
翻訳日:2023-09-06 21:35:01 公開日:2023-09-03
# M2HGCL:マルチスケールメタパス統合異種グラフコントラスト学習

M2HGCL: Multi-Scale Meta-Path Integrated Heterogeneous Graph Contrastive Learning ( http://arxiv.org/abs/2309.01101v1 )

ライセンス: Link先を確認
Yuanyuan Guo, Yu Xia, Rui Wang, Rongcheng Duan, Lu Li, Jiangmeng Li(参考訳) グラフへのコントラスト学習の成功に触発されて、研究者は異種情報ネットワークにグラフコントラスト学習アプローチを課そうとした。 均質グラフと直交して、異質グラフのノードやエッジの種類は多様であり、特殊なグラフのコントラスト学習方法が必要となる。 既存のヘテロジニアスグラフのコントラスト学習法は、ヘテロジニアスグラフを均質グラフに変換することによって実装されており、非対象ノードが持つ貴重な情報が弱められ、コントラスト学習モデルの性能が悪化する可能性がある。 さらに、現在の異種グラフコントラスト学習法は主にデータセットが与える初期メタパスに基づいているが、本研究の深層調査では、初期メタパスだけが十分な識別情報を含まないという経験的結論を導き、異種グラフコントラスト学習法の性能を効果的に向上させることができる。 そこで本研究では, 従来の不均質相同性変換を廃止し, グラフ相異性学習を共同で行うマルチスケールメタパス統合不均一性グラフコントラスト学習(m2hgcl)モデルを提案する。 具体的には、メタパスを拡大し、直接隣接情報、初期メタパス隣情報、拡張メタパス隣情報を共同で集約し、識別情報を十分に取得する。 コントラスト学習の本態的な欠如、すなわちハードネガティブサンプルサンプリング問題を治療するために、より具体的な正のサンプリング戦略が課せられる。 3つの実世界のデータセットに関する広範な実験を通して、M2HGCLが現在の最先端のベースラインモデルより優れていることを示す。

Inspired by the successful application of contrastive learning on graphs, researchers attempt to impose graph contrastive learning approaches on heterogeneous information networks. Orthogonal to homogeneous graphs, the types of nodes and edges in heterogeneous graphs are diverse so that specialized graph contrastive learning methods are required. Most existing methods for heterogeneous graph contrastive learning are implemented by transforming heterogeneous graphs into homogeneous graphs, which may lead to ramifications that the valuable information carried by non-target nodes is undermined thereby exacerbating the performance of contrastive learning models. Additionally, current heterogeneous graph contrastive learning methods are mainly based on initial meta-paths given by the dataset, yet according to our deep-going exploration, we derive empirical conclusions: only initial meta-paths cannot contain sufficiently discriminative information; and various types of meta-paths can effectively promote the performance of heterogeneous graph contrastive learning methods. To this end, we propose a new multi-scale meta-path integrated heterogeneous graph contrastive learning (M2HGCL) model, which discards the conventional heterogeneity-homogeneity transformation and performs the graph contrastive learning in a joint manner. Specifically, we expand the meta-paths and jointly aggregate the direct neighbor information, the initial meta-path neighbor information and the expanded meta-path neighbor information to sufficiently capture discriminative information. A specific positive sampling strategy is further imposed to remedy the intrinsic deficiency of contrastive learning, i.e., the hard negative sample sampling issue. Through extensive experiments on three real-world datasets, we demonstrate that M2HGCL outperforms the current state-of-the-art baseline models.
翻訳日:2023-09-06 21:34:42 公開日:2023-09-03
# 両レベル対応フレームワークによる赤外小ターゲット検出ロバスト性向上

Enhancing Infrared Small Target Detection Robustness with Bi-Level Adversarial Framework ( http://arxiv.org/abs/2309.01099v1 )

ライセンス: Link先を確認
Zhu Liu, Zihang Chen, Jinyuan Liu, Long Ma, Xin Fan, Risheng Liu(参考訳) ぼやけた背景やぼやけた背景に対する小さな赤外線の標的の検出は、持続的な課題である。 近年,学習に基づくスキームが地図を直接構築するための主流の方法論となっている。 しかし、これらの手法は背景の変化や現実世界の混乱の固有の複雑さに影響を受けやすく、信頼性に欠ける目標推定に繋がる。 本研究では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対立フレームワークを提案する。 まず,動的対角学習を導入するための二段階最適化法を提案する。 具体的には、低レベル目標としての損失を最大化するために学習可能な腐敗の発生と、上位レベル目標としての検出器の堅牢性促進とを組み合わせる。 また,最も有害な腐敗を発見し,ロバスト性と精度のバランスをとるための階層的強化学習戦略も提供する。 そこで本稿では, 目標検出のための空間周波数相互作用ネットワークを提案する。 広範な実験により,広範な汚職に対して21.96%のiouが著しく改善され,一般的なベンチマークでは4.97%のiouが促進された。 ソースコードはhttps://github.com/LiuZhu-CV/BALISTDで入手できる。

The detection of small infrared targets against blurred and cluttered backgrounds has remained an enduring challenge. In recent years, learning-based schemes have become the mainstream methodology to establish the mapping directly. However, these methods are susceptible to the inherent complexities of changing backgrounds and real-world disturbances, leading to unreliable and compromised target estimations. In this work, we propose a bi-level adversarial framework to promote the robustness of detection in the presence of distinct corruptions. We first propose a bi-level optimization formulation to introduce dynamic adversarial learning. Specifically, it is composited by the learnable generation of corruptions to maximize the losses as the lower-level objective and the robustness promotion of detectors as the upper-level one. We also provide a hierarchical reinforced learning strategy to discover the most detrimental corruptions and balance the performance between robustness and accuracy. To better disentangle the corruptions from salient features, we also propose a spatial-frequency interaction network for target detection. Extensive experiments demonstrate our scheme remarkably improves 21.96% IOU across a wide array of corruptions and notably promotes 4.97% IOU on the general benchmark. The source codes are available at https://github.com/LiuZhu-CV/BALISTD.
翻訳日:2023-09-06 21:34:10 公開日:2023-09-03
# cotdet: タスク駆動オブジェクト検出のためのアプライアンス知識プロンプト

CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection ( http://arxiv.org/abs/2309.01093v1 )

ライセンス: Link先を確認
Jiajin Tang, Ge Zheng, Jingyi Yu, Sibei Yang(参考訳) タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。 その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。 共通オブジェクトのカテゴリと視覚的特徴をタスクにマッピングするだけでは、課題に対処できない。 本稿では,オブジェクトのカテゴリ,すなわち異なるオブジェクトが同じタスクを遂行できる共通属性ではなく,基本的なアフォーアンスを検討することを提案する。 さらに,タスクからオブジェクトへの多レベル推論ステップを含む大規模言語モデルから,有理性を持つ必須視覚属性へのアプライアンス知識を抽出するための,新たな多レベル連鎖思考促進(mlcot)を提案する。 さらに,知識を十分に活用して物体認識と局所化に資するため,知識条件検出フレームワークcotdetを提案する。 知識から検出器を条件付け、オブジェクトクエリと回帰ボックスを生成する。 実験の結果,CoTDetは最先端の手法を連続的に,かつ著しく向上し(+15.6 box APと+14.8 mask AP),なぜオブジェクトが検出されたのかを合理的に生成できることがわかった。

Task driven object detection aims to detect object instances suitable for affording a task in an image. Its challenge lies in object categories available for the task being too diverse to be limited to a closed set of object vocabulary for traditional object detection. Simply mapping categories and visual features of common objects to the task cannot address the challenge. In this paper, we propose to explore fundamental affordances rather than object categories, i.e., common attributes that enable different objects to accomplish the same task. Moreover, we propose a novel multi-level chain-of-thought prompting (MLCoT) to extract the affordance knowledge from large language models, which contains multi-level reasoning steps from task to object examples to essential visual attributes with rationales. Furthermore, to fully exploit knowledge to benefit object recognition and localization, we propose a knowledge-conditional detection framework, namely CoTDet. It conditions the detector from the knowledge to generate object queries and regress boxes. Experimental results demonstrate that our CoTDet outperforms state-of-the-art methods consistently and significantly (+15.6 box AP and +14.8 mask AP) and can generate rationales for why objects are detected to afford the task.
翻訳日:2023-09-06 21:33:49 公開日:2023-09-03
# イベント画像からの接続発見のための顔クラスタリング

Face Clustering for Connection Discovery from Event Images ( http://arxiv.org/abs/2309.01092v1 )

ライセンス: Link先を確認
Ming Cheung(参考訳) ソーシャルグラフは、リコメンデーションやコミュニティ検出など、多くのアプリケーションで非常に有用である。 しかし、データ可用性とプライバシーの懸念から、大手ソーシャルネットワーク事業者にのみアクセス可能である。 イベントイメージはまた、参加者間のインタラクションをキャプチャし、そこからソーシャルなつながりを発見し、ソーシャルグラフを形成する。 オンラインのソーシャルグラフとは異なり、イベントイメージが持つソーシャル接続はユーザ入力なしで抽出できるため、オンラインのソーシャルグラフにアクセスしなくても多くのソーシャルグラフベースのアプリケーションが可能になる。 本稿では,イベント画像から社会的つながりを発見するシステムを提案する。 共起などの画像からの社会的情報を利用して、顔クラスタリング手法を提案し、実装し、イベント参加者の同一性なしに接続を見つけることができる。 3000人以上の参加者から4000万以上の顔を集めることで、F1スコアの80%で顔がうまくクラスタ化され、社会グラフが構築できることが示された。 オフラインのイベントイメージを利用することは、ソーシャルネットワーク分析に長期的な影響をもたらす可能性がある。

Social graphs are very useful for many applications, such as recommendations and community detections. However, they are only accessible to big social network operators due to both data availability and privacy concerns. Event images also capture the interactions among the participants, from which social connections can be discovered to form a social graph. Unlike online social graphs, social connections carried by event images can be extracted without user inputs, and hence many social graph-based applications become possible, even without access to online social graphs. This paper proposes a system to discover social connections from event images. By utilizing the social information from even images, such as co-occurrence, a face clustering method is proposed and implemented, and connections can be discovered without the identity of the event participants. By collecting over 40000 faces from over 3000 participants, it is shown that the faces can be well clustered with 80% in F1 score, and social graphs can be constructed. Utilizing offline event images may create a long-term impact on social network analytics.
翻訳日:2023-09-06 21:33:23 公開日:2023-09-03
# 行為の安定化: 双方向操作のコーディネートを学ぶ

Stabilize to Act: Learning to Coordinate for Bimanual Manipulation ( http://arxiv.org/abs/2309.01087v1 )

ライセンス: Link先を確認
Jennifer Grannen, Yilin Wu, Brandon Vu, Dorsa Sadigh(参考訳) 現実世界における豊かで巧妙な操作の鍵は、両手でコントロールを調整できることだ。 しかし、両立ロボットシステムによって与えられる約束は膨大であるが、二重アーム自律システムのための制御ポリシーを構築することは、本質的に困難をもたらす。 そのような難しさの1つは双対作用空間の高次元性であり、モデルベース法とデータ駆動法の両方に複雑さをもたらす。 人間からインスピレーションを得て、新しい役割割当フレームワークを提案することで、この課題に対処します。 安定化アームは、実行中のアームがタスクを実行する間、環境をシンプルにするためにオブジェクトを保持します。 我々は,このフレームワークを,学習した安定化位置の更新と環境の維持,そして実証から学んだ行動ポリシーによるタスク達成を,学習した安定化分類器(BUDS)を用いて交互に行うBimanUal Dexterity from Stabilization (BUDS)でインスタンス化する。 本研究は,実世界のロボットにおいて,ジッピングジャケットや野菜の切断など,複雑度の異なる4つの作業に対して,BUDSを評価した。 20のデモしかなければ、BUDSはタスクスイート全体で76.9%のタスク成功を達成し、52.7%の成功率を持つクラス内の配布外オブジェクトに一般化する。 BUDSは構造化されていないベースラインよりも56.0%成功しており、複雑なタスクに必要な精度のためにBC安定化ポリシーを学ぶ。 補足資料とビデオはhttps://sites.google.com/view/stabilizetoactで見ることができる。

Key to rich, dexterous manipulation in the real world is the ability to coordinate control across two hands. However, while the promise afforded by bimanual robotic systems is immense, constructing control policies for dual arm autonomous systems brings inherent difficulties. One such difficulty is the high-dimensionality of the bimanual action space, which adds complexity to both model-based and data-driven methods. We counteract this challenge by drawing inspiration from humans to propose a novel role assignment framework: a stabilizing arm holds an object in place to simplify the environment while an acting arm executes the task. We instantiate this framework with BimanUal Dexterity from Stabilization (BUDS), which uses a learned restabilizing classifier to alternate between updating a learned stabilization position to keep the environment unchanged, and accomplishing the task with an acting policy learned from demonstrations. We evaluate BUDS on four bimanual tasks of varying complexities on real-world robots, such as zipping jackets and cutting vegetables. Given only 20 demonstrations, BUDS achieves 76.9% task success across our task suite, and generalizes to out-of-distribution objects within a class with a 52.7% success rate. BUDS is 56.0% more successful than an unstructured baseline that instead learns a BC stabilizing policy due to the precision required of these complex tasks. Supplementary material and videos can be found at https://sites.google.com/view/stabilizetoact .
翻訳日:2023-09-06 21:33:08 公開日:2023-09-03
# 注意すべき点:選択的領域集中による視覚的文書理解の再考

Attention Where It Matters: Rethinking Visual Document Understanding with Selective Region Concentration ( http://arxiv.org/abs/2309.01131v1 )

ライセンス: Link先を確認
Haoyu Cao, Changcun Bao, Chaohu Liu, Huang Chen, Kun Yin, Hao Liu, Yinsong Liu, Deqiang Jiang, Xing Sun(参考訳) 本稿では,文書解析,検索,オフィス自動化など,文書画像から意味のある情報を抽出するSeRum (Selective Region Understanding Model) という新しいエンドツーエンド文書理解モデルを提案する。 マルチステージの技術的スキームに依存して計算コストがかかる最先端のアプローチとは異なり、SeRumは文書イメージ理解と認識タスクを、コンテンツ認識トークンマージモジュールを使用して、関心のある視覚トークンの局所的復号プロセスに変換する。 このメカニズムにより、モデルがクエリデコーダによって生成される関心領域により多くの注意を払うことができ、モデルの有効性が向上し、生成スキームのデコード速度が速くなる。 モデルの理解と局所的な認識を高めるために、いくつかの事前学習タスクも設計しました。 実験結果から,SeRumは文書理解タスクの最先端性能とテキストスポッティングタスクの競合結果が得られることがわかった。 SeRumは、効率的で効果的なエンドツーエンドのドキュメント理解を実現するための大きな進歩を表している。

We propose a novel end-to-end document understanding model called SeRum (SElective Region Understanding Model) for extracting meaningful information from document images, including document analysis, retrieval, and office automation. Unlike state-of-the-art approaches that rely on multi-stage technical schemes and are computationally expensive, SeRum converts document image understanding and recognition tasks into a local decoding process of the visual tokens of interest, using a content-aware token merge module. This mechanism enables the model to pay more attention to regions of interest generated by the query decoder, improving the model's effectiveness and speeding up the decoding speed of the generative scheme. We also designed several pre-training tasks to enhance the understanding and local awareness of the model. Experimental results demonstrate that SeRum achieves state-of-the-art performance on document understanding tasks and competitive results on text spotting tasks. SeRum represents a substantial advancement towards enabling efficient and effective end-to-end document understanding.
翻訳日:2023-09-06 21:24:06 公開日:2023-09-03
# 量子グラフニューラルネットワークを用いた金融不正検出

Financial Fraud Detection using Quantum Graph Neural Networks ( http://arxiv.org/abs/2309.01127v1 )

ライセンス: Link先を確認
Nouhaila Innan, Abhishek Sawaika, Ashim Dhor, Siddhant Dutta, Sairupa Thota, Husayn Gokal, Nandan Patel, Muhammad Al-Zafar Khan, Ioannis Theodonis and Mohamed Bennai(参考訳) 金融不正検出は、大きな損失を防ぎ、金融機関の評判を維持するために不可欠である。 しかし、従来の金融詐欺検出方法は効果が限られており、検出率を向上させるための新たなアプローチが必要である。 本稿では,量子グラフニューラルネットワーク(QGNN)を用いた金融不正検出手法を提案する。 qgnnは、グラフ構造化データを処理し、量子コンピューティング(qc)の力を活用し、従来のニューラルネットワークよりも効率的に計算を行うニューラルネットワークの一種である。 提案手法は変分量子回路(VQC)を用いてQGNNの性能を向上させる。 提案手法の有効性を評価するため,実世界の金融不正検出データセットを用いて,QGNNの性能を古典グラフニューラルネットワークと比較した。 実験の結果,QGNNのAUCは0.85ドルであり,従来のGNNよりも優れていた。 我々の研究はQGNNの可能性を浮き彫りにして、QGNNが金融詐欺検出を改善するための有望な新しいアプローチであることを示唆している。

Financial fraud detection is essential for preventing significant financial losses and maintaining the reputation of financial institutions. However, conventional methods of detecting financial fraud have limited effectiveness, necessitating the need for new approaches to improve detection rates. In this paper, we propose a novel approach for detecting financial fraud using Quantum Graph Neural Networks (QGNNs). QGNNs are a type of neural network that can process graph-structured data and leverage the power of Quantum Computing (QC) to perform computations more efficiently than classical neural networks. Our approach uses Variational Quantum Circuits (VQC) to enhance the performance of the QGNN. In order to evaluate the efficiency of our proposed method, we compared the performance of QGNNs to Classical Graph Neural Networks using a real-world financial fraud detection dataset. The results of our experiments showed that QGNNs achieved an AUC of $0.85$, which outperformed classical GNNs. Our research highlights the potential of QGNNs and suggests that QGNNs are a promising new approach for improving financial fraud detection.
翻訳日:2023-09-06 21:23:46 公開日:2023-09-03
# AutoML-GPT: AutoML用の大規模言語モデル

AutoML-GPT: Large Language Model for AutoML ( http://arxiv.org/abs/2309.01125v1 )

ライセンス: Link先を確認
Yun-Da Tsai, Yu-Che Tsai, Bo-Wei Huang, Chun-Pai Yang, Shou-De Lin(参考訳) GPTモデルの台頭とともに、私たちはAutoML-GPTと呼ばれる、包括的なツールとライブラリを統合するフレームワークを確立しました。 このフレームワークは、幅広いデータ前処理技術、特徴工学的手法、モデル選択アルゴリズムへのアクセスをユーザに許可する。 会話インターフェースを通じて、ユーザーは要求、制約、評価メトリクスを指定することができる。 プロセス全体を通して、AutoML-GPTはハイパーパラメータ最適化とモデル選択のための高度な技術を採用し、結果のモデルが最適な性能を達成することを保証する。 このシステムは機械学習パイプラインの複雑さを効果的に管理し、ユーザーを深いドメイン知識を必要とせずに最良の選択へと導く。 多様なデータセットに関する実験結果を通じて、AutoML-GPTは機械学習タスクに必要な時間と労力を大幅に削減することを示した。 大きな言語モデルに符号化された膨大な知識を活用する能力により、貴重な洞察を提供し、潜在的な落とし穴を特定し、モデルトレーニング中に直面する共通の課題に対する効果的な解決策を提案することができる。

With the emerging trend of GPT models, we have established a framework called AutoML-GPT that integrates a comprehensive set of tools and libraries. This framework grants users access to a wide range of data preprocessing techniques, feature engineering methods, and model selection algorithms. Through a conversational interface, users can specify their requirements, constraints, and evaluation metrics. Throughout the process, AutoML-GPT employs advanced techniques for hyperparameter optimization and model selection, ensuring that the resulting model achieves optimal performance. The system effectively manages the complexity of the machine learning pipeline, guiding users towards the best choices without requiring deep domain knowledge. Through our experimental results on diverse datasets, we have demonstrated that AutoML-GPT significantly reduces the time and effort required for machine learning tasks. Its ability to leverage the vast knowledge encoded in large language models enables it to provide valuable insights, identify potential pitfalls, and suggest effective solutions to common challenges faced during model training.
翻訳日:2023-09-06 21:23:30 公開日:2023-09-03
# AIによるB細胞免疫療法の設計

AI driven B-cell Immunotherapy Design ( http://arxiv.org/abs/2309.01122v1 )

ライセンス: Link先を確認
Bruna Moreira da Silva (1), David B. Ascher (2), Nicholas Geard (1), Douglas E. V. Pires (1) ((1) The University of Melbourne, (2) The University of Queensland)(参考訳) 抗体は、外国の抗原を検出する上で重要な役割を担っている。 抗原中和と除去ヒンジの効果は、資源集約的な実験技術を必要とするパラトープ-エピトープ相互作用の強さ、感受性、特異性に影響を及ぼす。 近年、人工知能と機械学習の手法は大きな進歩を遂げ、タンパク質構造とその複合体の予測に革命をもたらした。 過去10年間、免疫療法の設計を支援する計算手法の進化も見られた。 本総説では,B細胞免疫療法設計における機械学習ツールとそのフレームワークの進歩に焦点をあて,リニアおよびコンフォーメーションエピトープ予測,パラトープ予測,抗体設計を包含する。 最も一般的に使用されるデータソース、評価メトリクス、メソッドの可用性をマッピングし、その重要性と限界を徹底的に評価し、今後の主な課題について議論した。

Antibodies, a prominent class of approved biologics, play a crucial role in detecting foreign antigens. The effectiveness of antigen neutralisation and elimination hinges upon the strength, sensitivity, and specificity of the paratope-epitope interaction, which demands resource-intensive experimental techniques for characterisation. In recent years, artificial intelligence and machine learning methods have made significant strides, revolutionising the prediction of protein structures and their complexes. The past decade has also witnessed the evolution of computational approaches aiming to support immunotherapy design. This review focuses on the progress of machine learning-based tools and their frameworks in the domain of B-cell immunotherapy design, encompassing linear and conformational epitope prediction, paratope prediction, and antibody design. We mapped the most commonly used data sources, evaluation metrics, and method availability and thoroughly assessed their significance and limitations, discussing the main challenges ahead.
翻訳日:2023-09-06 21:23:14 公開日:2023-09-03
# ダブルクリッピング:オフ・ポリティ・アセスメントにおける低バイアス可変化

Double Clipping: Less-Biased Variance Reduction in Off-Policy Evaluation ( http://arxiv.org/abs/2309.01120v1 )

ライセンス: Link先を確認
Jan Malte Lichtenberg, Alexander Buchholz, Giuseppe Di Benedetto, Matteo Ruffini, Ben London(参考訳) クリッピング(Clipping、重要重量減量)は、反ファクトリアルなオフ・ポリティクス推定器において広く用いられている分散還元技術である。 他の分散還元法と同様に、クリッピングはバイアスの増加による分散を低減する。 しかし、他の手法とは異なり、クリッピングによって引き起こされるバイアスは常に下向きのバイアスであり(非負の報酬を仮定すると)、真の期待される報酬に下限をもたらす。 そこで本研究では,この下方偏りを補償し,偏りを減らすことを目的とした,$\textit{double clipping}$という簡単な拡張を提案し,元の推定器の分散低減特性を維持した。

"Clipping" (a.k.a. importance weight truncation) is a widely used variance-reduction technique for counterfactual off-policy estimators. Like other variance-reduction techniques, clipping reduces variance at the cost of increased bias. However, unlike other techniques, the bias introduced by clipping is always a downward bias (assuming non-negative rewards), yielding a lower bound on the true expected reward. In this work we propose a simple extension, called $\textit{double clipping}$, which aims to compensate this downward bias and thus reduce the overall bias, while maintaining the variance reduction properties of the original estimator.
翻訳日:2023-09-06 21:22:59 公開日:2023-09-03
# 機械学習に基づく二酸化炭素排出量予測とクリーン産業転換--四川省を事例として

Carbon Emission Prediction and Clean Industry Transformation Based on Machine Learning: A Case Study of Sichuan Province ( http://arxiv.org/abs/2309.01115v1 )

ライセンス: Link先を確認
Xuanming Zhang, Xiaoxue Wang, Yonghang Chen(参考訳) 本研究は, 行列正規化を用いた46主要四川産業における2000-2019年エネルギー消費データを前処理した。 dbscanクラスタリングは16の機能クラスを客観的にグループ化する。 ペナル化回帰モデルは、複雑なエネルギーデータに適した制御、高次元データ処理、特徴選択の優位性のために適用された。 結果から, 石炭周辺の第2クラスターは, 生産需要により排ガス量が最も高かった。 ガソリンとコークスに焦点をあてたクラスターからの排出も顕著であった。 これに基づいて、クリーンな石炭技術、輸送管理、鉄鋼における石炭-電力交換、産業標準化といった排出削減の提案がなされた。 この研究は、客観的に要因を選択するために教師なし学習を導入し、新しい排出削減経路を探究することを目的とした。 結論として、この研究では、業界グループ化、排出要因の評価、DBSCANやペナル化回帰モデルといったアルゴリズムを用いて意思決定をよりよく知るための科学的削減戦略を提案した。

This study preprocessed 2000-2019 energy consumption data for 46 key Sichuan industries using matrix normalization. DBSCAN clustering identified 16 feature classes to objectively group industries. Penalized regression models were then applied for their advantages in overfitting control, high-dimensional data processing, and feature selection - well-suited for the complex energy data. Results showed the second cluster around coal had highest emissions due to production needs. Emissions from gasoline-focused and coke-focused clusters were also significant. Based on this, emission reduction suggestions included clean coal technologies, transportation management, coal-electricity replacement in steel, and industry standardization. The research introduced unsupervised learning to objectively select factors and aimed to explore new emission reduction avenues. In summary, the study identified industry groupings, assessed emissions drivers, and proposed scientific reduction strategies to better inform decision-making using algorithms like DBSCAN and penalized regression models.
翻訳日:2023-09-06 21:22:46 公開日:2023-09-03
# medchatzh: より良い医療アドバイザーは、より良い指示から学ぶ

MedChatZH: a Better Medical Adviser Learns from Better Instructions ( http://arxiv.org/abs/2309.01114v1 )

ライセンス: Link先を確認
Yang Tan, Mingchen Li, Zijie Huang, Huiqun Yu and Guisheng Fan(参考訳) 生成型大規模言語モデル(LLM)は、質問応答(QA)や対話システムなど、様々なアプリケーションで大きな成功を収めている。 しかし、中国の伝統的な医学的QAのような専門的なドメインでは、これらのモデルはドメイン固有のデータセットを微調整することなく不満足に実行することができる。 そこで本研究では,従来の中国医学QAに特化して設計された対話モデルであるMedChatZHを紹介する。 我々のモデルは、中国の伝統医学書に事前学習され、慎重に訓練された医学教育データセットで微調整される。 現実世界の医療対話データセットで、いくつかの堅固なベースラインを上回っている。 従来の中国医学やLLMの分野におけるさらなる研究を促進するため、我々のモデル、コード、データセットをhttps://github.com/tyang816/MedChatZHで公開します。

Generative large language models (LLMs) have shown great success in various applications, including question-answering (QA) and dialogue systems. However, in specialized domains like traditional Chinese medical QA, these models may perform unsatisfactorily without fine-tuning on domain-specific datasets. To address this, we introduce MedChatZH, a dialogue model designed specifically for traditional Chinese medical QA. Our model is pre-trained on Chinese traditional medical books and fine-tuned with a carefully curated medical instruction dataset. It outperforms several solid baselines on a real-world medical dialogue dataset. We release our model, code, and dataset on https://github.com/tyang816/MedChatZH to facilitate further research in the domain of traditional Chinese medicine and LLMs.
翻訳日:2023-09-06 21:22:31 公開日:2023-09-03
# ハイブリッドスーパービジョンデュアルサーチ:ロスフリーマルチ露光画像融合のための自動学習の活用

Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for Loss-free Multi-Exposure Image Fusion ( http://arxiv.org/abs/2309.01113v1 )

ライセンス: Link先を確認
Guanyao Wu, Hongming Fu, Jinyuan Liu, Long Ma, Xin Fan, Risheng Liu(参考訳) マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。 その進歩にもかかわらず、フィールドは、特にネットワーク構造と損失関数のマニュアル設計への依存、シミュレーションされた参照イメージを基礎的な真実として利用するという制約など、課題に悩まされている。 そのため、現在の方法論では色歪や露出アーティファクトに苦しむことが多く、さらに本物の画像表現の探求を複雑にしている。 本稿では,ネットワーク構造と損失関数の両方の自動設計のための二段階最適化探索手法であるhsds-mef(hsds-mef)を提案する。 より具体的には、新しい重み付け構造洗練アーキテクチャ探索に根ざしたユニークな二重研究機構を利用する。 さらに、ハイブリッド教師付きコントラスト制約は、探索プロセスをシームレスにガイドし、統合し、最適損失関数のより適応的で包括的な探索を容易にする。 我々は,様々な競争方式と比較して最先端の性能を実現し,視覚情報忠実度(VIF)の10.61%と4.38%の改善を実現し,高いコントラスト,リッチディテール,カラー化を実現した。

Multi-exposure image fusion (MEF) has emerged as a prominent solution to address the limitations of digital imaging in representing varied exposure levels. Despite its advancements, the field grapples with challenges, notably the reliance on manual designs for network structures and loss functions, and the constraints of utilizing simulated reference images as ground truths. Consequently, current methodologies often suffer from color distortions and exposure artifacts, further complicating the quest for authentic image representation. In addressing these challenges, this paper presents a Hybrid-Supervised Dual-Search approach for MEF, dubbed HSDS-MEF, which introduces a bi-level optimization search scheme for automatic design of both network structures and loss functions. More specifically, we harnesses a unique dual research mechanism rooted in a novel weighted structure refinement architecture search. Besides, a hybrid supervised contrast constraint seamlessly guides and integrates with searching process, facilitating a more adaptive and comprehensive search for optimal loss functions. We realize the state-of-the-art performance in comparison to various competitive schemes, yielding a 10.61% and 4.38% improvement in Visual Information Fidelity (VIF) for general and no-reference scenarios, respectively, while providing results with high contrast, rich details and colors.
翻訳日:2023-09-06 21:22:16 公開日:2023-09-03
# ArSDM:適応リファインメント・セマンティック拡散モデルを用いた大腸内視鏡画像合成

ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic Diffusion Models ( http://arxiv.org/abs/2309.01111v1 )

ライセンス: Link先を確認
Yuhao Du, Yuncheng Jiang, Shuangyi Tan, Xusheng Wu, Qi Dou, Zhen Li, Guanbin Li, Xiang Wan(参考訳) 大腸内視鏡検査,特にポリープの自動分画と検出は臨床診断と治療の補助に不可欠である。 しかし, 医用画像アノテーションは労働集約的かつ資源集約的であるため, 注釈付きデータの不足は既存の手法の有効性と一般化を制限している。 最近の研究は、この問題に対処するためにデータ生成と拡張に焦点を当てているが、生成されたデータの品質は依然として課題であり、その後のタスクのパフォーマンスへの貢献を制限する。 本稿では,データ分布の適合や高品質なデータ生成における拡散モデルの優位性に着想を得て,下流の作業に有利な大腸内視鏡画像を生成するための適応リファインメント・セマンティック拡散モデル(ArSDM)を提案する。 具体的には、ArSDMは、トレーニング中にグラウントトラスセグメンテーションマスクを事前条件として使用し、ポリプ/バックグラウンドサイズ比に応じて各入力の拡散損失を調整する。 さらに、arsdmは事前訓練されたセグメンテーションモデルを採用しており、接地マスクと予測マスクとの差を低減し、トレーニングプロセスを洗練している。 セグメンテーションと検出タスクに関する大規模な実験は、ArSDMが生成したデータをベースライン法の性能を大幅に向上させることを示した。

Colonoscopy analysis, particularly automatic polyp segmentation and detection, is essential for assisting clinical diagnosis and treatment. However, as medical image annotation is labour- and resource-intensive, the scarcity of annotated data limits the effectiveness and generalization of existing methods. Although recent research has focused on data generation and augmentation to address this issue, the quality of the generated data remains a challenge, which limits the contribution to the performance of subsequent tasks. Inspired by the superiority of diffusion models in fitting data distributions and generating high-quality data, in this paper, we propose an Adaptive Refinement Semantic Diffusion Model (ArSDM) to generate colonoscopy images that benefit the downstream tasks. Specifically, ArSDM utilizes the ground-truth segmentation mask as a prior condition during training and adjusts the diffusion loss for each input according to the polyp/background size ratio. Furthermore, ArSDM incorporates a pre-trained segmentation model to refine the training process by reducing the difference between the ground-truth mask and the prediction mask. Extensive experiments on segmentation and detection tasks demonstrate the generated data by ArSDM could significantly boost the performance of baseline methods.
翻訳日:2023-09-06 21:21:52 公開日:2023-09-03
# 変形性関節症に対する音響-調音インバージョン:事前訓練による自己指導的表現は好ましいか?

Acoustic-to-articulatory inversion for dysarthric speech: Are pre-trained self-supervised representations favorable? ( http://arxiv.org/abs/2309.01108v1 )

ライセンス: Link先を確認
Sarthak Kumar Maharana, Krishna Kamal Adidam, Shoumik Nandi, Ajitesh Srivastava(参考訳) AAI (Acoustic-to-articatory inversion) は、音響空間から調音空間へマッピングする。 MFCCのような信号処理機能は、AAIタスクに広く使われている。 変形性発声者にとって、AAIは不正確で不明瞭な発音のため困難である。 本研究では,事前学習型自己教師付き学習(ssl)モデルを用いて,構音障害児のaaiを行う。 我々は、この挑戦的なAAIタスクに対する様々な事前訓練された機能の影響を、低リソース環境で実証する。 さらに、抽出したSSL機能にxベクトルを条件として、BLSTMネットワークをトレーニングする。 実例では、3つのAIトレーニングスキーム(オブジェクト固有、プール化、微調整)を実験する。 トレーニングスキーム全体で整合性があり、DeCoARは、微調整スキームにおいて、健康的なコントロールと患者に対してそれぞれ${\sim}$1.81\%と${\sim}$4.56\%でピアソン相関係数(CC)を相対的に改善することを明らかにする。 目に見えないケースでは、異なるSSL機能に対する同様の平均トレンドを観察します。 全体として、機能再構築や将来のタイムステップ予測タスクでトレーニングされたwav2vec、APC、DeCoARといったSSLネットワークは、関節の変形を予測できる。

$ $Acoustic-to-articulatory inversion (AAI) involves mapping from the acoustic space to the articulatory space. Signal-processing features like the MFCCs, have been widely used for the AAI task. For subjects with dysarthric speech, AAI is challenging because of an imprecise and indistinct pronunciation. In this work, we perform AAI for dysarthric speech using representations from pre-trained self-supervised learning (SSL) models. We demonstrate the impact of different pre-trained features on this challenging AAI task, at low-resource conditions. In addition, we also condition x-vectors to the extracted SSL features to train a BLSTM network. In the seen case, we experiment with three AAI training schemes (subject-specific, pooled, and fine-tuned). The results, consistent across training schemes, reveal that DeCoAR, in the fine-tuned scheme, achieves a relative improvement of the Pearson Correlation Coefficient (CC) by ${\sim}$1.81\% and ${\sim}$4.56\% for healthy controls and patients, respectively, over MFCCs. In the unseen case, we observe similar average trends for different SSL features. Overall, SSL networks like wav2vec, APC, and DeCoAR, which are trained with feature reconstruction or future timestep prediction tasks, perform well in predicting dysarthric articulatory trajectories.
翻訳日:2023-09-06 21:21:31 公開日:2023-09-03
# 数保存周期駆動p$-wave超伝導体における一般化マヨラナエッジモード

Generalized Majorana edge modes in a number-conserving periodically driven $p$-wave superconductor ( http://arxiv.org/abs/2309.01163v1 )

ライセンス: Link先を確認
Raditya Weda Bomantara(参考訳) 解析的かつ実験的に関連のある数保存型周期駆動の超伝導体であるp$-waveについて検討した。 このようなシステムは一般化された majorana 0 と $\pi$ モードをサポートしており、非エルミート型であるにもかかわらず、まだ qubit をエンコードできる。 さらに、そのような一般化マヨラナモードの位相を特徴付ける適切な巻数を定義し、明示的に計算する。 さらに、有限電荷エネルギーの存在下で得られた一般化マヨラナモードの運命について論じる。 最後に、エンコードされた量子ビットのロバスト性を示し、一般化されたマヨラナモードのペアを明示的にブレイディングすることで、そのようなモードの量子コンピューティングの展望に光を当てた。

We study an analytically solvable and experimentally relevant number-conserving periodically driven $p$-wave superconductor. Such a system is found to support generalized Majorana zero and $\pi$ modes which, despite being non-Hermitian, are still capable of encoding qubits. Moreover, appropriate winding numbers characterizing the topology of such generalized Majorana modes are defined and explicitly calculated. We further discuss the fate of the obtained generalized Majorana modes in the presence of finite charging energy. Finally, we shed light on the quantum computing prospects of such modes by demonstrating the robustness of their encoded qubits and explicitly braiding a pair of generalized Majorana modes.
翻訳日:2023-09-06 21:15:28 公開日:2023-09-03
# ハイブリッドイベントフレームカメラのための非同期線形フィルタアーキテクチャ

An Asynchronous Linear Filter Architecture for Hybrid Event-Frame Cameras ( http://arxiv.org/abs/2309.01159v1 )

ライセンス: Link先を確認
Ziwei Wang, Yonhon Ng, Cedric Scheerlinck and Robert Mahony(参考訳) イベントカメラは、ハイダイナミックレンジ(HDR)の視覚情報をぼやけずに捉えるのに理想的だが、静止画やゆっくりと変化するシーンの撮像能力は乏しい。 逆に、従来の画像センサは、ゆっくりと変化するシーンの絶対強度を効果的に測定するが、HDRや素早く変化するシーンでは不十分である。 本稿では,hdr映像再構成と空間畳み込みのために,イベントカメラとフレームカメラデータを融合した非同期線形フィルタアーキテクチャを提案する。 重要なアイデアは、統合された画像または畳み込み画像情報を直接エンコードし、カメラから各イベントまたは各フレームが到着すると非同期に更新する状態の導入である。 状態は、リアルタイムロボットシステムのための後続のビジョンモジュールにフィードするために必要な時に、そのまま読み取ることができる。 実験結果は、照明条件と高速動作に挑戦する公開データセットと、HDR参照を備えた新しいデータセットの両方で評価される。 提案するakfパイプラインは、絶対強度誤差(69.4%削減)と画像類似度指標(平均35.5%改善)の両方において、他の最先端手法を上回っている。 また,画像畳み込みと線形空間カーネルgaussian,sobel,laplacianの統合を,我々のアーキテクチャの応用として実証する。

Event cameras are ideally suited to capture High Dynamic Range (HDR) visual information without blur but provide poor imaging capability for static or slowly varying scenes. Conversely, conventional image sensors measure absolute intensity of slowly changing scenes effectively but do poorly on HDR or quickly changing scenes. In this paper, we present an asynchronous linear filter architecture, fusing event and frame camera data, for HDR video reconstruction and spatial convolution that exploits the advantages of both sensor modalities. The key idea is the introduction of a state that directly encodes the integrated or convolved image information and that is updated asynchronously as each event or each frame arrives from the camera. The state can be read-off as-often-as and whenever required to feed into subsequent vision modules for real-time robotic systems. Our experimental results are evaluated on both publicly available datasets with challenging lighting conditions and fast motions, along with a new dataset with HDR reference that we provide. The proposed AKF pipeline outperforms other state-of-the-art methods in both absolute intensity error (69.4% reduction) and image similarity indexes (average 35.5% improvement). We also demonstrate the integration of image convolution with linear spatial kernels Gaussian, Sobel, and Laplacian as an application of our architecture.
翻訳日:2023-09-06 21:15:16 公開日:2023-09-03
# 可変特徴を持つ正確なグラフ生成モデル

An Accurate Graph Generative Model with Tunable Features ( http://arxiv.org/abs/2309.01158v1 )

ライセンス: Link先を確認
Takahiro Yokoyama, Yoshiki Sato, Sho Tsugawa, Kohei Watabe(参考訳) グラフは非常に一般的で強力なデータ構造であり、コミュニケーションやソーシャルネットワークのモデリングに使われる。 任意の特徴を持つグラフを生成するモデルは、ネットワークの繰り返しシミュレーションやトポロジの変化の予測において重要な基礎技術である。 既存のグラフ生成モデルは実世界のグラフに似たグラフを提供するのに有用であるが、チューニング可能な特徴を持つグラフ生成モデルはこの分野ではあまり研究されていない。 これまで我々は,グラフデータセットの特徴の大部分を維持しつつ,生成したグラフの特定のグラフ特徴を継続的にチューニングするグラフ生成モデルであるGraphTuneを提案してきた。 しかし,graphtuneのグラフ特徴のチューニング精度は実用的応用には不十分である。 本稿では,生成したグラフの特徴の誤りをフィードバックする新たなメカニズムを追加し,それらを相互に独立にトレーニングすることで,GraphTuneの精度を向上させる手法を提案する。 実世界のグラフデータセットにおける実験は、生成されたグラフの特徴が従来のモデルと比較して正確に調整されていることを示した。

A graph is a very common and powerful data structure used for modeling communication and social networks. Models that generate graphs with arbitrary features are important basic technologies in repeated simulations of networks and prediction of topology changes. Although existing generative models for graphs are useful for providing graphs similar to real-world graphs, graph generation models with tunable features have been less explored in the field. Previously, we have proposed GraphTune, a generative model for graphs that continuously tune specific graph features of generated graphs while maintaining most of the features of a given graph dataset. However, the tuning accuracy of graph features in GraphTune has not been sufficient for practical applications. In this paper, we propose a method to improve the accuracy of GraphTune by adding a new mechanism to feed back errors of graph features of generated graphs and by training them alternately and independently. Experiments on a real-world graph dataset showed that the features in the generated graphs are accurately tuned compared with conventional models.
翻訳日:2023-09-06 21:14:50 公開日:2023-09-03
# ジェネレーティブレコメンデーションのための大規模言語モデル:調査と視覚的考察

Large Language Models for Generative Recommendation: A Survey and Visionary Discussions ( http://arxiv.org/abs/2309.01157v1 )

ライセンス: Link先を確認
Lei Li, Yongfeng Zhang, Dugang Liu, Li Chen(参考訳) 近年、様々な分野、特に自然言語処理やコンピュータビジョンにおいて、大きな言語モデル(LLM)が広く採用されているのを目撃している。 このような傾向はレコメンダシステム(rs)でも見られる。 しかしながら、ほとんどの関連する研究は、LLMを従来のレコメンデーションパイプライン(例えば、特徴抽出器)の構成要素として扱い、LLMの生成能力を十分に活用できない可能性がある。 このプロセスは、レコメンデーションプロセスをスコア計算や再ランクといった複数のステージに分離する代わりに、LCMで1つのステージに単純化することができる。 本調査は,llmに基づくジェネレーティブ・レコメンデーションの進捗状況,方法,今後の方向性を3つの質問から検討する。 1) 生成的勧告とは何か 2)なぜRSがジェネレーティブレコメンデーションに進むべきか,そして 3)様々なRSタスクに対するLLMに基づく生成レコメンデーションの実装方法。 この興味深い、新しいトピックを探求するのに必要な状況とガイダンスを提供できることを願っています。

Recent years have witnessed the wide adoption of large language models (LLM) in different fields, especially natural language processing and computer vision. Such a trend can also be observed in recommender systems (RS). However, most of related work treat LLM as a component of the conventional recommendation pipeline (e.g., as a feature extractor) which may not be able to fully leverage the generative power of LLM. Instead of separating the recommendation process into multiple stages such as score computation and re-ranking, this process can be simplified to one stage with LLM: directly generating recommendations from the complete pool of items. This survey reviews the progress, methods and future directions of LLM-based generative recommendation by examining three questions: 1) What generative recommendation is, 2) Why RS should advance to generative recommendation, and 3) How to implement LLM-based generative recommendation for various RS tasks. We hope that the survey can provide the context and guidance needed to explore this interesting and emerging topic.
翻訳日:2023-09-06 21:14:36 公開日:2023-09-03
# 格子量子色力学による機械学習に基づくサンプリングの進歩

Advances in machine-learning-based sampling motivated by lattice quantum chromodynamics ( http://arxiv.org/abs/2309.01156v1 )

ライセンス: Link先を確認
Kyle Cranmer, Gurtej Kanwar, S\'ebastien Racani\`ere, Danilo J. Rezende, Phiala E. Shanahan(参考訳) 既知の確率分布からのサンプリングは計算科学におけるユビキタスなタスクであり、言語学から生物学、物理学まで分野における基礎的な計算である。 生成機械学習(ML)モデルはこの分野において有望なツールとして登場し、画像、テキスト、オーディオ生成などのアプリケーションにおけるこのアプローチの成功に基づいて構築されている。 しかしながら、科学領域における生成タスクには、複雑な対称性や正確性保証の要件など、ユニークな構造と特徴があり、MLの課題と機会の両方を提示する。 この視点は、格子量子場理論、特に量子色力学の理論に動機付けられたmlに基づくサンプリングの進歩を概説する。 素粒子物理学の最も基本的な理解から物質の構造と相互作用の計算を可能にするため、格子量子色力学は世界中のオープンサイエンススーパーコンピューティングの主要な消費者の1つである。 このアプリケーションのためのMLアルゴリズムの設計は、最大規模のスーパーコンピュータにカスタムMLアーキテクチャをスケールする必要があるなど、重大な課題に直面している。 格子場理論において、もしこの手法が早期の約束を達成できれば、従来のアプローチで難解な粒子、核、凝縮物質物理学における第一原理物理学計算への転換段階となる。

Sampling from known probability distributions is a ubiquitous task in computational science, underlying calculations in domains from linguistics to biology and physics. Generative machine-learning (ML) models have emerged as a promising tool in this space, building on the success of this approach in applications such as image, text, and audio generation. Often, however, generative tasks in scientific domains have unique structures and features -- such as complex symmetries and the requirement of exactness guarantees -- that present both challenges and opportunities for ML. This Perspective outlines the advances in ML-based sampling motivated by lattice quantum field theory, in particular for the theory of quantum chromodynamics. Enabling calculations of the structure and interactions of matter from our most fundamental understanding of particle physics, lattice quantum chromodynamics is one of the main consumers of open-science supercomputing worldwide. The design of ML algorithms for this application faces profound challenges, including the necessity of scaling custom ML architectures to the largest supercomputers, but also promises immense benefits, and is spurring a wave of development in ML-based sampling more broadly. In lattice field theory, if this approach can realize its early promise it will be a transformative step towards first-principles physics calculations in particle, nuclear and condensed matter physics that are intractable with traditional approaches.
翻訳日:2023-09-06 21:14:20 公開日:2023-09-03
# LoGoPrompt:視覚言語モデルに最適な合成テキスト画像

LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models ( http://arxiv.org/abs/2309.01155v1 )

ライセンス: Link先を確認
Cheng Shi and Sibei Yang(参考訳) Prompt Engineeringは、下流タスクでトレーニング済みモデルのパフォーマンスを向上させるために使用される強力なツールである。 例えば、プロンプト ``Let's Think by Step" を提供することで、GPT-3の推論精度は MutiArith で63%向上し、クラス名で満たされた ``a photo of" によって、CLIP は ImageNet で 80$\% のゼロショット精度を達成できる。 従来の研究では、視覚的モダリティの迅速な学習が検討されているが、画像認識に特有な視覚的プロンプトを構成するものの分析は限られている。 さらに、既存のビジュアルプロンプトチューニングメソッドの一般化能力は、テキストのみのプロンプトチューニングよりも悪い。 合成テキスト画像は視覚言語モデルのための優れた視覚的プロンプトです! そこで本研究では,分類対象を視覚的プロンプト選択に再構成し,合成テキストイメージをクラスワイズな視覚的プロンプトとして,あるいはクラスファーストで予測するというニワトリとエッグの課題に対処するLoGoPromptを提案する。 トレーニング可能な視覚的プロンプトパラメータがなければ、16のデータセットの実験結果から、我々の手法は、数ショットの学習、ベース・ツー・ニュージェネリゼーション、ドメインの一般化において、常に最先端の手法より優れていることが示される。

Prompt engineering is a powerful tool used to enhance the performance of pre-trained models on downstream tasks. For example, providing the prompt ``Let's think step by step" improved GPT-3's reasoning accuracy to 63% on MutiArith while prompting ``a photo of" filled with a class name enables CLIP to achieve $80$\% zero-shot accuracy on ImageNet. While previous research has explored prompt learning for the visual modality, analyzing what constitutes a good visual prompt specifically for image recognition is limited. In addition, existing visual prompt tuning methods' generalization ability is worse than text-only prompting tuning. This paper explores our key insight: synthetic text images are good visual prompts for vision-language models! To achieve that, we propose our LoGoPrompt, which reformulates the classification objective to the visual prompt selection and addresses the chicken-and-egg challenge of first adding synthetic text images as class-wise visual prompts or predicting the class first. Without any trainable visual prompt parameters, experimental results on 16 datasets demonstrate that our method consistently outperforms state-of-the-art methods in few-shot learning, base-to-new generalization, and domain generalization.
翻訳日:2023-09-06 21:13:59 公開日:2023-09-03
# EdaDet: 初期密度アライメントを用いた開語彙オブジェクト検出

EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment ( http://arxiv.org/abs/2309.01151v1 )

ライセンス: Link先を確認
Cheng Shi and Sibei Yang(参考訳) CLIPのような視覚言語モデルにより、オープン語彙オブジェクト検出の性能が向上し、検出器はベースカテゴリに基づいて訓練されるが、新しいカテゴリを検出する必要がある。 既存の手法では、CLIPの強力なゼロショット認識機能を利用して、オブジェクトレベルの埋め込みとカテゴリのテキスト埋め込みを整列する。 しかし、CLIPをオブジェクトレベルのアライメントに使用すると、ベースカテゴリに過度に適合する、すなわち、ベースカテゴリに最もよく似た新しいカテゴリは、類似したベースカテゴリとして認識されるため、特に性能が劣っている。 本稿では,まず,重要な局所画像意味論の欠如が,従来の手法が強大なベース・ツー・ノーベル一般化を実現するのを妨げていることを確かめる。 そこで我々は,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,Early Dense Alignment (EDA)を提案する。 EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。 大規模な実験では、同じ厳密な条件下で、外部のトレーニングリソースを使わずに、COCOの+8.4%の新規AP50とLVISの+3.9%のレアマスクAPを改善した。

Vision-language models such as CLIP have boosted the performance of open-vocabulary object detection, where the detector is trained on base categories but required to detect novel categories. Existing methods leverage CLIP's strong zero-shot recognition ability to align object-level embeddings with textual embeddings of categories. However, we observe that using CLIP for object-level alignment results in overfitting to base categories, i.e., novel categories most similar to base categories have particularly poor performance as they are recognized as similar base categories. In this paper, we first identify that the loss of critical fine-grained local image semantics hinders existing methods from attaining strong base-to-novel generalization. Then, we propose Early Dense Alignment (EDA) to bridge the gap between generalizable local semantics and object-level prediction. In EDA, we use object-level supervision to learn the dense-level rather than object-level alignment to maintain the local fine-grained semantics. Extensive experiments demonstrate our superior performance to competing approaches under the same strict setting and without using external training resources, i.e., improving the +8.4% novel box AP50 on COCO and +3.9% rare mask AP on LVIS.
翻訳日:2023-09-06 21:13:29 公開日:2023-09-03
# FedFwd: バックプロパゲーションなしのフェデレーション学習

FedFwd: Federated Learning without Backpropagation ( http://arxiv.org/abs/2309.01150v1 )

ライセンス: Link先を確認
Seonghwan Park, Dahun Shin, Jinseok Chung, Namhoon Lee(参考訳) フェデレーション学習(fl)では、限られたリソースを持つクライアントがトレーニング効率を損なう可能性がある。 この問題の潜在的な解決策は、バックプロパゲーション(BP)に依存しない新しい学習手順を活用することである。 本稿では,Hinton (2022)による最近のBPフリー手法であるFedFwd(FedFwd)を局所的なトレーニングプロセスにおいて適用したFLに対する新しいアプローチを提案する。 fedfwdは、レイヤ毎のローカル更新を行うことで、パラメータ更新のためのかなりの計算量を削減することができるため、トレーニング中にすべての中間アクティベーション値を格納する必要はない。 我々は,MNISTやCIFAR-10などの標準データセット上でFedFwdを評価するための様々な実験を行い,他のBP依存FL法と競合して動作することを示す。

In federated learning (FL), clients with limited resources can disrupt the training efficiency. A potential solution to this problem is to leverage a new learning procedure that does not rely on backpropagation (BP). We present a novel approach to FL called FedFwd that employs a recent BP-free method by Hinton (2022), namely the Forward Forward algorithm, in the local training process. FedFwd can reduce a significant amount of computations for updating parameters by performing layer-wise local updates, and therefore, there is no need to store all intermediate activation values during training. We conduct various experiments to evaluate FedFwd on standard datasets including MNIST and CIFAR-10, and show that it works competitively to other BP-dependent FL methods.
翻訳日:2023-09-06 21:13:04 公開日:2023-09-03
# VGDiffZero:テキストと画像の拡散モデルはゼロショットのビジュアルグラウンド

VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders ( http://arxiv.org/abs/2309.01141v1 )

ライセンス: Link先を確認
Xuyang Liu, Siteng Huang, Yachen Kang, Honggang Chen, Donglin Wang(参考訳) 大規模テキスト・画像拡散モデルでは、事前学習によって得られる強い視覚言語アライメントによって、様々な生成タスクにおいて印象的な能力を示す。 しかし、視覚言語識別タスクの多くは、時間と計算リソースに大きなコストをかけて、そのようなアライメントを得るために注意深くラベルされたデータセットを広範囲に微調整する必要がある。 本研究では,事前学習した生成拡散モデルを直接,微調整や追加の訓練データセットを使わずに視覚的接地を識別する難しいタスクに適用することを検討する。 具体的には,テキストから画像への拡散モデルに基づく,単純かつ効果的なゼロショット視覚接地フレームワークであるvgdiffzeroを提案する。 また,各提案のグローバルコンテキストとローカルコンテキストの両方を考慮した包括的領域スケーリング手法を設計する。 RefCOCO、RefCOCO+、RefCOCOgの大規模な実験は、VGDiffZeroがゼロショットの視覚的グラウンドで強いパフォーマンスを達成することを示している。

Large-scale text-to-image diffusion models have shown impressive capabilities across various generative tasks, enabled by strong vision-language alignment obtained through pre-training. However, most vision-language discriminative tasks require extensive fine-tuning on carefully-labeled datasets to acquire such alignment, with great cost in time and computing resources. In this work, we explore directly applying a pre-trained generative diffusion model to the challenging discriminative task of visual grounding without any fine-tuning and additional training dataset. Specifically, we propose VGDiffZero, a simple yet effective zero-shot visual grounding framework based on text-to-image diffusion models. We also design a comprehensive region-scoring method considering both global and local contexts of each isolated proposal. Extensive experiments on RefCOCO, RefCOCO+, and RefCOCOg show that VGDiffZero achieves strong performance on zero-shot visual grounding.
翻訳日:2023-09-06 21:12:48 公開日:2023-09-03
# 解釈可能なシーケンスクラスタリング

Interpretable Sequence Clustering ( http://arxiv.org/abs/2309.01140v1 )

ライセンス: Link先を確認
Junjie Dong, Xinyi Yang, Mudi Jiang, Lianyu Hu and Zengyou He(参考訳) カテゴリー列クラスタリングは様々な分野において重要な役割を果たすが、クラスタ割り当てにおける解釈可能性の欠如は大きな課題となっている。 シーケンスは本質的に明示的な特徴を欠き、既存のシーケンスクラスタリングアルゴリズムは複雑な表現に大きく依存しているため、結果の説明は困難である。 この問題に対処するために、逐次パターンと簡潔かつ解釈可能なツリー構造を組み合わせたISCT(Interpretable Sequence Clustering Tree)という手法を提案する。 ISCTはk-1パターンを利用してkクラスタに対応するk個の葉ノードを生成する。 より正確には、ISCTはまず列をランダムな部分空間に投影し、次にk-meansアルゴリズムを用いて高品質な初期クラスタ割り当てを得る。 その後、各ノードにシーケンスを再投影して再クラスタ化し、トップ1識別分割パターンをマイニングするブースティングベースの構築戦略を用いて、パターンベースの決定木を構築する。 実世界の14のデータセットに対する実験結果から,提案手法は高速かつ正確なクラスタ割り当てを行いながら,解釈可能なツリー構造を提供することを示した。

Categorical sequence clustering plays a crucial role in various fields, but the lack of interpretability in cluster assignments poses significant challenges. Sequences inherently lack explicit features, and existing sequence clustering algorithms heavily rely on complex representations, making it difficult to explain their results. To address this issue, we propose a method called Interpretable Sequence Clustering Tree (ISCT), which combines sequential patterns with a concise and interpretable tree structure. ISCT leverages k-1 patterns to generate k leaf nodes, corresponding to k clusters, which provides an intuitive explanation on how each cluster is formed. More precisely, ISCT first projects sequences into random subspaces and then utilizes the k-means algorithm to obtain high-quality initial cluster assignments. Subsequently, it constructs a pattern-based decision tree using a boosting-based construction strategy in which sequences are re-projected and re-clustered at each node before mining the top-1 discriminative splitting pattern. Experimental results on 14 real-world data sets demonstrate that our proposed method provides an interpretable tree structure while delivering fast and accurate cluster assignments.
翻訳日:2023-09-06 21:12:32 公開日:2023-09-03
# 偏光エンタングル量子周波数コム

Polarization-entangled quantum frequency comb ( http://arxiv.org/abs/2309.01181v1 )

ライセンス: Link先を確認
Wenjun Wen, Wenhan Yan, Chi Lu, Liangliang Lu, Xiaoyu Wu, Yanqing Lu, Shining Zhu, Xiao-song Ma(参考訳) 集積マイクロ共鳴器は量子周波数コム(qfc)の実現を促進し、広帯域のスペクトル範囲と狭い線幅を持つ多数の離散周波数モードを提供する。 しかしながら、これまでの全てのデモンストレーションは、qfcからのエネルギー時間または時間ビンの絡み合った光子の生成に焦点を当てている。 量子力学と量子情報応用の基礎研究のための重要な資源である分極共役量子周波数コムの実現は依然として困難である。 そこで,本研究では,窒化ケイ素マイクロ共振器とサニャック干渉計を組み合わせることで,広帯域偏波エンタングル量子周波数コムを初めて実証する。 約99 GHzのスペクトル範囲と190 MHzの幅の狭い光子対が22 個の分極共役光子対と、全通信Cバンドをカバーする周波数を提供する。 全22対の絡み合い係数は81%以上であり、うち17対は90%以上である。 本実験は、cmos技術と標準高密度波長分割多重化技術を用いた量子ネットワークにおける分極エンタングル量子周波数コムの活用方法を示す。

Integrated micro-resonator facilitates the realization of quantum frequency comb (QFC), which provides a large number of discrete frequency modes with broadband spectral range and narrow linewidth. However, all previous demonstrations have focused on the generation of energy-time or time-bin entangled photons from QFC. Realizing polarization-entangled quantum frequency comb, which is the important resource for fundamental study of quantum mechanics and quantum information applications, remains challenging. Here, we demonstrate, for the first time, a broadband polarization-entangled quantum frequency comb by combining an integrated silicon nitride micro-resonator with a Sagnac interferometer. With a free spectral range of about 99 GHz and a narrow linewidth of about 190 MHz, our source provides 22 polarization entangled photons pairs with frequency covering the whole telecom C-band. The entanglement fidelities for all 22 pairs are above 81%, including 17 pairs with fidelities higher than 90%. Our demonstration paves the way for employing the polarization-entangled quantum frequency comb in quantum network using CMOS technology as well as standard dense wavelength division multiplexing technology.
翻訳日:2023-09-06 21:03:27 公開日:2023-09-03
# 知識トレースのための認知モードを考慮した変分表現学習フレームワーク

Cognition-Mode Aware Variational Representation Learning Framework for Knowledge Tracing ( http://arxiv.org/abs/2309.01179v1 )

ライセンス: Link先を確認
Moyu Zhang, Xinning Zhu, Chunhong Zhang, Feng Pan, Wenchen Qian, and Hui Zhao(参考訳) ナレッジ・トレーシング(KT)タスクは、個人化学習において重要な役割を担い、その歴史的実践行動シーケンスに基づいて学生の反応を予測することを目的とする。 しかし、KTタスクはデータの分散に悩まされており、実践記録が少ない学生の堅牢な表現を学習することは困難であり、モデルオーバーフィットのリスクを増大させる。 そこで本稿では,既存のKT手法に直接適用可能なCMVF(Cognition-Mode Aware Variational Representation Learning Framework)を提案する。 提案手法では,確率モデルを用いて各学生の分布を推定し,練習記録が限られている生徒の不確かさを計算し,変分推論 (vi) により学生の分布を推定する。 また,学習履歴の少ない生徒の圧倒的なパーソナライゼーションを回避し,類似の認知モードを持つ生徒が同様の分布を持つことを保証するために,後生分布を制約する事前知識として認知モード認識多分野分布を導入する。 最後に、CMVFが既存のKT手法を効果的に支援し、より堅牢な学生表現を学習できることを確認する。 私たちのコードはhttps://github.com/zmy-9/cmvfで利用可能です。

The Knowledge Tracing (KT) task plays a crucial role in personalized learning, and its purpose is to predict student responses based on their historical practice behavior sequence. However, the KT task suffers from data sparsity, which makes it challenging to learn robust representations for students with few practice records and increases the risk of model overfitting. Therefore, in this paper, we propose a Cognition-Mode Aware Variational Representation Learning Framework (CMVF) that can be directly applied to existing KT methods. Our framework uses a probabilistic model to generate a distribution for each student, accounting for uncertainty in those with limited practice records, and estimate the student's distribution via variational inference (VI). In addition, we also introduce a cognition-mode aware multinomial distribution as prior knowledge that constrains the posterior student distributions learning, so as to ensure that students with similar cognition modes have similar distributions, avoiding overwhelming personalization for students with few practice records. At last, extensive experimental results confirm that CMVF can effectively aid existing KT methods in learning more robust student representations. Our code is available at https://github.com/zmy-9/CMVF.
翻訳日:2023-09-06 21:03:08 公開日:2023-09-03
# 時間依存ハミルトニアンによるエネルギー遷移密度

Energy transition densities driven by time-dependent Hamiltonians ( http://arxiv.org/abs/2309.01178v1 )

ライセンス: Link先を確認
Alfredo M. Ozorio de Almeida(参考訳) 最近の論文の列におけるエネルギー遷移確率密度の半古典的近似は、遷移を駆動した全ユニタリ作用素と、駆動された古典ハミルトンの軌道に依存する。 これらはいずれも時間に依存しなくても一般のハミルトニアンによって生成される遷移に対して明示的に与えられず、突然の遷移が推測された。 この理論は、任意の駆動ハミルトニアンに対して一般化され、4つの進化と原ハミルトニアンが生成する対と駆動ハミルトニアンが生成する対を組み合わせた複素ユニタリ作用素に基礎を置いている。 支える古典構造は再び閉じた化合物軌道のものであるが、現在ではこれらは量子進化に対応する4つの軌道セグメントで構成されている。 複雑さが増しても、すべての軌道セグメントは、前もって知られているハミルトニアンによって生成される。 一対のエネルギーの変動に関して、スムーズな古典的背景に対する位相空間積分は、以前の論文から保存されている。 遷移密度の量子振動は、半古典的化合物ユニタリ作用素のトレース上の二重フーリエ積分の定常位相近似によって再び生じる。 現在では2つではなく4つの進化を組み合わせるが、振動の位相は駆動ハミルトニアンが知られている場合の前の結果と一致する。

The semiclassical approximation for the energy transition probability density in a recent sequence of papers depends on the full unitary operator that has driven the transition and on the trajectories of the driven classical Hamiltonian. Neither of these is explicitly given for a transition generated by a general Hamiltonian, even if it is time-independent, so that a sudden transition was presumed. The theory is here generalized for arbitrary driving Hamiltonians, by basing it on a compound unitary operator that combines four evolutions, a pair generated by the original Hamiltonian and a pair generated by the driving Hamiltonian. The supporting classical structure is again that of closed compound orbits, but now these are composed of four trajectory segments, corresponding to the quantum evolutions. Notwithstanding the increased complexity, all underlying trajectory segments are then generated by Hamiltonians that are known a priory. The phase space integral for the smooth classical background, with respect to variations of the pair of energies, is preserved from the previous papers. The quantum oscillations of the transition density again result from the stationary phase approximation of a double Fourier integral over the trace of the semiclassical compound unitary operator. Even though it now combines four evolutions instead of two, the phases of the oscillations agree with the previous results if the driven Hamiltonian is known.
翻訳日:2023-09-06 21:02:45 公開日:2023-09-03
# 主観的確率の論理

Logic of subjective probability ( http://arxiv.org/abs/2309.01173v1 )

ライセンス: Link先を確認
Vladimir Vovk(参考訳) 本稿では主観的確率の構文と意味論について論じる。 意味論は確率ステートメントをテストする方法を決定する。 主観的確率には、主観的確率(intersubjective probability)と非個人的確率(impersonal probabilities)があり、よくテストされた不個人的確率は、客観的な確率の特徴を得る。 ジェフリーズの法則は、私の次のトピックであり、2つの成功した確率予測者は互いに近い予測を発行しなければなりません。 最後に,主観的確率と頻度的確率の関係について論じる。

In this paper I discuss both syntax and semantics of subjective probability. The semantics determines ways of testing probability statements. Among important varieties of subjective probabilities are intersubjective probabilities and impersonal probabilities, and I will argue that well-tested impersonal probabilities acquire features of objective probabilities. Jeffreys's law, my next topic, states that two successful probability forecasters must issue forecasts that are close to each other, thus supporting the idea of objective probabilities. Finally, I will discuss connections between subjective and frequentist probability.
翻訳日:2023-09-06 21:02:23 公開日:2023-09-03
# FusionAI: 大規模コンシューマレベルGPUによる分散トレーニングとデプロイメント

FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs ( http://arxiv.org/abs/2309.01172v1 )

ライセンス: Link先を確認
Zhenheng Tang, Yuxin Wang, Xin He, Longteng Zhang, Xinglin Pan, Qiang Wang, Rongfei Zeng, Kaiyong Zhao, Shaohuai Shi, Bingsheng He, Xiaowen Chu(参考訳) 大規模言語モデル(LLM)のメモリと計算要求の急速な増加は、ハードウェアの開発を上回り、LLMのトレーニングやデプロイから大規模ハイエンドGPUを欠いている人々を妨げる。 しかし、市場シェアが大きいコンシューマレベルのgpuは、計算性能の低下、ストレージ容量の縮小、通信帯域の低減などによりllmでは見過ごされがちである。 さらに、リモートLLMと対話する際には、プライバシ上の懸念がある可能性がある。 本稿では,プライバシ保護によるLCMの事前学習,推論,微調整において,潜在的に未完成なコンシューマレベルのGPUをアンロックする分散システムを提案する。 しかし、このシステムはCPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの不均一性の変動など、重要な課題に直面している。 これらの課題に対処するために、システム設計は以下のとおりである。 1) コンピュータプロバイダの動的結合及び停止を実装するためのバックアッププール付きブローカー 2) システム効率を向上させるためのハードウェア性能によるタスクスケジューリング 3)MLプロシージャをDAGに抽象化し,モデル及びタスク普遍性を達成する。 4) 中間表現と実行プレーンを抽象化して、さまざまなデバイスとディープラーニング(DL)フレームワークの互換性を確保する。 性能分析の結果,50 RTX 3080 GPU は 4 の H100 GPU に匹敵するスループットを達成できることがわかった。

The rapid growth of memory and computation requirements of large language models (LLMs) has outpaced the development of hardware, hindering people who lack large-scale high-end GPUs from training or deploying LLMs. However, consumer-level GPUs, which constitute a larger market share, are typically overlooked in LLM due to their weaker computing performance, smaller storage capacity, and lower communication bandwidth. Additionally, users may have privacy concerns when interacting with remote LLMs. In this paper, we envision a decentralized system unlocking the potential vast untapped consumer-level GPUs in pre-training, inference and fine-tuning of LLMs with privacy protection. However, this system faces critical challenges, including limited CPU and GPU memory, low network bandwidth, the variability of peer and device heterogeneity. To address these challenges, our system design incorporates: 1) a broker with backup pool to implement dynamic join and quit of computing providers; 2) task scheduling with hardware performance to improve system efficiency; 3) abstracting ML procedures into directed acyclic graphs (DAGs) to achieve model and task universality; 4) abstracting intermediate represention and execution planes to ensure compatibility of various devices and deep learning (DL) frameworks. Our performance analysis demonstrates that 50 RTX 3080 GPUs can achieve throughputs comparable to those of 4 H100 GPUs, which are significantly more expensive.
翻訳日:2023-09-06 21:02:13 公開日:2023-09-03
# マルチコントラストMRI超解像・再構成のための深部展開畳み込み辞書モデル

Deep Unfolding Convolutional Dictionary Model for Multi-Contrast MRI Super-resolution and Reconstruction ( http://arxiv.org/abs/2309.01171v1 )

ライセンス: Link先を確認
Pengcheng Lei, Faming Fang, Guixu Zhang and Ming Xu(参考訳) 磁気共鳴イメージング(MRI)タスクは、しばしば複数のコントラストを含む。 近年,マルチコントラスト画像からの補完情報を探索するために,多くの深層学習に基づくマルチコントラストMRI超解像(SR)と再構成手法が提案されている。 しかし、これらの手法はパラメータ共有ネットワークを構築するか、あるいは融合ルールを手動で設計するか、マルチコントラスト画像間の相関を正確にモデル化できず、特定の解釈を欠いている。 本稿では,データ忠実度項を用いた最適化アルゴリズムの指導の下で,マルチコントラスト畳み込み辞書(MC-CDic)モデルを提案する。 具体的には,マルチコントラストmr画像の観測モデルを膨らませ,マルチコントラスト画像の共通特徴と特徴を明示的にモデル化する。 このようにして、参照画像中の有用な情報のみを対象画像に転送でき、一貫性のない情報を無視することができる。 我々は近位勾配アルゴリズムを用いてモデルを最適化し,反復ステップを深いccdモデルに展開する。 特に近位演算子は学習可能なresnetに置き換えられる。 さらに,モデル性能をさらに向上させるために,マルチスケール辞書が導入された。 マルチコントラストMRI SRと再構成タスクでMC-CDicモデルをテストする。 実験の結果,既存のSOTA法に対するMC-CDicモデルの有効性が示された。 コードはhttps://github.com/lpcccc-cv/mc-cdicで入手できる。

Magnetic resonance imaging (MRI) tasks often involve multiple contrasts. Recently, numerous deep learning-based multi-contrast MRI super-resolution (SR) and reconstruction methods have been proposed to explore the complementary information from the multi-contrast images. However, these methods either construct parameter-sharing networks or manually design fusion rules, failing to accurately model the correlations between multi-contrast images and lacking certain interpretations. In this paper, we propose a multi-contrast convolutional dictionary (MC-CDic) model under the guidance of the optimization algorithm with a well-designed data fidelity term. Specifically, we bulid an observation model for the multi-contrast MR images to explicitly model the multi-contrast images as common features and unique features. In this way, only the useful information in the reference image can be transferred to the target image, while the inconsistent information will be ignored. We employ the proximal gradient algorithm to optimize the model and unroll the iterative steps into a deep CDic model. Especially, the proximal operators are replaced by learnable ResNet. In addition, multi-scale dictionaries are introduced to further improve the model performance. We test our MC-CDic model on multi-contrast MRI SR and reconstruction tasks. Experimental results demonstrate the superior performance of the proposed MC-CDic model against existing SOTA methods. Code is available at https://github.com/lpcccc-cv/MC-CDic.
翻訳日:2023-09-06 21:01:52 公開日:2023-09-03
# マルチモーダル知識グラフによるエンドツーエンド学習

End-to-End Learning on Multimodal Knowledge Graphs ( http://arxiv.org/abs/2309.01169v1 )

ライセンス: Link先を確認
W. X. Wilcke, P. Bloem, V. de Boer, R. H. van t Veer(参考訳) 知識グラフは、データサイエンティストが異質な知識をエンドツーエンドで学習することを可能にする。 しかし、ほとんどのエンドツーエンドモデルは、グラフの構造に符号化された関係情報からのみ学習する:生の値はリテラルノードとして符号化され、その値を考慮して完全に省略されるか、正規ノードとして扱われる。 いずれの場合も、学習方法によって悪用された可能性のある潜在的な関連情報が失われます。 本稿では,グラフ構造からエンドツーエンドを学習するだけでなく,多モーダルノードの機能セットから多モーダルメッセージパッシングネットワークを提案する。 本モデルでは, 数値, テキスト, 日付, 画像, ジオメトリを含む5種類のノード特徴の埋め込みを, 関係情報とともに共同表現空間に投影する専用(神経)エンコーダを用いて自然に学習する。 実世界のデータセットに対するノード分類とリンク予測のモデルの実装と実証を行い、逆アブレーション研究において各モードが全体的な性能に与える影響を評価する。 その結果,任意の知識グラフからエンド・ツー・エンドのマルチモーダル学習が可能であり,マルチモーダル情報を含むことは性能に大きく影響するが,その特性に大きく依存することが示された。

Knowledge graphs enable data scientists to learn end-to-end on heterogeneous knowledge. However, most end-to-end models solely learn from the relational information encoded in graphs' structure: raw values, encoded as literal nodes, are either omitted completely or treated as regular nodes without consideration for their values. In either case we lose potentially relevant information which could have otherwise been exploited by our learning methods. We propose a multimodal message passing network which not only learns end-to-end from the structure of graphs, but also from their possibly divers set of multimodal node features. Our model uses dedicated (neural) encoders to naturally learn embeddings for node features belonging to five different types of modalities, including numbers, texts, dates, images and geometries, which are projected into a joint representation space together with their relational information. We implement and demonstrate our model on node classification and link prediction for artificial and real-worlds datasets, and evaluate the effect that each modality has on the overall performance in an inverse ablation study. Our results indicate that end-to-end multimodal learning from any arbitrary knowledge graph is indeed possible, and that including multimodal information can significantly affect performance, but that much depends on the characteristics of the data.
翻訳日:2023-09-06 21:01:32 公開日:2023-09-03
# 様々なランダムテンソル上のテンソルネットワークのシンボリック統合 -Python RTNIの第2版-

Symbolically integrating tensor networks over various random tensors -- the second version of Python RTNI ( http://arxiv.org/abs/2309.01167v1 )

ライセンス: Link先を確認
Motohisa Fukuda(参考訳) 我々は、Haar分散ユニタリ行列上のテンソルネットワークを象徴的に統合するRTNIのPythonバージョンをアップグレードしている。 現在、RTNI2 はハール分布直交行列と実かつ複素正規ガウステンソルも扱うことができる。 さらに、テンソルネットワークをテンソルネットワークの形式でエクスポートすることで、低次元でも具体的なテンソルでさらなる計算を行うことができる。 チュートリアルノートブックはgithubにある。 https://github.com/motohisafukuda/rtni2。 本稿では,プログラムの背後にある数学を説明し,それを用いてどのようなテンソルネットワーク計算ができるかを示す。 前者については、上述のランダム行列とテンソルの要素的モーメント計算をテンソルネットワークダイアグラムで解釈し、このビューは自然であり、テンソルネットワークダイアグラム内のデルタ関数をテンソルネットワークダイアグラムのエッジに関連付けていると主張する。

We are upgrading the Python-version of RTNI, which symbolically integrates tensor networks over the Haar-distributed unitary matrices. Now, RTNI2 can treat the Haar-distributed orthogonal matrices and the real and complex normal Gaussian tensors as well. Moreover, it can export tensor networks in the format of TensorNetwork so that one can make further calculations with concrete tensors, even for low dimensions, where the Weingarten functions differ from the ones for high dimensions. The tutorial notebooks are found at GitHub: https://github.com/MotohisaFukuda/RTNI2. In this paper, we explain maths behind the program and show what kind of tensor network calculations can be made with it. For the former, we interpret the element-wise moment calculus of the above random matrices and tensors in terms of tensor network diagrams, and argue that the view is natural, relating delta functions in the calculus to edges in tensor network diagrams.
翻訳日:2023-09-06 21:01:08 公開日:2023-09-03
# 時空間車両再識別

Spatial-temporal Vehicle Re-identification ( http://arxiv.org/abs/2309.01166v1 )

ライセンス: Link先を確認
Hye-Geun Kim, YouKyoung Na, Hae-Won Joe, Yong-Hyuk Moon, Yeong-Jun Cho(参考訳) 大規模カメラネットワークにおける車両再識別(ReID)は、公共安全、交通制御、セキュリティにおいて重要である。 しかし、車両の外観の曖昧さのため、従来の外観に基づくReID方式は複数のカメラで車両を追跡することができないことが多い。 この課題を克服するために,適応型Parzenウインドウ法に基づいて信頼性の高いカメラネットワークトポロジを推定し,融合ネットワークによる外観と空間的類似性を最適に組み合わせた空間時空間車両ReIDフレームワークを提案する。 提案手法に基づいて,公開データセット(VeRi776)において,ランク1の精度の99.64%向上した。 実験結果は,reidの空間的情報と時間的情報を活用することで,外観に基づく手法の精度を活用し,外観の曖昧さを効果的に処理できることを示す。

Vehicle re-identification (ReID) in a large-scale camera network is important in public safety, traffic control, and security. However, due to the appearance ambiguities of vehicle, the previous appearance-based ReID methods often fail to track vehicle across multiple cameras. To overcome the challenge, we propose a spatial-temporal vehicle ReID framework that estimates reliable camera network topology based on the adaptive Parzen window method and optimally combines the appearance and spatial-temporal similarities through the fusion network. Based on the proposed methods, we performed superior performance on the public dataset (VeRi776) by 99.64% of rank-1 accuracy. The experimental results support that utilizing spatial and temporal information for ReID can leverage the accuracy of appearance-based methods and effectively deal with appearance ambiguities.
翻訳日:2023-09-06 21:00:50 公開日:2023-09-03
# 音声強調に適応した信号対雑音比を用いた雑音ロバスト音声感情認識

Noise robust speech emotion recognition with signal-to-noise ratio adapting speech enhancement ( http://arxiv.org/abs/2309.01164v1 )

ライセンス: Link先を確認
Yu-Wen Chen, Julia Hirschberg, Yu Tsao(参考訳) 音声感情認識(SER)はしばしば背景雑音による性能低下を経験する。 さらに,背景雑音のみによる信号の予測は,ユーザの信頼を損なう可能性がある。 本研究では,雑音にロバストな音声認識システムであるnrserを提案する。 NRSERは音声強調(SE)を用いて入力信号の雑音を効果的に低減する。 次に、信号対雑音比(SNR)レベルの検出構造と波形再構成戦略を導入し、背景雑音の少ない音声信号に対するSEの負の影響を低減する。 実験の結果,NRSERは背景雑音のみからなる信号に対する感情認識の防止など,SERシステムの雑音堅牢性を効果的に向上できることがわかった。 さらに,提案したSNRレベルの検出構造は,データ選択などのタスクに対して個別に使用することができる。

Speech emotion recognition (SER) often experiences reduced performance due to background noise. In addition, making a prediction on signals with only background noise could undermine user trust in the system. In this study, we propose a Noise Robust Speech Emotion Recognition system, NRSER. NRSER employs speech enhancement (SE) to effectively reduce the noise in input signals. Then, the signal-to-noise-ratio (SNR)-level detection structure and waveform reconstitution strategy are introduced to reduce the negative impact of SE on speech signals with no or little background noise. Our experimental results show that NRSER can effectively improve the noise robustness of the SER system, including preventing the system from making emotion recognition on signals consisting solely of background noise. Moreover, the proposed SNR-level detection structure can be used individually for tasks such as data selection.
翻訳日:2023-09-06 21:00:36 公開日:2023-09-03
# quantum tapsilou - ギリシャの伝統的なコイン投げゲームtapsilouにインスパイアされた量子ゲーム

Quantum Tapsilou -- a quantum game inspired from the traditional Greek coin tossing game tapsilou ( http://arxiv.org/abs/2309.01217v1 )

ライセンス: Link先を確認
Kalliopi Kastampolidou and Theodore Andronikos(参考訳) 本稿では,古典ギリシアのコイン投げゲームタプシルーに触発された量子ゲームQuantum Tapsilouを紹介する。 新しい量子ゲームはその複雑さとスコープが増大しているにもかかわらず、伝統的なゲームの重要な特徴、すなわち公平さを保っている。 古典ゲームでは、どちらのプレイヤーも$\frac { 1 } { 4 }$の確率で勝利する。 量子バージョンでは、双方のプレイヤーが同じ確率で勝利するが、今や勝利の確率は以前の選択によって大きく異なる。 量子タップシロウの2つの最も重要な新奇性は、不等な確率振幅を持つベル状状態を生成するアダマールゲートの代わりに回転ゲートを用いることによる絡み合いの実装と、グループの積分的利用に起因している。 量子タプシルーでは、両方のプレイヤーは位数$n$の特定の巡回回転群について合意するが、これはゲームがベースとなる群である十分大きな$n$に対して、どちらのプレイヤーも対応する$R_{ y }$回転ゲートを用いてその作用を実現するためにこのグループから回転を選択する。 この事実は、両方のプレイヤーが同じグループから動きを引く対称量子ゲームが公平であることを示す文献の以前の結果に従っている。

This paper introduces a new quantum game called Quantum Tapsilou that is inspired from the classical traditional Greek coin tossing game tapsilou. The new quantum game, despite its increased complexity and scope, retains the crucial characteristic of the traditional game, namely that of fairness. In the classical game, both players have $\frac { 1 } { 4 }$ probability to win. In its quantum version, both players have equal chances to win too, but now the probability to win varies considerably, depending on previous choices. The two most important novelties of Quantum Tapsilou can be attributed to its implementation of entanglement via the use of rotation gates instead of Hadamard gates, which generates Bell-like states with unequal probability amplitudes, and the integral use of groups. In Quantum Tapsilou both players agree on a specific cyclic rotation group of order $n$, for some sufficiently large $n$, which is the group upon which the game will be based, in the sense both players will pick rotations from this group to realize their actions using the corresponding $R_{ y }$ rotation gates. This fact is in accordance with a previous result in the literature showing that symmetric quantum games, where both players draw their moves from the same group, are fair.
翻訳日:2023-09-06 20:56:12 公開日:2023-09-03
# 神経odeに対する深層残留ネットワークの暗黙的規則化

Implicit regularization of deep residual networks towards neural ODEs ( http://arxiv.org/abs/2309.01213v1 )

ライセンス: Link先を確認
Pierre Marion, Yu-Han Wu, Michael E. Sander, G\'erard Biau(参考訳) 残留ニューラルネットワークは最先端のディープラーニングモデルである。 その連続深度アナログであるニューラル常微分方程式(ODE)も広く用いられている。 それらの成功にもかかわらず、離散モデルと連続モデルの間の関係は未だに堅実な数学的基礎を欠いている。 本稿では,勾配流を訓練した非線形ネットワークに対して,ニューラルネットワークに対するディープ残差ネットワークの暗黙的な正規化を確立することにより,この方向への一歩を踏み出す。 ネットワークがニューラルなODEの離散化として初期化されている場合、そのような離散化はトレーニングを通して維持されることを示す。 また,ネットワークがpolyak-lojasiewicz条件を満たすことを条件として,トレーニング時間が無限大になりがちである。 重要なことに、この条件は、残差が2層パーセプトロンであり、幅は線形であり、勾配流が大域的な最小値に収束することを意味する残差ネットワークの族に対して成り立つ。 数値実験で結果が分かる。

Residual neural networks are state-of-the-art deep learning models. Their continuous-depth analog, neural ordinary differential equations (ODEs), are also widely used. Despite their success, the link between the discrete and continuous models still lacks a solid mathematical foundation. In this article, we take a step in this direction by establishing an implicit regularization of deep residual networks towards neural ODEs, for nonlinear networks trained with gradient flow. We prove that if the network is initialized as a discretization of a neural ODE, then such a discretization holds throughout training. Our results are valid for a finite training time, and also as the training time tends to infinity provided that the network satisfies a Polyak-Lojasiewicz condition. Importantly, this condition holds for a family of residual networks where the residuals are two-layer perceptrons with an overparameterization in width that is only linear, and implies the convergence of gradient flow to a global minimum. Numerical experiments illustrate our results.
翻訳日:2023-09-06 20:55:45 公開日:2023-09-03
# 適応クルーズ制御系のパラメータ学習のための物理インスパイアニューラルネットワーク

Physics-inspired Neural Networks for Parameter Learning of Adaptive Cruise Control Systems ( http://arxiv.org/abs/2309.01211v1 )

ライセンス: Link先を確認
Theocharis Apostolakis and Konstantinos Ampountolas(参考訳) 本稿では,自動車産業におけるアクセプティブ・クルーズ・コントロール(ACC)システムのパラメータを学習するための物理刺激型ニューラルネットワーク(PiNN)を提案する。 プロプライエタリな制御ロジックと未開示パラメータを持つストックACCシステムのコア機能をエミュレートするために、CTHP(Constant Time-headway Policy)を採用する。 多層人工ニューラルネットワークを普遍近似器として活用し、開発したPiNNはACC搭載車両の縦方向ダイナミクスの代理モデルとして機能し、CTHPの未知のパラメータを効率的に学習する。 未知のaccパラメータを推定するピンの能力は、小隊形成におけるaccに係わる車両を含む空間gapと相対速度の合成データと高忠実度データの両方を用いて慎重に評価される。 提案手法は, 自動車メーカーのストックaccシステムの未知設計パラメータを学習する上で, 提案するピンの優れた予測能力を示す。 PNNから得られたACCモデルパラメータのセットは、3つの実験キャンペーンで検討された車両のACC系が$L_2$でも$L_\infty$でも安定でもないことを明らかにした。

This paper proposes and develops a physics-inspired neural network (PiNN) for learning the parameters of commercially implemented adaptive cruise control (ACC) systems in automotive industry. To emulate the core functionality of stock ACC systems, which have proprietary control logic and undisclosed parameters, the constant time-headway policy (CTHP) is adopted. Leveraging the multi-layer artificial neural networks as universal approximators, the developed PiNN serves as a surrogate model for the longitudinal dynamics of ACC-engaged vehicles, efficiently learning the unknown parameters of the CTHP. The ability of the PiNN to infer the unknown ACC parameters is meticulous evaluated using both synthetic and high-fidelity empirical data of space-gap and relative velocity involving ACC-engaged vehicles in platoon formation. The results have demonstrated the superior predictive ability of the proposed PiNN in learning the unknown design parameters of stock ACC systems from different car manufacturers. The set of ACC model parameters obtained from the PiNN revealed that the stock ACC systems of the considered vehicles in three experimental campaigns are neither $L_2$ nor $L_\infty$ string stable.
翻訳日:2023-09-06 20:55:26 公開日:2023-09-03
# Few-Shot Unsupervised Domain Adaptation に対するスペクトル反転MixUp

Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation ( http://arxiv.org/abs/2309.01207v1 )

ライセンス: Link先を確認
Jiajin Zhang, Hanqing Chao, Amit Dhurandhar, Pin-Yu Chen, Ali Tajer, Yangyang Xu, and Pingkun Yan(参考訳) 臨床応用において、トレーニング画像(ソース領域)とテスト画像(ターゲット領域)が異なる分布下にある場合、ドメインシフトは一般的な問題である。 ソースドメインでトレーニングされたモデルを対象ドメインに適応させるために、教師なしのドメイン適応(UDA)技術が提案されている。 しかし、これらの手法はモデルトレーニングのためにターゲット領域から大量の画像を必要とする。 そこで,本稿では,限定された限定的対象領域サンプルのみをトレーニングに利用できる,少数ショット非教師なしドメイン適応法(fsuda)を提案する。 この課題を達成するために、まずスペクトル感度マップを導入し、周波数領域におけるモデルの一般化弱点を特徴づける。 次に,対象領域におけるモデルの一般化性を改善するために,対象画像を生成するための感度誘導型spectral adversarial mixup (samix) 法を開発した。 提案手法を実証し,複数の公開データセットを用いて複数のタスクの性能評価を行った。

Domain shift is a common problem in clinical applications, where the training images (source domain) and the test images (target domain) are under different distributions. Unsupervised Domain Adaptation (UDA) techniques have been proposed to adapt models trained in the source domain to the target domain. However, those methods require a large number of images from the target domain for model training. In this paper, we propose a novel method for Few-Shot Unsupervised Domain Adaptation (FSUDA), where only a limited number of unlabeled target domain samples are available for training. To accomplish this challenging task, first, a spectral sensitivity map is introduced to characterize the generalization weaknesses of models in the frequency domain. We then developed a Sensitivity-guided Spectral Adversarial MixUp (SAMix) method to generate target-style images to effectively suppresses the model sensitivity, which leads to improved model generalizability in the target domain. We demonstrated the proposed method and rigorously evaluated its performance on multiple tasks using several public datasets.
翻訳日:2023-09-06 20:55:06 公開日:2023-09-03
# MAGMA:音楽対応ジェネレーション・モーション・オートデコーダ

MAGMA: Music Aligned Generative Motion Autodecoder ( http://arxiv.org/abs/2309.01202v1 )

ライセンス: Link先を確認
Sohan Anisetty, Amit Raj, James Hays(参考訳) 音楽のダンスへのマッピングは、音楽の進行と連続的な同期とともに、空間的および時間的コヒーレンスを必要とする難しい問題である。 大規模言語モデルからインスピレーションを得て、ベクトル量子化可変オートエンコーダ(VQ-VAE)を用いてダンスを生成する2段階のアプローチを導入し、動きをプリミティブに蒸留し、トランスフォーマーデコーダを訓練してこれらのプリミティブの正しいシークエンシングを学習する。 また、librosaを用いたナイーブな音楽特徴抽出と、最先端オーディオ圧縮アルゴリズムによって生成された深い音声表現との比較により、音楽表現の重要性を評価する。 さらに、相対的および絶対的な位置エンコーディングを用いて動き発生器のバリエーションを訓練し、任意に長いシーケンス長を生成する場合の運動品質への影響を判定する。 提案手法は,音楽対運動生成ベンチマークにおいて最先端の結果を達成し,かなり長い動き列をリアルタイムに生成し,複数の動き列をシームレスに連鎖させ,スタイル要件を満たす動き列のカスタマイズを容易にする。

Mapping music to dance is a challenging problem that requires spatial and temporal coherence along with a continual synchronization with the music's progression. Taking inspiration from large language models, we introduce a 2-step approach for generating dance using a Vector Quantized-Variational Autoencoder (VQ-VAE) to distill motion into primitives and train a Transformer decoder to learn the correct sequencing of these primitives. We also evaluate the importance of music representations by comparing naive music feature extraction using Librosa to deep audio representations generated by state-of-the-art audio compression algorithms. Additionally, we train variations of the motion generator using relative and absolute positional encodings to determine the effect on generated motion quality when generating arbitrarily long sequence lengths. Our proposed approach achieve state-of-the-art results in music-to-motion generation benchmarks and enables the real-time generation of considerably longer motion sequences, the ability to chain multiple motion sequences seamlessly, and easy customization of motion sequences to meet style requirements.
翻訳日:2023-09-06 20:54:37 公開日:2023-09-03
# virtual adversarial trainingを用いた視覚解釈に基づく自己改善型分類システム

A Visual Interpretation-Based Self-Improved Classification System Using Virtual Adversarial Training ( http://arxiv.org/abs/2309.01196v1 )

ライセンス: Link先を確認
Shuai Jiang, Sayaka Kamei, Chen Li, Shengzhe Hou, Yasuhiko Morimoto(参考訳) BERTのような大規模事前学習モデルの自然言語処理への応用は、研究者の注目を集めている。 BERTは通常、エンドツーエンドのブラックボックスとして機能するので、それに基づく分類システムは通常、解釈が困難で、ロバスト性が低い。 本稿では,仮想対人訓練(VAT)とBERTモデルを組み合わせた視覚的解釈に基づく自己改善型分類モデルを提案する。 具体的には、テキストの感情を分類するための分類器として、微調整のBERTモデルを用いる。 そして、予測された感情分類ラベルを、VATを用いた半教師付き訓練方法を介してスパム分類のための別のBERTの入力の一部として使用する。 また,単語の重要度を可視化し,注意ヘッドマトリックスを正規化する可視化手法を用いて,各成分の分類精度との関連性を分析する。 さらに、ビジュアル分析に新しい特徴が見出され、分類性能が向上する。 twitterのつぶやきデータセットにおける実験結果から,提案モデルの有効性が示された。 さらに, アブレーション実験の結果は, モデルの異なる成分が分類結果に及ぼす影響を示唆している。

The successful application of large pre-trained models such as BERT in natural language processing has attracted more attention from researchers. Since the BERT typically acts as an end-to-end black box, classification systems based on it usually have difficulty in interpretation and low robustness. This paper proposes a visual interpretation-based self-improving classification model with a combination of virtual adversarial training (VAT) and BERT models to address the above problems. Specifically, a fine-tuned BERT model is used as a classifier to classify the sentiment of the text. Then, the predicted sentiment classification labels are used as part of the input of another BERT for spam classification via a semi-supervised training manner using VAT. Additionally, visualization techniques, including visualizing the importance of words and normalizing the attention head matrix, are employed to analyze the relevance of each component to classification accuracy. Moreover, brand-new features will be found in the visual analysis, and classification performance will be improved. Experimental results on Twitter's tweet dataset demonstrate the effectiveness of the proposed model on the classification task. Furthermore, the ablation study results illustrate the effect of different components of the proposed model on the classification results.
翻訳日:2023-09-06 20:54:03 公開日:2023-09-03
# インスタントデリバリーにおけるサービス経路と時間予測に関する調査:分類学,進歩,展望

A Survey on Service Route and Time Prediction in Instant Delivery: Taxonomy, Progress, and Prospects ( http://arxiv.org/abs/2309.01194v1 )

ライセンス: Link先を確認
Haomin Wen, Youfang Lin, Lixia Wu, Xiaowei Mao, Tianyue Cai, Yunfeng Hou, Shengnan Guo, Yuxuan Liang, Guangyin Jin, Yiji Zhao, Roger Zimmermann, Jieping Ye, Huaiyu Wan(参考訳) 食品の配達や宅配といったインスタントデリバリーサービスは,近年,消費者に日常の便宜を提供して爆発的な成長を遂げている。 これらのサービス内の新たな研究領域は、サービスルート予測(RTP)であり、これは、ある労働者の到着時間だけでなく、将来のサービスルートを見積もることを目的としている。 これらのサービスプラットフォームで最も重要なタスクの1つとして、rtpはユーザー満足度の向上とこれらのプラットフォームでの運用支出の削減の中心である。 これまで多くのアルゴリズムが開発されてきたが、この領域の研究者をガイドするための体系的で包括的な調査は行われていない。 このギャップを埋めるため,我々の研究は,サービス経路と時間予測の最近の進歩を体系的に分類した,最初の包括的な調査を行う。 最初はrtpの課題を定義し、しばしば採用されるメトリクスを掘り下げることから始めます。 その後、既存のRTP方法論を精査し、その新しい分類法を提示する。 これらを3つの基準に基づいて分類する。 (i)経路のみの予測、時間のみの予測及び経路の合同の予測に区分されたタスクの種類 (ii)シーケンスベースおよびグラフベースモデルを含むモデルアーキテクチャ、及び (3) 監視学習(SL)や深層強化学習(DRL)を含む学習パラダイム。 結論として,現在の研究の限界を強調し,今後の課題を提案する。 我々は,本論文で導入された分類学,進歩,展望が,この分野の発展を著しく促進できると信じている。

Instant delivery services, such as food delivery and package delivery, have achieved explosive growth in recent years by providing customers with daily-life convenience. An emerging research area within these services is service Route\&Time Prediction (RTP), which aims to estimate the future service route as well as the arrival time of a given worker. As one of the most crucial tasks in those service platforms, RTP stands central to enhancing user satisfaction and trimming operational expenditures on these platforms. Despite a plethora of algorithms developed to date, there is no systematic, comprehensive survey to guide researchers in this domain. To fill this gap, our work presents the first comprehensive survey that methodically categorizes recent advances in service route and time prediction. We start by defining the RTP challenge and then delve into the metrics that are often employed. Following that, we scrutinize the existing RTP methodologies, presenting a novel taxonomy of them. We categorize these methods based on three criteria: (i) type of task, subdivided into only-route prediction, only-time prediction, and joint route\&time prediction; (ii) model architecture, which encompasses sequence-based and graph-based models; and (iii) learning paradigm, including Supervised Learning (SL) and Deep Reinforcement Learning (DRL). Conclusively, we highlight the limitations of current research and suggest prospective avenues. We believe that the taxonomy, progress, and prospects introduced in this paper can significantly promote the development of this field.
翻訳日:2023-09-06 20:53:05 公開日:2023-09-03
# LogGPT:ログベースの異常検出のためのチャットGPTの探索

LogGPT: Exploring ChatGPT for Log-Based Anomaly Detection ( http://arxiv.org/abs/2309.01189v1 )

ライセンス: Link先を確認
Jiaxing Qi, Shaohan Huang, Zhongzhi Luan, Carol Fung, Hailong Yang, Depei Qian(参考訳) ソフトウェア集約システムによって生成されるログデータの量の増加は、それらを手動で分析することが現実的ではない。 ログベースの異常検出には,多くの深層学習に基づく手法が提案されている。 これらの手法は,高次元およびノイズログデータ,クラス不均衡,一般化,モデル解釈可能性などの課題に直面している。 最近、ChatGPTは様々な領域で有望な結果を示している。 しかし,ログに基づく異常検出へのchatgptの適用については,まだ研究の欠如がある。 本稿では,ChatGPTに基づくログベースの異常検出フレームワークであるLogGPTを提案する。 ChatGPTの言語解釈機能を活用することで、LogGPTは大規模コーパスからログベースの異常検出への知識の転送可能性を検討することを目指している。 我々は,LogGPTの性能評価実験を行い,BGLとスピリットデータセットの深層学習に基づく3つの手法と比較した。 LogGPTは有望な結果を示し、解釈性が高い。 本研究は,ログに基づく異常検出タスクのための,chatgptなどのプロンプトベースのモデルに対する予備的洞察を提供する。

The increasing volume of log data produced by software-intensive systems makes it impractical to analyze them manually. Many deep learning-based methods have been proposed for log-based anomaly detection. These methods face several challenges such as high-dimensional and noisy log data, class imbalance, generalization, and model interpretability. Recently, ChatGPT has shown promising results in various domains. However, there is still a lack of study on the application of ChatGPT for log-based anomaly detection. In this work, we proposed LogGPT, a log-based anomaly detection framework based on ChatGPT. By leveraging the ChatGPT's language interpretation capabilities, LogGPT aims to explore the transferability of knowledge from large-scale corpora to log-based anomaly detection. We conduct experiments to evaluate the performance of LogGPT and compare it with three deep learning-based methods on BGL and Spirit datasets. LogGPT shows promising results and has good interpretability. This study provides preliminary insights into prompt-based models, such as ChatGPT, for the log-based anomaly detection task.
翻訳日:2023-09-06 20:52:37 公開日:2023-09-03
# pre-trained neural recommenders:レコメンデーションシステムのための転送可能なゼロショットフレームワーク

Pre-trained Neural Recommenders: A Transferable Zero-Shot Framework for Recommendation Systems ( http://arxiv.org/abs/2309.01188v1 )

ライセンス: Link先を確認
Junting Wang, Adit Krishnan, Hari Sundaram, Yunzhe Li(参考訳) 現代のニューラルコラボレーティブフィルタリング技術は、eコマース、ソーシャルメディア、コンテンツ共有プラットフォームの成功に不可欠である。 しかし、技術的な進歩にもかかわらず、新しいアプリケーションドメインごとに、scratchからncfモデルをトレーニングする必要があります。 対照的に、事前訓練された視覚と言語モデルは、様々なアプリケーションに直接(ゼロショット)または限定的な微調整で適用される。 事前学習モデルの影響に触発されて、補助ユーザやアイテム情報を使わずに、最小あるいは全く再トレーニングすることなく、新しいドメインでレコメンデータシステムを構築するための事前学習されたレコメンデータモデルの可能性を探る。 重複したユーザやアイテムがない場合、データセット間でユーザとアイテムの関連を形成できないため、補助情報のないゼロショットレコメンデーションは難しい。 我々の基本的な洞察は、ユーザ・イテム相互作用行列の統計特性が、異なるドメインやデータセットで普遍的に利用可能であるということである。 そこで我々は,ユーザとアイテム間の相互作用行列の統計的特徴を用いて,ユーザとアイテムのデータセット非依存表現を同定する。 両部間相互作用グラフからノードとエッジのユニバーサル(ユーザやアイテムの補助情報なしでゼロショット適応をサポートする)表現を学習する方法を示す。 ユーザとアイテムのマージンを含む相互作用データの統計的特性とクラスタのサイズと密度分布を利用して表現を学習する。

Modern neural collaborative filtering techniques are critical to the success of e-commerce, social media, and content-sharing platforms. However, despite technical advances -- for every new application domain, we need to train an NCF model from scratch. In contrast, pre-trained vision and language models are routinely applied to diverse applications directly (zero-shot) or with limited fine-tuning. Inspired by the impact of pre-trained models, we explore the possibility of pre-trained recommender models that support building recommender systems in new domains, with minimal or no retraining, without the use of any auxiliary user or item information. Zero-shot recommendation without auxiliary information is challenging because we cannot form associations between users and items across datasets when there are no overlapping users or items. Our fundamental insight is that the statistical characteristics of the user-item interaction matrix are universally available across different domains and datasets. Thus, we use the statistical characteristics of the user-item interaction matrix to identify dataset-independent representations for users and items. We show how to learn universal (i.e., supporting zero-shot adaptation without user or item auxiliary information) representations for nodes and edges from the bipartite user-item interaction graph. We learn representations by exploiting the statistical properties of the interaction data, including user and item marginals, and the size and density distributions of their clusters.
翻訳日:2023-09-06 20:52:21 公開日:2023-09-03
# 画像融合・露光補正のためのホロスティックダイナミック周波数変換器

Holistic Dynamic Frequency Transformer for Image Fusion and Exposure Correction ( http://arxiv.org/abs/2309.01183v1 )

ライセンス: Link先を確認
Xiaoke Shang, Gehui Li, Zhiying Jiang, Shaomin Zhang, Nai Ding, Jinyuan Liu(参考訳) 露出に関連する問題の修正は、画像の品質を高める上で重要な要素であり、様々なコンピュータビジョンタスクに重大な影響を及ぼす。 歴史的に、ほとんどの方法論は空間領域の回復を主に活用しており、周波数領域の可能性を限定的に考慮している。 さらに、低光度強調、露光補正、マルチ露光融合に対する統一的な視点が欠如しており、画像処理の最適化を複雑化し妨げている。 これらの課題に対応するために,周波数領域を利用して露出補正タスクの処理を改善し,統一する手法を提案する。 本手法では,空間領域における従来の相関計算に取って代わるホロスティック周波数注意と動的周波数フィードフォワードネットワークを導入する。 U字型ホロスティックダイナミック周波数変換器をフィルタとして構成し、グローバル情報を抽出し、画像復元のための重要な周波数帯域を動的に選択する。 これを補完するため、ラプラシアピラミッドを用いて異なる周波数帯域に画像分解を行い、その後に複数の復元器を用いて特定の周波数帯域情報を復元する。 ピラミッド融合により、より詳細な画像復元プロセスが可能になる。 最終的には、低光度強調、露光補正、マルチ露光融合の3つのタスクを統合し、すべての古典的な露光エラーを包括的に処理できるようにする。 これらのタスクの主流データセットをベンチマークし、提案手法は最先端の結果を達成し、露出補正におけるより高度で統一された解の道を開く。

The correction of exposure-related issues is a pivotal component in enhancing the quality of images, offering substantial implications for various computer vision tasks. Historically, most methodologies have predominantly utilized spatial domain recovery, offering limited consideration to the potentialities of the frequency domain. Additionally, there has been a lack of a unified perspective towards low-light enhancement, exposure correction, and multi-exposure fusion, complicating and impeding the optimization of image processing. In response to these challenges, this paper proposes a novel methodology that leverages the frequency domain to improve and unify the handling of exposure correction tasks. Our method introduces Holistic Frequency Attention and Dynamic Frequency Feed-Forward Network, which replace conventional correlation computation in the spatial-domain. They form a foundational building block that facilitates a U-shaped Holistic Dynamic Frequency Transformer as a filter to extract global information and dynamically select important frequency bands for image restoration. Complementing this, we employ a Laplacian pyramid to decompose images into distinct frequency bands, followed by multiple restorers, each tuned to recover specific frequency-band information. The pyramid fusion allows a more detailed and nuanced image restoration process. Ultimately, our structure unifies the three tasks of low-light enhancement, exposure correction, and multi-exposure fusion, enabling comprehensive treatment of all classical exposure errors. Benchmarking on mainstream datasets for these tasks, our proposed method achieves state-of-the-art results, paving the way for more sophisticated and unified solutions in exposure correction.
翻訳日:2023-09-06 20:51:54 公開日:2023-09-03
# 弱教師付き自己整合学習によるジェネリックイメージマニピュレーション検出に向けて

Towards Generic Image Manipulation Detection with Weakly-Supervised Self-Consistency Learning ( http://arxiv.org/abs/2309.01246v1 )

ライセンス: Link先を確認
Yuanhao Zhai, Tianyu Luan, David Doermann, Junsong Yuan(参考訳) 高度な画像操作技術が出現するにつれて、画像操作の検出がますます重要になる。 画像操作検出における最近の学習ベースのアプローチの成功にもかかわらず、訓練には高価なピクセルレベルのアノテーションを必要とするのが一般的である。 これらの制限に対処するために,訓練目的にはバイナリ画像レベルラベル(真または改ざんされたラベル)のみが必要となるように,弱教師付き画像操作検出を提案する。 このような弱い教師付き設定は、より多くのトレーニングイメージを活用でき、新しい操作技術に素早く適応できる可能性がある。 一般化能力を向上させるために,弱教師付き自己整合学習(WSCL)を提案する。 具体的には、マルチソース一貫性(MSC)とパッチ間一貫性(IPC)の2つの一貫性特性が学習される。 MSCは異なるコンテンツに依存しない情報を活用し、オンラインの擬似ラベル生成と改善プロセスを通じてクロスソース学習を可能にする。 ipcは、完全な操作領域を発見するために、グローバルペアワイズパッチパッチ・パッチの関係推論を実行する。 集中的な実験により,WSCLは弱い監督下にあるものの,分布内および分布外の両方で完全に監督された性能と,適切な操作局所化能力の両面において競合性能を示すことが示された。

As advanced image manipulation techniques emerge, detecting the manipulation becomes increasingly important. Despite the success of recent learning-based approaches for image manipulation detection, they typically require expensive pixel-level annotations to train, while exhibiting degraded performance when testing on images that are differently manipulated compared with training images. To address these limitations, we propose weakly-supervised image manipulation detection, such that only binary image-level labels (authentic or tampered with) are required for training purpose. Such a weakly-supervised setting can leverage more training images and has the potential to adapt quickly to new manipulation techniques. To improve the generalization ability, we propose weakly-supervised self-consistency learning (WSCL) to leverage the weakly annotated images. Specifically, two consistency properties are learned: multi-source consistency (MSC) and inter-patch consistency (IPC). MSC exploits different content-agnostic information and enables cross-source learning via an online pseudo label generation and refinement process. IPC performs global pair-wise patch-patch relationship reasoning to discover a complete region of manipulation. Extensive experiments validate that our WSCL, even though is weakly supervised, exhibits competitive performance compared with fully-supervised counterpart under both in-distribution and out-of-distribution evaluations, as well as reasonable manipulation localization ability.
翻訳日:2023-09-06 20:43:28 公開日:2023-09-03
# 表現課題:動的モード分解を用いた大規模言語モデルの埋め込みモード

Representations Matter: Embedding Modes of Large Language Models using Dynamic Mode Decomposition ( http://arxiv.org/abs/2309.01245v1 )

ライセンス: Link先を確認
Mohamed Akrout(参考訳) 既存の大規模言語モデル (LLMs) は「ハロゲン化」されたコンテンツを生成することで知られている。 これらの幻覚シナリオがいつ発生したかを特定するため、埋め込み空間で生成されたテキストの特性を調べる。 具体的には,動的モード分解(dmd)ツールから着想を得て,文間のテキスト埋め込みのパターン進化を分析する。 段落に埋め込まれた文のスペクトルが、基幹本文とは異なり、生成したテキストに対して常に低ランクであることを示す。 重要なこととして, LLM の幻覚を有する評価ケースは, LLM の埋め込みパターンに付随する少数のモードにより, より多くのモードが近似されにくい接地真実の埋め込みパターンに対応していることがわかった。 近場電磁エバネッセント波の例えると、幻覚を伴う生成されたテキストのdmd固有モードは、地対面テキストとは対照的に、文章全体で急速に消失する。 これは幻覚が生成技術と基礎的な表現の両方から生じることを示唆している。

Existing large language models (LLMs) are known for generating "hallucinated" content, namely a fabricated text of plausibly looking, yet unfounded, facts. To identify when these hallucination scenarios occur, we examine the properties of the generated text in the embedding space. Specifically, we draw inspiration from the dynamic mode decomposition (DMD) tool in analyzing the pattern evolution of text embeddings across sentences. We empirically demonstrate how the spectrum of sentence embeddings over paragraphs is constantly low-rank for the generated text, unlike that of the ground-truth text. Importantly, we find that evaluation cases having LLM hallucinations correspond to ground-truth embedding patterns with a higher number of modes being poorly approximated by the few modes associated with LLM embedding patterns. In analogy to near-field electromagnetic evanescent waves, the embedding DMD eigenmodes of the generated text with hallucinations vanishes quickly across sentences as opposed to those of the ground-truth text. This suggests that the hallucinations result from both the generation techniques and the underlying representation.
翻訳日:2023-09-06 20:43:07 公開日:2023-09-03
# ランダムプロジェクションを用いたolsのプライバシー利用トレードオフ

Privacy-Utility Tradeoff of OLS with Random Projections ( http://arxiv.org/abs/2309.01243v1 )

ライセンス: Link先を確認
Yun Lu, Malik Magdon-Ismail, Yu Wei, Vassilis Zikas(参考訳) 基本ML問題、線形常用最小二乗(OLS)、すなわち$\ell_2$-regressionの差分プライバシー(DP)について検討する。 我々の主要な結果は、ALSアルゴリズム (ALS) (Sarlos, 2006) が、主に大規模なデータセットのパフォーマンス向上に使用されるLS問題のランダム化ソリューションであり、プライバシも保護されていることである。 ALSは、OLSを修正または/またはノイズする代替のプライベートOLSアルゴリズムと比較して、変更やノイズを発生させることなく、より優れたプライバシ/ユーティリティトレードオフを実現する。 我々はALSアルゴリズムの最初のDP分析と標準ガウス機構(Dwork et al., 2014)をOLSに適用する。 本手法は, (blocki et al., 2012) と (sheffet, 2019) のプライバシ解析を直接改善し, (1) 出力が $d$-dimensional gaussian である機構に対して $(\epsilon, \delta)$-dp パラメータ (```dp spectrum") の正確なスペクトル, (2) ランダム投影のための dp スペクトルの改善 (blocki et al., 2012) と (sheffet, 2019) という,独立した関心を持つ新しいツールを導入する。 プライベートOLS(うちを含む)のすべてのメソッドは、しばしば暗黙的に、レバレッジと残差のバウンドのような入力データベースに制限を仮定します。 私たちはそのような制限が必要であることを証明します。 したがって、ALSのようなメカニズムのプライバシを計算するには、これらのデータベースパラメータを推定する必要がある。 より複雑なMLモデルでは、DP境界は引けないかもしれない。 データ依存プライバシを実証的に見積もるブラックボックスDP推定器(Lu et al., 2022)が必要である。 OLS理論と一致するDPスペクトルを実証的に復元することにより,そのようなDP推定器の有効性を実証する。 これは非自明なMLアプリケーションでDP推定器を検証し、理論が利用できないより複雑な非線形ML設定で使用するための扉を開く。

We study the differential privacy (DP) of a core ML problem, linear ordinary least squares (OLS), a.k.a. $\ell_2$-regression. Our key result is that the approximate LS algorithm (ALS) (Sarlos, 2006), a randomized solution to the OLS problem primarily used to improve performance on large datasets, also preserves privacy. ALS achieves a better privacy/utility tradeoff, without modifications or further noising, when compared to alternative private OLS algorithms which modify and/or noise OLS. We give the first {\em tight} DP-analysis for the ALS algorithm and the standard Gaussian mechanism (Dwork et al., 2014) applied to OLS. Our methodology directly improves the privacy analysis of (Blocki et al., 2012) and (Sheffet, 2019)) and introduces new tools which may be of independent interest: (1) the exact spectrum of $(\epsilon, \delta)$-DP parameters (``DP spectrum") for mechanisms whose output is a $d$-dimensional Gaussian, and (2) an improved DP spectrum for random projection (compared to (Blocki et al., 2012) and (Sheffet, 2019)). All methods for private OLS (including ours) assume, often implicitly, restrictions on the input database, such as bounds on leverage and residuals. We prove that such restrictions are necessary. Hence, computing the privacy of mechanisms such as ALS must estimate these database parameters, which can be infeasible in big datasets. For more complex ML models, DP bounds may not even be tractable. There is a need for blackbox DP-estimators (Lu et al., 2022) which empirically estimate a data-dependent privacy. We demonstrate the effectiveness of such a DP-estimator by empirically recovering a DP-spectrum that matches our theory for OLS. This validates the DP-estimator in a nontrivial ML application, opening the door to its use in more complex nonlinear ML settings where theory is unavailable.
翻訳日:2023-09-06 20:42:51 公開日:2023-09-03
# bodyslam++: 高速かつ密結合した視覚慣性カメラと人間の動き追跡

BodySLAM++: Fast and Tightly-Coupled Visual-Inertial Camera and Human Motion Tracking ( http://arxiv.org/abs/2309.01236v1 )

ライセンス: Link先を確認
Dorian F. Henning, Christopher Choi, Simon Schaefer, Stefan Leutenegger(参考訳) 頑丈で、速く、正確な人間の状態 - 6Dのポーズと姿勢 - は、依然として難しい問題です。 現実世界のアプリケーションでは、人間の状態をリアルタイムで推定する能力が非常に望ましい。 本稿では,視覚慣性データに依存した高速で効率的かつ正確な人間とカメラの状態推定フレームワークであるBodySLAM++を提案する。 BodySLAM++は既存のビジュアル慣性状態推定フレームワークOKVIS2を拡張して、カメラと人間の状態を同時に推定する2つのタスクを解決する。 本システムでは,ベースライン法に関して,人間およびカメラの状態推定の精度を26%,12%向上させ,intel i7モデルcpu上で15フレーム/秒のリアルタイム性能を実現する。 室内のモーショントラッキングシステムで収集した人間とカメラの両方のポーズを含むカスタムデータセットで実験を行った。

Robust, fast, and accurate human state - 6D pose and posture - estimation remains a challenging problem. For real-world applications, the ability to estimate the human state in real-time is highly desirable. In this paper, we present BodySLAM++, a fast, efficient, and accurate human and camera state estimation framework relying on visual-inertial data. BodySLAM++ extends an existing visual-inertial state estimation framework, OKVIS2, to solve the dual task of estimating camera and human states simultaneously. Our system improves the accuracy of both human and camera state estimation with respect to baseline methods by 26% and 12%, respectively, and achieves real-time performance at 15+ frames per second on an Intel i7-model CPU. Experiments were conducted on a custom dataset containing both ground truth human and camera poses collected with an indoor motion tracking system.
翻訳日:2023-09-06 20:42:06 公開日:2023-09-03
# 二色分離(SREDS)に基づく皮膚反射率推定の一般化と応用

Generalizability and Application of the Skin Reflectance Estimate Based on Dichromatic Separation (SREDS) ( http://arxiv.org/abs/2309.01235v1 )

ライセンス: Link先を確認
Joseph Drahos, Richard Plesh, Keivan Bahmani, Mahesh Banavar, and Stephanie Schuckers(参考訳) 顔認識 (FR) システムは近年広く使われ、容易に利用できるようになった。 しかし、一般的なFRモデルでは、特定の人口層間の差分性能が特定されている。 肌色の違いは、顔認識モデルで観察される差分性能に寄与する要因の1つである。 スキントーンメトリクスは、例えば大規模な顔認識データセットのように、そのようなラベルが使用できない、あるいは完全に使用できない場合に、自己報告されたレースラベルの代替となる。 本研究では、他のスキントーン指標に対する二色分離(SREDS)に基づく皮膚反射率推定の一般化可能性をさらに分析し、プライバシー保護学習ソリューションにおけるSREDSスコアのレースラベル置換のためのユースケースを提供する。 以上の結果から,SREDSは各被験者ごとの変動率の低いスキントーン尺度を一貫して作成し,SREDS値を最小限の性能低下で自己申告したレースラベルの代替として活用できることが示唆された。 最後に、研究コミュニティを支援するために、SREDSの公開およびオープンソース実装を提供する。 https://github.com/JosephDrahos/SREDSで入手できる。

Face recognition (FR) systems have become widely used and readily available in recent history. However, differential performance between certain demographics has been identified within popular FR models. Skin tone differences between demographics can be one of the factors contributing to the differential performance observed in face recognition models. Skin tone metrics provide an alternative to self-reported race labels when such labels are lacking or completely not available e.g. large-scale face recognition datasets. In this work, we provide a further analysis of the generalizability of the Skin Reflectance Estimate based on Dichromatic Separation (SREDS) against other skin tone metrics and provide a use case for substituting race labels for SREDS scores in a privacy-preserving learning solution. Our findings suggest that SREDS consistently creates a skin tone metric with lower variability within each subject and SREDS values can be utilized as an alternative to the self-reported race labels at minimal drop in performance. Finally, we provide a publicly available and open-source implementation of SREDS to help the research community. Available at https://github.com/JosephDrahos/SREDS
翻訳日:2023-09-06 20:41:53 公開日:2023-09-03
# 原子・分子におけるラマンコヒーレンスのチャープパルス制御

Chirped Pulse Control of Raman Coherence in Atoms and Molecules ( http://arxiv.org/abs/2309.01232v1 )

ライセンス: Link先を確認
Jabir Chathanathil and Svetlana A. Malinovskaya(参考訳) 原子と分子の振動コヒーレンスを最大化することを目的としたコヒーレントアンチストークスラマン分光法(C-CARS)に基づく新しいチャープパルス制御法を提案する。 この方式は、C-CARSの4波混合過程における3つのパルス、ポンプ、ストークス、プローブのチャープを利用して、断熱通路条件を満たす。 このスキームの導出は、励起状態多様体の回転波近似と断熱的除去を通じて、4レベルシステムを「超効率」2レベルシステムに単純化することに基づいている。 C-CARS法のロバスト性、スペクトル選択性および断熱性は、検出、撮像、検出に有用である。 パルスのスペクトルチャープ速度を慎重に選択することにより,振動の自由度を励起する選択性を制御することができることを示した。 C-CARS制御スキームは代理メタノール分子に適用され、1キロ離れた分子の雲から後方散乱した最適なアンチストークス信号を生成する。 この理論は、結合したマクスウェル・リウヴィル・フォン・ノイマン方程式の解に基づいており、制御パルス列によって標的分子に誘導される量子効果に焦点を当てている。 媒質中におけるパルスの伝搬効果を評価し,分子特異的なアンチストークス信号の蓄積を数値的に示す。 畳み込みニューラルネットワーク(cnn)を用いた深層学習手法を実装し,制御パルスの特性と時間依存位相特性の評価を行った。 自然崩壊と衝突脱落による脱コヒーレンスの影響についても検討した。 さらに,F-STIRAP(Frictional Stimulated Raman Adiabatic Passage)の手法を提案し,最大コヒーレントな重ね合わせ状態を作成することで,多層システムにおけるリモート検出に有効であることを示す。

A novel chirped pulse control scheme is presented based on Coherent Anti-Stokes Raman Spectroscopy (C-CARS) aiming at maximizing the vibrational coherence in atoms and molecules. The scheme utilizes chirping of the three incoming pulses, the pump, the Stokes and the probe, in the four-wave mixing process of C-CARS to fulfill the adiabatic passage conditions. The derivation of the scheme is based on simplifying the four-level system into a 'super-effective' two level system via rotating wave approximation and adiabatic elimination of the excited state manifold. The robustness, spectral selectivity and adiabatic nature of C-CARS method may prove useful for sensing, imaging, and detection. It is demonstrated that the selectivity in excitation of vibrational degrees of freedom can be controlled by carefully choosing the spectral chirp rate of the pulses. The C-CARS control scheme is applied to a surrogate methanol molecule to generate an optimal anti-Stokes signal backscattered from a cloud of molecules a kilometer away. The theory is based on the solution of the coupled Maxwell-Liouville von Neumann equations and focuses on the quantum effects induced in the target molecules by the control pulse trains. The propagation effects of pulses through the medium are evaluated and the buildup of the molecular-specific anti-Stokes signal is demonstrated numerically. A deep learning technique, using Convolutional Neural Networks (CNN), is implemented to characterize the control pulses and evaluate time-dependent phase characteristics from them. The effects of decoherence induced by spontaneous decay and collisional dephasing are also examined. Additionally, we present the technique of Fractional Stimulated Raman Adiabatic Passage (F-STIRAP) and demonstrate that it can be utilized for remote detection in a multi-level system by creation of a maximally coherent superposition state.
翻訳日:2023-09-06 20:41:35 公開日:2023-09-03
# lfads-torch:動的システムによる潜在因子分析のモジュラーで拡張可能な実装

lfads-torch: A modular and extensible implementation of latent factor analysis via dynamical systems ( http://arxiv.org/abs/2309.01230v1 )

ライセンス: Link先を確認
Andrew R. Sedler and Chethan Pandarinath(参考訳) 動的システム(LFADS)による潜時因子分析は、RNNベースの変分シーケンシャルオートエンコーダであり、科学と工学における下流応用のための高次元神経活動の認知において最先端のパフォーマンスを達成する。 最近導入された変種や拡張は、神経科学における様々な問題に対するアーキテクチャの適用性を示している。 LFADSのオリジナルの実装が開発されて以来、動的計算グラフの使用、ボイラプレートコードの最小化、モデル構成ファイルの作成、大規模トレーニングの簡略化といった新しい技術が登場してきた。 alads-torch - LFADSの新しいオープンソース実装で、既存の変種を統一し、理解し、設定し、拡張しやすいように設計されています。 ドキュメンテーション、ソースコード、イシュートラッキングはhttps://github.com/arsedler9/lfads-torchで利用可能である。

Latent factor analysis via dynamical systems (LFADS) is an RNN-based variational sequential autoencoder that achieves state-of-the-art performance in denoising high-dimensional neural activity for downstream applications in science and engineering. Recently introduced variants and extensions continue to demonstrate the applicability of the architecture to a wide variety of problems in neuroscience. Since the development of the original implementation of LFADS, new technologies have emerged that use dynamic computation graphs, minimize boilerplate code, compose model configuration files, and simplify large-scale training. Building on these modern Python libraries, we introduce lfads-torch -- a new open-source implementation of LFADS that unifies existing variants and is designed to be easier to understand, configure, and extend. Documentation, source code, and issue tracking are available at https://github.com/arsedler9/lfads-torch .
翻訳日:2023-09-06 20:41:06 公開日:2023-09-03
# The Born Oscillator

The Born Oscillator ( http://arxiv.org/abs/2309.01227v1 )

ライセンス: Link先を確認
Gianni Coppa(参考訳) 本論文は、ハミルトニアンが$[(1+q^2)(1+p^2)]^{1/2}-1$である発振器の特性を研究する。 1934年にマックス・ボーンが提唱した電気力学の非線形理論から導出することができる。 そのような振動子の量子化は、リーマンの$\zeta$関数の非自明な零点の理論の枠組みで提案されているバリーとキーティングのハミルトンの正則化の可能性を表している。

The paper studies the properties of an oscillator whose Hamiltonian is $[(1+q^2)(1+p^2)]^{1/2}-1$. It can be deduced from the nonlinear theory of electrodynamics originally proposed by Max Born in 1934. The quantization of such oscillator represents a possible regularization of the Barry and Keating's Hamiltonian, which has been proposed in the framework of the theory of non-trivial zeros of the Riemann's $\zeta$ function.
翻訳日:2023-09-06 20:40:49 公開日:2023-09-03
# saturn: 大規模ディープラーニングワークロードのための最適化されたデータシステム

Saturn: An Optimized Data System for Large Model Deep Learning Workloads ( http://arxiv.org/abs/2309.01226v1 )

ライセンス: Link先を確認
Kabir Nagrecha and Arun Kumar(参考訳) GPT-3やChatGPTといった大規模言語モデルは、ディープラーニング(DL)を変革し、大衆の想像力を捉えたアプリケーションを動かしている。 これらのモデルは、様々なモダリティの分析のために、しばしば事前訓練されたベースモデルを微調整することで、ドメイン全体で急速に採用されている。 このようなモデルは、サイズと計算負荷の両方のために複数のGPUを必要とし、"モデル並列化"技術とツールの開発を推進している。 しかし、このような並列性の選択をナビゲートすることは、必要なシステムノウハウを欠く可能性のあるデータ科学者、ドメイン科学者など、DLのエンドユーザーにとって新たな負担となる。 ハイパーパラメータチューニングやレイヤ単位での微調整のために多くのモデルをトレーニングするモデル選択の必要性は、リソースの割り当てとスケジューリングという2つの負担を伴います。 本研究では,これら3つのDLユーザの負担を統一的に解決し,SPASE(Select a Parallelism, Allocate resources, Schedule)と呼ぶ共同問題として形式化する。 本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。 既存の並列化スキームのための拡張可能なテンプレートを考案し、ランタイム推定のための自動実証プロファイラと組み合わせる。 次に、SPASEをMILPとして定式化する。 また,MILPソルバの直接使用は,いくつかの基礎的ヒューリスティックスよりも有意に有効であることがわかった。 イントロスペクティブなスケジューリングアプローチで,システムランタイムをさらに最適化する。 これらの技術をすべて、サターンと呼ばれる新しいデータシステムに実装します。 ベンチマークDLワークロードによる実験では、サターンは典型的なDLよりも39~49%低いモデル選択ランタイムを達成した。

Large language models such as GPT-3 & ChatGPT have transformed deep learning (DL), powering applications that have captured the public's imagination. These models are rapidly being adopted across domains for analytics on various modalities, often by finetuning pre-trained base models. Such models need multiple GPUs due to both their size and computational load, driving the development of a bevy of "model parallelism" techniques & tools. Navigating such parallelism choices, however, is a new burden for end users of DL such as data scientists, domain scientists, etc. who may lack the necessary systems knowhow. The need for model selection, which leads to many models to train due to hyper-parameter tuning or layer-wise finetuning, compounds the situation with two more burdens: resource apportioning and scheduling. In this work, we tackle these three burdens for DL users in a unified manner by formalizing them as a joint problem that we call SPASE: Select a Parallelism, Allocate resources, and SchedulE. We propose a new information system architecture to tackle the SPASE problem holistically, representing a key step toward enabling wider adoption of large DL models. We devise an extensible template for existing parallelism schemes and combine it with an automated empirical profiler for runtime estimation. We then formulate SPASE as an MILP. We find that direct use of an MILP-solver is significantly more effective than several baseline heuristics. We optimize the system runtime further with an introspective scheduling approach. We implement all these techniques into a new data system we call Saturn. Experiments with benchmark DL workloads show that Saturn achieves 39-49% lower model selection runtimes than typical current DL practice.
翻訳日:2023-09-06 20:40:41 公開日:2023-09-03
# AIにおけるサイレンの歌:大規模言語モデルにおける幻覚に関する調査

Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models ( http://arxiv.org/abs/2309.01219v1 )

ライセンス: Link先を確認
Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Yulong Chen, Longyue Wang, Anh Tuan Luu, Wei Bi, Freda Shi, Shuming Shi(参考訳) 大規模な言語モデル (LLM) は、様々な下流タスクにおいて顕著な能力を示してきたが、幻覚を示すための正当性に関する重要な懸念が巻き起こされている: LLM は時として、ユーザ入力から分岐するコンテンツを生成したり、以前に生成されたコンテキストに矛盾したり、確立された世界の知識と相違する。 この現象は、現実のシナリオにおけるLLMの信頼性に重大な課題をもたらす。 本稿では, 幻覚の検出, 説明, 緩和に関する最近の取り組みを, LLMがもたらすユニークな課題に焦点をあてて調査する。 本稿では, LLM幻覚現象の分類と評価ベンチマーク, LLM幻覚の緩和を目的とした既存手法の分析, 今後の研究の方向性について考察する。

While large language models (LLMs) have demonstrated remarkable capabilities across a range of downstream tasks, a significant concern revolves around their propensity to exhibit hallucinations: LLMs occasionally generate content that diverges from the user input, contradicts previously generated context, or misaligns with established world knowledge. This phenomenon poses a substantial challenge to the reliability of LLMs in real-world scenarios. In this paper, we survey recent efforts on the detection, explanation, and mitigation of hallucination, with an emphasis on the unique challenges posed by LLMs. We present taxonomies of the LLM hallucination phenomena and evaluation benchmarks, analyze existing approaches aiming at mitigating LLM hallucination, and discuss potential directions for future research.
翻訳日:2023-09-06 20:40:15 公開日:2023-09-03
# eXplainable Swarm (xSwarm)の設計空間の概要 : 専門家の視点から

Outlining the design space of eXplainable swarm (xSwarm): experts perspective ( http://arxiv.org/abs/2309.01269v1 )

ライセンス: Link先を確認
Mohammad Naiseh, Mohammad D. Soorati, Sarvapali Ramchurn(参考訳) swarm roboticsでは、エージェントがローカルの役割を通して相互作用し、個人の能力を超えた複雑なタスクを解決します。 Swarmは人間の介入を必要とせずにいくつかの操作を実行できるが、安全に重要なアプリケーションの多くは、Swarmの制御と監視を人間オペレーターに要求している。 HSI(Human-Swarm Interaction)には、対処がまだ始まっていない新しい課題がある。 説明可能性(Explainability)は、効果的で信頼性の高いHSIを促進し、Human-Swarmチームの全体的なパフォーマンスを改善する要因のひとつだ。 人間-ロボットインタラクションや人間中心mlなど、さまざまな人間-aiドメインで説明可能性を検討した。 しかし、人間-AI文学で研究された説明が人間-スウォームの研究・発展に有用かどうかはまだはっきりしない。 さらに、swarm roboticsにおける説明可能性要件の前提条件、すなわち、説明可能なswarmが答えるであろう質問の種類、そして、swarmが生み出す説明の種類についての基礎的な研究が欠如している。 26人のSwarmのエキスパートを調査し、これらの疑問に答え、専門家が直面する課題を特定し、ヒューマン・スウォーム環境における説明を生み出す。 私たちの研究は、swarmシステムで説明可能性がどのように実装され開発されるかを検討する、説明可能なswarm(xswarm)の新たな研究領域の定義に寄与しています。 本稿では、xSwarmに関する議論を開き、この分野におけるさらなる研究の道を開く。

In swarm robotics, agents interact through local roles to solve complex tasks beyond an individual's ability. Even though swarms are capable of carrying out some operations without the need for human intervention, many safety-critical applications still call for human operators to control and monitor the swarm. There are novel challenges to effective Human-Swarm Interaction (HSI) that are only beginning to be addressed. Explainability is one factor that can facilitate effective and trustworthy HSI and improve the overall performance of Human-Swarm team. Explainability was studied across various Human-AI domains, such as Human-Robot Interaction and Human-Centered ML. However, it is still ambiguous whether explanations studied in Human-AI literature would be beneficial in Human-Swarm research and development. Furthermore, the literature lacks foundational research on the prerequisites for explainability requirements in swarm robotics, i.e., what kind of questions an explainable swarm is expected to answer, and what types of explanations a swarm is expected to generate. By surveying 26 swarm experts, we seek to answer these questions and identify challenges experts faced to generate explanations in Human-Swarm environments. Our work contributes insights into defining a new area of research of eXplainable Swarm (xSwarm) which looks at how explainability can be implemented and developed in swarm systems. This paper opens the discussion on xSwarm and paves the way for more research in the field.
翻訳日:2023-09-06 20:34:32 公開日:2023-09-03
# 対話型自律性のための学習・認識安全

Learning-Aware Safety for Interactive Autonomy ( http://arxiv.org/abs/2309.01267v1 )

ライセンス: Link先を確認
Haimin Hu, Zixu Zhang, Kensuke Nakamura, Andrea Bajcsy, Jaime F. Fisac(参考訳) 自動運転車のようなロボットシステムの広範な展開における顕著な課題の1つは、効率を犠牲にすることなく、人間との安全なインタラクションを保証することだ。 既存の安全分析手法は、ロボットが実行時に学習し適応する能力を無視することが多く、過度に保守的な行動を引き起こす。 本稿では,将来のシナリオにおいてシステムの不確実性が明らかに変化することを考慮し,安全な制御ポリシを合成するための新しい閉ループパラダイムを提案する。 定式化の理由は、物理力学とロボットの学習アルゴリズムに共通しており、時間とともに内部の信念が更新される。 我々は,最先端予測モデルによって引き起こされる暗黙の学習ダイナミクスにおいても,高次元への拡張に敵意の深層強化学習(rl)を活用し,扱いやすい安全性解析を可能にした。 本研究では,バイエルン信念伝播と,前訓練型神経軌道予測器による暗黙的学習の両方に対応するためのフレームワークの能力を示す。

One of the outstanding challenges for the widespread deployment of robotic systems like autonomous vehicles is ensuring safe interaction with humans without sacrificing efficiency. Existing safety analysis methods often neglect the robot's ability to learn and adapt at runtime, leading to overly conservative behavior. This paper proposes a new closed-loop paradigm for synthesizing safe control policies that explicitly account for the system's evolving uncertainty under possible future scenarios. The formulation reasons jointly about the physical dynamics and the robot's learning algorithm, which updates its internal belief over time. We leverage adversarial deep reinforcement learning (RL) for scaling to high dimensions, enabling tractable safety analysis even for implicit learning dynamics induced by state-of-the-art prediction models. We demonstrate our framework's ability to work with both Bayesian belief propagation and the implicit learning induced by a large pre-trained neural trajectory predictor.
翻訳日:2023-09-06 20:34:06 公開日:2023-09-03
# soar: シーンデバイアスなオープンセットアクション認識

SOAR: Scene-debiasing Open-set Action Recognition ( http://arxiv.org/abs/2309.01265v1 )

ライセンス: Link先を確認
Yuanhao Zhai, Ziyi Liu, Zhenyu Wu, Yi Wu, Chunluan Zhou, David Doermann, Junsong Yuan, Gang Hua(参考訳) 深層学習モデルは、背景シーンに基づいて行動を認識するなど、素早い手がかりを利用して予測するリスクがある。 この問題は、テストサンプルがトレーニングサンプルと異なるシーン分布を持つ場合、オープンセットのアクション認識性能を著しく低下させる可能性がある。 そこで,本研究では,逆シーン再構築モジュールと適応逆シーン分類モジュールを特徴とする,シーンデバイアス型オープンセット動作認識(soar)と呼ばれる新しい手法を提案する。 前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。 後者は、アクションフォアグラウンドに特に重点を置いて、与えられた映像特徴のシーンタイプの分類を混同することを目的としており、シーン不変情報を学ぶのに役立つ。 さらに,シーンバイアスを定量化する実験を設計する。 結果は、現在のオープンセットアクション認識器が現場に偏りがあることを示し、提案したSOARメソッドはそのような偏りを緩和する。 さらに,本手法が最先端の手法に勝ることを示し,提案するモジュールの有効性をアブレーション実験により確認した。

Deep learning models have a risk of utilizing spurious clues to make predictions, such as recognizing actions based on the background scene. This issue can severely degrade the open-set action recognition performance when the testing samples have different scene distributions from the training samples. To mitigate this problem, we propose a novel method, called Scene-debiasing Open-set Action Recognition (SOAR), which features an adversarial scene reconstruction module and an adaptive adversarial scene classification module. The former prevents the decoder from reconstructing the video background given video features, and thus helps reduce the background information in feature learning. The latter aims to confuse scene type classification given video features, with a specific emphasis on the action foreground, and helps to learn scene-invariant information. In addition, we design an experiment to quantify the scene bias. The results indicate that the current open-set action recognizers are biased toward the scene, and our proposed SOAR method better mitigates such bias. Furthermore, our extensive experiments demonstrate that our method outperforms state-of-the-art methods, and the ablation studies confirm the effectiveness of our proposed modules.
翻訳日:2023-09-06 20:33:51 公開日:2023-09-03
# ハードネガティブサンプリングを用いたマルチモーダルコントラスト学習による人間活動認識

Multimodal Contrastive Learning with Hard Negative Sampling for Human Activity Recognition ( http://arxiv.org/abs/2309.01262v1 )

ライセンス: Link先を確認
Hyeongju Choi, Apoorva Beedu, Irfan Essa(参考訳) HAR(Human Activity Recognition)システムは、スマートホーム、監視、健康モニタリングといった日常生活における実践的な応用のために、ビジョンとユビキタスコンピューティングコミュニティによって広く研究されている。 通常、このプロセスは自然に管理されており、そのようなシステムの開発には大量の注釈付きデータへのアクセスが必要である。 しかし,良質なアノテーションの獲得に伴うコストと課題が高まり,自己教師あり手法の適用が魅力的な選択肢となり,コントラスト学習はそのような方法の1つを含んでいる。 しかし、コントラスト学習の成功の主要な要素は、良い正と負のサンプルの選択である。 正のサンプルは直接入手できるが、良い負のサンプルをサンプリングすることは依然として困難である。 カメラやIMUセンサーなどの複数のモードで人間の活動を記録できるので,骨格とIMUデータペアに対して,強い負のサンプリング損失を有するマルチモーダルHARのハードネガティブサンプリング手法を提案する。 我々は,アンカーと異なるラベルを持つ硬い負を,調整可能な濃度パラメータを用いて潜在空間の近傍に投影する。 UTD-MHADとMMActという2つのベンチマークデータセットに関する広範な実験を通じて、HARタスクの強力な特徴表現を学習するための我々のアプローチの堅牢性、および限られたデータ設定について実証する。 さらに,本モデルがutd-mhadデータセットの他の最先端手法,およびmmact:クロスセッションの自己教師あり手法よりも優れていることを示す。

Human Activity Recognition (HAR) systems have been extensively studied by the vision and ubiquitous computing communities due to their practical applications in daily life, such as smart homes, surveillance, and health monitoring. Typically, this process is supervised in nature and the development of such systems requires access to large quantities of annotated data. However, the higher costs and challenges associated with obtaining good quality annotations have rendered the application of self-supervised methods an attractive option and contrastive learning comprises one such method. However, a major component of successful contrastive learning is the selection of good positive and negative samples. Although positive samples are directly obtainable, sampling good negative samples remain a challenge. As human activities can be recorded by several modalities like camera and IMU sensors, we propose a hard negative sampling method for multimodal HAR with a hard negative sampling loss for skeleton and IMU data pairs. We exploit hard negatives that have different labels from the anchor but are projected nearby in the latent space using an adjustable concentration parameter. Through extensive experiments on two benchmark datasets: UTD-MHAD and MMAct, we demonstrate the robustness of our approach forlearning strong feature representation for HAR tasks, and on the limited data setting. We further show that our model outperforms all other state-of-the-art methods for UTD-MHAD dataset, and self-supervised methods for MMAct: Cross session, even when uni-modal data are used during downstream activity recognition.
翻訳日:2023-09-06 20:33:31 公開日:2023-09-03
# 多体局在ダイナミクスを用いた古典的シャドウトモグラフィ

Efficient Classical Shadow Tomography through Many-body Localization Dynamics ( http://arxiv.org/abs/2309.01258v1 )

ライセンス: Link先を確認
Tian-Gang Zhou and Pengfei Zhang(参考訳) 古典的なシャドウトモグラフィーは、最小の測定で量子多体系から多くの性質を抽出するための強力なツールである。 それにもかかわらず、少数体の演算子に最適な性能を与える手法は、超低温の原子ガスのような特定の量子シミュレーターにおいて挑戦的なタスクであるランダムな2量子ビットゲートの適用を必要とする。 そこで本研究では,多体局在化の力学を基礎とした代替手法を提案する。 シャドウノルムの探索を通じて, 解析的に表現論的モデルを用い, 数値的にtebdアルゴリズムを応用し, 浅い回路や測定による臨界性に匹敵する顕著な効率が得られることを示す。 この効率性は、パウリ測定プロトコルよりも指数関数的に有利である。 以上の知見は,サンプリングおよび再構成過程全体を包含する直接数値シミュレーションによって裏付けられる。 その結果, 量子シミュレータの出力状態を解析する手法が提案されている。

Classical shadow tomography serves as a potent tool for extracting numerous properties from quantum many-body systems with minimal measurements. Nevertheless, prevailing methods yielding optimal performance for few-body operators necessitate the application of random two-qubit gates, a task that can prove challenging on specific quantum simulators such as ultracold atomic gases. In this work, we introduce an alternative approach founded on the dynamics of many-body localization, a phenomenon extensively demonstrated in optical lattices. Through an exploration of the shadow norm -- both analytically, employing a phenomenological model, and numerically, utilizing the TEBD algorithm -- we demonstrate that our scheme achieves remarkable efficiency comparable to shallow circuits or measurement-induced criticality. This efficiency provides an exponential advantage over the Pauli measurement protocol for few-body measurements. Our findings are corroborated through direct numerical simulations encompassing the entire sampling and reconstruction processes. Consequently, our results present a compelling methodology for analyzing the output states of quantum simulators.
翻訳日:2023-09-06 20:33:02 公開日:2023-09-03
# BDC-Adapter: より良い視覚言語推論のためのブラウン距離共分散

BDC-Adapter: Brownian Distance Covariance for Better Vision-Language Reasoning ( http://arxiv.org/abs/2309.01256v1 )

ライセンス: Link先を確認
Yi Zhang, Ce Zhang, Zihan Liao, Yushun Tang, Zhihai He(参考訳) CLIPやALIGNのような大規模事前学習型視覚言語モデル(VLM)は、転送可能な視覚表現を学習するための新しいパラダイムを導入している。 近年、研究者の間では、これらのモデルを下流視覚タスクに適応させる軽量な微調整技術開発への関心が高まっている。 tip-adapterのような現在の最先端の微調整手法は、クエリ画像の特徴と、リニアリレーションのみをキャプチャし、潜在的に独立性知覚を誘惑する、少数ショットトレーニングサンプルの特徴との共分散を単純に考慮している。 この問題に対処するため、本研究では、視覚言語推論の分野にブラウン距離共分散(BDC)を革新的に導入する。 BDCメトリックはすべての可能な関係をモデル化することができ、特徴依存を測定するための堅牢な指標を提供する。 そこで本研究では,BDCプロトタイプの類似性推論とマルチモーダル推論ネットワーク予測を統合したBDC-Adapterを提案する。 広範な実験結果から,提案するbdc適応器は非線形関係を自由に処理でき,独立性を完全に特徴付けることができ,現在の最先端手法を大きなマージンで上回っている。

Large-scale pre-trained Vision-Language Models (VLMs), such as CLIP and ALIGN, have introduced a new paradigm for learning transferable visual representations. Recently, there has been a surge of interest among researchers in developing lightweight fine-tuning techniques to adapt these models to downstream visual tasks. We recognize that current state-of-the-art fine-tuning methods, such as Tip-Adapter, simply consider the covariance between the query image feature and features of support few-shot training samples, which only captures linear relations and potentially instigates a deceptive perception of independence. To address this issue, in this work, we innovatively introduce Brownian Distance Covariance (BDC) to the field of vision-language reasoning. The BDC metric can model all possible relations, providing a robust metric for measuring feature dependence. Based on this, we present a novel method called BDC-Adapter, which integrates BDC prototype similarity reasoning and multi-modal reasoning network prediction to perform classification tasks. Our extensive experimental results show that the proposed BDC-Adapter can freely handle non-linear relations and fully characterize independence, outperforming the current state-of-the-art methods by large margins.
翻訳日:2023-09-06 20:32:44 公開日:2023-09-03
# S2RF:Semantically Stylized Radiance Fields

S2RF: Semantically Stylized Radiance Fields ( http://arxiv.org/abs/2309.01252v1 )

ライセンス: Link先を確認
Dishani Lahiri, Neeraj Panse, Moneish Kumar(参考訳) 本稿では,任意の画像からオブジェクトへ3dシーン内のスタイルを転送する手法を提案する。 私たちの主な目的は、3dシーンのスタイライゼーションをよりコントロールし、任意の視点からカスタマイズ可能でスタイライゼーションされたシーンイメージの作成を容易にすることです。 そこで本研究では,近接型ロスを組み込んだ新しいアプローチを提案し,複雑なスタイル詳細を効果的に捉えつつ,柔軟な3次元シーン再構成を可能にし,複数視点の一貫性を確保する。

We present our method for transferring style from any arbitrary image(s) to object(s) within a 3D scene. Our primary objective is to offer more control in 3D scene stylization, facilitating the creation of customizable and stylized scene images from arbitrary viewpoints. To achieve this, we propose a novel approach that incorporates nearest neighborhood-based loss, allowing for flexible 3D scene reconstruction while effectively capturing intricate style details and ensuring multi-view consistency.
翻訳日:2023-09-06 20:32:19 公開日:2023-09-03
# $\tilde{\mathcal{O}}(\sqrt{n})$ Timeにおける最も長い共通部分弦と最も長いパリンドロミック部分弦

Longest Common Substring and Longest Palindromic Substring in $\tilde{\mathcal{O}}(\sqrt{n})$ Time ( http://arxiv.org/abs/2309.01250v1 )

ライセンス: Link先を確認
Domenico Cantone, Simone Faro, Arianna Pavone and Caterina Viola(参考訳) LCS(Longest Common Substring)とLPS(Longest Palindromic Substring)は、コンピュータ科学における古典的な問題であり、文字列処理における根本的な課題を表している。 どちらも接尾辞木(suffix tree)の使用に依存する、非常に類似したアルゴリズムを用いて、古典的な計算モデルを用いて線形時間に解くことができる。 量子クエリモデルにおける LCS と LPS の2つのサブ線形アルゴリズムが Le Gall と Seddighin~\cite{GallS23} によって提示され、それぞれ $\tilde{\mathcal{O}}(n^{5/6})$ と $\tilde{\mathcal{O}}(\sqrt{n})$ のクエリを必要とする。 しかし、クエリモデルは理論的には魅力的だが、実際のハードウェア上で実際に実行するためのアルゴリズムを開発する場合、実用性は限られている。 本稿では,計算回路モデルにおけるLCSとLCSの両方に対する$\tilde{\mathcal{O}}(\sqrt{n})$量子アルゴリズムを初めて提示する。 我々の解は以前の解よりも単純であり、量子手続きに容易に変換できる。 また、2つのアルゴリズムの実際の実装を、それぞれ$\mathcal{O}(\sqrt{n}\log^5(n))$と$\mathcal{O}(\sqrt{n}\log^4(n))$timeで動作する量子回路として提示する。

The Longest Common Substring (LCS) and Longest Palindromic Substring (LPS) are classical problems in computer science, representing fundamental challenges in string processing. Both problems can be solved in linear time using a classical model of computation, by means of very similar algorithms, both relying on the use of suffix trees. Very recently, two sublinear algorithms for LCS and LPS in the quantum query model have been presented by Le Gall and Seddighin~\cite{GallS23}, requiring $\tilde{\mathcal{O}}(n^{5/6})$ and $\tilde{\mathcal{O}}(\sqrt{n})$ queries, respectively. However, while the query model is fascinating from a theoretical standpoint, its practical applicability becomes limited when it comes to crafting algorithms meant for actual execution on real hardware. In this paper we present, for the first time, a $\tilde{\mathcal{O}}(\sqrt{n})$ quantum algorithm for both LCS and LPS working in the circuit model of computation. Our solutions are simpler than previous ones and can be easily translated into quantum procedures. We also present actual implementations of the two algorithms as quantum circuits working in $\mathcal{O}(\sqrt{n}\log^5(n))$ and $\mathcal{O}(\sqrt{n}\log^4(n))$ time, respectively.
翻訳日:2023-09-06 20:32:11 公開日:2023-09-03
# マルチモーダル意味コミュニケーション能力を持つ大規模aiモデル

Large AI Model Empowered Multimodal Semantic Communications ( http://arxiv.org/abs/2309.01249v1 )

ライセンス: Link先を確認
Feibo Jiang, Yubo Peng, Li Dong, Kezhi Wang, Kun Yang, Cunhua Pan, Xiaohu You(参考訳) テキスト、音声、画像、ビデオを含むマルチモーダル信号は、セマンティックコミュニケーション(SC)に統合され、低レイテンシで、セマンティックレベルで高品質な没入型体験を提供する。 しかし、マルチモーダルSCには、データ不均一性、意味的曖昧性、信号の消失など、いくつかの課題がある。 大規模AIモデルの最近の進歩、特にMLM(Multimodal Language Model)とLLM(Large Language Model)は、これらの問題に対する潜在的な解決策を提供する。 そこで我々は,MLMを利用したMLMベースのマルチモーダルアライメント(MMA)を初めて提示し,意味的一貫性を維持しつつ,マルチモーダルデータとユニモーダルデータの変換を可能にする,大規模AIモデルに基づくマルチモーダルSC(LAM-MSC)フレームワークを提案する。 次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、LLMを通してパーソナライズされた意味抽出やリカバリを行うことができる。 これは意味的曖昧さに効果的に対処する。 最後に,条件付き生成型adversarial network-based channel estimation(cge)を用いてチャネル状態情報(csi)を得る。 このアプローチはSCにおけるフェードチャネルの影響を効果的に軽減する。 最後に,LAM-MSCフレームワークの優れた性能を示すシミュレーションを行う。

Multimodal signals, including text, audio, image and video, can be integrated into Semantic Communication (SC) for providing an immersive experience with low latency and high quality at the semantic level. However, the multimodal SC has several challenges, including data heterogeneity, semantic ambiguity, and signal fading. Recent advancements in large AI models, particularly in Multimodal Language Model (MLM) and Large Language Model (LLM), offer potential solutions for these issues. To this end, we propose a Large AI Model-based Multimodal SC (LAM-MSC) framework, in which we first present the MLM-based Multimodal Alignment (MMA) that utilizes the MLM to enable the transformation between multimodal and unimodal data while preserving semantic consistency. Then, a personalized LLM-based Knowledge Base (LKB) is proposed, which allows users to perform personalized semantic extraction or recovery through the LLM. This effectively addresses the semantic ambiguity. Finally, we apply the Conditional Generative adversarial networks-based channel Estimation (CGE) to obtain Channel State Information (CSI). This approach effectively mitigates the impact of fading channels in SC. Finally, we conduct simulations that demonstrate the superior performance of the LAM-MSC framework.
翻訳日:2023-09-06 20:31:40 公開日:2023-09-03
# 拡張確率勾配Descenceのための修正ステップサイズ:収束と実験

Modified Step Size for Enhanced Stochastic Gradient Descent: Convergence and Experiments ( http://arxiv.org/abs/2309.01248v1 )

ライセンス: Link先を確認
M. Soheil Shamaee, S. Fathi Hafshejani(参考訳) 本稿では,$\frac{1}{\sqrt{t}}$に基づく変形ステップサイズを組み込むことで,確率勾配勾配勾配(SGD)アルゴリズムの性能を向上させる新しい手法を提案する。 提案されたステップサイズは対数項を統合し、最終イテレーションでより小さな値を選択する。 我々の解析は、Polyak-{\L}ojasiewicz条件のない滑らかな非凸函数に対して$O(\frac{\ln T}{\sqrt{T}})$の収束速度を確立する。 提案手法の有効性を評価するため,fashionmnistとcifar10を用いた画像分類実験を行い,従来の$\frac{1}{\sqrt{t}}$ステップサイズに比べて0.5\%$と$1.4\%$がそれぞれ観測された。 ソースコードは \\url{https://github.com/Shamaeem/LNSQRTStepSize} にある。

This paper introduces a novel approach to enhance the performance of the stochastic gradient descent (SGD) algorithm by incorporating a modified decay step size based on $\frac{1}{\sqrt{t}}$. The proposed step size integrates a logarithmic term, leading to the selection of smaller values in the final iterations. Our analysis establishes a convergence rate of $O(\frac{\ln T}{\sqrt{T}})$ for smooth non-convex functions without the Polyak-{\L}ojasiewicz condition. To evaluate the effectiveness of our approach, we conducted numerical experiments on image classification tasks using the FashionMNIST, and CIFAR10 datasets, and the results demonstrate significant improvements in accuracy, with enhancements of $0.5\%$ and $1.4\%$ observed, respectively, compared to the traditional $\frac{1}{\sqrt{t}}$ step size. The source code can be found at \\\url{https://github.com/Shamaeem/LNSQRTStepSize}.
翻訳日:2023-09-06 20:31:17 公開日:2023-09-03
# 創造的社会選択

Generative Social Choice ( http://arxiv.org/abs/2309.01291v1 )

ライセンス: Link先を確認
Sara Fish, Paul G\"olz, David C. Parkes, Ariel D. Procaccia, Gili Rusak, Itai Shapira, Manuel W\"uthrich(参考訳) 伝統的に、社会的選択理論は、いくつかの所定の選択肢のうちの選択のみに適用されるが、集合的にテキスト文を選択するようなより複雑な決定には適用されない。 本稿では,社会的選択理論の数学的厳密性と,テキスト生成と外挿的選好能力を組み合わせた枠組みである生成的社会的選好について紹介する。 このフレームワークは、AIによって強化された民主的プロセスの設計を2つのコンポーネントに分割する。まず、プロセスがオラクルクエリへのアクセスを与えられたときに厳密な表現を保証することを証明する。 この枠組みは、例えばオンラインの熟考プロセスにおいて、自由形式の文章として表現された意見を表す文のスレートを生成する問題に適用することで説明する。

Traditionally, social choice theory has only been applicable to choices among a few predetermined alternatives but not to more complex decisions such as collectively selecting a textual statement. We introduce generative social choice, a framework that combines the mathematical rigor of social choice theory with large language models' capability to generate text and extrapolate preferences. This framework divides the design of AI-augmented democratic processes into two components: first, proving that the process satisfies rigorous representation guarantees when given access to oracle queries; second, empirically validating that these queries can be approximately implemented using a large language model. We illustrate this framework by applying it to the problem of generating a slate of statements that is representative of opinions expressed as free-form text, for instance in an online deliberative process.
翻訳日:2023-09-06 20:23:36 公開日:2023-09-03
# 連立直交訓練--連立学習における世界大惨事の回避

Federated Orthogonal Training: Mitigating Global Catastrophic Forgetting in Continual Federated Learning ( http://arxiv.org/abs/2309.01289v1 )

ライセンス: Link先を確認
Yavuz Faruk Bakman, Duygu Nur Yaldiz, Yahya H. Ezzeldin, Salman Avestimehr(参考訳) Federated Learning (FL)は、分散データによるプライバシー保護トレーニングを可能にする能力によって、大きな注目を集めている。 FLの現在の文献は主にシングルタスク学習に焦点を当てている。 しかし、時間が経つにつれて、クライアントに新しいタスクが現れ、グローバルモデルは以前のタスクを忘れずにこれらのタスクを学習すべきである。 この現実世界のシナリオはcontinual federated learning (cfl)として知られている。 CFLの主な課題はGlobal Catastrophic Forgettingであり、これは、グローバルモデルが新しいタスクで訓練されると、古いタスクのパフォーマンスが低下するという事実に対応する。 近年CFLにおいて、世界的な破滅的な忘れの問題に対処する手法を提案する研究がいくつか行われている。 しかしながら、これらの作業は過去のデータサンプルの可用性に関する非現実的な仮定を持つか、flのプライバシ原則に違反する。 本稿では,これらの欠点を克服し,CFLにおける世界的な破滅的忘れを解消する新たな手法であるFOTを提案する。 提案手法は,古いタスクに対する各レイヤのグローバル入力サブスペースを抽出し,新しいタスクの集約された更新を,各レイヤの古いタスクのグローバルプリンシパルサブスペースと直交するように修正する。 これにより、タスク間の干渉が減少する。 実験により,fotはcfl設定において最先端の連続学習手法を上回っており,最大15%の精度向上を達成し,最小の計算と通信コストを伴わずに27%の精度で学習できることを示した。

Federated Learning (FL) has gained significant attraction due to its ability to enable privacy-preserving training over decentralized data. Current literature in FL mostly focuses on single-task learning. However, over time, new tasks may appear in the clients and the global model should learn these tasks without forgetting previous tasks. This real-world scenario is known as Continual Federated Learning (CFL). The main challenge of CFL is Global Catastrophic Forgetting, which corresponds to the fact that when the global model is trained on new tasks, its performance on old tasks decreases. There have been a few recent works on CFL to propose methods that aim to address the global catastrophic forgetting problem. However, these works either have unrealistic assumptions on the availability of past data samples or violate the privacy principles of FL. We propose a novel method, Federated Orthogonal Training (FOT), to overcome these drawbacks and address the global catastrophic forgetting in CFL. Our algorithm extracts the global input subspace of each layer for old tasks and modifies the aggregated updates of new tasks such that they are orthogonal to the global principal subspace of old tasks for each layer. This decreases the interference between tasks, which is the main cause for forgetting. We empirically show that FOT outperforms state-of-the-art continual learning methods in the CFL setting, achieving an average accuracy gain of up to 15% with 27% lower forgetting while only incurring a minimal computation and communication cost.
翻訳日:2023-09-06 20:23:21 公開日:2023-09-03
# MAP:メタラーニングによるドメインの一般化

MAP: Domain Generalization via Meta-Learning on Anatomy-Consistent Pseudo-Modalities ( http://arxiv.org/abs/2309.01286v1 )

ライセンス: Link先を確認
Dewei Hu, Hao Li, Han Liu, Xing Yao, Jiacheng Wang and Ipek Oguz(参考訳) 深層モデルは未発見領域への限定的な一般化能力に苦しめられ、臨床応用性が著しく阻害されている。 特に網膜血管の分節作業では、モデルは対象の解剖学を学ぶことが想定されているが、強度やコントラストといった要因を組み合わせることで注意をそらすことができる。 構造的特徴を学習することでモデル一般化性を向上させる手法として,解剖学的に一貫性のある擬似モダリティ(MAP)のメタラーニングを提案する。 まず、特徴抽出ネットワークを利用して、元の画像の容器構造を共有する3つの異なる擬似モダリティを生成する。 次に、擬似モダリティの1つをメタトレインデータセットとして選択し、残りの擬似モダリティのディリクレ混合により生成される連続拡張画像空間上でメタテストを行う。 さらに,同一血管を特徴とする画像から得られた潜在ベクトルをクラスタリングすることにより,形状情報に着目した2つの損失関数を導入する。 我々は,様々な網膜画像モダリティのパブリックデータセットを7つ評価し,MAPの一般化性について検討した。 私たちのコードはhttps://github.com/DeweiHu/MAPで公開されています。

Deep models suffer from limited generalization capability to unseen domains, which has severely hindered their clinical applicability. Specifically for the retinal vessel segmentation task, although the model is supposed to learn the anatomy of the target, it can be distracted by confounding factors like intensity and contrast. We propose Meta learning on Anatomy-consistent Pseudo-modalities (MAP), a method that improves model generalizability by learning structural features. We first leverage a feature extraction network to generate three distinct pseudo-modalities that share the vessel structure of the original image. Next, we use the episodic learning paradigm by selecting one of the pseudo-modalities as the meta-train dataset, and perform meta-testing on a continuous augmented image space generated through Dirichlet mixup of the remaining pseudo-modalities. Further, we introduce two loss functions that facilitate the model's focus on shape information by clustering the latent vectors obtained from images featuring identical vasculature. We evaluate our model on seven public datasets of various retinal imaging modalities and we conclude that MAP has substantially better generalizability. Our code is publically available at https://github.com/DeweiHu/MAP.
翻訳日:2023-09-06 20:22:52 公開日:2023-09-03
# FOR-instance: 個々の木のセマンティックスとインスタンスセグメンテーションのためのUAVレーザースキャンベンチマークデータセット

FOR-instance: a UAV laser scanning benchmark dataset for semantic and instance segmentation of individual trees ( http://arxiv.org/abs/2309.01279v1 )

ライセンス: Link先を確認
Stefano Puliti, Grant Pearse, Peter Surov\'y, Luke Wallace, Markus Hollaus, Maciej Wielgosz, Rasmus Astrup(参考訳) for-instanceデータセット(https://doi.org/10.5281/zenodo.8287792)は、森林生態系の理解と持続可能な管理に不可欠である、レーザースキャンデータからの個々のツリーセグメンテーションの正確な課題に対処する。 詳細なツリーデータの必要性は高まっているが、セグメンテーションの自動化と科学的進歩の追跡は依然として困難である。 既存の方法論は、しばしば小さなデータセットに適合し、互換性が欠如し、適用性が制限される。 ディープラーニング手法の出現によって引き起こされる進歩の中で、標準化されたベンチマークはこれらの研究領域において最重要視されている。 本稿では,3次元森林シーンセグメンテーションの進展を推し進めることを目的とした,高密度空中レーザスキャンデータのベンチマークデータセットを提案する。 FOR-instanceデータセットは、5つのキュレートされたML対応UAVベースのレーザースキャンデータからなり、様々な森林タイプを表す。 レーザースキャンデータは、個々の木(インスタンス)と異なる意味クラス(茎、木質の枝、生きた枝、地形、低植生など)に手動で注釈付けされた。 データセットは、開発とテストのサブセットに分割され、特定の利用ガイドラインに従って、メソッドの進歩と評価を可能にする。 インスタンスとセマンティクスのセグメンテーションをサポートし、ディープラーニングフレームワークとさまざまなセグメンテーション戦略への適応性を提供する。 結論として,for-instanceデータセットは3dフォレスト研究のギャップを埋めることに貢献し,高密度空中レーザー走査データのセグメンテーションアルゴリズムの開発とベンチマークを強化している。

The FOR-instance dataset (available at https://doi.org/10.5281/zenodo.8287792) addresses the challenge of accurate individual tree segmentation from laser scanning data, crucial for understanding forest ecosystems and sustainable management. Despite the growing need for detailed tree data, automating segmentation and tracking scientific progress remains difficult. Existing methodologies often overfit small datasets and lack comparability, limiting their applicability. Amid the progress triggered by the emergence of deep learning methodologies, standardized benchmarking assumes paramount importance in these research domains. This data paper introduces a benchmarking dataset for dense airborne laser scanning data, aimed at advancing instance and semantic segmentation techniques and promoting progress in 3D forest scene segmentation. The FOR-instance dataset comprises five curated and ML-ready UAV-based laser scanning data collections from diverse global locations, representing various forest types. The laser scanning data were manually annotated into individual trees (instances) and different semantic classes (e.g. stem, woody branches, live branches, terrain, low vegetation). The dataset is divided into development and test subsets, enabling method advancement and evaluation, with specific guidelines for utilization. It supports instance and semantic segmentation, offering adaptability to deep learning frameworks and diverse segmentation strategies, while the inclusion of diameter at breast height data expands its utility to the measurement of a classic tree variable. In conclusion, the FOR-instance dataset contributes to filling a gap in the 3D forest research, enhancing the development and benchmarking of segmentation algorithms for dense airborne laser scanning data.
翻訳日:2023-09-06 20:22:30 公開日:2023-09-03
# ディリクレ分布不均質データに対するfedavgとper-fedavgアルゴリズムの比較評価

A Comparative Evaluation of FedAvg and Per-FedAvg Algorithms for Dirichlet Distributed Heterogeneous Data ( http://arxiv.org/abs/2309.01275v1 )

ライセンス: Link先を確認
Hamza Reguieg, Mohammed El Hanjri, Mohamed El Kamili, Abdellatif Kobbane(参考訳) 本稿では,機械学習のパラダイムであるフェデレーテッド・ラーニング(FL)について検討する。データプライバシの保護により,生データを共有せずにデバイス上での分散モデルトレーニングを可能にする。 特に、フェデレーション平均化(federated averaging, fedavg)とパーソナライズされたフェデレーション平均化(federated averaging, fedavg)の2つの戦略を比較し、非識別的かつ独立した分散(非iid)データのパフォーマンスに注目した。 解析の結果,ディリクレ分布を用いてモデル化したデータ不均質性は,両戦略の性能に大きく影響し,高い不均質性条件下ではfedavg当たりのロバスト性が優れていることがわかった。 この結果は、分散環境でのより効率的かつ効率的な機械学習戦略の開発に関する洞察を提供する。

In this paper, we investigate Federated Learning (FL), a paradigm of machine learning that allows for decentralized model training on devices without sharing raw data, there by preserving data privacy. In particular, we compare two strategies within this paradigm: Federated Averaging (FedAvg) and Personalized Federated Averaging (Per-FedAvg), focusing on their performance with Non-Identically and Independently Distributed (Non-IID) data. Our analysis shows that the level of data heterogeneity, modeled using a Dirichlet distribution, significantly affects the performance of both strategies, with Per-FedAvg showing superior robustness in conditions of high heterogeneity. Our results provide insights into the development of more effective and efficient machine learning strategies in a decentralized setting.
翻訳日:2023-09-06 20:21:57 公開日:2023-09-03
# 決定論的正規化フロー前の拡散モデル

Diffusion Models with Deterministic Normalizing Flow Priors ( http://arxiv.org/abs/2309.01274v1 )

ライセンス: Link先を確認
Mohsen Zand, Ali Etemad, Michael Greenspan(参考訳) より高速なサンプリングと高いサンプル品質のために、フローの正規化と拡散モデルを利用したテクニックである dinof (\textbf{di}$ffusion with $\textbf{no}$rmalizing $\textbf{f}$low priors) を提案する。 拡散過程の任意のステップでノイズデータをパラメータ化するために正規化フローを使用し、逆拡散過程の先行として利用する。 より具体的には、フォワードノージングプロセスはデータ分布を部分的にノイズのあるデータに変換し、それが非線形プロセスによってガウス分布に変換される。 後方復調手順はガウス分布からサンプリングし、決定論的に非可逆正規化フロー変換を適用することによって、先行生成から始まる。 データ分布を生成するために、前者は残りの拡散確率復調処理を行う。 また, 全拡散段数の削減により, 前処理と後処理の両方を高速化することができる。 さらに、決定論的写像と確率的写像の両方を用いて拡散モデルの表現力を向上させる。 標準画像生成データセットに関する実験は、既存のアプローチよりも提案手法の利点を実証している。 例えば、無条件のcifar10データセットでは、fidは2.01でインセプションスコアは9.96である。 また,CelebA-HQ-256データセットにおけるFIDスコア7.11の競合性能を示す。 コードはhttps://github.com/MohsenZand/DiNof.comで入手できる。

For faster sampling and higher sample quality, we propose DiNof ($\textbf{Di}$ffusion with $\textbf{No}$rmalizing $\textbf{f}$low priors), a technique that makes use of normalizing flows and diffusion models. We use normalizing flows to parameterize the noisy data at any arbitrary step of the diffusion process and utilize it as the prior in the reverse diffusion process. More specifically, the forward noising process turns a data distribution into partially noisy data, which are subsequently transformed into a Gaussian distribution by a nonlinear process. The backward denoising procedure begins with a prior created by sampling from the Gaussian distribution and applying the invertible normalizing flow transformations deterministically. To generate the data distribution, the prior then undergoes the remaining diffusion stochastic denoising procedure. Through the reduction of the number of total diffusion steps, we are able to speed up both the forward and backward processes. More importantly, we improve the expressive power of diffusion models by employing both deterministic and stochastic mappings. Experiments on standard image generation datasets demonstrate the advantage of the proposed method over existing approaches. On the unconditional CIFAR10 dataset, for example, we achieve an FID of 2.01 and an Inception score of 9.96. Our method also demonstrates competitive performance on CelebA-HQ-256 dataset as it obtains an FID score of 7.11. Code is available at https://github.com/MohsenZand/DiNof.
翻訳日:2023-09-06 20:21:40 公開日:2023-09-03
# 組成依存位相図のベイズ推定

Bayesian inference of composition-dependent phase diagrams ( http://arxiv.org/abs/2309.01271v1 )

ライセンス: Link先を確認
Timofei Miryashkin, Olga Klimanova, Vladimir Ladygin, Alexander Shapeev(参考訳) 位相図は、特定の条件下で材料が現示できる位相に関する情報をカプセル化する、材料設計の非常に有用なツールとして機能する。 本研究では,分子動力学(md),融点シミュレーション,フォノン計算からの熱力学データを組み合わせ,これらのデータを処理し,温度集中相図を生成するベイズ推定法を開発した。 ベイズフレームワークは温度と濃度の関数として異なる相の自由エネルギーを得るだけでなく、有限長MD軌道に固有の統計誤差から生じるこれらの自由エネルギーの不確かさも引き起こす。 さらに、有限原子計算の結果を無限原子限界まで外挿し、温度、化学ポテンシャル、および次のシミュレーションを行う原子の数の選択を容易にし、相図の不確かさを減らすのに最も効果的である。 開発したアルゴリズムは,Ge-SiとK-Naの2つの二元系で全濃度および温度で試験に成功した。

Phase diagrams serve as a highly informative tool for materials design, encapsulating information about the phases that a material can manifest under specific conditions. In this work, we develop a method in which Bayesian inference is employed to combine thermodynamic data from molecular dynamics (MD), melting point simulations, and phonon calculations, process these data, and yield a temperature-concentration phase diagram. The employed Bayesian framework yields us not only the free energies of different phases as functions of temperature and concentration but also the uncertainties of these free energies originating from statistical errors inherent to finite-length MD trajectories. Furthermore, it extrapolates the results of the finite-atom calculations to the infinite-atom limit and facilitates the choice of temperature, chemical potentials, and the number of atoms conducting the next simulation with which will be the most efficient in reducing the uncertainty of the phase diagram. The developed algorithm was successfully tested on two binary systems, Ge-Si and K-Na, in the full range of concentrations and temperatures.
翻訳日:2023-09-06 20:21:14 公開日:2023-09-03
# COMEDIAN:変圧器を用いた行動スポッティングのための自己指導型学習と知識蒸留

COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action Spotting using Transformers ( http://arxiv.org/abs/2309.01270v1 )

ライセンス: Link先を確認
Julien Denize, Mykola Liashuha, Jaonary Rabarisoa, Astrid Orcesi, Romain H\'erault(参考訳) 自己教師付き学習と知識蒸留を含む行動スポッティングのための時空間トランスフォーマーを初期化する新しいパイプラインであるcomndianを提案する。 アクションスポッティングはタイムスタンプレベルの時間的アクション検出タスクである。 私たちのパイプラインは3つのステップから成り、2つの初期化ステージがあります。 まず,短い映像を入力として空間トランスの自己教師付き初期化を行う。 さらに,空間変換器の出力をグローバルな文脈で拡張する時間変換器を,各ショートビデオセグメントに整列した計算済み特徴バンクからの知識蒸留により初期化する。 最後のステップでは、トランスをアクションスポッティングタスクに微調整します。 SoccerNet-v2データセットで実施された実験は、最先端のパフォーマンスを示し、COMEDIANの事前学習パラダイムの有効性を検証する。 この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにした。

We present COMEDIAN, a novel pipeline to initialize spatio-temporal transformers for action spotting, which involves self-supervised learning and knowledge distillation. Action spotting is a timestamp-level temporal action detection task. Our pipeline consists of three steps, with two initialization stages. First, we perform self-supervised initialization of a spatial transformer using short videos as input. Additionally, we initialize a temporal transformer that enhances the spatial transformer's outputs with global context through knowledge distillation from a pre-computed feature bank aligned with each short video segment. In the final step, we fine-tune the transformers to the action spotting task. The experiments, conducted on the SoccerNet-v2 dataset, demonstrate state-of-the-art performance and validate the effectiveness of COMEDIAN's pretraining paradigm. Our results highlight several advantages of our pretraining pipeline, including improved performance and faster convergence compared to non-pretrained models.
翻訳日:2023-09-06 20:20:57 公開日:2023-09-03
# 19形態のディラック流体力学

Dirac hydrodynamics in 19 forms ( http://arxiv.org/abs/2309.00617v1 )

ライセンス: Link先を確認
Luca Fabbri(参考訳) 我々は、相対論的スピノル場理論を極性変数で再定式化し、流体変数の項で与えられる解釈を可能にする。 その後、スピノル場の力学は、特別な種類のスピン流体の力学として変換され、ダイナミックなスピン流体への変換はユニークではないが、ダイラック方程式と同等の19ドル最小の流体方程式系を明示的に示することにより、19ドルの異なる再配置によって得られることを示した。

We consider the relativistic spinor field theory re-formulated in polar variables so to allow for the interpretation given in terms of fluid variables. After that the dynamics of spinor fields is converted as dynamics of a special type of spin fluid, we demonstrate that such conversion into dynamical spin fluid is not unique but it can be obtained through $19$ different rearrangements, by explicitly showing the $19$ minimal systems of hydrodynamic equations that are equivalent to the Dirac equations.
翻訳日:2023-09-04 12:42:25 公開日:2023-09-03