このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230817となっている論文です。

PDF登録状況(公開日: 20230817)

TitleAuthorsAbstract論文公表日・翻訳日
# ダブルウェル発振器群の変分処理について

On the variational treatment of a class of double-well oscillators ( http://arxiv.org/abs/2312.00004v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez and Javier Garcia(参考訳) 有名なレイリー・リッツ変分法(rrvm)と超対称性量子力学とグラムシュミット直交法(ssqmgs)に基づく最近提案されたアプローチを比較した。 後者の手法の適用に都合よく選択された特定の2重ウェル高調波発振器に適用する。 RRVM固有値は上から滑らかに収束し、計算労力の少ないより正確な結果が得られる。 その結果,未証明のSSQMGS上限は保たないことがわかった。

We compare the well known Rayleigh-Ritz variational method (RRVM) with a recently proposed approach based on supersymmetric quantum mechanics and the Gram-Schmidt orthogonalization method (SSQMGS). We apply both procedures to a particular class of double-well harmonic oscillators that had been conveniently chosen for the application of the latter approach. The RRVM eigenvalues converge smoothly from above providing much more accurate results with less computational effort. Present results show that the unproved SSQMGS upper bounds do not hold.
翻訳日:2024-01-15 15:09:07 公開日:2023-08-17
# 社会的関連分野におけるIoTデバイスのアーキテクチャと応用

Architecture and Applications of IoT Devices in Socially Relevant Fields ( http://arxiv.org/abs/2308.09195v1 )

ライセンス: Link先を確認
S. Anush Lakshman, S. Akash, J. Cynthia, R. Gautam, D. Ebenezer(参考訳) 毎年多くのIoTデバイスが試みられ、導入されているが、これらのデバイスは市場の可能性が大きいため、IoTによって生成されたスペースを収益化しようとする研究や企業の間では健全な競争が続いている。 デバイスが処理するデータの種類やセンシティブな性質に応じて、さまざまなiotアーキテクチャ、通信プロトコル、コンポーネントが選択され、そのパフォーマンスが評価される。 本稿では, 医療, 農業, 消防, 女性/個人安全/コール, ヘルプ/ハーム警報, ホームサーベイランス, マッピングなど, 一般市民の多数を占める分野において, そのアーキテクチャ, 通信プロトコル, 機能に基づくiot対応デバイスについて検討する。 驚くことに、すでにかなりの数のデバイスがこれらの分野で報告されており、その性能は有望である。 また,これらの機器を信頼性の高いものにするためには,各分野の課題についても概説する。

Number of IoT enabled devices are being tried and introduced every year and there is a healthy competition among researched and businesses to capitalize the space created by IoT, as these devices have a great market potential. Depending on the type of task involved and sensitive nature of data that the device handles, various IoT architectures, communication protocols and components are chosen and their performance is evaluated. This paper reviews such IoT enabled devices based on their architecture, communication protocols and functions in few key socially relevant fields like health care, farming, firefighting, women/individual safety/call for help/harm alert, home surveillance and mapping as these fields involve majority of the general public. It can be seen, to one's amazement, that already significant number of devices are being reported on these fields and their performance is promising. This paper also outlines the challenges involved in each of these fields that require solutions to make these devices reliable
翻訳日:2023-10-23 13:52:07 公開日:2023-08-17
# ハイパーファジング:グレイボックスファジングによるブラックボックスセキュリティハイパーテスト

Hyperfuzzing: black-box security hypertesting with a grey-box fuzzer ( http://arxiv.org/abs/2308.09081v1 )

ライセンス: Link先を確認
Daniel Blackwell, Ingolf Becker, David Clark(参考訳) 情報漏洩は重大な結果をもたらす可能性のあるエラーのクラスである。 しかし、他のエラーとは異なり、ソフトウェアテストプロセス中に明示的に考慮されることは滅多にない。 LeakFuzzerは、非干渉セキュリティプロパティとセキュリティフローポリシーを神託として使用することで、技術の状態を前進させる。 ツールがアートファズー、AFL++の状態を拡大するにつれて、LeakFuzzerはスケーラビリティ、自動入力生成、高カバレッジ、開発者の介入の少ないAFL++の利点を継承する。 このツールは、通常のファジィザが検出できるのと同じエラーセットを検出し、セキュアな情報フローポリシー違反を検出することができる。 我々は、80行から9万行以上のコードまで、既知の情報リークを含む10のcおよびc++ベンチマークで、 leakfuzzerを評価した。 これらのうち7つは、HeartbleedやPostgreSQLの最近のエラーなど、現実世界のCVEから取り出されている。 20時間実行すると、LeakFuzzerはSUTのリークの100%を見つけることができるが、CBMCモデルチェッカーや異なるサニタイザを備えたAFL++などの既存のテクニックは40%しか見つからない。

Information leakage is a class of error that can lead to severe consequences. However unlike other errors, it is rarely explicitly considered during the software testing process. LeakFuzzer advances the state of the art by using a noninterference security property together with a security flow policy as an oracle. As the tool extends the state of the art fuzzer, AFL++, LeakFuzzer inherits the advantages of AFL++ such as scalability, automated input generation, high coverage and low developer intervention. The tool can detect the same set of errors that a normal fuzzer can detect, with the addition of being able to detect violations of secure information flow policies. We evaluated LeakFuzzer on a diverse set of 10 C and C++ benchmarks containing known information leaks, ranging in size from just 80 to over 900k lines of code. Seven of these are taken from real-world CVEs including Heartbleed and a recent error in PostgreSQL. Given 20 24-hour runs, LeakFuzzer can find 100% of the leaks in the SUTs whereas existing techniques using such as the CBMC model checker and AFL++ augmented with different sanitizers can only find 40% at best.
翻訳日:2023-10-23 13:51:51 公開日:2023-08-17
# Androidアプリのカラー関連アクセシビリティ問題の自動修正とコンテキスト認識

Automated and Context-Aware Repair of Color-Related Accessibility Issues for Android Apps ( http://arxiv.org/abs/2308.09029v1 )

ライセンス: Link先を確認
Yuxin Zhang, Sen Chen, Lingling Fan, Chunyang Chen, Xiaohong Li(参考訳) 世界の人口の約15%が様々な障害や障害に悩まされている。 しかし、多くのモバイルUXデザイナや開発者は、アプリを開発する際に障害のある人々にとってアクセシビリティの重要性を軽視している。 アクセシビリティ問題を検出するための多くの研究と効果的なツールが実施され、そのような深刻な問題を緩和するために提案されている。 しかし、検出と比較すると、修理作業は明らかに遅れている。 特にカラー関連アクセシビリティの問題は、視覚やユーザエクスペリエンスに非常に悪い影響を与える、アプリにおける最大の問題のひとつです。 このような問題のあるアプリは、視力の低い人や高齢者には使えません。 残念ながら、このような問題は既存の修理技術では直接修正できない。 そこで本研究では,アプリケーションにおける色関連アクセシビリティ問題(テキストコントラスト問題と画像コントラスト問題)を修正するための,自動かつコンテキスト対応の修復手法であるIrisを提案する。 最適な色と属性間ローカライズの重要なフェーズを解決する新しいコンテキスト認識技術を活用することで、irisはカラーコントラストの問題を修復するだけでなく、元のuiページと修正されたuiページの間のデザインスタイルとの一貫性を保証する。 実験の結果,イリスは91.38%の修理成功率を高い効率で達成できることがわかった。 irisの有用性は、満足度の高いユーザ調査や、開発者のポジティブなフィードバックによっても評価されている。 githubリポジトリに提出されたプルリクエスト40件のうち9件が受理され、アプリ開発者がプロジェクトにマージされました。 Irisはこの新たな研究の方向性を促進するために公開されている。

Approximately 15% of the world's population is suffering from various disabilities or impairments. However, many mobile UX designers and developers disregard the significance of accessibility for those with disabilities when developing apps. A large number of studies and some effective tools for detecting accessibility issues have been conducted and proposed to mitigate such a severe problem. However, compared with detection, the repair work is obviously falling behind. Especially for the color-related accessibility issues, which is one of the top issues in apps with a greatly negative impact on vision and user experience. Apps with such issues are difficult to use for people with low vision and the elderly. Unfortunately, such an issue type cannot be directly fixed by existing repair techniques. To this end, we propose Iris, an automated and context-aware repair method to fix the color-related accessibility issues (i.e., the text contrast issues and the image contrast issues) for apps. By leveraging a novel context-aware technique that resolves the optimal colors and a vital phase of attribute-to-repair localization, Iris not only repairs the color contrast issues but also guarantees the consistency of the design style between the original UI page and repaired UI page. Our experiments unveiled that Iris can achieve a 91.38% repair success rate with high effectiveness and efficiency. The usefulness of Iris has also been evaluated by a user study with a high satisfaction rate as well as developers' positive feedback. 9 of 40 submitted pull requests on GitHub repositories have been accepted and merged into the projects by app developers, and another 4 developers are actively discussing with us for further repair. Iris is publicly available to facilitate this new research direction.
翻訳日:2023-10-23 13:51:16 公開日:2023-08-17
# 現代のソフトウェアシステム時代におけるログ解析の評価

Log Parsing Evaluation in the Era of Modern Software Systems ( http://arxiv.org/abs/2308.09003v1 )

ライセンス: Link先を確認
Stefan Petrescu, Floris den Hengst, Alexandru Uta, Jan S. Rellermeyer(参考訳) 現代のソフトウェアシステムの複雑さとサイズのため、生成されるログの量は膨大です。 したがって、これらのデータを適切な時間で手動で調査することは不可能であり、システム機能に関する洞察を導き出すためにログ分析の自動化が必要である。 業界のユースケースに動機づけられて、ログの自動分析、ログ解析という、ログからの洞察を引き出すための前提条件のひとつにズームインしました。 本研究は,ログ解析分野の問題点,特に異種実世界のログ処理における非効率性を明らかにする。 文献における14の最も認識されたログ解析手法を評価することで、これを実証する。 (i)9つの公開データセット 二 公に入手可能な総合データからなる一のデータセット、及び (iii)大銀行のインフラ内で生成された1つのデータセット。 次に,実運用シナリオにおけるログ解析の堅牢性を改善するために,産業ログに類似した合成ログデータを生成することにより,産業コンテキストにおけるログ解析性能を推定するツールlogchimeraを提案する。 我々の貢献は、過去の研究活動を統合し、将来の研究の進展を促進し、研究と産業ログ解析の強いつながりを確立する基盤となる。

Due to the complexity and size of modern software systems, the amount of logs generated is tremendous. Hence, it is infeasible to manually investigate these data in a reasonable time, thereby requiring automating log analysis to derive insights about the functioning of the systems. Motivated by an industry use-case, we zoom-in on one integral part of automated log analysis, log parsing, which is the prerequisite to deriving any insights from logs. Our investigation reveals problematic aspects within the log parsing field, particularly its inefficiency in handling heterogeneous real-world logs. We show this by assessing the 14 most-recognized log parsing approaches in the literature using (i) nine publicly available datasets, (ii) one dataset comprised of combined publicly available data, and (iii) one dataset generated within the infrastructure of a large bank. Subsequently, toward improving log parsing robustness in real-world production scenarios, we propose a tool, Logchimera, that enables estimating log parsing performance in industry contexts through generating synthetic log data that resemble industry logs. Our contributions serve as a foundation to consolidate past research efforts, facilitate future research advancements, and establish a strong link between research and industry log parsing.
翻訳日:2023-10-23 13:50:50 公開日:2023-08-17
# ニューラルコード翻訳の評価について:分類学とベンチマーク

On the Evaluation of Neural Code Translation: Taxonomy and Benchmark ( http://arxiv.org/abs/2308.08961v1 )

ライセンス: Link先を確認
Mingsheng Jiao, Tingrui Yu, Xuan Li, Guanjie Qiu, Xiaodong Gu, Beijun Shen(参考訳) 近年、神経コード翻訳が注目されている。 主にソースコードを自然言語として扱い、様々な翻訳タイプと複雑さにまたがるモデル能力のスペクトルを完全に無視しながら、総合的な正確性スコアを提供する。 本稿では,4つの最先端モデルの包括的調査を行い,既存の3つのベンチマークの利点と限界を詳細に分析する。 実験結果に基づき,その複雑性と知識依存度に応じて,コード翻訳タスクを4つの主要型に分類する分類法(トークンレベル(タイプ1),構文レベル(タイプ2),ライブラリレベル(タイプ3),アルゴリズムレベル(タイプ4))を開発した。 次に、これらの4つのカテゴリで既存のアプローチがどのように機能するかを徹底的に分析する。 以上の結果から,最先端のコード翻訳モデルでは1型,2型が優れているが,3型,4型といった知識に依存しない翻訳に苦慮していることが明らかとなった。 既存のベンチマークはキーワードマッピングのような自明な翻訳に偏っている。 これらの制約を克服するため,タイプ3とタイプ4の翻訳ペアと単体テストケースを手作業でキュレートした新しいベンチマークであるG-TransEvalを構築した。 新しいベンチマークの結果から,g-transevalはコード翻訳モデルのより包括的できめ細かな能力を示し,より厳密な評価ができることが示唆された。 また,本研究は,3型および4型トレーニングデータの構築や,複数の事前学習アプローチの実施など,今後の研究への洞察と提案も提供する。

In recent years, neural code translation has gained increasing attention. While most of the research focuses on improving model architectures and training processes, we notice that the evaluation process and benchmark for code translation models are severely limited: they primarily treat source code as natural languages and provide a holistic accuracy score while disregarding the full spectrum of model capabilities across different translation types and complexity. In this paper, we present a comprehensive investigation of four state-of-the-art models and analyze in-depth the advantages and limitations of three existing benchmarks. Based on the empirical results, we develop a taxonomy that categorizes code translation tasks into four primary types according to their complexity and knowledge dependence: token level (type 1), syntactic level (type 2), library level (type 3), and algorithm level (type 4). We then conduct a thorough analysis of how existing approaches perform across these four categories. Our findings indicate that while state-of-the-art code translation models excel in type-1 and type-2 translations, they struggle with knowledge-dependent ones such as type-3 and type-4. Existing benchmarks are biased towards trivial translations, such as keyword mapping. To overcome these limitations, we construct G-TransEval, a new benchmark by manually curating type-3 and type-4 translation pairs and unit test cases. Results on our new benchmark suggest that G-TransEval can exhibit more comprehensive and finer-grained capability of code translation models and thus provide a more rigorous evaluation. Our studies also provide more insightful findings and suggestions for future research, such as building type-3 and type-4 training data and ensembling multiple pretraining approaches.
翻訳日:2023-10-23 13:50:07 公開日:2023-08-17
# それらはすべて良いですか? ログメッセージの可読性に関する実践者の期待

Are They All Good? Studying Practitioners' Expectations on the Readability of Log Messages ( http://arxiv.org/abs/2308.08836v1 )

ライセンス: Link先を確認
Zhenhao Li, An Ran Chen, Xing Hu, Xin Xia, Tse-Hsun Chen, Weiyi Shang(参考訳) 開発者はログステートメントを書き、さまざまなタスクの実行時情報を提供するログを生成する。 ログステートメント(すなわち記述テキスト)におけるログメッセージの可読性は、生成されたログの価値に対してかなり重要である。 未熟なログメッセージは、ログ分析のプロセスを遅くしたり、妨げたりします。 ログメッセージの重要性にも拘わらず、ログメッセージの読みやすさと書き方に関する標準が依然として欠如している。 本稿では,17人の産業従事者とのインタビューを行い,ログメッセージの可読性に対する期待について検討する。 インタビューを通じて,ログメッセージの可読性に関する3つの側面(構造,情報,文言など)と,それぞれの側面を改善するためのいくつかの具体的なプラクティスを導出する。 アンケートの結果をオンライン調査で検証し, 参加者から肯定的なフィードバックを得た。 次に,大規模オープンソースシステムにおけるログメッセージの可読性について手作業で調査し,ログメッセージの大部分が可読性に乏しいことが分かった。 このような観察により、深層学習と機械学習モデルを用いてログメッセージの可読性を自動的に分類する可能性をさらに探求する。 その結果,ディープラーニングモデルと機械学習モデルの両方が,平均80.0%以上の精度で,ログメッセージの可読性を効果的に分類できることがわかった。 本研究は,実践者のロギング実践を改善するため,ログメッセージ作成のための包括的なガイドラインを提供する。

Developers write logging statements to generate logs that provide run-time information for various tasks. The readability of log messages in the logging statements (i.e., the descriptive text) is rather crucial to the value of the generated logs. Immature log messages may slow down or even obstruct the process of log analysis. Despite the importance of log messages, there is still a lack of standards on what constitutes good readability in log messages and how to write them. In this paper, we conduct a series of interviews with 17 industrial practitioners to investigate their expectations on the readability of log messages. Through the interviews, we derive three aspects related to the readability of log messages, including Structure, Information, and Wording, along with several specific practices to improve each aspect. We validate our findings through a series of online questionnaire surveys and receive positive feedback from the participants. We then manually investigate the readability of log messages in large-scale open source systems and find that a large portion (38.1%) of the log messages have inadequate readability. Motivated by such observation, we further explore the potential of automatically classifying the readability of log messages using deep learning and machine learning models. We find that both deep learning and machine learning models can effectively classify the readability of log messages with a balanced accuracy above 80.0% on average. Our study provides comprehensive guidelines for composing log messages to further improve practitioners' logging practices.
翻訳日:2023-10-23 13:49:37 公開日:2023-08-17
# web 3.0のための人工知能:包括的調査

Artificial Intelligence for Web 3.0: A Comprehensive Survey ( http://arxiv.org/abs/2309.09972v1 )

ライセンス: Link先を確認
Meng Shen, Zhehui Tan, Dusit Niyato, Yuzhi Liu, Jiawen Kang, Zehui Xiong, Liehuang Zhu, Wei Wang, Xuemin (Sherman) Shen(参考訳) Web 3.0は、データ所有と値表現に焦点を当てた分散技術で再構築された、インターネットの新しい世代である。 また、データとデジタル資産は大企業ではなくユーザーによって所有・管理されるべきという原則の下でも運営されている。 本稿では,Web 3.0の現在の開発状況と,Web 3.0におけるAIテクノロジの適用について検討する。 Web 3.0 の既存のアプリケーションやコンポーネントを調査し,生態学的アプリケーションシナリオの観点から Web 3.0 のアーキテクチャフレームワークを提案する。 Web 3.0の生態を4つの層に分けて概説する。 各レイヤの主な機能は、データ管理、価値の循環、生態的ガバナンス、アプリケーションシナリオである。 私たちの調査は、これらの各層に存在する大きな課題と課題に分解します。 この文脈では、AIはWeb 3.0の既存の問題を解決する強力な可能性を示している。 私たちは、Web 3.0の基礎と成長におけるAIの重要な役割を説明します。 まず、機械学習アルゴリズムやディープラーニング技術を含むaiの概要を提供することから始める。 そして、Web 3.0の4つのレイヤにおけるAIテクノロジアプリケーションの現状を徹底的に分析し、その将来的な開発方向性に関する洞察を提供する。

Web 3.0 is the new generation of the Internet that is reconstructed with distributed technology, which focuses on data ownership and value expression. Also, it operates under the principle that data and digital assets should be owned and controlled by users rather than large corporations. In this survey, we explore the current development state of Web 3.0 and the application of AI Technology in Web 3.0. Through investigating the existing applications and components of Web 3.0, we propose an architectural framework for Web 3.0 from the perspective of ecological application scenarios. We outline and divide the ecology of Web 3.0 into four layers. The main functions of each layer are data management, value circulation, ecological governance, and application scenarios. Our investigation delves into the major challenges and issues present in each of these layers. In this context, AI has shown its strong potential to solve existing problems of Web 3.0. We illustrate the crucial role of AI in the foundation and growth of Web 3.0. We begin by providing an overview of AI, including machine learning algorithms and deep learning techniques. Then, we thoroughly analyze the current state of AI technology applications in the four layers of Web 3.0 and offer some insights into its potential future development direction.
翻訳日:2023-10-23 07:21:30 公開日:2023-08-17
# 生成AI時代の教育 : 状況と最近の展開

Education in the age of Generative AI: Context and Recent Developments ( http://arxiv.org/abs/2309.12332v1 )

ライセンス: Link先を確認
Rafael Ferreira Mello, Elyda Freitas, Filipe Dwan Pereira, Luciano Cabral, Patricia Tedesco and Geber Ramalho(参考訳) 生成人工知能の出現に伴い、様々な分野における生産性向上と製品品質向上の可能性を探求する個人や組織が増えている。 教育分野は例外ではない。 しかし、教育における人工知能の採用は1960年代までさかのぼる。 この歴史的文脈を踏まえて、この白書は、教育におけるAIの役割を解明する4部作の初版として機能する。 このシリーズは、その可能性、成功するアプリケーション、制限、倫理的考察、将来のトレンドといったトピックを扱っている。 最初の記事ではこの分野の包括的概要を説明し、生成的人工知能分野における最近の進歩を強調する。

With the emergence of generative artificial intelligence, an increasing number of individuals and organizations have begun exploring its potential to enhance productivity and improve product quality across various sectors. The field of education is no exception. However, it is vital to notice that artificial intelligence adoption in education dates back to the 1960s. In light of this historical context, this white paper serves as the inaugural piece in a four-part series that elucidates the role of AI in education. The series delves into topics such as its potential, successful applications, limitations, ethical considerations, and future trends. This initial article provides a comprehensive overview of the field, highlighting the recent developments within the generative artificial intelligence sphere.
翻訳日:2023-10-23 06:47:00 公開日:2023-08-17
# 社会正義の観点からみた生成型人工知能へのアプローチ

Approaches to Generative Artificial Intelligence, A Social Justice Perspective ( http://arxiv.org/abs/2309.12331v1 )

ライセンス: Link先を確認
Myke Healy(参考訳) 2023-2024年度には、ChatGPTの月間16億回の訪問によって実証された、生成人工知能の普及が学術的整合性に影響を与える。 高校生の77%が不正行為への関与を報告しており、Chan氏(arXiv:2306.03358v2)による「AI-giarism」と呼ばれるAI駆動の筆記支援の台頭により、プラギアリズムはよりアクセシビリティが高く、検出不能になる。 これらの懸念は緊急だが、自律性、データプライバシ、著作権、株式など、この技術の革命性に関する幅広い疑問を提起している。 本稿では,これらのモデルの学習,固有バイアス,ai生成文の検出における潜在的不正について検討し,社会正義の観点から生成的aiを探究することを目的とした。

In the 2023-2024 academic year, the widespread availability of generative artificial intelligence, exemplified by ChatGPT's 1.6 billion monthly visits, is set to impact academic integrity. With 77% of high school students previously reporting engagement in dishonest behaviour, the rise of AI-driven writing assistance, dubbed 'AI-giarism' by Chan (arXiv:2306.03358v2), will make plagiarism more accessible and less detectable. While these concerns are urgent, they also raise broader questions about the revolutionary nature of this technology, including autonomy, data privacy, copyright, and equity. This paper aims to explore generative AI from a social justice perspective, examining the training of these models, the inherent biases, and the potential injustices in detecting AI-generated writing.
翻訳日:2023-10-23 06:46:49 公開日:2023-08-17
# General Lipschitz: 変換依存ランダム化平滑化による可解セマンティック変換に対するロバスト性証明

General Lipschitz: Certified Robustness Against Resolvable Semantic Transformations via Transformation-Dependent Randomized Smoothing ( http://arxiv.org/abs/2309.16710v1 )

ライセンス: Link先を確認
Dmitrii Korzh, Mikhail Pautov, Olga Tsymboi, Ivan Oseledets(参考訳) ランダム化平滑化(英: Randomized smoothing)は、有界な大きさの加法的対向摂動に対して確実に堅牢な画像分類器を構築するための最先端のアプローチである。 しかし、意味変換(例えば、画像のぼやけ、翻訳、ガンマ補正)とその構成に対して妥当な証明書を構築することはより複雑である。 本研究では,構成可能な可解なセマンティック摂動に対してニューラルネットワークを認証する新しいフレームワークであるemph{General Lipschitz (GL)を提案する。 フレームワーク内では、スムーズな分類器w.r.t.変換パラメータの変換依存リプシッツ連続性を解析し、対応するロバスト性証明を導出する。 提案手法は,ImageNetデータセットの最先端手法と互換性がある。

Randomized smoothing is the state-of-the-art approach to construct image classifiers that are provably robust against additive adversarial perturbations of bounded magnitude. However, it is more complicated to construct reasonable certificates against semantic transformation (e.g., image blurring, translation, gamma correction) and their compositions. In this work, we propose \emph{General Lipschitz (GL),} a new framework to certify neural networks against composable resolvable semantic perturbations. Within the framework, we analyze transformation-dependent Lipschitz-continuity of smoothed classifiers w.r.t. transformation parameters and derive corresponding robustness certificates. Our method performs comparably to state-of-the-art approaches on the ImageNet dataset.
翻訳日:2023-10-23 05:46:45 公開日:2023-08-17
# Mask R-CNNを用いた超高解像度画像の自動カダストラム境界検出

Automatic Cadastral Boundary Detection of Very High Resolution Images Using Mask R-CNN ( http://arxiv.org/abs/2309.16708v1 )

ライセンス: Link先を確認
Neda Rahimpour Anaraki, Alireza Azadbakht, Maryam Tahmasbi, Hadi Farahani, Saeed Reza Kheradpisheh, Alireza Javaheri(参考訳) 近年,自動キャダストラムマッピングの検出の高速化と改善が求められている。 この問題は出発点にあるため、コンピュータビジョンやディープラーニングには、まだ考慮されていない多くの方法がある。 本稿では,深層学習に着目し,作業の質を向上させる3つの幾何学的後処理手法を提案する。 私たちのフレームワークには2つの部分が含まれています。 この問題の解決策はインスタンスセグメンテーションを使います。 最初の部分では、ImageNetデータセット上で事前トレーニングされたResNet-50のバックボーンでMask R-CNNを使用します。 第2フェーズでは,3つの幾何学的後処理手法を第1部の出力に適用し,全体の出力を改善する。 また, 計算幾何学を用いて, ポケット型単純化アルゴリズムと呼ばれる, 直線を単純化する新しい手法を提案する。 ソリューションの品質を評価するために、この分野で人気のある公式は、リコール、精度、およびf-scoreである。 最も高いリコールは95%で、72%の精度を維持しています。 その結果、Fスコアは82%となった。 Mask R-CNN を用いたインスタンスセグメンテーションの実装とその出力に対する幾何的な後処理により、この分野で有望な結果が得られる。 また,pocket-based simplification アルゴリズムはdouglas-puecker アルゴリズムよりもシンプルに動作することを示した。

Recently, there has been a high demand for accelerating and improving the detection of automatic cadastral mapping. As this problem is in its starting point, there are many methods of computer vision and deep learning that have not been considered yet. In this paper, we focus on deep learning and provide three geometric post-processing methods that improve the quality of the work. Our framework includes two parts, each of which consists of a few phases. Our solution to this problem uses instance segmentation. In the first part, we use Mask R-CNN with the backbone of pre-trained ResNet-50 on the ImageNet dataset. In the second phase, we apply three geometric post-processing methods to the output of the first part to get better overall output. Here, we also use computational geometry to introduce a new method for simplifying lines which we call it pocket-based simplification algorithm. For evaluating the quality of our solution, we use popular formulas in this field which are recall, precision and F-score. The highest recall we gain is 95 percent which also maintains high Precision of 72 percent. This resulted in an F-score of 82 percent. Implementing instance segmentation using Mask R-CNN with some geometric post-processes to its output gives us promising results for this field. Also, results show that pocket-based simplification algorithms work better for simplifying lines than Douglas-Puecker algorithm.
翻訳日:2023-10-23 05:46:28 公開日:2023-08-17
# AIR: ディープラーニングによる情報リカバリに対する敵対的攻撃の脅威

AIR: Threats of Adversarial Attacks on Deep Learning-Based Information Recovery ( http://arxiv.org/abs/2309.16706v1 )

ライセンス: Link先を確認
Jinyin Chen, Jie Ge, Shilian Zheng, Linhui Ye, Haibin Zheng, Weiguo Shen, Keqiang Yue, Xiaoniu Yang(参考訳) 無線通信システムは通常、情報を送信する送信機と、受信した歪んだ信号から元の情報を回収する受信機で構成される。 深層学習(DL)は複雑なチャネル環境下での受信機の性能向上に使われ、SOTA(State-of-the-art)性能が達成されている。 しかし、その堅牢性は研究されていない。 敵対的状況下でのDLベースの情報回復モデルの堅牢性を評価するため,我々は,SOTA DLベースの情報回復モデルであるDeepReceiverに対する敵攻撃を調査した。 電力と平均電力比(PAPR)の制約による最適化問題としてこの問題を定式化する。 我々は,DeepReceiverのモデルおよび/またはテストサンプルに対する敵の知識に基づいて,異なる敵攻撃手法を設計する。 広範な実験により、deepreceiverは全ての考慮されたシナリオにおいて設計された攻撃方法に対して脆弱であることが示されている。 モデルとテストサンプルの両方が制限されたシナリオであっても、敵はdeepreceiverを攻撃でき、ビットエラー率(ber)が10%を超える。 また、DeepReceiverは、非常に低い電力と限られたPAPRでも、敵の摂動に弱いことが分かる。 これらの結果から,DeepReceiverのロバスト性を高めるため,防衛措置を講じるべきであることが示唆された。

A wireless communications system usually consists of a transmitter which transmits the information and a receiver which recovers the original information from the received distorted signal. Deep learning (DL) has been used to improve the performance of the receiver in complicated channel environments and state-of-the-art (SOTA) performance has been achieved. However, its robustness has not been investigated. In order to evaluate the robustness of DL-based information recovery models under adversarial circumstances, we investigate adversarial attacks on the SOTA DL-based information recovery model, i.e., DeepReceiver. We formulate the problem as an optimization problem with power and peak-to-average power ratio (PAPR) constraints. We design different adversarial attack methods according to the adversary's knowledge of DeepReceiver's model and/or testing samples. Extensive experiments show that the DeepReceiver is vulnerable to the designed attack methods in all of the considered scenarios. Even in the scenario of both model and test sample restricted, the adversary can attack the DeepReceiver and increase its bit error rate (BER) above 10%. It can also be found that the DeepReceiver is vulnerable to adversarial perturbations even with very low power and limited PAPR. These results suggest that defense measures should be taken to enhance the robustness of DeepReceiver.
翻訳日:2023-10-23 05:46:08 公開日:2023-08-17
# 効率的なプライバシー保護型機械学習・アズ・ア・サービスのための超次元コンピューティング

Hyperdimensional Computing as a Rescue for Efficient Privacy-Preserving Machine Learning-as-a-Service ( http://arxiv.org/abs/2310.06840v1 )

ライセンス: Link先を確認
Jaewoo Park, Chenghao Quan, Hyungon Moon and Jongeun Lee(参考訳) 機械学習モデルはしばしばクラウドベースのサービスとしてプロビジョニングされ、クライアントはサービスプロバイダにデータを送信して結果を得る。 この設定はモデルの価値が高いため一般的ですが、クライアントはクエリデータが含んでいる可能性のあるプライバシを無効にする必要があります。 ホモモルフィック暗号化(HE)はこの逆問題に対処するための有望な手法である。 HEでは、暗号化されたデータをクエリとして取り、それを復号することなくモデルを実行することができる。 結果はまだ暗号化されており、クライアントだけが復号化できる。 HEは単純な浮動小数点演算を長い(次数1024を超える)多項式間の計算に変換するため、これらの利点は計算コストのコストがかかる。 これまでは、暗号化されたデータに対する効率的な計算のためにディープニューラルネットワークの調整が提案されていたが、HEによって既に高い計算コストが増幅され、パフォーマンスの改善が妨げられた。 本稿では,超次元コンピューティングが,暗号化データ上でのプライバシ保存型機械学習を救えることを示す。 HEで作業する場合,性能の超次元計算の利点が増幅されることが判明した。 この観測により,超次元計算を用いた機械学習推論システムhe-hdcが開発された。 我々は、サーバーがHEフレンドリーな計算のみを実行するように、機械学習サービスを慎重に構成する。 さらに、計算とHEパラメータを精度とセキュリティを維持しつつ、計算の高速化に適応する。 実測値に基づく実験結果から,he-hdcは既存のシステムよりも26~3000倍高い分類精度を示した。

Machine learning models are often provisioned as a cloud-based service where the clients send their data to the service provider to obtain the result. This setting is commonplace due to the high value of the models, but it requires the clients to forfeit the privacy that the query data may contain. Homomorphic encryption (HE) is a promising technique to address this adversity. With HE, the service provider can take encrypted data as a query and run the model without decrypting it. The result remains encrypted, and only the client can decrypt it. All these benefits come at the cost of computational cost because HE turns simple floating-point arithmetic into the computation between long (degree over 1024) polynomials. Previous work has proposed to tailor deep neural networks for efficient computation over encrypted data, but already high computational cost is again amplified by HE, hindering performance improvement. In this paper we show hyperdimensional computing can be a rescue for privacy-preserving machine learning over encrypted data. We find that the advantage of hyperdimensional computing in performance is amplified when working with HE. This observation led us to design HE-HDC, a machine-learning inference system that uses hyperdimensional computing with HE. We carefully structure the machine learning service so that the server will perform only the HE-friendly computation. Moreover, we adapt the computation and HE parameters to expedite computation while preserving accuracy and security. Our experimental result based on real measurements shows that HE-HDC outperforms existing systems by 26~3000 times with comparable classification accuracy.
翻訳日:2023-10-23 03:34:10 公開日:2023-08-17
# LLM時代の感情支援チャットボットの構築

Building Emotional Support Chatbots in the Era of LLMs ( http://arxiv.org/abs/2308.11584v1 )

ライセンス: Link先を確認
Zhonghua Zheng, Lizi Liao, Yang Deng, Liqiang Nie(参考訳) 様々な会話シナリオへの感情的支援の統合は、社会的相互作用、メンタルヘルスカウンセリング、カスタマーサービスなど、大きな社会的利益をもたらす。 しかし、この分野の現実世界のアプリケーションを妨げる未解決の課題は、データ可用性の制限や、十分に受け入れられたモデルトレーニングパラダイムの欠如などである。 この作業は、LLM(Large Language Models)の機能を活用することで、これらの課題をナビゲートする試みである。 我々は,LLMの計算能力によって人間の洞察を合成し,広範囲な感情支援対話データセットをキュレートする革新的な手法を提案する。 提案手法は,多種多様なシナリオにまたがる対話を生成種として巧妙に設計した。 本稿では,ChatGPTの文脈内学習の可能性を利用して,ExTESという対話データセットを再帰的に生成する。 次に、LLaMAモデルに高度なチューニング手法を展開し、多様なトレーニング戦略の影響を検証し、最終的に感情的支援相互作用に巧みに最適化されたLLMを生成する。 結果モデルの徹底的な評価は、感情的支援を提供する能力を示し、感情的支援ボットの領域における重要なステップを示し、その後の研究と実装の道を開く。

The integration of emotional support into various conversational scenarios presents profound societal benefits, such as social interactions, mental health counseling, and customer service. However, there are unsolved challenges that hinder real-world applications in this field, including limited data availability and the absence of well-accepted model training paradigms. This work endeavors to navigate these challenges by harnessing the capabilities of Large Language Models (LLMs). We introduce an innovative methodology that synthesizes human insights with the computational prowess of LLMs to curate an extensive emotional support dialogue dataset. Our approach is initiated with a meticulously designed set of dialogues spanning diverse scenarios as generative seeds. By utilizing the in-context learning potential of ChatGPT, we recursively generate an ExTensible Emotional Support dialogue dataset, named ExTES. Following this, we deploy advanced tuning techniques on the LLaMA model, examining the impact of diverse training strategies, ultimately yielding an LLM meticulously optimized for emotional support interactions. An exhaustive assessment of the resultant model showcases its proficiency in offering emotional support, marking a pivotal step in the realm of emotional support bots and paving the way for subsequent research and implementations.
翻訳日:2023-08-27 04:58:15 公開日:2023-08-17
# BERT4CTR: CTR予測のための事前学習言語モデルと非テクスチャ特徴を組み合わせた効率的なフレームワーク

BERT4CTR: An Efficient Framework to Combine Pre-trained Language Model with Non-textual Features for CTR Prediction ( http://arxiv.org/abs/2308.11527v1 )

ライセンス: Link先を確認
Dong Wang, Kav\'e Salamatian, Yunqing Xia, Weiwei Deng, Qi Zhiang(参考訳) 深い事前学習された言語モデルは、Click-Through-Rate (CTR)予測を含む幅広い産業シナリオにおいて有望なメリットを示しているが、テキスト信号のみを処理する事前学習された言語モデルを、非テキスト機能を備えた予測パイプラインに統合する方法は難しい。 現在までに、事前訓練された言語モデルの微調整にマルチモーダル入力を統合するために2つの方向が検討されている。 1つは、アグリゲーション層を通して言語モデルと非テキスト特徴の結果を融合し、結果としてアンサンブルフレームワークとなり、テキストと非テキストのインプット間の相互情報のみをアグリゲーション層で学習する。 2つ目は、非テキストの機能をきめ細かいフラグメントに分割し、フラグメントをテキストのフラグメントと組み合わせた新しいトークンに変換することで、言語モデルのトランスフォーマー層に直接送れるようにする。 しかし、多くの追加トークンがあるため、このアプローチは学習と推論の複雑さを増大させる。 これらの制約に対処するため,本研究では,非テクスチュアル特徴とテキスト特徴との相互作用の恩恵を享受すると同時に,次元還元によるトレーニングや推論の低コストを維持しつつ,新たなフレームワークBERT4CTRを提案する。 パブリックデータと商用データの両方に関する包括的な実験は、BERT4CTRがマルチモーダル入力を処理する最先端のフレームワークを大幅に上回っており、CTR予測に適用可能であることを示している。

Although deep pre-trained language models have shown promising benefit in a large set of industrial scenarios, including Click-Through-Rate (CTR) prediction, how to integrate pre-trained language models that handle only textual signals into a prediction pipeline with non-textual features is challenging. Up to now two directions have been explored to integrate multi-modal inputs in fine-tuning of pre-trained language models. One consists of fusing the outcome of language models and non-textual features through an aggregation layer, resulting into ensemble framework, where the cross-information between textual and non-textual inputs are only learned in the aggregation layer. The second one consists of splitting non-textual features into fine-grained fragments and transforming the fragments to new tokens combined with textual ones, so that they can be fed directly to transformer layers in language models. However, this approach increases the complexity of the learning and inference because of the numerous additional tokens. To address these limitations, we propose in this work a novel framework BERT4CTR, with the Uni-Attention mechanism that can benefit from the interactions between non-textual and textual features while maintaining low time-costs in training and inference through a dimensionality reduction. Comprehensive experiments on both public and commercial data demonstrate that BERT4CTR can outperform significantly the state-of-the-art frameworks to handle multi-modal inputs and be applicable to CTR prediction.
翻訳日:2023-08-27 04:57:55 公開日:2023-08-17
# 非IIDデータを用いたフェデレーション学習のための局所関係強化とグローバルナッシュ平衡

Joint Local Relational Augmentation and Global Nash Equilibrium for Federated Learning with Non-IID Data ( http://arxiv.org/abs/2308.11646v1 )

ライセンス: Link先を確認
Xinting Liao, Chaochao Chen, Weiming Liu, Pengyang Zhou, Huabin Zhu, Shuheng Shen, Weiqiang Wang, Mengling Hu, Yanchao Tan, and Xiaolin Zheng(参考訳) フェデレーション学習(federated learning, fl)は、分散機械学習のパラダイムであり、サーバと分散データを持つ一連のクライアントとのコラボレーションを必要とする。 FLを現実世界のアプリケーションで効果的にするために、既存の研究は非独立で同一の分布(非IID)を持つ分散データのモデリングの改善に力を入れている。 非iid設定では、不均衡なデータモデリングから生じるクライアント内不整合と、不均質なクライアントディストリビューション間のクライアント間不一貫性があり、マイノリティデータの十分な表現を妨げるだけでなく、不一致モデルの偏差をもたらす。 しかし、以前の作業は上記の2つの結合不整合に一緒に取り組むことを見落としている。 本研究では,2つの主モジュール,すなわち局所関係拡張 (lra) とグローバルナッシュ均衡 (gne) からなるfedraneを提案し,クライアント間およびクライアント間不整合を同時に解決する。 具体的には、各クライアントにおいて、LRAは異なるデータサンプル間の類似性関係をマイニングし、注意的メッセージパッシングを使用して隣人との少数サンプル表現を強化する。 サーバでは、GNEはクライアントからサーバへの不整合および不整合モデル偏差の合意に達し、グローバルモデルがクライアントの最適化をローカルな最適化に分解することなく、グローバルな最適化方向に更新することを奨励する。 非IIDデータを用いたFLの性能向上におけるFedRANEの優位性を示すために,4つのベンチマークデータセットについて広範な実験を行った。

Federated learning (FL) is a distributed machine learning paradigm that needs collaboration between a server and a series of clients with decentralized data. To make FL effective in real-world applications, existing work devotes to improving the modeling of decentralized data with non-independent and identical distributions (non-IID). In non-IID settings, there are intra-client inconsistency that comes from the imbalanced data modeling, and inter-client inconsistency among heterogeneous client distributions, which not only hinders sufficient representation of the minority data, but also brings discrepant model deviations. However, previous work overlooks to tackle the above two coupling inconsistencies together. In this work, we propose FedRANE, which consists of two main modules, i.e., local relational augmentation (LRA) and global Nash equilibrium (GNE), to resolve intra- and inter-client inconsistency simultaneously. Specifically, in each client, LRA mines the similarity relations among different data samples and enhances the minority sample representations with their neighbors using attentive message passing. In server, GNE reaches an agreement among inconsistent and discrepant model deviations from clients to server, which encourages the global model to update in the direction of global optimum without breaking down the clients optimization toward their local optimums. We conduct extensive experiments on four benchmark datasets to show the superiority of FedRANE in enhancing the performance of FL with non-IID data.
翻訳日:2023-08-27 04:49:07 公開日:2023-08-17
# 脳波データを用いた脳卒中患者の神経学的予後 : 競合リスクを伴う動的生存分析フレームワーク

Neurological Prognostication of Post-Cardiac-Arrest Coma Patients Using EEG Data: A Dynamic Survival Analysis Framework with Competing Risks ( http://arxiv.org/abs/2308.11645v1 )

ライセンス: Link先を確認
Xiaobin Shen, Jonathan Elmer, George H. Chen(参考訳) 心不全から蘇生した患者は、死亡のリスクが高い。 これらの患者の神経学的結果の予測(神経学的予後予測のタスク)は、治療決定に有用である。 本稿では,心電図データを用いた脳卒中後心電図患者の神経学的予後予測のための最初の動的枠組みを提案する。 予測は、時間から偶発的な結果(覚醒または死までの時間)、または患者が目覚める確率、あるいは複数の時間的地平線を越えて死ぬ確率で表現される。 我々のフレームワークは、患者レベルの累積頻度関数を推定する形で競合するリスクをサポートする動的生存分析モデルを使用する。 我々は、患者が最初に何が起こるか、すなわち、覚醒、生命維持療法からの離脱(そして、決定論的に死に至る)、または(他の原因によって)死ぬという3つの競合するリスクを考える。 我々は,922人の実際のデータセット上で競合するリスクをサポートする3つの既存動的生存分析モデルをベンチマークすることで,我々の枠組みを実証する。 Our main experimental findings are that: (1) the classical Fine and Gray model which only uses a patient's static features and summary statistics from the patient's latest hour's worth of EEG data is highly competitive, achieving accuracy scores as high as the recently developed Dynamic-DeepHit model that uses substantially more of the patient's EEG data; and (2) in an ablation study, we show that our choice of modeling three competing risks results in a model that is at least as accurate while learning more information than simpler models (using two competing risks or a standard survival analysis setup with no competing risks).

Patients resuscitated from cardiac arrest who enter a coma are at high risk of death. Forecasting neurological outcomes of these patients (the task of neurological prognostication) could help with treatment decisions. In this paper, we propose, to the best of our knowledge, the first dynamic framework for neurological prognostication of post-cardiac-arrest comatose patients using EEG data: our framework makes predictions for a patient over time as more EEG data become available, and different training patients' available EEG time series could vary in length. Predictions are phrased in terms of either time-to-event outcomes (time-to-awakening or time-to-death) or as the patient's probability of awakening or of dying across multiple time horizons. Our framework uses any dynamic survival analysis model that supports competing risks in the form of estimating patient-level cumulative incidence functions. We consider three competing risks as to what happens first to a patient: awakening, being withdrawn from life-sustaining therapies (and thus deterministically dying), or dying (by other causes). We demonstrate our framework by benchmarking three existing dynamic survival analysis models that support competing risks on a real dataset of 922 patients. Our main experimental findings are that: (1) the classical Fine and Gray model which only uses a patient's static features and summary statistics from the patient's latest hour's worth of EEG data is highly competitive, achieving accuracy scores as high as the recently developed Dynamic-DeepHit model that uses substantially more of the patient's EEG data; and (2) in an ablation study, we show that our choice of modeling three competing risks results in a model that is at least as accurate while learning more information than simpler models (using two competing risks or a standard survival analysis setup with no competing risks).
翻訳日:2023-08-27 04:48:38 公開日:2023-08-17
# 構造振動のマルチモーダル時系列に対する相乗的信号デノージング

Synergistic Signal Denoising for Multimodal Time Series of Structure Vibration ( http://arxiv.org/abs/2308.11644v1 )

ライセンス: Link先を確認
Yang Yu, Han Chen(参考訳) 構造的健康モニタリング(SHM)は、インフラの長寿と安全性を確保する上で不可欠である。 センサ技術の急速な成長に伴い、様々な構造物から生成されるデータ量が前例のない急増を遂げ、効率的な分析と解釈に課題が生じた。 本稿では,shmに普及するマルチモーダル振動信号に固有な複雑度を考慮した新しい深層学習アルゴリズムを提案する。 畳み込みと再帰的なアーキテクチャの融合により、アルゴリズムは局所化と長期化の両方の構造挙動を順応的にキャプチャする。 注意機構の重要結合により、モデルの性能がさらに向上し、外部ノイズからの健全な構造応答を識別し、優先順位付けすることができる。 その結果,予測精度,早期損傷検出,複数のscmシナリオに対する適応性が大幅に向上した。 SHMの批判的な性質を考慮して、提案されたアプローチは堅牢な分析ツールを提供するだけでなく、より透明で解釈可能なAI駆動型SHMソリューションの道を開く。 今後の展望には、リアルタイム処理、外部環境要素との統合、モデル解釈可能性の強化などが含まれる。

Structural Health Monitoring (SHM) plays an indispensable role in ensuring the longevity and safety of infrastructure. With the rapid growth of sensor technology, the volume of data generated from various structures has seen an unprecedented surge, bringing forth challenges in efficient analysis and interpretation. This paper introduces a novel deep learning algorithm tailored for the complexities inherent in multimodal vibration signals prevalent in SHM. By amalgamating convolutional and recurrent architectures, the algorithm adeptly captures both localized and prolonged structural behaviors. The pivotal integration of attention mechanisms further enhances the model's capability, allowing it to discern and prioritize salient structural responses from extraneous noise. Our results showcase significant improvements in predictive accuracy, early damage detection, and adaptability across multiple SHM scenarios. In light of the critical nature of SHM, the proposed approach not only offers a robust analytical tool but also paves the way for more transparent and interpretable AI-driven SHM solutions. Future prospects include real-time processing, integration with external environmental factors, and a deeper emphasis on model interpretability.
翻訳日:2023-08-27 04:48:08 公開日:2023-08-17
# KnowledGPT:知識ベースでの検索とストレージアクセスによる大規模言語モデルの強化

KnowledGPT: Enhancing Large Language Models with Retrieval and Storage Access on Knowledge Bases ( http://arxiv.org/abs/2308.11761v1 )

ライセンス: Link先を確認
Xintao Wang, Qianwen Yang, Yongting Qiu, Jiaqing Liang, Qianyu He, Zhouhong Gu, Yanghua Xiao, Wei Wang(参考訳) 大規模言語モデル(LLM)は、自然言語処理の分野で印象的な影響を示しているが、完全性、タイムライン、忠実性、適応性など、いくつかの問題に苦慮している。 近年、LLMと外部知識ソースの連携に重点を置いているが、知識ベース(KB)の統合は未検討であり、いくつかの課題に直面している。 本稿では,LLMを様々な知識ベースでブリッジする包括的なフレームワークであるKnowledGPTを紹介し,知識の検索と保存を容易にする。 検索プロセスは思考プロンプトのプログラムを用いており、kb操作のための事前定義された関数を持つコード形式のkbの検索言語を生成する。 検索に加えて、nowledgptは知識をパーソナライズされたkbに格納する機能を提供し、個々のユーザの要求に応える。 広範にわたる実験により,LLMをKBと統合することにより,KnowledGPTは,広く知られているKBに存在する知識とパーソナライズされたKBに抽出された知識の両方を利用して,バニラLPMと比較して,世界知識を必要とする幅広い質問に適切に答えることを示した。

Large language models (LLMs) have demonstrated impressive impact in the field of natural language processing, but they still struggle with several issues regarding, such as completeness, timeliness, faithfulness and adaptability. While recent efforts have focuses on connecting LLMs with external knowledge sources, the integration of knowledge bases (KBs) remains understudied and faces several challenges. In this paper, we introduce KnowledGPT, a comprehensive framework to bridge LLMs with various knowledge bases, facilitating both the retrieval and storage of knowledge. The retrieval process employs the program of thought prompting, which generates search language for KBs in code format with pre-defined functions for KB operations. Besides retrieval, KnowledGPT offers the capability to store knowledge in a personalized KB, catering to individual user demands. With extensive experiments, we show that by integrating LLMs with KBs, KnowledGPT properly answers a broader range of questions requiring world knowledge compared with vanilla LLMs, utilizing both knowledge existing in widely-known KBs and extracted into personalized KBs.
翻訳日:2023-08-27 04:37:32 公開日:2023-08-17
# グラビトン浴からのコヒーレンスとコヒーレンス保護の喪失

Loss of coherence and coherence protection from a graviton bath ( http://arxiv.org/abs/2008.08609v2 )

ライセンス: Link先を確認
Marko Toro\v{s}, Anupam Mazumdar, Sougato Bose(参考訳) 重力浴に結合した量子調和振動子を考える。 物質-重力子間相互作用による物質セクターのコヒーレンス損失について論じるが、これは物質-波干渉計がキネマティクスによって許容される重力子を放出し、最も支配的なプロセスは$\sim\sqrt{G}$と$\sim\mathcal{O}(c^{-2})$である。 量子場理論(英語版)の枠組みで研究し、主次数 $\mathcal{\sim o}(g)$ で重力場を追跡することでマスター方程式を得る。 質量四極子を持たない系では想定されるように,脱コヒーレンス速度は高調波トラッピング周波数の立方体に比例し,自由粒子に対しては消滅する。 さらに、重力子放射の量子モデルでは、占有数が大きいコヒーレント状態に対する古典調和振動子から既知の重力放射の古典式を回復する。 さらに、量子調和振動子が最終的に基底と最初の励起状態の残余コヒーレンスを持つ定常状態に落ち着くことが分かる。 特に、数値の重ね合わせは$\frac{1}{\sqrt{2}}\left[\vert0\rangle+\vert1\rangle\right]$ never decoheresである。

We consider a quantum harmonic oscillator coupled with a graviton bath. We discuss the loss of coherence in the matter sector due to the matter-graviton vertex interaction, which leads to a loss of coherence provided that the matter-wave interferometer can emit gravitons allowed by the kinematics, and the most dominant process up to $\sim\sqrt{G}$ and $\sim\mathcal{O}(c^{-2})$. Working in the quantum-field-theory framework, we obtain a master equation by tracing away the gravitational field at the leading order $\mathcal{\sim O}(G)$. We find that the decoherence rate is proportional to the cube of the harmonic trapping frequency and vanishes for a free particle, as expected for a system without a mass quadrupole. Furthermore, our quantum model of graviton emission recovers the known classical formula for gravitational radiation from a classical harmonic oscillator for coherent states with a large occupation number. In addition, we find that the quantum harmonic oscillator eventually settles in a steady state with a remnant coherence of the ground and first excited states. In particular, the superposition of number states $\frac{1}{\sqrt{2}}\left[\vert0\rangle+\vert1\rangle\right]$ never decoheres.
翻訳日:2023-08-23 03:42:22 公開日:2023-08-17
# 脳腫瘍:T1強調画像を用いた無監督神経疾患検出

Brainomaly: Unsupervised Neurologic Disease Detection Utilizing Unannotated T1-weighted Brain MR Images ( http://arxiv.org/abs/2302.09200v3 )

ライセンス: Link先を確認
Md Mahfuzur Rahman Siddiquee, Jay Shah, Teresa Wu, Catherine Chong, Todd J. Schwedt, Gina Dumkrieger, Simona Nikolova, and Baoxin Li(参考訳) 医用画像領域におけるディープニューラルネットワークのパワーの活用は、大きな注釈付きデータセット、特に、高いコスト、時間、アノテーションの労力を伴うまれな疾患の獲得が困難であるため、困難である。 異常検出などの教師なしの疾患検出手法は、これらのシナリオにおける人間の労力を大幅に削減することができる。 異常検出は通常、健康な被験者の画像からのみ学習することに焦点を当てるが、実世界の状況は、健康な被験者と病気のある被験者の混合で注釈のないデータセットをしばしば提示する。 近年の研究では、このような注釈のない画像を利用することで、教師なしの疾患や異常検出を改善することが示されている。 しかし、これらの手法は登録された神経画像に固有の知識を利用せず、神経疾患の検出において劣等な性能をもたらす。 この限界に対処するため,神経疾患検出に特化して設計されたGANを用いた画像・画像翻訳法であるBrainomalyを提案する。 脳腫瘍は、神経画像に適した調整された画像と画像の翻訳を提供するだけでなく、注釈のない混合画像を利用してより優れた神経疾患検出を実現する。 さらに、擬似AUCメトリクスを提案することで、注釈付きサンプルのない推論のためのモデル選択の問題に対処し、Brainomalyの検出性能をさらに向上する。 広範囲な実験とアブレーション研究により、脳腫瘍はアルツハイマー病検出における有意なマージンと機関データセットを用いた頭痛検出によって、既存の最先端の非教師なし疾患や異常検出方法よりも優れていることが示されている。 コードはhttps://github.com/mahfuzmohammad/Brainomalyから入手できる。

Harnessing the power of deep neural networks in the medical imaging domain is challenging due to the difficulties in acquiring large annotated datasets, especially for rare diseases, which involve high costs, time, and effort for annotation. Unsupervised disease detection methods, such as anomaly detection, can significantly reduce human effort in these scenarios. While anomaly detection typically focuses on learning from images of healthy subjects only, real-world situations often present unannotated datasets with a mixture of healthy and diseased subjects. Recent studies have demonstrated that utilizing such unannotated images can improve unsupervised disease and anomaly detection. However, these methods do not utilize knowledge specific to registered neuroimages, resulting in a subpar performance in neurologic disease detection. To address this limitation, we propose Brainomaly, a GAN-based image-to-image translation method specifically designed for neurologic disease detection. Brainomaly not only offers tailored image-to-image translation suitable for neuroimages but also leverages unannotated mixed images to achieve superior neurologic disease detection. Additionally, we address the issue of model selection for inference without annotated samples by proposing a pseudo-AUC metric, further enhancing Brainomaly's detection performance. Extensive experiments and ablation studies demonstrate that Brainomaly outperforms existing state-of-the-art unsupervised disease and anomaly detection methods by significant margins in Alzheimer's disease detection using a publicly available dataset and headache detection using an institutional dataset. The code is available from https://github.com/mahfuzmohammad/Brainomaly.
翻訳日:2023-08-23 01:34:29 公開日:2023-08-17
# Equitable Restless Multi-Armed Bandits:デジタルヘルスに触発された一般的なフレームワーク

Equitable Restless Multi-Armed Bandits: A General Framework Inspired By Digital Health ( http://arxiv.org/abs/2308.09726v1 )

ライセンス: Link先を確認
Jackson A. Killian, Manish Jain, Yugang Jia, Jonathan Amar, Erich Huang, Milind Tambe(参考訳) Restless Multi-armed Bandits (RMAB) は、限られたリソースを持つシーケンシャルな設定でアルゴリズムによる意思決定を行う一般的なフレームワークである。 RMABは、公衆衛生、治療スケジュール、密猟、そしてこの仕事の動機であるデジタル健康などの繊細な決定にますます使われています。 このような高い利害関係のために、意思決定は結果を改善し、グループ間の格差(例えば、健康的株式の確保)を防ぐ必要がある。 RMAB(ERMAB)の適正な目標を初めて検討した。 フェアネス文学、ミニマックス報酬、最大ナッシュ福祉の2つの目標について検討する。 我々は,それぞれを解決するための効率的なアルゴリズム -- 前者の水充填アルゴリズムと,後者の異なるグループサイズのバランスをとるために理論的に動機づけられたニュアンスを持つ欲張りなアルゴリズムを開発した。 最後に、新しいデジタルヘルスモデルを含む3つのシミュレーション領域にまたがって、我々のアプローチは、実用性に対する犠牲を伴わずに、現在の最先端技術の何倍も公平であることを示す。 rmabsが人間と野生生物の成果に影響を与えるシステムに浸透するにつれ、我々の研究の緊急性が強調される。 コードはhttps://github.com/google-research/socialgood/tree/equitable-rmabで入手できる。

Restless multi-armed bandits (RMABs) are a popular framework for algorithmic decision making in sequential settings with limited resources. RMABs are increasingly being used for sensitive decisions such as in public health, treatment scheduling, anti-poaching, and -- the motivation for this work -- digital health. For such high stakes settings, decisions must both improve outcomes and prevent disparities between groups (e.g., ensure health equity). We study equitable objectives for RMABs (ERMABs) for the first time. We consider two equity-aligned objectives from the fairness literature, minimax reward and max Nash welfare. We develop efficient algorithms for solving each -- a water filling algorithm for the former, and a greedy algorithm with theoretically motivated nuance to balance disparate group sizes for the latter. Finally, we demonstrate across three simulation domains, including a new digital health model, that our approaches can be multiple times more equitable than the current state of the art without drastic sacrifices to utility. Our findings underscore our work's urgency as RMABs permeate into systems that impact human and wildlife outcomes. Code is available at https://github.com/google-research/socialgood/tree/equitable-rmab
翻訳日:2023-08-22 20:20:04 公開日:2023-08-17
# MoCLIM:Omics-Inference Modelingを用いたマルチオミクスコントラスト学習による正確な癌サブタイピングを目指して

MoCLIM: Towards Accurate Cancer Subtyping via Multi-Omics Contrastive Learning with Omics-Inference Modeling ( http://arxiv.org/abs/2308.09725v1 )

ライセンス: Link先を確認
Ziwei Yang, Zheng Chen, Yasuko Matsubara, Yasushi Sakurai(参考訳) 精密医学は基本的に、不規則な生化学的機構とがんのサブタイプの間の因果関係を確立することを目的としている。 omicsベースのがんのサブタイプは、がんにおける多段階プロセスの生化学的産物を記録するため、革新的なアプローチとして現れてきた。 本稿では,マルチオミクスデータの可能性を十分に活用し,がんのサブタイピング結果を改善することに焦点を当て,表現学習フレームワークmoclimを開発した。 MoCLIMは独自のオミクスモーダルから情報的特徴を抽出する。 異なるオミクスモダリティの対照的な学習によって伝達される統一された表現を用いて、与えられたがんのサブタイプを下位の潜伏空間に適切にまとめることができる。 このコントラストは、生物学的ネットワークで観察されるオミクス間推論の投影と解釈できる。 6つのがんデータセットに対する実験結果から,本手法はより少ない高次元がん症例において,データ適合性とサブタイプ性能を著しく向上することが示された。 さらに, 様々な医療評価を最終要素として取り入れ, 医療分析における高い解釈性を提供する。

Precision medicine fundamentally aims to establish causality between dysregulated biochemical mechanisms and cancer subtypes. Omics-based cancer subtyping has emerged as a revolutionary approach, as different level of omics records the biochemical products of multistep processes in cancers. This paper focuses on fully exploiting the potential of multi-omics data to improve cancer subtyping outcomes, and hence developed MoCLIM, a representation learning framework. MoCLIM independently extracts the informative features from distinct omics modalities. Using a unified representation informed by contrastive learning of different omics modalities, we can well-cluster the subtypes, given cancer, into a lower latent space. This contrast can be interpreted as a projection of inter-omics inference observed in biological networks. Experimental results on six cancer datasets demonstrate that our approach significantly improves data fit and subtyping performance in fewer high-dimensional cancer instances. Moreover, our framework incorporates various medical evaluations as the final component, providing high interpretability in medical analysis.
翻訳日:2023-08-22 20:19:42 公開日:2023-08-17
# クロスドメイン知識伝達のための知識にインスパイアされたサブドメイン適応

Knowledge-inspired Subdomain Adaptation for Cross-Domain Knowledge Transfer ( http://arxiv.org/abs/2308.09724v1 )

ライセンス: Link先を確認
Liyue Chen, Linian Wang, Jinyu Xu, Shuai Chen, Weiqiang Wang, Wenbiao Zhao, Qiyu Li, Leye Wang(参考訳) ほとんどの最先端のディープドメイン適応技術は、ソースとターゲットのサンプルをグローバルに調整する。 つまり、アライメント後、各ソースサンプルは、任意のターゲットサンプルに類似することが期待される。 しかし、グローバルアライメントは必ずしも最適でも必要でもない。 例えば、クレジットと非クレジットの2種類のトランザクションがあるクロスドメイン不正検出を考える。 クレジットトランザクションと非クレジットトランザクションを別々に連携させることは、クレジットトランザクションが非クレジットトランザクションと同じようなパターンを示す可能性は低いため、グローバルアライメントよりも優れたパフォーマンスをもたらす可能性がある。 このようなきめ細かいドメイン適応を実現するために,我々はKISA(Knowledge-Inspired Sub Domain Adaptation)フレームワークを提案する。 特に,(1)領域適応手法の成功の前提である共有期待損失を最小限に抑えるという理論的知見を提供する。 2) きめ細かなドメイン適応において重要な役割を果たす知識にインスパイアされたサブドメイン分割問題を提案する。 3) 多様なドメイン知識を利用するための知識融合ネットワークを設計する。 大規模な実験により,KISAは不正検出や交通需要予測タスクにおいて顕著な結果をもたらすことが示された。

Most state-of-the-art deep domain adaptation techniques align source and target samples in a global fashion. That is, after alignment, each source sample is expected to become similar to any target sample. However, global alignment may not always be optimal or necessary in practice. For example, consider cross-domain fraud detection, where there are two types of transactions: credit and non-credit. Aligning credit and non-credit transactions separately may yield better performance than global alignment, as credit transactions are unlikely to exhibit patterns similar to non-credit transactions. To enable such fine-grained domain adaption, we propose a novel Knowledge-Inspired Subdomain Adaptation (KISA) framework. In particular, (1) We provide the theoretical insight that KISA minimizes the shared expected loss which is the premise for the success of domain adaptation methods. (2) We propose the knowledge-inspired subdomain division problem that plays a crucial role in fine-grained domain adaption. (3) We design a knowledge fusion network to exploit diverse domain knowledge. Extensive experiments demonstrate that KISA achieves remarkable results on fraud detection and traffic demand prediction tasks.
翻訳日:2023-08-22 20:19:22 公開日:2023-08-17
# ChatGPT-Health Prompt ChatGPTを用いたプロンプト型医療意思決定支援におけるXAIの力の調和

ChatGPT-HealthPrompt. Harnessing the Power of XAI in Prompt-Based Healthcare Decision Support using ChatGPT ( http://arxiv.org/abs/2308.09731v1 )

ライセンス: Link先を確認
Fatemeh Nazary, Yashar Deldjoo, and Tommaso Di Noia(参考訳) 本研究は,OpenAIのChatGPTを中心に,大規模言語モデル(LLM)を臨床意思決定に適用するための革新的なアプローチを提案する。 提案手法では,タスク記述や特徴記述を含むように階層的に設計された文脈的プロンプトの利用を導入するとともに,データ収集シナリオにおいても高品質なバイナリ分類タスクのためのドメイン知識の統合を重要視する。 我々の研究の新規性は、ハイパフォーマンスな解釈可能なMLモデルから得られるドメイン知識の利用と、そのシームレスなインクルージョンによる迅速な設計である。 これらのMLモデルを医療専門家として見ることにより、意思決定プロセスにおける特徴の重要性に関する重要な洞察を抽出する。 ドメイン知識とAIの相互作用は、より洞察に富んだ診断ツールを作成する上で、大きな可能性を秘めている。 さらに,本研究では,llmsに基づくゼロショットおよび少数ショットプロンプト学習のダイナミクスについて検討する。 OpenAIのChatGPTと従来の教師付きMLモデルのパフォーマンスを異なるデータ条件で比較することにより、さまざまなデータ可用性下での迅速なエンジニアリング戦略の有効性に関する洞察を提供することを目指している。 本論文は,AIと医療のギャップを埋め,臨床意思決定支援システムにおけるLLMの新たな方法論を提案する。 自動意思決定の強化における効果的なプロンプト設計、ドメイン知識の統合、柔軟な学習アプローチの変革の可能性を強調します。

This study presents an innovative approach to the application of large language models (LLMs) in clinical decision-making, focusing on OpenAI's ChatGPT. Our approach introduces the use of contextual prompts-strategically designed to include task description, feature description, and crucially, integration of domain knowledge-for high-quality binary classification tasks even in data-scarce scenarios. The novelty of our work lies in the utilization of domain knowledge, obtained from high-performing interpretable ML models, and its seamless incorporation into prompt design. By viewing these ML models as medical experts, we extract key insights on feature importance to aid in decision-making processes. This interplay of domain knowledge and AI holds significant promise in creating a more insightful diagnostic tool. Additionally, our research explores the dynamics of zero-shot and few-shot prompt learning based on LLMs. By comparing the performance of OpenAI's ChatGPT with traditional supervised ML models in different data conditions, we aim to provide insights into the effectiveness of prompt engineering strategies under varied data availability. In essence, this paper bridges the gap between AI and healthcare, proposing a novel methodology for LLMs application in clinical decision support systems. It highlights the transformative potential of effective prompt design, domain knowledge integration, and flexible learning approaches in enhancing automated decision-making.
翻訳日:2023-08-22 20:09:14 公開日:2023-08-17
# aiに基づく診断におけるデータ多様性とバーチャルイメージング--covid-19に基づくケーススタディ

Data diversity and virtual imaging in AI-based diagnosis: A case study based on COVID-19 ( http://arxiv.org/abs/2308.09730v1 )

ライセンス: Link先を確認
Fakrul Islam Tushar, Lavsen Dahal, Saman Sotoudeh-Paima, Ehsan Abadi, W. Paul Segars, Ehsan Samei, Joseph Y. Lo(参考訳) 新型コロナウイルス(covid-19)の医療画像診断のための深層学習型人工知能(ai)モデルについて、多くの研究が研究している。 しかしながら、パフォーマンスと基礎となるデータバイアスの変動は、臨床一般化可能性に関する懸念を引き起こす。 この振り返り研究は、多様な臨床画像と実質的に生成された医療画像を用いて、新型コロナウイルス診断のための人工知能モデルの開発と評価を含む。 さらに,病状,放射線線量,CTと胸部X線撮影(CXR)の画像モダリティなど,いくつかの患者および物理学的要因からAIのパフォーマンスがどのような影響を受けているかを評価するために,仮想画像検査を行った。 AIの性能は、量、多様性、有病率などのデータセット特性に強く影響され、曲線下での受信特性領域の最大20%の低下を伴う一般化の低さにつながった。 仮想ct画像とcxr画像のモデル性能は臨床データ全体の結果に匹敵するものであった。 画像照射は結果に無視できる影響が認められたが, 病変の程度には顕著な影響が認められた。 CTはCXRより一貫して優れていた。 全体としては、データセットの特徴と疾病の程度が新型コロナウイルスの診断に与える影響、そして、aiアルゴリズムの効果的な評価と診断実践への翻訳を促進するためのバーチャルイメージングの試行技術の関連性と潜在的役割が強調された。

Many studies have investigated deep-learning-based artificial intelligence (AI) models for medical imaging diagnosis of the novel coronavirus (COVID-19), with many reports of near-perfect performance. However, variability in performance and underlying data biases raise concerns about clinical generalizability. This retrospective study involved the development and evaluation of artificial intelligence (AI) models for COVID-19 diagnosis using both diverse clinical and virtually generated medical images. In addition, we conducted a virtual imaging trial to assess how AI performance is affected by several patient- and physics-based factors, including the extent of disease, radiation dose, and imaging modality of computed tomography (CT) and chest radiography (CXR). AI performance was strongly influenced by dataset characteristics including quantity, diversity, and prevalence, leading to poor generalization with up to 20% drop in receiver operating characteristic area under the curve. Model performance on virtual CT and CXR images was comparable to overall results on clinical data. Imaging dose proved to have negligible influence on the results, but the extent of the disease had a marked affect. CT results were consistently superior to those from CXR. Overall, the study highlighted the significant impact of dataset characteristics and disease extent on COVID assessment, and the relevance and potential role of virtual imaging trial techniques on developing effective evaluation of AI algorithms and facilitating translation into diagnostic practice.
翻訳日:2023-08-22 20:08:51 公開日:2023-08-17
# mindmap: 知識グラフプロンプト - 大規模言語モデルにおける思考グラフの火花

MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models ( http://arxiv.org/abs/2308.09729v1 )

ライセンス: Link先を確認
Yilin Wen, Zifeng Wang, Jimeng Sun(参考訳) LLMは、通常、新しい知識を取り入れる能力、幻覚の生成、意思決定プロセスの透明性の限界を示す。 本稿では,LLMを知識グラフ(KG)で促進する方法について検討し,LLMを最新の知識で活用し,LLMから推論経路を引き出すための対策として機能する。 具体的には、KG入力を解釈し、暗黙の知識と抽出した外部知識を組み合わせて推論する能力を備えたLLMを実現するプロンプトパイプラインを構築する。 さらに,LLMが推論を行うマインドマップを抽出し,回答を生成する。 生成したマインドマップは、知識のオントロジーに基づくLLMの推論経路を示しており、それによって、生産におけるLLM推論の探索と拡大の見通しがもたらされる。 3つの質問と回答データセットに関する実験では、マインドマップのプロンプトが経験的な成果をもたらすことも示されている。 例えば、MindMap で GPT-3.5 をプロンプトすると、GPT-4 よりも圧倒的なパフォーマンスが得られる。 また、KGから抽出した構造化事実により、MindMapは、KGsのより正確で簡潔で包括的な知識の恩恵を受けながら、一連のプロンプト・ウィズ・ドキュメンテーション・検索手法より優れていることを示す。

LLMs usually exhibit limitations in their ability to incorporate new knowledge, the generation of hallucinations, and the transparency of their decision-making process. In this paper, we explore how to prompt LLMs with knowledge graphs (KG), working as a remedy to engage LLMs with up-to-date knowledge and elicit the reasoning pathways from LLMs. Specifically, we build a prompting pipeline that endows LLMs with the capability of comprehending KG inputs and inferring with a combined implicit knowledge and the retrieved external knowledge. In addition, we investigate eliciting the mind map on which LLMs perform the reasoning and generate the answers. It is identified that the produced mind map exhibits the reasoning pathways of LLMs grounded on the ontology of knowledge, hence bringing the prospects of probing and gauging LLM inference in production. The experiments on three question & answering datasets also show that MindMap prompting leads to a striking empirical gain. For instance, prompting a GPT-3.5 with MindMap yields an overwhelming performance over GPT-4 consistently. We also demonstrate that with structured facts retrieved from KG, MindMap can outperform a series of prompting-with-document-retrieval methods, benefiting from more accurate, concise, and comprehensive knowledge from KGs.
翻訳日:2023-08-22 20:08:27 公開日:2023-08-17
# 前方伝播誤差による学習表現

Learning representations by forward-propagating errors ( http://arxiv.org/abs/2308.09728v1 )

ライセンス: Link先を確認
Ryoungwoo Jang(参考訳) バックプロパゲーション(BP)はニューラルネットワーク最適化のための学習アルゴリズムとして広く使われている。 しかし、BPは膨大な計算コストを必要とし、中央処理ユニット(CPU)で訓練するには遅すぎる。 したがって、現在のニューラルネットワークオプティミミザイトンは、計算統一デバイスアーキテクチャ(cuda)プログラミングでグラフィカル処理ユニット(gpu)で実行される。 本稿では,GPU上でのCUDAアクセラレーションと同程度の高速で高速なCPU上での高速学習アルゴリズムを提案する。 このアルゴリズムは代数幾何学における双対数の概念を用いた前方伝播法に基づいている。

Back-propagation (BP) is widely used learning algorithm for neural network optimization. However, BP requires enormous computation cost and is too slow to train in central processing unit (CPU). Therefore current neural network optimizaiton is performed in graphical processing unit (GPU) with compute unified device architecture (CUDA) programming. In this paper, we propose a light, fast learning algorithm on CPU that is fast as CUDA acceleration on GPU. This algorithm is based on forward-propagating method, using concept of dual number in algebraic geometry.
翻訳日:2023-08-22 20:08:02 公開日:2023-08-17
# 交通パターンバンクによる都市間交通予測

Cross-city Few-Shot Traffic Forecasting via Traffic Pattern Bank ( http://arxiv.org/abs/2308.09727v1 )

ライセンス: Link先を確認
Zhanyu Liu, Guanjie Zheng, Yanwei Yu(参考訳) 交通予報は知的交通システム(ITS)において重要なサービスである。 このタスクに取り組むためにディープモデルを利用することは、交通センサーや車両機器のデータに大きく依存するが、一部の都市ではデバイスのサポートが不足しているため、利用可能なデータはほとんどない。 そのため、交通予測の性能を向上させるためには、データ豊かな都市から学び、知識をデータ収集都市に転送する必要がある。 この問題を解決するため,交通パターンが都市間で類似していることから,交通パターンバンク(TPB)を介して都市間交通予測フレームワークを提案する。 TPBは、事前訓練されたトラフィックパッチエンコーダを使用して、データ豊富な都市からの生トラフィックデータを高次元空間に投影する。 そして、データ共有都市の交通データをトラフィックパターンバンクに問い合わせ、それら間の明示的な関係を構築する。 これらの関係に基づいてメタ知識を集約し、将来のトラフィックを予測するために下流の時空間モデルを導くために隣接行列を構築する。 頻繁に使用されるメタトレーニングフレームワークであるReptileは、学習可能なモジュールのより優れた初期パラメータを見つけるように適応されている。 実世界のトラヒックデータセットを用いた実験では,tpbが既存手法を上回っており,都市間交通予測における提案手法の有効性を実証している。

Traffic forecasting is a critical service in Intelligent Transportation Systems (ITS). Utilizing deep models to tackle this task relies heavily on data from traffic sensors or vehicle devices, while some cities might lack device support and thus have few available data. So, it is necessary to learn from data-rich cities and transfer the knowledge to data-scarce cities in order to improve the performance of traffic forecasting. To address this problem, we propose a cross-city few-shot traffic forecasting framework via Traffic Pattern Bank (TPB) due to that the traffic patterns are similar across cities. TPB utilizes a pre-trained traffic patch encoder to project raw traffic data from data-rich cities into high-dimensional space, from which a traffic pattern bank is generated through clustering. Then, the traffic data of the data-scarce city could query the traffic pattern bank and explicit relations between them are constructed. The metaknowledge is aggregated based on these relations and an adjacency matrix is constructed to guide a downstream spatial-temporal model in forecasting future traffic. The frequently used meta-training framework Reptile is adapted to find a better initial parameter for the learnable modules. Experiments on real-world traffic datasets show that TPB outperforms existing methods and demonstrates the effectiveness of our approach in cross-city few-shot traffic forecasting.
翻訳日:2023-08-22 20:07:54 公開日:2023-08-17
# 空間符号化による自律運転用センサフュージョン

Sensor Fusion by Spatial Encoding for Autonomous Driving ( http://arxiv.org/abs/2308.10707v1 )

ライセンス: Link先を確認
Quoc-Vinh Lai-Dang, Jihui Lee, Bumgeun Park, Dongsoo Har(参考訳) センサ融合は、自動運転やロボット工学のようなタスク領域の知覚システムにとって重要である。 近年,cnnと統合したトランスは様々な知覚タスクにおいてセンサ融合において高い性能を示している。 本研究では,カメラとLiDARのデータを融合する手法を提案する。 複数の解像度でトランスフォーマーモジュールを使用することで、提案手法はローカルとグローバルのコンテキスト関係を効果的に結合する。 提案手法の性能は,長い経路と高密度トラフィックを持つ2つの逆数ベンチマークによる広範囲な実験により検証された。 提案手法は,最も挑戦的なベンチマークで先行手法を上回り,高い運転率と屈折率を達成している。 TransFuserと比較すると、それぞれLongest6とTown05 Longベンチマークの駆動スコアが8%と19%改善されている。

Sensor fusion is critical to perception systems for task domains such as autonomous driving and robotics. Recently, the Transformer integrated with CNN has demonstrated high performance in sensor fusion for various perception tasks. In this work, we introduce a method for fusing data from camera and LiDAR. By employing Transformer modules at multiple resolutions, proposed method effectively combines local and global contextual relationships. The performance of the proposed method is validated by extensive experiments with two adversarial benchmarks with lengthy routes and high-density traffics. The proposed method outperforms previous approaches with the most challenging benchmarks, achieving significantly higher driving and infraction scores. Compared with TransFuser, it achieves 8% and 19% improvement in driving scores for the Longest6 and Town05 Long benchmarks, respectively.
翻訳日:2023-08-22 13:29:59 公開日:2023-08-17
# あなたは本当に私に従いますか? 大規模言語モデルのロバスト性評価のための逆命令

Do you really follow me? Adversarial Instructions for Evaluating the Robustness of Large Language Models ( http://arxiv.org/abs/2308.10819v1 )

ライセンス: Link先を確認
Zekun Li and Baolin Peng and Pengcheng He and Xifeng Yan(参考訳) 大規模言語モデル(llm)は、以下の指示に対して顕著な熟練度を示しており、顧客向けアプリケーションで有用である。 しかし、その印象的な能力は、敵の命令によって引き起こされるリスクの増幅にも懸念を生じさせ、サードパーティの攻撃者が入力したモデルに注入することで、LSMのオリジナル命令を操作し、意図しないアクションやコンテンツを促すことができる。 したがって、LLMがどの命令に従うべきかを正確に把握し、実際のシナリオに安全な配置を確実にする能力を理解することは重要である。 本稿では,LLMの逆命令に対する堅牢性を自動的に評価するための先駆的ベンチマークを提案する。 本ベンチマークの目的は,LSMがインジェクションされた逆数命令の影響範囲を定量化し,これらの逆数命令と元のユーザ命令とを区別する能力を評価することである。 最先端の命令追従 LLM を用いて行った実験により、敵の命令攻撃に対するロバスト性に大きな限界が明らかになった。 さらに,提案手法は,指示文を正しく理解することなく,命令句を指示文に従わせるために過度に適合する傾向が示唆された。 これは単に命令句に従ってテキストを完了するのではなく、プロンプトを理解するためのトレーニングモデルの課題に対処する必要性を強調している。

Large Language Models (LLMs) have shown remarkable proficiency in following instructions, making them valuable in customer-facing applications. However, their impressive capabilities also raise concerns about the amplification of risks posed by adversarial instructions, which can be injected into the model input by third-party attackers to manipulate LLMs' original instructions and prompt unintended actions and content. Therefore, it is crucial to understand LLMs' ability to accurately discern which instructions to follow to ensure their safe deployment in real-world scenarios. In this paper, we propose a pioneering benchmark for automatically evaluating the robustness of LLMs against adversarial instructions. The objective of this benchmark is to quantify the extent to which LLMs are influenced by injected adversarial instructions and assess their ability to differentiate between these adversarial instructions and original user instructions. Through experiments conducted with state-of-the-art instruction-following LLMs, we uncover significant limitations in their robustness against adversarial instruction attacks. Furthermore, our findings indicate that prevalent instruction-tuned models are prone to being overfitted to follow any instruction phrase in the prompt without truly understanding which instructions should be followed. This highlights the need to address the challenge of training models to comprehend prompts instead of merely following instruction phrases and completing the text.
翻訳日:2023-08-22 12:38:29 公開日:2023-08-17
# ワッサースタイン距離を用いた一般化可能モデルに対する主観依存雑音低減のための新しい損失関数

A Novel Loss Function Utilizing Wasserstein Distance to Reduce Subject-Dependent Noise for Generalizable Models in Affective Computing ( http://arxiv.org/abs/2308.10869v1 )

ライセンス: Link先を確認
Nibraas Khan, Mahrukh Tauseef, Ritam Ghosh, Nilanjan Sarkar(参考訳) 感情は、思考、意思決定、コミュニケーションスキルに影響を与える人間の行動の重要な部分である。 したがって、感情を正確に監視し識別する能力は、行動訓練、感情的幸福の追跡、ヒューマンコンピュータインタフェースの開発など、多くの人間中心のアプリケーションで有用である。 生理的データにおけるパターンと感情状態の相関は、個人の感情状態を正確に検出できる深層学習技術の利用を可能にしている。 しかし、既存のモデルの一般化可能性はしばしば、被験者の刺激に対する反応の変化による生理的データにおける主観依存ノイズによって制限される。 そこで本稿では,全参加者に共通するデータのパターンに重きを置くとともに,主観的ノイズから生じるパターンの重要度を下げるように,主観的依存データの重要性を拡大する,最適輸送理論(特にワッサースタイン距離)を用いたコスト関数を提案する。 提案するコスト関数の性能は,マルチクラス分類器を付加したオートエンコーダを用いて実証し,異なる感情状態を検出するために同時に訓練する。 結果損失関数、すなわち平均二乗誤差を持つオートエンコーダは、我々のモデルと4つの異なる一般的に使用されるデータセットの比較基準として使用される。 異なるクラス間のセントロイドと最小距離は、潜在空間における異なるクラス間の分離を示す指標として用いられる。 平均14.75%と17.75%の増加(ベンチマークから提案する損失関数まで)は、各データセットの最小ユークリッド距離と遠心ユークリッド距離でそれぞれ検出された。

Emotions are an essential part of human behavior that can impact thinking, decision-making, and communication skills. Thus, the ability to accurately monitor and identify emotions can be useful in many human-centered applications such as behavioral training, tracking emotional well-being, and development of human-computer interfaces. The correlation between patterns in physiological data and affective states has allowed for the utilization of deep learning techniques which can accurately detect the affective states of a person. However, the generalisability of existing models is often limited by the subject-dependent noise in the physiological data due to variations in a subject's reactions to stimuli. Hence, we propose a novel cost function that employs Optimal Transport Theory, specifically Wasserstein Distance, to scale the importance of subject-dependent data such that higher importance is assigned to patterns in data that are common across all participants while decreasing the importance of patterns that result from subject-dependent noise. The performance of the proposed cost function is demonstrated through an autoencoder with a multi-class classifier attached to the latent space and trained simultaneously to detect different affective states. An autoencoder with a state-of-the-art loss function i.e., Mean Squared Error, is used as a baseline for comparison with our model across four different commonly used datasets. Centroid and minimum distance between different classes are used as a metrics to indicate the separation between different classes in the latent space. An average increase of 14.75% and 17.75% (from benchmark to proposed loss function) was found for minimum and centroid euclidean distance respectively over all datasets.
翻訳日:2023-08-22 12:29:42 公開日:2023-08-17
# 同時データストリームにおける異常検出のためのオンライン遷移に基づく特徴生成

Online Transition-Based Feature Generation for Anomaly Detection in Concurrent Data Streams ( http://arxiv.org/abs/2308.10893v1 )

ライセンス: Link先を確認
Yinzheng Zhong and Alexei Lisitsa(参考訳) 本稿では,一般的なアクティビティデータを属性で読み,ステップバイステップで生成するtransition-based feature generator(tfgen)手法を提案する。 アクティビティデータはパケットからのネットワークアクティビティ、プロセスからのシステムコール、監視カメラからの機密アクティビティから構成される。 TFGenはデータをオンラインで処理し、高い計算効率で受信した各アクティビティの履歴データをエンコードしたデータを生成する。 入力アクティビティは、異なるトレースまたはチャネルから同時に発生する。 このテクニックは、ドメインに依存しない適用性、グローバルプロセス構造の発見能力、時系列データのエンコーディング、オンライン処理能力といった問題に対処することを目的としている。

In this paper, we introduce the transition-based feature generator (TFGen) technique, which reads general activity data with attributes and generates step-by-step generated data. The activity data may consist of network activity from packets, system calls from processes or classified activity from surveillance cameras. TFGen processes data online and will generate data with encoded historical data for each incoming activity with high computational efficiency. The input activities may concurrently originate from distinct traces or channels. The technique aims to address issues such as domain-independent applicability, the ability to discover global process structures, the encoding of time-series data, and online processing capability.
翻訳日:2023-08-22 12:18:16 公開日:2023-08-17
# ベイズ多項式ニューラルネットワークと多項式神経常微分方程式

Bayesian polynomial neural networks and polynomial neural ordinary differential equations ( http://arxiv.org/abs/2308.10892v1 )

ライセンス: Link先を確認
Colby Fronk and Jaewoong Yun and Prashant Singh and Linda Petzold(参考訳) 多項式ニューラルネットワークと多項式ニューラル常微分方程式(odes)を用いた記号回帰は、多くの科学および工学問題の方程式回復のための近年の2つの強力なアプローチである。 しかし、これらの手法はモデルパラメータの点推定を提供し、現在ノイズデータに対応できない。 我々は,ラプラス近似法,マルコフ連鎖モンテカルロサンプリング法,変分推論法などのベイズ推定法を開発し検証することで,この問題に対処した。 ラプラス近似は,この問題に対する最善の方法であることがわかった。 我々の研究は、多項式ニューラルネットワークが属するより広範な記号型ニューラルネットワークに容易に拡張できる。

Symbolic regression with polynomial neural networks and polynomial neural ordinary differential equations (ODEs) are two recent and powerful approaches for equation recovery of many science and engineering problems. However, these methods provide point estimates for the model parameters and are currently unable to accommodate noisy data. We address this challenge by developing and validating the following Bayesian inference methods: the Laplace approximation, Markov Chain Monte Carlo (MCMC) sampling methods, and variational inference. We have found the Laplace approximation to be the best method for this class of problems. Our work can be easily extended to the broader class of symbolic neural networks to which the polynomial neural network belongs.
翻訳日:2023-08-22 12:18:06 公開日:2023-08-17
# ACIPS:AIによる医療導入における患者認識評価フレームワーク

ACIPS: A Framework for Evaluating Patient Perception in the Introduction of AI-Enabled Healthcare ( http://arxiv.org/abs/2111.04456v2 )

ライセンス: Link先を確認
Chinasa T. Okolo, Michelle Gonz\'alez Amador(参考訳) 医療において、aiの役割は継続的に進化し、その導入が医療提供者と患者の関係に直面する課題を理解するには、関与するすべてのユーザーに指針を提供するための規制的および行動的アプローチが必要である。 本稿では,医療現場におけるai対応型デジタル技術の導入に対する患者応答評価のためのフレームワークであるaccepts(acceptability, comfortability, informed consent, privacy, and security)を提案する。 我々は、医療の提供に重点を置いて、人間中心の分野におけるAIの意義と認識に関する一般的な導入によってACIPSの必要性を正当化する。 このフレームワークは、AIが医療でどのように使われているかを学ぶ際に保持される、受容性、快適性、インフォームドコンセント、プライバシー、セキュリティの5つの原則で構成されている。 我々は、このフレームワークを構成するテットを、医療におけるAIの適切な使用を概説するガイドラインに翻訳し、このトピックの限られた理解を広げることを提案する。

In healthcare, the role of AI is continually evolving and understanding the challenges its introduction poses on relationships between healthcare providers and patients will require a regulatory and behavioural approach that can provide a guiding base for all users involved. In this paper, we present ACIPS (Acceptability, Comfortability, Informed Consent, Privacy, and Security), a framework for evaluating patient response to the introduction of AI-enabled digital technologies in healthcare settings. We justify the need for ACIPS with a general introduction of the challenges with and perceived relevance of AI in human-welfare centered fields, with an emphasis on the provision of healthcare. The framework is composed of five principles that measure the perceptions of acceptability, comfortability, informed consent, privacy, and security patients hold when learning how AI is used in their healthcare. We propose that the tenets composing this framework can be translated into guidelines outlining the proper use of AI in healthcare while broadening the limited understanding of this topic.
翻訳日:2023-08-22 01:56:45 公開日:2023-08-17
# データ駆動型イニシアチブにおける認識的不確かさの表現とその知覚

Representations of epistemic uncertainty and its perception in data-driven initiatives ( http://arxiv.org/abs/2110.11482v5 )

ライセンス: Link先を確認
Mario Angelelli, Massimiliano Gervasi(参考訳) AIの出現によるデータ駆動戦略の進化は、意思決定プロセスを再構築し、従来のデータインタラクションへの依存から遠ざかっている。 このパラダイムシフトは、データ駆動型イニシアティブの影響を評価する上で、新たな課題を導入します。 これらの進化する方法論をサポートするためには、限られたデータ観測可能性から生じる不確実性や意思決定の曖昧さを記述できる新しいモデルが必要である。 この貢献は、知識表現の不確実性やエージェントが媒介する情報伝達の推論を扱うために設計された新しい概念モデルを示す。 データ駆動型イニシアチブで生成される価値を評価するために現在採用されている多次元フレームワークから、知識状態とそのダイナミクスを代数的に記述する。 具体的には、知識状態の比較と結合のための形式的な構造をモデルに付与し、これらの組み合わせを通じて更新を行い、その説明可能性は異なる次元表現における一貫性に基づいている。 知識の等価表現が価値次元の不確実性に関連するいくつかの問題に対処できる事例について議論する。 さらに、曖昧さと他の(技術)エージェントがデータを観察している知識に関する推論という観点から、古典的でない不確実性を示す2つのシナリオで形式的なアナロジーを定義することができる。

Emerging data-driven strategies, powered by the advent of AI, are reshaping decision-making processes, moving away from traditional reliance on direct data interaction. This paradigm shift introduces new challenges in assessing the impact of data-driven initiatives. To support these evolving methodologies, there is a crucial need for new models capable of describing the uncertainties stemming from limited data observability and the resulting ambiguities in decision-making. This contribution presents a novel conceptual model designed to deal with uncertainty in knowledge representations and reasoning about information transfer mediated by agents. Drawing from the multidimensional frameworks currently adopted to assess the value generated in data-driven initiatives, we provide an algebraic description of knowledge states and their dynamics. Specifically, we endow our model with a formal structure to compare and combine knowledge states; an update is represented through these combinations, and its explainability is based on their consistency in different dimensional representations. We discuss instances where inequivalent representations of knowledge can address some issues related to uncertainty about value dimensions. Furthermore, we can define a formal analogy with two scenarios that illustrate non-classical uncertainty in terms of ambiguity and reasoning about knowledge mediated by other (artificial) agents observing data.
翻訳日:2023-08-22 01:56:07 公開日:2023-08-17
# 強相互作用するフェルミオンハミルトニアンの最適化

Optimizing Strongly Interacting Fermionic Hamiltonians ( http://arxiv.org/abs/2110.10701v4 )

ライセンス: Link先を確認
Matthew B. Hastings and Ryan O'Donnell(参考訳) 物理学と量子化学の多くの基本的な問題は、ある種の反可換変数の低次多項式を最適化することである。 量子力学的問題であるため、多くの場合、最適の効率的な古典的証人や、最適の近似さえも知らない。 特筆すべき例外は、最適化が「ガウス状態」と呼ばれる自由フェルミオン状態によって記述されるときである。 この研究では、良いガウス状態が存在しない場合の最適化問題の複雑さに関心があります。 我々の主要なテストベッドは、ランダム次数-$q$多項式のSachdev--Ye-Kitaev(SYK)モデルであり、凝縮物質物理学と弦理論に大きな関心を持つモデルであり、計算複雑性の観点から顕著な性質を持つ。 それらの結果の中から,$q=4$ sykモデルにおける最大固有値の上限値を求める効率的な古典的証明アルゴリズムと,この最大固有値の上限を低くするための効率的な量子証明アルゴリズムを提案する。

The fundamental problem in much of physics and quantum chemistry is to optimize a low-degree polynomial in certain anticommuting variables. Being a quantum mechanical problem, in many cases we do not know an efficient classical witness to the optimum, or even to an approximation of the optimum. One prominent exception is when the optimum is described by a so-called "Gaussian state", also called a free fermion state. In this work we are interested in the complexity of this optimization problem when no good Gaussian state exists. Our primary testbed is the Sachdev--Ye--Kitaev (SYK) model of random degree-$q$ polynomials, a model of great current interest in condensed matter physics and string theory, and one which has remarkable properties from a computational complexity standpoint. Among other results, we give an efficient classical certification algorithm for upper-bounding the largest eigenvalue in the $q=4$ SYK model, and an efficient quantum certification algorithm for lower-bounding this largest eigenvalue; both algorithms achieve constant-factor approximations with high probability.
翻訳日:2023-08-22 01:55:45 公開日:2023-08-17
# 協調表現学習とオンラインクラスタリングによる教師なし行動セグメンテーション

Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering ( http://arxiv.org/abs/2105.13353v7 )

ライセンス: Link先を確認
Sateesh Kumar, Sanjay Haresh, Awais Ahmed, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran(参考訳) 本稿では,ビデオフレームクラスタリングをプレテキストタスクとし,表現学習とオンラインクラスタリングを同時に行う,教師なしアクティビティセグメンテーションのための新しいアプローチを提案する。 これは、表現学習やクラスタリングが連続的に行われる先行研究とは対照的である。 我々は時間的最適輸送を利用してビデオの時間的情報を活用する。 特に、擬似ラベルクラスタ割り当てを計算するための標準最適トランスポートモジュールに、アクティビティの時間的順序を保存する時間的正則化項を組み込む。 時間最適トランスポートモジュールは,教師なしアクティビティセグメンテーションの効果的な表現を学習する手法である。 さらに、従来の方法では、オフラインでクラスタ化する前にデータセット全体の学習機能を格納する必要がありますが、当社のアプローチでは、一度にひとつのミニバッチをオンライン形式で処理します。 50-Salads、YouTube Instructions、Breakfastの3つの公開データセットに対する大規模な評価と、私たちのデータセットであるDesktop Assemblyは、メモリの制約が大幅に少ないにもかかわらず、我々のアプローチが従来の方法と同等か、より優れていることを示している。 私たちのコードとデータセットは、リサーチウェブサイトで利用可能です。

We present a novel approach for unsupervised activity segmentation which uses video frame clustering as a pretext task and simultaneously performs representation learning and online clustering. This is in contrast with prior works where representation learning and clustering are often performed sequentially. We leverage temporal information in videos by employing temporal optimal transport. In particular, we incorporate a temporal regularization term which preserves the temporal order of the activity into the standard optimal transport module for computing pseudo-label cluster assignments. The temporal optimal transport module enables our approach to learn effective representations for unsupervised activity segmentation. Furthermore, previous methods require storing learned features for the entire dataset before clustering them in an offline manner, whereas our approach processes one mini-batch at a time in an online manner. Extensive evaluations on three public datasets, i.e. 50-Salads, YouTube Instructions, and Breakfast, and our dataset, i.e., Desktop Assembly, show that our approach performs on par with or better than previous methods, despite having significantly less memory constraints. Our code and dataset are available on our research website: https://retrocausal.ai/research/
翻訳日:2023-08-22 01:55:24 公開日:2023-08-17
# ビデオの時間的アライメントによる学習

Learning by Aligning Videos in Time ( http://arxiv.org/abs/2103.17260v2 )

ライセンス: Link先を確認
Sanjay Haresh and Sateesh Kumar and Huseyin Coskun and Shahram Najam Syed and Andrey Konin and Muhammad Zeeshan Zia and Quoc-Huy Tran(参考訳) 本稿では,時間的映像アライメントをプリテキストタスクとして,フレームレベルとビデオレベルの情報を活用しながら,映像表現を学習するための自己教師あり手法を提案する。 我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。 具体的には、時間的アライメント損失(Soft-DTW)は、埋め込み空間におけるビデオの時間的アライメントの最小コストを目標とする。 しかし、この項のみを最適化することは、特にすべてのフレームが埋め込み空間の小さなクラスタにマッピングされるような、自明な解決につながる。 この問題を克服するために,組込み空間内の異なる点に異なるフレームをマッピングすることを奨励する時間正規化項(コントラストidm)を提案する。 アクションフェーズの分類,アクションフェーズの進行,微粒化フレームの検索など,多種多様なタスクに対する広範囲な評価は,ビデオからの自己教師型表現学習における最先端の手法よりも,ポーリング,ペンアクション,IKEA ASMの3つのデータセットにおいて優れていることを示す。 さらに,ラベル付きデータが不足している場合,性能が大幅に向上する。 私たちのコードとラベルは、私たちのリサーチウェブサイトで利用可能です。

We present a self-supervised approach for learning video representations using temporal video alignment as a pretext task, while exploiting both frame-level and video-level information. We leverage a novel combination of temporal alignment loss and temporal regularization terms, which can be used as supervision signals for training an encoder network. Specifically, the temporal alignment loss (i.e., Soft-DTW) aims for the minimum cost for temporally aligning videos in the embedding space. However, optimizing solely for this term leads to trivial solutions, particularly, one where all frames get mapped to a small cluster in the embedding space. To overcome this problem, we propose a temporal regularization term (i.e., Contrastive-IDM) which encourages different frames to be mapped to different points in the embedding space. Extensive evaluations on various tasks, including action phase classification, action phase progression, and fine-grained frame retrieval, on three datasets, namely Pouring, Penn Action, and IKEA ASM, show superior performance of our approach over state-of-the-art methods for self-supervised representation learning from videos. In addition, our method provides significant performance gain where labeled data is lacking. Our code and labels are available on our research website: https://retrocausal.ai/research/
翻訳日:2023-08-22 01:55:06 公開日:2023-08-17
# コヒーレンスウィットネスゲームと半デバイス非依存量子鍵分布への応用

A coherence-witnessing game and applications to semi-device-independent quantum key distribution ( http://arxiv.org/abs/2103.06829v4 )

ライセンス: Link先を確認
M\'ario Silva, Ricardo Faleiro, Paulo Mateus and Emmanuel Zambrini Cruzeiro(参考訳) 半デバイス非依存の量子キー分布は、最高レベルのセキュリティ、デバイス独立、実験的実現可能性の間のバランスを達成することを目的としている。 半量子鍵分布は、セキュリティを維持しながら量子演算への依存を最小限に抑え、単純化されたハードウェアフォールトトレラントな量子プロトコルの開発を可能にする興味深いアプローチを示す。 本稿では,様々な種類のコヒーレンスを目撃するコヒーレンス平等ゲームのノイズロバスト版を基盤とした,コヒーレンスベース,セミデバイス非依存,セミ量子鍵分散プロトコルを提案する。 セキュリティはバウンド量子ストレージモデルで証明されており、ユーザーは古典的な操作、特に固定基底検出のみを実装する必要がある。

Semi-device-independent quantum key distribution aims to achieve a balance between the highest level of security, device independence, and experimental feasibility. Semi-quantum key distribution presents an intriguing approach that seeks to minimize users' reliance on quantum operations while maintaining security, thus enabling the development of simplified and hardware fault-tolerant quantum protocols. In this work, we introduce a coherence-based, semi-device-independent, semi-quantum key distribution protocol built upon a noise-robust version of a coherence equality game that witnesses various types of coherence. Security is proven in the bounded quantum storage model, requiring users to implement only classical operations, specifically fixed-basis detections.
翻訳日:2023-08-22 01:54:44 公開日:2023-08-17
# 転校学習における不適切な事前学習モデルに向けて

Towards Inadequately Pre-trained Models in Transfer Learning ( http://arxiv.org/abs/2203.04668v3 )

ライセンス: Link先を確認
Andong Deng, Xingjian Li, Di Hu, Tianyang Wang, Haoyi Xiong, Chengzhong Xu(参考訳) プレトレーニングは、ディープラーニング時代、特にアノテーション不足のシナリオにおいて、一般的な学習パラダイムである。 より優れたImageNet事前訓練モデルが、アーキテクチャの観点から、以前の研究で下流タスクへの転送性を改善するために実証されている。 しかし,本論文では,同じ事前学習過程において,機能抽出器 (FE) として使用する場合, 未訓練の中期のモデルでは十分に訓練されたモデルよりも優れ, 微調整 (FT) 性能は依然としてソース性能とともに向上することを示した。 これは、ImageNet上のトップ1精度とターゲットデータ上の転送結果との間には、確固とした正の相関がないことを明らかにする。 FEとFTの矛盾する現象に基づき,より優れた特徴抽出器の微調整を行なわず,ソフトマックス層以前の特徴を包括的に分析し,洞察に富んだ説明を行う。 我々の発見は、事前学習中、モデルはまず大きな特異値に対応するスペクトル成分を学習し、残差成分は微調整時により寄与することを示唆している。

Pre-training has been a popular learning paradigm in deep learning era, especially in annotation-insufficient scenario. Better ImageNet pre-trained models have been demonstrated, from the perspective of architecture, by previous research to have better transferability to downstream tasks. However, in this paper, we found that during the same pre-training process, models at middle epochs, which is inadequately pre-trained, can outperform fully trained models when used as feature extractors (FE), while the fine-tuning (FT) performance still grows with the source performance. This reveals that there is not a solid positive correlation between top-1 accuracy on ImageNet and the transferring result on target data. Based on the contradictory phenomenon between FE and FT that better feature extractor fails to be fine-tuned better accordingly, we conduct comprehensive analyses on features before softmax layer to provide insightful explanations. Our discoveries suggest that, during pre-training, models tend to first learn spectral components corresponding to large singular values and the residual components contribute more when fine-tuning.
翻訳日:2023-08-22 01:47:37 公開日:2023-08-17
# 局所微分プライバシー下におけるグラフニューラルネットワークの次数保存ランダム化応答

Degree-Preserving Randomized Response for Graph Neural Networks under Local Differential Privacy ( http://arxiv.org/abs/2202.10209v4 )

ライセンス: Link先を確認
Seira Hidano and Takao Murakami(参考訳) グラフニューラルネットワーク(Graph Neural Networks)は,ユーザプライバシを強く保護しつつ,グラフデータのさまざまなタスクにおいて高い精度を提供するために最近研究されている。 特に、最近の研究では、信頼できる第三者がいない強力なプライバシー概念であるLPP(Local Differential Privacy)を用いた属性グラフにおいて、各ユーザの特徴ベクトルを保護するアルゴリズムを提案する。 しかし、このアルゴリズムはソーシャルグラフのエッジ(フレンドシップ)を保護しないため、未分散グラフではユーザのプライバシを保護できない。 分散されていないグラフに高い精度で強力なプライバシを提供する方法はまだオープンだ。 本稿では,gnnにおけるエッジに対するldpを提供するために,dprr(degree-preserving randomized response)と呼ばれる新しいldpアルゴリズムを提案する。 我々のDPRRは各ユーザの次数を保存するので、エッジDPを提供しながらグラフ構造を提供する。 技術的には、我々のDPRRはWarnerのRR(Randomized Response)と戦略的エッジサンプリングを使用しており、各ユーザのサンプリング確率はLaplacianメカニズムを用いて自動的に調整され、エッジLPPの次数情報を保存する。 また,warnerのrrとラプラシアン機構のノイズを小さくするためのプライバシ予算割り当て手法を提案する。 GNNのタスクとしてのグラフ分類に着目し、3つのソーシャルグラフデータセットを用いてDPRRを評価する。 実験の結果,DPRRは3つのベースラインを大きく上回り,エプシロン=1などの適切なプライバシー予算を持つすべてのデータセットにおいて,非プライベートアルゴリズムに近い精度を提供することがわかった。

Differentially private GNNs (Graph Neural Networks) have been recently studied to provide high accuracy in various tasks on graph data while strongly protecting user privacy. In particular, a recent study proposes an algorithm to protect each user's feature vector in an attributed graph with LDP (Local Differential Privacy), a strong privacy notion without a trusted third party. However, this algorithm does not protect edges (friendships) in a social graph, hence cannot protect user privacy in unattributed graphs. How to provide strong privacy with high accuracy in unattributed graphs remains open. In this paper, we propose a novel LDP algorithm called the DPRR (Degree-Preserving Randomized Response) to provide LDP for edges in GNNs. Our DPRR preserves each user's degree hence a graph structure while providing edge LDP. Technically, our DPRR uses Warner's RR (Randomized Response) and strategic edge sampling, where each user's sampling probability is automatically tuned using the Laplacian mechanism to preserve the degree information under edge LDP. We also propose a privacy budget allocation method to make the noise in both Warner's RR and the Laplacian mechanism small. We focus on graph classification as a task of GNNs and evaluate the DPRR using three social graph datasets. Our experimental results show that the DPRR significantly outperforms three baselines and provides accuracy close to a non-private algorithm in all datasets with a reasonable privacy budget, e.g., epsilon=1.
翻訳日:2023-08-22 01:47:17 公開日:2023-08-17
# 自己監督学習と共同学習による病理画像からのポイントアノテーションによる核分割

Nuclei Segmentation with Point Annotations from Pathology Images via Self-Supervised Learning and Co-Training ( http://arxiv.org/abs/2202.08195v2 )

ライセンス: Link先を確認
Yi Lin, Zhiyong Qu, Hao Chen, Zhongke Gao, Yuexiang Li, Lili Xia, Kai Ma, Yefeng Zheng, Kwang-Ting Cheng(参考訳) 核セグメンテーションはデジタル病理学における全スライド画像解析において重要なタスクである。 一般に、完全教師付き学習のセグメンテーション性能は、注釈付きデータの量と品質に大きく依存する。 しかし、プロの病理学者が正確なピクセルレベルの地上真実を提供するのに時間と費用がかかり、ポイントアノテーションのような粗いラベルを得るのは非常に容易である。 本稿では,訓練に点アノテーションのみを必要とする核セグメンテーションのための弱教師付き学習法を提案する。 まず、粗いピクセルレベルのラベルは、オーバーフィッティングを避けるために、ボロノイ図とk平均クラスタリング法に基づく点アノテーションから導かれる。 第2に, 指数移動平均法との共同学習戦略は, 粗ラベルの不完全な監視を洗練するように設計されている。 第3に、ヘマトキシリン成分像をH&E染色画像に変換する病理画像の核分節化のために、自己監督型視覚表現学習法を調整し、核と細胞質の関係をよりよく理解する。 提案手法を2つの公開データセットを用いて総合的に評価する。 視覚的および定量的な結果から,本手法の最先端手法に対する優位性と,完全教師付き手法と比較しての競合性能を示す。 コード:https://github.com/hust-linyi/SC-Net

Nuclei segmentation is a crucial task for whole slide image analysis in digital pathology. Generally, the segmentation performance of fully-supervised learning heavily depends on the amount and quality of the annotated data. However, it is time-consuming and expensive for professional pathologists to provide accurate pixel-level ground truth, while it is much easier to get coarse labels such as point annotations. In this paper, we propose a weakly-supervised learning method for nuclei segmentation that only requires point annotations for training. First, coarse pixel-level labels are derived from the point annotations based on the Voronoi diagram and the k-means clustering method to avoid overfitting. Second, a co-training strategy with an exponential moving average method is designed to refine the incomplete supervision of the coarse labels. Third, a self-supervised visual representation learning method is tailored for nuclei segmentation of pathology images that transforms the hematoxylin component images into the H&E stained images to gain better understanding of the relationship between the nuclei and cytoplasm. We comprehensively evaluate the proposed method using two public datasets. Both visual and quantitative results demonstrate the superiority of our method to the state-of-the-art methods, and its competitive performance compared to the fully-supervised methods. Code: https://github.com/hust-linyi/SC-Net
翻訳日:2023-08-22 01:46:49 公開日:2023-08-17
# データ結合による持続的コンバウンダリングによる長期因果推論

Long-term Causal Inference Under Persistent Confounding via Data Combination ( http://arxiv.org/abs/2202.07234v3 )

ライセンス: Link先を確認
Guido Imbens, Nathan Kallus, Xiaojie Mao, Yuhao Wang(参考訳) 実験データと観察データの両方が利用可能である場合の長期治療効果の同定と推定について検討する。 長期の成果は長期間の遅延後にのみ観測されるため、実験データでは測定されず、観測データでのみ記録される。 しかし、どちらのデータも短期的な結果の観察を含んでいる。 本稿では,従来の文献では識別戦略を無効としており,治療,短期的成果,長期的成果に同時に影響を及ぼすような,持続的無測定共同設立者の課題に一意的に取り組む。 この課題に対処するために,複数の短期的成果の逐次構造を活用し,平均的長期的治療効果に対する3つの新しい識別戦略を開発する。 さらに,対応する3つの推定器を提案し,それらの漸近的一貫性と漸近的正規性を証明する。 最後に, 半合成データを用いて, 職業訓練プログラムが長期雇用に及ぼす影響を推定する手法を適用した。 我々は,提案手法が持続的共同創設者を扱わない既存手法よりも優れていることを数値的に示す。

We study the identification and estimation of long-term treatment effects when both experimental and observational data are available. Since the long-term outcome is observed only after a long delay, it is not measured in the experimental data, but only recorded in the observational data. However, both types of data include observations of some short-term outcomes. In this paper, we uniquely tackle the challenge of persistent unmeasured confounders, i.e., some unmeasured confounders that can simultaneously affect the treatment, short-term outcomes and the long-term outcome, noting that they invalidate identification strategies in previous literature. To address this challenge, we exploit the sequential structure of multiple short-term outcomes, and develop three novel identification strategies for the average long-term treatment effect. We further propose three corresponding estimators and prove their asymptotic consistency and asymptotic normality. We finally apply our methods to estimate the effect of a job training program on long-term employment using semi-synthetic data. We numerically show that our proposals outperform existing methods that fail to handle persistent confounders.
翻訳日:2023-08-22 01:46:26 公開日:2023-08-17
# 非線形量子シミュレーションとしての宇宙:中心スピンモデルの大きな$n$制限

The universe as a nonlinear quantum simulation: Large $n$ limit of the central spin model ( http://arxiv.org/abs/2112.09005v2 )

ライセンス: Link先を確認
Michael R. Geller(参考訳) 平均場理論が厳密である大規模なn$極限において、n$-qubit central spin model (csm) へのマッピングに基づいて、非線形量子ビット進化のモデルを調べる。 Erd\"os と Schlein の定理を拡張して、CSM は $n \rightarrow \infty$ のときの非線形量子ビットと厳密に双対であることを確立する。 この双対性は、凝縮子のようなシステムにおける非線形量子計算の一種をサポートし、多数のアンシラが対称に「中央」量子ビットと結合する。 また、厳密な誤差境界を持つ非線形量子シミュレーションのゲートモデル実装を可能にする。 このモデルの2つの変種は、アンシラ間のカップリングと無しで、異なる非線形性と対称性を持つ有効モデルにマップされる。 ここで議論される双対性は、量子基礎の観点からも興味深い。 量子力学がある種の小さな非観測非線形性を持つかどうかには、長い間関心が寄せられていた。 もしそうでなければ、それを禁止する原則は何でしょう? 双対性は、線型量子力学と非線形量子力学に従って進化する宇宙の間には鋭い区別がないことを意味する: 純状態の状態で準備された1量子ビット "universe" $| \varphi \rangle $ ビッグバンの時点では、同じ状態で準備されたancillaと対称に結合し、指数的に多くのancilla $n \gg {\rm exp}(o(t))$がある限り、任意の有限時間、非線形に進化するように見える。

We investigate models of nonlinear qubit evolution based on mappings to an $n$-qubit central spin model (CSM) in the large $n$ limit, where mean field theory is exact. Extending a theorem of Erd\"os and Schlein, we establish that the CSM is rigorously dual to a nonlinear qubit when $n \rightarrow \infty$. The duality supports a type of nonlinear quantum computation in systems, such as a condensate, where a large number of ancilla couple symmetrically to a "central" qubit. It also enables a gate-model implementation of nonlinear quantum simulation with a rigorous error bound. Two variants of the model, with and without coupling between ancilla, map to effective models with different nonlinearity and symmetry. The duality discussed here might also be interesting from a quantum foundations perspective. There has long been interest in whether quantum mechanics might possess some type of small, unobserved nonlinearity. If not, what is the principle prohibiting it? The duality implies that there is not a sharp distinction between universes evolving according to linear and nonlinear quantum mechanics: A one-qubit "universe" prepared in a pure state $| \varphi \rangle $ at the time of the big bang and symmetrically coupled to ancilla prepared in the same state, would appear to evolve nonlinearly for any finite time $t>0$ as long as there are exponentially many ancilla $n \gg {\rm exp}(O(t))$.
翻訳日:2023-08-22 01:45:09 公開日:2023-08-17
# 良い意図:インテントシグナリングによる適応パラメータ管理

Good Intentions: Adaptive Parameter Management via Intent Signaling ( http://arxiv.org/abs/2206.00470v4 )

ライセンス: Link先を確認
Alexander Renz-Wieland, Andreas Kieslinger, Robert Gericke, Rainer Gemulla, Zoi Kaoudi, Volker Markl(参考訳) パラメータ管理は、大規模機械学習(ml)タスクの分散トレーニングに不可欠である。 一部のmlタスクは、パラメータ管理への一般的なアプローチが極めて非効率なため、分散が難しい。 選択レプリケーションや動的パラメータ割り当てといった高度なパラメータ管理アプローチは、効率を改善することができるが、そうするためには、通常、各タスクの実装に手動で統合する必要がある。 本研究では,この2つの問題を回避できるかどうかを考察する。 まず,既存のmlスタックに自然に統合し,パラメータマネージャにパラメータアクセスに関する重要な情報を提供するインテントシグナリング機構を提案する。 次に,この機構に基づく完全適応型ゼロチューニングパラメータマネージャであるadapmについて述べる。 従来のシステムとは対照的に、このアプローチでは、情報を提供すること(タスクによって行われる単純な)を効果的に利用すること(AdaPMが自動的に行う)から分離する。 実験結果から,adapmは自動パラメータ管理が可能であることが示唆された。

Parameter management is essential for distributed training of large machine learning (ML) tasks. Some ML tasks are hard to distribute because common approaches to parameter management can be highly inefficient. Advanced parameter management approaches -- such as selective replication or dynamic parameter allocation -- can improve efficiency, but to do so, they typically need to be integrated manually into each task's implementation and they require expensive upfront experimentation to tune correctly. In this work, we explore whether these two problems can be avoided. We first propose a novel intent signaling mechanism that integrates naturally into existing ML stacks and provides the parameter manager with crucial information about parameter accesses. We then describe AdaPM, a fully adaptive, zero-tuning parameter manager based on this mechanism. In contrast to prior systems, this approach separates providing information (simple, done by the task) from exploiting it effectively (hard, done automatically by AdaPM). In our experimental evaluation, AdaPM matched or outperformed state-of-the-art parameter managers out of the box, suggesting that automatic parameter management is possible.
翻訳日:2023-08-22 01:38:05 公開日:2023-08-17
# IDEAL:ブラックボックスモデルからのクエリ効率の良いデータ自由学習

IDEAL: Query-Efficient Data-Free Learning from Black-box Models ( http://arxiv.org/abs/2205.11158v2 )

ライセンス: Link先を確認
Jie Zhang, Chen Chen, Lingjuan Lyu(参考訳) 知識蒸留(KD)は,教師モデルを用いて,軽量な学生モデルを訓練する典型的な方法である。 しかしながら、ほとんどのKDメソッドは教師のトレーニングデータまたはモデルパラメータへのアクセスを必要とする。 この問題に対処するため、最近の研究はデータフリーおよびブラックボックス設定下でKDを研究する。 それにもかかわらず、これらの作業には教師モデルへの大量のクエリが必要であり、かなりの金銭的および計算的コストがかかる。 これらの問題に対処するために,本研究では,ブラックボックスモデルapiからクエリを効率的に学習し,実データ無しで優れた学生を訓練することを目的とした,新しい手法である \emph{query- efficient data-free learning from black-box models} (ideal)を提案する。 詳しくは、IDEALは学生モデルをデータ生成とモデルの蒸留の2段階に分けて訓練する。 イデアルはデータ生成段階においていかなるクエリも必要とせず、蒸留段階の各サンプルに対して一度だけ教師に問い合わせる。 様々な実世界のデータセットに対する大規模な実験は、提案したIDEALの有効性を示している。 例えば、IDEALは、DFMEのクエリ予算の0.02倍で、CIFAR10データセット上でDFMEの最高のベースラインメソッドDFMEのパフォーマンスを5.83%向上させることができる。

Knowledge Distillation (KD) is a typical method for training a lightweight student model with the help of a well-trained teacher model. However, most KD methods require access to either the teacher's training data or model parameters, which is unrealistic. To tackle this problem, recent works study KD under data-free and black-box settings. Nevertheless, these works require a large number of queries to the teacher model, which incurs significant monetary and computational costs. To address these problems, we propose a novel method called \emph{query-effIcient Data-free lEarning from blAck-box modeLs} (IDEAL), which aims to query-efficiently learn from black-box model APIs to train a good student without any real data. In detail, IDEAL trains the student model in two stages: data generation and model distillation. Note that IDEAL does not require any query in the data generation stage and queries the teacher only once for each sample in the distillation stage. Extensive experiments on various real-world datasets show the effectiveness of the proposed IDEAL. For instance, IDEAL can improve the performance of the best baseline method DFME by 5.83% on CIFAR10 dataset with only 0.02x the query budget of DFME.
翻訳日:2023-08-22 01:37:38 公開日:2023-08-17
# 並列および分散グラフニューラルネットワーク: 詳細な並列処理解析

Parallel and Distributed Graph Neural Networks: An In-Depth Concurrency Analysis ( http://arxiv.org/abs/2205.09702v7 )

ライセンス: Link先を確認
Maciej Besta, Torsten Hoefler(参考訳) グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も強力なツールのひとつだ。 ノード分類、グラフ分類、リンク予測といった非構造化ネットワーク上の複雑な問題を、精度良く日常的に解決する。 しかし、GNNの推論と訓練は複雑であり、不規則なグラフ処理の特徴と密度計算と正規計算を一意に組み合わせている。 この複雑さにより、現代の大規模並列アーキテクチャ上でのGNNの効率的な実行が非常に困難になる。 これを緩和するために、まず、データとモデル並列性、および異なる形式のパイプライニングを考慮して、GNNにおける並列性の分類を設計する。 そして、この分類法を用いて、多数のGNNモデル、GNN駆動機械学習タスク、ソフトウェアフレームワーク、ハードウェアアクセラレーターにおける並列性の量を調べる。 作業深度モデルを用いて通信量と同期性を評価する。 特に,ベクトル化などの手法を効果的に適用する方法を理解するために,関連するテンソルのスパーシティ/密度に着目した。 我々はまた、GNNパイプラインのパイプライン化を公式に分析し、GNNモデルの確立されたメッセージパッシングクラスを任意のパイプライン深さをカバーするために一般化し、将来の最適化を容易にする。 最後に,非同期並列GNNパイプラインの経路をナビゲートする,様々な非同期性について検討する。 分析の結果は、GNNの性能を最大化するための一連の洞察と、効率的なGNN計算のさらなる研究のための課題と機会の包括的リストで合成される。 我々の仕事は将来のGNNの設計を前進させるのに役立ちます。

Graph neural networks (GNNs) are among the most powerful tools in deep learning. They routinely solve complex problems on unstructured networks, such as node classification, graph classification, or link prediction, with high accuracy. However, both inference and training of GNNs are complex, and they uniquely combine the features of irregular graph processing with dense and regular computations. This complexity makes it very challenging to execute GNNs efficiently on modern massively parallel architectures. To alleviate this, we first design a taxonomy of parallelism in GNNs, considering data and model parallelism, and different forms of pipelining. Then, we use this taxonomy to investigate the amount of parallelism in numerous GNN models, GNN-driven machine learning tasks, software frameworks, or hardware accelerators. We use the work-depth model, and we also assess communication volume and synchronization. We specifically focus on the sparsity/density of the associated tensors, in order to understand how to effectively apply techniques such as vectorization. We also formally analyze GNN pipelining, and we generalize the established Message-Passing class of GNN models to cover arbitrary pipeline depths, facilitating future optimizations. Finally, we investigate different forms of asynchronicity, navigating the path for future asynchronous parallel GNN pipelines. The outcomes of our analysis are synthesized in a set of insights that help to maximize GNN performance, and a comprehensive list of challenges and opportunities for further research into efficient GNN computations. Our work will help to advance the design of future GNNs.
翻訳日:2023-08-22 01:37:16 公開日:2023-08-17
# 因果効果同定のための実験設計

Experimental Design for Causal Effect Identification ( http://arxiv.org/abs/2205.02232v3 )

ライセンス: Link先を確認
Sina Akbari, Jalal Etesami, Negar Kiyavash(参考訳) pearlのdo微積分は、観測データから識別可能な因果効果を学ぶための完全な公理的アプローチである。 このような効果が特定できない場合は、因果効果を学習するために、システム内でしばしばコストがかかる介入の収集を行う必要がある。 本研究では,最小限のコストで介入の収集を設計し,所望の効果を同定する問題を考察する。 まず,この問題がnp-hardであることを証明し,その最適解を求めるか,対数分解係数近似を求めるアルゴリズムを提案する。 これは、我々の問題と最小打撃セット問題との接続を確立することによって行われる。 さらに,この問題の計算複雑性に取り組むために,多項式時間ヒューリスティックアルゴリズムをいくつか提案する。 これらのアルゴリズムは準最適解に反する可能性があるが、我々のシミュレーションはランダムグラフに対する小さな後悔を達成していることを示している。

Pearl's do calculus is a complete axiomatic approach to learn the identifiable causal effects from observational data. When such an effect is not identifiable, it is necessary to perform a collection of often costly interventions in the system to learn the causal effect. In this work, we consider the problem of designing the collection of interventions with the minimum cost to identify the desired effect. First, we prove that this problem is NP-hard, and subsequently propose an algorithm that can either find the optimal solution or a logarithmic-factor approximation of it. This is done by establishing a connection between our problem and the minimum hitting set problem. Additionally, we propose several polynomial-time heuristic algorithms to tackle the computational complexity of the problem. Although these algorithms could potentially stumble on sub-optimal solutions, our simulations show that they achieve small regrets on random graphs.
翻訳日:2023-08-22 01:36:52 公開日:2023-08-17
# 自己整合性制約によるブートストラップ動作予測

Bootstrap Motion Forecasting With Self-Consistent Constraints ( http://arxiv.org/abs/2204.05859v3 )

ライセンス: Link先を確認
Maosheng Ye, Jiamiao Xu, Xunnong Xu, Tengfei Wang, Tongyi Cao, Qifeng Chen(参考訳) 本稿では,デュアル一貫性制約とマルチ擬似目標監視を用いた動き予測手法を提案する。 動作予測タスクは、過去の空間的および時間的情報を組み込むことで、車両の将来の軌道を予測する。 dcmsの鍵となる設計は、トレーニング段階での空間的および時間的摂動の下で予測された軌道を規則化する双対一貫性制約である。 さらに,複数の目標,すなわちマルチ・プセド・ターゲット・スーパーバイザリングを用いて,動作予測におけるマルチモダリティをモデル化するために,正確な疑似目標を得るための新しい自己センシングスキームを考案する。 Argoverse運動予測ベンチマークの実験結果から,DCMSは最先端の手法よりも優れ,リーダーボード上では1位となった。 また,提案手法は,他の動き予測手法にも適用可能であることを実証した。

We present a novel framework for motion forecasting with Dual Consistency Constraints and Multi-Pseudo-Target supervision. The motion forecasting task predicts future trajectories of vehicles by incorporating spatial and temporal information from the past. A key design of DCMS is the proposed Dual Consistency Constraints that regularize the predicted trajectories under spatial and temporal perturbation during the training stage. In addition, we design a novel self-ensembling scheme to obtain accurate pseudo targets to model the multi-modality in motion forecasting through supervision with multiple targets explicitly, namely Multi-Pseudo-Target supervision. Our experimental results on the Argoverse motion forecasting benchmark show that DCMS significantly outperforms the state-of-the-art methods, achieving 1st place on the leaderboard. We also demonstrate that our proposed strategies can be incorporated into other motion forecasting approaches as general training schemes.
翻訳日:2023-08-22 01:36:38 公開日:2023-08-17
# 学習リーマン多様体上の反応性運動の生成

Reactive Motion Generation on Learned Riemannian Manifolds ( http://arxiv.org/abs/2203.07761v2 )

ライセンス: Link先を確認
Hadi Beik-Mohammadi, S{\o}ren Hauberg, Georgios Arvanitidis, Gerhard Neumann, Leonel Rozo(参考訳) 近年、モーション学習の進歩により、ロボットは新しいスキルを習得し、構造化された環境と非構造化された環境の両方で目に見えない状況に適応できるようになった。 実際に、動作学習法は関連するパターンを捕捉し、動的障害物回避や可変目標などの新しい条件に調整する。 本稿では,リーマン多様体の観点からロボットの動き学習パラダイムを考察する。 リーマン多様体は、測地学が自然な運動スキルである人間のデモンストレーションを通して学べる。 測地学は、新しい変分オートエンコーダ(VAE)によって生成された学習されたリーマン計量を用いて生成される。 さらに,障害物を考慮した環境メトリクスを用いて学習多様体を再構成することにより,オンザフライ・エンドエフェクタ/マルチランブ障害物回避を容易にする手法を提案する。 これらの測地線を用いて生成された運動は、以前は明らかに示されていなかった多重解法タスクを自然に引き起こす可能性がある。 我々は7自由度ロボットマニピュレータを用いてタスクスペースとジョイントスペースのシナリオでこのアプローチを広範囲にテストした。 本研究では,人間の操作者が示す複雑な動作パターンに基づいて,動作スキルを学習し,生成することができることを示す。 さらに,複数の障害物回避戦略を評価し,複数モード設定で軌道を生成する。

In recent decades, advancements in motion learning have enabled robots to acquire new skills and adapt to unseen conditions in both structured and unstructured environments. In practice, motion learning methods capture relevant patterns and adjust them to new conditions such as dynamic obstacle avoidance or variable targets. In this paper, we investigate the robot motion learning paradigm from a Riemannian manifold perspective. We argue that Riemannian manifolds may be learned via human demonstrations in which geodesics are natural motion skills. The geodesics are generated using a learned Riemannian metric produced by our novel variational autoencoder (VAE), which is especially intended to recover full-pose end-effector states and joint space configurations. In addition, we propose a technique for facilitating on-the-fly end-effector/multiple-limb obstacle avoidance by reshaping the learned manifold using an obstacle-aware ambient metric. The motion generated using these geodesics may naturally result in multiple-solution tasks that have not been explicitly demonstrated previously. We extensively tested our approach in task space and joint space scenarios using a 7-DoF robotic manipulator. We demonstrate that our method is capable of learning and generating motion skills based on complicated motion patterns demonstrated by a human operator. Additionally, we assess several obstacle avoidance strategies and generate trajectories in multiple-mode settings.
翻訳日:2023-08-22 01:35:38 公開日:2023-08-17
# 行動分析のための超動物前訓練ポーズ推定モデル

SuperAnimal pretrained pose estimation models for behavioral analysis ( http://arxiv.org/abs/2203.07436v3 )

ライセンス: Link先を確認
Shaokai Ye and Anastasiia Filippova and Jessy Lauer and Maxime Vidal and Steffen Schneider and Tian Qiu and Alexander Mathis and Mackenzie Weygandt Mathis(参考訳) 行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。 行動分析の一般的なステップは、まず、ポーズ推定として知られる動物の重要な点を抽出することである。 しかし、現在、ポーズの信頼できる推論には、教師付きモデルを構築するためにドメイン知識と手作業によるラベル付けが必要である。 我々は,新たな手法であるSuperAnimal(スーパーアニマル)を,人間ラベルやモデルトレーニングをゼロにする深層学習モデルの開発と展開を可能にする一連の技術革新を提案する。 SuperAnimalは、45種以上の動物ポーズモデルが2種類しかないビデオ推論を可能にする。 モデルが微調整が必要な場合、SuperAnimalモデルは10$\times$よりデータ効率が高く、事前のトランスファー学習に基づくアプローチよりも優れていることを示す。 さらに,ビデオのキーポイントを洗練するための教師なしビデオ適応手法を提案する。 本稿では,マウスの行動分類と馬の歩行解析におけるモデルの有用性について述べる。 以上より,下流行動分析のための動物姿勢推定のためのデータ効率の高いソリューションを提案する。

Quantification of behavior is critical in applications ranging from neuroscience, veterinary medicine and animal conservation efforts. A common key step for behavioral analysis is first extracting relevant keypoints on animals, known as pose estimation. However, reliable inference of poses currently requires domain knowledge and manual labeling effort to build supervised models. We present a series of technical innovations that enable a new method, collectively called SuperAnimal, to develop and deploy deep learning models that require zero additional human labels and model training. SuperAnimal allows video inference on over 45 species with only two global classes of animal pose models. If the models need fine-tuning, we show SuperAnimal models are 10$\times$ more data efficient and outperform prior transfer-learning-based approaches. Moreover, we provide an unsupervised video-adaptation method to refine keypoints in videos. We illustrate the utility of our model in behavioral classification in mice and gait analysis in horses. Collectively, this presents a data-efficient solution for animal pose estimation for downstream behavioral analysis.
翻訳日:2023-08-22 01:35:19 公開日:2023-08-17
# パネルデータを用いた因果推論のための予測アルゴリズム

Forecasting Algorithms for Causal Inference with Panel Data ( http://arxiv.org/abs/2208.03489v2 )

ライセンス: Link先を確認
Jacob Goldin, Julian Nyarko, Justin Young(参考訳) パネルデータによる因果推論は、社会科学研究の核となる課題である。 我々は,処理単位が処理を行なわなかった場合の反実的進化をより正確に予測するために,時系列予測のための深部ニューラルネットワークアーキテクチャ(N-BEATSアルゴリズム)を適用した。 様々な設定において、結果として得られる推定器(「シンビート」)は、一般的に使用される手法(合成制御、双方向固定効果)を著しく上回り、最近提案された手法(合成差分法、行列補完法)と同等またはそれ以上の性能を達成する。 本結果は,パネルデータ設定における因果推論を改善するために,予測文献の進歩をいかに活用できるかを強調した。

Conducting causal inference with panel data is a core challenge in social science research. We adapt a deep neural architecture for time series forecasting (the N-BEATS algorithm) to more accurately predict the counterfactual evolution of a treated unit had treatment not occurred. Across a range of settings, the resulting estimator ("SyNBEATS") significantly outperforms commonly employed methods (synthetic controls, two-way fixed effects), and attains comparable or more accurate performance compared to recently proposed methods (synthetic difference-in-differences, matrix completion). Our results highlight how advances in the forecasting literature can be harnessed to improve causal inference in panel data settings.
翻訳日:2023-08-22 01:27:44 公開日:2023-08-17
# 映像認識ネットワークの視覚的説明のための適応オクルージョン感度解析

Adaptive occlusion sensitivity analysis for visually explaining video recognition networks ( http://arxiv.org/abs/2207.12859v2 )

ライセンス: Link先を確認
Tomoki Uchiyama, Naoya Sogi, Satoshi Iizuka, Koichiro Niinuma, Kazuhiro Fukui(参考訳) 本稿では,AOSA(Adaptive Occlusion Sensitivity Analysis)と呼ばれる,オクルージョン感度分析の時間的拡張による映像認識ネットワークの決定過程を視覚的に説明する手法を提案する。 ここでの鍵となるアイデアは、入力された3d時間空間データ空間に、3dマスクで特定の量のデータを占有し、出力スコアの変化度を測定することである。 より大きな変化度を生成する排他的ボリュームデータは、分類においてより重要な要素とみなされる。 しかし, 単一画像分類では咬合感度解析が一般的に用いられるが, この考え方をビデオ分類に適用することは, 単純な固定立方体では複雑な動きに対処できないほど簡単ではない。 この問題を解決するために,動作を参照しながら3次元閉塞マスクの形状を適応的に設定する。 入力映像データから抽出した光フローの時間的連続性と空間的共起性を考慮したフレキシブルマスク適応を行う。 さらに,入力映像に対する出力スコアの1次近似を用いて,提案手法の計算コストを削減する新しい手法を提案する。 本手法は,utf101データセットおよびkinetics-400および700データセットの削除/インサーションメトリックおよびポインティングメトリックの観点から,従来手法と多岐にわたる比較を行い,本手法の有効性を示す。

This paper proposes a method for visually explaining the decision-making process of video recognition networks with a temporal extension of occlusion sensitivity analysis, called Adaptive Occlusion Sensitivity Analysis (AOSA). The key idea here is to occlude a specific volume of data by a 3D mask in an input 3D temporal-spatial data space and then measure the change degree in the output score. The occluded volume data that produces a larger change degree is regarded as a more critical element for classification. However, while the occlusion sensitivity analysis is commonly used to analyze single image classification, applying this idea to video classification is not so straightforward as a simple fixed cuboid cannot deal with complicated motions. To solve this issue, we adaptively set the shape of a 3D occlusion mask while referring to motions. Our flexible mask adaptation is performed by considering the temporal continuity and spatial co-occurrence of the optical flows extracted from the input video data. We further propose a novel method to reduce the computational cost of the proposed method with the first-order approximation of the output score with respect to an input video. We demonstrate the effectiveness of our method through various and extensive comparisons with the conventional methods in terms of the deletion/insertion metric and the pointing metric on the UCF101 dataset and the Kinetics-400 and 700 datasets.
翻訳日:2023-08-22 01:26:54 公開日:2023-08-17
# 近似実対称テンソルランク

Approximate Real Symmetric Tensor Rank ( http://arxiv.org/abs/2207.12529v4 )

ライセンス: Link先を確認
Alperen A. Erg\"ur, Jesus Rebollo Bueno, Petros Valettas(参考訳) 摂動許容値の$\varepsilon$-roomが対称テンソル分解に及ぼす影響について検討した。 もっと正確に言うと、実対称 $d$-tensor $f$, a norm $|| を仮定する。 対称$d$-テンソルの空間上の||$と$\varepsilon >0$が与えられる。 最小の対称テンソルランクは、$f$の$\varepsilon$-neighborhoodである。 言い換えれば、賢い$\varepsilon$-perturbationの後、対称テンソルランクは$f$とは何ですか? 2つの定理を証明し、この問題に対して構成的上界を与える3つの対応するアルゴリズムを開発する。 我々は、結果の背後にある確率的かつ凸幾何学的アイデアを示し、いくつかの既知の結果を再現し、オープンな問題を指摘する。

We investigate the effect of an $\varepsilon$-room of perturbation tolerance on symmetric tensor decomposition. To be more precise, suppose a real symmetric $d$-tensor $f$, a norm $||.||$ on the space of symmetric $d$-tensors, and $\varepsilon >0$ are given. What is the smallest symmetric tensor rank in the $\varepsilon$-neighborhood of $f$? In other words, what is the symmetric tensor rank of $f$ after a clever $\varepsilon$-perturbation? We prove two theorems and develop three corresponding algorithms that give constructive upper bounds for this question. With expository goals in mind; we present probabilistic and convex geometric ideas behind our results, reproduce some known results, and point out open problems.
翻訳日:2023-08-22 01:26:30 公開日:2023-08-17
# 定量的議論のためのファジィラベリング意味論

Fuzzy Labeling Semantics for Quantitative Argumentation ( http://arxiv.org/abs/2207.07339v2 )

ライセンス: Link先を確認
Zongshun Wang, Yuping Shen(参考訳) 量的議論システムにおける議論強度の評価は、抽象議論の分野で注目を集めている。 受け入れ度の概念は漸進的意味論において広く採用されているが、多くの実践的応用において十分ではないかもしれない。 本稿では,ファジィ議論システムのためのファジィラベリング(fuzzy labeling)と呼ばれる新しい定量的手法を提案する。 このような設定は、引数の強さを定義する新しい光を与え、引数の状態をより深く理解する。 具体的には, ファジィラベリングの仮定について検討し, 受容性, 拒絶性, 決定不能度に関する意味論の合理性要件を示す。 次に,上記の仮定に準拠したファジィラベリングセマンティクスのクラスを提案し,ファジィラベリングセマンティクスと既存の著作との関係について考察する。

Evaluating argument strength in quantitative argumentation systems has received increasing attention in the field of abstract argumentation. The concept of acceptability degree is widely adopted in gradual semantics, however, it may not be sufficient in many practical applications. In this paper, we provide a novel quantitative method called fuzzy labeling for fuzzy argumentation systems, in which a triple of acceptability, rejectability, and undecidability degrees is used to evaluate argument strength. Such a setting sheds new light on defining argument strength and provides a deeper understanding of the status of arguments. More specifically, we investigate the postulates of fuzzy labeling, which present the rationality requirements for semantics concerning the acceptability, rejectability, and undecidability degrees. We then propose a class of fuzzy labeling semantics conforming to the above postulates and investigate the relations between fuzzy labeling semantics and existing work in the literature.
翻訳日:2023-08-22 01:26:20 公開日:2023-08-17
# グラフニューラルネットワークを用いた境界値問題の解演算子学習

Learning the Solution Operator of Boundary Value Problems using Graph Neural Networks ( http://arxiv.org/abs/2206.14092v2 )

ライセンス: Link先を確認
Winfried L\"otzsch, Simon Ohler, Johannes S. Otterbach(参考訳) 境界値制約を受ける偏微分方程式(PDE)の古典的数値解法に代わるものとして、そのような問題を効率的に解くニューラルネットワークの研究への関心が高まっている。 本研究では、グラフニューラルネットワーク(GNN)とスペクトルグラフ畳み込みを用いた2つの異なる時間非依存PDEに対する一般解演算子を設計する。 我々は、様々な形状と不均一性の有限要素ソルバからシミュレーションデータを用いてネットワークを訓練する。 従来の研究とは対照的に、トレーニングされたオペレーターが以前に見つからなかったシナリオに一般化できることに焦点を当てる。 具体的には、異なる形状のメッシュへの一般化と、異なる数の不均一性に対する解の重ね合わせをテストする。 有限要素メッシュに多くのばらつきがある多様なデータセットでのトレーニングは、すべてのケースで優れた一般化結果を達成するための重要な要素であることがわかった。 これにより、GNNは、様々な性質を一般化する解演算子を学習し、一般解法よりもはるかに高速に解を生成することができると信じている。 我々のデータセットは公開されており、様々な条件下でこれらのモデルの堅牢性を検証するために使用および拡張することができる。

As an alternative to classical numerical solvers for partial differential equations (PDEs) subject to boundary value constraints, there has been a surge of interest in investigating neural networks that can solve such problems efficiently. In this work, we design a general solution operator for two different time-independent PDEs using graph neural networks (GNNs) and spectral graph convolutions. We train the networks on simulated data from a finite elements solver on a variety of shapes and inhomogeneities. In contrast to previous works, we focus on the ability of the trained operator to generalize to previously unseen scenarios. Specifically, we test generalization to meshes with different shapes and superposition of solutions for a different number of inhomogeneities. We find that training on a diverse dataset with lots of variation in the finite element meshes is a key ingredient for achieving good generalization results in all cases. With this, we believe that GNNs can be used to learn solution operators that generalize over a range of properties and produce solutions much faster than a generic solver. Our dataset, which we make publicly available, can be used and extended to verify the robustness of these models under varying conditions.
翻訳日:2023-08-22 01:25:38 公開日:2023-08-17
# SGDの高次元極限定理:有効力学と臨界スケーリング

High-dimensional limit theorems for SGD: Effective dynamics and critical scaling ( http://arxiv.org/abs/2206.04030v4 )

ライセンス: Link先を確認
Gerard Ben Arous, Reza Gheissari, and Aukosh Jagannath(参考訳) 高次元状態における確率勾配勾配勾配(SGD)のスケーリング限界について検討した。 次元が無限になるにつれて、sgd の要約統計(すなわち有限次元関数)の軌跡に対する極限定理が証明される。 提案手法では,追跡した要約統計,初期化,ステップサイズを選択することができる。 これは弾道性(ODE)と拡散性(SDE)の両方の限界をもたらし、その限界は以前の選択に大きく依存する。 そこで本研究では, 実効的な弾道力学が人口減少の勾配流に適合する段階的なスケール構造を示すが, 相図を変化させる新たな補正項が現れる。 この実効力学の固定点について、対応する拡散極限は非常に複雑であり、さらに退化する。 スパイク行列とテンソルモデルの推定や,二元およびxor型ガウス混合モデルの2層ネットワークによる分類など,一般的な例に対するアプローチを実証する。 これらの例は、収束へのマルチモーダル時間スケールや、確率がゼロからランダム(例えばガウス)初期化から離れた準最適解への収束を含む驚くべき現象を示す。 同時に、第2層幅が大きくなると、後者の確率がゼロになることを示すことにより、過パラメータ化の利点を示す。

We study the scaling limits of stochastic gradient descent (SGD) with constant step-size in the high-dimensional regime. We prove limit theorems for the trajectories of summary statistics (i.e., finite-dimensional functions) of SGD as the dimension goes to infinity. Our approach allows one to choose the summary statistics that are tracked, the initialization, and the step-size. It yields both ballistic (ODE) and diffusive (SDE) limits, with the limit depending dramatically on the former choices. We show a critical scaling regime for the step-size, below which the effective ballistic dynamics matches gradient flow for the population loss, but at which, a new correction term appears which changes the phase diagram. About the fixed points of this effective dynamics, the corresponding diffusive limits can be quite complex and even degenerate. We demonstrate our approach on popular examples including estimation for spiked matrix and tensor models and classification via two-layer networks for binary and XOR-type Gaussian mixture models. These examples exhibit surprising phenomena including multimodal timescales to convergence as well as convergence to sub-optimal solutions with probability bounded away from zero from random (e.g., Gaussian) initializations. At the same time, we demonstrate the benefit of overparametrization by showing that the latter probability goes to zero as the second layer width grows.
翻訳日:2023-08-22 01:24:59 公開日:2023-08-17
# プログラムの組み合わせによる論理プログラムの学習

Learning logic programs by combining programs ( http://arxiv.org/abs/2206.01614v3 )

ライセンス: Link先を確認
Andrew Cropper and C\'eline Hocquette(参考訳) 帰納論理プログラミングの目標は、訓練例を一般化する論理プログラム(論理規則の集合)を誘導することである。 多くの規則とリテラルでプログラムを誘導することは大きな課題である。 この課題に取り組むため、我々は小さな非分離プログラムを学習し、それらを組み合わせるアプローチを導入する。 我々は制約駆動型LPシステムにアプローチを実装した。 提案手法は,最適かつ再帰的なプログラムを学習し,述語的発明を行うことができる。 ゲームプレイやプログラム合成を含む複数の領域に関する実験により、予測精度や学習時間の観点から既存のアプローチを劇的に上回り、学習時間を1時間以上から数秒に短縮できることが示された。

The goal of inductive logic programming is to induce a logic program (a set of logical rules) that generalises training examples. Inducing programs with many rules and literals is a major challenge. To tackle this challenge, we introduce an approach where we learn small non-separable programs and combine them. We implement our approach in a constraint-driven ILP system. Our approach can learn optimal and recursive programs and perform predicate invention. Our experiments on multiple domains, including game playing and program synthesis, show that our approach can drastically outperform existing approaches in terms of predictive accuracies and learning times, sometimes reducing learning times from over an hour to a few seconds.
翻訳日:2023-08-22 01:24:37 公開日:2023-08-17
# 量子状態崩壊におけるランダム性検証

Certifying randomness in quantum state collapse ( http://arxiv.org/abs/2210.16632v2 )

ライセンス: Link先を確認
Liang-Liang Sun, Xingjian Zhang, Xiang Zhou, Zheng-Da Li, Xiongfeng Ma, Jingyun Fan, and Sixia Yu(参考訳) 量子測定による状態崩壊の予測不可能なプロセスは、量子ランダムネスの生成を可能にする。 本稿では, ランダムネス生成と状態崩壊の定量的関係を考察し, (I) ソースと測定装置の独立性, (II) 崩壊状態に対するL\"{u}dersの規則を仮定したランダムネス検証プロトコルを提案する。 重い数学的機械を伴わずに、生成した量子ランダムネスの量は、状態崩壊に起因する外乱効果によって直接推定することができる。 このプロトコルでは、完全に信頼できない一般的な測定値を用いることができる。 信頼射影測定を組み込んだランダムネス生成性能をさらに最適化することができる。 また,本プロトコルは高い効率を示し,不確実性関係に基づく場合よりも高いランダム性生成率を示す。 我々は、量子ランダムネスの理解と生成のための新しい洞察を提供すると期待している。

The unpredictable process of state collapse caused by quantum measurements makes the generation of quantum randomness possible. In this paper, we explore the quantitive connection between the randomness generation and the state collapse and provide a randomness verification protocol under the assumptions: (I) independence between the source and the measurement devices and (II) the L\"{u}ders' rule for collapsing state. Without involving heavy mathematical machinery, the amount of genereted quantum randomness can be directly estimated with the disturbance effect originating from the state collapse. In the protocol, we can employ general measurements that are not fully trusted. Equipped with trusted projection measurements, we can further optimize the randomness generation performance. Our protocol also shows a high efficiency and yields a higher randomness generation rate than the one based on uncertainty relation. We expect our results to provide new insights for understanding and generating quantum randomness
翻訳日:2023-08-22 01:18:18 公開日:2023-08-17
# 低資源ASRのための大規模事前学習モデルの有効利用

Efficient Utilization of Large Pre-Trained Models for Low Resource ASR ( http://arxiv.org/abs/2210.15445v3 )

ライセンス: Link先を確認
Peter Vieting, Christoph L\"uscher, Julian Dierkes, Ralf Schl\"uter, Hermann Ney(参考訳) 教師なし表現学習は、最近、ラベル付きデータに制限のあるタスクに取り組むために自動音声認識(ASR)を支援した。 これに続いて、ハードウェアの制限とアプリケーションは、大規模な事前訓練されたモデルを効率的に活用し、その複雑さを減らす方法に疑問を呈する。 本研究では,ベトナム語とドイツ語の医療領域における低資源会話音声コーパスについて検討する。 本研究では,大規模な事前学習モデルの簡易微調整を超えて教師なし手法を用いることのメリットを示し,帯域転送を含む実践的なテレフォニータスクに適応する方法,事前学習と微調整のための異なるデータ条件を検討する。 事前トレーニング技術を用いて,プロジェクトのベースラインを22%上回っています。 さらなる29%の利益は、アーキテクチャとトレーニングの改善と、ドメイン内適応データの0.8hの追加によって6%に達する。

Unsupervised representation learning has recently helped automatic speech recognition (ASR) to tackle tasks with limited labeled data. Following this, hardware limitations and applications give rise to the question how to take advantage of large pre-trained models efficiently and reduce their complexity. In this work, we study a challenging low resource conversational telephony speech corpus from the medical domain in Vietnamese and German. We show the benefits of using unsupervised techniques beyond simple fine-tuning of large pre-trained models, discuss how to adapt them to a practical telephony task including bandwidth transfer and investigate different data conditions for pre-training and fine-tuning. We outperform the project baselines by 22% relative using pretraining techniques. Further gains of 29% can be achieved by refinements of architecture and training and 6% by adding 0.8 h of in-domain adaptation data.
翻訳日:2023-08-22 01:18:00 公開日:2023-08-17
# 損失の幾何学と計算

The Geometry and Calculus of Losses ( http://arxiv.org/abs/2209.00238v2 )

ライセンス: Link先を確認
Robert C. Williamson and Zac Cranko(参考訳) 統計的決定問題は統計的機械学習の核心にある。 最も単純な問題は二進分類と多クラス分類とクラス確率推定である。 それらの定義の中心は損失関数の選択であり、これは解の品質を評価する手段である。 本稿では,そのような問題に対する損失関数の理論を,基本成分が特定の構造を持つ凸集合である新しい視点から体系的に展開する。 損失関数は凸集合の支持関数の次数として定義される。 したがって、自動的に正しい(確率推定の校正)。 この視点は3つの新しい機会をもたらす。 これにより、これまで気付かなかったと思われる損失と(反)ノルムの基本的な関係の開発が可能になる。 第二に、異なる損失間の補間を可能にする凸集合の微積分によって引き起こされる損失の計算法の開発を可能にするので、特定の問題に対する損失の調整に潜在的に有用な設計ツールとなる。 これを行う際には、凸集合の$M$-sumに対して既存の結果をかなり拡張します。 第三に、パースペクティブは、損失を定義する凸集合の極双対から派生した ``polar'' の損失関数の自然な理論を導いており、Vovk の集約アルゴリズムの自然な普遍置換関数を形成する。

Statistical decision problems lie at the heart of statistical machine learning. The simplest problems are binary and multiclass classification and class probability estimation. Central to their definition is the choice of loss function, which is the means by which the quality of a solution is evaluated. In this paper we systematically develop the theory of loss functions for such problems from a novel perspective whose basic ingredients are convex sets with a particular structure. The loss function is defined as the subgradient of the support function of the convex set. It is consequently automatically proper (calibrated for probability estimation). This perspective provides three novel opportunities. It enables the development of a fundamental relationship between losses and (anti)-norms that appears to have not been noticed before. Second, it enables the development of a calculus of losses induced by the calculus of convex sets which allows the interpolation between different losses, and thus is a potential useful design tool for tailoring losses to particular problems. In doing this we build upon, and considerably extend existing results on $M$-sums of convex sets. Third, the perspective leads to a natural theory of ``polar'' loss functions, which are derived from the polar dual of the convex set defining the loss, and which form a natural universal substitution function for Vovk's aggregating algorithm.
翻訳日:2023-08-22 01:15:58 公開日:2023-08-17
# 形式契約はマルチエージェントRLにおける社会的ジレンマを軽減する

Get It in Writing: Formal Contracts Mitigate Social Dilemmas in Multi-Agent RL ( http://arxiv.org/abs/2208.10469v3 )

ライセンス: Link先を確認
Phillip J.K. Christoffersen, Andreas A. Haupt, Dylan Hadfield-Menell(参考訳) マルチエージェント強化学習 (MARL) は, 共通環境において独立して機能する自動システムの訓練を行う強力なツールである。 しかし、個々のインセンティブとグループインセンティブが分かれる場合、最適以下の行動につながる可能性がある。 人間はこれらの社会的ジレンマを解決することができる。 marlではこのような協力的な行動を利己的なエージェントで再現することはオープンな問題である。 本研究は,MARLにおけるエージェント間のインセンティブのばらつきを克服するため,経済学からの正式な契約について考察する。 我々は, エージェントが事前に規定された条件下で, 国家依存の報酬移転に自発的に同意するマルコフゲームの拡張を提案する。 私たちの貢献は理論的かつ実証的です。 第一に、この拡張により、完全観察されたマルコフゲームの全ての部分ゲーム完全平衡は、十分に豊かな契約空間を与えられた社会的に最適な振る舞いを示すことが示される。 次に,最先端のrlアルゴリズムが社会最適政策を学習することを示すことで,ゲーム理論解析を補完する。 私たちの実験には、Stag HuntやPrisoner's Dilemmaといった古典的な静的ジレンマや、トラフィック、汚染管理、一般的なプール資源管理をシミュレートする動的相互作用が含まれています。

Multi-agent reinforcement learning (MARL) is a powerful tool for training automated systems acting independently in a common environment. However, it can lead to sub-optimal behavior when individual incentives and group incentives diverge. Humans are remarkably capable at solving these social dilemmas. It is an open problem in MARL to replicate such cooperative behaviors in selfish agents. In this work, we draw upon the idea of formal contracting from economics to overcome diverging incentives between agents in MARL. We propose an augmentation to a Markov game where agents voluntarily agree to binding state-dependent transfers of reward, under pre-specified conditions. Our contributions are theoretical and empirical. First, we show that this augmentation makes all subgame-perfect equilibria of all fully observed Markov games exhibit socially optimal behavior, given a sufficiently rich space of contracts. Next, we complement our game-theoretic analysis by showing that state-of-the-art RL algorithms learn socially optimal policies given our augmentation. Our experiments include classic static dilemmas like Stag Hunt, Prisoner's Dilemma and a public goods game, as well as dynamic interactions that simulate traffic, pollution management and common pool resource management.
翻訳日:2023-08-22 01:15:39 公開日:2023-08-17
# 学ぶこと:人間と機械を継続的に教育する方法

Learning to Learn: How to Continuously Teach Humans and Machines ( http://arxiv.org/abs/2211.15470v2 )

ライセンス: Link先を確認
Parantak Singh, You Li, Ankur Sikarwar, Weixian Lei, Daniel Gao, Morgan Bruce Talbot, Ying Sun, Mike Zheng Shou, Gabriel Kreiman, Mengmi Zhang(参考訳) カリキュラムデザインは教育の基本要素である。 例えば、学校で数学を学ぶとき、算術を学ぶために加算の知識の上に構築する。 これらの概念や他の概念は、最初の代数のレッスンの前にマスターされなければならない。 人間か機械のどちらかを教えるためのカリキュラムを設計することは、学習されたタスクの忘れを最小化しながら、前から後のタスクからの知識伝達を最大化するという基本的な目標を共有する。 画像分類のためのカリキュラム設計に関する事前の研究は、単一のオフラインタスク中のトレーニング例の順序付けに焦点を当てている。 本稿では,複数の異なるタスクがシーケンスで学習される順序の影響について検討する。 そこでは、アルゴリズムや人間が、データセットを1回に1度に1つの画像クラスを学習しなければならない。 カリキュラムは、人間の学習結果と、複数のベンチマークデータセットにわたる複数の連続機械学習アルゴリズムに一貫して影響を与えている。 本稿では,人間のカリキュラム学習実験のための新しい物体認識データセットを導入し,人間に有効なカリキュラムと機械に有効なカリキュラムとの相関度が高いことを観察する。 オンライン授業増分学習のためのカリキュラムの自動設計への最初のステップとして,クラス間の特徴類似性に基づいてカリキュラムを設計・ランク付けする,Curriculum Designer (CD) と呼ばれる新しいアルゴリズムを提案する。 経験的に高い効果を示すカリキュラムと,cdで高いランク付けされた曲との間に有意な重複がみられた。 本研究は,最適化されたカリキュラムを用いて,人間や機械に継続的な学習を教えるための枠組みを確立する。

Curriculum design is a fundamental component of education. For example, when we learn mathematics at school, we build upon our knowledge of addition to learn multiplication. These and other concepts must be mastered before our first algebra lesson, which also reinforces our addition and multiplication skills. Designing a curriculum for teaching either a human or a machine shares the underlying goal of maximizing knowledge transfer from earlier to later tasks, while also minimizing forgetting of learned tasks. Prior research on curriculum design for image classification focuses on the ordering of training examples during a single offline task. Here, we investigate the effect of the order in which multiple distinct tasks are learned in a sequence. We focus on the online class-incremental continual learning setting, where algorithms or humans must learn image classes one at a time during a single pass through a dataset. We find that curriculum consistently influences learning outcomes for humans and for multiple continual machine learning algorithms across several benchmark datasets. We introduce a novel-object recognition dataset for human curriculum learning experiments and observe that curricula that are effective for humans are highly correlated with those that are effective for machines. As an initial step towards automated curriculum design for online class-incremental learning, we propose a novel algorithm, dubbed Curriculum Designer (CD), that designs and ranks curricula based on inter-class feature similarities. We find significant overlap between curricula that are empirically highly effective and those that are highly ranked by our CD. Our study establishes a framework for further research on teaching humans and machines to learn continuously using optimized curricula.
翻訳日:2023-08-22 01:06:54 公開日:2023-08-17
# フラックス可変トランスモン量子コンピュータシミュレーションモデルにおけるゲートエラーメトリクスの脆弱性について

On the fragility of gate-error metrics in simulation models of flux-tunable transmon quantum computers ( http://arxiv.org/abs/2211.11011v5 )

ライセンス: Link先を確認
Hannes Lagemann, Dennis Willsch, Madita Willsch, Fengping Jin, Hans De Raedt, Kristel Michielsen(参考訳) 量子コンピュータの構築には、量子システムに対する極めて正確な制御が必要である。 精度の欠如は、平均不忠実度やダイヤモンド距離などのゲートエラー指標によって定量化されることが多い。 しかしながら、このようなゲートエラーメトリクスは個々のゲートに対してのみ考慮され、連続するゲートに蓄積されるエラーではない。 さらに、メトリクスがモデルを構成する仮定にどの程度影響するかはよく分かっていない。 本稿では,これらの問題をフラックス可変トランスモンとカップリング共振器を用いた量子コンピュータの現実シミュレーションモデルを用いて検討する。 本研究の主目的は,(1)ゲートエラー指標がモデル上の多くの仮定に影響されていること,(2)連続ゲートエラーが線形に蓄積されないこと,(3)ゲートエラー指標が連続ゲートの性能予測に弱いこと,である。 さらに、研究対象のデバイスアーキテクチャのスケーラビリティの潜在的な制限について論じる。

Constructing a quantum computer requires immensely precise control over a quantum system. A lack of precision is often quantified by gate-error metrics, such as the average infidelity or the diamond distance. However, usually such gate-error metrics are only considered for individual gates, and not the errors that accumulate over consecutive gates. Furthermore, it is not well known how susceptible the metrics are to the assumptions which make up the model. Here, we investigate these issues using realistic simulation models of quantum computers with flux-tunable transmons and coupling resonators. Our main findings reveal that (1) gate-error metrics are indeed affected by the many assumptions of the model, (2) consecutive gate errors do not accumulate linearly, and (3) gate-error metrics are poor predictors for the performance of consecutive gates. Additionally, we discuss a potential limitation in the scalability of the studied device architecture.
翻訳日:2023-08-22 01:05:54 公開日:2023-08-17
# ノイズラベルがロングテールジレンマに合致する場合:表現校正法

When Noisy Labels Meet Long Tail Dilemmas: A Representation Calibration Method ( http://arxiv.org/abs/2211.10955v2 )

ライセンス: Link先を確認
Manyi Zhang, Xuyang Zhao, Jun Yao, Chun Yuan, Weiran Huang(参考訳) 現実世界の大規模データセットは、騒々しくラベル付けされ、クラス不均衡です。 問題は、訓練されたモデルの一般化を著しく損なう。 したがって、長い尾を持つデータ上でノイズのあるラベルで学習する問題を、同時に不正確なラベル付けとクラス不均衡に対処することが重要である。 従来の研究ではいくつかの方法が開発されている。 しかし、彼らは常に無効または実際にチェックが難しい強い仮定に依存している。 本稿では,問題に対処し,先行研究の限界に対処するために,表現校正手法RCALを提案する。 具体的には、RCALは教師なしコントラスト学習によって抽出された表現で動作する。 不正なラベリングとクラスの不均衡がなければ、各クラスのインスタンスの表現は多変量ガウス分布に準拠し、より穏やかで容易にチェックできると仮定する。 この仮定に基づき,誤ラベルデータとクラス不均衡データから汚染された表現分布を復元する。 得られた分布から追加のデータポイントをサンプリングして一般化する。 さらに、分類子訓練において、表現学習は、対照学習によってもたらされる表現の強固さを活用し、さらに分類子性能を向上させる。 代表校正の有効性を議論するために理論的結果を引き出す。 複数のベンチマークを用いた実験により,提案手法の有効性を確認した。

Real-world large-scale datasets are both noisily labeled and class-imbalanced. The issues seriously hurt the generalization of trained models. It is hence significant to address the simultaneous incorrect labeling and class-imbalance, i.e., the problem of learning with noisy labels on long-tailed data. Previous works develop several methods for the problem. However, they always rely on strong assumptions that are invalid or hard to be checked in practice. In this paper, to handle the problem and address the limitations of prior works, we propose a representation calibration method RCAL. Specifically, RCAL works with the representations extracted by unsupervised contrastive learning. We assume that without incorrect labeling and class imbalance, the representations of instances in each class conform to a multivariate Gaussian distribution, which is much milder and easier to be checked. Based on the assumption, we recover underlying representation distributions from polluted ones resulting from mislabeled and class-imbalanced data. Additional data points are then sampled from the recovered distributions to help generalization. Moreover, during classifier training, representation learning takes advantage of representation robustness brought by contrastive learning, which further improves the classifier performance. We derive theoretical results to discuss the effectiveness of our representation calibration. Experiments on multiple benchmarks justify our claims and confirm the superiority of the proposed method.
翻訳日:2023-08-22 01:05:39 公開日:2023-08-17
# 太陽系外惑星集団における質量・ラディウス関係の再検討--機械学習による考察

Revisiting mass-radius relationships for exoplanet populations: a machine learning insight ( http://arxiv.org/abs/2301.07143v2 )

ライセンス: Link先を確認
Mahdiyar Mousavi-Sadr, Davood M. Jassur, Ghassem Gozaliasl(参考訳) ますます多くの太陽系外惑星発見と機械学習技術の進歩が、太陽系以外の世界の特性を探索し理解するための新たな道を開いた。 本研究では,762個の太陽系外惑星と8個の太陽系外惑星からなるデータセットを解析するために,効率的な機械学習手法を用いた。 異なる教師なしクラスタリングアルゴリズムを適用することで、データを「小さい」惑星と「巨大な」惑星に分類し、カットオフ値が$R_{p}=8.13R_{\oplus}$と$M_{p}=52.48M_{\oplus}$に分類する。 巨大惑星は密度が低く、H-He質量比が高いが、小さな惑星はより密度が高く、主に重い元素で構成されている。 物理パラメータの相関関係を明らかにするために, 様々な回帰モデルを適用した。 我々の分析は、惑星の質量、軌道周期、恒星質量が太陽系外惑星半径を予測する重要な役割を担っていることを示している。 評価されたモデルのうち、サポートベクター回帰は一貫して他のモデルよりも優れており、正確な惑星半径推定を得ることの可能性を実証している。 さらに,M5P法とマルコフ連鎖モンテカルロ法を用いてパラメトリック方程式を導出する。 特に、我々の研究は注目すべき結果を明らかにしている。小さな惑星は、以前の発見と一致して正の線形質量半径関係を示す。 逆に、巨大惑星では、惑星半径と主星の質量の間に強い相関関係が見られ、惑星形成と恒星の性質の関係に関する興味深い洞察を与えるかもしれない。

The growing number of exoplanet discoveries and advances in machine learning techniques have opened new avenues for exploring and understanding the characteristics of worlds beyond our Solar System. In this study, we employ efficient machine learning approaches to analyze a dataset comprising 762 confirmed exoplanets and eight Solar System planets, aiming to characterize their fundamental quantities. By applying different unsupervised clustering algorithms, we classify the data into two main classes: 'small' and 'giant' planets, with cut-off values at $R_{p}=8.13R_{\oplus}$ and $M_{p}=52.48M_{\oplus}$. This classification reveals an intriguing distinction: giant planets have lower densities, suggesting higher H-He mass fractions, while small planets are denser, composed mainly of heavier elements. We apply various regression models to uncover correlations between physical parameters and their predictive power for exoplanet radius. Our analysis highlights that planetary mass, orbital period, and stellar mass play crucial roles in predicting exoplanet radius. Among the models evaluated, the Support Vector Regression consistently outperforms others, demonstrating its promise for obtaining accurate planetary radius estimates. Furthermore, we derive parametric equations using the M5P and Markov Chain Monte Carlo methods. Notably, our study reveals a noteworthy result: small planets exhibit a positive linear mass-radius relation, aligning with previous findings. Conversely, for giant planets, we observe a strong correlation between planetary radius and the mass of their host stars, which might provide intriguing insights into the relationship between giant planet formation and stellar characteristics.
翻訳日:2023-08-22 00:59:15 公開日:2023-08-17
# クリップ駆動による臓器分節・腫瘍検出のためのユニバーサルモデル

CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection ( http://arxiv.org/abs/2301.00785v5 )

ライセンス: Link先を確認
Jie Liu, Yixiao Zhang, Jie-Neng Chen, Junfei Xiao, Yongyi Lu, Bennett A. Landman, Yixuan Yuan, Alan Yuille, Yucheng Tang, Zongwei Zhou(参考訳) 公共データセットの増加は、自動臓器分割と腫瘍検出に顕著な影響を与えている。 しかし、各データセットの小さなサイズと部分的にラベル付けされた問題、および様々な種類の腫瘍の限られた調査のため、結果のモデルは特定の臓器や腫瘍の分節化と解剖学的構造の意味論の無視に制限されることが多く、新しい領域に拡張することもできない。 そこで本研究では,clip(con contrastive language-image pre-training)から学習したテキスト埋め込みをセグメンテーションモデルに組み込む,クリップ駆動ユニバーサルモデルを提案する。 このクリップベースのラベルエンコーディングは解剖学的関係を捉え、25の臓器と6種類の腫瘍の構造的特徴を学習することができる。 提案モデルは14のデータセットの集合から開発され、合計3,410個のCTスキャンを使用してトレーニングを行い、3つの追加データセットから6,162個の外部CTスキャンで評価する。 医用セグメンテーション・デスロン(MSD)の公開リーダーボードにランクインし、BTCV(Beyond The Cranial Vault)で最先端の結果を得る。 さらに、Universal Modelはデータセット固有のモデルに比べて計算効率が良く(6倍高速)、様々なサイトからのCTスキャンより一般化され、新しいタスクにおいてより強力な転送学習性能を示す。

An increasing number of public datasets have shown a marked impact on automated organ segmentation and tumor detection. However, due to the small size and partially labeled problem of each dataset, as well as a limited investigation of diverse types of tumors, the resulting models are often limited to segmenting specific organs/tumors and ignore the semantics of anatomical structures, nor can they be extended to novel domains. To address these issues, we propose the CLIP-Driven Universal Model, which incorporates text embedding learned from Contrastive Language-Image Pre-training (CLIP) to segmentation models. This CLIP-based label encoding captures anatomical relationships, enabling the model to learn a structured feature embedding and segment 25 organs and 6 types of tumors. The proposed model is developed from an assembly of 14 datasets, using a total of 3,410 CT scans for training and then evaluated on 6,162 external CT scans from 3 additional datasets. We rank first on the Medical Segmentation Decathlon (MSD) public leaderboard and achieve state-of-the-art results on Beyond The Cranial Vault (BTCV). Additionally, the Universal Model is computationally more efficient (6x faster) compared with dataset-specific models, generalized better to CT scans from varying sites, and shows stronger transfer learning performance on novel tasks.
翻訳日:2023-08-22 00:58:21 公開日:2023-08-17
# 複素力学における量子速度限界

Quantum speed limit for complex dynamics ( http://arxiv.org/abs/2301.00566v2 )

ライセンス: Link先を確認
Mao Zhang and Huai-Ming Yu and Jing Liu(参考訳) 量子速度制限は固定されたミッションの最小時間スケールに焦点を合わせ、したがって高速ダイナミクスが通常有用である量子情報において重要である。 量子速度制限(OQSL)の運用定義が最近提案され、時間に依存しないハミルトンの固有最小時間を明らかにした。 しかし、時間依存ハミルトニアンに対するOQSLを評価する一般的な方法、特にノイズが関与する場合は、まだ不足している。 本稿では,ある種の時間依存ハミルトニアンに対してoqslの表現を提供し,複雑な力学におけるoqslの評価のための機械学習に基づく3段階の手法を提案する。

Quantum speed limit focuses on the minimum time scale for a fixed mission and hence is important in quantum information where fast dynamics is usually beneficial. Recently an operational definition of quantum speed limit (OQSL) was proposed, which reveals the intrinsic minimum time for time-independent Hamiltonians. However, a general method to evaluate the OQSL for time-dependent Hamiltonians, especially when noises are involved, is still in lack. Hereby we provide the expression of OQSL for a certain type of time-dependent Hamiltonians and propose a three-step (classification-regression-calibration) methodology based on machine learning for the evaluation of OQSL in complex dynamics.
翻訳日:2023-08-22 00:57:54 公開日:2023-08-17
# 動作認識のための3次元変形注意を用いたクロスモーダル学習

Cross-Modal Learning with 3D Deformable Attention for Action Recognition ( http://arxiv.org/abs/2212.05638v3 )

ライセンス: Link先を確認
Sangwon Kim and Dasom Ahn and Byoung Chul Ko(参考訳) 視覚に基づく行動認識における重要な課題は、時空間的特徴を2つ以上の不均一なモダリティを1つの特徴に埋め込むことである。 本研究では,適応時空間受容場とクロスモーダル学習方式を用いた行動認識のための新しい3次元変形型トランスを提案する。 3次元変形可能な変圧器は、3次元変形性、局所的な関節ストライド、時間的ストライドアテンションの3つのアテンションモジュールから構成される。 2つのクロスモーダルトークンは、3D変形可能なアテンションモジュールに入力され、反射時空間相関を持つクロスアテンショントークンを生成する。 局所的なストライドアテンションは、注意を空間的に組み合わせ、トークンをポーズさせる。 時間的ストライドアテンションは、アテンションモジュール内の入力トークン数を時間的に減少させ、すべてのトークンを同時に使用せずに時間的表現学習をサポートする。 変形可能な変換器はL時間を繰り返し、分類のための最後のクロスモーダルトークンを組み合わせる。 提案した3DデフォルマブルトランスはNTU60, NTU120, FineGYM, PennActionのデータセットでテストされ, 事前学習プロセスなしでも, 先行訓練された最先端手法よりも優れた結果が得られた。 また、空間的関節および時間的ストライド注意による行動認識における重要な関節と相関を可視化することにより、行動認識のための説明可能なポテンシャルを達成する可能性を示す。

An important challenge in vision-based action recognition is the embedding of spatiotemporal features with two or more heterogeneous modalities into a single feature. In this study, we propose a new 3D deformable transformer for action recognition with adaptive spatiotemporal receptive fields and a cross-modal learning scheme. The 3D deformable transformer consists of three attention modules: 3D deformability, local joint stride, and temporal stride attention. The two cross-modal tokens are input into the 3D deformable attention module to create a cross-attention token with a reflected spatiotemporal correlation. Local joint stride attention is applied to spatially combine attention and pose tokens. Temporal stride attention temporally reduces the number of input tokens in the attention module and supports temporal expression learning without the simultaneous use of all tokens. The deformable transformer iterates L-times and combines the last cross-modal token for classification. The proposed 3D deformable transformer was tested on the NTU60, NTU120, FineGYM, and PennAction datasets, and showed results better than or similar to pre-trained state-of-the-art methods even without a pre-training process. In addition, by visualizing important joints and correlations during action recognition through spatial joint and temporal stride attention, the possibility of achieving an explainable potential for action recognition is presented.
翻訳日:2023-08-22 00:57:10 公開日:2023-08-17
# 自律運転における3次元セマンティックセグメンテーションのドメイン一般化

Domain generalization of 3D semantic segmentation in autonomous driving ( http://arxiv.org/abs/2212.04245v3 )

ライセンス: Link先を確認
Jules Sanchez and Jean-Emmanuel Deschaud and Francois Goulette(参考訳) ディープラーニングを使うことで、3d自律運転セマンティクスセグメンテーションは十分に研究され、非常に高いパフォーマンスに到達できる手法となっている。 それでも、トレーニングデータセットのサイズが限られているため、これらのモデルは現実世界のアプリケーションに見られるあらゆる種類のオブジェクトやシーンを見ることはできない。 これらの未知の環境において信頼できる能力は \textup{domain generalization} と呼ばれる。 その重要性にもかかわらず、ドメインの一般化は3次元自律運転セマンティックセグメンテーションの場合、比較的未解明である。 このギャップを埋めるために,本稿では,最先端の手法を試行し,レーザーイメージング検出とラングング(LiDAR)ドメインシフトに取り組むことの難しさを論じる,この応用のための最初のベンチマークを提案する。 また,この領域の一般化に対処するために設計された最初の手法を提案し,これを3DLabelPropと呼ぶ。 この方法は、LiDARデータの幾何とシーケンシャル性を利用して、部分的に蓄積された点雲に取り組むことにより、その一般化性能を向上させる。 これはsemanticpossでは50.4%、semantickittiでは55.2%、semanticposspossでは50.4%、semantickittiでは55.2%という平均交点に達した。 このメソッドのコードはgithubで入手できる。

Using deep learning, 3D autonomous driving semantic segmentation has become a well-studied subject, with methods that can reach very high performance. Nonetheless, because of the limited size of the training datasets, these models cannot see every type of object and scene found in real-world applications. The ability to be reliable in these various unknown environments is called \textup{domain generalization}. Despite its importance, domain generalization is relatively unexplored in the case of 3D autonomous driving semantic segmentation. To fill this gap, this paper presents the first benchmark for this application by testing state-of-the-art methods and discussing the difficulty of tackling Laser Imaging Detection and Ranging (LiDAR) domain shifts. We also propose the first method designed to address this domain generalization, which we call 3DLabelProp. This method relies on leveraging the geometry and sequentiality of the LiDAR data to enhance its generalization performances by working on partially accumulated point clouds. It reaches a mean Intersection over Union (mIoU) of 50.4% on SemanticPOSS and of 55.2% on PandaSet solid-state LiDAR while being trained only on SemanticKITTI, making it the state-of-the-art method for generalization (+5% and +33% better, respectively, than the second best method). The code for this method is available on GitHub: https://github.com/JulesSanchez/3DLabelProp.
翻訳日:2023-08-22 00:56:01 公開日:2023-08-17
# 量子回路完全性:拡張と単純化

Quantum Circuit Completeness: Extensions and Simplifications ( http://arxiv.org/abs/2303.03117v2 )

ライセンス: Link先を確認
Alexandre Cl\'ement, No\'e Delorme, Simon Perdrix, Renaud Vilmart(参考訳) 量子回路は量子コンピューティングにおいて何十年にもわたって普及してきたが、量子回路に関する最初の完全な方程式理論が最近導入されたばかりである。 完全性は、量子回路上の真の方程式が方程式理論から導出できることを保証する。 この完全性を2つの方法で改善します (i)方程式論を単純化し、いくつかの規則が残りの規則から導出できることを証明する。 特に、最も複雑な3つのうち2つが取り除かれ、3つ目はわずかに単純化されている。 (ii)完全等式理論は、追加のワークスペースとハイブリッド量子計算を用いてそれぞれの量子計算を表現するために、アンシラエまたはクビット廃棄を持つ量子回路に拡張することができる。 これらのより表現豊かな設定において、残りの複雑な規則は大幅に単純化され、全ての方程式が有界数の量子ビットに作用する等式理論が導かれる。 表現型量子回路モデルのための単純で完全な方程式理論の開発は、量子回路を推論するための新しい道を開く。 回路最適化、ハードウェア制約の満足度、検証など、様々なコンパイルタスクに対する強力な公式な基盤を提供する。

Although quantum circuits have been ubiquitous for decades in quantum computing, the first complete equational theory for quantum circuits has only recently been introduced. Completeness guarantees that any true equation on quantum circuits can be derived from the equational theory. We improve this completeness result in two ways: (i) We simplify the equational theory by proving that several rules can be derived from the remaining ones. In particular, two out of the three most intricate rules are removed, the third one being slightly simplified. (ii) The complete equational theory can be extended to quantum circuits with ancillae or qubit discarding, to represent respectively quantum computations using an additional workspace, and hybrid quantum computations. We show that the remaining intricate rule can be greatly simplified in these more expressive settings, leading to equational theories where all equations act on a bounded number of qubits. The development of simple and complete equational theories for expressive quantum circuit models opens new avenues for reasoning about quantum circuits. It provides strong formal foundations for various compiling tasks such as circuit optimisation, hardware constraint satisfaction and verification.
翻訳日:2023-08-22 00:48:28 公開日:2023-08-17
# 生成前駆体としての人間の運動拡散

Human Motion Diffusion as a Generative Prior ( http://arxiv.org/abs/2303.01418v2 )

ライセンス: Link先を確認
Yonatan Shafir, Guy Tevet, Roy Kapon and Amit H. Bermano(参考訳) 最近の研究は、テキストから動きへの能力を含む人間の動きを生成するための拡散モデルに有意な可能性を示している。 しかし,これらの手法は,注釈付き動作データのあいまいさ,一人称動作の重視,詳細な制御の欠如などによって制限されている。 本稿では,逐次,並列,モデル構成という,拡散優先に基づく3種類の合成について述べる。 逐次構成を用いることで,長い系列生成の課題に挑戦する。 そこで,提案手法であるdoubletakeでは,短いクリップのみの事前学習を用いて,ストレッチ区間のシーケンスとその遷移からなる長いアニメーションを生成する。 並列合成を用いて,2人生成に向けた有望なステップを示す。 2つの固定前例と2人のトレーニング例から始め、スリムな通信ブロックであるComMDMを学び、2つの動作間の相互作用を調整する。 最後に, モデル構成を用いて, まず, 所定の関節の所定の動きを実現する完全動作を個人に訓練する。 次に,複数のモデルを効率的にブレンドする補間機構である diffusionblending を導入することで,柔軟かつ効率的な細粒度ジョイントと軌道レベルの制御と編集を実現する。 本研究は, 既設の運動拡散モデルを用いて合成手法を評価し, これらのタスクを訓練した専用モデルと比較した。

Recent work has demonstrated the significant potential of denoising diffusion models for generating human motion, including text-to-motion capabilities. However, these methods are restricted by the paucity of annotated motion data, a focus on single-person motions, and a lack of detailed control. In this paper, we introduce three forms of composition based on diffusion priors: sequential, parallel, and model composition. Using sequential composition, we tackle the challenge of long sequence generation. We introduce DoubleTake, an inference-time method with which we generate long animations consisting of sequences of prompted intervals and their transitions, using a prior trained only for short clips. Using parallel composition, we show promising steps toward two-person generation. Beginning with two fixed priors as well as a few two-person training examples, we learn a slim communication block, ComMDM, to coordinate interaction between the two resulting motions. Lastly, using model composition, we first train individual priors to complete motions that realize a prescribed motion for a given joint. We then introduce DiffusionBlending, an interpolation mechanism to effectively blend several such models to enable flexible and efficient fine-grained joint and trajectory-level control and editing. We evaluate the composition methods using an off-the-shelf motion diffusion model, and further compare the results to dedicated models trained for these specific tasks.
翻訳日:2023-08-22 00:48:11 公開日:2023-08-17
# トランスフォーマーによる単一セルマルチモーダル予測

Single-Cell Multimodal Prediction via Transformers ( http://arxiv.org/abs/2303.00233v2 )

ライセンス: Link先を確認
Wenzhuo Tang, Hongzhi Wen, Renming Liu, Jiayuan Ding, Wei Jin, Yuying Xie, Hui Liu, Jiliang Tang(参考訳) 近年のマルチモーダル単一細胞技術の発展により、個々の細胞から複数のオミクスデータを取得することが可能となり、細胞状態やダイナミクスのより深い理解が可能となった。 それでも、マルチモーダルな単細胞データの増殖は、異なるモダリティ間の複雑な相互作用をモデル化する上で大きな課題をもたらす。 近年の手法では,静的相互作用グラフの構築とグラフニューラルネットワーク(gnns)を適用し,マルチモーダルデータから学習する。 しかし、このような静的グラフは、ダウンストリームのタスク情報を利用することができないため、最適ではない可能性がある。 そこで本研究では,ダウンストリームタスク情報を活用しながら,マルチモーダル・シングルセル・データに対するトランスフォーマーの活用方法について検討する。 特に、外部のドメイン知識を容易に組み込むことができ、各モダリティとクロスモーダルの相互作用をモデル化できる scMoFormer フレームワークを提案する。 scMoFormerはさまざまなベンチマークデータセットで優れたパフォーマンスを実現している。 注目すべきは、skMoFormerが24/1221 (Top 2%)というランクのカグル銀メダルを獲得したことだ。 私たちの実装はgithubで公開されています。

The recent development of multimodal single-cell technology has made the possibility of acquiring multiple omics data from individual cells, thereby enabling a deeper understanding of cellular states and dynamics. Nevertheless, the proliferation of multimodal single-cell data also introduces tremendous challenges in modeling the complex interactions among different modalities. The recently advanced methods focus on constructing static interaction graphs and applying graph neural networks (GNNs) to learn from multimodal data. However, such static graphs can be suboptimal as they do not take advantage of the downstream task information; meanwhile GNNs also have some inherent limitations when deeply stacking GNN layers. To tackle these issues, in this work, we investigate how to leverage transformers for multimodal single-cell data in an end-to-end manner while exploiting downstream task information. In particular, we propose a scMoFormer framework which can readily incorporate external domain knowledge and model the interactions within each modality and cross modalities. Extensive experiments demonstrate that scMoFormer achieves superior performance on various benchmark datasets. Remarkably, scMoFormer won a Kaggle silver medal with the rank of 24/1221 (Top 2%) without ensemble in a NeurIPS 2022 competition. Our implementation is publicly available at Github.
翻訳日:2023-08-22 00:47:50 公開日:2023-08-17
# UMIFormer:マルチビュー3次元再構成のための類似トークン間の相関関係のマイニング

UMIFormer: Mining the Correlations between Similar Tokens for Multi-View 3D Reconstruction ( http://arxiv.org/abs/2302.13987v2 )

ライセンス: Link先を確認
Zhenwei Zhu, Liying Yang, Ning Li, Chaohao Jiang, Yanyan Liang(参考訳) 近年,視覚トランスフォーマーの活用や特徴抽出のための空間的時間的デカップリングの確立により,多くの映像タスクがブレークスルーを遂げている。 マルチビュー3次元再構成も入力として複数の画像に直面するが、非構造化ビュー間の完全にあいまいな関係のため、すぐには成功を継承できない。 ビデオの時間的コヒーレンス特性に類似した、事前の関係は使用できない。 そこで本研究では,Unstructured Multiple Images (UMIFormer) のためのトランスフォーマネットワークを提案する。 トランスフォーマーブロックをデカップリングされたビュー内エンコーディングに活用し、異なるビューからの類似トークン間の相関をマイニングして、デカップリングされたビュー間エンコーディングを実現するためにデザインされたブロックを使用する。 その後、各分岐から取得した全てのトークンを固定サイズのコンパクト表現に圧縮し、トークン間の類似性を活用して再構成のための豊富な情報を保存する。 実験によりshapenetについて実証し,非構造化複数の画像に対して分離学習法が適応可能であることを確認した。 一方,実験では,既存のSOTA法よりも大きなマージンで優れていることも確認した。 コードはhttps://github.com/garyzhu1996/umiformerで入手できる。

In recent years, many video tasks have achieved breakthroughs by utilizing the vision transformer and establishing spatial-temporal decoupling for feature extraction. Although multi-view 3D reconstruction also faces multiple images as input, it cannot immediately inherit their success due to completely ambiguous associations between unstructured views. There is not usable prior relationship, which is similar to the temporally-coherence property in a video. To solve this problem, we propose a novel transformer network for Unstructured Multiple Images (UMIFormer). It exploits transformer blocks for decoupled intra-view encoding and designed blocks for token rectification that mine the correlation between similar tokens from different views to achieve decoupled inter-view encoding. Afterward, all tokens acquired from various branches are compressed into a fixed-size compact representation while preserving rich information for reconstruction by leveraging the similarities between tokens. We empirically demonstrate on ShapeNet and confirm that our decoupled learning method is adaptable for unstructured multiple images. Meanwhile, the experiments also verify our model outperforms existing SOTA methods by a large margin. Code will be available at https://github.com/GaryZhu1996/UMIFormer.
翻訳日:2023-08-22 00:47:30 公開日:2023-08-17
# エキスパートアドバイザとランダム化リトルストーン次元を用いた最適予測

Optimal Prediction Using Expert Advice and Randomized Littlestone Dimension ( http://arxiv.org/abs/2302.13849v3 )

ライセンス: Link先を確認
Yuval Filmus, Steve Hanneke, Idan Mehalel and Shay Moran(参考訳) オンライン学習における古典的な結果は、リトルストーン次元を用いて決定論的学習者によって達成可能な最適誤り境界を特徴づける(littlestone '88)。 クラス $\mathcal{h}$ を学習する際の最適な期待誤差は、そのランダム化されたリトルストーン次元に等しいことを示し、これは$\mathcal{h}$ の平均深さが 2d$ であるような$\mathcal{h}$ で砕かれた木が存在する最大の$d$である。 我々はさらに、独立な場合における最適な誤り境界を、$k$ で表される$\mathcal{h}$ における最善の関数によってなされる誤り数の関数として研究する。 リトルストーン次元$d$を持つクラスを学ぶための最適ランダム化ミスは、$k + \Theta (\sqrt{k d} + d )$であることを示す。 これはまた、2k + \theta(d) + o(\sqrt{k d})$ の最適決定論的誤りであり、auer と long ['99] によって研究されたオープン問題を解くことを意味する。 約30年前、cesa-bianchi, freund, haussler, helmbold, schapire, warmuth は、専門家のアドバイスを使って予測を研究し、n$の専門家のベストが最大$k$の間違いを犯し、最適な誤り境界は何であるかを尋ねた。 Cesa-Bianchi, Freund, Helmbold, Warmuth ['93, '96] は、決定論的学習者にほぼ最適な境界を与え、ランダム化されたケースをオープンな問題として残した。 ランダム化の場合、最適学習規則を提供することでこの問題を解決し、その予測誤りがチェサ・ビアンキらの決定論的境界の半分に等しいことを示す。 ['93,'96]、無視可能な加法項まで。 Abernethy, Langford, Warmuth['06] と Br\^anzei と Peres ['19] の以前の研究とは対照的に、我々の結果はすべての対 $n,k$ に適用できる。

A classical result in online learning characterizes the optimal mistake bound achievable by deterministic learners using the Littlestone dimension (Littlestone '88). We prove an analogous result for randomized learners: we show that the optimal expected mistake bound in learning a class $\mathcal{H}$ equals its randomized Littlestone dimension, which is the largest $d$ for which there exists a tree shattered by $\mathcal{H}$ whose average depth is $2d$. We further study optimal mistake bounds in the agnostic case, as a function of the number of mistakes made by the best function in $\mathcal{H}$, denoted by $k$. We show that the optimal randomized mistake bound for learning a class with Littlestone dimension $d$ is $k + \Theta (\sqrt{k d} + d )$. This also implies an optimal deterministic mistake bound of $2k + \Theta(d) + O(\sqrt{k d})$, thus resolving an open question which was studied by Auer and Long ['99]. As an application of our theory, we revisit the classical problem of prediction using expert advice: about 30 years ago Cesa-Bianchi, Freund, Haussler, Helmbold, Schapire and Warmuth studied prediction using expert advice, provided that the best among the $n$ experts makes at most $k$ mistakes, and asked what are the optimal mistake bounds. Cesa-Bianchi, Freund, Helmbold, and Warmuth ['93, '96] provided a nearly optimal bound for deterministic learners, and left the randomized case as an open problem. We resolve this question by providing an optimal learning rule in the randomized case, and showing that its expected mistake bound equals half of the deterministic bound of Cesa-Bianchi et al. ['93,'96], up to negligible additive terms. In contrast with previous works by Abernethy, Langford, and Warmuth ['06], and by Br\^anzei and Peres ['19], our result applies to all pairs $n,k$.
翻訳日:2023-08-22 00:47:08 公開日:2023-08-17
# 複数時間学習による分散協調型深層強化学習における非定常処理

Dealing With Non-stationarity in Decentralized Cooperative Multi-Agent Deep Reinforcement Learning via Multi-Timescale Learning ( http://arxiv.org/abs/2302.02792v2 )

ライセンス: Link先を確認
Hadi Nekoei, Akilesh Badrinaaraayanan, Amit Sinha, Mohammad Amini, Janarthanan Rajendran, Aditya Mahajan, Sarath Chandar(参考訳) 分散協調型多エージェント深層強化学習(MARL)は,特に集中学習が不可能か実用的でない場合において,多目的学習の枠組みとなる。 分散化深層MARLにおける重要な課題の1つは、複数のエージェントが同時に学習している場合の学習環境の非定常性である。 分散marlの一般的かつ効率的なスキームは、エージェントが互いに独立してポリシーを同時更新する独立した学習である。 まず,独立学習は必ずしも収束しないが,エージェントが順次更新する逐次学習では,エージェント・バイ・エージェントの最適解に収束することが保証される。 逐次学習では、あるエージェントがそのポリシーを更新するとき、他のエージェントのポリシーはすべて固定され、他のエージェントのポリシーの同時更新による非定常性の課題を軽減する。 しかし、1つのエージェントだけがいつでも学習しているため、遅い場合もあります。 そのため、必ずしも実用的とは限らない。 本研究では,マルチスケール学習に基づく分散協調型MARLアルゴリズムを提案する。 マルチタイム学習では、すべてのエージェントが同時に学習するが、学習速度は異なる。 提案手法では,あるエージェントがポリシーを更新した場合,他のエージェントもポリシーを更新できるが,速度は遅くなる。 これによりシーケンシャルな学習がスピードアップし、同時に更新される他のエージェントによる非定常性を最小化する。 マルチタイムスケール学習は,epymarl(papoudakis et al., 2020)ベンチマークにおいて,課題の多いマルチエージェント協調タスク群において,最先端の分散学習手法を上回っている。 これは、マルチスケール学習に基づくより汎用的な分散協調型MARL手法への第一歩と見なすことができる。

Decentralized cooperative multi-agent deep reinforcement learning (MARL) can be a versatile learning framework, particularly in scenarios where centralized training is either not possible or not practical. One of the critical challenges in decentralized deep MARL is the non-stationarity of the learning environment when multiple agents are learning concurrently. A commonly used and efficient scheme for decentralized MARL is independent learning in which agents concurrently update their policies independently of each other. We first show that independent learning does not always converge, while sequential learning where agents update their policies one after another in a sequence is guaranteed to converge to an agent-by-agent optimal solution. In sequential learning, when one agent updates its policy, all other agent's policies are kept fixed, alleviating the challenge of non-stationarity due to simultaneous updates in other agents' policies. However, it can be slow because only one agent is learning at any time. Therefore it might also not always be practical. In this work, we propose a decentralized cooperative MARL algorithm based on multi-timescale learning. In multi-timescale learning, all agents learn simultaneously, but at different learning rates. In our proposed method, when one agent updates its policy, other agents are allowed to update their policies as well, but at a slower rate. This speeds up sequential learning, while also minimizing non-stationarity caused by other agents updating concurrently. Multi-timescale learning outperforms state-of-the-art decentralized learning methods on a set of challenging multi-agent cooperative tasks in the epymarl(Papoudakis et al., 2020) benchmark. This can be seen as a first step towards more general decentralized cooperative deep MARL methods based on multi-timescale learning.
翻訳日:2023-08-22 00:46:03 公開日:2023-08-17
# 注意:大規模エンゲージメント予測データセットとベースライン

Do I Have Your Attention: A Large Scale Engagement Prediction Dataset and Baselines ( http://arxiv.org/abs/2302.00431v2 )

ライセンス: Link先を確認
Monisha Singh, Ximi Hoque, Donghuo Zeng, Yanan Wang, Kazushi Ikeda, Abhinav Dhall(参考訳) 機械と相互作用しながら個人が表示する集中度、熱意、楽観性、情熱の度合いを「ユーザエンゲージメント」と呼ぶ。 関与は行動、認知、および関連する手がかりからなる。 現実の環境で動作可能なエンゲージメント予測システムを構築するためには、リッチで多様なデータセットから学ぶことが不可欠である。 この目的のために,野生データセットengagenetにおける大規模多面的関与を提案する。 異なる照明条件を表す127人の参加者の31時間データを記録する。 さまざまな特徴、アクションユニット、目視、頭部ポーズ、MARLINの適用性について、詳細な実験が行われた。 ユーザインタラクション(質問応答)のデータを分析し、効果的な学習とユーザエンゲージメントの関係を理解する。 データセットのリッチな性質をさらに検証するために、EngageWildデータセットでも評価が行われる。 実験の結果,提案するデータセットの有用性が示された。 コード、モデル、データセットリンクはhttps://github.com/engagenet/engagenet_baselinesで公開されている。

The degree of concentration, enthusiasm, optimism, and passion displayed by individual(s) while interacting with a machine is referred to as `user engagement'. Engagement comprises of behavioral, cognitive, and affect related cues. To create engagement prediction systems that can work in real-world conditions, it is quintessential to learn from rich, diverse datasets. To this end, a large scale multi-faceted engagement in the wild dataset EngageNet is proposed. 31 hours duration data of 127 participants representing different illumination conditions are recorded. Thorough experiments are performed exploring the applicability of different features, action units, eye gaze, head pose, and MARLIN. Data from user interactions (question-answer) are analyzed to understand the relationship between effective learning and user engagement. To further validate the rich nature of the dataset, evaluation is also performed on the EngageWild dataset. The experiments show the usefulness of the proposed dataset. The code, models, and dataset link are publicly available at https://github.com/engagenet/engagenet_baselines.
翻訳日:2023-08-22 00:45:37 公開日:2023-08-17
# 量子ビット系における熱電流の諸相

Aspects of heat currents in qubit systems ( http://arxiv.org/abs/2301.13544v2 )

ライセンス: Link先を確認
Hans C. Fogedby(参考訳) 現在、オープン量子系の文脈における量子熱力学への関心がある。 重要な問題は、量子熱力学の一貫性、特に熱力学の第二法則、すなわち温水貯水池から冷水貯水池への熱の流れである。 近年,複合システムに注目が集まっている。 ここでは, 一つの量子ビットの例と, 異なる温度で2つの熱貯留層によって駆動される2つの結合量子ビットの単純な合成系について述べる。 コヒーレンス効果を無視して、熱力学の第2法則に則って熱流の明示的な表現を示す。 解析はボルン・マルコフ近似によって行われる。

There is a current interest in quantum thermodynamics in the context of open quantum systems. An important issue is the consistency of quantum thermodynamics, in particular the second law of thermodynamics, i.e., the flow of heat from a hot reservoir to a cold reservoir. Recent emphasis has been on composite system. Here we discuss two cases, namely as an example a single qubit and as a simple composite system two coupled qubits driven by two heat reservoirs at different temperatures, respectively. Ignoring coherence effects we present explicit expressions for the heat currents in agreement with the second law of thermodynamics. The analysis is carried out in the Born-Markov approximation.
翻訳日:2023-08-22 00:45:09 公開日:2023-08-17
# TIFA:質問応答によるテキストから画像への忠実度の評価

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering ( http://arxiv.org/abs/2303.11897v3 )

ライセンス: Link先を確認
Yushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf, Ranjay Krishna, Noah A Smith(参考訳) 何千もの研究者、エンジニア、アーティストが、テキストから画像への生成モデルの改善に積極的に取り組んでいるが、システムはしばしば、テキスト入力と正確に一致する画像の生成に失敗している。 本稿では,視覚的質問応答(VQA)によるテキスト入力に対して生成画像の忠実度を測定する自動評価指標であるTIFA(Text-to- Image Faithfulness Evaluation with question Answering)を紹介する。 具体的には,テキスト入力が与えられた場合,言語モデルを用いて質問応答ペアを自動的に生成する。 既存のVQAモデルが生成した画像を用いてこれらの疑問に答えられるかどうかを確認することにより、画像忠実度を算出する。 TIFAは参照なしの計量であり、生成した画像のきめ細やかで解釈可能な評価を可能にする。 TIFAは既存の指標よりも人間の判断と相関性が高い。 このアプローチに基づいて,12カテゴリ(オブジェクト,カウントなど)にわたる4Kの多様なテキスト入力と25Kの質問からなるベンチマークであるTIFA v1.0を紹介する。 本稿では,tifa v1.0を用いた既存のテキスト対画像モデルの包括的評価を行い,現行モデルの限界と課題を強調する。 例えば、現在のテキストから画像へのモデルは、色や素材ではうまく機能しているが、数え上げや空間的関係、複数のオブジェクトの作成に苦労している。 われわれのベンチマークは、テキストと画像の合成における研究の進捗を注意深く測定し、さらなる研究に有用な洞察を提供することを期待している。

Despite thousands of researchers, engineers, and artists actively working on improving text-to-image generation models, systems often fail to produce images that accurately align with the text inputs. We introduce TIFA (Text-to-Image Faithfulness evaluation with question Answering), an automatic evaluation metric that measures the faithfulness of a generated image to its text input via visual question answering (VQA). Specifically, given a text input, we automatically generate several question-answer pairs using a language model. We calculate image faithfulness by checking whether existing VQA models can answer these questions using the generated image. TIFA is a reference-free metric that allows for fine-grained and interpretable evaluations of generated images. TIFA also has better correlations with human judgments than existing metrics. Based on this approach, we introduce TIFA v1.0, a benchmark consisting of 4K diverse text inputs and 25K questions across 12 categories (object, counting, etc.). We present a comprehensive evaluation of existing text-to-image models using TIFA v1.0 and highlight the limitations and challenges of current models. For instance, we find that current text-to-image models, despite doing well on color and material, still struggle in counting, spatial relations, and composing multiple objects. We hope our benchmark will help carefully measure the research progress in text-to-image synthesis and provide valuable insights for further research.
翻訳日:2023-08-22 00:39:59 公開日:2023-08-17
# ドメイン一般化セグメンテーションのためのテクスチャ学習ドメインランダム化

Texture Learning Domain Randomization for Domain Generalized Segmentation ( http://arxiv.org/abs/2303.11546v2 )

ライセンス: Link先を確認
Sunghwan Kim, Dae-hwan Kim, Hoseong Kim(参考訳) ソースドメインでトレーニングされたディープニューラルネットワーク(dnn)ベースのセマンティックセグメンテーションモデルは、ターゲットドメイン、すなわちドメインギャップ問題への一般化に苦労することが多い。 テクスチャは、しばしばドメインギャップに寄与し、DNNはテクスチャバイアスのやすいため、ドメインシフトに対して脆弱になる。 既存のドメイン一般化セマンティクスセグメンテーション(dgss)メソッドは、テクスチャよりも形状を優先するモデルを導くことによって、ドメインギャップの問題を軽減する。 一方,形状とテクスチャは,意味セグメンテーションにおける2つの特徴的かつ相補的な手がかりである。 本稿では,DGSSの性能向上にテクスチャを活用することが重要であることを論じる。 具体的には,テクスチャ学習ドメインランダム化(TLDR)という新しいフレームワークを提案する。 TLDRは,DGSSにおけるテクスチャ学習を効果的に強化する2つの新たな損失を含む。(1)ImageNet事前学習モデルからのテクスチャ特徴を用いて,ソースドメインテクスチャへの過度な適合を防止するテクスチャ正規化損失,(2)ランダムなスタイル画像を用いて,多様なテクスチャ表現を自己指導的に学習するテクスチャ一般化損失。 tldr は resnet-50 を用いて gta-to-cityscape において 46.5 miou を達成し、1.9 miou で以前の最先端手法を改善した。 ソースコードはhttps://github.com/sssshwan/TLDRで入手できる。

Deep Neural Networks (DNNs)-based semantic segmentation models trained on a source domain often struggle to generalize to unseen target domains, i.e., a domain gap problem. Texture often contributes to the domain gap, making DNNs vulnerable to domain shift because they are prone to be texture-biased. Existing Domain Generalized Semantic Segmentation (DGSS) methods have alleviated the domain gap problem by guiding models to prioritize shape over texture. On the other hand, shape and texture are two prominent and complementary cues in semantic segmentation. This paper argues that leveraging texture is crucial for improving performance in DGSS. Specifically, we propose a novel framework, coined Texture Learning Domain Randomization (TLDR). TLDR includes two novel losses to effectively enhance texture learning in DGSS: (1) a texture regularization loss to prevent overfitting to source domain textures by using texture features from an ImageNet pre-trained model and (2) a texture generalization loss that utilizes random style images to learn diverse texture representations in a self-supervised manner. Extensive experimental results demonstrate the superiority of the proposed TLDR; e.g., TLDR achieves 46.5 mIoU on GTA-to-Cityscapes using ResNet-50, which improves the prior state-of-the-art method by 1.9 mIoU. The source code is available at https://github.com/ssssshwan/TLDR.
翻訳日:2023-08-22 00:39:34 公開日:2023-08-17
# オブジェクト発見と検索としてのユニバーサルインスタンス認識

Universal Instance Perception as Object Discovery and Retrieval ( http://arxiv.org/abs/2303.06674v2 )

ライセンス: Link先を確認
Bin Yan, Yi Jiang, Jiannan Wu, Dong Wang, Ping Luo, Zehuan Yuan, Huchuan Lu(参考訳) すべてのインスタンス認識タスクは、カテゴリ名、言語表現、ターゲットアノテーションなどのクエリによって指定された特定のオブジェクトを見つけることを目的としているが、この完全なフィールドは複数の独立したサブタスクに分割されている。 本稿では,次世代の普遍的インスタンス知覚モデルであるuninextを提案する。 UNINEXTは、多様なインスタンス認識タスクを統一されたオブジェクト発見検索パラダイムに再構成し、入力プロンプトを単に変更することで、様々なタイプのオブジェクトを柔軟に知覚することができる。 この統一的な定式化は、(1)異なるタスクやラベル語彙からの膨大なデータを利用して、一般的なインスタンスレベルの表現を共同トレーニングすることが可能であり、特にトレーニングデータに欠けているタスクに有用である。 2) 統一モデルはパラメータ効率が高く、複数のタスクを同時に処理する際に冗長な計算を保存できる。 uninextは、古典的なイメージレベルタスク(オブジェクト検出とインスタンスセグメンテーション)、視覚と言語タスク(表現の理解とセグメンテーションを推論)、そして6つのビデオレベルのオブジェクトトラッキングタスクを含む、10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。 コードはhttps://github.com/masterbin-iiau/uninextで入手できる。

All instance perception tasks aim at finding certain objects specified by some queries such as category names, language expressions, and target annotations, but this complete field has been split into multiple independent subtasks. In this work, we present a universal instance perception model of the next generation, termed UNINEXT. UNINEXT reformulates diverse instance perception tasks into a unified object discovery and retrieval paradigm and can flexibly perceive different types of objects by simply changing the input prompts. This unified formulation brings the following benefits: (1) enormous data from different tasks and label vocabularies can be exploited for jointly training general instance-level representations, which is especially beneficial for tasks lacking in training data. (2) the unified model is parameter-efficient and can save redundant computation when handling multiple tasks simultaneously. UNINEXT shows superior performance on 20 challenging benchmarks from 10 instance-level tasks including classical image-level tasks (object detection and instance segmentation), vision-and-language tasks (referring expression comprehension and segmentation), and six video-level object tracking tasks. Code is available at https://github.com/MasterBin-IIAU/UNINEXT.
翻訳日:2023-08-22 00:38:07 公開日:2023-08-17
# 一般化可能な視覚言語モデルのための勾配制御メタプロンプト学習

Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models ( http://arxiv.org/abs/2303.06571v2 )

ライセンス: Link先を確認
Juncheng Li, Minghe Gao, Longhui Wei, Siliang Tang, Wenqiao Zhang, Mengze Li, Wei Ji, Qi Tian, Tat-Seng Chua, Yueting Zhuang(参考訳) 最近登場したパラダイムであるプロンプトチューニングは,‘soft prompts’を学習して,凍結したプレトレーニングモデルを条件付けすることで,強力な視覚言語プレトレーニングモデルによるパラメーターとデータによるダウンストリームタスクへの適応を可能にする。 迅速なチューニング性能が初期化に敏感であり、優れた初期化を見つけるのに時間がかかるため、事前学習モデルの高速適応能力が制限されるという、数発のシナリオでは特に問題となる。 さらに、学習可能なプロンプトトークンは限られたトレーニングサンプルに過度に適合するため、プロンプトチューニングは事前トレーニングモデルの一般化性を損なう可能性がある。 これらの問題に対処するために,適応性を向上させるための効率的なソフトプロンプト初期化と,ラベルなし画像テキスト事前学習データのみを用いたメタラーニングパラダイムにおける強力なクロスドメイン一般化性のための軽量な勾配調整関数を組み合わせた,新しいグラデーション調整メタプロンプト学習(gram)フレームワークを提案する。 GRAMは特定のプロンプトチューニングメソッドを設計するのではなく、モデルに依存しない方法で様々なプロンプトチューニングメソッドに簡単に組み込むことができ、包括的な実験により、GRAMはいくつかの設定(ショットラーニング、クロスドメインの一般化、クロスデータセットの一般化など)でそれらを一貫した改善をもたらすことが示された。 さらに、実験により、GRAMはテキストおよび視覚的プロンプトチューニングの直交的手法を相互に強化された方法で動作させることを可能にし、ユニモーダル・プロンプトチューニング法よりも優れた一般化性を提供する。

Prompt tuning, a recently emerging paradigm, enables the powerful vision-language pre-training models to adapt to downstream tasks in a parameter -- and data -- efficient way, by learning the ``soft prompts'' to condition frozen pre-training models. Though effective, it is particularly problematic in the few-shot scenario, where prompt tuning performance is sensitive to the initialization and requires a time-consuming process to find a good initialization, thus restricting the fast adaptation ability of the pre-training models. In addition, prompt tuning could undermine the generalizability of the pre-training models, because the learnable prompt tokens are easy to overfit to the limited training samples. To address these issues, we introduce a novel Gradient-RegulAted Meta-prompt learning (GRAM) framework that jointly meta-learns an efficient soft prompt initialization for better adaptation and a lightweight gradient regulating function for strong cross-domain generalizability in a meta-learning paradigm using only the unlabeled image-text pre-training data. Rather than designing a specific prompt tuning method, our GRAM can be easily incorporated into various prompt tuning methods in a model-agnostic way, and comprehensive experiments show that GRAM brings about consistent improvement for them in several settings (i.e., few-shot learning, cross-domain generalization, cross-dataset generalization, etc.) over 11 datasets. Further, experiments show that GRAM enables the orthogonal methods of textual and visual prompt tuning to work in a mutually-enhanced way, offering better generalizability beyond the uni-modal prompt tuning methods.
翻訳日:2023-08-22 00:37:46 公開日:2023-08-17
# セマンティックセグメンテーションにおけるクロスコンディションロバストネスのコントラストモデル適応

Contrastive Model Adaptation for Cross-Condition Robustness in Semantic Segmentation ( http://arxiv.org/abs/2303.05194v3 )

ライセンス: Link先を確認
David Bruggemann, Christos Sakaridis, Tim Br\"odermann, Luc Van Gool(参考訳) 標準の教師なしドメイン適応手法では、ラベル付きソースデータとラベルなしターゲットデータを組み合わせてソースからターゲットドメインにモデルを適用する。 一方、モデル適応では、ラベル付きソースデータへのアクセスが禁止され、すなわち、ソース訓練されたモデルとラベルなしのターゲットデータのみが利用できる。 画像レベルの対応が対象領域で利用可能となるセグメンテーションのための正規-逆条件モデル適応について検討する。 ターゲットセットは、GPSにマッチした場所で撮影された悪条件と正常条件のストリートイメージのラベルのないペアで構成されている。 提案手法は, コントラスト学習による条件不変特徴の学習に, このような画像ペアを利用する。 特に、CMAは、各入力をキャプチャする条件に従ってではなく、条件不変のセマンティックコンテンツに基づいて、埋め込み空間の特徴をグループ化することを推奨する。 正確なクロスドメインセマンティクス対応を得るために,正規画像を悪像の視点に警告し,warp-confidenceスコアを利用してロバストで集約された特徴を生成する。 このアプローチにより,ACDCやダークチューリッヒなど,複数の正規-逆適応ベンチマークにおけるモデル適応のための最先端セマンティックセマンティックセマンティックセマンティクス性能を実現する。 また,新たな悪条件一般化ベンチマークによるcmaの評価を行い,ソースデータへのアクセス不能によるcmaのハンディキャップが比較されたにもかかわらず,標準非教師なしドメイン適応法と比較して好成績を報告した。 コードはhttps://github.com/brdav/cmaで入手できる。

Standard unsupervised domain adaptation methods adapt models from a source to a target domain using labeled source data and unlabeled target data jointly. In model adaptation, on the other hand, access to the labeled source data is prohibited, i.e., only the source-trained model and unlabeled target data are available. We investigate normal-to-adverse condition model adaptation for semantic segmentation, whereby image-level correspondences are available in the target domain. The target set consists of unlabeled pairs of adverse- and normal-condition street images taken at GPS-matched locations. Our method -- CMA -- leverages such image pairs to learn condition-invariant features via contrastive learning. In particular, CMA encourages features in the embedding space to be grouped according to their condition-invariant semantic content and not according to the condition under which respective inputs are captured. To obtain accurate cross-domain semantic correspondences, we warp the normal image to the viewpoint of the adverse image and leverage warp-confidence scores to create robust, aggregated features. With this approach, we achieve state-of-the-art semantic segmentation performance for model adaptation on several normal-to-adverse adaptation benchmarks, such as ACDC and Dark Zurich. We also evaluate CMA on a newly procured adverse-condition generalization benchmark and report favorable results compared to standard unsupervised domain adaptation methods, despite the comparative handicap of CMA due to source data inaccessibility. Code is available at https://github.com/brdav/cma.
翻訳日:2023-08-22 00:36:52 公開日:2023-08-17
# GRAF: Graph Attention-aware Fusion Networks

GRAF: Graph Attention-aware Fusion Networks ( http://arxiv.org/abs/2303.16781v2 )

ライセンス: Link先を確認
Ziynet Nesibe Kesimoglu, Serdar Bozdag(参考訳) 現実世界のネットワークには、複数のタイプのノードとエッジが含まれる。 graph neural network(gnn)は、ダウンストリーム機械学習タスク用のノードおよびグラフ埋め込みを生成するディープラーニングフレームワークとして登場した。 しかし、人気のあるGNNベースのアーキテクチャは単一の均一ネットワークで動作する。 複数のネットワークで作業できるようにすることは、ネットワークの多様性と既存のアソシエーションの重複により、さらなる課題をもたらす。 本研究では,複数のネットワーク上でのGNNに基づくアプローチを利用して,GRAF (Graph Attention-aware Fusion Networks) という計算手法を提案する。 注意に基づく近所のアグリゲーションを使用して、grafは各ノード毎の隣人の重要性(ノードレベルのアグリゲーションと呼ばれる)、そして関連の重要性(アソシエーションレベルのアグリゲーションと呼ばれる)を学習する。 そして、GRAFは学習ノードおよび関連レベルの注意に従って各エッジを計測するネットワーク融合ステップを処理する。 融合ネットワークは入力ネットワークによって多くの弱いエッジを持つ高密度ネットワークである可能性があることを考慮し、エッジの重みに関してエッジ除去ステップを組み込んだ。 最後に、GRAFは融合ネットワーク上のグラフ畳み込みネットワーク(GCN)を使用し、ノード分類や類似の下流タスクのためのグラフ構造化データにノード特徴を組み込む。 GRAFの一般化可能性を示すために、異なる領域の4つのデータセットに適用し、GRAFがベースライン、最先端メソッド、および各ノード分類タスクの独自のバリエーションよりも優れ、あるいは同等であったことを観察した。 私たちのツールのソースコードはhttps://github.com/bozdaglab/GRAF で公開されています。

A large number of real-world networks include multiple types of nodes and edges. Graph Neural Network (GNN) emerged as a deep learning framework to generate node and graph embeddings for downstream machine learning tasks. However, popular GNN-based architectures operate on single homogeneous networks. Enabling them to work on multiple networks brings additional challenges due to the heterogeneity of the networks and the multiplicity of the existing associations. In this study, we present a computational approach named GRAF (Graph Attention-aware Fusion Networks) utilizing GNN-based approaches on multiple networks with the help of attention mechanisms and network fusion. Using attention-based neighborhood aggregation, GRAF learns the importance of each neighbor per node (called node-level attention) followed by the importance of association (called association-level attention). Then, GRAF processes a network fusion step weighing each edge according to learned node- and association-level attentions. Considering that the fused network could be a highly dense network with many weak edges depending on the given input networks, we included an edge elimination step with respect to edges' weights. Finally, GRAF utilizes Graph Convolutional Network (GCN) on the fused network and incorporates node features on graph-structured data for a node classification or a similar downstream task. To demonstrate GRAF's generalizability, we applied it to four datasets from different domains and observed that GRAF outperformed or was on par with the baselines, state-of-the-art methods, and its own variations for each node classification task. Source code for our tool is publicly available at https://github.com/bozdaglab/GRAF .
翻訳日:2023-08-22 00:28:26 公開日:2023-08-17
# 風力発電予測に対する敵攻撃の標的

Targeted Adversarial Attacks on Wind Power Forecasts ( http://arxiv.org/abs/2303.16633v2 )

ライセンス: Link先を確認
Ren\'e Heinrich, Christoph Scholz, Stephan Vogt, Malte Lehna(参考訳) 近年、研究者は風力予測のための様々なディープラーニングモデルを提案した。 これらのモデルは、従来の機械学習アルゴリズムや物理モデルよりも正確に風力発電所や地域全体の風力発電を予測する。 しかし、最近の研究では、ディープラーニングモデルがしばしば敵の攻撃によって操作されることが示されている。 風力予測は現代の電力システムの安定性に不可欠であるため、これらの脅威から保護することが重要である。 本研究では,攻撃対象,準目標,未目標の2種類の予測モデルの脆弱性について検討する。 我々は,個々の風力発電所の発電予測のためのlong short-term memory (lstm)ネットワークと,ドイツ全土の風力発電を予測するconvolutional neural network (cnn)を提案する。 さらに,攻撃対象および半標的攻撃に対する回帰モデルのロバスト性を定量化するための評価指標であるTtal Adversarial Robustness Score (TARS)を提案する。 攻撃がモデルのパフォーマンスに与える影響と、攻撃者の目標が達成された程度を評価し、0(非常に脆弱)と1(非常に堅牢)の間のスコアを割り当てる。 実験では,LSTM予測モデルはかなり頑健であり,全敵攻撃に対するTARS値が0.78以上に達した。 CNN予測モデルは通常の訓練では0.10以下のTARS値しか達成せず、非常に脆弱であった。 しかし、その頑健さは敵対的な訓練によって著しく向上する可能性があり、常に 0.46 を上回った。

In recent years, researchers proposed a variety of deep learning models for wind power forecasting. These models predict the wind power generation of wind farms or entire regions more accurately than traditional machine learning algorithms or physical models. However, latest research has shown that deep learning models can often be manipulated by adversarial attacks. Since wind power forecasts are essential for the stability of modern power systems, it is important to protect them from this threat. In this work, we investigate the vulnerability of two different forecasting models to targeted, semi-targeted, and untargeted adversarial attacks. We consider a Long Short-Term Memory (LSTM) network for predicting the power generation of individual wind farms and a Convolutional Neural Network (CNN) for forecasting the wind power generation throughout Germany. Moreover, we propose the Total Adversarial Robustness Score (TARS), an evaluation metric for quantifying the robustness of regression models to targeted and semi-targeted adversarial attacks. It assesses the impact of attacks on the model's performance, as well as the extent to which the attacker's goal was achieved, by assigning a score between 0 (very vulnerable) and 1 (very robust). In our experiments, the LSTM forecasting model was fairly robust and achieved a TARS value of over 0.78 for all adversarial attacks investigated. The CNN forecasting model only achieved TARS values below 0.10 when trained ordinarily, and was thus very vulnerable. Yet, its robustness could be significantly improved by adversarial training, which always resulted in a TARS above 0.46.
翻訳日:2023-08-22 00:27:58 公開日:2023-08-17
# 局所的一般化を満たしたグローバル適応:3次元ポーズ推定のための教師なし領域適応

Global Adaptation meets Local Generalization: Unsupervised Domain Adaptation for 3D Human Pose Estimation ( http://arxiv.org/abs/2303.16456v2 )

ライセンス: Link先を確認
Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang, and Gaoang Wang(参考訳) トレーニング済みの2D-to-3D人間のポーズリフトモデルを対象の未確認データセットに適用する場合、ドメインシフトの問題により大きなパフォーマンス劣化が発生する。 劣化は2つの要因によって引き起こされるのが観察される。 1) 異なるカメラパラメータや設定によるソースとターゲットデータセットのポーズのグローバルな位置に対する大きな分布ギャップ 2)訓練におけるポーズの局所構造の多様性の欠如。 この目的のために,3次元ポーズ推定のための教師なしドメイン適応の簡易かつ効果的なフレームワークであるtextit{PoseDA} に \textbf{global adaptation} と \textbf{local generalization} を組み合わせる。 具体的には、グローバル適応は、ソースドメインからターゲットドメインへのポーズのグローバル位置を、提案されたグローバル位置アライメント(GPA)モジュールで整列することを目的としている。 局所的な一般化は2D-3Dポーズマッピングの多様性を高めるために設計されている。 これらのモジュールは、追加の学習可能なパラメータを導入することなく、大幅なパフォーマンス改善をもたらす。 また,本研究では,3dポーズの多様性を高めるための局所的ポーズ増強(lpa)を提案する。 1)事前定義されたポーズ変換のパラメータを生成する拡張生成器 2)拡張データの現実性と品質を確保するためのアンカー識別装置。 我々のアプローチは、ほぼ全ての2D-3Dリフトモデルに適用できる。 \textit{PoseDA}は、MPI-INF-3DHP上で61.3mmのMPJPEをクロスデータセット評価設定で達成し、従来の最先端手法を10.2\%改善した。

When applying a pre-trained 2D-to-3D human pose lifting model to a target unseen dataset, large performance degradation is commonly encountered due to domain shift issues. We observe that the degradation is caused by two factors: 1) the large distribution gap over global positions of poses between the source and target datasets due to variant camera parameters and settings, and 2) the deficient diversity of local structures of poses in training. To this end, we combine \textbf{global adaptation} and \textbf{local generalization} in \textit{PoseDA}, a simple yet effective framework of unsupervised domain adaptation for 3D human pose estimation. Specifically, global adaptation aims to align global positions of poses from the source domain to the target domain with a proposed global position alignment (GPA) module. And local generalization is designed to enhance the diversity of 2D-3D pose mapping with a local pose augmentation (LPA) module. These modules bring significant performance improvement without introducing additional learnable parameters. In addition, we propose local pose augmentation (LPA) to enhance the diversity of 3D poses following an adversarial training scheme consisting of 1) a augmentation generator that generates the parameters of pre-defined pose transformations and 2) an anchor discriminator to ensure the reality and quality of the augmented data. Our approach can be applicable to almost all 2D-3D lifting models. \textit{PoseDA} achieves 61.3 mm of MPJPE on MPI-INF-3DHP under a cross-dataset evaluation setup, improving upon the previous state-of-the-art method by 10.2\%.
翻訳日:2023-08-22 00:27:34 公開日:2023-08-17
# グラフ表現学習によるマルウェア検出に関する調査

A Survey on Malware Detection with Graph Representation Learning ( http://arxiv.org/abs/2303.16004v2 )

ライセンス: Link先を確認
Tristan Bilot, Nour El Madhoun, Khaldoun Al Agha, Anis Zouaoui(参考訳) マルウェア検出は、マルウェアの数と複雑さの増加によって大きな懸念となっている。 従来のシグネチャとヒューリスティックに基づく検出手法はマルウェア検出に使用されるが、残念ながら未知の攻撃への一般化が不十分であり、難読化技術を使って容易に回避できる。 近年、機械学習(ML)、特にディープラーニング(DL)は、データから有用な表現を学習することで、マルウェア検出において印象的な成果を上げ、従来の方法よりも好まれるソリューションとなった。 近年,グラフ構造化データへのこのような手法の適用は,様々な領域で最先端のパフォーマンスを達成し,マルウェアからより堅牢な表現を学習するための有望な成果を実証している。 しかし、マルウェア検出のためのグラフベースのディープラーニングに焦点を当てた文献レビューは存在しない。 本調査では,既存の作品を共通アプローチとアーキテクチャの下で要約し,統一するための詳細な文献レビューを行う。 グラフニューラルネットワーク(GNN)が表現型グラフ構造として表されるマルウェアからの堅牢な埋め込みを学習することで、下流の分類器による効率的な検出が可能となることを示す。 本稿では,グラフに基づく検出手法を騙すために使用される敵攻撃についても検討する。 論文の最後に課題と今後の研究の方向性について述べる。

Malware detection has become a major concern due to the increasing number and complexity of malware. Traditional detection methods based on signatures and heuristics are used for malware detection, but unfortunately, they suffer from poor generalization to unknown attacks and can be easily circumvented using obfuscation techniques. In recent years, Machine Learning (ML) and notably Deep Learning (DL) achieved impressive results in malware detection by learning useful representations from data and have become a solution preferred over traditional methods. More recently, the application of such techniques on graph-structured data has achieved state-of-the-art performance in various domains and demonstrates promising results in learning more robust representations from malware. Yet, no literature review focusing on graph-based deep learning for malware detection exists. In this survey, we provide an in-depth literature review to summarize and unify existing works under the common approaches and architectures. We notably demonstrate that Graph Neural Networks (GNNs) reach competitive results in learning robust embeddings from malware represented as expressive graph structures, leading to an efficient detection by downstream classifiers. This paper also reviews adversarial attacks that are utilized to fool graph-based detection methods. Challenges and future research directions are discussed at the end of the paper.
翻訳日:2023-08-22 00:27:07 公開日:2023-08-17
# FastViT:構造リパラメータを用いた高速ハイブリッドビジョントランス

FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization ( http://arxiv.org/abs/2303.14189v2 )

ライセンス: Link先を確認
Pavan Kumar Anasosalu Vasu, James Gabriel, Jeff Zhu, Oncel Tuzel, Anurag Ranjan(参考訳) 近年の変圧器と畳み込み設計の融合により、モデルの精度と効率が着実に改善されている。 本稿では,最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。 この目的のために,FastViTのビルディングブロックである新しいトークンミキシング演算子RepMixerを導入する。 さらに、列車時間オーバーパラメータ化と大きなカーネル畳み込みを適用して精度を高め、これらの選択が遅延に与える影響を実証的に示します。 我々のモデルは、最近の最先端ハイブリッドトランスフォーマーアーキテクチャであるCMTよりも3.5倍速く、EfficientNetより4.9倍速く、ImageNetデータセットと同じ精度でモバイルデバイス上のConvNeXtより1.9倍速い。 同様のレイテンシでは、MobileOneよりもImageNetのTop-1精度が4.2%向上しています。 私たちのモデルは、画像分類、検出、セグメンテーション、および3Dメッシュレグレッションといった、いくつかのタスクで競合するアーキテクチャを一貫して上回ります。 さらに,本モデルは分布外サンプルや腐敗に対して非常に堅牢であり,競合するロバストモデルよりも優れている。 コードとモデルはhttps://github.com/apple/ml-fastvitで入手できる。

The recent amalgamation of transformer and convolutional designs has led to steady improvements in accuracy and efficiency of the models. In this work, we introduce FastViT, a hybrid vision transformer architecture that obtains the state-of-the-art latency-accuracy trade-off. To this end, we introduce a novel token mixing operator, RepMixer, a building block of FastViT, that uses structural reparameterization to lower the memory access cost by removing skip-connections in the network. We further apply train-time overparametrization and large kernel convolutions to boost accuracy and empirically show that these choices have minimal effect on latency. We show that - our model is 3.5x faster than CMT, a recent state-of-the-art hybrid transformer architecture, 4.9x faster than EfficientNet, and 1.9x faster than ConvNeXt on a mobile device for the same accuracy on the ImageNet dataset. At similar latency, our model obtains 4.2% better Top-1 accuracy on ImageNet than MobileOne. Our model consistently outperforms competing architectures across several tasks -- image classification, detection, segmentation and 3D mesh regression with significant improvement in latency on both a mobile device and a desktop GPU. Furthermore, our model is highly robust to out-of-distribution samples and corruptions, improving over competing robust models. Code and models are available at https://github.com/apple/ml-fastvit.
翻訳日:2023-08-22 00:26:07 公開日:2023-08-17
# 変形性モデル駆動型ニューラルレンダリングによる低視野環境下での頭部の高精度3次元再構成

Deformable Model-Driven Neural Rendering for High-Fidelity 3D Reconstruction of Human Heads Under Low-View Settings ( http://arxiv.org/abs/2303.13855v2 )

ライセンス: Link先を確認
Baixin Xu, Jiarui Zhang, Kwan-Yee Lin, Chen Qian and Ying He(参考訳) 低ビュー環境で3d人間の頭部を再構築することは、主に限られたビューと高周波信号でオーバーフィットするリスクが顕著であるため、技術的な課題がある。 そこで本研究では,2段階の粗大なトレーニング戦略を取り入れた幾何分解手法を提案する。 本研究では, 滑らかなテンプレート, 非剛性変形, 高周波変位場からなる複合符号付き距離場のゼロレベルセットを用いて3次元頭部を表現する。 テンプレートは、アイデンティティと表現の両方に依存しない特徴をキャプチャし、スパースとランダムに選択されたビューを持つ複数の個人にわたって変形ネットワークとコトレーニングされる。 個人固有の詳細を捉えた変位場は、それぞれ個別の訓練を受ける。 ネットワークトレーニングには3Dの監視やオブジェクトマスクは必要ない。 実験により, 幾何分解と2段階学習戦略の有効性とロバスト性を示した。 提案手法は,低視野環境下での再現精度と新規ビュー合成の観点から,既存のニューラルレンダリング手法より優れる。 さらに、事前学習されたテンプレートは、未熟な個人に遭遇した場合のモデルの適切な初期化に役立ちます。

Reconstructing 3D human heads in low-view settings presents technical challenges, mainly due to the pronounced risk of overfitting with limited views and high-frequency signals. To address this, we propose geometry decomposition and adopt a two-stage, coarse-to-fine training strategy, allowing for progressively capturing high-frequency geometric details. We represent 3D human heads using the zero level-set of a combined signed distance field, comprising a smooth template, a non-rigid deformation, and a high-frequency displacement field. The template captures features that are independent of both identity and expression and is co-trained with the deformation network across multiple individuals with sparse and randomly selected views. The displacement field, capturing individual-specific details, undergoes separate training for each person. Our network training does not require 3D supervision or object masks. Experimental results demonstrate the effectiveness and robustness of our geometry decomposition and two-stage training strategy. Our method outperforms existing neural rendering approaches in terms of reconstruction accuracy and novel view synthesis under low-view settings. Moreover, the pre-trained template serves a good initialization for our model when encountering unseen individuals.
翻訳日:2023-08-22 00:25:26 公開日:2023-08-17
# ALADIN-NST:ニューラル・スタイル・トランスファーによるアートスタイルの自己教師型非絡み合い表現学習

ALADIN-NST: Self-supervised disentangled representation learning of artistic style through Neural Style Transfer ( http://arxiv.org/abs/2304.05755v2 )

ライセンス: Link先を確認
Dan Ruta, Gemma Canet Tarres, Alexander Black, Andrew Gilbert, John Collomosse(参考訳) 表現学習(representation learning)は、与えられたサンプルの固有の特性をドメインごとに強く識別するコンパクトで記述的な形式で、ドメインの個々のサルエント特徴を発見することを目的としている。 既存のビジュアルスタイル表現文学作品では、トレーニング中にスタイルを内容から切り離そうと試みている。 これらの分離は完全には達成されていない。 本研究の目的は,画像に描かれた意味的内容から,視覚芸術的スタイルの表現をより強く切り離すことである。 学習信号の測定と駆動にはneural style transfer(nst)を使用し,明示的異種メトリクスを用いた最先端表現学習を実現する。 本稿では,スタイルとコンテンツの絡み合いに強く対処することで,スタイル固有のメトリクスが大幅に向上し,より少ない意味情報をエンコードし,下流のマルチモーダルアプリケーションにおいて最先端の精度が得られることを示す。

Representation learning aims to discover individual salient features of a domain in a compact and descriptive form that strongly identifies the unique characteristics of a given sample respective to its domain. Existing works in visual style representation literature have tried to disentangle style from content during training explicitly. A complete separation between these has yet to be fully achieved. Our paper aims to learn a representation of visual artistic style more strongly disentangled from the semantic content depicted in an image. We use Neural Style Transfer (NST) to measure and drive the learning signal and achieve state-of-the-art representation learning on explicitly disentangled metrics. We show that strongly addressing the disentanglement of style and content leads to large gains in style-specific metrics, encoding far less semantic information and achieving state-of-the-art accuracy in downstream multimodal applications.
翻訳日:2023-08-22 00:19:44 公開日:2023-08-17
# CherryPicker: セマンティック骨格化とチェリーツリーのトポロジカル再構築

CherryPicker: Semantic Skeletonization and Topological Reconstruction of Cherry Trees ( http://arxiv.org/abs/2304.04708v2 )

ライセンス: Link先を確認
Lukas Meyer, Andreas Gilson, Oliver Scholz, Marc Stamminger(参考訳) 植物の表現型付けでは、木々の3次元点雲からの正確な形質の抽出はいまだに未解決の問題である。 花や果実などの木の器官の自動モデリングと形質抽出には,木と木の骨格の意味的に区切られた点雲が必要である。 そこで,木々の光度点雲を再構築し,セマンティックセグメンテーションを行い,そのトポロジ的構造を骨格として抽出するCherryPickerを提案する。 本システムでは, 3D 植物表現型アプリケーションにおいて, 自動処理を実現するために, 最先端のアルゴリズムを組み合わせる。 本パイプライン内では,単眼再構築のスケール係数を自動的に推定し,スケール曖昧さを克服し,計量的に正しい点雲を得る手法を提案する。 さらに,ラプラシアンに基づく収縮に基づくセマンティックスケルトン化アルゴリズムを提案する。 また,異なる木の器官を意味的に重み付けすることで,閉塞や構造的大きさの変化によって引き起こされるアーティファクトを効果的に除去できることを示す。 チェリーピッカーは桜の質の高いトポロジー復元を精巧に行う。

In plant phenotyping, accurate trait extraction from 3D point clouds of trees is still an open problem. For automatic modeling and trait extraction of tree organs such as blossoms and fruits, the semantically segmented point cloud of a tree and the tree skeleton are necessary. Therefore, we present CherryPicker, an automatic pipeline that reconstructs photo-metric point clouds of trees, performs semantic segmentation and extracts their topological structure in form of a skeleton. Our system combines several state-of-the-art algorithms to enable automatic processing for further usage in 3D-plant phenotyping applications. Within this pipeline, we present a method to automatically estimate the scale factor of a monocular reconstruction to overcome scale ambiguity and obtain metrically correct point clouds. Furthermore, we propose a semantic skeletonization algorithm build up on Laplacian-based contraction. We also show by weighting different tree organs semantically, our approach can effectively remove artifacts induced by occlusion and structural size variations. CherryPicker obtains high-quality topology reconstructions of cherry trees with precise details.
翻訳日:2023-08-22 00:19:27 公開日:2023-08-17
# 事例 ニューラル放射場

Instance Neural Radiance Field ( http://arxiv.org/abs/2304.04395v2 )

ライセンス: Link先を確認
Yichen Liu, Benran Hu, Junkai Huang, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では、最初の学習ベースのnerf 3dインスタンスセグメンテーションパイプラインの1つ、"bf \inerflong}" または \inerfを提案する。 多視点RGB画像から予めトレーニングされたNeRFを入力として、 \inerfは、NeRFモデルのインスタンスフィールドコンポーネントとして表されるシーンの3Dインスタンスセグメンテーションを学ぶことができる。 この目的のために,NeRFからサンプリングされたボリューム特徴に3次元提案に基づくマスク予測ネットワークを導入し,個別の3次元マスクを生成する。 次に、粗い3dマスク予測を画像空間に投影し、既存のpanopticセグメンテーションモデルによって生成された異なるビューからの2dセグメンテーションマスクとマッチングし、インスタンスフィールドのトレーニングを監督する。 特に、新しいビューから一貫性のある2Dセグメンテーションマップを生成すること以外にも、 \inerfは任意の3Dポイントでインスタンス情報をクエリすることができる。 また,本手法は,純粋な推論による結果を達成する最初の方法の1つである。 複雑な屋内シーンを持つ合成および実世界のnerfデータセットを実験し、unseenビューでのセグメンテーション性能において、従来のnerfセグメンテーション作業と競合する2dセグメンテーション手法を上回った。 デモビデオはhttps://youtu.be/wW9Bme73coI。 コードとデータはhttps://github.com/lyclyc52/instance_nerfで入手できる。

This paper presents one of the first learning-based NeRF 3D instance segmentation pipelines, dubbed as {\bf \inerflong}, or \inerf. Taking a NeRF pretrained from multi-view RGB images as input, \inerf can learn 3D instance segmentation of a given scene, represented as an instance field component of the NeRF model. To this end, we adopt a 3D proposal-based mask prediction network on the sampled volumetric features from NeRF, which generates discrete 3D instance masks. The coarse 3D mask prediction is then projected to image space to match 2D segmentation masks from different views generated by existing panoptic segmentation models, which are used to supervise the training of the instance field. Notably, beyond generating consistent 2D segmentation maps from novel views, \inerf can query instance information at any 3D point, which greatly enhances NeRF object segmentation and manipulation. Our method is also one of the first to achieve such results in pure inference. Experimented on synthetic and real-world NeRF datasets with complex indoor scenes, \inerf surpasses previous NeRF segmentation works and competitive 2D segmentation methods in segmentation performance on unseen views. Watch the demo video at https://youtu.be/wW9Bme73coI. Code and data are available at https://github.com/lyclyc52/Instance_NeRF.
翻訳日:2023-08-22 00:18:41 公開日:2023-08-17
# 鳥のEye-Viewセマンティックセマンティックセグメンテーションを推定するための対応強化型階層変換器

A Cross-Scale Hierarchical Transformer with Correspondence-Augmented Attention for inferring Bird's-Eye-View Semantic Segmentation ( http://arxiv.org/abs/2304.03650v2 )

ライセンス: Link先を確認
Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Kerui Hu, Kang Wang(参考訳) 鳥の目視(BEV)セマンティックセグメンテーションは、視覚的で扱いやすいため、下流のタスクに周辺情報を提供するために自律運転に応用されている。 マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。 近年,視覚トランスフォーマ(vit)によるコンテンツと位置関係の学習により,この課題を実現した。 しかし、ViTの二次的な複雑さは、潜在層のみに関係学習を限定し、スケールギャップは微細な物体の表現を妨げる。 また,多視点特徴の平易な融合法は,BEV特徴を表す情報吸収意図に適合しない。 これらの課題に対処するために,セマンティックセグメンテーション推論のための対応強化した新しい階層変換器を提案する。 具体的には、最後のサイズが最終セグメンテーションのわずか半分であるBEV特徴表現を洗練するための階層的なフレームワークを考案する。 この階層的なフレームワークによって引き起こされる計算量の増大を抑えるため、クロススケールトランスフォーマーを用いて、逆向きに特徴関係を学習し、BEV特徴の残余接続を利用して、スケール間の情報伝達を容易にする。 本稿では,共起的・非共起的対応を区別するために,対応強化された注意を提案する。 ソフトマックス動作前の注意スコアを増幅して簡易かつ効果的に実施し、位置ビュー関連および位置ビュー関連注意スコアを強調抑制する。 広汎な実験により,マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティックセグメンテーションを推定する際の最先端性能が示された。

As bird's-eye-view (BEV) semantic segmentation is simple-to-visualize and easy-to-handle, it has been applied in autonomous driving to provide the surrounding information to downstream tasks. Inferring BEV semantic segmentation conditioned on multi-camera-view images is a popular scheme in the community as cheap devices and real-time processing. The recent work implemented this task by learning the content and position relationship via the vision Transformer (ViT). However, the quadratic complexity of ViT confines the relationship learning only in the latent layer, leaving the scale gap to impede the representation of fine-grained objects. And their plain fusion method of multi-view features does not conform to the information absorption intention in representing BEV features. To tackle these issues, we propose a novel cross-scale hierarchical Transformer with correspondence-augmented attention for semantic segmentation inferring. Specifically, we devise a hierarchical framework to refine the BEV feature representation, where the last size is only half of the final segmentation. To save the computation increase caused by this hierarchical framework, we exploit the cross-scale Transformer to learn feature relationships in a reversed-aligning way, and leverage the residual connection of BEV features to facilitate information transmission between scales. We propose correspondence-augmented attention to distinguish conducive and inconducive correspondences. It is implemented in a simple yet effective way, amplifying attention scores before the Softmax operation, so that the position-view-related and the position-view-disrelated attention scores are highlighted and suppressed. Extensive experiments demonstrate that our method has state-of-the-art performance in inferring BEV semantic segmentation conditioned on multi-camera-view images.
翻訳日:2023-08-22 00:17:33 公開日:2023-08-17
# CRN: 高精度でロバストで効率的な3D知覚のためのカメラレーダネット

CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception ( http://arxiv.org/abs/2304.00670v2 )

ライセンス: Link先を確認
Youngseok Kim, Sanmin Kim, Juyeb Shin, Jun Won Choi, Dongsuk Kum(参考訳) 自律運転には、3Dオブジェクトの検出、追跡、セグメンテーションを含む正確で高速な3D知覚システムが必要である。 最近の低コストカメラベースのアプローチは有望な結果を示しているが、照明の悪さや悪天候の影響を受けやすいため、局所誤差が大きい。 したがって、精密な長距離測定を提供し、すべての環境で確実に作動する低コストのレーダーカメラは有望であるが、まだ十分に調査されていない。 本稿では,様々なタスクに対して,意味的にリッチで空間的に正確なbird's-eye-view(bev)特徴マップを生成する,新しいカメラ・レーダー融合フレームワークであるcamer radar net(crn)を提案する。 画像中の空間情報の欠如を克服するため、視線ビュー画像の特徴をスパースで正確なレーダーポイントの助けを借りてBEVに変換する。 入力間の空間的不一致に対処するために設計されたマルチモーダル変形可能な注意を用いて,bevにおける画像とレーダ特徴マップをさらに集約する。 リアルタイム設定のCRNは20FPSで動作し、nuScenes上のLiDAR検出器と同等の性能を達成し、100m設定で遠くでも性能を向上する。 さらに、オフライン設定のCRNは、nuScenesテストセットで62.4%のNDS、57.5%のmAPを出力し、全カメラおよびカメラレーダー3Dオブジェクト検出器の中で第1位である。

Autonomous driving requires an accurate and fast 3D perception system that includes 3D object detection, tracking, and segmentation. Although recent low-cost camera-based approaches have shown promising results, they are susceptible to poor illumination or bad weather conditions and have a large localization error. Hence, fusing camera with low-cost radar, which provides precise long-range measurement and operates reliably in all environments, is promising but has not yet been thoroughly investigated. In this paper, we propose Camera Radar Net (CRN), a novel camera-radar fusion framework that generates a semantically rich and spatially accurate bird's-eye-view (BEV) feature map for various tasks. To overcome the lack of spatial information in an image, we transform perspective view image features to BEV with the help of sparse but accurate radar points. We further aggregate image and radar feature maps in BEV using multi-modal deformable attention designed to tackle the spatial misalignment between inputs. CRN with real-time setting operates at 20 FPS while achieving comparable performance to LiDAR detectors on nuScenes, and even outperforms at a far distance on 100m setting. Moreover, CRN with offline setting yields 62.4% NDS, 57.5% mAP on nuScenes test set and ranks first among all camera and camera-radar 3D object detectors.
翻訳日:2023-08-22 00:16:23 公開日:2023-08-17
# UniNeXt: 視覚認識のための統一アーキテクチャ

UniNeXt: Exploring A Unified Architecture for Vision Recognition ( http://arxiv.org/abs/2304.13700v3 )

ライセンス: Link先を確認
Fangjian Lin, Jianlong Yuan, Sitong Wu, Fan Wang, Zhibin Wang(参考訳) ビジョントランスフォーマーはコンピュータビジョンタスクに大きな可能性を示している。 最近の研究は、パフォーマンス向上のための空間トークンミキサーの開発に重点を置いている。 しかし、よく設計された汎用アーキテクチャは、どの空間トークンミキサーを備えているかに関わらず、バックボーン全体の性能を大幅に向上させることができる。 本稿では,ビジョンバックボーンの汎用アーキテクチャを改良したuninextを提案する。 その効果を検証するために,コンボリューションモジュールとアテンションモジュールの両方を含む,様々な典型的なデザインと現代的なデザインで空間トークンミキサーをインスタンス化する。 最初に提案されたアーキテクチャと比較して、私たちのuninextアーキテクチャは、すべての空間トークンミキサーのパフォーマンスを着実に向上させ、それらの間のパフォーマンスギャップを狭めます。 驚いたことに、われわれのUniNeXtは、従来の最先端の窓ガラスよりも優れている。 興味深いことに、これらの空間トークンミキサーのランキングは、UniNeXtの下でも変化しており、優れた空間トークンミキサーは、最適下限の一般的なアーキテクチャのため、緩和される可能性があることを示唆している。

Vision Transformers have shown great potential in computer vision tasks. Most recent works have focused on elaborating the spatial token mixer for performance gains. However, we observe that a well-designed general architecture can significantly improve the performance of the entire backbone, regardless of which spatial token mixer is equipped. In this paper, we propose UniNeXt, an improved general architecture for the vision backbone. To verify its effectiveness, we instantiate the spatial token mixer with various typical and modern designs, including both convolution and attention modules. Compared with the architecture in which they are first proposed, our UniNeXt architecture can steadily boost the performance of all the spatial token mixers, and narrows the performance gap among them. Surprisingly, our UniNeXt equipped with naive local window attention even outperforms the previous state-of-the-art. Interestingly, the ranking of these spatial token mixers also changes under our UniNeXt, suggesting that an excellent spatial token mixer may be stifled due to a suboptimal general architecture, which further shows the importance of the study on the general architecture of vision backbone.
翻訳日:2023-08-22 00:07:43 公開日:2023-08-17
# 形状, 材料, 照明のニューラルPBIR再構成

Neural-PBIR Reconstruction of Shape, Material, and Illumination ( http://arxiv.org/abs/2304.13445v3 )

ライセンス: Link先を確認
Cheng Sun, Guangyan Cai, Zhengqin Li, Kai Yan, Cheng Zhang, Carl Marshall, Jia-Bin Huang, Shuang Zhao, Zhao Dong(参考訳) 物体の2d画像(例えば写真)に基づく物理世界の物体の形状と空間的に変化する表面の外観の再構築は、コンピュータビジョンやグラフィックスにおいて長年の課題となっている。 本稿では,ニューラルネットワークを用いた物体再構成と物理ベースの逆レンダリング(PBIR)を組み合わせた高精度かつ高効率な物体再構成パイプラインを提案する。 当社のパイプラインではまず,ニューラルsdfベースの形状再構成を活用して,高品質だが潜在的に不完全なオブジェクト形状を生成する。 次に, 神経材料と照明蒸留ステージを導入し, 材料と照明の高品質な予測を実現する。 最終段階では、神経予測によって初期化され、PBIRを用いて初期結果を洗練し、オブジェクト形状、材料、照明の最終的な高品質な再構成を得る。 実験の結果、パイプラインは既存のメソッドよりも品質や性能に優れています。

Reconstructing the shape and spatially varying surface appearances of a physical-world object as well as its surrounding illumination based on 2D images (e.g., photographs) of the object has been a long-standing problem in computer vision and graphics. In this paper, we introduce an accurate and highly efficient object reconstruction pipeline combining neural based object reconstruction and physics-based inverse rendering (PBIR). Our pipeline firstly leverages a neural SDF based shape reconstruction to produce high-quality but potentially imperfect object shape. Then, we introduce a neural material and lighting distillation stage to achieve high-quality predictions for material and illumination. In the last stage, initialized by the neural predictions, we perform PBIR to refine the initial results and obtain the final high-quality reconstruction of object shape, material, and illumination. Experimental results demonstrate our pipeline significantly outperforms existing methods quality-wise and performance-wise.
翻訳日:2023-08-22 00:07:25 公開日:2023-08-17
# 意味ネットワークのトポロジ的性質と組織原理

Topological properties and organizing principles of semantic networks ( http://arxiv.org/abs/2304.12940v2 )

ライセンス: Link先を確認
Gabriel Budel, Ying Jin, Piet Van Mieghem, Maksim Kitsak(参考訳) 自然言語の解釈は、構造化されていないテキストデータの増加により、コンピュータアルゴリズムにおいてますます重要なタスクとなっている。 自然言語処理(NLP)アプリケーションは構造化知識表現のための意味ネットワークに依存している。 意味ネットワークの基本特性はnlpアルゴリズムを設計する際に考慮する必要があるが、構造的に検討されている。 11の異なる言語から7つの意味関係によって定義されるconceptnetから意味ネットワークの性質について検討する。 セマンティック・ネットワークには普遍的な基本的特性があり、疎らで、クラスタ化され、多くは非合法な等級分布を示す。 その結果,ネットワークのほとんどがスケールフリーであることが判明した。 例えば、ラテン語、ドイツ語、フランス語、スペイン語といった高度に屈折した言語からのネットワークは、力の法則から逸脱する程度分布のピークを示す。 意味的関係型と言語によっては、意味的ネットワークにおけるリンク形成は異なる原則によって導かれることが分かる。 一部のネットワークでは接続は類似性に基づくが、他のネットワークでは接続は相補性に基づくものである。 最後に、セマンティックネットワークにおける類似性と相補性に関する知識がリンク推論の欠如においてNLPアルゴリズムをいかに改善するかを示す。

Interpreting natural language is an increasingly important task in computer algorithms due to the growing availability of unstructured textual data. Natural Language Processing (NLP) applications rely on semantic networks for structured knowledge representation. The fundamental properties of semantic networks must be taken into account when designing NLP algorithms, yet they remain to be structurally investigated. We study the properties of semantic networks from ConceptNet, defined by 7 semantic relations from 11 different languages. We find that semantic networks have universal basic properties: they are sparse, highly clustered, and many exhibit power-law degree distributions. Our findings show that the majority of the considered networks are scale-free. Some networks exhibit language-specific properties determined by grammatical rules, for example networks from highly inflected languages, such as e.g. Latin, German, French and Spanish, show peaks in the degree distribution that deviate from a power law. We find that depending on the semantic relation type and the language, the link formation in semantic networks is guided by different principles. In some networks the connections are similarity-based, while in others the connections are more complementarity-based. Finally, we demonstrate how knowledge of similarity and complementarity in semantic networks can improve NLP algorithms in missing link inference.
翻訳日:2023-08-22 00:06:50 公開日:2023-08-17
# ピクセルを超えて:輝度と色予測のための光量調整hdrデータセット

Beyond the Pixel: a Photometrically Calibrated HDR Dataset for Luminance and Color Prediction ( http://arxiv.org/abs/2304.12372v2 )

ライセンス: Link先を確認
Christophe Bolduc, Justine Giroux, Marc H\'ebert, Claude Demers, and Jean-Fran\c{c}ois Lalonde(参考訳) 光は人間の幸福に重要な役割を果たす。 しかし、ほとんどのコンピュータビジョンタスクは物理的輝度との関係を考慮せずにピクセルを扱う。 この欠点に対処するために,高ダイナミックレンジ360{\deg}パノラマの大規模測光データセットであるlaval photometric indoor hdrデータセットを紹介する。 私たちの重要な貢献は、既存のキャリブレーションされていないHDRデータセットの校正です。 プロの測光装置(クロマメータ)と同時に、さまざまな照明条件において、生のブラケット露光を正確に捉えて撮影する。 得られた測定値を用いて,HDR画像に適用するキャリブレーション係数を確立する。 得られたデータセットは、広い範囲の照度と色、様々な種類の光源を表示する、屋内シーンの豊かな表現である。 このデータセットを利用して、画素毎の輝度、ピクセル毎の色、平面上の照度を1つの入力画像から予測できる3つの新しいタスクを導入する。 最後に、商用の360{\deg}カメラで別の小さな測光データセットをキャプチャして、カメラ間の一般化を実験する。 私たちは、データセットと関連するコードのリリースが、コミュニティ内の物理的に正確な光の推定に関心を惹きつけると楽観的です。 データセットとコードはhttps://lvsn.github.io/beyondthepixel/で入手できる。

Light plays an important role in human well-being. However, most computer vision tasks treat pixels without considering their relationship to physical luminance. To address this shortcoming, we introduce the Laval Photometric Indoor HDR Dataset, the first large-scale photometrically calibrated dataset of high dynamic range 360{\deg} panoramas. Our key contribution is the calibration of an existing, uncalibrated HDR Dataset. We do so by accurately capturing RAW bracketed exposures simultaneously with a professional photometric measurement device (chroma meter) for multiple scenes across a variety of lighting conditions. Using the resulting measurements, we establish the calibration coefficients to be applied to the HDR images. The resulting dataset is a rich representation of indoor scenes which displays a wide range of illuminance and color, and varied types of light sources. We exploit the dataset to introduce three novel tasks, where: per-pixel luminance, per-pixel color and planar illuminance can be predicted from a single input image. Finally, we also capture another smaller photometric dataset with a commercial 360{\deg} camera, to experiment on generalization across cameras. We are optimistic that the release of our datasets and associated code will spark interest in physically accurate light estimation within the community. Dataset and code are available at https://lvsn.github.io/beyondthepixel/.
翻訳日:2023-08-22 00:06:30 公開日:2023-08-17
# スラブのサブミリハーツリー誤差を伴う軌道自由関数

Orbital-free functional with sub-milliHartree errors for slabs ( http://arxiv.org/abs/2304.11115v2 )

ライセンス: Link先を確認
Pavel Okun, Antonio C. Cancio, Kieron Burke(参考訳) 漸近解析の原理を用いて、スラブのコーン・シャム電子に対するトーマス・フェルミ運動エネルギー近似を正確に補正する。 この漸近膨張近似は、標準半局所密度汎関数によって欠落する重要な量子振動を含む。 これらは誘導体の不連続を説明するため、化学精度は4次で達成される。 軌道自由電子構造と交換相関近似の両方の影響を論じる。

Using principles of asymptotic analysis, we derive the exact leading correction to the Thomas-Fermi kinetic energy approximation for Kohn-Sham electrons for slabs. This asymptotic expansion approximation includes crucial quantum oscillations missed by standard semilocal density functionals. Because these account for the derivative discontinuity, chemical accuracy is achieved at fourth-order. The implications for both orbital-free electronic structure and exchange-correlation approximations are discussed.
翻訳日:2023-08-22 00:05:54 公開日:2023-08-17
# 一般カテゴリー発見のための半教師付きガウス混合モデルの学習

Learning Semi-supervised Gaussian Mixture Models for Generalized Category Discovery ( http://arxiv.org/abs/2305.06144v2 )

ライセンス: Link先を確認
Bingchen Zhao, Xin Wen, Kai Han(参考訳) 本稿では,ラベル付きデータからの情報を活用しつつ,ラベル付きデータの一部がラベル付きで残りが存在しない画像群に対して,ラベル付きデータがラベル付きデータからのイメージを含む場合,ラベル付きデータ群がラベル付きデータ群とラベル付きデータ群を自動クラスタ化する問題に対処する。 GCDは半教師付き学習(SSL)に似ているが、SSLはラベル付き画像と同じクラスに属すると仮定しているため、より現実的で難しい。 また、未ラベルデータのクラス番号が a-priori であるとは仮定せず、GCD 問題をさらに困難にしている。 クラス番号を知らずにGCDの問題に取り組むために,表現学習とクラス数推定を交互に行うEMライクなフレームワークを提案する。 本稿では,ガウス混合モデル(GMM)の半教師付き変種について,クラスタのコンパクト性と分離性を調べてプロトタイプを動的に決定する確率分割・マージ機構を提案する。 これらのプロトタイプでは,ラベル付きデータの制約を受ける部分ラベル付きデータに対する表現学習に,原型的コントラスト学習を利用する。 我々の枠組みは収束するまでこの2つのステップを交互に行う。 エラーのないインスタンスのクラスタ割り当ては、最も近いプロトタイプを識別することで検索できる。 汎用画像分類データセットと細粒度オブジェクト認識データセットの両方に関する枠組みを網羅的に評価し、最先端の性能を達成する。

In this paper, we address the problem of generalized category discovery (GCD), \ie, given a set of images where part of them are labelled and the rest are not, the task is to automatically cluster the images in the unlabelled data, leveraging the information from the labelled data, while the unlabelled data contain images from the labelled classes and also new ones. GCD is similar to semi-supervised learning (SSL) but is more realistic and challenging, as SSL assumes all the unlabelled images are from the same classes as the labelled ones. We also do not assume the class number in the unlabelled data is known a-priori, making the GCD problem even harder. To tackle the problem of GCD without knowing the class number, we propose an EM-like framework that alternates between representation learning and class number estimation. We propose a semi-supervised variant of the Gaussian Mixture Model (GMM) with a stochastic splitting and merging mechanism to dynamically determine the prototypes by examining the cluster compactness and separability. With these prototypes, we leverage prototypical contrastive learning for representation learning on the partially labelled data subject to the constraints imposed by the labelled data. Our framework alternates between these two steps until convergence. The cluster assignment for an unlabelled instance can then be retrieved by identifying its nearest prototype. We comprehensively evaluate our framework on both generic image classification datasets and challenging fine-grained object recognition datasets, achieving state-of-the-art performance.
翻訳日:2023-08-21 23:58:35 公開日:2023-08-17
# ベル実験と量子基礎について

On the Bell Experiment and Quantum Foundation ( http://arxiv.org/abs/2305.05299v4 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) ベル実験は、量子力学の基礎に対する新しいアプローチとして議論されている。 基本的なモデルから、どんなオブザーバーの心も何らかの方法で制限されなければならないと結論づけられる: ある文脈では、彼は単に意思決定時に十分な変数を心に保持できない。 これはベルの定理の帰結であるが、より広い結果をもたらすようである。

The Bell experiment is discussed in the light of a new approach to the foundation of quantum mechanics. It is concluded from the basic model that the mind of any observer must be limited in some way: In certain contexts, he is simply not able to keep enough variables in his mind when making decisions. This has consequences for Bell's theorem, but it also seems to have wider consequences.
翻訳日:2023-08-21 23:58:09 公開日:2023-08-17
# DietCNN: 量子化されたCNNのための乗算不要推論

DietCNN: Multiplication-free Inference for Quantized CNNs ( http://arxiv.org/abs/2305.05274v2 )

ライセンス: Link先を確認
Swarnava Dey and Pallab Dasgupta and Partha P Chakrabarti(参考訳) マシンインテリジェンスを備えたネットワーク組み込みシステムの需要増加は、組み込みリソース制限デバイスに基づく推論に基づく畳み込みニューラルネットワーク(CNN)を実装する研究コミュニティによる継続的な試みの触媒となっている。 コストのかかる乗算演算を除去してCNNを再設計することは、推論エネルギー使用量の削減という面で既に有望な結果を示している。 本稿では,CNNにおける乗算をテーブルルックアップで置き換える手法を提案する。 CNN操作を完全に変更する既存の方法とは異なり、提案手法は主要なCNN操作のセマンティクスを保存する。 CNNレイヤ操作の既存のメカニズムに適合することにより、標準のCNNの信頼性が維持される。 MNIST-LeNet-5, CIFAR10-VGG-11, Tiny ImageNet-ResNet-18のFPGA実装において, 単一のアクティベーションコードブックをベースとした乗算自由CNNは, それぞれ4.7x, 5.6x, 3.5xのエネルギー削減を実現している。 以上の結果から,dietcnnアプローチは,組込みシステムでよく使用される小型モデルに対する深い推論のリソース消費と遅延を大幅に改善することが示された。 私たちのコードは、https://github.com/swadeykgp/DietCNNで利用可能です。

The rising demand for networked embedded systems with machine intelligence has been a catalyst for sustained attempts by the research community to implement Convolutional Neural Networks (CNN) based inferencing on embedded resource-limited devices. Redesigning a CNN by removing costly multiplication operations has already shown promising results in terms of reducing inference energy usage. This paper proposes a new method for replacing multiplications in a CNN by table look-ups. Unlike existing methods that completely modify the CNN operations, the proposed methodology preserves the semantics of the major CNN operations. Conforming to the existing mechanism of the CNN layer operations ensures that the reliability of a standard CNN is preserved. It is shown that the proposed multiplication-free CNN, based on a single activation codebook, can achieve 4.7x, 5.6x, and 3.5x reduction in energy per inference in an FPGA implementation of MNIST-LeNet-5, CIFAR10-VGG-11, and Tiny ImageNet-ResNet-18 respectively. Our results show that the DietCNN approach significantly improves the resource consumption and latency of deep inference for smaller models, often used in embedded systems. Our code is available at: https://github.com/swadeykgp/DietCNN
翻訳日:2023-08-21 23:57:47 公開日:2023-08-17
# 自己編集:コード生成のためのフォールトアウェアコードエディタ

Self-Edit: Fault-Aware Code Editor for Code Generation ( http://arxiv.org/abs/2305.04087v4 )

ライセンス: Link先を確認
Kechi Zhang, Zhuo Li, Jia Allen Li, Ge Li, Zhi Jin(参考訳) 大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。 しかし、サンプル数が限られているため、LLMは依然として精度が低い。 人間のプログラミングのプロセスにインスパイアされた自己編集手法であるSelf-Editを提案し,LLMから生成されたコードの実行結果を利用して,競合するプログラミングタスクにおけるコード品質を向上させる。 質問に含まれるサンプルテストケースで生成されたコードを実行し、実行結果を補足コメントにラップします。 このコメントをガイダンスとして利用し,フォールトアウェアコードエディタを用いて生成したコードのエラーを訂正する。 我々は、9つの異なるLLMを持つ2つの競合プログラミングデータセットに対して広範な評価を行う。 LLMの直接生成と比較すると、パラメータサイズが110Mから175Bの9つの人気のあるコード生成LLMに対して、APPS-devでは89倍、APPS-testでは31倍、HumanEvalでは48倍の改善が可能である。 本手法は他の後処理法と比較して精度と効率が優れる。

Large language models (LLMs) have demonstrated an impressive ability to generate codes on competitive programming tasks. However, with limited sample numbers, LLMs still suffer from poor accuracy. Inspired by the process of human programming, we propose a generate-and-edit approach named Self-Edit that utilizes execution results of the generated code from LLMs to improve the code quality on the competitive programming task. We execute the generated code on the example test case provided in the question and wrap execution results into a supplementary comment. Utilizing this comment as guidance, our fault-aware code editor is employed to correct errors in the generated code. We perform extensive evaluations across two competitive programming datasets with nine different LLMs. Compared to directly generating from LLMs, our approach can improve the average of pass@1 by 89\% on APPS-dev, 31\% on APPS-test, and 48\% on HumanEval over nine popular code generation LLMs with parameter sizes ranging from 110M to 175B. Compared to other post-processing methods, our method demonstrates superior accuracy and efficiency.
翻訳日:2023-08-21 23:57:24 公開日:2023-08-17
# seqtrack: 視覚オブジェクト追跡のためのシーケンスからシーケンスへの学習

SeqTrack: Sequence to Sequence Learning for Visual Object Tracking ( http://arxiv.org/abs/2304.14394v2 )

ライセンス: Link先を確認
Xin Chen, Houwen Peng, Dong Wang, Huchuan Lu, Han Hu(参考訳) 本稿では,視覚追跡のためのシーケンシャル・ツー・シーケンス学習フレームワークseqtrackを提案する。 視覚追跡をシーケンス生成問題として、自己回帰的な方法でオブジェクトバウンディングボックスを予測する。 従来のシームズトラッカーやトランスフォーマートラッカーとは違い、分類や回帰ヘッドといった複雑なヘッドネットワークの設計に依存している。 seqtrackは単純なエンコーダ-デコーダトランスフォーマアーキテクチャのみを採用している。 エンコーダは双方向変換器で視覚特徴を抽出し、デコーダは因果変換器で自動回帰的に境界ボックス値列を生成する。 損失関数はプレーンなクロスエントロピーである。 このようなシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、ベンチマークで競争力のあるパフォーマンスを実現する。 例えば、SeqTrackはLaSOT上で72.5%のAUCを獲得し、新しい最先端のパフォーマンスを確立している。 コードとモデルはここで入手できる。

In this paper, we present a new sequence-to-sequence learning framework for visual tracking, dubbed SeqTrack. It casts visual tracking as a sequence generation problem, which predicts object bounding boxes in an autoregressive fashion. This is different from prior Siamese trackers and transformer trackers, which rely on designing complicated head networks, such as classification and regression heads. SeqTrack only adopts a simple encoder-decoder transformer architecture. The encoder extracts visual features with a bidirectional transformer, while the decoder generates a sequence of bounding box values autoregressively with a causal transformer. The loss function is a plain cross-entropy. Such a sequence learning paradigm not only simplifies tracking framework, but also achieves competitive performance on benchmarks. For instance, SeqTrack gets 72.5% AUC on LaSOT, establishing a new state-of-the-art performance. Code and models are available at here.
翻訳日:2023-08-21 23:56:34 公開日:2023-08-17
# 増分一般化カテゴリー発見

Incremental Generalized Category Discovery ( http://arxiv.org/abs/2304.14310v2 )

ライセンス: Link先を確認
Bingchen Zhao, Oisin Mac Aodha(参考訳) 本稿では,Incrmental Generalized Category Discovery (IGCD)の問題点を考察する。 これは難解なカテゴリインクリメンタル学習設定であり、これまで見てきたカテゴリから画像を正しく分類できるモデルを開発することを目的としている。 学習は、モデルが新しいラベル付きおよびラベル付きデータを取得し、各イテレーションで古いデータを破棄する一連の時間ステップで実行される。 この問題の難しさは、ラベルのないデータが以前に観測されたかもしれない、あるいはなかったかもしれないカテゴリの画像を含むことができるため、一般化された設定で複合化される。 本稿では,非パラメトリック分類と効率的な画像サンプリングを組み合わせたIGCDの新しい手法を提案する。 性能を定量化するために,実世界の細粒度視覚分類タスクを動機とするinatigcdというベンチマークデータセットを提案する。 私たちの実験では、既存の関連する方法よりも優れています

We explore the problem of Incremental Generalized Category Discovery (IGCD). This is a challenging category incremental learning setting where the goal is to develop models that can correctly categorize images from previously seen categories, in addition to discovering novel ones. Learning is performed over a series of time steps where the model obtains new labeled and unlabeled data, and discards old data, at each iteration. The difficulty of the problem is compounded in our generalized setting as the unlabeled data can contain images from categories that may or may not have been observed before. We present a new method for IGCD which combines non-parametric categorization with efficient image sampling to mitigate catastrophic forgetting. To quantify performance, we propose a new benchmark dataset named iNatIGCD that is motivated by a real-world fine-grained visual categorization task. In our experiments we outperform existing related methods
翻訳日:2023-08-21 23:56:21 公開日:2023-08-17
# 移動型マッピングポイントクラウドのためのpanopticセグメンテーションの検討

A Review of Panoptic Segmentation for Mobile Mapping Point Clouds ( http://arxiv.org/abs/2304.13980v2 )

ライセンス: Link先を確認
Binbin Xiang, Yuanwen Yue, Torben Peters, Konrad Schindler(参考訳) 3dポイントクラウド パンオプティカルセグメンテーションは、結合タスクである (i)各点を意味クラスに割り当て、 (ii)各クラスのポイントをオブジェクトインスタンスに分割する。 近年,深層ニューラルネットワークの出現によるセマンティックセグメンテーションの急速な進歩を基盤として,このような総合的な3Dシーン理解への関心が高まっている。 しかし、今のところ、屋外のモバイル・マッピングデータの単眼セグメンテーションに関する研究はほとんどなく、体系的な比較は行われていない。 本論文はその隙間を塞ごうとする。 汎視的セグメンテーションパイプラインの組み立てに必要なビルディングブロックと関連する文献をレビューする。 さらに、路面マッピングの文脈における汎視的セグメンテーションの状態を評価するために、網羅的で体系的な実験を行うためにモジュールパイプラインを設置する。 副産物として、NPM3Dデータセットをインスタンスラベルを含むように拡張することで、そのタスクのための最初のパブリックデータセットも提供します。 そのデータセットとソースコードは公開されています。 本研究では,現在のパンオプティカルセグメンテーション手法を屋外シーンや大型物体に適応させるために必要な適応について検討する。 モバイルのマッピングデータでは、kpconvのパフォーマンスは最高だが遅い、一方pointnet++は最速だがパフォーマンスは著しく悪い、という研究結果が得られた。 スパースCNNは中間にある。 バックボーンに関係なく、組み込み機能のクラスタリングによるインスタンスセグメンテーションは、シフト座標を使用するよりも優れている。

3D point cloud panoptic segmentation is the combined task to (i) assign each point to a semantic class and (ii) separate the points in each class into object instances. Recently there has been an increased interest in such comprehensive 3D scene understanding, building on the rapid advances of semantic segmentation due to the advent of deep 3D neural networks. Yet, to date there is very little work about panoptic segmentation of outdoor mobile-mapping data, and no systematic comparisons. The present paper tries to close that gap. It reviews the building blocks needed to assemble a panoptic segmentation pipeline and the related literature. Moreover, a modular pipeline is set up to perform comprehensive, systematic experiments to assess the state of panoptic segmentation in the context of street mapping. As a byproduct, we also provide the first public dataset for that task, by extending the NPM3D dataset to include instance labels. That dataset and our source code are publicly available. We discuss which adaptations are need to adapt current panoptic segmentation methods to outdoor scenes and large objects. Our study finds that for mobile mapping data, KPConv performs best but is slower, while PointNet++ is fastest but performs significantly worse. Sparse CNNs are in between. Regardless of the backbone, Instance segmentation by clustering embedding features is better than using shifted coordinates.
翻訳日:2023-08-21 23:56:06 公開日:2023-08-17
# 最適化同型行列乗算によるプライバシー保護PCAの改善

Improved Privacy-Preserving PCA Using Optimized Homomorphic Matrix Multiplication ( http://arxiv.org/abs/2305.17341v4 )

ライセンス: Link先を確認
Xirong Ma(参考訳) 主成分分析(principal component analysis, pca)は、機械学習とデータ分析の分野で広く利用されている重要な技術である。 情報の損失を最小限に抑えながら、データセットの次元性を低減することを目的としている。 近年,セキュアなクラウドコンピューティングシナリオにおいて,プライバシ保護型PCAアルゴリズムの同型暗号化を活用する取り組みが進められている。 これらのアプローチは一般にPowerMethodと呼ばれるPCAルーチンを使用し、共分散行列を入力として、データセットの一次成分に対応する近似固有ベクトルを生成する。 しかし、それらの性能は、効率的な同型共分散行列計算回路とPowerMethodアルゴリズムの正確な同型ベクトル正規化戦略が存在しないことで制約される。 本研究では,これらの制約に対処するプライバシ保存型pcaに対する新しいアプローチを提案する。

Principal Component Analysis (PCA) is a pivotal technique widely utilized in the realms of machine learning and data analysis. It aims to reduce the dimensionality of a dataset while minimizing the loss of information. In recent years, there have been endeavors to utilize homomorphic encryption in privacy-preserving PCA algorithms for the secure cloud computing scenario. These approaches commonly employ a PCA routine known as PowerMethod, which takes the covariance matrix as input and generates an approximate eigenvector corresponding to the primary component of the dataset. However, their performance is constrained by the absence of an efficient homomorphic covariance matrix computation circuit and an accurate homomorphic vector normalization strategy in the PowerMethod algorithm. In this study, we propose a novel approach to privacy-preserving PCA that addresses these limitations, resulting in superior efficiency, accuracy, and scalability compared to previous approaches
翻訳日:2023-08-21 23:48:16 公開日:2023-08-17
# その脆さを思い出す: 言語報酬のシェーピングは学習を阻害する可能性がある

A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents ( http://arxiv.org/abs/2305.16621v2 )

ライセンス: Link先を確認
Sukai Huang, Nir Lipovetzky and Trevor Cohn(参考訳) 複雑な命令に従うようにエージェントに教えることが重要な目標である。 学習効率を高める技術の一つに言語報酬形成(LRS)がある。 強化学習(RL)フレームワークでは、RSは与えられた言語命令と正確に一致した振る舞いを報酬関数でトレーニングする。 LRSの明らかな成功は不安定であり, 前向きの陽性所見はRLの基準値の弱さに起因する可能性がある。 具体的には,部分整合した軌道に報酬を与える準最適lrs設計を同定し,タスク制約の緩和という概念を用いてこの問題を捉えた新しい報酬摂動を特徴付ける。 我々は、RS報酬を用いて訓練されたエージェントが純粋なRLエージェントよりも緩やかに収まるという理論的および実証的な証拠を提供した。 これまでの研究で見過ごされてきた既存のLSS手法の脆さに注目した。

Teaching agents to follow complex written instructions has been an important yet elusive goal. One technique for enhancing learning efficiency is language reward shaping (LRS). Within a reinforcement learning (RL) framework, LRS involves training a reward function that rewards behaviours precisely aligned with given language instructions. We argue that the apparent success of LRS is brittle, and prior positive findings can be attributed to weak RL baselines. Specifically, we identified suboptimal LRS designs that reward partially matched trajectories, and we characterised a novel reward perturbation to capture this issue using the concept of loosening task constraints. We provided theoretical and empirical evidence that agents trained using LRS rewards converge more slowly compared to pure RL agents. Our work highlights the brittleness of existing LRS methods, which has been overlooked in the previous studies.
翻訳日:2023-08-21 23:47:40 公開日:2023-08-17
# 画像ブロック圧縮センシングのためのスポーサリティと係数置換に基づく2領域AMP

Sparsity and Coefficient Permutation Based Two-Domain AMP for Image Block Compressed Sensing ( http://arxiv.org/abs/2305.12986v2 )

ライセンス: Link先を確認
Junhui Li, Xingsong Hou, Huake Wang, Shuhao Bi(参考訳) 画像圧縮センシング(CS)タスクにおいて,LDAMPアルゴリズムが注目されている。 第一に、その大域的測定モデルは高次元画像への適用性を厳しく制限し、ブロックベース測定法は明らかなブロックアーティファクトを示す。第二に、LDAMPのデノイザーは単純すぎるし、既存のデノイザーは詳細回復の能力に制限がある。 本稿では,この問題を克服し,画像ブロック圧縮センシング(BCS)のための高性能LDAMP法を開発するために,ブロックベースサンプリングと2ドメイン再構成モジュールからなる新しいスペーサ性および係数置換型AMP(SCP-AMP)法を提案する。 サンプリングモジュールでは、SCP-AMPは離散コサイン変換(DCT)に基づくスパーシティ戦略を採用し、高い周波数係数が再構成に与える影響を低減し、次いでブロックアーティファクトを避ける係数置換戦略を採用する。 再構成モジュールでは,DCT領域のノイズ補正と画素領域の復調を併用した2領域AMP法を提案する。 本稿では,マルチレベル特徴とマルチアテンション機構を用いてテクスチャの詳細性を高めるためのマルチレベルディープアテンションネットワーク (MDANet) を提案する。 広範な実験により、提案手法は、視覚知覚と客観的指標の両方において、他の最先端bcsアルゴリズムよりも高い再構成精度を達成した。

The learned denoising-based approximate message passing (LDAMP) algorithm has attracted great attention for image compressed sensing (CS) tasks. However, it has two issues: first, its global measurement model severely restricts its applicability to high-dimensional images, and its block-based measurement method exhibits obvious block artifacts; second, the denoiser in the LDAMP is too simple, and existing denoisers have limited ability in detail recovery. In this paper, to overcome the issues and develop a high-performance LDAMP method for image block compressed sensing (BCS), we propose a novel sparsity and coefficient permutation-based AMP (SCP-AMP) method consisting of the block-based sampling and the two-domain reconstruction modules. In the sampling module, SCP-AMP adopts a discrete cosine transform (DCT) based sparsity strategy to reduce the impact of the high-frequency coefficient on the reconstruction, followed by a coefficient permutation strategy to avoid block artifacts. In the reconstruction module, a two-domain AMP method with DCT domain noise correction and pixel domain denoising is proposed for iterative reconstruction. Regarding the denoiser, we proposed a multi-level deep attention network (MDANet) to enhance the texture details by employing multi-level features and multiple attention mechanisms. Extensive experiments demonstrated that the proposed SCP-AMP method achieved better reconstruction accuracy than other state-of-the-art BCS algorithms in terms of both visual perception and objective metrics.
翻訳日:2023-08-21 23:46:00 公開日:2023-08-17
# 画像調和のためのグローバルアウェアカーネルの学習

Learning Global-aware Kernel for Image Harmonization ( http://arxiv.org/abs/2305.11676v2 )

ライセンス: Link先を確認
Xintian Shen, Jiangning Zhang, Jun Chen, Shipeng Bai, Yue Han, Yabiao Wang, Chengjie Wang, Yong Liu(参考訳) 画像調和は、背景を基準として前景画素を適応的に調整することにより、複合画像における視覚不整合問題を解決することを目的としている。 既存の手法では、前景と背景の間の局所的な色変換や領域マッチングが採用されている。 その結果、様々なフォアグラウンドオブジェクトやシーンでパフォーマンスが制限されたままである。 この問題に対処するために,長距離バックグラウンド参照を包括的に考慮した地域調和のための,GKNet(Global-Aware Kernel Network)を提案する。 具体的には、GKNetには2つの部分がある: \ie, harmony kernel prediction と harmony kernel modulation branch である。 前者はLRE(Long-Distance Reference Extractor)とKPB(Kernel Prediction Blocks)を含んでおり、グローバル情報を局所的な特徴と融合させてマルチレベル調和カーネルを予測する。 この目的を達成するために,局所調和のための適切な長距離背景参照を選択するための新しい選択的相関融合(scf)モジュールを提案する。 後者は予測されたカーネルを使用して、前景の地域を局所的およびグローバルな認識で調和させる。 豊富な実験により、最先端の手法である \eg 上で画像調和を行う方法の優位性が示され、最大値が +0.78db $\uparrow$; fmse/mse を 11.5\%$\downarrow$/6.7\%$\downarrow$ で比較した場合、39.53db psnr が得られる。 コードは \href{https://github.com/XintianShen/GKNet}{here} で入手できる。

Image harmonization aims to solve the visual inconsistency problem in composited images by adaptively adjusting the foreground pixels with the background as references. Existing methods employ local color transformation or region matching between foreground and background, which neglects powerful proximity prior and independently distinguishes fore-/back-ground as a whole part for harmonization. As a result, they still show a limited performance across varied foreground objects and scenes. To address this issue, we propose a novel Global-aware Kernel Network (GKNet) to harmonize local regions with comprehensive consideration of long-distance background references. Specifically, GKNet includes two parts, \ie, harmony kernel prediction and harmony kernel modulation branches. The former includes a Long-distance Reference Extractor (LRE) to obtain long-distance context and Kernel Prediction Blocks (KPB) to predict multi-level harmony kernels by fusing global information with local features. To achieve this goal, a novel Selective Correlation Fusion (SCF) module is proposed to better select relevant long-distance background references for local harmonization. The latter employs the predicted kernels to harmonize foreground regions with both local and global awareness. Abundant experiments demonstrate the superiority of our method for image harmonization over state-of-the-art methods, \eg, achieving 39.53dB PSNR that surpasses the best counterpart by +0.78dB $\uparrow$; decreasing fMSE/MSE by 11.5\%$\downarrow$/6.7\%$\downarrow$ compared with the SoTA method. Code will be available at \href{https://github.com/XintianShen/GKNet}{here}.
翻訳日:2023-08-21 23:45:34 公開日:2023-08-17
# Ray-Patch:光電変換器の効率的なクエリ

Ray-Patch: An Efficient Querying for Light Field Transformers ( http://arxiv.org/abs/2305.09566v2 )

ライセンス: Link先を確認
T. Berriel Martins and Javier Civera(参考訳) 本稿では,暗黙の表現をターゲットビューにデコードするトランスフォーマーを効率的にクエリする新しいモデルであるRay-Patchクエリを提案する。 私たちのray-patchデコードでは、計算フットプリントを削減し、前のモデルと比較して推論速度を最大1桁向上させ、世界的な注目を集めることなく、特定のタスクメトリクスを維持できます。 我々の新しいクエリーの重要なアイデアは、ターゲットイメージをパッチのセットに分割し、各パッチのトランスフォーマーをクエリして特徴ベクトルのセットを抽出し、最終的に畳み込み層を使用してターゲットイメージに復号化することです。 実験の結果,Ray-Patchを3つの異なるアーキテクチャで実装し,2つの異なるタスクとデータセットで評価し,提案手法の有効性を実証し,定量化した。

In this paper we propose the Ray-Patch querying, a novel model to efficiently query transformers to decode implicit representations into target views. Our Ray-Patch decoding reduces the computational footprint and increases inference speed up to one order of magnitude compared to previous models, without losing global attention, and hence maintaining specific task metrics. The key idea of our novel querying is to split the target image into a set of patches, then querying the transformer for each patch to extract a set of feature vectors, which are finally decoded into the target image using convolutional layers. Our experimental results, implementing Ray-Patch in 3 different architectures and evaluating it in 2 different tasks and datasets, demonstrate and quantify the effectiveness of our method, specifically a notable boost in rendering speed for the same task metrics.
翻訳日:2023-08-21 23:45:02 公開日:2023-08-17
# 双対過程によるニューラルネットワークへの確率微分方程式の埋め込み

Embedding stochastic differential equations into neural networks via dual processes ( http://arxiv.org/abs/2306.04847v2 )

ライセンス: Link先を確認
Naoki Sugishita and Jun Ohkubo(参考訳) 本稿では,確率微分方程式の予測のためのニューラルネットワーク構築手法を提案する。 提案手法は入力と出力のデータセットを必要としないが、代わりに時間進化方程式から得られる情報、すなわち対応する2重過程をニューラルネットワークの重みと直接比較する。 実演として,Ornstein-Uhlenbeck プロセスと van der Pol システムのためのニューラルネットワークを構築した。 提案手法による学習ネットワークの顕著な特徴は、起点付近の入力の精度である。 したがって、学習したネットワークがトレーニングデータセットに依存しないため、過度に適合する問題を避けることができる。

We propose a new approach to constructing a neural network for predicting expectations of stochastic differential equations. The proposed method does not need data sets of inputs and outputs; instead, the information obtained from the time-evolution equations, i.e., the corresponding dual process, is directly compared with the weights in the neural network. As a demonstration, we construct neural networks for the Ornstein-Uhlenbeck process and the noisy van der Pol system. The remarkable feature of learned networks with the proposed method is the accuracy of inputs near the origin. Hence, it would be possible to avoid the overfitting problem because the learned network does not depend on training data sets.
翻訳日:2023-08-21 23:39:53 公開日:2023-08-17
# 中性イッテルビウム原子の$^1\text{S}_{0}$および$^3\text{P}_{0}$クロック状態の状態依存性ポテンシャル

State-dependent potentials for the $^1\text{S}_{0}$ and $^3\text{P}_{0}$ clock states of neutral ytterbium atoms ( http://arxiv.org/abs/2305.20084v2 )

ライセンス: Link先を確認
Tim O. H\"ohn, Etienne Staub, Guillaume Brochier, Nelson Darkwah Oppong, Monika Aidelsburger(参考訳) 我々は、$^1\text{s}_{0}-^3\text{p}_{0}$クロック遷移における3つの異なる状態(in)依存波長の測定を、$^{174}\text{yb}$原子で行った。 具体的には、$^1\text{s}_{0}-^3\text{p}_{0}$クロック遷移の微分光シフトが消滅する$652.281(21)\,$thz and $542.50205(19)\,$thzと、$^1\text{s}_{0}-^3\text{p}_{0}$の2つのマジック波長と、$^1\text{s}_{0}$ ground状態の偏光性がゼロ交差を示す$54.8325(5)\,$thzの1つのチューンアウト波長を決定する。 2つの新しい魔法の波長は、1次元光学格子のクロック遷移における$^{174}\text{Yb}$原子を分光学的に問うことによって同定される。 地中チューンアウト波長はパラメトリック加熱スキームにより決定される。 単純な経験モデルを用いて、可視スペクトルの広い波長にわたって、地面と励起状態の偏光性を外挿する。

We present measurements of three distinctive state-(in)dependent wavelengths for the $^1\text{S}_{0}-^3\text{P}_{0}$ clock transition in $^{174}\text{Yb}$ atoms. Specifically, we determine two magic wavelengths at $652.281(21)\,$THz and $542.50205(19)\,$THz, where the differential light shift on the $^1\text{S}_{0}-^3\text{P}_{0}$ clock transition vanishes, and one tune-out wavelength at $541.8325(5)\,$THz, where the polarizability of the $^1\text{S}_{0}$ ground state exhibits a zero crossing. The two new magic wavelengths are identified by spectroscopically interrogating cold $^{174}\text{Yb}$ atoms on the clock transition in a one-dimensional optical lattice. The ground-state tune-out wavelength is determined via a parametric heating scheme. With a simple empirical model, we then extrapolate the ground and excited state polarizability over a broad range of wavelengths in the visible spectrum.
翻訳日:2023-08-21 23:37:24 公開日:2023-08-17
# 直接学習に基づくディープスパイクニューラルネットワーク

Direct Learning-Based Deep Spiking Neural Networks: A Review ( http://arxiv.org/abs/2305.19725v4 )

ライセンス: Link先を確認
Yufei Guo, Xuhui Huang, Zhe Ma(参考訳) スパイクニューラルネットワーク(SNN)は、二分スパイク情報伝達機構、豊かな空間的時間的ダイナミクス、イベント駆動特性を備えた有望な脳インスピレーション型計算モデルである。 しかし、その複雑な不連続スパイク機構は、深いSNNの最適化に困難をもたらす。 シュロゲート勾配法は、最適化の難しさを大幅に軽減し、深層SNNを直接訓練する大きな可能性を秘めているため、近年、様々な直接学習に基づく深層SNN作品が提案され、達成されている。 本稿では,これらの直接学習に基づく深層SNN研究を,主に精度向上手法,効率改善方法,時間的ダイナミクス利用方法に分類した包括的調査を行う。 さらに,これらの分類をより細かい粒度に分割し,整理し,導入する。 最後に、今後の研究で直面するであろう課題とトレンドが予想される。

The spiking neural network (SNN), as a promising brain-inspired computational model with binary spike information transmission mechanism, rich spatially-temporal dynamics, and event-driven characteristics, has received extensive attention. However, its intricately discontinuous spike mechanism brings difficulty to the optimization of the deep SNN. Since the surrogate gradient method can greatly mitigate the optimization difficulty and shows great potential in directly training deep SNNs, a variety of direct learning-based deep SNN works have been proposed and achieved satisfying progress in recent years. In this paper, we present a comprehensive survey of these direct learning-based deep SNN works, mainly categorized into accuracy improvement methods, efficiency improvement methods, and temporal dynamics utilization methods. In addition, we also divide these categorizations into finer granularities further to better organize and introduce them. Finally, the challenges and trends that may be faced in future research are prospected.
翻訳日:2023-08-21 23:36:26 公開日:2023-08-17
# mBERTはロマンシュを理解していますか。 単語アライメントを用いた単語埋め込みの評価

Does mBERT understand Romansh? Evaluating word embeddings using word alignment ( http://arxiv.org/abs/2306.08702v3 )

ライセンス: Link先を確認
Eyal Liron Dolev(参考訳) 類似度に基づく単語アライメントモデル(SimAlign と Super-Align )と mBERT と XLM-R の単語埋め込みを,ドイツ語とロマンシュ語の並行文に組み合わせて検証する。 romanshは目に見えない言語なので、ゼロショットの設定を扱う。 mBERT からの埋め込みを用いて、両方のモデルがアライメントエラー率 0.22 に達し、統計モデルである fast_align を上回り、類似性に基づく単語アライメントと同等である。 我々はこれらの結果を,mBERTが意味があり,ロマンシュに適用可能な情報を含んでいるという証拠として解釈する。 性能を評価するため,過去25年間のドイツ語,ロマンシュ語,イタリア語のCanton of Grisonsによるプレスリリースを含む,DERMIT(DE-RM-IT)コーパスを新たに発表した。 コーパスは4,547の並列文書と約10000の文対を言語の組み合わせに含む。 さらに、ドイツ・ルーマニア語のアライメントの金本位制も提示する。 データはhttps://github.com/eyldlv/DERMIT-Corpusで公開されている。

We test similarity-based word alignment models (SimAlign and awesome-align) in combination with word embeddings from mBERT and XLM-R on parallel sentences in German and Romansh. Since Romansh is an unseen language, we are dealing with a zero-shot setting. Using embeddings from mBERT, both models reach an alignment error rate of 0.22, which outperforms fast_align, a statistical model, and is on par with similarity-based word alignment for seen languages. We interpret these results as evidence that mBERT contains information that can be meaningful and applicable to Romansh. To evaluate performance, we also present a new trilingual corpus, which we call the DERMIT (DE-RM-IT) corpus, containing press releases made by the Canton of Grisons in German, Romansh and Italian in the past 25 years. The corpus contains 4 547 parallel documents and approximately 100 000 sentence pairs in each language combination. We additionally present a gold standard for German-Romansh word alignment. The data is available at https://github.com/eyldlv/DERMIT-Corpus.
翻訳日:2023-08-21 23:26:01 公開日:2023-08-17
# 予測:連続画像を用いた予測誘導3次元物体検出

Predict to Detect: Prediction-guided 3D Object Detection using Sequential Images ( http://arxiv.org/abs/2306.08528v2 )

ライセンス: Link先を確認
Sanmin Kim, Youngseok Kim, In-Jae Lee, Dongsuk Kum(参考訳) 最近のカメラベースの3Dオブジェクト検出手法では、複数のフレームが大きな深さ推定誤差を軽減することを期待して、シーケンシャルフレームを導入している。 検出性能の改善にもかかわらず、先行の作業は単純融合法(例えば結合)や静的なシーン(例えば時間ステレオ)に限られており、物体の動きキューの重要性を無視している。 これらのアプローチはシーケンシャルなイメージの可能性を完全に活用せず、限られた性能改善を示す。 この制限に対処するために,予測スキームを検出フレームワークに統合し,運動特徴を明示的に抽出し活用する新しい3Dオブジェクト検出モデルP2D(Predict to Detect)を提案する。 P2Dは、過去のフレームのみを用いて現在のフレーム内のオブジェクト情報を予測し、時間運動の特徴を学習する。 次に,予測対象情報に基づいてバードアイビュー(BEV)特徴を注意深く活用し,正確な3次元物体検出を実現する新しい時間的特徴集約手法を提案する。 実験結果から,P2Dは連続画像ベースラインに比べてmAPとNDSを3.0%,3.7%改善し,予測スキームを組み込むことで検出精度が大幅に向上することが示された。

Recent camera-based 3D object detection methods have introduced sequential frames to improve the detection performance hoping that multiple frames would mitigate the large depth estimation error. Despite improved detection performance, prior works rely on naive fusion methods (e.g., concatenation) or are limited to static scenes (e.g., temporal stereo), neglecting the importance of the motion cue of objects. These approaches do not fully exploit the potential of sequential images and show limited performance improvements. To address this limitation, we propose a novel 3D object detection model, P2D (Predict to Detect), that integrates a prediction scheme into a detection framework to explicitly extract and leverage motion features. P2D predicts object information in the current frame using solely past frames to learn temporal motion features. We then introduce a novel temporal feature aggregation method that attentively exploits Bird's-Eye-View (BEV) features based on predicted object information, resulting in accurate 3D object detection. Experimental results demonstrate that P2D improves mAP and NDS by 3.0% and 3.7% compared to the sequential image-based baseline, illustrating that incorporating a prediction scheme can significantly improve detection accuracy.
翻訳日:2023-08-21 23:25:42 公開日:2023-08-17
# Divide-and-Learnによるソフトウェアパフォーマンスの予測

Predicting Software Performance with Divide-and-Learn ( http://arxiv.org/abs/2306.06651v3 )

ライセンス: Link先を確認
Jingzhi Gong, Tao Chen(参考訳) 高度に構成可能なソフトウェアシステムの性能を予測することは、パフォーマンステストと品質保証の基礎となる。 そのために最近の研究は、ソフトウェアのパフォーマンスをモデル化するために、マシン/ディープ学習に依存している。 しかしながら、重要な課題は、設定の選択肢(機能)とデータサンプルの分布の影響が極めて少ない、構成の状況から受け継がれた疎結合をいかに避けるかである。 本稿では,$DaL$という「分割学習」の概念に基づくアプローチを提案する。 基本的な考え方は、サンプルのスパーシティを扱うために、サンプルを構成ランドスケープから遠くの分割に分割し、それぞれが特徴のスパーシティを扱うための局所モデルとして正規化されたDeep Neural Networkを構築します。 新たに与えられた構成は、最終的な予測のために正しい分割モデルに割り当てられる。 8つの実世界のシステムと5つのトレーニングデータによる実験結果から、DaL$は最先端のアプローチと比較して、40ケース中33ケース(26ケースが大幅に改善されている)において、最高のシステムよりもパフォーマンスが悪く、精度が最大で1.94\times$改善されていることが明らかになった。 実際に$DaL$は、基礎となるローカルモデルとして使用する際の異なるグローバルモデルも大幅に改善し、柔軟性をさらに強化する。 オープンサイエンスを促進するために、この研究のすべてのデータ、コード、補足的な数字は、私たちのリポジトリでアクセスできます。

Predicting the performance of highly configurable software systems is the foundation for performance testing and quality assurance. To that end, recent work has been relying on machine/deep learning to model software performance. However, a crucial yet unaddressed challenge is how to cater for the sparsity inherited from the configuration landscape: the influence of configuration options (features) and the distribution of data samples are highly sparse. In this paper, we propose an approach based on the concept of 'divide-and-learn', dubbed $DaL$. The basic idea is that, to handle sample sparsity, we divide the samples from the configuration landscape into distant divisions, for each of which we build a regularized Deep Neural Network as the local model to deal with the feature sparsity. A newly given configuration would then be assigned to the right model of division for the final prediction. Experiment results from eight real-world systems and five sets of training data reveal that, compared with the state-of-the-art approaches, $DaL$ performs no worse than the best counterpart on 33 out of 40 cases (within which 26 cases are significantly better) with up to $1.94\times$ improvement on accuracy; requires fewer samples to reach the same/better accuracy; and producing acceptable training overhead. Practically, $DaL$ also considerably improves different global models when using them as the underlying local models, which further strengthens its flexibility. To promote open science, all the data, code, and supplementary figures of this work can be accessed at our repository: https://github.com/ideas-labo/DaL.
翻訳日:2023-08-21 23:24:26 公開日:2023-08-17
# iplan:分散マルチエージェント強化学習による異種交通のインテントアウェア計画

iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.06236v2 )

ライセンス: Link先を確認
Xiyang Wu, Rohan Chandra, Tianrui Guan, Amrit Singh Bedi, Dinesh Manocha(参考訳) 密集した均一な交通シナリオで安全かつ効率的に航行することは、近くのドライバーの行動や意図を推測できないため、自動運転車(AV)にとって困難である。 本研究では,高密度および不均一な交通シナリオにおける軌跡と意図予測を備えた分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。 インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。 エージェントの戦略に対する2つの異なるインセンティブをモデル化する:エージェントの運転行動や性格に基づく長期計画に対する行動インセンティブ;エージェントの現在の交通状況に基づく衝突回避のための短期計画に対する即時インセンティブ。 エージェントが相手のインセンティブを推論し、推論した情報を意思決定に組み込む2つのストリーム推論モジュールを設計した。 非協力型ナビゲーションと不均一道路という2つのシミュレーション環境で実験を行う。 ヘテロジニアスハイウェイでは,QMIXやMAPPOなどの集中型MARLベースラインと比較して,本手法は軽度・カオス性交通において4.0%,35.7%,成功率48.1%,カオス性交通において生存時間を80.6%と高い。 また,分散ベースラインippoと比較し,マイルドトラフィックとカオストラフィックでは9.2%,10.3%,成功率25.3%,生存時間13.7%のエピソディック報酬を示した。

Navigating safely and efficiently in dense and heterogeneous traffic scenarios is challenging for autonomous vehicles (AVs) due to their inability to infer the behaviors or intentions of nearby drivers. In this work, we propose a distributed multi-agent reinforcement learning (MARL) algorithm with trajectory and intent prediction in dense and heterogeneous traffic scenarios. Our approach for intent-aware planning, iPLAN, allows agents to infer nearby drivers' intents solely from their local observations. We model two distinct incentives for agents' strategies: Behavioral incentives for agents' long-term planning based on their driving behavior or personality; Instant incentives for agents' short-term planning for collision avoidance based on the current traffic state. We design a two-stream inference module that allows agents to infer their opponents' incentives and incorporate their inferred information into decision-making. We perform experiments on two simulation environments, Non-Cooperative Navigation and Heterogeneous Highway. In Heterogeneous Highway, results show that, compared with centralized MARL baselines such as QMIX and MAPPO, our method yields a 4.0% and 35.7% higher episodic reward in mild and chaotic traffic, with 48.1% higher success rate and 80.6% longer survival time in chaotic traffic. We also compare with a decentralized baseline IPPO and demonstrate a higher episodic reward of 9.2% and 10.3% in mild traffic and chaotic traffic, 25.3% higher success rate, and 13.7% longer survival time.
翻訳日:2023-08-21 23:23:57 公開日:2023-08-17
# 画像認識におけるBuggy Deep Learning Framework変換のためのフォールトローカライゼーション

Fault Localization for Buggy Deep Learning Framework Conversions in Image Recognition ( http://arxiv.org/abs/2306.06157v2 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan(参考訳) ディープニューラルネットワーク(dnn)をデプロイする場合、開発者はモデルをディープラーニングフレームワークから別のもの(tensorflowからpytorchなど)に変換することが多い。 しかし、このプロセスはエラーを起こしやすく、ターゲットモデルの精度に影響を及ぼす可能性がある。 画像認識に広く用いられている3つのDNN(MobileNetV2,ResNet101,InceptionV3)に対して,その影響の程度を明らかにするために,よく知られた4つのディープラーニングフレームワーク(PyTorch,Keras,TensorFlow(TF),TFLite)に変換された差分解析を行い,最大72%のモデルクラッシュと出力ラベルの差異を明らかにした。 このような誤りを軽減するため,本研究では,事前学習された画像認識モデルに着目した,バギー深層学習フレームワーク変換のフォールトローカライズと修復への新しいアプローチを提案する。 我々の手法は4段階の分析から成り立っている。 1)変換ツール、 2)モデルパラメータ。 3)モデルハイパーパラメータ、及び 4)グラフ表現。 さらに,検出された障害の障害修復に関する様々な戦略を提案する。 我々は,Apache TVMディープラーニングコンパイラ上で,InceptionV3のTFからTFLiteへの変換のための予備的なフォールトローカライズ解析を行うことにより,本手法を実装した。 提案手法は,重みの精度誤差を導入し,モデルの精度を低下させる共通DNNコンバータツールの欠陥を検出する。 障害ローカライズ後、私たちは問題を修復し、コンバージョンエラーをゼロにしました。

When deploying Deep Neural Networks (DNNs), developers often convert models from one deep learning framework to another (e.g., TensorFlow to PyTorch). However, this process is error-prone and can impact target model accuracy. To identify the extent of such impact, we perform and briefly present a differential analysis against three DNNs widely used for image recognition (MobileNetV2, ResNet101, and InceptionV3) converted across four well-known deep learning frameworks (PyTorch, Keras, TensorFlow (TF), and TFLite), which revealed numerous model crashes and output label discrepancies of up to 72%. To mitigate such errors, we present a novel approach towards fault localization and repair of buggy deep learning framework conversions, focusing on pre-trained image recognition models. Our technique consists of four stages of analysis: 1) conversion tools, 2) model parameters, 3) model hyperparameters, and 4) graph representation. In addition, we propose various strategies towards fault repair of the faults detected. We implement our technique on top of the Apache TVM deep learning compiler, and we test it by conducting a preliminary fault localization analysis for the conversion of InceptionV3 from TF to TFLite. Our approach detected a fault in a common DNN converter tool, which introduced precision errors in weights, reducing model accuracy. After our fault localization, we repaired the issue, reducing our conversion error to zero.
翻訳日:2023-08-21 23:23:29 公開日:2023-08-17
# DetZero: 長期点雲を用いたオフボード3次元物体検出の再検討

DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds ( http://arxiv.org/abs/2306.06023v2 )

ライセンス: Link先を確認
Tao Ma, Xuemeng Yang, Hongbin Zhou, Xin Li, Botian Shi, Junjie Liu, Yuchen Yang, Zhizheng Liu, Liang He, Yu Qiao, Yikang Li, Hongsheng Li(参考訳) 既存のオフボード3D検出器は、無限の逐次点雲を利用するために常にモジュラーパイプライン設計に従っている。 オフボード型3d検出器のポテンシャルは,(1)オンボード型マルチオブジェクトトラッカが十分な完全な対象軌道を生成することができないこと,(2)オブジェクトの動作状態が,長期の時間的文脈表現を活用する上で,オブジェクト中心の精錬段階において必然的な課題となること,の2つの理由から検討されていないことが判明した。 そこで本研究では,オフボード3次元物体検出の新しいパラダイムであるdetzeroを提案する。 具体的には,マルチフレーム検出器と結合したオフライントラッカを提案し,生成した対象トラックの完全性に着目した。 長期連続点雲間のコンテキスト情報相互作用を強化するために,分解回帰法を用いて物体精製を行う。 waymo open datasetの広範な実験により、detzeroは最先端の3d検出手法を全て上回っています。 特に、DetZeroは85.15 mAPH (L2)検出性能を持つWaymo 3Dオブジェクト検出リーダーボードで1位である。 さらなる実験は、このような高品質な結果によって、人間のラベルに取って代わることの応用性を検証する。 私たちの経験的研究は、オフボード3D物体検出の今後の研究をガイドする、慣習の再考や興味深い発見につながります。

Existing offboard 3D detectors always follow a modular pipeline design to take advantage of unlimited sequential point clouds. We have found that the full potential of offboard 3D detectors is not explored mainly due to two reasons: (1) the onboard multi-object tracker cannot generate sufficient complete object trajectories, and (2) the motion state of objects poses an inevitable challenge for the object-centric refining stage in leveraging the long-term temporal context representation. To tackle these problems, we propose a novel paradigm of offboard 3D object detection, named DetZero. Concretely, an offline tracker coupled with a multi-frame detector is proposed to focus on the completeness of generated object tracks. An attention-mechanism refining module is proposed to strengthen contextual information interaction across long-term sequential point clouds for object refining with decomposed regression methods. Extensive experiments on Waymo Open Dataset show our DetZero outperforms all state-of-the-art onboard and offboard 3D detection methods. Notably, DetZero ranks 1st place on Waymo 3D object detection leaderboard with 85.15 mAPH (L2) detection performance. Further experiments validate the application of taking the place of human labels with such high-quality results. Our empirical study leads to rethinking conventions and interesting findings that can guide future research on offboard 3D object detection.
翻訳日:2023-08-21 23:22:56 公開日:2023-08-17
# 時系列分類におけるロバストな説明枠組み

Robust Framework for Explanation Evaluation in Time Series Classification ( http://arxiv.org/abs/2306.05501v2 )

ライセンス: Link先を確認
Thu Trang Nguyen, Thach Le Nguyen, and Georgiana Ifrim(参考訳) 時系列分類は、人間の活動認識、スポーツ分析、一般医療といった分野における一般的なデータタイプを扱うタスクである。 本稿では時系列分類のための説明手法を定量的に評価・ランク付けするための枠組みを提供する。 時系列の説明手法に対する近年の関心は、様々な説明手法を提供してきた。 しかし、その説明が特定の問題について意見が一致しない場合、どちらを使うべきかは不明のままである。 正しい答えを見つけるために複数の説明を比較することは自明ではない。 2つの重要な課題は、与えられた説明方法(例えば、分類タスクの関連性)の定量的かつ堅牢な評価方法と、説明手法を並べて比較する方法である。 本稿では,時系列分類のための複数の相性に基づく説明の定量化と比較を行う,堅牢なモデル非依存的説明評価フレームワークAMEEを提案する。 データ摂動は、唾液マップでガイドされた入力時系列に追加される。 分類精度に対する摂動の影響を測定し,説明評価に利用した。 その結果,時系列の判別部を乱すと分類精度が大きく変化することがわかった。 異なるタイプの摂動と異なる種類の分類器にロバストにするために、摂動と分類器にまたがる精度の損失を集約する。 これにより、異なる説明方法の客観的な定量化とランク付けが可能になる。 合成データセットの定量的および定性的な分析、さまざまな時系列データセット、および既知の専門家基盤真理を持つ実世界のデータセットを提供する。

Time series classification is a task which deals with a prevalent data type in domains such as human activity recognition, sports analytics and general healthcare. This paper provides a framework to quantitatively evaluate and rank explanation methods for time series classification. The recent interest in explanation methods for time series has provided a great variety of explanation techniques. Nevertheless, when the explanations disagree on a specific problem, it remains unclear which of them to use. Comparing multiple explanations to find the right answer is non-trivial. Two key challenges remain: how to quantitatively and robustly evaluate the informativeness of a given explanation method (i.e., relevance for the classification task), and how to compare explanation methods side-by-side. We propose AMEE, a robust Model-Agnostic Explanation Evaluation framework for quantifying and comparing multiple saliency-based explanations for time series classification. Data perturbation is added to the input time series guided by the saliency maps. The impact of perturbation on classification accuracy is measured and used for explanation evaluation. The results show that perturbing discriminative parts of the time series leads to significant changes in classification accuracy. To be robust to different types of perturbations and different types of classifiers, we aggregate the accuracy loss across perturbations and classifiers. This allows us to objectively quantify and rank different explanation methods. We provide a quantitative and qualitative analysis for synthetic datasets, a variety of time-series datasets, as well as a real-world dataset with known expert ground truth.
翻訳日:2023-08-21 23:22:09 公開日:2023-08-17
# 同時ポンプビームと結晶ドメイン工学によるパラメトリックダウンコンバージョンにおける単一光子の純度向上

Enhancing the purity of single photons in parametric down-conversion through simultaneous pump-beam and crystal-domain engineering ( http://arxiv.org/abs/2306.15569v2 )

ライセンス: Link先を確認
Baghdasar Baghdasaryan, Fabian Steinlechner, Stephan Fritzsche(参考訳) 自然パラメトリックダウンコンバージョン(SPDC)は、純粋で識別不能な単一光子の生成において大きな可能性を示している。 バルク結晶で生成される光子対は、横空間と周波数で高い相関を持つ。 これらの相関は光子の識別不可能性を制限し、非効率な光子源をもたらす。 ガウス非線形応答を持つ領域工学結晶はスペクトル相関を最小化するために研究されている。 本稿では,このような領域工学が生成光子の空間的相関に与える影響について検討する。 ガウス非線形応答を持つ結晶は光子間の空間相関を減少させる。 しかし、ガウスの非線形応答は空間相関を完全に排除するには十分ではない。 したがって、これらの相関を最小化する包括的手法の開発は、依然としてオープンな課題である。 この問題に対する我々の解決策は、ポンプビームと結晶の同時エンジニアリングである。 単一光子状態の純度は,空間フィルタを使わずに99 \%まで向上する。 本研究は, 構造化SPDC結晶の空間波形に関する貴重な知見を提供し, ボソンサンプリングなどの応用に寄与する。

Spontaneous parametric down-conversion (SPDC) has shown great promise in the generation of pure and indistinguishable single photons. Photon pairs produced in bulk crystals are highly correlated in terms of transverse space and frequency. These correlations limit the indistinguishability of photons and result in inefficient photon sources. Domain-engineered crystals with a Gaussian nonlinear response have been explored to minimize spectral correlations. Here, we study the impact of such domain engineering on spatial correlations of generated photons. We show that crystals with a Gaussian nonlinear response reduce the spatial correlations between photons. However, the Gaussian nonlinear response is not sufficient to fully eliminate the spatial correlations. Therefore, the development of a comprehensive method to minimize these correlations remains an open challenge. Our solution to this problem involves simultaneous engineering of the pump beam and crystal. We achieve purity of single-photon state up to 99 \% without any spatial filtering. Our findings provide valuable insights into the spatial waveform generated in structured SPDC crystals, with implications for applications such as boson Sampling.
翻訳日:2023-08-21 23:16:26 公開日:2023-08-17
# 複数の視覚ポリティクス指導型強化学習によるNFT画像拡散の学習

Learning Profitable NFT Image Diffusions via Multiple Visual-Policy Guided Reinforcement Learning ( http://arxiv.org/abs/2306.11731v2 )

ライセンス: Link先を確認
Huiguo He, Tianfu Wang, Huan Yang, Jianlong Fu, Nicholas Jing Yuan, Jian Yin, Hongyang Chao, Qi Zhang(参考訳) ユーザ入力テキストからNFT(Non-Fungible Token)画像を生成するタスクについて検討する。 近年の拡散モデルの発展は画像生成に大きな可能性を示している。 しかし、既存の作品は、主に不足のため、視覚的に供給され、高収益のNFT画像を生成するのに不足する可能性がある。 1)NFT画像のための多彩できめ細かな視覚特性プロンプト、及び 2)高品質なNFT画像を生成するための効果的な最適化指標。 これらの課題を解決するために,NFT画像に対する報酬(Diffusion-MVP)として,複数ビジュアルポリシーを用いた拡散生成フレームワークを提案する。 提案するフレームワークは,大規模言語モデル (LLM) と拡散型画像生成装置,および設計による視覚的報酬からなる。 まず、LLMは「忍者スタイルと緑の背景を持つパンダ」のような特定の視覚特性を含むより包括的なNTTスタイルのプロンプトを生成することで、基本的な人間の入力(パンダなど)を強化する。 第2に、拡散に基づく画像生成装置は、大規模なNFTデータセットを用いて微調整され、一般的なNFT要素の微細な画像スタイルとアクセサリー構成をキャプチャする。 第3に,視覚的照度レベル,視覚的美的スコア,CLIPに基づくテキスト画像関連性など,複数の視覚政治を最適化目標として活用することを提案する。 この設計により、提案したDiffusion-MVPは、高い視覚的品質と市場価値でNFT画像をマイニングできる。 この研究を容易にするために、我々は150万の高品質画像と対応するテキストと市場価値からなる、これまでで最大のnftイメージデータセットを収集した。 客観的評価やユーザスタディを含む大規模な実験により、我々のフレームワークは、SOTAアプローチと比較して、より視覚的に魅力的な要素と高い市場価値を示すNFT画像を生成することができることを示した。

We study the task of generating profitable Non-Fungible Token (NFT) images from user-input texts. Recent advances in diffusion models have shown great potential for image generation. However, existing works can fall short in generating visually-pleasing and highly-profitable NFT images, mainly due to the lack of 1) plentiful and fine-grained visual attribute prompts for an NFT image, and 2) effective optimization metrics for generating high-quality NFT images. To solve these challenges, we propose a Diffusion-based generation framework with Multiple Visual-Policies as rewards (i.e., Diffusion-MVP) for NFT images. The proposed framework consists of a large language model (LLM), a diffusion-based image generator, and a series of visual rewards by design. First, the LLM enhances a basic human input (such as "panda") by generating more comprehensive NFT-style prompts that include specific visual attributes, such as "panda with Ninja style and green background." Second, the diffusion-based image generator is fine-tuned using a large-scale NFT dataset to capture fine-grained image styles and accessory compositions of popular NFT elements. Third, we further propose to utilize multiple visual-policies as optimization goals, including visual rarity levels, visual aesthetic scores, and CLIP-based text-image relevances. This design ensures that our proposed Diffusion-MVP is capable of minting NFT images with high visual quality and market value. To facilitate this research, we have collected the largest publicly available NFT image dataset to date, consisting of 1.5 million high-quality images with corresponding texts and market values. Extensive experiments including objective evaluations and user studies demonstrate that our framework can generate NFT images showing more visually engaging elements and higher market value, compared with SOTA approaches.
翻訳日:2023-08-21 23:14:20 公開日:2023-08-17
# ウィリアムソンの定理におけるシンプレクティック行列のブロック摂動

Block perturbation of symplectic matrices in Williamson's theorem ( http://arxiv.org/abs/2307.01078v2 )

ライセンス: Link先を確認
Gajendra Babu and Hemant K. Mishra(参考訳) ウィリアムソンの定理は、任意の 2n \times 2n$ 実正定値行列 $a$ に対して、$s^tas=d \oplus d$ となるような 2n \times 2n$ 実シンプレクティック行列 $s$ が存在し、ここで$d$ は$n\times n$ 対角行列であり、これは$a$ のシンプレクティック固有値として知られている。 H$ を任意の 2n \times 2n$ 実対称行列とし、摂動行列 $A+H$ もまた正定値である。 本稿では、ウィリアムソンの定理における任意のシンプレクティック行列 $\tilde{s}$ が $\tilde{s}=s q+\mathcal{o}(\|h\|)$ の形であることを示し、ここで、$q$ は直交行列と同様に 2n \times 2n$ 実シンプレクティックである。 さらに、$q$ は$\textit{symplectic block diagonal}$ で、ブロックサイズは$a$ のシンプレクティック固有値の倍数で与えられる。 したがって、$\tilde{S}$ と $S$ は $\|\tilde{S}-S\|=\mathcal{O}(\|H\|)$ となるように選択できる。 a$ が繰り返しシンプレクティック固有値を持つ場合でも、結果は成り立つ。 これは idel, gaona, wolf [$\textit{linear algebra appl] によって与えられる非簡約シンプレクティック固有値に対するシンプレクティック行列の安定性結果を一般化する。 , 525:45-58, 2017}$].

Williamson's theorem states that for any $2n \times 2n$ real positive definite matrix $A$, there exists a $2n \times 2n$ real symplectic matrix $S$ such that $S^TAS=D \oplus D$, where $D$ is an $n\times n$ diagonal matrix with positive diagonal entries which are known as the symplectic eigenvalues of $A$. Let $H$ be any $2n \times 2n$ real symmetric matrix such that the perturbed matrix $A+H$ is also positive definite. In this paper, we show that any symplectic matrix $\tilde{S}$ diagonalizing $A+H$ in Williamson's theorem is of the form $\tilde{S}=S Q+\mathcal{O}(\|H\|)$, where $Q$ is a $2n \times 2n$ real symplectic as well as orthogonal matrix. Moreover, $Q$ is in $\textit{symplectic block diagonal}$ form with the block sizes given by twice the multiplicities of the symplectic eigenvalues of $A$. Consequently, we show that $\tilde{S}$ and $S$ can be chosen so that $\|\tilde{S}-S\|=\mathcal{O}(\|H\|)$. Our results hold even if $A$ has repeated symplectic eigenvalues. This generalizes the stability result of symplectic matrices for non-repeated symplectic eigenvalues given by Idel, Gaona, and Wolf [$\textit{Linear Algebra Appl., 525:45-58, 2017}$].
翻訳日:2023-08-21 23:03:47 公開日:2023-08-17
# RepViT: ViTの視点からモバイルCNNを再考

RepViT: Revisiting Mobile CNN From ViT Perspective ( http://arxiv.org/abs/2307.09283v4 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Zijia Lin, Hengjun Pu, Guiguang Ding(参考訳) 近年、軽量視覚トランスフォーマ(vits)は、リソース制約のあるモバイルデバイスでの軽量畳み込みニューラルネットワーク(cnns)と比較して優れた性能と低レイテンシを示している。 この改善は通常、モデルがグローバル表現を学習できるようにするマルチヘッド自己保持モジュールによるものである。 しかし,軽量VTと軽量CNNのアーキテクチャ格差は十分に検討されていない。 本研究では,軽量CNNの効率的な設計を再考し,モバイルデバイスにおけるその可能性を強調する。 我々は、軽量VTの効率的なアーキテクチャ選択を統合することで、標準軽量CNN、特にMobileNetV3のモバイルフレンドリ性を徐々に強化する。 最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。 大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。 ImageNetでは、RepViTは80\%以上のトップ1の精度を達成し、iPhone 12では1ms近いレイテンシを実現しています。 我々の最大のモデルであるRepViT-M3は、1.3msのレイテンシで81.4\%の精度を得る。 コードとトレーニングされたモデルは \url{https://github.com/jameslahm/repvit} で入手できる。

Recently, lightweight Vision Transformers (ViTs) demonstrate superior performance and lower latency compared with lightweight Convolutional Neural Networks (CNNs) on resource-constrained mobile devices. This improvement is usually attributed to the multi-head self-attention module, which enables the model to learn global representations. However, the architectural disparities between lightweight ViTs and lightweight CNNs have not been adequately examined. In this study, we revisit the efficient design of lightweight CNNs and emphasize their potential for mobile devices. We incrementally enhance the mobile-friendliness of a standard lightweight CNN, specifically MobileNetV3, by integrating the efficient architectural choices of lightweight ViTs. This ends up with a new family of pure lightweight CNNs, namely RepViT. Extensive experiments show that RepViT outperforms existing state-of-the-art lightweight ViTs and exhibits favorable latency in various vision tasks. On ImageNet, RepViT achieves over 80\% top-1 accuracy with nearly 1ms latency on an iPhone 12, which is the first time for a lightweight model, to the best of our knowledge. Our largest model, RepViT-M3, obtains 81.4\% accuracy with only 1.3ms latency. The code and trained models are available at \url{https://github.com/jameslahm/RepViT}.
翻訳日:2023-08-21 22:56:26 公開日:2023-08-17
# gastrovision: 消化器疾患検出のためのマルチクラス内視鏡画像データセット

GastroVision: A Multi-class Endoscopy Image Dataset for Computer Aided Gastrointestinal Disease Detection ( http://arxiv.org/abs/2307.08140v2 )

ライセンス: Link先を確認
Debesh Jha, Vanshali Sharma, Neethi Dasu, Nikhil Kumar Tomar, Steven Hicks, M.K. Bhuyan, Pradip K. Das, Michael A. Riegler, P{\aa}l Halvorsen, Ulas Bagci, Thomas de Lange(参考訳) 臨床実践におけるリアルタイム人工知能(AI)システムの統合は、スケーラビリティや受け入れといった課題に直面している。 これらの課題には、データ可用性、偏りのある結果、データ品質、透明性の欠如、異なるディストリビューションからの見えないデータセットの低パフォーマンスなどが含まれる。 大規模で正確にラベル付けされた多様なデータセットの不足は、臨床統合の大きな課題である。 この不足は、臨床医の正確な注釈に必要な法的制限と広範な手作業によるものである。 これらの課題に対処するため,多施設の腹腔鏡検査データセットであるtextit{GastroVision} を提出し,解剖学的所見,病理学的異常,ポリープ除去症例,正常所見(合計27クラス)について検討した。 データセットはノルウェーのB{\ae}rum病院とスウェーデンのカロリンスカ大学病院から8000枚の画像からなり、経験豊富なGI内科医によって注釈され、検証された。 さらに,一般的なディープラーニングベースラインモデルに基づく広範なベンチマークを用いて,データセットの意義を検証する。 我々のデータセットは、GI病の検出と分類のためのAIベースのアルゴリズムの開発を促進することができると信じている。 データセットは \url{https://osf.io/84e7f/} で利用可能です。

Integrating real-time artificial intelligence (AI) systems in clinical practices faces challenges such as scalability and acceptance. These challenges include data availability, biased outcomes, data quality, lack of transparency, and underperformance on unseen datasets from different distributions. The scarcity of large-scale, precisely labeled, and diverse datasets are the major challenge for clinical integration. This scarcity is also due to the legal restrictions and extensive manual efforts required for accurate annotations from clinicians. To address these challenges, we present \textit{GastroVision}, a multi-center open-access gastrointestinal (GI) endoscopy dataset that includes different anatomical landmarks, pathological abnormalities, polyp removal cases and normal findings (a total of 27 classes) from the GI tract. The dataset comprises 8,000 images acquired from B{\ae}rum Hospital in Norway and Karolinska University Hospital in Sweden and was annotated and verified by experienced GI endoscopists. Furthermore, we validate the significance of our dataset with extensive benchmarking based on the popular deep learning based baseline models. We believe our dataset can facilitate the development of AI-based algorithms for GI disease detection and classification. Our dataset is available at \url{https://osf.io/84e7f/}.
翻訳日:2023-08-21 22:54:15 公開日:2023-08-17
# ネットワークにおける促進・抑制効果:負の確率モデル

Promotion/Inhibition Effects in Networks: A Model with Negative Probabilities ( http://arxiv.org/abs/2307.07738v2 )

ライセンス: Link先を確認
Anqi Dong, Tryphon T. Georgiou and Allen Tannenbaum(参考訳) 生物学的ネットワークは、しばしばグラフの符号付きエッジウェイトとして促進/抑制をカプセル化する。 ノードは、それぞれのタンパク質の発現レベル(質量)に割り当てられた遺伝子に対応できる。 ノード間の共表現の促進/抑制性は、符号不定の隣接行列の対応するエントリの符号に符号化されるが、そのような共表現の強さ(すなわち、エッジ重みの正確な値)は直接測定できない。 本稿では,ノードにおける符号不定の隣接度と表現レベルに基づいて,ネットワークエッジウェイトを決定する逆問題に対処する。 我々のモチベーションは遺伝子ネットワークに端を発するが、このフレームワークは、ノードに静止質量分布を規定するネットワークに適用される。 適切なエッジウェイトを特定するために, p が提唱する ‘負確率’' の枠組みを採用する。 r と dirac である。 ファインマン(fynman)、そして私たちは、要求されたエッジウェイトの値を得るための可能性形式を設定しました。 提案する最適化問題は、よく知られたシンクホーンアルゴリズムの一般化によって解くことができ、我々の設定では、シンクホーン型 ‘diagonal scalings''' は乗法または逆乗法であり、隣接行列の各エントリの符号に依存し、値が二次多項式の正の根として計算される。

Biological networks often encapsulate promotion/inhibition as signed edge-weights of a graph. Nodes may correspond to genes assigned expression levels (mass) of respective proteins. The promotion/inhibition nature of co-expression between nodes is encoded in the sign of the corresponding entry of a sign-indefinite adjacency matrix, though the strength of such co-expression (i.e., the precise value of edge weights) cannot typically be directly measured. Herein we address the inverse problem to determine network edge-weights based on a sign-indefinite adjacency and expression levels at the nodes. While our motivation originates in gene networks, the framework applies to networks where promotion/inhibition dictates a stationary mass distribution at the nodes. In order to identify suitable edge-weights we adopt a framework of ``negative probabilities,'' advocated by P.\ Dirac and R.\ Feynman, and we set up a likelihood formalism to obtain values for the sought edge-weights. The proposed optimization problem can be solved via a generalization of the well-known Sinkhorn algorithm; in our setting the Sinkhorn-type ``diagonal scalings'' are multiplicative or inverse-multiplicative, depending on the sign of the respective entries in the adjacency matrix, with value computed as the positive root of a quadratic polynomial.
翻訳日:2023-08-21 22:53:56 公開日:2023-08-17
# ホーキング放射のエントロピーのゆらぎ

Fluctuations in the Entropy of Hawking Radiation ( http://arxiv.org/abs/2307.13920v2 )

ライセンス: Link先を確認
Raphael Bousso, Masamichi Miyaji(参考訳) 我々は、Penington \emph{et al} が導入した二次元モデルを用いて、ページ曲線の周りのホーキング放射エントロピーのゆらぎを計算するために重力経路積分(GPI)を用いる。 ページタイムの前には、$\delta s = e^{-s}/\sqrt{2}$ が発見され、ここで$s$ はブラックホールエントロピーである。 この結果は二成分系におけるhaar平均エントロピーゆらぎと一致し、これも先行順序で計算する。 ページ時間後、$\delta S \sim e^{-S}$は、マイクロカノニカルエネルギーウィンドウの幅に対数的に依存するプレファクターになる。 これはサブシステムのサイズの交換では対称ではないので、固定ヒルベルト空間次元のサブシステムに対するハール平均とは一致しない。 この差は、ブラックホールヒルベルト空間次元が状態準備によって固定されないという事実に起因し得る: トップハットのスミア機能を持つマイクロカノニカルアンサンブルにおいても、GPIはブラックホール状態の数に付加的な変動をもたらす。 この結果と、GPIによって計算されたページ曲線が滑らかであるという事実は、すべてGPIのアンサンブル解釈に向かっている。

We use the gravitational path integral (GPI) to compute the fluctuations of the Hawking radiation entropy around the Page curve, in a two-dimensional model introduced by Penington \emph{et al}. Before the Page time, we find that $\delta S = e^{-S}/\sqrt{2}$, where $S$ is the black hole entropy. This result agrees with the Haar-averaged entropy fluctuations of a bipartite system, which we also compute at leading order. After the Page time, we find that $\delta S \sim e^{-S}$, up to a prefactor that depends logarithmically on the width of the microcanonical energy window. This is not symmetric under exchange of subsystem sizes and so does not agree with the Haar average for a subsystem of fixed Hilbert space dimension. The discrepancy can be attributed to the fact that the black hole Hilbert space dimension is not fixed by the state preparation: even in a microcanonical ensemble with a top-hat smearing function, the GPI yields an additive fluctuation in the number of black hole states. This result, and the fact that the Page curve computed by the GPI is smooth, all point towards an ensemble interpretation of the GPI.
翻訳日:2023-08-21 22:45:52 公開日:2023-08-17
# PlaneRecTR: 単一視点からの3次元平面復元のための統一クエリ学習

PlaneRecTR: Unified Query Learning for 3D Plane Recovery from a Single View ( http://arxiv.org/abs/2307.13756v2 )

ライセンス: Link先を確認
Jingjia Shi, Shuaifeng Zhi, Kai Xu(参考訳) 単一画像からの3次元平面復元は通常、平面検出、セグメンテーション、パラメータ推定、そしておそらく深さ推定のいくつかのサブタスクに分けられる。 これまでの作業では、RCNNベースのセグメンテーションネットワークを拡張するか、あるいは高密度ピクセル埋め込みベースのクラスタリングフレームワークを拡張することで、この問題を解決する傾向にあった。 しかし、それらのいずれも、上記のサブタスクを統一されたフレームワークに統合しようとはしていませんが、それらを別々に、そして順次処理します。 この発見と、セマンティックエンティティ間の推論を充実させるためのクエリベースの学習の成功により、トランスフォーマーベースのアーキテクチャであるPlaneRecTRを提案し、単一のコンパクトモデルで単一のビュープレーンリカバリに関連するすべてのサブタスクを初めて統一する。 大規模な定量的および定性的な実験により、提案した統合学習がサブタスク間の相互利益を達成し、パブリックScanNetとNYUv2-Planeデータセット上で新しい最先端のパフォーマンスを得ることを示した。 コードはhttps://github.com/SJingjia/PlaneRecTRで入手できる。

3D plane recovery from a single image can usually be divided into several subtasks of plane detection, segmentation, parameter estimation and possibly depth estimation. Previous works tend to solve this task by either extending the RCNN-based segmentation network or the dense pixel embedding-based clustering framework. However, none of them tried to integrate above related subtasks into a unified framework but treat them separately and sequentially, which we suspect is potentially a main source of performance limitation for existing approaches. Motivated by this finding and the success of query-based learning in enriching reasoning among semantic entities, in this paper, we propose PlaneRecTR, a Transformer-based architecture, which for the first time unifies all subtasks related to single-view plane recovery with a single compact model. Extensive quantitative and qualitative experiments demonstrate that our proposed unified learning achieves mutual benefits across subtasks, obtaining a new state-of-the-art performance on public ScanNet and NYUv2-Plane datasets. Codes are available at https://github.com/SJingjia/PlaneRecTR.
翻訳日:2023-08-21 22:45:28 公開日:2023-08-17
# キーポイントを用いた弱教師付き3次元ポーズ転送

Weakly-supervised 3D Pose Transfer with Keypoints ( http://arxiv.org/abs/2307.13459v2 )

ライセンス: Link先を確認
Jinnan Chen, Chen Li, Gim Hee Lee(参考訳) 3Dポーズ転送の主な課題は次のとおりである。 1) 異なる文字が同一のポーズをとるペアトレーニングデータの欠如 2) 対象メッシュからポーズ及び形状情報を分離すること。 3) トポロジの異なるメッシュへの適用の難しさ。 そこで本研究では,これらの課題を克服するためのキーポイントベースフレームワークを提案する。 具体的には、逆キネマティクスを用いた位相非依存キーポイント検出器を用いて、ソースとターゲットメッシュ間の変換を計算する。 提案手法では,キーポイントの監視のみを要し,異なるトポロジを持つメッシュに適用可能であり,形状情報を転送することなく,ターゲットメッシュからポーズのみの情報抽出が可能な形状不変である。 さらに,対象と同一のポーズと形状の接地真理変形メッシュを必要とせず,自己監督型ポーズ転送を行うサイクル再構築を設計する。 ベンチマークによる人間と動物のデータセットのアプローチを評価し、最先端の教師なしのアプローチと比べて優れたパフォーマンスを達成し、完全に教師なしのアプローチと同等のパフォーマンスさえも達成します。 より困難なmixamoデータセット上でテストを行い、異なるトポロジーと複雑な服を持つメッシュを扱うアプローチの能力を検証する。 クロスデータセット評価はさらに、我々のアプローチの強力な一般化能力を示している。

The main challenges of 3D pose transfer are: 1) Lack of paired training data with different characters performing the same pose; 2) Disentangling pose and shape information from the target mesh; 3) Difficulty in applying to meshes with different topologies. We thus propose a novel weakly-supervised keypoint-based framework to overcome these difficulties. Specifically, we use a topology-agnostic keypoint detector with inverse kinematics to compute transformations between the source and target meshes. Our method only requires supervision on the keypoints, can be applied to meshes with different topologies and is shape-invariant for the target which allows extraction of pose-only information from the target meshes without transferring shape information. We further design a cycle reconstruction to perform self-supervised pose transfer without the need for ground truth deformed mesh with the same pose and shape as the target and source, respectively. We evaluate our approach on benchmark human and animal datasets, where we achieve superior performance compared to the state-of-the-art unsupervised approaches and even comparable performance with the fully supervised approaches. We test on the more challenging Mixamo dataset to verify our approach's ability in handling meshes with different topologies and complex clothes. Cross-dataset evaluation further shows the strong generalization ability of our approach.
翻訳日:2023-08-21 22:45:06 公開日:2023-08-17
# アベリア集団行動の量子マネー

Quantum Money from Abelian Group Actions ( http://arxiv.org/abs/2307.12120v2 )

ライセンス: Link先を確認
Mark Zhandry(参考訳) 我々は、公鍵量子マネーの構築と、アーベル群作用から量子雷と呼ばれる強化版も与え、楕円曲線上の適切な等質性から構築することができる。 本稿では,グループ行動の一般群モデルにおけるセキュリティの検証を行い,このモデルにおける量子セキュリティを証明する汎用ツールキットを開発した。 その過程で、量子設定における知識仮定と代数群作用を探求し、一般的な群作用と比較してこれらの仮定/モデルに重大な制限を見いだす。

We give a construction of public key quantum money, and even a strengthened version called quantum lightning, from abelian group actions, which can in turn be constructed from suitable isogenies over elliptic curves. We prove security in the generic group model for group actions under a plausible computational assumption, and develop a general toolkit for proving quantum security in this model. Along the way, we explore knowledge assumptions and algebraic group actions in the quantum setting, finding significant limitations of these assumptions/models compared to generic group actions.
翻訳日:2023-08-21 22:44:48 公開日:2023-08-17
# matspectnet: domain-aware と physical-constrained hyperspectral reconstruction を用いた材料セグメンテーションネットワーク

MatSpectNet: Material Segmentation Network with Domain-Aware and Physically-Constrained Hyperspectral Reconstruction ( http://arxiv.org/abs/2307.11466v4 )

ライセンス: Link先を確認
Yuwen Heng, Yihong Wu, Jiawen Chen, Srinandan Dasmahapatra, Hansung Kim(参考訳) 3チャンネルのrgb画像の正確な材質分割を達成することは、材料の外観にかなりのばらつきがあるため困難である。 複数の波長でサンプリングされたスペクトルのセットである超スペクトル画像は、表面から反射される電磁波の強度の変動がシーンの材料組成に依存するため、理論的に物質識別のための異なる情報を提供する。 しかし, 既存のハイパースペクトルデータセットは, 高密度材料分割作業における画像や材料カテゴリの数が不足しているため, スペクトルカメラによるハイパースペクトル画像の収集・注釈は極めて高価である。 そこで我々は,RGB画像から高スペクトル像を復元した材料を分割する新しいモデルであるMatSpectNetを提案する。 ネットワークは、再構成されたハイパースペクトル画像を制限するために、現代のカメラにおける色知覚の原理を活用し、スペクトル回復データセットから材料セグメンテーションデータセットへのハイパースペクトル再構成機能を一般化するドメイン適応法を採用している。 再構成されたハイパースペクトル画像は、さらに学習応答曲線を用いてフィルタされ、人間の知覚により強化される。 MatSpectNetのパフォーマンスは、LMDデータセットとOpenSurfacesデータセットで評価される。 実験の結果,matspectnetは平均画素精度が1.60%向上し,平均クラス精度が3.42%向上した。 プロジェクトコードは補足資料に添付され、githubで公開される予定だ。

Achieving accurate material segmentation for 3-channel RGB images is challenging due to the considerable variation in a material's appearance. Hyperspectral images, which are sets of spectral measurements sampled at multiple wavelengths, theoretically offer distinct information for material identification, as variations in intensity of electromagnetic radiation reflected by a surface depend on the material composition of a scene. However, existing hyperspectral datasets are impoverished regarding the number of images and material categories for the dense material segmentation task, and collecting and annotating hyperspectral images with a spectral camera is prohibitively expensive. To address this, we propose a new model, the MatSpectNet to segment materials with recovered hyperspectral images from RGB images. The network leverages the principles of colour perception in modern cameras to constrain the reconstructed hyperspectral images and employs the domain adaptation method to generalise the hyperspectral reconstruction capability from a spectral recovery dataset to material segmentation datasets. The reconstructed hyperspectral images are further filtered using learned response curves and enhanced with human perception. The performance of MatSpectNet is evaluated on the LMD dataset as well as the OpenSurfaces dataset. Our experiments demonstrate that MatSpectNet attains a 1.60% increase in average pixel accuracy and a 3.42% improvement in mean class accuracy compared with the most recent publication. The project code is attached to the supplementary material and will be published on GitHub.
翻訳日:2023-08-21 22:44:25 公開日:2023-08-17
# FaceCLIPNeRF:変形性ニューラルネットワークを用いたテキスト駆動型3次元顔マニピュレーション

FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields ( http://arxiv.org/abs/2307.11418v3 )

ライセンス: Link先を確認
Sungwon Hwang, Junha Hyung, Daejin Kim, Min-Jung Kim, Jaegul Choo(参考訳) 近年のNeural Radiance Fields(NeRF)の進歩により、高忠実度3次元顔再構成と新しいビュー合成が可能になったため、その操作は3次元視覚において必須の課題となった。 しかし,既存の操作手法では,ユーザが提供するセマンティックマスクや手動属性検索など,高度な人的労力を必要とする。 我々のアプローチは、NeRFで再構成された顔を操作するために単一のテキストを必要とするように設計されている。 そこで,我々はまず動的シーン上で,潜在コード条件変形可能なnerfであるシーンマニピュレータを訓練し,潜在コードを用いて顔変形を制御する。 しかし、1つの潜在コードでシーン変形を表現することは、異なるインスタンスで観測される局所変形を合成するのに不利である。 そこで,提案する位置条件アンカーコンポジタ(pac)は,空間的に変化する潜在コードを用いて操作されたシーンを表現することを学習する。 シーンマニピュレータによるレンダリングは、テキスト駆動操作のためのCLIP埋め込み空間のターゲットテキストと高いコサイン類似性を得るために最適化される。 我々の知る限りでは、NeRFで再構築された顔のテキスト駆動操作に最初に取り組むアプローチである。 大規模な結果,比較,アブレーション研究は,我々のアプローチの有効性を示すものである。

As recent advances in Neural Radiance Fields (NeRF) have enabled high-fidelity 3D face reconstruction and novel view synthesis, its manipulation also became an essential task in 3D vision. However, existing manipulation methods require extensive human labor, such as a user-provided semantic mask and manual attribute search unsuitable for non-expert users. Instead, our approach is designed to require a single text to manipulate a face reconstructed with NeRF. To do so, we first train a scene manipulator, a latent code-conditional deformable NeRF, over a dynamic scene to control a face deformation using the latent code. However, representing a scene deformation with a single latent code is unfavorable for compositing local deformations observed in different instances. As so, our proposed Position-conditional Anchor Compositor (PAC) learns to represent a manipulated scene with spatially varying latent codes. Their renderings with the scene manipulator are then optimized to yield high cosine similarity to a target text in CLIP embedding space for text-driven manipulation. To the best of our knowledge, our approach is the first to address the text-driven manipulation of a face reconstructed with NeRF. Extensive results, comparisons, and ablation studies demonstrate the effectiveness of our approach.
翻訳日:2023-08-21 22:43:59 公開日:2023-08-17
# 視覚トランスフォーマーの学習しきい値トークンのマージとプルーニング

Learned Thresholds Token Merging and Pruning for Vision Transformers ( http://arxiv.org/abs/2307.10780v2 )

ライセンス: Link先を確認
Maxim Bonnaerens, Joni Dambre(参考訳) ビジョントランスフォーマーは、過去数年間、幅広いコンピュータビジョンタスクで顕著な成功を収めてきた。 しかし、それらの高い計算コストは、実際の展開にとって重要な障壁である。 特に、トランスフォーマーモデルの複雑さは、入力トークンの数に関して二次的である。 そのため、処理が必要な入力トークンの数を減らす技術が提案されている。 本稿では,トークンマージとトークンプルーニングの両方の長所を活用する新しいアプローチであるLTMP(Learned Thresholds token Merging and Pruning)を紹介する。 LTMPは学習しきい値マスキングモジュールを使用して、マージするトークンとプルーするトークンを動的に決定する。 我々は、ImageNet分類タスクにおいて、視覚変換器に関する広範な実験を行った。 以上の結果から,LTMPは従来の手法よりも桁違いに高速な1つの微調整エポックしか必要とせず,縮小速度をまたいで最先端の精度を達成できることが示唆された。 コードはhttps://github.com/Mxbonn/ltmpで入手できる。

Vision transformers have demonstrated remarkable success in a wide range of computer vision tasks over the last years. However, their high computational costs remain a significant barrier to their practical deployment. In particular, the complexity of transformer models is quadratic with respect to the number of input tokens. Therefore techniques that reduce the number of input tokens that need to be processed have been proposed. This paper introduces Learned Thresholds token Merging and Pruning (LTMP), a novel approach that leverages the strengths of both token merging and token pruning. LTMP uses learned threshold masking modules that dynamically determine which tokens to merge and which to prune. We demonstrate our approach with extensive experiments on vision transformers on the ImageNet classification task. Our results demonstrate that LTMP achieves state-of-the-art accuracy across reduction rates while requiring only a single fine-tuning epoch, which is an order of magnitude faster than previous methods. Code is available at https://github.com/Mxbonn/ltmp .
翻訳日:2023-08-21 22:43:35 公開日:2023-08-17
# 離散スライスしたワッサースタイン損失の特性

Properties of Discrete Sliced Wasserstein Losses ( http://arxiv.org/abs/2307.10352v2 )

ライセンス: Link先を確認
Eloi Tanguy, R\'emi Flamary and Julie Delon(参考訳) Sliced Wasserstein (SW) 距離は、確率測度を比較するために、Wasserstein 距離の代替として人気がある。 分散確率測度間の損失関数として働くswを最小化するために、いくつかのパラメータを最適化するのが一般的である。 これらの最適化問題はすべて、スライスされたワッサーシュタインエネルギーを最小化する同じサブプロブレムを持つ。 本稿では、$\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, すなわち、サポート $Y \in \mathbb{R}^{n \times d} の関数として同じ量の点を持つ2つの一様離散測度の間のSW距離について検討する。 このエネルギーの正則性と最適化特性、およびモンテカルロ近似$\mathcal{E}_p$($p$サンプルのみを用いてSWの期待を見積もる)について検討し、$\mathcal{E}_p$の臨界点と$\mathcal{E}_p$の臨界点に対する収束結果、およびほぼ一様収束を示す。 最後に、ある意味では、Stochastic Gradient Descent method minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge to (Clarke) critical points of these energy。

The Sliced Wasserstein (SW) distance has become a popular alternative to the Wasserstein distance for comparing probability measures. Widespread applications include image processing, domain adaptation and generative modelling, where it is common to optimise some parameters in order to minimise SW, which serves as a loss function between discrete probability measures (since measures admitting densities are numerically unattainable). All these optimisation problems bear the same sub-problem, which is minimising the Sliced Wasserstein energy. In this paper we study the properties of $\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, i.e. the SW distance between two uniform discrete measures with the same amount of points as a function of the support $Y \in \mathbb{R}^{n \times d}$ of one of the measures. We investigate the regularity and optimisation properties of this energy, as well as its Monte-Carlo approximation $\mathcal{E}_p$ (estimating the expectation in SW using only $p$ samples) and show convergence results on the critical points of $\mathcal{E}_p$ to those of $\mathcal{E}$, as well as an almost-sure uniform convergence. Finally, we show that in a certain sense, Stochastic Gradient Descent methods minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge towards (Clarke) critical points of these energies.
翻訳日:2023-08-21 22:43:18 公開日:2023-08-17
# MetaGPT: マルチエージェント協調フレームワークのためのメタプログラミング

MetaGPT: Meta Programming for Multi-Agent Collaborative Framework ( http://arxiv.org/abs/2308.00352v4 )

ライセンス: Link先を確認
Sirui Hong, Xiawu Zheng, Jonathan Chen, Yuheng Cheng, Jinlin Wang, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu(参考訳) 近年,大規模言語モデル(llm)によるマルチエージェントによるタスク自動解決において顕著な進歩がみられている。 しかしながら、既存のllmベースのマルチエージェントは主に単純な対話タスクの解決に焦点を当てており、llm幻覚問題を中心に複雑なタスクが研究されることはほとんどない。 この種の幻覚は、複数のインテリジェントエージェントをナイーブに連鎖させるとカスケードになり、複雑な問題に効果的に対処できない。 そこで我々はメタプログラミングアプローチとしての効率的なヒューマンワークフローをllmベースのマルチエージェントコラボレーションに組み込む革新的なフレームワークであるmetagptを紹介する。 具体的には、MetaGPTは、Standardized Operating Procedures (SOP) を構造化調整を強化するプロンプトにエンコードする。 その後、モジュール出力を委任し、人間のプロフェッショナルに匹敵するドメイン専門のエージェントを権限付け、アウトプットの検証と複合エラーの最小化を行う。 このようにメタgptは、様々なエージェントに多様な役割を割り当てるためにアセンブリラインパラダイムを利用して、複雑なマルチエージェント協調問題を効果的にかつ凝集的に分解するフレームワークを構築します。 協調ソフトウェア工学ベンチマーク実験により,MetaGPTは既存のチャットベースのマルチエージェントシステムと比較して,一貫性と正解性が向上することを示した。 これは、人間のドメイン知識をマルチエージェントシステムに統合し、複雑な現実世界の課題に取り組む新しい機会を生み出す可能性を強調している。 このプロジェクトのGitHubリポジトリは、https://github.com/geekan/MetaGPTで公開されている。

Recently, remarkable progress has been made in automated task-solving through the use of multi-agent driven by large language models (LLMs). However, existing LLM-based multi-agent works primarily focus on solving simple dialogue tasks, and complex tasks are rarely studied, mainly due to the LLM hallucination problem. This type of hallucination becomes cascading when naively chaining multiple intelligent agents, resulting in a failure to effectively address complex problems. Therefore, we introduce MetaGPT, an innovative framework that incorporates efficient human workflows as a meta programming approach into LLM-based multi-agent collaboration. Specifically, MetaGPT encodes Standardized Operating Procedures (SOPs) into prompts to enhance structured coordination. Subsequently, it mandates modular outputs, empowering agents with domain expertise comparable to human professionals, to validate outputs and minimize compounded errors. In this way, MetaGPT leverages the assembly line paradigm to assign diverse roles to various agents, thereby establishing a framework that can effectively and cohesively deconstruct complex multi-agent collaborative problems. Our experiments on collaborative software engineering benchmarks demonstrate that MetaGPT generates more coherent and correct solutions compared to existing chat-based multi-agent systems. This highlights the potential of integrating human domain knowledge into multi-agent systems, thereby creating new opportunities to tackle complex real-world challenges. The GitHub repository of this project is publicly available on:https://github.com/geekan/MetaGPT.
翻訳日:2023-08-21 22:37:49 公開日:2023-08-17
# 一般低光原音合成とモデリングに向けて

Towards General Low-Light Raw Noise Synthesis and Modeling ( http://arxiv.org/abs/2307.16508v2 )

ライセンス: Link先を確認
Feng Zhang, Bin Xu, Zhiqiang Li, Xinran Liu, Qingbo Lu, Changxin Gao, Nong Sang(参考訳) 低照度生雑音のモデリングと合成は、計算写真や画像処理アプリケーションにとって基本的な問題である。 近年の研究では、ノイズを合成するための物理モデルが採用されているが、低光環境における信号非依存ノイズは、より複雑で、カメラセンサーによって劇的に変化する。 この問題に対処するために,信号非依存ノイズを生成モデルで合成する新しい視点を提案する。 具体的には,信号依存ノイズと信号非依存ノイズを物理系と学習系でそれぞれ合成する。 このようにして、本手法は、様々なISOレベルの異なるノイズ特性を同時に学習し、様々なセンサに一般化できる一般モデルとみなすことができる。 次に,雑音分布を正確に識別する有効なマルチスケール判別器であるフーリエ変圧器判別器(ftd)を提案する。 さらに、トレーニングとベンチマークのための新しい低照度生騒音(LRD)データセットを収集する。 定性検証により,提案した雑音モデルから発生する雑音は分布の点で実雑音と非常によく似ていることが示された。 さらに,本手法は各種センサの最先端手法に対して良好に作用することを示した。

Modeling and synthesizing low-light raw noise is a fundamental problem for computational photography and image processing applications. Although most recent works have adopted physics-based models to synthesize noise, the signal-independent noise in low-light conditions is far more complicated and varies dramatically across camera sensors, which is beyond the description of these models. To address this issue, we introduce a new perspective to synthesize the signal-independent noise by a generative model. Specifically, we synthesize the signal-dependent and signal-independent noise in a physics- and learning-based manner, respectively. In this way, our method can be considered as a general model, that is, it can simultaneously learn different noise characteristics for different ISO levels and generalize to various sensors. Subsequently, we present an effective multi-scale discriminator termed Fourier transformer discriminator (FTD) to distinguish the noise distribution accurately. Additionally, we collect a new low-light raw denoising (LRD) dataset for training and benchmarking. Qualitative validation shows that the noise generated by our proposed noise model can be highly similar to the real noise in terms of distribution. Furthermore, extensive denoising experiments demonstrate that our method performs favorably against state-of-the-art methods on different sensors.
翻訳日:2023-08-21 22:35:39 公開日:2023-08-17
# JOTR: Occluded Human Meshリカバリのための変換器を用いた3次元コントラスト学習

JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human Mesh Recovery ( http://arxiv.org/abs/2307.16377v2 )

ライセンス: Link先を確認
Jiahao Li, Zongxin Yang, Xiaohan Wang, Jianxin Ma, Chang Zhou, Yi Yang(参考訳) 本研究では,不明瞭な条件下での単一画像からの3次元メッシュ復元の問題に着目した。 ほとんどの最先端手法は、空間平均化や2次元関節サンプリングのような2次元アライメント技術の改善を目的としている。 しかし、3D表現を改善することで、3Dアライメントの重要な側面を無視する傾向がある。 さらに,最近の手法では,3次元協調座標を局所的監督として対象者の3次元空間を最適化するため,混み合った場面で対象者を咬合や背景から切り離すのに苦労している。 これらの課題に対処するためには、2Dと3Dの機能を融合するためのフレームワークと、世界規模で3D空間を最適化するための戦略が望ましい方法である。 そこで本研究では,非閉塞型3次元メッシュ回復のためのTRansformers (JOTR) フレームワークを用いた3次元ジョイントコントラスト学習を提案する。 提案手法は,2D$\&$3Dの整合性を実現するために2Dおよび3D表現を融合するエンコーダ・デコーダ・トランスフォーマアーキテクチャと,3D特徴空間に対して明示的にグローバルな監視を加えるための新しい3D共同コントラスト学習手法を含む。 対照的な学習アプローチには、意味的に類似したボクセル(人間の関節)の類似性を高めるジョイント・ツー・ジョイントコントラストと、他者との差別を保証するジョイント・トゥ・ジョイントコントラスト(例えば、オクルージョンと背景)の2つの対照的な損失が含まれる。 定性的および定量的分析により,本手法は咬合特異的および標準ベンチマークにおいて,最先端の競争相手よりも優れ,閉塞したヒトの再建を著しく改善することが示された。

In this study, we focus on the problem of 3D human mesh recovery from a single image under obscured conditions. Most state-of-the-art methods aim to improve 2D alignment technologies, such as spatial averaging and 2D joint sampling. However, they tend to neglect the crucial aspect of 3D alignment by improving 3D representations. Furthermore, recent methods struggle to separate the target human from occlusion or background in crowded scenes as they optimize the 3D space of target human with 3D joint coordinates as local supervision. To address these issues, a desirable method would involve a framework for fusing 2D and 3D features and a strategy for optimizing the 3D space globally. Therefore, this paper presents 3D JOint contrastive learning with TRansformers (JOTR) framework for handling occluded 3D human mesh recovery. Our method includes an encoder-decoder transformer architecture to fuse 2D and 3D representations for achieving 2D$\&$3D aligned results in a coarse-to-fine manner and a novel 3D joint contrastive learning approach for adding explicitly global supervision for the 3D feature space. The contrastive learning approach includes two contrastive losses: joint-to-joint contrast for enhancing the similarity of semantically similar voxels (i.e., human joints), and joint-to-non-joint contrast for ensuring discrimination from others (e.g., occlusions and background). Qualitative and quantitative analyses demonstrate that our method outperforms state-of-the-art competitors on both occlusion-specific and standard benchmarks, significantly improving the reconstruction of occluded humans.
翻訳日:2023-08-21 22:35:20 公開日:2023-08-17
# 散逸による非エルミタン破砕

Non-Hermitian tearing by dissipation ( http://arxiv.org/abs/2307.14340v2 )

ライセンス: Link先を確認
Qian Du, Xin-Ran Ma, and Su-Peng Kou(参考訳) 本稿では,非エルミート系を散逸下で研究し,エネルギーバンドが虚線ギャップを示し,エネルギー固有状態が特定の領域に結合することを示す。 これらの現象を説明するために、我々が定義する断裂性は例外的な点において連続的な相転移を示す「非エルミート破断」の概念を提案する。 非エルミート的分解は、バルク状態分離と境界状態分離の2つの形態で表される。 非エルミート断裂のより深い理解のために、実空間におけるN*Nハミルトニアンを減少させることにより、k-空間において有効2*2ハミルトニアンを与える。 さらに,一次元Su-Schrieffer-HeegerモデルとQi-Wu-Zhangモデルにおける非エルミート断裂についても検討する。 この結果は、より複雑なシステムにおける非エルミート断裂の研究に理論的アプローチを提供する。

In the paper, we study the non-Hermitian system under dissipation, where the energy band shows an imaginary line gap and energy eigenstates are bound to a specific region. To describe these phenomena, we propose the concept of "non-Hermitian tearing" in which the tearability we define reveals a continuous phase transition at the exceptional point. The non-Hermitian tearing manifests in two forms -- bulk state separation and boundary state decoupling. For a deeper understanding of non-Hermitian tearing, we give the effective 2*2 Hamiltonian in the k-space by reducing the N*N Hamiltonian in the real space. In addition, we also explore the non-Hermitian tearing in the one-dimensional Su-Schrieffer-Heeger model and the Qi-Wu-Zhang model. Our results provide a theoretical approach for studying non-Hermitian tearing in more complex systems.
翻訳日:2023-08-21 22:34:45 公開日:2023-08-17
# GrammarGPT: 改良されたファインチューニングによる中国語文法誤り訂正のためのオープンソースのLLM探索

GrammarGPT: Exploring Open-Source LLMs for Native Chinese Grammatical Error Correction with Supervised Fine-Tuning ( http://arxiv.org/abs/2307.13923v2 )

ライセンス: Link先を確認
Yaxin Fan, Feng Jiang, Peifeng Li, and Haizhou Li(参考訳) 文法的誤り訂正は、非文法的文章を自動的に修正することを目的としている。 近年、文法的誤り訂正において、クローズドソースの大規模言語モデル(llm、例えばchatgpt)の優れた能力が実証されている。 しかし、オープンソース LLM の可能性はまだ明らかにされていない。 本稿では,オープンソースのLLMであるGrammarGPTを導入し,中国語の文法的誤り訂正の可能性について検討した。 GrammarGPTの核となるレシピは、ChatGPT生成と人間アノテーションのハイブリッドデータセットを活用することである。 手がかり付き文法的誤りに対しては,ChatGPTを誘導して非文法的文を生成するヒューリスティック手法を提案する。 手がかりのない文法的誤りに対しては,公開ウェブサイトから非文法的文章を収集し,手作業で修正した。 さらに,中国語の文法的誤りを訂正するモデルの能力を高めるために,誤り不変拡張法を採用した。 最終的に約1kの並列データを構築し,これらのデータを用いて,香港大学深セン校がリリースしたPhoenixなどのオープンソースのLCMを微調整した。 実験の結果,GrammarGPTは既存のSOTAシステムよりも優れていた。 モデルパラメータはSOTAベースラインより20倍大きいが、命令チューニングに必要なデータ量は1200倍小さく、ネイティブCGEC上でのオープンソースLCMの可能性を示している。 我々のGrammarGPTは、NLPCC2023 SharedTask1に$3^{rd}をランク付けし、我々のアプローチの有効性を示している。 コードとデータは \url{https://github.com/freedomintelligence/grammargpt} で入手できる。

Grammatical error correction aims to correct ungrammatical sentences automatically. Recently, some work has demonstrated the excellent capabilities of closed-source Large Language Models (LLMs, e.g., ChatGPT) in grammatical error correction. However, the potential of open-source LLMs remains unexplored. In this paper, we introduced GrammarGPT, an open-source LLM, to preliminary explore its potential for native Chinese grammatical error correction. The core recipe of GrammarGPT is to leverage the hybrid dataset of ChatGPT-generated and human-annotated. For grammatical errors with clues, we proposed a heuristic method to guide ChatGPT to generate ungrammatical sentences by providing those clues. For grammatical errors without clues, we collected ungrammatical sentences from publicly available websites and manually corrected them. In addition, we employed an error-invariant augmentation method to enhance the ability of the model to correct native Chinese grammatical errors. We ultimately constructed about 1k parallel data and utilized these data to fine-tune open-source LLMs (e.g., Phoenix, released by The Chinese University of Hong Kong, Shenzhen) with instruction tuning. The experimental results show that GrammarGPT outperforms the existing SOTA system significantly. Although model parameters are 20x larger than the SOTA baseline, the required amount of data for instruction tuning is 1200x smaller, illustrating the potential of open-source LLMs on native CGEC. Our GrammarGPT ranks $3^{rd}$ on NLPCC2023 SharedTask1, demonstrating our approach's effectiveness. The code and data are available at \url{https://github.com/FreedomIntelligence/GrammarGPT}.
翻訳日:2023-08-21 22:33:59 公開日:2023-08-17
# attention-free spikformer:単純な線形変換によるスパイク列の混合

Attention-free Spikformer: Mixing Spike Sequences with Simple Linear Transforms ( http://arxiv.org/abs/2308.02557v2 )

ライセンス: Link先を確認
Qingyu Wang, Duzhen Zhang, Tielin Zhang, Bo Xu(参考訳) Spikformerは、自己注意能力とスパイキングニューラルネットワーク(SNN)の生物学的特性を統合することで、SNNの設計にトランスフォーマーアーキテクチャを応用した。 Spiking Self-Attention(SSA)モジュールを導入し、スパイクフォームクエリ、キー、バリューを使用してスパースなビジュアル機能をミックスすることで、以前のSNNライクなフレームワークと比較して、多数のデータセット上でのState-Of-The-Art(SOTA)パフォーマンスを実現する。 本稿では、SSAをフーリエ変換やウェーブレット変換のような非パラメータ化線形変換(LT)に置き換えることで、Spikformerアーキテクチャを高速化できることを実証する。 これらの変換はスパイク列の混合に利用され、二次時間複雑性を対数線形時間複雑性に還元する。 周波数と時間領域を交互に組み合わせて、疎い視覚的特徴を抽出し、強力な性能と効率を示す。 我々はニューロモルフィックと静的両方のデータセットを用いた画像分類実験を行った。 その結果、SOTA Spikformer と SSA と比較すると、LT の Spikformer はニューロモルフィックデータセット (CIFAR10-DVS と DVS128 Gesture) の Top-1 の精度が高く、静的データセット (CIFAR-10 と CIFAR-100) の Top-1 の精度に匹敵することがわかった。 さらに、LTのSpikformerはトレーニング速度を29~51%改善し、推論速度を61~70%改善し、学習可能なパラメータを必要としないためメモリ使用量を4~26%削減する。

By integrating the self-attention capability and the biological properties of Spiking Neural Networks (SNNs), Spikformer applies the flourishing Transformer architecture to SNNs design. It introduces a Spiking Self-Attention (SSA) module to mix sparse visual features using spike-form Query, Key, and Value, resulting in the State-Of-The-Art (SOTA) performance on numerous datasets compared to previous SNN-like frameworks. In this paper, we demonstrate that the Spikformer architecture can be accelerated by replacing the SSA with an unparameterized Linear Transform (LT) such as Fourier and Wavelet transforms. These transforms are utilized to mix spike sequences, reducing the quadratic time complexity to log-linear time complexity. They alternate between the frequency and time domains to extract sparse visual features, showcasing powerful performance and efficiency. We conduct extensive experiments on image classification using both neuromorphic and static datasets. The results indicate that compared to the SOTA Spikformer with SSA, Spikformer with LT achieves higher Top-1 accuracy on neuromorphic datasets (i.e., CIFAR10-DVS and DVS128 Gesture) and comparable Top-1 accuracy on static datasets (i.e., CIFAR-10 and CIFAR-100). Furthermore, Spikformer with LT achieves approximately 29-51% improvement in training speed, 61-70% improvement in inference speed, and reduces memory usage by 4-26% due to not requiring learnable parameters.
翻訳日:2023-08-21 22:25:03 公開日:2023-08-17
# 量子ゲートの論理量子ビットスケールへの最適化

Optimizing quantum gates towards the scale of logical qubits ( http://arxiv.org/abs/2308.02321v2 )

ライセンス: Link先を確認
Paul V. Klimov, Andreas Bengtsson, Chris Quintana, Alexandre Bourassa, Sabrina Hong, Andrew Dunsworth, Kevin J. Satzinger, William P. Livingston, Volodymyr Sivak, Murphy Y. Niu, Trond I. Andersen, Yaxing Zhang, Desmond Chik, Zijun Chen, Charles Neill, Catherine Erickson, Alejandro Grajales Dau, Anthony Megrant, Pedram Roushan, Alexander N. Korotkov, Julian Kelly, Vadim Smelyanskiy, Yu Chen, Hartmut Neven(参考訳) 量子誤差補正理論の基本的な仮定は、フォールトトレランスの誤りを克服することなく、量子ゲートを大きなプロセッサにスケールできるということである。 基本的な障害となる可能性のある2つの大きな課題は、高性能量子ハードウェアの製造と、その性能限界に達する制御システムの構築である。 性能を劣化させることなく小型から大規模プロセッサに量子ゲートをスケールするという制御課題は、指数関数的に拡張された構成空間上での非凸、高制約、時間依存的な制御最適化にマップされることが多い。 本稿では,このような問題の複雑さを克服する制御最適化戦略について報告する。 本研究では、68個の周波数可変超伝導量子ビットの周波数軌跡を振り返り、計算誤差を軽減しつつシングルおよびツーキュービットゲートを実行することを実証する。 プロセッサ全体の物理的エラーの包括的なモデルと組み合わせると、最適化しない場合と比較して、この戦略は物理的エラー率を$\sim3.7\times$で抑えます。 さらに、1057の物理キュービットを持つ distance-23 表面コード論理キュービットでも同様の性能の利点が得られると予測されている。 当社の制御最適化戦略は、さまざまな量子演算、アルゴリズム、コンピューティングアーキテクチャに適用可能な方法で、一般的なスケーリング課題を解決します。

A foundational assumption of quantum error correction theory is that quantum gates can be scaled to large processors without exceeding the error-threshold for fault tolerance. Two major challenges that could become fundamental roadblocks are manufacturing high performance quantum hardware and engineering a control system that can reach its performance limits. The control challenge of scaling quantum gates from small to large processors without degrading performance often maps to non-convex, high-constraint, and time-dependent control optimization over an exponentially expanding configuration space. Here we report on a control optimization strategy that can scalably overcome the complexity of such problems. We demonstrate it by choreographing the frequency trajectories of 68 frequency-tunable superconducting qubits to execute single- and two-qubit gates while mitigating computational errors. When combined with a comprehensive model of physical errors across our processor, the strategy suppresses physical error rates by $\sim3.7\times$ compared with the case of no optimization. Furthermore, it is projected to achieve a similar performance advantage on a distance-23 surface code logical qubit with 1057 physical qubits. Our control optimization strategy solves a generic scaling challenge in a way that can be adapted to a variety of quantum operations, algorithms, and computing architectures.
翻訳日:2023-08-21 22:24:28 公開日:2023-08-17
# FB-BEV: 前向き視点変換によるBEV表現

FB-BEV: BEV Representation from Forward-Backward View Transformations ( http://arxiv.org/abs/2308.02236v2 )

ライセンス: Link先を確認
Zhiqi Li, Zhiding Yu, Wenhai Wang, Anima Anandkumar, Tong Lu, Jose M. Alvarez(参考訳) ビュートランスフォーメーションモジュール(VTM)は、多視点画像特徴とバードアイビュー(BEV)表現の間の変換を行うもので、カメラベースのBEV認識システムにおいて重要なステップである。 現在、最も顕著な2つのVTMパラダイムは前方投影と後方投影である。 Lift-Splat-Shootで表されるフォワードプロジェクションは、後処理なしでわずかにプロジェクションされたBEV機能をもたらす。 後方投影は、BEVFormerを例にとり、奥行き利用の欠如により、誤った投影から偽陽性のBEV特徴を生成する傾向にある。 上記の制限に対処するため、我々は新しい前方ビュー変換モジュールを提案する。 提案手法は,両手法の欠点を補うもので,両者が相互に高品質なBEV表現を得ることを可能にする。 我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4%のNDSの最先端結果を達成する。 コードとモデルはhttps://github.com/NVlabs/FB-BEVで入手できる。

View Transformation Module (VTM), where transformations happen between multi-view image features and Bird-Eye-View (BEV) representation, is a crucial step in camera-based BEV perception systems. Currently, the two most prominent VTM paradigms are forward projection and backward projection. Forward projection, represented by Lift-Splat-Shoot, leads to sparsely projected BEV features without post-processing. Backward projection, with BEVFormer being an example, tends to generate false-positive BEV features from incorrect projections due to the lack of utilization on depth. To address the above limitations, we propose a novel forward-backward view transformation module. Our approach compensates for the deficiencies in both existing methods, allowing them to enhance each other to obtain higher quality BEV representations mutually. We instantiate the proposed module with FB-BEV, which achieves a new state-of-the-art result of 62.4% NDS on the nuScenes test set. Code and models are available at https://github.com/NVlabs/FB-BEV.
翻訳日:2023-08-21 22:24:07 公開日:2023-08-17
# Adversarial ModSecurity:ロバスト機械学習によるSQLインジェクション対策

Adversarial ModSecurity: Countering Adversarial SQL Injections with Robust Machine Learning ( http://arxiv.org/abs/2308.04964v2 )

ライセンス: Link先を確認
Biagio Montaruli, Luca Demetrio, Andrea Valenza, Luca Compagna, Davide Ariu, Luca Piras, Davide Balzarotti, Battista Biggio(参考訳) ModSecurityはOWASP Foundationによってメンテナンスされている標準のオープンソースWeb Application Firewall(WAF)として広く認識されている。 悪質なリクエストをCore Rule Setにマッチさせて検出し、よく知られた攻撃パターンを特定する。 CRSの各ルールは、対応する攻撃の重大度に基づいて、手動で重みを割り当て、発射ルールの重みの合計が所定のしきい値を超えた場合、要求を悪意として検出する。 本研究では、この単純な戦略がSQLインジェクション(SQLi)攻撃の検出にはほとんど効果がないことを示す。 これらの問題を克服するために、我々は、CRSルールを入力機能として使用するAdvModSecという堅牢な機械学習モデルを設計し、敵SQLi攻撃を検出するように訓練する。 実験の結果,保護されたWebサービスへのトラフィックをトレーニングしたAdvModSecは,検出と偽陽性率のトレードオフを向上し,CRSによるModSecurityのバニラバージョンの検出率を21%向上させることができた。 さらに,我々のアプローチは,敵のSQLi攻撃に対する敵の堅牢性を42%向上させることで,より堅牢で信頼性の高いWAFの構築を進めることができる。

ModSecurity is widely recognized as the standard open-source Web Application Firewall (WAF), maintained by the OWASP Foundation. It detects malicious requests by matching them against the Core Rule Set, identifying well-known attack patterns. Each rule in the CRS is manually assigned a weight, based on the severity of the corresponding attack, and a request is detected as malicious if the sum of the weights of the firing rules exceeds a given threshold. In this work, we show that this simple strategy is largely ineffective for detecting SQL injection (SQLi) attacks, as it tends to block many legitimate requests, while also being vulnerable to adversarial SQLi attacks, i.e., attacks intentionally manipulated to evade detection. To overcome these issues, we design a robust machine learning model, named AdvModSec, which uses the CRS rules as input features, and it is trained to detect adversarial SQLi attacks. Our experiments show that AdvModSec, being trained on the traffic directed towards the protected web services, achieves a better trade-off between detection and false positive rates, improving the detection rate of the vanilla version of ModSecurity with CRS by 21%. Moreover, our approach is able to improve its adversarial robustness against adversarial SQLi attacks by 42%, thereby taking a step forward towards building more robust and trustworthy WAFs.
翻訳日:2023-08-21 22:17:00 公開日:2023-08-17
# セリウム置換M型六フッ化ストロンチウムの4価電子駆動における巨大磁気異方性と光学異方性

Giant magnetic and optical anisotropy in cerium-substituted M-type strontium hexaferrite driven by 4$f$ electrons ( http://arxiv.org/abs/2308.04594v2 )

ライセンス: Link先を確認
Churna Bhandari, Durga Paudyal(参考訳) 密度汎関数計算により, セリウム (Ce) 置換M型ヘキサフェライト中の巨大結晶異方性 (MCA) 定数が, Ce から特定の鉄 (2a) サイトへの量子閉じ込め電子移動の支援により, エネルギー的に有利なストロンチウムサイトに存在することがわかった。 計算された電子構造は、電子移動がCe$^{3+}$とFe$^{2+}$をフェルミ準位以下に占有したCe($4f^1$)状態を生成する2a$サイトで形成し、MCAと磁気モーメントに重要な寄与をもたらすことを示している。 ハーフce置換は金属状態を形成し、全置換はストロンチウム-ヘキサフェライト(ホスト)の半導状態を保持する。 後者では、ホストのギャップ領域における電荷移動状態の形成によりバンドギャップが減少する。 光吸収係数は、平行方向の光偏光と垂直方向の強い異方性を示す。 予測可能な競合相の解析を含む計算された生成エネルギーと弾性定数は、両方の組成が化学的に、機械的に安定であることを確認する。 Ce-ヘキサフェライトは、合成の成功により、自動車の駆動モーターなどの装置での使用に適合する新しい高性能な臨界要素のない永久磁石材料となる。

By performing density functional calculations, we find a giant magnetocrystalline anisotropy (MCA) constant in abundant element cerium (Ce) substituted M-type hexaferrite, in the energetically favorable strontium site, assisted by a quantum confined electron transfer from Ce to specific iron (2a) site. Remarkably, the calculated electronic structure shows that the electron transfer leads to the formation of Ce$^{3+}$ and Fe$^{2+}$ at the $2a$ site producing an occupied Ce($4f^1$) state below the Fermi level that adds a significant contribution to MCA and magnetic moment. A half Ce-substitution forms a metallic state, while a full substitution retains the semiconducting state of the strontium-hexaferrite (host). In the latter, the band gap is reduced due to the formation of charge transferred states in the gap region of the host. The optical absorption coefficient shows an enhanced anisotropy between light polarization in parallel and perpendicular directions. Calculated formation energies, including the analysis of probable competing phases, and elastic constants confirm that both compositions are chemically and mechanically stable. With successful synthesis, the Ce-hexaferrite can be a new high-performing critical-element-free permanent magnet material adapted for use in devices such as automotive traction drive motors.
翻訳日:2023-08-21 22:16:33 公開日:2023-08-17
# AIの開発ブートストラップ

Developmental Bootstrapping of AIs ( http://arxiv.org/abs/2308.04586v3 )

ライセンス: Link先を確認
Mark Stefik and Robert Price(参考訳) 一部の現在のAIは、ボードゲームのようなクローズドな人工世界で人間の能力を上回っているが、現実世界での能力は限られている。 彼らは奇妙な間違いを犯し、気づかない。 簡単には指示できないし、常識を使わず、好奇心を欠いている。 彼らは良い協力者はしない。 AIを作成するための主流のアプローチは、手動で構築された伝統的な象徴的AIアプローチと、大きな言語モデル(LLM)を含む生成的およびディープラーニングAIアプローチである。 これらのシステムは、堅牢で信頼できるAIを作成するのに適していない。 主流からは外れているものの、開発段階のブートストラップアプローチは、より多くの可能性を秘めている。 発達的なブートストラップでは、AIは人間の子供のように能力を生み出す。 彼らは生まれながらの能力から始まる。 彼らは環境と相互作用し、その相互作用から学びます。 彼らは自己発達能力で自然能力を徐々に拡張する。 彼らは対話し、人々から学び、知覚、認知、共通基盤を確立する。 彼らはブートストラップによって必要な能力を得る。 しかし、発達ロボット工学はまだ大人レベルの強力な能力を持つAIを生産していない。 プロジェクトは通常、人間の幼児の発達に対応するToddler Barrierで約2歳で停止した。 また、リーディングバリアを橋渡しせず、現在のLLMを支える社会的に発達した情報資源を巧みに、懐疑的に引き出す。 人間の認知発達における次の能力は、本質的な動機づけ、模倣学習、想像、協調、コミュニケーションである。 このポジションペーパーは、開発ブートストラップの実践を拡張し、さらなる能力を獲得し、堅牢で回復力があり、人間と互換性のあるAIを作るための論理、展望、ギャップ、課題を概説する。

Although some current AIs surpass human abilities in closed artificial worlds such as board games, their abilities in the real world are limited. They make strange mistakes and do not notice them. They cannot be instructed easily, fail to use common sense, and lack curiosity. They do not make good collaborators. Mainstream approaches for creating AIs are the traditional manually-constructed symbolic AI approach and generative and deep learning AI approaches including large language models (LLMs). These systems are not well suited for creating robust and trustworthy AIs. Although it is outside of the mainstream, the developmental bootstrapping approach has more potential. In developmental bootstrapping, AIs develop competences like human children do. They start with innate competences. They interact with the environment and learn from their interactions. They incrementally extend their innate competences with self-developed competences. They interact and learn from people and establish perceptual, cognitive, and common grounding. They acquire the competences they need through bootstrapping. However, developmental robotics has not yet produced AIs with robust adult-level competences. Projects have typically stopped at the Toddler Barrier corresponding to human infant development at about two years of age, before their speech is fluent. They also do not bridge the Reading Barrier, to skillfully and skeptically draw on the socially developed information resources that power current LLMs. The next competences in human cognitive development involve intrinsic motivation, imitation learning, imagination, coordination, and communication. This position paper lays out the logic, prospects, gaps, and challenges for extending the practice of developmental bootstrapping to acquire further competences and create robust, resilient, and human-compatible AIs.
翻訳日:2023-08-21 22:16:06 公開日:2023-08-17
# イベント匿名化による識別のない人物再識別

Person Re-Identification without Identification via Event Anonymization ( http://arxiv.org/abs/2308.04402v4 )

ライセンス: Link先を確認
Shafiq Ahmad, Pietro Morerio, Alessio Del Bue(参考訳) 公共空間における視覚的監視の大規模利用は、個人のプライバシーを犠牲にしつつ、リソース消費(エネルギー、帯域幅、計算)を増加させる。 ニューロモルフィック視覚センサ(イベントカメラ)は, 現場の被験者の詳細なRGB視覚情報を捉えないため, プライバシー問題に対する有効な解決策として近年検討されている。 しかし、最近のディープラーニングアーキテクチャは、イベントカメラからのイメージを高い忠実度で再構築することができ、イベントベースのビジョンアプリケーションに対するプライバシーに対する潜在的な脅威を再導入している。 本稿では,このような画像再構成攻撃から人間の身元を守るために,イベントストリームを匿名化することを目的とする。 そこで本研究では,プライバシを保護し,人物ReIdのような下流タスクを実行するという2つの目的に対して,エンドツーエンドネットワークアーキテクチャを共同で最適化する手法を提案する。 我々のネットワークは、イベントをスクランブルすることを学び、プライバシー攻撃者から回収された画像の劣化を強制する。 この作業では、私たちのアプローチのパフォーマンスを評価するために収集された最初のイベントベースの人物ReIdデータセットもコミュニティに提供します。 本手法を広範囲な実験により検証し,SoftBioデータセットと提案したEvent-ReIdデータセットからシミュレーションした合成イベントデータについて報告する。

Wide-scale use of visual surveillance in public spaces puts individual privacy at stake while increasing resource consumption (energy, bandwidth, and computation). Neuromorphic vision sensors (event-cameras) have been recently considered a valid solution to the privacy issue because they do not capture detailed RGB visual information of the subjects in the scene. However, recent deep learning architectures have been able to reconstruct images from event cameras with high fidelity, reintroducing a potential threat to privacy for event-based vision applications. In this paper, we aim to anonymize event-streams to protect the identity of human subjects against such image reconstruction attacks. To achieve this, we propose an end-to-end network architecture jointly optimized for the twofold objective of preserving privacy and performing a downstream task such as person ReId. Our network learns to scramble events, enforcing the degradation of images recovered from the privacy attacker. In this work, we also bring to the community the first ever event-based person ReId dataset gathered to evaluate the performance of our approach. We validate our approach with extensive experiments and report results on the synthetic event data simulated from the publicly available SoftBio dataset and our proposed Event-ReId dataset.
翻訳日:2023-08-21 22:15:42 公開日:2023-08-17
# OmniDataComposer: マルチモーダルデータ融合と無限データ生成のための統一データ構造

OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation ( http://arxiv.org/abs/2308.04126v2 )

ライセンス: Link先を確認
Dongyang Yu and Shihao Wang and Yuan Fang and Wangpeng An(参考訳) 本稿では,マルチモーダルデータ融合と無制限データ生成のための革新的なアプローチであるOmniDataComposerについて述べる。 コアとなるブレークスルーは、ビデオ、オーディオ、テキストを含むマルチモーダルなデータ入力の処理と統合に熟練した凝集性のあるデータ構造の導入だ。 提案アルゴリズムは,映像・画像のキャプション抽出,高密度キャプション抽出,自動音声認識(ASR),光学文字認識(OCR),認識任意のモデル(RAM),オブジェクト追跡など,複数の操作の進歩を活用している。 omnidatacomposerは、6400以上のオブジェクトのカテゴリを識別でき、視覚情報のスペクトルを大きく広げることができる。 これらの多様なモダリティを融合させ、モダリティ間の相互強化を促進し、クロスモダリティデータの修正を促進する。 \textbf{the final outputは、各ビデオの入力を精巧なシーケンシャルなドキュメントに変換し、ビデオを徹底的な物語に変換し、大きな言語モデルによって処理しやすくする。 将来の展望には、無制限のデータ生成を促進するために各モダリティ用のデータセットを最適化することが含まれる。 この堅牢なベースは、ChatGPTのようなモデルに価値のない洞察を提供し、ビデオキャプションのための高品質なデータセットを作成し、ビデオコンテンツに基づいた質問応答タスクを緩和する。 OmniDataComposerは、マルチモーダル学習の新たなステージを開拓し、AIの理解と複雑な実世界のデータ生成を増大させる大きな可能性を与える。

This paper presents OmniDataComposer, an innovative approach for multimodal data fusion and unlimited data generation with an intent to refine and uncomplicate interplay among diverse data modalities. Coming to the core breakthrough, it introduces a cohesive data structure proficient in processing and merging multimodal data inputs, which include video, audio, and text. Our crafted algorithm leverages advancements across multiple operations such as video/image caption extraction, dense caption extraction, Automatic Speech Recognition (ASR), Optical Character Recognition (OCR), Recognize Anything Model(RAM), and object tracking. OmniDataComposer is capable of identifying over 6400 categories of objects, substantially broadening the spectrum of visual information. It amalgamates these diverse modalities, promoting reciprocal enhancement among modalities and facilitating cross-modal data correction. \textbf{The final output metamorphoses each video input into an elaborate sequential document}, virtually transmuting videos into thorough narratives, making them easier to be processed by large language models. Future prospects include optimizing datasets for each modality to encourage unlimited data generation. This robust base will offer priceless insights to models like ChatGPT, enabling them to create higher quality datasets for video captioning and easing question-answering tasks based on video content. OmniDataComposer inaugurates a new stage in multimodal learning, imparting enormous potential for augmenting AI's understanding and generation of complex, real-world data.
翻訳日:2023-08-21 22:15:20 公開日:2023-08-17
# 効率的な量子ファクタリングアルゴリズム

An Efficient Quantum Factoring Algorithm ( http://arxiv.org/abs/2308.06572v2 )

ライセンス: Link先を確認
Oded Regev(参考訳) 我々は、$n$-bit整数が$\tilde{O}(n^{3/2})$ gates for $\sqrt{n}+4$ times の量子回路を独立に実行し、多項式時間古典的後処理を用いて分解可能であることを示す。 アルゴリズムの正確性は、副指数的古典的因子化アルゴリズムで使われるものを思い起こさせる数論的ヒューリスティックな仮定に依存する。 このアルゴリズムが実際に物理実装の改善に繋がるかどうかはまだ明らかになっていない。

We show that $n$-bit integers can be factorized by independently running a quantum circuit with $\tilde{O}(n^{3/2})$ gates for $\sqrt{n}+4$ times, and then using polynomial-time classical post-processing. The correctness of the algorithm relies on a number-theoretic heuristic assumption reminiscent of those used in subexponential classical factorization algorithms. It is currently not clear if the algorithm can lead to improved physical implementations in practice.
翻訳日:2023-08-21 22:06:25 公開日:2023-08-17
# egoposer: 大きなシーンでロバストなリアルタイム ego-body ポーズ推定

EgoPoser: Robust Real-Time Ego-Body Pose Estimation in Large Scenes ( http://arxiv.org/abs/2308.06493v2 )

ライセンス: Link先を確認
Jiaxi Jiang, Paul Streli, Manuel Meier, Christian Holz(参考訳) 頭と手のポーズだけでの全身のエゴポス推定は、ヘッドセットベースのプラットフォーム上でアバター表現を明瞭に表現する研究の活発な分野となっている。 しかし、既存の手法は、データセットが記録されたモーションキャプチャ空間の閉じ込めを過度に考慮し、同時に関節運動と一様体次元の連続的な捕獲を仮定する。 本稿では,これらの制限を克服するEgoPoserを提案する。 1)ヘッドセットを用いたエゴポーズ推定のための入力表現の再検討と,グローバルな位置に依存しない全身姿勢を予測する新しい動き分解法の導入 2)ヘッドセットの視野内でのみ、間欠的な手の位置と方向追跡から体ポーズを頑健にモデル化し、 3) 異なるユーザに対して,様々なボディサイズを一般化する。 実験の結果,egoposerは600fps以上の高い推定速度を維持しつつ,定性的かつ定量的に最先端の手法を上回ることがわかった。 egoposerは、フルボディのポーズ推定がもはや外部からのキャプチャに依存しず、大規模な環境にスケールできるような、将来の作業のための堅牢なベースラインを確立する。

Full-body ego-pose estimation from head and hand poses alone has become an active area of research to power articulate avatar representation on headset-based platforms. However, existing methods over-rely on the confines of the motion-capture spaces in which datasets were recorded, while simultaneously assuming continuous capture of joint motions and uniform body dimensions. In this paper, we propose EgoPoser, which overcomes these limitations by 1) rethinking the input representation for headset-based ego-pose estimation and introducing a novel motion decomposition method that predicts full-body pose independent of global positions, 2) robustly modeling body pose from intermittent hand position and orientation tracking only when inside a headset's field of view, and 3) generalizing across various body sizes for different users. Our experiments show that EgoPoser outperforms state-of-the-art methods both qualitatively and quantitatively, while maintaining a high inference speed of over 600 fps. EgoPoser establishes a robust baseline for future work, where full-body pose estimation needs no longer rely on outside-in capture and can scale to large-scene environments.
翻訳日:2023-08-21 22:06:13 公開日:2023-08-17
# Miroによるメモリ階層によるデバイス上連続学習の費用対効果

Cost-effective On-device Continual Learning over Memory Hierarchy with Miro ( http://arxiv.org/abs/2308.06053v3 )

ライセンス: Link先を確認
Xinyue Ma, Suyeon Jeong, Minjia Zhang, Di Wang, Jonghyun Choi, Myeongjae Jeon(参考訳) 連続学習(CL)は、タスクの連続ストリームからNNモデルを漸進的に訓練する。 以前に学んだ知識を思い出すために、以前の研究は古いサンプルをメモリ階層上に保存し、新しいタスクが到着したら再生する。 データプライバシを保存するためにCLを採用するエッジデバイスは、通常、エネルギーに敏感であり、エネルギー効率、すなわちコスト効率を損なうことなく、高いモデル精度を必要とする。 我々の研究は、階層型メモリリプレイベースのCLの設計空間を初めて探求し、エッジデバイスでコスト効率を達成するための洞察を得た。 我々は,資源状態に基づいてCLシステムを動的に構成し,コスト効率を最大化することにより,CLフレームワークに対する洞察を注意深く統合するシステムランタイムであるMiroを紹介する。 この目標を達成するために、Miroは、精度とエネルギーのトレードオフを明確にしたパラメータのオンラインプロファイリングを行い、オーバーヘッドの少ない最適な値に適応する。 大規模な評価の結果、Miroは私たちが構築するベースラインシステムを大幅に上回り、高いコスト効率を実現している。

Continual learning (CL) trains NN models incrementally from a continuous stream of tasks. To remember previously learned knowledge, prior studies store old samples over a memory hierarchy and replay them when new tasks arrive. Edge devices that adopt CL to preserve data privacy are typically energy-sensitive and thus require high model accuracy while not compromising energy efficiency, i.e., cost-effectiveness. Our work is the first to explore the design space of hierarchical memory replay-based CL to gain insights into achieving cost-effectiveness on edge devices. We present Miro, a novel system runtime that carefully integrates our insights into the CL framework by enabling it to dynamically configure the CL system based on resource states for the best cost-effectiveness. To reach this goal, Miro also performs online profiling on parameters with clear accuracy-energy trade-offs and adapts to optimal values with low overhead. Extensive evaluations show that Miro significantly outperforms baseline systems we build for comparison, consistently achieving higher cost-effectiveness.
翻訳日:2023-08-21 22:05:26 公開日:2023-08-17
# フェデレーション学習におけるインスタンス適応推論に向けて

Towards Instance-adaptive Inference for Federated Learning ( http://arxiv.org/abs/2308.06051v2 )

ライセンス: Link先を確認
Chun-Mei Feng, Kai Yu, Nian Liu, Xinxing Xu, Salman Khan, Wangmeng Zuo(参考訳) Federated Learning(FL)は、複数のクライアントがローカルトレーニングを集約することで、強力なグローバルモデルを学ぶことができる分散学習パラダイムである。 しかし、グローバルモデルの性能はクライアント間の非単位分布によって妨げられ、クライアント間の不均一性を緩和するために広範囲な努力が必要である。 クライアント間データの不均一性を超えて、クライアント内不均一性は複雑な実世界データでも観察でき、fl性能を著しく低下させることに注意する。 本稿では、flフレームワークでインスタンス適応推論を有効にすることにより、クライアント内データの不均一性を処理する新しいflアルゴリズム、すなわちfeedinsを提案する。 巨大なインスタンス適応モデルの代わりに、パラメータ効率のよい微調整方法、すなわち、事前訓練されたモデルでディープ機能(ssf)をスケール・アンド・シフトします。 具体的には、まず各クライアントに対してSSFプールをトレーニングし、サーバ側でこれらのSSFプールを集約し、通信コストを低く抑える。 インスタンス適応推論を可能にするために、与えられたインスタンスに対して、最も適合したSSFサブセットを動的に発見し、それらを集約して、インスタンスに指定された適応SSFを生成する。 大規模な実験により、我々のFedInsは最先端のFLアルゴリズム(例えば、Tiny-ImageNetの通信コストが15倍未満の最高性能の手法に対して6.64倍の改善を達成している。 私たちのコードとモデルは公開されます。

Federated learning (FL) is a distributed learning paradigm that enables multiple clients to learn a powerful global model by aggregating local training. However, the performance of the global model is often hampered by non-i.i.d. distribution among the clients, requiring extensive efforts to mitigate inter-client data heterogeneity. Going beyond inter-client data heterogeneity, we note that intra-client heterogeneity can also be observed on complex real-world data and seriously deteriorate FL performance. In this paper, we present a novel FL algorithm, i.e., FedIns, to handle intra-client data heterogeneity by enabling instance-adaptive inference in the FL framework. Instead of huge instance-adaptive models, we resort to a parameter-efficient fine-tuning method, i.e., scale and shift deep features (SSF), upon a pre-trained model. Specifically, we first train an SSF pool for each client, and aggregate these SSF pools on the server side, thus still maintaining a low communication cost. To enable instance-adaptive inference, for a given instance, we dynamically find the best-matched SSF subsets from the pool and aggregate them to generate an adaptive SSF specified for the instance, thereby reducing the intra-client as well as the inter-client heterogeneity. Extensive experiments show that our FedIns outperforms state-of-the-art FL algorithms, e.g., a 6.64\% improvement against the top-performing method with less than 15\% communication cost on Tiny-ImageNet. Our code and models will be publicly released.
翻訳日:2023-08-21 22:05:08 公開日:2023-08-17
# 効率的な実時間プロンプトチューニングのための拡散によるデータ拡張

Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning ( http://arxiv.org/abs/2308.06038v2 )

ライセンス: Link先を確認
Chun-Mei Feng, Kai Yu, Yong Liu, Salman Khan, Wangmeng Zuo(参考訳) 迅速なチューニングから恩恵を受け、近年ではCLIPなどの事前訓練された視覚言語モデルの多目的下流タスクにおける有望なパフォーマンスを目撃している。 本稿では,テストタイム・プロンプト・チューニング(TPT)として知られる未確認の新しい領域から,各テストサンプルに対して,適応的なプロンプトをオンザフライで学習する特定の設定に焦点を当てる。 既存のTPT手法はデータ拡張と信頼性の選択に依存している。 しかし、例えば、ランダムな再サイズ作物のような従来のデータ拡張技術は、データの多様性の欠如に悩まされており、エントロピーベースの信頼選択だけでは予測忠実性を保証するには不十分である。 これらの問題に対処するために,事前学習した拡散モデルを用いて多種多様な情報データを生成する新しいTPT手法DiffTPTを提案する。 具体的には,従来法と事前学習した安定拡散法の両方による拡張データを組み込んで,それぞれのメリットを生かし,未知の新しいテストデータに適応するモデルの能力を向上させる。 さらに,生成データの予測精度を確保するために,コサイン類似度に基づくフィルタリング手法を導入し,単一の試験試料に類似度の高いデータを選択する。 分布シフトと未知のカテゴリを持つテストデータセットに関する実験により、difftptは最先端tpt法と比較して平均5.13\%のゼロショット精度を向上できることが示されている。 私たちのコードとモデルは公開されます。

Benefiting from prompt tuning, recent years have witnessed the promising performance of pre-trained vision-language models, e.g., CLIP, on versatile downstream tasks. In this paper, we focus on a particular setting of learning adaptive prompts on the fly for each test sample from an unseen new domain, which is known as test-time prompt tuning (TPT). Existing TPT methods typically rely on data augmentation and confidence selection. However, conventional data augmentation techniques, e.g., random resized crops, suffers from the lack of data diversity, while entropy-based confidence selection alone is not sufficient to guarantee prediction fidelity. To address these issues, we propose a novel TPT method, named DiffTPT, which leverages pre-trained diffusion models to generate diverse and informative new data. Specifically, we incorporate augmented data by both conventional method and pre-trained stable diffusion to exploit their respective merits, improving the models ability to adapt to unknown new test data. Moreover, to ensure the prediction fidelity of generated data, we introduce a cosine similarity-based filtration technique to select the generated data with higher similarity to the single test sample. Our experiments on test datasets with distribution shifts and unseen categories demonstrate that DiffTPT improves the zero-shot accuracy by an average of 5.13\% compared to the state-of-the-art TPT method. Our code and models will be publicly released.
翻訳日:2023-08-21 22:04:39 公開日:2023-08-17
# CDR:デバイアスドレコメンデーションのための保守的二重ロバスト学習

CDR: Conservative Doubly Robust Learning for Debiased Recommendation ( http://arxiv.org/abs/2308.08461v2 )

ライセンス: Link先を確認
ZiJie Song, JiaWei Chen, Sheng Zhou, QiHao Shi, Yan Feng, Chun Chen and Can Wang(参考訳) レコメンデーションシステム(RS)では、ユーザー行動データは実験よりも観察的であり、データに広範なバイアスをもたらす。 その結果、バイアスに取り組むことは、レコメンデーションシステムの分野で大きな課題となっている。 近年,Doubly Robust Learning (DR) が注目されている。 しかし,本研究の結果から,既存のDR法はいわゆるPisonous Imputationの存在によって深刻な影響を受けていることが示唆された。 この問題に対処するため、本研究では、その平均と分散を精査し、計算をフィルタリングする保守的二重ロバスト戦略(CDR)を提案する。 理論的解析により,CDRはばらつきを低減し,尾部境界が改善していることが明らかとなった。また,本研究では,CDRが性能を著しく向上し,有毒なインキュベーションの頻度を低減できることを示す実験的検討を行った。

In recommendation systems (RS), user behavior data is observational rather than experimental, resulting in widespread bias in the data. Consequently, tackling bias has emerged as a major challenge in the field of recommendation systems. Recently, Doubly Robust Learning (DR) has gained significant attention due to its remarkable performance and robust properties. However, our experimental findings indicate that existing DR methods are severely impacted by the presence of so-called Poisonous Imputation, where the imputation significantly deviates from the truth and becomes counterproductive. To address this issue, this work proposes Conservative Doubly Robust strategy (CDR) which filters imputations by scrutinizing their mean and variance. Theoretical analyses show that CDR offers reduced variance and improved tail bounds.In addition, our experimental investigations illustrate that CDR significantly enhances performance and can indeed reduce the frequency of poisonous imputation.
翻訳日:2023-08-21 21:58:30 公開日:2023-08-17
# 2次元断面視による脾体積推定のための深層学習フレームワーク

Deep Learning Framework for Spleen Volume Estimation from 2D Cross-sectional Views ( http://arxiv.org/abs/2308.08038v2 )

ライセンス: Link先を確認
Zhen Yuan, Esther Puyol-Anton, Haran Jogeesvaran, Baba Inusa and Andrew P. King(参考訳) 異常脾腫 (splenomegaly) は, 肝疾患, 癌, 血液疾患など, 様々な疾患の臨床的指標である。 超音波画像から測定される脾の長さは脾臓の大きさのサロゲートとして一般的に用いられるが,脾臓容積は脾腫と関連疾患の重症度を評価するための金標準指標である。 ctは脾臓体積を測定するための主要なイメージングモードであるが、脾腫の発生率が高い地域(例えば、グローバル・サウス)ではアクセスできない。 本研究の目的は,超音波による2次元断面断面積の自動計測を可能にすることである。 本研究では,単視または双視の2次元脾臓セグメンテーションから脾臓体積を測定するための変分オートエンコーダベースのフレームワークについて述べる。 本稿では,本フレームワーク内の3つのボリューム推定手法を提案し,評価する。 また,本手法を臨床的に有用にするために,95%の信頼区間を容積推定で生成できることを示す。 比較深層学習に基づく2D-3D再構成法と手動による線形回帰法の臨床標準手法の性能を上回り, 単視と双視の相対体積精度86.62%, 92.58%を達成した。 提案した脾体積推定フレームワークは,現在2次元超音波画像を用いて脾の長さを測定する標準的な臨床ワークフローに統合することができる。 私たちの知る限りでは、これは2次元脾臓セグメンテーションから直接3d脾臓体積推定を達成する最初の仕事です。

Abnormal spleen enlargement (splenomegaly) is regarded as a clinical indicator for a range of conditions, including liver disease, cancer and blood diseases. While spleen length measured from ultrasound images is a commonly used surrogate for spleen size, spleen volume remains the gold standard metric for assessing splenomegaly and the severity of related clinical conditions. Computed tomography is the main imaging modality for measuring spleen volume, but it is less accessible in areas where there is a high prevalence of splenomegaly (e.g., the Global South). Our objective was to enable automated spleen volume measurement from 2D cross-sectional segmentations, which can be obtained from ultrasound imaging. In this study, we describe a variational autoencoder-based framework to measure spleen volume from single- or dual-view 2D spleen segmentations. We propose and evaluate three volume estimation methods within this framework. We also demonstrate how 95% confidence intervals of volume estimates can be produced to make our method more clinically useful. Our best model achieved mean relative volume accuracies of 86.62% and 92.58% for single- and dual-view segmentations, respectively, surpassing the performance of the clinical standard approach of linear regression using manual measurements and a comparative deep learning-based 2D-3D reconstruction-based approach. The proposed spleen volume estimation framework can be integrated into standard clinical workflows which currently use 2D ultrasound images to measure spleen length. To the best of our knowledge, this is the first work to achieve direct 3D spleen volume estimation from 2D spleen segmentations.
翻訳日:2023-08-21 21:58:10 公開日:2023-08-17
# モンテカルロから見た化学・物理学応用のための量子コンピューティング

Quantum computing for chemistry and physics applications from a Monte Carlo perspective ( http://arxiv.org/abs/2308.07964v2 )

ライセンス: Link先を確認
Guglielmo Mazzola(参考訳) この観点は、物理学と化学の分野における量子アルゴリズムとモンテカルロ法の間の重複に焦点をあてる。 我々は、確立された量子モンテカルロ解を量子アルゴリズムに統合する課題と可能性を分析する。 これには、洗練されたエネルギー推定器、パラメータ最適化、実時間および虚数時間ダイナミクス、変動回路が含まれる。 逆に、量子ハードウェアを利用して統計古典モデルのサンプリングを加速する新しいアイデアを、物理学、化学、最適化、機械学習への応用とともにレビューする。 このレビューは,量子コンピューティングとモンテカルロ法の交点における,さらなるアルゴリズム開発を促進することを目的としている。 この視点で議論された研究の多くは過去2年以内に現れており、この将来性のある研究分野への関心が急速に高まっていることを示している。

This Perspective focuses on the several overlaps between quantum algorithms and Monte Carlo methods in the domains of physics and chemistry. We will analyze the challenges and possibilities of integrating established quantum Monte Carlo solutions in quantum algorithms. These include refined energy estimators, parameter optimization, real and imaginary-time dynamics, and variational circuits. Conversely, we will review new ideas in utilizing quantum hardware to accelerate the sampling in statistical classical models, with applications in physics, chemistry, optimization, and machine learning. This review aims to be accessible to both communities and intends to foster further algorithmic developments at the intersection of quantum computing and Monte Carlo methods. Most of the works discussed in this Perspective have emerged within the last two years, indicating a rapidly growing interest in this promising area of research.
翻訳日:2023-08-21 21:57:41 公開日:2023-08-17
# スパースビュービデオによるリフレッシュでアニメーション可能なニューラルネットワークアバター

Relightable and Animatable Neural Avatar from Sparse-View Video ( http://arxiv.org/abs/2308.07903v2 )

ライセンス: Link先を確認
Zhen Xu, Sida Peng, Chen Geng, Linzhan Mou, Zihan Yan, Jiaming Sun, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,未知の照明下での動的人間のスパースビュー(あるいは単眼)ビデオから,再現可能でアニメーション可能なニューラルネットワークアバターを作成するという課題に挑戦する。 スタジオ環境と比較すると、この設定はより実用的でアクセスしやすいが、非常に難しい問題となる。 従来のニューラル・ヒューマン・リコンストラクション法は、変形した符号付き距離場(SDF)を用いてスパースビューからアニマタブル・アバターを再構築するが、リライトのための材料パラメータを回復することはできない。 微分可能な逆レンダリングベースの手法は静的オブジェクトのマテリアルリカバリに成功しているが、それを動的人間に拡張するのは容易ではない。 この課題を解決するために,任意のポーズ下での世界空間距離を近似する階層的距離クエリ(hdq)アルゴリズムを提案する。 具体的には, パラメトリック人体モデルに基づいて粗い距離を推定し, sdfの局所変形不変性を利用して細距離を計算する。 hdqアルゴリズムに基づき、球面追跡を利用して、表面の交点と光の可視性を効率的に推定する。 これにより、スパースビュー(またはモノクラー)入力からアニマタブルでリライトブルなニューラルアバターを回収する最初のシステムを開発することができる。 実験により,最先端手法と比較して優れた結果が得られることを示した。 私たちのコードは再現性のためにリリースされます。

This paper tackles the challenge of creating relightable and animatable neural avatars from sparse-view (or even monocular) videos of dynamic humans under unknown illumination. Compared to studio environments, this setting is more practical and accessible but poses an extremely challenging ill-posed problem. Previous neural human reconstruction methods are able to reconstruct animatable avatars from sparse views using deformed Signed Distance Fields (SDF) but cannot recover material parameters for relighting. While differentiable inverse rendering-based methods have succeeded in material recovery of static objects, it is not straightforward to extend them to dynamic humans as it is computationally intensive to compute pixel-surface intersection and light visibility on deformed SDFs for inverse rendering. To solve this challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to approximate the world space distances under arbitrary human poses. Specifically, we estimate coarse distances based on a parametric human model and compute fine distances by exploiting the local deformation invariance of SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently estimate the surface intersection and light visibility. This allows us to develop the first system to recover animatable and relightable neural avatars from sparse view (or monocular) inputs. Experiments demonstrate that our approach is able to produce superior results compared to state-of-the-art methods. Our code will be released for reproducibility.
翻訳日:2023-08-21 21:57:28 公開日:2023-08-17
# ObjectSDF++: オブジェクト合成ニューラルインシシトサーフェスの改善

ObjectSDF++: Improved Object-Compositional Neural Implicit Surfaces ( http://arxiv.org/abs/2308.07868v2 )

ライセンス: Link先を確認
Qianyi Wu, Kaisiyuan Wang, Kejie Li, Jianmin Zheng, Jianfei Cai(参考訳) 近年,多視点3次元再構成のパラダイムとして神経暗黙的表面再構成が注目されている。 従来の多視点ステレオアプローチとは異なり、ニューラルネットワークは3次元シーンを符号付き距離関数(SDF)として表現する。 しかし、シーン内の個々のオブジェクトの再構築を無視する傾向があるため、パフォーマンスと実用性が制限される。 この問題に対処するため、ObjectSDFは、個々のオブジェクトSDFを監督するために2Dインスタンスマスクを使用する、オブジェクト合成ニューラル暗黙表面の優れたフレームワークを導入した。 本稿ではObjectSDF++という新しいフレームワークを提案し,ObjectSDFの限界を克服する。 第一に、objectdfはセマンティクスフィールドの変換によって主に性能が制限されているのに対し、モデルの中核となるコンポーネントはオクルージョン認識オブジェクト不透明度レンダリング形式であり、オブジェクト不透明度を直接インスタンスマスクで監視する。 第2に,物体識別のための新しい正規化用語を設計し,衝突防止のための制約が欠如していることから,ObjectSDFが予期せぬ再設計をもたらすという問題を効果的に緩和する。 広範な実験により,新しい枠組みが優れたオブジェクト復元結果をもたらすだけでなく,シーン復元の質を著しく向上させることを示した。 コードとリソースは \url{https://qianyiwu.github.io/objectsdf++} にある。

In recent years, neural implicit surface reconstruction has emerged as a popular paradigm for multi-view 3D reconstruction. Unlike traditional multi-view stereo approaches, the neural implicit surface-based methods leverage neural networks to represent 3D scenes as signed distance functions (SDFs). However, they tend to disregard the reconstruction of individual objects within the scene, which limits their performance and practical applications. To address this issue, previous work ObjectSDF introduced a nice framework of object-composition neural implicit surfaces, which utilizes 2D instance masks to supervise individual object SDFs. In this paper, we propose a new framework called ObjectSDF++ to overcome the limitations of ObjectSDF. First, in contrast to ObjectSDF whose performance is primarily restricted by its converted semantic field, the core component of our model is an occlusion-aware object opacity rendering formulation that directly volume-renders object opacity to be supervised with instance masks. Second, we design a novel regularization term for object distinction, which can effectively mitigate the issue that ObjectSDF may result in unexpected reconstruction in invisible regions due to the lack of constraint to prevent collisions. Our extensive experiments demonstrate that our novel framework not only produces superior object reconstruction results but also significantly improves the quality of scene reconstruction. Code and more resources can be found in \url{https://qianyiwu.github.io/objectsdf++}
翻訳日:2023-08-21 21:57:00 公開日:2023-08-17
# 未知環境における経路生成のためのSwarm Bugアルゴリズム

Swarm Bug Algorithms for Path Generation in Unknown Environments ( http://arxiv.org/abs/2308.07736v2 )

ライセンス: Link先を確認
Alexander Johansson and Johan Markdahl(参考訳) 本稿では,障害物が散らばっている未知の環境において,二点間をできるだけ速く移動する群れの問題を考える。 潜在的なアプリケーションには、損傷した環境が典型的である検索・救助操作が含まれる。 我々は,古典経路生成アルゴリズムCom,Bug1,Bug2のSwarmCom,SwarmBug1,SwarmBug2と呼ばれるSwarm一般化を提案する。 これらのアルゴリズムは未知の環境向けに開発され、低計算能力とメモリストレージを必要とするため、他のタスクのリソースを解放する。 swarmで最初のエージェントがswarmbug1のターゲットポイントに到達するための最悪の場合の移動時間の上限を示す。 SwarmBug2の場合、このアルゴリズムはSwarmBug1と比較して最悪の走行時間では性能が劣っている。 SwarmComでは,アルゴリズムが停止しないような簡単なシーンが存在し,性能保証がないことを示す。 さらに、SwarmBug1の走行時間の上限を任意の経路生成アルゴリズムの普遍的な下限と比較することにより、SwarmBug1のエージェント数が無限大に近づくときの限界において、他のアルゴリズムがSwarmBug1よりも厳密に最悪のケース性能を有し、普遍的な下限が厳密であることを示す。

In this paper, we consider the problem of a swarm traveling between two points as fast as possible in an unknown environment cluttered with obstacles. Potential applications include search-and-rescue operations where damaged environments are typical. We present swarm generalizations, called SwarmCom, SwarmBug1, and SwarmBug2, of the classical path generation algorithms Com, Bug1, and Bug2. These algorithms were developed for unknown environments and require low computational power and memory storage, thereby freeing up resources for other tasks. We show the upper bound of the worst-case travel time for the first agent in the swarm to reach the target point for SwarmBug1. For SwarmBug2, we show that the algorithm underperforms in terms of worst-case travel time compared to SwarmBug1. For SwarmCom, we show that there exists a trivial scene for which the algorithm will not halt, and it thus has no performance guarantees. Moreover, by comparing the upper bound of the travel time for SwarmBug1 with a universal lower bound for any path generation algorithm, it is shown that in the limit when the number of agents in the swarm approaches infinity, no other algorithm has strictly better worst-case performance than SwarmBug1 and the universal lower bound is tight.
翻訳日:2023-08-21 21:56:33 公開日:2023-08-17
# ステアリング言語生成:コヒーレント・ディバース合成データ生成のための対照的な専門家ガイダンスと否定的プロンプト

Steering Language Generation: Harnessing Contrastive Expert Guidance and Negative Prompting for Coherent and Diverse Synthetic Data Generation ( http://arxiv.org/abs/2308.07645v2 )

ライセンス: Link先を確認
Charles O'Neill, Yuan-Sen Ting, Ioana Ciuca, Jack Miller, Thang Bui(参考訳) 大規模言語モデル(LLM)は、下流モデルトレーニングから実用的なデータ活用に至るまで、多くの応用がある高品質で実用性の高い合成データを生成する大きな可能性を秘めている。 しかし、現代のモデルは、その印象的な能力にもかかわらず、一貫性と多様なデータの両方を作り出すのに一貫して苦労している。 整合性問題に対処するために,我々は,細調整と基本言語モデルのロジット分布の違いを強調し,ドメインの整合性を確保するための対照的な専門家ガイダンスを導入する。 多様性を確保するため、既存の実例と合成例をモデルへの負のプロンプトとして利用します。 私たちはこの二重プロンプトによるlogitリシェープのアプローチを,steer: semantic text enhancement through embedded repositioningと定義しています。 STEERは推論時に動作し、LLMを体系的に誘導し、データ分散(セマンティックフィディリティの保証)と、以前の合成例や既存の実際のデータセット(多様性と信頼性の保証)からの逸脱のバランスを取る。 この微妙なバランスは、潜在空間における選択された表現の方向や方向を動的に移動させることによって達成される。 STEERは、従来の合成データ生成技術よりも優れたパフォーマンスを示し、仮説生成、有毒および非有毒なコメント生成、常識推論タスク生成の3つの異なるタスク間でデータの多様性と一貫性のバランスが改善されている。 我々は、STEERがハイパーパラメータを介して多様性コヒーレンシートレードオフを微調整して制御できる方法を示し、その汎用性を強調した。

Large Language Models (LLMs) hold immense potential to generate synthetic data of high quality and utility, which has numerous applications from downstream model training to practical data utilisation. However, contemporary models, despite their impressive capacities, consistently struggle to produce both coherent and diverse data. To address the coherency issue, we introduce contrastive expert guidance, where the difference between the logit distributions of fine-tuned and base language models is emphasised to ensure domain adherence. In order to ensure diversity, we utilise existing real and synthetic examples as negative prompts to the model. We deem this dual-pronged approach to logit reshaping as STEER: Semantic Text Enhancement via Embedding Repositioning. STEER operates at inference-time and systematically guides the LLMs to strike a balance between adherence to the data distribution (ensuring semantic fidelity) and deviation from prior synthetic examples or existing real datasets (ensuring diversity and authenticity). This delicate balancing act is achieved by dynamically moving towards or away from chosen representations in the latent space. STEER demonstrates improved performance over previous synthetic data generation techniques, exhibiting better balance between data diversity and coherency across three distinct tasks: hypothesis generation, toxic and non-toxic comment generation, and commonsense reasoning task generation. We demonstrate how STEER allows for fine-tuned control over the diversity-coherency trade-off via its hyperparameters, highlighting its versatility.
翻訳日:2023-08-21 21:56:08 公開日:2023-08-17
# AudioFormer:Audio Transformerは個々の音響コードから音声特徴表現を学習する

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes ( http://arxiv.org/abs/2308.07221v3 )

ライセンス: Link先を確認
Zhaohui Li and Haitao Wang and Xinghua Jiang(参考訳) 本研究では,離散音響符号の取得により音声特徴表現を学習し,その後,音声分類タスクに対して微調整を行う,audioformerという手法を提案する。 まず,音声分類タスクを自然言語理解(nlu)の一形態として考えることにより,新しい視点を提案する。 既存のニューラルオーディオコーデックモデルを利用して、離散音響コードを生成し、それをマスク付き言語モデル(MLM)の訓練に利用し、音声特徴表現を得る。 さらに,Multi-Positive sample Contrastive (MPC) 学習手法の統合を開拓した。 同一音声入力における複数の離散音響符号間の関節表現の学習を可能にする。 実験では、離散音響符号をテキストデータとして扱い、clozeのような手法を用いてマスキング言語モデルを訓練し、質の高い音声表現を導出する。 特に、mpc学習技術は、異なる正のサンプル間の協調表現を効果的に捉える。 その結果,複数のデータセットにまたがる単調な音声分類モデルに比べ,オーディオフォーマーの性能は著しく向上し,選択したデータセット上では視聴覚型マルチモーダル分類モデルよりも優れていた。 具体的には、AudioSet(2M,20K)やFSD50K(53.9,45.1、65.6)などのデータセットに対して、我々のアプローチは顕著な結果をもたらす。 私たちは、コードとモデルの両方をオープンに共有しました。

We propose a method named AudioFormer,which learns audio feature representations through the acquisition of discrete acoustic codes and subsequently fine-tunes them for audio classification tasks. Initially,we introduce a novel perspective by considering the audio classification task as a form of natural language understanding (NLU). Leveraging an existing neural audio codec model,we generate discrete acoustic codes and utilize them to train a masked language model (MLM),thereby obtaining audio feature representations. Furthermore,we pioneer the integration of a Multi-Positive sample Contrastive (MPC) learning approach. This method enables the learning of joint representations among multiple discrete acoustic codes within the same audio input. In our experiments,we treat discrete acoustic codes as textual data and train a masked language model using a cloze-like methodology,ultimately deriving high-quality audio representations. Notably,the MPC learning technique effectively captures collaborative representations among distinct positive samples. Our research outcomes demonstrate that AudioFormer attains significantly improved performance compared to prevailing monomodal audio classification models across multiple datasets,and even outperforms audio-visual multimodal classification models on select datasets. Specifically,our approach achieves remarkable results on datasets including AudioSet (2M,20K),and FSD50K,with performance scores of 53.9,45.1,and 65.6,respectively. We have openly shared both the code and models: https://github.com/LZH-0225/AudioFormer.git.
翻訳日:2023-08-21 21:55:17 公開日:2023-08-17
# 知識グラフはテキストを単純化できるか?

Can Knowledge Graphs Simplify Text? ( http://arxiv.org/abs/2308.06975v2 )

ライセンス: Link先を確認
Anthony Colas, Haodi Ma, Xuanli He, Yang Bai, Daisy Zhe Wang(参考訳) 知識グラフ(KG)-テキスト生成は、与えられたKGを記述する流動的で情報的な文を生成することで、近年改善されている。 複数のドメインにまたがってkgが普及し、重要なエンティティ関連情報を含んでいるため、テキストの簡略化は原文の意味を維持しながらテキストの複雑さを減らすことを目的としているため、簡単なkgパスを構築し、元の入力の意味を保存する簡潔なテキストを生成するために、kgが確立したテクニックを混乱させる教師なしテキスト簡易化のための新しいアプローチであるkgsimpleを提案する。 反復的・サンプリング型kgファーストアプローチにより,本モデルでは,kg-to-text生成を活用しつつ,重要な情報を保持しながら,1kgから開始する際のテキストの簡易化が可能となる。 現在利用可能なkg-to-textデータセット上でのkgsimpleモデルの様々な設定を評価し、所定の複雑なテキストで始まる教師なしテキスト単純化モデルと比較してその効果を示す。 コードはgithubから入手できます。

Knowledge Graph (KG)-to-Text Generation has seen recent improvements in generating fluent and informative sentences which describe a given KG. As KGs are widespread across multiple domains and contain important entity-relation information, and as text simplification aims to reduce the complexity of a text while preserving the meaning of the original text, we propose KGSimple, a novel approach to unsupervised text simplification which infuses KG-established techniques in order to construct a simplified KG path and generate a concise text which preserves the original input's meaning. Through an iterative and sampling KG-first approach, our model is capable of simplifying text when starting from a KG by learning to keep important information while harnessing KG-to-text generation to output fluent and descriptive sentences. We evaluate various settings of the KGSimple model on currently-available KG-to-text datasets, demonstrating its effectiveness compared to unsupervised text simplification models which start with a given complex text. Our code is available on GitHub.
翻訳日:2023-08-21 21:54:51 公開日:2023-08-17
# MotionAug:人間の動作予測のための物理的補正による強化

MotionAug: Augmentation with Physical Correction for Human Motion Prediction ( http://arxiv.org/abs/2203.09116v4 )

ライセンス: Link先を確認
Takahiro Maeda and Norimichi Ukita(参考訳) 本稿では,多様性と運動補正を奨励する運動合成を組み込んだ運動データ拡張方式を提案する。 この運動合成は改良型変分オートエンコーダ (vae) と逆キネマティックス (ik) から構成される。 このvaeにおいて,本提案手法では,訓練動作データ不足であっても様々な有効動作を生成する。 IKに基づく動作合成法により,半自動で様々な動きを生成できる。 これらの2つのスキームは合成された動きに非現実的なアーティファクトを生成するので、我々の運動補正はそれらを修正します。 この運動補正スキームは、物理シミュレーションによる模倣学習とその後の運動偏りを含む。 この模倣学習のために,訓練過程を著しく加速するPD残留力を提案する。 さらに, 模倣学習によって引き起こされる運動バイアスをオフセットし, 強化の効果を最大化する。 その結果,本手法は,ニューラルネットワークとグラフ畳み込みネットワークに基づく人間の動き予測モデルの両方において,従来のノイズベース動作拡張手法を大きなマージンで上回っている。 コードはhttps://github.com/meaten/motionaugで入手できる。

This paper presents a motion data augmentation scheme incorporating motion synthesis encouraging diversity and motion correction imposing physical plausibility. This motion synthesis consists of our modified Variational AutoEncoder (VAE) and Inverse Kinematics (IK). In this VAE, our proposed sampling-near-samples method generates various valid motions even with insufficient training motion data. Our IK-based motion synthesis method allows us to generate a variety of motions semi-automatically. Since these two schemes generate unrealistic artifacts in the synthesized motions, our motion correction rectifies them. This motion correction scheme consists of imitation learning with physics simulation and subsequent motion debiasing. For this imitation learning, we propose the PD-residual force that significantly accelerates the training process. Furthermore, our motion debiasing successfully offsets the motion bias induced by imitation learning to maximize the effect of augmentation. As a result, our method outperforms previous noise-based motion augmentation methods by a large margin on both Recurrent Neural Network-based and Graph Convolutional Network-based human motion prediction models. The code is available at https://github.com/meaten/MotionAug.
翻訳日:2023-08-21 20:13:07 公開日:2023-08-17
# クロスモデルフェアネス:モデル多重性下におけるフェアネスと倫理の実証的研究

Cross-model Fairness: Empirical Study of Fairness and Ethics Under Model Multiplicity ( http://arxiv.org/abs/2203.07139v3 )

ライセンス: Link先を確認
Kacper Sokol and Meelis Kull and Jeffrey Chan and Flora Dilys Salim(参考訳) データ駆動予測モデルは厳密な技術的構成であるが、特定の工学的選択が暗黙的、間接的、予期せぬ現実的な結果をもたらす社会的文脈の中で機能する。 このようなシステムの公平性(個人とグループの両方に関するもの)は、この空間において重要な考慮事項のひとつであり、人々が差別される可能性のある保護された特性をデータが捉えた時に発生する。 今まで、この概念は、しばしば異なる分類しきい値の下で固定されたモデルに対して研究され、望ましくない、差別的で、おそらく違法な操作の側面を特定し、根絶しようと試みてきた。 ここでは、この固定モデル仮定をバックトラックし、実用性に基づくモデル乗法の観点から、1つの予測器が等しく動作するモデル群からアドホックに選択されたときに個人が害を受けることのできる、クロスモデルフェアネスの新たな定義を提案し、探求する。 同一視されるモデル間で異なる分類をすることができるので、この個人は予測者に対して最も好ましい結果を与え、他のモデルに悪影響を及ぼす可能性があることを議論することができる。 そこで我々は,このシナリオを2次元の例と線形分類を用いて紹介し,アルゴリズムフェアネスコミュニティで人気がある実生活予測モデルとデータセットに基づく包括的実証研究を行い,最後に,クロスモデルフェアネスの解析的性質とその影響を広い文脈で検討する。 以上の結果から,このような不公平さは実生活で容易に発見できることが示唆され,技術的手法だけでは予測性能を低下させる可能性が示唆された。

While data-driven predictive models are a strictly technological construct, they may operate within a social context in which benign engineering choices entail implicit, indirect and unexpected real-life consequences. Fairness of such systems -- pertaining both to individuals and groups -- is one relevant consideration in this space; it arises when data capture protected characteristics upon which people may be discriminated. To date, this notion has predominantly been studied for a fixed model, often under different classification thresholds, striving to identify and eradicate undesirable, discriminative and possibly unlawful aspects of its operation. Here, we backtrack on this fixed model assumption to propose and explore a novel definition of cross-model fairness where individuals can be harmed when one predictor is chosen ad hoc from a group of equally-well performing models, i.e., in view of utility-based model multiplicity. Since a person may be classified differently across models that are otherwise considered equivalent, this individual could argue for a predictor granting them the most favourable outcome, employing which may have adverse effects on others. We introduce this scenario with a two-dimensional example and linear classification; then, we present a comprehensive empirical study based on real-life predictive models and data sets that are popular with the algorithmic fairness community; finally, we investigate analytical properties of cross-model fairness and its ramifications in a broader context. Our findings suggest that such unfairness can be readily found in the real life and it may be difficult to mitigate by technical means alone as doing so is likely to degrade predictive performance.
翻訳日:2023-08-21 20:12:51 公開日:2023-08-17
# 領域ギャップを越えた宇宙空間推定のためのロバストマルチタスク学習とオンラインリファインメント

Robust Multi-Task Learning and Online Refinement for Spacecraft Pose Estimation across Domain Gap ( http://arxiv.org/abs/2203.04275v6 )

ライセンス: Link先を確認
Tae Ha Park and Simone D'Amico(参考訳) 本研究は,非協力型宇宙船のポーズ推定のための畳み込みニューラルネットワーク(cnn)であるspaces pose network v2(spnv2)を提案する。 SPNv2はマルチスケールのマルチタスクCNNであり、共有機能出力で異なるタスクを実行する複数の予測ヘッドと共有機能エンコーダで構成される。 これらのタスクはすべて、予め定義された衛星キーポイントの予測、直接ポーズ回帰、衛星の前景のバイナリセグメンテーションなど、画像からのターゲット宇宙船の検出とポーズ推定に関連する。 共有エンコーダは、合成画像のみに広範なデータ拡張を施した異なる関連タスクを共同で訓練することにより、合成画像と根本的に異なる視覚的特徴を持つ画像領域に共通する特徴を学習する。 この作業は、デプロイ時にオンラインのターゲットドメインイメージ上のSPNv2の正規化レイヤのパラメータを洗練するオンラインドメインリファインメント(ODR)も導入している。 具体的には、ODRは予測衛星フォアグラウンドの自己監督エントロピー最小化を行い、ポーズラベルを使わずに、最小の計算努力で、ターゲット領域画像上でのCNNの性能を向上させる。 spnv2のgithubリポジトリはhttps://github.com/tpark94/spnv2で入手できる。

This work presents Spacecraft Pose Network v2 (SPNv2), a Convolutional Neural Network (CNN) for pose estimation of noncooperative spacecraft across domain gap. SPNv2 is a multi-scale, multi-task CNN which consists of a shared multi-scale feature encoder and multiple prediction heads that perform different tasks on a shared feature output. These tasks are all related to detection and pose estimation of a target spacecraft from an image, such as prediction of pre-defined satellite keypoints, direct pose regression, and binary segmentation of the satellite foreground. It is shown that by jointly training on different yet related tasks with extensive data augmentations on synthetic images only, the shared encoder learns features that are common across image domains that have fundamentally different visual characteristics compared to synthetic images. This work also introduces Online Domain Refinement (ODR) which refines the parameters of the normalization layers of SPNv2 on the target domain images online at deployment. Specifically, ODR performs self-supervised entropy minimization of the predicted satellite foreground, thereby improving the CNN's performance on the target domain images without their pose labels and with minimal computational efforts. The GitHub repository for SPNv2 is available at https://github.com/tpark94/spnv2.
翻訳日:2023-08-21 20:12:19 公開日:2023-08-17
# 双知覚類似性を用いた直交ネットワークアライメントのパワーについて

On the Power of Gradual Network Alignment Using Dual-Perception Similarities ( http://arxiv.org/abs/2201.10945v3 )

ライセンス: Link先を確認
Jin-Duk Park, Cong Tran, Won-Yong Shin, Xin Cao(参考訳) ネットワークアライメント(NA)は、ネットワーク構造とノード属性に基づいて、2つのネットワーク間のノードの対応を見つけるタスクである。 本研究の動機は,既存のNA手法が全てのノード対を一度に発見しようとしたため,ノード対応の暫定的な発見によって得られた情報を利用して,ノードマッチング中の次の対応をより正確に見つけることにある。 この課題に対処するため,我々は,段階的マッチングの初期段階で容易に発見できる強い整合性を示すノードペアをフル活用することにより,ノードペアを徐々に発見する新しいNA手法であるGrad-Alignを提案する。 特に、Grad-Alignは、まずグラフニューラルネットワークに基づく2つのネットワークのノード埋め込みを生成する。 そして、複数層埋め込み類似度を含む二重知覚類似度と、異なるスケールのネットワークに適用可能なトベルスキー指数を用いた非対称集合類似度とを演算することにより、ノードを徐々に整列させる。 さらに,エッジ拡張モジュールをgrad-alignに組み込んで構造的一貫性を強化した。 実世界および合成データセットを用いた包括的実験により, grad-alignが最先端のna法を一貫して上回っていることを実証した。

Network alignment (NA) is the task of finding the correspondence of nodes between two networks based on the network structure and node attributes. Our study is motivated by the fact that, since most of existing NA methods have attempted to discover all node pairs at once, they do not harness information enriched through interim discovery of node correspondences to more accurately find the next correspondences during the node matching. To tackle this challenge, we propose Grad-Align, a new NA method that gradually discovers node pairs by making full use of node pairs exhibiting strong consistency, which are easy to be discovered in the early stage of gradual matching. Specifically, Grad-Align first generates node embeddings of the two networks based on graph neural networks along with our layer-wise reconstruction loss, a loss built upon capturing the first-order and higher-order neighborhood structures. Then, nodes are gradually aligned by computing dual-perception similarity measures including the multi-layer embedding similarity as well as the Tversky similarity, an asymmetric set similarity using the Tversky index applicable to networks with different scales. Additionally, we incorporate an edge augmentation module into Grad-Align to reinforce the structural consistency. Through comprehensive experiments using real-world and synthetic datasets, we empirically demonstrate that Grad-Align consistently outperforms state-of-the-art NA methods.
翻訳日:2023-08-21 20:11:57 公開日:2023-08-17
# 0-1損失のミニマックスリスク分類器

Minimax risk classifiers with 0-1 loss ( http://arxiv.org/abs/2201.06487v6 )

ライセンス: Link先を確認
Santiago Mazuelas and Mauricio Romero and Peter Gr\"unwald(参考訳) 教師付き分類技術はトレーニングサンプルを使用して、期待される0-1の損失(エラー確率)の少ない分類規則を学ぶ。 従来の手法では、0-1の損失の代わりに代理損失を使い、特定のルールファミリー(仮説クラス)を考慮し、扱いやすい学習とサンプル外一般化を可能にする。 本稿では, 最小限のリスク分類器(MRC)について, 基礎となる分布を含む不確実性分布に対して, 最悪の0-1損失を最小限に抑える。 MRCは学習時に厳密な性能保証を提供することができ、特徴カーネルが与える特徴写像を用いて一意に一貫性を持つことを示す。 また,mrc学習のための効率的な最適化手法を提案するとともに,提案手法が精度の高い分類と性能保証を両立できることを示す。

Supervised classification techniques use training samples to learn a classification rule with small expected 0-1 loss (error probability). Conventional methods enable tractable learning and provide out-of-sample generalization by using surrogate losses instead of the 0-1 loss and considering specific families of rules (hypothesis classes). This paper presents minimax risk classifiers (MRCs) that minize the worst-case 0-1 loss with respect to uncertainty sets of distributions that can include the underlying distribution, with a tunable confidence. We show that MRCs can provide tight performance guarantees at learning and are strongly universally consistent using feature mappings given by characteristic kernels. The paper also proposes efficient optimization techniques for MRC learning and shows that the methods presented can provide accurate classification together with tight performance guarantees in practice.
翻訳日:2023-08-21 20:11:31 公開日:2023-08-17
# 視覚・言語ナビゲーション用マルチモーダルトランスの履歴認識

History Aware Multimodal Transformer for Vision-and-Language Navigation ( http://arxiv.org/abs/2110.13309v2 )

ライセンス: Link先を確認
Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, Ivan Laptev(参考訳) vision-and-language navigation(vln)は、指示に従って実際のシーンをナビゲートする自律的なビジュアルエージェントを構築することを目的としている。 以前訪れた場所やアクションを思い出すために、vlnのほとんどのアプローチは、リカレント状態を使用してメモリを実装する。 代わりに、長い水平履歴をマルチモーダル意思決定に組み込むために、History Aware Multimodal Transformer (HAMT)を導入する。 HAMTは、まず個々の画像をViTで符号化し、パノラマ観測における画像間の空間的関係をモデル化し、最後に歴史におけるパノラマ間の時間的関係を考慮に入れた階層的視覚変換器(ViT)を介して、過去のパノラマ観測を効率的に符号化する。 そして、テキスト、履歴、現在の観察を共同で組み合わせ、次のアクションを予測する。 まず,single step action predictionとspatial relation predictionを含む複数のプロキシタスクを使用してhamtエンドツーエンドをトレーニングし,さらに強化学習を用いてナビゲーションポリシーをさらに改善する。 HAMTは、細粒度命令付きVLN(R2R, RxR)、高レベル命令(R2R-Last, REVERIE)、ダイアログ(CVDN)、長い水平VLN(R4R, R2R-Back)など、幅広いVLNタスクの新たな状態を達成する。 HAMTは航路を長くしたナビゲーションタスクに特に有効であることを示す。

Vision-and-language navigation (VLN) aims to build autonomous visual agents that follow instructions and navigate in real scenes. To remember previously visited locations and actions taken, most approaches to VLN implement memory using recurrent states. Instead, we introduce a History Aware Multimodal Transformer (HAMT) to incorporate a long-horizon history into multimodal decision making. HAMT efficiently encodes all the past panoramic observations via a hierarchical vision transformer (ViT), which first encodes individual images with ViT, then models spatial relation between images in a panoramic observation and finally takes into account temporal relation between panoramas in the history. It, then, jointly combines text, history and current observation to predict the next action. We first train HAMT end-to-end using several proxy tasks including single step action prediction and spatial relation prediction, and then use reinforcement learning to further improve the navigation policy. HAMT achieves new state of the art on a broad range of VLN tasks, including VLN with fine-grained instructions (R2R, RxR), high-level instructions (R2R-Last, REVERIE), dialogs (CVDN) as well as long-horizon VLN (R4R, R2R-Back). We demonstrate HAMT to be particularly effective for navigation tasks with longer trajectories.
翻訳日:2023-08-21 20:11:15 公開日:2023-08-17
# 一般化カテゴリー発見のためのパラメトリック分類:基礎的検討

Parametric Classification for Generalized Category Discovery: A Baseline Study ( http://arxiv.org/abs/2211.11727v3 )

ライセンス: Link先を確認
Xin Wen, Bingchen Zhao, Xiaojuan Qi(参考訳) Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。 従来の研究では、パラメトリック分類器は見られるカテゴリーに過度に適合する傾向があり、半教師付きk平均で形成された非パラメトリック分類器を用いて支持されている。 そこで本研究では,パラメトリック分類器の故障を調査し,高品質な監視が可能な場合の設計選択の有効性を検証し,信頼性の低い擬似ラベルを鍵となる問題として同定する。 2つの予測バイアスが存在することを実証する: 分類器は、見かけのクラスをより頻繁に予測し、見るものや斬新なカテゴリーにまたがる不均衡な分布を生み出す傾向がある。 これらの結果に基づき,エントロピー正規化の恩恵を受け,複数のgcdベンチマークで最先端のパフォーマンスを達成し,未知のクラス数に対して強い堅牢性を示す,単純かつ効果的なパラメトリック分類法を提案する。 この研究と提案されたシンプルな枠組みが,今後の研究を促進するための強力な基盤となることを願っている。 私たちのコードは、https://github.com/CVMI-Lab/SimGCDで利用可能です。

Generalized Category Discovery (GCD) aims to discover novel categories in unlabelled datasets using knowledge learned from labelled samples. Previous studies argued that parametric classifiers are prone to overfitting to seen categories, and endorsed using a non-parametric classifier formed with semi-supervised k-means. However, in this study, we investigate the failure of parametric classifiers, verify the effectiveness of previous design choices when high-quality supervision is available, and identify unreliable pseudo-labels as a key problem. We demonstrate that two prediction biases exist: the classifier tends to predict seen classes more often, and produces an imbalanced distribution across seen and novel categories. Based on these findings, we propose a simple yet effective parametric classification method that benefits from entropy regularisation, achieves state-of-the-art performance on multiple GCD benchmarks and shows strong robustness to unknown class numbers. We hope the investigation and proposed simple framework can serve as a strong baseline to facilitate future studies in this field. Our code is available at: https://github.com/CVMI-Lab/SimGCD.
翻訳日:2023-08-21 20:04:22 公開日:2023-08-17
# promptcap:プロンプトガイド付きタスクアウェア画像キャプション

PromptCap: Prompt-Guided Task-Aware Image Captioning ( http://arxiv.org/abs/2211.09699v4 )

ライセンス: Link先を確認
Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A Smith, Jiebo Luo(参考訳) 知識に基づく視覚的質問応答(VQA)は、正しい回答を得るために、画像以外の世界の知識を必要とする質問を含む。 GPT-3のような大規模言語モデル(LM)は、強力な知識検索と推論能力のため、このタスクに特に有用である。 LMが画像を理解するために、以前の作業ではキャプションモデルを使用して画像をテキストに変換する。 しかし、説明すべき視覚的実体である一文のイメージを要約する場合は、しばしば不明確である。 ジェネリックイメージキャプションは、視覚的な疑問に正しく答えるために、LMに必要な視覚的詳細を見逃すことが多い。 この課題に対処するために,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCap(Prompt-Guided Image Captioning)を提案する。 一般的なキャプションとは異なり、PromptCapは、生成したキャプションで記述される視覚エンティティを制御するために自然言語プロンプトを使用する。 プロンプトには、キャプションが回答を助けるべきだという質問が含まれている。 追加のアノテーションを避けるため、PromptCapはGPT-3と既存のデータセットで合成された例によって訓練されている。 本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。 PromptCapは一般的なキャプションを大きなマージンで上回り、知識ベースのVQAタスク(OK-VQAは60.4%、A-OKVQAは59.6%)で最先端の精度を達成する。 WebQAのゼロショットの結果は、PromptCapが見えないドメインによく一般化していることを示している。

Knowledge-based visual question answering (VQA) involves questions that require world knowledge beyond the image to yield the correct answer. Large language models (LMs) like GPT-3 are particularly helpful for this task because of their strong knowledge retrieval and reasoning capabilities. To enable LM to understand images, prior work uses a captioning model to convert images into text. However, when summarizing an image in a single caption sentence, which visual entities to describe are often underspecified. Generic image captions often miss visual details essential for the LM to answer visual questions correctly. To address this challenge, we propose PromptCap (Prompt-guided image Captioning), a captioning model designed to serve as a better connector between images and black-box LMs. Different from generic captions, PromptCap takes a natural-language prompt to control the visual entities to describe in the generated caption. The prompt contains a question that the caption should aid in answering. To avoid extra annotation, PromptCap is trained by examples synthesized with GPT-3 and existing datasets. We demonstrate PromptCap's effectiveness on an existing pipeline in which GPT-3 is prompted with image captions to carry out VQA. PromptCap outperforms generic captions by a large margin and achieves state-of-the-art accuracy on knowledge-based VQA tasks (60.4% on OK-VQA and 59.6% on A-OKVQA). Zero-shot results on WebQA show that PromptCap generalizes well to unseen domains.
翻訳日:2023-08-21 20:04:02 公開日:2023-08-17
# なぜネットワークは阻害・負のつながりを持つのか?

Why do networks have inhibitory/negative connections? ( http://arxiv.org/abs/2208.03211v8 )

ライセンス: Link先を確認
Qingyang Wang, Michael A. Powell, Ali Geisa, Eric Bridgeford, Carey E. Priebe, Joshua T. Vogelstein(参考訳) なぜ脳は抑制的なつながりを持つのか? なぜディープネットワークは負の重みを持つのか? 我々は,表現能力の観点からの回答を提案する。 機能を表現することが 両方の主要な役割であると信じています i) 自然知能の脳 そして (ii)人工知能の深層ネットワーク。 抑制的/負の重みがある理由に対する我々の答えは、 より多くの機能を学ぶこと。 負の重みがない場合、非減少活性化関数を持つニューラルネットワークは普遍近似器ではないことを証明した。 これは直感的な結果かもしれないが、私たちの知る限りでは、機械学習でも神経科学でも、なぜ負の重みが表現能力の文脈で重要なのかを示す公式な理論は存在しない。 さらに、非負のディープネットワークでは表現できない表現空間の幾何学的性質に関する洞察を与える。 これらの洞察は、より効率的な生物学的および機械学習につながる重量の分布に課されるより洗練された誘導的先入観をより深く理解することを期待しています。

Why do brains have inhibitory connections? Why do deep networks have negative weights? We propose an answer from the perspective of representation capacity. We believe representing functions is the primary role of both (i) the brain in natural intelligence, and (ii) deep networks in artificial intelligence. Our answer to why there are inhibitory/negative weights is: to learn more functions. We prove that, in the absence of negative weights, neural networks with non-decreasing activation functions are not universal approximators. While this may be an intuitive result to some, to the best of our knowledge, there is no formal theory, in either machine learning or neuroscience, that demonstrates why negative weights are crucial in the context of representation capacity. Further, we provide insights on the geometric properties of the representation space that non-negative deep networks cannot represent. We expect these insights will yield a deeper understanding of more sophisticated inductive priors imposed on the distribution of weights that lead to more efficient biological and machine learning.
翻訳日:2023-08-21 20:02:29 公開日:2023-08-17
# 異種良腕識別

Differential Good Arm Identification ( http://arxiv.org/abs/2303.07154v2 )

ライセンス: Link先を確認
Yun-Da Tsai, Tzu-Hsien Tsai, Shou-De Lin(参考訳) 本稿では,GAIと呼ばれる確率的マルチアームバンディット問題の変種を対象とする。 GAIは純粋な探索用バンディット問題であり、できるだけ多くの良い腕をできるだけ少ないサンプルで出力することを目的としており、良い腕は期待される報酬が与えられた閾値より大きい腕として定義される。 本研究では,データ駆動方式で最新のhdocアルゴリズムのサンプル複雑性を改善するための,微分可能な優れたアーム識別アルゴリズムであるdgaiを提案する。 また,DGAIは,アームセットに対する事前知識のしきい値から,汎用マルチアームバンディット(MAB)問題の性能をさらに向上させることができることを示した。 GAIタスクとMABタスクの両方の合成および実世界のデータセットにおいて,我々のアルゴリズムがベースラインアルゴリズムよりも有意に優れていることを確認した。

This paper targets a variant of the stochastic multi-armed bandit problem called good arm identification (GAI). GAI is a pure-exploration bandit problem with the goal to output as many good arms using as few samples as possible, where a good arm is defined as an arm whose expected reward is greater than a given threshold. In this work, we propose DGAI - a differentiable good arm identification algorithm to improve the sample complexity of the state-of-the-art HDoC algorithm in a data-driven fashion. We also showed that the DGAI can further boost the performance of a general multi-arm bandit (MAB) problem given a threshold as a prior knowledge to the arm set. Extensive experiments confirm that our algorithm outperform the baseline algorithms significantly in both synthetic and real world datasets for both GAI and MAB tasks.
翻訳日:2023-08-21 19:54:45 公開日:2023-08-17
# TARGET: 常用蒸留による一級連続学習

TARGET: Federated Class-Continual Learning via Exemplar-Free Distillation ( http://arxiv.org/abs/2303.06937v3 )

ライセンス: Link先を確認
Jie Zhang, Chen Chen, Weiming Zhuang, Lingjuan Lv(参考訳) 本稿では,新しいクラスを動的に追加するフェデレーション型クラス連続学習(fccl)について述べる。 既存のFCCLの作業には、データセットの追加や、以前のタスクからのプライベートデータの保存など、さまざまな制限がある。 その結果,非IIDデータによりFLにおける破滅的忘れの問題が悪化することが確認された。 次に,クライアントデータプライバシを保護しながらFCCLにおける破滅的な忘れを緩和するTARGET(federat\textbf{T}ed cl\textbf{A}ss-continual lea\textbf{R}nin\textbf{G} via \textbf{E}xemplar-free dis\textbf{T}illation)を提案する。 提案手法では,前述したグローバルモデルを利用して,過去のタスクの知識をモデルレベルで現在のタスクに転送する。 さらに、データレベルで各クライアント上のデータのグローバルな分布をシミュレートする合成データを生成するように、ジェネレータを訓練する。 従来のFCCLメソッドと比較して、TARGETは追加のデータセットや以前のタスクからの実際のデータを格納する必要がなく、データに敏感なシナリオに最適である。

This paper focuses on an under-explored yet important problem: Federated Class-Continual Learning (FCCL), where new classes are dynamically added in federated learning. Existing FCCL works suffer from various limitations, such as requiring additional datasets or storing the private data from previous tasks. In response, we first demonstrate that non-IID data exacerbates catastrophic forgetting issue in FL. Then we propose a novel method called TARGET (federat\textbf{T}ed cl\textbf{A}ss-continual lea\textbf{R}nin\textbf{G} via \textbf{E}xemplar-free dis\textbf{T}illation), which alleviates catastrophic forgetting in FCCL while preserving client data privacy. Our proposed method leverages the previously trained global model to transfer knowledge of old tasks to the current task at the model level. Moreover, a generator is trained to produce synthetic data to simulate the global distribution of data on each client at the data level. Compared to previous FCCL methods, TARGET does not require any additional datasets or storing real data from previous tasks, which makes it ideal for data-sensitive scenarios.
翻訳日:2023-08-21 19:54:35 公開日:2023-08-17
# 微調整データによる事前学習バイアスのオーバーライト

Overwriting Pretrained Bias with Finetuning Data ( http://arxiv.org/abs/2303.06167v2 )

ライセンス: Link先を確認
Angelina Wang and Olga Russakovsky(参考訳) 転送学習は、大規模データセットで事前訓練されたモデルの表現的特徴を、より小さく、よりドメイン固有のデータセットのターゲットタスクのために微調整することで、有用である。 しかし、これらの事前訓練されたモデルは、微調整されたモデルに伝播する独自のバイアスを持つかもしれないという懸念がある。 本研究は,対象タスクと機密属性とのスパーラス相関とデータセット内の特定のグループの過小表現の両方として概念化されたバイアスについて検討する。 バイアスの両概念の下では、(1)事前訓練されたモデルの上に微調整されたモデルが実際にバイアスを継承できることが分かるが、(2)このバイアスは、微調整データセットへの比較的小さな介入によって修正され、しばしばパフォーマンスに無視できる影響で修正できる。 この結果から,下流タスクのバイアス低減には,データセットの微調整が重要であり,事前学習したモデルのバイアスを補うことさえ可能であることが示唆された。

Transfer learning is beneficial by allowing the expressive features of models pretrained on large-scale datasets to be finetuned for the target task of smaller, more domain-specific datasets. However, there is a concern that these pretrained models may come with their own biases which would propagate into the finetuned model. In this work, we investigate bias when conceptualized as both spurious correlations between the target task and a sensitive attribute as well as underrepresentation of a particular group in the dataset. Under both notions of bias, we find that (1) models finetuned on top of pretrained models can indeed inherit their biases, but (2) this bias can be corrected for through relatively minor interventions to the finetuning dataset, and often with a negligible impact to performance. Our findings imply that careful curation of the finetuning dataset is important for reducing biases on a downstream task, and doing so can even compensate for bias in the pretrained model.
翻訳日:2023-08-21 19:54:04 公開日:2023-08-17
# 制約付きプロキシ学習によるディープオーディナル分類のためのクラスレイアウト制御

Controlling class layout for deep ordinal classification via constrained proxies learning ( http://arxiv.org/abs/2303.00396v3 )

ライセンス: Link先を確認
Cong Wang, Zhiwei Jiang, Yafeng Yin, Zifeng Cheng, Shiping Ge, Qing Gu(参考訳) 深い順序の分類では、順序の分類に特有のよく構造化された特徴空間を学ぶことは、クラス間の順序の性質を適切に捉えるのに役立つ。 直観的には、ユークリッド距離計量を用いると、特徴空間における理想的な順序配置は、サンプルクラスタが空間内の直線に沿ってクラス順に配置されることである。 しかし、機能空間の特定のレイアウトに合致するようにサンプルを強制することは難しい問題である。 そこで本研究では,各順序クラスのプロキシを学習し,それらのプロキシを制約することでクラス全体のレイアウトを調整可能な,制約付きプロキシ学習(Constrained Proxies Learning, CPL)手法を提案する。 具体的には,ハードレイアウト制約とソフトレイアウト制約の2種類の戦略を提案する。 ハードレイアウト制約は、プロキシの生成を直接制御して、厳密な線形レイアウトまたは半円形レイアウト(すなわち厳密な順序レイアウトの2つのインスタンス)に配置させることによって実現される。 ソフトレイアウトの制約は、プロキシレイアウトが常に各プロキシ(つまり緩やかな順序のレイアウト)に対して、アンモダルプロキシとプロキシの類似性分布を生成するように制約することで実現される。 実験により,提案手法は特徴抽出器の同一設定下で従来の深部順序分類法よりも優れていることが示された。

For deep ordinal classification, learning a well-structured feature space specific to ordinal classification is helpful to properly capture the ordinal nature among classes. Intuitively, when Euclidean distance metric is used, an ideal ordinal layout in feature space would be that the sample clusters are arranged in class order along a straight line in space. However, enforcing samples to conform to a specific layout in the feature space is a challenging problem. To address this problem, in this paper, we propose a novel Constrained Proxies Learning (CPL) method, which can learn a proxy for each ordinal class and then adjusts the global layout of classes by constraining these proxies. Specifically, we propose two kinds of strategies: hard layout constraint and soft layout constraint. The hard layout constraint is realized by directly controlling the generation of proxies to force them to be placed in a strict linear layout or semicircular layout (i.e., two instantiations of strict ordinal layout). The soft layout constraint is realized by constraining that the proxy layout should always produce unimodal proxy-to-proxies similarity distribution for each proxy (i.e., to be a relaxed ordinal layout). Experiments show that the proposed CPL method outperforms previous deep ordinal classification methods under the same setting of feature extractor.
翻訳日:2023-08-21 19:53:47 公開日:2023-08-17
# 変化は難しい:サブ人口シフトをよく見る

Change is Hard: A Closer Look at Subpopulation Shift ( http://arxiv.org/abs/2302.12254v3 )

ライセンス: Link先を確認
Yuzhe Yang, Haoran Zhang, Dina Katabi, Marzyeh Ghassemi(参考訳) 機械学習モデルは、トレーニングデータに不足しているサブグループでよく機能しない。 しかし、サブポピュレーションシフトを引き起こすメカニズムのばらつきや、どのようにアルゴリズムがこのような多様なシフトを大規模に一般化するかについては、ほとんど理解されていない。 本研究では,サブポピュレーションシフトの微粒化解析を行う。 まず,サブグループにおける共通シフトを分類し,説明する統一フレームワークを提案する。 次に,視覚領域,言語領域,医療領域の12の現実世界データセットで評価された20の最先端アルゴリズムの総合ベンチマークを構築した。 1万モデル以上のトレーニングから得られた結果から,この領域における今後の進歩に対する興味深い観測結果が得られた。 まず、既存のアルゴリズムはある種のシフトよりも部分群ロバスト性を改善するが、他のアルゴリズムは改善しない。 また,現在のアルゴリズムはモデル選択のためのグループ指定検証データに依存しているが,最悪のクラス精度に基づく単純な選択基準は,グループ情報なしでも驚くほど有効であることがわかった。 最後に、最悪のグループ精度(WGA)の改善を目的とする既存の作業とは異なり、WGAと他の重要なメトリクスとの根本的なトレードオフを示し、テストメトリクスを慎重に選択する必要性を強調します。 コードとデータは、https://github.com/yyzharry/subpopbenchで入手できる。

Machine learning models often perform poorly on subgroups that are underrepresented in the training data. Yet, little is understood on the variation in mechanisms that cause subpopulation shifts, and how algorithms generalize across such diverse shifts at scale. In this work, we provide a fine-grained analysis of subpopulation shift. We first propose a unified framework that dissects and explains common shifts in subgroups. We then establish a comprehensive benchmark of 20 state-of-the-art algorithms evaluated on 12 real-world datasets in vision, language, and healthcare domains. With results obtained from training over 10,000 models, we reveal intriguing observations for future progress in this space. First, existing algorithms only improve subgroup robustness over certain types of shifts but not others. Moreover, while current algorithms rely on group-annotated validation data for model selection, we find that a simple selection criterion based on worst-class accuracy is surprisingly effective even without any group information. Finally, unlike existing works that solely aim to improve worst-group accuracy (WGA), we demonstrate the fundamental tradeoff between WGA and other important metrics, highlighting the need to carefully choose testing metrics. Code and data are available at: https://github.com/YyzHarry/SubpopBench.
翻訳日:2023-08-21 19:53:07 公開日:2023-08-17
# 3次元医用画像解析における自己教師あり学習のための解剖的不変性モデリングと意味的アライメント

Anatomical Invariance Modeling and Semantic Alignment for Self-supervised Learning in 3D Medical Image Analysis ( http://arxiv.org/abs/2302.05615v3 )

ライセンス: Link先を確認
Yankai Jiang, Mingze Sun, Heng Guo, Xiaoyu Bai, Ke Yan, Le Lu and Minfeng Xu(参考訳) 自己教師付き学習(SSL)は、最近、3D医療画像解析タスクで有望なパフォーマンスを達成した。 現在の手法のほとんどは、もともと写真や自然画像用に設計された既存のsslパラダイムに従っており、様々な医療画像にまたがる固有の類似解剖学的構造を明示的に、かつ徹底的に利用することはできない。 これは、空間的ミスアライメント情報と異なる解剖学的意味論を含む特徴間の類似性を最大化することによって、学習された深層表現の品質を低下させる可能性がある。 本研究では,識別と生成の目的を巧みに組み合わせることで,解剖的不変性モデリングと意味的アライメントを明確に達成する,自己教師型学習フレームワークAliceを提案する。 alice氏は、不変解剖学的特徴を学ぶために、多様だが一貫性のあるハイレベルなセマンティクスを持つビュー間の類似性を奨励する、新しい対比学習戦略を導入した。 さらに,局所的な画像コンテンツの分布を条件としたグローバルな意味とパッチ間トポロジ情報とを補完する条件付き解剖学的特徴アライメントモジュールを設計し,よりコントラストの高いペアを作成できるようにする。 3次元医用画像解析タスクに関する広範囲な定量的実験により,aliceの性能の優位性を実証し,検証し,従来のssl対応手法を上回り,統一表現学習に有望な能力を示す。 コードはhttps://github.com/alibaba-damo-academy/aliceで入手できる。

Self-supervised learning (SSL) has recently achieved promising performance for 3D medical image analysis tasks. Most current methods follow existing SSL paradigm originally designed for photographic or natural images, which cannot explicitly and thoroughly exploit the intrinsic similar anatomical structures across varying medical images. This may in fact degrade the quality of learned deep representations by maximizing the similarity among features containing spatial misalignment information and different anatomical semantics. In this work, we propose a new self-supervised learning framework, namely Alice, that explicitly fulfills Anatomical invariance modeling and semantic alignment via elaborately combining discriminative and generative objectives. Alice introduces a new contrastive learning strategy which encourages the similarity between views that are diversely mined but with consistent high-level semantics, in order to learn invariant anatomical features. Moreover, we design a conditional anatomical feature alignment module to complement corrupted embeddings with globally matched semantics and inter-patch topology information, conditioned by the distribution of local image content, which permits to create better contrastive pairs. Our extensive quantitative experiments on three 3D medical image analysis tasks demonstrate and validate the performance superiority of Alice, surpassing the previous best SSL counterpart methods and showing promising ability for united representation learning. Codes are available at https://github.com/alibaba-damo-academy/alice.
翻訳日:2023-08-21 19:52:33 公開日:2023-08-17
# プロンプトプランニングと知識記憶によるテーブル・ツー・テキスト生成

Few-Shot Table-to-Text Generation with Prompt Planning and Knowledge Memorization ( http://arxiv.org/abs/2302.04415v3 )

ライセンス: Link先を確認
Zhixin Guo, Minyxuan Yan, Jiexing Qi, Jianping Zhou, Ziwei He, Zhouhan Lin, Guanjie Zheng and Xinbing Wang(参考訳) 事前学習型言語モデル (PLM) は、表-テキスト生成タスクにおいて顕著な進歩を遂げている。 しかし、ラベル付きドメイン固有の知識の欠如と表データとテキストの間のトポロジーギャップにより、plmが忠実なテキストを得るのが困難になる。 低リソース生成も同様に、このドメインにおけるユニークな課題に直面します。 人間が事前に知識を持って表データを記述する方法に触発されて、私たちは新しいフレームワーク、prompmitizeを提案しました。 私たちのフレームワークの設計は、プロンプトプランナーと知識アダプタの2つの側面で構成されています。 プロンプトプランナーは、表データとテキスト間のトポロジギャップをブリッジするために、PLMのインスタンスガイダンスを提供するプロンプト信号を生成することを目指している。 さらに、知識アダプタは、未ラベルコーパスからドメイン固有の知識を記憶し、生成時に必須情報を提供する。 オープンドメインのnlgデータセットであるhuman, song, bookについて,広範な実験と解析を行った。 従来の最先端手法と比較して,人間および自動評価により評価した品質生成性能は著しく向上した。

Pre-trained language models (PLM) have achieved remarkable advancement in table-to-text generation tasks. However, the lack of labeled domain-specific knowledge and the topology gap between tabular data and text make it difficult for PLMs to yield faithful text. Low-resource generation likewise faces unique challenges in this domain. Inspired by how humans descript tabular data with prior knowledge, we suggest a new framework: PromptMize, which targets table-to-text generation under few-shot settings. The design of our framework consists of two aspects: a prompt planner and a knowledge adapter. The prompt planner aims to generate a prompt signal that provides instance guidance for PLMs to bridge the topology gap between tabular data and text. Moreover, the knowledge adapter memorizes domain-specific knowledge from the unlabelled corpus to supply essential information during generation. Extensive experiments and analyses are investigated on three open domain few-shot NLG datasets: human, song, and book. Compared with previous state-of-the-art approaches, our model achieves remarkable performance in generating quality as judged by human and automatic evaluations.
翻訳日:2023-08-21 19:52:06 公開日:2023-08-17
# ChatGPTはインテントを検出できるか? 音声言語理解のための大規模言語モデルの評価

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding ( http://arxiv.org/abs/2305.13512v2 )

ライセンス: Link先を確認
Mutian He, Philip N. Garner(参考訳) 近年,大規模な事前学習型言語モデルにより,言語理解能力が向上している。 これは特に、プロンプトによるダウンストリームタスクのゼロショットとインコンテキスト学習能力に反映されている。 音声言語理解(SLU)への影響を評価するため,複数のベンチマークでChatGPTやOPTなど,さまざまなサイズのモデルを評価した。 我々は,最大モデルに特有の創発的能力を検証するとともに,命令書の書き起こしを与えられた言語に対して,ゼロあるいは少数で教師付きモデルに近い意図的分類精度を達成可能である。 対照的に、1つのGPUにフィットする小型モデルの結果は、はるかに遅れている。 エラーケースはデータセットのアノテーションスキームから生じることが多いが、ChatGPTからの応答は依然として妥当である。 しかし,本モデルではスロットフィリングが悪く,ASR誤差に敏感であり,SLU上でのテキストモデルの適用に深刻な課題が示唆されている。

Recently, large pretrained language models have demonstrated strong language understanding capabilities. This is particularly reflected in their zero-shot and in-context learning abilities on downstream tasks through prompting. To assess their impact on spoken language understanding (SLU), we evaluate several such models like ChatGPT and OPT of different sizes on multiple benchmarks. We verify the emergent ability unique to the largest models as they can reach intent classification accuracy close to that of supervised models with zero or few shots on various languages given oracle transcripts. By contrast, the results for smaller models fitting a single GPU fall far behind. We note that the error cases often arise from the annotation scheme of the dataset; responses from ChatGPT are still reasonable. We show, however, that the model is worse at slot filling, and its performance is sensitive to ASR errors, suggesting serious challenges for the application of those textual models on SLU.
翻訳日:2023-08-21 19:46:30 公開日:2023-08-17
# clinical camel:対話型知識エンコーディングを用いたオープンエキスパートレベルの医療言語モデル

Clinical Camel: An Open Expert-Level Medical Language Model with Dialogue-Based Knowledge Encoding ( http://arxiv.org/abs/2305.12031v2 )

ライセンス: Link先を確認
Augustin Toma, Patrick R. Lawler, Jimmy Ba, Rahul G. Krishnan, Barry B. Rubin, Bo Wang(参考訳) 臨床研究に適したオープン・大型言語モデル(LLM)であるクリニカル・カメルについて述べる。 QLoRAを用いてLLaMA-2を微調整し,医療用LCMの医療用ベンチマークにおける最先端性能を実現する。 効率的なシングルGPUトレーニングを活用するため、クリニカルキャメルは、USMLEサンプルエクサムで64.3%(GPT-3.5で58.5%)、PubMedQAで77.9%(60.2%)、MedQAで60.7%(53.6%)、MedMCQAで54.2%(51.0%)の5ショット評価でGPT-3.5を上回った。 これらのベンチマークに加えて、クリニカルキャメルはプラウシブルな臨床ノートの合成などの幅広い能力を示している。 本研究は,高密度医用テキストから会話データを合成する新しい手法である対話型知識符号化を導入する。 ベンチマークの結果は奨励的だが、さまざまな臨床シナリオにわたる広範囲で厳密な人間評価は、実施前に安全性を確認するために不可欠である。 臨床ラクダをオープンに共有することで、透明で協力的な研究を促進し、医療領域におけるllmの安全な統合に向けて取り組んでいきたいと考えています。 信頼性、バイアス、時代遅れの知識の可能性に関する重要な課題が続いている。 それでも、オープンアプローチによって提供される透明性は、将来の臨床応用に不可欠な科学的厳格さを強化する。

We present Clinical Camel, an open large language model (LLM) explicitly tailored for clinical research. Fine-tuned from LLaMA-2 using QLoRA, Clinical Camel achieves state-of-the-art performance across medical benchmarks among openly available medical LLMs. Leveraging efficient single-GPU training, Clinical Camel surpasses GPT-3.5 in five-shot evaluations on all assessed benchmarks, including 64.3% on the USMLE Sample Exam (compared to 58.5% for GPT-3.5), 77.9% on PubMedQA (compared to 60.2%), 60.7% on MedQA (compared to 53.6%), and 54.2% on MedMCQA (compared to 51.0%). In addition to these benchmarks, Clinical Camel demonstrates its broader capabilities, such as synthesizing plausible clinical notes. This work introduces dialogue-based knowledge encoding, a novel method to synthesize conversational data from dense medical texts. While benchmark results are encouraging, extensive and rigorous human evaluation across diverse clinical scenarios is imperative to ascertain safety before implementation. By openly sharing Clinical Camel, we hope to foster transparent and collaborative research, working towards the safe integration of LLMs within the healthcare domain. Significant challenges concerning reliability, bias, and the potential for outdated knowledge persist. Nonetheless, the transparency provided by an open approach reinforces the scientific rigor essential for future clinical applications.
翻訳日:2023-08-21 19:46:16 公開日:2023-08-17
# MedLens: 医療信号の選択と回帰による死亡予測の改善

MedLens: Improve Mortality Prediction Via Medical Signs Selecting and Regression ( http://arxiv.org/abs/2305.11742v2 )

ライセンス: Link先を確認
Xuesong Ye, Jun Wu, Chengjie Mou, and Weinan Dai(参考訳) 患者の健康状態のモニタリングと死亡率の予測は、タイムリーなケアと治療を提供する上で不可欠である。 電子健康記録(EHR)の大規模医療標識は、予測を行うための高度な機械学習モデルに組み込まれている。 しかし,本論文では,本来の臨床症状のデータ品質の問題については議論されていない。 様々な医学的徴候の欠失率と相関スコアの詳細な測定と多量の患者病院入院記録から,包括的欠失率は非常に高く,多くの無用な徴候が予測モデルの性能を損なう可能性があることを発見した。 そして、データ品質の改善だけが予測アルゴリズムの基準精度を向上させると結論付けた。 我々はMEDLENSを,統計による自動バイタルメディカルサイン選択法と,高損失率時系列に対するフレキシブル補間法を用いて設計した。 元の医療標識のデータ品質を向上した後、MEDLENSはアンサンブル分類器を適用して精度を高め、同時に計算オーバーヘッドを削減する。 精度は 0.96 AUC-ROC と 0.81 AUC-PR で、これは以前のベンチマークを超えている。

Monitoring the health status of patients and predicting mortality in advance is vital for providing patients with timely care and treatment. Massive medical signs in electronic health records (EHR) are fitted into advanced machine learning models to make predictions. However, the data-quality problem of original clinical signs is less discussed in the literature. Based on an in-depth measurement of the missing rate and correlation score across various medical signs and a large amount of patient hospital admission records, we discovered the comprehensive missing rate is extremely high, and a large number of useless signs could hurt the performance of prediction models. Then we concluded that only improving data-quality could improve the baseline accuracy of different prediction algorithms. We designed MEDLENS, with an automatic vital medical signs selection approach via statistics and a flexible interpolation approach for high missing rate time series. After augmenting the data-quality of original medical signs, MEDLENS applies ensemble classifiers to boost the accuracy and reduce the computation overhead at the same time. It achieves a very high accuracy performance of 0.96 AUC-ROC and 0.81 AUC-PR, which exceeds the previous benchmark.
翻訳日:2023-08-21 19:45:48 公開日:2023-08-17
# グラディエントDescentを用いた決定木学習

Learning Decision Trees with Gradient Descent ( http://arxiv.org/abs/2305.03515v2 )

ライセンス: Link先を確認
Sascha Marton and Stefan L\"udtke and Christian Bartelt and Heiner Stuckenschmidt(参考訳) 決定木(DT)は、高い解釈可能性のために多くの機械学習タスクに一般的に使用される。 しかし、DTをデータから学習することは、非凸で微分不可能であるため、難しい最適化問題である。 したがって、共通のアプローチは各内部ノードの局所的な不純物を最小化する欲望成長アルゴリズムを用いてdtsを学ぶ。 残念なことに、この欲深い手順は不正確な木につながる可能性がある。 本稿では,勾配勾配の強い軸方向のDTを学習するための新しい手法を提案する。 提案手法では,高密度dt表現上のストレートスルー演算子を用いたバックプロパゲーションを用いて,全木パラメータを協調的に最適化する。 提案手法は,バイナリ分類ベンチマークの既存手法を上回り,マルチクラスタスクの競合結果を得る。

Decision Trees (DTs) are commonly used for many machine learning tasks due to their high degree of interpretability. However, learning a DT from data is a difficult optimization problem, as it is non-convex and non-differentiable. Therefore, common approaches learn DTs using a greedy growth algorithm that minimizes the impurity locally at each internal node. Unfortunately, this greedy procedure can lead to inaccurate trees. In this paper, we present a novel approach for learning hard, axis-aligned DTs with gradient descent. The proposed method uses backpropagation with a straight-through operator on a dense DT representation, to jointly optimize all tree parameters. Our approach outperforms existing methods on binary classification benchmarks and achieves competitive results for multi-class tasks.
翻訳日:2023-08-21 19:44:50 公開日:2023-08-17
# chaos comes order - オブジェクト認識と検出のためのイベント表現の順序付け

From Chaos Comes Order: Ordering Event Representations for Object Recognition and Detection ( http://arxiv.org/abs/2304.13455v3 )

ライセンス: Link先を確認
Nikola Zubi\'c, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza(参考訳) 今日では、イベントを処理する最先端のディープニューラルネットワークは、まずそれらを、オフザシェルフネットワークを使用する前に、密度の高いグリッドのような入力表現に変換する。 しかし、伝統的にタスクの適切な表現を選択するには、各表現のためのニューラルネットワークをトレーニングし、検証スコアに基づいて最適なものを選択する必要がある。 この研究は、Gromov-Wasserstein Discrepancy (GWD) に基づく表現を生イベントとそれらの表現の間で選択することで、このボトルネックを取り除く。 ニューラルネットワークのトレーニングよりも計算が約200倍高速で、複数の表現、ネットワークバックボーン、データセット、タスクにわたるイベント表現のタスクパフォーマンスランキングを保存する。 したがって、高いタスクスコアを持つ表現を見つけることは、低いGWDを持つ表現を見つけることと等価である。 私たちはこの洞察を初めて、大きなイベント表現のファミリーでハイパーパラメータ検索を実行し、最先端を超えた新しい強力な表現を明らかにするために使用します。 1mpxデータセットの1.7マップ、gen1データセットの0.3マップ、確立された2つのオブジェクト検出ベンチマーク、そしてmini n-imagenetベンチマークの3.8%高い分類スコアに達した。 さらに、Gen1では2.1mAP、1Mpxデータセットでは6.0mAPで最先端のフィードフォワード法より優れています。 この作業は、イベントベース学習のための明示的な表現最適化の新たな未検討分野を開く。

Today, state-of-the-art deep neural networks that process events first convert them into dense, grid-like input representations before using an off-the-shelf network. However, selecting the appropriate representation for the task traditionally requires training a neural network for each representation and selecting the best one based on the validation score, which is very time-consuming. This work eliminates this bottleneck by selecting representations based on the Gromov-Wasserstein Discrepancy (GWD) between raw events and their representation. It is about 200 times faster to compute than training a neural network and preserves the task performance ranking of event representations across multiple representations, network backbones, datasets, and tasks. Thus finding representations with high task scores is equivalent to finding representations with a low GWD. We use this insight to, for the first time, perform a hyperparameter search on a large family of event representations, revealing new and powerful representations that exceed the state-of-the-art. Our optimized representations outperform existing representations by 1.7 mAP on the 1 Mpx dataset and 0.3 mAP on the Gen1 dataset, two established object detection benchmarks, and reach a 3.8% higher classification score on the mini N-ImageNet benchmark. Moreover, we outperform state-of-the-art by 2.1 mAP on Gen1 and state-of-the-art feed-forward methods by 6.0 mAP on the 1 Mpx datasets. This work opens a new unexplored field of explicit representation optimization for event-based learning.
翻訳日:2023-08-21 19:44:24 公開日:2023-08-17
# AIを使って自宅でパーキンソン病の重症度を測定する

Using AI to Measure Parkinson's Disease Severity at Home ( http://arxiv.org/abs/2303.17573v4 )

ライセンス: Link先を確認
Md Saiful Islam, Wasifur Rahman, Abdelrahman Abdelkader, Phillip T. Yang, Sangwu Lee, Jamie L. Adams, Ruth B. Schneider, E. Ray Dorsey, Ehsan Hoque(参考訳) 本稿では,パーキンソン病(PD)患者の運動性能を遠隔から評価する人工知能システムを提案する。 参加者はwebカメラの前で運動タスク(つまり指をタップする)を行い、250人のグローバル参加者のデータを運動障害協会(move disorder society)の3人の専門家神経学者によって評価された。 神経学者の評価は信頼性が高く, クラス内相関係数(ICC)は0.88。 我々は,MDS-UPDRSガイドラインに適合し,神経学者の評価と強く相関する客観的な測定値を得るために,コンピュータアルゴリズムを開発した。 我々の機械学習モデルは,MDS-UPDRS認定レーダよりも優れており,平均絶対誤差は0.59であり,レーダのMAEは0.79であった。 しかし、このモデルは専門家神経学者 (0.53 MAE) よりわずかに悪化した。 この方法論は、同様の運動タスクのために複製することができ、pdや他の運動障害を持つ個人を遠隔、客観的、および神経学的ケアへのアクセスが制限された領域で評価することができる。

We present an artificial intelligence system to remotely assess the motor performance of individuals with Parkinson's disease (PD). Participants performed a motor task (i.e., tapping fingers) in front of a webcam, and data from 250 global participants were rated by three expert neurologists following the Movement Disorder Society Unified Parkinson's Disease Rating Scale (MDS-UPDRS). The neurologists' ratings were highly reliable, with an intra-class correlation coefficient (ICC) of 0.88. We developed computer algorithms to obtain objective measurements that align with the MDS-UPDRS guideline and are strongly correlated with the neurologists' ratings. Our machine learning model trained on these measures outperformed an MDS-UPDRS certified rater, with a mean absolute error (MAE) of 0.59 compared to the rater's MAE of 0.79. However, the model performed slightly worse than the expert neurologists (0.53 MAE). The methodology can be replicated for similar motor tasks, providing the possibility of evaluating individuals with PD and other movement disorders remotely, objectively, and in areas with limited access to neurological care.
翻訳日:2023-08-21 19:43:57 公開日:2023-08-17
# HiLo:unbiased Panoptic Scene Graph 生成のための高周波数関係の爆発

HiLo: Exploiting High Low Frequency Relations for Unbiased Panoptic Scene Graph Generation ( http://arxiv.org/abs/2303.15994v2 )

ライセンス: Link先を確認
Zijian Zhou, Miaojing Shi, Holger Caesar(参考訳) パノプティック・シーングラフ生成(PSG)は画像シーン理解において最近提案された課題であり、被験者、対象物、それらの関係を分割してシーングラフを構築することを目的としている。 この課題は2つの理由から特に難しい。 第一に、関係カテゴリーの長い問題に悩まされ、偏りのある手法が高周波関係に傾いている。 既存の非バイアス法は、低周波関係を好むデータ/損失再バランスによって、ロングテール問題に取り組む。 第二に、対象と対象のペアは2つ以上の意味的に重なり合う関係を持つことができる。 既存の手法は相互に有利だが,提案するHiLoフレームワークでは,低周波・高周波関係に特化して,その一貫性を強制し,結果を融合させる。 我々の知る限りでは、我々は最初に明らかに偏りのないPSG法を提案する。 広範にわたる実験により,我々のHiLoフレームワークはPSGタスクにおける最先端の処理結果が得られることを示した。 また、マスクの代わりにボックスを予測するScene Graph Generationタスクにもメソッドを適用し、すべてのベースラインメソッドの改善を確認します。 コードはhttps://github.com/franciszzj/hiloで入手できる。

Panoptic Scene Graph generation (PSG) is a recently proposed task in image scene understanding that aims to segment the image and extract triplets of subjects, objects and their relations to build a scene graph. This task is particularly challenging for two reasons. First, it suffers from a long-tail problem in its relation categories, making naive biased methods more inclined to high-frequency relations. Existing unbiased methods tackle the long-tail problem by data/loss rebalancing to favor low-frequency relations. Second, a subject-object pair can have two or more semantically overlapping relations. While existing methods favor one over the other, our proposed HiLo framework lets different network branches specialize on low and high frequency relations, enforce their consistency and fuse the results. To the best of our knowledge we are the first to propose an explicitly unbiased PSG method. In extensive experiments we show that our HiLo framework achieves state-of-the-art results on the PSG task. We also apply our method to the Scene Graph Generation task that predicts boxes instead of masks and see improvements over all baseline methods. Code is available at https://github.com/franciszzj/HiLo.
翻訳日:2023-08-21 19:43:36 公開日:2023-08-17
# オートエンコーダを用いた植物プランクトン寄生虫検出に向けて

Towards Phytoplankton Parasite Detection Using Autoencoders ( http://arxiv.org/abs/2303.08744v2 )

ライセンス: Link先を確認
Simon Bilik, Daniel Batrakhanov, Tuomas Eerola, Lumi Haraguchi, Kaisa Kraft, Silke Van den Wyngaert, Jonna Kangas, Conny Sj\"oqvist, Karin Madsen, Lasse Lensu, Heikki K\"alvi\"ainen, Karel Horak(参考訳) 植物プランクトン寄生虫は、主に未熟な微生物成分であり、植物プランクトン・ブルーム・ダイナミクスに潜在的に重要な生態的影響がある。 水生生態系のモニタリングにおいて,植物プランクトンと寄生虫の相互作用を統合する方法の改善が必要である。 自動撮像装置は通常大量の植物プランクトン画像データを生成するが、異常な植物プランクトンデータの発生は稀である。 そこで本研究では,オリジナルおよび自動エンコーダ再構成標本の類似性に基づく教師なし異常検出システムを提案する。 このアプローチにより,9種の植物プランクトン種において総F1スコア0.75に達することができ,種特異的な微調整によりさらに改善することができた。 提案手法はより高速なr-cnnベースの物体検出器と比較された。 この指導的アプローチとプランクトン種および異常を訓練したモデルにより、我々は最高F1スコア0.86に達することができた。 しかし、未知の異常も検出できるため、教師なしのアプローチはより普遍的であり、常に十分な量で利用できないような注釈付き異常データを必要としない。 他の研究では、非プランクトン粒子や気泡検出の観点からプランクトン異常検出を扱っているが、本論文は、植物プランクトン寄生虫や感染症を考慮に入れた自動異常検出に焦点を当てたものである。

Phytoplankton parasites are largely understudied microbial components with a potentially significant ecological impact on phytoplankton bloom dynamics. To better understand their impact, we need improved detection methods to integrate phytoplankton parasite interactions in monitoring aquatic ecosystems. Automated imaging devices usually produce high amount of phytoplankton image data, while the occurrence of anomalous phytoplankton data is rare. Thus, we propose an unsupervised anomaly detection system based on the similarity of the original and autoencoder-reconstructed samples. With this approach, we were able to reach an overall F1 score of 0.75 in nine phytoplankton species, which could be further improved by species-specific fine-tuning. The proposed unsupervised approach was further compared with the supervised Faster R-CNN based object detector. With this supervised approach and the model trained on plankton species and anomalies, we were able to reach the highest F1 score of 0.86. However, the unsupervised approach is expected to be more universal as it can detect also unknown anomalies and it does not require any annotated anomalous data that may not be always available in sufficient quantities. Although other studies have dealt with plankton anomaly detection in terms of non-plankton particles, or air bubble detection, our paper is according to our best knowledge the first one which focuses on automated anomaly detection considering putative phytoplankton parasites or infections.
翻訳日:2023-08-21 19:43:15 公開日:2023-08-17
# エンド・ツー・エンド運転モデルの隠れバイアス

Hidden Biases of End-to-End Driving Models ( http://arxiv.org/abs/2306.07957v2 )

ライセンス: Link先を確認
Bernhard Jaeger and Kashyap Chitta and Andreas Geiger(参考訳) エンドツーエンドの運転システムは、特にCARLAにおいて、最近急速に進歩している。 主要な貢献とは独立して、マイナーなシステムコンポーネントに変更を導入する。 その結果、改善の源は明らかでない。 ほぼすべての最先端手法で再帰する2つのバイアスを同定し,CARLAにおける観察の進展に重要な要因として,(1)目標点に対する強い誘導バイアスによる横方向の回復,(2)減速のためのマルチモーダルなウェイポイント予測の経時的平均化を挙げる。 これらのバイアスの欠点を調査し、原理的な代替案を特定した。 私たちの洞察を取り入れたTF++は、Longest6とLAVベンチマークで最初にランク付けするシンプルなエンドツーエンドのメソッドで、Longest6の最高の先行作業よりも11の駆動スコアを獲得しています。

End-to-end driving systems have recently made rapid progress, in particular on CARLA. Independent of their major contribution, they introduce changes to minor system components. Consequently, the source of improvements is unclear. We identify two biases that recur in nearly all state-of-the-art methods and are critical for the observed progress on CARLA: (1) lateral recovery via a strong inductive bias towards target point following, and (2) longitudinal averaging of multimodal waypoint predictions for slowing down. We investigate the drawbacks of these biases and identify principled alternatives. By incorporating our insights, we develop TF++, a simple end-to-end method that ranks first on the Longest6 and LAV benchmarks, gaining 11 driving score over the best prior work on Longest6.
翻訳日:2023-08-21 19:34:33 公開日:2023-08-17
# パフォーマンスのためのワッフル:ランダムワードと広義概念を用いた視覚的分類

Waffling around for Performance: Visual Classification with Random Words and Broad Concepts ( http://arxiv.org/abs/2306.07282v2 )

ライセンス: Link先を確認
Karsten Roth, Jae Myung Kim, A. Sophia Koepke, Oriol Vinyals, Cordelia Schmid, Zeynep Akata(参考訳) CLIPのような視覚言語モデルの視覚的分類性能は、GPT-3のような大規模言語モデル(LLM)からのさらなる意味知識の恩恵を受けている。 特に、LLM生成したクラス記述子(例えば「丸いワッフル」など)に対する平均化は、特に一般化性能を向上することができる。 本研究では,この振る舞いを批判的に研究し,LLM生成記述子をランダムな文字と単語記述子に置き換えるゼロショット視覚分類フレームワークであるWaffleCLIPを提案する。 外部モデルに問い合わせることなく、多数の視覚的分類タスクにおいて同等のパフォーマンス向上を達成する。 これにより、WaffleCLIPは低コストの代替品として機能し、将来のLCMベースの視覚言語モデル拡張の正当性チェックを提供することができる。 LLM生成記述子で導入された追加のセマンティックスの影響と欠点に関する広範な実験を行い、もし利用可能であれば、高レベルの概念をLLMに問合せすることで、セマンティックコンテキストがどのように活用されるかを示す。 コードは、https://github.com/ExplainableML/WaffleCLIP.comで入手できる。

The visual classification performance of vision-language models such as CLIP has been shown to benefit from additional semantic knowledge from large language models (LLMs) such as GPT-3. In particular, averaging over LLM-generated class descriptors, e.g. "waffle, which has a round shape", can notably improve generalization performance. In this work, we critically study this behavior and propose WaffleCLIP, a framework for zero-shot visual classification which simply replaces LLM-generated descriptors with random character and word descriptors. Without querying external models, we achieve comparable performance gains on a large number of visual classification tasks. This allows WaffleCLIP to both serve as a low-cost alternative, as well as a sanity check for any future LLM-based vision-language model extensions. We conduct an extensive experimental study on the impact and shortcomings of additional semantics introduced with LLM-generated descriptors, and showcase how - if available - semantic context is better leveraged by querying LLMs for high-level concepts, which we show can be done to jointly resolve potential class name ambiguities. Code is available here: https://github.com/ExplainableML/WaffleCLIP.
翻訳日:2023-08-21 19:34:03 公開日:2023-08-17
# ロバスト一般化を改善するエンハンス拡散

Enhance Diffusion to Improve Robust Generalization ( http://arxiv.org/abs/2306.02618v2 )

ライセンス: Link先を確認
Jianhui Sun and Sanchit Sinha and Aidong Zhang(参考訳) ディープニューラルネットワークは、人間の知覚できない逆行性摂動に影響を受けやすい。 最も強力な防御機構の1つは \emph{adversarial training} (at)である。 本稿では,atの主な2つの問題に対処することを目的とする。 まず、AT研究における性能保証を伴うハイパーパラメータの設定方法に関するコンセンサスはほとんどなく、カスタマイズされた設定は、AT研究における異なるモデル設計間の公正な比較を妨げる。 第二に、堅牢に訓練されたニューラルネットワークは、うまく一般化するのに苦労し、非常に過度なオーバーフィッティングに苦しむ。 本稿は, 第一のATフレームワークである PGD-AT (Projected Gradient Descent Adversarial Training) に焦点を当てる。 連続時間確率微分方程式(SDE)によりPGD-ATの力学を近似し、このSDEの拡散項がロバストな一般化を決定することを示す。 この理論的な発見の直接的な意味は、堅牢な一般化は学習率とバッチサイズとの比と正に相関しているということである。 さらに, 拡散項を操作し, ほとんど計算量を持たず, 頑健な一般化を実現するための新しい手法, \emph{diffusion enhanced adversarial training} (deat)を提案する。 理論上, DEAT は PGD-AT よりも厳密な一般化が得られることを示す。 当社の実験的な調査は、pgd-atを圧倒的に上回っていることを十分に証明しています。

Deep neural networks are susceptible to human imperceptible adversarial perturbations. One of the strongest defense mechanisms is \emph{Adversarial Training} (AT). In this paper, we aim to address two predominant problems in AT. First, there is still little consensus on how to set hyperparameters with a performance guarantee for AT research, and customized settings impede a fair comparison between different model designs in AT research. Second, the robustly trained neural networks struggle to generalize well and suffer from tremendous overfitting. This paper focuses on the primary AT framework - Projected Gradient Descent Adversarial Training (PGD-AT). We approximate the dynamic of PGD-AT by a continuous-time Stochastic Differential Equation (SDE), and show that the diffusion term of this SDE determines the robust generalization. An immediate implication of this theoretical finding is that robust generalization is positively correlated with the ratio between learning rate and batch size. We further propose a novel approach, \emph{Diffusion Enhanced Adversarial Training} (DEAT), to manipulate the diffusion term to improve robust generalization with virtually no extra computational burden. We theoretically show that DEAT obtains a tighter generalization bound than PGD-AT. Our empirical investigation is extensive and firmly attests that DEAT universally outperforms PGD-AT by a significant margin.
翻訳日:2023-08-21 19:33:41 公開日:2023-08-17
# ReLUネットワークのサイズ非依存サンプル複雑性について

On Size-Independent Sample Complexity of ReLU Networks ( http://arxiv.org/abs/2306.01992v2 )

ライセンス: Link先を確認
Mark Sellke(参考訳) 一般化の観点からReLUニューラルネットワークを学習する際のサンプル複雑性について検討する。 重み行列のノルム制約が与えられたとき、関連する関数クラスのラデマッハ複雑性を推定する共通のアプローチがある。 以前の Golowich-Rakhlin-Shamir (2020) は、二乗根深さの係数を除いて、ネットワークサイズ(フロベニウスノルムの積とスケーリングする)の有界独立性を得た。 しばしば明示的な深さ依存性を持たない精細度を与える。

We study the sample complexity of learning ReLU neural networks from the point of view of generalization. Given norm constraints on the weight matrices, a common approach is to estimate the Rademacher complexity of the associated function class. Previously Golowich-Rakhlin-Shamir (2020) obtained a bound independent of the network size (scaling with a product of Frobenius norms) except for a factor of the square-root depth. We give a refinement which often has no explicit depth-dependence at all.
翻訳日:2023-08-21 19:33:19 公開日:2023-08-17
# InGram: 関係グラフによる帰納的知識グラフの埋め込み

InGram: Inductive Knowledge Graph Embedding via Relation Graphs ( http://arxiv.org/abs/2305.19987v3 )

ライセンス: Link先を確認
Jaejun Lee, Chanyoung Chung, Joyce Jiyoung Whang(参考訳) 帰納的知識グラフの完成は、トレーニング中に観察されない新しいエンティティ間の三重項の欠落を予測するタスクとみなされている。 ほとんどの帰納的知識グラフ補完法は、全ての実体が新しいものであると仮定するが、推論時に新しい関係が現れることを許さない。 この制限により、既存のメソッドは、新しいエンティティが新しい関係を伴う実世界の知識グラフを適切に扱うことができない。 本稿では,推論時に新たなエンティティだけでなく,新たな関係の埋め込みを生成できる帰納的知識グラフ埋め込み手法ingramを提案する。 知識グラフが与えられた場合、関係グラフは関係と親和性重みからなる重み付きグラフとして定義する。 関係グラフと元の知識グラフに基づいて、InGramは隣り合う埋め込みを集約する方法を学び、注意機構を用いて関係と実体の埋め込みを生成する。 実験の結果,InGramは様々な帰納的学習シナリオにおいて,14種類の最先端手法より優れていた。

Inductive knowledge graph completion has been considered as the task of predicting missing triplets between new entities that are not observed during training. While most inductive knowledge graph completion methods assume that all entities can be new, they do not allow new relations to appear at inference time. This restriction prohibits the existing methods from appropriately handling real-world knowledge graphs where new entities accompany new relations. In this paper, we propose an INductive knowledge GRAph eMbedding method, InGram, that can generate embeddings of new relations as well as new entities at inference time. Given a knowledge graph, we define a relation graph as a weighted graph consisting of relations and the affinity weights between them. Based on the relation graph and the original knowledge graph, InGram learns how to aggregate neighboring embeddings to generate relation and entity embeddings using an attention mechanism. Experimental results show that InGram outperforms 14 different state-of-the-art methods on varied inductive learning scenarios.
翻訳日:2023-08-21 19:33:10 公開日:2023-08-17
# トランスフォーマーを用いたハイパーリレーショナルおよび数値知識グラフの表現学習

Representation Learning on Hyper-Relational and Numeric Knowledge Graphs with Transformers ( http://arxiv.org/abs/2305.18256v3 )

ライセンス: Link先を確認
Chanyoung Chung, Jaejun Lee, Joyce Jiyoung Whang(参考訳) ハイパーリレーショナルナレッジグラフ(hyper-relational knowledge graph)では、三重項が一連の修飾子と関連づけられ、修飾子は関係と実体で構成され、三重項の補助情報を提供する。 既存のハイパーリレーショナルナレッジグラフ埋め込みメソッドはエンティティが離散オブジェクトであると仮定しているが、いくつかの情報は数値を使って表現されるべきである(j.r.r., born in, 1892)。 また、三重項(オックスフォード大学で教育を受けたJ.R.R.)は(開始時間、1911年)等式に関連付けられる。 本稿では,三重項あるいは等化子に数値リテラルを含むハイパーリレーショナル知識グラフの表現を学習するHyNTという統合フレームワークを提案する。 文脈変換器と予測変換器を定義し、三重項とその修飾子間の相関関係だけでなく、数値情報にも基いて表現を学習する。 三重項と等化器のコンパクト表現を学習して変換器に供給することにより,変換器の計算コストを削減できる。 hyntを使うことで、ハイパーリレーショナルナレッジグラフにおけるエンティティやリレーションの欠如に加えて、不足している数値を予測できる。 実験の結果,HyNTは実世界のデータセットにおいて最先端の手法よりも優れていた。

A hyper-relational knowledge graph has been recently studied where a triplet is associated with a set of qualifiers; a qualifier is composed of a relation and an entity, providing auxiliary information for a triplet. While existing hyper-relational knowledge graph embedding methods assume that the entities are discrete objects, some information should be represented using numeric values, e.g., (J.R.R., was born in, 1892). Also, a triplet (J.R.R., educated at, Oxford Univ.) can be associated with a qualifier such as (start time, 1911). In this paper, we propose a unified framework named HyNT that learns representations of a hyper-relational knowledge graph containing numeric literals in either triplets or qualifiers. We define a context transformer and a prediction transformer to learn the representations based not only on the correlations between a triplet and its qualifiers but also on the numeric information. By learning compact representations of triplets and qualifiers and feeding them into the transformers, we reduce the computation cost of using transformers. Using HyNT, we can predict missing numeric values in addition to missing entities or relations in a hyper-relational knowledge graph. Experimental results show that HyNT significantly outperforms state-of-the-art methods on real-world datasets.
翻訳日:2023-08-21 19:32:51 公開日:2023-08-17
# YOLOv8を用いたリアルタイム不整脈検出のための新しい応用

A Novel Application for Real-time Arrhythmia Detection using YOLOv8 ( http://arxiv.org/abs/2305.16727v2 )

ライセンス: Link先を確認
Guang Jun Nicholas Ang, Aritejh Kr Goil, Henryk Chan, Jieyi Jeric Lew, Xin Chun Lee, Raihan Bin Ahmad Mustaffa, Timotius Jason, Ze Ting Woon and Bingquan Shen(参考訳) 近年,心臓血管の健康状態の遠隔モニタリングにおいて,医療費の削減の必要性が高まっている。 心不整脈の検出と分類は心疾患患者の診断に重要である。 本稿では,心電図(ECG)などの複雑なシステムを家庭内モニタリングに適用できることを示す。 本稿では,最新のYou-Only-Look-Once (YOLO)v8アルゴリズムを用いた不整脈検出のための新しい手法を提案する。 実時間連続監視を可能にするために,MIT-BIH不整脈データセットを微調整した損失修正型YOLOv8モデルを提案した。 その結果, NVIDIA Tesla V100では, 平均精度99.5%, 0.992 mAP@50で0.002秒で不整脈を検出できることがわかった。 本研究は, 実時間不整脈検出の可能性を示し, 家庭内ユーザに対して, モデル出力を視覚的に解釈できることを示した。 さらに、この研究は、リアルタイムXAIモデルに拡張され、医療業界に展開され、医療ニーズが大幅に向上する可能性がある。

In recent years, there has been an increasing need to reduce healthcare costs in remote monitoring of cardiovascular health. Detecting and classifying cardiac arrhythmia is critical to diagnosing patients with cardiac abnormalities. This paper shows that complex systems such as electrocardiograms (ECG) can be applicable for at-home monitoring. This paper proposes a novel application for arrhythmia detection using the state-of-the-art You-Only-Look-Once (YOLO)v8 algorithm to classify single-lead ECG signals. We proposed a loss-modified YOLOv8 model that was fine-tuned on the MIT-BIH arrhythmia dataset to detect to allow real-time continuous monitoring. Results show that our model can detect arrhythmia with an average accuracy of 99.5% and 0.992 mAP@50 with a detection time of 0.002s on an NVIDIA Tesla V100. Our study demonstrated the potential of real-time arrhythmia detection, where the model output can be visually interpreted for at-home users. Furthermore, this study could be extended into a real-time XAI model, deployed in the healthcare industry, and significantly advancing healthcare needs.
翻訳日:2023-08-21 19:32:27 公開日:2023-08-17
# AIが生成したテキストをChatGPTで検出できるのか?

Fighting Fire with Fire: Can ChatGPT Detect AI-generated Text? ( http://arxiv.org/abs/2308.01284v2 )

ライセンス: Link先を確認
Amrita Bhattacharjee, Huan Liu(参考訳) chatgptのような大規模言語モデル(llm)は、大規模テキストコンテンツ生成を含む様々なユースケースでますます使われている。 このようなAI生成テキストの検出方法はすでに存在するが,ChatGPTをデータラベラやアノテーションとして使用する作業にインスパイアされた,そのようなAI生成テキストの検出器としてのChatGPTの性能について検討する。 人間の書き起こし対AI生成テキスト検出タスクにおけるChatGPTのゼロショット性能を評価し、公開データセットで実験を行う。 我々は,ChatGPTがAI生成テキストや人文テキストの検出に対称的に有効かどうかを実証的に検討する。 この結果から,ChatGPTと類似のLCMが,問題の特定の側面を解決し,その解から残りを導出することに集中して,自動検出パイプラインにどのように活用されるか,という知見が得られた。 すべてのコードとデータはhttps://github.com/AmritaBh/ChatGPT-as-Detectorで入手できる。

Large language models (LLMs) such as ChatGPT are increasingly being used for various use cases, including text content generation at scale. Although detection methods for such AI-generated text exist already, we investigate ChatGPT's performance as a detector on such AI-generated text, inspired by works that use ChatGPT as a data labeler or annotator. We evaluate the zero-shot performance of ChatGPT in the task of human-written vs. AI-generated text detection, and perform experiments on publicly available datasets. We empirically investigate if ChatGPT is symmetrically effective in detecting AI-generated or human-written text. Our findings provide insight on how ChatGPT and similar LLMs may be leveraged in automated detection pipelines by simply focusing on solving a specific aspect of the problem and deriving the rest from that solution. All code and data is available at https://github.com/AmritaBh/ChatGPT-as-Detector.
翻訳日:2023-08-21 19:27:22 公開日:2023-08-17
# 意思決定システムのためのヘシアン・アウェアベイズ最適化

Hessian-Aware Bayesian Optimization for Decision Making Systems ( http://arxiv.org/abs/2308.00629v2 )

ライセンス: Link先を確認
Mohit Rajpal, Lac Gia Tran, Yehong Zhang, Bryan Kian Hsiang Low(参考訳) 意思決定システムを最適化するための多くのアプローチは、環境からの情報的フィードバックを必要とする勾配に基づく手法に依存している。 しかし、そのようなフィードバックが疎い場合や非形式的な場合、そのようなアプローチは性能が低下する可能性がある。 ベイズ最適化のような微分自由なアプローチは勾配フィードバックの品質への依存を緩和するが、複雑な意思決定システムの高次元設定ではスケールが不十分であることが知られている。 この問題は、システムが共有目標を達成するために協力する複数のアクター間のインタラクションを必要とする場合、悪化する。 次元的課題に対処するため,我々は,役割の概念を通じてアクタインタラクションのダイナミクスをモデル化するコンパクトな多層アーキテクチャを提案する。 さらに,Hessian-aware Bayesian Optimizationを導入し,多数のパラメータでパラメータ化された多層アーキテクチャを効率的に最適化する。 実験の結果,提案手法は資源制約と不正なフィードバック設定の下で,複数のベンチマークで効果的に動作することがわかった。

Many approaches for optimizing decision making systems rely on gradient based methods requiring informative feedback from the environment. However, in the case where such feedback is sparse or uninformative, such approaches may result in poor performance. Derivative-free approaches such as Bayesian Optimization mitigate the dependency on the quality of gradient feedback, but are known to scale poorly in the high-dimension setting of complex decision making systems. This problem is exacerbated if the system requires interactions between several actors cooperating to accomplish a shared goal. To address the dimensionality challenge, we propose a compact multi-layered architecture modeling the dynamics of actor interactions through the concept of role. Additionally, we introduce Hessian-aware Bayesian Optimization to efficiently optimize the multi-layered architecture parameterized by a large number of parameters. Experimental results demonstrate that our method (HA-GP-UCB) works effectively on several benchmarks under resource constraints and malformed feedback settings.
翻訳日:2023-08-21 19:27:05 公開日:2023-08-17
# AIに魅了される - 大規模言語モデルによる浸透テスト

Getting pwn'd by AI: Penetration Testing with Large Language Models ( http://arxiv.org/abs/2308.00121v3 )

ライセンス: Link先を確認
Andreas Happe, J\"urgen Cito(参考訳) ソフトウェアセキュリティテストの分野、特に浸透テストは、高いレベルの専門知識を必要とし、多くの手動テストと分析ステップを含む活動である。 本稿では,GPT3.5のような大規模言語モデルを用いたAIスパーリングパートナーによる浸透試験の強化について検討する。 セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。 後者では,脆弱な仮想マシン(SSHを介して接続される)を用いて,LLM生成した低レベルアクション間のクローズドフィードバックループを実装し,脆弱性のマシン状態を解析し,仮想マシン内で自動的に実行される具体的な攻撃ベクトルを提案する。 我々は、有望な初歩的な成果、改善のための詳細な道程、AIベースのスパーリングパートナーを提供する倫理に関する綿密な検討について論じる。

The field of software security testing, more specifically penetration testing, is an activity that requires high levels of expertise and involves many manual testing and analysis steps. This paper explores the potential usage of large-language models, such as GPT3.5, to augment penetration testers with AI sparring partners. We explore the feasibility of supplementing penetration testers with AI models for two distinct use cases: high-level task planning for security testing assignments and low-level vulnerability hunting within a vulnerable virtual machine. For the latter, we implemented a closed-feedback loop between LLM-generated low-level actions with a vulnerable virtual machine (connected through SSH) and allowed the LLM to analyze the machine state for vulnerabilities and suggest concrete attack vectors which were automatically executed within the virtual machine. We discuss promising initial results, detail avenues for improvement, and close deliberating on the ethics of providing AI-based sparring partners.
翻訳日:2023-08-21 19:26:49 公開日:2023-08-17
# 信頼度・多様性・クラスバランスによるドメイン適応型3次元物体検出の再検討

Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and Class-balanced Pseudo-Labeling ( http://arxiv.org/abs/2307.07944v3 )

ライセンス: Link先を確認
Zhuoxiao Chen, Yadan Luo, Zheng Wang, Mahsa Baktashmotlagh, Zi Huang(参考訳) ドメイン適応型3Dオブジェクト検出において,疑似ラベリング技術を用いた教師なしドメイン適応(DA)が重要なアプローチとして浮上している。 既存のDA手法は,低品質な擬似ラベルの共存とクラス不均衡の問題により,マルチクラスのトレーニング環境に適用した場合,性能が大幅に低下する。 本稿では,全てのクラスを同時に検出する学習に適した新しいReDBフレームワークを提案する。 我々の手法は、分布が異なるターゲット領域上での自己学習を反復的に導くために、信頼性、ディバース、およびクラスベース擬似3Dボックスを生成する。 提案したクロスドメイン検査(CDE)は、環境不一致(ビーム数など)による破壊を軽減するため、コピーペースト対象インスタンスをソース環境に挿入して擬似ラベルの正しさを評価し、予測整合性を測定する。 計算オーバーヘッドを低減し、オブジェクトシフト(例えばスケールやポイント密度)を緩和するために、異なる幾何学的特徴にまたがる擬似ラベルオブジェクトを均一にダウンサンプルできるオーバーラップボックスカウント(obc)メトリックを設計する。 クラス間不均衡の問題に対処するため,疑似ラベル付きターゲットインスタンスとソースオブジェクトのクラスバランスを段階的に強化し,頻繁に出現するクラスと稀なクラスの両方において認識精度を高める。 ボクセルベース(SECOND)とポイントベース3D検出器(PointRCNN)の両方を用いた3つのベンチマークデータセットの実験結果から,提案したReDBアプローチが既存の3Dドメイン適応手法を大きなマージンで上回り,nuScenes $\rightarrow$ KITTIタスクにおいて23.15%のmAPを改善することを示した。 コードはhttps://github.com/zhuoxiao-chen/redb-da-3ddetで入手できる。

Unsupervised domain adaptation (DA) with the aid of pseudo labeling techniques has emerged as a crucial approach for domain-adaptive 3D object detection. While effective, existing DA methods suffer from a substantial drop in performance when applied to a multi-class training setting, due to the co-existence of low-quality pseudo labels and class imbalance issues. In this paper, we address this challenge by proposing a novel ReDB framework tailored for learning to detect all classes at once. Our approach produces Reliable, Diverse, and class-Balanced pseudo 3D boxes to iteratively guide the self-training on a distributionally different target domain. To alleviate disruptions caused by the environmental discrepancy (e.g., beam numbers), the proposed cross-domain examination (CDE) assesses the correctness of pseudo labels by copy-pasting target instances into a source environment and measuring the prediction consistency. To reduce computational overhead and mitigate the object shift (e.g., scales and point densities), we design an overlapped boxes counting (OBC) metric that allows to uniformly downsample pseudo-labeled objects across different geometric characteristics. To confront the issue of inter-class imbalance, we progressively augment the target point clouds with a class-balanced set of pseudo-labeled target instances and source objects, which boosts recognition accuracies on both frequently appearing and rare classes. Experimental results on three benchmark datasets using both voxel-based (i.e., SECOND) and point-based 3D detectors (i.e., PointRCNN) demonstrate that our proposed ReDB approach outperforms existing 3D domain adaptation methods by a large margin, improving 23.15% mAP on the nuScenes $\rightarrow$ KITTI task. The code is available at https://github.com/zhuoxiao-chen/ReDB-DA-3Ddet.
翻訳日:2023-08-21 19:24:45 公開日:2023-08-17
# GraMMaR:3次元動作再構成のための地上認識運動モデル

GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction ( http://arxiv.org/abs/2306.16736v3 )

ライセンス: Link先を確認
Sihan Ma, Qiong Cao, Hongwei Yi, Jing Zhang, Dacheng Tao(参考訳) 複雑な人間と地面の相互作用を非神秘化することは、rgbビデオから正確かつ現実的な3d人間の動きの再構築に不可欠である。 従来の手法では、暗黙的または疎密な方法で人間と地上の相互作用をモデル化しており、しばしばノイズや不確実性に直面した時に非現実的で誤った動きをもたらす。 対照的に、我々のアプローチはこれらの相互作用を密で連続的な方法で明示的に表現している。 そこで本研究では,動き列の各時間ステップにおける各関節面と接地面の遷移と相互作用の分布を協調的に学習する,3次元動作再構成のための新しい接地認識運動モデルであるグラマーを提案する。 運動と地面への距離変化との整合性を明確に促進するように訓練されている。 トレーニング後,GraMMaRを二元的優先度として活用する共同最適化戦略を確立し,楽観的な接地運動空間への最適化を規則化する。 これは、想定または学習された地上面に関係なく、現実的で一貫性のある運動再構成をもたらす。 AMASS と AIST++ のデータセットを広範囲に評価することにより,複雑であいまいな人間-地上相互作用を含む難解なケースにおいて,優れた一般化と識別能力を示す。 コードはhttps://github.com/xymsh/GraMMaR.comから入手できる。

Demystifying complex human-ground interactions is essential for accurate and realistic 3D human motion reconstruction from RGB videos, as it ensures consistency between the humans and the ground plane. Prior methods have modeled human-ground interactions either implicitly or in a sparse manner, often resulting in unrealistic and incorrect motions when faced with noise and uncertainty. In contrast, our approach explicitly represents these interactions in a dense and continuous manner. To this end, we propose a novel Ground-aware Motion Model for 3D Human Motion Reconstruction, named GraMMaR, which jointly learns the distribution of transitions in both pose and interaction between every joint and ground plane at each time step of a motion sequence. It is trained to explicitly promote consistency between the motion and distance change towards the ground. After training, we establish a joint optimization strategy that utilizes GraMMaR as a dual-prior, regularizing the optimization towards the space of plausible ground-aware motions. This leads to realistic and coherent motion reconstruction, irrespective of the assumed or learned ground plane. Through extensive evaluation on the AMASS and AIST++ datasets, our model demonstrates good generalization and discriminating abilities in challenging cases including complex and ambiguous human-ground interactions. The code will be available at https://github.com/xymsh/GraMMaR.
翻訳日:2023-08-21 19:23:23 公開日:2023-08-17
# 検証のための大規模言語モデルの前方推論

Forward-Backward Reasoning in Large Language Models for Verification ( http://arxiv.org/abs/2308.07758v2 )

ライセンス: Link先を確認
Weisen Jiang and Han Shi and Longhui Yu and Zhengying Liu and Yu Zhang and Zhenguo Li and James T. Kwok(参考訳) Chain-of-Though (CoT)プロンプトは様々な推論タスクで有望なパフォーマンスを示している。 近年、自己整合性(Self-Consistency) \citep{wang2023selfConsistency} は、最も多くの票を得た回答が選択される間に、異なる回答につながる可能性のある様々な推論チェーンをサンプリングすることを提案する。 本稿では,候補回答の検証に後ろ向き推論を用いた新しい手法を提案する。 質問中のトークンを${\bf x}$でマスクし、候補の回答が \textit{a simple template}、すなわち ``\textit{\textbf{if we know the answer of the question is \{a candidate answer\}, and the llm to predict the masked token when a candidate answer is provide by \textit{a simple template},すなわち ``\textit{\textbf{if we know the answer of the question is \{a candidate answer\}, what the value of unknown variable ${\bf x}$? 直感的には、LLMは与えられた候補回答が正しい場合、マスクされたトークンをうまく予測する。 さらに, 候補回答の確率を推定するために, 前方と後方の推論を組み合わせるフォバーを提案する。 6つのデータセットと3つのLSMについて広範な実験を行う。 実験結果から,FOBARは様々な推論ベンチマークで最先端の性能を達成することが示された。

Chain-of-Though (CoT) prompting has shown promising performance in various reasoning tasks. Recently, Self-Consistency \citep{wang2023selfconsistency} proposes to sample a diverse set of reasoning chains which may lead to different answers while the answer that receives the most votes is selected. In this paper, we propose a novel method to use backward reasoning in verifying candidate answers. We mask a token in the question by ${\bf x}$ and ask the LLM to predict the masked token when a candidate answer is provided by \textit{a simple template}, i.e., ``\textit{\textbf{If we know the answer of the above question is \{a candidate answer\}, what is the value of unknown variable ${\bf x}$?}}'' Intuitively, the LLM is expected to predict the masked token successfully if the provided candidate answer is correct. We further propose FOBAR to combine forward and backward reasoning for estimating the probability of candidate answers. We conduct extensive experiments on six data sets and three LLMs. Experimental results demonstrate that FOBAR achieves state-of-the-art performance on various reasoning benchmarks.
翻訳日:2023-08-21 19:15:11 公開日:2023-08-17
# 大規模言語モデルのモデル圧縮に関する調査

A Survey on Model Compression for Large Language Models ( http://arxiv.org/abs/2308.07633v2 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang(参考訳) 大規模言語モデル(LLM)は、自然言語処理タスクに革命をもたらした。 しかし、その大きなサイズと計算上の要求は、特に資源に制約のある環境での実践的な展開に重大な課題をもたらす。 これらの課題がますます重要になるにつれて、モデル圧縮の分野はこれらの制限を緩和するための重要な研究領域として現れてきた。 本稿では,LLMに特化されたモデル圧縮技術の展望を概観した総合的な調査を行う。 効率的な配置の必要性に対処するため, 定量化, 刈り取り, 知識蒸留など, 様々な手法を探求する。 これらの技術の中で,LLM研究の進展に寄与する最近の進歩と革新的アプローチを強調した。 さらに,圧縮LDMの有効性を評価する上で不可欠なベンチマーク戦略と評価指標について検討する。 最新の発展と実践的意味に関する洞察を提供することで、この調査は研究者と実践者の両方にとって貴重な情報源となる。 llmが進化を続けるにつれ、この調査は効率化と実世界の適用性の向上を目標とし、この分野における今後の進歩のための基盤を確立する。

Large Language Models (LLMs) have revolutionized natural language processing tasks with remarkable success. However, their formidable size and computational demands present significant challenges for practical deployment, especially in resource-constrained environments. As these challenges become increasingly pertinent, the field of model compression has emerged as a pivotal research area to alleviate these limitations. This paper presents a comprehensive survey that navigates the landscape of model compression techniques tailored specifically for LLMs. Addressing the imperative need for efficient deployment, we delve into various methodologies, encompassing quantization, pruning, knowledge distillation, and more. Within each of these techniques, we highlight recent advancements and innovative approaches that contribute to the evolving landscape of LLM research. Furthermore, we explore benchmarking strategies and evaluation metrics that are essential for assessing the effectiveness of compressed LLMs. By providing insights into the latest developments and practical implications, this survey serves as an invaluable resource for both researchers and practitioners. As LLMs continue to evolve, this survey aims to facilitate enhanced efficiency and real-world applicability, establishing a foundation for future advancements in the field.
翻訳日:2023-08-21 19:14:42 公開日:2023-08-17
# メタ認知プロンプトは大規模言語モデルの理解を改善する

Metacognitive Prompting Improves Understanding in Large Language Models ( http://arxiv.org/abs/2308.05342v3 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao(参考訳) 大規模言語モデル(llm)では、タスク固有のパフォーマンスが一貫して向上しており、主に効果的なプロンプト設計の影響を受けている。 LLMの推論能力は近年研究されているが、その理解能力のさらなる向上にはまだギャップが残っている。 本研究では,人間の内省的推論プロセスに触発されたメタ認知的プロンプト(mp)を提案する。 MPを用いることで、LLMは構造化された自己認識評価の体系的なシリーズを実行し、その膨大な固有の知識と新たな洞察を生かした。 我々の実験ではllama2, vicuna, palm, gpt-3.5, gpt-4の5つのllmを用いて,glueおよびsuperglueベンチマークによる汎用自然言語理解(nlu)タスクに適用した。 その結果、GPT-4は、ほとんどのタスクにおいて一貫して優れているが、MPを装備した PaLM はその性能レベルに近づいた。 さらに、モデルとデータセット全体において、MPは標準およびチェーンのプロンプトを含む既存のプロンプトメソッドを一貫して上回る。 本研究は、LLMの理解能力を増幅する可能性を強調し、NLUタスクにおける人間の内省的推論を反映する利点を強調した。

In Large Language Models (LLMs), there have been consistent advancements in task-specific performance, largely influenced by effective prompt design. While recent research on prompting has enhanced the reasoning capabilities of LLMs, a gap remains in further improving their understanding abilities. In this study, we introduce Metacognitive Prompting (MP), a strategy inspired by human introspective reasoning processes. Using MP, LLMs undergo a systematic series of structured, self-aware evaluations, drawing on both their vast inherent knowledge and new insights. Our experiments involve five prevalent LLMs: Llama2, Vicuna, PaLM, GPT-3.5, and GPT-4, all of which span various general natural language understanding (NLU) tasks from the GLUE and SuperGLUE benchmarks. Results indicate that, although GPT-4 consistently excels in most tasks, PaLM, when equipped with MP, approaches its performance level. Furthermore, across models and datasets, MP consistently outperforms existing prompting methods, including standard and chain-of-thought prompting. This study underscores the potential to amplify the understanding abilities of LLMs and highlights the benefits of mirroring human introspective reasoning in NLU tasks.
翻訳日:2023-08-21 19:13:41 公開日:2023-08-17
# 認知交替による数学的推論のアーキテクチャに関する確率論的結果

Probabilistic Results on the Architecture of Mathematical Reasoning Aligned by Cognitive Alternation ( http://arxiv.org/abs/2308.08714v1 )

ライセンス: Link先を確認
Minzheng Li, Xiangzhong Fang, Haixin Yang(参考訳) 数学的問題を解くことができる機械を構想する。 定量的推論システムを思考過程と認知過程の2つの部分に分け,アーキテクチャの確率論的記述を提供する。

We envision a machine capable of solving mathematical problems. Dividing the quantitative reasoning system into two parts: thought processes and cognitive processes, we provide probabilistic descriptions of the architecture.
翻訳日:2023-08-21 18:35:42 公開日:2023-08-17
# Decoding Emotions: 音声認識のための音声モデルに関する総合的多言語研究

Decoding Emotions: A comprehensive Multilingual Study of Speech Models for Speech Emotion Recognition ( http://arxiv.org/abs/2308.08713v1 )

ライセンス: Link先を確認
Anant Singh and Akshat Gupta(参考訳) 最近の変圧器に基づく音声表現モデルの進歩は、音声処理を大きく変えた。 しかし、複数の言語にまたがる音声感情認識(SER)モデルの評価や、その内部表現についての研究は限られている。 本稿では、8つの音声表現モデルと6つの異なる言語を持つSERの総合ベンチマークを提示することにより、これらのギャップに対処する。 我々は,これらのモデルの内部動作の洞察を得るための探索実験を行った。 音声モデルの1つの最適層からの特徴を用いることで、7つのデータセットで平均32\%の誤り率を削減できることが、音声モデルの全ての層から特徴が使用されるシステムと比較すると判明した。 ドイツ語とペルシア語の最先端の成果も達成しています。 調査の結果,音声モデルの中間層は,感情認識において最も重要な感情情報を捉えていることがわかった。

Recent advancements in transformer-based speech representation models have greatly transformed speech processing. However, there has been limited research conducted on evaluating these models for speech emotion recognition (SER) across multiple languages and examining their internal representations. This article addresses these gaps by presenting a comprehensive benchmark for SER with eight speech representation models and six different languages. We conducted probing experiments to gain insights into inner workings of these models for SER. We find that using features from a single optimal layer of a speech model reduces the error rate by 32\% on average across seven datasets when compared to systems where features from all layers of speech models are used. We also achieve state-of-the-art results for German and Persian languages. Our probing results indicate that the middle layers of speech models capture the most important emotional information for speech emotion recognition.
翻訳日:2023-08-21 18:35:38 公開日:2023-08-17
# ニューラルネットワークの動的メカニズムのロバスト性を理解する

Dynamic Neural Network is All You Need: Understanding the Robustness of Dynamic Mechanisms in Neural Networks ( http://arxiv.org/abs/2308.08709v1 )

ライセンス: Link先を確認
Mirazul Haque and Wei Yang(参考訳) ディープニューラルネットワーク(DNN)は、日々のさまざまな問題を解決するために使われてきた。 近年,DNNはリアルタイムシステムに導入され,省エネルギー化や応答時間の短縮が求められている。 このシナリオに対処するため、研究者は静的DNN(SDNN)に動的メカニズムを取り入れて、入力複雑性に基づいて動的計算を実行する動的ニューラルネットワーク(DyNN)を作成することを提案した。 SDNNに動的メカニズムを組み込むことは、リアルタイムシステムでは好ましいが、動的メカニズムの導入がモデルの堅牢性に与える影響を評価することも重要である。 しかし、SDNNとDyNN間の堅牢性トレードオフに焦点を当てた研究は、それほど多くはない。 そこで本研究では,DyNNにおける動的機構のロバスト性および動的機構設計がDyNNのロバスト性に与える影響について検討する。 そこで我々は3つの研究課題を評価する。 これらの評価は3つのモデルと2つのデータセットで行われる。 本研究では,DyNN から SDNN への攻撃伝達性が SDNN から DyNN への攻撃伝達可能性よりも高いことを示す。 また、DyNNsはSDNNsよりも効率的に敵のサンプルを生成することができる。 そこで本研究では,静的モデルを用いた攻撃に対するDyNNの堅牢性を高める設計選択に関する知見を提供する。 最後に、動的メカニズムによって導入された追加攻撃面を理解するための新しい攻撃を提案し、攻撃に対する堅牢性を改善する設計選択を提供する。

Deep Neural Networks (DNNs) have been used to solve different day-to-day problems. Recently, DNNs have been deployed in real-time systems, and lowering the energy consumption and response time has become the need of the hour. To address this scenario, researchers have proposed incorporating dynamic mechanism to static DNNs (SDNN) to create Dynamic Neural Networks (DyNNs) performing dynamic amounts of computation based on the input complexity. Although incorporating dynamic mechanism into SDNNs would be preferable in real-time systems, it also becomes important to evaluate how the introduction of dynamic mechanism impacts the robustness of the models. However, there has not been a significant number of works focusing on the robustness trade-off between SDNNs and DyNNs. To address this issue, we propose to investigate the robustness of dynamic mechanism in DyNNs and how dynamic mechanism design impacts the robustness of DyNNs. For that purpose, we evaluate three research questions. These evaluations are performed on three models and two datasets. Through the studies, we find that attack transferability from DyNNs to SDNNs is higher than attack transferability from SDNNs to DyNNs. Also, we find that DyNNs can be used to generate adversarial samples more efficiently than SDNNs. Then, through research studies, we provide insight into the design choices that can increase robustness of DyNNs against the attack generated using static model. Finally, we propose a novel attack to understand the additional attack surface introduced by the dynamic mechanism and provide design choices to improve robustness against the attack.
翻訳日:2023-08-21 18:35:25 公開日:2023-08-17
# 人工知能における意識:意識科学からの洞察

Consciousness in Artificial Intelligence: Insights from the Science of Consciousness ( http://arxiv.org/abs/2308.08708v1 )

ライセンス: Link先を確認
Patrick Butlin, Robert Long, Eric Elmoznino, Yoshua Bengio, Jonathan Birch, Axel Constant, George Deane, Stephen M. Fleming, Chris Frith, Xu Ji, Ryota Kanai, Colin Klein, Grace Lindsay, Matthias Michel, Liad Mudrik, Megan A. K. Peters, Eric Schwitzgebel, Jonathan Simon, Rufin VanRullen(参考訳) 現在または近い将来のaiシステムが意識されるかどうかは、科学的な関心と公衆の関心の高まりのトピックである。 このレポートは、AI意識に対する厳密で実証的なアプローチ、すなわち既存のAIシステムを詳細に評価し、私たちの最も支持された意識の神経科学理論を考慮し、それを実証している。 我々は,リカレント処理理論,グローバルワークスペース理論,高次理論,予測処理,注意スキーマ理論など,いくつかの著名な科学的意識理論を調査した。 これらの理論から、これらの特性に対してAIシステムを評価することができる計算用語で解明された意識の「指標特性」を導出する。 これらの指標特性を最近のAIシステムの評価に利用し、将来のシステムがどのように実装されるかについて議論する。 私たちの分析は、現在のAIシステムが意識的でないことを示唆していますが、意識的なAIシステムを構築するための明らかな障壁がないことも示しています。

Whether current or near-term AI systems could be conscious is a topic of scientific interest and increasing public concern. This report argues for, and exemplifies, a rigorous and empirically grounded approach to AI consciousness: assessing existing AI systems in detail, in light of our best-supported neuroscientific theories of consciousness. We survey several prominent scientific theories of consciousness, including recurrent processing theory, global workspace theory, higher-order theories, predictive processing, and attention schema theory. From these theories we derive "indicator properties" of consciousness, elucidated in computational terms that allow us to assess AI systems for these properties. We use these indicator properties to assess several recent AI systems, and we discuss how future systems might implement them. Our analysis suggests that no current AI systems are conscious, but also shows that there are no obvious barriers to building conscious AI systems.
翻訳日:2023-08-21 18:35:00 公開日:2023-08-17
# ビュール測地学と量子力学

Bures geodesics and quantum metrology ( http://arxiv.org/abs/2308.08706v1 )

ライセンス: Link先を確認
Dominique Spehner(参考訳) ビューズ計量に対する混合量子状態の多様体上の測地学について検討する。 これらの測地線は、アンシラと結合した系の物理的非マルコフ進化に対応することが示されている。 さらに、測地学は量子距離論の単一パラメータ推定において最適精度をもたらすと論じる。 より正確には、未知のパラメータが測地線をパラメータ化する時間に比例する位相シフトである場合、システム上の測定データを処理することによって得られる推定誤差は、システムとアンシラの合同検出から得られる最小の誤差と等しい。 この誤差はハイゼンベルク境界を飽和させる。 さらに、パラメータに関するほとんどの情報をもたらすシステム上の測定はパラメータ非依存であり、測地線と量子状態の境界との交点で決定することができる。 これらの結果から, 地磁気学的進化は, アンシラの計測が不要な場合に, アンシラと結合したシステムにおける高精度検出に重要であることが示唆された。

We study the geodesics on the manifold of mixed quantum states for the Bures metric. It is shown that these geodesics correspond to physical non-Markovian evolutions of the system coupled to an ancilla. Furthermore, we argue that geodesics lead to optimal precision in single-parameter estimation in quantum metrology. More precisely, if the unknown parameter is a phase shift proportional to the time parametrizing the geodesic, the estimation error obtained by processing the data of measurements on the system is equal to the smallest error that can be achieved from joint detections on the system and ancilla, meaning that the ancilla does not carry any information on this parameter. The error can saturate the Heisenberg bound. In addition, the measurement on the system bringing most information on the parameter is parameter-independent and can be determined in terms of the intersections of the geodesic with the boundary of quantum states. These results show that geodesic evolutions are of interest for high-precision detections in systems coupled to an ancilla in the absence of measurements on the ancilla.
翻訳日:2023-08-21 18:34:44 公開日:2023-08-17
# 走査型電子顕微鏡画像におけるナノ粒子の繰り返し検出と解析

Recursive Detection and Analysis of Nanoparticles in Scanning Electron Microscopy Images ( http://arxiv.org/abs/2308.08732v1 )

ライセンス: Link先を確認
Aidan S. Wright, Nathaniel P. Youmans, Enrique F. Valderrama Araya (Oral Roberts University)(参考訳) 本研究では,走査型電子顕微鏡(SEM)画像中のナノ粒子の精密検出と包括的解析に適した計算フレームワークを提案する。 本枠組みの主目的は, ナノ粒子座標の正確な位置決めを中心に展開し, 面積, 配向, 明るさ, 長さなど, 関連する形態的特性の抽出を含む二次的目的を伴う。 pythonの堅牢な画像処理機能、特にopencv、scipy、scikit-imageなどのライブラリを活用して構築されたこのフレームワークは、画像処理結果の忠実性を高めるために、しきい値、拡張、エローディングなどのテクニックを融合させている。 続くナノ粒子データはrstudio環境にシームレスに統合され、詳細な後処理分析が容易になる。 これには、モデル精度の総合評価、特徴分布パターンの識別、複雑な粒子配置の同定が含まれる。 ファイナライズされたフレームワークは、一次サンプル画像内で高いナノ粒子識別を示し、SEMナノ粒子データセットから引き出された5つの異なるテスト画像間で粒子を検出する精度は97%である。 さらに、このフレームワークは、制御グループ内で手動ラベリングを溶かし、かすかな強度のナノ粒子を識別する能力を示す。

In this study, we present a computational framework tailored for the precise detection and comprehensive analysis of nanoparticles within scanning electron microscopy (SEM) images. The primary objective of this framework revolves around the accurate localization of nanoparticle coordinates, accompanied by secondary objectives encompassing the extraction of pertinent morphological attributes including area, orientation, brightness, and length. Constructed leveraging the robust image processing capabilities of Python, particularly harnessing libraries such as OpenCV, SciPy, and Scikit-Image, the framework employs an amalgamation of techniques, including thresholding, dilating, and eroding, to enhance the fidelity of image processing outcomes. The ensuing nanoparticle data is seamlessly integrated into the RStudio environment to facilitate meticulous post-processing analysis. This encompasses a comprehensive evaluation of model accuracy, discernment of feature distribution patterns, and the identification of intricate particle arrangements. The finalized framework exhibits high nanoparticle identification within the primary sample image and boasts 97\% accuracy in detecting particles across five distinct test images drawn from a SEM nanoparticle dataset. Furthermore, the framework demonstrates the capability to discern nanoparticles of faint intensity, eluding manual labeling within the control group.
翻訳日:2023-08-21 18:27:47 公開日:2023-08-17
# 指導による学習:内視鏡画像分類のための知識蒸留

Learning Through Guidance: Knowledge Distillation for Endoscopic Image Classification ( http://arxiv.org/abs/2308.08731v1 )

ライセンス: Link先を確認
Harshala Gammulle, Yubo Chen, Sridha Sridharan, Travis Klein and Clinton Fookes(参考訳) 内視鏡は消化管(GI)の根底にある異常を同定する上で重要な役割を担っている。 生命を脅かす複数の消化管疾患があり、例えば、先天性病変やその他の腸がんがある。 通常のプロセスでは、診断は医療専門家によって行われ、それはヒューマンエラーを起こしやすく、テストの精度も専門家の経験レベルに完全に依存する。 ディープラーニング、特に畳み込みニューラルネットワーク(cnns)は、事前の機能エンジニアリングなしで自動特徴学習を実行するように設計されているが、最近、gi内視鏡画像解析に大きな利点を報告している。 これまでの研究では、パフォーマンスの向上だけに焦点を当てたモデルを開発しており、導入されたモデルの大部分は、長いトレーニング時間を必要とする多くのパラメータを持つ複雑なディープネットワークアーキテクチャを含んでいる。 しかし、典型的には診療所で見られる低リソース環境で動作する軽量モデルの開発には焦点が当てられていない。 本稿では,反応ベース,特徴ベース,関係ベースという3つのkd学習フレームワークを調査し,関係ベース学習を支援する新しい多頭注意型特徴融合機構を提案する。 マルチティーチャー応答/特徴ベース知識の簡便な集約手法に従う既存の関係ベース手法と比較し,マルチヘッドアテンション手法を採用し,各教師から重要な詳細情報を移行し,生徒の指導に役立てるための柔軟性を提供する。 KVASIR-V2とHyper-KVASIRという2つの広く使われている公開データセットに対して広範な評価を行い、リソース制限環境で動作可能な軽量モデル(トレーニング可能なパラメータは51.8k)を実現する上で、提案した関係ベースのフレームワークのメリットを実証した。

Endoscopy plays a major role in identifying any underlying abnormalities within the gastrointestinal (GI) tract. There are multiple GI tract diseases that are life-threatening, such as precancerous lesions and other intestinal cancers. In the usual process, a diagnosis is made by a medical expert which can be prone to human errors and the accuracy of the test is also entirely dependent on the expert's level of experience. Deep learning, specifically Convolution Neural Networks (CNNs) which are designed to perform automatic feature learning without any prior feature engineering, has recently reported great benefits for GI endoscopy image analysis. Previous research has developed models that focus only on improving performance, as such, the majority of introduced models contain complex deep network architectures with a large number of parameters that require longer training times. However, there is a lack of focus on developing lightweight models which can run in low-resource environments, which are typically encountered in medical clinics. We investigate three KD-based learning frameworks, response-based, feature-based, and relation-based mechanisms, and introduce a novel multi-head attention-based feature fusion mechanism to support relation-based learning. Compared to the existing relation-based methods that follow simplistic aggregation techniques of multi-teacher response/feature-based knowledge, we adopt the multi-head attention technique to provide flexibility towards localising and transferring important details from each teacher to better guide the student. We perform extensive evaluations on two widely used public datasets, KVASIR-V2 and Hyper-KVASIR, and our experimental results signify the merits of our proposed relation-based framework in achieving an improved lightweight model (only 51.8k trainable parameters) that can run in a resource-limited environment.
翻訳日:2023-08-21 18:27:24 公開日:2023-08-17
# 画像復元のための粗粒拡散トランスの学習

Learning A Coarse-to-Fine Diffusion Transformer for Image Restoration ( http://arxiv.org/abs/2308.08730v1 )

ライセンス: Link先を確認
Liyan Wang, Qinyu Yang, Cong Wang, Wei Wang, Jinshan Pan, Zhixun Su(参考訳) 近年,様々な視覚課題における拡散モデルの性能が顕著に向上している。 しかし, 得られた劣化観測からより鮮明な詳細で鮮明な画像を復元することを目的とした画像復元では, 不正確な雑音推定による予測結果の回復に失敗する可能性がある。 さらに、単純な制約ノイズは、複雑な劣化情報を効果的に学習できないため、モデルの容量を阻害する。 そこで本稿では,画像復元のための粗粒拡散トランス(c2f-dft)を提案する。 具体的には,このC2F-DFTには拡散自己注意(DFSA)と拡散フィードフォワードネットワーク(DFN)が含まれている。 dfsaとdfnはそれぞれ長距離拡散依存性を捕捉し、階層拡散表現を学習し、より良い修復を容易にする。 粗い訓練段階において,我々のC2F-DFTはノイズを推定し,サンプリングアルゴリズムにより最終クリーン画像を生成する。 修復の質をさらに高めるため,簡易かつ効果的な訓練手法を提案する。 まず, 粗トレーニング拡散モデルを用いて復元結果の生成を行い, 不正確な騒音推定によって生じる不満足な結果を改善するためのモデル最適化を行う。 拡張実験により,C2F-DFTは拡散型修復法IR-SDEを著しく上回り,3ドルのタスクにおいて,トランスフォーマーをベースとした最先端手法と比較して高い性能を示した。

Recent years have witnessed the remarkable performance of diffusion models in various vision tasks. However, for image restoration that aims to recover clear images with sharper details from given degraded observations, diffusion-based methods may fail to recover promising results due to inaccurate noise estimation. Moreover, simple constraining noises cannot effectively learn complex degradation information, which subsequently hinders the model capacity. To solve the above problems, we propose a coarse-to-fine diffusion Transformer (C2F-DFT) for image restoration. Specifically, our C2F-DFT contains diffusion self-attention (DFSA) and diffusion feed-forward network (DFN) within a new coarse-to-fine training scheme. The DFSA and DFN respectively capture the long-range diffusion dependencies and learn hierarchy diffusion representation to facilitate better restoration. In the coarse training stage, our C2F-DFT estimates noises and then generates the final clean image by a sampling algorithm. To further improve the restoration quality, we propose a simple yet effective fine training scheme. It first exploits the coarse-trained diffusion model with fixed steps to generate restoration results, which then would be constrained with corresponding ground-truth ones to optimize the models to remedy the unsatisfactory results affected by inaccurate noise estimation. Extensive experiments show that C2F-DFT significantly outperforms diffusion-based restoration method IR-SDE and achieves competitive performance compared with Transformer-based state-of-the-art methods on $3$ tasks, including deraining, deblurring, and real denoising.
翻訳日:2023-08-21 18:26:46 公開日:2023-08-17
# LLM-FuncMapper:LLMによる複雑なクローズの解釈のための関数同定

LLM-FuncMapper: Function Identification for Interpreting Complex Clauses in Building Codes via LLM ( http://arxiv.org/abs/2308.08728v1 )

ライセンス: Link先を確認
Zhe Zheng, Ke-Yin Chen, Xin-Yu Cao, Xin-Zheng Lu, Jia-Rui Lin(参考訳) 自動ルールチェック(arc)の重要な段階として、規制テキストのルール解釈は相当な労力を要する。 しかし、ドメイン知識の欠如や従来の論理表現の表現性に制限があるため、暗黙的な性質や複雑な計算論理で規制条項を解釈することは依然として困難である。 そこで, llm-funcmapper では, 大言語モデル (llm) に基づいて, 各種規制条項を解釈するために必要な事前定義関数を同定する手法を提案する。 まず、構築コードの体系的解析により、暗黙的な性質と複雑な制約の共有計算ロジックをキャプチャし、規制条項を解釈するための共通のブロックのデータベースを作成する。 そして、思考連鎖を有するプロンプトテンプレートを開発し、分類に基づくチューニング戦略によりさらに強化し、効果的な関数識別のための共通llmを実現する。 最後に,提案手法を統計的分析,実験,概念実証によって検証する。 統計解析により,コンピュータ処理可能な文節の約100%をコンピュータ処理可能なコードとして解釈し,表現できる機能データベースの長テール分布と高表現性を明らかにした。 実験の結果, LLM-FuncMapper はルール解釈の事前定義関数の同定において有望な結果が得られることがわかった。 自動規則解釈における概念のさらなる証明は、複雑な規制条項の解釈におけるLLM-FuncMapperの可能性を示している。 我々の知る限り、この研究は、複雑な規制条項の理解と解釈のための LLM を導入する最初の試みであり、建設領域における LLM のさらなる採用に光を当てる可能性がある。

As a vital stage of automated rule checking (ARC), rule interpretation of regulatory texts requires considerable effort. However, interpreting regulatory clauses with implicit properties or complex computational logic is still challenging due to the lack of domain knowledge and limited expressibility of conventional logic representations. Thus, LLM-FuncMapper, an approach to identifying predefined functions needed to interpret various regulatory clauses based on the large language model (LLM), is proposed. First, by systematically analysis of building codes, a series of atomic functions are defined to capture shared computational logics of implicit properties and complex constraints, creating a database of common blocks for interpreting regulatory clauses. Then, a prompt template with the chain of thought is developed and further enhanced with a classification-based tuning strategy, to enable common LLMs for effective function identification. Finally, the proposed approach is validated with statistical analysis, experiments, and proof of concept. Statistical analysis reveals a long-tail distribution and high expressibility of the developed function database, with which almost 100% of computer-processible clauses can be interpreted and represented as computer-executable codes. Experiments show that LLM-FuncMapper achieve promising results in identifying relevant predefined functions for rule interpretation. Further proof of concept in automated rule interpretation also demonstrates the possibility of LLM-FuncMapper in interpreting complex regulatory clauses. To the best of our knowledge, this study is the first attempt to introduce LLM for understanding and interpreting complex regulatory clauses, which may shed light on further adoption of LLM in the construction domain.
翻訳日:2023-08-21 18:26:16 公開日:2023-08-17
# 多視点3次元再構成のためのロングランジグルーピング変圧器

Long-Range Grouping Transformer for Multi-View 3D Reconstruction ( http://arxiv.org/abs/2308.08724v1 )

ライセンス: Link先を確認
Liying Yang, Zhenwei Zhu, Xuxin Lin, Jian Nong, Yanyan Liang(参考訳) 近年、トランスフォーマーネットワークは多くのコンピュータビジョンタスクにおいて優れた性能を示している。 このパラダイムに従う多視点3D再構成アルゴリズムでは、大量のビュー入力に直面した場合には、大量の情報を含む複雑な画像トークンを扱う必要がある。 情報コンテンツの呪いは、モデル学習の極端な困難につながる。 この問題を軽減するため、最近の手法では、各ビューを表すトークン番号を圧縮したり、異なるビューからトークン間の注意操作を破棄する。 明らかに、パフォーマンスに悪影響を与えます。 そこで本稿では,配当原理に基づく長距離グループ注意(LGA)を提案する。 すべてのビューからのトークンは、別々の注意操作のためにグループ化されます。 各グループのトークンは、すべてのビューからサンプリングされ、既存のビューにマクロ表現を提供することができる。 特徴学習の豊かさは、異なるグループ間の多様性によって保証される。 LGAを用いてビュー間特徴を接続し、標準自己保持層を用いてビュー内特徴を抽出する、効果的で効率的なエンコーダを確立することができる。 さらに、比較的高解像度のボクセル生成のための新しいプログレッシブアップサンプリングデコーダも設計されている。 このようにして、LRGTと呼ばれる強力な変圧器ベースのネットワークを構築する。 ShapeNetによる実験結果から,多視点再構成におけるSOTA精度が得られた。 コードはhttps://github.com/LiyingCV/Long-Range-Grouping-Transformerで入手できる。

Nowadays, transformer networks have demonstrated superior performance in many computer vision tasks. In a multi-view 3D reconstruction algorithm following this paradigm, self-attention processing has to deal with intricate image tokens including massive information when facing heavy amounts of view input. The curse of information content leads to the extreme difficulty of model learning. To alleviate this problem, recent methods compress the token number representing each view or discard the attention operations between the tokens from different views. Obviously, they give a negative impact on performance. Therefore, we propose long-range grouping attention (LGA) based on the divide-and-conquer principle. Tokens from all views are grouped for separate attention operations. The tokens in each group are sampled from all views and can provide macro representation for the resided view. The richness of feature learning is guaranteed by the diversity among different groups. An effective and efficient encoder can be established which connects inter-view features using LGA and extract intra-view features using the standard self-attention layer. Moreover, a novel progressive upsampling decoder is also designed for voxel generation with relatively high resolution. Hinging on the above, we construct a powerful transformer-based network, called LRGT. Experimental results on ShapeNet verify our method achieves SOTA accuracy in multi-view reconstruction. Code will be available at https://github.com/LiyingCV/Long-Range-Grouping-Transformer.
翻訳日:2023-08-21 18:25:48 公開日:2023-08-17
# 学習画像圧縮のための動的カーネルベース適応空間アグリゲーション

Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image Compression ( http://arxiv.org/abs/2308.08723v1 )

ライセンス: Link先を確認
Huairui Wang, Nianxiang Fu, Zhenzhong Chen and Shan Liu(参考訳) 学習された画像圧縮法は従来の圧縮法に比べて高い速度歪み性能と顕著なポテンシャルを示した。 既存の学習手法のほとんどは、固定範囲の空間情報を集約する変換符号化にスタック畳み込みやウィンドウベースの自己照準を用いる。 本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースのトランスフォーメーション符号化を提案する。 提案するアダプティブアグリゲーションは,コンテント条件範囲で有効な情報をキャプチャするためにカーネルオフセットを生成する。 適応アグリゲーション戦略と共有ウェイト機構により,提案手法はモデル複雑性を許容し,有望な変換能力を実現できる。 さらに,近年のエントロピーモデルの発展により,大域的コンテキスト,チャネルワイド,空間的コンテキストを考慮した一般化された粗大小エントロピーモデルを定義する。 そこで我々は,より表現力のあるグローバルコンテキストを生成するために,ハイパープライアに動的カーネルを導入する。 さらに,非対称な空間チャネルエントロピーモデルを提案する。 非対称エントロピーモデルは、符号効率を維持しながら統計冗長性を低減することを目的としている。 実験の結果,3つのベンチマークにおいて,最先端学習法と比較して高いレートゆらぎ性能が得られた。

Learned image compression methods have shown superior rate-distortion performance and remarkable potential compared to traditional compression methods. Most existing learned approaches use stacked convolution or window-based self-attention for transform coding, which aggregate spatial information in a fixed range. In this paper, we focus on extending spatial aggregation capability and propose a dynamic kernel-based transform coding. The proposed adaptive aggregation generates kernel offsets to capture valid information in the content-conditioned range to help transform. With the adaptive aggregation strategy and the sharing weights mechanism, our method can achieve promising transform capability with acceptable model complexity. Besides, according to the recent progress of entropy model, we define a generalized coarse-to-fine entropy model, considering the coarse global context, the channel-wise, and the spatial context. Based on it, we introduce dynamic kernel in hyper-prior to generate more expressive global context. Furthermore, we propose an asymmetric spatial-channel entropy model according to the investigation of the spatial characteristics of the grouped latents. The asymmetric entropy model aims to reduce statistical redundancy while maintaining coding efficiency. Experimental results demonstrate that our method achieves superior rate-distortion performance on three benchmarks compared to the state-of-the-art learning-based methods.
翻訳日:2023-08-21 18:25:30 公開日:2023-08-17
# 量子ドット内のベル状態テクスチャ間の新しいキャビティ誘起スイッチング

Novel cavity-induced switching between Bell-state textures in a quantum dot ( http://arxiv.org/abs/2308.08722v1 )

ライセンス: Link先を確認
S. S. Beltr\'an-Romero, F. J. Rodr\'iguez, L. Quiroga, N. F. Johnson(参考訳) マイクロ波キャビティ内のナノスケール量子ドットは、量子化された光と磁場の存在下で電子-電子相互作用とそのスピンを探索するための実験室として用いられる。 共鳴におけるこの相互作用の単純な理論モデルが、複雑だが測定可能な効果をいかに予測するかを示す。 スピン、相対モード、放射を結合する新しいポラリトン状態が出現する。 これらの状態は複雑なスピン空間相関を持ち、マイクロ波空洞場によって制御される偏光子遷移を行う。 我々は高相関スピンと電荷密度を含む新しいトポロジ効果を明らかにし,一重項と不均一なベル状態の分布を示す。 これらの遷移のサインは光子分布に印字され、将来の実験やナノスケール量子技術における光学的読み出しプロトコルが実現される。

Nanoscale quantum dots in microwave cavities can be used as a laboratory for exploring electron-electron interactions and their spin in the presence of quantized light and a magnetic field. We show how a simple theoretical model of this interplay at resonance predicts complex but measurable effects. New polariton states emerge that combine spin, relative modes, and radiation. These states have intricate spin-space correlations and undergo polariton transitions controlled by the microwave cavity field. We uncover novel topological effects involving highly correlated spin and charge density, that display singlet-triplet and inhomogeneous Bell-state distributions. Signatures of these transitions are imprinted in the photon distribution, which will allow for optical read out protocols in future experiments and nanoscale quantum technologies.
翻訳日:2023-08-21 18:25:11 公開日:2023-08-17
# rfd-ecnet:極端水中画像圧縮と特徴ディクショナ

RFD-ECNet: Extreme Underwater Image Compression with Reference to Feature Dictionar ( http://arxiv.org/abs/2308.08721v1 )

ライセンス: Link先を確認
Mengyao Li, Liquan Shen, Peng Ye, Guorui Feng, Zheyin Wang(参考訳) 水中のアプリケーションは、非常に狭い水中帯域で水中画像(UWI)の伝送を実現するために効率的な極端な圧縮技術を必要とする。 しかし、既存の画像圧縮法では、UWIの特徴を考慮しないため、UWIに劣る性能が得られている。(1) 独特の水中物理画像による色の変化と距離依存の明瞭さ、(2) 異なるUWI間の大規模な冗長性、(2) 異なるUWIには、構造や意味において多くの類似点を持つ複数の共通海洋オブジェクトが含まれていることに起因する。 UWIの冗長性を除去するために,UWI圧縮のための粗大な参照特徴を提供するために,まず網羅的な水中マルチスケール特徴辞書を構築した。 その後、特徴辞書(RFD-ECNet)を参照した極端なUWI圧縮ネットワークを創造的に提案し、特徴マッチングと参照特徴変種を利用してUWI間の冗長性を著しく除去する。 多彩な水中スタイルを整列させ、特徴マッチングの精度を向上させるために、水中物理イメージングモデルから抽出した水中物理前処理を利用して、辞書特徴の水中スタイルを入力に向けて正規化する水中型正規化ブロック(usnb)を提案する。 さらに、参照特徴変種モジュール(RFVM)は、参照特徴を適応的に変形させ、参照特徴と入力特徴との類似性を改善するように設計されている。 UWIデータセット4つの実験結果から、RFD-ECNetは、最も進んだVVCに対して31%のBDレートの大幅な削減を達成する最初の成果であることが示された。

Thriving underwater applications demand efficient extreme compression technology to realize the transmission of underwater images (UWIs) in very narrow underwater bandwidth. However, existing image compression methods achieve inferior performance on UWIs because they do not consider the characteristics of UWIs: (1) Multifarious underwater styles of color shift and distance-dependent clarity, caused by the unique underwater physical imaging; (2) Massive redundancy between different UWIs, caused by the fact that different UWIs contain several common ocean objects, which have plenty of similarities in structures and semantics. To remove redundancy among UWIs, we first construct an exhaustive underwater multi-scale feature dictionary to provide coarse-to-fine reference features for UWI compression. Subsequently, an extreme UWI compression network with reference to the feature dictionary (RFD-ECNet) is creatively proposed, which utilizes feature match and reference feature variant to significantly remove redundancy among UWIs. To align the multifarious underwater styles and improve the accuracy of feature match, an underwater style normalized block (USNB) is proposed, which utilizes underwater physical priors extracted from the underwater physical imaging model to normalize the underwater styles of dictionary features toward the input. Moreover, a reference feature variant module (RFVM) is designed to adaptively morph the reference features, improving the similarity between the reference and input features. Experimental results on four UWI datasets show that our RFD-ECNet is the first work that achieves a significant BD-rate saving of 31% over the most advanced VVC.
翻訳日:2023-08-21 18:24:59 公開日:2023-08-17
# EdgeMA:エッジデバイス上でのリアルタイムビデオ分析のためのモデル適応システム

EdgeMA: Model Adaptation System for Real-Time Video Analytics on Edge Devices ( http://arxiv.org/abs/2308.08717v1 )

ライセンス: Link先を確認
Liang Wang, Nan Zhang, Xiaoyang Qu, Jianzong Wang, Jiguang Wan, Guokuan Li, Kaiyu Hu, Guilin Jiang, Jing Xiao(参考訳) シーンを変えるためのエッジデバイス上のリアルタイムビデオ分析は、依然として難しい課題だ。 エッジデバイスは通常、リソース制約があるため、エッジディープニューラルネットワーク(DNN)は一般的なDNNよりも重みと浅いアーキテクチャを持つ。 その結果、限られたシナリオでのみうまく機能し、データのドリフトに敏感である。 本稿では,リアルタイムビデオストリームのシフトにモデルを適応させるために設計された,実用的で効率的なビデオ分析システムであるEdgeMAを紹介し,データドリフト問題に対処する。 EdgeMAは、グレーレベル共起行列に基づく統計テクスチャ特徴を抽出し、ランダムフォレスト分類器を使用してドメインシフトを検出する。 さらに,重要度重み付けに基づくモデル適応の手法を取り入れ,ラベル分布シフトに対応するためにモデルを更新するように特別に設計した。 実世界のデータセット上でのEdgeMAの厳密な評価により,EdgeMAは推論精度を大幅に向上することが示された。

Real-time video analytics on edge devices for changing scenes remains a difficult task. As edge devices are usually resource-constrained, edge deep neural networks (DNNs) have fewer weights and shallower architectures than general DNNs. As a result, they only perform well in limited scenarios and are sensitive to data drift. In this paper, we introduce EdgeMA, a practical and efficient video analytics system designed to adapt models to shifts in real-world video streams over time, addressing the data drift problem. EdgeMA extracts the gray level co-occurrence matrix based statistical texture feature and uses the Random Forest classifier to detect the domain shift. Moreover, we have incorporated a method of model adaptation based on importance weighting, specifically designed to update models to cope with the label distribution shift. Through rigorous evaluation of EdgeMA on a real-world dataset, our results illustrate that EdgeMA significantly improves inference accuracy.
翻訳日:2023-08-21 18:24:25 公開日:2023-08-17
# v-fuse:長距離制約付き体積深度マップの融合

V-FUSE: Volumetric Depth Map Fusion with Long-Range Constraints ( http://arxiv.org/abs/2308.08715v1 )

ライセンス: Link先を確認
Nathaniel Burgdorfer, Philippos Mordohai(参考訳) 本稿では,Multi-View Stereo(MVS)アルゴリズムによって生成された深度マップと信頼マップのセットを入力として受け入れ,改良する学習ベースの深度マップ融合フレームワークを提案する。 これは、様々なビューにわたる長距離表面関係をエンコードするボリューム可視性制約をエンドツーエンドのトレーニング可能なアーキテクチャに統合することで達成される。 また、各線に沿った深度仮説探索空間を減らすために、より大きな融合サブネットワークと共に訓練された深度探索ウィンドウ推定サブネットワークを導入する。 本手法では,データから直接可視性制約をモデル化し,微調整型融合パラメータの必要性を効果的に除去する。 MVSデータセットの大規模な実験は、出力融合深度と信頼マップの精度を大幅に改善したことを示している。

We introduce a learning-based depth map fusion framework that accepts a set of depth and confidence maps generated by a Multi-View Stereo (MVS) algorithm as input and improves them. This is accomplished by integrating volumetric visibility constraints that encode long-range surface relationships across different views into an end-to-end trainable architecture. We also introduce a depth search window estimation sub-network trained jointly with the larger fusion sub-network to reduce the depth hypothesis search space along each ray. Our method learns to model depth consensus and violations of visibility constraints directly from the data; effectively removing the necessity of fine-tuning fusion parameters. Extensive experiments on MVS datasets show substantial improvements in the accuracy of the output fused depth and confidence maps.
翻訳日:2023-08-21 18:24:11 公開日:2023-08-17
# CLIPモデルによる微細テキストと画像ガイドポイントクラウド補完

Fine-grained Text and Image Guided Point Cloud Completion with CLIP Model ( http://arxiv.org/abs/2308.08754v1 )

ライセンス: Link先を確認
Wei Song, Jun Zhou, Mingjie Wang, Hongchen Tan, Nannan Li, Xiuping Liu(参考訳) 本稿では,マルチモーダル情報によって誘導されるポイントクラウド補完の課題に焦点をあてる。 既存の手法は補助画像の融合によって優れた性能を保っているが,モデルの一般化能力の低下や,抽出した特徴に対する詳細な意味情報不足など,いくつかの欠点がある。 本研究では,不完全な形状の意味的特徴と幾何学的特徴を効果的に予測するために,視覚情報とテキスト情報を同時に融合する多モード融合ネットワークを提案する。 具体的には、小規模データセットによる事前情報不足を克服するために、大量の画像テキストペアでトレーニングされた事前学習された視覚言語モデルを用いる。 したがって、この大規模モデルのテキストエンコーダとビジュアルエンコーダはより強力な一般化能力を有する。 そこで本研究では,テキストと視覚機能をバックボーンネットワークに徐々に融合させる多段階機能融合戦略を提案する。 一方,ポイントクラウド完成のための細粒度テキスト記述の有効性をさらに探究するために,細粒度記述を含むテキストコーパスを構築し,3次元形状の幾何学的詳細を提供する。 リッチなテキスト記述は、ネットワークのトレーニングと評価に使用できます。 大規模定量的および定性的実験は,最先端のクラウド完備化ネットワークと比較して,本手法の優れた性能を示す。

This paper focuses on the recently popular task of point cloud completion guided by multimodal information. Although existing methods have achieved excellent performance by fusing auxiliary images, there are still some deficiencies, including the poor generalization ability of the model and insufficient fine-grained semantic information for extracted features. In this work, we propose a novel multimodal fusion network for point cloud completion, which can simultaneously fuse visual and textual information to predict the semantic and geometric characteristics of incomplete shapes effectively. Specifically, to overcome the lack of prior information caused by the small-scale dataset, we employ a pre-trained vision-language model that is trained with a large amount of image-text pairs. Therefore, the textual and visual encoders of this large-scale model have stronger generalization ability. Then, we propose a multi-stage feature fusion strategy to fuse the textual and visual features into the backbone network progressively. Meanwhile, to further explore the effectiveness of fine-grained text descriptions for point cloud completion, we also build a text corpus with fine-grained descriptions, which can provide richer geometric details for 3D shapes. The rich text descriptions can be used for training and evaluating our network. Extensive quantitative and qualitative experiments demonstrate the superior performance of our method compared to state-of-the-art point cloud completion networks.
翻訳日:2023-08-21 18:17:46 公開日:2023-08-17
# bott: 3dオブジェクト追跡のためのボックスのみのトランスフォーマートラッカ

BOTT: Box Only Transformer Tracker for 3D Object Tracking ( http://arxiv.org/abs/2308.08753v1 )

ライセンス: Link先を確認
Lubing Zhou, Xiaoli Meng, Yiluan Guo, Jiong Yang(参考訳) 3Dオブジェクトの追跡は、自動運転において重要なタスクである。 古典的なカルマンフィルタに基づく手法は、現在でも最もポピュラーなソリューションである。 しかし、これらの手法では手作りのモーションモデリングが必要であり、データ量の増加の恩恵を受けることはできない。 本稿では,全ての3dボックスを入力として入力することで,同一オブジェクトの3dボックスを異なるフレームからリンクすることを学ぶために,box only transformer tracker (bott)を提案する。 特に、トランスフォーマティブ・セルフ・アテンション(transformal self-attention)は、全ボックス間の情報を交換して、グローバルインフォーマティブなボックス埋め込みを学ぶために適用される。 これらの学習された埋め込みの類似性は、同じオブジェクトのボックスをリンクするのに使うことができる。 BOTTはオンラインとオフラインの両方のトラッキングモードでシームレスに使用できる。 そのシンプルさによって、従来のカルマンフィルタリングベースのメソッドに必要なエンジニアリング労力を大幅に削減できます。 実験によれば、bottは2つの最大の3d motベンチマークでそれぞれ69.9と66.7のamota、それぞれwaymo open dataset validationとtest splitsの56.45と59.57 mota l2の競合性能を達成している。 この研究は、トランスフォーマーを使って3Dボックスから直接特徴を学習することで、3Dオブジェクトを追跡することが、シンプルで効果的な方法であることを示している。

Tracking 3D objects is an important task in autonomous driving. Classical Kalman Filtering based methods are still the most popular solutions. However, these methods require handcrafted designs in motion modeling and can not benefit from the growing data amounts. In this paper, Box Only Transformer Tracker (BOTT) is proposed to learn to link 3D boxes of the same object from the different frames, by taking all the 3D boxes in a time window as input. Specifically, transformer self-attention is applied to exchange information between all the boxes to learn global-informative box embeddings. The similarity between these learned embeddings can be used to link the boxes of the same object. BOTT can be used for both online and offline tracking modes seamlessly. Its simplicity enables us to significantly reduce engineering efforts required by traditional Kalman Filtering based methods. Experiments show BOTT achieves competitive performance on two largest 3D MOT benchmarks: 69.9 and 66.7 AMOTA on nuScenes validation and test splits, respectively, 56.45 and 59.57 MOTA L2 on Waymo Open Dataset validation and test splits, respectively. This work suggests that tracking 3D objects by learning features directly from 3D boxes using transformers is a simple yet effective way.
翻訳日:2023-08-21 18:17:26 公開日:2023-08-17
# 間接結合型whispering-galleryモード共振器における非逆光子輸送

Nonreciprocal photon transport in indirectly coupled whispering-gallery mode resonators ( http://arxiv.org/abs/2308.08750v1 )

ライセンス: Link先を確認
Gang Li, Ying-Qiao Zhang and Xing-Ri Jin(参考訳) ツェーマン・スプリット量子ドットを含む2つのウィスパーリングガリーモード共振器と光ファイバを副結合したシステムの反射特性と伝送特性について検討した。 その結果、共振器と光ファイバの結合強度を調整し、一方向の反射と伝送が可能となった。 さらに, 量子ドットエネルギーレベル共鳴周波数と, {\pi} の位相シフトにおける低反射(透過)ピークの位置との対応性を確立する。 この研究は、アイソレータ、サーキュレータ、ルータなどの量子光学デバイスの開発に関する洞察を提供する。

We study the reflection and transmission properties of a system comprising two whispering-gallery mode resonators, each containing a Zeeman-split quantum dot and side-coupled to an optical fiber. Our results demonstrate that unidirectional reflection and transmission can be achieved by tuning the coupling strength between the resonators and the optical fiber. Furthermore, we establish a correspondence between quantum dot energy level resonance frequencies and the positions of low reflection (transmission) peaks at a phase shift of {\pi}. This research provides insights for the development of quantum optical devices like isolators, circulators, and routers.
翻訳日:2023-08-21 18:16:49 公開日:2023-08-17
# 大規模言語モデルにおける連続的微調整時の破滅的蓄積に関する実証的研究

An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning ( http://arxiv.org/abs/2308.08747v1 )

ライセンス: Link先を確認
Yun Luo and Zhen Yang and Fandong Meng and Yafu Li and Jie Zhou and Yue Zhang(参考訳) 破滅的忘れ (catastrophic forgetting, cf) は、モデルが新しい情報を学ぶときに学習した情報を忘れると、機械学習で起こる現象である。 大規模言語モデル(LLM)は優れた性能を示しており、LCMの連続的な微調整にCFが存在するかどうかを明らかにすることは興味深い。 本研究では,ドメイン知識,推論,読み理解の観点から,llmsの知識における忘れられる現象を実証的に評価する。 実験の結果,1bから7bまでのLSMでは破滅的忘れが一般的に見られることがわかった。 さらに、スケールが大きくなるにつれて、忘れることの重大さも増大する。 デコーダのみのモデルBLOOMZとエンコーダ-デコーダモデルmT0を比較すると、BLOOMZは忘れられにくく、より多くの知識を維持している。 また、llmは、連続的な微調整中に言語バイアス(例えば、性別バイアス)を軽減できることも観察する。 さらに,alpacaは,連続的微調整時のllamaに比べて知識と能力が向上し,さらに微調整過程におけるllmの忘れられる現象の軽減に寄与することが示唆された。

Catastrophic forgetting (CF) is a phenomenon that occurs in machine learning when a model forgets previously learned information as it learns new information. As large language models (LLMs) have shown excellent performance, it is interesting to uncover whether CF exists in the continual fine-tuning of LLMs. In this study, we empirically evaluate the forgetting phenomenon in LLMs' knowledge, from the perspectives of domain knowledge, reasoning, and reading comprehension. The experiments demonstrate that catastrophic forgetting is generally observed in LLMs ranging from 1b to 7b. Furthermore, as the scale increases, the severity of forgetting also intensifies. Comparing the decoder-only model BLOOMZ with the encoder-decoder model mT0, BLOOMZ suffers less forgetting and maintains more knowledge. We also observe that LLMs can mitigate language bias (e.g. gender bias) during continual fine-tuning. Moreover, we find that ALPACA can maintain more knowledge and capacity compared with LLAMA during the continual fine-tuning, which implies that general instruction tuning can help mitigate the forgetting phenomenon of LLMs in the further fine-tuning process.
翻訳日:2023-08-21 18:16:31 公開日:2023-08-17
# 外科用SAM : プロンプタブルな外科用機器セグメンテーション

SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation ( http://arxiv.org/abs/2308.08746v1 )

ライセンス: Link先を確認
Wenxi Yue, Jing Zhang, Kun Hu, Yong Xia, Jiebo Luo, Zhiyong Wang(参考訳) Segment Anything Model (SAM)は、画像セグメンテーションに革命をもたらした強力な基礎モデルである。 SAMを手術器具のセグメンテーションに適用するには、楽器の正確な点や箱を見つけ出し、SAMのプロンプトとしてゼロショットで使用するのが一般的である。 しかし,本パイプラインでは,(1)自然物と外科器具の領域ギャップがSAMの一般化を損なうこと,(2)SAMが正確なセグメンテーションを行うために正確な点やボックスの位置に依存していること,(3)手動による手動の指導や,あるいは複雑な多段パイプラインを実現するための優れた特殊検出器が必要であること,の2つの問題を考察した。 これらの課題に対処するため,本研究では,SAMの事前学習知識と外科的特異情報を効果的に統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介する。 具体的には,クラスプロトタイプから直接プロンプト埋め込みを生成し,ロバスト性向上のための明示的なプロンプトとパイプラインを不要にする,チューニングのための軽量なプロトタイプベースのクラスプロンプトエンコーダを提案する。 また,手術器具カテゴリー間のクラス間差異の低さに対処するため,コントラスト学習を提案し,より正確なクラスプロンプトのためのクラスプロトタイプの識別を強化した。 EndoVis2018とEndoVis2017のデータセットに関する広範な実験の結果は、StudioSAMが最先端のパフォーマンスを達成すると同時に、少数の調整可能なパラメータのみを必要とすることを示した。 ソースコードはhttps://github.com/wenxi-yue/SurgicalSAMで公開される。

The Segment Anything Model (SAM) is a powerful foundation model that has revolutionised image segmentation. To apply SAM to surgical instrument segmentation, a common approach is to locate precise points or boxes of instruments and then use them as prompts for SAM in a zero-shot manner. However, we observe two problems with this naive pipeline: (1) the domain gap between natural objects and surgical instruments leads to poor generalisation of SAM; and (2) SAM relies on precise point or box locations for accurate segmentation, requiring either extensive manual guidance or a well-performing specialist detector for prompt preparation, which leads to a complex multi-stage pipeline. To address these problems, we introduce SurgicalSAM, a novel end-to-end efficient-tuning approach for SAM to effectively integrate surgical-specific information with SAM's pre-trained knowledge for improved generalisation. Specifically, we propose a lightweight prototype-based class prompt encoder for tuning, which directly generates prompt embeddings from class prototypes and eliminates the use of explicit prompts for improved robustness and a simpler pipeline. In addition, to address the low inter-class variance among surgical instrument categories, we propose contrastive prototype learning, further enhancing the discrimination of the class prototypes for more accurate class prompting. The results of extensive experiments on both EndoVis2018 and EndoVis2017 datasets demonstrate that SurgicalSAM achieves state-of-the-art performance while only requiring a small number of tunable parameters. The source code will be released at https://github.com/wenxi-yue/SurgicalSAM.
翻訳日:2023-08-21 18:15:54 公開日:2023-08-17
# PMET: トランスによる精密モデル編集

PMET: Precise Model Editing in a Transformer ( http://arxiv.org/abs/2308.08742v1 )

ライセンス: Link先を確認
Xiaopeng Li, Shasha Li, Shezheng Song, Jing Yang, Jun Ma, and Jie Yu(参考訳) モデル編集技術は、比較的低コストでLLM(Large Language Models)の知識の少なさを修正し、顕著な成功を収めた。 既存の手法では、トランスフォーマー層(tl)隠れ状態がフィードフォワードネットワーク(ffn)のキー値記憶値であると仮定している。 彼らは通常、目標知識を記憶し、llmにおけるffnの重み付けを更新するためにtl隠れ状態を最適化する。 しかしながら、tl隠れ状態の情報フローは、マルチヘッドセルフアテンション(mhsa)、ffn、残余接続の3つの部分から来ている。 既存の方法は、TL隠蔽状態がFFNに特に必要でない情報を含んでいるという事実を無視している。 これにより、モデル編集の性能が低下する。 より正確なモデル編集を実現するために,MHSAとFFNの隠れ状態を解析し,MHSAが特定の一般的な知識抽出パターンを符号化していることを確認した。 これは、MHSAの重み付けが新しい知識が導入されたときに更新を必要としないことを意味する。 以上の結果から, PMET は Transformer Component (TC, MHSA と FFN) の隠蔽状態を同時に最適化すると同時に, FFN の隠蔽状態を最適化して FFN の重みを正確に更新する。 実験の結果,PMET は \textsc{counterfact} と zsRE の両方のデータセット上で最先端の性能を示すことがわかった。 我々のアブレーション実験は、MHSAが特定の一般的な知識抽出パターンを符号化し、少量の事実知識の蓄積を示すことの発見をさらに強化し、拡張の有効性を裏付けるものである。 私たちのコードは \url{https://github.com/xpq-tech/PMET.git} で利用可能です。

Model editing techniques modify a minor proportion of knowledge in Large Language Models (LLMs) at a relatively low cost, which have demonstrated notable success. Existing methods assume Transformer Layer (TL) hidden states are values of key-value memories of the Feed-Forward Network (FFN). They usually optimize the TL hidden states to memorize target knowledge and use it to update the weights of the FFN in LLMs. However, the information flow of TL hidden states comes from three parts: Multi-Head Self-Attention (MHSA), FFN, and residual connections. Existing methods neglect the fact that the TL hidden states contains information not specifically required for FFN. Consequently, the performance of model editing decreases. To achieve more precise model editing, we analyze hidden states of MHSA and FFN, finding that MHSA encodes certain general knowledge extraction patterns. This implies that MHSA weights do not require updating when new knowledge is introduced. Based on above findings, we introduce PMET, which simultaneously optimizes Transformer Component (TC, namely MHSA and FFN) hidden states, while only using the optimized TC hidden states of FFN to precisely update FFN weights. Our experiments demonstrate that PMET exhibits state-of-the-art performance on both the \textsc{counterfact} and zsRE datasets. Our ablation experiments substantiate the effectiveness of our enhancements, further reinforcing the finding that the MHSA encodes certain general knowledge extraction patterns and indicating its storage of a small amount of factual knowledge. Our code is available at \url{https://github.com/xpq-tech/PMET.git}.
翻訳日:2023-08-21 18:15:17 公開日:2023-08-17
# MIPS-Fusion: スケーラブルかつロバストなオンラインニューラルRGB-D再構成のためのマルチインプシットサブマップ

MIPS-Fusion: Multi-Implicit-Submaps for Scalable and Robust Online Neural RGB-D Reconstruction ( http://arxiv.org/abs/2308.08741v1 )

ライセンス: Link先を確認
Yijie Tang, Jiazhao Zhang, Zhinan Yu, He Wang, Kai Xu(参考訳) 我々は,新しいニューラル暗黙表現-multi-implicit-submapに基づく,堅牢でスケーラブルなオンラインRGB-D再構成手法であるMIPS-Fusionを紹介する。 既存のニューラルネットワークRGB-D再構成手法とは違い,機能グリッドの余分な格納により,単一ニューラルマップの柔軟性やスケーラビリティが欠如しているため,分割・コンカ設計の難しさに対処する純粋ニューラル表現を提案する。 本手法では,脳神経サブマップを走査軌道に沿って漸進的に割り当て,局所的な神経束調整で効率的に学習する。 サブマップはバックエンド最適化で個別に洗練することができ、同時に最適化してサブマップレベルのループクロージャを実現することができる。 一方,ランダム化と勾配に基づくポーズ最適化を組み合わせたハイブリッドトラッキング手法を提案する。 学習プロセスにいくつかの重要な設計を持つニューラルネットワークのトラッキングでは、初めてランダム化最適化が可能となり、高速なカメラの動きでも効率的で堅牢なトラッキングが可能になる。 広範に評価した結果,本手法は大規模シーンや高速カメラ動作において,芸術水準よりも高いコンストラクション品質が得られることがわかった。

We introduce MIPS-Fusion, a robust and scalable online RGB-D reconstruction method based on a novel neural implicit representation -- multi-implicit-submap. Different from existing neural RGB-D reconstruction methods lacking either flexibility with a single neural map or scalability due to extra storage of feature grids, we propose a pure neural representation tackling both difficulties with a divide-and-conquer design. In our method, neural submaps are incrementally allocated alongside the scanning trajectory and efficiently learned with local neural bundle adjustments. The submaps can be refined individually in a back-end optimization and optimized jointly to realize submap-level loop closure. Meanwhile, we propose a hybrid tracking approach combining randomized and gradient-based pose optimizations. For the first time, randomized optimization is made possible in neural tracking with several key designs to the learning process, enabling efficient and robust tracking even under fast camera motions. The extensive evaluation demonstrates that our method attains higher reconstruction quality than the state of the arts for large-scale scenes and under fast camera motions.
翻訳日:2023-08-21 18:14:45 公開日:2023-08-17
# フレーズ抽出のためのインフォメーション・ボトルネックガイドテキスト拡散プロセスによるフレーズ表現の強化

Enhancing Phrase Representation by Information Bottleneck Guided Text Diffusion Process for Keyphrase Extraction ( http://arxiv.org/abs/2308.08739v1 )

ライセンス: Link先を確認
Yuanzhen Luo, Qingyu Zhou and Feng Zhou(参考訳) キーフレーズ抽出(KPE)は多くのシナリオにおいて自然言語処理において重要なタスクであり、ある文書に存在するキーフレーズを抽出することを目的としている。 既存の管理手法の多くは、KPEをシーケンシャルラベリング、スパンレベル分類、または生成タスクとして扱う。 しかし、これらの方法はキーフレーズ情報を利用する能力に欠けており、結果としてバイアスが生じる可能性がある。 本研究では,教師付き変分情報ボトルネック(vib)を利用してテキスト拡散過程をガイドし,拡張キーフレーズ表現を生成するdiff-kpeを提案する。 Diff-KPEはまず、文書全体に条件付けられた所望のキーフレーズ埋め込みを生成し、その後、生成されたキーフレーズ埋め込みを各フレーズ表現に注入する。 ランキングネットワークとVIBは、それぞれランク損失と分類損失とを合わせて最適化される。 このDiff-KPEの設計により、キーフレーズの情報と文書の両方を利用して、各候補句をランク付けできる。 Diff-KPEは、大規模なオープンドメインキーフレーズ抽出ベンチマーク、OpenKP、科学ドメインデータセットKP20Kにおいて、既存のKPEメソッドよりも優れていることを示す。

Keyphrase extraction (KPE) is an important task in Natural Language Processing for many scenarios, which aims to extract keyphrases that are present in a given document. Many existing supervised methods treat KPE as sequential labeling, span-level classification, or generative tasks. However, these methods lack the ability to utilize keyphrase information, which may result in biased results. In this study, we propose Diff-KPE, which leverages the supervised Variational Information Bottleneck (VIB) to guide the text diffusion process for generating enhanced keyphrase representations. Diff-KPE first generates the desired keyphrase embeddings conditioned on the entire document and then injects the generated keyphrase embeddings into each phrase representation. A ranking network and VIB are then optimized together with rank loss and classification loss, respectively. This design of Diff-KPE allows us to rank each candidate phrase by utilizing both the information of keyphrases and the document. Experiments show that Diff-KPE outperforms existing KPE methods on a large open domain keyphrase extraction benchmark, OpenKP, and a scientific domain dataset, KP20K.
翻訳日:2023-08-21 18:14:26 公開日:2023-08-17
# ReProHRL:階層型エージェントを用いた実世界のマルチゴールナビゲーションを目指して

ReProHRL: Towards Multi-Goal Navigation in the Real World using Hierarchical Agents ( http://arxiv.org/abs/2308.08737v1 )

ライセンス: Link先を確認
Tejaswini Manjunath, Mozhgan Navardi, Prakhar Dixit, Bharat Prakash, Tinoosh Mohsenin(参考訳) ロボットは高精度なタスクの実行に成功しています。 少ない報酬と複数の目標を持つ現実の環境では、学習は依然として大きな課題であり、強化学習(RL)アルゴリズムは良いポリシーを学ばない。 シミュレーション環境でのトレーニング、そして現実世界での微調整は一般的なアプローチです。 しかし、現実世界の設定に適応することは困難である。 本稿では,強化学習による階層型マルチゴールナビゲーションでタスクを分割する,生産用階層型rl (reprohrl) 法を提案する。 また,オブジェクト検出器を事前処理ステップとして使用して,マルチゴールナビゲーションを学習し,実世界へ転送する。 実験結果から,ReProHRL法は実環境とシミュレーションにおいて,トレーニング時間と性能の両面で,最先端のベースラインよりも優れていた。 いずれの手法も,単一目標ベースナビゲーションの簡単な環境では100%成功率が得られたが,より複雑な環境と多目的設定では,提案手法がベースラインを18%,5%上回った。 実世界の実現と概念実証のために,提案手法をCrazyflieというナノドローンにフロントカメラで展開し,マルチゴールナビゲーション実験を行った。

Robots have been successfully used to perform tasks with high precision. In real-world environments with sparse rewards and multiple goals, learning is still a major challenge and Reinforcement Learning (RL) algorithms fail to learn good policies. Training in simulation environments and then fine-tuning in the real world is a common approach. However, adapting to the real-world setting is a challenge. In this paper, we present a method named Ready for Production Hierarchical RL (ReProHRL) that divides tasks with hierarchical multi-goal navigation guided by reinforcement learning. We also use object detectors as a pre-processing step to learn multi-goal navigation and transfer it to the real world. Empirical results show that the proposed ReProHRL method outperforms the state-of-the-art baseline in simulation and real-world environments in terms of both training time and performance. Although both methods achieve a 100% success rate in a simple environment for single goal-based navigation, in a more complex environment and multi-goal setting, the proposed method outperforms the baseline by 18% and 5%, respectively. For the real-world implementation and proof of concept demonstration, we deploy the proposed method on a nano-drone named Crazyflie with a front camera to perform multi-goal navigation experiments.
翻訳日:2023-08-21 18:14:06 公開日:2023-08-17
# ログベース異常検出におけるログ表現の有効性について

On the Effectiveness of Log Representation for Log-based Anomaly Detection ( http://arxiv.org/abs/2308.08736v1 )

ライセンス: Link先を確認
Xingfang Wu, Heng Li, Foutse Khomh(参考訳) ログは、人々がソフトウェアシステムの動作状態を理解するために不可欠な情報源である。 現代のソフトウェアアーキテクチャとメンテナンス手法の進化により、ログ分析の自動化により多くの研究が費やされている。 特に、機械学習(ML)はログ分析タスクで広く使われている。 MLベースのログ解析タスクでは、テキストログデータを数値的な特徴ベクトルに変換することが重要かつ必須のステップである。 しかし、異なるログ表現技術がダウンストリームモデルの性能に与える影響は明らかではなく、研究者や実践者がログ解析の自動化ワークフローで最適なログ表現テクニックを選択する機会を制限している。 そこで本研究では,従来のログ解析研究から広く採用されているログ表現技術について検討し,比較する。 特に6つのログ表現手法を選択し,7つのmlモデルと4つの公開ログデータセット(hdfs, bgl, spirit, thunderbird)を用いてログに基づく異常検出を行う。 また,ログ表現手法を用いた場合,ログ解析プロセスの影響や特徴集約アプローチの違いについても検討した。 実験から,自動ログ分析ワークフローの設計において,今後の研究者や開発者が従うためのヒューリスティックなガイドラインを提示する。 ログ表現技術の包括的比較は、研究者や実践者が異なるログ表現技法の特徴をよりよく理解し、mlベースのログ分析ワークフローに最適なものを選択するためのガイダンスを提供するのに役立つと思います。

Logs are an essential source of information for people to understand the running status of a software system. Due to the evolving modern software architecture and maintenance methods, more research efforts have been devoted to automated log analysis. In particular, machine learning (ML) has been widely used in log analysis tasks. In ML-based log analysis tasks, converting textual log data into numerical feature vectors is a critical and indispensable step. However, the impact of using different log representation techniques on the performance of the downstream models is not clear, which limits researchers and practitioners' opportunities of choosing the optimal log representation techniques in their automated log analysis workflows. Therefore, this work investigates and compares the commonly adopted log representation techniques from previous log analysis research. Particularly, we select six log representation techniques and evaluate them with seven ML models and four public log datasets (i.e., HDFS, BGL, Spirit and Thunderbird) in the context of log-based anomaly detection. We also examine the impacts of the log parsing process and the different feature aggregation approaches when they are employed with log representation techniques. From the experiments, we provide some heuristic guidelines for future researchers and developers to follow when designing an automated log analysis workflow. We believe our comprehensive comparison of log representation techniques can help researchers and practitioners better understand the characteristics of different log representation techniques and provide them with guidance for selecting the most suitable ones for their ML-based log analysis workflow.
翻訳日:2023-08-21 18:13:44 公開日:2023-08-17
# インペイントへの学習:3次元臓器分割のためのドメイン適応形状補完

Learning to In-paint: Domain Adaptive Shape Completion for 3D Organ Segmentation ( http://arxiv.org/abs/2308.08775v1 )

ライセンス: Link先を確認
Mingjin Chen, Yongkang He, Yongyi Lu, Zhijing Yang(参考訳) 従来の3次元臓器セグメンテーションモデルに明示的な形状情報を組み込むことを目標としている。 図形学習は,従来の研究と異なり,図形学習をインペイントタスクとして定式化し,Masked Label Mask Modeling (MLM) と名付けた。 MLMを通して学習可能なマスクトークンをトランスフォーマーブロックに供給し、臓器のラベルマスクを完成させる。 さらに, mlm形状知識をターゲットに伝達するために, イン・ペインティング・レコンストラクション損失と擬似損失を両立した, 新たな形状認識自己蒸留法を提案する。 5つの公開臓器セグメンテーションデータセットにおいて,Diceスコアが少なくとも1.2ポイント向上した先行技術よりも一貫した改善が示され,(1)内臓器セグメンテーション,(2)内臓器セグメンテーション,(3)内臓器セグメンテーションなど,教師なし領域適応シナリオに挑戦する上で,本手法の有効性が示された。 医用画像における形状解析と幾何学的学習の進歩を願っている。

We aim at incorporating explicit shape information into current 3D organ segmentation models. Different from previous works, we formulate shape learning as an in-painting task, which is named Masked Label Mask Modeling (MLM). Through MLM, learnable mask tokens are fed into transformer blocks to complete the label mask of organ. To transfer MLM shape knowledge to target, we further propose a novel shape-aware self-distillation with both in-painting reconstruction loss and pseudo loss. Extensive experiments on five public organ segmentation datasets show consistent improvements over prior arts with at least 1.2 points gain in the Dice score, demonstrating the effectiveness of our method in challenging unsupervised domain adaptation scenarios including: (1) In-domain organ segmentation; (2) Unseen domain segmentation and (3) Unseen organ segmentation. We hope this work will advance shape analysis and geometric learning in medical imaging.
翻訳日:2023-08-21 18:07:25 公開日:2023-08-17
# 差分プライバシー、言語フェアネス、訓練データの影響:多言語言語モデルにおける不可能性と可能性理論

Differential Privacy, Linguistic Fairness, and Training Data Influence: Impossibility and Possibility Theorems for Multilingual Language Models ( http://arxiv.org/abs/2308.08774v1 )

ライセンス: Link先を確認
Phillip Rust, Anders S{\o}gaard(参考訳) mBERT、XLM-R、BLOOMといった言語モデルは、多言語の一般化や圧縮を実現し、多数の(潜在的に見えない)言語への転送を容易にすることを目的としている。 しかしながら、これらのモデルは、予測をトレーニングデータに関連付けることで、理想的にはプライベートで言語的に公平で透明であるべきです。 これらの要件は同時に満たせるのか? 多言語圧縮と言語公平性は差分プライバシーと互換性があるが、差分プライバシーは透明性の目的であるデータ影響スパーシティのトレーニングと相反する。 さらに、2つの共通NLPタスクに関する一連の実験を提示し、多言語圧縮を評価し、異なるプライバシー保証の下でデータへの影響を訓練し、これらのトレードオフをより詳細に探求する。 この結果から,実践的なトレードオフを見つけるためには,これらの目的を共同で最適化する方法を開発する必要があることが示唆された。

Language models such as mBERT, XLM-R, and BLOOM aim to achieve multilingual generalization or compression to facilitate transfer to a large number of (potentially unseen) languages. However, these models should ideally also be private, linguistically fair, and transparent, by relating their predictions to training data. Can these requirements be simultaneously satisfied? We show that multilingual compression and linguistic fairness are compatible with differential privacy, but that differential privacy is at odds with training data influence sparsity, an objective for transparency. We further present a series of experiments on two common NLP tasks and evaluate multilingual compression and training data influence sparsity under different privacy guarantees, exploring these trade-offs in more detail. Our results suggest that we need to develop ways to jointly optimize for these objectives in order to find practical trade-offs.
翻訳日:2023-08-21 18:07:05 公開日:2023-08-17
# url:肺結節悪性度評価のためのラベルノイズ対策

URL: Combating Label Noise for Lung Nodule Malignancy Grading ( http://arxiv.org/abs/2308.08772v1 )

ライセンス: Link先を確認
Xianze Ai, Zehui Liao, and Yong Xia(参考訳) アノテーションの複雑さとアノテーション間の変動のため、ほとんどの肺結節悪性度評価データセットにはラベルノイズが含まれており、モデルの性能と一般化性は必然的に低下する。 肺結節悪性度評価のためのラベルノイズ処理にはラベルノイズ・ローバスト法が用いられているが,本課題のクラス間に固有の順序関係は考慮されていない。 本稿では, クラス間の順序関係をモデル化し, ラベルノイズに対処するために, ユニモーダル正規化ラベルノイズ耐性(url)フレームワークを提案する。 私たちのurlは、教師付きコントラスト学習(scl)ステージとメモリ擬似ラベル生成とユニモーダル正規化(mu)ステージの2段階を含む。 sclの段階では、信頼できるサンプルを選択し、教師付きコントラスト学習を採用し、より良い表現を学ぶ。 MUステージでは、複数のアノテーションを持つサンプルを単一のアノテーションで複数のサンプルに分割し、異なるバッチにシャッフルします。 ラベルノイズに対処するため、各サンプルと各クラスの中央特徴との類似性を利用して擬似ラベルを生成し、時間的アンサンブルを用いてモデルトレーニングを監督するメモリ擬似ラベルを得る。 順序関係をモデル化するために,クラス間の順序関係を維持するために一助正則化を導入する。 また,各肺結節には3つの形態像が特徴的である。 LIDC-IDRIデータセットで行った実験は、他の競合する方法よりもURLの方が優れていることを示している。 コードはhttps://github.com/axz520/urで入手できる。

Due to the complexity of annotation and inter-annotator variability, most lung nodule malignancy grading datasets contain label noise, which inevitably degrades the performance and generalizability of models. Although researchers adopt the label-noise-robust methods to handle label noise for lung nodule malignancy grading, they do not consider the inherent ordinal relation among classes of this task. To model the ordinal relation among classes to facilitate tackling label noise in this task, we propose a Unimodal-Regularized Label-noise-tolerant (URL) framework. Our URL contains two stages, the Supervised Contrastive Learning (SCL) stage and the Memory pseudo-labels generation and Unimodal regularization (MU) stage. In the SCL stage, we select reliable samples and adopt supervised contrastive learning to learn better representations. In the MU stage, we split samples with multiple annotations into multiple samples with a single annotation and shuffle them into different batches. To handle label noise, pseudo-labels are generated using the similarity between each sample and the central feature of each class, and temporal ensembling is used to obtain memory pseudo-labels that supervise the model training. To model the ordinal relation, we introduce unimodal regularization to keep the ordinal relation among classes in the predictions. Moreover, each lung nodule is characterized by three orthographic views. Experiments conducted on the LIDC-IDRI dataset indicate the superiority of our URL over other competing methods. Code is available at https://github.com/axz520/UR.
翻訳日:2023-08-21 18:06:48 公開日:2023-08-17
# Chat-3D:3次元シーンのユニバーサル対話のための大規模言語モデル

Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes ( http://arxiv.org/abs/2308.08769v1 )

ライセンス: Link先を確認
Zehan Wang, Haifeng Huang, Yang Zhao, Ziang Zhang, Zhou Zhao(参考訳) 3dシーンの理解は幅広い応用によって大きな注目を集めている。 しかし、既存の3Dシーン理解手法は特定の下流タスクに限られており、現実のアプリケーションではその実用性を妨げている。 本稿では,事前学習した3次元表現の3次元視覚的知覚能力と高度LLMの印象的な推論能力と会話能力を組み合わせたChat-3Dを提案する。 具体的には,3次元表現をLLMの特徴空間に整列させ,LLMが3次元世界を知覚できるようにする。 3dシーンテキストデータの不足を考慮し,利用可能なデータを効率的に活用してアライメントを改善するための3段階のトレーニング戦略を提案する。 推論能力を高め,ユーザフレンドリーなインタラクションスキームを開発するために,高品質なオブジェクト中心の3d命令データセットを構築し,関連するオブジェクト中心のプロンプトを設計する。 実験の結果,Chat-3Dは3次元シーンの多様な指示を理解でき,複雑な空間推論を行い,その応答に外部知識を組み込むことができることがわかった。 Chat-3Dは構築された命令データセットのGPT-4と比較して75.6%の相対スコアを得る。

3D scene understanding has gained significant attention due to its wide range of applications. However, existing methods for 3D scene understanding are limited to specific downstream tasks, which hinders their practicality in real-world applications. This paper presents Chat-3D, which combines the 3D visual perceptual ability of pre-trained 3D representations and the impressive reasoning and conversation capabilities of advanced LLMs to achieve the first universal dialogue systems for 3D scenes. Specifically, we align 3D representations into the feature space of LLMs, thus enabling LLMs to perceive the 3D world. Given the scarcity of 3D scene-text data, we propose a three-stage training strategy to efficiently utilize the available data for better alignment. To enhance the reasoning ability and develop a user-friendly interaction scheme, we further construct a high-quality object-centric 3D instruction dataset and design an associated object-centric prompt. Our experiments show that Chat-3D achieves an impressive ability to comprehend diverse instructions for 3D scenes, engage in intricate spatial reasoning, and incorporate external knowledge into its responses. Chat-3D achieves a 75.6% relative score compared with GPT-4 on the constructed instruction dataset.
翻訳日:2023-08-21 18:06:21 公開日:2023-08-17
# 回転時のツール摩耗予測のための説明可能なAI

Explainable AI for tool wear prediction in turning ( http://arxiv.org/abs/2308.08765v1 )

ライセンス: Link先を確認
Saleh Valizadeh Sotubadi and Rui Liu and Vinh Neguyen(参考訳) 本研究は,ツール摩耗予測のための人間の理解可能なソリューションを容易にするための,説明可能な人工知能(XAI)フレームワークの開発を目的とする。 直交管回転過程における加速度,音響,温度,スピンドル速度を入力特徴として用いた教師付き機械学習(ml)分類法としてランダムフォレストアルゴリズムを用いた。 ML分類器は切断プロセス後のツールの状態を予測するために用いられ、これは切断ツールが利用可能か失敗したかを示すバイナリクラス形式で決定された。 トレーニング終了後、訓練されたML分類器の予測を説明するためにShapley criterionを使用した。 具体的には,判断・分類における各入力特徴の重要性を同定し,ML分類器の推理を説明する。 すべてのテストデータセットでShapley基準を実装した後、ツール温度は、利用可能なツールと失敗したツールの分類を決定する上で最も重要な特徴として特定された。 そこで本研究では,XAIが機械作業者に対して,複雑なML分類器を診断・理解し,ツール摩耗の予測を可能にする能力を示す。

This research aims develop an Explainable Artificial Intelligence (XAI) framework to facilitate human-understandable solutions for tool wear prediction during turning. A random forest algorithm was used as the supervised Machine Learning (ML) classifier for training and binary classification using acceleration, acoustics, temperature, and spindle speed during the orthogonal tube turning process as input features. The ML classifier was used to predict the condition of the tool after the cutting process, which was determined in a binary class form indicating if the cutting tool was available or failed. After the training process, the Shapley criterion was used to explain the predictions of the trained ML classifier. Specifically, the significance of each input feature in the decision-making and classification was identified to explain the reasoning of the ML classifier predictions. After implementing the Shapley criterion on all testing datasets, the tool temperature was identified as the most significant feature in determining the classification of available versus failed cutting tools. Hence, this research demonstrates capability of XAI to provide machining operators the ability to diagnose and understand complex ML classifiers in prediction of tool wear.
翻訳日:2023-08-21 18:05:59 公開日:2023-08-17
# XVTP3D:共有3Dクェリを用いたクロスビュー軌道予測

XVTP3D: Cross-view Trajectory Prediction Using Shared 3D Queries for Autonomous Driving ( http://arxiv.org/abs/2308.08764v1 )

ライセンス: Link先を確認
Zijian Song, Huikun Bi, Ruisi Zhang, Tianlu Mao, Zhaoqi Wang(参考訳) 不確実性を伴う軌道予測は、自動運転にとって重要かつ困難な課題である。 今日では、複数のビューで表現されたセンサデータに簡単にアクセスできます。 しかし,既存モデルでは相互視の整合性は評価されていないため,異なる視点からのマルチモーダル予測の相違が生じる可能性がある。 ネットワークが3Dシーンを理解していない場合、ジレンマの下流モジュールを引き起こす可能性がある場合、実用的かつ効果的ではない。 代わりに、ビュー間の一貫性を維持しながらマルチモーダル軌道を予測する。 共有3Dクエリー(XVTP3D)を用いたクロスビュー軌道予測手法を提案する。 ビュー間で共有される一連の3dクエリを使用して、クロスビュー一貫性のあるマルチゴールを生成します。 また,ロバストなクロスビュー特徴を捉えるために,ランダムマスク法と粗いクロスアテンションを提案する。 私たちが知る限り、これはBEV検出分野における卓越したトップダウンパラダイムを軌道予測問題に導入する最初の研究である。 2つの公開データセットに対する実験の結果、XVTP3Dは、一貫したクロスビュー予測で最先端のパフォーマンスを達成した。

Trajectory prediction with uncertainty is a critical and challenging task for autonomous driving. Nowadays, we can easily access sensor data represented in multiple views. However, cross-view consistency has not been evaluated by the existing models, which might lead to divergences between the multimodal predictions from different views. It is not practical and effective when the network does not comprehend the 3D scene, which could cause the downstream module in a dilemma. Instead, we predicts multimodal trajectories while maintaining cross-view consistency. We presented a cross-view trajectory prediction method using shared 3D Queries (XVTP3D). We employ a set of 3D queries shared across views to generate multi-goals that are cross-view consistent. We also proposed a random mask method and coarse-to-fine cross-attention to capture robust cross-view features. As far as we know, this is the first work that introduces the outstanding top-down paradigm in BEV detection field to a trajectory prediction problem. The results of experiments on two publicly available datasets show that XVTP3D achieved state-of-the-art performance with consistent cross-view predictions.
翻訳日:2023-08-21 18:05:40 公開日:2023-08-17
# 一般量子前兆を持つ観測エントロピー

Observational entropy with general quantum priors ( http://arxiv.org/abs/2308.08763v1 )

ライセンス: Link先を確認
Ge Bai, Dominik \v{S}afr\'anek, Joseph Schindler, Francesco Buscemi, Valerio Scarani(参考訳) 観測エントロピーは熱力学状態の本質的な不確実性と粗粒化による知識の欠如の両方を捉えている。 観測エントロピーの2つの解釈を提示する。1つは測定結果の統計的不足であり、もう1つは量子ベイズ回帰による測定統計から入力状態を推測することの困難さである。 これらの解釈は、観測エントロピーが暗黙的に一様参照事前を含むことを示し、そこから任意の量子状態によって一様先行を置き換え、完全な量子一般化を提案する。 この一般化の3つの候補を提案し,それらの性質を議論し,その1つが両解釈に関する統一表現を示す。

Observational entropy captures both the intrinsic uncertainty of a thermodynamic state and the lack of knowledge due to coarse-graining. We demonstrate two interpretations of observational entropy, one as the statistical deficiency resulted from a measurement, the other one as the difficulty to infer the input state from the measurement statistics by quantum Bayesian retrodiction. These interpretations reveal that the observational entropy implicitly includes a uniform reference prior, from which we propose fully quantum generalizations by replacing the uniform prior by arbitrary quantum states. We propose three candidates for this generalization, discuss their properties, and show one of them gives a unified expression relating both interpretations.
翻訳日:2023-08-21 18:05:21 公開日:2023-08-17
# LightGBMと機能工学に基づく効率的な商業銀行顧客信用リスク評価

Efficient Commercial Bank Customer Credit Risk Assessment Based on LightGBM and Feature Engineering ( http://arxiv.org/abs/2308.08762v1 )

ライセンス: Link先を確認
Yanjie Sun, Zhike Gong, Quan Shi, Lin Chen(参考訳) 信用リスクの効果的な制御は、商業銀行の安定した運営において鍵となる。 本論文は主にカグルの外国商業銀行の顧客情報データセットに基づいており、lightgbmアルゴリズムを用いて顧客を分類する分類器を構築し、顧客の信用不履行の可能性の判断を支援する。 本稿では, 価値処理の欠如, コーディング, 不均衡サンプルなど, 機械学習効果を大きく改善する特徴的工学を主に扱う。 本論文の主な革新は,分類器の精度が0.734に達し,AUCが0.772に達するように,元のデータセットに基づいて新たな特徴属性を構築することである。 このモデルは、商業銀行の信用供与に関するいくつかの参照を提供し、他の類似の研究のためにいくつかの特徴処理のアイデアを提供することができる。

Effective control of credit risk is a key link in the steady operation of commercial banks. This paper is mainly based on the customer information dataset of a foreign commercial bank in Kaggle, and we use LightGBM algorithm to build a classifier to classify customers, to help the bank judge the possibility of customer credit default. This paper mainly deals with characteristic engineering, such as missing value processing, coding, imbalanced samples, etc., which greatly improves the machine learning effect. The main innovation of this paper is to construct new feature attributes on the basis of the original dataset so that the accuracy of the classifier reaches 0.734, and the AUC reaches 0.772, which is more than many classifiers based on the same dataset. The model can provide some reference for commercial banks' credit granting, and also provide some feature processing ideas for other similar studies.
翻訳日:2023-08-21 18:05:07 公開日:2023-08-17
# 強化学習による離散プロンプト圧縮

Discrete Prompt Compression with Reinforcement Learning ( http://arxiv.org/abs/2308.08758v1 )

ライセンス: Link先を確認
Hoyoun Jung and Kyung-Joong Kim(参考訳) インストラクションチューニング言語モデル(LM)は、タスク固有のプロンプトで様々な問題に対処するために広く利用されている。 コンテキストウィンドウの長さと計算コストに関連する制約は、圧縮プロンプトの開発を促進する。 既存のメソッドは、複数のトークンの意味に対応するように設計された組込みのトレーニングに大きく依存している。 これにより、解釈可能性、固定数の埋め込みトークン、異なるLM間での再利用性、ブラックボックスAPIとのインタラクションにおける適用性といった面での課題が提示される。 本研究は,これらの問題に対処する新しい離散的プロンプト圧縮法であるpcrlを用いたプロンプト圧縮を提案する。 PCRLはプロンプトを直接編集する計算効率の良いポリシーネットワークを採用している。 PCRLトレーニングアプローチは、様々な種類のLMやデコーダオンリーおよびエンコーダ-デコーダアーキテクチャに柔軟に適用することができ、LMやラベル付きデータへの勾配アクセスなしにトレーニングすることができる。 PCRLは、パフォーマンスを維持しながら、様々な命令プロンプトで平均24.6%のトークン数を減少させる。 さらに,学習方針をより大きなLMに伝達できることを実証し,様々な分析を通じて,プロンプト内のトークンの重要性の理解を支援する。

Instruction-tuned Language Models (LMs) are widely used by users to address various problems with task-specific prompts. Constraints associated with the context window length and computational costs encourage the development of compressed prompts. Existing methods rely heavily on training embeddings, which are designed to accommodate multiple token meanings. This presents challenges in terms of interpretability, a fixed number of embedding tokens, reusability across different LMs, and inapplicability when interacting with black-box APIs. This study proposes prompt compression with reinforcement learning (PCRL), a novel discrete prompt compression method that addresses these issues. PCRL employs a computationally efficient policy network that directly edits prompts. The PCRL training approach can be flexibly applied to various types of LMs, as well as decoder-only and encoder-decoder architecture, and can be trained without gradient access to LMs or labeled data. PCRL achieves an average reduction of 24.6% in token count across various instruction prompts while preserving performance. Further, we demonstrate that the learned policy can be transferred to larger LMs, and through various analyses, we aid the understanding of token importance within prompts.
翻訳日:2023-08-21 18:04:52 公開日:2023-08-17
# 誤差低減形地表面ランダム化計測方式

Error Mitigated Metasurface-Based Randomized Measurement Schemes ( http://arxiv.org/abs/2308.08755v1 )

ライセンス: Link先を確認
Hang Ren, Yipei Zhang, Ze Zheng, Cuifeng Ying, Lei Xu, Mohsen Rahmani, K. Birgitta Whaley(参考訳) ランダム化測定による量子状態の推定は、量子情報科学において重要な役割を担っている。 本稿では,メタサーフェスを利用してフォトニック量子ビットのランダム化計測を行う革新的な手法と,現実的なメタサーフェス計測ノイズを抑制する誤差緩和手法を提案する。 忠実度推定と純度推定により,準曲面のランダム化測定と誤差緩和推定器の非バイアス特性を検証した。 本研究は, 量子状態特性のロバストで資源効率の高い推定を実現するためのメタサーフェスに基づくランダム化計測手法の可能性を示す。

Estimating properties of quantum states via randomized measurements has come to play a significant role in quantum information science. In this paper, we design an innovative approach leveraging metasurfaces to perform randomized measurements on photonic qubits, together with error mitigation techniques that suppress realistic metasurface measurement noise. Through fidelity and purity estimation, we confirm the capability of metasurfaces to implement randomized measurements and the unbiased nature of our error-mitigated estimator. Our findings show the potential of metasurface-based randomized measurement schemes in achieving robust and resource-efficient estimation of quantum state properties.
翻訳日:2023-08-21 18:04:33 公開日:2023-08-17
# 逐次名前付きエンティティ認識のためのタスク関係蒸留とプロトタイプ擬似ラベル

Task Relation Distillation and Prototypical Pseudo Label for Incremental Named Entity Recognition ( http://arxiv.org/abs/2308.08793v1 )

ライセンス: Link先を確認
Duzhen Zhang, Hongliu Li, Wei Cong, Rongtao Xu, Jiahua Dong, Xiuyi Chen(参考訳) インクリメンタル名前付きエンティティ認識(INER)は、以前に学習されたタイプのトレーニングデータにアクセスすることなく、新しいエンティティタイプのシーケンシャルな学習を含む。 しかし、INERは、漸進的な学習に特化して破滅的な忘れをし、背景シフトによってさらに増大する(すなわち、古いエンティティタイプと将来のエンティティタイプは、現在のタスクにおける非エンティティタイプとしてラベル付けされる)。 これらの課題に対処するため,INERのためのタスク関係蒸留法とプロトタイプ擬似ラベル(RDP)を提案する。 具体的には,2つの目的を果たすタスク関連蒸留スキームを導入する。 1) タスク間関係蒸留損失を最小化し, 異なる段階的学習課題におけるタスク間セマンティック一貫性を確保すること 2) タスク内自己エントロピー損失の最小化による予測信頼度の向上。 同時に、背景シフトを軽減するために、古い実体型と現在の非存在型を区別する原型的な擬似ラベル戦略を開発する。 この戦略はトークン埋め込みとタイプワイドプロトタイプの距離を測定することによって高品質な擬似ラベルを生成する。 我々は,3つのベンチマークデータセット(CoNLL2003,I2B2,OntoNotes5)のINER設定について広範囲に実験を行った。 以上の結果から,従来の最先端手法と比較して,マイクロf1スコアが6.08%,マクロf1スコアが7.71%向上した。

Incremental Named Entity Recognition (INER) involves the sequential learning of new entity types without accessing the training data of previously learned types. However, INER faces the challenge of catastrophic forgetting specific for incremental learning, further aggravated by background shift (i.e., old and future entity types are labeled as the non-entity type in the current task). To address these challenges, we propose a method called task Relation Distillation and Prototypical pseudo label (RDP) for INER. Specifically, to tackle catastrophic forgetting, we introduce a task relation distillation scheme that serves two purposes: 1) ensuring inter-task semantic consistency across different incremental learning tasks by minimizing inter-task relation distillation loss, and 2) enhancing the model's prediction confidence by minimizing intra-task self-entropy loss. Simultaneously, to mitigate background shift, we develop a prototypical pseudo label strategy that distinguishes old entity types from the current non-entity type using the old model. This strategy generates high-quality pseudo labels by measuring the distances between token embeddings and type-wise prototypes. We conducted extensive experiments on ten INER settings of three benchmark datasets (i.e., CoNLL2003, I2B2, and OntoNotes5). The results demonstrate that our method achieves significant improvements over the previous state-of-the-art methods, with an average increase of 6.08% in Micro F1 score and 7.71% in Macro F1 score.
翻訳日:2023-08-21 17:56:23 公開日:2023-08-17
# 配電網における電気自動車充電制御のための連合強化学習

Federated Reinforcement Learning for Electric Vehicles Charging Control on Distribution Networks ( http://arxiv.org/abs/2308.08792v1 )

ライセンス: Link先を確認
Junkai Qian and Yuning Jiang and Xin Liu and Qing Wang and Ting Wang and Yuanming Shi and Wei Chen(参考訳) 電気自動車(EV)の普及に伴い、電力グリッドの安定性の維持が大きな課題となっている。 この問題を解決するため、EV充電制御戦略が開発され、EV用のV2GモードとG2Vモードの切り替えを管理している。 この文脈では、マルチエージェント深部強化学習(MADRL)がEV充電制御において有効であることが証明されている。 しかし、既存のMADRLベースのアプローチでは、配電ネットワークにおけるEV充電/放電の自然な電力フローを考慮せず、運転者のプライバシーを無視する。 これらの問題に対処するため,本稿では,複数EV充電/放電と最適電力流(OPF)で動作する放射状配電ネットワーク(RDN)を組み合わせて,リアルタイムに電力流を分配する手法を提案する。 RDN負荷を記述する数学的モデルを開発した。 EV充電制御問題はマルコフ決定プロセス(MDP)として定式化され、V2G利益、RDN負荷、運転者の不安をバランスさせる最適な充電制御戦略を見つける。 最適なEV充電制御戦略を効果的に学習するために,フェデレーション型深部強化学習アルゴリズムであるFedSACを提案する。 包括的シミュレーションにより,提案アルゴリズムの有効性と優位性を,帯電制御戦略の多様性,rdnのパワーゆらぎ,収束効率,一般化能力の観点から示している。

With the growing popularity of electric vehicles (EVs), maintaining power grid stability has become a significant challenge. To address this issue, EV charging control strategies have been developed to manage the switch between vehicle-to-grid (V2G) and grid-to-vehicle (G2V) modes for EVs. In this context, multi-agent deep reinforcement learning (MADRL) has proven its effectiveness in EV charging control. However, existing MADRL-based approaches fail to consider the natural power flow of EV charging/discharging in the distribution network and ignore driver privacy. To deal with these problems, this paper proposes a novel approach that combines multi-EV charging/discharging with a radial distribution network (RDN) operating under optimal power flow (OPF) to distribute power flow in real time. A mathematical model is developed to describe the RDN load. The EV charging control problem is formulated as a Markov Decision Process (MDP) to find an optimal charging control strategy that balances V2G profits, RDN load, and driver anxiety. To effectively learn the optimal EV charging control strategy, a federated deep reinforcement learning algorithm named FedSAC is further proposed. Comprehensive simulation results demonstrate the effectiveness and superiority of our proposed algorithm in terms of the diversity of the charging control strategy, the power fluctuations on RDN, the convergence efficiency, and the generalization ability.
翻訳日:2023-08-21 17:55:56 公開日:2023-08-17
# appflx: プライバシ保護型クロスサイロフェデレーション学習をサービスとして提供する

APPFLx: Providing Privacy-Preserving Cross-Silo Federated Learning as a Service ( http://arxiv.org/abs/2308.08786v1 )

ライセンス: Link先を確認
Zilinghan Li, Shilan He, Pranshu Chaturvedi, Trung-Hieu Hoang, Minseok Ryu, E. A. Huerta, Volodymyr Kindratenko, Jordan Fuhrman, Maryellen Giger, Ryan Chard, Kibaek Kim, Ravi Madduri(参考訳) クロスサイロプライバシ保存フェデレーションラーニング(PPFL)は、機密データ(例えば金融分野の医療)を共有することなく、堅牢で汎用的な機械学習(ML)モデルを協調訓練する強力なツールである。 当社では,ppflの採用を容易かつ加速するために,プライバシ保護型クロスサイロフェデレーション学習をサービスとして提供する,利用準備が整ったプラットフォームであるappflxを紹介する。 APPFLxはGlobus認証を使用して、PPFLの信頼性の高いコラボレータを簡単かつ安全に招待し、いくつかの同期および非同期FLアルゴリズムを実装し、FL実験のローンチプロセスを合理化し、FL実験のライフサイクルを追跡および視覚化し、ドメインの専門家とML実践者が1つのプラットフォーム下で簡単にクロスサイロFLをオーケストレーションし評価することができる。 appflxはhttps://appflx.linkで利用可能である。

Cross-silo privacy-preserving federated learning (PPFL) is a powerful tool to collaboratively train robust and generalized machine learning (ML) models without sharing sensitive (e.g., healthcare of financial) local data. To ease and accelerate the adoption of PPFL, we introduce APPFLx, a ready-to-use platform that provides privacy-preserving cross-silo federated learning as a service. APPFLx employs Globus authentication to allow users to easily and securely invite trustworthy collaborators for PPFL, implements several synchronous and asynchronous FL algorithms, streamlines the FL experiment launch process, and enables tracking and visualizing the life cycle of FL experiments, allowing domain experts and ML practitioners to easily orchestrate and evaluate cross-silo FL under one platform. APPFLx is available online at https://appflx.link
翻訳日:2023-08-21 17:55:31 公開日:2023-08-17
# 容量付き車両経路問題に対する実現可能性保存量子近似解法

A Feasibility-Preserved Quantum Approximate Solver for the Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2308.08785v1 )

ライセンス: Link先を確認
Ningyi Xie, Xinwei Lee, Dongsheng Cai, Yoshiyuki Saito, Nobuyoshi Asai, Hoong Chuin Lau(参考訳) capacitated vehicle routing problem (cvrp) はnp最適化問題(npo)であり、輸送や物流など様々な分野で発生する。 CVRPは、各車両の輸送能力の制限を受けながら、車両群が顧客に商品を届ける最も効率的な計画を決定することを目的として、車両ルーティング問題(VRP)から拡張されている。 顧客数が増加すると可能なソリューションの数は急増するので、最適なソリューションを見つけることは依然として大きな課題である。 近年、量子近似最適化アルゴリズム (QAOA) と呼ばれる量子古典ハイブリッドアルゴリズムは、古典的ヒューリスティックスと比較して組合せ最適化問題のより良い解を提供することができる。 しかし、qaoaはcvrpを含むいくつかの制約付き最適化問題に対して、高品質なソリューションを作る能力が低下している。 改善の1つの潜在的アプローチは、Grover-Mixer Quantum Alternating Operator Ansatz (GM-QAOA)として知られるQAOAのバリエーションである。 本研究では,GM-QAOAを用いてCVRPを解く。 本稿では,CVRPの車載容量制約を回避できる最短経路を最小化する目的関数として,CVRPの新しいバイナリエンコーディングを提案する。 検索空間はGrover-Mixerによってさらに制限されている。 提案手法の有効性を,いくつかの実例に応用して検討し,検討した。

The Capacitated Vehicle Routing Problem (CVRP) is an NP-optimization problem (NPO) that arises in various fields including transportation and logistics. The CVRP extends from the Vehicle Routing Problem (VRP), aiming to determine the most efficient plan for a fleet of vehicles to deliver goods to a set of customers, subject to the limited carrying capacity of each vehicle. As the number of possible solutions skyrockets when the number of customers increases, finding the optimal solution remains a significant challenge. Recently, a quantum-classical hybrid algorithm known as Quantum Approximate Optimization Algorithm (QAOA) can provide better solutions in some cases of combinatorial optimization problems, compared to classical heuristics. However, the QAOA exhibits a diminished ability to produce high-quality solutions for some constrained optimization problems including the CVRP. One potential approach for improvement involves a variation of the QAOA known as the Grover-Mixer Quantum Alternating Operator Ansatz (GM-QAOA). In this work, we attempt to use GM-QAOA to solve the CVRP. We present a new binary encoding for the CVRP, with an alternative objective function of minimizing the shortest path that bypasses the vehicle capacity constraint of the CVRP. The search space is further restricted by the Grover-Mixer. We examine and discuss the effectiveness of the proposed solver through its application to several illustrative examples.
翻訳日:2023-08-21 17:55:12 公開日:2023-08-17
# CodeCoTとBeyond: 開発者としてのプログラミングとテストを学ぶ

CodeCoT and Beyond: Learning to Program and Test like a Developer ( http://arxiv.org/abs/2308.08784v1 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu, Heming Cui(参考訳) 自然言語処理において、OpenAIによって開発されたGPT-xモデルのようなトランスフォーマーベースの大規模言語モデル(LLM)は、ランドスケープに革命をもたらした。 優れた能力にもかかわらず、これらのモデルはトレーニングデータとは異なるタスクを扱う際にしばしば課題に遭遇し、結果としてパフォーマンスが損なわれる。 これを解決するために、LLMが最小限のタスク固有データで適応できるように、少数のショット学習が貴重なテクニックとして登場した。 CoT(Chain-of-Thought Prompting)として知られる革新的な戦略が、多段階の推論において認知過程を明らかにするためにLSMを導くために導入された。 本稿では,Vanilla CodeCoTとSelf-exam CodeCoTの2つのコンポーネントからなるCode Chain-of-Thought~(CodeCoT)を提案する。 後者は自己検査を取り入れ、モデルを反復的にコードを生成し、テストケースを定式化し、出力を洗練させる。 具体的には、そのプロセスは実装すべきコードに対応するモデルによるテスト例の生成を必要とする。 テスト例で失敗した場合、誤ったコードと関連するエラータイプに基づいてコードを再生成する。 包括的実験により,両手法は様々なLLM変種間でコード生成精度を著しく向上させることがわかった。 評価の結果,人文データセットのgpt-3.5-turbo-0613モデルを用いたセルフexam codecotアプローチにより,前例のない79.27\%のpass@1精度を含むコード生成効率が向上した。

In natural language processing, transformer-based large language models (LLMs) like GPT-x models developed by OpenAI have revolutionized the landscape. Despite their impressive capabilities, these models often encounter challenges when handling tasks that differ from their training data, resulting in compromised performance. To address this, few-shot learning has emerged as a valuable technique, allowing LLMs to adapt with minimal task-specific data. One innovative strategy, known as Chain-of-Thought Prompting (CoT), has been introduced to guide LLMs in revealing cognitive processes during multi-step reasoning. In this paper, we propose Code Chain-of-Thought~(CodeCoT), which consists of two components: the Vanilla CodeCoT and the Self-exam CodeCoT. The latter incorporates self-examination, empowering the model to iteratively generate code, formulate test cases, and refine its outputs. Specifically, the process entails the generation of test examples by the model corresponding to the code it is tasked to implement. If it fails on the test examples, then it regenerates the code based on the erroneous code and associated error types. Through comprehensive experiments, we observed that both techniques significantly enhance code generation accuracy across various LLM variants. Our evaluation results reveal that CodeCoT improves the code generation effectiveness, including an unprecedented pass@1 accuracy of 79.27\% using the Self-exam CodeCoT approach on the gpt-3.5-turbo-0613 model in the HumanEval dataset.
翻訳日:2023-08-21 17:54:50 公開日:2023-08-17
# 分子光力学キャビティを用いた増幅周波数アップ変換赤外信号

Amplifying Frequency Up-Converted Infrared Signals with a Molecular Optomechanical Cavity ( http://arxiv.org/abs/2308.08782v1 )

ライセンス: Link先を確認
Fen Zou, Lei Du, Yong Li, Hui Dong(参考訳) 分子光メカニカルカップリングによって実現される周波数アップ変換は、最近、信号の量子コヒーレント変換を通じて赤外線信号を可視範囲に変換するための有望なアプローチとして登場した。 しかし、これらの変換信号の検出は、本質的に信号強度が弱いため、大きな課題となる。 本研究では,10〜7$分子からなる分子キャビティ系において,1000以上の因子で信号強度を増強できる増幅機構を提案する。 この機構は分子集合モードとストークスサイドバンドポンプとの強い結合強化を利用する。 我々の研究は赤外線信号を可視範囲にアップ変換するための実現可能なアプローチを示している。

Frequency up-conversion, enabled by molecular optomechanical coupling, has recently emerged as a promising approach for converting infrared signals into the visible range through quantum coherent conversion of signals. However, detecting these converted signals poses a significant challenge due to their inherently weak signal intensity. In this work, we propose an amplification mechanism capable of enhancing the signal intensity by a factor of 1000 or more in a molecular-cavity system consisting $10^{7}$ molecules. The mechanism takes advantage of the strong coupling enhancement with molecular collective mode and Stokes sideband pump. Our work demonstrates a feasible approach for up-converting infrared signals to the visible range.
翻訳日:2023-08-21 17:54:21 公開日:2023-08-17
# 近小ゲートセットトモグラフィ実験設計

Near-Minimal Gate Set Tomography Experiment Designs ( http://arxiv.org/abs/2308.08781v1 )

ライセンス: Link先を確認
Corey Ostrove, Kenneth Rudinger, Stefan Seritan, Kevin Young, Robin Blume-Kohout(参考訳) ゲートセットトモグラフィ(GST)は、量子プロセッサの論理ゲートの全てに対するノイズチャネルの正確で自己整合的な推定を提供する。 しかし、GST実験は大きなものであり、多くの異なる量子回路を含んでいる。 これにより、2キュービット以上のシステムでの使用が妨げられた。 ここでは,ほぼすべての冗長性を除去し,精度を損なうことなくより小さくスケーラブルな実験を実現することで,gst実験設計を合理化する方法を示す。 我々は、gst回路の中心にある「ガーム」サブルーチンを分析し、どのゲートセットパラメータに敏感であるかを正確に識別し、この情報を利用して他の回路の感度を複製する回路を除去する。 この手法を2量子gst実験に適用し、理論上の最小値よりもわずかに多くの回路を含むが、ハイゼンベルク的な精度のスケーリング(シミュレーションとフィッシャー情報を用いた理論解析によって示されるように)を達成する流線形な実験設計を生成する。 実用的には、新しい実験設計は以前のGST実験の精度と大幅に少ない回路で一致させることができる。 本稿では,GSTを3ビットシステムに拡張する可能性と可能性について議論する。

Gate set tomography (GST) provides precise, self-consistent estimates of the noise channels for all of a quantum processor's logic gates. But GST experiments are large, involving many distinct quantum circuits. This has prevented their use on systems larger than two qubits. Here, we show how to streamline GST experiment designs by removing almost all redundancy, creating smaller and more scalable experiments without losing precision. We do this by analyzing the "germ" subroutines at the heart of GST circuits, identifying exactly what gate set parameters they are sensitive to, and leveraging this information to remove circuits that duplicate other circuits' sensitivities. We apply this technique to two-qubit GST experiments, generating streamlined experiment designs that contain only slightly more circuits than the theoretical minimum bounds, but still achieve Heisenberg-like scaling in precision (as demonstrated via simulation and a theoretical analysis using Fisher information). In practical use, the new experiment designs can match the precision of previous GST experiments with significantly fewer circuits. We discuss the prospects and feasibility of extending GST to three-qubit systems using our techniques.
翻訳日:2023-08-21 17:54:10 公開日:2023-08-17
# インコンテキスト学習のための実証実験

Exploring Demonstration Ensembling for In-context Learning ( http://arxiv.org/abs/2308.08780v1 )

ライセンス: Link先を確認
Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu Wang(参考訳) インコンテキスト学習(ICL)は、与えられたタスク、すなわちデモのための入力出力ペアの言語モデル(LM)の例を示す。 ICLの標準的なアプローチは、テスト入力に続く複雑なデモでLMを促すことである。 このアプローチにはいくつかの問題があります。 まず、結合はモデル予測に対する各デモの貢献をほとんど制御しない。 これは、いくつかのデモがテスト例とは無関係である場合、準最適である。 第二に、いくつかのトランスモデルの入力長制限のため、特に長い入力タスクを扱う場合、多くの例をコンテキストに適合させることは不可能である。 本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。 モデルはデモのサブセット(すなわちバケット)を使って出力を予測し、各サブセットから得られる出力確率を組み合わせて最終的な予測を生成する。 我々はgpt-jを用いて様々なセンシング手法を研究し、12の言語タスクを実験する。 我々の実験では、重み付けされたmax ensemblingがバニラ結合を最大2.4平均点で上回ることを示した。 コードは \url{https://github.com/mukhal/icl-ensembling}。

In-context learning (ICL) operates by showing language models (LMs) examples of input-output pairs for a given task, i.e., demonstrations. The standard approach for ICL is to prompt the LM with concatenated demonstrations followed by the test input. This approach suffers from some issues. First, concatenation offers almost no control over the contribution of each demo to the model prediction. This can be sub-optimal when some demonstrations are irrelevant to the test example. Second, due to the input length limit of some transformer models, it might be infeasible to fit many examples into the context, especially when dealing with long-input tasks. In this work, we explore Demonstration Ensembling (DENSE) as an alternative to simple concatenation. \model predicts outputs using subsets (i.e., buckets) of the demonstrations and then combines the output probabilities resulting from each subset to produce the final prediction. We study different ensembling methods using GPT-j and experiment on 12 language tasks. Our experiments show weighted max ensembling to outperform vanilla concatenation by as large as 2.4 average points. Code available at \url{https://github.com/mukhal/icl-ensembling}.
翻訳日:2023-08-21 17:53:50 公開日:2023-08-17
# 不変学習のためのマルチヘッドニューラルネットワークによる環境多様化

Environment Diversification with Multi-head Neural Network for Invariant Learning ( http://arxiv.org/abs/2308.08778v1 )

ライセンス: Link先を確認
Bo-Wei Huang, Keng-Te Liao, Chang-Sheng Kao, Shou-De Lin(参考訳) ニューラルネットワークは経験的リスク最小化でトレーニングされることが多いが、トレーニングとテストディストリビューションのシフトが予測不可能なパフォーマンス劣化を引き起こすことが示されている。 本論では,分布変化に敏感な不変特徴を抽出するために,不変学習という研究方向が提案されている。 この研究は、データバイアスを吸収するマルチヘッドニューラルネットワークを含む不変学習フレームワークEDNILを提案する。 このフレームワークは環境に関する事前の知識や事前訓練されたモデルに関する強い仮定を必要としない。 また,提案アルゴリズムは,変分および不変量の特性を論じる最近の研究と理論的に関係があることも明らかにした。 最後に、EDNILでトレーニングされたモデルは、分布シフトに対して実験的に堅牢であることを示す。

Neural networks are often trained with empirical risk minimization; however, it has been shown that a shift between training and testing distributions can cause unpredictable performance degradation. On this issue, a research direction, invariant learning, has been proposed to extract invariant features insensitive to the distributional changes. This work proposes EDNIL, an invariant learning framework containing a multi-head neural network to absorb data biases. We show that this framework does not require prior knowledge about environments or strong assumptions about the pre-trained model. We also reveal that the proposed algorithm has theoretical connections to recent studies discussing properties of variant and invariant features. Finally, we demonstrate that models trained with EDNIL are empirically more robust against distributional shifts.
翻訳日:2023-08-21 17:53:34 公開日:2023-08-17
# 中国の労働市場における大規模言語モデル

Large Language Models at Work in China's Labor Market ( http://arxiv.org/abs/2308.08776v1 )

ライセンス: Link先を確認
Qin Chen, Jinfeng Ge, Huaqing Xie, Xingcheng Xu, Yanqing Yang(参考訳) 本稿では,中国労働市場における大規模言語モデル(LLM)の潜在的影響について考察する。 Eloundou et al. (2023) の方法論に従って,人間の専門知識と LLM 分類を取り入れた LLM 機能への職業的露出の分析を行った。 次に産業レベルへの職業曝露を集約し、産業曝露スコアを得る。 その結果、職業曝露と賃金水準・経験年金との正の相関が示され、高い賃金と経験集約的な仕事がLCMソフトウェアによる転職リスクが増大する可能性が示唆された。 業界曝露スコアは専門家の評価や経済直観と一致している。 また、AI導入による生産性と雇用のトレードオフを定量化するために、産業の露出を取り入れた経済成長モデルも開発しています。 本研究は、中国におけるAIシステムの労働市場への影響を理解するための分析的基盤を提供する。 主なイノベーションは、職業レベルの露出分析、産業集約アプローチ、ai導入と労働市場効果を組み込んだ経済モデリングなどである。 この調査結果は、aiの利益を最大化し、有害な破壊リスクを緩和するための戦略を政策立案者や企業に提供する。

This paper explores the potential impacts of large language models (LLMs) on the Chinese labor market. We analyze occupational exposure to LLM capabilities by incorporating human expertise and LLM classifications, following Eloundou et al. (2023)'s methodology. We then aggregate occupation exposure to the industry level to obtain industry exposure scores. The results indicate a positive correlation between occupation exposure and wage levels/experience premiums, suggesting higher-paying and experience-intensive jobs may face greater displacement risks from LLM-powered software. The industry exposure scores align with expert assessments and economic intuitions. We also develop an economic growth model incorporating industry exposure to quantify the productivity-employment trade-off from AI adoption. Overall, this study provides an analytical basis for understanding the labor market impacts of increasingly capable AI systems in China. Key innovations include the occupation-level exposure analysis, industry aggregation approach, and economic modeling incorporating AI adoption and labor market effects. The findings will inform policymakers and businesses on strategies for maximizing the benefits of AI while mitigating adverse disruption risks.
翻訳日:2023-08-21 17:53:21 公開日:2023-08-17
# 実世界ブラインド超解像の終端交互最適化

End-to-end Alternating Optimization for Real-World Blind Super Resolution ( http://arxiv.org/abs/2308.08816v1 )

ライセンス: Link先を確認
Zhengxiong Luo, Yan Huang, Shang Li, Liang Wang, Tieniu Tan(参考訳) Blind Super-Resolution (SR) は通常2つのサブプロブレムを含む。 1) 所定の低解像度(LR)画像の劣化を推定すること。 2) LR画像を高分解能(HR)に超分解する。 どちらの問題も劣化過程における情報損失のために不適切である。 従来の手法では2つの問題を独立に解こうとしていたが、しばしばジレンマに陥る: 優れた超解法HRの結果は正確な劣化推定を必要とするが、元のHR情報の助けなしには得られない。 この問題に対処するために,これら2つの問題を独立に考えるのではなく,sr画像の劣化を推定し,1つのモデルで復元できる交互最適化アルゴリズムを採用する。 具体的には、2つの畳み込みニューラルモジュール、すなわち \textit{Restorer} と \textit{Estimator} を設計する。 \textit{restorer} は推定された劣化に基づいてsr画像を復元し、 \textit{estimator} は復元されたsr画像の助けを借りて劣化を推定する。 これら2つのモジュールを交換し、このプロセスを展開してエンドツーエンドのトレーニング可能なネットワークを形成します。 このようにして、 \textit{restorer} と \textit{estimator} の両方が互いの中間結果の恩恵を受け、各サブプロブレムが容易になる。 さらに、 \textit{restorer} と \textit{estimator} はエンドツーエンドに最適化されているため、お互いの推定偏差に対する耐性が向上し、より堅牢で正確な最終結果が得られるよう協力することができる。 合成データセットと実世界の画像の両方に対する大規模な実験により、提案手法は最先端の手法を大きく上回り、より視覚的に有利な結果が得られることが示された。 コードは \url{https://github.com/greatlog/realdan.git} で更新される。

Blind Super-Resolution (SR) usually involves two sub-problems: 1) estimating the degradation of the given low-resolution (LR) image; 2) super-resolving the LR image to its high-resolution (HR) counterpart. Both problems are ill-posed due to the information loss in the degrading process. Most previous methods try to solve the two problems independently, but often fall into a dilemma: a good super-resolved HR result requires an accurate degradation estimation, which however, is difficult to be obtained without the help of original HR information. To address this issue, instead of considering these two problems independently, we adopt an alternating optimization algorithm, which can estimate the degradation and restore the SR image in a single model. Specifically, we design two convolutional neural modules, namely \textit{Restorer} and \textit{Estimator}. \textit{Restorer} restores the SR image based on the estimated degradation, and \textit{Estimator} estimates the degradation with the help of the restored SR image. We alternate these two modules repeatedly and unfold this process to form an end-to-end trainable network. In this way, both \textit{Restorer} and \textit{Estimator} could get benefited from the intermediate results of each other, and make each sub-problem easier. Moreover, \textit{Restorer} and \textit{Estimator} are optimized in an end-to-end manner, thus they could get more tolerant of the estimation deviations of each other and cooperate better to achieve more robust and accurate final results. Extensive experiments on both synthetic datasets and real-world images show that the proposed method can largely outperform state-of-the-art methods and produce more visually favorable results. The codes are rleased at \url{https://github.com/greatlog/RealDAN.git}.
翻訳日:2023-08-21 17:47:34 公開日:2023-08-17
# ニューラルネットワークを用いた量子プロセスの予測モデリング

Predictive Modelling of Quantum Process with Neural Networks ( http://arxiv.org/abs/2308.08815v1 )

ライセンス: Link先を確認
Yan Zhu, Ya-Dong Wu, Qiushi Liu, Yuexuan Wang, Giulio Chiribella(参考訳) 未知の量子過程の完全な特徴づけは、プロセストモグラフィー、または連続時間プロセスのためにハミルトン学習によって達成できる。 しかし、そのような特徴づけは高次元量子システムでは不可能となる。 本論文では,入力状態の所定のアンサンブルに適用した場合に,未知の量子過程の挙動を予測するニューラルネットワークアルゴリズムを開発した。 ネットワークは、数組の入出力量子状態の測定から得られる古典的なデータで訓練される。 トレーニング後、状態アンサンブルの任意の入力に対応する出力状態で行われた利子測定の一連の測定統計を予測するために使用することができる。 量子ゲートや量子回路の学習に加えて、我々のモデルはノイズの多い量子進化の学習や時間進化する量子状態の測定統計の予測にも応用できる。 量子コンピューティング、量子多体物理学、量子光学の様々な関連プロセスにおいて、ニューラルネットワークモデルを用いて数値的な結果を示す。

Complete characterization of an unknown quantum process can be achieved by process tomography, or, for continuous time processes, by Hamiltonian learning. However, such a characterization becomes unfeasible for high dimensional quantum systems. In this paper, we develop the first neural network algorithm for predicting the behavior of an unknown quantum process when applied on a given ensemble of input states. The network is trained with classical data obtained from measurements on a few pairs of input/output quantum states. After training, it can be used to predict the measurement statistics of a set of measurements of interest performed on the output state corresponding to any input in the state ensemble. Besides learning a quantum gate or quantum circuit, our model can also be applied to the task of learning a noisy quantum evolution and predicting the measurement statistics on a time-evolving quantum state. We show numerical results using our neural network model for various relevant processes in quantum computing, quantum many-body physics, and quantum optics.
翻訳日:2023-08-21 17:47:01 公開日:2023-08-17
# 連続3次元再構成のための変動分布事前の融合と周期マップ再生

A Fusion of Variational Distribution Priors and Saliency Map Replay for Continual 3D Reconstruction ( http://arxiv.org/abs/2308.08812v1 )

ライセンス: Link先を確認
Sanchar Palit and Sandika Biswas(参考訳) 単一画像からの3次元物体形状の予測に焦点をあてた研究課題である。 このタスクは、形状の可視部分と隠蔽部分の両方を予測するために、重要なデータ取得を必要とする。 さらに、学習ベースの手法は、すべての可能なクラスに対して包括的なトレーニングデータセットを作成することの難しさに直面している。 そこで本研究では,新しい授業を訓練した後でも合理的にクラスを再構築できる変分前置型モデルの設計を目標とする,連続学習に基づく3次元再構築手法を提案する。 変異プリミティブは抽象的な形状と戦闘的忘れを表現し、サリエンシマップはメモリ使用量の少ないオブジェクト属性を保存する。 これは、広範なトレーニングデータを格納する際のリソース制約のため、不可欠である。 さらに,サリエンシマップに基づく体験リプレイを導入し,グローバルおよび異なるオブジェクトの特徴を捉える。 より詳細な実験により,定性的・定量的に確立された手法と比較して,競争結果が得られた。

Single-image 3D reconstruction is a research challenge focused on predicting 3D object shapes from single-view images. This task requires significant data acquisition to predict both visible and occluded portions of the shape. Furthermore, learning-based methods face the difficulty of creating a comprehensive training dataset for all possible classes. To this end, we propose a continual learning-based 3D reconstruction method where our goal is to design a model using Variational Priors that can still reconstruct the previously seen classes reasonably even after training on new classes. Variational Priors represent abstract shapes and combat forgetting, whereas saliency maps preserve object attributes with less memory usage. This is vital due to resource constraints in storing extensive training data. Additionally, we introduce saliency map-based experience replay to capture global and distinct object features. Thorough experiments show competitive results compared to established methods, both quantitatively and qualitatively.
翻訳日:2023-08-21 17:46:47 公開日:2023-08-17
# 共変量およびラベルシフト下におけるテスト時間適応のためのラベルシフトアダプタ

Label Shift Adapter for Test-Time Adaptation under Covariate and Label Shifts ( http://arxiv.org/abs/2308.08810v1 )

ライセンス: Link先を確認
Sunghyun Park, Seunghan Yang, Jaegul Choo, Sungrack Yun(参考訳) テスト時間適応(TTA)は、推論中にバッチ・バイ・バッチ方式で、事前訓練されたモデルをターゲットドメインに適応することを目的としている。 ラベル分布はしばしば現実世界のシナリオで不均衡を示すが、ほとんどのttaアプローチは、ソースとターゲットの両方のドメインデータセットがラベル分布のバランスをとると仮定している。 特定のクラスが特定のドメイン(例えば、都市の建物、森林の木)でより頻繁に現れるという事実から、ドメインが変化するにつれてラベルの分布が変化するのは自然である。 しかし,既存のTTA手法の大部分は,共変量およびラベルシフトの共存に対処できないことがわかった。 この課題に対処するために,既存のTTAアプローチに組み込んで,TTAプロセス中にラベルシフトを効果的に処理できる新しいラベルシフトアダプタを提案する。 具体的には,対象領域のラベル分布を推定し,ラベルシフトアダプタに入力する。 その後、ラベルシフトアダプタは、ターゲットラベル分布の最適パラメータを生成する。 事前学習したソースモデルの一部のパラメータのみを予測することで、我々のアプローチは計算効率が高く、モデルアーキテクチャに関係なく容易に適用できる。 広範な実験を通じて,TTAアプローチと戦略の統合は,ラベルと共変量シフトの併用による大幅な性能向上につながることを示した。

Test-time adaptation (TTA) aims to adapt a pre-trained model to the target domain in a batch-by-batch manner during inference. While label distributions often exhibit imbalances in real-world scenarios, most previous TTA approaches typically assume that both source and target domain datasets have balanced label distribution. Due to the fact that certain classes appear more frequently in certain domains (e.g., buildings in cities, trees in forests), it is natural that the label distribution shifts as the domain changes. However, we discover that the majority of existing TTA methods fail to address the coexistence of covariate and label shifts. To tackle this challenge, we propose a novel label shift adapter that can be incorporated into existing TTA approaches to deal with label shifts during the TTA process effectively. Specifically, we estimate the label distribution of the target domain to feed it into the label shift adapter. Subsequently, the label shift adapter produces optimal parameters for the target label distribution. By predicting only the parameters for a part of the pre-trained source model, our approach is computationally efficient and can be easily applied, regardless of the model architectures. Through extensive experiments, we demonstrate that integrating our strategy with TTA approaches leads to substantial performance improvements under the joint presence of label and covariate shifts.
翻訳日:2023-08-21 17:46:32 公開日:2023-08-17
# サンスクリットにおける語彙的・構文的・意味的課題のための言語学的インフォームドニューラルアーキテクチャ

Linguistically-Informed Neural Architectures for Lexical, Syntactic and Semantic Tasks in Sanskrit ( http://arxiv.org/abs/2308.08807v1 )

ライセンス: Link先を確認
Jivnesh Sandhan(参考訳) この論文の主な焦点は、サンスクリット写本を自然言語技術を通じてエンドユーザーにとってよりアクセスしやすいものにすることである。 サンスクリットの形態的豊かさ、複合化、自由語の順序付け、低リソース性は、ディープラーニングソリューションを開発する上で大きな課題となる。 単語分割,依存性解析,複合型識別,詩解析という,サンスクリット語のための堅牢なNLP技術開発に不可欠な4つの基本課題を同定する。 最初のタスクであるSanskrit Word Segmentation (SWS)は、他のダウンストリームアプリケーションのための基本的なテキスト処理タスクである。 しかし、単語境界における文字を修飾するサンディー現象のため、これは困難である。 同様に、既存の依存関係解析のアプローチは、sanskritのような形態学的にリッチで低リソースな言語に苦しむ。 サンスクリットでは、コンポーネント間の文脈依存的な意味関係のため、複合型識別も困難である。 これらの課題はすべて、質問応答や機械翻訳のようなNLPアプリケーションにおける準最適性能をもたらす。 最後に、サンスクリット詩は計算言語学では広く研究されていない。 1) この論文は、これらのタスクに対して言語的に変形したニューラルアーキテクチャを提案する。 2)提案するシステムの解釈可能性と多言語拡張について紹介する。 3) 提案システムは, 最先端の性能を報告している。 (4) 最後に,様々なNLPタスクの入力をリアルタイムに解析するWebベースのアプリケーションであるSanskritShalaを提案する。 全体として、この論文は、堅牢なnlp技術を開発し、様々なリソース、データセット、webベースのツールキットをリリースすることにより、サンスクリット写本をよりアクセスしやすくするのに役立つ。

The primary focus of this thesis is to make Sanskrit manuscripts more accessible to the end-users through natural language technologies. The morphological richness, compounding, free word orderliness, and low-resource nature of Sanskrit pose significant challenges for developing deep learning solutions. We identify four fundamental tasks, which are crucial for developing a robust NLP technology for Sanskrit: word segmentation, dependency parsing, compound type identification, and poetry analysis. The first task, Sanskrit Word Segmentation (SWS), is a fundamental text processing task for any other downstream applications. However, it is challenging due to the sandhi phenomenon that modifies characters at word boundaries. Similarly, the existing dependency parsing approaches struggle with morphologically rich and low-resource languages like Sanskrit. Compound type identification is also challenging for Sanskrit due to the context-sensitive semantic relation between components. All these challenges result in sub-optimal performance in NLP applications like question answering and machine translation. Finally, Sanskrit poetry has not been extensively studied in computational linguistics. While addressing these challenges, this thesis makes various contributions: (1) The thesis proposes linguistically-informed neural architectures for these tasks. (2) We showcase the interpretability and multilingual extension of the proposed systems. (3) Our proposed systems report state-of-the-art performance. (4) Finally, we present a neural toolkit named SanskritShala, a web-based application that provides real-time analysis of input for various NLP tasks. Overall, this thesis contributes to making Sanskrit manuscripts more accessible by developing robust NLP technology and releasing various resources, datasets, and web-based toolkit.
翻訳日:2023-08-21 17:46:11 公開日:2023-08-17
# テキスト認識のための自己蒸留正規化コネクショニスト時間的分類損失:単純かつ効果的なアプローチ

Self-distillation Regularized Connectionist Temporal Classification Loss for Text Recognition: A Simple Yet Effective Approach ( http://arxiv.org/abs/2308.08806v1 )

ライセンス: Link先を確認
Ziyin Zhang, Ning Lu, Minghui Liao, Yongshuai Huang, Cheng Li, Min Wang and Wei Peng(参考訳) テキスト認識手法は急速に発展しつつある。 強力なモジュール、言語モデル、un-および半教師なしの学習スキームなど、いくつかの高度なテクニックは、公開ベンチマークのパフォーマンスを継続的に押し上げる。 しかし、損失関数の観点から、テキスト認識モデルをいかに最適化するかという問題は概ね見過ごされている。 CTCに基づく手法は、性能と推論速度のバランスが良く、精度の低下に苦慮しているため、実際に広く用いられている。 CTC損失は、個々の文字を学習することを無視しながら、シーケンスターゲット全体の最適化を強調するためである。 本稿では,CTCモデルを用いた自己蒸留方式を提案する。 フレームワイズ正規化項をctc損失に取り入れ、個々の監督を強調し、潜在アライメントの最大化後アライメントを活用し、ctcベースのモデル間の蒸留で生じる不整合問題を解決する。 正規化ctc損失を蒸留接続主義時間的分類 (dctc) 損失と呼ぶ。 DCTCの損失はモジュールフリーで、余分なパラメータや推論遅延、追加のトレーニングデータやフェーズを必要としない。 公開ベンチマークの大規模な実験は、DCTCがこれらの欠点を全くなく、テキスト認識モデルの精度を最大2.6%向上させることができることを示した。

Text recognition methods are gaining rapid development. Some advanced techniques, e.g., powerful modules, language models, and un- and semi-supervised learning schemes, consecutively push the performance on public benchmarks forward. However, the problem of how to better optimize a text recognition model from the perspective of loss functions is largely overlooked. CTC-based methods, widely used in practice due to their good balance between performance and inference speed, still grapple with accuracy degradation. This is because CTC loss emphasizes the optimization of the entire sequence target while neglecting to learn individual characters. We propose a self-distillation scheme for CTC-based model to address this issue. It incorporates a framewise regularization term in CTC loss to emphasize individual supervision, and leverages the maximizing-a-posteriori of latent alignment to solve the inconsistency problem that arises in distillation between CTC-based models. We refer to the regularized CTC loss as Distillation Connectionist Temporal Classification (DCTC) loss. DCTC loss is module-free, requiring no extra parameters, longer inference lag, or additional training data or phases. Extensive experiments on public benchmarks demonstrate that DCTC can boost text recognition model accuracy by up to 2.6%, without any of these drawbacks.
翻訳日:2023-08-21 17:45:46 公開日:2023-08-17
# 大衆傾向の捉え方: 項目推薦の簡易的非個人化アプローチ

Capturing Popularity Trends: A Simplistic Non-Personalized Approach for Enhanced Item Recommendation ( http://arxiv.org/abs/2308.08799v1 )

ライセンス: Link先を確認
Jiazheng Jing, Yinan Zhang, Xin Zhou, Zhiqi Shen(参考訳) レコメンダシステムは長年にわたって研究の注目を集めてきた。 既存のレコメンデーション手法のほとんどは、ユーザーのプライバシを侵害する可能性のある過去のユーザー-テーマインタラクションを通じて、ユーザーのパーソナライズされた好みをキャプチャすることに焦点を当てている。 さらに、これらのアプローチは、ユーザーの意思決定を揺るがすアイテムの人気の時間的変動の意義をしばしば見落としている。 このギャップを埋めるために,最も人気の高いアイテムを予測して非パーソナライズドレコメンデーションを行うpopular-aware recommender (pare)を提案する。 PAREは4つのモジュールから構成されており、それぞれが人気履歴、時間的影響、周期的影響、側面情報といった異なる側面に焦点を当てている。 最後に、注意層を利用して4つのモジュールの出力を融合する。 私たちの知る限り、レコメンデーションシステムでアイテムの人気を明示的にモデル化する最初の試みである。 広範な実験により、pareは最先端の推奨手法と同等かそれ以上の性能を発揮することが示されている。 pareはパーソナライズされたユーザーの好みよりもアイテムの人気を優先するため、既存のレコメンデーションメソッドを補完的なコンポーネントとして拡張することができる。 提案実験では,既存のレコメンデーション手法とPAREを統合することで,既存のレコメンデーション手法の補完となるPAREの可能性を明らかにする。 さらに、PAREの単純さは、産業応用にとって非常に実用的であり、将来の研究の基準となる。

Recommender systems have been gaining increasing research attention over the years. Most existing recommendation methods focus on capturing users' personalized preferences through historical user-item interactions, which may potentially violate user privacy. Additionally, these approaches often overlook the significance of the temporal fluctuation in item popularity that can sway users' decision-making. To bridge this gap, we propose Popularity-Aware Recommender (PARE), which makes non-personalized recommendations by predicting the items that will attain the highest popularity. PARE consists of four modules, each focusing on a different aspect: popularity history, temporal impact, periodic impact, and side information. Finally, an attention layer is leveraged to fuse the outputs of four modules. To our knowledge, this is the first work to explicitly model item popularity in recommendation systems. Extensive experiments show that PARE performs on par or even better than sophisticated state-of-the-art recommendation methods. Since PARE prioritizes item popularity over personalized user preferences, it can enhance existing recommendation methods as a complementary component. Our experiments demonstrate that integrating PARE with existing recommendation methods significantly surpasses the performance of standalone models, highlighting PARE's potential as a complement to existing recommendation methods. Furthermore, the simplicity of PARE makes it immensely practical for industrial applications and a valuable baseline for future research.
翻訳日:2023-08-21 17:45:23 公開日:2023-08-17
# 性別分類のための深部耳バイオメトリックス

Deep Ear Biometrics for Gender Classification ( http://arxiv.org/abs/2308.08797v1 )

ライセンス: Link先を確認
Ritwiz Singh, Keshav Kashyap, Rajesh Mukherjee, Asish Bera, and Mamata Dalui Chakraborty(参考訳) 生体的特徴に基づく人間の性別分類は、様々な応用のためにコンピュータビジョンにとって大きな関心事である。 ヒトの耳は、年齢や環境の変化の影響が少なく、意図しないため、軟質な生体計測特性として研究者の間で人気がある。 本研究では,耳画像のサンプルを用いた自動性別分類のための深層畳み込みニューラルネットワーク(cnn)モデルを開発した。 性能は4つの切削エッジプリトレーニングcnnモデルを用いて評価される。 学習可能なパラメータに関して言えば、提案手法は計算の複雑さを著しく減らさなければならない。 提案したモデルは、EarVN1.0の耳データセットで93%の精度を達成した。

Human gender classification based on biometric features is a major concern for computer vision due to its vast variety of applications. The human ear is popular among researchers as a soft biometric trait, because it is less affected by age or changing circumstances, and is non-intrusive. In this study, we have developed a deep convolutional neural network (CNN) model for automatic gender classification using the samples of ear images. The performance is evaluated using four cutting-edge pre-trained CNN models. In terms of trainable parameters, the proposed technique requires significantly less computational complexity. The proposed model has achieved 93% accuracy on the EarVN1.0 ear dataset.
翻訳日:2023-08-21 17:44:56 公開日:2023-08-17
# 言語モデルとしての中国語スペル訂正

Chinese Spelling Correction as Rephrasing Language Model ( http://arxiv.org/abs/2308.08796v1 )

ライセンス: Link先を確認
Linfeng Liu, Hongqiu Wu, Hai Zhao(参考訳) 本稿では,中国語の綴り誤りの検出と訂正を目的とした中国語綴り訂正(csc)について述べる。 現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。 しかし、ある文字を別の文字にタグ付けする過程において、訂正が過度に条件付けされているという重大な欠陥に注意する。 これは人間の考え方とは逆で、個人は前に記憶されたエラーパターンにのみ依存するのではなく、その意味論に基づいて完全な文を言い換える。 このような直感的学習プロセスは、機械スペル訂正の一般化可能性と伝達可能性のボトルネックをもたらす。 これに対処するために、我々は$rephrasing language modeling$ (relm)を提案する。このモデルは、文字から文字へのタグ付けではなく、追加のスロットを埋め込むことで文全体を再現するように訓練される。 この新たなトレーニングパラダイムは、微調整およびゼロショットのCSCベンチマークにまたがる、最先端の新たな結果を達成する。 また,CSCが他のタスクと共同で訓練された場合,変換可能な言語表現も学習する。

This paper studies Chinese Spelling Correction (CSC), which aims to detect and correct potential spelling errors in a given sentence. Current state-of-the-art methods regard CSC as a sequence tagging task and fine-tune BERT-based models on sentence pairs. However, we note a critical flaw in the process of tagging one character to another, that the correction is excessively conditioned on the error. This is opposite from human mindset, where individuals rephrase the complete sentence based on its semantics, rather than solely on the error patterns memorized before. Such a counter-intuitive learning process results in the bottleneck of generalizability and transferability of machine spelling correction. To address this, we propose $Rephrasing Language Modeling$ (ReLM), where the model is trained to rephrase the entire sentence by infilling additional slots, instead of character-to-character tagging. This novel training paradigm achieves the new state-of-the-art results across fine-tuned and zero-shot CSC benchmarks, outperforming previous counterparts by a large margin. Our method also learns transferable language representation when CSC is jointly trained with other tasks.
翻訳日:2023-08-21 17:44:49 公開日:2023-08-17
# 関数空間上の非定常ダイナミクスにおけるTip Point Forecasting

Tipping Point Forecasting in Non-Stationary Dynamics on Function Spaces ( http://arxiv.org/abs/2308.08794v1 )

ライセンス: Link先を確認
Miguel Liu-Schiaffini, Clare E. Singer, Nikola Kovachki, Tapio Schneider, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) タップポイントは急激で、急激で、しばしば非定常およびカオス力学系の進化における不可逆的な変化である。 例えば、温室効果ガス濃度の上昇は、気候学的転換点と呼ばれる低雲被覆の劇的な減少につながると予測されている。 本稿では、関数空間間のマッピングを学習する新しいリカレントニューラル演算子(RNO)を用いて、そのような非定常力学系の進化を学習する。 不確実性に基づくアプローチを用いて,RNOを先取り力学のみにトレーニングした後,将来のチップポイントを検出する。 特に,物理学的な制約(保存量や偏微分方程式など)からの逸脱を監視し,不確かさの厳密な尺度とともに,これらの急な変化を予測できる等角予測フレームワークを提案する。 本稿では,lorenz-63 や kuramoto-sivashinsky 等,非定常常微分方程式および偏微分方程式に関する提案手法について述べる。 また,この手法を用いて成層圏雲の気候傾斜点を予測した。 実験では, 物理的制約や近似的制約さえも, 将来の尖点を正確に予測できることを示した。

Tipping points are abrupt, drastic, and often irreversible changes in the evolution of non-stationary and chaotic dynamical systems. For instance, increased greenhouse gas concentrations are predicted to lead to drastic decreases in low cloud cover, referred to as a climatological tipping point. In this paper, we learn the evolution of such non-stationary dynamical systems using a novel recurrent neural operator (RNO), which learns mappings between function spaces. After training RNO on only the pre-tipping dynamics, we employ it to detect future tipping points using an uncertainty-based approach. In particular, we propose a conformal prediction framework to forecast tipping points by monitoring deviations from physics constraints (such as conserved quantities and partial differential equations), enabling forecasting of these abrupt changes along with a rigorous measure of uncertainty. We illustrate our proposed methodology on non-stationary ordinary and partial differential equations, such as the Lorenz-63 and Kuramoto-Sivashinsky equations. We also apply our methods to forecast a climate tipping point in stratocumulus cloud cover. In our experiments, we demonstrate that even partial or approximate physics constraints can be used to accurately forecast future tipping points.
翻訳日:2023-08-21 17:44:29 公開日:2023-08-17
# CFD結合多忠実ベイズ最適化による新しい原子炉設計の機械学習支援

Machine Learning-Assisted Discovery of Novel Reactor Designs via CFD-Coupled Multi-fidelity Bayesian Optimisation ( http://arxiv.org/abs/2308.08841v1 )

ライセンス: Link先を確認
Tom Savage, Nausheen Basha, Jonathan McDonough, Omar K Matar, Ehecatl Antonio del Rio Chanona(参考訳) 付加物製造により、より先進的な原子炉ジオメトリの製造が可能となり、より大きく複雑な設計空間の可能性を秘めている。 幅広い設計空間内で有望な構成を特定し最適化することは、既存の人間中心の設計アプローチにとって大きな課題となる。 このように、コイル付きチューブリアクタージオメトリの既存のパラメータ化は、より複雑な解を制限した高価な最適化により低次元である。 アルゴリズムの改良と加法製造の開始を前提として,クロスセクションとコイルパスの変動を可能にする2つの新しいコイル管パラメタライゼーションを提案し,その結果,高次元,複雑な最適化問題が発生した。 勾配が得られない扱いやすい非局所最適化を確保するために、多元ベイズ最適化を適用する。 提案手法は,複数の連続忠実度を特徴付け,パラメータ化メッシュやシミュレーションと組み合わせることで,より低品質で高速なシミュレーションを実現する。 プラグフロー性能を最大化することにより、最適反応器設計の重要な特徴を特定し、これらを外挿して、2つの新しいジオメトリを生成し、3Dプリントして実験的に検証する。 本研究では, 次世代原子炉の設計, 最適化, 製造を実証することにより, 新しい製造プロセスと組み合わせたインテリジェントな設計が, 将来の化学プロセスの性能と持続可能性を大幅に向上させることを示す。

Additive manufacturing has enabled the production of more advanced reactor geometries, resulting in the potential for significantly larger and more complex design spaces. Identifying and optimising promising configurations within broader design spaces presents a significant challenge for existing human-centric design approaches. As such, existing parameterisations of coiled-tube reactor geometries are low-dimensional with expensive optimisation limiting more complex solutions. Given algorithmic improvements and the onset of additive manufacturing, we propose two novel coiled-tube parameterisations enabling the variation of cross-section and coil path, resulting in a series of high dimensional, complex optimisation problems. To ensure tractable, non-local optimisation where gradients are not available, we apply multi-fidelity Bayesian optimisation. Our approach characterises multiple continuous fidelities and is coupled with parameterised meshing and simulation, enabling lower quality, but faster simulations to be exploited throughout optimisation. Through maximising the plug-flow performance, we identify key characteristics of optimal reactor designs, and extrapolate these to produce two novel geometries that we 3D print and experimentally validate. By demonstrating the design, optimisation, and manufacture of highly parameterised reactors, we seek to establish a framework for the next-generation of reactors, demonstrating that intelligent design coupled with new manufacturing processes can significantly improve the performance and sustainability of future chemical processes.
翻訳日:2023-08-21 17:36:33 公開日:2023-08-17
# CMB:中国語の総合医療ベンチマーク

CMB: A Comprehensive Medical Benchmark in Chinese ( http://arxiv.org/abs/2308.08833v1 )

ライセンス: Link先を確認
Xidong Wang, Guiming Hardy Chen, Dingjie Song, Zhiyi Zhang, Zhihong Chen, Qingying Xiao, Feng Jiang, Jianquan Li, Xiang Wan, Benyou Wang, Haizhou Li(参考訳) 大きな言語モデル(LLM)は、医学に大きなブレークスルーをもたらす可能性がある。 標準化された医療指標の確立は、進歩を測定するための基本的な基礎となる。 しかし、各地の医療環境は、中国における漢方医学の普遍性や重要性など、地域的特徴を持っている。 したがって、単に英語に基づく医療評価を単に翻訳すれば、ローカルな領域に「textit{contextual incongruities}」をもたらす可能性がある。 そこで,本稿では,中国語の包括的医療ベンチマークであるcmbという局所化医療ベンチマークを提案し,中国語の言語的・文化的枠組みに完全に根ざした手法を提案する。 伝統的な中国医学はこの評価に欠かせないものであるが、全体としては成り立たない。 本ベンチマークを用いて,ChatGPT,GPT-4,中国専用LSM,医療分野に特化したLSMなど,大規模LSMの大規模評価を行った。 私たちのベンチマークは、リーダーボードの競争としてではなく、モデルの進歩を自己評価するための手段として考案されています。 このベンチマークが中国における医療用LLMの普及と普及を促進することを願っている。 詳細は \url{https://cmedbenchmark.llmzoo.com/} を参照。

Large Language Models (LLMs) provide a possibility to make a great breakthrough in medicine. The establishment of a standardized medical benchmark becomes a fundamental cornerstone to measure progression. However, medical environments in different regions have their local characteristics, e.g., the ubiquity and significance of traditional Chinese medicine within China. Therefore, merely translating English-based medical evaluation may result in \textit{contextual incongruities} to a local region. To solve the issue, we propose a localized medical benchmark called CMB, a Comprehensive Medical Benchmark in Chinese, designed and rooted entirely within the native Chinese linguistic and cultural framework. While traditional Chinese medicine is integral to this evaluation, it does not constitute its entirety. Using this benchmark, we have evaluated several prominent large-scale LLMs, including ChatGPT, GPT-4, dedicated Chinese LLMs, and LLMs specialized in the medical domain. It is worth noting that our benchmark is not devised as a leaderboard competition but as an instrument for self-assessment of model advancements. We hope this benchmark could facilitate the widespread adoption and enhancement of medical LLMs within China. Check details in \url{https://cmedbenchmark.llmzoo.com/}.
翻訳日:2023-08-21 17:36:08 公開日:2023-08-17
# ICoNIK:k空間内におけるニューラルインシシシット表現を用いた呼吸解離型腹部MR画像再構成

ICoNIK: Generating Respiratory-Resolved Abdominal MR Reconstructions Using Neural Implicit Representations in k-Space ( http://arxiv.org/abs/2308.08830v1 )

ライセンス: Link先を確認
Veronika Spieker, Wenqi Huang, Hannah Eichhorn, Jonathan Stelter, Kilian Weiss, Veronika A. Zimmer, Rickmer F. Braren, Dimitrios C. Karampinos, Kerstin Hammernik, Julia A. Schnabel(参考訳) 腹部磁気共鳴画像(MRI)の動作改善は, 運動状態とアンダーサンプリングアーティファクトによる残留運動のぼかしとのトレードオフのため, 依然として課題である。 そこで本研究では,k-space (NIK) で直接暗黙的表現を学習することにより,ぼやけた動きを解消する腹部再建法を提案する。 測定されたサンプリングポイントとデータ由来の呼吸ナビゲータ信号を用いて,連続的な信号を生成するネットワークを訓練する。 サンプルの少ない領域の正規化を支援するため,周辺地域からの情報を活用してNIKの予測を補正する情報補正層(ICo)を導入する。 提案手法であるNIKとICoNIKは,標準動作解決法よりも優れており,腹部MRIにおける動作アーチファクトに対処するための有望な解決策を提供する。

Motion-resolved reconstruction for abdominal magnetic resonance imaging (MRI) remains a challenge due to the trade-off between residual motion blurring caused by discretized motion states and undersampling artefacts. In this work, we propose to generate blurring-free motion-resolved abdominal reconstructions by learning a neural implicit representation directly in k-space (NIK). Using measured sampling points and a data-derived respiratory navigator signal, we train a network to generate continuous signal values. To aid the regularization of sparsely sampled regions, we introduce an additional informed correction layer (ICo), which leverages information from neighboring regions to correct NIK's prediction. Our proposed generative reconstruction methods, NIK and ICoNIK, outperform standard motion-resolved reconstruction techniques and provide a promising solution to address motion artefacts in abdominal MRI.
翻訳日:2023-08-21 17:35:50 公開日:2023-08-17
# 対称重み付き一階モデルサンプリングのためのリフテッドアルゴリズム

Lifted Algorithms for Symmetric Weighted First-Order Model Sampling ( http://arxiv.org/abs/2308.08828v1 )

ライセンス: Link先を確認
Yuanhong Wang, Juhua Pu, Yuyi Wang and Ond\v{r}ej Ku\v{z}elka(参考訳) 重み付きモデルカウント(英: Weighted Model counting、WMC)は、命題式の全割り当て(すなわちモデル)の重み付き和を計算するタスクである。 同様に、重み付きモデルサンプリング(wms)は、各重みに比例する確率のモデルをランダムに生成することを目的としている。 WMCとWMSはどちらも正確には解決が難しく、#P-hardの複雑性クラスに該当する。 しかし、命題公式がコンパクトに表現され一階述語論理で表現できるならば、数え上げ問題は扱いやすいことがあることが知られている。 そのような場合、モデルカウント問題は、ドメインサイズの時間多項式で解くことができ、 \textit{ domain-liftable} として知られている。 重み付けされたモデルサンプリングについてもそうであるのか? 本稿では,この質問に対して肯定的に答える。 具体的には,1次論理の2変数のフラグメントに対して,このフラグメントに対して,領域サイズで時間多項式で実行される効率的なサンプリングアルゴリズムを考案し,サンプリング下でのtextit{ Domain-liftability}を証明した。 さらに, 濃度制約の存在下においても, この結果が持続することを示した。 提案手法を実証的に検証するために, 組合せ構造を均一に生成し, 統計的関係モデルでサンプリングするために, 様々な一階式について実験を行った。 以上の結果から,本アルゴリズムは最先端のWMSサンプリング器よりも高い性能を示し,理論的結果を確認した。

Weighted model counting (WMC) is the task of computing the weighted sum of all satisfying assignments (i.e., models) of a propositional formula. Similarly, weighted model sampling (WMS) aims to randomly generate models with probability proportional to their respective weights. Both WMC and WMS are hard to solve exactly, falling under the \#P-hard complexity class. However, it is known that the counting problem may sometimes be tractable, if the propositional formula can be compactly represented and expressed in first-order logic. In such cases, model counting problems can be solved in time polynomial in the domain size, and are known as \textit{domain-liftable}. The following question then arises: Is it also the case for weighted model sampling? This paper addresses this question and answers it affirmatively. Specifically, we prove the \textit{domain-liftability under sampling} for the two-variables fragment of first-order logic with counting quantifiers in this paper, by devising an efficient sampling algorithm for this fragment that runs in time polynomial in the domain size. We then further show that this result continues to hold even in the presence of cardinality constraints. To empirically verify our approach, we conduct experiments over various first-order formulas designed for the uniform generation of combinatorial structures and sampling in statistical-relational models. The results demonstrate that our algorithm outperforms a start-of-the-art WMS sampler by a substantial margin, confirming the theoretical results.
翻訳日:2023-08-21 17:35:34 公開日:2023-08-17
# 機械翻訳による事実性検出 -ドイツ語臨床テキストへの適用-

Factuality Detection using Machine Translation -- a Use Case for German Clinical Text ( http://arxiv.org/abs/2308.08827v1 )

ライセンス: Link先を確認
Mohammed Bin Sumait, Aleksandra Gabryszak, Leonhard Hennig, Roland Roller(参考訳) 事実性は、臨床テキストの自動処理において重要な役割を果たす。特定の症状が明示的に存在せず、おそらく言及されていない、あるいは肯定されていない場合、違いが生じるためである。 ほとんどの場合、教師付き機械学習環境でそのような現象を扱うには十分な数の例が必要である。 しかし、臨床テキストには機密情報が含まれているため、データは簡単には共有できない。 事実検出の文脈において、この研究は機械翻訳を用いて英語データをドイツ語に翻訳し、トランスフォーマーに基づく事実検出モデルを訓練する簡単な方法を示す。

Factuality can play an important role when automatically processing clinical text, as it makes a difference if particular symptoms are explicitly not present, possibly present, not mentioned, or affirmed. In most cases, a sufficient number of examples is necessary to handle such phenomena in a supervised machine learning setting. However, as clinical text might contain sensitive information, data cannot be easily shared. In the context of factuality detection, this work presents a simple solution using machine translation to translate English data to German to train a transformer-based factuality detection model.
翻訳日:2023-08-21 17:35:05 公開日:2023-08-17
# カバーネスのためのフェデレーション学習の制御

Controlling Federated Learning for Covertness ( http://arxiv.org/abs/2308.08825v1 )

ライセンス: Link先を確認
Adit Jain and Vikram Krishnamurthy(参考訳) 学習者は、ノイズの多い勾配評価を提供する分散オラクルに繰り返し問い合わせることで、関数$f$を最小化することを目指している。 同時に、学習者は学習者のクエリを観察する悪意のある盗聴者から$\arg\min f$を隠そうとする。 本稿では,学習者が確率性を生かして学習と難読化のどちらを動的に選択する必要がある場合の, \textit{covert} または \textit{learner-private} 最適化の問題を考える。 隠れ最適化のための確率勾配アルゴリズムを制御する問題はマルコフ決定過程としてモデル化され、動的プログラム演算子が超モジュラ構造を持ち、最適ポリシーが単調なしきい値構造を持つことを示す。 遷移確率を知らずに最適なクエリポリシーを探索するために,計算効率の良いポリシ勾配アルゴリズムを提案する。 本手法は, 盗聴者が最適な重みを使って有害なコンテンツを生成することができるフェデレーション設定において, ヘイトスピーチ分類タスクにおいて, より容易に誤分類できることを示す。 数値的な結果から,学習者が最適ポリシーを使用する場合,学習者が強欲的なポリシーを採用する場合と比較して,正のサンプルが10倍の公開データセットを持つ場合,eavesdropperは情報のない5,2\%$と6,9\%の検証精度しか達成できないことがわかった。

A learner aims to minimize a function $f$ by repeatedly querying a distributed oracle that provides noisy gradient evaluations. At the same time, the learner seeks to hide $\arg\min f$ from a malicious eavesdropper that observes the learner's queries. This paper considers the problem of \textit{covert} or \textit{learner-private} optimization, where the learner has to dynamically choose between learning and obfuscation by exploiting the stochasticity. The problem of controlling the stochastic gradient algorithm for covert optimization is modeled as a Markov decision process, and we show that the dynamic programming operator has a supermodular structure implying that the optimal policy has a monotone threshold structure. A computationally efficient policy gradient algorithm is proposed to search for the optimal querying policy without knowledge of the transition probabilities. As a practical application, our methods are demonstrated on a hate speech classification task in a federated setting where an eavesdropper can use the optimal weights to generate toxic content, which is more easily misclassified. Numerical results show that when the learner uses the optimal policy, an eavesdropper can only achieve a validation accuracy of $52\%$ with no information and $69\%$ when it has a public dataset with 10\% positive samples compared to $83\%$ when the learner employs a greedy policy.
翻訳日:2023-08-21 17:34:53 公開日:2023-08-17
# 軌道予測における確率密度推定の高速化と更新

Fast Inference and Update of Probabilistic Density Estimation on Trajectory Prediction ( http://arxiv.org/abs/2308.08824v1 )

ライセンス: Link先を確認
Takahiro Maeda and Norimichi Ukita(参考訳) 自動運転車やソーシャルロボットのような安全クリティカルな応用には、軌道予測の高速計算と正確な確率密度推定が必要である。 両要求に対処するために,FlowChain という新しい正規化フローベース軌道予測モデルを提案する。 FlowChainは条件付き連続インデックスフロー(CIF)のスタックであり、表現力があり、解析的確率密度計算を可能にする。 この解析計算は、核密度推定のような追加の近似を必要とする生成モデルよりも高速である。 さらに、FlowChainは推定密度の仮定が少ないため、ガウス混合モデルよりも精度が高い。 FlowChainはまた、推定確率密度の迅速な更新を可能にする。 この更新は \textit{newest observed position} を採用し、フロー変換と \textit{motion trend} を表す log-det-jacobian を再利用することで達成される。 この再利用は計算コストを大幅に削減するため、この更新は1ミリ秒足らずで完了する。 実験の結果, 従来の手法と比較して, 最先端の軌道予測精度が得られた。 さらに, フローチェーンは密度推定の精度と速度に優れていた。 私たちのコードは \url{https://github.com/meaten/FlowChain-ICCV2023} で利用可能です。

Safety-critical applications such as autonomous vehicles and social robots require fast computation and accurate probability density estimation on trajectory prediction. To address both requirements, this paper presents a new normalizing flow-based trajectory prediction model named FlowChain. FlowChain is a stack of conditional continuously-indexed flows (CIFs) that are expressive and allow analytical probability density computation. This analytical computation is faster than the generative models that need additional approximations such as kernel density estimation. Moreover, FlowChain is more accurate than the Gaussian mixture-based models due to fewer assumptions on the estimated density. FlowChain also allows a rapid update of estimated probability densities. This update is achieved by adopting the \textit{newest observed position} and reusing the flow transformations and its log-det-jacobians that represent the \textit{motion trend}. This update is completed in less than one millisecond because this reuse greatly omits the computational cost. Experimental results showed our FlowChain achieved state-of-the-art trajectory prediction accuracy compared to previous methods. Furthermore, our FlowChain demonstrated superiority in the accuracy and speed of density estimation. Our code is available at \url{https://github.com/meaten/FlowChain-ICCV2023}
翻訳日:2023-08-21 17:34:18 公開日:2023-08-17
# グラフ能動学習のためのホスト近傍からの意味的融合の軽減

Mitigating Semantic Confusion from Hostile Neighborhood for Graph Active Learning ( http://arxiv.org/abs/2308.08823v1 )

ライセンス: Link先を確認
Tianmeng Yang, Min Zhou, Yujing Wang, Zhengjie Lin, Lujia Pan, Bin Cui, Yunhai Tong(参考訳) Graph Active Learning(GAL)は、グラフニューラルネットワーク(GNN)のパフォーマンスを最大化するアノテーションのための、グラフで最も情報性の高いノードを見つけることを目的としている。 1つの大きな課題は、既存のGAL戦略が選択したトレーニングセットに意味的な混乱をもたらす可能性があることだ。 特に、既存のほとんどのメソッドは、すべての集約機能が役に立つと仮定しており、メッセージパッシングメカニズムの下でクラス間エッジ間の意味的にネガティブな効果を無視している。 本研究では,セマンティック・アウェア・アクティブ・ラーニング・フレームワーク(Semantic-Aware Active Learning framework for Graphs,SAG)を提案する。 意味的特徴を有するノードの相似性と相似性を導入し、ノードの影響を共同で評価する。 新たなプロトタイプベースの基準とクエリポリシも,選択したノードの多様性とクラスバランスを維持するように設計されている。 公開ベンチマークグラフと実世界の財務データセットに関する大規模な実験は、SAGがノード分類性能を著しく改善し、従来手法よりも一貫して向上していることを示している。 また,包括的解析およびアブレーション研究により,提案手法の有効性が検証された。

Graph Active Learning (GAL), which aims to find the most informative nodes in graphs for annotation to maximize the Graph Neural Networks (GNNs) performance, has attracted many research efforts but remains non-trivial challenges. One major challenge is that existing GAL strategies may introduce semantic confusion to the selected training set, particularly when graphs are noisy. Specifically, most existing methods assume all aggregating features to be helpful, ignoring the semantically negative effect between inter-class edges under the message-passing mechanism. In this work, we present Semantic-aware Active learning framework for Graphs (SAG) to mitigate the semantic confusion problem. Pairwise similarities and dissimilarities of nodes with semantic features are introduced to jointly evaluate the node influence. A new prototype-based criterion and query policy are also designed to maintain diversity and class balance of the selected nodes, respectively. Extensive experiments on the public benchmark graphs and a real-world financial dataset demonstrate that SAG significantly improves node classification performances and consistently outperforms previous methods. Moreover, comprehensive analysis and ablation study also verify the effectiveness of the proposed framework.
翻訳日:2023-08-21 17:34:02 公開日:2023-08-17
# MixBag:ラベル提供から学ぶためのバグレベルデータ拡張

MixBag: Bag-Level Data Augmentation for Learning from Label Proportions ( http://arxiv.org/abs/2308.08822v1 )

ライセンス: Link先を確認
Takanori Asanomi, Shinnosuke Matsuo, Daiki Suehiro, Ryoma Bise(参考訳) ラベル比例(LLP)からの学習は、有望な教師付き学習問題である。 LLPでは、一連のインスタンス(bag)はラベル比を持つが、インスタンスレベルのラベルは与えられない。 LLPは、バッグのラベル比を使ってインスタンスレベルの分類器を訓練することを目的としている。 本稿では,予備実験から得られた重要観測に基づいて,llpのバッグレベルのデータ拡張手法であるmixbagを提案し,全インスタンス数が固定されてもラベル付きバッグ数が増えるとインスタンスレベルの分類精度が向上することを示す。 また,拡張バッグを効果的に使用するための統計理論に基づく信頼区間損失を提案する。 我々の知る限り、これはLPPのためのバッグレベルのデータ拡張を提案する最初の試みである。 MixBagの利点は、インスタンスレベルのデータ拡張技術や比例損失を使用する任意のLPPメソッドに適用できる点である。 実験の結果,本手法の利点と有効性が示された。

Learning from label proportions (LLP) is a promising weakly supervised learning problem. In LLP, a set of instances (bag) has label proportions, but no instance-level labels are given. LLP aims to train an instance-level classifier by using the label proportions of the bag. In this paper, we propose a bag-level data augmentation method for LLP called MixBag, based on the key observation from our preliminary experiments; that the instance-level classification accuracy improves as the number of labeled bags increases even though the total number of instances is fixed. We also propose a confidence interval loss designed based on statistical theory to use the augmented bags effectively. To the best of our knowledge, this is the first attempt to propose bag-level data augmentation for LLP. The advantage of MixBag is that it can be applied to instance-level data augmentation techniques and any LLP method that uses the proportion loss. Experimental results demonstrate this advantage and the effectiveness of our method.
翻訳日:2023-08-21 17:33:42 公開日:2023-08-17
# 量子電子商取引の実験

Experimental quantum e-commerce ( http://arxiv.org/abs/2308.08821v1 )

ライセンス: Link先を確認
Xiao-Yu Cao, Bing-Hong Li, Yang Wang, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) インターネット上で高い頻度で発生する取引の一種であるeコマースは、長距離のメッセージの完全性、認証、非送還性を保証する必要がある。 現行の電子商取引スキームは計算攻撃に弱いため、量子暗号は敵の弁明と偽造に対する情報理論上のセキュリティを保証するため、この問題に対する解決策を提供する。 しかし、一般に量子解は古典解よりもずっと低い性能を持つ。 さらに、不完全なデバイスを考える場合、量子スキームの性能は大幅に低下する。 ここでは,まず,不完全なデバイスからの攻撃に対する抵抗を示す量子電子商取引方式を提案することで,契約の締結と3つの当事者間の支払いを伴うeコマースプロセス全体を実証する。 その結果,参加者間の最大減衰率25dBでは,約0.428メガビットの合意サイズに対して,毎秒0.82倍の署名率が得られることがわかった。 本提案手法は,電子商取引に情報理論的なセキュリティを提供するための有望なソリューションである。

E-commerce, a type of trading that occurs at a high frequency on the Internet, requires guaranteeing the integrity, authentication and non-repudiation of messages through long distance. As current e-commerce schemes are vulnerable to computational attacks, quantum cryptography, ensuring information-theoretic security against adversary's repudiation and forgery, provides a solution to this problem. However, quantum solutions generally have much lower performance compared to classical ones. Besides, when considering imperfect devices, the performance of quantum schemes exhibits a significant decline. Here, for the first time, we demonstrate the whole e-commerce process of involving the signing of a contract and payment among three parties by proposing a quantum e-commerce scheme, which shows resistance of attacks from imperfect devices. Results show that with a maximum attenuation of 25 dB among participants, our scheme can achieve a signature rate of 0.82 times per second for an agreement size of approximately 0.428 megabit. This proposed scheme presents a promising solution for providing information-theoretic security for e-commerce.
翻訳日:2023-08-21 17:33:27 公開日:2023-08-17
# 非ランダム欠落ラベルを用いた半教師付き学習を目指して

Towards Semi-supervised Learning with Non-random Missing Labels ( http://arxiv.org/abs/2308.08872v1 )

ライセンス: Link先を確認
Yue Duan, Zhen Zhao, Lei Qi, Luping Zhou, Lei Wang, Yinghuan Shi(参考訳) semi-supervised learning (ssl) はラベルなしデータの有効利用を可能にすることでラベル欠落問題に対処している。 既存のSSLメソッドは従来の設定に重点を置いているが、MNAR(Missing Not At Random)と呼ばれる実用的で困難なシナリオは通常無視される。 MNARでは、ラベル付きおよびラベルなしのデータは異なるクラス分布に分解され、バイアス付きラベル計算が行われ、SSLモデルの性能が低下する。 本研究では,クラス遷移追跡に基づくPseudo-Rectifying Guidance(PRG)をMNAR向けに考案した。 クラス追跡行列上に構築された動的に生成されたグラフをモデルとしたマルコフランダムウォークによるクラスレベルのガイダンス情報について検討する。 PRGは、疑似修正手順によって生じるクラス分布とクラス遷移の履歴情報を統一し、すべてのクラスに擬似ラベルを割り当てることに対するモデルの偏りのない熱意を維持することにより、MNARにおける人気のあるクラスと稀なクラスの擬似ラベルの品質を向上させることができる。 最後に、様々なMNARシナリオにおけるPRGの優れた性能を示し、バイアス除去ソリューションを大きなマージンで組み合わせた最新のSSLアプローチよりも優れています。 コードとモデルの重み付けはhttps://github.com/NJUyued/PRG4SSL-MNARで確認できる。

Semi-supervised learning (SSL) tackles the label missing problem by enabling the effective usage of unlabeled data. While existing SSL methods focus on the traditional setting, a practical and challenging scenario called label Missing Not At Random (MNAR) is usually ignored. In MNAR, the labeled and unlabeled data fall into different class distributions resulting in biased label imputation, which deteriorates the performance of SSL models. In this work, class transition tracking based Pseudo-Rectifying Guidance (PRG) is devised for MNAR. We explore the class-level guidance information obtained by the Markov random walk, which is modeled on a dynamically created graph built over the class tracking matrix. PRG unifies the historical information of class distribution and class transitions caused by the pseudo-rectifying procedure to maintain the model's unbiased enthusiasm towards assigning pseudo-labels to all classes, so as the quality of pseudo-labels on both popular classes and rare classes in MNAR could be improved. Finally, we show the superior performance of PRG across a variety of MNAR scenarios, outperforming the latest SSL approaches combining bias removal solutions by a large margin. Code and model weights are available at https://github.com/NJUyued/PRG4SSL-MNAR.
翻訳日:2023-08-21 17:28:55 公開日:2023-08-17
# 空間的かつスペクトル的に一貫した深層関数写像

Spatially and Spectrally Consistent Deep Functional Maps ( http://arxiv.org/abs/2308.08871v1 )

ライセンス: Link先を確認
Mingze Sun and Shiwei Mao and Puhua Jiang and Maks Ovsjanikov and Ruqi Huang(参考訳) サイクル一貫性は、長い間、形状の集合内の地図を共同最適化するための強力な先駆体として利用されてきた。 本稿では,非剛体形状マッチングにおける最先端技術と考えられるDeep Functional Mapsのアプローチにおける有用性について検討する。 まず、ある条件下では、学習された写像はスペクトル領域で表されるとき、既にサイクル一貫性を持っていることを正当化する。 さらに、スペクトル整合写像が必ずしも空間的、あるいは点的に一貫したとは限らないという不一致を特定する。 そこで本研究では,教師なしの深部汎関数写像の設計を提案し,スペクトルと点表現に基づく学習地図の調和を効果的に実施する。 サイクルの整合性を生かして,本フレームワークは,歪みの大きい場合においても形状のマッピングを行う。 さらに、スペクトル領域と空間領域の両方の地図を独立に推定することで、ネットワークトレーニングにおける過剰フィッティングを自然に軽減し、近距離等距離データセットと非等尺データセットの両方の挑戦的テストにおいて、優れた一般化性能と精度をもたらす。 コードはhttps://github.com/rqhuang88/Spatiallyand-Spectrally-Consistent-Deep-Functional-Mapsで公開されている。

Cycle consistency has long been exploited as a powerful prior for jointly optimizing maps within a collection of shapes. In this paper, we investigate its utility in the approaches of Deep Functional Maps, which are considered state-of-the-art in non-rigid shape matching. We first justify that under certain conditions, the learned maps, when represented in the spectral domain, are already cycle consistent. Furthermore, we identify the discrepancy that spectrally consistent maps are not necessarily spatially, or point-wise, consistent. In light of this, we present a novel design of unsupervised Deep Functional Maps, which effectively enforces the harmony of learned maps under the spectral and the point-wise representation. By taking advantage of cycle consistency, our framework produces state-of-the-art results in mapping shapes even under significant distortions. Beyond that, by independently estimating maps in both spectral and spatial domains, our method naturally alleviates over-fitting in network training, yielding superior generalization performance and accuracy within an array of challenging tests for both near-isometric and non-isometric datasets. Codes are available at https://github.com/rqhuang88/Spatiallyand-Spectrally-Consistent-Deep-Functional-Maps.
翻訳日:2023-08-21 17:28:35 公開日:2023-08-17
# ゼロサムマルコフゲームにおけるサンプル効率を改善したモデルフリーアルゴリズム

Model-Free Algorithm with Improved Sample Efficiency for Zero-Sum Markov Games ( http://arxiv.org/abs/2308.08858v1 )

ライセンス: Link先を確認
Songtao Feng, Ming Yin, Yu-Xiang Wang, Jing Yang, Yingbin Liang(参考訳) 近年,マルチエージェント強化学習(RL)の理論研究において,ツープレイヤーゼロサムマルコフゲームの問題が注目されている。 特に有限ホライズン・エピソード・マルコフ決定過程(MDPs)では、モデルに基づくアルゴリズムは、サンプルの複雑さが$O(H^3SAB/\epsilon^2)$と$S$(それぞれ$A$と$B$は2人のプレイヤーのアクションの数を表す)の場合に最適である$O(H^3SAB/\epsilon^2)$を見つけることが示されている。 しかし、既存のモデルフリーアルゴリズムではそのような最適性を達成できない。 本研究では,モデルフリーのステージベースQ-ラーニングアルゴリズムを提案し,モデルフリーのアルゴリズムがモデルベースアルゴリズムと同一のサンプル複雑性を達成できることを示し,モデルフリーのアルゴリズムがモデルベースアルゴリズムと同一の最適性を享受できることを初めて示す。 h$ への依存の主な改善は、かつてシングルエージェント rl でのみ使用されていた参照・アドバンテージ分解に基づく一般的な分散低減技術を利用することである。 しかし、そのような手法は値関数の臨界単調性に依存しており、これはマルコフのゲームでは粗相関平衡(CCE)オラクルによるポリシーの更新によって成り立たない。 そこで,この手法をマルコフゲームに拡張するために,提案アルゴリズムは,値差が史上最小となる楽観的かつ悲観的な値関数のペアとして参照値関数を更新し,標本効率の向上を期待する鍵となる設計を特徴としている。

The problem of two-player zero-sum Markov games has recently attracted increasing interests in theoretical studies of multi-agent reinforcement learning (RL). In particular, for finite-horizon episodic Markov decision processes (MDPs), it has been shown that model-based algorithms can find an $\epsilon$-optimal Nash Equilibrium (NE) with the sample complexity of $O(H^3SAB/\epsilon^2)$, which is optimal in the dependence of the horizon $H$ and the number of states $S$ (where $A$ and $B$ denote the number of actions of the two players, respectively). However, none of the existing model-free algorithms can achieve such an optimality. In this work, we propose a model-free stage-based Q-learning algorithm and show that it achieves the same sample complexity as the best model-based algorithm, and hence for the first time demonstrate that model-free algorithms can enjoy the same optimality in the $H$ dependence as model-based algorithms. The main improvement of the dependency on $H$ arises by leveraging the popular variance reduction technique based on the reference-advantage decomposition previously used only for single-agent RL. However, such a technique relies on a critical monotonicity property of the value function, which does not hold in Markov games due to the update of the policy via the coarse correlated equilibrium (CCE) oracle. Thus, to extend such a technique to Markov games, our algorithm features a key novel design of updating the reference value functions as the pair of optimistic and pessimistic value functions whose value difference is the smallest in the history in order to achieve the desired improvement in the sample efficiency.
翻訳日:2023-08-21 17:28:12 公開日:2023-08-17
# D-IF:不特定分布場による不確かさを意識した人間のデジタル化

D-IF: Uncertainty-aware Human Digitization via Implicit Distribution Field ( http://arxiv.org/abs/2308.08857v1 )

ライセンス: Link先を確認
Xueting Yang, Yihao Luo, Yuliang Xiu, Wei Wang, Hao Xu, Zhaoxin Fan(参考訳) リアルな仮想人間は、メタバース、インテリジェントヘルスケア、自動運転シミュレーションなど、多くの産業において重要な役割を果たす。 しかし、それらを高いレベルの現実主義で大規模に作ることは、依然として課題である。 深部陰影関数の利用は、画像ベースの3d衣料ヒト再構成の新しい時代を火花とし、細部でピクセル列形状の復元を可能にした。 その後、ほとんどの研究は、各点に対する決定論的暗黙の値を回帰することで、表面を探索する。 しかし、すべての点が表面との距離に関係なく等しく扱われるべきだろうか。 本稿では,暗黙的な値を適応不確実性分布に置き換えて,表面への距離に基づいて点を区別する手法を提案する。 この単純な ``value to distribution'' の遷移は、ほぼすべてのベースラインで大幅な改善をもたらす。 さらに, 不確実性分布損失を用いて訓練したモデルにより, より複雑なしわ, 現実的な手足を捕捉できることを示す。 コードとモデルは、https://github.com/psyai-net/d-if_releaseで研究目的に利用できる。

Realistic virtual humans play a crucial role in numerous industries, such as metaverse, intelligent healthcare, and self-driving simulation. But creating them on a large scale with high levels of realism remains a challenge. The utilization of deep implicit function sparks a new era of image-based 3D clothed human reconstruction, enabling pixel-aligned shape recovery with fine details. Subsequently, the vast majority of works locate the surface by regressing the deterministic implicit value for each point. However, should all points be treated equally regardless of their proximity to the surface? In this paper, we propose replacing the implicit value with an adaptive uncertainty distribution, to differentiate between points based on their distance to the surface. This simple ``value to distribution'' transition yields significant improvements on nearly all the baselines. Furthermore, qualitative results demonstrate that the models trained using our uncertainty distribution loss, can capture more intricate wrinkles, and realistic limbs. Code and models are available for research purposes at https://github.com/psyai-net/D-IF_release.
翻訳日:2023-08-21 17:27:36 公開日:2023-08-17
# MV-ROPE:ロバストカテゴリーレベルのオブジェクトマップとサイズ推定のためのマルチビュー制約

MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation ( http://arxiv.org/abs/2308.08856v1 )

ライセンス: Link先を確認
Jiaqi Yang, Yucong Chen, Xiangting Meng, Chenxin Yan, Min Li, Ran Chen, Lige Liu, Tao Sun, Laurent Kneip(参考訳) RGBに基づくカテゴリレベルの6Dオブジェクトポーズとサイズ推定のための新しいフレームワークを提案する。 我々のアプローチは、RGB画像から抽出できる効率的で効果的なオブジェクト標準表現として機能する正規化オブジェクト座標空間(NOCS)の予測に依存する。 入力として追加の深度読影に大きく依存する従来のアプローチとは異なり、我々の斬新さは、移動カメラが環境を継続的に観察する現実的なシナリオでよく見られるマルチビュー情報を活用することである。 マルチビュー制約を導入することで,単眼高密度slamフレームワークから正確なカメラポーズと深度推定を実現することができる。 さらに、カメラの相対的なポーズに制約を組み込むことで、マルチビューオブジェクトのポーズに対してトリミング戦略とロバストポーズを適用でき、直接深度読影がなくてもカテゴリレベルのポーズをより正確かつ堅牢に推定することができる。 さらに,性能を大幅に向上させるnocs予測ネットワークを提案する。 実験の結果,提案手法の性能は,公開データセット列にまたがる最先端のRGB-D手法と同等であった。 さらに,自己収集データセット上で評価することで,本手法の一般化能力を示す。

We propose a novel framework for RGB-based category-level 6D object pose and size estimation. Our approach relies on the prediction of normalized object coordinate space (NOCS), which serves as an efficient and effective object canonical representation that can be extracted from RGB images. Unlike previous approaches that heavily relied on additional depth readings as input, our novelty lies in leveraging multi-view information, which is commonly available in practical scenarios where a moving camera continuously observes the environment. By introducing multi-view constraints, we can obtain accurate camera pose and depth estimation from a monocular dense SLAM framework. Additionally, by incorporating constraints on the camera relative pose, we can apply trimming strategies and robust pose averaging on the multi-view object poses, resulting in more accurate and robust estimations of category-level object poses even in the absence of direct depth readings. Furthermore, we introduce a novel NOCS prediction network that significantly improves performance. Our experimental results demonstrate the strong performance of our proposed method, even comparable to state-of-the-art RGB-D methods across public dataset sequences. Additionally, we showcase the generalization ability of our method by evaluating it on self-collected datasets.
翻訳日:2023-08-21 17:27:18 公開日:2023-08-17
# ジョイントレベルモデリングによるスパース観測による実物追跡

Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling ( http://arxiv.org/abs/2308.08855v1 )

ライセンス: Link先を確認
Xiaozheng Zheng, Zhuo Su, Chao Wen, Zhou Xue, Xiaojie Jin(参考訳) 3Dフルボディアバターを現実的に駆動する能力は、急速に発達したVR/ARアプリケーションのための物理的および仮想世界を橋渡しする上で非常に重要である。 ヘッドマウントディスプレイ(HMD)とハンドコントローラのみを用いたリアルタイムの身体追跡は過小評価されているが、注意深く設計されたエンドツーエンドのニューラルネットワークは、大規模なモーションデータから学習することで、この問題を解決する大きな可能性を持っている。 そこで本研究では,頭部と手の3つのトラッキング信号のみを用いて,高精度で滑らかな全身動作を実現する2段階フレームワークを提案する。 本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,空間および時間的トランスフォーマーブロックの交互化のための時空間トークンとして利用し,第2段階の関節レベル相関を捉える。 さらに、我々は、高次自由度タスクを制約するための損失項のセットを設計し、共同レベルのモデリングの可能性を利用することができる。 AMASSモーションデータセットと実撮影データに関する広範な実験により,提案手法の有効性を検証し,提案手法が既存手法よりも正確かつ円滑な動作を実現することを示す。

To bridge the physical and virtual worlds for rapidly developed VR/AR applications, the ability to realistically drive 3D full-body avatars is of great significance. Although real-time body tracking with only the head-mounted displays (HMDs) and hand controllers is heavily under-constrained, a carefully designed end-to-end neural network is of great potential to solve the problem by learning from large-scale motion data. To this end, we propose a two-stage framework that can obtain accurate and smooth full-body motions with the three tracking signals of head and hands only. Our framework explicitly models the joint-level features in the first stage and utilizes them as spatiotemporal tokens for alternating spatial and temporal transformer blocks to capture joint-level correlations in the second stage. Furthermore, we design a set of loss terms to constrain the task of a high degree of freedom, such that we can exploit the potential of our joint-level modeling. With extensive experiments on the AMASS motion dataset and real-captured data, we validate the effectiveness of our designs and show our proposed method can achieve more accurate and smooth motion compared to existing approaches.
翻訳日:2023-08-21 17:26:58 公開日:2023-08-17
# 言語強化RNR-Map:自然言語を用いたRenderable Neural Radiance Field Mapの検索

Language-enhanced RNR-Map: Querying Renderable Neural Radiance Field maps with natural language ( http://arxiv.org/abs/2308.08854v1 )

ライセンス: Link先を確認
Francesco Taioli, Federico Cunico, Federico Girella, Riccardo Bologna, Alessandro Farinelli, Marco Cristani(参考訳) 自然言語クエリプロンプトを用いた視覚ナビゲーションのための言語拡張型Renderable Neural Radiance MapであるLe-RNR-Mapを提案する。 最近提案された RNR-Map では,各ピクセルに配置された遅延符号からなるグリッド構造を採用している。 これらの潜在コードは、画像観察から派生したもので、 一 カメラのポーズがニューラルラディアンスフィールドに変換されるため、画像のレンダリング 二 驚くべき精度で画像ナビゲーション及び位置決め これに加えて、CLIPベースの埋め込み遅延コードによりRNR-Mapを強化し、ラベルデータを追加せずに自然言語検索を可能にする。 我々はこの地図の有効性を単目的・多目的探索で評価する。 また,大規模言語モデルとの互換性を「アフォード・クエリ・リゾルバ」として検討する。 コードとビデオはhttps://intelligolabs.github.io/le-rnr-map/で入手できる。

We present Le-RNR-Map, a Language-enhanced Renderable Neural Radiance map for Visual Navigation with natural language query prompts. The recently proposed RNR-Map employs a grid structure comprising latent codes positioned at each pixel. These latent codes, which are derived from image observation, enable: i) image rendering given a camera pose, since they are converted to Neural Radiance Field; ii) image navigation and localization with astonishing accuracy. On top of this, we enhance RNR-Map with CLIP-based embedding latent codes, allowing natural language search without additional label data. We evaluate the effectiveness of this map in single and multi-object searches. We also investigate its compatibility with a Large Language Model as an "affordance query resolver". Code and videos are available at https://intelligolabs.github.io/Le-RNR-Map/
翻訳日:2023-08-21 17:26:21 公開日:2023-08-17
# 胸部X線による長期マルチラベル分類のためのトリックの袋

Bag of Tricks for Long-Tailed Multi-Label Classification on Chest X-Rays ( http://arxiv.org/abs/2308.08853v1 )

ライセンス: Link先を確認
Feng Hong, Tianjie Dai, Jiangchao Yao, Ya Zhang, Yanfeng Wang(参考訳) 胸部x線撮影の臨床分類は、本質的なロングテールとマルチラベルの性質から、標準的な機械学習アルゴリズムでは特に困難である。 しかしながら、クラス不均衡とラベル共起によって引き起こされる、実際のシナリオにおける胸部x線(cxr)の診断を促進する価値を阻害する、結合した課題を考慮に入れる試みはほとんどない。 さらに、事前学習技術の普及に伴い、これらの新しいパラダイムを現在のフレームワークに組み込むには、体系的な研究が欠如している。 ICCV CVAMD 2023 CXR-LT コンペティションにおいて,本ソリューションについて概説する。 我々は,データ拡張,特徴抽出器,分類器設計,損失関数の重み付け,外因性データ補充などの先進的な設計を統合することで,CXR診断の有効性を実証的に検討した。 さらに、簡単なテスト時間データ拡張とアンサンブルにより、性能を向上させる。 私たちのフレームワークは最終的に、競争テストセットで0.349 mAPを獲得し、トップ5にランクインしました。

Clinical classification of chest radiography is particularly challenging for standard machine learning algorithms due to its inherent long-tailed and multi-label nature. However, few attempts take into account the coupled challenges posed by both the class imbalance and label co-occurrence, which hinders their value to boost the diagnosis on chest X-rays (CXRs) in the real-world scenarios. Besides, with the prevalence of pretraining techniques, how to incorporate these new paradigms into the current framework lacks of the systematical study. This technical report presents a brief description of our solution in the ICCV CVAMD 2023 CXR-LT Competition. We empirically explored the effectiveness for CXR diagnosis with the integration of several advanced designs about data augmentation, feature extractor, classifier design, loss function reweighting, exogenous data replenishment, etc. In addition, we improve the performance through simple test-time data augmentation and ensemble. Our framework finally achieves 0.349 mAP on the competition test set, ranking in the top five.
翻訳日:2023-08-21 17:26:02 公開日:2023-08-17
# 効率的なアルゴリズムによる構造的スパーシティを用いたハブグラフィカルラッソモデル学習

Learning the hub graphical Lasso model with the structured sparsity via an efficient algorithm ( http://arxiv.org/abs/2308.08852v1 )

ライセンス: Link先を確認
Chengjing Wang, Peipei Tang, Wenling He, Meixia Lin(参考訳) グラフィカルモデルでは、生物分析からレコメンデーションシステムまで、様々なタスクでその性能を示す。 しかし、ハブノードを持つグラフィカルモデルは、特にデータの次元が大きい場合には、計算上は適合しにくい。 ハブグラフモデルを効率的に推定するために,二相アルゴリズムを提案する。 提案アルゴリズムはまず,乗算器の2つの交互方向法 (ADMM) を用いてよい初期点を生成し,次に半平滑なニュートン法 (SSN) をベースとした拡張ラグランジアン法 (ALM) を温め,実用的なタスクに十分な精度の解を求める。 一般化されたヤコビアンの空間構造は、アルゴリズムが優れた解を非常に効率的に得ることを保証している。 合成データと実データの両方に関する包括的な実験は、既存の最先端アルゴリズムを明らかに上回っていることを示している。 特に、いくつかの高次元タスクでは、実行時間の70\%以上を節約できるが、それでも高品質な見積もりが得られる。

Graphical models have exhibited their performance in numerous tasks ranging from biological analysis to recommender systems. However, graphical models with hub nodes are computationally difficult to fit, particularly when the dimension of the data is large. To efficiently estimate the hub graphical models, we introduce a two-phase algorithm. The proposed algorithm first generates a good initial point via a dual alternating direction method of multipliers (ADMM), and then warm starts a semismooth Newton (SSN) based augmented Lagrangian method (ALM) to compute a solution that is accurate enough for practical tasks. The sparsity structure of the generalized Jacobian ensures that the algorithm can obtain a nice solution very efficiently. Comprehensive experiments on both synthetic data and real data show that it obviously outperforms the existing state-of-the-art algorithms. In particular, in some high dimensional tasks, it can save more than 70\% of the execution time, meanwhile still achieves a high-quality estimation.
翻訳日:2023-08-21 17:25:20 公開日:2023-08-17
# 身体言語認識・生成のための深層マルチモーダル学習に関する研究

A Survey on Deep Multi-modal Learning for Body Language Recognition and Generation ( http://arxiv.org/abs/2308.08849v1 )

ライセンス: Link先を確認
Li Liu, Lufei Gao, Wentao Lei, Fengji Ma, Xiaotian Lin, Jinting Wang(参考訳) ボディランゲージ(Body language, BL)とは、身体の動き、ジェスチャー、表情、姿勢によって表現される非言語コミュニケーションのこと。 話し言葉や書かれた言葉を使わずに、情報、感情、態度、意図を伝えるコミュニケーションの一形態である。 対人対話において重要な役割を担い、言語コミュニケーションを補完し、あるいは覆すことができる。 深層マルチモーダル学習技術は、これらblの多様な側面の理解と分析に有望である。 この調査はBL生成と認識への応用を強調している。 手話(sl)、キュード音声(cs)、共同音声(cos)、トーキングヘッド(th)など、いくつかの共通blが検討されており、分析を行い、これら4つのblの接続を初めて確立した。 それらの生成と認識は、しばしばマルチモーダルアプローチを含む。 bl研究のためのベンチマークデータセットは、これらのデータセット上のsomaメソッドの評価とともに、収集され、整理される。 この調査は、限定ラベル付きデータ、マルチモーダルラーニング、未知の話者や言語にモデルを一般化するためのドメイン適応の必要性といった課題を強調している。 今後の研究の方向性として,自己指導型学習手法の探求,他のモダリティからの文脈情報の統合,大規模事前学習型マルチモーダルモデルの利用などがあげられる。 本研究は,様々なbl世代と認識を対象とした深層マルチモーダル学習の包括的理解を初めて提供する。 進歩、挑戦、今後の方向性を分析することで、この分野を進める研究者や実践者にとって貴重な資源となる。 さらに我々は、BL認識と生成のための深層マルチモーダル学習のための紙リストを継続的に更新している。

Body language (BL) refers to the non-verbal communication expressed through physical movements, gestures, facial expressions, and postures. It is a form of communication that conveys information, emotions, attitudes, and intentions without the use of spoken or written words. It plays a crucial role in interpersonal interactions and can complement or even override verbal communication. Deep multi-modal learning techniques have shown promise in understanding and analyzing these diverse aspects of BL. The survey emphasizes their applications to BL generation and recognition. Several common BLs are considered i.e., Sign Language (SL), Cued Speech (CS), Co-speech (CoS), and Talking Head (TH), and we have conducted an analysis and established the connections among these four BL for the first time. Their generation and recognition often involve multi-modal approaches. Benchmark datasets for BL research are well collected and organized, along with the evaluation of SOTA methods on these datasets. The survey highlights challenges such as limited labeled data, multi-modal learning, and the need for domain adaptation to generalize models to unseen speakers or languages. Future research directions are presented, including exploring self-supervised learning techniques, integrating contextual information from other modalities, and exploiting large-scale pre-trained multi-modal models. In summary, this survey paper provides a comprehensive understanding of deep multi-modal learning for various BL generations and recognitions for the first time. By analyzing advancements, challenges, and future directions, it serves as a valuable resource for researchers and practitioners in advancing this field. n addition, we maintain a continuously updated paper list for deep multi-modal learning for BL recognition and generation: https://github.com/wentaoL86/awesome-body-language.
翻訳日:2023-08-21 17:24:51 公開日:2023-08-17
# U字型並列スプリット学習のための最適資源配分

Optimal Resource Allocation for U-Shaped Parallel Split Learning ( http://arxiv.org/abs/2308.08896v1 )

ライセンス: Link先を確認
Song Lyu, Zheng Lin, Guanqiao Qu, Xianhao Chen, Xiaoxia Huang, and Pan Li(参考訳) Split Learning(SL)は、データ所有者の生データサンプルを明らかにすることなく、モデルトレーニングのための有望なアプローチとして登場した。 しかし、従来のSLは必然的にラベルのプライバシをリークし、(最後のレイヤを持つ)テールモデルがサーバに置かれるべきである。 この制限を克服するために、有望な解決策の1つは、u字型アーキテクチャを使用して、初期層と最後の層の両方をユーザー側に残すことである。 本稿では,新しい並列u字型分割学習法を開発し,エッジネットワークの性能向上のための最適資源最適化手法を考案する。 提案フレームワークでは,複数のユーザがSL用のエッジサーバと通信する。 学習過程における各クライアントのエンドツーエンド遅延を分析し, LSCRAと呼ばれる効率的な資源割当アルゴリズムを設計し, 最適計算資源割当と分割層を求める。 実験の結果,ラベルのプライバシを保ちながら,LSCRAの有効性と,他のSLベースラインと同様の性能が得られることがわかった。 インデックス用語:U字型ネットワーク、分割学習、ラベルプライバシ、リソース割り当て、5G/6Gエッジネットワーク。

Split learning (SL) has emerged as a promising approach for model training without revealing the raw data samples from the data owners. However, traditional SL inevitably leaks label privacy as the tail model (with the last layers) should be placed on the server. To overcome this limitation, one promising solution is to utilize U-shaped architecture to leave both early layers and last layers on the user side. In this paper, we develop a novel parallel U-shaped split learning and devise the optimal resource optimization scheme to improve the performance of edge networks. In the proposed framework, multiple users communicate with an edge server for SL. We analyze the end-to-end delay of each client during the training process and design an efficient resource allocation algorithm, called LSCRA, which finds the optimal computing resource allocation and split layers. Our experimental results show the effectiveness of LSCRA and that U-shaped PSL can achieve a similar performance with other SL baselines while preserving label privacy. Index Terms: U-shaped network, split learning, label privacy, resource allocation, 5G/6G edge networks.
翻訳日:2023-08-21 17:16:59 公開日:2023-08-17
# 直接ディジタル合成による位相感度2量子ゲートの特性評価とベンチマーク

Characterization and benchmarking of a phase-sensitive two-qubit gate using direct digital synthesis ( http://arxiv.org/abs/2308.08893v1 )

ライセンス: Link先を確認
Mats O. Thol\'en, Riccardo Borgani, Christian Kri\v{z}an, Jonas Bylander, David B. Haviland(参考訳) フラックス可変カプラを用いた2つのトランスモンキュービットを持つiSWAPゲートを実装した。 量子系をスケールアップするための有望な手法である直接デジタル合成(dds)を用いて、量子ビット制御パルスとパラメトリックカップラドライブの相対位相の精密な制御を実現する。 我々は、iSWAPゲートをチューニングし、ベンチマークするプロセスについて述べ、そこでは、パルスの相対位相をソフトウェアを介して制御する。 290 nsのiswapゲートを実行し,量子状態トモグラフィを用いて検証し,インターリーブされたランダム化ベンチマークを用いて2\%の誤差を測定した。

We implement an iSWAP gate with two transmon qubits using a flux-tunable coupler. Precise control of the relative phase of the qubit-control pulses and the parametric-coupler drive is achieved with a multi-channel instrument called Presto using direct digital synthesis (DDS), a promising technique for scaling up quantum systems. We describe the process of tuning and benchmarking the iSWAP gate, where the relative phase of the pulses is controlled via software. We perform the iSWAP gate in 290 ns, validate it with quantum-state tomography, and measure 2\% error with interleaved randomized benchmarking.
翻訳日:2023-08-21 17:16:40 公開日:2023-08-17
# 長寿命量子メモリによる101km光ファイバーの原子-光子絡み合い

Long-lived quantum memory enabling atom-photon entanglement over 101 km telecom fiber ( http://arxiv.org/abs/2308.08892v1 )

ライセンス: Link先を確認
Yiru Zhou, Pooja Malik, Florian Fertig, Matthias Bock, Tobias Bauer, Tim van Leent, Wei Zhang, Christoph Becher, Harald Weinfurter(参考訳) 長距離絡み合い分布は、セキュアな通信や分散量子コンピューティングなどの応用を可能にする量子ネットワークの鍵となるタスクである。 本稿では, 1 つの ^{87}$Rb 原子と長い光ファイバー上の 1 つの光子との絡み合いを拡大する新たな展開について報告する。 このような繊維を介して長い飛行時間に高い忠実性を維持するために、長寿命のクビット符号化を適用することにより、単一原子のコヒーレンス時間を7msに延長する。 さらに、光子の波長を偏光保存量子周波数変換によって通信Sバンドに変換することにより、ファイバーの減衰を最小化する。 これにより、70.8$\pm$2.4%以上の忠実度で101kmの光ファイバを通過した後、原子量子メモリと放出光子の絡み合いを観測できる。 しかし、原子や光子のコヒーレンスが失われて忠実度が低下することはなくなったが、検出器の暗黒数よりも現在の設定では、我々のプラットフォームが都市間の量子ネットワークリンクを実現するのに適していることを示している。

Long-distance entanglement distribution is the key task for quantum networks, enabling applications such as secure communication and distributed quantum computing. Here we report on novel developments extending the reach for sharing entanglement between a single $^{87}$Rb atom and a single photon over long optical fibers. To maintain a high fidelity during the long flight times through such fibers, the coherence time of the single atom is prolonged to 7 ms by applying a long-lived qubit encoding. In addition, the attenuation in the fibers is minimized by converting the photon's wavelength to the telecom S-Band via polarization-preserving quantum frequency conversion. This enables to observe entanglement between the atomic quantum memory and the emitted photon after passing 101 km of optical fiber with a fidelity better than 70.8$\pm$2.4%. The fidelity, however, is no longer reduced due to loss of coherence of the atom or photon but in the current setup rather due to detector dark counts, showing the suitability of our platform to realize city-to-city scale quantum network links.
翻訳日:2023-08-21 17:16:28 公開日:2023-08-17
# 101kmの光ファイバー上の多モードイオン光子絡み合い

Multimode ion-photon entanglement over 101 kilometers of optical fiber ( http://arxiv.org/abs/2308.08891v1 )

ライセンス: Link先を確認
V. Krutyanskiy, M. Canteri, M. Meraner, V. Krcmarsky, B. P. Lanyon(参考訳) トラップされた原子イオンに基づく3量子量子ネットワークノードを示す。 ノード内の各量子ビットと101kmの光ファイバーの上を移動した別個の光子との絡み合いを確立する能力を示す。 これらの光子を連続して光ファイバーを通して送ることで、ノード内の1つの量子ビットだけを使用する場合よりも大きなリモート絡み合い率を達成する。 一度より多くの量子ビットに拡張すると、このマルチモードアプローチは将来の光と物質の長距離量子ネットワークにおける絡み合いの分布率を高めるのに役立つ。

A three-qubit quantum network node based on trapped atomic ions is presented. The ability to establish entanglement between each of the qubits in the node and a separate photon that has travelled over a 101km-long optical fiber is demonstrated. By sending those photons through the fiber in close succession, a remote entanglement rate is achieved that is greater than when using only a single qubit in the node. Once extended to more qubits, this multimode approach can be a useful technique to boost entanglement distribution rates in future long-distance quantum networks of light and matter.
翻訳日:2023-08-21 17:16:08 公開日:2023-08-17
# 一般化可能な人物再識別のためのアイデンティティ探索型自己監視表現学習

Identity-Seeking Self-Supervised Representation Learning for Generalizable Person Re-identification ( http://arxiv.org/abs/2308.08887v1 )

ライセンス: Link先を確認
Zhaopeng Dou, Zhongdao Wang, Yali Li, and Shengjin Wang(参考訳) 本稿では,大規模ビデオからドメイン一般化可能な人物再識別(ReID)表現を学習することを目的とする。 従来のDG ReID法では、アノテーションのコストが高いため、ラベル付きデータに制限があるため、さらなる進歩が制限される。 データとアノテーションの障壁を克服するために,大規模な教師なしデータを用いたトレーニングを提案する。 鍵となる問題は、個人情報のマイニング方法だ。 そこで本研究では,ISR(Identity-seeking Self-supervised Representation Learning)法を提案する。 ISRは、最大重み付き二部マッチング問題としてインスタンスアソシエーションをモデル化することにより、フレーム間画像から正のペアを構築する。 さらに、信頼度誘導の対比損失により、ノイズの多い正のペアの悪影響を抑制し、信頼性の高い正のペアが学習プロセスを支配することを保証する。 ISRのトレーニングコストは、データサイズとほぼ直線的にスケールするため、大規模なデータをトレーニングに利用することが可能である。 学習した表現は優れた一般化能力を示す。 isr は market-1501 では 87.0\% ランク-1 を、msmt17} では 56.4\% ランク-1 をそれぞれ 87.0\% を、教師ありドメイン一般化法では .0\% と 19.5\% をそれぞれ上回っている。 事前トレーニングの$\rightarrow$fine-tuningシナリオでは、ISRは最先端のパフォーマンスを達成する。 コードは \url{https://github.com/dcp15/isr_iccv2023_oral}。

This paper aims to learn a domain-generalizable (DG) person re-identification (ReID) representation from large-scale videos \textbf{without any annotation}. Prior DG ReID methods employ limited labeled data for training due to the high cost of annotation, which restricts further advances. To overcome the barriers of data and annotation, we propose to utilize large-scale unsupervised data for training. The key issue lies in how to mine identity information. To this end, we propose an Identity-seeking Self-supervised Representation learning (ISR) method. ISR constructs positive pairs from inter-frame images by modeling the instance association as a maximum-weight bipartite matching problem. A reliability-guided contrastive loss is further presented to suppress the adverse impact of noisy positive pairs, ensuring that reliable positive pairs dominate the learning process. The training cost of ISR scales approximately linearly with the data size, making it feasible to utilize large-scale data for training. The learned representation exhibits superior generalization ability. \textbf{Without human annotation and fine-tuning, ISR achieves 87.0\% Rank-1 on Market-1501 and 56.4\% Rank-1 on MSMT17}, outperforming the best supervised domain-generalizable method by 5.0\% and 19.5\%, respectively. In the pre-training$\rightarrow$fine-tuning scenario, ISR achieves state-of-the-art performance, with 88.4\% Rank-1 on MSMT17. The code is at \url{https://github.com/dcp15/ISR_ICCV2023_Oral}.
翻訳日:2023-08-21 17:15:57 公開日:2023-08-17
# 深層学習のための2重gauss-newton方向

Dual Gauss-Newton Directions for Deep Learning ( http://arxiv.org/abs/2308.08886v1 )

ライセンス: Link先を確認
Vincent Roulet, Mathieu Blondel(参考訳) そこで,gauss-newton様の手法に触発されて,部分線形化の考え方に基づく確率的勾配よりもより良い方向神託を導出するために,凸損失関数と非線形ネットワークの構成という,深層学習対象の構造を活用する利点について検討した。 本研究は,従来の研究から離れて,その2つの定式化による方向オラクルの計算を提案し,計算上の利点と新たな洞察をもたらす。 我々は,既存の最適化アルゴリズムにおいて,確率勾配のドロップイン代替として使用できる降下方向を定義することを実証した。 本稿では, 二重定式化の利点と, このようなオラクルの計算にかかわる計算トレードオフを実証的に検討する。

Inspired by Gauss-Newton-like methods, we study the benefit of leveraging the structure of deep learning objectives, namely, the composition of a convex loss function and of a nonlinear network, in order to derive better direction oracles than stochastic gradients, based on the idea of partial linearization. In a departure from previous works, we propose to compute such direction oracles via their dual formulation, leading to both computational benefits and new insights. We demonstrate that the resulting oracles define descent directions that can be used as a drop-in replacement for stochastic gradients, in existing optimization algorithms. We empirically study the advantage of using the dual formulation as well as the computational trade-offs involved in the computation of such oracles.
翻訳日:2023-08-21 17:15:29 公開日:2023-08-17
# テキストスーパービジョンによる授業映像からのイベントガイドプロシージャ計画

Event-Guided Procedure Planning from Instructional Videos with Text Supervision ( http://arxiv.org/abs/2308.08885v1 )

ライセンス: Link先を確認
An-Lan Wang, Kun-Yu Lin, Jia-Run Du, Jingke Meng, Wei-Shi Zheng(参考訳) そこで本研究では,初期視覚状態を目標視覚状態に変換するためのアクションシーケンスの予測を目的とした,テキスト監督による指導ビデオからのプロシージャ計画の課題に着目した。 この課題の重要な課題は、観察された視覚状態と観測されていない中間動作の間の大きな意味的ギャップである。 具体的には、この意味ギャップは、観察された視覚状態のコンテンツが、ある手順におけるアクションテキストラベルの要素と意味的に異なることを意味する。 このセマンティックギャップを埋めるために,まず観測された状態から事象を推測し,その状態と予測された事象の両方に基づいて行動計画を行う新しいイベント誘導パラダイムを提案する。 私たちのインスピレーションは、インストラクショナルビデオから手順を計画することは、特定のイベントを完了し、特定のイベントは通常、特定のアクションを伴います。 提案手法に基づき,プロシージャ計画を支援するために,イベント情報を逐次モデリングプロセスにエンコードするイベント誘導型プロシージャ計画(e3p)モデルを提案する。 各イベントにおける強力なアクション関連を更に検討するため、e3pでは、関係マイニングにマスク・アンド・予測アプローチを採用し、正規化のための確率的マスキングスキームを取り入れている。 3つのデータセットに対する大規模な実験により,提案モデルの有効性が示された。

In this work, we focus on the task of procedure planning from instructional videos with text supervision, where a model aims to predict an action sequence to transform the initial visual state into the goal visual state. A critical challenge of this task is the large semantic gap between observed visual states and unobserved intermediate actions, which is ignored by previous works. Specifically, this semantic gap refers to that the contents in the observed visual states are semantically different from the elements of some action text labels in a procedure. To bridge this semantic gap, we propose a novel event-guided paradigm, which first infers events from the observed states and then plans out actions based on both the states and predicted events. Our inspiration comes from that planning a procedure from an instructional video is to complete a specific event and a specific event usually involves specific actions. Based on the proposed paradigm, we contribute an Event-guided Prompting-based Procedure Planning (E3P) model, which encodes event information into the sequential modeling process to support procedure planning. To further consider the strong action associations within each event, our E3P adopts a mask-and-predict approach for relation mining, incorporating a probabilistic masking scheme for regularization. Extensive experiments on three datasets demonstrate the effectiveness of our proposed model.
翻訳日:2023-08-21 17:15:14 公開日:2023-08-17
# srmae: スケール不変深部表現のためのマスク画像モデリング

SRMAE: Masked Image Modeling for Scale-Invariant Deep Representations ( http://arxiv.org/abs/2308.08884v1 )

ライセンス: Link先を確認
Zhiming Wang, Lin Gu, Feng Lu(参考訳) 自然画像におけるスケールのばらつきの頻度から,マスクド画像モデリング(MIM)のための自己教師信号として画像スケールを用いることを提案する。 本手法では,入力画像からランダムパッチを選択し,低解像度フォーマットにダウンサンプリングする。 超解像(super- resolution, sr)の最新の進歩を活かして, 低解像の手がかりやパッチから入力を再構成する予測ヘッドを設計した。 400回の事前トレーニングの後、私たちの超分解能マスケオートエンコーダ(SRMAE)はImageNet-1Kタスクで82.1%の精度を得る。 画像スケール信号により、SRMAEはスケール不変の表現をキャプチャできる。 超低解像度(VLR)認識タスクでは、DeriveNetを1.3%上回るパフォーマンスを実現しています。 また,低分解能表情認識タスクにおいて74.84%の精度を達成し,現状のFMDを9.48%超えた。

Due to the prevalence of scale variance in nature images, we propose to use image scale as a self-supervised signal for Masked Image Modeling (MIM). Our method involves selecting random patches from the input image and downsampling them to a low-resolution format. Our framework utilizes the latest advances in super-resolution (SR) to design the prediction head, which reconstructs the input from low-resolution clues and other patches. After 400 epochs of pre-training, our Super Resolution Masked Autoencoders (SRMAE) get an accuracy of 82.1% on the ImageNet-1K task. Image scale signal also allows our SRMAE to capture scale invariance representation. For the very low resolution (VLR) recognition task, our model achieves the best performance, surpassing DeriveNet by 1.3%. Our method also achieves an accuracy of 74.84% on the task of recognizing low-resolution facial expressions, surpassing the current state-of-the-art FMD by 9.48%.
翻訳日:2023-08-21 17:14:52 公開日:2023-08-17
# ビジュアルストーリーテリングのためのテキストオンリートレーニング

Text-Only Training for Visual Storytelling ( http://arxiv.org/abs/2308.08881v1 )

ライセンス: Link先を確認
Yuechen Wang, Wengang Zhou, Zhenbo Lu, Houqiang Li(参考訳) ビジュアルストーリーテリングは、視覚言語アライメントとコヒーレントなストーリー生成の両方を必要とする一連の画像に基づいて物語を生成することを目的としている。 既存のソリューションのほとんどが、主にペアのイメージテキストトレーニングデータに依存しているため、収集にコストがかかり、スケールアップが難しくなります。 そこで本研究では,視覚条件付きストーリー生成問題としてビジュアルストーリーテリングを定式化し,クロスモダリティアライメントとストーリー生成の学習を分離したテキストのみのトレーニング手法を提案する。 本手法では,テキストデータのみにトレーニングされたストーリジェネレータに視覚制御を統合するために,モダリティ事前学習型CLIPモデルを特に活用する。 さらに,大域的および局所的な視覚コンテンツのバランスを保ちつつ,入力画像シーケンスの時間構造を考慮したトレーニングフリーな視覚条件プランナーを開発した。 学習にテキストデータのみを必要とするという特筆すべき利点は,外部のテキストデータから学習し,ビジュアルストーリーテリングの一般化能力を高めることである。 VISTベンチマークで広範な実験を行い、ドメイン内およびドメイン間の両方でアプローチの有効性を示す。 表現の多様性と人的評価に関するさらなる評価は,情報性と頑健性の観点から,本手法の優位性を強調している。

Visual storytelling aims to generate a narrative based on a sequence of images, necessitating both vision-language alignment and coherent story generation. Most existing solutions predominantly depend on paired image-text training data, which can be costly to collect and challenging to scale. To address this, we formulate visual storytelling as a visual-conditioned story generation problem and propose a text-only training method that separates the learning of cross-modality alignment and story generation. Our approach specifically leverages the cross-modality pre-trained CLIP model to integrate visual control into a story generator, trained exclusively on text data. Moreover, we devise a training-free visual condition planner that accounts for the temporal structure of the input image sequence while balancing global and local visual content. The distinctive advantage of requiring only text data for training enables our method to learn from external text story data, enhancing the generalization capability of visual storytelling. We conduct extensive experiments on the VIST benchmark, showcasing the effectiveness of our approach in both in-domain and cross-domain settings. Further evaluations on expression diversity and human assessment underscore the superiority of our method in terms of informativeness and robustness.
翻訳日:2023-08-21 17:14:36 公開日:2023-08-17
# feature enforcing pinn (fe-pinn): 対象タスクの前に基礎となる物理機能を学ぶためのフレームワーク

Feature Enforcing PINN (FE-PINN): A Framework to Learn the Underlying-Physics Features Before Target Task ( http://arxiv.org/abs/2308.08873v1 )

ライセンス: Link先を確認
Mahyar Jahaninasab, Mohamad Ali Bijarchi(参考訳) 本研究では、FE-PINN(Feature Enforcecing Physics Informed Neural Network)と呼ばれる新しいデータフリーフレームワークを紹介する。 このフレームワークは、メイントレーニングループの前に計算コストの低い問題の基本パターンを学習することができる。 偏微分残差と境界条件平均二乗誤差の2項の存在によるバニラPINNの損失関数は不均衡である。 FE-PINNはこの課題を、時間を要するロス関数のハイパーパラメータチューニングではなく、1分間のトレーニングで解決する。 feピンはサブタスクのシーケンスを実行することでこのプロセスを達成する。 最初のサブタスクは、基礎となる物理に関する有用な機能を学ぶ。 そして、モデルが目標タスクを訓練し、計算を洗練させる。 FE-PINNは、シリンダー上の流れ、2次元熱伝導、入口速度を計算する逆問題という3つのベンチマークに適用される。 FE-PINNは、各ケースを15倍、2倍、5倍のスピードで解決できる。 FE-PINNのもう1つの利点は、損失関数の低い値に到達することは体系的に可能であることである。 本研究では,バニラピンに挑戦する1e-5付近で損失値に達することができた。 FE-PINNは、バニラPINNと比較して高い学習率を利用することができるスムーズな収束プロセスも備えている。 このフレームワークは、様々な分野にわたる幅広い偏微分方程式(pdes)を解くための高速で正確なツールとして使うことができる。

In this work, a new data-free framework called Feature Enforcing Physics Informed Neural Network (FE-PINN) is introduced. This framework is capable of learning the underlying pattern of any problem with low computational cost before the main training loop. The loss function of vanilla PINN due to the existence of two terms of partial differential residuals and boundary condition mean squared error is imbalanced. FE-PINN solves this challenge with just one minute of training instead of time-consuming hyperparameter tuning for loss function that can take hours. The FE-PINN accomplishes this process by performing a sequence of sub-tasks. The first sub-task learns useful features about the underlying physics. Then, the model trains on the target task to refine the calculations. FE-PINN is applied to three benchmarks, flow over a cylinder, 2D heat conduction, and an inverse problem of calculating inlet velocity. FE-PINN can solve each case with, 15x, 2x, and 5x speed up accordingly. Another advantage of FE-PINN is that reaching lower order of value for loss function is systematically possible. In this study, it was possible to reach a loss value near 1e-5 which is challenging for vanilla PINN. FE-PINN also has a smooth convergence process which allows for utilizing higher learning rates in comparison to vanilla PINN. This framework can be used as a fast, accurate tool for solving a wide range of Partial Differential Equations (PDEs) across various fields.
翻訳日:2023-08-21 17:14:15 公開日:2023-08-17
# カモフラージュ物体検出のための周波数知覚ネットワーク

Frequency Perception Network for Camouflaged Object Detection ( http://arxiv.org/abs/2308.08924v1 )

ライセンス: Link先を確認
Runmin Cong, Mengyao Sun, Sanyi Zhang, Xiaofei Zhou, Wei Zhang, and Yao Zhao(参考訳) camouflaged object detection(cod)は、周囲の環境に隠されたオブジェクトを正確に検出することを目的としている。 しかし、既存のCOD法は主にRGBドメイン内のカモフラージュされたオブジェクトを特定するが、多くの困難なシナリオにおいてその性能は十分に活用されていない。 カモフラージュされた物体と背景の特徴が周波数領域においてより識別可能であることを考慮し、周波数領域のセマンティック階層によって駆動される学習可能かつ分離可能な周波数知覚機構を提案する。 ネットワーク全体では、周波数誘導粗い局所化ステージと細かな局所化ステージを含む2段階モデルを採用している。 バックボーンによって抽出された多レベル特徴を用いて,オクターブの畳み込みに基づく周波数知覚モジュールの設計を行った。 そこで我々は,事前誘導補正と層間特徴チャネルアソシエーションにより高次特徴を段階的に統合する修正融合モジュールを設計し,それを浅層特徴と組み合わせてキャモフラージュした物体の詳細な補正を行う。 既存のモデルと比較すると,提案手法は定性的かつ定量的に3つの人気のあるベンチマークデータセットで競合性能を実現する。

Camouflaged object detection (COD) aims to accurately detect objects hidden in the surrounding environment. However, the existing COD methods mainly locate camouflaged objects in the RGB domain, their performance has not been fully exploited in many challenging scenarios. Considering that the features of the camouflaged object and the background are more discriminative in the frequency domain, we propose a novel learnable and separable frequency perception mechanism driven by the semantic hierarchy in the frequency domain. Our entire network adopts a two-stage model, including a frequency-guided coarse localization stage and a detail-preserving fine localization stage. With the multi-level features extracted by the backbone, we design a flexible frequency perception module based on octave convolution for coarse positioning. Then, we design the correction fusion module to step-by-step integrate the high-level features through the prior-guided correction and cross-layer feature channel association, and finally combine them with the shallow features to achieve the detailed correction of the camouflaged objects. Compared with the currently existing models, our proposed method achieves competitive performance in three popular benchmark datasets both qualitatively and quantitatively.
翻訳日:2023-08-21 17:07:48 公開日:2023-08-17
# リレーショナル量子力学と一貫性歴史

Relational Quantum Mechanics and Consistent Histories ( http://arxiv.org/abs/2308.08922v1 )

ライセンス: Link先を確認
Calum J. Robson(参考訳) 本稿では,関係量子力学に関する諸問題について論じる。 まず、RQMが測定の文脈性から従うという仮説に固執する前に、その解釈の根底にある可能性のあるオントロジーについて議論する。 次に、一貫性のある履歴形式を用いて、システムに関する情報を異なるオブザーバ間で共有できるかを明らかにする。 最後に、特殊相対性理論とRQMの類似性と相違について論じる。

This paper discusses several issues around Relational Quantum Mechanics. First, I discuss possible ontologies underlying the interpretation, before settling on the hypothesis that RQM follows from contextuality of measurements, due to quantum measurements changing the system measured. I then examine how the consistent histories formalism can be used to clarify which infomation about a system can be shared between different observers. Finally I discuss the similarities and differences between special relativity and RQM.
翻訳日:2023-08-21 17:07:28 公開日:2023-08-17
# evading quantum mechanics \'{a} la sudarshan: koopman-von neumann mechanics の実現としての量子力学フリーサブシステム

Evading Quantum Mechanics \'{a} la Sudarshan: quantum-mechanics-free subsystem as a realization of Koopman-von Neumann mechanics ( http://arxiv.org/abs/2308.08919v1 )

ライセンス: Link先を確認
Zurab K. Silagadze(参考訳) tsangとcavesは2012年に量子メカニクスフリーサブシステムのアイデアを提案した。 我々は、スダルシャンのクープマン・ヴォン・ノイマン力学の視点が量子力学を含まないサブシステムで実現されると主張する。 量子力学のないサブシステムが実験的に実現されているため、クープマンヴォン・ノイマン力学は本質的に工学科学に変換される。

Tsang and Caves suggested the idea of a quantum-mechanics-free subsystem in 2012. We contend that Sudarshan's viewpoint on Koopman-von Neumann mechanics is realized in the quantum-mechanics-free subsystem. Since quantum-mechanics-free subsystems are being experimentally realized, Koopman-von Neumann mechanics is essentially transformed into an engineering science.
翻訳日:2023-08-21 17:07:21 公開日:2023-08-17
# IMM: 自動市場形成のための予測表現学習を用いたイミティブ強化学習手法

IMM: An Imitative Reinforcement Learning Approach with Predictive Representation Learning for Automatic Market Making ( http://arxiv.org/abs/2308.08918v1 )

ライセンス: Link先を確認
Hui Niu, Siyuan Li, Jiahao Zheng, Zhouchi Lin, Jian Li, Jian Guo, Bo An(参考訳) 市場流動性の確保に欠かせない機能のため、市場形成(MM)は金融取引において大きな注目を集めている。 シーケンシャルな意思決定における強力な能力により、強化学習(RL)技術は量的取引において顕著な成功を収めた。 それにもかかわらず、既存のRLベースのMM手法のほとんどは、頻繁な注文キャンセルや待ち行列優先度の喪失で失敗する単価レベル戦略の最適化に重点を置いている。 複数の価格レベルを含む戦略は、実際の取引シナリオに合致する。 しかし、多価レベルの戦略が包括的取引行動空間を伴う複雑さを考えると、利益率の高いRLエージェントをMMのために効果的に訓練することの難しさは持続する。 プロフェッショナルなヒューマン・マーケット・メーカーの効率的なワークフローに触発され、最適信号に基づく専門家の知識と直接政策の相互作用を両立させる新しいRLフレームワークであるImitative Market Maker (IMM)を提案する。 このフレームワークは、複数の価格レベルの注文に関する情報のエンコーディングに適した、効果的な状態とアクション表現の導入から始まる。 さらに、IDMは、短期および長期の市場動向を把握し、有害選択リスクを軽減できる表現学習ユニットを統合する。 その後、IMMは信号に基づいて専門家戦略を定式化し、RLと模倣学習技術の統合を通じてエージェントを訓練し、効率的な学習をもたらす。 4つの実世界の市場データセットの大規模な実験結果から、IMMはいくつかの財務基準で現在のRLベースの市場形成戦略より優れていることが示された。 アブレーション研究の結果は,モデル成分の有効性を実証した。

Market making (MM) has attracted significant attention in financial trading owing to its essential function in ensuring market liquidity. With strong capabilities in sequential decision-making, Reinforcement Learning (RL) technology has achieved remarkable success in quantitative trading. Nonetheless, most existing RL-based MM methods focus on optimizing single-price level strategies which fail at frequent order cancellations and loss of queue priority. Strategies involving multiple price levels align better with actual trading scenarios. However, given the complexity that multi-price level strategies involves a comprehensive trading action space, the challenge of effectively training profitable RL agents for MM persists. Inspired by the efficient workflow of professional human market makers, we propose Imitative Market Maker (IMM), a novel RL framework leveraging both knowledge from suboptimal signal-based experts and direct policy interactions to develop multi-price level MM strategies efficiently. The framework start with introducing effective state and action representations adept at encoding information about multi-price level orders. Furthermore, IMM integrates a representation learning unit capable of capturing both short- and long-term market trends to mitigate adverse selection risk. Subsequently, IMM formulates an expert strategy based on signals and trains the agent through the integration of RL and imitation learning techniques, leading to efficient learning. Extensive experimental results on four real-world market datasets demonstrate that IMM outperforms current RL-based market making strategies in terms of several financial criteria. The findings of the ablation study substantiate the effectiveness of the model components.
翻訳日:2023-08-21 17:07:11 公開日:2023-08-17
# Beyond Sharing: 競合を意識した多変量時系列異常検出

Beyond Sharing: Conflict-Aware Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2308.08915v1 )

ライセンス: Link先を確認
Haotian Si, Changhua Pei, Zhihan Li, Yadong Zhao, Jingjing Li, Haiming Zhang, Zulong Diao, Jianhui Li, Gaogang Xie, Dan Pei(参考訳) 大規模キーパフォーマンス指標(KPI)は、ソフトウェアアプリケーションとサービスシステムの信頼性を確保するために、多変量時系列データ(MTS)として監視される。 MTSの異常を正確に検出することは、その後の障害除去に非常に重要である。 異常の不足と手動ラベリングにより、様々な自己監督型MSS異常検出(AD)手法が開発され、全てのメトリクスの回帰目標/損失を包含する全体目標/損失が最適化された。 しかし,本研究では,mtsモデルが異なる損失を被る原因となる指標の回帰目標間の衝突の頻度を明らかにする。 この重要な側面は検出性能に大きく影響するが、既存のアプローチでは見過ごされている。 この問題に対処するために、MMOE(Multi-gate Mixed-of-experts)の設計を模倣して、衝突型多変量KPI異常検出アルゴリズムCADを導入する。 CADは、メトリック間のプロモーションを促進しながら潜在的な競合を軽減するために、それぞれのメトリックに排他的な構造を提供する。 徹底的な調査の結果,バニラMMoEの粗悪な性能は,MTSの定式化と収束の問題に対する入力出力のミスアライメント設定に起因することがわかった。 これらの課題に対処するために,CAD を MTL ベースの MTS AD モデルとして確立した,単純かつ効果的なタスク指向メトリック選択と p&s ゲーティング機構を提案する。 複数の公開データセットの評価によると、CADは3つの公開データセットの平均F1スコア0.943を得る。 私たちのコードはhttps://github.com/dawnvince/MTS_CADでアクセスできます。

Massive key performance indicators (KPIs) are monitored as multivariate time series data (MTS) to ensure the reliability of the software applications and service system. Accurately detecting the abnormality of MTS is very critical for subsequent fault elimination. The scarcity of anomalies and manual labeling has led to the development of various self-supervised MTS anomaly detection (AD) methods, which optimize an overall objective/loss encompassing all metrics' regression objectives/losses. However, our empirical study uncovers the prevalence of conflicts among metrics' regression objectives, causing MTS models to grapple with different losses. This critical aspect significantly impacts detection performance but has been overlooked in existing approaches. To address this problem, by mimicking the design of multi-gate mixture-of-experts (MMoE), we introduce CAD, a Conflict-aware multivariate KPI Anomaly Detection algorithm. CAD offers an exclusive structure for each metric to mitigate potential conflicts while fostering inter-metric promotions. Upon thorough investigation, we find that the poor performance of vanilla MMoE mainly comes from the input-output misalignment settings of MTS formulation and convergence issues arising from expansive tasks. To address these challenges, we propose a straightforward yet effective task-oriented metric selection and p&s (personalized and shared) gating mechanism, which establishes CAD as the first practicable multi-task learning (MTL) based MTS AD model. Evaluations on multiple public datasets reveal that CAD obtains an average F1-score of 0.943 across three public datasets, notably outperforming state-of-the-art methods. Our code is accessible at https://github.com/dawnvince/MTS_CAD.
翻訳日:2023-08-21 17:06:44 公開日:2023-08-17
# 対称変分量子回路構築のためのボトムアップ手法

A Bottom-up Approach to Constructing Symmetric Variational Quantum Circuits ( http://arxiv.org/abs/2308.08912v1 )

ライセンス: Link先を確認
Babatunde M. Ayeni(参考訳) 雑音量子プロセッサの時代において、量子対称性の活用は、変分量子固有ソルバアルゴリズムの重要な部分である試行状態の効率的な作成において非常に有用である。 その利点は、非対称回路よりもコンパクトで、パラマターの数が少なく、ノイズに頑丈な量子回路を構築することである。 表現理論からアイデアを活用することで、対称量子回路を構築する方法を示す。 従来、対称テンソルネットワークを構築するためにテンソルネットワークの分野で同様の考えが用いられてきた。 U(1)対称性を持つ系である粒子数保存の特定の場合に焦点を当てる。 U(1)の表現理論に基づいて、量子化学、物質科学、凝縮物質物理学などのフェルミオン系のためのハードウェア効率の高い量子回路を構築するのによく用いられる粒子保存交換ゲートの導出方法を示す。 我々はハイゼンベルクxxzモデルを用いて回路の有効性を検証した。

In the age of noisy quantum processors, the exploitation of quantum symmetries can be quite beneficial in the efficient preparation of trial states, an important part of the variational quantum eigensolver algorithm. The benefits include building quantum circuits which are more compact, with lesser number of paramaters, and more robust to noise, than their non-symmetric counterparts. Leveraging on ideas from representation theory we show how to construct symmetric quantum circuits. Similar ideas have been previously used in the field of tensor networks to construct symmetric tensor networks. We focus on the specific case of particle number conservation, that is systems with U(1) symmetry. Based on the representation theory of U(1), we show how to derive the particle-conserving exchange gates, which are commonly used in constructing hardware-efficient quantum circuits for fermionic systems, like in quantum chemistry, material science, and condensed-matter physics. We tested the effectiveness of our circuits with the Heisenberg XXZ model.
翻訳日:2023-08-21 17:06:15 公開日:2023-08-17
# 古典的ユーザ測定を伴わずに初期状態のみを用いた半量子鍵分布

Semiquantum key distribution using initial states in only one basis without the classical user measuring ( http://arxiv.org/abs/2308.08910v1 )

ライセンス: Link先を確認
Xueying Liang, Xiangfu Zou, Xin Wang, Shenggen Zheng, Zhenbang Rong, Zhiming Huang, Jianfeng Liu, Ying Chen, Jianxiong Wu(参考訳) 資源理論の観点からは、できるだけ少数の量子資源を用いて同じ量子タスクを達成することが興味深い。 semiquantum key distribution (sqkd) 量子ユーザがクビットの用意と操作を行う古典的ユーザと秘密鍵を共有することができることは、この問題を研究する上で重要な例である。 利用者が使用する量子リソースを更に制限するため,本論文では,量子ユーザによる量子状態の用意を1分で制限する最初のsqkdプロトコルを構築し,古典的ユーザの測定能力を除去した。 さらに,漸近的シナリオにおける誤り率の鍵レート表現を導出することにより,構築プロトコルが無条件に安全であることを証明した。 この論文は、最小の量子リソースで量子優越性を達成するためのインスピレーションを提供する。

From the perspective of resource theory, it is interesting to achieve the same quantum task using as few quantum resources as possible. Semiquantum key distribution (SQKD), which allows a quantum user to share a confidential key with a classical user who prepares and operates qubits in only one basis, is an important example for studying this issue. To further limit the quantum resources used by users, in this paper, we constructed the first SQKD protocol which restricts the quantum user to prepare quantum states in only one basis and removes the classical user's measurement capability. Furthermore, we prove that the constructed protocol is unconditionally secure by deriving a key rate expression of the error rate in the asymptotic scenario. The work of this paper provides inspiration for achieving quantum superiority with minimal quantum resources.
翻訳日:2023-08-21 17:05:59 公開日:2023-08-17
# フォールトトレランスの進展をクロスプラットフォームで比較するための改良された繰り返しコード

Enhanced repetition codes for the cross-platform comparison of progress towards fault-tolerance ( http://arxiv.org/abs/2308.08909v1 )

ライセンス: Link先を確認
Milan Liepelt, Tommaso Peduzzi, James R. Wootton(参考訳) フォールトトレランスを達成するには、ハードウェアと使用するプロトコルの間に強い関係が必要だ。 したがって、異なるアプローチは当然、進歩をベンチマークするための実証実験を調整する。 それでも、繰り返し符号はクロスプラットフォームの比較を可能にする実験の一般的な基礎となっている。 本稿では,プラットフォーム間の互換性を維持しつつ,繰り返しコード実験を拡張し,改良する手法を提案する。 また、論理誤差率の単純な計算よりも詳細な知見を提供する新しい解析手法についても検討する。

Achieving fault-tolerance will require a strong relationship between the hardware and the protocols used. Different approaches will therefore naturally have tailored proof-of-principle experiments to benchmark progress. Nevertheless, repetition codes have become a commonly used basis of experiments that allow cross-platform comparisons. Here we propose methods by which repetition code experiments can be expanded and improved, while retaining cross-platform compatibility. We also consider novel methods of analyzing the results, which offer more detailed insights than simple calculation of the logical error rate.
翻訳日:2023-08-21 17:05:44 公開日:2023-08-17
# ランダム化平滑化による深層学習型マルウェア検出装置の敵攻撃対策

Towards a Practical Defense against Adversarial Attacks on Deep Learning-based Malware Detectors via Randomized Smoothing ( http://arxiv.org/abs/2308.08906v1 )

ライセンス: Link先を確認
Daniel Gibert, Giulio Zizzo, Quan Le(参考訳) ディープラーニング(DL)に基づくマルウェア検出装置は、検出を避けるために意図的に操作されたマルウェア例、すなわち敵のマルウェア例に感受性があることが示されている。 より具体的には、ディープラーニング検出器は入力ファイルの小さな変更に弱いことが示されている。 ディープラーニング検出装置の脆弱性を考えると,ランダムな平滑化に触発された敵のマルウェアに対する実用的な防御法を提案する。 本研究では,入力のランダム化においてガウスノイズやラプラスノイズを使わずに,実行ファイル内のバイトのパーセンテージを識別するランダム化アブレーションに基づく平滑化手法を提案する。 トレーニング中、ランダム化アブレーションに基づく平滑化スキームは、実行ファイルのアブレーションバージョンに基づいてベース分類器を訓練する。 テスト時には、与えられた入力実行ファイルの最終分類を、元の実行ファイルの短縮バージョンのセット上の分類器によって最も一般的に予測されるクラスとみなす。 本手法の適合性を実証するため,BODMASデータセットに対する様々な最先端の回避攻撃に対するアブレーションモデルの有効性を実証的に評価した。 その結果,非スムース型分類器と比較して,悪意のあるマルウェア例に対するロバスト性と一般化能力が向上した。

Malware detectors based on deep learning (DL) have been shown to be susceptible to malware examples that have been deliberately manipulated in order to evade detection, a.k.a. adversarial malware examples. More specifically, it has been show that deep learning detectors are vulnerable to small changes on the input file. Given this vulnerability of deep learning detectors, we propose a practical defense against adversarial malware examples inspired by randomized smoothing. In our work, instead of employing Gaussian or Laplace noise when randomizing inputs, we propose a randomized ablation-based smoothing scheme that ablates a percentage of the bytes within an executable. During training, our randomized ablation-based smoothing scheme trains a base classifier based on ablated versions of the executable files. At test time, the final classification for a given input executable is taken as the class most commonly predicted by the classifier on a set of ablated versions of the original executable. To demonstrate the suitability of our approach we have empirically evaluated the proposed ablation-based model against various state-of-the-art evasion attacks on the BODMAS dataset. Results show greater robustness and generalization capabilities to adversarial malware examples in comparison to a non-smoothed classifier.
翻訳日:2023-08-21 17:05:37 公開日:2023-08-17
# 痛みに対する知識グラフ埋め込みモデルの開発

Development of a Knowledge Graph Embeddings Model for Pain ( http://arxiv.org/abs/2308.08904v1 )

ライセンス: Link先を確認
Jaya Chaturvedi, Tao Wang, Sumithra Velupillai, Robert Stewart, Angus Roberts(参考訳) 痛みは、痛みを引き起こす可能性のある障害、痛みを和らげる可能性のある薬など、他の概念と結びつく複雑な概念である。 個人または集団で経験される痛みの文脈を十分に理解するには、痛みと痛みの関係に関するすべての概念を調べる必要があるかもしれない。 これは、電子健康記録に記録された痛みをモデル化する際に特に有用である。 知識グラフは、相互接続ネットワークによる概念とその関係を表現し、意味論的および文脈的推論を計算的に抽出可能な形で実現する。 しかし、これらのグラフは効率的な計算には大きすぎる。 知識グラフ埋め込みは、低次元ベクトル空間におけるグラフを表現することによって、この問題を解決するのに役立つ。 これらの埋め込みは、分類やリンク予測のような様々な下流タスクで使用できる。 このような知識グラフを構築するために必要な痛みに関連する様々な関係は、医学用語の階層的な体系的命名法であるSNOMED CTのような外部医療知識ベースから得ることができる。 この方法で構築された知識グラフは、実際の痛みの例と、電子健康記録から抽出されたその関係によってさらに豊かになる可能性がある。 本稿では,精神保健医療記録の構造化されていないテキストから抽出した痛覚概念を埋め込んだ知識グラフの構築と,SNOMED CTで記述した関係から作成された外部知識と,対象物リンク予測タスクにおける評価について述べる。 モデルの性能は他のベースラインモデルと比較された。

Pain is a complex concept that can interconnect with other concepts such as a disorder that might cause pain, a medication that might relieve pain, and so on. To fully understand the context of pain experienced by either an individual or across a population, we may need to examine all concepts related to pain and the relationships between them. This is especially useful when modeling pain that has been recorded in electronic health records. Knowledge graphs represent concepts and their relations by an interlinked network, enabling semantic and context-based reasoning in a computationally tractable form. These graphs can, however, be too large for efficient computation. Knowledge graph embeddings help to resolve this by representing the graphs in a low-dimensional vector space. These embeddings can then be used in various downstream tasks such as classification and link prediction. The various relations associated with pain which are required to construct such a knowledge graph can be obtained from external medical knowledge bases such as SNOMED CT, a hierarchical systematic nomenclature of medical terms. A knowledge graph built in this way could be further enriched with real-world examples of pain and its relations extracted from electronic health records. This paper describes the construction of such knowledge graph embedding models of pain concepts, extracted from the unstructured text of mental health electronic health records, combined with external knowledge created from relations described in SNOMED CT, and their evaluation on a subject-object link prediction task. The performance of the models was compared with other baseline models.
翻訳日:2023-08-21 17:05:18 公開日:2023-08-17
# タブラルデータのための解釈可能なグラフニューラルネットワーク

Interpretable Graph Neural Networks for Tabular Data ( http://arxiv.org/abs/2308.08945v1 )

ライセンス: Link先を確認
Amr Alkhatib, Sofiane Ennadir, Henrik Bostr\"om, Michalis Vazirgiannis(参考訳) 表形式のデータは現実世界のアプリケーションで頻繁に発生する。 グラフニューラルネットワーク(gnns)は、このようなデータを効果的に処理できるように拡張され、表現学習を通じて特徴的相互作用を捉えることができる。 しかし、これらのアプローチは本質的には深層ニューラルネットワークの形でブラックボックスモデルを生成し、ユーザーはモデル予測の背後にあるロジックに従うことを排除している。 我々はIGNNet (Interpretable Graph Neural Network for tabular data) と呼ばれる手法を提案し、この手法は学習アルゴリズムを制約して解釈可能なモデルを生成し、モデルが元の入力特徴から正確に予測がどのように計算されるかを示す。 IGNNetは、XGBoost、Random Forests、TabNetなど、表層データをターゲットにした最先端の機械学習アルゴリズムと同等のパフォーマンスを示している。 同時に、IGNNetから得られた説明は、追加の計算オーバーヘッドを発生させることなく、機能の真のShapley値に一致していることを示す。

Data in tabular format is frequently occurring in real-world applications. Graph Neural Networks (GNNs) have recently been extended to effectively handle such data, allowing feature interactions to be captured through representation learning. However, these approaches essentially produce black-box models, in the form of deep neural networks, precluding users from following the logic behind the model predictions. We propose an approach, called IGNNet (Interpretable Graph Neural Network for tabular data), which constrains the learning algorithm to produce an interpretable model, where the model shows how the predictions are exactly computed from the original input features. A large-scale empirical investigation is presented, showing that IGNNet is performing on par with state-of-the-art machine-learning algorithms that target tabular data, including XGBoost, Random Forests, and TabNet. At the same time, the results show that the explanations obtained from IGNNet are aligned with the true Shapley values of the features without incurring any additional computational overhead.
翻訳日:2023-08-21 16:57:20 公開日:2023-08-17
# 自己申告型技術的負債に自動的に対処する - どこまであるのか?

Towards Automatically Addressing Self-Admitted Technical Debt: How Far Are We? ( http://arxiv.org/abs/2308.08943v1 )

ライセンス: Link先を確認
Antonio Mastropaolo, Massimiliano Di Penta, Gabriele Bavota(参考訳) ソフトウェアを進化させるとき、組織や個々の開発者は技術的負債を返済するためにかなりの労力を費やさなければなりません。 本稿では,ニューラルベース生成モデルによる技術的負債の自動返済の程度を実験的に検討し,特に事前学習と微調整のための異なる戦略を利用するモデルについて述べる。 595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。 SATDは開発者によって文書化された技術的負債(例えば、コードコメント)のインスタンスを指す。 このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。 具体的には、汎用コード変更の修正、SATD削除、SATD-commentプロンプトチューニングなど、トレーニング目的の異なる組み合わせで事前訓練および微調整を行ったトランスフォーマーを比較する。 また,最近利用可能になったLarge Language Model (LLM)ベースのチャットボットの適用性についても検討した。 その結果、SATDの自動返済は難しい作業であり、テストインスタンスの約2%から8%を自動的に修正できる最良のモデルが、テストインスタンスの試行数によって異なります。 微調整データセット(約5kインスタンス)のサイズが限られているため、モデルの事前トレーニングはパフォーマンス向上に基本的な役割を果たす。 また、SATDを文書化するコメントがモデルへの入力として提供されない場合、SATDを削除する機能は着実に低下する。 最後に,SATD の汎用 LLM は SATD に対する競合的アプローチではないことを発見した。

Upon evolving their software, organizations and individual developers have to spend a substantial effort to pay back technical debt, i.e., the fact that software is released in a shape not as good as it should be, e.g., in terms of functionality, reliability, or maintainability. This paper empirically investigates the extent to which technical debt can be automatically paid back by neural-based generative models, and in particular models exploiting different strategies for pre-training and fine-tuning. We start by extracting a dateset of 5,039 Self-Admitted Technical Debt (SATD) removals from 595 open-source projects. SATD refers to technical debt instances documented (e.g., via code comments) by developers. We use this dataset to experiment with seven different generative deep learning (DL) model configurations. Specifically, we compare transformers pre-trained and fine-tuned with different combinations of training objectives, including the fixing of generic code changes, SATD removals, and SATD-comment prompt tuning. Also, we investigate the applicability in this context of a recently-available Large Language Model (LLM)-based chat bot. Results of our study indicate that the automated repayment of SATD is a challenging task, with the best model we experimented with able to automatically fix ~2% to 8% of test instances, depending on the number of attempts it is allowed to make. Given the limited size of the fine-tuning dataset (~5k instances), the model's pre-training plays a fundamental role in boosting performance. Also, the ability to remove SATD steadily drops if the comment documenting the SATD is not provided as input to the model. Finally, we found general-purpose LLMs to not be a competitive approach for addressing SATD.
翻訳日:2023-08-21 16:56:56 公開日:2023-08-17
# 3dスケルトンに基づく人間の運動予測に役立つ補助タスク

Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction ( http://arxiv.org/abs/2308.08942v1 )

ライセンス: Link先を確認
Chenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Xinchao Wang, Yanfeng Wang(参考訳) 観測された動きからの空間的-時間的依存性の探索は、人間の運動予測の核となる課題の1つである。 従来の手法は主に、時間的および空間的依存関係をモデル化する専用のネットワーク構造に重点を置いている。 本稿では,補助タスクを伴うモデル学習フレームワークを導入することで,新たな方向性を考える。 補助作業では、部分体関節の座標はマスキングまたはノイズ付加によって劣化し、残りの座標に依存する劣化座標を復元することが目的である。 補助作業に取り組むために,不完全で破損した動作データを処理し,空間的-時間的依存性を捉えることで座標回復を実現する補助適応トランスを提案する。 補助作業により、補助適応トランスフォーマーは、身体の座標間のより包括的な空間的-時間的依存関係を捉えるように促進され、より優れた特徴学習に繋がる。 その結果,Human3.6M,CMU Mocap,3DPWデータセットにおける関節位置誤差(MPJPE)当たりの3D平均値の差は,それぞれ7.2%,3.7%,9.4%であった。 また,データ不足事例やノイズの多いデータケースにおいて,本手法がより堅牢であることを示す。 コードはhttps://github.com/MediaBrain-SJTU/AuxFormerで入手できる。

Exploring spatial-temporal dependencies from observed motions is one of the core challenges of human motion prediction. Previous methods mainly focus on dedicated network structures to model the spatial and temporal dependencies. This paper considers a new direction by introducing a model learning framework with auxiliary tasks. In our auxiliary tasks, partial body joints' coordinates are corrupted by either masking or adding noise and the goal is to recover corrupted coordinates depending on the rest coordinates. To work with auxiliary tasks, we propose a novel auxiliary-adapted transformer, which can handle incomplete, corrupted motion data and achieve coordinate recovery via capturing spatial-temporal dependencies. Through auxiliary tasks, the auxiliary-adapted transformer is promoted to capture more comprehensive spatial-temporal dependencies among body joints' coordinates, leading to better feature learning. Extensive experimental results have shown that our method outperforms state-of-the-art methods by remarkable margins of 7.2%, 3.7%, and 9.4% in terms of 3D mean per joint position error (MPJPE) on the Human3.6M, CMU Mocap, and 3DPW datasets, respectively. We also demonstrate that our method is more robust under data missing cases and noisy data cases. Code is available at https://github.com/MediaBrain-SJTU/AuxFormer.
翻訳日:2023-08-21 16:56:29 公開日:2023-08-17
# 低画質夜景画像における看板自動認識

Automatic Signboard Recognition in Low Quality Night Images ( http://arxiv.org/abs/2308.08941v1 )

ライセンス: Link先を確認
Manas Kagde, Priyanka Choudhary, Rishi Joshi and Somnath Dey(参考訳) 運転支援システムと自動運転技術の必須要件は、交通標識の検出と認識のためのロバストなシステムの実装である。 このシステムにより、より高いフレームレートで動作しても、車両は自律的に環境を分析し、移動に関する適切な判断を行うことができる。 しかし、不適切な照明や悪天候で撮影された交通標識画像は、視界が悪く、ぼやけ、消え、損傷している。 そのため、このような状況下での交通標識の認識は本質的に困難となる。 本稿では,低照度,雑音,ぼやけた画像から交通信号を認識することの課題について述べる。 この目的を達成するために、2段階の方法論が採用されている。 最初のステップは、修正されたMIRNetモデルを適用して、拡張された画像を生成することで、トラフィックサイン画像の強化である。 2番目のステップでは、Yolov4モデルは制約のない環境での交通標識を認識する。 提案手法は,Yolov4の低画質画像に対して,mAP@0.5で5.40%向上した。 全体のmAP@0.5の96.75%はGTSRBデータセットで達成されている。 また、幅広いカテゴリのGTSDBデータセットでmAP@0.5を100%達成している。

An essential requirement for driver assistance systems and autonomous driving technology is implementing a robust system for detecting and recognizing traffic signs. This system enables the vehicle to autonomously analyze the environment and make appropriate decisions regarding its movement, even when operating at higher frame rates. However, traffic sign images captured in inadequate lighting and adverse weather conditions are poorly visible, blurred, faded, and damaged. Consequently, the recognition of traffic signs in such circumstances becomes inherently difficult. This paper addressed the challenges of recognizing traffic signs from images captured in low light, noise, and blurriness. To achieve this goal, a two-step methodology has been employed. The first step involves enhancing traffic sign images by applying a modified MIRNet model and producing enhanced images. In the second step, the Yolov4 model recognizes the traffic signs in an unconstrained environment. The proposed method has achieved 5.40% increment in mAP@0.5 for low quality images on Yolov4. The overall mAP@0.5 of 96.75% has been achieved on the GTSRB dataset. It has also attained mAP@0.5 of 100% on the GTSDB dataset for the broad categories, comparable with the state-of-the-art work.
翻訳日:2023-08-21 16:56:05 公開日:2023-08-17
# 不均一データ空間における個々フェアネスとロバストネスの因果的逆摂動

Causal Adversarial Perturbations for Individual Fairness and Robustness in Heterogeneous Data Spaces ( http://arxiv.org/abs/2308.08938v1 )

ライセンス: Link先を確認
Ahmad-Reza Ehyaei, Kiarash Mohammadi, Amir-Hossein Karimi, Samira Samadi, Golnoosh Farnadi(参考訳) 責任あるAIが機械学習アルゴリズムにおいて重要性を増すにつれて、公正性、敵対的堅牢性、因果性といった特性は近年かなりの注目を集めている。 しかし、個々の重要性にもかかわらず、これらの性質を同時に探求し統合する上で重要なギャップが残っている。 本稿では,不均質なデータ空間,特に離散的機密属性を扱う場合において,個々の公平性,敵対的ロバスト性,構造的因果モデルとの関係を検討する新しい手法を提案する。 因果構造モデルとセンシティブな属性を用いて、公正な計量を作成し、個人間の意味的類似性を測定する。 新たな因果対向摂動を導入し, 対向訓練を適用して, 個別の公平性, 因果性, 頑健性を組み合わせた新たな正則化器を作成する。 本手法は,実世界と合成データの両方で評価され,公平性,敵対的ロバスト性,因果意識を同時に示す正確な分類器の実現に有効性を示す。

As responsible AI gains importance in machine learning algorithms, properties such as fairness, adversarial robustness, and causality have received considerable attention in recent years. However, despite their individual significance, there remains a critical gap in simultaneously exploring and integrating these properties. In this paper, we propose a novel approach that examines the relationship between individual fairness, adversarial robustness, and structural causal models in heterogeneous data spaces, particularly when dealing with discrete sensitive attributes. We use causal structural models and sensitive attributes to create a fair metric and apply it to measure semantic similarity among individuals. By introducing a novel causal adversarial perturbation and applying adversarial training, we create a new regularizer that combines individual fairness, causality, and robustness in the classifier. Our method is evaluated on both real-world and synthetic datasets, demonstrating its effectiveness in achieving an accurate classifier that simultaneously exhibits fairness, adversarial robustness, and causal awareness.
翻訳日:2023-08-21 16:55:47 公開日:2023-08-17
# 回帰法による消火期間の推定

Estimating fire Duration using regression methods ( http://arxiv.org/abs/2308.08936v1 )

ライセンス: Link先を確認
Hansong Xiao(参考訳) ワイルドファイア予測問題は通常、計算流体力学(CFD)とセルラーオートマタを含む複雑なグリッドベースの数学的モデルに依存するが、これらの手法は常に計算コストが高く、迅速な決定パターンの提供が困難である。 本稿では,高次計算と時間消費の問題を解決する機械学習に基づくアプローチを提案する。 本稿では、RF(ランダム森林)、KNN、XGBoost回帰モデル、およびCNNやEncoderのような画像ベースによる既知の山火事の消火期間を予測する。 モデル入力は、衛星が提供する景観特徴の地図と、この地域の歴史的火災データに基づいている。 このモデルは、発生した火災データと地形特徴マップでトレーニングされ、同じ領域で最新の実数値でテストされます。 入力を別々に処理して最適な結果を得ることにより、システムは既知の火災の風景画像に基づいて、迅速かつ比較的正確な将来の予測を行うことができる。

Wildfire forecasting problems usually rely on complex grid-based mathematical models, mostly involving Computational fluid dynamics(CFD) and Celluar Automata, but these methods have always been computationally expensive and difficult to deliver a fast decision pattern. In this paper, we provide machine learning based approaches that solve the problem of high computational effort and time consumption. This paper predicts the burning duration of a known wildfire by RF(random forest), KNN, and XGBoost regression models and also image-based, like CNN and Encoder. Model inputs are based on the map of landscape features provided by satellites and the corresponding historical fire data in this area. This model is trained by happened fire data and landform feature maps and tested with the most recent real value in the same area. By processing the input differently to obtain the optimal outcome, the system is able to make fast and relatively accurate future predictions based on landscape images of known fires.
翻訳日:2023-08-21 16:55:30 公開日:2023-08-17
# SDDNet:シャドウ検出のためのスタイル誘導デュアル層ディスタングルネットワーク

SDDNet: Style-guided Dual-layer Disentanglement Network for Shadow Detection ( http://arxiv.org/abs/2308.08935v1 )

ライセンス: Link先を確認
Runmin Cong, Yuchen Guan, Jinpeng Chen, Wei Zhang, Yao Zhao, and Sam Kwong(参考訳) 影検出の大幅な進歩にもかかわらず、現在の手法は背景色の悪影響に苦慮しており、複雑な背景に影が存在する場合の誤りにつながる可能性がある。 人間の視覚システムからインスピレーションを得て,入力シャドウ画像を背景層と影層の合成として扱い,これらの層を独立にモデル化するためのスタイル誘導デュアル層ディスタングルネットワーク(SDDNet)を設計する。 そこで我々は,情報整合性を保ち,再構成制約を通した冗長性を回避するとともに,複数レベルの特徴を影関連および背景関連コンポーネントに分解する機能分離・再結合(FSR)モジュールを考案した。 さらに,スタイルの微分と均一化に着目し,特徴の絡み合いを誘導するシャドウスタイルフィルタ(SSF)モジュールを提案する。 これら2つのモジュールとパイプライン全体のモデルにより、背景色による有害な効果を効果的に最小化し、32FPSのリアルタイム推論速度を持つ3つの公開データセットに対して優れた性能が得られる。

Despite significant progress in shadow detection, current methods still struggle with the adverse impact of background color, which may lead to errors when shadows are present on complex backgrounds. Drawing inspiration from the human visual system, we treat the input shadow image as a composition of a background layer and a shadow layer, and design a Style-guided Dual-layer Disentanglement Network (SDDNet) to model these layers independently. To achieve this, we devise a Feature Separation and Recombination (FSR) module that decomposes multi-level features into shadow-related and background-related components by offering specialized supervision for each component, while preserving information integrity and avoiding redundancy through the reconstruction constraint. Moreover, we propose a Shadow Style Filter (SSF) module to guide the feature disentanglement by focusing on style differentiation and uniformization. With these two modules and our overall pipeline, our model effectively minimizes the detrimental effects of background color, yielding superior performance on three public datasets with a real-time inference speed of 32 FPS.
翻訳日:2023-08-21 16:55:14 公開日:2023-08-17
# 事前学習による分子特性予測におけるデータ不均衡について

On Data Imbalance in Molecular Property Prediction with Pre-training ( http://arxiv.org/abs/2308.08934v1 )

ライセンス: Link先を確認
Limin Wang, Masatoshi Hanai, Toyotaro Suzumura, Shun Takashige, Kenjiro Taura(参考訳) 材料の諸性質の解明と分析は、電池、半導体、触媒、医薬品などの材料の開発において不可欠かつ重要な問題である。 伝統的に、これらの性質は理論計算とシミュレーションによって決定されてきた。 しかし、すべての候補材料に対してそのような計算を行うことは現実的ではない。 近年、理論計算結果のサブセット上で機械学習モデルを訓練し、残りの材料に適用可能なサロゲートモデルを構築するための理論計算と機械学習の組み合わせ法が登場している。 一方、プレトレーニングと呼ばれる手法は、機械学習モデルの精度を向上させるために用いられる。 事前トレーニングでは、対象タスクでモデルをトレーニングする前に、対象タスクとは異なるプレテキストタスクでモデルをトレーニングする。 このプロセスは、入力データの特徴を抽出し、学習プロセスを安定化し、精度を向上させることを目的としている。 しかし、分子特性予測の場合、入力データと特徴の分布には強い不均衡があり、事前学習中に頻繁に発生するデータに対する偏り学習につながる可能性がある。 本研究では,入力データの不均衡に対処する効果的な事前学習手法を提案する。 既存の代表プリトレーニング法であるノードマスキングの損失関数を変更して不均衡を補うことにより,最終精度の向上を目指す。 分子特性予測モデルのベンチマークを用いた実験と評価により,提案した不均衡補償が事前学習および最終予測精度に与える影響を検討した。

Revealing and analyzing the various properties of materials is an essential and critical issue in the development of materials, including batteries, semiconductors, catalysts, and pharmaceuticals. Traditionally, these properties have been determined through theoretical calculations and simulations. However, it is not practical to perform such calculations on every single candidate material. Recently, a combination method of the theoretical calculation and machine learning has emerged, that involves training machine learning models on a subset of theoretical calculation results to construct a surrogate model that can be applied to the remaining materials. On the other hand, a technique called pre-training is used to improve the accuracy of machine learning models. Pre-training involves training the model on pretext task, which is different from the target task, before training the model on the target task. This process aims to extract the input data features, stabilizing the learning process and improving its accuracy. However, in the case of molecular property prediction, there is a strong imbalance in the distribution of input data and features, which may lead to biased learning towards frequently occurring data during pre-training. In this study, we propose an effective pre-training method that addresses the imbalance in input data. We aim to improve the final accuracy by modifying the loss function of the existing representative pre-training method, node masking, to compensate the imbalance. We have investigated and assessed the impact of our proposed imbalance compensation on pre-training and the final prediction accuracy through experiments and evaluations using benchmark of molecular property prediction models.
翻訳日:2023-08-21 16:54:52 公開日:2023-08-17
# RGB-D能動物体検出のための点認識相互作用とCNNによるリファインメントネットワーク

Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2308.08930v1 )

ライセンス: Link先を確認
Runmin Cong, Hongyu Liu, Chen Zhang, Wei Zhang, Feng Zheng, Ran Song, and Sam Kwong(参考訳) RGB画像と深度マップの相補的な情報を統合することで、複雑で困難なシーンに対するSOD(Salient Object Detection)の能力を向上させることができる。 近年、機能抽出とクロスモダリティ相互作用における畳み込みニューラルネットワーク(cnns)の役割は十分に研究されているが、自己モダリティとクロスモダリティのグローバルな長距離依存性のモデル化には未だ不十分である。 そこで我々は,CNN 支援トランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションと CNN 誘導リファインメント(PICR-Net)を用いた新しい RGB-D SOD ネットワークを提案する。 一方,rgbモダリティと深さモダリティとの事前相関を考慮し,注意トリガードクロスモダリティ・ポイント・アウェア・インタラクション(cmpi)モジュールを配置制約と異なるモダリティの特徴的相互作用を探索するために設計した。 一方,変圧器が自然にもたらしたブロック効果やディテール破壊問題を緩和するために,cnnによる改良(cnnr)ユニットの設計を行った。 5つのRGB-D SODデータセットの大規模な実験により、提案ネットワークは定量的および定性的な比較において競合的な結果が得られることが示された。

By integrating complementary information from RGB image and depth map, the ability of salient object detection (SOD) for complex and challenging scenes can be improved. In recent years, the important role of Convolutional Neural Networks (CNNs) in feature extraction and cross-modality interaction has been fully explored, but it is still insufficient in modeling global long-range dependencies of self-modality and cross-modality. To this end, we introduce CNNs-assisted Transformer architecture and propose a novel RGB-D SOD network with Point-aware Interaction and CNN-induced Refinement (PICR-Net). On the one hand, considering the prior correlation between RGB modality and depth modality, an attention-triggered cross-modality point-aware interaction (CmPI) module is designed to explore the feature interaction of different modalities with positional constraints. On the other hand, in order to alleviate the block effect and detail destruction problems brought by the Transformer naturally, we design a CNN-induced refinement (CNNR) unit for content refinement and supplementation. Extensive experiments on five RGB-D SOD datasets show that the proposed network achieves competitive results in both quantitative and qualitative comparisons.
翻訳日:2023-08-21 16:54:33 公開日:2023-08-17
# 対照損失に基づくオフライン手書き署名検証モデルにおけるホワイトボックス偽正逆攻撃法

A White-Box False Positive Adversarial Attack Method on Contrastive Loss-Based Offline Handwritten Signature Verification Models ( http://arxiv.org/abs/2308.08925v1 )

ライセンス: Link先を確認
Zhongliang Guo, Yifei Qian, Ognjen Arandjelovi\'c, Lei Fang(参考訳) 本稿では, 競合的損失に基づくオフライン手書き署名検証モデルに対して, 白箱偽正逆攻撃の課題に取り組む。 本稿では,この攻撃を,密接に関連するが異なる文体間のスタイル伝達として扱う新しい攻撃手法を提案する。 そこで本研究では,原画像と合成画像の埋め込みベクトル間のユークリッド距離を摂動させ,生成画像と原画像との差を小さくすることで最小限の摂動を確保することにより,攻撃成功率を高める2つの新たな損失関数を導入する。 提案手法は,白箱攻撃による逆損失に基づくオフライン手書き署名検証モデルに対する最先端性能を示す。 本稿では,新しい偽陽性攻撃法,新たな2つの損失関数,筆跡スタイルにおける効果的なスタイル転送,ホワイトボックス偽陽性攻撃において他のホワイトボックス攻撃法と比較して優れた性能を示す。

In this paper, we tackle the challenge of white-box false positive adversarial attacks on contrastive loss-based offline handwritten signature verification models. We propose a novel attack method that treats the attack as a style transfer between closely related but distinct writing styles. To guide the generation of deceptive images, we introduce two new loss functions that enhance the attack success rate by perturbing the Euclidean distance between the embedding vectors of the original and synthesized samples, while ensuring minimal perturbations by reducing the difference between the generated image and the original image. Our method demonstrates state-of-the-art performance in white-box attacks on contrastive loss-based offline handwritten signature verification models, as evidenced by our experiments. The key contributions of this paper include a novel false positive attack method, two new loss functions, effective style transfer in handwriting styles, and superior performance in white-box false positive attacks compared to other white-box attack methods.
翻訳日:2023-08-21 16:54:07 公開日:2023-08-17
# 本当に良い文法的誤り訂正の評価

Evaluation of really good grammatical error correction ( http://arxiv.org/abs/2308.08982v1 )

ライセンス: Link先を確認
Robert \"Ostling, Katarina Gillholm, Murathan Kurfal{\i}, Marie Mattson, Mats Wir\'en(参考訳) しかし、実際には文法的誤り訂正(GEC)は文法的誤り検出から流布率の改善まで、様々な目的のモデルを含んでいる。 従来の評価手法では、システムの能力と目的を完全に把握できない。 参照ベースの評価は、参照作成時に生じる様々な修正やバイアスを捉える際の限界に悩まされ、全体のテキスト改善よりも局所的なエラーを修正する傾向にある。 大規模言語モデル(llm)の出現は、これらの評価戦略の欠点をさらに強調し、評価方法論のパラダイムシフトの必要性を強調した。 本研究では,スウェーデン語学習者のテキストのデータセットを用いて,様々なGECシステムの包括的評価を行う。 評価は、確立した評価指標と人間の審査員を用いて行われる。 その結果, GPT-3は, これまでのスウェーデン語の文法的誤り訂正システムよりもはるかに優れており, トレーニングデータの0.11%に過ぎないことがわかった。 また,現在の評価手法は,人間の評価によって明らかになるような望ましくないバイアスを含むことがわかった。 本研究は,gecシステム出力のヒューマン・ポスト・エディティングを用いて,タスクにおけるネイティブレベルのヒューマン・パフォーマンスに達するために必要な変化量を分析し,人間のポスト・エディットに注釈を付したデータセットと,gecシステム出力の文法性,フラレンシー,意味保存の評価を提供する。

Although rarely stated, in practice, Grammatical Error Correction (GEC) encompasses various models with distinct objectives, ranging from grammatical error detection to improving fluency. Traditional evaluation methods fail to fully capture the full range of system capabilities and objectives. Reference-based evaluations suffer from limitations in capturing the wide variety of possible correction and the biases introduced during reference creation and is prone to favor fixing local errors over overall text improvement. The emergence of large language models (LLMs) has further highlighted the shortcomings of these evaluation strategies, emphasizing the need for a paradigm shift in evaluation methodology. In the current study, we perform a comprehensive evaluation of various GEC systems using a recently published dataset of Swedish learner texts. The evaluation is performed using established evaluation metrics as well as human judges. We find that GPT-3 in a few-shot setting by far outperforms previous grammatical error correction systems for Swedish, a language comprising only 0.11% of its training data. We also found that current evaluation methods contain undesirable biases that a human evaluation is able to reveal. We suggest using human post-editing of GEC system outputs to analyze the amount of change required to reach native-level human performance on the task, and provide a dataset annotated with human post-edits and assessments of grammaticality, fluency and meaning preservation of GEC system outputs.
翻訳日:2023-08-21 16:48:11 公開日:2023-08-17
# 産業化社会のデジタル浸透のモデリング 産業化社会のデジタル浸透のモデリングとその後の変容

Modeling Digital Penetration of the Industrialized Society Modeling Digital Penetration of the Industrialized Society and its Ensuing Transfiguration ( http://arxiv.org/abs/2308.08979v1 )

ライセンス: Link先を確認
Johannes Vrana, Ripudaman Singh(参考訳) 第4次産業革命は、デジタル技術が専門分野と社会空間に深く統合され、社会に有意義に奉仕する機会を与えている。 人間は、状況が明らかなときに社会福祉を革新的に改善する能力を持っている。 最初の3つの革命ではそうではなかった。 このように、社会は好意的にライフスタイルの変化を受け入れており、いくつかのネガティブな結果が好ましくない。 第4世代はまだ初期段階なので、もっとうまくコントロールできます。 本稿では, 価値創造, 価値消費, インフラの実現, 必要なスキル, ガバナンスを包括する, 産業生態系の統一モデルを提案する。 このデザイン思考視点は、デジタルトランスフォーメーションの消費者側を含むもので、デジタルトランスフィギュレーション(Digital Transfiguration)と呼ばれる次の大きなライフスタイル変化の舞台となる。 検証と理解の容易さのために、このモデルはよく理解された自動車産業に導かれる。 このモデルは、産業創造と社会消費の両方のデジタル浸透を、いくつかの利害関係者の変革の旅に合わせる形で統合する。

The Fourth Industrial Revolution, ushered by the deeper integration of digital technologies into professional and social spaces, provides an opportunity to meaningfully serve society. Humans have tremendous capability to innovatively improve social well-being when the situation is clear. Which was not the case during the first three revolutions. Thus, society has been accepting lifestyle changes willingly and several negative consequences unwillingly. Since the fourth one is still in its infancy, we can control it better. This paper presents a unified model of the industrialized ecosystem covering value creation, value consumption, enabling infrastructure, required skills, and additional governance. This design thinking viewpoint, which includes the consumer side of digital transformation, sets the stage for the next major lifestyle change, termed Digital Transfiguration. For validation and ease of comprehension, the model draws upon the well-understood automobile industry. This model unifies the digital penetration of both industrial creation and social consumption, in a manner that aligns several stakeholders on their transformation journey.
翻訳日:2023-08-21 16:47:46 公開日:2023-08-17
# バイオハイブリッドシステムにおけるバイオミミクリーギャップの定量化

Quantifying the biomimicry gap in biohybrid systems ( http://arxiv.org/abs/2308.08978v1 )

ライセンス: Link先を確認
Vaios Papaspyros, Guy Theraulaz, Cl\'ement Sire, Francesco Mondada(参考訳) ロボットが動物と相互作用するバイオハイブリッドシステムは、動物の集団行動のメカニズムを探索し特定するための魅力的なツールとなっている。 重要な課題の1つは、シミュレーションから現実への社会的相互作用モデルの移行であり、ロボットを使ってモデリング仮説を検証することである。 この課題は、動物の非現実的な行動応答を誘発するシミュレーションに組み込まれていないロボットのレプリカ、コミュニケーションの手がかり、物理学上の制約によって引き起こされる「生物のギャップ」を橋渡しすることにある。 そこで本研究では,ラミノゼテトラフィッシュ(hemigrammus rhodostomus)のバイオミメティックルアーと,ニューラル・ネットワーク(nn)モデルを用いてバイオミメティックな社会的相互作用を生成する。 魚とロボットルアーからなる生体ハイブリッドペア、本物の魚ペア、そして魚ペアのシミュレーションを用いて実験を行い、生体ハイブリッドシステムは本物の魚ペアを模した高忠実な社会的相互作用を生成できることを実証した。 私たちの分析では 1)lureとnnはシミュレーションや魚のみの実験と比較して実世界の相互作用における最小偏差を維持している。 2)我々のNNはロボットをリアルタイムで効率的に制御し、 3) バイオミミクリーギャップを埋め, 現実的なバイオハイブリッドシステムを確保するためには, 包括的検証が不可欠である。

Biohybrid systems in which robotic lures interact with animals have become compelling tools for probing and identifying the mechanisms underlying collective animal behavior. One key challenge lies in the transfer of social interaction models from simulations to reality, using robotics to validate the modeling hypotheses. This challenge arises in bridging what we term the "biomimicry gap", which is caused by imperfect robotic replicas, communication cues and physics constrains not incorporated in the simulations that may elicit unrealistic behavioral responses in animals. In this work, we used a biomimetic lure of a rummy-nose tetra fish (Hemigrammus rhodostomus) and a neural network (NN) model for generating biomimetic social interactions. Through experiments with a biohybrid pair comprising a fish and the robotic lure, a pair of real fish, and simulations of pairs of fish, we demonstrate that our biohybrid system generates high-fidelity social interactions mirroring those of genuine fish pairs. Our analyses highlight that: 1) the lure and NN maintain minimal deviation in real-world interactions compared to simulations and fish-only experiments, 2) our NN controls the robot efficiently in real-time, and 3) a comprehensive validation is crucial to bridge the biomimicry gap, ensuring realistic biohybrid systems.
翻訳日:2023-08-21 16:47:28 公開日:2023-08-17
# 高次元ノートの強調:GLMとマルチインデックスモデルにおけるSGD学習ダイナミクスのODE

Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on GLMs and multi-index models ( http://arxiv.org/abs/2308.08977v1 )

ライセンス: Link先を確認
Elizabeth Collins-Woodfin, Courtney Paquette, Elliot Paquette, Inbar Seroussi(参考訳) 一般化線形モデルとマルチインデックスモデル(例えば、ロジスティック回帰、位相探索)に適用した場合、高次元極限におけるストリーミング確率勾配勾配(SGD)のダイナミクスを一般的なデータ共分散で解析する。 特に、sgd の決定論的等価性は、リスクやその他の準最適性の測度のような幅広い統計クラスを記述する常微分方程式の系によって示される。 この等価性は、モデルパラメータ数がデータ数に比例して増加するとき、圧倒的な確率で成り立つ。 この枠組みにより,SGDの安定性と収束保証の学習率閾値を得ることができる。 決定論的等価性に加えて、単純化された拡散係数(均質化SGD)を持つSDEを導入し、SGD反復の一般統計のダイナミクスを解析する。 最後に、この理論をいくつかの標準的な例で説明し、その理論に優れた一致する数値シミュレーションを示す。

We analyze the dynamics of streaming stochastic gradient descent (SGD) in the high-dimensional limit when applied to generalized linear models and multi-index models (e.g. logistic regression, phase retrieval) with general data-covariance. In particular, we demonstrate a deterministic equivalent of SGD in the form of a system of ordinary differential equations that describes a wide class of statistics, such as the risk and other measures of sub-optimality. This equivalence holds with overwhelming probability when the model parameter count grows proportionally to the number of data. This framework allows us to obtain learning rate thresholds for stability of SGD as well as convergence guarantees. In addition to the deterministic equivalent, we introduce an SDE with a simplified diffusion coefficient (homogenized SGD) which allows us to analyze the dynamics of general statistics of SGD iterates. Finally, we illustrate this theory on some standard examples and show numerical simulations which give an excellent match to the theory.
翻訳日:2023-08-21 16:47:04 公開日:2023-08-17
# マルチラベル円表現を用いた全スライド画像上の好酸球インスタンスオブジェクトセグメンテーション

Eosinophils Instance Object Segmentation on Whole Slide Imaging Using Multi-label Circle Representation ( http://arxiv.org/abs/2308.08974v1 )

ライセンス: Link先を確認
Yilin Liu, Ruining Deng, Juming Xiong, Regina N Tyree, Hernan Correa, Girish Hiremath, Yaohong Wang, Yuankai Huo(参考訳) 好酸球性食道炎 (EoE) は食道炎を特徴とする慢性再発性疾患である。 EoEの症状には、飲み込み困難、食事の衝撃、胸痛などがあり、これは生活の質に大きな影響を与え、栄養障害、社会的制限、心理的苦痛をもたらす。 eoeの診断は通常、高出力場(hpf)あたりの好酸球(eos)の閾値(15〜20)で行われる。 現在のEosの計数プロセスは、ヒト病理学者にとって資源集約的なプロセスであるため、自動的な方法が望まれている。 サークル表現はCircleSnakeアプローチのような自動インスタンスセルセグメンテーションのためのより正確で、より複雑でない表現として示されている。 しかし、CircleSnakeはシングルラベルモデルとして設計されており、マルチラベルのシナリオに対応できない。 本稿では,Eos上でのサンプルセグメンテーションのためのマルチラベルCircleSnakeモデルを提案する。 これはオリジナルのcirclesnakeモデルを単一ラベル設計からマルチラベルモデルに拡張し、複数のオブジェクトタイプのセグメンテーションを可能にする。 実験の結果, 従来のマスクr-cnnモデルとdeepsnakeモデルと比較して, 好酸球の同定と分節化における平均精度(ap)の点でcirclesnakeモデルの方が優れていることが明らかとなり, eoeのキャラクタリゼーションが向上した。 この自動アプローチは、評価プロセスの合理化とeoe分析の診断精度の向上を約束する。 ソースコードはhttps://github.com/yilinliu610730/eoeで公開されている。

Eosinophilic esophagitis (EoE) is a chronic and relapsing disease characterized by esophageal inflammation. Symptoms of EoE include difficulty swallowing, food impaction, and chest pain which significantly impact the quality of life, resulting in nutritional impairments, social limitations, and psychological distress. The diagnosis of EoE is typically performed with a threshold (15 to 20) of eosinophils (Eos) per high-power field (HPF). Since the current counting process of Eos is a resource-intensive process for human pathologists, automatic methods are desired. Circle representation has been shown as a more precise, yet less complicated, representation for automatic instance cell segmentation such as CircleSnake approach. However, the CircleSnake was designed as a single-label model, which is not able to deal with multi-label scenarios. In this paper, we propose the multi-label CircleSnake model for instance segmentation on Eos. It extends the original CircleSnake model from a single-label design to a multi-label model, allowing segmentation of multiple object types. Experimental results illustrate the CircleSnake model's superiority over the traditional Mask R-CNN model and DeepSnake model in terms of average precision (AP) in identifying and segmenting eosinophils, thereby enabling enhanced characterization of EoE. This automated approach holds promise for streamlining the assessment process and improving diagnostic accuracy in EoE analysis. The source code has been made publicly available at https://github.com/yilinliu610730/EoE.
翻訳日:2023-08-21 16:46:46 公開日:2023-08-17
# ビーム検索:マルチホップ質問応答のための一般エンドツーエンド検索

Beam Retrieval: General End-to-End Retrieval for Multi-Hop Question Answering ( http://arxiv.org/abs/2308.08973v1 )

ライセンス: Link先を確認
Jiahao Zhang, Haiyang Zhang, Dongmei Zhang, Yong Liu and Shen Huang(参考訳) マルチホップQAは、複数の関連するパスを見つけ、複雑な質問に答えるためにステップバイステップの推論を行う。 従来の手法では, 関連する経路を選択するための検索モジュールが開発されていたが, 1段法の性能の制限や, 初期の無関係経路を選択する場合の2段法の故障などにより, 2段法を越えたシナリオの課題に直面した。 本研究では,マルチホップQAのための一般的なエンドツーエンド検索フレームワークであるBeam Retrievalを紹介する。 このアプローチは、各ステップにおける関連する通路の複数の部分的な仮説を維持し、探索空間を拡大し、関連する通路を欠くリスクを減らす。 さらに、ビーム検索は全ホップ間の複合損失を最小限に抑え、エンコーダと2つの分類ヘッドを共同最適化する。 完全QAシステムを構築するために、教師付きリーダーやゼロショットGPT-3.5を組み込む。 実験の結果,Beam Retrieval は MuSiQue-Ans に挑戦するベースラインに比べて50%近く改善され,HotpotQA と 2WikiMultiHopQA のレトリバーを上回っていることがわかった。 Beam Retrievalは高品質なコンテキストを提供することで、教師あり読者が新しい最先端のパフォーマンスを実現し、ゼロショットGPT-3.5のQA性能を大幅に改善する(最大28.8ポイント)。

Multi-hop QA involves finding multiple relevant passages and step-by-step reasoning to answer complex questions. While previous approaches have developed retrieval modules for selecting relevant passages, they face challenges in scenarios beyond two hops, owing to the limited performance of one-step methods and the failure of two-step methods when selecting irrelevant passages in earlier stages. In this work, we introduce Beam Retrieval, a general end-to-end retrieval framework for multi-hop QA. This approach maintains multiple partial hypotheses of relevant passages at each step, expanding the search space and reducing the risk of missing relevant passages. Moreover, Beam Retrieval jointly optimizes an encoder and two classification heads by minimizing the combined loss across all hops. To establish a complete QA system, we incorporate a supervised reader or a zero-shot GPT-3.5. Experimental results demonstrate that Beam Retrieval achieves a nearly 50% improvement compared with baselines on challenging MuSiQue-Ans, and it also surpasses all previous retrievers on HotpotQA and 2WikiMultiHopQA. Providing high-quality context, Beam Retrieval helps our supervised reader achieve new state-of-the-art performance and substantially improves (up to 28.8 points) the QA performance of zero-shot GPT-3.5.
翻訳日:2023-08-21 16:46:21 公開日:2023-08-17
# CONVERT:信頼性向上によるコントラストグラフクラスタリング

CONVERT:Contrastive Graph Clustering with Reliable Augmentation ( http://arxiv.org/abs/2308.08963v1 )

ライセンス: Link先を確認
Xihong Yang, Cheng Tan, Yue Liu, Ke Liang, Siwei Wang, Sihang Zhou, Jun Xia, Stan Z. Li, Xinwang Liu, En Zhu(参考訳) 学習可能なデータ拡張によるグラフノードクラスタリングは、教師なしグラフ学習の分野でホットな研究ポイントである。 既存の手法では,事前定義された拡張のサンプリング分布を学習し,データ駆動拡張を自動的に生成する。 有望なクラスタリング性能は達成されているが、これらの戦略は依然として事前定義された拡張に依存しており、グラフのセマンティクスは容易にドリフトできる。 コントラスト学習のための拡張ビューセマンティクスの信頼性は保証できないため、モデルの性能は制限される。 このような問題に対処するために,信頼オーグメンテイション(COVERT)を用いたContrastiVe Graph ClustEringネットワークを提案する。 具体的には,本手法では,データ拡張を可逆的パーターブ・リカバリネットワークによって処理する。 摂動埋め込みを回復することにより、信頼性の高い意味情報を蒸留する。 さらに、セマンティクスの信頼性をさらに保証するために、摂動と回復を定量化することでネットワークを制約する新たなセマンティクス損失を提案する。 最後に、セマンティックラベルと選択された高信頼クラスタリング擬似ラベルを整列することで、情報をクラスタリングすることでモデルを導くラベルマッチング機構を設計する。 7つのデータセットに関する広範な実験結果から,提案手法の有効性が示された。 https://github.com/xihongyang 1999/CONVERT on GitHubでCONVERTのコードと付録を公開しています。

Contrastive graph node clustering via learnable data augmentation is a hot research spot in the field of unsupervised graph learning. The existing methods learn the sampling distribution of a pre-defined augmentation to generate data-driven augmentations automatically. Although promising clustering performance has been achieved, we observe that these strategies still rely on pre-defined augmentations, the semantics of the augmented graph can easily drift. The reliability of the augmented view semantics for contrastive learning can not be guaranteed, thus limiting the model performance. To address these problems, we propose a novel CONtrastiVe Graph ClustEring network with Reliable AugmenTation (COVERT). Specifically, in our method, the data augmentations are processed by the proposed reversible perturb-recover network. It distills reliable semantic information by recovering the perturbed latent embeddings. Moreover, to further guarantee the reliability of semantics, a novel semantic loss is presented to constrain the network via quantifying the perturbation and recovery. Lastly, a label-matching mechanism is designed to guide the model by clustering information through aligning the semantic labels and the selected high-confidence clustering pseudo labels. Extensive experimental results on seven datasets demonstrate the effectiveness of the proposed method. We release the code and appendix of CONVERT at https://github.com/xihongyang1999/CONVERT on GitHub.
翻訳日:2023-08-21 16:45:58 公開日:2023-08-17
# 特徴帰属評価のための双対的アプローチ

A Dual-Perspective Approach to Evaluating Feature Attribution Methods ( http://arxiv.org/abs/2308.08949v1 )

ライセンス: Link先を確認
Yawei Li, Yang Zhang, Kenji Kawaguchi, Ashkan Khakzar, Bernd Bischl, Mina Rezaei(参考訳) 特徴帰属法は、関連する特徴を識別することでニューラルネットワークの予測を説明する。 しかし、機能帰属を評価するための凝集フレームワークを確立することは依然として課題である。 帰属を評価できる見解はいくつかある。 1つの主要なレンズは、モデルの動き(すなわち忠実さ)に対する摂動特性の影響を観察することである。 有用な洞察を提供する一方で、既存の忠実性評価は、本論文で提示する欠点に苦しむ。 本研究では,直観的特性を明らかにする忠実度パラダイムの2つの新しい視点,すなわち音性と完全性を提案する。 健全性は、どの特徴が真の予測的特徴であるかを評価する一方、完全性は、結果の帰属が予測的特徴をいかによく示すかを調べる。 2つの視点は強固な数学的基礎に基づいており、効率的なアルゴリズムで計算可能な定量的指標を提供する。 これらの指標を主観的帰属法に適用し、特徴帰属法を分析し比較するための新しいレンズを提供する。

Feature attribution methods attempt to explain neural network predictions by identifying relevant features. However, establishing a cohesive framework for assessing feature attribution remains a challenge. There are several views through which we can evaluate attributions. One principal lens is to observe the effect of perturbing attributed features on the model's behavior (i.e., faithfulness). While providing useful insights, existing faithfulness evaluations suffer from shortcomings that we reveal in this paper. In this work, we propose two new perspectives within the faithfulness paradigm that reveal intuitive properties: soundness and completeness. Soundness assesses the degree to which attributed features are truly predictive features, while completeness examines how well the resulting attribution reveals all the predictive features. The two perspectives are based on a firm mathematical foundation and provide quantitative metrics that are computable through efficient algorithms. We apply these metrics to mainstream attribution methods, offering a novel lens through which to analyze and compare feature attribution methods.
翻訳日:2023-08-21 16:45:36 公開日:2023-08-17
# 機械学習による作物収量の予測:フィールドおよびサブフィールドレベルでの入力モダリティとモデルの拡張解析

Predicting Crop Yield With Machine Learning: An Extensive Analysis Of Input Modalities And Models On a Field and sub-field Level ( http://arxiv.org/abs/2308.08948v1 )

ライセンス: Link先を確認
Deepak Pathak, Miro Miranda, Francisco Mena, Cristhian Sanchez, Patrick Helber, Benjamin Bischke, Peter Habelitz, Hiba Najjar, Jayanth Siddamsetty, Diego Arenas, Michaela Vollmer, Marcela Charfuelan, Marlon Nuske, Andreas Dengel(参考訳) 本研究では,時間分解能と空間分解能の異なる複数の入力モードを扱う作物収量予測のための簡易かつ効果的な早期融合手法を提案する。 我々は,高分解能作物収量マップを地上データとして,作物と機械学習モデル非依存手法をサブフィールドレベルで学習する。 我々は、天気、土壌、DEMデータを含む他の相補的なデータを含む入力データにSentinel-2衛星画像を使用する。 提案手法は,グローバルな範囲で利用可能な入力モダリティを用いて,グローバルな拡張性を実現する。 我々は,作物収量予測における入力モダリティの重要性を明確に強調し,入力モダリティの最良の組み合わせが地域,作物,選択モデルに依存することを強調した。

We introduce a simple yet effective early fusion method for crop yield prediction that handles multiple input modalities with different temporal and spatial resolutions. We use high-resolution crop yield maps as ground truth data to train crop and machine learning model agnostic methods at the sub-field level. We use Sentinel-2 satellite imagery as the primary modality for input data with other complementary modalities, including weather, soil, and DEM data. The proposed method uses input modalities available with global coverage, making the framework globally scalable. We explicitly highlight the importance of input modalities for crop yield prediction and emphasize that the best-performing combination of input modalities depends on region, crop, and chosen model.
翻訳日:2023-08-21 16:45:23 公開日:2023-08-17
# ステップを見る: テキストによるローカル画像とシーンの編集

Watch Your Steps: Local Image and Scene Editing by Text Instructions ( http://arxiv.org/abs/2308.08947v1 )

ライセンス: Link先を確認
Ashkan Mirzaei, Tristan Aumentado-Armstrong, Marcus A. Brubaker, Jonathan Kelly, Alex Levinshtein, Konstantinos G. Derpanis, Igor Gilitschenski(参考訳) ノイズ拡散モデルは高品質な画像生成と編集を可能にした。 テキスト命令で暗黙的に所望の編集領域をローカライズする手法を提案する。 InstructPix2Pix (IP2P) を利用して,IP2P予測と命令の有無の相違を識別する。 この不一致を関係写像と呼ぶ。 関連マップは、編集を行うために各ピクセルを変更することの重要性を伝え、修正をガイドするために使用される。 このガイダンスは、無関係なピクセルが不変であることを保証する。 関連地図はさらに,3次元シーンのテキスト誘導編集の質を高めるために,ニューラルラディアンスフィールドの形で用いられている。 フィールドは、トレーニングビューの関連マップに基づいてトレーニングされ、関連フィールドとして表示され、修正すべき3D領域を定義する。 我々は、関連フィールドからレンダリングされた関連マップに導かれたトレーニングビューを反復的に更新する。 本手法は画像編集とNeRF編集の両方で最先端の性能を実現する。 プロジェクトページ: https://ashmrz.github.io/WatchYourSteps/

Denoising diffusion models have enabled high-quality image generation and editing. We present a method to localize the desired edit region implicit in a text instruction. We leverage InstructPix2Pix (IP2P) and identify the discrepancy between IP2P predictions with and without the instruction. This discrepancy is referred to as the relevance map. The relevance map conveys the importance of changing each pixel to achieve the edits, and is used to to guide the modifications. This guidance ensures that the irrelevant pixels remain unchanged. Relevance maps are further used to enhance the quality of text-guided editing of 3D scenes in the form of neural radiance fields. A field is trained on relevance maps of training views, denoted as the relevance field, defining the 3D region within which modifications should be made. We perform iterative updates on the training views guided by rendered relevance maps from the relevance field. Our method achieves state-of-the-art performance on both image and NeRF editing tasks. Project page: https://ashmrz.github.io/WatchYourSteps/
翻訳日:2023-08-21 16:45:07 公開日:2023-08-17
# トレート誘導マージツリーによるマルチフィールド可視化

Multi-field Visualisation via Trait-induced Merge Trees ( http://arxiv.org/abs/2308.09015v1 )

ライセンス: Link先を確認
Jochen Jankowai, Talha Bin Masood, and Ingrid Hotz(参考訳) 本研究では,特徴量集合へのマージツリーの一般化として,テンソル場や多変量データの解析を対象とするトレイト系マージツリーを提案する。 このため、特徴量集合フレームワークで導入された属性空間で定義された特性の概念を用いる。 属性空間における結果の距離場は、トポロジカルデータ解析の入力となる空間領域におけるスカラー場を誘導する。 マージツリーの葉は、定義された特性に最も近い入力データ内のこれらの領域を表し、したがって定義された特徴に最もよく似ている。 従ってマージツリーは,最も関連性の高い,永続的な機能のクエリを可能にする機能階層を形成する。 提案手法は、異なるアスペクトのハイライトを可能にする、ツリーに対する異なるクエリメソッドを含む。 このアプローチのクロスアプリケーション機能を、異なるドメインの3つのケーススタディで実証する。

In this work, we propose trait-based merge trees a generalization of merge trees to feature level sets, targeting the analysis of tensor field or general multi-variate data. For this, we employ the notion of traits defined in attribute space as introduced in the feature level sets framework. The resulting distance field in attribute space induces a scalar field in the spatial domain that serves as input for topological data analysis. The leaves in the merge tree represent those areas in the input data that are closest to the defined trait and thus most closely resemble the defined feature. Hence, the merge tree yields a hierarchy of features that allows for querying the most relevant and persistent features. The presented method includes different query methods for the tree which enable the highlighting of different aspects. We demonstrate the cross-application capabilities of this approach with three case studies from different domains.
翻訳日:2023-08-21 16:36:29 公開日:2023-08-17
# 生理的信号からの教師なしヴァレンス覚醒認識のためのディープシードクラスタリング

Deep-seeded Clustering for Unsupervised Valence-Arousal Emotion Recognition from Physiological Signals ( http://arxiv.org/abs/2308.09013v1 )

ライセンス: Link先を確認
Antoine Dubois, Carlos Lima Azevedo, Sonja Haustein and Bruno Miranda(参考訳) 感情は、意思決定、学習、知覚といった人間の脳の認知過程において重要な役割を果たす。 生理的信号の使用は、より客観的で信頼性が高く、正確な感情認識と機械学習の手法の上昇をもたらすことが示されている。 教師付き学習手法は研究コミュニティの注目を集めてきたが、必要なラベルを集めることの難しさは、大規模なセミ・アンコントロール実験において感情認識を困難にしている。 教師なし手法の探索がますます進んでいるが、準最適信号の特徴選択とラベル識別の課題は教師なし手法の精度と適用性である。 本稿では,生理的・心理的データから感情認識を行うための教師なし深層クラスタフレームワークを提案する。 オープンベンチマークデータセット WESAD での試験では、深いk平均と深いc平均がラッセルの概略モデルの4つの四分項を87%の精度で区別していることが示された。 被験者の主観評価でクラスタをシードすることは、ラベルの必要性を回避するのに役立つ。

Emotions play a significant role in the cognitive processes of the human brain, such as decision making, learning and perception. The use of physiological signals has shown to lead to more objective, reliable and accurate emotion recognition combined with raising machine learning methods. Supervised learning methods have dominated the attention of the research community, but the challenge in collecting needed labels makes emotion recognition difficult in large-scale semi- or uncontrolled experiments. Unsupervised methods are increasingly being explored, however sub-optimal signal feature selection and label identification challenges unsupervised methods' accuracy and applicability. This article proposes an unsupervised deep cluster framework for emotion recognition from physiological and psychological data. Tests on the open benchmark data set WESAD show that deep k-means and deep c-means distinguish the four quadrants of Russell's circumplex model of affect with an overall accuracy of 87%. Seeding the clusters with the subject's subjective assessments helps to circumvent the need for labels.
翻訳日:2023-08-21 16:36:17 公開日:2023-08-17
# FashionLOGO: Fashion Logo Embeddingsのためのマルチモーダル大規模言語モデルの提案

FashionLOGO: Prompting Multimodal Large Language Models for Fashion Logo Embeddings ( http://arxiv.org/abs/2308.09012v1 )

ライセンス: Link先を確認
Yulin Su, Min Yang, Minghui Qiu, Jing Wang, Tao Wang(参考訳) ロゴ埋め込みは、知的財産保護や製品検索といった画像検索や認識を容易にすることで、様々なeコマースアプリケーションにおいて重要な役割を果たす。 しかし、現在の手法はロゴの埋め込みを純粋に視覚的な問題として扱い、現実のシナリオでの性能を制限する可能性がある。 注目すべき問題は、ロゴ画像に埋め込まれたテキスト知識が十分に探求されていないことである。 そこで本研究では,文字知識を補助として,ロゴ埋め込みの堅牢性を向上させる新しい手法を提案する。 MLLM(Multimodal Large Language Models)は、視覚的およびテキスト的理解において顕著な機能を示し、ロゴイメージの理解において貴重な視覚アシスタントとなる可能性がある。 この観察から着想を得た提案手法であるFashionLOGOは,MLLMを用いてファッションロゴの埋め込みを強化することを目的としている。 画像OCR, ブリーフキャプション, 詳細な説明プロンプトを含む3種類のプロンプトをゼロショット設定で生成することで, MLLMがロゴ埋め込みを改善する方法について検討する。 画像埋め込みクエリがテキスト埋め込みから補足知識を自動的に学習できるように,クロス・アテンション・トランスフォーマーを採用している。 計算コストを削減するため、従来の推論パイプラインと同様に、推論段階では画像埋め込みモデルのみを使用します。 実世界の3つのデータセットに関する大規模な実験は、FashionLOGOが一般化された堅牢なロゴ埋め込みを学び、すべてのベンチマークデータセットで最先端のパフォーマンスを達成することを示した。 さらに,MLLMの導入による性能向上を実証するために,包括的アブレーション研究を行った。

Logo embedding plays a crucial role in various e-commerce applications by facilitating image retrieval or recognition, such as intellectual property protection and product search. However, current methods treat logo embedding as a purely visual problem, which may limit their performance in real-world scenarios. A notable issue is that the textual knowledge embedded in logo images has not been adequately explored. Therefore, we propose a novel approach that leverages textual knowledge as an auxiliary to improve the robustness of logo embedding. The emerging Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in both visual and textual understanding and could become valuable visual assistants in understanding logo images. Inspired by this observation, our proposed method, FashionLOGO, aims to utilize MLLMs to enhance fashion logo embedding. We explore how MLLMs can improve logo embedding by prompting them to generate explicit textual knowledge through three types of prompts, including image OCR, brief captions, and detailed descriptions prompts, in a zero-shot setting. We adopt a cross-attention transformer to enable image embedding queries to learn supplementary knowledge from textual embeddings automatically. To reduce computational costs, we only use the image embedding model in the inference stage, similar to traditional inference pipelines. Our extensive experiments on three real-world datasets demonstrate that FashionLOGO learns generalized and robust logo embeddings, achieving state-of-the-art performance in all benchmark datasets. Furthermore, we conduct comprehensive ablation studies to demonstrate the performance improvements resulting from the introduction of MLLMs.
翻訳日:2023-08-21 16:36:02 公開日:2023-08-17
# マルチワークフロープロバンスとデータオブザーバビリティを用いた軽量データ統合を目指して

Towards Lightweight Data Integration using Multi-workflow Provenance and Data Observability ( http://arxiv.org/abs/2308.09004v1 )

ライセンス: Link先を確認
Renan Souza, Tyler J. Skluzacek, Sean R. Wilkinson, Maxim Ziatdinov, Rafael Ferreira da Silva(参考訳) 現代の大規模科学的発見は、ハイパフォーマンスコンピューティング(HPC)マシンやエッジ・ツー・クラウド連続体など、様々なコンピューティング施設をまたいだ多分野の協力を必要とする。 統合データ分析は、特に現在のAI時代において、レスポンシブルAI開発、FAIR、再現性、ユーザステアリングを可能にすることで、科学的発見において重要な役割を果たす。 しかし、科学の異種性は、複数のサポートツール、クロスファクティリティ環境、効率的なHPC実行といった課題を提起する。 データオブザーバビリティ、アダプタシステム設計、証明に基づいて、軽量ランタイムのためのマルチワークフロー統合データ分析のためのアプローチMIDAを提案する。 MIDAは、様々な並列システムや機械学習ツールのデータ観測可能性戦略と適応性手法を定義する。 可観測性では、実行時にドメイン、プロヴァンス、テレメトリデータを統一データベースに統合しながら、インスツルメンテーションを必要とせずにバックグラウンドでのデータフローをインターセプトする。 DaskとMLFlowのデータを統合したエンドツーエンドのマルチワークフロー分析を,最大276GPUを並列に実行する複数の環境で動作する材料科学のための実分散ディープラーニングユースケースで実施する実験を行った。 Summitスーパーコンピュータの1,680個のCPUコア上で,最大10000のタスクを実行するほぼゼロのオーバーヘッドを示す。

Modern large-scale scientific discovery requires multidisciplinary collaboration across diverse computing facilities, including High Performance Computing (HPC) machines and the Edge-to-Cloud continuum. Integrated data analysis plays a crucial role in scientific discovery, especially in the current AI era, by enabling Responsible AI development, FAIR, Reproducibility, and User Steering. However, the heterogeneous nature of science poses challenges such as dealing with multiple supporting tools, cross-facility environments, and efficient HPC execution. Building on data observability, adapter system design, and provenance, we propose MIDA: an approach for lightweight runtime Multi-workflow Integrated Data Analysis. MIDA defines data observability strategies and adaptability methods for various parallel systems and machine learning tools. With observability, it intercepts the dataflows in the background without requiring instrumentation while integrating domain, provenance, and telemetry data at runtime into a unified database ready for user steering queries. We conduct experiments showing end-to-end multi-workflow analysis integrating data from Dask and MLFlow in a real distributed deep learning use case for materials science that runs on multiple environments with up to 276 GPUs in parallel. We show near-zero overhead running up to 100,000 tasks on 1,680 CPU cores on the Summit supercomputer.
翻訳日:2023-08-21 16:35:31 公開日:2023-08-17
# 低エンタングル多体物理学における手法に触発された新しい関数外挿法

A Novel Method of Function Extrapolation Inspired by Techniques in Low-entangled Many-body Physics ( http://arxiv.org/abs/2308.09001v1 )

ライセンス: Link先を確認
Lambert Lin and Steven R White(参考訳) 量子力学に触発された新しい補間アルゴリズムを導入し,線形予測に対する性能評価を行う。 提案手法は,関数値を量子状態にマッピングし,エンタングルメントエントロピーを最小化することで将来の関数値を推定する。 提案手法を線形予測と比較し,ノイズの有無に関わらず,様々な単純関数に対して有効性を示す。 その結果,提案アルゴリズムは線形予測に匹敵する補間を生成でき,鋭い特徴を持つ関数の性能が向上した。

We introduce a novel extrapolation algorithm inspired by quantum mechanics and evaluate its performance against linear prediction. Our method involves mapping function values onto a quantum state and estimating future function values by minimizing entanglement entropy. We demonstrate the effectiveness of our approach on various simple functions, both with and without noise, comparing it to linear prediction. Our results show that the proposed algorithm produces extrapolations comparable to linear prediction, while exhibiting improved performance for functions with sharp features.
翻訳日:2023-08-21 16:35:07 公開日:2023-08-17
# DealMVC:マルチビュークラスタリングのためのデュアルコントラスト校正

DealMVC: Dual Contrastive Calibration for Multi-view Clustering ( http://arxiv.org/abs/2308.09000v1 )

ライセンス: Link先を確認
Xihong Yang, Jiaqi Jin, Siwei Wang, Ke Liang, Yue Liu, Yi Wen, Suyuan Liu, Sihang Zhou, Xinwang Liu, En Zhu(参考訳) 強い視点と一貫性のある情報マイニング能力により、マルチビューコントラストクラスタリングは近年多くの注目を集めている。 しかし,クラスタ化性能のさらなる向上を阻害する,以下の欠点を考察する。 既存のマルチビューモデルは、クロスビューシナリオにおける類似しているが異なるサンプルの状況を無視しながら、異なるビューにおける同じサンプルの一貫性に重点を置いている。 そこで本研究では,マルチビュークラスタリング(DealMVC)のための新しいDualコントラストキャリブレーションネットワークを提案する。 具体的には,まずグローバルクロスビュー機能を得るために融合機構を設計する。 次に、ビュー特徴類似度グラフと高信頼擬似ラベルグラフとを整合させることにより、グローバルコントラスト校正損失を提案する。 さらに,多視点情報の多様性を生かして,一対的視点の特徴の一貫性を制約した局所的なコントラストキャリブレーション損失を提案する。 機能構造は信頼できるクラス情報によって規則化されるため、類似したサンプルが異なるビューで類似した機能を持つことが保証される。 トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。 他の最先端手法と比較して、8つのベンチマークデータセットから得られた総合的な実験結果は、我々のアルゴリズムの有効性と優越性をかなり検証する。 DealMVCのコードはGitHubでhttps://github.com/xihongyang 1999/DealMVCで公開しています。

Benefiting from the strong view-consistent information mining capacity, multi-view contrastive clustering has attracted plenty of attention in recent years. However, we observe the following drawback, which limits the clustering performance from further improvement. The existing multi-view models mainly focus on the consistency of the same samples in different views while ignoring the circumstance of similar but different samples in cross-view scenarios. To solve this problem, we propose a novel Dual contrastive calibration network for Multi-View Clustering (DealMVC). Specifically, we first design a fusion mechanism to obtain a global cross-view feature. Then, a global contrastive calibration loss is proposed by aligning the view feature similarity graph and the high-confidence pseudo-label graph. Moreover, to utilize the diversity of multi-view information, we propose a local contrastive calibration loss to constrain the consistency of pair-wise view features. The feature structure is regularized by reliable class information, thus guaranteeing similar samples have similar features in different views. During the training procedure, the interacted cross-view feature is jointly optimized at both local and global levels. In comparison with other state-of-the-art approaches, the comprehensive experimental results obtained from eight benchmark datasets provide substantial validation of the effectiveness and superiority of our algorithm. We release the code of DealMVC at https://github.com/xihongyang1999/DealMVC on GitHub.
翻訳日:2023-08-21 16:34:58 公開日:2023-08-17
# 言語モデリングのための強化自己学習(rest)

Reinforced Self-Training (ReST) for Language Modeling ( http://arxiv.org/abs/2308.08998v1 )

ライセンス: Link先を確認
Caglar Gulcehre, Tom Le Paine, Srivatsan Srinivasan, Ksenia Konyushkova, Lotte Weerts, Abhishek Sharma, Aditya Siddhant, Alex Ahern, Miaosen Wang, Chenjie Gu, Wolfgang Macherey, Arnaud Doucet, Orhan Firat, Nando de Freitas(参考訳) 人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。 本稿では,再強化自己学習(Reinforced Self-Training, ReST)と呼ばれるバッチ強化学習(RL)に着想を得た,LLMと人間の嗜好を整合させる簡単なアルゴリズムを提案する。 最初のLLMポリシーが与えられた後、ReSTはポリシーからサンプルを生成してデータセットを生成し、オフラインのRLアルゴリズムを使用してLLMポリシーを改善する。 ReSTはトレーニングデータセットがオフラインで生成されるため、通常のオンラインRLHFメソッドよりも効率的です。 ReSTは、すべての生成学習設定に適用可能な一般的なアプローチであるが、機械翻訳への応用に焦点を当てる。 この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。

Reinforcement learning from human feedback (RLHF) can improve the quality of large language model's (LLM) outputs by aligning them with human preferences. We propose a simple algorithm for aligning LLMs with human preferences inspired by growing batch reinforcement learning (RL), which we call Reinforced Self-Training (ReST). Given an initial LLM policy, ReST produces a dataset by generating samples from the policy, which are then used to improve the LLM policy using offline RL algorithms. ReST is more efficient than typical online RLHF methods because the training dataset is produced offline, which allows data reuse. While ReST is a general approach applicable to all generative learning settings, we focus on its application to machine translation. Our results show that ReST can substantially improve translation quality, as measured by automated metrics and human evaluation on machine translation benchmarks in a compute and sample-efficient manner.
翻訳日:2023-08-21 16:34:34 公開日:2023-08-17
# 行動木制御系に対する拡張収束結果

An Extended Convergence Result for Behaviour Tree Controllers ( http://arxiv.org/abs/2308.08994v1 )

ライセンス: Link先を確認
Christopher Iliffe Sprague, Petter \"Ogren(参考訳) 振舞い木(BT)は、木構造を用いた低レベル制御ポリシーの集合から階層的なハイブリッド制御ポリシーを組み立てる最適なモジュラーフレームワークである。 多くのロボットタスクは自然に制御タスクの階層に分解され、モジュラリティは複雑性を扱うツールとしてよく知られている。 本稿では,状態空間の所望の部分に到達するという意味で,btsの収束について検討する。 BTのコンバージェンスに関する初期の結果は、異なる設計原則を用いて作成されたBTの特定のファミリーに合わせることが多かった。 本稿は, 先行研究結果を一般化し, 文献に記載されていない循環切替の新しい事例を含む。

Behavior trees (BTs) are an optimally modular framework to assemble hierarchical hybrid control policies from a set of low-level control policies using a tree structure. Many robotic tasks are naturally decomposed into a hierarchy of control tasks, and modularity is a well-known tool for handling complexity, therefor behavior trees have garnered widespread usage in the robotics community. In this paper, we study the convergence of BTs, in the sense of reaching a desired part of the state space. Earlier results on BT convergence were often tailored to specific families of BTs, created using different design principles. The results of this paper generalize the earlier results and also include new cases of cyclic switching not covered in the literature.
翻訳日:2023-08-21 16:34:17 公開日:2023-08-17
# オブジェクト検出のための意味情報

Semantic Information for Object Detection ( http://arxiv.org/abs/2308.08990v1 )

ライセンス: Link先を確認
Jean-Francois Nies(参考訳) 本稿では,意味的一貫性の概念と知識認識再最適化の手法を,複雑な交通シーンにおける物体検出問題に適用できることを実証する。 さらに,インスタンスレベルのアノテーションを備えた画像のデータセットから知識グラフを抽出する新しい手法を導入し,この知識グラフを既存の意味的一貫性モデルと統合する。 この新たなハイブリッド知識グラフと,既存の周波数解析手法と外部知識グラフを併用して,Faster-RCNNおよびDETRオブジェクト検出モデルにおける知識認識再最適化の有効性を検討する。 この手法をモデルと手法のあらゆる組み合わせに適用することで,精度とリコールの限定的かつ一貫した改善が達成できることがわかった。

In this paper, we demonstrate that the concept of Semantic Consistency and the ensuing method of Knowledge-Aware Re-Optimization can be adapted for the problem of object detection in intricate traffic scenes. Furthermore, we introduce a novel method for extracting a knowledge graph from a dataset of images provided with instance-level annotations, and integrate this new knowledge graph with the existing semantic consistency model. Combining both this novel hybrid knowledge graph and the preexisting methods of frequency analysis and external knowledge graph as sources for semantic information, we investigate the effectiveness of knowledge-aware re-optimization on the Faster-RCNN and DETR object detection models. We find that limited but consistent improvements in precision and or recall can be achieved using this method for all combinations of model and method studied.
翻訳日:2023-08-21 16:34:06 公開日:2023-08-17
# 物理不定形機械学習の一般化のためのニューラルオシレータ

Neural oscillators for generalization of physics-informed machine learning ( http://arxiv.org/abs/2308.08989v1 )

ライセンス: Link先を確認
Taniya Kapoor, Abhishek Chandra, Daniel M. Tartakovsky, Hongrui Wang, Alfredo Nunez, Rolf Dollevoet(参考訳) 物理情報処理機械学習(PIML)の主な課題は、特に偏微分方程式(PDE)で表される複雑な物理問題を扱う場合、トレーニング領域を超えて一般化することである。 本稿では,未探索領域における正確な予測が不可欠である実世界の実践的応用を促進するため,PIMLの一般化能力の向上を目的とする。 我々は,pde解の固有因果性と時間的シーケンシャル特性を利用して,神経発振器と呼ばれる常微分方程式系に基づく反復的神経構造をpimlモデルに融合する。 長時間の依存関係を効果的に捕捉し、爆発的および消滅する勾配問題を緩和することで、ニューラル発振器はPIMLタスクの一般化を促進する。 時間依存非線形PDEとバイハーモニックビーム方程式を含む大規模な実験は,提案手法の有効性を示す。 ニューラル発振器の組み込みは、様々なメトリクスにわたるベンチマーク問題における既存の最先端の手法よりも優れている。 提案手法はPIMLの一般化能力を向上し,トレーニングデータを超えた外挿および予測のための正確な解を提供する。

A primary challenge of physics-informed machine learning (PIML) is its generalization beyond the training domain, especially when dealing with complex physical problems represented by partial differential equations (PDEs). This paper aims to enhance the generalization capabilities of PIML, facilitating practical, real-world applications where accurate predictions in unexplored regions are crucial. We leverage the inherent causality and temporal sequential characteristics of PDE solutions to fuse PIML models with recurrent neural architectures based on systems of ordinary differential equations, referred to as neural oscillators. Through effectively capturing long-time dependencies and mitigating the exploding and vanishing gradient problem, neural oscillators foster improved generalization in PIML tasks. Extensive experimentation involving time-dependent nonlinear PDEs and biharmonic beam equations demonstrates the efficacy of the proposed approach. Incorporating neural oscillators outperforms existing state-of-the-art methods on benchmark problems across various metrics. Consequently, the proposed method improves the generalization capabilities of PIML, providing accurate solutions for extrapolation and prediction beyond the training data.
翻訳日:2023-08-21 16:33:52 公開日:2023-08-17
# MarginMatch: Pseudo-Marginsによる半教師付き学習の改善

MarginMatch: Improving Semi-Supervised Learning with Pseudo-Margins ( http://arxiv.org/abs/2308.09037v1 )

ライセンス: Link先を確認
Tiberiu Sosea, Cornelia Caragea(参考訳) 我々は、一貫性の正規化と擬似ラベル付けを組み合わせた新しいsslアプローチである marginmatch を紹介し、その主な特徴は、擬似ラベル品質を測定するためにラベルなしデータトレーニングダイナミクスを使用することである。 任意のイテレーションでラベルなしの例にモデルの自信だけを使用し、例がマスクされているかどうかを判断する代わりに、マージンマッチは、トレーニングが進むにつれて擬似ラベル付き例のモデルの振る舞いを分析し、低品質の予測をマスクアウトする。 MarginMatchは、4つのビジョンベンチマークを低データレシエーションと2つの大規模データセットで大幅に改善し、高品質な擬似ラベルを強制することの重要性を強調している。 特に,cifar-100では3.25%,クラス毎に25ラベル,stl-10では3.78%のエラー率向上がみられた。 コードはhttps://github.com/tsosea2/MarginMatch.comで公開しています。

We introduce MarginMatch, a new SSL approach combining consistency regularization and pseudo-labeling, with its main novelty arising from the use of unlabeled data training dynamics to measure pseudo-label quality. Instead of using only the model's confidence on an unlabeled example at an arbitrary iteration to decide if the example should be masked or not, MarginMatch also analyzes the behavior of the model on the pseudo-labeled examples as the training progresses, to ensure low quality predictions are masked out. MarginMatch brings substantial improvements on four vision benchmarks in low data regimes and on two large-scale datasets, emphasizing the importance of enforcing high-quality pseudo-labels. Notably, we obtain an improvement in error rate over the state-of-the-art of 3.25% on CIFAR-100 with only 25 labels per class and of 3.78% on STL-10 using as few as 4 labels per class. We make our code available at https://github.com/tsosea2/MarginMatch.
翻訳日:2023-08-21 16:28:00 公開日:2023-08-17
# 3dシーンにおける物理的に有理な人間の動きの合成

Synthesizing Physically Plausible Human Motions in 3D Scenes ( http://arxiv.org/abs/2308.09036v1 )

ライセンス: Link先を確認
Liang Pan, Jingbo Wang, Buzhen Huang, Junyu Zhang, Haofan Wang, Xu Tang, Yangang Wang(参考訳) 3Dシーンで物理的にもっともらしい人間の動きを合成することは難しい問題だ。 運動学に基づく方法は、物理的制約がないため、固有のアーティファクト(例えば、浸透やフットスケート)を避けることができない。 一方、強化学習で訓練されたポリシーはモデリング能力に制限があるため、既存の物理学に基づく手法は多目的シナリオに一般化できない。 本研究では,物理的にシミュレートされたキャラクタが,多様な,散らばった,見えない場面で長時間のインタラクションタスクを実行できるフレームワークを提案する。 重要なアイデアは、人間とシーンのインタラクションを対話とナビゲートという2つの基本的なプロセスに分解することで、再利用可能な2つのコントローラ、すなわちinterconとnavconを構築する動機付けです。 具体的には、interconには2つの補完的なポリシーがあり、文字が対話状態(例えば、椅子に座って立ち上がる)に入ることができる。 異なる場所でのオブジェクトとのインタラクションを生成するために,3Dシーンの自由な空間において文字の移動を保ちながら,後続の方針であるNavConをさらに設計する。 分割・征服戦略により、簡単な環境でポリシーを訓練し、複雑な多目的シーンに一般化することができる。 実験の結果, 複雑な3dシーンにおいて, 物理的に有理な長期動作を合成できることが実証された。 コードはhttps://github.com/liangpan99/intersceneで公開される。

Synthesizing physically plausible human motions in 3D scenes is a challenging problem. Kinematics-based methods cannot avoid inherent artifacts (e.g., penetration and foot skating) due to the lack of physical constraints. Meanwhile, existing physics-based methods cannot generalize to multi-object scenarios since the policy trained with reinforcement learning has limited modeling capacity. In this work, we present a framework that enables physically simulated characters to perform long-term interaction tasks in diverse, cluttered, and unseen scenes. The key idea is to decompose human-scene interactions into two fundamental processes, Interacting and Navigating, which motivates us to construct two reusable Controller, i.e., InterCon and NavCon. Specifically, InterCon contains two complementary policies that enable characters to enter and leave the interacting state (e.g., sitting on a chair and getting up). To generate interaction with objects at different places, we further design NavCon, a trajectory following policy, to keep characters' locomotion in the free space of 3D scenes. Benefiting from the divide and conquer strategy, we can train the policies in simple environments and generalize to complex multi-object scenes. Experimental results demonstrate that our framework can synthesize physically plausible long-term human motions in complex 3D scenes. Code will be publicly released at https://github.com/liangpan99/InterScene.
翻訳日:2023-08-21 16:27:39 公開日:2023-08-17
# 2つのフォトニック量子ビットにおけるほぼ決定論的パリティ射影のプロトコル

Protocol for nearly deterministic parity projection on two photonic qubits ( http://arxiv.org/abs/2308.09035v1 )

ライセンス: Link先を確認
Chenxu Liu, Rafail Frantzeskakis, Sophia E. Economou, Edwin Barnes(参考訳) フォトニックパリティ投影はフォトニック量子情報処理において重要な役割を果たす。 非破壊的なパリティ射影は通常、フォトニックと物質量子ビットの間の高忠実度制御されたZゲートを必要とする。 本稿では,安定な物質光子制御位相ゲートのみを必要とする2つのフォトニック量子ビット上のほぼ決定論的パリティプロジェクションプロトコルを提案する。 我々のプロトコルが完全制御Zゲートを必要としないという事実は、より実験的な実装に適しています。

Photonic parity projection plays a significant role in photonic quantum information processing. Non-destructive parity projections normally require high-fidelity Controlled-Z gates between photonic and matter qubits, which can be experimentally demanding. In this paper, we propose a nearly deterministic parity projection protocol on two photonic qubits which only requires stable matter-photon Controlled-Phase gates. The fact that our protocol does not require perfect Controlled-Z gates makes it more amenable to experimental implementation.
翻訳日:2023-08-21 16:27:14 公開日:2023-08-17
# Uni-NLX:視覚・視覚言語タスクのためのテキスト記述の統合

Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language Tasks ( http://arxiv.org/abs/2308.09033v1 )

ライセンス: Link先を確認
Fawaz Sammani, Nikos Deligiannis(参考訳) 自然言語説明(NLE)は、人間に優しい自然文によるモデルの予測を補うことを目的としている。 既存のNLEアプローチでは、ダウンストリームタスク毎に別々のモデルをトレーニングする。 本研究では,テキスト生成の統一的学習目標を用いて,すべてのNLEタスクを単一かつコンパクトなマルチタスクモデルに統合する統一フレームワークUni-NLXを提案する。 さらに、2つの新しいNLEデータセットを紹介します。 1)imagenetx、imagenetのカテゴリを説明するための144kサンプルのデータセット、 2) VQA-ParaXは,視覚質問応答(VQA)の課題を説明するための123Kサンプルのデータセットである。 両方のデータセットは、大きな言語モデル(LLM)を利用する。 1M組み合わせのNLEサンプルをトレーニングすることにより、VQA、視覚認識、視覚推論タスクを含む7つのNLEタスクを7倍のパラメータで同時に実行し、従来の手法で独立したタスク固有モデルに匹敵する性能を示し、特定のタスクでさらに優れています。 コードはhttps://github.com/fawazsammani/uni-nlxにある。

Natural Language Explanations (NLE) aim at supplementing the prediction of a model with human-friendly natural text. Existing NLE approaches involve training separate models for each downstream task. In this work, we propose Uni-NLX, a unified framework that consolidates all NLE tasks into a single and compact multi-task model using a unified training objective of text generation. Additionally, we introduce two new NLE datasets: 1) ImageNetX, a dataset of 144K samples for explaining ImageNet categories, and 2) VQA-ParaX, a dataset of 123K samples for explaining the task of Visual Question Answering (VQA). Both datasets are derived leveraging large language models (LLMs). By training on the 1M combined NLE samples, our single unified framework is capable of simultaneously performing seven NLE tasks including VQA, visual recognition and visual reasoning tasks with 7X fewer parameters, demonstrating comparable performance to the independent task-specific models in previous approaches, and in certain tasks even outperforming them. Code is at https://github.com/fawazsammani/uni-nlx
翻訳日:2023-08-21 16:27:05 公開日:2023-08-17
# 固有情報の新たな性質と境界機密性との関係

New Properties of Intrinsic Information and Their Relation to Bound Secrecy ( http://arxiv.org/abs/2308.09031v1 )

ライセンス: Link先を確認
Andrey Khesin, Andrew Tung, Karthik Vedula(参考訳) 秘密鍵レートは、アリスとボブが盗聴者イブに未知の合同確率分布をサンプリングして秘密ビットを抽出することができる率を測定する。 シークレットキーレートは、内在的な情報と内在的な情報によって上界に制限されている。 しかし、本質的な情報が0であることと本質的な情報が0であることは同値である。 この結果は、以下の2つの予想のうちの少なくとも1つが偽であることを意味している:有界な秘密が存在するか、あるいは減少した内在的な情報が秘密鍵レートに等しい。 我々は,境界機密候補に対する情報消去二元化を明示的に構成する。 次に,チャネル空間の縮小,ボブの写像の線形変換,イヴのチャネルの摂動など,境界的秘密性の存在を証明するいくつかのアプローチを導入する。

The secret-key rate measures the rate at which Alice and Bob can extract secret bits from sampling a joint probability distribution, unknown to an eavesdropper Eve. The secret-key rate has been bounded above by the intrinsic information and reduced intrinsic information. However, we prove that the reduced intrinsic information is 0 if and only if the intrinsic information is 0. This result implies that at least one of the following two conjectures is false: bound secrecy exists, or the reduced intrinsic information equals the secret-key rate. We give an explicit construction of an information-erasing binarization for a candidate for bound secrecy. We then introduce some approaches for proving the existence of bound secrecy, such as reducing the channel space, linearly transforming Bob's map, and perturbing a channel for Eve.
翻訳日:2023-08-21 16:26:44 公開日:2023-08-17
# LesionMix:医療画像セグメンテーションのための病変レベルデータ拡張手法

LesionMix: A Lesion-Level Data Augmentation Method for Medical Image Segmentation ( http://arxiv.org/abs/2308.09026v1 )

ライセンス: Link先を確認
Berke Doga Basaran, Weitong Zhang, Mengyun Qiao, Bernhard Kainz, Paul M. Matthews, Wenjia Bai(参考訳) データ拡張は、深層学習に基づく医療画像セグメンテーションのデファクトコンポーネントとなっている。 医療画像に使用されるほとんどのデータ拡張技術は、トレーニング画像の多様性を改善するために空間および強度変換に焦点を当てている。 それらはしばしば画像レベルで設計され、全体像を増大させ、画像内の特定の異常に注意を払わない。 本稿では,新規かつ簡便な病変認識データ拡張手法であるLesionMixを提案する。 病変のレベルを増大させ、病変の形状、位置、強度、負荷分布の多様性を高め、病変の集団化と着色を可能にする。 4つの脳MR病変データセットと1つの肝CT病変データセットを含む、異なるモダリティと異なる病変データセットの実験は、LesionMixが病変画像のセグメンテーションにおいて有望なパフォーマンスを達成し、最近のMixベースのデータ拡張手法よりも優れていることを示した。 コードはhttps://github.com/dogabasaran/lesionmixでリリースされる。

Data augmentation has become a de facto component of deep learning-based medical image segmentation methods. Most data augmentation techniques used in medical imaging focus on spatial and intensity transformations to improve the diversity of training images. They are often designed at the image level, augmenting the full image, and do not pay attention to specific abnormalities within the image. Here, we present LesionMix, a novel and simple lesion-aware data augmentation method. It performs augmentation at the lesion level, increasing the diversity of lesion shape, location, intensity and load distribution, and allowing both lesion populating and inpainting. Experiments on different modalities and different lesion datasets, including four brain MR lesion datasets and one liver CT lesion dataset, demonstrate that LesionMix achieves promising performance in lesion image segmentation, outperforming several recent Mix-based data augmentation methods. The code will be released at https://github.com/dogabasaran/lesionmix.
翻訳日:2023-08-21 16:26:28 公開日:2023-08-17
# SRガンマのためのSR-GAN:コライダー実験における光子超解像

SR-GAN for SR-gamma: photon super resolution at collider experiments ( http://arxiv.org/abs/2308.09025v1 )

ライセンス: Link先を確認
Johannes Erdmann, Aaron van der Graaf, Florian Mausolf, Olaf Nackenhorst(参考訳) 生成逆数ネットワークに基づくコライダー実験において,光子の単一像超解像アルゴリズムについて検討した。 おもちゃの電磁カロリメータにおける光子の模擬電磁シャワーと中性イオン崩壊のエネルギー蓄積を2次元画像として扱い,超解像ネットワークを訓練し,各次元の4倍の解像度で人工的に高分解能の画像を生成する。 生成された画像は、名目上の解像度で画像から明らかでない電磁シャワーの特徴を再現することができる。 人工強調画像を用いてシャワー形状変数の再構成とシャワーセンター位置の復元を行い, 有意な改善が得られた。 深層学習光子同定アルゴリズムの事前処理ステップとして生成画像の利用について検討し,低トレーニング統計における改善点を考察した。

We study single-image super-resolution algorithms for photons at collider experiments based on generative adversarial networks. We treat the energy depositions of simulated electromagnetic showers of photons and neutral-pion decays in a toy electromagnetic calorimeter as 2D images and we train super-resolution networks to generate images with an artificially increased resolution by a factor of four in each dimension. The generated images are able to reproduce features of the electromagnetic showers that are not obvious from the images at nominal resolution. Using the artificially-enhanced images for the reconstruction of shower-shape variables and of the position of the shower center results in significant improvements. We additionally investigate the utilization of the generated images as a pre-processing step for deep-learning photon-identification algorithms and observe improvements in the case of low training statistics.
翻訳日:2023-08-21 16:26:10 公開日:2023-08-17
# 稲作経営におけるバッテリー管理の強化学習

Reinforcement Learning for Battery Management in Dairy Farming ( http://arxiv.org/abs/2308.09023v1 )

ライセンス: Link先を確認
Nawazish Ali, Abdul Wahid, Rachael shaw, Karl Mason(参考訳) 乳製品農業は特にエネルギー集約的な農業分野である。 効果的なバッテリー管理は農業分野における再生可能エネルギー統合に不可欠である。 しかし, 電力需要変動, 再生可能エネルギーの確率性, エネルギー価格変動などにより, 電池充電・放電の制御は困難である。 農業における再生可能エネルギーへの人工知能(AI)の適用の可能性にもかかわらず、この地域では限られた研究がなされている。 この研究は、エネルギーと持続可能性における政府の目標を満たそうとするアイルランドにとって最優先事項である。 本研究は, q-learningを用いて, 農家における電池の充電と排出の効果的な方針を学習する。 その結果,本手法は既定のベースラインアルゴリズムと比較して電力コストを大幅に削減できることがわかった。 本研究は, 乳製品生産部門における電池管理における強化学習の有効性を明らかにするものである。

Dairy farming is a particularly energy-intensive part of the agriculture sector. Effective battery management is essential for renewable integration within the agriculture sector. However, controlling battery charging/discharging is a difficult task due to electricity demand variability, stochasticity of renewable generation, and energy price fluctuations. Despite the potential benefits of applying Artificial Intelligence (AI) to renewable energy in the context of dairy farming, there has been limited research in this area. This research is a priority for Ireland as it strives to meet its governmental goals in energy and sustainability. This research paper utilizes Q-learning to learn an effective policy for charging and discharging a battery within a dairy farm setting. The results demonstrate that the developed policy significantly reduces electricity costs compared to the established baseline algorithm. These findings highlight the effectiveness of reinforcement learning for battery management within the dairy farming sector.
翻訳日:2023-08-21 16:25:55 公開日:2023-08-17
# ARAI-MVSNet:適応深度範囲と深度間隔を有する多視点ステレオ深度推定ネットワーク

ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive depth range and depth interval ( http://arxiv.org/abs/2308.09022v1 )

ライセンス: Link先を確認
Song Zhang, Wenjia Xu, Zhiwei Wei, Lili Zhang, Yang Wang, Junyi Liu(参考訳) Multi-View Stereo~(MVS)は幾何学的コンピュータビジョンの基本的な問題であり、カメラパラメータが既知のマルチビュー画像を用いてシーンを再構成することを目的としている。 しかし、主流のアプローチは、固定された全画素深度範囲と等しい深さ間隔分割を持つシーンを表現するため、深度平面の不適切な利用と不正確な深さ推定につながる。 本稿では,適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。 第1段階では粗深マップを予測し、第2段階では適応深度範囲予測モジュールを提案し、第1段階では基準画像と得られた深度マップを利用してシーンをズームし、次の段階ではより正確な全画素深度範囲を予測する。 3段目と4段目では,画素幅幅の可変間隔分割を実現する適応深さ間隔調整モジュールを提案する。 このモジュールの深さ間隔分布はZスコアによって正規化され、これはポテンシャル基底の真深さ値の周りの密度の深い深さ仮説平面を割り当て、その逆もより正確な深さ推定を達成する。 4つのベンチマークデータセット(dtu, tnt, blendedmvs, eth 3d)に関する広範囲な実験により、本モデルが最先端の性能を達成し、競合的一般化能力が得られることを示した。 特に,本手法はDTUデータセット上で最高のAccと総合的なAccを達成し,タンクおよびテンプルにおける最高リコールとF_{1}$-scoreを中間および高度なデータセットで達成する。 さらに、この手法は、blendedmvsデータセット上で最低の$e_{1}$と$e_{3}$、eth 3dデータセット上で最高のaccと$f_{1}$-scoreを達成し、すべてのリストされたメソッドを上回っています。

Multi-View Stereo~(MVS) is a fundamental problem in geometric computer vision which aims to reconstruct a scene using multi-view images with known camera parameters. However, the mainstream approaches represent the scene with a fixed all-pixel depth range and equal depth interval partition, which will result in inadequate utilization of depth planes and imprecise depth estimation. In this paper, we present a novel multi-stage coarse-to-fine framework to achieve adaptive all-pixel depth range and depth interval. We predict a coarse depth map in the first stage, then an Adaptive Depth Range Prediction module is proposed in the second stage to zoom in the scene by leveraging the reference image and the obtained depth map in the first stage and predict a more accurate all-pixel depth range for the following stages. In the third and fourth stages, we propose an Adaptive Depth Interval Adjustment module to achieve adaptive variable interval partition for pixel-wise depth range. The depth interval distribution in this module is normalized by Z-score, which can allocate dense depth hypothesis planes around the potential ground truth depth value and vice versa to achieve more accurate depth estimation. Extensive experiments on four widely used benchmark datasets~(DTU, TnT, BlendedMVS, ETH 3D) demonstrate that our model achieves state-of-the-art performance and yields competitive generalization ability. Particularly, our method achieves the highest Acc and Overall on the DTU dataset, while attaining the highest Recall and $F_{1}$-score on the Tanks and Temples intermediate and advanced dataset. Moreover, our method also achieves the lowest $e_{1}$ and $e_{3}$ on the BlendedMVS dataset and the highest Acc and $F_{1}$-score on the ETH 3D dataset, surpassing all listed methods.Project website: https://github.com/zs670980918/ARAI-MVSNet
翻訳日:2023-08-21 16:25:41 公開日:2023-08-17
# マルチフォノン励起による六方晶窒化ホウ素のフィンガープリント欠陥

Fingerprinting Defects in Hexagonal Boron Nitride via Multi-Phonon Excitation ( http://arxiv.org/abs/2308.09018v1 )

ライセンス: Link先を確認
Pablo Tieben and Andreas W. Schell(参考訳) 六方晶窒化ホウ素の単一光子放出体は、その好ましい放出特性と応用可能な多様体のために多くの注目を集めている。 科学的な努力にもかかわらず、これらのエミッターの正確な原子源は未だ未発見である。 近年では、黄色のスペクトル領域の放出と炭素関連の欠陥が関係しているが、欠陥の正確な原子構造は未解明のままである。 本研究では、この領域内の多数のエミッタに対して発光発光と励起分光を行う。 実験データと理論予測との比較により, 六方晶窒化ホウ素中の黄色の単一光子放出の起源が決定された。 この原子構造とその光学的性質の知識は、量子技術におけるこれらのエミッタの信頼性の高い実装に不可欠である。

Single photon emitters in hexagonal boron nitride have gathered a lot of attention due to their favourable emission properties and the manifold of possible applications. Despite extensive scientific effort, the exact atomic origin of these emitters has remained unkown thus far. Recently, several studies have tied the emission in the yellow spectral region to carbon-related defects, but the exact atomic structure of the defects remains elusive. In this study, photoluminescence emission and excitation spectroscopy is performed on a large number of emitters within this region. By comparison of the experimental data with theoretical predictions, the origin of yellow single photon emission in hexagonal boron nitride is determined. Knowledge of this atomic structure and its optical properties is crucial for the reliable implementation of these emitters in quantum technologies.
翻訳日:2023-08-21 16:25:03 公開日:2023-08-17
# レグレッションのロバスト不確かさ定量化のための離散化誘起ディリクレ後部

Discretization-Induced Dirichlet Posterior for Robust Uncertainty Quantification on Regression ( http://arxiv.org/abs/2308.09065v1 )

ライセンス: Link先を確認
Xuanlong Yu, Gianni Franchi, Jindong Gu, Emanuel Aldea(参考訳) 不確実性定量化は、現実世界のアプリケーションにディープニューラルネットワーク(DNN)をデプロイするために重要である。 AuxUE(Auxiliary Uncertainity Estimator)は、メインタスクモデルを変更することなく、メインタスク予測の不確かさを推定する最も効果的な方法の1つである。 強固であると考えられるためには、auxueはその性能を維持し、分散(ood)入力、すなわち強固なアレーテータと認識的不確実性をもたらすために、より高い不確実性を引き起こすことができる必要がある。 しかし、視覚回帰タスクでは、現在の auxue の設計は、主に aleatoric uncertainty estimation に採用されており、auxue robustness は検討されていない。 本研究では,回帰タスクに対するより堅牢な不確実性定量化のための一般化されたAuxUEスキームを提案する。 具体的には,よりロバストなアレエータ的不確実性推定を実現するために,ヘテロシドスティックノイズに対して異なる分布仮定を考慮し,ラプラス分布を選択して予測誤差を近似する。 認識的不確実性については,離散化誘導ディリクレ後方(dido)という新しい解を提案し,離散化予測誤差に基づいてディリクレ後方をモデル化する。 年齢推定,単眼深度推定,超解像タスクに関する広範な実験により,提案手法はノイズ入力に対して頑健な不確実性推定が可能であり,画像レベルと画素単位の両方のタスクにスケーラブルであることを示す。

Uncertainty quantification is critical for deploying deep neural networks (DNNs) in real-world applications. An Auxiliary Uncertainty Estimator (AuxUE) is one of the most effective means to estimate the uncertainty of the main task prediction without modifying the main task model. To be considered robust, an AuxUE must be capable of maintaining its performance and triggering higher uncertainties while encountering Out-of-Distribution (OOD) inputs, i.e., to provide robust aleatoric and epistemic uncertainty. However, for vision regression tasks, current AuxUE designs are mainly adopted for aleatoric uncertainty estimates, and AuxUE robustness has not been explored. In this work, we propose a generalized AuxUE scheme for more robust uncertainty quantification on regression tasks. Concretely, to achieve a more robust aleatoric uncertainty estimation, different distribution assumptions are considered for heteroscedastic noise, and Laplace distribution is finally chosen to approximate the prediction error. For epistemic uncertainty, we propose a novel solution named Discretization-Induced Dirichlet pOsterior (DIDO), which models the Dirichlet posterior on the discretized prediction error. Extensive experiments on age estimation, monocular depth estimation, and super-resolution tasks show that our proposed method can provide robust uncertainty estimates in the face of noisy inputs and that it can be scalable to both image-level and pixel-wise tasks.
翻訳日:2023-08-21 16:17:46 公開日:2023-08-17
# 計算手法によるダイヤモンドスピン量子ビット成長の誘導

Guiding Diamond Spin Qubit Growth with Computational Methods ( http://arxiv.org/abs/2308.09063v1 )

ライセンス: Link先を確認
Jonathan C. Marcks, Mykyta Onizhuk, Nazar Delegan, Yu-Xin Wang, Masaya Fukami, Maya Watts, Aashish A. Clerk, F. Joseph Heremans, Giulia Galli and David D. Awschalom(参考訳) ダイヤモンドの窒素空隙(nv)中心はよく研究され、光学活性なスピン欠陥であり、最先端の量子センシングおよび通信応用における原型的システムである。 NV中心に固有の誘電特性に加えて、ダイヤモンドのホストの核および電子スピン浴は、単にデコヒーレンスの源としてではなく、量子情報の資源として利用することができる。 しかし、現在の合成手法は確率的欠陥スピン位置をもたらし、NVスピンバスシステムの決定論的制御と収量に対する技術の可能性、およびスケーラビリティと他の技術との統合を減少させる。 本稿では,電子中心スピンデコヒーレンスの理論的計算をNV-スピン浴合成ワークフローの不可欠な部分として利用し,NV中心型量子センシングシステムの定量的設計への道筋を示す。 計算により生成したコヒーレンスデータを用いて,単一のnv中心量子ビットの特性を関連する成長パラメータに特徴付け,スピンバスの次元と密度に依存するコヒーレンス時間分布の一般的な傾向を求める。 次に,理論モデルを用いて最大確率推定器を構築し,nv t2*測定による試験試料のキャラクタリゼーションを可能にした。 最後に, 強結合電子スピン系の収率に及ぼす次元の影響について検討する。 ここで提示する手法は一般に、適切なシミュレーションが可能な他の量子ビットプラットフォームに適用できる。

The nitrogen vacancy (NV) center in diamond, a well-studied, optically active spin defect, is the prototypical system in many state of the art quantum sensing and communication applications. In addition to the enticing properties intrinsic to the NV center, its diamond host's nuclear and electronic spin baths can be leveraged as resources for quantum information, rather than considered solely as sources of decoherence. However, current synthesis approaches result in stochastic defect spin positions, reducing the technology's potential for deterministic control and yield of NV-spin bath systems, as well as scalability and integration with other technologies. Here, we demonstrate the use of theoretical calculations of electronic central spin decoherence as an integral part of an NV-spin bath synthesis workflow, providing a path forward for the quantitative design of NV center-based quantum sensing systems. We use computationally generated coherence data to characterize the properties of single NV center qubits across relevant growth parameters to find general trends in coherence time distributions dependent on spin bath dimensionality and density. We then build a maximum likelihood estimator with our theoretical model, enabling the characterization of a test sample through NV T2* measurements. Finally, we explore the impact of dimensionality on the yield of strongly coupled electron spin systems. The methods presented herein are general and applicable to other qubit platforms that can be appropriately simulated.
翻訳日:2023-08-21 16:17:17 公開日:2023-08-17
# 議論の批判的反映におけるユーザエンゲージメントの促進

Fostering User Engagement in the Critical Reflection of Arguments ( http://arxiv.org/abs/2308.09061v1 )

ライセンス: Link先を確認
Klaus Weber, Annalena Aicher, Wolfang Minker, Stefan Ultes, Elisabeth Andr\'e(参考訳) 異なる見解を解決し意見を形成する自然な方法は、議論と知識を交換することである。 インターネット上の膨大な情報に直面すると、人々は自分の信念に合致した情報に集中する傾向がある。 特に議論の的になっている場合、情報はしばしば自分の信念に異議を唱えない。 公平で偏見のない意見形成プロセスを支援するために,人間との対話を行うチャットボットシステムを提案する。 説得的なシステムとは対照的に、想定されたチャットボットは、ユーザとの会話に埋め込まれた多様で代表的な概要を提供することを目的としている。 このトピックの反射的かつ偏見のない探索を考慮に入れるため、ユーザが既存の意見に集中しすぎている場合、システムが介入できるようにする。 そこで本稿では,ユーザのリフレクティブエンゲージメント(RUE)を批判的思考とオープンマインドネスとして評価するモデルを提案する。 本研究は,58名の参加者を対象に,我々のモデルと介入メカニズムの効果を検証し,その結果の意義,今後の研究への展望について報告する。 その結果,ユーザリフレクションと全ユーザフォーカスに有意な影響を及ぼし,提案手法の有効性が証明された。

A natural way to resolve different points of view and form opinions is through exchanging arguments and knowledge. Facing the vast amount of available information on the internet, people tend to focus on information consistent with their beliefs. Especially when the issue is controversial, information is often selected that does not challenge one's beliefs. To support a fair and unbiased opinion-building process, we propose a chatbot system that engages in a deliberative dialogue with a human. In contrast to persuasive systems, the envisioned chatbot aims to provide a diverse and representative overview - embedded in a conversation with the user. To account for a reflective and unbiased exploration of the topic, we enable the system to intervene if the user is too focused on their pre-existing opinion. Therefore we propose a model to estimate the users' reflective engagement (RUE), defined as their critical thinking and open-mindedness. We report on a user study with 58 participants to test our model and the effect of the intervention mechanism, discuss the implications of the results, and present perspectives for future work. The results show a significant effect on both user reflection and total user focus, proving our proposed approach's validity.
翻訳日:2023-08-21 16:16:53 公開日:2023-08-17
# 言い換えながらメッセージを失うな:コンテンツ保存スタイル転送に関する研究

Don't lose the message while paraphrasing: A study on content preserving style transfer ( http://arxiv.org/abs/2308.09055v1 )

ライセンス: Link先を確認
Nikolay Babakov, David Dale, Ilya Gusev, Irina Krotova, Alexander Panchenko(参考訳) テキストスタイル転送技術は、自然言語処理で人気を集めており、有害から神経、形式から非公式、古英語から現代英語など、必要な形でテキストをパラフレーズできるようになっている。 タスクの解決は、いくつかのニューラル/インフォーマル/モダンテキストを生成するのに十分ではないが、元のコンテンツは変更せずに保存することが重要である。 この要件は、例えば特定の種類のピザを特定の住所に一定のタイミングで注文するなど、元のメッセージを保存するために事実情報を保持しなければならないゴール指向の対話のスタイル転送など、いくつかのアプリケーションにおいてさらに重要となる。 コンテンツ保存の側面は, 実世界におけるスタイル伝達研究の応用において重要であるが, あまり注目されていない。 このギャップを埋めるために、形式的転送ドメインの例で様々なスタイル転送モデルを比較します。 様々なスタイル転送手法のコンテンツ保存能力について検討するために,形式的対非公式なタスク指向対話の並列データセットを作成する。 我々のデータセットとGYAFC[17]のような既存のデータセットの主な違いは、名前付きエンティティのようにパラフレーズで保持するために必要なセマンティックスロットを持つゴール指向の対話の存在です。 この追加アノテーションにより、スタイル転送のためのいくつかの最先端技術について正確な比較研究を行うことができた。 本研究のもうひとつの成果は,未管理手法LEWIS [19] の修正であり,元の手法よりも大幅に改善され,提案課題のベースラインがすべて評価された。

Text style transfer techniques are gaining popularity in natural language processing allowing paraphrasing text in the required form: from toxic to neural, from formal to informal, from old to the modern English language, etc. Solving the task is not sufficient to generate some neural/informal/modern text, but it is important to preserve the original content unchanged. This requirement becomes even more critical in some applications such as style transfer of goal-oriented dialogues where the factual information shall be kept to preserve the original message, e.g. ordering a certain type of pizza to a certain address at a certain time. The aspect of content preservation is critical for real-world applications of style transfer studies, but it has received little attention. To bridge this gap we perform a comparison of various style transfer models on the example of the formality transfer domain. To perform a study of the content preservation abilities of various style transfer methods we create a parallel dataset of formal vs. informal task-oriented dialogues. The key difference between our dataset and the existing ones like GYAFC [17] is the presence of goal-oriented dialogues with predefined semantic slots essential to be kept during paraphrasing, e.g. named entities. This additional annotation allowed us to conduct a precise comparative study of several state-of-the-art techniques for style transfer. Another result of our study is a modification of the unsupervised method LEWIS [19] which yields a substantial improvement over the original method and all evaluated baselines on the proposed task.
翻訳日:2023-08-21 16:16:34 公開日:2023-08-17
# 線形予測法を用いた深層学習型フォルマントトラッカーの精製

Refining a Deep Learning-based Formant Tracker using Linear Prediction Methods ( http://arxiv.org/abs/2308.09051v1 )

ライセンス: Link先を確認
Paavo Alku, Sudarsana Reddy Kadiri, Dhananjaya Gowda(参考訳) 本研究では,既存のデータ駆動型トラッカーであるDeepFormantsによって追跡されたフォルマントを,線形予測(LP)法によるモデル駆動方式で推定したホルマントを用いて精製することにより,ホルマント追跡を検討した。 LPに基づくホルマント推定法として,従来の共分散解析 (LP-COV) と最近提案された準閉相フォワードバックワード解析 (QCP-FB) を用いる。 提案手法では,データ駆動型ディープフォーマントトラッカにより3つの最低フォーマントの輪郭を最初に予測し,予測したフォーマントをモデル駆動型lp法で示される局所スペクトルピークにフレーム単位で置き換える。 改善手順は、新しいデータ学習を必要とせずに、DeepFormantsトラッカーにプラグインできる。 2つの改良されたDeepFormantsトラッカーをオリジナルのDeepFormantsと比較し、一般的な声道共鳴(VTR)コーパスを使用した5つの伝統的なトラッカーと比較した。 その結果、データ駆動型DeepFormantsトラッカーは従来のトラッカーよりも優れており、QCP-FB分析を用いてDeepFormantsが予測したフォルマントを精製することで最高の性能が得られることがわかった。 さらに,付加雑音により劣化したVTR音声を用いたホルマント追跡により,改良したDeepFormantsトラッカーは基準トラッカーよりも耐雑音性が高いことを示した。 これらの結果から,従来はフォルマント推定に用いられてきたlpベースモデル駆動アプローチは,現代のデータ駆動トラッカと組み合わせることで,トラッカのパフォーマンス向上のためのさらなるトレーニングが不要になる可能性が示唆された。

In this study, formant tracking is investigated by refining the formants tracked by an existing data-driven tracker, DeepFormants, using the formants estimated in a model-driven manner by linear prediction (LP)-based methods. As LP-based formant estimation methods, conventional covariance analysis (LP-COV) and the recently proposed quasi-closed phase forward-backward (QCP-FB) analysis are used. In the proposed refinement approach, the contours of the three lowest formants are first predicted by the data-driven DeepFormants tracker, and the predicted formants are replaced frame-wise with local spectral peaks shown by the model-driven LP-based methods. The refinement procedure can be plugged into the DeepFormants tracker with no need for any new data learning. Two refined DeepFormants trackers were compared with the original DeepFormants and with five known traditional trackers using the popular vocal tract resonance (VTR) corpus. The results indicated that the data-driven DeepFormants trackers outperformed the conventional trackers and that the best performance was obtained by refining the formants predicted by DeepFormants using QCP-FB analysis. In addition, by tracking formants using VTR speech that was corrupted by additive noise, the study showed that the refined DeepFormants trackers were more resilient to noise than the reference trackers. In general, these results suggest that LP-based model-driven approaches, which have traditionally been used in formant estimation, can be combined with a modern data-driven tracker easily with no further training to improve the tracker's performance.
翻訳日:2023-08-21 16:16:06 公開日:2023-08-17
# 反強磁性トポロジー絶縁体を用いた効率的な量子トランスダクション

Efficient Quantum Transduction Using Anti-Ferromagnetic Topological Insulators ( http://arxiv.org/abs/2308.09048v1 )

ライセンス: Link先を確認
Haowei Xu, Changhao Li, Guoqing Wang, Hao Tang, Paola Cappellaro, and Ju Li(参考訳) 量子システム間の量子情報の変換は、量子ネットワークや量子コンピューティングを含む様々な応用において必須のステップである。 しかし、量子変換は非常に異なる周波数で光子を媒介する必要があるため、多面的かつ時には相反する要件のために高性能トランスデューサの設計が困難である。 本研究では,まず量子トランスデューサ設計の一般原理を議論し,次に高効率トランスデューサとして機能する固体反強磁性位相絶縁体を提案する。 まず、トポロジカル絶縁体はバンド反転を示し、光応答を大幅に向上させる。 強靭なスピン軌道結合と高スピン密度との組み合わせにより、この性質はトポロジカル絶縁体における強い非線形相互作用をもたらし、トランスダクション効率を大幅に改善する。 第2に、反強磁性秩序は、磁気相互作用による他の隣接する量子系への有害影響を最小限に抑えることができる。 例として、$\rm MnBi_2Te_4$を用いて、トランスダクション帯域幅がGHz範囲に達するのに対して、ユニットトランスダクションの忠実度は適度な実験条件で達成可能であることを示す。 磁気トポロジー絶縁体における強い非線形相互作用は、異なる周波数の光子間の絡み合いの発生を含む様々な応用を見出すことができる。

Transduction of quantum information between distinct quantum systems is an essential step in various applications, including quantum networks and quantum computing. However, quantum transduction needs to mediate between photons with vastly different frequencies, making it challenging to design high-performance transducers, due to multifaceted and sometimes conflicting requirements. In this work, we first discuss some general principles for quantum transducer design, and then propose solid-state anti-ferromagnetic topological insulators to serve as highly effective transducers. First, topological insulators exhibit band-inversion, which can greatly enhance their optical responses. Coupled with their robust spin-orbit coupling and high spin density, this property leads to strong nonlinear interaction in topological insulators, thereby substantially improving transduction efficiency. Second, the anti-ferromagnetic order can minimize the detrimental influence on other neighboring quantum systems due to magnetic interactions. Using $\rm MnBi_2Te_4$ as an example, we showcase that unit transduction fidelity can be achieved with modest experimental requirements, while the transduction bandwidth can reach the GHz range. The strong nonlinear interaction in magnetic topological insulators can find diverse applications, including the generation of entanglement between photons of distinct frequencies.
翻訳日:2023-08-21 16:15:36 公開日:2023-08-17
# 確率フリー仮説テストのためのカーネルベーステスト

Kernel-Based Tests for Likelihood-Free Hypothesis Testing ( http://arxiv.org/abs/2308.09043v1 )

ライセンス: Link先を確認
Patrik R\'obert Gerber, Tianze Jiang, Yury Polyanskiy, Rui Sun(参考訳) 2つの平衡クラスからの$n$の観察を与えられた場合、これら2つのクラスの \emph{one} に属することが分かっている追加の$m$入力をラベル付けるタスクを考える。 この問題の特別なケースはよく知られており、クラス分布の完全な知識(n=\infty$)は、確率比テストによって最適に解かれる;$m=1$は二値分類に対応し、$m\approx n$は二値検定と同値である。 中間設定は、ラベル付きサンプルを前方シミュレーションにより取得し、ラベルなしサンプルを実験的に収集する確率フリー推論の分野で行われる。 最近の研究で、$m$と$n$の間に基本的なトレードオフがあることが判明した。 この作品では (a) ラベルのないサンプルが2つのクラスを混ぜ合わせたものであるという一般化を導入すること。 b) <textit{maximum mean discrepancy} (MMD) 分離の下での非パラメトリックな密度のクラスに対するミニマックスサンプル複雑性の研究 (c) ニューラルネットワークでパラメータ化されたカーネルの2つのタスクにおいて, ヒッグス粒子の検出と, CIFAR-10画像中のDDPM生成画像の検出を行う。 どちらの問題に対しても、理論的に予測された非対称$m$対$n$トレードオフの存在を確認する。

Given $n$ observations from two balanced classes, consider the task of labeling an additional $m$ inputs that are known to all belong to \emph{one} of the two classes. Special cases of this problem are well-known: with complete knowledge of class distributions ($n=\infty$) the problem is solved optimally by the likelihood-ratio test; when $m=1$ it corresponds to binary classification; and when $m\approx n$ it is equivalent to two-sample testing. The intermediate settings occur in the field of likelihood-free inference, where labeled samples are obtained by running forward simulations and the unlabeled sample is collected experimentally. In recent work it was discovered that there is a fundamental trade-off between $m$ and $n$: increasing the data sample $m$ reduces the amount $n$ of training/simulation data needed. In this work we (a) introduce a generalization where unlabeled samples come from a mixture of the two classes -- a case often encountered in practice; (b) study the minimax sample complexity for non-parametric classes of densities under \textit{maximum mean discrepancy} (MMD) separation; and (c) investigate the empirical performance of kernels parameterized by neural networks on two tasks: detection of the Higgs boson and detection of planted DDPM generated images amidst CIFAR-10 images. For both problems we confirm the existence of the theoretically predicted asymmetric $m$ vs $n$ trade-off.
翻訳日:2023-08-21 16:15:14 公開日:2023-08-17
# 単一周波数フィルタを用いた音声からのパーキンソン病の重症度分類

Severity Classification of Parkinson's Disease from Speech using Single Frequency Filtering-based Features ( http://arxiv.org/abs/2308.09042v1 )

ライセンス: Link先を確認
Sudarsana Reddy Kadiri, Manila Kodali, Paavo Alku(参考訳) パーキンソン病(PD)の重症度を評価する客観的手法の開発は診断と治療の改善に不可欠である。 本研究では,(1)sffケプストラム係数(sffcc)と(2)sff(mfcc-sff)からのmfcc(mfcc-sff)の2つの特徴を,pdの重症度分類のために提案する。 以前の研究では、SFFは短時間フーリエ変換よりもスペクトル時間分解能が高いことが示されている。 この研究は、PC-GITAデータベースを使用し、PD患者のスピーチと、3つの発話タスク(母音、文、テキスト読解)で生成される健康的なコントロールを含む。 SVM分類器を用いた実験により、提案された特徴が従来のMFCCよりも優れていることが明らかになった。 提案されたSFFCCとMFCC-SFFの機能は、母音タスクの5.8%と2.3%、文タスクの7.0%と1.8%、読み出しテキストタスクの2.4%と1.1%の相対的な改善を与えた。

Developing objective methods for assessing the severity of Parkinson's disease (PD) is crucial for improving the diagnosis and treatment. This study proposes two sets of novel features derived from the single frequency filtering (SFF) method: (1) SFF cepstral coefficients (SFFCC) and (2) MFCCs from the SFF (MFCC-SFF) for the severity classification of PD. Prior studies have demonstrated that SFF offers greater spectro-temporal resolution compared to the short-time Fourier transform. The study uses the PC-GITA database, which includes speech of PD patients and healthy controls produced in three speaking tasks (vowels, sentences, text reading). Experiments using the SVM classifier revealed that the proposed features outperformed the conventional MFCCs in all three speaking tasks. The proposed SFFCC and MFCC-SFF features gave a relative improvement of 5.8% and 2.3% for the vowel task, 7.0% & 1.8% for the sentence task, and 2.4% and 1.1% for the read text task, in comparison to MFCC features.
翻訳日:2023-08-21 16:14:48 公開日:2023-08-17
# 最小限のロボット脳の数学的特徴付け

A Mathematical Characterization of Minimally Sufficient Robot Brains ( http://arxiv.org/abs/2308.09041v1 )

ライセンス: Link先を確認
Basak Sakcak, Kalle G. Timperi, Vadim Weinstein, and Steven M. LaValle(参考訳) 本稿では,内部システム(ロボットアルゴリズムやソフトウェア)と外部システム(ロボット本体とその環境)とのインタラクションを通じて得られる情報を,動作や観察履歴の観点から符号化・処理する際の限界を低くする。 どちらも遷移系としてモデル化されている。 パッシブ(フィルタ)タスクとアクティブ(計画)タスクを達成するのに十分な最も弱い内部システムを知りたいと思っています。 本稿では,ロボットや他のオブザーバの視点を反映した情報状態の空間上の遷移システムである内部システムのための情報遷移システムの概念を紹介する。 情報遷移システムをフィルタとみなし、この情報遷移システムの状態をラベル付けする機能としてポリシーまたは計画とみなす。 学習アルゴリズムや計画アルゴリズム,あるいは人間の洞察によって内部システムが得られるかどうかに関わらず,ロボットハードウェアやタスクの実現可能性の限界を知りたいと思っています。 一般的な設定では、最小限の情報遷移系は妥当な等価性を前提として存在し、いくつかの一般的な条件下では特異である。 次に,この理論を応用して,センサ融合/フィルタの最適化,基本計画課題の解決,入出力関係を考慮したシステムモデリングのための最小表現の探索など,いくつかの問題に対する新たな洞察を生成する。

This paper addresses the lower limits of encoding and processing the information acquired through interactions between an internal system (robot algorithms or software) and an external system (robot body and its environment) in terms of action and observation histories. Both are modeled as transition systems. We want to know the weakest internal system that is sufficient for achieving passive (filtering) and active (planning) tasks. We introduce the notion of an information transition system for the internal system which is a transition system over a space of information states that reflect a robot's or other observer's perspective based on limited sensing, memory, computation, and actuation. An information transition system is viewed as a filter and a policy or plan is viewed as a function that labels the states of this information transition system. Regardless of whether internal systems are obtained by learning algorithms, planning algorithms, or human insight, we want to know the limits of feasibility for given robot hardware and tasks. We establish, in a general setting, that minimal information transition systems exist up to reasonable equivalence assumptions, and are unique under some general conditions. We then apply the theory to generate new insights into several problems, including optimal sensor fusion/filtering, solving basic planning tasks, and finding minimal representations for modeling a system given input-output relations.
翻訳日:2023-08-21 16:14:23 公開日:2023-08-17
# SimFIR: 自己教師型表現学習による魚眼画像再現のための簡易フレームワーク

SimFIR: A Simple Framework for Fisheye Image Rectification with Self-supervised Representation Learning ( http://arxiv.org/abs/2308.09040v1 )

ライセンス: Link先を確認
Hao Feng, Wendi Wang, Jiajun Deng, Wengang Zhou, Li Li, Houqiang Li(参考訳) 魚眼画像では、豊富な異なる歪みパターンが画像面に定期的に分布する。 これらの歪みパターンは、視覚内容とは独立しており、修正のための情報手段を提供する。 このような補正手法を最大限に活用するために,自己教師付き表現学習に基づく魚眼画像修正のための簡易フレームワークSimFIRを導入する。 技術的には、魚眼画像を複数のパッチに分割し、視覚変換器(ViT)でその表現を抽出する。 細粒度の歪み表現を学習するために,魚眼モデルに基づいて異なる画像パッチと特定の歪みパターンを関連付け,さらにその学習のための革新的統一歪み認識プリテキストタスクを微妙に設計する。 下流修正作業における転送性能が著しく向上し、学習された表現の有効性が検証される。 大規模実験を行い, 実世界の魚眼画像に強い一般化能力とともに, 現状のアルゴリズムよりも本手法が優れていることを示す定量的, 定性的な結果を得た。

In fisheye images, rich distinct distortion patterns are regularly distributed in the image plane. These distortion patterns are independent of the visual content and provide informative cues for rectification. To make the best of such rectification cues, we introduce SimFIR, a simple framework for fisheye image rectification based on self-supervised representation learning. Technically, we first split a fisheye image into multiple patches and extract their representations with a Vision Transformer (ViT). To learn fine-grained distortion representations, we then associate different image patches with their specific distortion patterns based on the fisheye model, and further subtly design an innovative unified distortion-aware pretext task for their learning. The transfer performance on the downstream rectification task is remarkably boosted, which verifies the effectiveness of the learned representations. Extensive experiments are conducted, and the quantitative and qualitative results demonstrate the superiority of our method over the state-of-the-art algorithms as well as its strong generalization ability on real-world fisheye images.
翻訳日:2023-08-21 16:14:01 公開日:2023-08-17
# 正規化勾配の集約によるオーバーザ・エア計算によるフェデレーション学習支援

Over-the-Air Computation Aided Federated Learning with the Aggregation of Normalized Gradient ( http://arxiv.org/abs/2308.09082v1 )

ライセンス: Link先を確認
Rongfei Fan, Xuming An, Shiyuan Zuo, and Han Hu(参考訳) オーバー・ザ・エア(Over-the-air)は、連邦学習(FL)のための通信効率の高い計算方法である。 このようなシステムでは、プライベート損失関数の局所勾配が更新され、増幅され、各モバイルデバイスに送信され、サーバは全オンスに集約勾配を受信し、更新されたモデルパラメータを各モバイルデバイスに生成してブロードキャストする。 増幅係数の選択に関して、ほとんどの関連する研究は、局所勾配の極大ノルムは常に起こると仮定するが、実際には反復によって変動し、収束性能が低下する可能性がある。 この問題を回避するために,局所勾配を増幅する前に正規化する手法を提案する。 提案手法では,損失関数が滑らかな場合,提案手法が非線型速度で定常点に収束できることを実証する。 滑らかで強い凸損失関数の場合,本手法は最小のトレーニング損失を最小の正の許容範囲で線形速度で達成できることを実証する。 さらに、収束率と耐性とのトレードオフが発見された。 収束を早めるために、システムパラメータを最適化する問題を2つ以上のケースで定式化する。 非凸であるが、定式化問題の多項式複雑性を伴う最適解が導出される。 実験の結果,提案手法は収束性能のベンチマーク手法を上回ることができることがわかった。

Over-the-air computation is a communication-efficient solution for federated learning (FL). In such a system, iterative procedure is performed: Local gradient of private loss function is updated, amplified and then transmitted by every mobile device; the server receives the aggregated gradient all-at-once, generates and then broadcasts updated model parameters to every mobile device. In terms of amplification factor selection, most related works suppose the local gradient's maximal norm always happens although it actually fluctuates over iterations, which may degrade convergence performance. To circumvent this problem, we propose to turn local gradient to be normalized one before amplifying it. Under our proposed method, when the loss function is smooth, we prove our proposed method can converge to stationary point at sub-linear rate. In case of smooth and strongly convex loss function, we prove our proposed method can achieve minimal training loss at linear rate with any small positive tolerance. Moreover, a tradeoff between convergence rate and the tolerance is discovered. To speedup convergence, problems optimizing system parameters are also formulated for above two cases. Although being non-convex, optimal solution with polynomial complexity of the formulated problems are derived. Experimental results show our proposed method can outperform benchmark methods on convergence performance.
翻訳日:2023-08-21 16:08:11 公開日:2023-08-17
# 自動走行のための歩行者環境モデル

Pedestrian Environment Model for Automated Driving ( http://arxiv.org/abs/2308.09080v1 )

ライセンス: Link先を確認
Adrian Holzbock, Alexander Tsaregorodtsev, and Vasileios Belagiannis(参考訳) 自動運転車は、他の車両と正しく対話するだけでなく、歩行者やサイクリストのような脆弱な道路利用者に安全な方法で反応できるはずだ。 歩行者と自動走行車の安全な相互作用のために、車両は歩行者の振る舞いを解釈できなければならない。 一般的な環境モデルは、歩行者の意図を理解するために使われるボディポーズのような情報を含まない。 本研究では,歩行者の位置とポーズ情報を含む環境モデルを提案する。 歩行者環境モデルへの入力として,単眼カメラからの画像と車両のローカライゼーションデータのみを使用する。 画像から、ニューラルネットワークによる人物ポーズ推定器を用いて骨格情報を抽出する。 さらに,ハンガリーのアルゴリズムとエゴモーション補償に基づく単純な追跡アルゴリズムを用いて,骨格の追跡を行う。 位置の3D情報を得るために,車両の位置と合わせて連続するフレームからデータを集約する。 CARLAシミュレータとnuScenesデータセットで生成されたデータに基づいて歩行者環境モデルを実証する。 全体として、両方のデータセットで相対的な位置誤差は約16%に達する。

Besides interacting correctly with other vehicles, automated vehicles should also be able to react in a safe manner to vulnerable road users like pedestrians or cyclists. For a safe interaction between pedestrians and automated vehicles, the vehicle must be able to interpret the pedestrian's behavior. Common environment models do not contain information like body poses used to understand the pedestrian's intent. In this work, we propose an environment model that includes the position of the pedestrians as well as their pose information. We only use images from a monocular camera and the vehicle's localization data as input to our pedestrian environment model. We extract the skeletal information with a neural network human pose estimator from the image. Furthermore, we track the skeletons with a simple tracking algorithm based on the Hungarian algorithm and an ego-motion compensation. To obtain the 3D information of the position, we aggregate the data from consecutive frames in conjunction with the vehicle position. We demonstrate our pedestrian environment model on data generated with the CARLA simulator and the nuScenes dataset. Overall, we reach a relative position error of around 16% on both datasets.
翻訳日:2023-08-21 16:07:39 公開日:2023-08-17
# 反復近似アンセストラルサンプリングによる変分オートエンコーダの条件サンプリング

Conditional Sampling of Variational Autoencoders via Iterated Approximate Ancestral Sampling ( http://arxiv.org/abs/2308.09078v1 )

ライセンス: Link先を確認
Vaidotas Simkus and Michael U. Gutmann(参考訳) 変分オートエンコーダ(vaes)の条件付きサンプリングは、データインプテーションの欠如など様々なアプリケーションで必要とされるが、計算上は難解である。 漸近的に正確な条件サンプリングの原則はMetropolis-within-Gibbs (MWG)である。 しかし,vaesが構造的潜在空間(一般に望まれる性質)を学習する傾向が,mwgサンプラーを目標分布から遠ざからせる可能性があることを観察した。 本稿では,vaesの文脈における落とし穴を体系的に概説し,これらの落とし穴に対処する2つの手法を提案し,一連のサンプリングタスクにおける提案手法の性能向上を実証する。

Conditional sampling of variational autoencoders (VAEs) is needed in various applications, such as missing data imputation, but is computationally intractable. A principled choice for asymptotically exact conditional sampling is Metropolis-within-Gibbs (MWG). However, we observe that the tendency of VAEs to learn a structured latent space, a commonly desired property, can cause the MWG sampler to get "stuck" far from the target distribution. This paper mitigates the limitations of MWG: we systematically outline the pitfalls in the context of VAEs, propose two original methods that address these pitfalls, and demonstrate an improved performance of the proposed methods on a set of sampling tasks.
翻訳日:2023-08-21 16:06:57 公開日:2023-08-17
# グラフ学習を用いた都市空調バーティポートにおける航空交通管理の高速化支援

Fast Decision Support for Air Traffic Management at Urban Air Mobility Vertiports using Graph Learning ( http://arxiv.org/abs/2308.09075v1 )

ライセンス: Link先を確認
Prajit KrisshnaKumar, Jhoel Witter, Steve Paul, Hanvit Cho, Karthik Dantu, and Souma Chowdhury(参考訳) アーバン・エア・モビリティ(uam)は、都市や郊外のハブで、安全で高速に移動できる新しい次元を約束している。 これらのUAM機は、複数の離陸/着陸地点と蓄電池スポットからなるバーティポートと呼ばれる小さな空港から運用される。 密集した都市部に位置し、多くの航空機の着陸や離陸を毎時行う必要があるため、このスケジュールをリアルタイムで管理することは従来の航空交通管制官にとって困難であり、代わりに自動化された解決策を求めている。 本稿では,この課題に対する新しいアプローチとして,グラフ強化学習を活用し,意思決定支援政策を生成するvertiport schedule management (uam-vsm)を提案する。 ここでは、バーティポートの空域内の指定された物理的スポットと管理対象車両を2つの別々のグラフとして表現し、グラフ畳み込みネットワーク(gcn)を介して特徴抽出を行う。 抽出された特徴はパーセプトロン層に渡され、ホバリングやクルーズ、アイドリングや離陸の継続、あるいは割り当てられたバーティポート地点への着陸などの行動を決定する。 性能は、遅延、安全性(衝突ゼロ)、バッテリー消費に基づいて測定される。 マルチローター車両のスケールダウンに応用したairsimの現実的なシミュレーションにより,uam-vsm問題を解くためのグラフ強化学習や,(グラフ埋め込みを用いた)基本強化学習やランダム選択ベースラインに優れていることを示す。

Urban Air Mobility (UAM) promises a new dimension to decongested, safe, and fast travel in urban and suburban hubs. These UAM aircraft are conceived to operate from small airports called vertiports each comprising multiple take-off/landing and battery-recharging spots. Since they might be situated in dense urban areas and need to handle many aircraft landings and take-offs each hour, managing this schedule in real-time becomes challenging for a traditional air-traffic controller but instead calls for an automated solution. This paper provides a novel approach to this problem of Urban Air Mobility - Vertiport Schedule Management (UAM-VSM), which leverages graph reinforcement learning to generate decision-support policies. Here the designated physical spots within the vertiport's airspace and the vehicles being managed are represented as two separate graphs, with feature extraction performed through a graph convolutional network (GCN). Extracted features are passed onto perceptron layers to decide actions such as continue to hover or cruise, continue idling or take-off, or land on an allocated vertiport spot. Performance is measured based on delays, safety (no. of collisions) and battery consumption. Through realistic simulations in AirSim applied to scaled down multi-rotor vehicles, our results demonstrate the suitability of using graph reinforcement learning to solve the UAM-VSM problem and its superiority to basic reinforcement learning (with graph embeddings) or random choice baselines.
翻訳日:2023-08-21 16:06:38 公開日:2023-08-17
# mCL-NER:マルチビューコントラスト学習による言語間名前付きエンティティ認識

mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view Contrastive Learning ( http://arxiv.org/abs/2308.09073v1 )

ライセンス: Link先を確認
Ying Mo, Jian Yang, Jiahao Liu, Qifan Wang, Ruoyu Chen, Jingang Wang, Zhoujun Li(参考訳) 言語間の名前付きエンティティ認識(CrossNER)は多言語コーパスの不足による不均一なパフォーマンスに起因する課題に直面している。 これまでの取り組みは主にデータ駆動転送方式に重点を置いていたが、十分に検討されていない重要な側面は、さまざまな言語にまたがるセマンティックとトークンレベルの表現の整合である。 本稿では,言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。 具体的には、CrossNERタスクをトークンのペア間の関係を認識する問題に再構成する。 このアプローチでは、エンティティ内のトークン間接続の固有のコンテキストニュアンスを活用して、さまざまな言語にまたがる表現の調整を可能にします。 多視点のコントラスト学習フレームワークを導入し、ソース、コードスイッチ、ターゲット文間の意味的コントラスト、およびトークンとトークンの関係の間のコントラストを包含する。 セマンティックおよびリレーショナル空間内での合意を強制することにより、ソース文とコード切替およびターゲット文の相違を最小化する。 このアライメントは多様なトークン間の関係にまで拡張され、言語間のエンティティの投影が強化される。 さらに,ラベル付きソースデータとラベルなしターゲットデータとの自己学習を組み合わせることで,クロスナーをさらに強化する。 40言語にわたるXTREMEベンチマーク実験では,従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。 幅広い範囲で2.0ドル近いスコアを達成し、新たな最先端のパフォーマーとしての地位を確立している。

Cross-lingual named entity recognition (CrossNER) faces challenges stemming from uneven performance due to the scarcity of multilingual corpora, especially for non-English data. While prior efforts mainly focus on data-driven transfer methods, a significant aspect that has not been fully explored is aligning both semantic and token-level representations across diverse languages. In this paper, we propose Multi-view Contrastive Learning for Cross-lingual Named Entity Recognition (mCL-NER). Specifically, we reframe the CrossNER task into a problem of recognizing relationships between pairs of tokens. This approach taps into the inherent contextual nuances of token-to-token connections within entities, allowing us to align representations across different languages. A multi-view contrastive learning framework is introduced to encompass semantic contrasts between source, codeswitched, and target sentences, as well as contrasts among token-to-token relations. By enforcing agreement within both semantic and relational spaces, we minimize the gap between source sentences and their counterparts of both codeswitched and target sentences. This alignment extends to the relationships between diverse tokens, enhancing the projection of entities across languages. We further augment CrossNER by combining self-training with labeled source data and unlabeled target data. Our experiments on the XTREME benchmark, spanning 40 languages, demonstrate the superiority of mCL-NER over prior data-driven and model-based approaches. It achieves a substantial increase of nearly +2.0 $F_1$ scores across a broad spectrum and establishes itself as the new state-of-the-art performer.
翻訳日:2023-08-21 16:06:11 公開日:2023-08-17
# 越空計算支援フェデレーション学習のための連成電力制御とデータサイズ選択

Joint Power Control and Data Size Selection for Over-the-Air Computation Aided Federated Learning ( http://arxiv.org/abs/2308.09072v1 )

ライセンス: Link先を確認
Xuming An, Rongfei Fan, Shiyuan Zuo, Han Hu, Hai Jiang, and Ning Zhang(参考訳) フェデレーション学習(federated learning, fl)は,複数のモバイルデバイスで生成された膨大な生データを扱うための,魅力的なマシンラーニングアプローチとして登場した。 flのパラメータ集約のために、over-the-air computationはスペクトル効率の良いソリューションであり、すべてのモバイルデバイスがパラメータマップされた信号をbsに同時に送信できる。 不均一チャネルのフェージングとノイズのため、平均二乗誤差(MSE)として測定されたBSの受信信号と所望信号の間には相違がある。 MSEの最小化のために,BSとモバイルデバイスにおける信号増幅係数と,各モバイルデバイスにおけるデータサイズ(ローカルトレーニングに関わるデータサンプル数)を協調的に最適化することを提案する。 定式化問題は非凸性のため解決が難しい。 最適解を求めるには、コスト関数と変数置換を単純化し、等価性を保ちながら、変化した問題を双レベル問題に等価に変換する。 下層問題に対しては、KKT条件から全ての候補解を列挙することで最適解を求める。 上層問題に対して、最適解はその部分的凸性を探索することによって得られる。 その結果,提案手法はmseを大幅に削減でき,ベンチマーク法と比較してflのトレーニング性能を向上させることができることがわかった。

Federated learning (FL) has emerged as an appealing machine learning approach to deal with massive raw data generated at multiple mobile devices, {which needs to aggregate the training model parameter of every mobile device at one base station (BS) iteratively}. For parameter aggregating in FL, over-the-air computation is a spectrum-efficient solution, which allows all mobile devices to transmit their parameter-mapped signals concurrently to a BS. Due to heterogeneous channel fading and noise, there exists difference between the BS's received signal and its desired signal, measured as the mean-squared error (MSE). To minimize the MSE, we propose to jointly optimize the signal amplification factors at the BS and the mobile devices as well as the data size (the number of data samples involved in local training) at every mobile device. The formulated problem is challenging to solve due to its non-convexity. To find the optimal solution, with some simplification on cost function and variable replacement, which still preserves equivalence, we transform the changed problem to be a bi-level problem equivalently. For the lower-level problem, optimal solution is found by enumerating every candidate solution from the Karush-Kuhn-Tucker (KKT) condition. For the upper-level problem, the optimal solution is found by exploring its piecewise convexity. Numerical results show that our proposed method can greatly reduce the MSE and can help to improve the training performance of FL compared with benchmark methods.
翻訳日:2023-08-21 16:05:45 公開日:2023-08-17
# スパイク反強磁性ニューロンを用いたパターン認識

Pattern recognition using spiking antiferromagnetic neurons ( http://arxiv.org/abs/2308.09071v1 )

ライセンス: Link先を確認
Hannah Bradley (1), Steven Louis (2), Andrei Slavin (1), and Vasyl Tyberkevych (1) ((1) Department of Physics, Oakland University, (2) Department of Electrical Engineering, Oakland University)(参考訳) スピントロニクスデバイスは、ニューロモルフィックコンピューティングのためのナノスケールでエネルギー効率の良い人工ニューロンの開発に有望な道を提供する。 反強磁性(AFM)振動子では、生物学的ニューロンの多くの特徴を模倣する超高速な人工ニューロンが作られることが示されている。 本研究では、パターン認識を行うために、AFMニューロンのニューラルネットワークを訓練する。 スパイクパターン結合ニューロン(span)と呼ばれる単純な機械学習アルゴリズムは、ニューロンスパイクの時間的位置に依存するが、トレーニング中に使用される。 afmニューラルネットワークは、物理時間のマイクロ秒以下において、指定された時間ウィンドウ内でスパイクを生成してグリッドから成るシンボルを認識するように訓練される。 さらに、望ましくないスパイクを抑制するために出力層を追加してマルチシンボリック認識を実現する。 AFMニューロンとSPANアルゴリズムを利用して、ピコジュールの順序に基づいて、全体の消費電力で高精度な認識が可能なニューラルネットワークを構築する。

Spintronic devices offer a promising avenue for the development of nanoscale, energy-efficient artificial neurons for neuromorphic computing. It has previously been shown that with antiferromagnetic (AFM) oscillators, ultra-fast spiking artificial neurons can be made that mimic many unique features of biological neurons. In this work, we train an artificial neural network of AFM neurons to perform pattern recognition. A simple machine learning algorithm called spike pattern association neuron (SPAN), which relies on the temporal position of neuron spikes, is used during training. In under a microsecond of physical time, the AFM neural network is trained to recognize symbols composed from a grid by producing a spike within a specified time window. We further achieve multi-symbol recognition with the addition of an output layer to suppress undesirable spikes. Through the utilization of AFM neurons and the SPAN algorithm, we create a neural network capable of high-accuracy recognition with overall power consumption on the order of picojoules.
翻訳日:2023-08-21 16:05:21 公開日:2023-08-17
# BERトピックモデリングと要約によるAPIドキュメンテーションの強化

Enhancing API Documentation through BERTopic Modeling and Summarization ( http://arxiv.org/abs/2308.09070v1 )

ライセンス: Link先を確認
AmirHossein Naghshzan, Sylvie Ratte(参考訳) ソフトウェア開発を含む様々な分野のテキストデータの量は増え続けており、効率的かつ効果的な抽出と意味のある洞察の提示に対する需要が高まっている。 本稿では、アプリケーションプログラミングインタフェース(API)ドキュメントの解釈の複雑さに焦点を当て、このニーズに対処するためのユニークなアプローチを提案する。 公式APIドキュメンテーションは開発者にとって主要な情報ソースとして機能するが、広範であり、ユーザフレンドリさに欠けることが多い。 これを踏まえて、開発者はしばしばstack overflowやgithubのような非公式なソースに頼る。 我々の新しいアプローチでは、トピックモデリングと自然言語処理(NLP)にBERTopicの長所を用いて、APIドキュメントの要約を自動的に生成し、開発者が必要とする情報を抽出するより効率的な方法を作成する。 生成された要約とトピックは、そのパフォーマンス、一貫性、相互運用性に基づいて評価される。 この研究の結果は、繰り返しトピックに関する洞察を提供し、共通の問題を特定し、潜在的なソリューションを生成することによって、APIドキュメント分析の分野に寄与する。 apiドキュメント理解のアクセシビリティと効率性を改善することにより、ソフトウェア開発プロセスを強化し、複雑なapiをナビゲートするための実用的なツールを提供することを目標としています。

As the amount of textual data in various fields, including software development, continues to grow, there is a pressing demand for efficient and effective extraction and presentation of meaningful insights. This paper presents a unique approach to address this need, focusing on the complexities of interpreting Application Programming Interface (API) documentation. While official API documentation serves as a primary source of information for developers, it can often be extensive and lacks user-friendliness. In light of this, developers frequently resort to unofficial sources like Stack Overflow and GitHub. Our novel approach employs the strengths of BERTopic for topic modeling and Natural Language Processing (NLP) to automatically generate summaries of API documentation, thereby creating a more efficient method for developers to extract the information they need. The produced summaries and topics are evaluated based on their performance, coherence, and interoperability. The findings of this research contribute to the field of API documentation analysis by providing insights into recurring topics, identifying common issues, and generating potential solutions. By improving the accessibility and efficiency of API documentation comprehension, our work aims to enhance the software development process and empower developers with practical tools for navigating complex APIs.
翻訳日:2023-08-21 16:05:07 公開日:2023-08-17
# ヒトおよびllm生成テキストにおける言語パターンの対比

Contrasting Linguistic Patterns in Human and LLM-Generated Text ( http://arxiv.org/abs/2308.09067v1 )

ライセンス: Link先を確認
Alberto Mu\~noz-Ortiz and Carlos G\'omez-Rodr\'iguez and David Vilares(参考訳) LLaMa ファミリーの 4 つの LLM から出力される大きな言語モデル (LLM) に匹敵する人文英語のニューステキストに対して定量的解析を行う。 我々の分析は、形態学、統語学、心理学、社会言語学の側面を含む、いくつかの測定可能な言語次元にまたがる。 その結果、人間とAIが生成するテキストの様々な測定可能な違いが明らかになった。 例えば、人間の文章は、LLM生成テキストよりも、より散在した文の長さ分布、依存と構成型の明確な使用、短い構成成分、より攻撃的な感情(嫌悪感、嫌悪感)を示す。 LLMの出力は、人文よりも数字、記号、補助語(目的語を推奨する)が多用され、代名詞も多用される。 ヒトのテキストで広く見られる性差別バイアスもLDMによって表される。

We conduct a quantitative analysis contrasting human-written English news text with comparable large language model (LLM) output from 4 LLMs from the LLaMa family. Our analysis spans several measurable linguistic dimensions, including morphological, syntactic, psychometric and sociolinguistic aspects. The results reveal various measurable differences between human and AI-generated texts. Among others, human texts exhibit more scattered sentence length distributions, a distinct use of dependency and constituent types, shorter constituents, and more aggressive emotions (fear, disgust) than LLM-generated texts. LLM outputs use more numbers, symbols and auxiliaries (suggesting objective language) than human texts, as well as more pronouns. The sexist bias prevalent in human text is also expressed by LLMs.
翻訳日:2023-08-21 16:04:46 公開日:2023-08-17
# uplift modeling: 因果推論からパーソナライゼーションへ

Uplift Modeling: from Causal Inference to Personalization ( http://arxiv.org/abs/2308.09066v1 )

ライセンス: Link先を確認
Felipe Moraes, Hugo Manuel Proen\c{c}a, Anastasiia Kornilova, Javier Albert, Dmitri Goldenberg(参考訳) uplift modelingは、個人またはサブグループレベルで治療の因果効果を推定するための機械学習テクニックのコレクションである。 過去数年間、オンラインeコマースプラットフォームのパーソナライゼーションにおいて因果関係と上昇モデリングが重要なトレンドとなってきており、ターゲットとなるビジネスメトリックを最大化するために、ユーザ毎に最適な治療法を選択することができるようになっている。 昇降モデリングはパーソナライズされたプロモーションキャンペーンに特に有用であり、プロモーションによる潜在的な利益は潜在的なコストに対して考慮する必要がある。 このチュートリアルでは因果関係の基本概念を取り上げ,アップリフトモデリングにおける最新技術を紹介する。 我々は、異なるアプローチの利点と限界について議論し、制約付き昇降モデリングのユニークな設定を掘り下げる。 最後に、実生活アプリケーションを示し、本番環境でこれらのモデルを実装する際の課題について論じる。

Uplift modeling is a collection of machine learning techniques for estimating causal effects of a treatment at the individual or subgroup levels. Over the last years, causality and uplift modeling have become key trends in personalization at online e-commerce platforms, enabling the selection of the best treatment for each user in order to maximize the target business metric. Uplift modeling can be particularly useful for personalized promotional campaigns, where the potential benefit caused by a promotion needs to be weighed against the potential costs. In this tutorial we will cover basic concepts of causality and introduce the audience to state-of-the-art techniques in uplift modeling. We will discuss the advantages and the limitations of different approaches and dive into the unique setup of constrained uplift modeling. Finally, we will present real-life applications and discuss challenges in implementing these models in production.
翻訳日:2023-08-21 16:04:34 公開日:2023-08-17
# Hyperbolic Face Anti-Spoofing

Hyperbolic Face Anti-Spoofing ( http://arxiv.org/abs/2308.09107v1 )

ライセンス: Link先を確認
Shuangpeng Han, Rizhao Cai, Yawen Cui, Zitong Yu, Yongjian Hu, Alex Kot(参考訳) 顔認識システムのセキュリティには,プレゼンテーション攻撃に対する一般化されたフェイスアンチスプーフモデル(fas)の学習が不可欠である。 従来のfas法は、通常、同一クラス内の距離(ボナフィドまたはアタック)が接近し、ボナフィドとアタックの間の距離が引き離されるような識別的特徴を抽出するモデルを奨励する。 しかし,これらの手法はユークリッド距離に基づいて設計されており,階層埋め込み能力の低下による攻撃検出の一般化能力に欠ける。 異なるスプーフィング攻撃が本質的に階層的であることの証拠から,双曲空間においてよりリッチな階層的および識別的スプーフィング手がかりを学ぶことを提案する。 具体的には、一元的FAS学習において、特徴埋め込みはポインカーボールに投影され、双対対対数回帰層は分類のためにカスケードされる。 一般化をさらに促進するため,多様なスプーフィング攻撃に対する制約を緩和しつつ,ボナフィドに対する双曲的コントラスト学習を行う。 双曲空間における消失勾配問題を緩和するために,双曲モデルのトレーニング安定性を高めるために,新しい特徴クリッピング法を提案する。 さらに、ユークリッド型マルチモーダル特徴分解と双曲型マルチモーダル特徴融合と分類を用いたマルチモーダルFASフレームワークを設計する。 多様な攻撃型を持つ3つのベンチマークデータセット(WMCA, PADISI-Face, SiW-M)の大規模な実験により, 提案手法は, 目に見えない攻撃検出におけるユークリッドベースラインと比較して, 大幅な改善をもたらすことが示された。 さらに、提案フレームワークは、4つのベンチマークデータセット(MSU-MFSD、IDIAP REPLAY-ATTACK、CASIA-FASD、OULU-NPU)に対して、限られた数の攻撃タイプで適切に一般化されている。

Learning generalized face anti-spoofing (FAS) models against presentation attacks is essential for the security of face recognition systems. Previous FAS methods usually encourage models to extract discriminative features, of which the distances within the same class (bonafide or attack) are pushed close while those between bonafide and attack are pulled away. However, these methods are designed based on Euclidean distance, which lacks generalization ability for unseen attack detection due to poor hierarchy embedding ability. According to the evidence that different spoofing attacks are intrinsically hierarchical, we propose to learn richer hierarchical and discriminative spoofing cues in hyperbolic space. Specifically, for unimodal FAS learning, the feature embeddings are projected into the Poincar\'e ball, and then the hyperbolic binary logistic regression layer is cascaded for classification. To further improve generalization, we conduct hyperbolic contrastive learning for the bonafide only while relaxing the constraints on diverse spoofing attacks. To alleviate the vanishing gradient problem in hyperbolic space, a new feature clipping method is proposed to enhance the training stability of hyperbolic models. Besides, we further design a multimodal FAS framework with Euclidean multimodal feature decomposition and hyperbolic multimodal feature fusion & classification. Extensive experiments on three benchmark datasets (i.e., WMCA, PADISI-Face, and SiW-M) with diverse attack types demonstrate that the proposed method can bring significant improvement compared to the Euclidean baselines on unseen attack detection. In addition, the proposed framework is also generalized well on four benchmark datasets (i.e., MSU-MFSD, IDIAP REPLAY-ATTACK, CASIA-FASD, and OULU-NPU) with a limited number of attack types.
翻訳日:2023-08-21 15:57:44 公開日:2023-08-17
# マルチテラープログレッシブ蒸留による軽量物体検出器の学習

Learning Lightweight Object Detectors via Multi-Teacher Progressive Distillation ( http://arxiv.org/abs/2308.09105v1 )

ライセンス: Link先を確認
Shengcao Cao, Mengtian Li, James Hays, Deva Ramanan, Yi-Xiong Wang, Liang-Yan Gui(参考訳) エッジコンピューティングやビジョン・フォー・ロボティクスのようなリソース制約付き知覚システムは、計算とメモリ使用において正確かつ軽量なビジョンモデルを必要とする。 知識蒸留は、軽量な分類モデルの性能を高めるための実証済みの戦略であるが、そのオブジェクト検出やインスタンスセグメンテーションのような構造化アウトプットへの応用は、蒸留プロセスに関わる出力や複雑な内部ネットワークモジュールの変化のために、依然として複雑なタスクである。 本稿では,教師検出器の知識を与えられた軽量な学生に段階的に伝達する,知識蒸留のシンプルかつ驚くほど効果的なシーケンシャルアプローチを提案する。 高度に正確だが複雑な教師モデルから知識を抽出するために,学生が徐々に適応するのに役立つ一連の教師を構築した。 進歩的戦略は, 既存の検出蒸留機構と容易に組み合わせることで, 様々な場面において, 学生のパフォーマンスを一貫して最大化することができる。 我々の知る限り、私たちはTransformerベースの教師検出器から、畳み込みベースの学生に初めて知識を抽出し、ResNet-50ベースのRetinaNetを36.5%から42.0%に、Mask R-CNNを38.2%から42.5%に改善した。

Resource-constrained perception systems such as edge computing and vision-for-robotics require vision models to be both accurate and lightweight in computation and memory usage. While knowledge distillation is a proven strategy to enhance the performance of lightweight classification models, its application to structured outputs like object detection and instance segmentation remains a complicated task, due to the variability in outputs and complex internal network modules involved in the distillation process. In this paper, we propose a simple yet surprisingly effective sequential approach to knowledge distillation that progressively transfers the knowledge of a set of teacher detectors to a given lightweight student. To distill knowledge from a highly accurate but complex teacher model, we construct a sequence of teachers to help the student gradually adapt. Our progressive strategy can be easily combined with existing detection distillation mechanisms to consistently maximize student performance in various settings. To the best of our knowledge, we are the first to successfully distill knowledge from Transformer-based teacher detectors to convolution-based students, and unprecedentedly boost the performance of ResNet-50 based RetinaNet from 36.5% to 42.0% AP and Mask R-CNN from 38.2% to 42.5% AP on the MS COCO benchmark.
翻訳日:2023-08-21 15:57:08 公開日:2023-08-17
# 構造的に疎いベイズニューラルネットワークにおけるスパイクとスラブ収縮先行の包括的研究

A comprehensive study of spike and slab shrinkage priors for structurally sparse Bayesian neural networks ( http://arxiv.org/abs/2308.09104v1 )

ライセンス: Link先を確認
Sanket Jantre, Shrijita Bhattacharya, and Tapabrata Maiti(参考訳) ネットワークの複雑さと計算効率は、ディープラーニングの重要な側面になりつつある。 スパースディープラーニングは、過度にパラメータ化されたディープニューラルネットワークを減らし、基礎となるターゲット機能のスパース表現を回復することでこれらの課題に対処する。 具体的には、構造化スパーシティ(例えばノードスパーシティ)によって圧縮されたディープニューラルネットワークアーキテクチャは、低レイテンシ推論、高いデータスループット、省エネルギーを提供する。 本稿では,ベイズニューラルネットワークにおけるモデル圧縮のための2つの確立された縮小手法であるLassoとHorthshoeについて検討する。 そこで本研究では,過剰ノードを系統的にプルーピングする構造的スパースベイズニューラルネットワークを提案する。 (i)スパイク&スラブグループlasso(ss-gl)及び (II)Spike-and-Slab Group Horseshoe (SS-GHS) より先行し,ベルヌーイ変数の連続緩和を含む,計算に追従可能な変分推論を開発する。 提案手法では,ネットワークトポロジー,層毎ノード濃度,ネットワーク重みの束縛関数として,提案モデルの変分後段の収縮率を定式化する。 予測精度, モデル圧縮, 推論遅延において, ベースラインモデルと比較して, モデルの競合性能を実証的に示す。

Network complexity and computational efficiency have become increasingly significant aspects of deep learning. Sparse deep learning addresses these challenges by recovering a sparse representation of the underlying target function by reducing heavily over-parameterized deep neural networks. Specifically, deep neural architectures compressed via structured sparsity (e.g. node sparsity) provide low latency inference, higher data throughput, and reduced energy consumption. In this paper, we explore two well-established shrinkage techniques, Lasso and Horseshoe, for model compression in Bayesian neural networks. To this end, we propose structurally sparse Bayesian neural networks which systematically prune excessive nodes with (i) Spike-and-Slab Group Lasso (SS-GL), and (ii) Spike-and-Slab Group Horseshoe (SS-GHS) priors, and develop computationally tractable variational inference including continuous relaxation of Bernoulli variables. We establish the contraction rates of the variational posterior of our proposed models as a function of the network topology, layer-wise node cardinalities, and bounds on the network weights. We empirically demonstrate the competitive performance of our models compared to the baseline models in prediction accuracy, model compression, and inference latency.
翻訳日:2023-08-21 15:56:40 公開日:2023-08-17
# ImGeoNet:多視点3Dオブジェクト検出のための画像誘起幾何認識ボクセル表現

ImGeoNet: Image-induced Geometry-aware Voxel Representation for Multi-view 3D Object Detection ( http://arxiv.org/abs/2308.09098v1 )

ライセンス: Link先を確認
Tao Tu, Shun-Po Chuang, Yu-Lun Liu, Cheng Sun, Ke Zhang, Donna Roy, Cheng-Hao Kuo, Min Sun(参考訳) 画像による幾何学的ボクセル表現によって3次元空間をモデル化する多視点画像ベース3Dオブジェクト検出フレームワークImGeoNetを提案する。 幾何を考慮せずに2次元特徴を3次元ボクセルに集約する従来の手法とは異なり、ImGeoNetは自由空間のボクセルから生じる混乱を緩和するために多視点画像から幾何学を誘導することを学び、推論フェーズでは複数のビューの画像のみを必要とする。 さらに,2次元特徴抽出器の強化により,より堅牢な性能が期待できる。 ImGeoNetの有効性を評価するため,室内の3つのデータセット,すなわちARKitScenes,ScanNetV2,ScanNet200について定量的および定性的な実験を行った。 その結果、ImGeoNetは、検出精度の観点から、現在最先端のマルチビュー画像ベース手法であるImVoxelNetよりも優れていることが示された。 さらに、ImGeoNetは、40ビューしか利用せず、100ビューでImVoxelNetに匹敵する結果を達成することで、優れたデータ効率を示している。 さらに,本研究では,画像による幾何認識表現により,(1)ARKitScenesのような点雲がスパースでノイズの多いシナリオ,(2)ScanNet200のような多様なオブジェクトクラス,特に小さなオブジェクトのクラスを含むシナリオの2つの実践シナリオにおいて,画像ベースの手法が,セミナルポイントクラウドベースの方法であるVoteNetよりも優れた検出精度が得られることを示す。

We propose ImGeoNet, a multi-view image-based 3D object detection framework that models a 3D space by an image-induced geometry-aware voxel representation. Unlike previous methods which aggregate 2D features into 3D voxels without considering geometry, ImGeoNet learns to induce geometry from multi-view images to alleviate the confusion arising from voxels of free space, and during the inference phase, only images from multiple views are required. Besides, a powerful pre-trained 2D feature extractor can be leveraged by our representation, leading to a more robust performance. To evaluate the effectiveness of ImGeoNet, we conduct quantitative and qualitative experiments on three indoor datasets, namely ARKitScenes, ScanNetV2, and ScanNet200. The results demonstrate that ImGeoNet outperforms the current state-of-the-art multi-view image-based method, ImVoxelNet, on all three datasets in terms of detection accuracy. In addition, ImGeoNet shows great data efficiency by achieving results comparable to ImVoxelNet with 100 views while utilizing only 40 views. Furthermore, our studies indicate that our proposed image-induced geometry-aware representation can enable image-based methods to attain superior detection accuracy than the seminal point cloud-based method, VoteNet, in two practical scenarios: (1) scenarios where point clouds are sparse and noisy, such as in ARKitScenes, and (2) scenarios involve diverse object classes, particularly classes of small objects, as in the case in ScanNet200.
翻訳日:2023-08-21 15:56:18 公開日:2023-08-17
# コミカルキャラクタ再同定のためのアイデンティティ認識半教師付き学習

Identity-Aware Semi-Supervised Learning for Comic Character Re-Identification ( http://arxiv.org/abs/2308.09096v1 )

ライセンス: Link先を確認
G\"urkan Soykan, Deniz Yuret, Tevfik Metin Sezgin(参考訳) キャラクタの再識別は、コミックの異なるパネルにまたがるキャラクタを一貫して認識するが、注釈付きデータの制限とキャラクタの外観の複雑なバリエーションにより、重大な課題がある。 そこで本研究では, 距離学習と, 顔と体の組み合わせのコントラスト学習による新しい「アイデンティティ認識」自己スーパービジョン手法を組み合わせた, 頑健な半教師付きフレームワークを提案する。 本手法では, 顔と身体の両特徴を統合ネットワークアーキテクチャ内で処理し, 顔と身体の有効性を保ちながら, 個人識別を捉えた人物埋め込みの抽出を容易にする。 この統合キャラクタ表現は特徴抽出を強化し、パラメータ効率の良いソリューションを提供するため、顔や身体による再識別に比べて文字再識別を改善している。 本手法をin-series と inter-series 評価指標を用いて広範囲に検証することにより,漫画キャラクタの同一性確認の有効性を実証する。 既存の手法と比較して,本手法は文字再同定の課題に対処するだけでなく,顔や身体の可用性を制限せずに文字埋め込みを生成できるため,下流タスクの基盤としても機能する。 実験では、100万以上のキャラクタインスタンスからなる「Comic Character Instances Dataset」と、収集した4つの連続する漫画パネルの3000セット以上のアイデンティティのアノテーションを含む「Comic Sequence Identity Dataset」という2つの新たなデータセットを活用しました。

Character re-identification, recognizing characters consistently across different panels in comics, presents significant challenges due to limited annotated data and complex variations in character appearances. To tackle this issue, we introduce a robust semi-supervised framework that combines metric learning with a novel 'Identity-Aware' self-supervision method by contrastive learning of face and body pairs of characters. Our approach involves processing both facial and bodily features within a unified network architecture, facilitating the extraction of identity-aligned character embeddings that capture individual identities while preserving the effectiveness of face and body features. This integrated character representation enhances feature extraction and improves character re-identification compared to re-identification by face or body independently, offering a parameter-efficient solution. By extensively validating our method using in-series and inter-series evaluation metrics, we demonstrate its effectiveness in consistently re-identifying comic characters. Compared to existing methods, our approach not only addresses the challenge of character re-identification but also serves as a foundation for downstream tasks since it can produce character embeddings without restrictions of face and body availability, enriching the comprehension of comic books. In our experiments, we leverage two newly curated datasets: the 'Comic Character Instances Dataset', comprising over a million character instances and the 'Comic Sequence Identity Dataset', containing annotations of identities within more than 3000 sets of four consecutive comic panels that we collected.
翻訳日:2023-08-21 15:55:43 公開日:2023-08-17
# 画像拡散モデルによる時間整合映像の編集

Edit Temporal-Consistent Videos with Image Diffusion Model ( http://arxiv.org/abs/2308.09091v1 )

ライセンス: Link先を確認
Yuanzhi Wang, Yong Li, Xin Liu, Anbo Dai, Antoni Chan, Zhen Cui(参考訳) 大規模なテキスト・ツー・イメージ(T2I)拡散モデルが拡張され、動画編集性能が向上した。 それでも、生成されたビデオは、ビデオの時間的特性が忠実にモデル化されていないため、通常、空間的不規則性と時間的不整合を示す。 本稿では,頑健なテキスト誘導ビデオ編集における時間的不整合を緩和する,エレガントで効果的な時間的一貫性ビデオ編集手法を提案する。 空間コンテンツ操作のための事前学習された2次元unetの活用に加えて,入力映像列の時間的コヒーレンスを忠実に捉えるための専用の時間的unetアーキテクチャを構築した。 さらに、空間焦点成分と時間焦点成分とのコヒーレンス及び相互関係を確立するために、コヒーシブジョイント空間時間モデリングユニットを定式化する。 このユニットは、予め訓練された2d unetと時間的unetを効果的に相互接続し、生成されたビデオ出力の時間的一貫性を向上し、同時にビデオコンテンツ操作能力を保持する。 定量的な実験結果と可視化結果から,TCVEはビデオ時間的一貫性とビデオ編集能力の両方において,現場の既存のベンチマークを超越して最先端のパフォーマンスを達成できることを示した。

Large-scale text-to-image (T2I) diffusion models have been extended for text-guided video editing, yielding impressive zero-shot video editing performance. Nonetheless, the generated videos usually show spatial irregularities and temporal inconsistencies as the temporal characteristics of videos have not been faithfully modeled. In this paper, we propose an elegant yet effective Temporal-Consistent Video Editing (TCVE) method, to mitigate the temporal inconsistency challenge for robust text-guided video editing. In addition to the utilization of a pretrained 2D Unet for spatial content manipulation, we establish a dedicated temporal Unet architecture to faithfully capture the temporal coherence of the input video sequences. Furthermore, to establish coherence and interrelation between the spatial-focused and temporal-focused components, a cohesive joint spatial-temporal modeling unit is formulated. This unit effectively interconnects the temporal Unet with the pretrained 2D Unet, thereby enhancing the temporal consistency of the generated video output while simultaneously preserving the capacity for video content manipulation. Quantitative experimental results and visualization results demonstrate that TCVE achieves state-of-the-art performance in both video temporal consistency and video editing capability, surpassing existing benchmarks in the field.
翻訳日:2023-08-21 15:55:12 公開日:2023-08-17
# ビジュアルクェリからの音響効果検索のための言語による高品質オーディオとビデオのブリッジ

Bridging High-Quality Audio and Video via Language for Sound Effects Retrieval from Visual Queries ( http://arxiv.org/abs/2308.09089v1 )

ライセンス: Link先を確認
Julia Wilkins, Justin Salamon, Magdalena Fuentes, Juan Pablo Bello, Oriol Nieto(参考訳) ビデオ中のモーメントにマッチする適切なサウンドエフェクト(SFX)を見つけることは難しく、時間を要する作業であり、テキストメタデータの品質と完全性に大きく依存する。 ビデオフレームを直接クエリとして使用する高品質(HQ)のSFXを取得することは魅力的な方法であり、テキストメタデータへの依存を取り除き、非専門家の参入障壁を低くする。 hqオーディオ・ビジュアル・トレーニングデータの欠如により、これまでのオーディオ・ビジュアル検索の作業は、トレーニングのために様々な品質のyoutube(イン・ザ・ワイルド)ビデオに依存している。 そのため、これらのシステムがHQオーディオとプロダクション品質のビデオとをマッチングするタスクに一般化するかどうかは不明である。 そこで本研究では,(1)大規模言語モデルと基本視覚言語モデルを活用して,hq音声と映像の橋渡しを行い,高度にスケーラブルな音声と視覚のデータキュレーションパイプラインを実現すること,(2)事前学習された音声と視覚エンコーダを用いてコントラスト学習に基づく検索システムを学習すること,という,映像フレームを推奨するマルチモーダルフレームワークを提案する。 自動データキュレーションパイプラインを用いてトレーニングした本システムは,ビデオのHQ SFX検索タスクにおいて,現場データに基づいてトレーニングしたベースラインを大幅に上回ることを示す。 さらに,この課題に対してベースラインを一般化することができないが,本システムはクリーンからインザワイルドに一般化し,HQオーディオとビジュアルのペアでのみトレーニングされているにも関わらず,YouTubeビデオのデータセット上でのベースラインよりも優れている。 ユーザスタディでは,本システムで取得したSFXを,HQとIn-the-wildデータの両方において,ベースラインの67%よりも好んでいることを確認した。 最後に,モデルとデータパイプライン設計の選択が下流検索性能に与える影響を決定するため,アブレーションを提案する。 プロジェクトのWebサイトを訪れて、SFXの検索結果を聴き、閲覧してください。

Finding the right sound effects (SFX) to match moments in a video is a difficult and time-consuming task, and relies heavily on the quality and completeness of text metadata. Retrieving high-quality (HQ) SFX using a video frame directly as the query is an attractive alternative, removing the reliance on text metadata and providing a low barrier to entry for non-experts. Due to the lack of HQ audio-visual training data, previous work on audio-visual retrieval relies on YouTube (in-the-wild) videos of varied quality for training, where the audio is often noisy and the video of amateur quality. As such it is unclear whether these systems would generalize to the task of matching HQ audio to production-quality video. To address this, we propose a multimodal framework for recommending HQ SFX given a video frame by (1) leveraging large language models and foundational vision-language models to bridge HQ audio and video to create audio-visual pairs, resulting in a highly scalable automatic audio-visual data curation pipeline; and (2) using pre-trained audio and visual encoders to train a contrastive learning-based retrieval system. We show that our system, trained using our automatic data curation pipeline, significantly outperforms baselines trained on in-the-wild data on the task of HQ SFX retrieval for video. Furthermore, while the baselines fail to generalize to this task, our system generalizes well from clean to in-the-wild data, outperforming the baselines on a dataset of YouTube videos despite only being trained on the HQ audio-visual pairs. A user study confirms that people prefer SFX retrieved by our system over the baseline 67% of the time both for HQ and in-the-wild data. Finally, we present ablations to determine the impact of model and data pipeline design choices on downstream retrieval performance. Please visit our project website to listen to and view our SFX retrieval results.
翻訳日:2023-08-21 15:54:48 公開日:2023-08-17
# ディープベイズグラフネットワークを用いたエッジ特徴のモデル化

Modeling Edge Features with Deep Bayesian Graph Networks ( http://arxiv.org/abs/2308.09087v1 )

ライセンス: Link先を確認
Daniele Atzeni, Federico Errica, Davide Bacciu, Alessio Micheli(参考訳) エッジ特徴の分布をモデル化するために,グラフの深層的確率的機械学習モデルであるContextual Graph Markov Modelの拡張を提案する。 我々のアプローチはアーキテクチャであり、元のモデルで使用される離散状態へのベイズネットワークのエッジ機能を付加する。 これにより、エッジ機能がない場合でもよりリッチなグラフ表現を構築することができ、標準グラフ分類ベンチマークのパフォーマンス改善によって確認できます。 さらに,エッジ機能が基本的に重要であるグラフ回帰シナリオにおいて,提案手法の検証に成功し,学習したエッジ表現が3つのリンク予測タスクにおいて,元のモデルに対して大幅に性能が向上することを示す。 計算複雑性をエッジ数で線形に保つことにより,提案手法は大規模グラフ処理に適応できる。

We propose an extension of the Contextual Graph Markov Model, a deep and probabilistic machine learning model for graphs, to model the distribution of edge features. Our approach is architectural, as we introduce an additional Bayesian network mapping edge features into discrete states to be used by the original model. In doing so, we are also able to build richer graph representations even in the absence of edge features, which is confirmed by the performance improvements on standard graph classification benchmarks. Moreover, we successfully test our proposal in a graph regression scenario where edge features are of fundamental importance, and we show that the learned edge representation provides substantial performance improvements against the original model on three link prediction tasks. By keeping the computational complexity linear in the number of edges, the proposed model is amenable to large-scale graph processing.
翻訳日:2023-08-21 15:54:09 公開日:2023-08-17
# 生体活性予測を著しく改善する神経プロセスによるアッセイの不均質性の導入

Embracing assay heterogeneity with neural processes for markedly improved bioactivity predictions ( http://arxiv.org/abs/2308.09086v1 )

ライセンス: Link先を確認
Lucian Chan and Marcel Verdonk and Carl Poelking(参考訳) リガンドの生物活性を予測することは、コンピュータによる創薬において最も困難かつ最も重要な課題の1つである。 世界中の研究機関による長年のデータ収集とキュレーションの努力にもかかわらず、生物活性データは希少で不均一であり、正確で転送可能で堅牢な予測モデルを構築するための努力を妨げている。 実験データの本質的な変動性は、不均質性を無視してスパーシティを克服するデータ集約プラクティスによってさらに複合される。 本稿では,これらの実践の限界について論じ,異種鑑定における情報相乗効果を利用した階層的メタラーニングフレームワークを提案する。 本モデルは,従来のベースラインと比較して,多様なタンパク質標的およびアッセイタイプにまたがる親和性予測を大幅に改善することを示す。 非常に少ない観測で新しいターゲットコンテキストに迅速に適応できるため、早期段階の薬物発見において大規模な仮想スクリーニングが可能となる。

Predicting the bioactivity of a ligand is one of the hardest and most important challenges in computer-aided drug discovery. Despite years of data collection and curation efforts by research organizations worldwide, bioactivity data remains sparse and heterogeneous, thus hampering efforts to build predictive models that are accurate, transferable and robust. The intrinsic variability of the experimental data is further compounded by data aggregation practices that neglect heterogeneity to overcome sparsity. Here we discuss the limitations of these practices and present a hierarchical meta-learning framework that exploits the information synergy across disparate assays by successfully accounting for assay heterogeneity. We show that the model achieves a drastic improvement in affinity prediction across diverse protein targets and assay types compared to conventional baselines. It can quickly adapt to new target contexts using very few observations, thus enabling large-scale virtual screening in early-phase drug discovery.
翻訳日:2023-08-21 15:53:56 公開日:2023-08-17
# MovePose: モバイルおよびエッジデバイス上での高性能なヒューマンポース推定アルゴリズム

MovePose: A High-performance Human Pose Estimation Algorithm on Mobile and Edge Devices ( http://arxiv.org/abs/2308.09084v1 )

ライセンス: Link先を確認
Dongyang Yu and Haoyue Zhang and Zhirui Zhou and Wangpeng An and Yanhong Yang(参考訳) 我々は,cpu ベースのモバイルデバイス上でのリアルタイムボディポーズ推定用に設計された,最適化された軽量畳み込みニューラルネットワークである movepose を提案する。 現在のソリューションは人間の姿勢推定に十分な精度とスピードを提供しておらず、MovePoseはこのギャップに対処しています。 モバイルデバイスの姿勢推定精度を向上しつつ、リアルタイムパフォーマンスを維持することを目的としている。 このネットワークは、毎秒11フレームを超えるレートで、各個人に対して17のキーポイントを生成し、フィットネストラッキング、手話解釈、高度な移動体姿勢推定などのリアルタイムアプリケーションに適合する。 我々のMovePoseアルゴリズムはCOCO \cite{cocodata}バリデーションデータセットで平均平均精度(mAP)スコア67.7に達した。 MovePoseアルゴリズムは、Intel i9-10920x CPU上で動作する場合、効率は69フレーム/秒(fps)以上であった。 さらに、NVIDIA RTX3090 GPU上で452以上のfpsのパフォーマンスも向上した。 Snapdragon 8 + 4Gプロセッサを搭載したAndroidスマートフォンでは、fpsは11.7GHz以上に達した。 精度を高めるために,デコンボリューション,大規模カーネル畳み込み,座標分類という3つの手法を取り入れた。 基本的なアップサンプリングと比較して、デコンボリューションはトレーニング可能で、モデルのキャパシティが向上し、レセプティブフィールドが強化される。 大きなカーネルの畳み込みは計算コストを下げてこれらの特性を強化する。 要約すると、MovePoseは高精度でリアルタイムのパフォーマンスを提供しており、モバイル側の人間の姿勢推定など、さまざまなアプリケーションにとって潜在的なツールである。 このアルゴリズムのコードとモデルは、公開アクセス可能である。

We present MovePose, an optimized lightweight convolutional neural network designed specifically for real-time body pose estimation on CPU-based mobile devices. The current solutions do not provide satisfactory accuracy and speed for human posture estimation, and MovePose addresses this gap. It aims to maintain real-time performance while improving the accuracy of human posture estimation for mobile devices. The network produces 17 keypoints for each individual at a rate exceeding 11 frames per second, making it suitable for real-time applications such as fitness tracking, sign language interpretation, and advanced mobile human posture estimation. Our MovePose algorithm has attained an Mean Average Precision (mAP) score of 67.7 on the COCO \cite{cocodata} validation dataset. The MovePose algorithm displayed efficiency with a performance of 69+ frames per second (fps) when run on an Intel i9-10920x CPU. Additionally, it showcased an increased performance of 452+ fps on an NVIDIA RTX3090 GPU. On an Android phone equipped with a Snapdragon 8 + 4G processor, the fps reached above 11. To enhance accuracy, we incorporated three techniques: deconvolution, large kernel convolution, and coordinate classification methods. Compared to basic upsampling, deconvolution is trainable, improves model capacity, and enhances the receptive field. Large kernel convolution strengthens these properties at a decreased computational cost. In summary, MovePose provides high accuracy and real-time performance, marking it a potential tool for a variety of applications, including those focused on mobile-side human posture estimation. The code and models for this algorithm will be made publicly accessible.
翻訳日:2023-08-21 15:53:40 公開日:2023-08-17
# EgoSchema: 非常に長いビデオ言語理解のための診断ベンチマーク

EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding ( http://arxiv.org/abs/2308.09126v1 )

ライセンス: Link先を確認
Karttikeya Mangalam, Raiymbek Akshulakov, Jitendra Malik(参考訳) EgoSchemaは、非常に長いビデオ質問応答データセットであり、現代の視覚と言語システムの長いビデオ理解能力を評価するためのベンチマークである。 Ego4Dから派生したEgoSchemaは、5000人以上の人間のキュレートされた複数の質問応答ペアで構成され、250時間以上の実際のビデオデータにまたがる。 質問ごとに、egoschemaは3分間のビデオクリップに基づいて5つの選択肢の中から正しい答えを選択する必要がある。 いくつかの先行研究ではクリップ長の長いビデオデータセットを提案しているが、ビデオクリップの長さだけは検討中のビデオタスクの時間的難易度を実際に捉えるものではないと仮定する。 そこで,本稿では,映像理解タスクとデータセットに付随する時間的理解長を捉えるための一般的な概念であるtemporal certificate setsを紹介する。 この測定値に基づいて、EgoSchemaは第2の最も近いデータセットの5.7倍、他のビデオ理解データセットの10倍から100倍の時間長を持つ。 さらに,最新の映像モデルと言語モデルをいくつか評価した結果,長期的な映像理解能力の欠如が示唆された。 数十億のパラメータを持つモデルでさえ、EgoSchemaのマルチ選択質問応答タスクで33%未満(ランダムは20%)の精度を達成する一方、人間は約76%の精度を達成する。 我々は,その時間構造と複雑さが長い \name{}{} が,将来有効な長期ビデオ理解システムを構築する上で有用な評価プローブとなることを示唆する。 データとゼロショットモデルの評価コードは、http://egoschema.github.ioのego4dライセンスの下で、パブリックと商用の両方でオープンソース化されている。

We introduce EgoSchema, a very long-form video question-answering dataset, and benchmark to evaluate long video understanding capabilities of modern vision and language systems. Derived from Ego4D, EgoSchema consists of over 5000 human curated multiple choice question answer pairs, spanning over 250 hours of real video data, covering a very broad range of natural human activity and behavior. For each question, EgoSchema requires the correct answer to be selected between five given options based on a three-minute-long video clip. While some prior works have proposed video datasets with long clip lengths, we posit that merely the length of the video clip does not truly capture the temporal difficulty of the video task that is being considered. To remedy this, we introduce temporal certificate sets, a general notion for capturing the intrinsic temporal understanding length associated with a broad range of video understanding tasks & datasets. Based on this metric, we find EgoSchema to have intrinsic temporal lengths over 5.7x longer than the second closest dataset and 10x to 100x longer than any other video understanding dataset. Further, our evaluation of several current state-of-the-art video and language models shows them to be severely lacking in long-term video understanding capabilities. Even models with several billions of parameters achieve QA accuracy less than 33% (random is 20%) on the EgoSchema multi-choice question answering task, while humans achieve about 76% accuracy. We posit that \name{}{}, with its long intrinsic temporal structures and diverse complexity, would serve as a valuable evaluation probe for developing effective long-term video understanding systems in the future. Data and Zero-shot model evaluation code are open-sourced for both public and commercial use under the Ego4D license at http://egoschema.github.io
翻訳日:2023-08-21 15:47:41 公開日:2023-08-17
# トランスフォーマー言語モデルにおける関係復号の線形性

Linearity of Relation Decoding in Transformer Language Models ( http://arxiv.org/abs/2308.09124v1 )

ライセンス: Link先を確認
Evan Hernandez, Arnab Sen Sharma, Tal Haklay, Kevin Meng, Martin Wattenberg, Jacob Andreas, Yonatan Belinkov, David Bau(参考訳) トランスフォーマー言語モデル(lms)にエンコードされる知識の多くは、単語とその同義語、エンティティとその属性の関係など、関係性の観点から表現することができる。 関係のサブセットに対して、この計算は対象表現上の単一の線型変換によって近似されることを示す。 線形関係表現は、単一のプロンプトからlmへの一階近似を構築して得られることができ、それらは様々な事実的、常識的、言語的関係に対して存在する。 しかし,lm予測が関係知識を正確にとらえるケースが多数存在するが,その知識が表現に線形符号化されていない。 この結果から,トランスフォーマLMにおける知識表現戦略は単純かつ解釈可能であるが,不均一に展開されていることがわかった。

Much of the knowledge encoded in transformer language models (LMs) may be expressed in terms of relations: relations between words and their synonyms, entities and their attributes, etc. We show that, for a subset of relations, this computation is well-approximated by a single linear transformation on the subject representation. Linear relation representations may be obtained by constructing a first-order approximation to the LM from a single prompt, and they exist for a variety of factual, commonsense, and linguistic relations. However, we also identify many cases in which LM predictions capture relational knowledge accurately, but this knowledge is not linearly encoded in their representations. Our results thus reveal a simple, interpretable, but heterogeneously deployed knowledge representation strategy in transformer LMs.
翻訳日:2023-08-21 15:47:07 公開日:2023-08-17
# ハイブリッド量子古典アルゴリズムを用いた量子コンピュータ上の集合ニュートリノ振動

Collective neutrino oscillations on a quantum computer with hybrid quantum-classical algorithm ( http://arxiv.org/abs/2308.09123v1 )

ライセンス: Link先を確認
Pooja Siwach, Kaytlin Harrison, A. Baha Balantekin(参考訳) 量子コンピュータ上の2フレバー設定における集団ニュートリノ振動の時間発展をシミュレートする。 時間依存ハミルトン力学へのトロッタースズキ近似の一般化について検討する。 さらに、2ビットのユニタリゲート U $\in$ SU (4) を最小数の制御NOT (CNOT) ゲートでカータン分解することにより、アルゴリズムをハードウェアノイズに対してより耐性のあるものにする。 ノイズの多い中間スケール量子(nisq)デバイス上での問題を解決するため、より効率的なハイブリッド量子古典アルゴリズムも研究されている。

We simulate the time evolution of collective neutrino oscillations in two-flavor settings on a quantum computer. We explore the generalization of Trotter-Suzuki approximation to time-dependent Hamiltonian dynamics. The trotterization steps are further optimized using the Cartan decomposition of two-qubit unitary gates U $\in$ SU (4) in the minimum number of controlled-NOT (CNOT) gates making the algorithm more resilient to the hardware noise. A more efficient hybrid quantum-classical algorithm is also explored to solve the problem on noisy intermediate-scale quantum (NISQ) devices.
翻訳日:2023-08-21 15:46:56 公開日:2023-08-17
# ポイントプロセスを用いたRCBの定式化

RTB Formulation Using Point Process ( http://arxiv.org/abs/2308.09122v1 )

ライセンス: Link先を確認
Seong Jin Lee, Bumsik Kim(参考訳) 本稿では,ポイントプロセスを用いたリアルタイム入札(rtb)エコシステムにおける繰り返しオークションのモデル化のための一般的な確率的枠組みを提案する。 フレームワークの柔軟性は、プレイヤーに提供する情報の設定、オークションの勝者の決定、各オークションから得られるユーティリティの定量化など、さまざまなオークションシナリオを可能にする。 本稿では,このプロセスの定式化がpoisson pointプロセスにどのように近似できるかに関する理論的結果を提案する。 この枠組みでは,プレイヤーの最適戦略を様々なシナリオで指定する。 また,限界分布を個別に見積もるのではなく,実用性と市場状態の同時分布を考えることが重要であることも強調する。

We propose a general stochastic framework for modelling repeated auctions in the Real Time Bidding (RTB) ecosystem using point processes. The flexibility of the framework allows a variety of auction scenarios including configuration of information provided to player, determination of auction winner and quantification of utility gained from each auctions. We propose theoretical results on how this formulation of process can be approximated to a Poisson point process, which enables the analyzer to take advantage of well-established properties. Under this framework, we specify the player's optimal strategy under various scenarios. We also emphasize that it is critical to consider the joint distribution of utility and market condition instead of estimating the marginal distributions independently.
翻訳日:2023-08-21 15:46:47 公開日:2023-08-17
# ICAR:画像による補足型自動推論

ICAR: Image-based Complementary Auto Reasoning ( http://arxiv.org/abs/2308.09119v1 )

ライセンス: Link先を確認
Xijun Wang, Anqi Liang, Junbang Liang, Ming Lin, Yu Lou, Shan Yang(参考訳) Scene-aware Complementary Item Retrieval (CIR)は、ドメイン間で互換性のある項目のセットを生成する必要がある難しいタスクである。 主観性のため、データ収集と学習目的の両方の厳密な基準を設定することは困難である。 この課題に対処するために,類似性(色,幾何学,テクスチャなど)と相補性(テーブルとチェアがグループを完結させるような異なる項目)からなる視覚的相性概念を提案する。 この概念に基づいて、クロスドメインな視覚的類似性入力と自動回帰的補完アイテム生成を備えた視覚的「シーンベース・セット整合性推論」のための整合性学習フレームワーク、カテゴリー対応フレキシブル双方向変換器(FBT)を提案する。 本稿では,フレキシブルマスク付きエンコーダ,カテゴリ予測アーム,自動回帰視覚埋め込み予測アームを備えた「フレキシブル双方向変換器(FBT)」を提案する。 そしてfbtの入力は、クロスドメインの視覚的類似性不変埋め込みであり、このフレームワークは、かなり一般化できる。 さらに,提案するFBTモデルは,大規模なシーン画像からオブジェクト間の互換性を自己監督的に学習する。 sota法と比較して、このアプローチはフィッブスコアで最大5.3%と9.6%、ファッションと家具でそれぞれ22.3%と31.8%のsid改善を達成している。

Scene-aware Complementary Item Retrieval (CIR) is a challenging task which requires to generate a set of compatible items across domains. Due to the subjectivity, it is difficult to set up a rigorous standard for both data collection and learning objectives. To address this challenging task, we propose a visual compatibility concept, composed of similarity (resembling in color, geometry, texture, and etc.) and complementarity (different items like table vs chair completing a group). Based on this notion, we propose a compatibility learning framework, a category-aware Flexible Bidirectional Transformer (FBT), for visual "scene-based set compatibility reasoning" with the cross-domain visual similarity input and auto-regressive complementary item generation. We introduce a "Flexible Bidirectional Transformer (FBT)" consisting of an encoder with flexible masking, a category prediction arm, and an auto-regressive visual embedding prediction arm. And the inputs for FBT are cross-domain visual similarity invariant embeddings, making this framework quite generalizable. Furthermore, our proposed FBT model learns the inter-object compatibility from a large set of scene images in a self-supervised way. Compared with the SOTA methods, this approach achieves up to 5.3% and 9.6% in FITB score and 22.3% and 31.8% SFID improvement on fashion and furniture, respectively.
翻訳日:2023-08-21 15:46:35 公開日:2023-08-17
# MaScQA:大規模言語モデルの材料科学知識調査のための質問応答データセット

MaScQA: A Question Answering Dataset for Investigating Materials Science Knowledge of Large Language Models ( http://arxiv.org/abs/2308.09115v1 )

ライセンス: Link先を確認
Mohd Zaki, Jayadeva, Mausam, N. M. Anoop Krishnan(参考訳) 資料発見を高速化する徹底的な知識基盤の構築には,資料文献からの情報抽出とテキスト理解が不可欠である。 言語モデルは、ドメイン固有の質問に答え、知識ベースから情報を取得する能力を示した。 しかし、これらの言語モデルによる重要な概念の理解を評価することのできるベンチマークデータセットは、材料領域には存在しない。 そこで本研究では,材料領域からの課題650項目のデータセットを収集し,学部を修了した教材学生の知識と技能を必要とする。 我々はこれらの質問を,その構造と材料科学領域に基づくサブカテゴリに基づいて分類する。 さらに,gpt-3.5とgpt-4モデルの性能をゼロショットと思考プロンプトの連鎖によって評価した。 GPT-4はGPT-3.5と比較して最高の性能(約62%の精度)を示す。 興味深いことに、一般的な観察とは対照的に、思考の連鎖によって精度が著しく向上することはない。 この限界を評価するために,llmの性能低下に対する計算誤差 (~36%) に対して,概念的エラー (~64%) を主要な貢献者とした誤差解析を行った。 本研究で行ったデータセットと分析により,より優れた材料科学分野固有のLCMと情報抽出戦略の開発が促進されることを期待する。

Information extraction and textual comprehension from materials literature are vital for developing an exhaustive knowledge base that enables accelerated materials discovery. Language models have demonstrated their capability to answer domain-specific questions and retrieve information from knowledge bases. However, there are no benchmark datasets in the materials domain that can evaluate the understanding of the key concepts by these language models. In this work, we curate a dataset of 650 challenging questions from the materials domain that require the knowledge and skills of a materials student who has cleared their undergraduate degree. We classify these questions based on their structure and the materials science domain-based subcategories. Further, we evaluate the performance of GPT-3.5 and GPT-4 models on solving these questions via zero-shot and chain of thought prompting. It is observed that GPT-4 gives the best performance (~62% accuracy) as compared to GPT-3.5. Interestingly, in contrast to the general observation, no significant improvement in accuracy is observed with the chain of thought prompting. To evaluate the limitations, we performed an error analysis, which revealed conceptual errors (~64%) as the major contributor compared to computational errors (~36%) towards the reduced performance of LLMs. We hope that the dataset and analysis performed in this work will promote further research in developing better materials science domain-specific LLMs and strategies for information extraction.
翻訳日:2023-08-21 15:46:08 公開日:2023-08-17
# 大規模地質炭素貯蔵の高速モデリングのための多次元フーリエニューラルオペレータ

Multi-fidelity Fourier Neural Operator for Fast Modeling of Large-Scale Geological Carbon Storage ( http://arxiv.org/abs/2308.09113v1 )

ライセンス: Link先を確認
Hewei Tang1, Qingkai Kong1 and Joseph P. Morris1(参考訳) 深層学習に基づくサロゲートモデルが地熱炭素貯蔵(GCS)問題に広く応用され、貯水池圧力の予測とCO2配管の移動が加速された。 このプロセスに関連する複雑な物理的挙動を正確に予測するために、物理ベースの数値シミュレーターからの大量のデータが必要である。 実際、利用可能なトレーニングデータは、高い計算コストのために、常に大規模な3D問題に制限される。 そこで本研究では,より安価なマルチフィデリティトレーニングデータセットを用いて,大規模gcs問題を解決するためのマルチフィデリティフーリエニューラルネットワークを提案する。 Fourier Neural Operatorは望ましいグリッド不変性を持ち、異なる離散化を持つデータセット間の転送学習手順を単純化する。 まず,gcs貯留層モデルを110kグリッドセルに離散化したモデルの有効性を検証した。 マルチ忠実度モデルは、同じ量の高忠実度データを81%のコストでトレーニングした高忠実度モデルに匹敵する精度で予測できる。 さらに,100万個の格子セルの微細な離散化を伴う同一貯水池モデル上での多重忠実度モデルの一般化性を検証した。 このケースは、異なる地球統計モデルと貯水池シミュレータによって生成された高忠実度と低忠実度データセットを使用することでより困難になった。 高忠実度データが極端に制限された場合でも、多忠実度FNOモデルが妥当な精度で圧力場を予測できることを観察する。

Deep learning-based surrogate models have been widely applied in geological carbon storage (GCS) problems to accelerate the prediction of reservoir pressure and CO2 plume migration. Large amounts of data from physics-based numerical simulators are required to train a model to accurately predict the complex physical behaviors associated with this process. In practice, the available training data are always limited in large-scale 3D problems due to the high computational cost. Therefore, we propose to use a multi-fidelity Fourier Neural Operator to solve large-scale GCS problems with more affordable multi-fidelity training datasets. The Fourier Neural Operator has a desirable grid-invariant property, which simplifies the transfer learning procedure between datasets with different discretization. We first test the model efficacy on a GCS reservoir model being discretized into 110k grid cells. The multi-fidelity model can predict with accuracy comparable to a high-fidelity model trained with the same amount of high-fidelity data with 81% less data generation costs. We further test the generalizability of the multi-fidelity model on a same reservoir model with a finer discretization of 1 million grid cells. This case was made more challenging by employing high-fidelity and low-fidelity datasets generated by different geostatistical models and reservoir simulators. We observe that the multi-fidelity FNO model can predict pressure fields with reasonable accuracy even when the high-fidelity data are extremely limited.
翻訳日:2023-08-21 15:45:46 公開日:2023-08-17
# dct領域空間フリクエンシャルトランスによるjpeg量子化係数の回復

JPEG Quantized Coefficient Recovery via DCT Domain Spatial-Frequential Transformer ( http://arxiv.org/abs/2308.09110v1 )

ライセンス: Link先を確認
Mingyu Ouyang, Zhenzhong Chen(参考訳) JPEG圧縮は、離散コサイン変換(DCT)係数の量子化を有効ビットレート低減に適用する一方、量子化は重要な画像の詳細を著しく失われる可能性がある。 周波数領域における圧縮JPEG画像の復元は、画素領域で開発された多くの復元アプローチに加えて、近年ますます注目されている。 しかし、現在のDCT領域法は、一般的に、幅広い圧縮品質要素を扱う場合や、疎量子化係数と異なる色空間にまたがる成分を回収する場合に、限られた効果を被る。 これらの課題に対処するために,dctransformer と呼ばれる dct 領域空間ベクトル変換器を提案する。 具体的には、DCT係数内の空間的および頻繁な相関を捉えるために、デュアルブランチアーキテクチャを設計する。 さらに, 量子化行列埋め込みの操作により, 単一モデルで幅広い品質因子を効果的に処理できるとともに, 異なるサイズの輝度成分と色成分を整合させる統一特徴マップを生成する輝度・色アライメントヘッドを組み込んだ。 提案するDCTransformerは,現在最先端のJPEGアーティファクト除去技術よりも優れていることを示す。

JPEG compression adopts the quantization of Discrete Cosine Transform (DCT) coefficients for effective bit-rate reduction, whilst the quantization could lead to a significant loss of important image details. Recovering compressed JPEG images in the frequency domain has attracted more and more attention recently, in addition to numerous restoration approaches developed in the pixel domain. However, the current DCT domain methods typically suffer from limited effectiveness in handling a wide range of compression quality factors, or fall short in recovering sparse quantized coefficients and the components across different colorspace. To address these challenges, we propose a DCT domain spatial-frequential Transformer, named as DCTransformer. Specifically, a dual-branch architecture is designed to capture both spatial and frequential correlations within the collocated DCT coefficients. Moreover, we incorporate the operation of quantization matrix embedding, which effectively allows our single model to handle a wide range of quality factors, and a luminance-chrominance alignment head that produces a unified feature map to align different-sized luminance and chrominance components. Our proposed DCTransformer outperforms the current state-of-the-art JPEG artifact removal techniques, as demonstrated by our extensive experiments.
翻訳日:2023-08-21 15:45:22 公開日:2023-08-17
# LOWESAを用いた量子系の古典的代理シミュレーション

Classical surrogate simulation of quantum systems with LOWESA ( http://arxiv.org/abs/2308.09109v1 )

ライセンス: Link先を確認
Manuel S. Rudolph, Enrico Fontana, Zo\"e Holmes, Lukasz Cincio(参考訳) 量子系を忠実にシミュレートするための古典的アルゴリズムとしてlowesaを導入する。 代理ランドスケープを構築するための初期オーバーヘッドの後、ハミルトンの家族、初期状態、および観測可能な対象を迅速に研究することができる。 ケーススタディとして、nature 618, 500-505 (2023) で最近提示された20のトロッターステップを持つ重ヘキサゴン格子上の127量子ビット横場イジング量子系をシミュレートした。 具体的には、ヘビーヘックスのIsingモデルにまたがる期待の全体像を、およそ(ラップトップ上では数分から数時間で)再構築します。 与えられたオブザーバブルの期待値は、異なるパラメータ値、すなわち異なるオンサイト磁場と結合強度で、ラップトップ上で1秒の分数で評価することができる。 このことは、LOWESAが量子シミュレーションタスクにおける最先端のパフォーマンスを達成でき、幅広いシステムを素早くスキャンするアルゴリズムとして選択できる可能性を強調している。

We introduce LOWESA as a classical algorithm for faithfully simulating quantum systems via a classically constructed surrogate expectation landscape. After an initial overhead to build the surrogate landscape, one can rapidly study entire families of Hamiltonians, initial states and target observables. As a case study, we simulate the 127-qubit transverse-field Ising quantum system on a heavy-hexagon lattice with up to 20 Trotter steps which was recently presented in Nature 618, 500-505 (2023). Specifically, we approximately reconstruct (in minutes to hours on a laptop) the entire expectation landscape spanned by the heavy-hex Ising model. The expectation of a given observable can then be evaluated at different parameter values, i.e. with different onsite magnetic fields and coupling strengths, in fractions of a second on a laptop. This highlights that LOWESA can attain state-of-the-art performance in quantum simulation tasks, with the potential to become the algorithm of choice for scanning a wide range of systems quickly.
翻訳日:2023-08-21 15:44:59 公開日:2023-08-17
# 自動肘検出のためのスペクトル情報基準

Spectral information criterion for automatic elbow detection ( http://arxiv.org/abs/2308.09108v1 )

ライセンス: Link先を確認
L. Martino, R. San Millan-Castillo, E. Morgado(参考訳) 本稿では,ベイズ情報基準 (bic) やアカイケ情報基準 (aic) など,他のよく知られた情報基準を含む一般化情報基準を特別に導入する。 さらに、提案したスペクトル情報基準(SIC)は、例えば、確率関数の知識が厳密に要求されないため、他の情報基準よりも一般的である。 SICは誤差曲線の幾何学的特徴を抽出し、結果として自動肘検出器とみなすことができる。 SICは全ての可能なモデルのサブセットを提供し、しばしば可能なモデルの総数よりもはるかに小さい基数を持つ。 この部分集合の要素は誤差曲線の肘である。 肘のセット内でユニークなモデルを選択するための実践的なルールも提案されている。 sicの理論的不変性を分析する。 さらに、常に最適な結果を提供する理想的なシナリオでSICをテストする。 また、合成データを含むいくつかの数値実験と、実際のデータセットを含む2つの実験でSICをテストする。 これらはすべて、クラスタ化、変数選択、多項式順序選択といった現実世界のアプリケーションです。 その結果,提案手法の利点が示された。 実験に関連するMatlabコードも提供されている。 将来の研究方針が最終的に議論される。

We introduce a generalized information criterion that contains other well-known information criteria, such as Bayesian information Criterion (BIC) and Akaike information criterion (AIC), as special cases. Furthermore, the proposed spectral information criterion (SIC) is also more general than the other information criteria, e.g., since the knowledge of a likelihood function is not strictly required. SIC extracts geometric features of the error curve and, as a consequence, it can be considered an automatic elbow detector. SIC provides a subset of all possible models, with a cardinality that often is much smaller than the total number of possible models. The elements of this subset are elbows of the error curve. A practical rule for selecting a unique model within the sets of elbows is suggested as well. Theoretical invariance properties of SIC are analyzed. Moreover, we test SIC in ideal scenarios where provides always the optimal expected results. We also test SIC in several numerical experiments: some involving synthetic data, and two experiments involving real datasets. They are all real-world applications such as clustering, variable selection, or polynomial order selection, to name a few. The results show the benefits of the proposed scheme. Matlab code related to the experiments is also provided. Possible future research lines are finally discussed.
翻訳日:2023-08-21 15:44:39 公開日:2023-08-17
# ZhiJian: 事前トレーニングされたモデル再利用のための統一的で迅速なデプロイ可能なツールボックス

ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model Reuse ( http://arxiv.org/abs/2308.09158v1 )

ライセンス: Link先を確認
Yi-Kai Zhang, Lu Ren, Chao Yi, Qi-Wei Wang, De-Chuan Zhan, Han-Jia Ye(参考訳) 基礎学習モデルとその微調整モデルの急速な拡張は、機械学習の進歩に大きく貢献している。 モデル再利用(model reuse)と呼ばれる現実のタスクにおける知識の抽出と迅速な学習に事前学習されたモデルを活用することは、様々なアプリケーションにおいて重要になっている。 以前の研究は、モデル重み、構造、仮説空間の再利用を含む、ある特定の側面におけるモデルの再利用に焦点を当てていた。 本稿では,pytorchバックエンドを利用したモデル再利用のための包括的かつユーザフレンドリーなツールボックスであるzhijianを紹介する。 ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、PTMに基づく推論など、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。 これにより、ディープラーニングの実践者は、下流のタスクを探索し、異なるメソッド間の相補的なアドバンテージを特定することができる。 ZhiJianはhttps://github.com/zhangyikaii/lamda-zhijianで簡単にアクセスでき、事前トレーニングされたモデルのシームレスな利用と、研究者や開発者のモデルの再利用プロセスを合理化することができる。

The rapid expansion of foundation pre-trained models and their fine-tuned counterparts has significantly contributed to the advancement of machine learning. Leveraging pre-trained models to extract knowledge and expedite learning in real-world tasks, known as "Model Reuse", has become crucial in various applications. Previous research focuses on reusing models within a certain aspect, including reusing model weights, structures, and hypothesis spaces. This paper introduces ZhiJian, a comprehensive and user-friendly toolbox for model reuse, utilizing the PyTorch backend. ZhiJian presents a novel paradigm that unifies diverse perspectives on model reuse, encompassing target architecture construction with PTM, tuning target model with PTM, and PTM-based inference. This empowers deep learning practitioners to explore downstream tasks and identify the complementary advantages among different methods. ZhiJian is readily accessible at https://github.com/zhangyikaii/lamda-zhijian facilitating seamless utilization of pre-trained models and streamlining the model reuse process for researchers and developers.
翻訳日:2023-08-21 15:37:21 公開日:2023-08-17
# 健康関連社会談話における情報探索イベントの特徴付け

Characterizing Information Seeking Events in Health-Related Social Discourse ( http://arxiv.org/abs/2308.09156v1 )

ライセンス: Link先を確認
Omar Sharif, Madhusudan Basak, Tanzia Parvin, Ava Scharfstein, Alphonso Bradham, Jacob T. Borodovsky, Sarah E. Lord, Sarah Masud Preum(参考訳) ソーシャルメディアサイトは、個人が健康情報を探し、共有するための人気のあるプラットフォームになっている。 ソーシャルメディアマイニングにおける自然言語処理の進歩にもかかわらず、イベントの文脈における社会談話に関する健康関連テキストの分析にはギャップが残っている。 イベント駆動分析は、治療の選択肢、誤解、知識のギャップなど、個別および集団レベルでの医療のさまざまな側面に対する洞察を提供する。 本稿では,社会談話における健康関連情報探索を,イベントのレンズを通して特徴付けるパラダイムを提案する。 ここでのイベントは、治療/治療の軌跡を捉えるドメインの専門家によって定義されたボードカテゴリである。 このアプローチの価値を説明するために、世界的健康問題であるオピオイド使用障害(oud)に対する薬物に関するreddit投稿を分析した。 我々の知る限りでは、OUD社会談話における情報探索を特徴付けるイベントカテゴリを初めて定義する試みである。 ドメインの専門家がガイドしたTREAT-ISEは、イベントベースのフレームワーク上でオンライン談話を分析するための、新しいマルチラベル処理情報検索イベントデータセットである。 このデータセットには、OUDからのリカバリに関連する情報検索イベントに関するRedditの記事が含まれている。 また、複数の機械学習とディープラーニング分類器を用いて、タスクのパフォーマンスベンチマーク(77.4%のF1スコア)を確立する。 最後に、この課題におけるChatGPTの性能と誤りを徹底的に調査し、LCMの能力と現在進行中のキャラクタリゼーションの取り組みに関する貴重な洞察を提供する。

Social media sites have become a popular platform for individuals to seek and share health information. Despite the progress in natural language processing for social media mining, a gap remains in analyzing health-related texts on social discourse in the context of events. Event-driven analysis can offer insights into different facets of healthcare at an individual and collective level, including treatment options, misconceptions, knowledge gaps, etc. This paper presents a paradigm to characterize health-related information-seeking in social discourse through the lens of events. Events here are board categories defined with domain experts that capture the trajectory of the treatment/medication. To illustrate the value of this approach, we analyze Reddit posts regarding medications for Opioid Use Disorder (OUD), a critical global health concern. To the best of our knowledge, this is the first attempt to define event categories for characterizing information-seeking in OUD social discourse. Guided by domain experts, we develop TREAT-ISE, a novel multilabel treatment information-seeking event dataset to analyze online discourse on an event-based framework. This dataset contains Reddit posts on information-seeking events related to recovery from OUD, where each post is annotated based on the type of events. We also establish a strong performance benchmark (77.4% F1 score) for the task by employing several machine learning and deep learning classifiers. Finally, we thoroughly investigate the performance and errors of ChatGPT on this task, providing valuable insights into the LLM's capabilities and ongoing characterization efforts.
翻訳日:2023-08-21 15:36:59 公開日:2023-08-17
# 自動校正可能なユニバーサルフォトニック回路:ハードウェアエラー補正と欠陥レジリエンス

Auto-calibrating Universal Programmable Photonic Circuits: Hardware Error-Correction and Defect Resilience ( http://arxiv.org/abs/2308.09151v1 )

ライセンス: Link先を確認
Matthew Markowitz, Kevin Zelaya, Mohammad-Ali Miri(参考訳) 離散的な$N\times N$線形ユニタリ作用素は、DrFT (Disdisrete Fractional Fourier Transform) のような固定されたインターベンティング演算子で$N+1$位相シフト層をインターレースすることで表現できることが最近示されている。 ここでは,干渉操作に摂動を導入することは,このアーキテクチャの普遍性を損なわないことを示す。 さらに,本アーキテクチャは,各層に複数の欠陥位相シフタが存在する限り,位相シフタの欠陥に対してレジリエントであることを示す。 これらの特性は、そのような普遍フォトニック回路のファブリケーション後の自動校正を可能にし、位相成分の加工誤差と欠陥を効果的に補償する。

It is recently shown that discrete $N\times N$ linear unitary operators can be represented by interlacing $N+1$ phase shift layers with a fixed intervening operator such as Discrete Fractional Fourier Transform (DFrFT). Here, we show that introducing perturbations to the intervening operations does not compromise the universality of this architecture. Furthermore, we show that this architecture is resilient to defects in the phase shifters as long as no more than one faulty phase shifter is present in each layer. These properties enable post-fabrication auto-calibration of such universal photonic circuits, effectively compensating for fabrication errors and defects in phase components.
翻訳日:2023-08-21 15:36:35 公開日:2023-08-17
# 実験およびシミュレーションデータ融合による高精度機械学習力場

Accurate machine learning force fields via experimental and simulation data fusion ( http://arxiv.org/abs/2308.09142v1 )

ライセンス: Link先を確認
Sebastien R\"ocken and Julija Zavadlav(参考訳) 機械学習(ML)ベースの力場は、量子レベルの精度で古典的原子間ポテンシャルの時空間スケールにまたがる能力によって、ますます関心が高まりつつある。 それらは高忠実度シミュレーションや実験に基づいてトレーニングすることができる。 しかし、両方のアプローチは、よく知られた実験的な観察に一致しないモデルや、制約が下にあり、いくつかの特性しか再現できないモデルによって、希少かつ誤ったデータによって損なわれている。 ここでは密度汎関数理論(dft)の計算と実験的に測定した力学特性と格子パラメータを利用してチタンのmlポテンシャルを訓練する。 本研究では,融合したデータ学習戦略がすべての目標を同時に満たし,単一のデータソースで訓練されたモデルよりも高い精度の分子モデルを実現することを実証する。 対象とする実験特性におけるDFT関数の不正確さを補正し, 調査対象外特性は未成熟のままであった。 本手法は,あらゆる材料に適用可能であり,高精度なmlポテンシャルを得るための汎用的戦略として機能する。

Machine Learning (ML)-based force fields are attracting ever-increasing interest due to their capacity to span spatiotemporal scales of classical interatomic potentials at quantum-level accuracy. They can be trained based on high-fidelity simulations or experiments, the former being the common case. However, both approaches are impaired by scarce and erroneous data resulting in models that either do not agree with well-known experimental observations or are under-constrained and only reproduce some properties. Here we leverage both Density Functional Theory (DFT) calculations and experimentally measured mechanical properties and lattice parameters to train an ML potential of titanium. We demonstrate that the fused data learning strategy can concurrently satisfy all target objectives, thus resulting in a molecular model of higher accuracy compared to the models trained with a single data source. The inaccuracies of DFT functionals at target experimental properties were corrected, while the investigated off-target properties remained largely unperturbed. Our approach is applicable to any material and can serve as a general strategy to obtain highly accurate ML potentials.
翻訳日:2023-08-21 15:36:22 公開日:2023-08-17
# 画像構造解析と抽出のための半スパーシティ・プリエント

Semi-sparsity Priors for Image Structure Analysis and Extraction ( http://arxiv.org/abs/2308.09141v1 )

ライセンス: Link先を確認
Junqing Huang, Haihui Wang, Michael Ruzhansky(参考訳) 画像構造・テクスチャ分解は、画像処理とコンピュータビジョンの両方において、長年の根本的な問題である。 本稿では,画像構造解析と抽出のための一般化半スパース正規化フレームワークを提案する。 異なるテクスチャ解析モデルと組み合わせることで、そのような正規化は多くの従来の方法とは異なる好ましい特性を得られる。 多項式スムーシング面に悪名高い階段アーティファクトを導入することなく画像構造を保存できるだけでなく,強い振動パターンを持つ画像テクスチャの分解にも応用できることを示す。 さらに,乗算器アルゴリズムの交互方向法(ADMM)に基づく効率的な数値解を導入し,画像構造・テクスチャ分解の簡易かつ操作可能な方法を提案する。 提案手法の汎用性は, カットエッジ法に対して, 同等あるいは優れた画像分解結果を生成できることで, 一連の実験結果によって検証された。

Image structure-texture decomposition is a long-standing and fundamental problem in both image processing and computer vision fields. In this paper, we propose a generalized semi-sparse regularization framework for image structural analysis and extraction, which allows us to decouple the underlying image structures from complicated textural backgrounds. Combining with different textural analysis models, such a regularization receives favorable properties differing from many traditional methods. We demonstrate that it is not only capable of preserving image structures without introducing notorious staircase artifacts in polynomial-smoothing surfaces but is also applicable for decomposing image textures with strong oscillatory patterns. Moreover, we also introduce an efficient numerical solution based on an alternating direction method of multipliers (ADMM) algorithm, which gives rise to a simple and maneuverable way for image structure-texture decomposition. The versatility of the proposed method is finally verified by a series of experimental results with the capability of producing comparable or superior image decomposition results against cutting-edge methods.
翻訳日:2023-08-21 15:36:05 公開日:2023-08-17
# ソースフリービデオ領域適応のための大規模言語ビジョンモデルの不合理性

The Unreasonable Effectiveness of Large Language-Vision Models for Source-free Video Domain Adaptation ( http://arxiv.org/abs/2308.09139v1 )

ライセンス: Link先を確認
Giacomo Zara, Alessandro Conti, Subhankar Roy, St\'ephane Lathuili\`ere, Paolo Rota, Elisa Ricci(参考訳) Source-Free Video Unsupervised Domain Adaptation (SFVUDA)メソッドは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、実際のソースデータにアクセスすることなく、未ラベルのターゲットデータセットに適応するタスクで構成される。 以前のアプローチでは、ターゲットデータ自体から派生した自己超越(例えば、時間的一貫性の強化)を活用してSFVUDAに対処しようとした。 この作業では、llvmがリッチワールドを事前に含んでいるという根拠によって駆動される、大規模な言語ビジョンモデル(llvm)からの"web-supervision"を活用し、直交的なアプローチを取ります。 本稿では,SFVUDA に LLVM を組み込むことによる不合理な効果を,大言語ビジョンモデル (DALL-V) を用いたドメイン適応法 (Domain Adaptation with Large Language-Vision Model, DALL-V) と呼ぶ直感的でパラメータ効率のよい手法で示す。 単純さにもかかわらず、DALL-Vは最先端のSFVUDAメソッドよりも大幅に改善されている。

Source-Free Video Unsupervised Domain Adaptation (SFVUDA) methods consists in the task of adapting an action recognition model, trained on a labelled source dataset, to an unlabelled target dataset, without accessing the actual source data. Previous approaches have attempted to address SFVUDA by leveraging self-supervision (e.g., enforcing temporal consistency) derived from the target data itself. In this work we take an orthogonal approach by exploiting "web-supervision" from Large Language-Vision Models (LLVMs), driven by the rationale that LLVMs contain rich world prior, which is surprisingly robust to domain-shift. We showcase the unreasonable effectiveness of integrating LLVMs for SFVUDA by devising an intuitive and parameter efficient method, which we name as Domain Adaptation with Large Language-Vision models (DALL-V), that distills the world prior and complementary source model information into a student network tailored for the target. Despite the simplicity, DALL-V achieves significant improvement over state-of-the-art SFVUDA methods.
翻訳日:2023-08-21 15:35:49 公開日:2023-08-17
# 大規模言語モデルの信頼性確保のための意味的一貫性

Semantic Consistency for Assuring Reliability of Large Language Models ( http://arxiv.org/abs/2308.09138v1 )

ライセンス: Link先を確認
Harsh Raj, Vipul Gupta, Domenic Rosati, Subhabrata Majumdar(参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。 しかし、最近の研究は入力プロンプトの変化に対する感度を強調している。 LLMを安全かつ信頼性の高い方法でデプロイするには、出力が同じ意味や意図を持つ式でトリガーされる場合、一貫性が不可欠である。 既存の研究では、現状のLLMがこの問題にどう対処するかが検討されているが、それらの評価は、生成的テキストシーケンスの一貫性を見越して、単語または多語回答の語彙的等式の評価に限られている。 オープンエンドテキスト生成シナリオにおけるLLMの一貫性をより包括的に理解するために、セマンティック一貫性の一般的な尺度を導入し、この指標の複数バージョンを定式化し、様々なLLMの性能を評価する。 提案手法は,従来の語彙的整合性に基づく指標よりも,人間の出力整合性評価と高い相関性を示す。 最後に,ask-to-choose(a2c)と呼ばれる新しいプロンプト戦略を提案する。 TruthfulQAベンチマークから回答のバリエーションに基づいてクローズドブックの質問応答を評価すると、A2Cは事前学習および微調整LLMの精度指標を最大47%、命令調整モデルのセマンティック一貫性指標を最大7倍に向上させる。

Large Language Models (LLMs) exhibit remarkable fluency and competence across various natural language tasks. However, recent research has highlighted their sensitivity to variations in input prompts. To deploy LLMs in a safe and reliable manner, it is crucial for their outputs to be consistent when prompted with expressions that carry the same meaning or intent. While some existing work has explored how state-of-the-art LLMs address this issue, their evaluations have been confined to assessing lexical equality of single- or multi-word answers, overlooking the consistency of generative text sequences. For a more comprehensive understanding of the consistency of LLMs in open-ended text generation scenarios, we introduce a general measure of semantic consistency, and formulate multiple versions of this metric to evaluate the performance of various LLMs. Our proposal demonstrates significantly higher consistency and stronger correlation with human evaluations of output consistency than traditional metrics based on lexical consistency. Finally, we propose a novel prompting strategy, called Ask-to-Choose (A2C), to enhance semantic consistency. When evaluated for closed-book question answering based on answer variations from the TruthfulQA benchmark, A2C increases accuracy metrics for pretrained and finetuned LLMs by up to 47%, and semantic consistency metrics for instruction-tuned models by up to 7-fold.
翻訳日:2023-08-21 15:35:24 公開日:2023-08-17
# 弱監視ハミルトン系における相互作用と可積分性

Interactions and integrability in weakly monitored Hamiltonian systems ( http://arxiv.org/abs/2308.09133v1 )

ライセンス: Link先を確認
Bo Xing, Xhek Turkeshi, Marco Schir\'o, Rosario Fazio, Dario Poletti(参考訳) 局所的な測定によるユニタリダイナミクスの分散は、多体量子系における測定誘起相と遷移をもたらす。 進化が局所ハミルトニアンによって駆動されるとき、エンタングルメントエントロピーの系の大きさの急激な変化を特徴とする2種類の遷移が観察されている。 臨界点は、厳密に監視された領域ロー位相を体積則や、低測定率で通常対数的な部分拡張的な状態から分離する。 弱監視相における絡み合いスケーリングの要因を特定することが本研究の重要な目的である。 この目的のために、U(1)対称性、可積分性、相互作用の存在/存在を特徴とする局所モニタリングを持つ原型一次元スピン鎖を考える。 厳密な数値的手法を用いて研究したシステムサイズは、相互作用の存在が常にボリュームロー弱監視位相と相関していることを明らかにする。 対照的に、非相互作用系は、エンタングルメントのサブ拡張スケーリングを示す。 その他の性質、すなわち可積分性やU(1)対称性は、絡み合い相の特徴に影響を与えない。

Interspersing unitary dynamics with local measurements results in measurement-induced phases and transitions in many-body quantum systems. When the evolution is driven by a local Hamiltonian, two types of transitions have been observed, characterized by an abrupt change in the system size scaling of entanglement entropy. The critical point separates the strongly monitored area-law phase from a volume law or a sub-extensive, typically logarithmic-like one at low measurement rates. Identifying the key ingredients responsible for the entanglement scaling in the weakly monitored phase is the key purpose of this work. For this purpose, we consider prototypical one-dimensional spin chains with local monitoring featuring the presence/absence of U(1) symmetry, integrability, and interactions. Using exact numerical methods, the system sizes studied reveal that the presence of interaction is always correlated to a volume-law weakly monitored phase. In contrast, non-interacting systems present sub-extensive scaling of entanglement. Other characteristics, namely integrability or U(1) symmetry, do not play a role in the character of the entanglement phase.
翻訳日:2023-08-21 15:35:02 公開日:2023-08-17
# サブシステムの量子フレーム相対性、相関、熱力学

Quantum Frame Relativity of Subsystems, Correlations and Thermodynamics ( http://arxiv.org/abs/2308.09131v1 )

ライセンス: Link先を確認
Philipp A. Hoehn, Isha Kotecha, Fabio M. Mele(参考訳) 最近、異なる内部量子参照フレーム(QRF)が、特別な相対性理論において異なる慣性観測者が異なる方法で時空を空間と時間に分解するのと同じように、システムを異なる方法でサブシステムに分割することを指摘された。 ここでは、サブシステムのこのQRF相対性理論を拡張し、それが全ての新しいQRF依存効果の源であることを解明する。 実際、サブシステム相対性理論は、内部フレームとの特殊相対性理論においても生じ、同時に同種の相対性理論が一般化されることを示す。 ここで体系的に探索したサブシステムのQRF相対性理論の物理的結果と同時性の相対性理論は同様の光で見ることができる。 我々は、qrf変換の下での量子熱力学過程と同様に、いつ、どのようにサブシステム相関やエントロピー、相互作用、ダイナミクスの種類(オープンとクローズド)を調べることに集中する。 熱平衡が一般相対性QRFであることを示し、驚くべきことに$\textit{QRF変換はサブシステム温度を変えるだけでなく、正を負の温度状態にマッピングすることさえできる。 さらに、熱と仕事交換の非平衡概念とエントロピーの生成とフローがQRFに依存するかについても検討する。 その過程で,qrf変化下でのサブシステム状態の変換方法に関する最初の研究を行った。 物理的な洞察に焦点をあてて、有限アーベル群に付随する理想的な QRF に制限する。 厳密さの他に、続く有限次元の設定では、量子情報理論量や量子熱力学が最適に発達する。 しかしながら、我々の結果はより一般的な群やフレーム、さらにはゲージ理論や重力のサブシステムにまで質的に拡張されると予想する。

It was recently noted that different internal quantum reference frames (QRFs) partition a system in different ways into subsystems, much like different inertial observers in special relativity decompose spacetime in different ways into space and time. Here we expand on this QRF relativity of subsystems and elucidate that it is the source of all novel QRF dependent effects, just like the relativity of simultaneity is the origin of all characteristic special relativistic phenomena. We show that subsystem relativity, in fact, also arises in special relativity with internal frames and, by implying the relativity of simultaneity, constitutes a generalisation of it. Physical consequences of the QRF relativity of subsystems, which we explore here systematically, and the relativity of simultaneity may thus be seen in similar light. We focus on investigating when and how subsystem correlations and entropies, interactions and types of dynamics (open vs. closed), as well as quantum thermodynamical processes change under QRF transformations. We show that thermal equilibrium is generically QRF relative and find that, remarkably, $\textit{QRF transformations not only can change a subsystem temperature, but even map positive into negative temperature states}$. We further examine how non-equilibrium notions of heat and work exchange, as well as entropy production and flow depend on the QRF. Along the way, we develop the first study of how reduced subsystem states transform under QRF changes. Focusing on physical insights, we restrict to ideal QRFs associated with finite abelian groups. Besides being conducive to rigour, the ensuing finite-dimensional setting is where quantum information-theoretic quantities and quantum thermodynamics are best developed. We anticipate, however, that our results extend qualitatively to more general groups and frames, and even to subsystems in gauge theory and gravity.
翻訳日:2023-08-21 15:34:46 公開日:2023-08-17
# マイクロ波周波数共振器のフィードバック増強型フォノンラシング

Feedback Enhanced Phonon Lasing of a Microwave Frequency Resonator ( http://arxiv.org/abs/2308.09130v1 )

ライセンス: Link先を確認
Peyman Parsa, Prasoon Kumar Shandilya, David P. Lake, Matthew E. Mitchell, and Paul E. Barclay(参考訳) 空洞光学系における自励式機械共振器の振幅は通常、空洞の有限光帯域から生じる非線形性によって制限される。 本稿では,この限界を増大させるフィードバック手法を提案する。 出力強度から導出される信号でキャビティ入力フィールドを変調することにより、自己振動するghz周波数機械共振器の振幅を、システムの達成可能な光機械的協調性のみに制限された222〜%$(コヒーレントフォノン数50〜%$)増加させる。 この技術は、コヒーレントスピンフォノンカップリングや自己振動共振器に基づくセンサの実装など、高動的機械的応力に依存した応用を推し進める。

The amplitude of self-oscillating mechanical resonators in cavity optomechanical systems is typically limited by nonlinearities arising from the cavity's finite optical bandwidth. We propose and demonstrate a feedback technique for increasing this limit. By modulating the cavity input field with a signal derived from its output intensity, we increase the amplitude of a self-oscillating GHz frequency mechanical resonator by $22\%$ (increase in coherent phonon number of $50\%$) limited only by the achievable optomechanical cooperativity of the system. This technique will advance applications dependent on high dynamic mechanical stress, such as coherent spin-phonon coupling, as well as implementations of sensors based on self-oscillating resonators.
翻訳日:2023-08-21 15:34:15 公開日:2023-08-17
# バグレポートにおける意味的テキスト類似性のためのテキスト埋め込みモデルの比較研究

A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports ( http://arxiv.org/abs/2308.09193v1 )

ライセンス: Link先を確認
Avinash Patil, Kihwan Han, Sabyasachi Mukhopadhyay(参考訳) バグレポートはソフトウェア開発の重要な側面であり、ソフトウェアシステムの一貫した機能を保証するために、それらを素早く特定し、解決することが重要である。 既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。 本稿では,類似度スコアに基づく類似バグレポート検索における意味的テキスト類似性手法の有効性を比較した。 我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルを探索した。 さまざまなソフトウェアプロジェクトでバグレポートを含むソフトウェア欠陥データを使用して、これらのモデルのパフォーマンスを評価しました。 実験の結果、BERTはリコールに関する他のモデルよりも優れており、ADA、Gensim、FastText、TFIDFが続くことがわかった。 本研究は,同様のバグレポートを検索するための様々な組込み手法の有効性に関する洞察を提供し,このタスクに適切な方法を選択することの影響を強調する。 コードはgithubから入手できます。

Bug reports are an essential aspect of software development, and it is crucial to identify and resolve them quickly to ensure the consistent functioning of software systems. Retrieving similar bug reports from an existing database can help reduce the time and effort required to resolve bugs. In this paper, we compared the effectiveness of semantic textual similarity methods for retrieving similar bug reports based on a similarity score. We explored several embedding models such as TF-IDF (Baseline), FastText, Gensim, BERT, and ADA. We used the Software Defects Data containing bug reports for various software projects to evaluate the performance of these models. Our experimental results showed that BERT generally outperformed the rest of the models regarding recall, followed by ADA, Gensim, FastText, and TFIDF. Our study provides insights into the effectiveness of different embedding methods for retrieving similar bug reports and highlights the impact of selecting the appropriate one for this task. Our code is available on GitHub.
翻訳日:2023-08-21 15:28:25 公開日:2023-08-17
# 因果不変性を用いた正則化逆模倣学習

Regularizing Adversarial Imitation Learning Using Causal Invariance ( http://arxiv.org/abs/2308.09189v1 )

ライセンス: Link先を確認
Ivan Ovinnikov, Joachim M. Buhmann(参考訳) シミュレーション学習法は、専門家の経験的状態占有度と政策の差異を最小化することにより、専門家のデモンストレーションのデータセットからマルコフ決定プロセスのポリシーを推論するために用いられる。 ポリシーへの誘導信号は、汎用最適化手順の一部として使用される判別器によって提供される。 我々は、このモデルが専門家データに存在する散発的な相関を吸収しやすいことを観察する。 この問題を軽減するため,本研究では,これらのモデルの正則化原理として因果不変性を用いることを提案する。 正規化の目的は、既存の敵対的模倣フレームワークに簡単に適用できる。 実測的な2次元設定における正規化定式化の有効性と,多数の高次元ロボット移動ベンチマークタスクについて示す。

Imitation learning methods are used to infer a policy in a Markov decision process from a dataset of expert demonstrations by minimizing a divergence measure between the empirical state occupancy measures of the expert and the policy. The guiding signal to the policy is provided by the discriminator used as part of an versarial optimization procedure. We observe that this model is prone to absorbing spurious correlations present in the expert data. To alleviate this issue, we propose to use causal invariance as a regularization principle for adversarial training of these models. The regularization objective is applicable in a straightforward manner to existing adversarial imitation frameworks. We demonstrate the efficacy of the regularized formulation in an illustrative two-dimensional setting as well as a number of high-dimensional robot locomotion benchmark tasks.
翻訳日:2023-08-21 15:28:10 公開日:2023-08-17
# 最適複雑性と通信保証を備えた分散超勾配

Distributed Extra-gradient with Optimal Complexity and Communication Guarantees ( http://arxiv.org/abs/2308.09187v1 )

ライセンス: Link先を確認
Ali Ramezani-Kebrya and Kimon Antonakopoulos and Igor Krawczuk and Justin Deschenaux and Volkan Cevher(参考訳) 複数のプロセッサ/ワーカー/クライアントが局所確率的双対ベクトルにアクセス可能なマルチGPU設定におけるモノトン変分不等式(VI)問題を考察する。 この設定は、分散凸最小化からmin-maxやゲームまで、幅広い重要な問題を含んでいる。 モノトーンvi問題のデファクトアルゴリズムであるextreme-gradientは、通信効率が良いように設計されていない。 そこで本研究では,VIの解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配(Q-GenX)を提案する。 本稿では,各ノイズプロファイルに適応し,相対雑音下では${\mathcal O}(1/T)$,絶対雑音下では${\mathcal O}(1/\sqrt{T})$,絶対雑音下ではオーダー最適の${\mathcal O}(1/\sqrt{T})$を実現し,分散トレーニングが収束を促進する適応的なステップサイズルールを提案する。 最後に,実世界実験を行い,複数のgpu上で生成型逆ネットワークを訓練することにより,理論結果を検証する。

We consider monotone variational inequality (VI) problems in multi-GPU settings where multiple processors/workers/clients have access to local stochastic dual vectors. This setting includes a broad range of important problems from distributed convex minimization to min-max and games. Extra-gradient, which is a de facto algorithm for monotone VI problems, has not been designed to be communication-efficient. To this end, we propose a quantized generalized extra-gradient (Q-GenX), which is an unbiased and adaptive compression method tailored to solve VIs. We provide an adaptive step-size rule, which adapts to the respective noise profiles at hand and achieve a fast rate of ${\mathcal O}(1/T)$ under relative noise, and an order-optimal ${\mathcal O}(1/\sqrt{T})$ under absolute noise and show distributed training accelerates convergence. Finally, we validate our theoretical results by providing real-world experiments and training generative adversarial networks on multiple GPUs.
翻訳日:2023-08-21 15:27:59 公開日:2023-08-17
# 中国語学習者の理解可能な論拠構造 : コーパスに基づく分析

Is Argument Structure of Learner Chinese Understandable: A Corpus-Based Analysis ( http://arxiv.org/abs/2308.09186v1 )

ライセンス: Link先を確認
Yuguang Duan, Zi Lin, Weiwei Sun(参考訳) 本稿では,中国語学習者の議論構造誤りのコーパスベース分析を行う。 分析用データには、言語学習者が生成した文と、母語話者による補正が含まれている。 このデータを意味的役割ラベル付けアノテーションと組み合わせて,2人の上級生による手作業で作成した。 このアノテーション手順は、もともと第一言語現象をカバーするために開発された中国のpropbank仕様に導かれている。 それにもかかわらず、第二言語現象を扱う上では非常に包括的であることが分かっています。 注釈間の合意はかなり高く、学習者のテキストが母語話者に理解できることを示唆している。 本稿では,このアノテーションに基づいて,議論構造に関連する能力的誤りを予備解析する。 特に、単語の順序、単語の選択、命題の欠如、引数の共起に関する音声誤りについて議論する。

This paper presents a corpus-based analysis of argument structure errors in learner Chinese. The data for analysis includes sentences produced by language learners as well as their corrections by native speakers. We couple the data with semantic role labeling annotations that are manually created by two senior students whose majors are both Applied Linguistics. The annotation procedure is guided by the Chinese PropBank specification, which is originally developed to cover first language phenomena. Nevertheless, we find that it is quite comprehensive for handling second language phenomena. The inter-annotator agreement is rather high, suggesting the understandability of learner texts to native speakers. Based on our annotations, we present a preliminary analysis of competence errors related to argument structure. In particular, speech errors related to word order, word selection, lack of proposition, and argument-adjunct confounding are discussed.
翻訳日:2023-08-21 15:27:36 公開日:2023-08-17
# RatGPT:オンラインLLMをマルウェア攻撃のプロキシに変える

RatGPT: Turning online LLMs into Proxies for Malware Attacks ( http://arxiv.org/abs/2308.09183v1 )

ライセンス: Link先を確認
Mika Beckerich, Laura Plein, Sergio Coronado(参考訳) 生成型aiの進化と新しくリリースされた大言語モデル(llm)の能力は、ソフトウェア工学における新たな機会を開く。 しかし、サイバーセキュリティの新たな課題にも繋がる。 最近、研究者はChatGPTのようなLSMを使って、直接悪用したり、経験の浅いハッカーを誘導してツールやコードを武器化する悪意のあるコンテンツを生成する可能性を示した。 これらの研究は、ループの途中で攻撃者を必要とするシナリオをカバーした。 本研究では,オープンなプラグインを活用し,LLMを攻撃者と被害者の間のプロキシとして利用する。 本稿では,ChatGPTを悪質なソフトウェアの普及に利用し,検出を回避し,コマンド・コントロール(C2)サーバへの通信を確立し,被害者のシステムと対話するコマンドを受信する概念実証を行う。 最後に,検出されていない状態で攻撃を成功させるために,一般的なアプローチと必須要素を提示する。 この概念実証は、公開可能なプラグインとLLMによる重要なサイバーセキュリティ問題を強調しており、セキュリティガイドライン、コントロール、緩和戦略の開発が必要である。

The evolution of Generative AI and the capabilities of the newly released Large Language Models (LLMs) open new opportunities in software engineering. However, they also lead to new challenges in cybersecurity. Recently, researchers have shown the possibilities of using LLMs such as ChatGPT to generate malicious content that can directly be exploited or guide inexperienced hackers to weaponize tools and code. Those studies covered scenarios that still require the attacker in the middle of the loop. In this study, we leverage openly available plugins and use an LLM as proxy between the attacker and the victim. We deliver a proof-of-concept where ChatGPT is used for the dissemination of malicious software while evading detection, alongside establishing the communication to a command and control (C2) server to receive commands to interact with a victim's system. Finally, we present the general approach as well as essential elements in order to stay undetected and make the attack a success. This proof-of-concept highlights significant cybersecurity issues with openly available plugins and LLMs, which require the development of security guidelines, controls, and mitigation strategies.
翻訳日:2023-08-21 15:27:24 公開日:2023-08-17
# プルーニングは長尺型マルチラベル医用画像分類にどのように影響するか?

How Does Pruning Impact Long-Tailed Multi-Label Medical Image Classifiers? ( http://arxiv.org/abs/2308.09180v1 )

ライセンス: Link先を確認
Gregory Holste, Ziyu Jiang, Ajay Jaiswal, Maria Hanna, Shlomo Minkowitz, Alan C. Legasto, Joanna G. Escalon, Sharon Steinberger, Mark Bittman, Thomas C. Shen, Ying Ding, Ronald M. Summers, George Shih, Yifan Peng, and Zhangyang Wang(参考訳) プルーニングは、ディープニューラルネットワークを圧縮する強力な技術として登場し、全体的なパフォーマンスに大きな影響を与えずに、メモリ使用量と推論時間を削減した。 しかしながら、プランニングがモデル行動に影響を及ぼすニュアンス的方法は、特に臨床設定でよく見られるロングテールのマルチラベルデータセットについて、よく理解されていない。 この知識ギャップは、予期せぬモデル行動が患者の健康に影響を及ぼすような診断のためのプルーニングモデルを展開する際に、危険な意味を持つ可能性がある。 このギャップを埋めるために,胸部x線(cxrs)から胸部疾患を診断するために訓練されたニューラルネットワークに対するpruningの効果を初めて解析した。 2つの大きなCXRデータセットにおいて,どの疾患がプルーニングによって最も影響を受けているかを調べ,疾患頻度と共起行動に基づく「忘れられる可能性」を特徴付ける。 さらに,プレニング識別指数 (PIE) として知られる非圧縮モデルと重プルーニングモデルが一致しない個々のCXRを同定し,その統一性を評価するために人間読者による研究を行う。 放射線科医は,PIEのラベルノイズの増加,画像品質の低下,診断の難しさを認識できる。 本研究は,遠尾部の多面体医用画像分類におけるモデル行動に対するプルーニングの影響を理解するための第一歩である。 すべてのコード、モデルウェイト、データアクセス命令はhttps://github.com/VITA-Group/PruneCXRで確認できる。

Pruning has emerged as a powerful technique for compressing deep neural networks, reducing memory usage and inference time without significantly affecting overall performance. However, the nuanced ways in which pruning impacts model behavior are not well understood, particularly for long-tailed, multi-label datasets commonly found in clinical settings. This knowledge gap could have dangerous implications when deploying a pruned model for diagnosis, where unexpected model behavior could impact patient well-being. To fill this gap, we perform the first analysis of pruning's effect on neural networks trained to diagnose thorax diseases from chest X-rays (CXRs). On two large CXR datasets, we examine which diseases are most affected by pruning and characterize class "forgettability" based on disease frequency and co-occurrence behavior. Further, we identify individual CXRs where uncompressed and heavily pruned models disagree, known as pruning-identified exemplars (PIEs), and conduct a human reader study to evaluate their unifying qualities. We find that radiologists perceive PIEs as having more label noise, lower image quality, and higher diagnosis difficulty. This work represents a first step toward understanding the impact of pruning on model behavior in deep long-tailed, multi-label medical image classification. All code, model weights, and data access instructions can be found at https://github.com/VITA-Group/PruneCXR.
翻訳日:2023-08-21 15:27:04 公開日:2023-08-17
# aiの多様化: alphazeroによるクリエイティブチェスへ

Diversifying AI: Towards Creative Chess with AlphaZero ( http://arxiv.org/abs/2308.09175v1 )

ライセンス: Link先を確認
Tom Zahavy, Vivek Veeriah, Shaobo Hou, Kevin Waugh, Matthew Lai, Edouard Leurent, Nenad Tomasev, Lisa Schut, Demis Hassabis, and Satinder Singh(参考訳) 近年、人工知能(AI)システムは、様々な計算タスクにおいて人間の知能を上回っている。 しかし、人間のようなAIシステムは、間違いを犯し、盲点を持ち、幻覚を持ち、新しい状況に一般化するのに苦労する。 この研究は、AIが計算合理性の限界に押されて創造的な意思決定メカニズムの恩恵を受けることができるかどうかを探求する。 特に、多様なAIシステムからなるチームが、グループとしてより多くのアイデアを生成し、最高のAIを選択することで、困難なタスクにおいて1つのAIより優れているかどうかを調査する。 我々はこの問題を、いわゆるAIのドロソフィラであるチェスのゲームで研究する。 我々はAlphaZero(AZ)上に構築し、エージェントの集合を表現するために潜在条件アーキテクチャを用いて拡張し、AZ_dbと呼ぶ。 我々はAZ_dbを訓練し、行動多様性技術を用いてより広い範囲のアイデアを生成し、サブ付加計画で最も有望なアイデアを選択する。 我々の実験は、AZ_dbが様々な方法でチェスをし、グループとしてより多くのパズルを解き、より均質なチームを上回ることを示唆している。 AZ_dbはAZの2倍の難解パズルを解く。 異なるオープニングからチェスを行う場合、AZ_dbのプレイヤーは異なるオープニングを専門とし、サブアダプティブプランニングを用いて各オープニングのプレイヤーを選択すると、AZよりも50エロ改善が達成される。 我々の研究結果は、AIエージェントのチームでは、人間のチームと同じように多様性のボーナスが出現し、ダイバーシティが計算的に難しい問題を解決する上で貴重な資産であることが示唆されている。

In recent years, Artificial Intelligence (AI) systems have surpassed human intelligence in a variety of computational tasks. However, AI systems, like humans, make mistakes, have blind spots, hallucinate, and struggle to generalize to new situations. This work explores whether AI can benefit from creative decision-making mechanisms when pushed to the limits of its computational rationality. In particular, we investigate whether a team of diverse AI systems can outperform a single AI in challenging tasks by generating more ideas as a group and then selecting the best ones. We study this question in the game of chess, the so-called drosophila of AI. We build on AlphaZero (AZ) and extend it to represent a league of agents via a latent-conditioned architecture, which we call AZ_db. We train AZ_db to generate a wider range of ideas using behavioral diversity techniques and select the most promising ones with sub-additive planning. Our experiments suggest that AZ_db plays chess in diverse ways, solves more puzzles as a group and outperforms a more homogeneous team. Notably, AZ_db solves twice as many challenging puzzles as AZ, including the challenging Penrose positions. When playing chess from different openings, we notice that players in AZ_db specialize in different openings, and that selecting a player for each opening using sub-additive planning results in a 50 Elo improvement over AZ. Our findings suggest that diversity bonuses emerge in teams of AI agents, just as they do in teams of humans and that diversity is a valuable asset in solving computationally hard problems.
翻訳日:2023-08-21 15:26:39 公開日:2023-08-17
# 進化するネットワークにおける異常検出のための法医学データ解析

Forensic Data Analytics for Anomaly Detection in Evolving Networks ( http://arxiv.org/abs/2308.09171v1 )

ライセンス: Link先を確認
Li Yang, Abdallah Moubayed, Abdallah Shami, Amine Boukhtouta, Parisa Heidari, Stere Preda, Richard Brunner, Daniel Migault, and Adel Larabi(参考訳) 従来のインフラストラクチャベースのデプロイメント(例えばTelcoと業界運用ネットワーク)の5Gと仮想化によって実現されたデプロイメントの進化への収束において、これらのデプロイメントを深く保護するための効果的なセキュリティコントロールの開発に強い関心が寄せられている。 5Gや仮想化といった重要な実現技術を考慮することで、進化するネットワークは民主化され、メディア、動的Webコンテンツ、ゲーム、そして多くのIoTユースケースから、さまざまなビジネスモデルを統合するポイントの存在が確立される。 進化するネットワークによって提供されるサービスの増加にもかかわらず、多くのサイバー犯罪や攻撃が悪意ある活動を行うために進化するネットワークで開始されている。 従来のセキュリティアーティファクト(ファイアウォールや侵入検知システムなど)の制限により、デジタル法医学データ分析の研究が注目を集めている。 デジタル法医学分析により、サイバー犯罪の異なる視点から詳細な情報と包括的な結論を導き、犯罪者を有罪にし、将来の犯罪を防ぐことができる。 本章では,マルチパースペクティブ機能工学,教師なし異常検出,総合的な結果修正手順を含む,ネットワーク異常検出のためのディジタル分析フレームワークを提案する。 実世界発展型ネットワークデータに関する実験により,提案手法の有効性が示された。

In the prevailing convergence of traditional infrastructure-based deployment (i.e., Telco and industry operational networks) towards evolving deployments enabled by 5G and virtualization, there is a keen interest in elaborating effective security controls to protect these deployments in-depth. By considering key enabling technologies like 5G and virtualization, evolving networks are democratized, facilitating the establishment of point presences integrating different business models ranging from media, dynamic web content, gaming, and a plethora of IoT use cases. Despite the increasing services provided by evolving networks, many cybercrimes and attacks have been launched in evolving networks to perform malicious activities. Due to the limitations of traditional security artifacts (e.g., firewalls and intrusion detection systems), the research on digital forensic data analytics has attracted more attention. Digital forensic analytics enables people to derive detailed information and comprehensive conclusions from different perspectives of cybercrimes to assist in convicting criminals and preventing future crimes. This chapter presents a digital analytics framework for network anomaly detection, including multi-perspective feature engineering, unsupervised anomaly detection, and comprehensive result correction procedures. Experiments on real-world evolving network data show the effectiveness of the proposed forensic data analytics solution.
翻訳日:2023-08-21 15:26:09 公開日:2023-08-17
# パラメトリック不安定性からバックアクションエバディング測定を保護する

Protecting backaction-evading measurements from parametric instability ( http://arxiv.org/abs/2308.09168v1 )

ライセンス: Link先を確認
E. P. Ruddy, Y. Jiang, N. E. Frattini, K. O. Quinlan, and K. W. Lehnert(参考訳) パラメトリック結合発振器のシステムにおける単一四倍子の無ノイズ測定は、理論的には2つの発振器の和と差周波数を励起し、バックアクションエバディング(bae)スキームを実現することで可能である。 これは純粋な3波混合システムにおいて最も単純なシナリオでは当てはまるが、この方式の実装は、システムの不安定化とノイズの追加という不要な高次パラメトリックプロセスによって妨げられる。 総和と差分周波数から2つのポンプを変形させることでシステムを安定させ,BAE性能を回復し,非アクセス不能な協調動作を可能とした。 また,弱い信号検出実験(PRX QUANTUM 4, 020302 (2023))で示された加速度は,このデチューニング技術により達成可能であることを示した。

Noiseless measurement of a single quadrature in systems of parametrically coupled oscillators is theoretically possible by pumping at the sum and difference frequencies of the two oscillators, realizing a backaction-evading (BAE) scheme. Although this would hold true in the simplest scenario for a system with pure three-wave mixing, implementations of this scheme are hindered by unwanted higher-order parametric processes that destabilize the system and add noise. We show analytically that detuning the two pumps from the sum and difference frequencies can stabilize the system and fully recover the BAE performance, enabling operation at otherwise inaccessible cooperativities. We also show that the acceleration demonstrated in a weak signal detection experiment [PRX QUANTUM 4, 020302 (2023)] was only achievable because of this detuning technique.
翻訳日:2023-08-21 15:25:49 公開日:2023-08-17
# FedPerfix:フェデレートラーニングにおける視覚変換器の部分モデルパーソナライズ

FedPerfix: Towards Partial Model Personalization of Vision Transformers in Federated Learning ( http://arxiv.org/abs/2308.09160v1 )

ライセンス: Link先を確認
Guangyu Sun, Matias Mendieta, Jun Luo, Shandong Wu, Chen Chen(参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は、異種データ環境における分散学習のための有望なソリューションである。 部分モデルパーソナライゼーションは、PFLの効率を改善するために、これらすべてを集約するのではなく、局所モデルパラメータを選択的に更新することで提案されている。 しかし、部分モデルパーソナライゼーションに関する以前の研究は主に畳み込みニューラルネットワーク(cnns)に焦点を当てており、視覚トランスフォーマー(vits)のような他の人気のあるモデルにどのように適用できるかを理解する上でのギャップを残している。 本研究では,vitモデルの一部をパーソナライズする場所と方法を検討する。 具体的には,各層のデータ分布に対する感度を実証的に評価する。 自己認識層と分類ヘッドがViTの最も敏感な部分であるという知見に基づいて,FedPerfixと呼ばれる新しいアプローチを提案し,プラグインを利用して,集約されたモデルからローカルクライアントへの情報をパーソナライズする。 最後に,提案手法をcifar-100,organamnist,office-homeデータセットで評価し,いくつかのpfl法と比較して,その性能向上効果を示す。

Personalized Federated Learning (PFL) represents a promising solution for decentralized learning in heterogeneous data environments. Partial model personalization has been proposed to improve the efficiency of PFL by selectively updating local model parameters instead of aggregating all of them. However, previous work on partial model personalization has mainly focused on Convolutional Neural Networks (CNNs), leaving a gap in understanding how it can be applied to other popular models such as Vision Transformers (ViTs). In this work, we investigate where and how to partially personalize a ViT model. Specifically, we empirically evaluate the sensitivity to data distribution of each type of layer. Based on the insights that the self-attention layer and the classification head are the most sensitive parts of a ViT, we propose a novel approach called FedPerfix, which leverages plugins to transfer information from the aggregated model to the local client as a personalization. Finally, we evaluate the proposed approach on CIFAR-100, OrganAMNIST, and Office-Home datasets and demonstrate its effectiveness in improving the model's performance compared to several advanced PFL methods.
翻訳日:2023-08-21 15:25:34 公開日:2023-08-17
# リアルタイムビデオストレッチのためのGPUアクセラレーション色補正とフレームワープ

GPU Accelerated Color Correction and Frame Warping for Real-time Video Stitching ( http://arxiv.org/abs/2308.09209v1 )

ライセンス: Link先を確認
Lu Yang, Zhenglun Kong, Ting Li, Xinyi Bai, Zhiye Lin, Hong Cheng(参考訳) 伝統的な画像ステッチは、ビデオの空間的時間的一貫性を考慮せずに、単一のパノラマフレームに焦点を当てている。 簡単な画像縫合アプローチは、ビデオ縫合作業に適用した場合、時間的ひねりや色の不一致を引き起こす。 さらに、不正確なカメラパラメータが画像の歪みの原因となる。 本稿では,複数のビデオシーケンスをパノラマビデオに縫合するリアルタイムシステムを提案する。 従来型の2D-Matrix(2D-M)色補正手法と,グローバルフレーム上の断片的関数を用いたオンライン色バランスによる重なり合う局所領域に対する時空間3D-Matrix(3D-M)色補正手法を拡張した。 さらに、粗いカメラキャリブレーションによって与えられるペアワイズホモグラフィ行列を大域的なワープに使用し、光学的フローに基づいて正確な局所ワープを行う。 実験の結果,本システムは高品質のパノラマ映像をリアルタイムで生成できることがわかった。

Traditional image stitching focuses on a single panorama frame without considering the spatial-temporal consistency in videos. The straightforward image stitching approach will cause temporal flicking and color inconstancy when it is applied to the video stitching task. Besides, inaccurate camera parameters will cause artifacts in the image warping. In this paper, we propose a real-time system to stitch multiple video sequences into a panoramic video, which is based on GPU accelerated color correction and frame warping without accurate camera parameters. We extend the traditional 2D-Matrix (2D-M) color correction approach and a present spatio-temporal 3D-Matrix (3D-M) color correction method for the overlap local regions with online color balancing using a piecewise function on global frames. Furthermore, we use pairwise homography matrices given by coarse camera calibration for global warping followed by accurate local warping based on the optical flow. Experimental results show that our system can generate highquality panorama videos in real time.
翻訳日:2023-08-21 15:16:12 公開日:2023-08-17
# 興味を意識したアイテム埋め込みによるレコメンデーションのためのモデル非依存フレームワーク

A Model-Agnostic Framework for Recommendation via Interest-aware Item Embeddings ( http://arxiv.org/abs/2308.09202v1 )

ライセンス: Link先を確認
Amit Kumar Jaiswal, Yu Xiong(参考訳) アイテム表現は、ニュース、小売、ビデオといったドメインを含むレコメンデーションシステムにおいて重要な意味を持つ。 検索およびランキングモデルでは、アイテム表現を使用して、ユーザの振る舞いに基づいてユーザとアイテムの関係をキャプチャする。 既存の表現学習手法は主に注目やシーケンシャルモデリングといったアイテムベースのメカニズムの最適化に焦点を当てている。 しかし,これらの手法には,学習項目表現におけるユーザの関心を直接反映するモデリング機構が欠如している。 したがって、これらの手法は間接的にユーザーの興味を捉えるのに効果が低い可能性がある。 この課題に対処するために、関心指向のアイテム表現を直接学習するモデルに依存しないフレームワークである、新しい関心対応カプセルネットワーク(IaCN)レコメンデーションモデルを提案する。 IaCNは補助的なタスクとして機能し、アイテムベースと興味ベースの両方の表現の合同学習を可能にする。 このフレームワークは、大幅な再設計を必要とせずに既存のレコメンデーションモデルを採用する。 提案手法をベンチマークデータセット上で評価し、異なるディープニューラルネットワーク、行動シーケンスの長さ、興味のある項目表現の連成学習率を含む様々なシナリオを探索する。 実験の結果,様々なレコメンデーションモデルにまたがる性能向上が示され,提案手法の有効性が検証された。

Item representation holds significant importance in recommendation systems, which encompasses domains such as news, retail, and videos. Retrieval and ranking models utilise item representation to capture the user-item relationship based on user behaviours. While existing representation learning methods primarily focus on optimising item-based mechanisms, such as attention and sequential modelling. However, these methods lack a modelling mechanism to directly reflect user interests within the learned item representations. Consequently, these methods may be less effective in capturing user interests indirectly. To address this challenge, we propose a novel Interest-aware Capsule network (IaCN) recommendation model, a model-agnostic framework that directly learns interest-oriented item representations. IaCN serves as an auxiliary task, enabling the joint learning of both item-based and interest-based representations. This framework adopts existing recommendation models without requiring substantial redesign. We evaluate the proposed approach on benchmark datasets, exploring various scenarios involving different deep neural networks, behaviour sequence lengths, and joint learning ratios of interest-oriented item representations. Experimental results demonstrate significant performance enhancements across diverse recommendation models, validating the effectiveness of our approach.
翻訳日:2023-08-21 15:15:57 公開日:2023-08-17
# TinyProp -- 効率的なTinyMLオンデバイス学習のための適応スパースバックプロパゲーション

TinyProp -- Adaptive Sparse Backpropagation for Efficient TinyML On-device Learning ( http://arxiv.org/abs/2308.09201v1 )

ライセンス: Link先を確認
Marcus R\"ub, Daniel Maier, Daniel Mueller-Gritschneder, Axel Sikora(参考訳) バックプロパゲーションを用いたディープニューラルネットワークのトレーニングは非常にメモリと計算集約性が高い。 これにより、低消費電力マイクロコントローラユニット(MCU)のような小さな組み込みデバイス上でデバイス上での学習や微調整ニューラルネットワークの実行が困難になる。 スパースバックプロパゲーションアルゴリズムは、重みとバイアスのサブセットのみをトレーニングすることで、オンデバイス学習の計算負荷を削減する。 既存のアプローチでは、トレーニングに静的な数の重みを使用する。 このいわゆるバックプロパゲーション比の貧弱な選択は、計算利得を制限するか、あるいは深刻な精度の損失につながる可能性がある。 本稿では,トレーニングステップ毎にデバイス上トレーニング中のバックプロパゲーション比を動的に適応する,最初のスパースバックプロパゲーション法であるtinypropを提案する。 tinypropは、勾配の要素をソートするために小さな計算オーバーヘッドを誘導するが、計算の利益に大きな影響を与えない。 TinyPropは特に、組み込みアプリケーションの典型的なユースケースであるMCU上の微調整トレーニングネットワークでうまく機能する。 MNIST、DCASE2020、CIFAR10の3つのデータセットの典型的なデータセットでは、平均1%の精度での非スパーストレーニングに比べて5倍高速である。 TinyPropは、既存の静的スパースバックプロパゲーションアルゴリズムの2.9倍の速度で、バックプロパゲーション比の典型的な静的設定と比較して、平均で6パーセントの精度損失が減少する。

Training deep neural networks using backpropagation is very memory and computationally intensive. This makes it difficult to run on-device learning or fine-tune neural networks on tiny, embedded devices such as low-power micro-controller units (MCUs). Sparse backpropagation algorithms try to reduce the computational load of on-device learning by training only a subset of the weights and biases. Existing approaches use a static number of weights to train. A poor choice of this so-called backpropagation ratio limits either the computational gain or can lead to severe accuracy losses. In this paper we present TinyProp, the first sparse backpropagation method that dynamically adapts the back-propagation ratio during on-device training for each training step. TinyProp induces a small calculation overhead to sort the elements of the gradient, which does not significantly impact the computational gains. TinyProp works particularly well on fine-tuning trained networks on MCUs, which is a typical use case for embedded applications. For typical datasets from three datasets MNIST, DCASE2020 and CIFAR10, we are 5 times faster compared to non-sparse training with an accuracy loss of on average 1%. On average, TinyProp is 2.9 times faster than existing, static sparse backpropagation algorithms and the accuracy loss is reduced on average by 6 % compared to a typical static setting of the back-propagation ratio.
翻訳日:2023-08-21 15:15:36 公開日:2023-08-17
# 雑音光物理関数学習のための多項式境界と誤り学習との関連

Polynomial Bounds for Learning Noisy Optical Physical Unclonable Functions and Connections to Learning With Errors ( http://arxiv.org/abs/2308.09199v1 )

ライセンス: Link先を確認
Apollo Albright, Boris Gelfand, Michael Dixon(参考訳) 雑音の存在下でも任意の確率で任意の精度で光学的物理的非拘束関数(PUF)のクラスを学習できることが示され、ノイズとチャレンジベクトルの分布に関する軽度な仮定の下で、多項式的に多くのチャレンジ応答対と多項式有界な計算パワーへのアクセスが与えられる。 これはRh\"uramir et al. (2013) の結果を拡張し、PUFの光学系が線形あるいは無視可能な非線形効果を持つという仮定の下で、このタイプのPUFのサブセットはノイズのない多項式時間で学習可能であることを示した。 そこで本研究では,pufのサイズパラメータ,課題と雑音ベクトルの分布,回帰アルゴリズムの確率と精度に基づいて,線形回帰アルゴリズムの所要数の多項式境界と計算複雑性を導出する。

It is shown that a class of optical physical unclonable functions (PUFs) can be learned to arbitrary precision with arbitrarily high probability, even in the presence of noise, given access to polynomially many challenge-response pairs and polynomially bounded computational power, under mild assumptions about the distributions of the noise and challenge vectors. This extends the results of Rh\"uramir et al. (2013), who showed a subset of this class of PUFs to be learnable in polynomial time in the absence of noise, under the assumption that the optics of the PUF were either linear or had negligible nonlinear effects. We derive polynomial bounds for the required number of samples and the computational complexity of a linear regression algorithm, based on size parameters of the PUF, the distributions of the challenge and noise vectors, and the probability and accuracy of the regression algorithm, with a similar analysis to one done by Bootle et al. (2018), who demonstrated a learning attack on a poorly implemented version of the Learning With Errors problem.
翻訳日:2023-08-21 15:15:07 公開日:2023-08-17
# Half-Hop: メッセージパッシングを遅くするグラフアップサンプリングアプローチ

Half-Hop: A graph upsampling approach for slowing down message passing ( http://arxiv.org/abs/2308.09198v1 )

ライセンス: Link先を確認
Mehdi Azabou, Venkataramana Ganesh, Shantanu Thakoor, Chi-Heng Lin, Lakshmi Sathidevi, Ran Liu, Michal Valko, Petar Veli\v{c}kovi\'c, Eva L. Dyer(参考訳) メッセージパッシングニューラルネットワークは、グラフ構造化データで多くの成功を収めている。 しかし、近隣ノードが異なるクラスに属している場合、メッセージパッシングがオーバースムースやフェールにつながるケースが多数存在する。 本研究では,メッセージパッシングニューラルネットワークの学習を改善するための,シンプルながら汎用的なフレームワークを提案する。 このアプローチは、ソースとターゲットノード間の通信を仲介する"低いノード"を各エッジに追加することで、元のグラフのエッジを本質的にアップサンプリングする。 提案手法は入力グラフのみを修正し,既存のモデルでプラグイン・アンド・プレイしやすくする。 メッセージパッシングを遅くする利点を理解するため,理論的および経験的分析を行った。 本稿では,複数の教師付きおよび自己監督型ベンチマークの結果を報告し,特に隣接ノードが異なるラベルを持つ傾向にある異好性条件において,ボード全体の改善を示す。 最後に,本手法は,グラフの異なるエッジに遅いノードをランダムに導入し,可変パス長のマルチスケールビューを生成する自己教師付き学習のための拡張生成に利用できることを示す。

Message passing neural networks have shown a lot of success on graph-structured data. However, there are many instances where message passing can lead to over-smoothing or fail when neighboring nodes belong to different classes. In this work, we introduce a simple yet general framework for improving learning in message passing neural networks. Our approach essentially upsamples edges in the original graph by adding "slow nodes" at each edge that can mediate communication between a source and a target node. Our method only modifies the input graph, making it plug-and-play and easy to use with existing models. To understand the benefits of slowing down message passing, we provide theoretical and empirical analyses. We report results on several supervised and self-supervised benchmarks, and show improvements across the board, notably in heterophilic conditions where adjacent nodes are more likely to have different labels. Finally, we show how our approach can be used to generate augmentations for self-supervised learning, where slow nodes are randomly introduced into different edges in the graph to generate multi-scale views with variable path lengths.
翻訳日:2023-08-21 15:14:47 公開日:2023-08-17
# 超古典ghz状態の期待値を用いた量子鍵分布

Quantum Key Distribution using Expectation Values of Super-classical GHZ States ( http://arxiv.org/abs/2308.09194v1 )

ライセンス: Link先を確認
Hyung S. Choi, Ye Jin Han, Collin Kessinger, Qiaoren Wang(参考訳) 最大絡み合ったグリーンバーガー・ホーン・ゼーリンガー状態の最適期待値に基づく新しい量子鍵分布法を提案する。 本プロトコルは,連続的な可変角度における自由度を利用し,鍵分布のセキュリティを増大させる。 概要は、上記のアイデアを使ってAliceからBobにキーを配布する2つのプロトコルと、同じキーをCharlieと共有するための拡張である。 多くのプロトコルで使用される確率的違反よりも、絶対的違反による盗聴者の特定検出を実現する方法を示す。

We propose a new quantum key distribution scheme that is based on the optimum expectation values of maximally entangled Greenberger-Horne-Zeilinger states. Our protocol makes use of the degrees of freedom in continuously variable angles, thereby increasing the security of the key distribution. Outlined are two protocols that distribute a key from Alice to Bob using the above idea, followed by an extension that allows for the same key to be shared with Charlie. We show how this scheme provides for certain detection of any eavesdropper through absolute violation rather than the probabilistic violation used in many protocols.
翻訳日:2023-08-21 15:14:28 公開日:2023-08-17
# ネットワーク型マルチエージェントマルコフ決定プロセスのための分散TD学習のO.D.E.フレームワーク

An O.D.E. Framework of Distributed TD-Learning for Networked Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2307.16706v4 )

ライセンス: Link先を確認
Donghwan Lee, Han-Dong Lim, and Do Wan Kim(参考訳) 本研究の目的は,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する分散常微分方程式(ODE)と分散時間差(TD)学習アルゴリズムを検討することである。 本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。 さらに、各エージェントは、グラフで表される通信ネットワークを介して、そのパラメータを隣接するエージェントと共有することができる。 私たちの貢献は2つの重要なポイントにまとめることができる。 1) 連続時間領域における平均的なコンセンサス手法に着想を得た新しい分散ODEを導入する。 ODEの収束は制御理論の観点から評価される。 2) 上記のODEに基づいて,新しい分散TD学習アルゴリズムを考案する。 提案する分散 ode の際立った特徴は、2つの独立した動的システム(それぞれ異なる役割を持つ)を組み込むことです。 この特徴は、新しい分散TD学習戦略のステージを設定し、その収束はボルカー・メインの定理を用いて確立することができる。

The primary objective of this paper is to investigate distributed ordinary differential equation (ODE) and distributed temporal difference (TD) learning algorithms for networked multi-agent Markov decision problems (MAMDPs). In our study, we adopt a distributed multi-agent framework where individual agents have access only to their own rewards, lacking insights into the rewards of other agents. Additionally, each agent has the ability to share its parameters with neighboring agents through a communication network, represented by a graph. Our contributions can be summarized in two key points: 1) We introduce novel distributed ODEs, inspired by the averaging consensus method in the continuous-time domain. The convergence of the ODEs is assessed through control theory perspectives. 2) Building upon the aforementioned ODEs, we devise new distributed TD-learning algorithms. A standout feature of one of our proposed distributed ODEs is its incorporation of two independent dynamic systems, each with a distinct role. This characteristic sets the stage for a novel distributed TD-learning strategy, the convergence of which can potentially be established using Borkar-Meyn theorem.
翻訳日:2023-08-21 10:25:35 公開日:2023-08-17
# 視覚言語モデルのためのブラックボックスの少数ショット適応

Black Box Few-Shot Adaptation for Vision-Language models ( http://arxiv.org/abs/2304.01752v3 )

ライセンス: Link先を確認
Yassine Ouali, Adrian Bulat, Brais Martinez, Georgios Tzimiropoulos(参考訳) ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。 ソフト・プロンプト・ラーニング(Soft prompt learning)は、新しいドメインによって誘導される分布シフトによって生じるモダリティギャップを埋めることを目的とした、数発の下流適応の選択方法である。 パラメータ効率は高いが、プロンプト学習ではモデル重みへのアクセスが必要であり、数十億のパラメータを持つ大規模モデルでは計算上不可能である。 これらの欠点に対処するため、本研究では、V-L小ショット適応のためのブラックボックス法について述べる。 (a)事前計算された画像とテキストの特徴で動作し、従ってモデルの重みにアクセスせずに機能する。 (b)訓練時の方が桁違いに速い。 (c)監督訓練と教師なし研修の両方が実施可能であり、 (d) ユニモーダルモデルから計算された画像やテキストの特徴を調整するためにも使用できる。 そこで本研究では,対象領域におけるV-L再構成のための単純な線形アプローチであるLFAを提案する。 lfaは閉形式解から最小二乗問題に初期化され、再ランクの損失を最小限にすることで反復的に更新される。 その単純さにもかかわらず、我々のアプローチは、11の画像と2つのビデオデータセットに関する広範な実験で示されているように、ソフト・プロンプト学習手法を超えることができる。

Vision-Language (V-L) models trained with contrastive learning to align the visual and language modalities have been shown to be strong few-shot learners. Soft prompt learning is the method of choice for few-shot downstream adaptation aiming to bridge the modality gap caused by the distribution shift induced by the new domain. While parameter-efficient, prompt learning still requires access to the model weights and can be computationally infeasible for large models with billions of parameters. To address these shortcomings, in this work, we describe a black-box method for V-L few-shot adaptation that (a) operates on pre-computed image and text features and hence works without access to the model's weights, (b) it is orders of magnitude faster at training time, (c) it is amenable to both supervised and unsupervised training, and (d) it can be even used to align image and text features computed from uni-modal models. To achieve this, we propose Linear Feature Alignment (LFA), a simple linear approach for V-L re-alignment in the target domain. LFA is initialized from a closed-form solution to a least-squares problem and then it is iteratively updated by minimizing a re-ranking loss. Despite its simplicity, our approach can even surpass soft-prompt learning methods as shown by extensive experiments on 11 image and 2 video datasets.
翻訳日:2023-08-21 10:25:16 公開日:2023-08-17
# 商用機器のリアルタイムRFフィンガープリントのためのBluetoothとWiFiデータセット

Bluetooth and WiFi Dataset for Real World RF Fingerprinting of Commercial Devices ( http://arxiv.org/abs/2303.13538v3 )

ライセンス: Link先を確認
Anu Jagannath, Zackary Kane, Jithin Jagannath(参考訳) RFフィンガープリンティングは、RFスペクトルを共有する不正または/または不正なエミッタを特定する物理層セキュリティスキームとして登場している。 しかし、一般にアクセス可能な実世界のデータセットがないため、ほとんどの研究は、実用的な配置設定には適さないsoftware-defined radios (sdr) による合成波形の生成に焦点を当てている。 一方、利用可能な限られたデータセットは、1種類の波形のみを生成するチップセットにのみフォーカスする。 ラップトップやアダプタ、ワイヤレス充電器、raspberry piなど、共通のデュアルバンドアンテナ上で2つのワイヤレス標準(例えばwifiとbluetooth)をサポートする商用オフ・ザ・棚(cots)コンボチップセットが、iotの世界においてユビキタスになってきている。 したがって、現代的なIoT環境に追従するため、異種通信プロトコルを伝達するこれらのコンボチップセットからの排出をキャプチャする、現実世界のオープンデータセットの必要性が高まっている。 この目的のために、我々は2つの異なる時間枠でWiFiとBluetoothを伝送するCOTS IoTチップセットからの既知の最初の排出をキャプチャした。 異なる時間枠はモデルの一般化能力を厳格に評価するために不可欠である。 広く使用するために、72GBデータセット内の各キャプチャは、多様な入力テンソルの長さとフォーマットをサポートするのに十分な長さ(40MSamples)である。 最後に、データセットは、現実世界の設定で遭遇した高信号強度の損失を考慮し、様々な信号パワーでの排出も含んでいる。

RF fingerprinting is emerging as a physical layer security scheme to identify illegitimate and/or unauthorized emitters sharing the RF spectrum. However, due to the lack of publicly accessible real-world datasets, most research focuses on generating synthetic waveforms with software-defined radios (SDRs) which are not suited for practical deployment settings. On other hand, the limited datasets that are available focus only on chipsets that generate only one kind of waveform. Commercial off-the-shelf (COTS) combo chipsets that support two wireless standards (for example WiFi and Bluetooth) over a shared dual-band antenna such as those found in laptops, adapters, wireless chargers, Raspberry Pis, among others are becoming ubiquitous in the IoT realm. Hence, to keep up with the modern IoT environment, there is a pressing need for real-world open datasets capturing emissions from these combo chipsets transmitting heterogeneous communication protocols. To this end, we capture the first known emissions from the COTS IoT chipsets transmitting WiFi and Bluetooth under two different time frames. The different time frames are essential to rigorously evaluate the generalization capability of the models. To ensure widespread use, each capture within the comprehensive 72 GB dataset is long enough (40 MSamples) to support diverse input tensor lengths and formats. Finally, the dataset also comprises emissions at varying signal powers to account for the feeble to high signal strength emissions as encountered in a real-world setting.
翻訳日:2023-08-21 10:24:50 公開日:2023-08-17
# ref-dvgo:リフレクションシーン再構築における品質効率向上のためのリフレクションアウェア直接ボクセルグリッド最適化

Ref-DVGO: Reflection-Aware Direct Voxel Grid Optimization for an Improved Quality-Efficiency Trade-Off in Reflective Scene Reconstructio ( http://arxiv.org/abs/2308.08530v2 )

ライセンス: Link先を確認
Georgios Kouros and Minye Wu and Shubham Shrivastava and Sushruth Nagesh and Punarjay Chakravarty and Tinne Tuytelaars(参考訳) ニューラル・ラミアンス・フィールド(nerfs)は、目覚ましい性能を示す新しい視点合成の分野に革命をもたらした。 しかし、反射オブジェクトのモデリングとレンダリングは依然として困難な問題である。 近年の手法は, 効率を犠牲にしながらも, 反射シーンの処理において, ベースラインよりも大幅に改善されている。 この作業では、効率と品質のバランスを取ることを目指しています。 そこで本研究では,従来のボリュームレンダリングに基づく暗黙的探索手法を用いて,復元品質の向上とトレーニングとレンダリングプロセスを高速化する。 我々は高効率密度グリッド表現を採用し、パイプライン内の反射放射率を再パラメータ化する。 提案手法は, 競合する手法と比較して, 競合する品質効率のトレードオフを実現する。 実験結果に基づいて, 反射物体を再構成する密度法の結果に影響を及ぼす要因に関する仮説を提案し, 議論する。 ソースコードは、https://github.com/gkouros/ref-dvgoで入手できる。

Neural Radiance Fields (NeRFs) have revolutionized the field of novel view synthesis, demonstrating remarkable performance. However, the modeling and rendering of reflective objects remain challenging problems. Recent methods have shown significant improvements over the baselines in handling reflective scenes, albeit at the expense of efficiency. In this work, we aim to strike a balance between efficiency and quality. To this end, we investigate an implicit-explicit approach based on conventional volume rendering to enhance the reconstruction quality and accelerate the training and rendering processes. We adopt an efficient density-based grid representation and reparameterize the reflected radiance in our pipeline. Our proposed reflection-aware approach achieves a competitive quality efficiency trade-off compared to competing methods. Based on our experimental results, we propose and discuss hypotheses regarding the factors influencing the results of density-based methods for reconstructing reflective objects. The source code is available at: https://github.com/gkouros/ref-dvgo
翻訳日:2023-08-21 10:22:50 公開日:2023-08-17
# 双方向予測に基づく6次元物体ポーズ推定における視点注意の活用

Exploiting Point-Wise Attention in 6D Object Pose Estimation Based on Bidirectional Prediction ( http://arxiv.org/abs/2308.08518v2 )

ライセンス: Link先を確認
Yuhao Yang, Jun Wu, Guangjian Zhang and Rong Xiong(参考訳) 従来の幾何学的登録に基づく推定手法はCADモデルのみを暗黙的に利用し、観察品質と排他性への欠如への依存につながる。 そこで本稿では,ポイントワイズ注意認識機構を備えた双方向対応予測ネットワークを提案する。 このネットワークは、対応を予測するためにモデルポイントを必要とするだけでなく、観測と先行モデルの幾何学的類似性を明示的にモデル化する。 私たちの重要な洞察は、各モデルポイントとシーンポイントの相関が、ポイントペアマッチの学習に不可欠な情報を提供するということです。 特徴分布のばらつきによる相関ノイズにさらに対処するために,特徴の均一性を改善するために,単純だが効果的な擬似テーマネットワークを設計する。 LineMOD, YCB-Video, Occ-LineMOD の公開データセットに対する実験結果から, 提案手法は, 同じ評価基準下での他の最先端手法よりも優れた性能が得られることが示された。 ポーズ推定におけるロバスト性は,特に重症咬合環境において著しく改善されている。

Traditional geometric registration based estimation methods only exploit the CAD model implicitly, which leads to their dependence on observation quality and deficiency to occlusion. To address the problem,the paper proposes a bidirectional correspondence prediction network with a point-wise attention-aware mechanism. This network not only requires the model points to predict the correspondence but also explicitly models the geometric similarities between observations and the model prior. Our key insight is that the correlations between each model point and scene point provide essential information for learning point-pair matches. To further tackle the correlation noises brought by feature distribution divergence, we design a simple but effective pseudo-siamese network to improve feature homogeneity. Experimental results on the public datasets of LineMOD, YCB-Video, and Occ-LineMOD show that the proposed method achieves better performance than other state-of-the-art methods under the same evaluation criteria. Its robustness in estimating poses is greatly improved, especially in an environment with severe occlusions.
翻訳日:2023-08-21 10:22:33 公開日:2023-08-17
# 2次半次スコアモデルによる3次元Ill-posed逆問題の解法

Two-and-a-half Order Score-based Model for Solving 3D Ill-posed Inverse Problems ( http://arxiv.org/abs/2308.08511v2 )

ライセンス: Link先を確認
Zirong Li, Yanyang Wang, Jianjia Zhang and Weiwen Wu, Hengyong Yu(参考訳) CT(CT)とMRI(MRI)は医療画像の分野で重要な技術である。 スコアベースモデルは、スパースビューCTや高速MRI再構成など、CTやMRIで発生する様々な逆問題に対処するのに有効であることが証明されている。 しかし、これらのモデルは正確な3次元(3次元)体積再構成を達成する上で困難に直面している。 既存のスコアベースモデルは主に2次元(2次元)データ分布の再構成に焦点を合わせており、再構成された3次元ボリューム画像の隣接スライス間の不整合をもたらす。 この制限を克服するために、新しい2次半スコアベースモデル(TOSM)を提案する。 トレーニング期間中、TOSMは2次元空間のデータ分布を学習し、3次元ボリュームで直接作業するよりも、トレーニングの複雑さを低減する。 しかし、再構成段階では、TOSMは3次元空間のデータ分布を更新し、3方向(矢状、コロナ、横軸)の相補的なスコアを利用してより正確な再構成を行う。 TOSMの開発は堅牢な理論原理に基づいており、信頼性と有効性を保証する。 大規模なスパークビューCTと高速MRIデータセットの広範囲な実験を通じて,本手法は顕著な進歩を示し,3次元不規則逆問題に対する最先端の結果を得る。 特に,TOSMはスライス不整合問題に対処し,高品質な3次元ボリューム再構成を実現する。

Computed Tomography (CT) and Magnetic Resonance Imaging (MRI) are crucial technologies in the field of medical imaging. Score-based models have proven to be effective in addressing different inverse problems encountered in CT and MRI, such as sparse-view CT and fast MRI reconstruction. However, these models face challenges in achieving accurate three dimensional (3D) volumetric reconstruction. The existing score-based models primarily focus on reconstructing two dimensional (2D) data distribution, leading to inconsistencies between adjacent slices in the reconstructed 3D volumetric images. To overcome this limitation, we propose a novel two-and-a-half order score-based model (TOSM). During the training phase, our TOSM learns data distributions in 2D space, which reduces the complexity of training compared to directly working on 3D volumes. However, in the reconstruction phase, the TOSM updates the data distribution in 3D space, utilizing complementary scores along three directions (sagittal, coronal, and transaxial) to achieve a more precise reconstruction. The development of TOSM is built on robust theoretical principles, ensuring its reliability and efficacy. Through extensive experimentation on large-scale sparse-view CT and fast MRI datasets, our method demonstrates remarkable advancements and attains state-of-the-art results in solving 3D ill-posed inverse problems. Notably, the proposed TOSM effectively addresses the inter-slice inconsistency issue, resulting in high-quality 3D volumetric reconstruction.
翻訳日:2023-08-21 10:21:59 公開日:2023-08-17
# 分類のための精度とリコールリジェクト曲線

Precision and Recall Reject Curves for Classification ( http://arxiv.org/abs/2308.08381v2 )

ライセンス: Link先を確認
Lydia Fischer and Patricia Wollstadt(参考訳) いくつかの分類シナリオでは、訓練されたモデルが高い確実性と関連付ける分類インスタンスのみを使用することが望ましい。 このような高精度な実例を得るため、先行研究では精度-再帰曲線が提案されている。 リジェクト曲線は、分類を受け入れたり拒否したりするためのしきい値の範囲で異なる確実性尺度のパフォーマンスを評価し、比較することができる。 しかし、精度は全てのアプリケーションに最も適した評価基準ではなく、代わりに精度やリコールが好ましい。 これは例えば、不均衡なクラス分布を持つデータの場合である。 そこで我々は,精度とリコール,リコール・リジェクト曲線,精度・リジェクト曲線を評価するリジェクション曲線を提案する。 学習ベクトル量子化からプロトタイプベースの分類器を用いて,まず,精度の低下曲線をベースラインとして,人工ベンチマークデータ上で提案した曲線を検証した。 次に,不均衡なベンチマークと医学的実世界のデータを用いて,提案する精度とリコール曲線は,精度の拒絶曲線よりも,分類器の性能に関するより正確な洞察をもたらすことを示す。

For some classification scenarios, it is desirable to use only those classification instances that a trained model associates with a high certainty. To obtain such high-certainty instances, previous work has proposed accuracy-reject curves. Reject curves allow to evaluate and compare the performance of different certainty measures over a range of thresholds for accepting or rejecting classifications. However, the accuracy may not be the most suited evaluation metric for all applications, and instead precision or recall may be preferable. This is the case, for example, for data with imbalanced class distributions. We therefore propose reject curves that evaluate precision and recall, the recall-reject curve and the precision-reject curve. Using prototype-based classifiers from learning vector quantization, we first validate the proposed curves on artificial benchmark data against the accuracy reject curve as a baseline. We then show on imbalanced benchmarks and medical, real-world data that for these scenarios, the proposed precision- and recall-curves yield more accurate insights into classifier performance than accuracy reject curves.
翻訳日:2023-08-21 10:20:54 公開日:2023-08-17
# HyperSNN:リソース制約制御アプリケーションのための新しい効率的で堅牢なディープラーニングモデル

HyperSNN: A new efficient and robust deep learning model for resource constrained control applications ( http://arxiv.org/abs/2308.08222v2 )

ライセンス: Link先を確認
Zhanglu Yan, Shida Wang, Kaiwen Tang, Weng-Fai Wong(参考訳) 本稿では,インテリジェント家具やロボット工学,スマートホームといった分野におけるエッジコンピューティングの採用が増加していることを踏まえ,スパイクニューラルネットワーク(snn)と超次元コンピューティングを組み合わせた制御タスクの革新的手法であるhypersnnを紹介する。 HyperSNNは高価な32ビット浮動小数点乗算を8ビットの整数加算に置き換え、ロバスト性を高め、精度を向上する。 私たちのモデルは、Cartpole、Acrobot、MountainCar、Lunar Landerなど、AI Gymベンチマークでテストされました。 HyperSNNは従来の機械学習手法と同等の制御精度を達成しているが、エネルギー支出の1.36%から9.96%しか達成していない。 さらに,HyperSNNを用いた場合のロバスト性も向上した。 我々はHyperSNNが特にインタラクティブ、モバイル、ウェアラブルデバイスに適しており、エネルギー効率と堅牢なシステム設計を促進すると考えている。 さらに、実際の産業シナリオにおけるモデル予測制御(MPC)のような複雑なアルゴリズムの実践的な実装の道を開く。

In light of the increasing adoption of edge computing in areas such as intelligent furniture, robotics, and smart homes, this paper introduces HyperSNN, an innovative method for control tasks that uses spiking neural networks (SNNs) in combination with hyperdimensional computing. HyperSNN substitutes expensive 32-bit floating point multiplications with 8-bit integer additions, resulting in reduced energy consumption while enhancing robustness and potentially improving accuracy. Our model was tested on AI Gym benchmarks, including Cartpole, Acrobot, MountainCar, and Lunar Lander. HyperSNN achieves control accuracies that are on par with conventional machine learning methods but with only 1.36% to 9.96% of the energy expenditure. Furthermore, our experiments showed increased robustness when using HyperSNN. We believe that HyperSNN is especially suitable for interactive, mobile, and wearable devices, promoting energy-efficient and robust system design. Furthermore, it paves the way for the practical implementation of complex algorithms like model predictive control (MPC) in real-world industrial scenarios.
翻訳日:2023-08-21 10:20:01 公開日:2023-08-17
# 実験物理のための説明可能な多視点深層ネットワーク手法

Explainable Multi-View Deep Networks Methodology for Experimental Physics ( http://arxiv.org/abs/2308.08206v2 )

ライセンス: Link先を確認
Nadav Schneider, Muriel Tzdaka, Galit Sturm, Guy Lazovski, Galit Bar, Gilad Oren, Raz Gvishi, Gal Oren(参考訳) 物理実験はX線スキャンや顕微鏡画像などの複数の画像表現を含むことが多い。 深層学習モデルはこれらの実験において教師あり分析に広く利用されている。 異なる画像表現を組み合わせることは、適切に分析し決定するためにしばしば必要となる。 その結果、マルチビューデータが出現した - 各サンプルが異なる角度、ソース、モダリティのビューによって記述されるデータセット。 これらの問題は多視点学習の概念で解決される。 深層学習モデルの意思決定プロセスを理解することは信頼性と信頼性のある分析に不可欠である。 したがって、近年多くの説明可能性法が考案されている。 それにもかかわらず、マルチビューモデルには適切な説明ができないため、そのアーキテクチャのために説明が難しい。 本稿では、視覚領域の異なる多視点アーキテクチャを提案し、それぞれ別の問題に適合し、これらのモデルを説明する方法論を提案する。 提案手法の有効性を実証するため,高エネルギー密度物理(HEDP)実験の領域に着目し,複数の画像表現を用いて発泡試料の品質評価を行った。 本手法は,提案するマルチビューアーキテクチャを用いて発泡試料の品質を分類する。 実験の結果,78%から84%,aucが83%から93%の精度で正確なアーキテクチャ選択の改善を示し,性能と説明可能性のトレードオフを示す。 具体的には,本手法が個々の一視点モデルの説明を可能にし,各視点の意思決定プロセスに関する洞察を提供する。 この理解は、全体的なマルチビューモデルの解釈性を高める。 この作業のソースは、https://github.com/Scientific-Computing-Lab-NRCN/Multi-View-Explainabilityにある。

Physical experiments often involve multiple imaging representations, such as X-ray scans and microscopic images. Deep learning models have been widely used for supervised analysis in these experiments. Combining different image representations is frequently required to analyze and make a decision properly. Consequently, multi-view data has emerged - datasets where each sample is described by views from different angles, sources, or modalities. These problems are addressed with the concept of multi-view learning. Understanding the decision-making process of deep learning models is essential for reliable and credible analysis. Hence, many explainability methods have been devised recently. Nonetheless, there is a lack of proper explainability in multi-view models, which are challenging to explain due to their architectures. In this paper, we suggest different multi-view architectures for the vision domain, each suited to another problem, and we also present a methodology for explaining these models. To demonstrate the effectiveness of our methodology, we focus on the domain of High Energy Density Physics (HEDP) experiments, where multiple imaging representations are used to assess the quality of foam samples. We apply our methodology to classify the foam samples quality using the suggested multi-view architectures. Through experimental results, we showcase the improvement of accurate architecture choice on both accuracy - 78% to 84% and AUC - 83% to 93% and present a trade-off between performance and explainability. Specifically, we demonstrate that our approach enables the explanation of individual one-view models, providing insights into the decision-making process of each view. This understanding enhances the interpretability of the overall multi-view model. The sources of this work are available at: https://github.com/Scientific-Computing-Lab-NRCN/Multi-View-Explainability.
翻訳日:2023-08-21 10:19:44 公開日:2023-08-17