このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230810となっている論文です。

PDF登録状況(公開日: 20230810)

TitleAuthorsAbstract論文公表日・翻訳日
# 開発者満足度と生産性を理解する - COVID-19パンデミック中の2年間の縦断的分析

Understanding Developers Well-Being and Productivity: a 2-year Longitudinal Analysis during the COVID-19 Pandemic ( http://arxiv.org/abs/2111.10349v3 )

ライセンス: Link先を確認
Daniel Russo and Paul H.P. Hanel and Niels van Berkel(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、労働環境の柔軟性の向上など、さまざまな面で大きな変化をもたらしている。 2020年4月から2022年4月までの6つの測定点を含む24ヶ月にわたる縦断研究では、この期間のソフトウェアエンジニアの幸福感、生産性、社会的接触、ニーズの変化を調査した。 各種変数の系統的変化が示唆された。 例えば、ロックダウン対策が緩和されたことにより、幸福感と社会的接触の質が向上し、感情的な孤独が低下した。 逆に、人々の退屈と生産性は安定し続けた。 さらに、パンデミック末期における仕事の未来に関する予備的な調査では、ハイブリッドワークアレンジメントの好みについて開発者の間で合意が得られた。 また,現在の作業条件が開発者のニーズを満たさない場合,事前のジョブ変更や低いジョブ満足度が,ジョブ変更の意図と一貫して関連していることも分かりました。 これは、ソフトウェア組織が競争力のある雇用主を維持するために様々な作業アレンジメントに適応することの必要性を強調している。 我々の発見と既存の文献に基づいて、COVID-19パンデミックにおけるソフトウェアエンジニアの幸福と生産性を説明するための包括的なフレームワークとして、統合ジョブ要求と自己決定(IJARS)モデルを紹介します。

The COVID-19 pandemic has brought significant and enduring shifts in various aspects of life, including increased flexibility in work arrangements. In a longitudinal study, spanning 24 months with six measurement points from April 2020 to April 2022, we explore changes in well-being, productivity, social contacts, and needs of software engineers during this time. Our findings indicate systematic changes in various variables. For example, well-being and quality of social contacts increased while emotional loneliness decreased as lockdown measures were relaxed. Conversely, people's boredom and productivity, remained stable. Furthermore, a preliminary investigation into the future of work at the end of the pandemic revealed a consensus among developers for a preference of hybrid work arrangements. We also discovered that prior job changes and low job satisfaction were consistently linked to intentions to change jobs if current work conditions do not meet developers' needs. This highlights the need for software organizations to adapt to various work arrangements to remain competitive employers. Building upon our findings and the existing literature, we introduce the Integrated Job Demands-Resources and Self-Determination (IJARS) Model as a comprehensive framework to explain the well-being and productivity of software engineers during the COVID-19 pandemic.
翻訳日:2023-10-24 15:49:06 公開日:2023-08-10
# 予備部品からサーバレスデータレイクハウスを構築する

Building a serverless Data Lakehouse from spare parts ( http://arxiv.org/abs/2308.05368v1 )

ライセンス: Link先を確認
Jacopo Tagliabue, Ciro Greco, Luca Bigon(参考訳) 最近提案されたdata lakehouseアーキテクチャは、オープンファイルフォーマット、パフォーマンス、データ変換、bi、データサイエンスの第一級のサポートをベースに構築されている。 Bauplanでは、Lakehouseのビジョンを満たすために、新たなサーバレスプラットフォームを構築することにしました。 スクラッチから構築することは、スタートアップにとって不適当であるので、既存のプロジェクトを再使用し(時には従来とは違って)、開発者エクスペリエンスに最も限界的な利益をもたらす領域の改善に投資することから始めました。 本研究は,ユーザエクスペリエンス,ハイレベルアーキテクチャ,ツール決定をレビューし,今後の開発計画を共有することで結論づける。

The recently proposed Data Lakehouse architecture is built on open file formats, performance, and first-class support for data transformation, BI and data science: while the vision stresses the importance of lowering the barrier for data work, existing implementations often struggle to live up to user expectations. At Bauplan, we decided to build a new serverless platform to fulfill the Lakehouse vision. Since building from scratch is a challenge unfit for a startup, we started by re-using (sometimes unconventionally) existing projects, and then investing in improving the areas that would give us the highest marginal gains for the developer experience. In this work, we review user experience, high-level architecture and tooling decisions, and conclude by sharing plans for future development.
翻訳日:2023-10-23 14:53:05 公開日:2023-08-10
# イベント駆動アーキテクチャの隠れた可能性を明らかにする:研究課題

Uncovering the Hidden Potential of Event-Driven Architecture: A Research Agenda ( http://arxiv.org/abs/2308.05270v1 )

ライセンス: Link先を確認
Luan Lazzari, Kleinner Farias(参考訳) イベント駆動アーキテクチャはソフトウェア業界で広く採用され、絶えず進化するシステムの迅速な適応をサポートするモジュール開発に代わるものとして登場した。 しかしながら、イベント駆動アーキテクチャがパフォーマンス、安定性、ソフトウェア監視に与える影響についてはほとんど分かっていない。 その結果、専門家は、その影響に関する実証的な証拠なしでそれを採用することになる。 さらに悪いことに、現在の文献には、新たな研究の方向性を検討する必要があることを示す研究が欠けている。 本稿では,イベント指向アーキテクチャの分野における文献の不足に基づく今後の研究課題を提案する。 この議題は、著者の経験だけでなく、文献レビューと事例研究から導かれたものである。 パフォーマンス分析、実証的研究、アーキテクチャの安定性、採用への挑戦、イベントストリームの監視、ソフトウェアパフォーマンスへの影響、導入に対する幅広い課題、イベント駆動アーキテクチャの監視の改善などだ。 この調査結果は、研究者と開発者がイベント駆動アーキテクチャの隠れた可能性を明らかにする上で重要な課題を優先順位付けするのに役立ちます。 最後に,研究の出発点としてアジェンダを提案し,研究者や専門家を支援することを目的とする。

Event-driven architecture has been widely adopted in the software industry, emerging as an alternative to modular development to support rapid adaptations of constantly evolving systems. However, little is known about the effects of event-driven architecture on performance, stability, and software monitoring, among others. Consequently, professionals end up adopting it without any empirical evidence about its impact. Even worse, the current literature lacks studies that point to which emerging research directions need to be explored. This article proposes an agenda for future research based on the scarcity of literature in the field of event-oriented architecture. This agenda was derived from a literature review and a case study carried out, as well as from the authors' experience. Eight main topics were explored in this work: performance analysis, empirical studies, architectural stability, challenges to adopting, monitoring event streams, effects on software performance, broader challenges for adoption, and better monitoring of event-driven architecture. The findings reported help the researchers and developers in prioritizing the critical difficulties for uncovering the hidden potential of event-driven architecture. Finally, this article seeks to help researchers and professionals by proposing an agenda as a starting point for their research.
翻訳日:2023-10-23 14:52:52 公開日:2023-08-10
# aiシステムのための動的エグゼクティブマイクロサービスアーキテクチャモデルの提案

Proposing a Dynamic Executive Microservices Architecture Model for AI Systems ( http://arxiv.org/abs/2308.05833v1 )

ライセンス: Link先を確認
Mahyar Karimi, Ahmad Abdollahzadeh Barfroush(参考訳) マイクロサービスアーキテクチャは、近年改善されている新しいアーキテクチャスタイルのひとつです。 システムアーキテクトや開発者の間で人気のあるアーキテクチャスタイルとなっている。 この人気は、クラウドコンピューティングにおける新しい技術と技術進歩の出現とともに高まった。 これらの進歩は、サービスベースのソフトウェアシステムに対する新しい設計と開発課題の出現を引き起こした。 大規模組織やチームでのマイクロサービスアーキテクチャの利用の増加は、アーキテクチャ上の課題に対する適切なソリューションを見つける必要性を高めた。 マイクロサービスアーキテクチャにおけるコンポーネントのオーケストレーションは、分散システムの主要な課題の1つであり、効率、互換性、安定性、再利用性といった要因によるソフトウェア品質に影響します。 このようなシステムでは、ソフトウェアアーキテクチャはきめ細かいコンポーネントから構成される。 大規模システムにおけるマイクロサービスの増加により、マイクロサービスコンポーネントの適切な管理と通信のオーケストレーションが障害点になる可能性がある。 この記事では、マイクロサービスアーキテクチャの課題を特定します。 コンポーネントオーケストレーションの課題を解決するために,品質の維持と改善のための適切なモデルを提案する。 提示されたモデルは、パターンとして、システムの設計と開発の両方で使用することができる。 実行時のソフトウェアの動的性は、このパターンの主な成果です。 このモデルでは、マイクロサービスコンポーネントのオーケストレーションタスクは、BPMNベースのワークフローエンジンをオーケストレータコンポーネントとして使用することで実行される。 オーケストレータの設計は、プラットフォームインフラストラクチャを変更することなく、新しい複合マイクロサービスを作成、追跡、修正する機能を提供する。

Microservices architecture is one of the new architectural styles that has improved in recent years. It has become a popular architectural style among system architects and developers. This popularity increased with the advent of new technologies and technological advancements in cloud computing. These advancements caused the emergence of new design and development challenges for service-based software systems. The increasing use of microservices architecture in large organizations and teams has increased the need to find appropriate solutions for architecture challenges. Orchestration of the components in the microservices architecture is one of the main challenges in distributed systems and affects the software quality in factors such as efficiency, compatibility, stability, and reusability. In such systems, software architecture consists of fine-grained components. Due to the increasing number of microservices in a large-scale system, proper management and communication orchestration of microservice components can become a point of failure. In this article, the challenges of Microservices architecture have been identified. To resolve the component orchestration challenges, an appropriate model to maintain and improve quality is proposed. The presented model, as a pattern, can be used at the both design and development level of the system. The Dynamicity of software at runtime is the main achievement of this pattern. In this model, microservice components orchestration tasks are performed by using a BPMN-based workflow engine as the orchestrator component. The orchestrator design gives the ability to create, track and modify new composite microservices without the need to change platform infrastructure.
翻訳日:2023-10-23 14:42:16 公開日:2023-08-10
# MobiScout: IOSアプリとWatchOSエクステンションを備えたスケーラブルなクラウドベースの駆動およびアクティビティ監視プラットフォーム

MobiScout: A Scalable Cloud-Based Driving and Activity Monitoring Platform Featuring an IOS App and a WatchOS Extension ( http://arxiv.org/abs/2308.05698v1 )

ライセンス: Link先を確認
Kojo Konadu Adu-Gyamfi, Karo Ahmadi-Dehrashid, Yaw Okyere Adu-Gyamfi, Pujitha Gunaratne, Anuj Sharma(参考訳) MobiScoutは、道路上でユーザーの運転習慣や生理状態を監視するiOSソフトウェアである。 Mobiscoutアプリは、自然主義駆動研究のための低コストな次世代データ収集および分析ソリューションを提供するために開発された。 MobiScoutは、携帯電話、スマートウォッチ、Bluetooth対応OBD機器のセンサーとカメラを使って、通常の運転状態の運転者の生理的情報を含むリアルタイムデータを収集する。 MobiScoutのソフトウェアは、速度、ブレーキ、パルス速度、加速度などの車両と運転データをキャプチャし、スマートフォンのカメラは車内外のあらゆるものをキャプチャします。 キャプチャされたデータは、リアルタイムでクラウドストレージにストリーミングしたり、WIFIデッドゾーン内のローカルストレージに永続化することができる。 収集された情報は、ドライバー間の典型的な交通行動、性能、環境、運転状況をよりよく理解するためにさらに研究される。

MobiScout is an iOS software that monitors users' driving habits and physiological conditions while on the road. The Mobiscout app was created to provide a low-cost next-generation data collection and analysis solution for naturalistic driving studies. MobiScout collects real-time data, including physiological information from drivers in their normal driving conditions using sensors and cameras on mobile phones, smartwatches, and Bluetooth-enabled OBD equipment. The MobiScout software captures vehicle and driving data, including speed, braking, pulse rate, and acceleration, while the phone's camera captures everything inside and outside the car. Data captured can be streamed to cloud storage in real-time or persisted in local storage in WIFI dead zones. The information gathered will be studied further to better understand typical traffic behavior, performance, surroundings, and driving context among drivers.
翻訳日:2023-10-23 14:41:58 公開日:2023-08-10
# 機械学習を使ってソフトウェアの弱点をソフトウェア要求仕様から識別する

Using Machine Learning To Identify Software Weaknesses From Software Requirement Specifications ( http://arxiv.org/abs/2308.05558v1 )

ライセンス: Link先を確認
Mounika Vanamala, Sean Loesch and Alexander Caravella(参考訳) セキュアなソフトウェアエンジニアリングは不可欠だが、時間を要する可能性がある。そのため、プロセスの有効性を減らさずに、ソフトウェア弱点の特定を迅速化できる手法は、ソフトウェアエンジニアリング産業に恩恵を与え、現代の生活に利益をもたらす。 本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。 この研究は、トレーニングにCWEリポジトリとPROMISE expデータセットを使用している。 潜在意味分析を用いて抽出されたキーワードは、CWEカテゴリを PROMISE_exp にマッピングするのに役立つ。 naive bayes, support vector machine (svm), decision tree, neural network, and convolutional neural network (cnn) アルゴリズムがテストされ,svmとニューラルネットワークは信頼性の高い結果を生成する。 研究のユニークな貢献は、マッピング技術とアルゴリズムの選択にある。 これは、有効性を損なうことなく開発ライフサイクルを迅速化しようとするセキュアなソフトウェアエンジニアリングコミュニティにとって、貴重な参考になる。 今後の作業には、より多くのアルゴリズムのテスト、既存のアルゴリズムの最適化、トレーニングセットの精度向上が含まれる。

Secure software engineering is crucial but can be time-consuming; therefore, methods that could expedite the identification of software weaknesses without reducing the process efficacy would benefit the software engineering industry and thus benefit modern life. This research focuses on finding an efficient machine learning algorithm to identify software weaknesses from requirement specifications. The research uses the CWE repository and PROMISE exp dataset for training. Keywords extracted using latent semantic analysis help map the CWE categories to PROMISE_exp. Naive Bayes, support vector machine (SVM), decision trees, neural network, and convolutional neural network (CNN) algorithms were tested, with SVM and neural network producing reliable results. The research is unique contribution lies in the mapping technique and algorithm selection. It serves as a valuable reference for the secure software engineering community seeking to expedite the development lifecycle without compromising efficacy. Future work involves testing more algorithms, optimizing existing ones, and improving the training sets accuracy.
翻訳日:2023-10-23 14:41:41 公開日:2023-08-10
# 学習モデルの適用によるアプリの更新テスト

Testing Updated Apps by Adapting Learned Models ( http://arxiv.org/abs/2308.05549v1 )

ライセンス: Link先を確認
Chanh-Duc Ngo, Fabrizio Pastore, Lionel Briand(参考訳) アプリの更新は頻繁に行われ、ソフトウェアエンジニアは更新された機能のみを検証したいと考えているが、自動テスト技術はアプリ全体を検証し、リソースを浪費している。 学習されたモデルの継続的適応(CALM:Continuous Adaptation of Learned Models)は、アプリの更新を効率よくテストする自動テスト手法である。 CALMは機能テストに重点を置いている。 機能的正確性は、主にアプリ画面の視覚的検査によって検証できるので、calmは、ソフトウェアテスターが視覚化するアプリ画面の数を最小化し、更新されたメソッドと命令の割合を最大化する。 経験的評価の結果,CALMは6つの最先端アプローチよりも更新手法と命令の比率が有意に高く,同じ数のAppスクリーンを視覚的に検査できることがわかった。 さらに、ごく少数のメソッドが更新される一般的なアップデートシナリオでは、CALMは競合するすべてのアプローチよりも、より重要な方法でパフォーマンスを向上する。

Although App updates are frequent and software engineers would like to verify updated features only, automated testing techniques verify entire Apps and are thus wasting resources. We present Continuous Adaptation of Learned Models (CALM), an automated App testing approach that efficiently tests App updates by adapting App models learned when automatically testing previous App versions. CALM focuses on functional testing. Since functional correctness can be mainly verified through the visual inspection of App screens, CALM minimizes the number of App screens to be visualized by software testers while maximizing the percentage of updated methods and instructions exercised. Our empirical evaluation shows that CALM exercises a significantly higher proportion of updated methods and instructions than six state-of-the-art approaches, for the same maximum number of App screens to be visually inspected. Further, in common update scenarios, where only a small fraction of methods are updated, CALM is even quicker to outperform all competing approaches in a more significant way.
翻訳日:2023-10-23 14:41:25 公開日:2023-08-10
# 量子アニールを用いたテストケース最小化

Test Case Minimization with Quantum Annealers ( http://arxiv.org/abs/2308.05505v1 )

ライセンス: Link先を確認
Xinyi Wang (1), Asmar Muqeet (1), Tao Yue (1), Shaukat Ali (1 and 2), Paolo Arcaini (3) ((1) Simula Research Laboratory Oslo Norway, (2) Oslo Metropolitan University Oslo Norway, (3) National Institute of Informatics Tokyo Japan)(参考訳) 量子アニール(quantum annealers)は、量子コンピューティング(QC)の特殊特性(重ね合わせ、絡み合い、量子トンネル)を用いて組合せ最適化問題を解決する特殊な量子コンピュータである。 理論的には、量子アニールは古典的コンピュータより優れている。 しかし、現在利用可能な量子異方体は小規模であり、量子ビット(量子ビット)が限られているため、量子上の優位性を示すことはできない。 しかしながら、量子アニール(QA)の組合せ最適化問題を定式化するための新しいメカニズムの開発が保証されている。 しかし、ソフトウェア工学におけるQAと組み合わせた問題の解決は未だ未定である。 この目的のために,テストケース最小化(TCM)問題をQAで解くための最初の取り組みであるBootQAを提案する。 BootQAでは、QAのためのTCMの新たな定式化と、QAにブートストラップサンプリングを組み込んでキュービットの使用を最適化するメカニズムの開発を行っている。 また,既存のD-Wave問題分解戦略を用いて,従来のシミュレーションアニール(SA),QAのないQA,QAの3つの最適化プロセスにTCMの定式化を実装し,実世界のTCMデータセットを用いて実験的な評価を行った。 その結果,BootQAは問題を分解せずにQAを上回り,既存の分解戦略ではQAは有効であることがわかった。 さらに、BootQAの有効性はSAと似ている。 最後に、BootQAは、他の3つの最適化プロセスよりも大きなTCM問題を解決する際の時間的効率が高い。

Quantum annealers are specialized quantum computers for solving combinatorial optimization problems using special characteristics of quantum computing (QC), such as superposition, entanglement, and quantum tunneling. Theoretically, quantum annealers can outperform classical computers. However, the currently available quantum annealers are small-scale, i.e., they have limited quantum bits (qubits); hence, they currently cannot demonstrate the quantum advantage. Nonetheless, research is warranted to develop novel mechanisms to formulate combinatorial optimization problems for quantum annealing (QA). However, solving combinatorial problems with QA in software engineering remains unexplored. Toward this end, we propose BootQA, the very first effort at solving the test case minimization (TCM) problem with QA. In BootQA, we provide a novel formulation of TCM for QA, followed by devising a mechanism to incorporate bootstrap sampling to QA to optimize the use of qubits. We also implemented our TCM formulation in three other optimization processes: classical simulated annealing (SA), QA without problem decomposition, and QA with an existing D-Wave problem decomposition strategy, and conducted an empirical evaluation with three real-world TCM datasets. Results show that BootQA outperforms QA without problem decomposition and QA with the existing decomposition strategy in terms of effectiveness. Moreover, BootQA's effectiveness is similar to SA. Finally, BootQA has higher efficiency in terms of time when solving large TCM problems than the other three optimization processes.
翻訳日:2023-10-23 14:41:05 公開日:2023-08-10
# 航空安全リスク分析と飛行技術評価問題

Aviation Safety Risk Analysis and Flight Technology Assessment Issues ( http://arxiv.org/abs/2309.12324v1 )

ライセンス: Link先を確認
Shuanghe Liu(参考訳) このテキストは、中国の民間航空産業における飛行安全の重要性を強調し、包括的な研究の必要性を強調している。 これは2つの主要な領域に焦点を当てている:超越事象を分析し、非存在データを統計的に評価する。 現在のアプローチの課題は、超過の原因分析が不十分であることだ。 提案手法は,データ前処理,信頼性評価,ニューラルネットワークを用いた飛行制御の定量化,探索的データ解析,機械学習による飛行人員スキル評価,リアルタイム自動警告の確立などを含む。 これらの取り組みは、飛行安全性、人員評価、警告メカニズムの向上を目的としており、より安全で効率的な民間航空部門に貢献している。

This text highlights the significance of flight safety in China's civil aviation industry and emphasizes the need for comprehensive research. It focuses on two main areas: analyzing exceedance events and statistically evaluating non-exceedance data. The challenges of current approaches lie in insufficient cause analysis for exceedances. The proposed solutions involve data preprocessing, reliability assessment, quantifying flight control using neural networks, exploratory data analysis, flight personnel skill evaluation with machine learning, and establishing real-time automated warnings. These endeavors aim to enhance flight safety, personnel assessment, and warning mechanisms, contributing to a safer and more efficient civil aviation sector.
翻訳日:2023-10-23 07:00:01 公開日:2023-08-10
# 深い政策勾配手法による商品取引

Commodities Trading through Deep Policy Gradient Methods ( http://arxiv.org/abs/2309.00630v1 )

ライセンス: Link先を確認
Jonas Hanetho(参考訳) アルゴリズム取引は、優れたリターンを生み出す可能性から注目を集めている。 本稿では,アルゴリズム商品取引における深層強化学習(DRL)手法の有効性について検討する。 商品取引問題を連続的離散時間確率力学系として定式化する。 提案システムは,市場ボラティリティに適応し,サブサンプルファイナンス時系列の統計特性を向上する新たな時間分散方式を採用している。 取引コストとリスクに敏感な取引エージェントを最適化するために、アクターベースとアクタークリティカルベースの2つのポリシー勾配アルゴリズムを導入した。 これらのエージェントは、CNNとLSTMをパラメトリック関数近似器として利用し、過去の価格観測を市場ポジションにマッピングする。 さらに、エージェントのリスクプロファイルは、最適化プロセス中に報奨機能のリスク感度を調節するハイパーパラメータを通じてカスタマイズすることができる。 アクターベースのモデルはアクター批評家ベースのモデルより優れており、CNNベースのモデルはLSTMベースのモデルよりも若干パフォーマンス上の優位性を示している。

Algorithmic trading has gained attention due to its potential for generating superior returns. This paper investigates the effectiveness of deep reinforcement learning (DRL) methods in algorithmic commodities trading. It formulates the commodities trading problem as a continuous, discrete-time stochastic dynamical system. The proposed system employs a novel time-discretization scheme that adapts to market volatility, enhancing the statistical properties of subsampled financial time series. To optimize transaction-cost- and risk-sensitive trading agents, two policy gradient algorithms, namely actor-based and actor-critic-based approaches, are introduced. These agents utilize CNNs and LSTMs as parametric function approximators to map historical price observations to market positions.Backtesting on front-month natural gas futures demonstrates that DRL models increase the Sharpe ratio by $83\%$ compared to the buy-and-hold baseline. Additionally, the risk profile of the agents can be customized through a hyperparameter that regulates risk sensitivity in the reward function during the optimization process. The actor-based models outperform the actor-critic-based models, while the CNN-based models show a slight performance advantage over the LSTM-based models.
翻訳日:2023-09-10 03:56:38 公開日:2023-08-10
# 転送学習を用いた光行列乗算モデルにおけるデータ不足の解消

Addressing Data Scarcity in Optical Matrix Multiplier Modeling Using Transfer Learning ( http://arxiv.org/abs/2308.11630v1 )

ライセンス: Link先を確認
Ali Cem, Ognjen Jovanovic, Siqi Yan, Yunhong Ding, Darko Zibar, and Francesco Da Ros(参考訳) 我々は、Mach-Zehnder干渉計メッシュを用いた光行列乗算器のためのニューラルネットワーク(NN)モデルを訓練する際に、転送学習を用いて実験データ不足に対処し、実験的に評価する。 提案手法は,不正確な解析モデルから生成された合成データと実験データとの微調整を用いた事前学習を行う。 本手法は, 学習データに制限がある場合, 解析モデルやスタンドアロンNNモデルと比較して, モデリング誤差が大幅に低減されることを示す。 正則化手法とアンサンブル平均化を利用して,フォトニックチップが実装した行列重みに対する1dBのルート平均二乗誤差を,利用可能なデータの25%のみを用いて達成する。

We present and experimentally evaluate using transfer learning to address experimental data scarcity when training neural network (NN) models for Mach-Zehnder interferometer mesh-based optical matrix multipliers. Our approach involves pre-training the model using synthetic data generated from a less accurate analytical model and fine-tuning with experimental data. Our investigation demonstrates that this method yields significant reductions in modeling errors compared to using an analytical model, or a standalone NN model when training data is limited. Utilizing regularization techniques and ensemble averaging, we achieve < 1 dB root-mean-square error on the matrix weights implemented by a photonic chip while using only 25% of the available data.
翻訳日:2023-08-27 04:45:15 公開日:2023-08-10
# 存在規則言語としての notation3

Notation3 as an Existential Rule Language ( http://arxiv.org/abs/2308.07332v1 )

ライセンス: Link先を確認
D\"orthe Arndt and Stephan Mennicke(参考訳) Notation3 Logic (\n Three)はRDFの拡張で、RDFグラフに新しい空白ノードを導入したルールを書くことができる。 多くのアプリケーション(オントロジーマッピングなど)は、空白ノード -- 直接あるいは補助的なコンストラクト -- がWeb上で完全に表現されているため、この機能に依存している。 しかし、このロジックの非常に重要な特徴をカバーする高速な \n3 推論の数は、かなり限られている。 一方、vlogやnemoのようなエンジンはセマンティックなwebルールフォーマットを直接サポートしていないが、非常に似た構成のために開発され最適化されている。 本稿では,頭部に空白ノードを持つ「3」規則と実存規則の関係について検討する。 我々は、存在規則に直接写像できる \nthree の部分集合を特定し、そのような写像を \nthree 公式の同値性を保つように定義する。 また、いくつかのケースで \nthree 推論が我々の翻訳の恩恵を受ける可能性があることを説明するために、我々はこのマッピングを用いて \nthree 推論の eye と cwm を vlog と nemo に比較した。 実存規則推論器は,多くの事実を含むユースケースにおいて特に有効であり,特にEYE推論器は多数の依存ルールを扱う場合,非常に高速であることを示す。 そこで我々は,Semantic Webコミュニティが,現在および将来の既存のルール推論を直接利用し,このアクティブなコミュニティの発見の恩恵を受けることができるツールを提供する。

Notation3 Logic (\nthree) is an extension of RDF that allows the user to write rules introducing new blank nodes to RDF graphs. Many applications (e.g., ontology mapping) rely on this feature as blank nodes -- used directly or in auxiliary constructs -- are omnipresent on the Web. However, the number of fast \nthree reasoners covering this very important feature of the logic is rather limited. On the other hand, there are engines like VLog or Nemo which do not directly support Semantic Web rule formats but which are developed and optimized for very similar constructs: existential rules. In this paper, we investigate the relation between \nthree rules with blank nodes in their heads and existential rules. We identify a subset of \nthree which can be mapped directly to existential rules and define such a mapping preserving the equivalence of \nthree formulae. In order to also illustrate that in some cases \nthree reasoning could benefit from our translation, we then employ this mapping in an implementation to compare the performance of the \nthree reasoners EYE and cwm to VLog and Nemo on \nthree rules and their mapped counterparts. Our tests show that the existential rule reasoners perform particularly well for use cases containing many facts while especially the EYE reasoner is very fast when dealing with a high number of dependent rules. We thus provide a tool enabling the Semantic Web community to directly use existing and future existential rule reasoners and benefit from the findings of this active community.
翻訳日:2023-08-20 16:29:44 公開日:2023-08-10
# CSPM:オンデマンド食品配送サービスにおけるCTR予測のためのコントラスト時空間予測モデル

CSPM: A Contrastive Spatiotemporal Preference Model for CTR Prediction in On-Demand Food Delivery Services ( http://arxiv.org/abs/2308.08446v1 )

ライセンス: Link先を確認
Guyu Jiang, Xiaoyun Li, Rongrong Jing, Ruoqi Zhao, Xingliang Ni, Guodong Cao, Ning Hu(参考訳) クリックスルー率(ctr)の予測は、ユーザーが食品をクリックする確率を正確に推定するオンラインオンデマンドフードデリバリー(ofd)プラットフォームのコンテキストにおいて重要なタスクである。 TaobaoやAmazonのようなユニバーサルなeコマースプラットフォームとは異なり、ユーザ行動やOFDプラットフォームへの関心は、限定的な配送範囲と地域商品供給のために、より場所と時間に敏感である。 しかし、OFDシナリオにおける既存のCTR予測アルゴリズムは、歴史的行動系列からの関心を捉えることに集中しており、機能内の複雑な時空間情報を効果的にモデル化することができず、性能が低下する。 そこで本稿では,異なる探索条件下でのコントラストsreについて,コントラスト時空間表現学習(csrl),時空間嗜好抽出器(stpe),時空間情報フィルタ(stif)の3つのモジュールを用いて紹介する。 CSRLは、コントラスト学習フレームワークを使用して、検索アクションのための時空間アクティベーション表現(SAR)を生成する。 StPEはSARを使用して、複数ヘッドアテンション機構を使用して、歴史的行動シーケンスフィールドから位置と時間に関連するユーザの多様な好みを活性化する。 StIFは、SARをゲーティングネットワークに組み込んで、潜時効果のある重要な特徴を自動的にキャプチャする。 2つの大規模産業データセットで実施された大規模な実験は、CSPMの最先端性能を示している。 特に、CSPMはAlibabaのオンラインOFDプラットフォームであるEle.meでうまくデプロイされ、CTRで0.88%の昇給が達成され、ビジネス上大きな意味を持つ。

Click-through rate (CTR) prediction is a crucial task in the context of an online on-demand food delivery (OFD) platform for precisely estimating the probability of a user clicking on food items. Unlike universal e-commerce platforms such as Taobao and Amazon, user behaviors and interests on the OFD platform are more location and time-sensitive due to limited delivery ranges and regional commodity supplies. However, existing CTR prediction algorithms in OFD scenarios concentrate on capturing interest from historical behavior sequences, which fails to effectively model the complex spatiotemporal information within features, leading to poor performance. To address this challenge, this paper introduces the Contrastive Sres under different search states using three modules: contrastive spatiotemporal representation learning (CSRL), spatiotemporal preference extractor (StPE), and spatiotemporal information filter (StIF). CSRL utilizes a contrastive learning framework to generate a spatiotemporal activation representation (SAR) for the search action. StPE employs SAR to activate users' diverse preferences related to location and time from the historical behavior sequence field, using a multi-head attention mechanism. StIF incorporates SAR into a gating network to automatically capture important features with latent spatiotemporal effects. Extensive experiments conducted on two large-scale industrial datasets demonstrate the state-of-the-art performance of CSPM. Notably, CSPM has been successfully deployed in Alibaba's online OFD platform Ele.me, resulting in a significant 0.88% lift in CTR, which has substantial business implications.
翻訳日:2023-08-20 16:19:55 公開日:2023-08-10
# 空間ピラミッドプール型畳み込みニューラルネットワークによるネットワークロバスト性評価の包括的解析

Comprehensive Analysis of Network Robustness Evaluation Based on Convolutional Neural Networks with Spatial Pyramid Pooling ( http://arxiv.org/abs/2308.08012v1 )

ライセンス: Link先を確認
Wenjun Jiang, Tianlong Fan, Changhao Li, Chuanfu Zhang, Tao Zhang, Zong-fu Luo(参考訳) 複雑なネットワークを理解し、最適化し、修復するための重要な側面である接続性頑健性は、伝統的に時間消費としばしば非実用的シミュレーションによって評価されてきた。 幸いなことに、機械学習はこの課題に対処するための新しい手段を提供する。 しかしながら、より一般的なエッジ削除シナリオのパフォーマンス、堅牢性を直接トレーニングする代わりにアタックカーブを通じて堅牢性を取得すること、予測タスクのスケーラビリティ、予測能力の転送性など、いくつかの重要な問題は未解決のままである。 本稿では,空間ピラミッドプーリングネットワーク(spp-net)を用いた畳み込みニューラルネットワーク(cnn)モデルの設計,既存の評価基準の適用,アタックモードの再設計,適切なフィルタリングルールの導入,トレーニングデータとしてのロバスト性の価値の導入といった課題に対処する。 提案するcnnフレームワークは,ネットワークタイプ,障害コンポーネントタイプ,障害シナリオにまたがる高い計算時間の課題に対処するため,その徹底性を実証する。 しかし、提案したCNNモデルの性能は様々である:訓練されたネットワークタイプと整合性のある評価タスクに対して、提案したCNNモデルは、全ての除去シナリオにおける攻撃曲線とロバストネス値の両方の正確な評価を一貫して達成する。 予測されたネットワークタイプがトレーニングされたネットワークと異なる場合、cnnモデルはまだランダムノード障害のシナリオにおいて良好な性能を示し、そのスケーラビリティと性能の転送性を示す。 それでも他の削除シナリオでは、パフォーマンスは期待に届かなかった。 ネットワーク特性の評価におけるこのシナリオ感度は、これまでの研究では見過ごされ、さらなる注意と最適化が必要である。 最後に、重要な未解決問題とさらなる調査について論じる。

Connectivity robustness, a crucial aspect for understanding, optimizing, and repairing complex networks, has traditionally been evaluated through time-consuming and often impractical simulations. Fortunately, machine learning provides a new avenue for addressing this challenge. However, several key issues remain unresolved, including the performance in more general edge removal scenarios, capturing robustness through attack curves instead of directly training for robustness, scalability of predictive tasks, and transferability of predictive capabilities. In this paper, we address these challenges by designing a convolutional neural networks (CNN) model with spatial pyramid pooling networks (SPP-net), adapting existing evaluation metrics, redesigning the attack modes, introducing appropriate filtering rules, and incorporating the value of robustness as training data. The results demonstrate the thoroughness of the proposed CNN framework in addressing the challenges of high computational time across various network types, failure component types and failure scenarios. However, the performance of the proposed CNN model varies: for evaluation tasks that are consistent with the trained network type, the proposed CNN model consistently achieves accurate evaluations of both attack curves and robustness values across all removal scenarios. When the predicted network type differs from the trained network, the CNN model still demonstrates favorable performance in the scenario of random node failure, showcasing its scalability and performance transferability. Nevertheless, the performance falls short of expectations in other removal scenarios. This observed scenario-sensitivity in the evaluation of network features has been overlooked in previous studies and necessitates further attention and optimization. Lastly, we discuss important unresolved questions and further investigation.
翻訳日:2023-08-20 16:19:23 公開日:2023-08-10
# ループはまだ閉ざされているか? VIS4ML研究の一般化可能性のギャップ

Are We Closing the Loop Yet? Gaps in the Generalizability of VIS4ML Research ( http://arxiv.org/abs/2308.06290v1 )

ライセンス: Link先を確認
Hariharan Subramonyam, Jessica Hullman(参考訳) 機械学習(VIS4ML)研究の可視化は、機械学習モデルの開発、理解、改善のために専門家が事前知識を適用するのを支援することを目的としている。 VIS4MLシステムを構築する際、研究者は人間の知識の性質を特徴付け、人間のループ内タスクをサポートし、MLコンポーネントを解釈可能かつ誘発可能にするためのインタラクティブな可視化を設計し、ヒューマンモデル交換の有効性を評価する。 我々は、最近のVIS4ML論文を調査し、ヒトインザループMLの実現における研究貢献とクレームの一般化性を評価する。 以上の結果から,現在のVIS4ML研究範囲と実用化への期待との間には,潜在的なギャップがあることが示唆された。 論文は、VIS4MLシステムが研究対象の特定の条件を超えて適用可能であることを示唆するが、結論はしばしば非表現的なシナリオに過度に適合し、少数のML専門家とよく理解されたデータセットとの相互作用に基づいており、重要な依存関係を認めず、正当化を欠いた決定をヒンジしている。 我々は,願望と研究主張のギャップを埋めるアプローチについて議論し,VIS4ML研究の探索的性質をよりよく認識する一般性制約を報告するための文書化プラクティスを提案する。

Visualization for machine learning (VIS4ML) research aims to help experts apply their prior knowledge to develop, understand, and improve the performance of machine learning models. In conceiving VIS4ML systems, researchers characterize the nature of human knowledge to support human-in-the-loop tasks, design interactive visualizations to make ML components interpretable and elicit knowledge, and evaluate the effectiveness of human-model interchange. We survey recent VIS4ML papers to assess the generalizability of research contributions and claims in enabling human-in-the-loop ML. Our results show potential gaps between the current scope of VIS4ML research and aspirations for its use in practice. We find that while papers motivate that VIS4ML systems are applicable beyond the specific conditions studied, conclusions are often overfitted to non-representative scenarios, are based on interactions with a small set of ML experts and well-understood datasets, fail to acknowledge crucial dependencies, and hinge on decisions that lack justification. We discuss approaches to close the gap between aspirations and research claims and suggest documentation practices to report generality constraints that better acknowledge the exploratory nature of VIS4ML research.
翻訳日:2023-08-15 18:13:04 公開日:2023-08-10
# 腎疾患におけるポドサイト核の組織学的および空間的転写学的データを用いた定量的解析のための空間病理学ツールキット

Spatial Pathomics Toolkit for Quantitative Analysis of Podocyte Nuclei with Histology and Spatial Transcriptomics Data in Renal Pathology ( http://arxiv.org/abs/2308.06288v1 )

ライセンス: Link先を確認
Jiayuan Chen, Yu Wang, Ruining Deng, Quan Liu, Can Cui, Tianyuan Yao, Yilin Liu, Jianyong Zhong, Agnes B. Fogo, Haichun Yang, Shilin Zhao, Yuankai Huo(参考訳) 球状毛細血管を包む特殊な上皮細胞であるポドサイトは、腎の健康維持に重要な役割を果たす。 病理スライドの現在の特徴の説明と定量化は限定的であり、全スライド画像(WSI)内の様々な表現特性を包括的に評価する革新的なソリューションの必要性が示唆された。 特に, 糸球体上皮細胞を最終分化させたポドサイトの形態的特性を理解することは, 糸球体損傷の研究に不可欠である。 本稿ではspatial pathomics toolkit(spt)を紹介し,podocyte pathomicsに適用する。 The SPT consists of three main components: (1) instance object segmentation, enabling precise identification of podocyte nuclei; (2) pathomics feature generation, extracting a comprehensive array of quantitative features from the identified nuclei; and (3) robust statistical analyses, facilitating a comprehensive exploration of spatial relationships between morphological and spatial transcriptomics features.The SPT successfully extracted and analyzed morphological and textural features from podocyte nuclei, revealing a multitude of podocyte morphomic features through statistical analysis. さらに, 糸球体損傷に伴う空間的パターンに光を流し, ポドサイト分布に固有の空間情報を解き放つSPTの能力を実証した。 本研究の目的は,SPTを普及させることにより,腎疾患における細胞性空間病理学を進展させる強力なユーザフレンドリーな資源を提供することである。 ツールキットの実装とその完全なソースコードは、https://github.com/hrlblab/spatial_pathomicsで公開されている。

Podocytes, specialized epithelial cells that envelop the glomerular capillaries, play a pivotal role in maintaining renal health. The current description and quantification of features on pathology slides are limited, prompting the need for innovative solutions to comprehensively assess diverse phenotypic attributes within Whole Slide Images (WSIs). In particular, understanding the morphological characteristics of podocytes, terminally differentiated glomerular epithelial cells, is crucial for studying glomerular injury. This paper introduces the Spatial Pathomics Toolkit (SPT) and applies it to podocyte pathomics. The SPT consists of three main components: (1) instance object segmentation, enabling precise identification of podocyte nuclei; (2) pathomics feature generation, extracting a comprehensive array of quantitative features from the identified nuclei; and (3) robust statistical analyses, facilitating a comprehensive exploration of spatial relationships between morphological and spatial transcriptomics features.The SPT successfully extracted and analyzed morphological and textural features from podocyte nuclei, revealing a multitude of podocyte morphomic features through statistical analysis. Additionally, we demonstrated the SPT's ability to unravel spatial information inherent to podocyte distribution, shedding light on spatial patterns associated with glomerular injury. By disseminating the SPT, our goal is to provide the research community with a powerful and user-friendly resource that advances cellular spatial pathomics in renal pathology. The implementation and its complete source code of the toolkit are made openly accessible at https://github.com/hrlblab/spatial_pathomics.
翻訳日:2023-08-15 18:12:39 公開日:2023-08-10
# 想像的生成的敵ネットワーク : ダイナミックスケルトンに基づくハンドジェスチャとヒューマンアクション認識のための自動データ拡張

The Imaginative Generative Adversarial Network: Automatic Data Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action Recognition ( http://arxiv.org/abs/2105.13061v2 )

ライセンス: Link先を確認
Junxiao Shen and John Dudley and Per Ola Kristensson(参考訳) ディープラーニングのアプローチは、時空間的な人間の動きデータを認識することで最先端のパフォーマンスを提供する。 しかし、これらの認識タスクの主な課題の1つは、利用可能なトレーニングデータに制限があることである。 トレーニングデータ不足は過剰フィッティングを引き起こし、データ拡張はこの課題に対処する1つのアプローチである。 スケーリング、シフト、補間に基づく既存のデータ拡張戦略は、制限された一般化可能性を提供し、通常、データセットの詳細な検査と、ハイパーパラメータ最適化のために数百のgpu時間を必要とする。 本稿では,入力データの分布を近似し,その分布から新たなデータをサンプリングする,新たなデータ拡張モデルである想像型生成逆ネットワーク(gan)を提案する。 データ検査やハイパーパラメータチューニングをほとんど必要とせず、そのため、合成データを生成するための低コストで安価なアプローチである。 包括的実験分析による小型骨格型データセットへのアプローチを実証する。 その結果,強化戦略はトレーニングが高速であり,従来のニューラルネットワークと最先端手法の両方の分類精度が向上することが示された。

Deep learning approaches deliver state-of-the-art performance in recognition of spatiotemporal human motion data. However, one of the main challenges in these recognition tasks is limited available training data. Insufficient training data results in over-fitting and data augmentation is one approach to address this challenge. Existing data augmentation strategies based on scaling, shifting and interpolating offer limited generalizability and typically require detailed inspection of the dataset as well as hundreds of GPU hours for hyperparameter optimization. In this paper, we present a novel automatic data augmentation model, the Imaginative Generative Adversarial Network (GAN), that approximates the distribution of the input data and samples new data from this distribution. It is automatic in that it requires no data inspection and little hyperparameter tuning and therefore it is a low-cost and low-effort approach to generate synthetic data. We demonstrate our approach on small-scale skeleton-based datasets with a comprehensive experimental analysis. Our results show that the augmentation strategy is fast to train and can improve classification accuracy for both conventional neural networks and state-of-the-art methods.
翻訳日:2023-08-14 18:23:11 公開日:2023-08-10
# ヒト様アピカルデンドライト活性を有する非線形ニューロン

Non-linear Neurons with Human-like Apical Dendrite Activations ( http://arxiv.org/abs/2003.03229v5 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu, Nicolae-Catalin Ristea, Nicu Sebe(参考訳) 線形に分離できないデータを分類するために、ニューロンは通常、少なくとも1つの隠れ層を持つ多層ニューラルネットワークに編成される。 神経科学の最近の発見に触発されて,単一ニューロンを用いた非線形決定境界の学習を可能にする新しい活性化関数とともに,人工ニューロンの新しいモデルを提案する。 標準ニューロンの次に,新しいapical dendrite activation (ada) が100%精度でxor論理関数を学習できることが示されている。 Furthermore, we conduct experiments on six benchmark data sets from computer vision, signal processing and natural language processing, i.e. MOROCO, UTKFace, CREMA-D, Fashion-MNIST, Tiny ImageNet and ImageNet, showing that the ADA and the leaky ADA functions provide superior results to Rectified Linear Units (ReLU), leaky ReLU, RBF and Swish, for various neural network architectures, e.g. one-hidden-layer or two-hidden-layer multi-layer perceptrons (MLPs) and convolutional neural networks (CNNs) such as LeNet, VGG, ResNet and Character-level CNN. 錐体ニューロンと円錐状樹状突起活性化(PyNADA)を併用してニューロンの標準モデルを変更することにより,さらなる性能向上が期待できる。 コードはhttps://github.com/raduionescu/pynada.com/。

In order to classify linearly non-separable data, neurons are typically organized into multi-layer neural networks that are equipped with at least one hidden layer. Inspired by some recent discoveries in neuroscience, we propose a new model of artificial neuron along with a novel activation function enabling the learning of nonlinear decision boundaries using a single neuron. We show that a standard neuron followed by our novel apical dendrite activation (ADA) can learn the XOR logical function with 100% accuracy. Furthermore, we conduct experiments on six benchmark data sets from computer vision, signal processing and natural language processing, i.e. MOROCO, UTKFace, CREMA-D, Fashion-MNIST, Tiny ImageNet and ImageNet, showing that the ADA and the leaky ADA functions provide superior results to Rectified Linear Units (ReLU), leaky ReLU, RBF and Swish, for various neural network architectures, e.g. one-hidden-layer or two-hidden-layer multi-layer perceptrons (MLPs) and convolutional neural networks (CNNs) such as LeNet, VGG, ResNet and Character-level CNN. We obtain further performance improvements when we change the standard model of the neuron with our pyramidal neuron with apical dendrite activations (PyNADA). Our code is available at: https://github.com/raduionescu/pynada.
翻訳日:2023-08-14 18:20:36 公開日:2023-08-10
# 低高度都市環境における視覚によるUAV自給自足

Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments ( http://arxiv.org/abs/2201.09201v2 )

ライセンス: Link先を確認
Ming Dai and Enhui Zheng and Zhenhua Feng and Jiedong Zhuang and Wankou Yang(参考訳) 無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。 しかし、衛星放送の制限や通信障害のため、UAVは衛星ベースの測位システムから信号を失う可能性がある。 このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を保証する。 しかし、既存のデータセットのほとんどは、UAVの自己配置タスクではなく、UAVによって識別されたオブジェクトの地理的局所化タスクのために開発されている。 さらに、現在のUAVデータセットでは、Google Mapsのような合成データの離散サンプリングを使用して、密集サンプリングの重要な側面や、現実世界のシナリオで一般的に経験される不確実性を無視している。 これらの課題に対処するため,本論文では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。 DenseUAVは、低高度の都市環境で得られたUAV画像を高密度にサンプリングする。 合計27K以上のUAVビューと14の大学キャンパスの衛星ビュー画像が収集され、注釈付けされ、新しいベンチマークが確立された。 モデル開発に関しては,まずCNNよりもトランスフォーマーの方が優れていることを検証する。 次に,メトリクス学習を表現学習に取り入れ,モデルの識別能力を高め,モダリティの不一致を低減させる。 また,両視点からの共同学習を容易にするために,相互指導型学習手法を提案する。 最後に、Recall@Kメトリックを拡張し、新しい測定値SDM@Kを導入し、検索とローカライゼーションの両方の観点からトレーニングされたモデルの性能を同時に評価する。 その結果,提案手法は83.05%の注目すべきリコール@1スコアと86.24%のsdm@1スコアを達成できた。 データセットとコードはhttps://github.com/Dmmm1997/DenseUAVで公開される。

Unmanned Aerial Vehicles (UAVs) rely on satellite systems for stable positioning. However, due to limited satellite coverage or communication disruptions, UAVs may lose signals from satellite-based positioning systems. In such situations, vision-based techniques can serve as an alternative, ensuring the self-positioning capability of UAVs. However, most of the existing datasets are developed for the geo-localization tasks of the objects identified by UAVs, rather than the self-positioning task of UAVs. Furthermore, the current UAV datasets use discrete sampling on synthetic data, such as Google Maps, thereby neglecting the crucial aspects of dense sampling and the uncertainties commonly experienced in real-world scenarios. To address these issues, this paper presents a new dataset, DenseUAV, which is the first publicly available dataset designed for the UAV self-positioning task. DenseUAV adopts dense sampling on UAV images obtained in low-altitude urban settings. In total, over 27K UAV-view and satellite-view images of 14 university campuses are collected and annotated, establishing a new benchmark. In terms of model development, we first verify the superiority of Transformers over CNNs in this task. Then, we incorporate metric learning into representation learning to enhance the discriminative capacity of the model and to lessen the modality discrepancy. Besides, to facilitate joint learning from both perspectives, we propose a mutually supervised learning approach. Last, we enhance the Recall@K metric and introduce a new measurement, SDM@K, to evaluate the performance of a trained model from both the retrieval and localization perspectives simultaneously. As a result, the proposed baseline method achieves a remarkable Recall@1 score of 83.05% and an SDM@1 score of 86.24% on DenseUAV. The dataset and code will be made publicly available on https://github.com/Dmmm1997/DenseUAV.
翻訳日:2023-08-14 18:13:33 公開日:2023-08-10
# 低リソース音声コマンド分類のための類似性を用いたニューラルモデル再構成

Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Classification ( http://arxiv.org/abs/2110.03894v4 )

ライセンス: Link先を確認
Hao Yen, Pin-Jui Ku, Chao-Han Huck Yang, Hu Hu, Sabato Marco Siniscalchi, Pin-Yu Chen, Yu Tsao(参考訳) 本研究では,低リソース音声コマンド認識(SCR)のための新しいAR手法を提案し,AR-SCRシステムを構築する。 ARプロシージャは(ターゲットドメインから)音響信号を修正して(ソースドメインから)事前訓練されたSCRモデルを再利用することを目的としている。 ソースドメインとターゲットドメインのラベルミスマッチを解消し、arの安定性をさらに高めるため、クラスをアライメントするための新しい類似性に基づくラベルマッピング手法を提案する。 さらに、トランスファーラーニング(TL)技術と元のARプロセスを組み合わせることで、モデル適応性を向上させる。 提案したAR-SCRシステムは,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。 実験結果から、大規模な英語データセットで事前訓練されたAMを用いて、提案したAR-SCRシステムは、アラビア語およびリトアニア語の音声コマンドデータセット上で、限られた訓練データのみを用いて、現在の最先端の結果を上回ります。

In this study, we propose a novel adversarial reprogramming (AR) approach for low-resource spoken command recognition (SCR), and build an AR-SCR system. The AR procedure aims to modify the acoustic signals (from the target domain) to repurpose a pretrained SCR model (from the source domain). To solve the label mismatches between source and target domains, and further improve the stability of AR, we propose a novel similarity-based label mapping technique to align classes. In addition, the transfer learning (TL) technique is combined with the original AR process to improve the model adaptation capability. We evaluate the proposed AR-SCR system on three low-resource SCR datasets, including Arabic, Lithuanian, and dysarthric Mandarin speech. Experimental results show that with a pretrained AM trained on a large-scale English dataset, the proposed AR-SCR system outperforms the current state-of-the-art results on Arabic and Lithuanian speech commands datasets, with only a limited amount of training data.
翻訳日:2023-08-14 18:11:28 公開日:2023-08-10
# このモデルを何回破壊しますか。 敵の精度を超えた頑健性の評価

How many perturbations break this model? Evaluating robustness beyond adversarial accuracy ( http://arxiv.org/abs/2207.04129v3 )

ライセンス: Link先を確認
Raphael Olivier, Bhiksha Raj(参考訳) 敵攻撃に対するロバスト性は、通常、敵の精度で評価される。 この計量は必須であるが、ロバスト性の全ての側面を捉えておらず、特に各点についてどれだけの摂動が見つかるかという疑問を残している。 そこで本研究では,入力点と摂動方向の制約の両方を考慮に入れ,摂動を成功させるのがいかに難しいかを定量化する手法であるadversarial sparsityを提案する。 例えば、現在の最先端のロバストなモデルと、正確性解析がそうではないという重要な違いを示し、ロバスト性を改善するためのアプローチを提案する。 弱い攻撃に対して効果的な破壊防御を適用する場合、スパルシティは完全な非有効防御と部分的有効防御を区別することができる。 最後に、sparsityでは、正確性に影響を与えないロバスト性の増加を測定できる。 例えば、データ拡張は、敵のトレーニングを使わずに、それ自体で敵のロバスト性を高めることができる。

Robustness to adversarial attacks is typically evaluated with adversarial accuracy. While essential, this metric does not capture all aspects of robustness and in particular leaves out the question of how many perturbations can be found for each point. In this work, we introduce an alternative approach, adversarial sparsity, which quantifies how difficult it is to find a successful perturbation given both an input point and a constraint on the direction of the perturbation. We show that sparsity provides valuable insight into neural networks in multiple ways: for instance, it illustrates important differences between current state-of-the-art robust models them that accuracy analysis does not, and suggests approaches for improving their robustness. When applying broken defenses effective against weak attacks but not strong ones, sparsity can discriminate between the totally ineffective and the partially effective defenses. Finally, with sparsity we can measure increases in robustness that do not affect accuracy: we show for example that data augmentation can by itself increase adversarial robustness, without using adversarial training.
翻訳日:2023-08-14 18:02:08 公開日:2023-08-10
# 強靭性には複数の種類がある: 敵の例でWhisperを食う

There is more than one kind of robustness: Fooling Whisper with adversarial examples ( http://arxiv.org/abs/2210.17316v2 )

ライセンス: Link先を確認
Raphael Olivier and Bhiksha Raj(参考訳) Whisperは、分布外入力とランダムノイズの両方に対して印象的な堅牢性を示す最近の自動音声認識(ASR)モデルである。 本研究は, この頑健性は, 対向騒音には耐えられないことを示す。 信号雑音比35-45dBの非常に小さな入力摂動を発生させることで,Whisperの性能を劇的に劣化させることができることを示す。 また、Whisper言語検出器を騙すことで、多言語モデルの性能を非常に容易に劣化させることができることを示す。 広く普及しているオープンソースモデルの脆弱性は、現実的なセキュリティ上の意味を持ち、敵対的に堅牢なASRの必要性を強調している。

Whisper is a recent Automatic Speech Recognition (ASR) model displaying impressive robustness to both out-of-distribution inputs and random noise. In this work, we show that this robustness does not carry over to adversarial noise. We show that we can degrade Whisper performance dramatically, or even transcribe a target sentence of our choice, by generating very small input perturbations with Signal Noise Ratio of 35-45dB. We also show that by fooling the Whisper language detector we can very easily degrade the performance of multilingual models. These vulnerabilities of a widely popular open-source model have practical security implications and emphasize the need for adversarially robust ASR.
翻訳日:2023-08-14 17:54:45 公開日:2023-08-10
# 音声言語識別のための局所的および大域的コンテキストを用いたコンパクトエンド・ツー・エンドモデル

A Compact End-to-End Model with Local and Global Context for Spoken Language Identification ( http://arxiv.org/abs/2210.15781v2 )

ライセンス: Link先を確認
Fei Jia, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg(参考訳) 本稿では,ContextNetアーキテクチャに基づく音声言語識別(LID)のための,コンパクトなエンドツーエンドニューラルネットワークTitaNet-LIDを紹介する。 TitaNet-LIDは1次元の深度的に分離可能な畳み込みとSqueeze-and-Excitationレイヤを使用して、発話中のローカルコンテキストとグローバルコンテキストを効果的にキャプチャする。 小型にもかかわらず、TitaNet-LIDはVoxLingua107データセットの最先端モデルと同様のパフォーマンスを10倍に向上させる。 さらに、簡単な微調整により、新しい音響条件や見当たらない言語に容易に適応でき、fleursベンチマークで88.2%の精度で実現できる。 私たちのモデルはスケーラブルで、正確性とスピードのトレードオフを向上できます。 TitaNet-LIDは、5秒未満の短い発話でも良好に動作し、入力長に対する堅牢性を示している。

We introduce TitaNet-LID, a compact end-to-end neural network for Spoken Language Identification (LID) that is based on the ContextNet architecture. TitaNet-LID employs 1D depth-wise separable convolutions and Squeeze-and-Excitation layers to effectively capture local and global context within an utterance. Despite its small size, TitaNet-LID achieves performance similar to state-of-the-art models on the VoxLingua107 dataset while being 10 times smaller. Furthermore, it can be easily adapted to new acoustic conditions and unseen languages through simple fine-tuning, achieving a state-of-the-art accuracy of 88.2% on the FLEURS benchmark. Our model is scalable and can achieve a better trade-off between accuracy and speed. TitaNet-LID performs well even on short utterances less than 5s in length, indicating its robustness to input length.
翻訳日:2023-08-14 17:53:10 公開日:2023-08-10
# デジタル断熱製剤におけるトローター誤差の自己修復

Self-healing of Trotter error in digital adiabatic state preparation ( http://arxiv.org/abs/2209.06242v2 )

ライセンス: Link先を確認
Lucas K. Kovalsky, Fernando A. Calderon-Vargas, Matthew D. Grace, Alicia B. Magann, James B. Larsen, Andrew D. Baczewski, Mohan Sarovar(参考訳) 断熱時間進化は、合成が容易なものから複雑な量子多体状態を作るのに使用することができ、トロッター化はそのような進化をデジタル的に実装するために使用することができる。 非断熱性とデジタル化の間の複雑な相互作用は、この過程の不確かさに影響を与える。 完全断熱的進化の1次トロッター化は、一般的なトロッター誤差境界から予想される$\mathcal O(T^{-2} \delta t^2)$の代わりに$\mathcal O(T^{-2} \delta t^2)$にスケールする累積的不整合を持ち、$\delta t$が時間ステップであり、$T$が総時間であることを示す。 この結果、自己修復機構が示唆され、t$の増加にもかかわらず、固定された$\delta t$ のデジタル化進化のインフィダリティが、様々なハミルトニアンに対して依然として減少している理由が説明できる。 また、量子近似最適化アルゴリズム(QAOA)とデジタル化された量子アニールの対応を確立する。

Adiabatic time evolution can be used to prepare a complicated quantum many-body state from one that is easier to synthesize and Trotterization can be used to implement such an evolution digitally. The complex interplay between non-adiabaticity and digitization influences the infidelity of this process. We prove that the first-order Trotterization of a complete adiabatic evolution has a cumulative infidelity that scales as $\mathcal O(T^{-2} \delta t^2)$ instead of $\mathcal O(T^2 \delta t^2)$ expected from general Trotter error bounds, where $\delta t$ is the time step and $T$ is the total time. This result suggests a self-healing mechanism and explains why, despite increasing $T$, infidelities for fixed-$\delta t$ digitized evolutions still decrease for a wide variety of Hamiltonians. It also establishes a correspondence between the Quantum Approximate Optimization Algorithm (QAOA) and digitized quantum annealing.
翻訳日:2023-08-14 17:51:45 公開日:2023-08-10
# ランダム勾配しきい値による突発的塩分誘導混合法

Expeditious Saliency-guided Mix-up through Random Gradient Thresholding ( http://arxiv.org/abs/2212.04875v3 )

ライセンス: Link先を確認
Minh-Long Luu and Zeyi Huang and Eric P. Xing and Yong Jae Lee and Haohan Wang(参考訳) 混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。 長年にわたり、研究コミュニティはミックスアップ手法を2つの方向に拡張し、サリエンシ誘導の手順を改善するために広範囲に努力してきたが、任意の経路に最小限の焦点をあて、ランダム化領域は未探索のままである。 本稿では,各方向の優越性に着想を得て,二つの経路の合流点に位置する新しい手法を提案する。 ランダムさとサリエンシ利用の最良の要素を組み合わせることで、我々の手法はスピード、単純さ、正確さのバランスをとる。 我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。 我々は、その一般化、弱教師付きオブジェクトの局所化、校正、敵攻撃に対する堅牢性を示す。 最後に,より優れた意思決定プロトコルが存在するかという問題に対処するため,分類器の性能に基づいて混合ポリシーを決定する強化学習エージェントを訓練し,人間設計の目的への依存を軽減し,ハイパーパラメータチューニングを行う。 さらに広範囲な実験により、エージェントは最先端のレベルで実行可能であることが示され、完全な自動混合の基礎が築かれた。 私たちのコードは[https://github.com/minhlong94/random-mixup]でリリースされる。

Mix-up training approaches have proven to be effective in improving the generalization ability of Deep Neural Networks. Over the years, the research community expands mix-up methods into two directions, with extensive efforts to improve saliency-guided procedures but minimal focus on the arbitrary path, leaving the randomization domain unexplored. In this paper, inspired by the superior qualities of each direction over one another, we introduce a novel method that lies at the junction of the two routes. By combining the best elements of randomness and saliency utilization, our method balances speed, simplicity, and accuracy. We name our method R-Mix following the concept of "Random Mix-up". We demonstrate its effectiveness in generalization, weakly supervised object localization, calibration, and robustness to adversarial attacks. Finally, in order to address the question of whether there exists a better decision protocol, we train a Reinforcement Learning agent that decides the mix-up policies based on the classifier's performance, reducing dependency on human-designed objectives and hyperparameter tuning. Extensive experiments further show that the agent is capable of performing at the cutting-edge level, laying the foundation for a fully automatic mix-up. Our code is released at [https://github.com/minhlong94/Random-Mixup].
翻訳日:2023-08-14 17:42:21 公開日:2023-08-10
# CodeBertが学習する特徴 -BERTに基づくソースコード表現学習の実証的研究-

Which Features are Learned by CodeBert: An Empirical Study of the BERT-based Source Code Representation Learning ( http://arxiv.org/abs/2301.08427v2 )

ライセンス: Link先を確認
Lan Zhang, Chen Cao, Zhilong Wang and Peng Liu(参考訳) トランスフォーマー (bert) からの双方向エンコーダ表現は自然言語処理 (nlp) で提案され, 有望な結果が得られた。 最近、BERTをソースコード表現学習に適用し、いくつかの下流タスクについて良いニュースを報告した。 しかし,本稿では,現在の手法ではソースコードの論理を効果的に理解できないことを示す。 ソースコードの表現はプログラマが定義した変数と関数名に大きく依存する。 我々は、予想を実証するために一連の実験を設計、実装し、将来の研究に対する洞察を提供する。

The Bidirectional Encoder Representations from Transformers (BERT) were proposed in the natural language process (NLP) and shows promising results. Recently researchers applied the BERT to source-code representation learning and reported some good news on several downstream tasks. However, in this paper, we illustrated that current methods cannot effectively understand the logic of source codes. The representation of source code heavily relies on the programmer-defined variable and function names. We design and implement a set of experiments to demonstrate our conjecture and provide some insights for future works.
翻訳日:2023-08-14 17:32:14 公開日:2023-08-10
# 模倣だけでは不十分:強化学習による模倣の堅牢化

Imitation Is Not Enough: Robustifying Imitation with Reinforcement Learning for Challenging Driving Scenarios ( http://arxiv.org/abs/2212.11419v2 )

ライセンス: Link先を確認
Yiren Lu, Justin Fu, George Tucker, Xinlei Pan, Eli Bronstein, Rebecca Roelofs, Benjamin Sapp, Brandyn White, Aleksandra Faust, Shimon Whiteson, Dragomir Anguelov, Sergey Levine(参考訳) 模倣学習(il)は、人間の運転データを大規模に収集し、人間のような行動を生み出すための、シンプルで強力な方法である。 しかし、模倣学習のみに基づく政策は、安全性と信頼性の懸念を十分に考慮できないことが多い。 本稿では,単純な報酬を用いた強化学習と組み合わさった模倣学習が,模倣だけで学んだものよりも運転方針の安全性と信頼性を大幅に向上させることを示す。 特に,1万マイル以上の都市走行データに関するポリシーをトレーニングし,衝突可能性の異なるレベルに分類されたテストシナリオでの有効性を測定した。 提案手法は, 実験データから得られた低拡散性シナリオにおいて, 再現性は良好に機能するが, 提案手法は最も困難なシナリオの堅牢性(障害の38%以上)を著しく向上させる。 我々の知る限り、これは大量の現実世界の人間の運転データを利用する自動運転における模倣と強化学習の併用の最初の応用である。

Imitation learning (IL) is a simple and powerful way to use high-quality human driving data, which can be collected at scale, to produce human-like behavior. However, policies based on imitation learning alone often fail to sufficiently account for safety and reliability concerns. In this paper, we show how imitation learning combined with reinforcement learning using simple rewards can substantially improve the safety and reliability of driving policies over those learned from imitation alone. In particular, we train a policy on over 100k miles of urban driving data, and measure its effectiveness in test scenarios grouped by different levels of collision likelihood. Our analysis shows that while imitation can perform well in low-difficulty scenarios that are well-covered by the demonstration data, our proposed approach significantly improves robustness on the most challenging scenarios (over 38% reduction in failures). To our knowledge, this is the first application of a combined imitation and reinforcement learning approach in autonomous driving that utilizes large amounts of real-world human driving data.
翻訳日:2023-08-14 17:31:19 公開日:2023-08-10
# ドローンオーケストレータを用いた協調学習

Collaborative Learning with a Drone Orchestrator ( http://arxiv.org/abs/2303.02266v2 )

ライセンス: Link先を確認
Mahdi Boloursaz Mashhadi, Mahnoosh Mahdavimoghadam, Rahim Tafazolli, Walid Saad(参考訳) 本稿では,ドローンによる協調学習の課題について考察する。 このシナリオでは、インテリジェントな無線デバイス群が、ドローンの助けを借りて、共有ニューラルネットワーク(NN)モデルをトレーニングする。 センサーを使って各デバイスは環境からサンプルを記録し、訓練用のローカルデータセットを収集する。 各種デバイスはデータ量やセンサノイズレベルが異なるため、トレーニングデータは極めて均一である。 インテリジェントデバイスは、ローカルデータセット上でNNを反復的にトレーニングし、モデルのパラメータをドローンと交換して集約する。 本システムでは、データの不均一性、センサノイズレベル、通信エラーを考慮して協調学習の収束率を導出し、訓練されたNNの最終精度を最大化するドローン軌道を得る。 提案する軌道最適化手法は,デバイスデータ特性(ローカルデータセットサイズとノイズレベル)と無線チャネル条件の両方を認識し,データ特性やチャネル条件のみを考慮したベースラインと比較して収束率と最終精度を大幅に向上させる。 提案手法は最先端のベースラインと比較して,画像認識タスクとセマンティックセグメンテーションタスクのベンチマークデータセット上でのトレーニングNNの最終精度を平均3.85%,3.54%向上させる。 さらに,提案したフレームワークは,トレーニングの大幅な高速化を実現し,ドローンホバリング時間,通信オーバーヘッド,バッテリ使用量の平均24%と87%の削減を実現している。

In this paper, the problem of drone-assisted collaborative learning is considered. In this scenario, swarm of intelligent wireless devices train a shared neural network (NN) model with the help of a drone. Using its sensors, each device records samples from its environment to gather a local dataset for training. The training data is severely heterogeneous as various devices have different amount of data and sensor noise level. The intelligent devices iteratively train the NN on their local datasets and exchange the model parameters with the drone for aggregation. For this system, the convergence rate of collaborative learning is derived while considering data heterogeneity, sensor noise levels, and communication errors, then, the drone trajectory that maximizes the final accuracy of the trained NN is obtained. The proposed trajectory optimization approach is aware of both the devices data characteristics (i.e., local dataset size and noise level) and their wireless channel conditions, and significantly improves the convergence rate and final accuracy in comparison with baselines that only consider data characteristics or channel conditions. Compared to state-of-the-art baselines, the proposed approach achieves an average 3.85% and 3.54% improvement in the final accuracy of the trained NN on benchmark datasets for image recognition and semantic segmentation tasks, respectively. Moreover, the proposed framework achieves a significant speedup in training, leading to an average 24% and 87% saving in the drone hovering time, communication overhead, and battery usage, respectively for these tasks.
翻訳日:2023-08-14 17:21:34 公開日:2023-08-10
# NISQデバイスにおけるMAX$k$-SATの高損失QAOA

High-Round QAOA for MAX $k$-SAT on Trapped Ion NISQ Devices ( http://arxiv.org/abs/2306.03238v2 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, John Golden, Stephan Eidenbenz(参考訳) Quantum Alternating Operator Ansatz (QAOA) は、離散組合せ最適化問題の最適解(s)をサンプリングすることを目的としたハイブリッド古典量子アルゴリズムである。 MAX$k$-SAT問題,特に$k=3$と$k=4$に対して最適化されたQAOA回路構成を提案する。 現在提案する4ドルのQAOA回路構成は、計測に基づく非計算を使い、続いて古典的なフィードフォワード条件演算を行う。 3$-SATのQAOA回路パラメータは、HPCリソースを使用して10$ qubitsで最大20$のラウンドをシミュレートすることで、古典的な(ノイズフリーの)シミュレーションによって最適化される。 現在のNISQデバイスの限界を探索するために、これらの最適化されたQAOA回路をランダムな$$$$3-SATテストインスタンスで実行し、4つの閉じ込められたイオン量子コンピュータ(量子H1-1 (20 qubits)、IonQ Harmony (11 qubits)、IonQ Aria 1 (25 qubits)、IonQ Forte (30 qubits)で4ドル(約4,800円)の料金で使用します。 QAOA回路は$n=10$から$p=20$まで、$n=22$は$p=1$と$p=2$である。 高いラウンド回路は9000個以上のゲート命令を使用するため、これらはNISQデバイス上で実行される最大のQAOA回路である。 我々の主な発見は、現在のNISQデバイスは、低ラウンドカウント(例えば、$p = 1,\ldots, 5$)で最善を尽くし、QAOAラウンドの数がさらに増加するにつれて、ランダムに選択されたソリューションに匹敵しない満足度真理の割り当てを徐々に返却し始めることである。

The Quantum Alternating Operator Ansatz (QAOA) is a hybrid classical-quantum algorithm that aims to sample the optimal solution(s) of discrete combinatorial optimization problems. We present optimized QAOA circuit constructions for sampling MAX $k$-SAT problems, specifically for $k=3$ and $k=4$. The novel $4$-SAT QAOA circuit construction we present uses measurement based uncomputation, followed by classical feed forward conditional operations. The QAOA circuit parameters for $3$-SAT are optimized via exact classical (noise-free) simulation, using HPC resources to simulate up to $20$ rounds on $10$ qubits. In order to explore the limits of current NISQ devices we execute these optimized QAOA circuits for random $3$-SAT test instances with clause-to-variable ratio $4$ on four trapped ion quantum computers: Quantinuum H1-1 (20 qubits), IonQ Harmony (11 qubits), IonQ Aria 1 (25 qubits), and IonQ Forte (30 qubits). The QAOA circuits that are executed include $n=10$ up to $p=20$, and $n=22$ for $p=1$ and $p=2$. The high round circuits use upwards of 9,000 individual gate instructions, making these some of the largest QAOA circuits executed on NISQ devices. Our main finding is that current NISQ devices perform best at low round counts (i.e., $p = 1,\ldots, 5$) and then -- as expected due to noise -- gradually start returning satisfiability truth assignments that are no better than randomly picked solutions as the number of QAOA rounds are further increased.
翻訳日:2023-08-14 16:54:59 公開日:2023-08-10
# chatgptプロンプトによる効果的な教育用チャットボットの開発--ソーシャルメディアリテラシー(付録付き)を事例として

Developing Effective Educational Chatbots with ChatGPT prompts: Insights from Preliminary Tests in a Case Study on Social Media Literacy (with appendix) ( http://arxiv.org/abs/2306.10645v2 )

ライセンス: Link先を確認
Cansu Koyuturk, Mona Yavari, Emily Theophilou, Sathya Bursic, Gregor Donabauer, Alessia Telari, Alessia Testa, Raffaele Boiano, Alessandro Gabbiadini, Davinia Hernandez-Leo, Martin Ruskov, Dimitri Ognibene(参考訳) 教育用チャットボットには、インタラクティブでパーソナライズされた学習体験が約束されているが、その開発は、利用可能なプラットフォームの自由なインタラクション機能と、知識を適切なフォーマットでエンコーディングすることの難しさによって制限されている。 chatgptのようなゼロショット学習機能を持つ言語学習モデルの最近の進歩は、プロンプトベースのアプローチで教育用チャットボットを開発する新しい可能性を示唆している。 本稿では,チャットボット同士の対話を可能にする簡易システムによるケーススタディを提案し,初期テストから得られる洞察と予備的ガイドラインについて議論する。 本稿では,ChatGPTが複数の相互接続型学習目標を追求する能力,文化,年齢,教育レベルといったユーザの特性に教育活動を適用する能力,多様な教育戦略や会話スタイルを利用する能力について検討する。 その結果,チャットボットの役割が教師からセラピストに予期せぬ変化をもたらすおそれのある,チャットボットによる会話の限られた歴史と,ChatGPTによる高度に構造化された応答の形式によって,課題が提起される。 これらの課題に対処し、効果的な教育チャットボットの開発を促進するための初期ガイドラインを提示する。

Educational chatbots come with a promise of interactive and personalized learning experiences, yet their development has been limited by the restricted free interaction capabilities of available platforms and the difficulty of encoding knowledge in a suitable format. Recent advances in language learning models with zero-shot learning capabilities, such as ChatGPT, suggest a new possibility for developing educational chatbots using a prompt-based approach. We present a case study with a simple system that enables mixed-turn chatbot interactions and discuss the insights and preliminary guidelines obtained from initial tests. We examine ChatGPT's ability to pursue multiple interconnected learning objectives, adapt the educational activity to users' characteristics, such as culture, age, and level of education, and its ability to use diverse educational strategies and conversational styles. Although the results are encouraging, challenges are posed by the limited history maintained for the conversation and the highly structured form of responses by ChatGPT, as well as their variability, which can lead to an unexpected switch of the chatbot's role from a teacher to a therapist. We provide some initial guidelines to address these issues and to facilitate the development of effective educational chatbots.
翻訳日:2023-08-14 16:43:42 公開日:2023-08-10
# 低結合損失<1dBのナノフォトニックデバイスの低温包装

Cryogenic packaging of nanophotonic devices with a low coupling loss < 1 dB ( http://arxiv.org/abs/2306.09894v2 )

ライセンス: Link先を確認
Beibei Zeng, Chawina De-Eknamkul, Daniel Assumpcao, Dylan Renaud, Zhuoxian Wang, Daniel Riedel, Jeonghoon Ha, Carsten Robens, David Levonian, Mikhail Lukin, Ralf Riedinger, Mihir Bhaskar, Denis Sukachev, Marko Loncar, Bart Machielse(参考訳) オンチップのナノフォトニック回路のロバストで低損失なフォトニックパッケージングは、光通信や量子通信、センシング、トランスダクションなど、様々な古典的量子技術への統合フォトニクスの展開を可能にする重要な技術である。 これまで、永久的、広帯域、極低温互換の結合と、光ファイバからナノフォトニック回路へのサブdb損失を可能にするプロセスは確立されていない。 本稿では,300Kから30mKまでの安定な近赤外波長(約730nm)において,テープ状光ファイバとナノフォトニクスデバイス間の永久包装界面を記録的低結合損失<1dB>で再現的に生成する技術について述べる。 さらに, 絶縁体導波路上でのエッチングニオブ酸リチウムとの適合性を示す。 この技術は、フォトニックデバイスと光ファイバーの間の光伝達として散乱によって課される性能制限を緩和し、室温と低温の両方でフォトニック技術のスケーラブルな統合を実現する。

Robust, low-loss photonic packaging of on-chip nanophotonic circuits is a key enabling technology for the deployment of integrated photonics in a variety of classical and quantum technologies including optical communications and quantum communications, sensing, and transduction. To date, no process has been established that enables permanent, broadband, and cryogenically-compatible coupling with sub-dB losses from optical fibers to nanophotonic circuits. Here we report a technique for reproducibly generating a permanently packaged interface between a tapered optical fiber and nanophotonic devices with a record-low coupling loss < 1 dB per facet at near-infrared wavelengths (~730 nm) that remains stable from 300 K to 30 mK. We further demonstrate the compatibility of this technique with etched lithium niobate on insulator waveguides. The technique lifts performance limitations imposed by scattering as light transfers between photonic devices and optical fibers, paving the way for scalable integration of photonic technologies at both room and cryogenic temperatures.
翻訳日:2023-08-14 16:42:50 公開日:2023-08-10
# アレイ型スパイキングニューラルネットワークにおける効率よく正確なメモリ

An Efficient and Accurate Memristive Memory for Array-based Spiking Neural Networks ( http://arxiv.org/abs/2306.06551v2 )

ライセンス: Link先を確認
Hritom Das, Rocco D. Febbo, SNB Tushar, Nishith N. Chakraborty, Maximilian Liehr, Nathaniel Cady, Garrett S. Rose(参考訳) memristorは、その大きさと不揮発性のため、ニューロモルフィックコンピューティングにおける重み付けシナプス接続の誘惑的なソリューションを提供する。 しかし、memristorは一般的に使用される電圧パルスベースのプログラミングアプローチでは信頼できないため、プログラミングの失敗を避けるために正確に形づくられたパルスを必要とする。 本稿では,memristive synapsesを読み書きする際に,より予測可能なアナログメモリ動作を提供する,電流リミティングに基づくソリューションを提案する。 提案する設計では、リード電流は1t1r設計に比べて約19倍最適化できる。 さらに,提案した設計は1T1Rに比べて約9倍のエネルギーを節約できる。 また、3T1Rの設計は、MOSFETのプロセス変動やメムリスタ固有の確率的挙動の影響を受けない有望な書き込み動作を示す。 試験に用いられるメムリスタはハフニウム系であり、65nmハイブリッドCMOS-メムリスタプロセスで製造された。 提案設計では, 印加電圧と書き込み動作に対する抵抗の線形特性も示している。 シミュレーションと測定データは、電圧パルスベースのプログラミングと現在のコンプライアンスベースのプログラミングに関して、同様のパターンを示す。 この行動がスパイキングニューラルネットワークなどの神経形態特異的な応用に与える影響をさらに観察した。

Memristors provide a tempting solution for weighted synapse connections in neuromorphic computing due to their size and non-volatile nature. However, memristors are unreliable in the commonly used voltage-pulse-based programming approaches and require precisely shaped pulses to avoid programming failure. In this paper, we demonstrate a current-limiting-based solution that provides a more predictable analog memory behavior when reading and writing memristive synapses. With our proposed design READ current can be optimized by about 19x compared to the 1T1R design. Moreover, our proposed design saves about 9x energy compared to the 1T1R design. Our 3T1R design also shows promising write operation which is less affected by the process variation in MOSFETs and the inherent stochastic behavior of memristors. Memristors used for testing are hafnium oxide based and were fabricated in a 65nm hybrid CMOS-memristor process. The proposed design also shows linear characteristics between the voltage applied and the resulting resistance for the writing operation. The simulation and measured data show similar patterns with respect to voltage pulse-based programming and current compliance-based programming. We further observed the impact of this behavior on neuromorphic-specific applications such as a spiking neural network
翻訳日:2023-08-14 16:42:13 公開日:2023-08-10
# 連合パラダイムにおける微分プライベートスライス逆回帰

Differentially private sliced inverse regression in the federated paradigm ( http://arxiv.org/abs/2306.06324v2 )

ライセンス: Link先を確認
Shuaida He, Jiarui Zhang, Xin Chen(参考訳) 線形判別分析(LDA)を特別に用いたスライス逆回帰(SIR)は、人気があり強力な次元低減ツールである。 本稿では,SIRを拡張して分散データの課題に対処し,プライバシと通信効率を優先する。 フェデレートスライス逆回帰(federated sliced inverse regression, fsir)と呼ばれるこのアプローチは,複数クライアント間の十分な次元縮小部分空間の協調的推定を促進する。 FSIRは潜在的な敵攻撃を防ぐために、統計的精度の低いコストで差分プライバシーを保証する新しいベクトル化ガウス機構を含む様々な摂動戦略を採用する。 さらにFSIRは、協調的な変数スクリーニングのステップを自然に組み込んで、高次元のクライアントデータの効果的な処理を可能にする。 FSIRの理論的特性は低次元と高次元の両方で確立されており、広範な数値実験と実データ解析によって支えられている。

Sliced inverse regression (SIR), which includes linear discriminant analysis (LDA) as a special case, is a popular and powerful dimension reduction tool. In this article, we extend SIR to address the challenges of decentralized data, prioritizing privacy and communication efficiency. Our approach, named as federated sliced inverse regression (FSIR), facilitates collaborative estimation of the sufficient dimension reduction subspace among multiple clients, solely sharing local estimates to protect sensitive datasets from exposure. To guard against potential adversary attacks, FSIR further employs diverse perturbation strategies, including a novel vectorized Gaussian mechanism that guarantees differential privacy at a low cost of statistical accuracy. Additionally, FSIR naturally incorporates a collaborative variable screening step, enabling effective handling of high-dimensional client data. Theoretical properties of FSIR are established for both low-dimensional and high-dimensional settings, supported by extensive numerical experiments and real data analysis.
翻訳日:2023-08-14 16:41:54 公開日:2023-08-10
# ドメイン適応意味セグメンテーションのためのデュアルレベルインタラクション

Dual-level Interaction for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2307.07972v2 )

ライセンス: Link先を確認
Dongyu Yao, Boheng Li(参考訳) 自己学習アプローチは、最近、モデルがターゲットドメインの擬似ラベルでトレーニングされるドメイン適応意味セグメンテーションにおけるその位置を確保している。 現在の進歩は、ドメインギャップによるノイズの多い擬似ラベルを緩和している。 しかし、それでも意味的分類器の境界付近で誤った擬似ラベルに苦しむ。 本稿では、ドメイン適応(DIDA)のセグメンテーションにおける二重レベル相互作用を提案し、この問題に対処する。 明示的に、同じピクセルの異なる拡張ビューは、類似のクラス予測(semantic level)だけでなく、他のピクセル(instance-level)と類似性の関係を持つことを推奨する。 データセットのすべてのピクセルインスタンスの機能を保持することは不可能であるため、動的更新戦略を備えたラベル付きインスタンスバンクを維持して、インスタンスの情報的機能を選択的に保存する。 さらに、DIDAは、より信頼性の高い擬似ラベルを再生するための散乱・集束技術とのクロスレベル相互作用を行う。 本手法は,特に混乱した長文クラスにおいて,最先端の手法を著しく上回っている。 コードは \href{https://github.com/RainJamesY/DIDA} で入手できる。

Self-training approach recently secures its position in domain adaptive semantic segmentation, where a model is trained with target domain pseudo-labels. Current advances have mitigated noisy pseudo-labels resulting from the domain gap. However, they still struggle with erroneous pseudo-labels near the boundaries of the semantic classifier. In this paper, we tackle this issue by proposing a dual-level interaction for domain adaptation (DIDA) in semantic segmentation. Explicitly, we encourage the different augmented views of the same pixel to have not only similar class prediction (semantic-level) but also akin similarity relationship with respect to other pixels (instance-level). As it's impossible to keep features of all pixel instances for a dataset, we, therefore, maintain a labeled instance bank with dynamic updating strategies to selectively store the informative features of instances. Further, DIDA performs cross-level interaction with scattering and gathering techniques to regenerate more reliable pseudo-labels. Our method outperforms the state-of-the-art by a notable margin, especially on confusing and long-tailed classes. Code is available at \href{https://github.com/RainJamesY/DIDA}
翻訳日:2023-08-14 16:35:16 公開日:2023-08-10
# クロスプラットフォームヘイトスピーチ検出のための因果関係誘導乱れ

Causality Guided Disentanglement for Cross-Platform Hate Speech Detection ( http://arxiv.org/abs/2308.02080v2 )

ライセンス: Link先を確認
Paras Sheth, Tharindu Kumarage, Raha Moraffah, Aman Chadha, Huan Liu(参考訳) ソーシャルメディアプラットフォームは、オープンな言論を広める価値はあるものの、有害なコンテンツを広めるためにしばしば利用される。 現在のディープラーニングと自然言語処理モデルは、この有害なコンテンツを検出するために、一般的なヘイトスピーチ検出に適応する能力に影響するドメイン固有の用語に依存している。 これは、特定の言語信号や特定のカテゴリーの単語の使用に焦点を絞る傾向があるためである。 もうひとつの重要な課題は、プラットフォームにトレーニング用の高品質なアノテートデータがない場合であり、異なる分散シフトに適応可能なクロスプラットフォームモデルの必要性が生じる。 本研究では,あるプラットフォームのデータに基づいて学習し,複数のプラットフォームに一般化可能な,クロスプラットフォームのヘイトスピーチ検出モデルを提案する。 プラットフォーム間の優れた一般化を実現するために、入力表現を不変かつプラットフォームに依存した機能に分解する方法がある。 また,多様な環境にまたがる因果関係の学習は,ヘイトスピーチにおける不変表現の理解に大きく寄与すると考えられる。 プラットフォームに依存した特徴(ヘイトターゲットの予測に使用される)とプラットフォームに依存しない特徴(ヘイトの存在の予測に使用される)に入力を分離することにより、分布シフトに抵抗する不変表現を学習する。 これらの機能は、未公開のプラットフォームでヘイトスピーチを予測するために使用される。 4つのプラットフォームにまたがる広範な実験では,ヘイトスピーチの一般化検出における既存の最先端手法と比較して,モデルの有効性が向上していることが強調された。

Social media platforms, despite their value in promoting open discourse, are often exploited to spread harmful content. Current deep learning and natural language processing models used for detecting this harmful content overly rely on domain-specific terms affecting their capabilities to adapt to generalizable hate speech detection. This is because they tend to focus too narrowly on particular linguistic signals or the use of certain categories of words. Another significant challenge arises when platforms lack high-quality annotated data for training, leading to a need for cross-platform models that can adapt to different distribution shifts. Our research introduces a cross-platform hate speech detection model capable of being trained on one platform's data and generalizing to multiple unseen platforms. To achieve good generalizability across platforms, one way is to disentangle the input representations into invariant and platform-dependent features. We also argue that learning causal relationships, which remain constant across diverse environments, can significantly aid in understanding invariant representations in hate speech. By disentangling input into platform-dependent features (useful for predicting hate targets) and platform-independent features (used to predict the presence of hate), we learn invariant representations resistant to distribution shifts. These features are then used to predict hate speech across unseen platforms. Our extensive experiments across four platforms highlight our model's enhanced efficacy compared to existing state-of-the-art methods in detecting generalized hate speech.
翻訳日:2023-08-14 16:24:59 公開日:2023-08-10
# 微調整OpenAI LLMを用いたMT出力の完全品質セグメント予測:履歴データから編集距離パターンをキャプチャすることは可能か?

Predicting Perfect Quality Segments in MT Output with Fine-Tuned OpenAI LLM: Is it possible to capture editing distance patterns from historical data? ( http://arxiv.org/abs/2308.00158v2 )

ライセンス: Link先を確認
Serge Gladkoff, Gleb Erofeev, Lifeng Han, Goran Nenadic(参考訳) 翻訳品質推定(TQE)は、出力翻訳を利用にデプロイする前に重要なステップである。 TQEは、参照翻訳を見ることなく機械翻訳(MT)と人間翻訳(HT)の品質を評価する上でも重要である。 本研究では,TQEタスクとその機能に対して,最先端の大規模言語モデル(LLM)を微調整できるかどうかを検討する。 本稿ではChatGPTを例として、TQEをバイナリ分類タスクとしてアプローチする。 英語をイタリア語、ドイツ語、フランス語、日本語、オランダ語、ポルトガル語、トルコ語、中国語のトレーニングコーパスに使用した結果、api経由の微調整されたチャットgptは、翻訳品質の予測において比較的高いスコア、すなわち翻訳を編集する必要があるが、精度を向上させる余地があることが分かりました。 English-Italiano bilingual Abstractが論文で公開されている。

Translation Quality Estimation (TQE) is an important step before deploying the output translation into usage. TQE is also critical in assessing machine translation (MT) and human translation (HT) quality without seeing the reference translations. In this work, we examine if the state-of-the-art large language models (LLMs) can be fine-tuned for the TQE task and their capability. We take ChatGPT as one example and approach TQE as a binary classification task. Using English to Italian, German, French, Japanese, Dutch, Portuguese, Turkish, and Chinese training corpora, our experimental results show that fine-tuned ChatGPT via its API can achieve a relatively high score on predicting translation quality, i.e. if the translation needs to be edited, but there is definitely much space to improve the accuracy. English-Italiano bilingual Abstract is available in the paper.
翻訳日:2023-08-14 16:23:08 公開日:2023-08-10
# AIが信頼性の高いFlood Forecastへのグローバルアクセスを拡大

AI Increases Global Access to Reliable Flood Forecasts ( http://arxiv.org/abs/2307.16104v3 )

ライセンス: Link先を確認
Grey Nearing, Deborah Cohen, Vusumuzi Dube, Martin Gauch, Oren Gilon, Shaun Harrigan, Avinatan Hassidim, Frederik Kratzert, Asher Metzger, Sella Nevo, Florian Pappenberger, Christel Prudhomme, Guy Shalev, Shlomo Shenzis, Tadele Tekalign, Dana Weitzner, Yoss Matias(参考訳) 洪水は最もありふれた自然災害の1つであり、しばしば密集した流れの監視網を欠く発展途上国に不釣り合いな影響をもたらす。 洪水のリスクを軽減するには正確な警告とタイムリーな警告が不可欠であるが、正確な水理シミュレーションモデルは通常、適用された各流域の長いデータ記録に校正する必要がある。 我々は人工知能(AI)モデルを開発し,最大7日間の時間スケールで極端な水文現象を予測した。 このモデルは、すべての大陸、リードタイム、リターン期間にわたって、最先端のグローバル水文学モデル(Copernicus Emergency Management Service Global Flood Awareness System)を著しく上回っている。 世界の流域のわずか数パーセントが流水量計を備えており、特に人為的な洪水の影響に弱い発展途上国では不均等な数の未採水池があるため、AIは特に未採水池の予測に有効である。 我々は,南アメリカとアフリカにおける極端な事象の予報を作成し,ヨーロッパと北アメリカの現在の芸術水準に迫る信頼性を実現し,現在のアート・ノウキャスト(0日間リードタイム)に類似した4日から6日間のリードタイムで信頼性を達成する。 さらに、私たちは2年間のリターン期間イベントに対して、現在のアキュラシーに似た10年間のリターン期間イベントに対して、アキュラシーを達成しています。 本稿では,80か国以上で公開されている(自由かつオープンな)予測をリアルタイムに生成する,運用早期警告システムに組み込んだモデルを提案する。 このAIとオープンデータを使った作業は、信頼できる洪水警報へのグローバルアクセスを改善し続けるために、水文データの可用性を高める必要性を強調している。

Floods are one of the most common and impactful natural disasters, with a disproportionate impact in developing countries that often lack dense streamflow monitoring networks. Accurate and timely warnings are critical for mitigating flood risks, but accurate hydrological simulation models typically must be calibrated to long data records in each watershed where they are applied. We developed an Artificial Intelligence (AI) model to predict extreme hydrological events at timescales up to 7 days in advance. This model significantly outperforms current state of the art global hydrology models (the Copernicus Emergency Management Service Global Flood Awareness System) across all continents, lead times, and return periods. AI is especially effective at forecasting in ungauged basins, which is important because only a few percent of the world's watersheds have stream gauges, with a disproportionate number of ungauged basins in developing countries that are especially vulnerable to the human impacts of flooding. We produce forecasts of extreme events in South America and Africa that achieve reliability approaching the current state of the art in Europe and North America, and we achieve reliability at between 4 and 6-day lead times that are similar to current state of the art nowcasts (0-day lead time). Additionally, we achieve accuracies over 10-year return period events that are similar to current accuracies over 2-year return period events, meaning that AI can provide warnings earlier and over larger and more impactful events. The model that we develop in this paper has been incorporated into an operational early warning system that produces publicly available (free and open) forecasts in real time in over 80 countries. This work using AI and open data highlights a need for increasing the availability of hydrological data to continue to improve global access to reliable flood warnings.
翻訳日:2023-08-14 16:22:49 公開日:2023-08-10
# ソフトウェアセキュリティのためのChatGPT - セキュリティアプリケーションにおけるChatGPTの強みと限界を探る

ChatGPT for Software Security: Exploring the Strengths and Limitations of ChatGPT in the Security Applications ( http://arxiv.org/abs/2307.12488v2 )

ライセンス: Link先を確認
Zhilong Wang, Lan Zhang, Peng Liu(参考訳) ChatGPTは多目的な大規模言語モデルであり、様々な領域にわたる問合せに対処する大きな可能性を証明している。 オンラインソースとユーザ入力の両方から情報を分析し、理解し、合成する能力は、大きな注目を集めている。 コード生成とコードレビューにおけるChatGPTの能力について、これまでも研究されてきた。 本稿では,セキュリティ指向プログラム分析におけるChatGPTの機能について,攻撃者とセキュリティアナリストの両面から考察する。 本稿では,chatgptの応答を評価するための課題を意図的に導入しながら,セキュリティ指向のプログラム分析タスクを複数実施したケーススタディを提案する。 ChatGPTによる回答の質の検証を通じて,セキュリティ指向プログラム分析の領域におけるその強みと限界を明確に把握する。

ChatGPT, as a versatile large language model, has demonstrated remarkable potential in addressing inquiries across various domains. Its ability to analyze, comprehend, and synthesize information from both online sources and user inputs has garnered significant attention. Previous research has explored ChatGPT's competence in code generation and code reviews. In this paper, we delve into ChatGPT's capabilities in security-oriented program analysis, focusing on perspectives from both attackers and security analysts. We present a case study involving several security-oriented program analysis tasks while deliberately introducing challenges to assess ChatGPT's responses. Through an examination of the quality of answers provided by ChatGPT, we gain a clearer understanding of its strengths and limitations in the realm of security-oriented program analysis.
翻訳日:2023-08-14 16:22:02 公開日:2023-08-10
# 大規模言語モデルを用いたIDE内情報提供

In-IDE Generation-based Information Support with a Large Language Model ( http://arxiv.org/abs/2307.08177v2 )

ライセンス: Link先を確認
Daye Nam and Andrew Macvean and Vincent Hellendoorn and Bogdan Vasilescu and Brad Myers(参考訳) コードを理解することは、特に新しい複雑な開発環境で働く場合、難しい。 コードコメントとドキュメンテーションは役に立ちますが、通常、ナビゲートがほとんどまたは難しいです。 大規模言語モデル(LLM)は、コードを書くプロセスに革命をもたらしています。 彼らはそれを理解するのに同じようにできるだろうか? 本研究では,LLMをベースとした対話型UIをIDEから直接構築し,コード理解を目的とした最初の調査を行う。 私たちのIDEプラグインは、OpenAIのGPT-3.5とGPT-4モデルをユーザが明示的なプロンプトを書かなくても4つのハイレベルなリクエストでクエリします。 プラグインはオープンなプロンプトも可能で、プログラムが編集された後自動的にLLMにコンテクスト化される。 このシステムについて,32名を対象に行ったユーザ調査で評価し,web 検索以上の作業完了を支援することができることを確認した。 さらに,開発者の利用方法の徹底的な分析を行い,システムの有用性を把握し,その利用方法とメリットが学生と専門家の間で大きく異なることを発見した。 llmsとのイデアル内プロンプトレスインタラクションは、ツールビルダーにとって将来有望な方向性であると結論付ける。

Understanding code is challenging, especially when working in new and complex development environments. Code comments and documentation can help, but are typically scarce or hard to navigate. Large language models (LLMs) are revolutionizing the process of writing code. Can they do the same for helping understand it? In this study, we provide a first investigation of an LLM-based conversational UI built directly in the IDE that is geared towards code understanding. Our IDE plugin queries OpenAI's GPT-3.5 and GPT-4 models with four high-level requests without the user having to write explicit prompts: to explain a highlighted section of code, provide details of API calls used in the code, explain key domain-specific terms, and provide usage examples for an API. The plugin also allows for open-ended prompts, which are automatically contextualized to the LLM with the program being edited. We evaluate this system in a user study with 32 participants, which confirms that using our plugin can aid task completion more than web search. We additionally provide a thorough analysis of the ways developers use, and perceive the usefulness of, our system, among others finding that the usage and benefits differ significantly between students and professionals. We conclude that in-IDE prompt-less interaction with LLMs is a promising future direction for tool builders.
翻訳日:2023-08-14 16:21:40 公開日:2023-08-10
# 乱れた分子ポラリトンにおける周波数依存性光反応性

Frequency-dependent photoreactivity in disordered molecular polaritons ( http://arxiv.org/abs/2308.03954v2 )

ライセンス: Link先を確認
Juan B. P\'erez-S\'anchez, Federico Mellini, Noel C. Giebink, Joel Yuen-Zhou(参考訳) 我々は,n\gg10^{6}$分子の無秩序アンサンブルがキャビティモードに結合する強結合系において,分子ポラリトンの超高速量子力学をシミュレートする強力な形式(d-cut-e)を提案する。 特に、このダイナミクスを、$\sim n_{bins}$電子状態を持つ単一の$\textit{effective}$分子をホストするキャビティで捉えることができ、ここでは$n_{bins}\ll n$は、障害分布を識別するビンの数である。 d-CUT-Eを用いて、線形光学スペクトルから評価される強い結合は、偏光子化学の指標として不十分である。 高度に乱れたアンサンブルでは、広帯域励起による全反応はキャビティの外と同じであり、狭帯域励起は反応の前に準備された初期状態の違いによってのみ異なる反応を生じる。

We present a powerful formalism (d-CUT-E) to simulate the ultrafast quantum dynamics of molecular polaritons in the collective strong coupling regime, where a disordered ensemble of $N\gg10^{6}$ molecules couples to a cavity mode. Notably, we can capture this dynamics with a cavity hosting a single $\textit{effective}$ molecule with $\sim N_{bins}$ electronic states, where $N_{bins}\ll N$ is the number of bins discretizing the disorder distribution. Using d-CUT-E we conclude that strong coupling, as evaluated from linear optical spectra, can be a poor proxy for polariton chemistry. For highly disordered ensembles, total reaction yield upon broadband excitation is identical to that outside of the cavity, while narrowband excitation produces distinct reaction yields solely due to differences in the initially states prepared prior to the reaction.
翻訳日:2023-08-14 16:15:21 公開日:2023-08-10
# Pruned Elementsによる逆消去 - グラフロテリチケットの改善に向けて

Adversarial Erasing with Pruned Elements: Towards Better Graph Lottery Ticket ( http://arxiv.org/abs/2308.02916v2 )

ライセンス: Link先を確認
Yuwen Wang, Shunyu Liu, Kaixuan Chen, Tongtian Zhu, Ji Qiao, Mengjie Shi, Yuanyu Wan, Mingli Song(参考訳) Graph Lottery Ticket (GLT) はコアサブグラフとスパースサブネットワークを組み合わせることで,大規模入力グラフ上での深部グラフニューラルネットワーク(GNN)の計算コストを低減し,元の性能を維持している。 しかし、入賞研究における当選GLTは、グラフ/モデル解析におけるエッジ/ウェイトの重要性の動的変化を無視し、入賞券の魅力を損なうことなく、再評価・再考することなく反復等級ベースプルーニング(IMP)を適用して得られる。 本稿では,pruned graph 接続とモデルパラメータにおける既存の見落としの貴重な情報を glt に再グループ化し,最終的な性能を向上させる予想を定式化する。 具体的には, 逆相補的消去(ACE)フレームワークを提案し, 刈り取られた部品から貴重な情報を探索し, ACE-GLTと呼ばれるより強力なGLTを開発する。 主なアイデアは、IMPの各ラウンドの後に刈り取られたエッジ/ウェイトから貴重な情報をマイニングし、ACE技術を用いてGLT処理を洗練させることである。 最後に, ACE-GLT は GLT を探索する既存手法よりも優れていることを示す。 私たちのコードは公開されます。

Graph Lottery Ticket (GLT), a combination of core subgraph and sparse subnetwork, has been proposed to mitigate the computational cost of deep Graph Neural Networks (GNNs) on large input graphs while preserving original performance. However, the winning GLTs in exisiting studies are obtained by applying iterative magnitude-based pruning (IMP) without re-evaluating and re-considering the pruned information, which disregards the dynamic changes in the significance of edges/weights during graph/model structure pruning, and thus limits the appeal of the winning tickets. In this paper, we formulate a conjecture, i.e., existing overlooked valuable information in the pruned graph connections and model parameters which can be re-grouped into GLT to enhance the final performance. Specifically, we propose an adversarial complementary erasing (ACE) framework to explore the valuable information from the pruned components, thereby developing a more powerful GLT, referred to as the ACE-GLT. The main idea is to mine valuable information from pruned edges/weights after each round of IMP, and employ the ACE technique to refine the GLT processing. Finally, experimental results demonstrate that our ACE-GLT outperforms existing methods for searching GLT in diverse tasks. Our code will be made publicly available.
翻訳日:2023-08-14 16:13:47 公開日:2023-08-10
# AIユーザの嗜好を標準として捉えるコラボレーションフィルタリング

Collaborative filtering to capture AI user's preferences as norms ( http://arxiv.org/abs/2308.02542v2 )

ライセンス: Link先を確認
Marc Serramia, Natalia Criado, Michael Luck(参考訳) それぞれのユーザの好みに合わせてAIテクノロジをカスタマイズすることは、それらがうまく機能することの基本である。 残念なことに、現在のメソッドはあまりにも多くのユーザの関与を必要とし、真の好みを捉えない。 実際、手動で設定する設定の煩雑さを避けるために、ユーザーは通常、実際の設定に従わなくてもデフォルトの設定を受け入れる。 ノルムは行動の規制やユーザの嗜好の遵守に有用であるが、文献は規範を徹底的に研究しているが、ほとんどの提案は形式的な視点を採っている。 実際、ユーザのプライバシの好みを捉えるための規範を構築する研究がいくつか行われているが、これらの手法は、AI技術の場合、取得と維持が困難であるドメイン知識に依存している。 我々は、ユーザのシステム全体から簡単に利用できる大量の選好情報を活用し、規範を構築する際に新たな視点が必要であると主張する。 リコメンダシステムに触発されて、コラボレーティブフィルタリングは、過度なユーザの関与なしにユーザの規範的好みを識別するための適切なアプローチを提供することができると信じている。

Customising AI technologies to each user's preferences is fundamental to them functioning well. Unfortunately, current methods require too much user involvement and fail to capture their true preferences. In fact, to avoid the nuisance of manually setting preferences, users usually accept the default settings even if these do not conform to their true preferences. Norms can be useful to regulate behaviour and ensure it adheres to user preferences but, while the literature has thoroughly studied norms, most proposals take a formal perspective. Indeed, while there has been some research on constructing norms to capture a user's privacy preferences, these methods rely on domain knowledge which, in the case of AI technologies, is difficult to obtain and maintain. We argue that a new perspective is required when constructing norms, which is to exploit the large amount of preference information readily available from whole systems of users. Inspired by recommender systems, we believe that collaborative filtering can offer a suitable approach to identifying a user's norm preferences without excessive user involvement.
翻訳日:2023-08-14 16:13:21 公開日:2023-08-10
# 医用画像分類のためのJigsawパズルを用いた細粒自己監督学習

Fine-Grained Self-Supervised Learning with Jigsaw Puzzles for Medical Image Classification ( http://arxiv.org/abs/2308.05770v1 )

ライセンス: Link先を確認
Wongi Park and Jongbin Ryu(参考訳) 微細病変の分類は医用画像の微妙な差異のため困難である。 これは、深層ニューラルネットワークのトレーニングにおいて、非常に小さな差異を持つ微細な病変の学習の特徴が非常に難しいためである。 そこで本稿では,医用画像の微妙な病変を分類するためのFG-SSL法を提案する。 提案手法は,細粒度ジグソーパズルと正規化元の画像との相互相関が同一性行列に近いような階層的ブロックを通して段階的にモデルを学習する。 また,各ステップで異なる情報を抽出し,微妙な違いを発見するための教師付き学習に階層的ブロックを適用する。 提案手法は非対称モデルを必要としないし, 負のサンプリング戦略も必要とせず, バッチサイズに敏感ではない。 各種医用画像認識データセットを用いた包括的実験において,提案手法の有効性を検証した。 提案手法は、ISIC2018, APTOS2019, ISIC2017データセットにおいて、既存の最先端手法と比較して好適に動作する。

Classifying fine-grained lesions is challenging due to minor and subtle differences in medical images. This is because learning features of fine-grained lesions with highly minor differences is very difficult in training deep neural networks. Therefore, in this paper, we introduce Fine-Grained Self-Supervised Learning(FG-SSL) method for classifying subtle lesions in medical images. The proposed method progressively learns the model through hierarchical block such that the cross-correlation between the fine-grained Jigsaw puzzle and regularized original images is close to the identity matrix. We also apply hierarchical block for progressive fine-grained learning, which extracts different information in each step, to supervised learning for discovering subtle differences. Our method does not require an asymmetric model, nor does a negative sampling strategy, and is not sensitive to batch size. We evaluate the proposed fine-grained self-supervised learning method on comprehensive experiments using various medical image recognition datasets. In our experiments, the proposed method performs favorably compared to existing state-of-the-art approaches on the widely-used ISIC2018, APTOS2019, and ISIC2017 datasets.
翻訳日:2023-08-14 16:04:49 公開日:2023-08-10
# 量子不純物モデルのためのグラスマン時変行列演算子

Grassmann Time-Evolving Matrix Product Operators for Quantum Impurity Models ( http://arxiv.org/abs/2308.05279v1 )

ライセンス: Link先を確認
Ruofan Chen, Xiansong Xu, Chu Guo(参考訳) ファインマン・ヴァーノンの影響関数をフルに利用する時間発展行列積作用素(tempo)法は、ボソニック不純物問題に対する最先端テンソルネットワーク法である。 しかし、フェルミオン不純物問題に対して、グラスマン経路積分はこの方法の適用を禁止している。 我々は、グラスマン経路積分を直接操作できるTEMPOのフルフェルミオンアナログであるグラスマン時間進化行列積作用素を開発した。 さらに,バニラテンポ上に提案手法の効率性を高めるために,単一の拡張密度テンソルを明示的に構築することなく,フライ上の期待値を計算するzipupアルゴリズムを提案する。 本手法は, 単一不純物アンダーソンモデルの非平衡ダイナミクスを実証し, 既存のテンソルネットワークの影響関数法に対して良好な性能を示す。 提案手法はテンソルネットワークに基づく不純物解法の適用状況を大きく変えることができる。

The time-evolving matrix product operators (TEMPO) method, which makes full use of the Feynman-Vernon influence functional, is the state-of-the-art tensor network method for bosonic impurity problems. However, for fermionic impurity problems the Grassmann path integral prohibits application of this method. We develop Grassmann time-evolving matrix product operators, a full fermionic analog of TEMPO, that can directly manipulates Grassmann path integrals with similar numerical cost as the bosonic counterpart. We further propose a zipup algorithm to compute expectation values on the fly without explicitly building a single large augmented density tensor, which boosts the efficiency of our method on top of the vanilla TEMPO. We demonstrate our method on the non-equilibrium dynamics of the single impurity Anderson models, and find a favorable performance against existing tensor network influence functional methods. Our method could significantly change the application landscape of tensor network based impurity solvers.
翻訳日:2023-08-14 16:02:59 公開日:2023-08-10
# 超スペクトル熱測定による吸収型受動範囲イメージング

Absorption-Based, Passive Range Imaging from Hyperspectral Thermal Measurements ( http://arxiv.org/abs/2308.05818v1 )

ライセンス: Link先を確認
Unay Dorken Gallastegi, Hoover Rueda-Chacon, Martin J. Stevens, and Vivek K Goyal(参考訳) パッシブ・ハイパースペクトル長波赤外測定は、遠隔物体の組成、温度、範囲、空気温度やガス濃度など、周囲の環境について非常に重要な情報である。 リモートオブジェクト材料と温度は、熱放射率、範囲、空気温度、ガス濃度のスペクトルを決定し、センサへの伝搬によってこのスペクトルがどのように修正されるかを決定する。 これらの現象を計算により分離し,大気環境熱放射の吸収に基づく新しい受動範囲イメージング法を導入する。 従来、受動吸収に基づく測位法は熱く高出力の物体を仮定していた。 しかし、自然のシーンの温度変化は通常低いため、レンジイメージングは困難である。 本手法は, 大気吸収のパラメトリックモデリングと大気放出の明示的考察から得られる。 低コントラストシナリオにおけるノイズを軽減するために、赤外スペクトル上に広がる様々な吸収線を利用して、範囲と固有物体特性を共同で推定する。 正規化、温度差、多くのスペクトル帯域の可利用性の重要性を実証するモンテカルロシミュレーションとともに、この手法を自然シーンから取得した長波長赤外線(8--13$\mu$m)超スペクトル画像データに適用し、アクティブな照明をもたない。 15mから150mの範囲の特徴は回復され、不整合ライダーデータとの質的一致は良好である。

Passive hyperspectral long-wave infrared measurements are remarkably informative about the surroundings, such as remote object material composition, temperature, and range; and air temperature and gas concentrations. Remote object material and temperature determine the spectrum of thermal radiance, and range, air temperature, and gas concentrations determine how this spectrum is modified by propagation to the sensor. We computationally separate these phenomena, introducing a novel passive range imaging method based on atmospheric absorption of ambient thermal radiance. Previously demonstrated passive absorption-based ranging methods assume hot and highly emitting objects. However, the temperature variation in natural scenes is usually low, making range imaging challenging. Our method benefits from explicit consideration of air emission and parametric modeling of atmospheric absorption. To mitigate noise in low-contrast scenarios, we jointly estimate range and intrinsic object properties by exploiting a variety of absorption lines spread over the infrared spectrum. Along with Monte Carlo simulations that demonstrate the importance of regularization, temperature differentials, and availability of many spectral bands, we apply this method to long-wave infrared (8--13 $\mu$m) hyperspectral image data acquired from natural scenes with no active illumination. Range features from 15m to 150m are recovered, with good qualitative match to unaligned lidar data.
翻訳日:2023-08-14 15:55:59 公開日:2023-08-10
# 画像認識のためのスピントロニクス : 超高速データ駆動シミュレーションによる性能ベンチマーク

Spintronics for image recognition : performance benchmarking via ultrafast data-driven simulations ( http://arxiv.org/abs/2308.05810v1 )

ライセンス: Link先を確認
Anatole Moureaux and Chlo\'e Chopin and Laurent Jacques and Flavio Abreu Araujo(参考訳) 本稿では,Vortex-based spin-torque oscillators (STVOs) として知られるスピントロニックナノ構造に依存したハードウェアベースエコー状態ネットワーク(ESN)を用いた画像分類の実証を行う。 我々のネットワークは1つのSTVO多重化で実現されている。 このようなナノ構造系の繰り返し実験操作に伴う問題を回避するために,データ駆動型ティーレ方程式法 (DD-TEA) と呼ばれる超高速なデータ駆動シミュレーションフレームワークを用いてSTVO力学をシミュレーションする。 この手法を用いて,MNISTデータセットを用いた画像分類のためのSTVOベースのESNを効率的に開発し,最適化し,テストする。 EMNIST-letterとFashion MNISTデータセットを用いた分類課題の解決にこの手法をうまく適用することで、ソリューションの汎用性を示す。 シミュレーションにより,大きなesn内でstvoダイナミクスを活性化関数として用いた結果が,reluやsgmoidのような従来の非線形活性化関数と同等であることが判明した。 MNISTデータセットで最先端の精度を実現する一方で、システムアーキテクチャの比較的単純さとタスクの複雑さの増加により、EMNISTレターとファッションMNISTの性能は低下する。 DD-TEAフレームワークにより、より専門的なニューラルアーキテクチャの探索が可能になり、最終的に分類精度が向上することを期待しています。 このアプローチはまた、分類性能をさらに向上させる専用の学習ルールの調査と開発を約束する。

We present a demonstration of image classification using a hardware-based echo-state network (ESN) that relies on spintronic nanostructures known as vortex-based spin-torque oscillators (STVOs). Our network is realized using a single STVO multiplexed in time. To circumvent the challenges associated with repeated experimental manipulation of such a nanostructured system, we employ an ultrafast data-driven simulation framework called the data-driven Thiele equation approach (DD-TEA) to simulate the STVO dynamics. We use this approach to efficiently develop, optimize and test an STVO-based ESN for image classification using the MNIST dataset. We showcase the versatility of our solution by successfully applying it to solve classification challenges with the EMNIST-letters and Fashion MNIST datasets. Through our simulations, we determine that within a large ESN the results obtained using the STVO dynamics as an activation function are comparable to the ones obtained with other conventional nonlinear activation functions like the reLU and the sigmoid. While achieving state-of-the-art accuracy levels on the MNIST dataset, our model's performance on EMNIST-letters and Fashion MNIST is lower due to the relative simplicity of the system architecture and the increased complexity of the tasks. We expect that the DD-TEA framework will enable the exploration of more specialized neural architectures, ultimately leading to improved classification accuracy. This approach also holds promise for investigating and developing dedicated learning rules to further enhance classification performance.
翻訳日:2023-08-14 15:55:37 公開日:2023-08-10
# 通勤操作要因

Commuting operations factorise ( http://arxiv.org/abs/2308.05792v1 )

ライセンス: Link先を確認
Renato Renner and Ramona Wolf(参考訳) 2つのエージェント、aliceとbobを考えてみよう。それぞれが量子入力を受け取り、共有量子システム上で動作し、量子出力を生成する。 アリスとボブの操作は、合同の入出力動作が$k$にアクセスする順序から独立しているという意味で、通勤することができる。 ここでは、この可換性が、Alice と Bob が別々に作用する2つの因子に$K$を分割できることを意味するかどうかを問う。 この問題は、アリスとボブのインプットとアウトプットが古典的である場合を考えるtsirelsonによって提起された問題の「完全な量子」一般化と見なすことができる。 この場合、解は一般に負であるが、因子化が有限次元に存在することは知られている。 ここで、全ての入力系が有限次元であれば、完全量子の場合、すなわち可換演算を分解するのと同じホールドを示す。

Consider two agents, Alice and Bob, each of whom takes a quantum input, operates on a shared quantum system $K$, and produces a quantum output. Alice and Bob's operations may commute, in the sense that the joint input-output behaviour is independent of the order in which they access $K$. Here we ask whether this commutation property implies that $K$ can be split into two factors on which Alice and Bob act separately. The question can be regarded as a "fully quantum" generalisation of a problem posed by Tsirelson, who considered the case where Alice and Bob's inputs and outputs are classical. In this case, the answer is negative in general, but it is known that a factorisation exists in finite dimensions. Here we show the same holds in the fully quantum case, i.e., commuting operations factorise, provided that all input systems are finite-dimensional.
翻訳日:2023-08-14 15:55:11 公開日:2023-08-10
# 効率的な映像理解のための時間適応モデル

Temporally-Adaptive Models for Efficient Video Understanding ( http://arxiv.org/abs/2308.05787v1 )

ライセンス: Link先を確認
Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Yingya Zhang, Ziwei Liu, Marcelo H. Ang Jr(参考訳) 空間畳み込みは多くの深層ビデオモデルで広く使われている。 基本的には時空間不変性、すなわち異なるフレーム内のすべての位置の共有重みを用いる。 本研究は,ビデオ理解のための時間適応畳み込み(tadaconv)を示し,時間次元に沿った適応ウェイトキャリブレーションは,ビデオの複雑な時間ダイナミクスのモデリングを容易にする効率的な方法であることを示す。 具体的には、各フレームの畳み込み重みを局所的および全体的時間的文脈に応じて調整することにより、空間畳み込みと時間的モデリング能力を強化する。 時間的モデリングの既存の操作と比較して、TAdaConvは空間分解能よりも次元が桁違いに小さい特徴の代わりに畳み込みカーネル上で動作するので、より効率的である。 さらに、カーネルキャリブレーションによりモデルキャパシティが向上する。 このプラグイン操作 TAdaConv と拡張,すなわち TAdaConvV2 に基づいて,我々は TAdaBlocks を構築し,ConvNeXt と Vision Transformer に強力な時間的モデリング機能を持たせる。 実験の結果,tadaconvnextv2 と tadaformer は,コンボリューションモデルやトランスフォーマーモデルと,様々なビデオ理解ベンチマークで競合することがわかった。 私たちのコードとモデルは、https://github.com/alibaba-mmai-research/TAdaConv.comでリリースされています。

Spatial convolutions are extensively used in numerous deep video models. It fundamentally assumes spatio-temporal invariance, i.e., using shared weights for every location in different frames. This work presents Temporally-Adaptive Convolutions (TAdaConv) for video understanding, which shows that adaptive weight calibration along the temporal dimension is an efficient way to facilitate modeling complex temporal dynamics in videos. Specifically, TAdaConv empowers spatial convolutions with temporal modeling abilities by calibrating the convolution weights for each frame according to its local and global temporal context. Compared to existing operations for temporal modeling, TAdaConv is more efficient as it operates over the convolution kernels instead of the features, whose dimension is an order of magnitude smaller than the spatial resolutions. Further, kernel calibration brings an increased model capacity. Based on this readily plug-in operation TAdaConv as well as its extension, i.e., TAdaConvV2, we construct TAdaBlocks to empower ConvNeXt and Vision Transformer to have strong temporal modeling capabilities. Empirical results show TAdaConvNeXtV2 and TAdaFormer perform competitively against state-of-the-art convolutional and Transformer-based models in various video understanding benchmarks. Our codes and models are released at: https://github.com/alibaba-mmai-research/TAdaConv.
翻訳日:2023-08-14 15:54:55 公開日:2023-08-10
# 分子動力学学習のためのゼロショットセグメンテーションモデルによる画素ワイズアノテーションの活用

Leverage Weakly Annotation to Pixel-wise Annotation via Zero-shot Segment Anything Model for Molecular-empowered Learning ( http://arxiv.org/abs/2308.05785v1 )

ライセンス: Link先を確認
Xueyuan Li, Ruining Deng, Yucheng Tang, Shunxing Bao, Haichun Yang, Yuankai Huo(参考訳) 高解像度ギガピクセル全スライド画像(WSI)における複数の細胞群の正確な同定は,様々な臨床シナリオにおいて重要である。 この目的のためにAIモデルを構築するには、通常はピクセルレベルのアノテーションが必要である。 しかし、特に視覚検査だけで複雑な細胞タイプ(例えば、ポッド細胞とメサンギウム細胞)を区別する場合、これらのアノテーションはエラーを起こしやすい。 興味深いことに、最近の研究では、追加の免疫蛍光(if)画像を参照として使う場合(分子エミュレート学習と呼ばれる)、ラベリングにおいてドメインの専門家を上回らせることがある。 それにもかかわらず、手動で記述するリソース集約的なタスクは、アノテーションプロセスにおいて依然として必要です。 本稿では, ゼロショット学習手法を用いて, 弱いボックスアノテーションに, SAMを用いた画素レベルのデライン化を回避できる可能性について検討する。 具体的には、SAMがボックスアノテーションからピクセルレベルのアノテーションを生成する能力を活用し、SAM生成ラベルを使用してセグメンテーションモデルをトレーニングする。 提案したSAM-Assisted molecular-empowered learning (SAM-L) は,弱いボックスアノテーションを必要とせず,レイアノテータのラベル付け作業の軽減を図っている。 これは、アノテーションの精度や深層学習に基づくセグメンテーションの性能を損なうことなく達成される。 本研究は,非エキスパートアノテータのみに頼って,病理画像のセグメンテーションをトレーニングするためのアノテーションプロセスの民主化において,大きな進展を示す。

Precise identification of multiple cell classes in high-resolution Giga-pixel whole slide imaging (WSI) is critical for various clinical scenarios. Building an AI model for this purpose typically requires pixel-level annotations, which are often unscalable and must be done by skilled domain experts (e.g., pathologists). However, these annotations can be prone to errors, especially when distinguishing between intricate cell types (e.g., podocytes and mesangial cells) using only visual inspection. Interestingly, a recent study showed that lay annotators, when using extra immunofluorescence (IF) images for reference (referred to as molecular-empowered learning), can sometimes outperform domain experts in labeling. Despite this, the resource-intensive task of manual delineation remains a necessity during the annotation process. In this paper, we explore the potential of bypassing pixel-level delineation by employing the recent segment anything model (SAM) on weak box annotation in a zero-shot learning approach. Specifically, we harness SAM's ability to produce pixel-level annotations from box annotations and utilize these SAM-generated labels to train a segmentation model. Our findings show that the proposed SAM-assisted molecular-empowered learning (SAM-L) can diminish the labeling efforts for lay annotators by only requiring weak box annotations. This is achieved without compromising annotation accuracy or the performance of the deep learning-based segmentation. This research represents a significant advancement in democratizing the annotation process for training pathological image segmentation, relying solely on non-expert annotators.
翻訳日:2023-08-14 15:54:27 公開日:2023-08-10
# ディジタル病理における全スライド画像解析のための高性能データ管理

High-performance Data Management for Whole Slide Image Analysis in Digital Pathology ( http://arxiv.org/abs/2308.05784v1 )

ライセンス: Link先を確認
Haoju Leng, Ruining Deng, Shunxing Bao, Dazheng Fang, Bryan A. Millis, Yucheng Tang, Haichun Yang, Lipeng Wan, Yuankai Huo(参考訳) 全スライディング画像におけるギガピクセルのデジタル病理を扱う場合、データ記録の顕著な割合は、解析操作毎に関連性を有する。 例えば、全スライド画像(WSI)に画像解析アルゴリズムをデプロイする場合、計算のボトルネックは入出力(I/O)システムにあることが多い。 特に、パッチレベルの処理は、コンピュータシステムにかなりのI/O負荷をもたらす。 しかし、パッチレベルのイメージプロセスが異なるパッチにまたがる典型的な独立性を考慮すると、このデータ管理プロセスはさらに並列化される可能性がある。 本稿では、アダプタブルIOシステムバージョン2(ADIOS2)の実装を通じて、このデータアクセス課題に取り組む取り組みについて詳述する。 私たちの焦点は、adios2を使用してデジタル病理中心のパイプラインを構築し、リリースすることにあります。 さらに,データの検索時間を短縮する戦略も開発した。 パフォーマンス評価は、(1)純粋なCPUベースのイメージ分析シナリオ("CPUシナリオ"と定義されている)と(2)GPUベースのディープラーニングフレームワークシナリオ("GPUシナリオ"と呼ばれる)の2つの主要なシナリオを含む。 我々の発見は注目すべき結果を示している。 CPUのシナリオでは、ADIOS2はブルートフォースのアプローチに比べて、印象的な2倍のスピードアップを示している。 GPUシナリオでは、そのパフォーマンスは最先端のGPU I/OアクセラレーションフレームワークであるNVIDIA Magnum IO GPU Direct Storage (GDS)と同等である。 私たちが知る限り、これはデジタル病理学の分野でadios2を利用する最初の例の1つに思える。 ソースコードはhttps://github.com/hrlblab/adiosで公開されている。

When dealing with giga-pixel digital pathology in whole-slide imaging, a notable proportion of data records holds relevance during each analysis operation. For instance, when deploying an image analysis algorithm on whole-slide images (WSI), the computational bottleneck often lies in the input-output (I/O) system. This is particularly notable as patch-level processing introduces a considerable I/O load onto the computer system. However, this data management process can be potentially further paralleled, given the typical independence of patch-level image processes across different patches. This paper details our endeavors in tackling this data access challenge through the implementation of the Adaptable IO System version 2 (ADIOS2). Our focus has been on constructing and releasing a digital pathology-centric pipeline using ADIOS2, which facilitates streamlined data management across WSIs. Additionally, we've developed strategies aimed at curtailing data retrieval times. The performance evaluation encompasses two key scenarios: (1) a pure CPU-based image analysis scenario (termed the "CPU scenario"), and (2) a GPU-based deep learning framework scenario (referred to as the "GPU scenario"). Our findings reveal noteworthy outcomes. Under the CPU scenario, ADIOS2 showcases an impressive two-fold speed-up in comparison to the brute-force approach. In the GPU scenario, its performance stands on par with the cutting-edge GPU I/O acceleration framework, NVIDIA Magnum IO GPU Direct Storage (GDS). From what we know, this appears to be among the initial instances, if any, of utilizing ADIOS2 within the field of digital pathology. The source code has been made publicly available at https://github.com/hrlblab/adios.
翻訳日:2023-08-14 15:54:00 公開日:2023-08-10
# 腎疾患における全スライスイメージングのためのマルチスケール腎微小血管構築

Multi-scale Multi-site Renal Microvascular Structures Segmentation for Whole Slide Imaging in Renal Pathology ( http://arxiv.org/abs/2308.05782v1 )

ライセンス: Link先を確認
Franklin Hu, Ruining Deng, Shunxing Bao, Haichun Yang, Yuankai Huo(参考訳) ヒト腎全スライド画像(WSI)からの動脈,静脈,毛細血管などの微小血管構造の分離が腎病理の焦点となっている。 現在の手動セグメンテーション技術は時間を要するが、大規模デジタル病理画像では実現不可能である。 ディープラーニングベースの手法は自動セグメンテーションのソリューションを提供するが、その多くは制限に悩まされている。 本稿では,マルチサイト・マルチスケールトレーニングデータを利用した新しいシングルダイナミックネットワーク手法であるOmni-Segを提案する。 アプローチに共通する部分的ラベル付き画像では、トレーニング画像ごとに1つの組織タイプのみをラベル付けし、微小血管構造をセグメント化する。 異なる倍率(40x,20x,10x,5x)の2つのデータセット(HuBMAPとNEPTUNE)の画像を用いて、特異なディープネットワークをトレーニングする。 実験の結果, Omni-Seg は Dice similarity Coefficient (DSC) と Intersection over Union (IoU) の両方で優れていた。 提案手法は腎病理学者に腎微小血管構造の定量的解析のための強力な計算ツールを提供する。

Segmentation of microvascular structures, such as arterioles, venules, and capillaries, from human kidney whole slide images (WSI) has become a focal point in renal pathology. Current manual segmentation techniques are time-consuming and not feasible for large-scale digital pathology images. While deep learning-based methods offer a solution for automatic segmentation, most suffer from a limitation: they are designed for and restricted to training on single-site, single-scale data. In this paper, we present Omni-Seg, a novel single dynamic network method that capitalizes on multi-site, multi-scale training data. Unique to our approach, we utilize partially labeled images, where only one tissue type is labeled per training image, to segment microvascular structures. We train a singular deep network using images from two datasets, HuBMAP and NEPTUNE, across different magnifications (40x, 20x, 10x, and 5x). Experimental results indicate that Omni-Seg outperforms in terms of both the Dice Similarity Coefficient (DSC) and Intersection over Union (IoU). Our proposed method provides renal pathologists with a powerful computational tool for the quantitative analysis of renal microvascular structures.
翻訳日:2023-08-14 15:53:32 公開日:2023-08-10
# 空間平坦なFLRW時空におけるディラック理論の保存されたスピン作用素

Conserved spin operator of Dirac's theory in spatially flat FLRW spacetimes ( http://arxiv.org/abs/2308.05781v1 )

ライセンス: Link先を確認
Ion I. Cotaescu(参考訳) 空間的に平坦なflrw時空上のディラック理論の新しい保存スピンおよび軌道角運動量作用素は、フラットケースにおけるプライススピン作用素の役割に関する最近の結果を一般化したものである [i]。 I. Cot\u aescu, Eur Phys J.C (2022) 82:1073。 これらの作用素は保存された全角運動量で新しいスピンと軌道対称性を生成し、等長群の回転を形成する。 新しいスピン作用素は、フーリエ変換を与える適切なスペクトル表現の助けを借りて、アクティブモードで定義され、研究される。 さらに、フェルミオン偏極の作用素も同様に定義される。 軌道角運動量は、ウィグナーの誘導表現理論にインスパイアされた新しい方法で受動モードで導かれるが、大域回転のためにのみ適切に働く。 このアプローチでは、任意のFLRW時空において1粒子スピンと軌道角運動量作用素が、様々なスケール因子によって与えられる具体的な測度に関わらず、同じ形状を持つことを示す量子化が行われる。

New conserved spin and orbital angular momentum operators of Dirac's theory on spatially flat FLRW spacetimes are proposed generalizing thus recent results concerning the role of Pryce's spin operator in the flat case [I. I. Cot\u aescu, Eur. Phys. J. C (2022) 82:1073]. These operators split the conserved total angular momentum generating the new spin and orbital symmetries that form the rotations of the isometry groups. The new spin operator is defined and studied in active mode with the help of a suitable spectral representation giving its Fourier transfor. Moreover, in the same manner is defined the operator of the fermion polarization. The orbital angular momentum is derived in passive mode using a new method, inspired by Wigner's theory of induced representations, but working properly only for global rotations. In this approach the quantization is performed finding that the one-particle spin and orbital angular momentum operators have the same form in any FLRW spacetime regardless their concrete geometries given by various scale factors.
翻訳日:2023-08-14 15:53:11 公開日:2023-08-10
# 多言語indic-scriptの光学的文字識別

Optical Script Identification for multi-lingual Indic-script ( http://arxiv.org/abs/2308.05780v1 )

ライセンス: Link先を確認
Sidhantha Poddar and Rohan Gupta(参考訳) スクリプトの識別とテキスト認識は、人工知能の応用において主要な領域である。 デジタル化の時代には、デジタルノートテイクの使用が一般的になっている。 それでも、従来のペンと紙の使い方は筆記法として顕著である。 これにより、得られたメソッドに基づいてスクリプトの分類が行われる。 処理と識別に用いられる現在の方法論と最先端の手法に関する調査は、研究者にとって有益である。 本論文の目的は,スクリプト前処理とテキスト認識技術の発展について論じることである。 インドには12の著名なIndicスクリプトがあり、英語とは異なり、これらのスクリプトには様々な特徴がある。 テキスト形状の類似性などの複雑な特徴により、認識や解析が困難になるため、正確な認識には事前処理方法が必要である。 この調査では、すべてのアルゴリズムを比較するために、誠実な試みがなされている。 この調査は、Indicスクリプトだけでなく、他の言語にも取り組んでいる研究者に洞察を提供することを期待しています。

Script identification and text recognition are some of the major domains in the application of Artificial Intelligence. In this era of digitalization, the use of digital note-taking has become a common practice. Still, conventional methods of using pen and paper is a prominent way of writing. This leads to the classification of scripts based on the method they are obtained. A survey on the current methodologies and state-of-art methods used for processing and identification would prove beneficial for researchers. The aim of this article is to discuss the advancement in the techniques for script pre-processing and text recognition. In India there are twelve prominent Indic scripts, unlike the English language, these scripts have layers of characteristics. Complex characteristics such as similarity in text shape make them difficult to recognize and analyze, thus this requires advance preprocessing methods for their accurate recognition. A sincere attempt is made in this survey to provide a comparison between all algorithms. We hope that this survey would provide insight to a researcher working not only on Indic scripts but also other languages.
翻訳日:2023-08-14 15:52:54 公開日:2023-08-10
# 非エルミート系における位相相転移の幾何学的基準

Geometric criterion of topological phase transition for non-Hermitian systems ( http://arxiv.org/abs/2308.05771v1 )

ライセンス: Link先を確認
Annan Fan and Shi-Dong Liang(参考訳) 非エルミート系に対する位相相転移の幾何学的基準を提案する。 非エルミート系における複素エネルギー平面におけるバルクバンドの境界の長さを定義する。 一次元系では、パラメータに対する長さの微分が不連続であるときに位相相転移が発生する。 二次元系では、長さが不連続であるとき、ガッピング位相とギャップレス位相の間の位相相転移が起こる。 パラメータに対する長さの微分が不連続であるとき、ギャップレス位相とギャップレス位相の間の位相相転移が起こる。 これらの複素エネルギー平面の長さの非解析的挙動は位相相転移を検出する信号を与える。 我々は、この幾何学的基準を、1次元非エルミートSu-Schieffer-Heegerモデルと2次元非エルミートチャーン絶縁体モデルにより示す。 この幾何学的基準は、非エルミート系における複素エネルギー平面内の幾何学的局所対象から大域的位相不変量への効率的な洞察を与える。

We propose a geometric criterion of the topological phase transition for non-Hermitian systems. We define the length of the boundary of the bulk band in the complex energy plane for non-Hermitian systems. For one-dimensional systems, we find that the topological phase transition occurs when the derivatives of the length with respect to parameters are discontinuous. For two-dimensional systems, when the length is discontinuous, the topological phase transitions between the gapped and gapless phases occurs. When the derivatives of the length with respect to parameters are discontinuous, the topological phase transition between the gapless and gapless phases occurs. These nonanalytic behaviors of the length in the complex energy plane provide a signal to detect the topological phase transitions. We demonstrate this geometric criterion by the one-dimensional non-Hermitian Su-Schieffer-Heeger model and the two-dimensional non-Hermitian Chern insulator model. This geometric criterion provides an efficient insight to the global topological invariant from a geometric local object in the complex energy plane for non-Hermitian systems
翻訳日:2023-08-14 15:52:41 公開日:2023-08-10
# 条件付き独立グラフ上の知識伝播

Knowledge Propagation over Conditional Independence Graphs ( http://arxiv.org/abs/2308.05857v1 )

ライセンス: Link先を確認
Urszula Chajewska, Harsh Shrivastava(参考訳) 条件付き独立グラフ (CI) は確率的グラフモデル (PGM) の特殊なタイプであり、特徴接続は非方向グラフを用いてモデル化され、エッジウェイトは特徴間の部分的相関強度を示す。 ciグラフは機能間の直接的な依存性を捉えているため、さまざまなドメイン、特にドメイントポロジーの発見からシステムに対する洞察を得るため、研究コミュニティ内の関心が高まっている。 本研究では,CIグラフ上で知識伝達を行うアルゴリズムを提案する。 我々の実験は、公開利用可能なcoraとpubmedデータセットの最先端の技術を改善できることを示しています。

Conditional Independence (CI) graph is a special type of a Probabilistic Graphical Model (PGM) where the feature connections are modeled using an undirected graph and the edge weights show the partial correlation strength between the features. Since the CI graphs capture direct dependence between features, they have been garnering increasing interest within the research community for gaining insights into the systems from various domains, in particular discovering the domain topology. In this work, we propose algorithms for performing knowledge propagation over the CI graphs. Our experiments demonstrate that our techniques improve upon the state-of-the-art on the publicly available Cora and PubMed datasets.
翻訳日:2023-08-14 15:44:56 公開日:2023-08-10
# segda: ドメイン適応意味セグメンテーションのための擬似ラベル付き最大分離セグメンテーションマスク

SegDA: Maximum Separable Segment Mask with Pseudo Labels for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2308.05851v1 )

ライセンス: Link先を確認
Anant Khandelwal(参考訳) Unsupervised Domain Adaptation (UDA) は、ラベルリッチソースドメインから知識を転送することで、ターゲットドメインのラベル不足の問題を解決することを目的としている。 通常、ソースドメインは、よく知られたコンピュータグラフィックス技術を用いてアノテーションが容易に得られる合成画像で構成されている。 しかし、実世界の画像(ターゲット領域)のアノテーションを得るには、多くの手作業が必要であり、ピクセル単位のアノテーションを必要とするため、非常に時間がかかる。 この問題に対処するために,最大分離可能なセグメント表現を学習することにより,UDA手法の転送性能を向上させるSegDAモジュールを提案する。 これは、歩行者/ライダー、歩道/道路など、視覚的に類似したクラスを特定するという問題を解決する。 セグメントクラス間の最大分離のために,神経崩壊に触発された等角的タイトフレーム(etf)分類器を用いた。 これにより、ソース領域のピクセル表現は、最大分離可能なETF分類器に整列した単純頂点を形成する単一のベクトルに崩壊する。 この現象を用いて,対象領域に対するセグメント表現のドメイン適応のための新しいアーキテクチャを提案する。 さらに,対象領域画像のラベリングにおけるノイズを推定し,疑似ラベルで識別されないクラスに対して画素の発見を促すノイズ補正のためのデコーダを更新することを提案した。 4つのUDAベンチマークを用いて、実時間から実時間、夜間、明白から逆の気象シナリオをシミュレートした。 提案手法は,GTAでは+2.2 mIoU,Synthiaでは+2.0 mIoU,Cityscapesでは+5.9 mIoU,Cityscapesでは+5.9 mIoU,Cityscapesでは+2.6 mIoU,ACDCより優れている。

Unsupervised Domain Adaptation (UDA) aims to solve the problem of label scarcity of the target domain by transferring the knowledge from the label rich source domain. Usually, the source domain consists of synthetic images for which the annotation is easily obtained using the well known computer graphics techniques. However, obtaining annotation for real world images (target domain) require lot of manual annotation effort and is very time consuming because it requires per pixel annotation. To address this problem we propose SegDA module to enhance transfer performance of UDA methods by learning the maximum separable segment representation. This resolves the problem of identifying visually similar classes like pedestrian/rider, sidewalk/road etc. We leveraged Equiangular Tight Frame (ETF) classifier inspired from Neural Collapse for maximal separation between segment classes. This causes the source domain pixel representation to collapse to a single vector forming a simplex vertices which are aligned to the maximal separable ETF classifier. We use this phenomenon to propose the novel architecture for domain adaptation of segment representation for target domain. Additionally, we proposed to estimate the noise in labelling the target domain images and update the decoder for noise correction which encourages the discovery of pixels for classes not identified in pseudo labels. We have used four UDA benchmarks simulating synthetic-to-real, daytime-to-nighttime, clear-to-adverse weather scenarios. Our proposed approach outperforms +2.2 mIoU on GTA -> Cityscapes, +2.0 mIoU on Synthia -> Cityscapes, +5.9 mIoU on Cityscapes -> DarkZurich, +2.6 mIoU on Cityscapes -> ACDC.
翻訳日:2023-08-14 15:44:45 公開日:2023-08-10
# ドメインランダム化と物体追跡ニューラルネットワークを用いたシードカーネルカウント

Seed Kernel Counting using Domain Randomization and Object Tracking Neural Networks ( http://arxiv.org/abs/2308.05846v1 )

ライセンス: Link先を確認
Venkat Margapuri and Prapti Thapaliya and Mitchell Neilsen(参考訳) 種子の高スループット表現型 (high-throughput phenotyping, htp) は、成長、発達、耐性、耐性、生態、収量などの複雑な種子形質の包括的評価であり、より複雑な形質を形成するパラメータの測定である。 種子表現型化の重要な側面の1つは、種子生産産業が事業を行うのに依存している穀物収量の推定である。 現在、機械化されたシードカーネルカウンターが市場に出回っているが、しばしば高価で、小規模のシード生産会社の手頃価格の範囲外である。 You Only Look Once (YOLO)のような物体追跡ニューラルネットワークモデルの開発により、計算機科学者は穀物の収量を安価に推定できるアルゴリズムを設計できる。 ニューラルネットワークモデルにおける重要なボトルネックは、タスクに投入する前にラベル付きトレーニングデータを多用する必要があることだ。 合成画像の使用は、物体の分類と検出のタスクを含む物体追跡のためのニューラルネットワークの訓練の代替となることを実証する。 さらに,低コストなメカニカルホッパー,トレーニングされたYOLOv8ニューラルネットワークモデル,およびStrongSORTおよびByteTrack上のオブジェクト追跡アルゴリズムを用いて,ビデオからの穀物収量を推定するシードカーネルカウンタを提案する。 この実験では、種核数を95.2\%、小麦を93.2\%、ストロングソートアルゴリズムを96.8\%、小麦を92.4\%それぞれバイトトラックアルゴリズムを用いて算出する。

High-throughput phenotyping (HTP) of seeds, also known as seed phenotyping, is the comprehensive assessment of complex seed traits such as growth, development, tolerance, resistance, ecology, yield, and the measurement of parameters that form more complex traits. One of the key aspects of seed phenotyping is cereal yield estimation that the seed production industry relies upon to conduct their business. While mechanized seed kernel counters are available in the market currently, they are often priced high and sometimes outside the range of small scale seed production firms' affordability. The development of object tracking neural network models such as You Only Look Once (YOLO) enables computer scientists to design algorithms that can estimate cereal yield inexpensively. The key bottleneck with neural network models is that they require a plethora of labelled training data before they can be put to task. We demonstrate that the use of synthetic imagery serves as a feasible substitute to train neural networks for object tracking that includes the tasks of object classification and detection. Furthermore, we propose a seed kernel counter that uses a low-cost mechanical hopper, trained YOLOv8 neural network model, and object tracking algorithms on StrongSORT and ByteTrack to estimate cereal yield from videos. The experiment yields a seed kernel count with an accuracy of 95.2\% and 93.2\% for Soy and Wheat respectively using the StrongSORT algorithm, and an accuray of 96.8\% and 92.4\% for Soy and Wheat respectively using the ByteTrack algorithm.
翻訳日:2023-08-14 15:44:14 公開日:2023-08-10
# GaborPINN:乗算フィルタネットワークを用いた効率的な物理情報ニューラルネットワーク

GaborPINN: Efficient physics informed neural networks using multiplicative filtered networks ( http://arxiv.org/abs/2308.05843v1 )

ライセンス: Link先を確認
Xinquan Huang, Tariq Alkhalifah(参考訳) ヘルムホルツ方程式の解法による地震波動場の計算は、フルウェーブフォームインバージョンなど、多くの実用的な応用に不可欠である。 物理インフォームドニューラルネットワーク(PINN)は、ニューラルネットワーク(NN)で表される機能的ウェーブフィールドソリューションを提供するが、その収束は遅い。 この問題に対処するために,周波数などのトレーニングにおける波動場の特徴を組み込んだ乗算フィルタネットワークを用いた改良PINNを提案し,より高速な収束を実現する。 具体的には、波動場を正確に表現し、その実装をGaborPINNと呼ぶことが証明されたため、Gabor基底関数を用いる。 一方,波動場の周波数に関する事前情報を,ガボルピンによる表現された波動場の不連続性の影響を緩和する手法の設計に組み込む。 提案手法は,従来のPINNと比較して,収束速度が最大2マグニチュード向上する。

The computation of the seismic wavefield by solving the Helmholtz equation is crucial to many practical applications, e.g., full waveform inversion. Physics-informed neural networks (PINNs) provide functional wavefield solutions represented by neural networks (NNs), but their convergence is slow. To address this problem, we propose a modified PINN using multiplicative filtered networks, which embeds some of the known characteristics of the wavefield in training, e.g., frequency, to achieve much faster convergence. Specifically, we use the Gabor basis function due to its proven ability to represent wavefields accurately and refer to the implementation as GaborPINN. Meanwhile, we incorporate prior information on the frequency of the wavefield into the design of the method to mitigate the influence of the discontinuity of the represented wavefield by GaborPINN. The proposed method achieves up to a two-magnitude increase in the speed of convergence as compared with conventional PINNs.
翻訳日:2023-08-14 15:43:32 公開日:2023-08-10
# 量子測定の集合における離散力学

Discrete dynamics in the set of quantum measurements ( http://arxiv.org/abs/2308.05835v1 )

ライセンス: Link先を確認
Albert Rico and Karol \.Zyczkowski(参考訳) P_i=P_i^\dag\geq 0$ summing to identity, $\sum_iP_i=1\! \! 1$. これは正の実数の確率分布をユニティにまとめる一般化と見なすことができ、その進化は確率行列によって与えられる。 この観点から、各列がPOVMを定義するブロックワイズ確率行列によって誘導される量子測定の変換を考える。 これらの変換は2つの条件測定のシーケンスでシミュレートすることができ、入力と出力は常に共同測定可能である。 ブロックワイズ二進行列によって引き起こされる力学解析により、列と行が同一性に収束し、量子測定間の演算子のメジャー化関係を定式化し、量子測定の集合における資源理論の確立を可能にする。

A quantum measurement, often referred to as positive operator-valued measurement (POVM), is a set of positive operators $P_i=P_i^\dag\geq 0$ summing to identity, $\sum_iP_i=1\!\!1$. This can be seen as a generalization of a probability distribution of positive real numbers summing to unity, whose evolution is given by a stochastic matrix. From this perspective, we consider transformations of quantum measurements induced by blockwise stochastic matrices, in which each column defines a POVM. These transformations can be simulated with a sequence of two conditional measurements, and their input and output are always jointly measurable. Analyzing dynamics induced by blockwise bistochastic matrices, in which both columns and rows sum to the identity, we formulate an operator majorization relation between quantum measurements, which allows to establish a resource theory in the set of quantum measurements.
翻訳日:2023-08-14 15:43:16 公開日:2023-08-10
# FLShield: 攻撃に対する防御を目的とした検証ベースのフェデレーション学習フレームワーク

FLShield: A Validation Based Federated Learning Framework to Defend Against Poisoning Attacks ( http://arxiv.org/abs/2308.05832v1 )

ライセンス: Link先を確認
Ehsanul Kabir and Zeyu Song and Md Rafi Ur Rashid and Shagufta Mehnaz(参考訳) フェデレーション学習(fl)は、データから学ぶ方法に革命をもたらしています。 人気が高まり、現在、自動運転車やヘルスケアなど、多くの安全クリティカルなドメインで使用されている。 しかし、何千人もの参加者がこの協力的な環境に貢献できるため、そのようなシステムのセキュリティと信頼性を確保することは困難である。 これは、悪意のある参加者の行動に対して安全で堅牢なFLシステム設計の必要性を強調し、高いユーティリティ、ローカルデータのプライバシ、効率性を保証する。 本稿では,flの参加者からの良性データを用いて,グローバルモデル生成に留まらずにローカルモデルの検証を行う,flshieldと呼ばれる新しいflフレームワークを提案する。 これは、サーバーがクリーンなデータセットにアクセスすることに依存する既存の防御とは対照的である。 FLShieldフレームワークを異なる設定で評価し,防衛意識を含む各種の毒やバックドア攻撃を阻止する効果を実証するための広範囲な実験を行った。 FLShieldはまた、勾配反転攻撃に対するローカルデータのプライバシーを保護している。

Federated learning (FL) is revolutionizing how we learn from data. With its growing popularity, it is now being used in many safety-critical domains such as autonomous vehicles and healthcare. Since thousands of participants can contribute in this collaborative setting, it is, however, challenging to ensure security and reliability of such systems. This highlights the need to design FL systems that are secure and robust against malicious participants' actions while also ensuring high utility, privacy of local data, and efficiency. In this paper, we propose a novel FL framework dubbed as FLShield that utilizes benign data from FL participants to validate the local models before taking them into account for generating the global model. This is in stark contrast with existing defenses relying on server's access to clean datasets -- an assumption often impractical in real-life scenarios and conflicting with the fundamentals of FL. We conduct extensive experiments to evaluate our FLShield framework in different settings and demonstrate its effectiveness in thwarting various types of poisoning and backdoor attacks including a defense-aware one. FLShield also preserves privacy of local data against gradient inversion attacks.
翻訳日:2023-08-14 15:42:59 公開日:2023-08-10
# ネットワークスライシング:中立性の維持、プライバシ保護、競争促進

Slicing the Network: Maintaining Neutrality, Protecting Privacy, and Promoting Competition ( http://arxiv.org/abs/2308.05829v1 )

ライセンス: Link先を確認
Nick Doty, Mallory Knodel(参考訳) ネット中立性の原則は、インターネット上に構築されたサービスの多様性を維持し、これらのオンラインサービスの小規模および大規模プロバイダ間の競争を維持するために不可欠である。 その多様性と競争によって、オンラインコンテンツを探し、自分のスピーチを広めるための幅広い選択肢がユーザーに提供する。 さらに、インターネットがその潜在能力を最大限に活用し、インターネットユーザの人権を保護するためには、政府やネットワークプロバイダ、エッジプロバイダによる監視や不正なデータ収集からのプライバシーが必要です。 5Gモバイルネットワークへの移行により、ネットワークオペレータはネットワークスライシングと呼ばれる技術に参加することができる。 スライスされたネットワークの部分は、モバイル音声とデータの単一の汎用サブスクリプションではなく、それぞれが特定の目的のためにカスタマイズされた、さまざまなサービススイートを提供するために使用することができる。 これには慎重なアプローチが必要です。 本報告では,ネットワークスライシングに使用される技術について述べるとともに,ネットワーク中立性を維持しながらネットワークスライシングを実現し,プライバシを保護し,競争を促進するための推奨事項を概説する。

The principles of net neutrality have been essential for maintaining the diversity of services built on top of the internet and for maintaining some competition between small and large providers of those online services. That diversity and competition, in turn, provide users with a broader array of choices for seeking online content and disseminating their own speech. Furthermore, in order for the internet to be used to its full potential and to protect the human rights of internet users, we need privacy from surveillance and unwarranted data collection by governments, network providers, and edge providers. The transition to 5G mobile networks enables network operators to engage in a technique called network slicing. The portion of a network that is sliced can be used to provide a suite of different service offerings, each tailored to specific purposes, instead of a single, general-purpose subscription for mobile voice and data. This requires a careful approach. Our report describes the technologies used for network slicing and outlines recommendations -- for both operators and regulators -- to enable network slicing while maintaining network neutrality, protecting privacy, and promoting competition.
翻訳日:2023-08-14 15:42:41 公開日:2023-08-10
# DiLogics: 分散ロジックでWebオートメーションプログラムを作成する

DiLogics: Creating Web Automation Programs With Diverse Logics ( http://arxiv.org/abs/2308.05828v1 )

ライセンス: Link先を確認
Kevin Pu, Jim Yang, Angel Yuan, Minyi Ma, Rui Dong, Xinyu Wang, Yan Chen, Tovi Grossman(参考訳) 知識労働者はしばしば、レコードの更新や注文の配置など、反復的なWebデータ入力タスクに遭遇する。 Webオートメーションは生産性を向上させるが、タスクをWebアクションに正確に翻訳し、新しい仕様に拡張することは難しい。 既存のツールは、UIアクションの論理的トレース(例えば、順番に各フィールドの入力テキスト)を実行するタスクを自動化することができるが、様々な入力条件に基づいて異なる実行を必要とするタスクをサポートしない。 我々は,NLPを利用したプログラミング・バイ・デモレーションシステムであるDiLogicsを紹介し,多様な仕様を扱うWebオートメーションプログラムの作成を支援する。 DiLogicsはまず、入力データを構造化タスクステップにセグメンテーションする。 各ステップでユーザデモを記録することで、DiLogicsはWebマクロを新しいがセマンティックに類似したタスク要求に一般化する。 評価の結果,非専門家はDiLogicsを使って多様な入力命令を満たす自動化プログラムを作成できることがわかった。 DiLogicsは、様々な仕様を満たすWebオートメーションプログラムを開発するための効率的で直感的で表現力豊かな方法を提供する。

Knowledge workers frequently encounter repetitive web data entry tasks, like updating records or placing orders. Web automation increases productivity, but translating tasks to web actions accurately and extending to new specifications is challenging. Existing tools can automate tasks that perform the same logical trace of UI actions (e.g., input text in each field in order), but do not support tasks requiring different executions based on varied input conditions. We present DiLogics, a programming-by-demonstration system that utilizes NLP to assist users in creating web automation programs that handle diverse specifications. DiLogics first semantically segments input data to structured task steps. By recording user demonstrations for each step, DiLogics generalizes the web macros to novel but semantically similar task requirements. Our evaluation showed that non-experts can effectively use DiLogics to create automation programs that fulfill diverse input instructions. DiLogics provides an efficient, intuitive, and expressive method for developing web automation programs satisfying diverse specifications.
翻訳日:2023-08-14 15:42:22 公開日:2023-08-10
# Encode-Store-Retrieve: 言語エンコードされたエゴセントリック認識によるメモリ拡張

Encode-Store-Retrieve: Enhancing Memory Augmentation through Language-Encoded Egocentric Perception ( http://arxiv.org/abs/2308.05822v1 )

ライセンス: Link先を確認
Junxiao Shen, John Dudley, Per Ola Kristensson(参考訳) 経験をエンコードし、保存し、取り出すのに、自分自身のメモリに依存しています。 しかし、記憶の経過は起こりうる。 記憶の増強を達成するための有望な道の1つは、拡張現実のヘッドマウントディスプレイを使用してエゴセントリックなビデオをキャプチャし保存することである。 しかし、現在の技術では、このような大量のデータを効率的にエンコードし保存する能力が欠けているため、ライフログによって生成されるビデオデータの膨大な量から大きな課題が発生する。 さらに、広範なビデオアーカイブから特定の情報を取得するには、かなりの計算能力が必要であり、望ましいコンテンツに素早くアクセスする作業はさらに複雑になる。 そこで本研究では,映像データに対して自然言語エンコーディングを活用し,それをベクトルデータベースに格納するメモリ拡張システムを提案する。 このアプローチは、大きな視覚言語モデルのパワーを利用して、言語エンコーディングプロセスを実行する。 さらに,自然言語クエリを容易にするために,大規模言語モデルを提案する。 QA-Ego4Dデータセットを用いて広範囲な評価を行い、BLEUスコアが8.3で、従来の3.4から5.8の機械学習モデルよりも優れていた。 また,ユーザ調査では,実生活記憶課題における被験者の2.46/5よりも,平均応答スコアが4.13/5であった。

We depend on our own memory to encode, store, and retrieve our experiences. However, memory lapses can occur. One promising avenue for achieving memory augmentation is through the use of augmented reality head-mounted displays to capture and preserve egocentric videos, a practice commonly referred to as life logging. However, a significant challenge arises from the sheer volume of video data generated through life logging, as the current technology lacks the capability to encode and store such large amounts of data efficiently. Further, retrieving specific information from extensive video archives requires substantial computational power, further complicating the task of quickly accessing desired content. To address these challenges, we propose a memory augmentation system that involves leveraging natural language encoding for video data and storing them in a vector database. This approach harnesses the power of large vision language models to perform the language encoding process. Additionally, we propose using large language models to facilitate natural language querying. Our system underwent extensive evaluation using the QA-Ego4D dataset and achieved state-of-the-art results with a BLEU score of 8.3, outperforming conventional machine learning models that scored between 3.4 and 5.8. Additionally, in a user study, our system received a higher mean response score of 4.13/5 compared to the human participants' score of 2.46/5 on real-life episodic memory tasks.
翻訳日:2023-08-14 15:42:06 公開日:2023-08-10
# 垂直付加・減算の手書き数学的表現の認識

Recognizing Handwritten Mathematical Expressions of Vertical Addition and Subtraction ( http://arxiv.org/abs/2308.05820v1 )

ライセンス: Link先を確認
Daniel Rosa, Filipe R. Cordeiro, Ruan Carvalho, Everton Souza, Sergio Chevtchenko, Luiz Rodrigues, Marcelo Marinho, Thales Vieira and Valmir Macario(参考訳) 手書き数学的表現認識(HMER)は多くの教育応用において難しい課題である。 近年,標準水平形式における複素数式に対するhmer法が開発されている。 しかし, 垂直加算や減算といった基礎数学的表現の解法は, 文献では研究されていない。 本研究は,垂直形式における加算式と減算式からなる手書き初等数式データセットを提案する。 また、MNISTデータセットを拡張して、この構造で人工画像を生成する。 さらに,垂直加算および減算式を認識可能なオフラインHMERの解を提案する。 解析では, 物体検出アルゴリズム YOLO v7, YOLO v8, YOLO-NAS, NanoDet, FCOS を用いて, 数学的シンボルの同定を行った。 我々はまた、オブジェクト検出段階からLATEXマークアップシーケンスの数学的表現への境界ボックスのマッピング法を提案した。 その結果,提案手法は効率的であり,高い表現認識率を達成できた。 コードとデータセットはhttps://github.com/Danielgol/HME-VASで公開されている。

Handwritten Mathematical Expression Recognition (HMER) is a challenging task with many educational applications. Recent methods for HMER have been developed for complex mathematical expressions in standard horizontal format. However, solutions for elementary mathematical expression, such as vertical addition and subtraction, have not been explored in the literature. This work proposes a new handwritten elementary mathematical expression dataset composed of addition and subtraction expressions in a vertical format. We also extended the MNIST dataset to generate artificial images with this structure. Furthermore, we proposed a solution for offline HMER, able to recognize vertical addition and subtraction expressions. Our analysis evaluated the object detection algorithms YOLO v7, YOLO v8, YOLO-NAS, NanoDet and FCOS for identifying the mathematical symbols. We also proposed a transcription method to map the bounding boxes from the object detection stage to a mathematical expression in the LATEX markup sequence. Results show that our approach is efficient, achieving a high expression recognition rate. The code and dataset are available at https://github.com/Danielgol/HME-VAS
翻訳日:2023-08-14 15:41:43 公開日:2023-08-10
# 多段クロススケール注意による視覚バックボーン強化

Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention ( http://arxiv.org/abs/2308.05872v1 )

ライセンス: Link先を確認
Liang Shang, Yanli Liu, Zhengyang Lou, Shuxue Quan, Nagesh Adluru, Bochen Guan, William A. Sethares(参考訳) 畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマー(vits)は、様々な視覚タスクで顕著な成功を収めている。 しかし、多くのアーキテクチャは異なるステージとスケールのフィーチャマップ間の相互作用を考慮せず、パフォーマンスを制限している。 本研究では,マルチステージおよびクロススケールインタラクションによってこれらの制限を克服する,シンプルなアドオンアテンションモジュールを提案する。 具体的には,マルチステージ・クロススケール・アテンション(Big-Stage Cross-Scale Attention,\meth)モジュールは,多段階インタラクションを実現するために,異なる段階からの特徴マップを取り込み,多段階特徴マップに基づいて,異なるスケールでの自己アテンションを計算することで,クロススケールインタラクションを実現する。 いくつかのダウンストリームタスクに関する実験では,<meth~>がFLOPとランタイムを加味して大幅なパフォーマンス向上を実現している。

Convolutional neural networks (CNNs) and vision transformers (ViTs) have achieved remarkable success in various vision tasks. However, many architectures do not consider interactions between feature maps from different stages and scales, which may limit their performance. In this work, we propose a simple add-on attention module to overcome these limitations via multi-stage and cross-scale interactions. Specifically, the proposed Multi-Stage Cross-Scale Attention (\meth) module takes feature maps from different stages to enable multi-stage interactions and achieves cross-scale interactions by computing self-attention at different scales based on the multi-stage feature maps. Our experiments on several downstream tasks show that \meth~provides a significant performance boost with modest additional FLOPs and runtime.
翻訳日:2023-08-14 15:36:20 公開日:2023-08-10
# 損失双焦点プローブを用いたグローバル最適干渉法

Globally optimal interferometry with lossy twin Fock probes ( http://arxiv.org/abs/2308.05871v1 )

ライセンス: Link先を確認
T. J. Volkoff and Changhyun Ryu(参考訳) 2つのフォック入力状態でプローブされたマッハツェンダー(mz)干渉計のパリティまたは$j_{z}^{2}$読み出しは、固定された総粒子数で全ての製品状態間で達成可能な最適感度を飽和させることができるが、干渉計位相$\theta$がゼロに近い場合のみである。 より一般的なディック状態プローブを使用すると、パリティ読み出しはQFIを$\theta=0$で飽和させ、一方、$J_{z}^{2}$読み出しの性能は$o(\sqrt{N})$占有不均衡に制限される。 2つの二次スピンオブザーバ$J_{z}^{2}$と$J_{z}^{2}+J_{-}^{2}$のモーメントの読み出し方法がディック状態プローブに対して大域的に最適であること、すなわち、誤差がすべての$\theta$に対してQFIを飽和させることを示す。 損失のある設定では、双対フォック状態に対する粒子損失の影響を記述する時間的不均一なマルコフ過程が導出され、2つ以上の粒子が失われたとき、最大四次スピン観測可能な4つのモーメントの読み出し方法が、世界中で$\theta$の最適推定に十分であることが示されている。 この分析は、四モード状態 $\vert {N\over 4},{N\over 4},{N\over 4}\rangle$,{N\over 4}\rangle$ の分散MZインターフェロメトリに対する QFI 行列の数値計算において決定され、局所的なMZ 相の線型関数 $\theta_{1}$, $\theta_{2}$ (MZ 相の独立なプロブリングを $\vert{N\over 4},{N\over 4}\rangle$ の2コピーで比較すると、複数の粒子が失われたときに現れる。

Parity or $J_{z}^{2}$ readouts of a Mach-Zehnder (MZ) interferometer probed with a twin Fock input state allow to saturate the optimal sensitivity attainable among all product states with a fixed total number of particles, but only when the interferometer phase $\theta$ is near zero. When more general Dicke state probes are used, the parity readout saturates the QFI at $\theta=0$, whereas better-than-standard quantum limit performance of the $J_{z}^{2}$ readout is restricted to an $o(\sqrt{N})$ occupation imbalance. We show that a method of moments readout of two quadratic spin observables $J_{z}^{2}$ and $J_{+}^{2}+J_{-}^{2}$ is globally optimal for Dicke state probes, i.e., the error saturates the QFI for all $\theta$. In the lossy setting, we derive the time-inhomogeneous Markov process describing the effect of particle loss on twin Fock states, showing that method of moments readout of four at-most-quadratic spin observables is sufficient for globally optimal estimation of $\theta$ when two or more particles are lost. The analysis culminates in a numerical calculation of the QFI matrix for distributed MZ interferometry on the four mode state $\vert {N\over 4},{N\over 4},{N\over 4},{N\over 4}\rangle$ and its lossy counterparts, showing that an advantage for estimation of any linear function of the local MZ phases $\theta_{1}$, $\theta_{2}$ (compared to independent probing of the MZ phases by two copies of $\vert{N\over 4},{N\over 4}\rangle$) appears when more than one particle is lost.
翻訳日:2023-08-14 15:36:02 公開日:2023-08-10
# UFed-GAN: 制約付き計算とラベルなしデータを備えたセキュアなフェデレーション学習フレームワーク

UFed-GAN: A Secure Federated Learning Framework with Constrained Computation and Unlabeled Data ( http://arxiv.org/abs/2308.05870v1 )

ライセンス: Link先を確認
Achintha Wijesinghe, Songyang Zhang, Siyu Qi, Zhi Ding(参考訳) クラウドベースの環境で低レイテンシなマルチメディアデータ分類とデータプライバシをデプロイするための幅広いアプリケーションと難易度を満たすため、フェデレートラーニング(FL)が重要な学習パラダイムとして浮上した。 本研究は,多くの無線通信アプリケーションにおいて,限られた計算能力とラベル付きデータしか持たない実例に対して,資源制約環境におけるFLパラダイムについて検討する。 具体的には,UFed-GAN: Unsupervised Federated Generative Adversarial Network の新たなフレームワークを提案する。 また,提案するUFed-GANの収束とプライバシも分析する。 実験により,プライバシを保ちながら,限られた計算資源とラベルなしデータに対処するUFed-GANの強い可能性を示す。

To satisfy the broad applications and insatiable hunger for deploying low latency multimedia data classification and data privacy in a cloud-based setting, federated learning (FL) has emerged as an important learning paradigm. For the practical cases involving limited computational power and only unlabeled data in many wireless communications applications, this work investigates FL paradigm in a resource-constrained and label-missing environment. Specifically, we propose a novel framework of UFed-GAN: Unsupervised Federated Generative Adversarial Network, which can capture user-side data distribution without local classification training. We also analyze the convergence and privacy of the proposed UFed-GAN. Our experimental results demonstrate the strong potential of UFed-GAN in addressing limited computational resources and unlabeled data while preserving privacy.
翻訳日:2023-08-14 15:35:12 公開日:2023-08-10
# 異種システムオンチップにおける共有メモリ保持型コンカレントDNN実行

Shared Memory-contention-aware Concurrent DNN Execution for Diversely Heterogeneous System-on-Chips ( http://arxiv.org/abs/2308.05869v1 )

ライセンス: Link先を確認
Ismet Dagli, Mehmet Belviranli(参考訳) 最先端のモバイルと自律システムの2つの特徴 1) 主にディープニューラルネットワーク(DNN)推論で、同時かつ継続的に実行される複数のワークロードがある。 2)特定の操作用に調整されたヘテロジニアスアクセラレータを組み込んだ共有メモリシステムオンチップ(soc)で動作する。 システムスループットの最大化やエンドツーエンドのワークロード遅延の最小化に必要な、効率的なパフォーマンスとリソース管理技術が欠如している。 本研究では,DNN推論処理の並列実行において,レイヤを特徴付け,マッピングする新しいスキームであるHaX-CoNNを提案する。 提案方式は, 層間実行特性, 共有メモリ(SM)競合, アクセラレータ間遷移を考慮に入れ, 最適スケジュールを求める。 NVIDIA Orin,NVIDIA Xavier,Qualcomm Snapdragon 865 SoCs上でHaX-CoNNを評価した。 実験結果から,HX-CoNNはメモリ競合を最大45%低減し,最新手法と比較して,レイテンシとスループットを最大32%,スループットを最大29%向上できることがわかった。

Two distinguishing features of state-of-the-art mobile and autonomous systems are 1) there are often multiple workloads, mainly deep neural network (DNN) inference, running concurrently and continuously; and 2) they operate on shared memory system-on-chips (SoC) that embed heterogeneous accelerators tailored for specific operations. State-of-the-art lacks efficient performance and resource management techniques necessary to either maximize total system throughput or minimize end-to-end workload latency. In this work, we propose HaX-CoNN, a novel scheme that characterizes and maps layers in concurrently executing DNN inference workloads to a diverse set of accelerators within a SoC. Our scheme uniquely takes per-layer execution characteristics, shared memory (SM) contention, and inter-accelerator transitions into account to find optimal schedules. We evaluate HaX-CoNN on NVIDIA Orin, NVIDIA Xavier, and Qualcomm Snapdragon 865 SoCs. Our experimental results indicate that HaX-CoNN minimizes memory contention by up to 45% and can improve latency and total throughput by up to 32% and 29%, respectively, compared to the state-of-the-art approaches.
翻訳日:2023-08-14 15:34:57 公開日:2023-08-10
# 量子非マルコフ性蒸留

Distillation of quantum non-Markovianity ( http://arxiv.org/abs/2308.05867v1 )

ライセンス: Link先を確認
Thiago Melo D. Azevedo, Cristhiano Duarte, Nadja K. Bernardes(参考訳) 開量子系ダイナミクスの非マルコフ性は物理的に関連する性質であり、通常は(量子)情報のバックフローと関連付けられる。 このパラダイムマーカーを用いて,量子ビットダイナミクスの非マルコビアン性が多数のチャネルのコピーが使用されている場合にどのように蒸留できるかを調べるための操作フレームワークを開発した。

Non-Markovianty of open quantum systems dynamics is a physically relevant property which is usually associated with the backflow of (quantum) information. Using this paradigmatic marker, we develop an operational framework to investigate how non-Markovianity for qubit dynamics can be distilled when many copies of the channels are used, possibly allowing for a stronger effect on the backflow of information.
翻訳日:2023-08-14 15:34:38 公開日:2023-08-10
# Twitterのデータを使ってハリケーンカテゴリーを決定する実験

Using Twitter Data to Determine Hurricane Category: An Experiment ( http://arxiv.org/abs/2308.05866v1 )

ライセンス: Link先を確認
Songhui Yue, Jyothsna Kondari, Aibek Musaev, Randy K. Smith, Songqing Yue(参考訳) ソーシャルメディアの投稿には、主要な出来事、特にハリケーンのような自然災害に関する世論に関する豊富な情報が含まれている。 イベントに関連する投稿は通常、イベントの時刻にイベントの場所の近くに住んでいるユーザによって発行される。 ソーシャルメディアデータとイベントの特別な相関は、データマイニング手法を用いて得ることができる。 本稿では,災害の重大度レベルとソーシャルメディアデータとの対応関係について検討する。 具体的には,ハリケーン「ハーヴェイ」と「イルマ」の間に投稿されたtwitterデータを調査し,その地域の特定の地域におけるtwitterデータとハリケーンレベルの相関関係について検討した。 実験の結果,両者は正の相関関係を示した。 また,関連するTwitterデータを用いて,特定地域のハリケーンカテゴリーを予測する手法を提案する。

Social media posts contain an abundant amount of information about public opinion on major events, especially natural disasters such as hurricanes. Posts related to an event, are usually published by the users who live near the place of the event at the time of the event. Special correlation between the social media data and the events can be obtained using data mining approaches. This paper presents research work to find the mappings between social media data and the severity level of a disaster. Specifically, we have investigated the Twitter data posted during hurricanes Harvey and Irma, and attempted to find the correlation between the Twitter data of a specific area and the hurricane level in that area. Our experimental results indicate a positive correlation between them. We also present a method to predict the hurricane category for a specific area using relevant Twitter data.
翻訳日:2023-08-14 15:34:30 公開日:2023-08-10
# AESEを用いたレーザー非接触イオンエンタングルゲート:スピンモーションエンタングルメントの断熱的除去

Laser-free trapped ion entangling gates with AESE: Adiabatic Elimination of Spin-motion Entanglement ( http://arxiv.org/abs/2308.05865v1 )

ライセンス: Link先を確認
R. Tyler Sutherland and M. Foss-Feig(参考訳) 本稿では, レーザーフリー2量子位相ゲートによる2つのイオン間の高忠実な絡み合いの生成について論じる。 このスキームは、ゲートのデチューニングに対して、スピン依存力のオン・オフを緩やかに促進することで動作し、スピン運動の絡み合い(aese)を断定的に排除する。 AESEで実行されるゲートは、制御フィールドの変形を特に調整することなく、複数のモードでスピンモーションの絡み合いを同時に解消できることを示す。 これは、最適化された制御シーケンスを設計するのではなく、一定のパラメトリック限界で制御フィールドを操作することでスピン運動の絡み合いが抑制されるためである。 また,電子的または強磁性磁場勾配を用いた物理実装についても論じる。 後者では,磁場非感応状態からゲートモード周波数に比例して緩やかに磁界感応状態へシェルビングすることで,そのスピン依存力を円滑にオンにすることで,システム「AESE」を実現する方法を示す。 Rabi や adiabatic rapid passage transition でこれを行う方法を示す。 最後に, AESEを用いたゲーティングにより, 共通の運動脱コヒーレンス源に対するゲートの感度が著しく低下し, ドップラー温度での高忠実度ゲートの実行が容易になることを示す。

We discuss a laser-free, two-qubit geometric phase gate technique for generating high-fidelity entanglement between two trapped ions. The scheme works by ramping the spin-dependent force on and off slowly relative to the gate detunings, which adiabatically eliminates the spin-motion entanglement (AESE). We show how gates performed with AESE can eliminate spin-motion entanglement with multiple modes simultaneously, without having to specifically tune the control field detunings. This is because the spin-motion entanglement is suppressed by operating the control fields in a certain parametric limit, rather than by engineering an optimized control sequence. We also discuss physical implementations that use either electronic or ferromagnetic magnetic field gradients. In the latter, we show how to ``AESE" the system by smoothly turning on the \textit{effective} spin-dependent force by shelving from a magnetic field insensitive state to a magnetic field sensitive state slowly relative to the gate mode frequencies. We show how to do this with a Rabi or adiabatic rapid passage transition. Finally, we show how gating with AESE significantly decreases the gate's sensitivity to common sources of motional decoherence, making it easier to perform high-fidelity gates at Doppler temperatures.
翻訳日:2023-08-14 15:34:18 公開日:2023-08-10
# マルチモダリティセルセグメンテーションチャレンジ:ユニバーサルソリューションに向けて

The Multi-modality Cell Segmentation Challenge: Towards Universal Solutions ( http://arxiv.org/abs/2308.05864v1 )

ライセンス: Link先を確認
Jun Ma, Ronald Xie, Shamini Ayyadhury, Cheng Ge, Anubha Gupta, Ritu Gupta, Song Gu, Yao Zhang, Gihun Lee, Joonkee Kim, Wei Lou, Haofeng Li, Eric Upschulte, Timo Dickscheid, Jos\'e Guilherme de Almeida, Yixin Wang, Lin Han, Xin Yang, Marco Labagnara, Sahand Jamal Rahi, Carly Kempster, Alice Pollitt, Leon Espinosa, T\^am Mignot, Jan Moritz Middeke, Jan-Niklas Eckardt, Wangkai Li, Zhaoyang Li, Xiaochen Cai, Bizhe Bai, Noah F. Greenwald, David Van Valen, Erin Weisbart, Beth A. Cimini, Zhuoshi Li, Chao Zuo, Oscar Br\"uck, Gary D. Bader, and Bo Wang(参考訳) 細胞セグメンテーションは顕微鏡画像における定量的単一細胞解析の重要なステップである。 既存の細胞セグメンテーション法は、しばしば特定のモダリティに合わせて調整されるか、または異なる実験環境でハイパーパラメータを指定するために手動で介入する必要がある。 本稿では,50以上の生物実験から得られた1500以上のラベル付き画像からなる多変量細胞分割ベンチマークを提案する。 トップの参加者は、トランスフォーマーベースのディープラーニングアルゴリズムを開発し、既存の手法を超えるだけでなく、画像プラットフォームや組織タイプにわたる多様な顕微鏡画像にも手動パラメータ調整なしで適用することができる。 このベンチマークと改良されたアルゴリズムは、顕微鏡イメージングにおけるより正確で多用途な細胞分析に有望な手段を提供する。

Cell segmentation is a critical step for quantitative single-cell analysis in microscopy images. Existing cell segmentation methods are often tailored to specific modalities or require manual interventions to specify hyperparameters in different experimental settings. Here, we present a multi-modality cell segmentation benchmark, comprising over 1500 labeled images derived from more than 50 diverse biological experiments. The top participants developed a Transformer-based deep-learning algorithm that not only exceeds existing methods, but can also be applied to diverse microscopy images across imaging platforms and tissue types without manual parameter adjustments. This benchmark and the improved algorithm offer promising avenues for more accurate and versatile cell analysis in microscopy imaging.
翻訳日:2023-08-14 15:33:50 公開日:2023-08-10
# pan-cancer abdominal organ quantificationにおけるラベルなしデータの強みの解明:flare22チャレンジ

Unleashing the Strengths of Unlabeled Data in Pan-cancer Abdominal Organ Quantification: the FLARE22 Challenge ( http://arxiv.org/abs/2308.05862v1 )

ライセンス: Link先を確認
Jun Ma, Yao Zhang, Song Gu, Cheng Ge, Shihao Ma, Adamo Young, Cheng Zhu, Kangkang Meng, Xin Yang, Ziyan Huang, Fan Zhang, Wentao Liu, YuanKe Pan, Shoujin Huang, Jiacheng Wang, Mingze Sun, Weixin Xu, Dengqiang Jia, Jae Won Choi, Nat\'alia Alves, Bram de Wilde, Gregor Koehler, Yajun Wu, Manuel Wiesenfarth, Qiongjie Zhu, Guoqiang Dong, Jian He, the FLARE Challenge Consortium, and Bo Wang(参考訳) 腹部疾患の診断と治療計画には定量的臓器評価が不可欠である。 人工知能(AI)はこのプロセスを自動化するための大きな可能性を示している。 しかし、既存のAIアルゴリズムの多くは、多くの専門家アノテーションに依存しており、現実世界の多国籍設定における精度と効率の包括的な評価が欠けている。 これらの制限を克服するために、私たちはFLARE 2022 Challengeを組織しました。これは、これまでで最大の腹部臓器分析チャレンジで、高速で低リソース、正確、アノテーション効率、一般化されたAIアルゴリズムをベンチマークします。 我々は,50以上の医療グループから大陸間および多国籍のデータセットを構築した。 我々は、50個のラベル付きスキャンと2000個のラベルなしスキャンを用いて、AIアルゴリズムのセットが90.0\%のDice similarity Coefficient(DSC)を達成したことを独立に検証した。 最も優れたアルゴリズムは、北米、ヨーロッパ、アジアのコホートにおいて89.5\%、90.9\%、88.3\%の中央値dscを達成し、外部検証セットを保持するように一般化した。 彼らはまた、従来の手動測定に労働集約的な重要な臓器生物学的特徴の自動抽出を可能にした。 これにより、ラベルのないデータを使用してパフォーマンスを高め、現代のAIモデルのアノテーション不足を軽減することが可能になる。

Quantitative organ assessment is an essential step in automated abdominal disease diagnosis and treatment planning. Artificial intelligence (AI) has shown great potential to automatize this process. However, most existing AI algorithms rely on many expert annotations and lack a comprehensive evaluation of accuracy and efficiency in real-world multinational settings. To overcome these limitations, we organized the FLARE 2022 Challenge, the largest abdominal organ analysis challenge to date, to benchmark fast, low-resource, accurate, annotation-efficient, and generalized AI algorithms. We constructed an intercontinental and multinational dataset from more than 50 medical groups, including Computed Tomography (CT) scans with different races, diseases, phases, and manufacturers. We independently validated that a set of AI algorithms achieved a median Dice Similarity Coefficient (DSC) of 90.0\% by using 50 labeled scans and 2000 unlabeled scans, which can significantly reduce annotation requirements. The best-performing algorithms successfully generalized to holdout external validation sets, achieving a median DSC of 89.5\%, 90.9\%, and 88.3\% on North American, European, and Asian cohorts, respectively. They also enabled automatic extraction of key organ biology features, which was labor-intensive with traditional manual measurements. This opens the potential to use unlabeled data to boost performance and alleviate annotation shortages for modern AI models.
翻訳日:2023-08-14 15:33:38 公開日:2023-08-10
# Posiform Planting: ベンチマークのためのQUBOインスタンスの生成

Posiform Planting: Generating QUBO Instances for Benchmarking ( http://arxiv.org/abs/2308.05859v1 )

ライセンス: Link先を確認
Georg Hahn, Elijah Pelofske, Hristo N. Djidjev(参考訳) 量子アニーリングと古典的アルゴリズムの両方をベンチマークして、量子非制約バイナリ最適化(QUBO)問題を最小化することに興味がある。 このような問題は一般にNPハードであり、ランダムに生成されたインスタンスの正確なミニマは見つけるのが難しく、典型的には未知であることを意味する。 bruteは小さなインスタンスを強制することは可能だが、量子アルゴリズムと古典アルゴリズムの両方にとって簡単すぎるので、そのようなインスタンスは一般的には面白くない。 本研究では,任意の大きさのランダムquboインスタンスを既知の最適解で生成し,異なる相互接続構造(chimera,pegasus,zephyrハードウェアグラフ)とシミュレーションアニーリングアルゴリズムを用いて4つのd波量子アニーラのサンプリング品質をベンチマークする手法であるposiform plantingを提案する。 ポシフォーム植え付けは、既存の方法と2つの重要な方法で異なる。 植付された最適解の特異性を保証し、したがって基底状態の縮退を回避し、接続性があまり疎かでないことを前提として、所定のハードウェア接続構造に適合したQUBOの生成を可能にする。 posiform planted qubo's は 2-sat boolean satisfiability combinatorial optimization problem の一種である。 実験では,最大5,627ドルキュービットの組合せ最適化問題の最適植込み解をサンプリングするD-Wave量子アニールの能力を実証した。

We are interested in benchmarking both quantum annealing and classical algorithms for minimizing Quadratic Unconstrained Binary Optimization (QUBO) problems. Such problems are NP-hard in general, implying that the exact minima of randomly generated instances are hard to find and thus typically unknown. While brute forcing smaller instances is possible, such instances are typically not interesting as being too easy for both quantum and classical algorithms. In this contribution, we propose a novel method, called posiform planting, for generating random QUBO instances of arbitrary size with known optimal solutions, and use those instances to benchmark the sampling quality of four D-Wave quantum annealers utilizing different interconnection structures (Chimera, Pegasus, and Zephyr hardware graphs) as well as the simulated annealing algorithm. Posiform planting differs from existing methods in two key ways. It ensures the uniqueness of the planted optimal solution, thus avoiding groundstate degeneracy, and it enables the generation of QUBOs that are tailored to a given hardware connectivity structure, provided that the connectivity is not too sparse. Posiform planted QUBO's are a type of 2-SAT boolean satisfiability combinatorial optimization problems. Our experiments demonstrate the capability of the D-Wave quantum annealers to sample the optimal planted solution of combinatorial optimization problems with up to $5627$ qubits.
翻訳日:2023-08-14 15:33:11 公開日:2023-08-10
# GPLaSDI:Deep Autoencoderによるガウス過程に基づく解釈可能な遅延空間ダイナミクスの同定

GPLaSDI: Gaussian Process-based Interpretable Latent Space Dynamics Identification through Deep Autoencoder ( http://arxiv.org/abs/2308.05882v1 )

ライセンス: Link先を確認
Christophe Bonneville, Youngsoo Choi, Debojyoti Ghosh, Jonathan L. Belof(参考訳) 偏微分方程式(PDE)の数値解法は困難であり、計算コストも高い。 これにより、完全順序モデル(foms)よりも正確だが高速である縮小順序モデル(rom)の開発につながった。 近年、機械学習の進歩により、LaSDI(Latent Space Dynamics Identification)のような非線形射影法が作成できるようになった。 LaSDIはオートエンコーダを用いて全階PDEソリューションを潜在空間にマッピングし、潜在空間力学を管理するODEのシステムを学ぶ。 縮小潜時空間におけるODEシステムの補間と解法により、予測潜時空間力学をデコーダに供給することにより、高速かつ正確なROM予測を行うことができる。 本稿では,遅延空間ODE補間のためのガウス過程(GP)に依存する新しいLaSDIベースのフレームワークであるGPLaSDIを紹介する。 GPを使うことには2つの大きな利点がある。 まず、rom予測に対する不確実性の定量化を可能にする。 第二に、この予測の不確実性を活用することで、追加のトレーニングデータポイントの厳選による効率的な適応トレーニングが可能になる。 このアプローチは、基礎となるPDEの事前知識を必要としない。 したがって、GPLaSDI は本質的に非侵入的であり、既知の PDE やその残余のない問題に適用することができる。 本稿では,バーガース方程式,プラズマ物理学におけるブラソフ方程式,熱バブル問題に対する我々のアプローチの有効性を示す。 提案手法は最大7%の誤差で200倍から10万倍の高速化を実現する。

Numerically solving partial differential equations (PDEs) can be challenging and computationally expensive. This has led to the development of reduced-order models (ROMs) that are accurate but faster than full order models (FOMs). Recently, machine learning advances have enabled the creation of non-linear projection methods, such as Latent Space Dynamics Identification (LaSDI). LaSDI maps full-order PDE solutions to a latent space using autoencoders and learns the system of ODEs governing the latent space dynamics. By interpolating and solving the ODE system in the reduced latent space, fast and accurate ROM predictions can be made by feeding the predicted latent space dynamics into the decoder. In this paper, we introduce GPLaSDI, a novel LaSDI-based framework that relies on Gaussian process (GP) for latent space ODE interpolations. Using GPs offers two significant advantages. First, it enables the quantification of uncertainty over the ROM predictions. Second, leveraging this prediction uncertainty allows for efficient adaptive training through a greedy selection of additional training data points. This approach does not require prior knowledge of the underlying PDEs. Consequently, GPLaSDI is inherently non-intrusive and can be applied to problems without a known PDE or its residual. We demonstrate the effectiveness of our approach on the Burgers equation, Vlasov equation for plasma physics, and a rising thermal bubble problem. Our proposed method achieves between 200 and 100,000 times speed-up, with up to 7% relative error.
翻訳日:2023-08-14 15:23:31 公開日:2023-08-10
# 深層学習モデルを用いた野生アブラムシのクラスター認識と検出

Aphid Cluster Recognition and Detection in the Wild Using Deep Learning Models ( http://arxiv.org/abs/2308.05881v1 )

ライセンス: Link先を確認
Tianxiao Zhang, Kaidong Li, Xiangyu Chen, Cuncong Zhong, Bo Luo, Ivan Grijalva, Brian McCornack, Daniel Flippo, Ajay Sharda, Guanghui Wang(参考訳) アフィドの寄生は作物生産、農村社会、世界の食料安全保障に重大な脅威をもたらす。 化学害虫防除は収量の最大化に不可欠であるが、化学薬品の適用は環境上持続不可能かつ費用がかかる。 したがって、アブラムシの正確な局在と管理は、標的殺虫剤の用途に必須である。 本論文は主に,アフィドクラスタ検出のためのディープラーニングモデルの利用に焦点を当てている。 本稿では,アブラムシクラスタの検出による感染レベル推定法を提案する。 この研究を容易にするために,sorghumフィールドから大規模データセットをキャプチャし,アブラムシを含む5,447枚の画像を手作業で選択し,それぞれのアブラムシクラスタにアノテートした。 機械学習モデルの使用を容易にするために、イメージをパッチに絞り込んでさらに処理し、151,380の画像パッチからなるラベル付きデータセットを作成する。 次に,aphidデータセット上での4つの最先端オブジェクト検出モデル(vfnet,gflv2,paa,atss)の性能を実装し比較した。 実験結果から,全てのモデルが平均精度とリコールの点で安定に類似した性能が得られることが示された。 次に,近接するクラスタをマージし,クロッピングによる小さなクラスタを除去し,さらに性能を17%向上させる手法を提案する。 本研究は,機械学習モデルを用いた昆虫の自動検出と管理の実現可能性を示す。 ラベル付きデータセットは、研究コミュニティが公開する予定である。

Aphid infestation poses a significant threat to crop production, rural communities, and global food security. While chemical pest control is crucial for maximizing yields, applying chemicals across entire fields is both environmentally unsustainable and costly. Hence, precise localization and management of aphids are essential for targeted pesticide application. The paper primarily focuses on using deep learning models for detecting aphid clusters. We propose a novel approach for estimating infection levels by detecting aphid clusters. To facilitate this research, we have captured a large-scale dataset from sorghum fields, manually selected 5,447 images containing aphids, and annotated each individual aphid cluster within these images. To facilitate the use of machine learning models, we further process the images by cropping them into patches, resulting in a labeled dataset comprising 151,380 image patches. Then, we implemented and compared the performance of four state-of-the-art object detection models (VFNet, GFLV2, PAA, and ATSS) on the aphid dataset. Extensive experimental results show that all models yield stable similar performance in terms of average precision and recall. We then propose to merge close neighboring clusters and remove tiny clusters caused by cropping, and the performance is further boosted by around 17%. The study demonstrates the feasibility of automatically detecting and managing insects using machine learning models. The labeled dataset will be made openly available to the research community.
翻訳日:2023-08-14 15:23:06 公開日:2023-08-10
# 散逸流体に対するnavier-stokes-schr\"odinger方程式

Navier-Stokes-Schr\"odinger equation for dissipative fluids ( http://arxiv.org/abs/2308.05879v1 )

ライセンス: Link先を確認
S. Succi, A. Tiribocchi(参考訳) 複素拡散を伴うschr\"odinger方程式と複素ポテンシャルとnavier-stokes方程式の間の写像を示す。 マデルング変換の一般化に続いて、上記の寄与の包含は散逸非圧縮ナビエ-ストークス流体の連続性と運動量方程式をもたらすことを示した。 力学はユニタリ性(英語版)(ユニタリ性)を保ち、非虚ポテンシャルを考えると失われる。 本モデルは、古典散逸流体に対する量子アルゴリズムの定式化を促進することができる。 特に、この種の量子波動方程式は近年、ポラリトン系とカルダル・パリ・チャン方程式(KPZ)の類似性の開発に使われているため、このモデルは量子コンピュータのポラリトンに基づく実現の興味深い可能性を開くことができる。

We present a mapping between a Schr\"odinger equation with a complex diffusion along with a complex potential and the Navier-Stokes equation. Following a generalization of the Madelung transformations, we show that the inclusion of above contributions leads to continuity and momentum equations for a dissipative incompressible Navier-Stokes fluid. The dynamics is found to preserve unitarity, a condition that is lost if non-imaginary potentials are considered. The present model may facilitate the formulation of quantum algorithms for classical dissipative fluids. In particular, since quantum wave equations of this sort have recently been used to develop analogies between polariton systems and the Kardar-Parisi-Zhang (KPZ) equation, the present model may open up intriguing prospects for polariton-based realizations of quantum computers.
翻訳日:2023-08-14 15:22:40 公開日:2023-08-10
# マルチデータセットストリームにおける多様性近似のための合成可能なコアセット

Composable Core-sets for Diversity Approximation on Multi-Dataset Streams ( http://arxiv.org/abs/2308.05878v1 )

ライセンス: Link先を確認
Stephanie Wang, Michael Flynn, and Fangyu Luo(参考訳) コアセットは、一般的に多様性やグループ要件である関数を最大化するデータのサブセットを指す。 これらのサブセットは元のデータの代わりに使われ、バイアスが取り除かれた場合、与えられたタスクを同等またはさらにパフォーマンスを向上する。 構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得ることができる。 近年,機械学習モデルのトレーニングにおけるコアセットの利用が注目されている。 CRAIGのような先行解は、トレーニング時間を短縮しながら勾配降下を近似することが証明されている。 本稿では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。 craig や heuristics といった技術と組み合わせて建設速度を向上させると、センサーデータが大きい場合にモデルのリアルタイムトレーニングにコンポーザブルなコアセットが使用できる。 このようなブルートフォースアルゴリズムの実行時の外挿データを考慮し、実証分析を行う。 このアルゴリズムは、平均的な経験的回帰を通じて効率よく解析され、そのトピックに関するさらなる研究のために重要な結果と改善が提案される。

Core-sets refer to subsets of data that maximize some function that is commonly a diversity or group requirement. These subsets are used in place of the original data to accomplish a given task with comparable or even enhanced performance if biases are removed. Composable core-sets are core-sets with the property that subsets of the core set can be unioned together to obtain an approximation for the original data; lending themselves to be used for streamed or distributed data. Recent work has focused on the use of core-sets for training machine learning models. Preceding solutions such as CRAIG have been proven to approximate gradient descent while providing a reduced training time. In this paper, we introduce a core-set construction algorithm for constructing composable core-sets to summarize streamed data for use in active learning environments. If combined with techniques such as CRAIG and heuristics to enhance construction speed, composable core-sets could be used for real time training of models when the amount of sensor data is large. We provide empirical analysis by considering extrapolated data for the runtime of such a brute force algorithm. This algorithm is then analyzed for efficiency through averaged empirical regression and key results and improvements are suggested for further research on the topic.
翻訳日:2023-08-14 15:22:24 公開日:2023-08-10
# 臨床におけるN-CNNの再検討

Revisiting N-CNN for Clinical Practice ( http://arxiv.org/abs/2308.05877v1 )

ライセンス: Link先を確認
Leonardo Antunes Ferreira, Lucas Pereira Carlini, Gabriel de Almeida S\'a Coutrin, Tatiany Marcondes Heideirich, Marina Carvalho de Moraes Barros, Ruth Guinsburg and Carlos Eduardo Thomaz(参考訳) 本稿では,新生児畳み込みニューラルネット(n-cnn)のハイパーパラメータを最適化し,その分類基準,説明可能性,信頼性にどのように影響するかを評価し,臨床効果について考察する。 我々は,元のN-CNNアーキテクチャを変更せずに,学習率や正規化の訓練を行うハイパーパラメータを選択した。 最適化は、各ハイパーパラメータに対するf1スコアの改善を個別に評価し、最適なハイパーパラメータを選択してチューニングしたn-cnnを作成した。 また,新生児顔面コーディングシステムに基づくソフトラベルを適用し,新生児の痛み評価のための表情分類モデルの訓練手法を提案する。 興味深いことに、Tuned N-CNNの結果は分類基準と説明可能性の改善に向けられているが、これらの改善はキャリブレーション性能に直接変換されなかった。 このような洞察は、新生児のより信頼性の高い痛み評価ツールの開発に寄与する可能性があり、医療専門家が適切な介入を行い、患者の成果を改善するのに役立つと信じています。

This paper revisits the Neonatal Convolutional Neural Network (N-CNN) by optimizing its hyperparameters and evaluating how they affect its classification metrics, explainability and reliability, discussing their potential impact in clinical practice. We have chosen hyperparameters that do not modify the original N-CNN architecture, but mainly modify its learning rate and training regularization. The optimization was done by evaluating the improvement in F1 Score for each hyperparameter individually, and the best hyperparameters were chosen to create a Tuned N-CNN. We also applied soft labels derived from the Neonatal Facial Coding System, proposing a novel approach for training facial expression classification models for neonatal pain assessment. Interestingly, while the Tuned N-CNN results point towards improvements in classification metrics and explainability, these improvements did not directly translate to calibration performance. We believe that such insights might have the potential to contribute to the development of more reliable pain evaluation tools for newborns, aiding healthcare professionals in delivering appropriate interventions and improving patient outcomes.
翻訳日:2023-08-14 15:22:03 公開日:2023-08-10
# InfoNCEは認識パラメータ化モデルにおける変分推論である

InfoNCE is variational inference in a recognition parameterised model ( http://arxiv.org/abs/2107.02495v3 )

ライセンス: Link先を確認
Laurence Aitchison and Stoil Ganev(参考訳) 本稿では,新しい確率的生成モデルである認識パラメータ化モデル(RPM)において,InfoNCEの目的がELBOと等価であることを示す。 最適な事前学習を行うと、RPM ELBOは相互情報(MI; 定数まで)と等しくなり、InfoNCEのような既存の自己教師付き学習手法との接続を確立する。 しかし、実際的なInfoNCE法はMIを目的とせず、MIは任意の可逆変換に不変であるため、MIの目的は高度に絡み合った表現につながる(Tschannen et al., 2019)。 代わりに、実際のInfoNCE の目的は、無限サンプル極限においてもゆるい MI 上の単純化された下界である。 したがって、機能する対象(すなわち実際の情報対象)は、機能しない目的(すなわち任意に絡み合った表現を与える真のmi)に対するゆるい境界として動機づけられているように見える。 実際のInfoNCEの目的に対して、別の動機を与えます。 特に、無限サンプル極限において、そして事前の特定の選択において、実際のインフォデンスの目的は(定数まで)エルボに等しく、エルボは決定論的認識モデルを持つ限界確率に等しくなることを示す。 したがって、我々のVAEパースペクティブは、実際のInfoNCEの目的が MI によってゆるやかに束縛されているだけでなく、ELBO/marginal chance(定数まで)に等しいため、MI よりもInfoNCE のモチベーションが良いと論じる。

Here, we show that the InfoNCE objective is equivalent to the ELBO in a new class of probabilistic generative model, the recognition parameterised model (RPM). When we learn the optimal prior, the RPM ELBO becomes equal to the mutual information (MI; up to a constant), establishing a connection to pre-existing self-supervised learning methods such as InfoNCE. However, practical InfoNCE methods do not use the MI as an objective; the MI is invariant to arbitrary invertible transformations, so using an MI objective can lead to highly entangled representations (Tschannen et al., 2019). Instead, the actual InfoNCE objective is a simplified lower bound on the MI which is loose even in the infinite sample limit. Thus, an objective that works (i.e. the actual InfoNCE objective) appears to be motivated as a loose bound on an objective that does not work (i.e. the true MI which gives arbitrarily entangled representations). We give an alternative motivation for the actual InfoNCE objective. In particular, we show that in the infinite sample limit, and for a particular choice of prior, the actual InfoNCE objective is equal to the ELBO (up to a constant); and the ELBO is equal to the marginal likelihood with a deterministic recognition model. Thus, we argue that our VAE perspective gives a better motivation for InfoNCE than MI, as the actual InfoNCE objective is only loosely bounded by the MI, but is equal to the ELBO/marginal likelihood (up to a constant).
翻訳日:2023-08-11 17:02:32 公開日:2023-08-10
# 分類量子プロトコルのための図式計算

A diagrammatic calculus for categorical quantum protocols ( http://arxiv.org/abs/2206.03294v2 )

ライセンス: Link先を確認
Dusan Dordevic, Zoran Petric, Mladen Zekic(参考訳) 我々は、ある量子プロトコルのクラスの有効性をチェックするのに十分な構造を持つカテゴリの明示的な実現を提案する。 この圏は1次元コボルディズムの圏に基づいている。 コヒーレンスの結果、全ての望ましい条件を満たすことが証明される。

We propose an explicit realisation of a category with enough structure to check validity of certain class of quantum protocols. This category is based on the category of 1-dimensional cobordisms. A coherence result proves that it fulfils all desired conditions.
翻訳日:2023-08-11 16:57:41 公開日:2023-08-10
# スパースマルチタスク回帰の選択的推論とニューロイメージングへの応用

Selective Inference for Sparse Multitask Regression with Applications in Neuroimaging ( http://arxiv.org/abs/2205.14220v4 )

ライセンス: Link先を確認
Snigdha Panigrahi, Natasha Stewart, Chandra Sekhar Sripada, Elizaveta Levina(参考訳) マルチタスク学習は、同じ特徴セットから関連する応答変数のセットをモデル化し、各応答変数を個別に扱う方法と比較して予測性能とモデリング精度を向上させるために頻繁に使用される。 マルチタスク学習がシングルタスクの代替よりも強力な推論をもたらす可能性にもかかわらず、この分野の先行研究は不確実性定量化をほとんど省略している。 本論文は神経イメージングにおける一般的なマルチタスク問題であり,脳コネクトームデータと複数の認知タスクスコア(または他の被験者レベルの評価)の関係を理解することを目的としている。 我々は,この問題に対処するための選択的推論のためのフレームワークを提案する。 (i)スパーシティ誘導ペナルティを通じて、各タスクに関連するコヴァリエートを共同で特定すること。 (ii)推定スパーシティ構造に基づくモデルにおいて有効な推論を行う。 提案手法は,選択可能確率を導出する選択イベントの精細化に基づく,推論のための新しい条件付き手続きを提供する。 これにより、単一の凸最適化問題によって解ける最大極大推定方程式を近似的に推定し、ほぼ正しいカバレッジで信頼区間を効率的に形成することができる。 思春期脳認知発達(abcd)研究のシミュレーションデータとデータの両方に適用し,選択的推論手法は,データ分割などの一般的な代替手段よりも信頼区間の厳密さをもたらす。 また,選択推論によるマルチタスク学習により,単一タスク法よりも真の信号をより正確に復元できることを示す。

Multi-task learning is frequently used to model a set of related response variables from the same set of features, improving predictive performance and modeling accuracy relative to methods that handle each response variable separately. Despite the potential of multi-task learning to yield more powerful inference than single-task alternatives, prior work in this area has largely omitted uncertainty quantification. Our focus in this paper is a common multi-task problem in neuroimaging, where the goal is to understand the relationship between multiple cognitive task scores (or other subject-level assessments) and brain connectome data collected from imaging. We propose a framework for selective inference to address this problem, with the flexibility to: (i) jointly identify the relevant covariates for each task through a sparsity-inducing penalty, and (ii) conduct valid inference in a model based on the estimated sparsity structure. Our framework offers a new conditional procedure for inference, based on a refinement of the selection event that yields a tractable selection-adjusted likelihood. This gives an approximate system of estimating equations for maximum likelihood inference, solvable via a single convex optimization problem, and enables us to efficiently form confidence intervals with approximately the correct coverage. Applied to both simulated data and data from the Adolescent Brain Cognitive Development (ABCD) study, our selective inference methods yield tighter confidence intervals than commonly used alternatives, such as data splitting. We also demonstrate through simulations that multi-task learning with selective inference can more accurately recover true signals than single-task methods.
翻訳日:2023-08-11 16:57:39 公開日:2023-08-10
# CPU/GPUアーキテクチャ上での分散メモリ外NMF

Distributed Out-of-Memory NMF on CPU/GPU Architectures ( http://arxiv.org/abs/2202.09518v3 )

ライセンス: Link先を確認
Ismael Boureima, Manish Bhattarai, Maksim Eren, Erik Skau, Philip Romero, Stephan Eidenbenz, Boian Alexandrov(参考訳) ヘテロジニアスハイパフォーマンス計算(HPC)システムのための非負行列分解(NMF)アルゴリズムのメモリ外分散実装を提案する。 提案手法は,データから潜在変数やパターンを自動的に抽出し,モデル選択を行うnmfkの先行研究に基づいている。 本研究では,マルチノード,マルチGPUシステム上での高密度かつスパースな行列演算のサポートを追加することでNMFkを拡張する。 得られたアルゴリズムは、与えられた行列を分解するために必要なメモリが利用可能なGPUメモリよりも大きいメモリ外問題(OOM)に最適化される。 メモリの複雑さはバッチ/チルティング戦略によって減少し、スパースと密度の高い行列演算はGPUコア(あるいは利用可能なテンソルコア)で大幅に加速される。 ホストとデバイス間のバッチコピーに関連する入出力(I/O)レイテンシをCUDAストリームを使用して隠蔽し、データ転送と非同期処理を行い、最適化されたNVIDIA Collective Communication Library NCCLベースのコミュニケータを使用して、集合通信(ノード内およびノード間の両方)に関連するレイテンシを低減する。 ベンチマークの結果、32Xから76倍のスピードアップ、CPUベースのNMFk上のGPUを使った新しい実装など、大幅な改善が見られた。 密度340テラバイトサイズの行列と密度10e-6の11エクサバイトサイズのスパース行列を分解する場合,4096個のマルチGPUクラスタノードに約25,000個のGPUを配置した。

We propose an efficient distributed out-of-memory implementation of the Non-negative Matrix Factorization (NMF) algorithm for heterogeneous high-performance-computing (HPC) systems. The proposed implementation is based on prior work on NMFk, which can perform automatic model selection and extract latent variables and patterns from data. In this work, we extend NMFk by adding support for dense and sparse matrix operation on multi-node, multi-GPU systems. The resulting algorithm is optimized for out-of-memory (OOM) problems where the memory required to factorize a given matrix is greater than the available GPU memory. Memory complexity is reduced by batching/tiling strategies, and sparse and dense matrix operations are significantly accelerated with GPU cores (or tensor cores when available). Input/Output (I/O) latency associated with batch copies between host and device is hidden using CUDA streams to overlap data transfers and compute asynchronously, and latency associated with collective communications (both intra-node and inter-node) is reduced using optimized NVIDIA Collective Communication Library NCCL based communicators. Benchmark results show significant improvement, from 32X to 76x speedup, with the new implementation using GPUs over the CPU-based NMFk. Good weak scaling was demonstrated on up to 4096 multi-GPU cluster nodes with approximately 25,000 GPUs when decomposing a dense 340 Terabyte-size matrix and an 11 Exabyte-size sparse matrix of density 10e-6.
翻訳日:2023-08-11 16:56:40 公開日:2023-08-10
# スピンチェーンは組合せ論と数論を関連付けることができるか?

Can a spin chain relate combinatorics to number theory? ( http://arxiv.org/abs/2202.07647v2 )

ライセンス: Link先を確認
Kun Hao, Olof Salberger, Vladimir Korepin(参考訳) モツキンスピンチェーン (motzkin spin chain) は、shor & movassaghが導入したスピン1ドルのフラストレーションフリーモデルである。 基底状態は正方形格子の上半分のランダムウォークをスピン配置にマッピングすることで構成される。 異常に大きな絡み合いエントロピー[量子揺らぎ]がある. モッツキン鎖の基底状態は、モッツキン経路によって解析的に説明できる。 励起状態の分析的な記述はない。 モデルは解決できない。 モツキン経路の局所同値移動の1つを取り除くことでモデルを簡単にする。 システムは[xxxスピンチェーンに似た]可積分になる. これを無料のMotzkin chainと呼ぶ。 量子可積分性の観点からは、その$R$-行列は交叉ユニタリ性を持たないため、このモデルは特別である。 関数Bethe Ansatz法を一般化することにより周期自由モツキン鎖を解く。 エネルギースペクトルを定式化するために、追加パラメータと$t-q$関係を構築する。 この新しいパラメータはユニタリの根に関係しており、数論における「ビウス函数」によって記述できる。 我々は数論のさらなるパターンを観察する。

The Motzkin spin chain is a spin-$1$ frustration-free model introduced by Shor & Movassagh. The ground state is constructed by mapping random walks on the upper half of the square lattice to spin configurations. It has unusually large entanglement entropy [quantum fluctuations]. The ground state of the Motzkin chain can be analytically described by the Motzkin paths. There is no analytical description of the excited states. The model is not solvable. We simplify the model by removing one of the local equivalence moves of the Motzkin paths. The system becomes integrable [similar to the XXX spin chain]. We call it free Motzkin chain. From the point of view of quantum integrability, the model is special since its $R$-matrix does not have crossing unitarity. We solve the periodic free Motzkin chain by generalizing the functional Bethe Ansatz method. We construct a $T-Q$ relation with an additional parameter to formulate the energy spectrum. This new parameter is related to the roots of unity and can be described by the M\"obius function in number theory. We observe further patterns of number theory.
翻訳日:2023-08-11 16:56:10 公開日:2023-08-10
# 自己教師付き表現学習のためのコンテキストオートエンコーダ

Context Autoencoder for Self-Supervised Representation Learning ( http://arxiv.org/abs/2202.03026v3 )

ライセンス: Link先を確認
Xiaokang Chen, Mingyu Ding, Xiaodi Wang, Ying Xin, Shentong Mo, Yunhao Wang, Shumin Han, Ping Luo, Gang Zeng, Jingdong Wang(参考訳) 自己教師型表現事前学習のための新しいマスク付き画像モデリング(MIM)手法であるコンテキストオートエンコーダ(CAE)を提案する。 符号化された表現空間で予測を行うことで、エンコーダを事前学習する。 事前トレーニングタスクには2つのタスクが含まれる。 マスクされた表現予測 - マスクされたパッチの表現を予測し、マスクされたパッチを再構築する。 エンコーダは、エンコーダ−レグレッサ−デコーダアーキテクチャであり、エンコーダは、可視パッチを入力として、レグレッサは、可視パッチの表現と可視パッチと可視パッチの位置を使用して、エンコーダから算出された表現と整合することが期待されるマスクパッチの表現を予測し、デコーダは、予測されたエンコーダ表現からマスクパッチを再構成する。 cae設計は、エンコーダ(表現)の学習を、関連するタスクの完了から分離することを奨励する: マスク表現予測とマスクパッチ再構成タスク、およびエンコーダ表現空間での予測を行うことは、実証的に表現学習の利点を示す。 下流タスクにおいて, セマンティックセグメンテーション, オブジェクト検出, インスタンスセグメンテーション, 分類において, 転送性能が優れていることによるCAEの有効性を示す。 コードはhttps://github.com/Atten4Vis/CAEで入手できる。

We present a novel masked image modeling (MIM) approach, context autoencoder (CAE), for self-supervised representation pretraining. We pretrain an encoder by making predictions in the encoded representation space. The pretraining tasks include two tasks: masked representation prediction - predict the representations for the masked patches, and masked patch reconstruction - reconstruct the masked patches. The network is an encoder-regressor-decoder architecture: the encoder takes the visible patches as input; the regressor predicts the representations of the masked patches, which are expected to be aligned with the representations computed from the encoder, using the representations of visible patches and the positions of visible and masked patches; the decoder reconstructs the masked patches from the predicted encoded representations. The CAE design encourages the separation of learning the encoder (representation) from completing the pertaining tasks: masked representation prediction and masked patch reconstruction tasks, and making predictions in the encoded representation space empirically shows the benefit to representation learning. We demonstrate the effectiveness of our CAE through superior transfer performance in downstream tasks: semantic segmentation, object detection and instance segmentation, and classification. The code will be available at https://github.com/Atten4Vis/CAE.
翻訳日:2023-08-11 16:55:56 公開日:2023-08-10
# ガンネル:水生動物セグメンテーションのための誘導混合増強と多視点融合

GUNNEL: Guided Mixup Augmentation and Multi-View Fusion for Aquatic Animal Segmentation ( http://arxiv.org/abs/2112.06193v3 )

ライセンス: Link先を確認
Minh-Quan Le and Trung-Nghia Le and Tam V. Nguyen and Isao Echizen and Minh-Triet Tran(参考訳) 近年,物体分割研究の進歩が注目されている。 一般的な対象に加え、水生動物は研究の注目を集めている。 深層学習に基づく手法は水生動物の分節に広く用いられ,有望な性能を達成している。 しかし、ベンチマークには難しいデータセットが不足している。 本研究では,水生動物種という新しいデータセットを構築した。 また, 複数のセグメンテーションモデルの利点を活かし, 水生動物を効果的にセグメンテーションし, 硬質試料を合成することによりトレーニング性能を向上させる, 水生動物セグメンテーション(gunnel)のための新しい誘導型ミックスアップ増補およびマルチモデル融合を考案した。 大規模な実験により,既存の最先端のインスタンスセグメンテーション手法よりも提案手法が優れていることが示された。 コードはhttps://github.com/lmquan2000/mask-mixupで入手できる。 データセットはhttps://doi.org/10.5281/zenodo.8208877で利用可能である。

Recent years have witnessed great advances in object segmentation research. In addition to generic objects, aquatic animals have attracted research attention. Deep learning-based methods are widely used for aquatic animal segmentation and have achieved promising performance. However, there is a lack of challenging datasets for benchmarking. In this work, we build a new dataset dubbed Aquatic Animal Species. We also devise a novel GUided mixup augmeNtatioN and multi-modEl fusion for aquatic animaL segmentation (GUNNEL) that leverages the advantages of multiple segmentation models to effectively segment aquatic animals and improves the training performance by synthesizing hard samples. Extensive experiments demonstrated the superiority of our proposed framework over existing state-of-the-art instance segmentation methods. The code is available at https://github.com/lmquan2000/mask-mixup. The dataset is available at https://doi.org/10.5281/zenodo.8208877 .
翻訳日:2023-08-11 16:55:27 公開日:2023-08-10
# VT-CLIP:視覚誘導テキストによる視覚言語モデルの実現

VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts ( http://arxiv.org/abs/2112.02399v3 )

ライセンス: Link先を確認
Longtian Qiu, Renrui Zhang, Ziyu Guo, Ziyao Zeng, Zilu Guo, Yafeng Li, Guangnan Zhang(参考訳) コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。 しかし、データセット内のセマンティックなギャップのため、CLIPの事前訓練されたイメージテキストアライメントは、下流タスクのサブ最適化となり、転送性能を著しく損なう。 クロスモーダルな埋め込み空間をよりよく適応するために,VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの拡張を提案する。 具体的には,画像上の情報領域を適応的に探索し,注意機構により視覚特徴を集約するために,異なるカテゴリのテキスト特徴をガイドする。 このようにして、テキストは視覚的に誘導され、より意味論的に下流の画像と相関し、カテゴリワイドマッチングのプロセスに大きく貢献する。 少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。

Contrastive Language-Image Pre-training (CLIP) has drawn increasing attention recently for its transferable visual representation learning. However, due to the semantic gap within datasets, CLIP's pre-trained image-text alignment becomes sub-optimal on downstream tasks, which severely harms its transferring performance. To better adapt the cross-modality embedding space, we propose to enhance CLIP via Visual-guided Texts, named VT-CLIP. Specifically, we guide textual features of different categories to adaptively explore informative regions on the image and aggregate visual features by attention mechanisms. In this way, the texts become visual-guided, namely, more semantically correlated with downstream images, which greatly benefits the category-wise matching process. In few-shot settings, we evaluate our VT-CLIP on 11 well-known classification datasets to demonstrate its effectiveness.
翻訳日:2023-08-11 16:55:08 公開日:2023-08-10
# intel labsのego4d challenge 2022 - オーディオとビジュアルのダイアリゼーションのためのベースラインの改善

Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization ( http://arxiv.org/abs/2210.07764v2 )

ライセンス: Link先を確認
Kyle Min(参考訳) 本稿では,Ego4D Challenge 2022におけるAVD(Audio-Visual Diarization)の取り組みについて述べる。 具体的には、公式のベースラインに対して複数の技術的改善を加えます。 まず,モデルの学習方式を変更することにより,カメラ装着者の音声活動の検出性能を向上させる。 第2に,カメラ装着者の音声活動にのみ適用した場合,オフザシェルフ音声活動検出モデルにより,偽陽性を効果的に除去できることを見出した。 最後に、よりアクティブな話者検出が、より優れたAVD結果をもたらすことを示す。 最終手法はEgo4Dのテストセットの65.9%のDERを取得し,全てのベースラインを著しく上回る結果となった。 Ego4D Challenge 2022で1位を獲得した。

This report describes our approach for the Audio-Visual Diarization (AVD) task of the Ego4D Challenge 2022. Specifically, we present multiple technical improvements over the official baselines. First, we improve the detection performance of the camera wearer's voice activity by modifying the training scheme of its model. Second, we discover that an off-the-shelf voice activity detection model can effectively remove false positives when it is applied solely to the camera wearer's voice activities. Lastly, we show that better active speaker detection leads to a better AVD outcome. Our final method obtains 65.9% DER on the test set of Ego4D, which significantly outperforms all the baselines. Our submission achieved 1st place in the Ego4D Challenge 2022.
翻訳日:2023-08-11 16:48:37 公開日:2023-08-10
# CNN逆行性摂動障害に対するシンメトリー防御

Symmetry Defense Against CNN Adversarial Perturbation Attacks ( http://arxiv.org/abs/2210.04087v3 )

ライセンス: Link先を確認
Blerta Lindqvist(参考訳) 本稿では,畳み込みニューラルネットワーク分類器(CNN)を対向摂動攻撃に対して頑健にするために対称性を用いる。 このような攻撃は、オリジナルの画像に摂動を加え、自動運転車の道路標識分類器のような不正な分類器を生成する。 対称性は自然界の広汎な側面であるが、CNNは対称性をうまく扱えない。 例えば、cnnは鏡像とは異なる画像を分類することができる。 間違ったラベル $l_w$ で誤分類された逆画像の場合、cnn は対称性を処理できないため、対称逆画像は間違ったラベル $l_w$ とは異なる分類が可能である。 さらに、対称逆画像の分類が正しいラベルに戻すことが判明した。 敵が防御に気づいていないときの画像を分類するために、画像に対称性を適用し、対称画像の分類ラベルを使用する。 敵が防御に気付くと画像を分類するために、ミラー対称性と画素反転対称性を用いて対称群を形成する。 画像にすべての群対称性を適用し、対称性画像の分類ラベルのいずれかの一致に基づいて出力ラベルを決定する。 適応攻撃は、対称画像に対して競合するCNN出力値を使用する損失関数に依存する必要があるため失敗する。 攻撃知識がなければ、提案された対称性の防御は、勾配ベースとランダム検索の両方の攻撃に対して成功し、ImageNetのほぼデフォルトの精度を持つ。 防御は元の画像の分類精度も向上させる。

This paper uses symmetry to make Convolutional Neural Network classifiers (CNNs) robust against adversarial perturbation attacks. Such attacks add perturbation to original images to generate adversarial images that fool classifiers such as road sign classifiers of autonomous vehicles. Although symmetry is a pervasive aspect of the natural world, CNNs are unable to handle symmetry well. For example, a CNN can classify an image differently from its mirror image. For an adversarial image that misclassifies with a wrong label $l_w$, CNN inability to handle symmetry means that a symmetric adversarial image can classify differently from the wrong label $l_w$. Further than that, we find that the classification of a symmetric adversarial image reverts to the correct label. To classify an image when adversaries are unaware of the defense, we apply symmetry to the image and use the classification label of the symmetric image. To classify an image when adversaries are aware of the defense, we use mirror symmetry and pixel inversion symmetry to form a symmetry group. We apply all the group symmetries to the image and decide on the output label based on the agreement of any two of the classification labels of the symmetry images. Adaptive attacks fail because they need to rely on loss functions that use conflicting CNN output values for symmetric images. Without attack knowledge, the proposed symmetry defense succeeds against both gradient-based and random-search attacks, with up to near-default accuracies for ImageNet. The defense even improves the classification accuracy of original images.
翻訳日:2023-08-11 16:48:27 公開日:2023-08-10
# 量子状態の分散merlin-arthur合成とその応用

Distributed Merlin-Arthur Synthesis of Quantum States and Its Applications ( http://arxiv.org/abs/2210.01389v2 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall, Masayuki Miyamoto, Harumichi Nishimura(参考訳) 量子状態の生成と検証は、最近イラン、ナタラジャン、ニヘ、ラオ、ユエン(CCC 2022)、ローゼンタール、ユエン(ITCS 2022)、メトガー、ユエン(FOCS 2023)によって研究された量子情報処理の基本的なタスクである。 本稿では,量子分散コンピューティング,特に分散量子Merlin-Arthur(dQMA)プロトコルの観点から,この概念を考察する。 まず,分散入力を用いた状態生成(SGDI)と呼ばれる新しいタスクを導入する。 このタスクでは、行の右端にある量子状態 $U\ket{\psi}$ を生成することを目標とし、$\ket{\psi}$ は左端のノードで与えられる量子状態であり、$U$ は行のノードに分布するユニタリ行列である。 我々は、SGDIのためのdQMAプロトコルを提供し、このプロトコルを利用して、Naor, Parter and Yogev (SODA 2020) が研究したセット平等問題のためのdQMAプロトコルを構築し、この問題に対する古典的な下位境界を示すことによってプロトコルを補完する。 第2のコントリビューションは、ZhuとHaashiによる最近の研究に基づくdQMAプロトコルであり(Physical Review A, 2019)、量子通信のないネットワークの隣接ノード間のEPRペアを作成する。 このdQMAプロトコルの適用例として、任意のネットワーク上の任意のdQMAプロトコルを、検証段階が量子通信を必要としない別のdQMAプロトコルに変換する方法を示す一般的な結果を示す。

The generation and verification of quantum states are fundamental tasks for quantum information processing that have recently been investigated by Irani, Natarajan, Nirkhe, Rao and Yuen [CCC 2022], Rosenthal and Yuen [ITCS 2022], Metger and Yuen [FOCS 2023] under the term \emph{state synthesis}. This paper studies this concept from the viewpoint of quantum distributed computing, and especially distributed quantum Merlin-Arthur (dQMA) protocols. We first introduce a novel task, on a line, called state generation with distributed inputs (SGDI). In this task, the goal is to generate the quantum state $U\ket{\psi}$ at the rightmost node of the line, where $\ket{\psi}$ is a quantum state given at the leftmost node and $U$ is a unitary matrix whose description is distributed over the nodes of the line. We give a dQMA protocol for SGDI and utilize this protocol to construct a dQMA protocol for the Set Equality problem studied by Naor, Parter and Yogev [SODA 2020], and complement our protocol by showing classical lower bounds for this problem. Our second contribution is a dQMA protocol, based on a recent work by Zhu and Hayashi [Physical Review A, 2019], to create EPR-pairs between adjacent nodes of a network without quantum communication. As an application of this dQMA protocol, we prove a general result showing how to convert any dQMA protocol on an arbitrary network into another dQMA protocol where the verification stage does not require any quantum communication.
翻訳日:2023-08-11 16:48:01 公開日:2023-08-10
# 時間領域アナログ量子シミュレーションによる分子ビブロニックスペクトルの予測

Predicting molecular vibronic spectra using time-domain analog quantum simulation ( http://arxiv.org/abs/2209.06558v3 )

ライセンス: Link先を確認
Ryan J. MacDonell, Tomas Navickas, Tim F. Wohlers-Reichel, Christophe H. Valahu, Arjun D. Rao, Maverick J. Millican, Michael A. Currington, Michael J. Biercuk, Ting Rei Tan, Cornelius Hempel and Ivan Kassal(参考訳) 分光法は分子世界の最も正確なプローブの一つである。 しかし、電子と核の自由度の絡み合いがあるため、分子スペクトルを正確に予測することは計算的に困難である。 量子コンピュータはこの計算コストを削減することを約束しているが、既存の量子アプローチは個々の固有状態からの信号の組み合わせに依存している。 本稿では,時間領域でのシミュレーションを行い,スケーラブルな分子スペクトルのアナログ量子シミュレーション手法を提案する。 我々のアプローチは、従来のモデルよりも複雑な分子モデルを扱い、近似を少なくし、最小のオーバーヘッドで開量子系に拡張できる。 本稿では,分子スペクトルの時間領域シミュレーションの根底にある問題を,トラップイオン量子シミュレータで利用可能な自由度と制御場に直接マッピングする。 我々は,本アルゴリズムをトラップイオンデバイス上で実験的に実証し,固有電子度と運動度の両方の自由度を利用して,SO$_2$の単一モードビブロニック光電子スペクトルに対して優れた定量的一致を示した。

Spectroscopy is one of the most accurate probes of the molecular world. However, predicting molecular spectra accurately is computationally difficult because of the presence of entanglement between electronic and nuclear degrees of freedom. Although quantum computers promise to reduce this computational cost, existing quantum approaches rely on combining signals from individual eigenstates, an approach that is difficult to scale because the number of eigenstates grows exponentially with molecule size. Here, we introduce a method for scalable analog quantum simulation of molecular spectroscopy, by performing simulations in the time domain. Our approach can treat more complicated molecular models than previous ones, requires fewer approximations, and can be extended to open quantum systems with minimal overhead. We present a direct mapping of the underlying problem of time-domain simulation of molecular spectra to the degrees of freedom and control fields available in a trapped-ion quantum simulator. We experimentally demonstrate our algorithm on a trapped-ion device, exploiting both intrinsic electronic and motional degrees of freedom, showing excellent quantitative agreement for a single-mode vibronic photoelectron spectrum of SO$_2$.
翻訳日:2023-08-11 16:46:36 公開日:2023-08-10
# 深層学習に基づくアグリロボットの内界ナビゲーションのためのクロップロー検出

Deep learning-based Crop Row Detection for Infield Navigation of Agri-Robots ( http://arxiv.org/abs/2209.04278v2 )

ライセンス: Link先を確認
Rajitha de Silva, Grzegorz Cielniak, Gang Wang, Junfeng Gao(参考訳) 農業環境における自律航行は、耕作可能な畑で発生する様々なフィールド条件によって挑戦される。 このような環境での自律ナビゲーションのための最先端のソリューションは、RTK-GNSSのような高価なハードウェアを必要とする。 本稿では,安価なカメラを用いてフィールド変動に耐えるロバストな作物列検出アルゴリズムを提案する。 クロップ列検出のための既存のデータセットは、可能なフィールドのバリエーションをすべて表現していない。 サトウキビの画像のデータセットは、複数の生育段階、光度、雑草密度、曲がった作物列、不連続な作物列からなる11のフィールド変動を表す。 提案したパイプラインは, 深層学習法を用いて作物列を分割し, 予測セグメンテーションマスクを用いて, 新たな中央作物列選択アルゴリズムを用いて中央作物の抽出を行う。 新規な作物列検出アルゴリズムは、作物列の検出性能と、作物列に沿って視覚サーボを行う能力を試験した。 ビジュアルサーボに基づくナビゲーションは、実地と植物テクスチャで現実的なシミュレーションシナリオでテストされた。 提案アルゴリズムは,フィールド条件がベースラインを上回り,強靭な視覚に基づく作物の列検出を実証した。

Autonomous navigation in agricultural environments is challenged by varying field conditions that arise in arable fields. State-of-the-art solutions for autonomous navigation in such environments require expensive hardware such as RTK-GNSS. This paper presents a robust crop row detection algorithm that withstands such field variations using inexpensive cameras. Existing datasets for crop row detection does not represent all the possible field variations. A dataset of sugar beet images was created representing 11 field variations comprised of multiple grow stages, light levels, varying weed densities, curved crop rows and discontinuous crop rows. The proposed pipeline segments the crop rows using a deep learning-based method and employs the predicted segmentation mask for extraction of the central crop using a novel central crop row selection algorithm. The novel crop row detection algorithm was tested for crop row detection performance and the capability of visual servoing along a crop row. The visual servoing-based navigation was tested on a realistic simulation scenario with the real ground and plant textures. Our algorithm demonstrated robust vision-based crop row detection in challenging field conditions outperforming the baseline.
翻訳日:2023-08-11 16:46:17 公開日:2023-08-10
# 逆拡張カルマンフィルタ --その2:高非線形・不確実性系

Inverse Extended Kalman Filter -- Part II: Highly Non-Linear and Uncertain Systems ( http://arxiv.org/abs/2208.06683v2 )

ライセンス: Link先を確認
Himali Singh, Arpan Chattopadhyay and Kumar Vijay Mishra(参考訳) 反逆システム設計問題は最近、逆ベイズフィルタの開発を動機づけている。 例えば、逆カルマンフィルタ(I-KF)は、最近、敵のカルマンフィルタが追跡する推定値を推定するために定式化され、従って敵の今後のステップを予測する。 本論文の目的は,逆拡張カルマンフィルタ(I-EKF)を提案し,非線形システムにおける逆フィルタリング問題に対処することである。 共同論文では、I-EKF(未知の入力を持つ)とI-KF(未知の入力を持つ)の理論を提案した。 本稿では,この理論を,二階和,ガウス和,前方EKFを用いた高非線形モデルに対して展開する。 特に、有界非線形アプローチを用いた逆二階EKFの理論安定性保証を導出する。 システムモデルとフォワードフィルタがディフェンダーに完全に知られているような標準I-EKFの制限に対処するため、Hilbert空間に基づくEKFを再生して、その観測に基づいて未知のシステムダイナミクスを学ぶことを提案する。 数値実験により, 再帰的Clam\'{e}r-Rao下界をベンチマークとして, 提案フィルタの状態推定性能を示す。

Counter-adversarial system design problems have lately motivated the development of inverse Bayesian filters. For example, inverse Kalman filter (I-KF) has been recently formulated to estimate the adversary's Kalman-filter-tracked estimates and hence, predict the adversary's future steps. The purpose of this paper and the companion paper (Part I) is to address the inverse filtering problem in non-linear systems by proposing an inverse extended Kalman filter (I-EKF). The companion paper proposed the theory of I-EKF (with and without unknown inputs) and I-KF (with unknown inputs). In this paper, we develop this theory for highly non-linear models, which employ second-order, Gaussian sum, and dithered forward EKFs. In particular, we derive theoretical stability guarantees for the inverse second-order EKF using the bounded non-linearity approach. To address the limitation of the standard I-EKFs that the system model and forward filter are perfectly known to the defender, we propose reproducing kernel Hilbert space-based EKF to learn the unknown system dynamics based on its observations, which can be employed as an inverse filter to infer the adversary's estimate. Numerical experiments demonstrate the state estimation performance of the proposed filters using recursive Cram\'{e}r-Rao lower bound as a benchmark.
翻訳日:2023-08-11 16:46:01 公開日:2023-08-10
# 非エルミート物理学から生じる分数量子ゼノ効果

Fractional Quantum Zeno Effect Emerging from Non-Hermitian Physics ( http://arxiv.org/abs/2207.03459v2 )

ライセンス: Link先を確認
Yue Sun, Tao Shi, Zhiyong Liu, Zhidong Zhang, Liantuan Xiao, Suotang Jia, Ying Hu(参考訳) 非エルミート現象学を探求することは近代物理学のエキサイティングなフロンティアである。 しかし、自然界で量子的な非エルミート現象の実証はいまだ解明されていない。 ここでは、分数量子ゼノン(fqz)効果とfqz誘起光子反束効果による量子非エルミート現象を予測する。 我々は,非線形エミッタを,自減衰率がバンド構造を形成する崩壊ボソニックモードの浴槽に結合した,貯留層工学を備えた量子光学プラットフォームを考える。 発散バンドを工学することで、分数指数を持つ代数的スケーリング(FQZ効果)を通じて、発散器の自然放出を抑制することができる。 この分数スケーリングは、伝統的な閉バスのコンテキストとは異なる、散逸帯の端付近の状態の発散密度から生じる。 弱非線形性においても駆動エミッタの定常状態におけるfqz誘起強い光子反束を求める。 注目すべきことに、古典的なアナログを持たない光子の準ポアソニアン量子統計は、非ハーミティティの主要な役割に由来する。 我々のセットアップは、散逸結合を持つ格子モデルの設計に使用される技術で実験的に実現可能である。

Exploring non-Hermitian phenomenology is an exciting frontier of modern physics. However, the demonstration of a non-Hermitian phenomenon that is quantum in nature has remained elusive. Here, we predict quantum non-Hermitian phenomena: the fractional quantum Zeno (FQZ) effect and FQZ-induced photon antibunching. We consider a quantum optics platform with reservoir engineering, where nonlinear emitters are coupled to a bath of decaying bosonic modes whose own decay rates form band structures. By engineering the dissipation band, the spontaneous emission of emitters can be suppressed by strong dissipation through an algebraic scaling with fractional exponents - the FQZ effect. This fractional scaling originates uniquely from the divergent dissipative density of states near the dissipation band edge, different from the traditional closed-bath context. We find FQZ-induced strong photon antibunching in the steady state of a driven emitter even for weak nonlinearities. Remarkably, we identify that the sub-Poissonian quantum statistics of photons, which has no classical analogs, stems here from the key role of non-Hermiticity. Our setup is experimentally feasible with the techniques used to design lattice models with dissipative couplings.
翻訳日:2023-08-11 16:45:36 公開日:2023-08-10
# 明示的簡易リズム同期による音楽ダンス表現の学習

Learning Music-Dance Representations through Explicit-Implicit Rhythm Synchronization ( http://arxiv.org/abs/2207.03190v2 )

ライセンス: Link先を確認
Jiashuo Yu, Junfu Pu, Ying Cheng, Rui Feng, Ying Shan(参考訳) 視聴覚表現は多くの下流課題に応用できることが証明されているが、より具体的であり、常に複雑な聴覚コンテンツを持つ音楽を伴うダンスビデオの表現は、いまだに困難かつ未調査のままである。 舞踊のリズムとリズムのリズムのリズムの因果関係を考慮し,音楽とダンスのリズムを明示的かつ暗黙的に同期させる新しい音楽・ダンス表現学習フレームワークであるMuDaRを紹介する。 具体的には、音楽リズム分析にインスパイアされた視覚的外観と動きの手がかりに基づいてダンスリズムを導出する。 そして、音の強度の振幅によって抽出された音楽のリズムを時間的に調整する。 一方,音声や視覚ストリームに含まれるリズムの暗黙のコヒーレンスを,コントラスト学習によって活用する。 モデルは、音声と視覚のペア間の時間的一貫性を予測することによって、関節埋め込みを学習する。 音楽ダンス表現は、オーディオと視覚のリズムを検出する能力とともに、3つの下流タスクにさらに適用することができる。 (a)舞踊の分類。 (b)音楽ダンスの検索及び c) music-dance retargeting。 広範な実験により,提案フレームワークが他の自己監督型手法を大差で上回ることを示した。

Although audio-visual representation has been proved to be applicable in many downstream tasks, the representation of dancing videos, which is more specific and always accompanied by music with complex auditory contents, remains challenging and uninvestigated. Considering the intrinsic alignment between the cadent movement of dancer and music rhythm, we introduce MuDaR, a novel Music-Dance Representation learning framework to perform the synchronization of music and dance rhythms both in explicit and implicit ways. Specifically, we derive the dance rhythms based on visual appearance and motion cues inspired by the music rhythm analysis. Then the visual rhythms are temporally aligned with the music counterparts, which are extracted by the amplitude of sound intensity. Meanwhile, we exploit the implicit coherence of rhythms implied in audio and visual streams by contrastive learning. The model learns the joint embedding by predicting the temporal consistency between audio-visual pairs. The music-dance representation, together with the capability of detecting audio and visual rhythms, can further be applied to three downstream tasks: (a) dance classification, (b) music-dance retrieval, and (c) music-dance retargeting. Extensive experiments demonstrate that our proposed framework outperforms other self-supervised methods by a large margin.
翻訳日:2023-08-11 16:45:16 公開日:2023-08-10
# 電磁誘導透過性に基づく利得支援量子熱エンジン

Gain-assisted quantum heat engine based on electromagnetically induced transparency ( http://arxiv.org/abs/2212.10949v3 )

ライセンス: Link先を確認
Laraib Niaz, You-Lin Chuang, Fazal Badshah and Rahmatullah(参考訳) 本稿では電磁誘導透過(EIT)に基づくゲインアシスト型量子熱エンジン(QHE)の実現手法を提案する。 QHEは2つの熱貯水池とカップリング場と相互作用する3レベル { \Lambda} 型原子系からなる。 反転のない利得は、2つの低いレベル間の自然発生コヒーレンス(sgc)を介してシステム内で誘導される。 SGCは系の力学に大きな影響を与え、QHEの放射断面積とスペクトル輝度が増大する。

We present a scheme to realize a gain-assisted quantum heat engine (QHE) based on electromagnetically induced transparency (EIT). The QHE consists of a three-level { \Lambda}-type atomic system that interacts with two thermal reservoirs and a coupling field. The gain without inversion is induced in the system via spontaneously generated coherence (SGC) between two lower levels. The SGC has a significant effect on the system's dynamics, resulting in an enhancement of the emission cross-section and spectral brightness of the QHE.
翻訳日:2023-08-11 16:37:20 公開日:2023-08-10
# 絡み合った準周期性および非エルミティ性から生まれる局在制御

Localization control born of intertwined quasiperiodicity and non-Hermiticity ( http://arxiv.org/abs/2211.14336v3 )

ライセンス: Link先を確認
Junmo Jeon, SungBin Lee(参考訳) 準周期系は、周期的長さスケールがない場合、ランダムに乱れも翻訳的に不変でもない。 それらの不規則順序に基づいて、臨界状態や自己相似波動関数のような新しい物理的性質が活発に議論されている。 しかし、非エルミート・ハミルトニアンによって一般に説明されるオープンシステムでは、そのような準周期的な順序が新しい現象にどのようにつながるかは分かっていない。 本研究では,非ヘルミティック性と相互に絡み合わされた準周期性が,臨界状態と局所状態の完全非局在化という驚くべき効果をもたらすことを初めて示す。 特に,非相反ホッピング位相が存在するオーブリー・アンドレ・フィボナッチモデルにおける波動関数の局在性について検討する。 ここで、AFモデルは金属から絶縁体への遷移と臨界状態の間の2つの異なる限界を連続的に補間し、非ハーミティシティはホッピング相因子にエンコードされる。 驚くべきことに、それらの相互作用によって状態の完全な非局在化がもたらされ、ハーミティリティを持つ準周期系では許されない。 逆参加比とフラクタル次元による局所化を定量化することにより、非エルミタンホッピング相が波動関数の局所化特性の微妙な制御につながることを議論する。 本研究は,(1)非エルミートホッピング相による準周期系の創発的非局在化遷移,(2)臨界状態の詳細な局在制御,ならびにフォトニック結晶を用いた制御可能な局所化,臨界、非局在化状態の実験的実現を提案する。

Quasiperiodic systems are neither randomly disordered nor translationally invariant in the absence of periodic length scales. Based on their incommensurate order, novel physical properties such as critical states and self-similar wavefunctions have been actively discussed. However, in open systems generally described by the non-Hermitian Hamiltonians, it is hardly known how such quasiperiodic order would lead to new phenomena. In this work, we show for the first time that the intertwined quasiperiodicity and non-Hermiticity can give rise to striking effects: perfect delocalization of the critical and localized states to the extended states. In particular, we explore the wave function localization character in the Aubry-Andre-Fibonacci (AAF) model where non-reciprocal hopping phases are present. Here, the AAF model continuously interpolates the two different limit between metal to insulator transition and critical states, and the nonHermiticity is encoded in the hopping phase factors. Surprisingly, their interplay results in the perfect delocalization of the states, which is never allowed in quasiperiodic systems with Hermiticity. By quantifying the localization via inverse participation ratio and the fractal dimension, we discuss that the non-Hermitian hopping phase leads to delicate control of localization characteristics of the wave function. Our work offers (1) emergent delocalization transition in quasiperiodic systems via non-Hermitian hopping phase, (2) detailed localization control of the critical states, In addition, we suggest an experimental realization of controllable localized, critical and delocalized states, using photonic crystals.
翻訳日:2023-08-11 16:36:50 公開日:2023-08-10
# tore: トランスフォーマーによる効率的なメッシュリカバリのためのトークン削減

TORE: Token Reduction for Efficient Human Mesh Recovery with Transformer ( http://arxiv.org/abs/2211.10705v5 )

ライセンス: Link先を確認
Zhiyang Dou, Qingxuan Wu, Cheng Lin, Zeyu Cao, Qiangqiang Wu, Weilin Wan, Taku Komura, Wenping Wang(参考訳) 本稿では,モノクロ画像からトランスフォーマーをベースとしたHuman Meshリカバリのための簡易かつ効果的なToken Reduction(TORE)戦略を提案する。 現在のSOTA性能はTransformerベースの構造によって達成されている。 しかし、冗長なトークンによって引き起こされる高いモデルの複雑さと計算コストに苦しむ。 本稿では,2つの重要な側面,すなわち3次元形状構造と2次元画像特徴に基づくトークン削減戦略を提案する。 本手法はトランスフォーマーにおける高複雑さ相互作用に関与するトークンの数を大幅に削減する。 これにより計算コストは大幅に削減され、形状復元の競争力や精度も向上した。 幅広いベンチマークを用いた広範囲な実験により,提案手法の有効性が検証された。 さらに,手メッシュ回復における手法の一般化可能性を示す。 プロジェクトページはhttps://frank-zy-dou.github.io/projects/Tore/index.htmlにある。

In this paper, we introduce a set of simple yet effective TOken REduction (TORE) strategies for Transformer-based Human Mesh Recovery from monocular images. Current SOTA performance is achieved by Transformer-based structures. However, they suffer from high model complexity and computation cost caused by redundant tokens. We propose token reduction strategies based on two important aspects, i.e., the 3D geometry structure and 2D image feature, where we hierarchically recover the mesh geometry with priors from body structure and conduct token clustering to pass fewer but more discriminative image feature tokens to the Transformer. Our method massively reduces the number of tokens involved in high-complexity interactions in the Transformer. This leads to a significantly reduced computational cost while still achieving competitive or even higher accuracy in shape recovery. Extensive experiments across a wide range of benchmarks validate the superior effectiveness of the proposed method. We further demonstrate the generalizability of our method on hand mesh recovery. Visit our project page at https://frank-zy-dou.github.io/projects/Tore/index.html.
翻訳日:2023-08-11 16:36:24 公開日:2023-08-10
# 大規模生成モデルは将来のデータセットを崩壊させるか?

Will Large-scale Generative Models Corrupt Future Datasets? ( http://arxiv.org/abs/2211.08095v2 )

ライセンス: Link先を確認
Ryuichiro Hataya and Han Bao and Hiromi Arai(参考訳) 最近提案されたdall$\cdot$e 2、midjourney、stablediffusionのような大規模テキストから画像への生成モデルでは、ユーザのプロンプトから高品質で現実的な画像を生成することができる。 研究コミュニティに限らず、一般のインターネットユーザーはこれらの生成モデルを楽しんでいるため、膨大な量の画像がインターネット上で共有されている。 一方、今日のコンピュータビジョン分野におけるディープラーニングの成功は、インターネットから集めた画像に大きく依存している。 そのような生成されたイメージは、将来のデータセットの品質とコンピュータビジョンモデルのパフォーマンスに正か負かに影響を与えますか? 本稿では,画像分類や画像生成を含む様々なタスクにおいて,最先端生成モデルを用いて,イメージネットスケールとココスケールのデータセットを生成し,「汚染された」データセットで訓練されたモデルを評価する。 実験を通して,生成した画像は下流のパフォーマンスに悪影響を及ぼすが,その重要性はタスクや生成画像の量に依存すると結論づけた。 生成されたデータセットと実験のためのコードは、将来の研究のために公開されます。 生成されたデータセットとソースコードは \url{https://github.com/moskomule/dataset-contamination} から入手できる。

Recently proposed large-scale text-to-image generative models such as DALL$\cdot$E 2, Midjourney, and StableDiffusion can generate high-quality and realistic images from users' prompts. Not limited to the research community, ordinary Internet users enjoy these generative models, and consequently, a tremendous amount of generated images have been shared on the Internet. Meanwhile, today's success of deep learning in the computer vision field owes a lot to images collected from the Internet. These trends lead us to a research question: "\textbf{will such generated images impact the quality of future datasets and the performance of computer vision models positively or negatively?}" This paper empirically answers this question by simulating contamination. Namely, we generate ImageNet-scale and COCO-scale datasets using a state-of-the-art generative model and evaluate models trained with "contaminated" datasets on various tasks, including image classification and image generation. Throughout experiments, we conclude that generated images negatively affect downstream performance, while the significance depends on tasks and the amount of generated images. The generated datasets and the codes for experiments will be publicly released for future research. Generated datasets and source codes are available from \url{https://github.com/moskomule/dataset-contamination}.
翻訳日:2023-08-11 16:36:09 公開日:2023-08-10
# N$-mode,$K$-fermion系のジョルダン・ウィグナーエンコーディングのqubit要求を$N$から$\lceil \log_2 {N \choose K} \rceil$へ還元する

Reducing the qubit requirement of Jordan-Wigner encodings of $N$-mode, $K$-fermion systems from $N$ to $\lceil \log_2 {N \choose K} \rceil$ ( http://arxiv.org/abs/2211.04501v3 )

ライセンス: Link先を確認
Brent Harrison, Dylan Nelson, Daniel Adamiak and James Whitfield(参考訳) 量子コンピュータ上でフェルミオン系をシミュレートするには、フェルミオンの状態を量子ビットにエンコードする必要がある。 Jordan-Wigner や Bravyi-Kitaev 変換のようなフェルミオン対量子ビット写像は、$N$ qubits を使って、$N$フェルミオンモードの系を表現する。 本研究では、$K$フェルミオンと$N$モードの粒子数保存システムに対して、qubit要求を$\lceil \log_2 {N \choose K} \rceil$の情報理論最小値に還元できることを示した。 これにより、キュービット数に制限のある短期量子コンピュータ上での分子や多体系のシミュレーションの実現性が向上する。

To simulate a fermionic system on a quantum computer, it is necessary to encode the state of the fermions onto qubits. Fermion-to-qubit mappings such as the Jordan-Wigner and Bravyi-Kitaev transformations do this using $N$ qubits to represent systems of $N$ fermionic modes. In this work, we demonstrate that for particle number conserving systems of $K$ fermions and $N$ modes, the qubit requirement can be reduced to the information theoretic minimum of $\lceil \log_2 {N \choose K} \rceil$. This will improve the feasibility of simulation of molecules and many-body systems on near-term quantum computers with limited qubit number.
翻訳日:2023-08-11 16:35:42 公開日:2023-08-10
# 数値機構設計による連合学習のためのプライバシアウェア圧縮

Privacy-Aware Compression for Federated Learning Through Numerical Mechanism Design ( http://arxiv.org/abs/2211.03942v3 )

ライセンス: Link先を確認
Chuan Guo, Kamalika Chaudhuri, Pierre Stock, Mike Rabbat(参考訳) private federated learning(fl)では、サーバーは、機械学習モデルをトレーニングするために、多数のクライアントから異なるプライベートアップデートを集約する。 この設定の主な課題は、クライアントとサーバの間で通信されるビット数だけでなく、学習モデルの分類精度とプライバシーのバランスをとることである。 先行研究は、mvu(minimum variance unbiased)と呼ばれるプライバシを意識した圧縮機構を設計し、最適化問題を数値的に解いて機構のパラメータを決定することで、良好なトレードオフを達成した。 本稿では、より効率的なプライバシー分析を可能にする数値設計プロセスに新たな補間手順を導入することにより、その基盤となる。 その結果、新しいInterpolated MVUメカニズムが、よりスケーラブルで、より優れたプライバシユーティリティトレードオフを持ち、さまざまなデータセット上で通信効率のよいプライベートFLに対してSOTA結果を提供する。

In private federated learning (FL), a server aggregates differentially private updates from a large number of clients in order to train a machine learning model. The main challenge in this setting is balancing privacy with both classification accuracy of the learnt model as well as the number of bits communicated between the clients and server. Prior work has achieved a good trade-off by designing a privacy-aware compression mechanism, called the minimum variance unbiased (MVU) mechanism, that numerically solves an optimization problem to determine the parameters of the mechanism. This paper builds upon it by introducing a new interpolation procedure in the numerical design process that allows for a far more efficient privacy analysis. The result is the new Interpolated MVU mechanism that is more scalable, has a better privacy-utility trade-off, and provides SOTA results on communication-efficient private FL on a variety of datasets.
翻訳日:2023-08-11 16:35:22 公開日:2023-08-10
# 可逆部分代数

Invertible subalgebras ( http://arxiv.org/abs/2211.02086v4 )

ライセンス: Link先を確認
Jeongwan Haah(参考訳) 格子上の局所作用素代数の可逆部分代数を導入する。 可逆部分代数は、すべての局所作用素が可逆部分代数と可換部分代数の要素によって局所的に表現されるように定義される。 二次元格子上では、可逆部分代数は可換ハミルトニアンによるキラル・エノン理論をホストするが、これは任意の局所作用素環上では不可能であると考えられている。 我々は、{\mathsf d$-dimensional invertible subalgebras の安定同値類がテンソル積の下でアーベル群を形成し、すべての$\mathsf d + 1$ dimensional qca modulo の同値とシフトをブレンドする群に同型であることを証明する。 付録において、無限格子上のすべての qca の群上の計量を考え、計量完備が局所ハミルトニアンの時間発展を含むことを証明し、これはほぼ局所性保存である。 我々の計量トポロジーは強いトポロジーよりも厳密である。

We introduce invertible subalgebras of local operator algebras on lattices. An invertible subalgebra is defined to be one such that every local operator can be locally expressed by elements of the inveritible subalgebra and those of the commutant. On a two-dimensional lattice, an invertible subalgebra hosts a chiral anyon theory by a commuting Hamiltonian, which is believed not to be possible on any full local operator algebra. We prove that the stable equivalence classes of $\mathsf d$-dimensional invertible subalgebras form an abelian group under tensor product, isomorphic to the group of all $\mathsf d + 1$ dimensional QCA modulo blending equivalence and shifts. In an appendix, we consider a metric on the group of all QCA on infinite lattices and prove that the metric completion contains the time evolution by local Hamiltonians, which is only approximately locality-preserving. Our metric topology is strictly finer than the strong topology.
翻訳日:2023-08-11 16:35:06 公開日:2023-08-10
# 複数の仮説テストによる機械学習におけるプライバシー漏洩の分析: fanoからの教訓

Analyzing Privacy Leakage in Machine Learning via Multiple Hypothesis Testing: A Lesson From Fano ( http://arxiv.org/abs/2210.13662v2 )

ライセンス: Link先を確認
Chuan Guo, Alexandre Sablayrolles, Maziar Sanjabi(参考訳) 微分プライバシー(DP)は、機械学習におけるプライバシーリスクを軽減するための最も広く受け入れられているフレームワークである。 しかし、実際に特定のプライバシーリスクから保護するために必要なプライバシパラメータ$\epsilon$がどの程度小さいかは、まだよく理解されていない。 本研究では,離散データに対するデータ再構成攻撃を調査し,複数の仮説テストの枠組みで解析する。 我々は、ファノの不等式の異なる変種を利用して、モデルが個人的に訓練されたときに、データ再構成敵の推論力の上限を導出する。 重要なことに、基礎となるプライベートデータが$M$のセットから値を取る場合、ターゲットのプライバシパラメータ$\epsilon$は、敵が大きな推論パワーを得る前に$O(\log M)$になる可能性がある。 本分析は,データ再構成攻撃に対するDPの有効性を,比較的大きな$\epsilon$でも理論的に証明する。

Differential privacy (DP) is by far the most widely accepted framework for mitigating privacy risks in machine learning. However, exactly how small the privacy parameter $\epsilon$ needs to be to protect against certain privacy risks in practice is still not well-understood. In this work, we study data reconstruction attacks for discrete data and analyze it under the framework of multiple hypothesis testing. We utilize different variants of the celebrated Fano's inequality to derive upper bounds on the inferential power of a data reconstruction adversary when the model is trained differentially privately. Importantly, we show that if the underlying private data takes values from a set of size $M$, then the target privacy parameter $\epsilon$ can be $O(\log M)$ before the adversary gains significant inferential power. Our analysis offers theoretical evidence for the empirical effectiveness of DP against data reconstruction attacks even at relatively large values of $\epsilon$.
翻訳日:2023-08-11 16:34:45 公開日:2023-08-10
# 幾らかの絡み合いは、ほとんどの測定を生き残る

Some Entanglement Survives Most Measurements ( http://arxiv.org/abs/2302.06880v3 )

ライセンス: Link先を確認
Alvin Gonzales and Daniel Dilley and Mark Byrd(参考訳) 量子状態を作成し情報を抽出するために、完全な射影計測を行うことができると仮定されることが多い。 このような測定は、無相関なシステムと環境を達成することができる。 しかし、完全な射影計測は困難または不可能である。 弱測定の系列を用いることで、測定演算子の1つが極限極限過程を通じて完全に射影化されない限り、ある絡み合いが残ることを示す。 初期相関の除去と測定結果が追跡されないシナリオについても論じる。 我々は、n$ qubits と $n$ dimensional の入力状態の結果を提示する。

To prepare quantum states and extract information, it is often assumed that one can perform a perfectly projective measurement. Such measurements can achieve an uncorrelated system and environment. However, perfectly projective measurements can be difficult or impossible to perform. Using a sequence of weak measurements, we show that some entanglement remains unless one of the measurement operators becomes perfectly projective through an extreme limiting process. Removing initial correlations and the scenario where measurement outcomes are not tracked are also discussed. We present results for $n$ qubits and $n$ dimensional input states.
翻訳日:2023-08-11 16:29:07 公開日:2023-08-10
# キャビティオプティオプティカル・マグネト・メカニクスを用いたゼプタメータ変位センシング

Zeptometer displacement sensing using cavity opto-magneto-mechanics ( http://arxiv.org/abs/2302.06795v2 )

ライセンス: Link先を確認
Tatiana Iakovleva, Bijita Sarma and Jason Twamley(参考訳) 光学系は様々な力や効果の精密検出に非常に有用であることが証明されている。 本研究では, 永久磁石2層からなる不均質磁場中において, 光共振器の1つの鏡を磁気力により真空中で浮揚する空間変位検出のための光磁気機構を提案する。 その結果, 浮上ミラーの機械的周波数は, 磁気層分離が変化するにつれて変化するため, 磁気層間の分離の小さな変化を光学力学系が感知できることがわかった。 qfi(quantum fisher information)を変位センシング精度のメリットの数値として用い,セットアップで到達可能な基本的な精度境界について検討した。 光力学的ハミルトニアンに本質的に存在する非線形相互作用は精度を向上し、光学キャビティの純粋な状態の場合、非常に小さな変位検出精度である$\delta d\sim36\times10^{-21}\text{m}$が得られる。 さらに, 本システムにデコヒーレンスを組み込んで, 光学キャビティからの光子漏れがQFIに与える影響について検討した。

Optomechanical systems have been proven to be very useful for precision sensing of a variety of forces and effects. In this work, we propose an opto-magno-mechanical setup for spatial displacement sensing where one mirror of the optical cavity is levitated in vacuum via diamagnetic forces in an inhomogenous magnetic field produced by two layers of permanent magnets. We show that the optomechanical system can sense small changes in separation between the magnet layers, as the mechanical frequency of the levitated mirror shifts with changing magnet layer separation $d$. We use Quantum Fisher Information (QFI) as a figure of merit of the displacement sensing precision, and study the fundamental precision bound that can be reached in our setup. Nonlinear interaction inherently present in the optomechanical Hamiltonian improves the precision, and we show that in the case of a pure state of the optical cavity, one can achieve extremely small displacement sensing precision of $\Delta d\sim36\times10^{-21}\text{m}$. Further, we incorporate decoherence into our system to study the effect of leaking photons from the optical cavity on the QFI.
翻訳日:2023-08-11 16:28:57 公開日:2023-08-10
# 残留ネットワークにおける幅と深さ制限

Width and Depth Limits Commute in Residual Networks ( http://arxiv.org/abs/2302.00453v2 )

ライセンス: Link先を確認
Soufiane Hayou, Greg Yang(参考訳) 枝が1/\sqrt{depth}$(1/\sqrt{depth}$(唯一の非自明なスケーリング)にスケールされると、その制限がどう取られても、同じ共分散構造が得られることを示す。 これは、標準の無限幅深さアプローチが、幅と同じ深さのネットワークに対しても実用的な洞察を提供する理由を説明する。 また,この場合,事前活性化はガウス分布を持ち,ベイズ深層学習に直接応用できることを示した。 理論的な結果と良好な一致を示す広範囲なシミュレーションを行う。

We show that taking the width and depth to infinity in a deep neural network with skip connections, when branches are scaled by $1/\sqrt{depth}$ (the only nontrivial scaling), result in the same covariance structure no matter how that limit is taken. This explains why the standard infinite-width-then-depth approach provides practical insights even for networks with depth of the same order as width. We also demonstrate that the pre-activations, in this case, have Gaussian distributions which has direct applications in Bayesian deep learning. We conduct extensive simulations that show an excellent match with our theoretical findings.
翻訳日:2023-08-11 16:28:35 公開日:2023-08-10
# RobustPdM: 敵攻撃に対するロバスト予測保守設計

RobustPdM: Designing Robust Predictive Maintenance against Adversarial Attacks ( http://arxiv.org/abs/2301.10822v2 )

ライセンス: Link先を確認
Ayesha Siddique, Ripan Kumar Kundu, Gautam Raj Mode, Khaza Anuarul Hoque(参考訳) 最先端の予測メンテナンス(PdM)技術は、IoT(Internet-of-Things)とディープラーニング(DL)の広範な活用を通じて、メンテナンスコストと複雑なマシンのダウンタイムを削減しつつ、全体的な生産性を向上することに成功した。 残念ながら、IoTセンサーとDLアルゴリズムはどちらもサイバー攻撃を受けやすい。 例えば、DLアルゴリズムは敵の例に対する感受性で知られている。 このような敵対的攻撃はPdMドメインでは明らかに過小評価されている。 これは、分類タスクのコンピュータビジョン領域における逆攻撃は、多変量時系列(mts)回帰タスクのpdmドメインに直接適用できないためである。 本研究では,異なる種類の攻撃の影響を広範囲に解析し,DL対応PdMモデルに対する新たな防御手法を提案することによって,逆方向の堅牢なPdMシステムを設計するエンド・ツー・エンド手法を提案する。 まず、ランダム再起動(PGD_r)攻撃を伴う新しいMSSプロジェクテッドグラディエントDescent(PGD)とMSS PGDを提案する。 MTS PGD と PGD_r と MTS Fast Gradient Sign Method (FGSM) と MTS Basic Iterative Method (BIM) がLong Short-Term Memory (LSTM)、Gated Recurrent Unit (GRU)、Convolutional Neural Network (CNN)、双方向LSTMベースのPdMシステムに与える影響を評価する。 nasaのturbofan engineデータセットを用いた結果,敵の攻撃はrulの予測に深刻な欠陥(最大11倍)を生じさせ,最先端のpdm攻撃の効果を3倍に上回った。 さらに, 敵の攻撃から防御するための新しい近似攻撃訓練法を提案する。 我々は, PdMモデルのロバスト性(最大54倍)を大幅に向上し, 3倍のロバスト性を提供することで, 最先端のPdMディフェンス法より優れることを示した。

The state-of-the-art predictive maintenance (PdM) techniques have shown great success in reducing maintenance costs and downtime of complicated machines while increasing overall productivity through extensive utilization of Internet-of-Things (IoT) and Deep Learning (DL). Unfortunately, IoT sensors and DL algorithms are both prone to cyber-attacks. For instance, DL algorithms are known for their susceptibility to adversarial examples. Such adversarial attacks are vastly under-explored in the PdM domain. This is because the adversarial attacks in the computer vision domain for classification tasks cannot be directly applied to the PdM domain for multivariate time series (MTS) regression tasks. In this work, we propose an end-to-end methodology to design adversarially robust PdM systems by extensively analyzing the effect of different types of adversarial attacks and proposing a novel adversarial defense technique for DL-enabled PdM models. First, we propose novel MTS Projected Gradient Descent (PGD) and MTS PGD with random restarts (PGD_r) attacks. Then, we evaluate the impact of MTS PGD and PGD_r along with MTS Fast Gradient Sign Method (FGSM) and MTS Basic Iterative Method (BIM) on Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU), Convolutional Neural Network (CNN), and Bi-directional LSTM based PdM system. Our results using NASA's turbofan engine dataset show that adversarial attacks can cause a severe defect (up to 11X) in the RUL prediction, outperforming the effectiveness of the state-of-the-art PdM attacks by 3X. Furthermore, we present a novel approximate adversarial training method to defend against adversarial attacks. We observe that approximate adversarial training can significantly improve the robustness of PdM models (up to 54X) and outperforms the state-of-the-art PdM defense methods by offering 3X more robustness.
翻訳日:2023-08-11 16:28:25 公開日:2023-08-10
# 関数型ニューラルネットワーク: 関数型データのシフト不変モデルと脳波分類への応用

Functional Neural Networks: Shift invariant models for functional data with applications to EEG classification ( http://arxiv.org/abs/2301.05869v2 )

ライセンス: Link先を確認
Florian Heinrichs, Mavin Heim, Corinna Weber(参考訳) 統計モデルは、その位置から独立して興味のある信号を検出することが望ましい。 データがスムーズなプロセスによって生成される場合、この追加構造を考慮する必要がある。 シフト不変であり,データの滑らかさを保つニューラルネットワークの新たなクラスである関数型ニューラルネットワーク(fnn)を提案する。 そこで我々は,多層パーセプトロンと畳み込みニューラルネットワークを機能データに拡張するために,機能データ分析(FDA)の手法を用いる。 異なるモデルアーキテクチャを提案し,fnnを用いて脳波解析(eeg)データを分類し,fdaのベンチマークモデルよりも精度が優れていることを示した。

It is desirable for statistical models to detect signals of interest independently of their position. If the data is generated by some smooth process, this additional structure should be taken into account. We introduce a new class of neural networks that are shift invariant and preserve smoothness of the data: functional neural networks (FNNs). For this, we use methods from functional data analysis (FDA) to extend multi-layer perceptrons and convolutional neural networks to functional data. We propose different model architectures, show that the models outperform a benchmark model from FDA in terms of accuracy and successfully use FNNs to classify electroencephalography (EEG) data.
翻訳日:2023-08-11 16:27:11 公開日:2023-08-10
# 拡散モデルを用いた開語彙オブジェクトセグメンテーション

Open-vocabulary Object Segmentation with Diffusion Models ( http://arxiv.org/abs/2301.05221v2 )

ライセンス: Link先を確認
Ziyi Li, Qinye Zhou, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本研究の目的は,テキストプロンプトに記述された対応する視覚エンティティに対して,画像とセグメンテーションマスクを同時に生成するセグメンテーションマップという形で,事前学習したテキスト間拡散モデルから視覚言語対応を抽出することである。 私たちは次のような貢献をします (i)既存の安定拡散モデルと新規な接地モジュールを組み合わせることにより、その拡散モデルの視覚的およびテキスト的埋め込み空間を少数の対象カテゴリに合わせるように訓練することができる。 (ii) 提案する接地モジュールを訓練するために,<画像,セグメンテーションマスク,テキストプロンプト>トリプレットからなるデータセットを構築するための自動パイプラインを確立する。 3) テキスト・画像拡散モデルから生成した画像に基づいてオープン語彙グラウンドディングの性能を評価し, 学習時に見られたものを超えるカテゴリのオブジェクトを適切に分割できることを示せる。 (iv)我々は,合成意味セグメンテーションデータセットを構築するために拡張拡散モデルを採用し,そのようなデータセット上で標準セグメンテーションモデルをトレーニングすることで,ゼロショットセグメンテーション(zs3)ベンチマークにおける競争力を示すことを示す。

The goal of this paper is to extract the visual-language correspondence from a pre-trained text-to-image diffusion model, in the form of segmentation map, i.e., simultaneously generating images and segmentation masks for the corresponding visual entities described in the text prompt. We make the following contributions: (i) we pair the existing Stable Diffusion model with a novel grounding module, that can be trained to align the visual and textual embedding space of the diffusion model with only a small number of object categories; (ii) we establish an automatic pipeline for constructing a dataset, that consists of {image, segmentation mask, text prompt} triplets, to train the proposed grounding module; (iii) we evaluate the performance of open-vocabulary grounding on images generated from the text-to-image diffusion model and show that the module can well segment the objects of categories beyond seen ones at training time; (iv) we adopt the augmented diffusion model to build a synthetic semantic segmentation dataset, and show that, training a standard segmentation model on such dataset demonstrates competitive performance on the zero-shot segmentation(ZS3) benchmark, which opens up new opportunities for adopting the powerful diffusion model for discriminative tasks.
翻訳日:2023-08-11 16:27:00 公開日:2023-08-10
# 状態変化を伴う時間表表データセットの予測のためのオンライン学習手法

Online learning techniques for prediction of temporal tabular datasets with regime changes ( http://arxiv.org/abs/2301.00790v4 )

ライセンス: Link先を確認
Thomas Wong and Mauricio Barahona(参考訳) 非定常時間データセットへのディープラーニングの適用は、レジーム変更下で過小評価される過剰なモデルにつながる可能性がある。 本研究では,システム変更時にロバストなテンポラリパネルデータセット上での予測をランク付けするモジュール型機械学習パイプラインを提案する。 パイプラインのモジュラリティにより、機能エンジニアリングによるグラディエントブースティング決定木(GBDT)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。 株式ポートフォリオ予測のための金融データフレームワークの評価を行い,GBDTモデルでは,複雑性と計算コストを低減し,高い性能,堅牢性,一般性を示す。 次に,モデルのリトレーニングが不要なオンライン学習手法が,予測後の結果向上にどのように役立つかを実演する。 まず,動的特徴投影は,レジーム変化の縮小によりロバスト性が向上することを示す。 第2に,最近の優れたモデル選択に基づく動的モデルのセンシングが,サンプル外予測のシャープさと冷静さの向上につながることを実証する。 また,異なるデータ分割とランダム種子間のパイプラインのロバスト性を再現性良く評価した。

The application of deep learning to non-stationary temporal datasets can lead to overfitted models that underperform under regime changes. In this work, we propose a modular machine learning pipeline for ranking predictions on temporal panel datasets which is robust under regime changes. The modularity of the pipeline allows the use of different models, including Gradient Boosting Decision Trees (GBDTs) and Neural Networks, with and without feature engineering. We evaluate our framework on financial data for stock portfolio prediction, and find that GBDT models with dropout display high performance, robustness and generalisability with reduced complexity and computational cost. We then demonstrate how online learning techniques, which require no retraining of models, can be used post-prediction to enhance the results. First, we show that dynamic feature projection improves robustness by reducing drawdown in regime changes. Second, we demonstrate that dynamical model ensembling based on selection of models with good recent performance leads to improved Sharpe and Calmar ratios of out-of-sample predictions. We also evaluate the robustness of our pipeline across different data splits and random seeds with good reproducibility.
翻訳日:2023-08-11 16:26:26 公開日:2023-08-10
# 4ビット系に対する幾何学的真の多部絡み合い

Geometric genuine multipartite entanglement for four-qubit systems ( http://arxiv.org/abs/2212.11690v2 )

ライセンス: Link先を確認
Ansh Mishra, Aditya Raj, Abhishek Kumar, Soumik Mahanti, and Prasanta K. Panigrahi(参考訳) Xie と Eberly は、真のマルチパーティ・エンタングルメント (GME) 測度 `concurrence fill' (\textit{Phys.) を導入した。 Rev. Lett. は、サードパーティシステムに対して 040403} (2021) である。 三角形の領域として定義され、辺の長さは各二分割の正方形収束を表す。 しかし、近年、共起充填はLOCCの下では単調ではなく、従って絡み合いの忠実な尺度ではないことが示されている。 忠実な絡み合いの尺度ではないが、二成分二元数列のエレガントな幾何学的解釈を包含している。 GME測度を4つ以上の設定に一般化する試みがいくつかある。 しかし、それらの中には忠実でないものもあり、単にエレガントな幾何学的解釈を欠いているものもある。 xieらによる最近の提案では、4つの系に対してgmeの量を与える共起四面体(英語版)(concurrence tetrahedron)を構築している。 ここでは、多部的絡み合いのすべての側面を捉えるために、より複雑な構造を必要とせず、四者的絡み合いは \textit{2D geometry only} を用いて示すことができる。 アーラキ・リーブの不等式とともに線型エントロピーの亜加法は、幾何学的 GME の四元系への直接拡張を構築するために用いられる。 我々の測度は3つの四辺形の組み合わせとして幾何学的に解釈でき、その辺は1対3の対角線、対角線は2対2の対角線である。

Xie and Eberly introduced a genuine multipartite entanglement (GME) measure `concurrence fill'(\textit{Phys. Rev. Lett., \textbf{127}, 040403} (2021)) for three-party systems. It is defined as the area of a triangle whose side lengths represent squared concurrence in each bi-partition. However, it has been recently shown that concurrence fill is not monotonic under LOCC, hence not a faithful measure of entanglement. Though it is not a faithful entanglement measure, it encapsulates an elegant geometric interpretation of bipartite squared concurrences. There have been a few attempts to generalize GME measure to four-party settings and beyond. However, some of them are not faithful, and others simply lack an elegant geometric interpretation. The recent proposal from Xie et al. constructs a concurrence tetrahedron, whose volume gives the amount of GME for four-party systems; with generalization to more than four parties being the hypervolume of the simplex structure in that dimension. Here, we show by construction that to capture all aspects of multipartite entanglement, one does not need a more complex structure, and the four-party entanglement can be demonstrated using \textit{2D geometry only}. The subadditivity together with the Araki-Lieb inequality of linear entropy is used to construct a direct extension of the geometric GME to four-party systems resulting in quadrilateral geometry. Our measure can be geometrically interpreted as a combination of three quadrilaterals whose sides result from the concurrence in one-to-three bi-partition, and diagonal as concurrence in two-to-two bipartition.
翻訳日:2023-08-11 16:26:07 公開日:2023-08-10
# Kernel法によるギャップ量子ハミルトンの基底状態の学習

Learning ground states of gapped quantum Hamiltonians with Kernel Methods ( http://arxiv.org/abs/2303.08902v2 )

ライセンス: Link先を確認
Clemens Giuliani, Filippo Vicentini, Riccardo Rossi, Giuseppe Carleo(参考訳) 量子ハミルトンの基底状態の近似に対するニューラルネットワークのアプローチは、高非線形最適化問題の数値解を必要とする。 カーネル手法を用いて最適化を容易にする統計的学習手法を提案する。 提案手法はパワー・イテレーションの次のステップを学習するために教師あり学習を用いるパワー・メソッドの近似的な実現法である。 任意のガッピング量子ハミルトニアンの基底状態特性は、教師付き学習が効率的であるという仮定の下で多項式資源で到達できることを示した。 カーネルリッジレグレッション(英語版)を用いて、学習仮定が1次元と2次元の両方で互いに相互作用する多体量子系の基底状態を求める手法を適用し、我々のアプローチの柔軟性を示す数値的な証拠を提供する。

Neural network approaches to approximate the ground state of quantum hamiltonians require the numerical solution of a highly nonlinear optimization problem. We introduce a statistical learning approach that makes the optimization trivial by using kernel methods. Our scheme is an approximate realization of the power method, where supervised learning is used to learn the next step of the power iteration. We show that the ground state properties of arbitrary gapped quantum hamiltonians can be reached with polynomial resources under the assumption that the supervised learning is efficient. Using kernel ridge regression, we provide numerical evidence that the learning assumption is verified by applying our scheme to find the ground states of several prototypical interacting many-body quantum systems, both in one and two dimensions, showing the flexibility of our approach.
翻訳日:2023-08-11 16:18:19 公開日:2023-08-10
# 分散シフトを伴う財務時間表表データセットの深層学習モデル

Deep incremental learning models for financial temporal tabular datasets with distribution shifts ( http://arxiv.org/abs/2303.07925v7 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) 金融データセットに典型的な分布シフトに対応するために,一般利用可能な表型および時系列予測モデルの漸進的利用に基づく,金融時間表型データセットの回帰タスクのための強固な深層学習フレームワークを提案する。 このフレームワークは、単純な基本的なビルディングブロック(決定木)を使用して、必要な複雑さの自己相似モデルを構築し、レジームの変化、ファットテール分布、低信号対ノイズ比などの悪い状況下で堅牢なパフォーマンスを提供する。 本研究では,Numeraiデータセットを用いて学習したXGBoostモデルを用いて,異なるモデルスナップショット上のXGBoostモデルの2層深層アンサンブルが,異なる市場状況下で高品質な予測を提供することを示す。 また, 3つのシナリオ(小, 標準, 大規模)において, ブーイングラウンド数が異なるXGBoostモデルの性能は, モデルサイズに対して単調に増加し, 一般化上限に向かって収束することを示した。 また,モデル複雑性やデータサンプリング設定など,異なるハイパーパラメータの可変性の下でモデルのロバスト性を評価する。 我々のモデルは、特別なニューラルネットワークを使用しず、それぞれのベースモデルを独立して並列にトレーニングできるため、ハードウェア要件が低い。

We present a robust deep incremental learning framework for regression tasks on financial temporal tabular datasets which is built upon the incremental use of commonly available tabular and time series prediction models to adapt to distributional shifts typical of financial datasets. The framework uses a simple basic building block (decision trees) to build self-similar models of any required complexity to deliver robust performance under adverse situations such as regime changes, fat-tailed distributions, and low signal-to-noise ratios. As a detailed study, we demonstrate our scheme using XGBoost models trained on the Numerai dataset and show that a two layer deep ensemble of XGBoost models over different model snapshots delivers high quality predictions under different market regimes. We also show that the performance of XGBoost models with different number of boosting rounds in three scenarios (small, standard and large) is monotonically increasing with respect to model size and converges towards the generalisation upper bound. We also evaluate the robustness of the model under variability of different hyperparameters, such as model complexity and data sampling settings. Our model has low hardware requirements as no specialised neural architectures are used and each base model can be independently trained in parallel.
翻訳日:2023-08-11 16:18:07 公開日:2023-08-10
# フェデレーション学習におけるバックドアを適応的に識別するマルチメトリックス

Multi-metrics adaptively identifies backdoors in Federated learning ( http://arxiv.org/abs/2303.06601v2 )

ライセンス: Link先を確認
Siquan Huang, Yijiang Li, Chong Chen, Leyu Shi, and Ying Gao(参考訳) フェデレーテッドラーニング(FL)の分散性とプライバシ保護の性質は、特定の逆長入力に対する結果モデルの振る舞いを操作することを目的としたバックドアアタックに対して脆弱である。 しかし、統計的差異に基づく既存の防御は、特に悪質な勾配が良性なものに似ている場合や、データが非常に非独立で同一に分散している場合(非IID)、特定の攻撃に対してのみ効果を発揮する。 本稿では,距離に基づく防御手法を再考し,その発見を行う。 一 ユークリッド距離が高次元において無意味となること。 二 多様な特性を有する悪質な勾配は、単一の計量で特定できない。 そこで本研究では,マルチメトリックと動的重み付けを用いた簡易かつ効果的な防御戦略を提案し,バックドアを適応的に識別する。 さらに,攻撃設定やデータ分布に対する事前の前提に依存せず,良質な性能にはほとんど影響しない。 本手法の有効性を評価するために,様々な攻撃条件下で異なるデータセットを包括的に実験し,最善の防御性能を得る。 例えば,Edge-case PGDの難易度では36%のバックドア精度が得られ,従来の防御よりも有意に優れていた。 また,本手法は,良性性能を犠牲にすることなく,幅広い非iid度に適応できることを示した。

The decentralized and privacy-preserving nature of federated learning (FL) makes it vulnerable to backdoor attacks aiming to manipulate the behavior of the resulting model on specific adversary-chosen inputs. However, most existing defenses based on statistical differences take effect only against specific attacks, especially when the malicious gradients are similar to benign ones or the data are highly non-independent and identically distributed (non-IID). In this paper, we revisit the distance-based defense methods and discover that i) Euclidean distance becomes meaningless in high dimensions and ii) malicious gradients with diverse characteristics cannot be identified by a single metric. To this end, we present a simple yet effective defense strategy with multi-metrics and dynamic weighting to identify backdoors adaptively. Furthermore, our novel defense has no reliance on predefined assumptions over attack settings or data distributions and little impact on benign performance. To evaluate the effectiveness of our approach, we conduct comprehensive experiments on different datasets under various attack settings, where our method achieves the best defensive performance. For instance, we achieve the lowest backdoor accuracy of 3.06% under the difficult Edge-case PGD, showing significant superiority over previous defenses. The results also demonstrate that our method can be well-adapted to a wide range of non-IID degrees without sacrificing the benign performance.
翻訳日:2023-08-11 16:17:45 公開日:2023-08-10
# バイレベルネットワーク設計問題に対するハイブリッド型ディープラーニング-メタヒューリスティックフレームワーク

A hybrid deep-learning-metaheuristic framework for bi-level network design problems ( http://arxiv.org/abs/2303.06024v3 )

ライセンス: Link先を確認
Bahman Madadi and Goncalo Homem de Almeida Correia(参考訳) 本研究では,道路ネットワーク設計問題 (NDP) のための双方向アーキテクチャを用いたハイブリッドディープラーニング・メタヒューリスティックフレームワークを提案する。 本稿では,グラフニューラルネットワーク(gnn)を訓練し,ユーザ均衡(ue)トラヒック割当問題の解を近似し,学習モデルによる推論を用いて遺伝的アルゴリズム(ga)の適合関数評価を計算し,ndpsの近似解を求める。 3つのテストネットワーク、2つのntp変種と厳密なソルバをベンチマークとして使用することにより、提案するフレームワークは、平均して、最良の結果の1.5%のギャップ内に、正確な解手順で使用される時間の0.5%未満でソリューションを提供できることを示します。 我々のフレームワークはエキスパートシステム内でインフラ計画に利用でき、異なるシナリオ下でのインフラ計画と管理の最良の決定を決定できる。 フレームワークの柔軟性を考えると、グラフ上の二段階問題としてモデル化できる他の多くの決定問題に容易に対応できる。 さらに,本研究の今後の方向性を予見し,今後の課題について簡単な研究課題を提示する。 今後の研究を形作る研究から得られた重要な観察は、GNNモデルによる推論を用いたフィットネス機能評価時間はミリ秒のオーダーであり、これは新たなヒューリスティックスの必要性と機会を示唆している。 1)深層学習モデルが提供するノイズの多いフィットネス関数値にうまく対応でき、 2) 評価ステップの大幅な拡大効率を用いて探索空間を効果的に探索することができる(効率的でなく)。 これにより、AI駆動の予測器で使用するために作られた、現代的なメタヒューリスティックなクラスの新たな道が開かれる。

This study proposes a hybrid deep-learning-metaheuristic framework with a bi-level architecture for road network design problems (NDPs). We train a graph neural network (GNN) to approximate the solution of the user equilibrium (UE) traffic assignment problem and use inferences made by the trained model to calculate fitness function evaluations of a genetic algorithm (GA) to approximate solutions for NDPs. Using three test networks, two NDP variants and an exact solver as benchmark, we show that on average, our proposed framework can provide solutions within 1.5% gap of the best results in less than 0.5% of the time used by the exact solution procedure. Our framework can be utilized within an expert system for infrastructure planning to determine the best infrastructure planning and management decisions under different scenarios. Given the flexibility of the framework, it can easily be adapted to many other decision problems that can be modeled as bi-level problems on graphs. Moreover, we foreseen interesting future research directions, thus we also put forward a brief research agenda for this topic. The key observation from our research that can shape future research is that the fitness function evaluation time using the inferences made by the GNN model was in the order of milliseconds, which points to an opportunity and a need for novel heuristics that 1) can cope well with noisy fitness function values provided by deep learning models, and 2) can use the significantly enlarged efficiency of the evaluation step to explore the search space effectively (rather than efficiently). This opens a new avenue for a modern class of metaheuristics that are crafted for use with AI-powered predictors.
翻訳日:2023-08-11 16:17:23 公開日:2023-08-10
# セマンティックセグメンテーションにおけるクロスコンディションロバストネスのコントラストモデル適応

Contrastive Model Adaptation for Cross-Condition Robustness in Semantic Segmentation ( http://arxiv.org/abs/2303.05194v2 )

ライセンス: Link先を確認
David Bruggemann, Christos Sakaridis, Tim Br\"odermann, Luc Van Gool(参考訳) 標準の教師なしドメイン適応手法では、ラベル付きソースデータとラベルなしターゲットデータを組み合わせてソースからターゲットドメインにモデルを適用する。 一方、モデル適応では、ラベル付きソースデータへのアクセスが禁止され、すなわち、ソース訓練されたモデルとラベルなしのターゲットデータのみが利用できる。 画像レベルの対応が対象領域で利用可能となるセグメンテーションのための正規-逆条件モデル適応について検討する。 ターゲットセットは、GPSにマッチした場所で撮影された悪条件と正常条件のストリートイメージのラベルのないペアで構成されている。 提案手法は, コントラスト学習による条件不変特徴の学習に, このような画像ペアを利用する。 特に、CMAは、各入力をキャプチャする条件に従ってではなく、条件不変のセマンティックコンテンツに基づいて、埋め込み空間の特徴をグループ化することを推奨する。 正確なクロスドメインセマンティクス対応を得るために,正規画像を悪像の視点に警告し,warp-confidenceスコアを利用してロバストで集約された特徴を生成する。 このアプローチにより,ACDCやダークチューリッヒなど,複数の正規-逆適応ベンチマークにおけるモデル適応のための最先端セマンティックセマンティックセマンティックセマンティクス性能を実現する。 また,新たな悪条件一般化ベンチマークによるcmaの評価を行い,ソースデータへのアクセス不能によるcmaのハンディキャップが比較されたにもかかわらず,標準非教師なしドメイン適応法と比較して好成績を報告した。 コードはhttps://github.com/brdav/cmaで入手できる。

Standard unsupervised domain adaptation methods adapt models from a source to a target domain using labeled source data and unlabeled target data jointly. In model adaptation, on the other hand, access to the labeled source data is prohibited, i.e., only the source-trained model and unlabeled target data are available. We investigate normal-to-adverse condition model adaptation for semantic segmentation, whereby image-level correspondences are available in the target domain. The target set consists of unlabeled pairs of adverse- and normal-condition street images taken at GPS-matched locations. Our method -- CMA -- leverages such image pairs to learn condition-invariant features via contrastive learning. In particular, CMA encourages features in the embedding space to be grouped according to their condition-invariant semantic content and not according to the condition under which respective inputs are captured. To obtain accurate cross-domain semantic correspondences, we warp the normal image to the viewpoint of the adverse image and leverage warp-confidence scores to create robust, aggregated features. With this approach, we achieve state-of-the-art semantic segmentation performance for model adaptation on several normal-to-adverse adaptation benchmarks, such as ACDC and Dark Zurich. We also evaluate CMA on a newly procured adverse-condition generalization benchmark and report favorable results compared to standard unsupervised domain adaptation methods, despite the comparative handicap of CMA due to source data inaccessibility. Code is available at https://github.com/brdav/cma.
翻訳日:2023-08-11 16:16:54 公開日:2023-08-10
# シュワルツシルトブラックホール近傍における真空絡み合いのレンズ化

Lensing of Vacuum Entanglement near Schwarzschild Black Holes ( http://arxiv.org/abs/2303.01402v3 )

ライセンス: Link先を確認
Jo\~ao G. A. Carib\'e, Robert H. Jonsson, Marc Casals, Achim Kempf, Eduardo Mart\'in-Mart\'inez(参考訳) シュワルツシルト時空の重要な特徴は、軌道上のヌル測地線とコースティックが存在することである。 その存在は、物質と放射線、すなわち量子場の励起に対する強い重力レンズ効果を意味する。 ここでは、レンズリング自体が量子場の真空にも現れるかどうか、すなわち真空絡みの分布をレンズ化することによって疑問を提起する。 この可能性を探るために、当初は絡み合わなかった局所量子系が、異なる場所で一時的に場に結合される絡み合い収穫法を用いる。 3+1次元シュワルツシルト時空におけるボールウェア、ハートル・ホーキング、ウンルー・ヴァクアの場合、真空の絡み合いの収穫はコースティックスの近くでかなり増幅される。 特に, 既存の真空絡み合いを, 光状分離のためにも収穫できることを示す。

An important feature of Schwarzschild spacetime is the presence of orbiting null geodesics and caustics. Their presence implies strong gravitational lensing effects for matter and radiation, i.e., for excitations of quantum fields. Here, we raise the question whether the lensing manifests itself also in the vacuum of quantum fields, namely by lensing the distribution of vacuum entanglement. To explore this possibility, we use the method of entanglement harvesting, where initially unentangled localized quantum systems are temporarily coupled to the field at different locations. We find that for the Boulware, Hartle-Hawking and Unruh vacua in 3+1 dimensional Schwarzschild spacetime, the harvesting of vacuum entanglement is indeed greatly amplified near caustics. In particular, we establish that pre-existing vacuum entanglement can be harvested also for lightlike separations.
翻訳日:2023-08-11 16:16:26 公開日:2023-08-10
# 拡散モデルを用いた混合電子健康記録の合成

Synthesizing Mixed-type Electronic Health Records using Diffusion Models ( http://arxiv.org/abs/2302.14679v2 )

ライセンス: Link先を確認
Taha Ceritli, Ghadeer O. Ghosheh, Vinod Kumar Chauhan, Tingting Zhu, Andrew P. Creagh, and David A. Clifton(参考訳) 電子健康記録(ehrs)はセンシティブな患者情報を含み、そのようなデータを共有する際にプライバシーの懸念を示す。 合成データ生成はこれらのリスクを軽減するための有望なソリューションであり、しばしばジェネレーティブ・アドバイザリ・ネットワーク(GAN)のような深層生成モデルに依存している。 しかし、最近の研究では、拡散モデルがより現実的な合成データの生成や、画像、テキスト、音声などのデータモダリティの生成における安定したトレーニングなど、GANに対していくつかの利点をもたらすことが示されている。 本研究では,データ品質,ユーティリティ,プライバシ,拡張性の観点から,TabDDPMモデルと4つのデータセット上の既存手法を比較して,現実的な混合型表型EHRを生成するための拡散モデルの可能性を検討する。 実験の結果,TabDDPMは,プライバシーとユーティリティのトレードオフを確認するプライバシー以外のすべての評価指標において,最先端モデルよりも優れていることがわかった。

Electronic Health Records (EHRs) contain sensitive patient information, which presents privacy concerns when sharing such data. Synthetic data generation is a promising solution to mitigate these risks, often relying on deep generative models such as Generative Adversarial Networks (GANs). However, recent studies have shown that diffusion models offer several advantages over GANs, such as generation of more realistic synthetic data and stable training in generating data modalities, including image, text, and sound. In this work, we investigate the potential of diffusion models for generating realistic mixed-type tabular EHRs, comparing TabDDPM model with existing methods on four datasets in terms of data quality, utility, privacy, and augmentation. Our experiments demonstrate that TabDDPM outperforms the state-of-the-art models across all evaluation metrics, except for privacy, which confirms the trade-off between privacy and utility.
翻訳日:2023-08-11 16:16:09 公開日:2023-08-10
# モーメントベース正定値部分多様体最適化の簡易化とディープラーニングへの応用

Simplifying Momentum-based Positive-definite Submanifold Optimization with Applications to Deep Learning ( http://arxiv.org/abs/2302.09738v7 )

ライセンス: Link先を確認
Wu Lin, Valentin Duruisseaux, Melvin Leok, Frank Nielsen, Mohammad Emtiyaz Khan, Mark Schmidt(参考訳) 運動量を持つリーマン部分多様体の最適化は、イテレートが部分多様体上に残ることを保証するために、しばしば難しい微分方程式を解く必要があるため、計算的に難しい。 ここでは、アフィン不変距離を持つスパースあるいは構造化対称正定行列のクラスに対するそのような困難を単純化する。 我々は、計量を動的に正規化するリーマン正規座標の一般化バージョンを提案し、その問題をユークリッド空間の非拘束問題へと局所的に変換する。 提案手法は,行列乗算のみを用いることで,構造化共分散の既存手法を単純化し,低精度深層学習のための行列逆フリー2ドル^\text{nd}$-orderオプティマイザを開発する。 コード: https://github.com/yorkerlin/structuredngd-dl

Riemannian submanifold optimization with momentum is computationally challenging because, to ensure that the iterates remain on the submanifold, we often need to solve difficult differential equations. Here, we simplify such difficulties for a class of sparse or structured symmetric positive-definite matrices with the affine-invariant metric. We do so by proposing a generalized version of the Riemannian normal coordinates that dynamically orthonormalizes the metric and locally converts the problem into an unconstrained problem in the Euclidean space. We use our approach to simplify existing approaches for structured covariances and develop matrix-inverse-free $2^\text{nd}$-order optimizers for deep learning with low precision by using only matrix multiplications. Code: https://github.com/yorkerlin/StructuredNGD-DL
翻訳日:2023-08-11 16:15:36 公開日:2023-08-10
# ランダム制御量子状態トモグラフィーのロバスト性

Robustness of random-control quantum-state tomography ( http://arxiv.org/abs/2302.07439v2 )

ライセンス: Link先を確認
Jingcheng Wang, Shaoliang Zhang, Jianming Cai, Zhenyu Liao, Christian Arenz, and Ralf Betzholz(参考訳) 最近実証された量子状態トモグラフィースキーム[Phys. Rev. Lett. 124, 010405 (2020)]では、ランダム制御場がマルチパーティイト系に局所的に適用され、単一観測可能な測定によってシステムの完全な量子状態が再構成される。 本稿では,測定誤差に対するトモグラフィスキームのロバスト性を分析する。 トモグラフィプロセスを完全に記述した線形システムの条件数対数を用いて,測定誤差に対する感度を特徴付ける。 ランダム行列理論の結果を用いて、ハールランダム進化を考慮した場合のシステムサイズに関して、この条件数の対数のスケーリング則を導出する。 この式はhaarランダムネスの生成方法に依存しないが、単一ランダム制御場によって駆動される2つの特定の量子系に対するロバストネスの時間的挙動を調べる数値シミュレーションも行う。 興味深いことに、運転時間の関数としての条件数の対数の平均値がHaar-random進化の予測値に漸近的に近づく前に、システムサイズとともに長さが増加する台地に達する。

In a recently demonstrated quantum-state tomography scheme [Phys. Rev. Lett. 124, 010405 (2020)], a random control field is locally applied to a multipartite system to reconstruct the full quantum state of the system through single-observable measurements. Here, we analyze the robustness of such a tomography scheme against measurement errors. We characterize the sensitivity to measurement errors using the logarithm of the condition number of a linear system that fully describes the tomography process. Using results from random matrix theory we derive the scaling law of the logarithm of this condition number with respect to the system size when Haar-random evolutions are considered. While this expression is independent on how Haar randomness is created, we also perform numerical simulations to investigate the temporal behavior of the robustness for two specific quantum systems that are driven by a single random control field. Interestingly, we find that before the mean value of the logarithm of the condition number as a function of the driving time asymptotically approaches the value predicted for a Haar-random evolution, it reaches a plateau whose length increases with the system size.
翻訳日:2023-08-11 16:15:15 公開日:2023-08-10
# 集団崩壊を伴う散逸スピン系の不連続相転移から連続相転移への交差

Crossover from the discontinuous to continuous phase transitions in dissipative spin system with collective decay ( http://arxiv.org/abs/2304.09640v2 )

ライセンス: Link先を確認
Linyu Song and Jiasen Jin(参考訳) 環境を考慮した全横フィールドイジングモデルにおける定常相転移について検討する。 モデルは2つの成分ハミルトニアンから構成される。 スピン相互作用に垂直な外部場の向きは、各成分のハミルトニアンにおいて$x$方向または$z$方向に沿って調整することができるが、散逸は常にスピンを$z$方向に反転させる傾向がある。 平均場近似により、準連続定常相転移は定常解の2つの分枝が融合した結果であることがわかった。 不安定性の出現は、リウヴィリアスペクトルによっても明らかにされる有限サイズの系の集合の定常挙動を分析することによって確認される。

We investigate the steady-state phase transitions in an all-to-all transverse-field Ising model subjected to an environment. The considered model is composed of two ingredient Hamiltonians. The orientation of the external field, which is perpendicular to the spin interaction, can be tuned to be along either $x$ direction or $z$ direction in each ingredient Hamiltonian while the dissipations always tend to flip the spins down to the $z$ direction. By means of mean-field approximation, we find that the quasi continuous steady-state phase transition is presented as a consequence of the merging of two branches of steady-state solutions. The emergence of bistability is confirmed by analyzing the steady-state behaviors of a set of finite-size systems which is also revealed by the Liouvillian spectrum.
翻訳日:2023-08-11 16:08:56 公開日:2023-08-10
# 脳波データを用いたアルツハイマー病の説明可能な診断のための適応的グラフ畳み込みネットワーク

Adaptive Gated Graph Convolutional Network for Explainable Diagnosis of Alzheimer's Disease using EEG Data ( http://arxiv.org/abs/2304.05874v2 )

ライセンス: Link先を確認
Dominik Klepl, Fei He, Min Wu, Daniel J. Blackburn, Ptolemaios G. Sarrigiannis(参考訳) グラフニューラルネットワーク(GNN)モデルは、脳波(EEG)データの分類にますます使われている。 しかし、GNNによるアルツハイマー病(AD)などの神経疾患の診断は、いまだに未発見の分野である。 従来の研究は、脳グラフ構造を推測するための機能的接続法に依存しており、ADの診断に単純なGNNアーキテクチャを使用している。 本研究では,新しい適応ゲート型グラフ畳み込みネットワーク(aggcn)を提案する。 AGGCNは、畳み込みに基づくノード機能拡張と、よく知られた相関に基づく機能接続の尺度を組み合わせることで、グラフ構造を適応的に学習する。 さらに、ゲートグラフ畳み込みは、様々な空間スケールの寄与を動的に評価することができる。 提案モデルは眼閉鎖状態と眼開放状態の両方において高い精度を実現し, 学習表現の安定性を示す。 最後に,提案するaggcnモデルが,脳ネットワークのad関連変化のさらなる研究に寄与するであろう予測の一貫した説明を生成することを実証する。

Graph neural network (GNN) models are increasingly being used for the classification of electroencephalography (EEG) data. However, GNN-based diagnosis of neurological disorders, such as Alzheimer's disease (AD), remains a relatively unexplored area of research. Previous studies have relied on functional connectivity methods to infer brain graph structures and used simple GNN architectures for the diagnosis of AD. In this work, we propose a novel adaptive gated graph convolutional network (AGGCN) that can provide explainable predictions. AGGCN adaptively learns graph structures by combining convolution-based node feature enhancement with a well-known correlation-based measure of functional connectivity. Furthermore, the gated graph convolution can dynamically weigh the contribution of various spatial scales. The proposed model achieves high accuracy in both eyes-closed and eyes-open conditions, indicating the stability of learned representations. Finally, we demonstrate that the proposed AGGCN model generates consistent explanations of its predictions that might be relevant for further study of AD-related alterations of brain networks.
翻訳日:2023-08-11 16:08:45 公開日:2023-08-10
# 検索から生成へ:効率的かつ効果的なエンティティ集合の拡張

From Retrieval to Generation: Efficient and Effective Entity Set Expansion ( http://arxiv.org/abs/2304.03531v2 )

ライセンス: Link先を確認
Shulin Huang, Shirong Ma, Yangning Li, Yinghui Li, Hai-Tao Zheng, Yong Jiang and Hong-Gee Kim(参考訳) エンティティセット拡張(ese)は、小さなシードエンティティセットによって記述されたターゲットセマンティクスクラスのエンティティを拡張することを目的とした重要なタスクである。 既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。 この2つの目的を達成するためには、データセットで提供されるコーパスとエンティティ語彙を反復的にトラバースする必要がある。 実験結果から, 検索に基づくESE法で消費される時間は, 実体語彙やコーパスサイズとともに線形に増加することがわかった。 本稿では、まず、生成事前学習言語モデルを用いてESEタスクを遂行する、生成型ESEフレームワーク、Generative Entity Set Expansion(GenExpan)を提案する。 具体的には、エンティティ生成の妥当性を保証するためにプレフィックスツリーを使用し、自動的に生成されたクラス名を採用して、ターゲットエンティティを生成する。 さらに,言語モデルの一般的な知識とESEタスクの目標とのギャップを埋めるため,知識校正と生成ランク付けを提案する。 公開されているデータセットの実験は、GenExpanが効率的で効果的であることを示している。 効率性のために、GenExpanが消費する拡張時間はエンティティ語彙とコーパスサイズとは独立であり、GenExpanは強いベースラインに比べて平均600%のスピードアップを達成する。 拡張性能については,従来のESE手法よりも優れた性能を示す。

Entity Set Expansion (ESE) is a critical task aiming to expand entities of the target semantic class described by a small seed entity set. Most existing ESE methods are retrieval-based frameworks that need to extract the contextual features of entities and calculate the similarity between seed entities and candidate entities. To achieve the two purposes, they should iteratively traverse the corpus and the entity vocabulary provided in the datasets, resulting in poor efficiency and scalability. The experimental results indicate that the time consumed by the retrieval-based ESE methods increases linearly with entity vocabulary and corpus size. In this paper, we firstly propose a generative ESE framework, Generative Entity Set Expansion (GenExpan), which utilizes a generative pre-trained language model to accomplish ESE task. Specifically, a prefix tree is employed to guarantee the validity of entity generation, and automatically generated class names are adopted to guide the model to generate target entities. Moreover, we propose Knowledge Calibration and Generative Ranking to further bridge the gap between generic knowledge of the language model and the goal of ESE task. Experiments on publicly available datasets show that GenExpan is efficient and effective. For efficiency, expansion time consumed by GenExpan is independent of entity vocabulary and corpus size, and GenExpan achieves an average 600% speedup compared to strong baselines. For expansion performance, our framework outperforms previous state-of-the-art ESE methods.
翻訳日:2023-08-11 16:08:28 公開日:2023-08-10
# 音声と視覚のセマンティクスセグメンテーションについて

A Closer Look at Audio-Visual Semantic Segmentation ( http://arxiv.org/abs/2304.02970v3 )

ライセンス: Link先を確認
Yuanhong Chen, Yuyuan Liu, Hu Wang, Fengbei Liu, Chong Wang, Gustavo Carneiro(参考訳) オーディオ・ビジュアルセグメンテーション(avs)は、オーディオ・ビジュアルのクエリに基づいて対応する音響オブジェクトを正確にセグメンテーションする複雑なタスクである。 オーディオ・ビジュアル学習の成功には2つの重要な要素が必要です。 1)高品質の画素レベルのマルチクラスラベルを持つバイアスのないデータセット 2)オーディオ情報を対応する視覚オブジェクトと効果的にリンクすることができるモデル。 しかしながら、これらの2つの要件は、バイアス付きオーディオビジュアルデータを含むトレーニングセットと、このバイアス付きトレーニングセットを超えて一般化されていないモデルと、現在の方法によって部分的にのみ対処される。 本研究では,コスト効率と比較的偏りのない音声視覚的セマンティックセグメンテーションベンチマークを構築するための新しい戦略を提案する。 我々の戦略は、Visual Post-production (VPO) と呼ばれ、単一のビデオソースから抽出された明示的な音声と視覚のペアを必要とせず、そのようなベンチマークを構築することである。 また,先行提案のavsbenchを改良し,音声・視覚セマンティクスセグメンテーションベンチマークavsbench-single+に変換する。 さらに,学習セットを超えたモデルの一般化を実現するために,新たなピクセル単位の音声・視覚コントラスト学習法を提案する。 異なるソースからのオーディオとビジュアルデータをマッチングしたデータセットや、同じビデオソースからのオーディオとビジュアルデータを含むデータセットでトレーニングされた最新(sota)モデルが、ほぼ同じ精度を持つことを示すことで、vpo戦略の妥当性を検証する。 そして,提案したVPOベンチマークとAVSBench-Single+を用いて,SOTAモデルよりも高精度な音声・視覚的セマンティックセマンティックセグメンテーションを実現することを示す。 コードとデータセットは利用可能だ。

Audio-visual segmentation (AVS) is a complex task that involves accurately segmenting the corresponding sounding object based on audio-visual queries. Successful audio-visual learning requires two essential components: 1) an unbiased dataset with high-quality pixel-level multi-class labels, and 2) a model capable of effectively linking audio information with its corresponding visual object. However, these two requirements are only partially addressed by current methods, with training sets containing biased audio-visual data, and models that generalise poorly beyond this biased training set. In this work, we propose a new strategy to build cost-effective and relatively unbiased audio-visual semantic segmentation benchmarks. Our strategy, called Visual Post-production (VPO), explores the observation that it is not necessary to have explicit audio-visual pairs extracted from single video sources to build such benchmarks. We also refine the previously proposed AVSBench to transform it into the audio-visual semantic segmentation benchmark AVSBench-Single+. Furthermore, this paper introduces a new pixel-wise audio-visual contrastive learning method to enable a better generalisation of the model beyond the training set. We verify the validity of the VPO strategy by showing that state-of-the-art (SOTA) models trained with datasets built by matching audio and visual data from different sources or with datasets containing audio and visual data from the same video source produce almost the same accuracy. Then, using the proposed VPO benchmarks and AVSBench-Single+, we show that our method produces more accurate audio-visual semantic segmentation than SOTA models. Code and dataset will be available.
翻訳日:2023-08-11 16:07:49 公開日:2023-08-10
# 拡散分別平滑化によるロバスト外分布検出法の検討

Diffusion Denoised Smoothing for Certified and Adversarial Robust Out-Of-Distribution Detection ( http://arxiv.org/abs/2303.14961v3 )

ライセンス: Link先を確認
Nicola Franco, Daniel Korth, Jeanette Miriam Lorenz, Karsten Roscher, Stephan Guennemann(参考訳) 機械学習の利用が拡大するにつれて、安全性の確保の重要性は過大評価されない。 この点において重要な関心事は、与えられたサンプルがトレーニング分布からのものであるか、あるいは"Out-Of-Distribution"(OOD)サンプルであるかどうかを識別する能力である。 さらに、敵はOODサンプルを分類器を確実に予測するための方法で操作することができる。 本研究では,ネットワークアーキテクチャによらず,特定のコンポーネントや追加のトレーニングを必要とせず,入力周辺の$\ell_2$-norm内でOOD検出の堅牢性を証明する新しい手法を提案する。 さらに,oodサンプルに対する敵意攻撃を検出する現在の手法を改良し,分散サンプルに対して高いレベルの認証と敵意のロバスト性を提供する。 CIFAR10/100におけるOOD検出指標の平均値は、以前のアプローチと比較して$\sim 13 \% / 5\%$の増加を示している。

As the use of machine learning continues to expand, the importance of ensuring its safety cannot be overstated. A key concern in this regard is the ability to identify whether a given sample is from the training distribution, or is an "Out-Of-Distribution" (OOD) sample. In addition, adversaries can manipulate OOD samples in ways that lead a classifier to make a confident prediction. In this study, we present a novel approach for certifying the robustness of OOD detection within a $\ell_2$-norm around the input, regardless of network architecture and without the need for specific components or additional training. Further, we improve current techniques for detecting adversarial attacks on OOD samples, while providing high levels of certified and adversarial robustness on in-distribution samples. The average of all OOD detection metrics on CIFAR10/100 shows an increase of $\sim 13 \% / 5\%$ relative to previous approaches.
翻訳日:2023-08-11 16:06:53 公開日:2023-08-10
# regformer:大規模ポイントクラウド登録のための効率的なプロジェクションアウェアトランスフォーマネットワーク

RegFormer: An Efficient Projection-Aware Transformer Network for Large-Scale Point Cloud Registration ( http://arxiv.org/abs/2303.12384v3 )

ライセンス: Link先を確認
Jiuming Liu, Guangming Wang, Zhe Liu, Chaokang Jiang, Marc Pollefeys, Hesheng Wang(参考訳) ポイントクラウドの登録は、オブジェクトレベルのシーンや屋内シーンで著しい進歩を遂げているが、大規模な登録方法が探求されることはほとんどない。 課題は主に、屋外LiDARスキャンの巨大な点数、複雑な分布、外れ値から生じる。 さらに、既存の登録作業の多くは一般的に2段階のパラダイムを採用しており、まず識別可能な局所的な特徴を抽出し、次に、よく設計された記述子と後処理の選択に大きく依存する外れ値のフィルタリングに推定子(例えばransac)を利用する。 そこで本研究では,大規模ポイントクラウドアライメントのためのエンドツーエンドトランスフォーマーネットワーク (regformer) を提案する。 具体的には, 射影型階層変換器を提案し, 点特徴をグローバルに抽出することにより, 長距離依存を捕捉し, アウトレーヤをフィルタする。 変圧器は線形複雑であり,大規模シーンにおいても高い効率性が保証される。 さらに、ミスマッチを効果的に低減するために、初期変換を遅らせるために、客観的アソシエーション変換器を設計する。 KITTIとNuScenesのデータセットに関する大規模な実験は、我々のRegFormerが精度と効率の両面で競合性能を達成することを示した。

Although point cloud registration has achieved remarkable advances in object-level and indoor scenes, large-scale registration methods are rarely explored. Challenges mainly arise from the huge point number, complex distribution, and outliers of outdoor LiDAR scans. In addition, most existing registration works generally adopt a two-stage paradigm: They first find correspondences by extracting discriminative local features and then leverage estimators (eg. RANSAC) to filter outliers, which are highly dependent on well-designed descriptors and post-processing choices. To address these problems, we propose an end-to-end transformer network (RegFormer) for large-scale point cloud alignment without any further post-processing. Specifically, a projection-aware hierarchical transformer is proposed to capture long-range dependencies and filter outliers by extracting point features globally. Our transformer has linear complexity, which guarantees high efficiency even for large-scale scenes. Furthermore, to effectively reduce mismatches, a bijective association transformer is designed for regressing the initial transformation. Extensive experiments on KITTI and NuScenes datasets demonstrate that our RegFormer achieves competitive performance in terms of both accuracy and efficiency.
翻訳日:2023-08-11 16:06:38 公開日:2023-08-10
# 生成意味セグメンテーション

Generative Semantic Segmentation ( http://arxiv.org/abs/2303.11316v2 )

ライセンス: Link先を確認
Jiaqi Chen, Jiachen Lu, Xiatian Zhu and Li Zhang(参考訳) 本稿では,意味的セグメンテーションのための生成学習手法であるジェネリックセマンティックセグメンテーション(GSS)を提案する。 画像条件付きマスク生成問題として,セマンティックセグメンテーションを論じる。 これは、従来のピクセル単位の判別学習を潜在事前学習プロセスに置き換えることで達成される。 具体的には,セグメンテーションマスクを用いた潜伏変数の変動後分布をモデル化する。 そのために、セグメンテーションマスクを特殊タイプの画像(仮面)で表現する。 この後方分布は無条件にセグメンテーションマスクを生成することができる。 与えられた画像のセマンティックセグメンテーションを実現するために、さらに条件付きネットワークを導入する。 マスキの後方分布(セグメンテーションマスク)と入力訓練画像の潜在事前分布との相違を最小限に抑えることにより最適化する。 標準ベンチマークに関する広範囲な実験は、gssが標準セマンティックセグメンテーション設定で先行技術代替品と競合し、より困難なクロスドメイン設定で新しい技術状態を達成することができることを示している。

We present Generative Semantic Segmentation (GSS), a generative learning approach for semantic segmentation. Uniquely, we cast semantic segmentation as an image-conditioned mask generation problem. This is achieved by replacing the conventional per-pixel discriminative learning with a latent prior learning process. Specifically, we model the variational posterior distribution of latent variables given the segmentation mask. To that end, the segmentation mask is expressed with a special type of image (dubbed as maskige). This posterior distribution allows to generate segmentation masks unconditionally. To achieve semantic segmentation on a given image, we further introduce a conditioning network. It is optimized by minimizing the divergence between the posterior distribution of maskige (i.e., segmentation masks) and the latent prior distribution of input training images. Extensive experiments on standard benchmarks show that our GSS can perform competitively to prior art alternatives in the standard semantic segmentation setting, whilst achieving a new state of the art in the more challenging cross-domain setting.
翻訳日:2023-08-11 16:06:14 公開日:2023-08-10
# マグノンと光子のメタスケール強結合

Meter-scale strong coupling between magnons and photons ( http://arxiv.org/abs/2303.10925v3 )

ライセンス: Link先を確認
Jinwei Rao, C. Y. Wang, Bimu Yao, Z. J. Chen, K. X. Zhao, and Wei Lu(参考訳) 室温におけるマグノンと光子間の強度結合効果を,20mのコヒーレントカップリングと7.6mの散逸カップリングで実験的に実現した。 この目的のために、飽和利得をマイクロ波共振器に一体化し、この活性空洞を長い同軸ケーブルを介してマグノンモードに結合する。 利得は空洞の散逸を補うが、間接光子-マグノン結合を媒介する空洞放射を保持する。 これにより、長距離の強い光子-マグノンカップリングが可能になる。 移動波への完全アクセスにより,サブシステム自体を再構成するのではなく,進行波の位相と振幅を変調して光子-マグノン結合の遠隔制御を行う。 キャビティマグノニクスにおける長距離強結合を実現する手法は,他の物理系に対する一般的な考え方を提供する。 実験成果はキャビティ・マグノニクスに基づく情報ネットワークの構築を促進するかもしれない。

We experimentally realize a meter-scale strong coupling effect between magnons and photons at room temperature, with a coherent coupling of 20 m and a dissipative coupling of 7.6 m. To this end, we integrate a saturable gain into a microwave cavity and then couple this active cavity to a magnon mode via a long coaxial cable. The gain compensates for the cavity dissipation, but preserves the cavity radiation that mediates the indirect photon-magnon coupling. It thus enables the long-range strong photon-magnon coupling. With full access to traveling waves, we demonstrate a remote control of photon-magnon coupling by modulating the phase and amplitude of traveling waves, rather than reconfiguring subsystems themselves. Our method for realizing long-range strong coupling in cavity magnonics provides a general idea for other physical systems. Our experimental achievements may promote the construction of information networks based on cavity magnonics.
翻訳日:2023-08-11 16:05:59 公開日:2023-08-10
# CLIP-Count: テキストガイドによるゼロショットオブジェクトカウントを目指す

CLIP-Count: Towards Text-Guided Zero-Shot Object Counting ( http://arxiv.org/abs/2305.07304v2 )

ライセンス: Link先を確認
Ruixiang Jiang, Lingbo Liu, Changwen Chen(参考訳) 近年の視覚言語モデルの進歩は、オブジェクト検出やセグメンテーションなどの下流タスクに転送可能な、顕著なゼロショットテキストイメージマッチング能力を示している。 しかし、これらのモデルをオブジェクトカウントに適応させることは、依然として深刻な課題である。 本研究では,クラス非依存オブジェクトカウントのための視覚言語モデル(VLM)の転送について検討した。 具体的には、オープン語彙オブジェクトの密度マップをゼロショットで推定する最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。 テキスト埋め込みを濃密な視覚特徴と整合させるため、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを導くパッチテキストコントラスト損失を導入する。 さらに,視覚的特徴の異なる解像度レベルにわたって意味情報を伝達する階層的パッチ・テキストインタラクションモジュールを設計した。 事前学習したVLMのリッチな画像テキストアライメント知識のフル活用により,本手法は対象物に対する高品質な密度マップを効果的に生成する。 fsc-147, carpk, shanghaitech crowd counting datasets の広範な実験により,提案手法の精度と一般化性が示された。 コードは、https://github.com/songrise/CLIP-Count.comで入手できる。

Recent advances in visual-language models have shown remarkable zero-shot text-image matching ability that is transferable to downstream tasks such as object detection and segmentation. Adapting these models for object counting, however, remains a formidable challenge. In this study, we first investigate transferring vision-language models (VLMs) for class-agnostic object counting. Specifically, we propose CLIP-Count, the first end-to-end pipeline that estimates density maps for open-vocabulary objects with text guidance in a zero-shot manner. To align the text embedding with dense visual features, we introduce a patch-text contrastive loss that guides the model to learn informative patch-level visual representations for dense prediction. Moreover, we design a hierarchical patch-text interaction module to propagate semantic information across different resolution levels of visual features. Benefiting from the full exploitation of the rich image-text alignment knowledge of pretrained VLMs, our method effectively generates high-quality density maps for objects-of-interest. Extensive experiments on FSC-147, CARPK, and ShanghaiTech crowd counting datasets demonstrate state-of-the-art accuracy and generalizability of the proposed method. Code is available: https://github.com/songrise/CLIP-Count.
翻訳日:2023-08-11 15:58:21 公開日:2023-08-10
# 不確実性を考慮した因果モデルによる画像ベース精密医療の改善

Improving Image-Based Precision Medicine with Uncertainty-Aware Causal Models ( http://arxiv.org/abs/2305.03829v4 )

ライセンス: Link先を確認
Joshua Durso-Finley, Jean-Pierre Falet, Raghav Mehta, Douglas L. Arnold, Nick Pawlowski, Tal Arbel(参考訳) 画像に基づく精密医療は、個人の独自の画像特徴に基づいて治療決定をパーソナライズし、臨床結果を改善することを目的としている。 治療レコメンデーションの一部として不確実性推定を統合する機械学習フレームワークは、より安全で信頼性が高い。 しかし,不確実性推定手法や検証基準を精度医学に適用する作業はほとんど行われていない。 本稿では,ベイズ深層学習を用いて,いくつかの治療における実結果と偽結果の後方分布を推定する。 これにより、各治療オプションに対する不確実性や、2つの治療法間の個々の治療効果(ite)の推定が可能になる。 このモデルを用いて,多発性硬化症患者のmr脳画像の大規模多施設データセットにおけるt2病変数を予測し,ランダム化比較試験中に複数の治療を行った。 我々は,不確実性推定と事実誤差の相関性を評価し,実測結果の欠如を踏まえて,ITT予測の不確実性がITT誤差の境界とどのように関係しているかを示す。 最後に、不確実性に関する知識が、患者個人および臨床試験結果を改善するために臨床意思決定をどう変えるかを示す。

Image-based precision medicine aims to personalize treatment decisions based on an individual's unique imaging features so as to improve their clinical outcome. Machine learning frameworks that integrate uncertainty estimation as part of their treatment recommendations would be safer and more reliable. However, little work has been done in adapting uncertainty estimation techniques and validation metrics for precision medicine. In this paper, we use Bayesian deep learning for estimating the posterior distribution over factual and counterfactual outcomes on several treatments. This allows for estimating the uncertainty for each treatment option and for the individual treatment effects (ITE) between any two treatments. We train and evaluate this model to predict future new and enlarging T2 lesion counts on a large, multi-center dataset of MR brain images of patients with multiple sclerosis, exposed to several treatments during randomized controlled trials. We evaluate the correlation of the uncertainty estimate with the factual error, and, given the lack of ground truth counterfactual outcomes, demonstrate how uncertainty for the ITE prediction relates to bounds on the ITE error. Lastly, we demonstrate how knowledge of uncertainty could modify clinical decision-making to improve individual patient and clinical trial outcomes.
翻訳日:2023-08-11 15:57:59 公開日:2023-08-10
# 深部3次元シミュレーションスーパーリゾリューションによる近リアルタイム顔アニメーション

Near-realtime Facial Animation by Deep 3D Simulation Super-Resolution ( http://arxiv.org/abs/2305.03216v2 )

ライセンス: Link先を確認
Hyojoon Park, Sangeetha Grama Srinivasan, Matthew Cong, Doyub Kim, Byungsoo Kim, Jonathan Swartz, Ken Museth, Eftychios Sifakis(参考訳) 本稿では,より高分解能(26倍の要素数)で正確な物理モデリングを行う基準品質のオフラインシミュレータと密接に類似した細部まで,安価でリアルタイムな物理シミュレーションによって生成される表情性能を,効率的に,かつ現実的に向上させることができるニューラルネットワークに基づくシミュレーション超解像フレームワークを提案する。 私たちのアプローチは、それぞれ低解像度と高分解能のシミュレータから、ペアフレームのトレーニングセットをシミュレーションを通じて構築する能力に根ざしています。 このようなシミュレーション領域の例示として顔アニメーションを用いて,同じ筋運動制御と骨格ポーズを2つのシミュレータで単純にダイヤルすることで,この意味的一致を実現する。 提案するニューラルネットワークスーパーレゾリューションフレームワークは,このトレーニングセットから認識不能な表現に一般化し,リアルタイム変種における解像度の制限やコストカット近似による2つのシミュレーション間の不一致のモデル化を補償し,リアルタイムシミュレーションの結果として,入力として提供される意味記述子やパラメータは不要である。 我々は,様々な表現能力に対するパイプラインの有効性を評価し,提案手法と代替案の比較・アブレーション実験を行った。

We present a neural network-based simulation super-resolution framework that can efficiently and realistically enhance a facial performance produced by a low-cost, realtime physics-based simulation to a level of detail that closely approximates that of a reference-quality off-line simulator with much higher resolution (26x element count in our examples) and accurate physical modeling. Our approach is rooted in our ability to construct - via simulation - a training set of paired frames, from the low- and high-resolution simulators respectively, that are in semantic correspondence with each other. We use face animation as an exemplar of such a simulation domain, where creating this semantic congruence is achieved by simply dialing in the same muscle actuation controls and skeletal pose in the two simulators. Our proposed neural network super-resolution framework generalizes from this training set to unseen expressions, compensates for modeling discrepancies between the two simulations due to limited resolution or cost-cutting approximations in the real-time variant, and does not require any semantic descriptors or parameters to be provided as input, other than the result of the real-time simulation. We evaluate the efficacy of our pipeline on a variety of expressive performances and provide comparisons and ablation experiments for plausible variations and alternatives to our proposed scheme.
翻訳日:2023-08-11 15:57:38 公開日:2023-08-10
# AI信仰の倫理へ向けて

Toward an Ethics of AI Belief ( http://arxiv.org/abs/2304.14577v5 )

ライセンス: Link先を確認
Winnie Ma, Vincent Valton(参考訳) AIにおける哲学研究は、主にAIの倫理に焦点を当てている。 本稿では, 信念の倫理学者であり, 機械学習科学者である我々は, AIの認識論, 特にAIの信念の倫理において, 哲学研究の新たな領域を追求する必要があることを示唆する。 ここでは,様々な方法で定義されてきた信念の倫理を,認識論におけるサブフィールドと呼ぶ。 このサブフィールドは、道徳的、実践的、その他の非倫理的信念の研究に関係している。 本論では、特定の信念が真である、正当化される、保証される、知識を構成するなど、様々な評価基準を満たしているかどうかに関する記述的疑問よりも、人間と人工的に信じるべきエージェントについて、信念の倫理における規範的疑問を主に扱う。 我々は、AI信念の倫理に応用できる(人間)信念の倫理における現在研究における4つのトピックについて提案する:AI信念のドクサスティックな誤り、道徳的に義務づけられた信念、AI信念に対する実践的および道徳的エンクローメント、AI信念に対する道徳的責任。 我々はまた、AI信仰研究の倫理として一般に認識されていない比較的初期段階の2つの哲学研究分野を示すが、それは様々な信念の道徳的・実践的な側面、すなわちAIの疫学的・倫理的非植民地化、そしてAIにおける疫学的不正を調査することによって、この分野に該当する。

Philosophical research in AI has hitherto largely focused on the ethics of AI. In this paper we, an ethicist of belief and a machine learning scientist, suggest that we need to pursue a novel area of philosophical research in AI - the epistemology of AI, and in particular an ethics of belief for AI. Here we take the ethics of belief, a field that has been defined in various ways, to refer to a sub-field within epistemology. This subfield is concerned with the study of possible moral, practical, and other non-alethic dimensions of belief. And in this paper, we will primarily be concerned with the normative question within the ethics of belief regarding what agents - both human and artificial - ought to believe, rather than with descriptive questions concerning whether certain beliefs meet various evaluative standards such as being true, being justified or warranted, constituting knowledge, and so on. We suggest four topics in extant work in the ethics of (human) belief that can be applied to an ethics of AI belief: doxastic wronging by AI; morally owed beliefs; pragmatic and moral encroachment on AI beliefs; and moral responsibility for AI beliefs. We also indicate two relatively nascent areas of philosophical research that haven't yet been generally recognized as ethics of AI belief research, but that do fall within this field of research in virtue of investigating various moral and practical dimensions of belief: the epistemic and ethical decolonization of AI; and epistemic injustice in AI.
翻訳日:2023-08-11 15:56:41 公開日:2023-08-10
# {\Pi}-ML:大気表面層における光乱流の次元解析に基づく機械学習パラメータ化

{\Pi}-ML: A dimensional analysis-based machine learning parameterization of optical turbulence in the atmospheric surface layer ( http://arxiv.org/abs/2304.12177v2 )

ライセンス: Link先を確認
Maximilian Pierzyna and Rudolf Saathof and Sukanta Basu(参考訳) いわゆる光乱流と呼ばれる大気屈折率の乱流変動は、レーザービームを著しく歪ませることができる。 したがって、これらのゆらぎ(c_n^2$)の強さのモデル化は、将来の自由空間光通信リンクの開発と展開の成功に非常に関係している。 本稿では,次元解析と勾配向上に基づく物理インフォームド・機械学習(ML)手法である$\Pi$-MLを提案し,C_n^2$を推定する。 系統的特徴重要度分析により,C_n^2$を予測するための支配的特徴として,ポテンシャル温度の正規化分散を同定した。 統計ロバスト性については,r^2=0.958\pm0.001$のサンプルデータに対して高いパフォーマンスをもたらすモデルのアンサンブルを訓練する。

Turbulent fluctuations of the atmospheric refraction index, so-called optical turbulence, can significantly distort propagating laser beams. Therefore, modeling the strength of these fluctuations ($C_n^2$) is highly relevant for the successful development and deployment of future free-space optical communication links. In this letter, we propose a physics-informed machine learning (ML) methodology, $\Pi$-ML, based on dimensional analysis and gradient boosting to estimate $C_n^2$. Through a systematic feature importance analysis, we identify the normalized variance of potential temperature as the dominating feature for predicting $C_n^2$. For statistical robustness, we train an ensemble of models which yields high performance on the out-of-sample data of $R^2=0.958\pm0.001$.
翻訳日:2023-08-11 15:56:12 公開日:2023-08-10
# Domain Mastery Benchmark: 大規模言語モデルの全体的ドメイン知識を評価するためのベンチマーク - 予備リリース

Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating Holistic Domain Knowledge of Large Language Model--A Preliminary Release ( http://arxiv.org/abs/2304.11679v2 )

ライセンス: Link先を確認
Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Zhuozhi Xiong, Zihan Li, Qianyu He, Sihang Jiang, Hongwei Feng, Yanghua Xiao(参考訳) ドメイン知識(英: domain knowledge)とは、特定の主題、産業、分野、または専門分野に対する深い理解、専門知識、および親密さをいう。 既存のベンチマークはすべて、ドメイン知識評価のための全体的な設計の欠如です。 ドメイン言語理解の本当の能力は包括的かつ深いベンチマークによってのみ十分に評価できるという信念を持ちながら、ドメイン熟達のベンチマークであるdommaを紹介します。 DomMaは、ドメイン知識理解に基づいてLarge Language Models(LLM)をテストすることを目的としており、広範なドメインカバレッジ、大きなデータボリューム、中国の112の第一級対象分類に基づく継続的に更新されたデータセットを備えている。 dommaは中国語と英語の両方で10万の質問から成り、中国の大学での大学院受験と学部受験から派生している。 また,LLMに適合するベンチマークおよび評価プロセスの設計も提案している。

Domain knowledge refers to the in-depth understanding, expertise, and familiarity with a specific subject, industry, field, or area of special interest. The existing benchmarks are all lack of an overall design for domain knowledge evaluation. Holding the belief that the real ability of domain language understanding can only be fairly evaluated by an comprehensive and in-depth benchmark, we introduces the Domma, a Domain Mastery Benchmark. DomMa targets at testing Large Language Models (LLMs) on their domain knowledge understanding, it features extensive domain coverage, large data volume, and a continually updated data set based on Chinese 112 first-level subject classifications. DomMa consist of 100,000 questions in both Chinese and English sourced from graduate entrance examinations and undergraduate exams in Chinese college. We have also propose designs to make benchmark and evaluation process more suitable to LLMs.
翻訳日:2023-08-11 15:55:57 公開日:2023-08-10
# クラスタ割り当ての対比によるディープマルチビュークラスタリング

Deep Multiview Clustering by Contrasting Cluster Assignments ( http://arxiv.org/abs/2304.10769v4 )

ライセンス: Link先を確認
Jie Chen, Hua Mao, Wai Lok Woo, and Xi Peng(参考訳) マルチビュークラスタリング(MVC)は、データサンプルをクラスタに分類することで、マルチビューデータの基盤構造を明らかにすることを目的としている。 ディープラーニングベースの手法は、大規模データセットに強力な特徴学習能力を示す。 既存の多くのディープMVCメソッドでは、複数のビューの不変表現を探索することは、いまだに難解な問題である。 本稿では,複数ビュー間のクラスタ割り当てを対比することにより,ビュー不変表現を学習し,クラスタリング結果を生成するクロスビューコントラスト学習(cvcl)手法を提案する。 具体的には、まず、事前学習段階におけるビュー依存の特徴を抽出するために、ディープオートエンコーダを用いる。 次に、クラスタレベルのCVCL戦略を示し、微調整段階における複数のビュー間の一貫性のあるセマンティックラベル情報を探索する。 そこで,提案手法は,この学習戦略を活かして,より識別的なクラスタ割り当てを生成することができる。 さらに,ソフトクラスタ割り当てアライメントの理論解析を行う。 複数のデータセットで得られた広範囲な実験結果から,提案手法が最先端手法よりも優れていることが示された。

Multiview clustering (MVC) aims to reveal the underlying structure of multiview data by categorizing data samples into clusters. Deep learning-based methods exhibit strong feature learning capabilities on large-scale datasets. For most existing deep MVC methods, exploring the invariant representations of multiple views is still an intractable problem. In this paper, we propose a cross-view contrastive learning (CVCL) method that learns view-invariant representations and produces clustering results by contrasting the cluster assignments among multiple views. Specifically, we first employ deep autoencoders to extract view-dependent features in the pretraining stage. Then, a cluster-level CVCL strategy is presented to explore consistent semantic label information among the multiple views in the fine-tuning stage. Thus, the proposed CVCL method is able to produce more discriminative cluster assignments by virtue of this learning strategy. Moreover, we provide a theoretical analysis of soft cluster assignment alignment. Extensive experimental results obtained on several datasets demonstrate that the proposed CVCL method outperforms several state-of-the-art approaches.
翻訳日:2023-08-11 15:55:39 公開日:2023-08-10
# 確率過程学習のための条件生成モデル

Conditional Generative Models for Learning Stochastic Processes ( http://arxiv.org/abs/2304.10382v4 )

ライセンス: Link先を確認
Salvatore Certo, Anh Pham, Nicolas Robles, Andrew Vlasic(参考訳) マルチモーダル分布を学習するための枠組みが提案され、条件付き量子生成逆逆ネットワーク (c-qgan) と呼ばれる。 ニューラルネットワークの構造は厳密に量子回路内にあり、その結果、現在の方法よりも効率的な状態準備手順を示すことが示される。 この手法はモンテカルロ解析のようなアルゴリズムを高速化する可能性がある。 特に、学習課題におけるネットワークの有効性を実証した後、アジアオプションデリバティブの価格設定に適用し、他の経路に依存した選択肢についてさらなる研究を行う基盤を提供する。

A framework to learn a multi-modal distribution is proposed, denoted as the Conditional Quantum Generative Adversarial Network (C-qGAN). The neural network structure is strictly within a quantum circuit and, as a consequence, is shown to represent a more efficient state preparation procedure than current methods. This methodology has the potential to speed-up algorithms, such as Monte Carlo analysis. In particular, after demonstrating the effectiveness of the network in the learning task, the technique is applied to price Asian option derivatives, providing the foundation for further research on other path-dependent options.
翻訳日:2023-08-11 15:55:22 公開日:2023-08-10
# Progressive-Hint Promptingは大規模言語モデルの推論を改善する

Progressive-Hint Prompting Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2304.09797v5 )

ライセンス: Link先を確認
Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li(参考訳) 推論タスクにおける大規模言語モデル(llm)のパフォーマンスは、プロンプトデザインに大きく依存しており、chain-of-thought (cot) と self-consistency はこの能力を高める重要な方法である。 しかし、これらの手法はLLMが生成した回答を十分に活用していない。 本稿では,これまで生成した回答をヒントとして,ユーザとLLMの対話を自動的に行うためのプロンプトプロンプト手法であるプログレッシブ・ヒント・プロンプト(PHP)を提案する。 PHPはCoTと自己整合性に直交しているため、最新技術と組み合わせてパフォーマンスをさらに向上することができる。 7つのベンチマークで広範囲で包括的な実験を行った。 その結果,phpは高い効率を維持しながら精度を大幅に向上した。 例えば、text-davinci-003では、複雑なCoTに比べてGSM8Kが4.2%向上し、自己整合性のあるサンプルパスが46.17%減少した。 GPT-4とPHPでは、SVAMP(89.1% -> 91.9%)、GSM8K(92% -> 95.5%)、AQuA(76.4% -> 79.9%)、MATH(50.3% -> 53.9%)の最先端のパフォーマンスを実現している。

The performance of Large Language Models (LLMs) in reasoning tasks depends heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency being critical methods that enhance this ability. However, these methods do not fully exploit the answers generated by the LLM to guide subsequent responses. This paper proposes a new prompting method, named Progressive-Hint Prompting (PHP), that enables automatic multiple interactions between users and LLMs by using previously generated answers as hints to progressively guide toward the correct answers. PHP is orthogonal to CoT and self-consistency, making it easy to combine with state-of-the-art techniques to further improve performance. We conducted extensive and comprehensive experiments on seven benchmarks. The results show that PHP significantly improves accuracy while remaining highly efficient. For instance, with text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding compared to Complex CoT, and a 46.17% reduction in sample paths with self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances on SVAMP (89.1% -> 91.9%), GSM8K (92% -> 95.5%), AQuA (76.4% -> 79.9%) and MATH (50.3% -> 53.9%).
翻訳日:2023-08-11 15:55:12 公開日:2023-08-10
# ディープラーニングにおけるHypernetworksの簡単なレビュー

A Brief Review of Hypernetworks in Deep Learning ( http://arxiv.org/abs/2306.06955v2 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Jiandong Zhou, Ping Lu, Soheila Molaei and David A. Clifton(参考訳) ハイパーネットワーク(hypernetworks)またはハイパーネット(hypernets)は、ターゲットネットワークと呼ばれる別のニューラルネットワークの重み付けを生成するニューラルネットワークである。 柔軟性、適応性、ダイナミズム、より高速なトレーニング、情報共有、モデル圧縮などを実現する強力なディープラーニング技術として登場しました。 ハイパーネットは、連続学習、因果推論、移動学習、ウェイトプルーニング、不確実性定量化、ゼロショット学習、自然言語処理、強化学習など、様々なディープラーニング問題において有望な結果を示している。 さまざまな問題設定で成功したにもかかわらず、現在、研究者に開発状況やハイパーネットの利用を知らせるレビューは行われていない。 このギャップを埋めるため、ハイパーネットの進展をレビューする。 本稿では,ハイパーネットを用いたディープニューラルネットワークの学習例を示し,入力,出力,入力と出力の可変性,ハイパーネットのアーキテクチャという5つの設計基準に基づくハイパーネットの分類を提案する。 また,様々な深層学習問題におけるハイパーネットの応用について検討し,ハイパーネットを効果的に活用できる一般的なシナリオについて考察した。 最後に,ハイパーネット分野における課題と今後の方向性について考察する。 ハイパーネットワークはディープラーニングの分野に革命を起こす可能性があると考えています。 彼らはニューラルネットワークを設計し、訓練する新しい方法を提供し、さまざまなタスクにおけるディープラーニングモデルのパフォーマンスを改善する可能性を秘めている。 このレビューを通じて、ハイパーネットワークによるディープラーニングのさらなる進歩を促すことを目指している。

Hypernetworks, or hypernets in short, are neural networks that generate weights for another neural network, known as the target network. They have emerged as a powerful deep learning technique that allows for greater flexibility, adaptability, dynamism, faster training, information sharing, and model compression etc. Hypernets have shown promising results in a variety of deep learning problems, including continual learning, causal inference, transfer learning, weight pruning, uncertainty quantification, zero-shot learning, natural language processing, and reinforcement learning etc. Despite their success across different problem settings, currently, there is no review available to inform the researchers about the developments and to help in utilizing hypernets. To fill this gap, we review the progress in hypernets. We present an illustrative example to train deep neural networks using hypernets and propose categorizing hypernets based on five design criteria as inputs, outputs, variability of inputs and outputs, and architecture of hypernets. We also review applications of hypernets across different deep learning problem settings, followed by a discussion of general scenarios where hypernets can be effectively employed. Finally, we discuss the challenges and future directions that remain under-explored in the field of hypernets. We believe that hypernetworks have the potential to revolutionize the field of deep learning. They offer a new way to design and train neural networks, and they have the potential to improve the performance of deep learning models on a variety of tasks. Through this review, we aim to inspire further advancements in deep learning through hypernetworks.
翻訳日:2023-08-11 15:49:39 公開日:2023-08-10
# イベント型オントロジーの拡張:微調整されたllms提案を用いた動詞とクラスの追加

Extending an Event-type Ontology: Adding Verbs and Classes Using Fine-tuned LLMs Suggestions ( http://arxiv.org/abs/2306.02130v2 )

ライセンス: Link先を確認
Jana Strakov\'a, Eva Fu\v{c}\'ikov\'a, Jan Haji\v{c}, Zde\v{n}ka Ure\v{s}ov\'a(参考訳) 本研究では,既存のイベントタイプのオントロジーに記述語(verbs)を追加するという,語彙拡張タスクのためのデータの事前アノテーションを行うための,高度な機械学習手法,特に微調整された大規模言語モデルの利用について検討した。 既存のクラスに割り当てられない動詞を識別するためのしきい値を見つけ出し、新しいクラスの種として使用するために、アノテータにどの動詞を含めるべきか、または現在のオントロジーの外にある動詞を少なくともヒントを提供するためのヒューリスティックスの研究から、アノテータがより効率的になるように自動スコアを使用することまで、いくつかの研究課題が注目されてきた。 また,自動スコアと注記との相関についても慎重に検討した。 相関性は強いが、アノテーションの固有性に対する影響は、そのような事前アノテーションの事実が比較的短いアノテーション時間につながるにもかかわらず、その線形性から控えめであることがわかった。

In this project, we have investigated the use of advanced machine learning methods, specifically fine-tuned large language models, for pre-annotating data for a lexical extension task, namely adding descriptive words (verbs) to an existing (but incomplete, as of yet) ontology of event types. Several research questions have been focused on, from the investigation of a possible heuristics to provide at least hints to annotators which verbs to include and which are outside the current version of the ontology, to the possible use of the automatic scores to help the annotators to be more efficient in finding a threshold for identifying verbs that cannot be assigned to any existing class and therefore they are to be used as seeds for a new class. We have also carefully examined the correlation of the automatic scores with the human annotation. While the correlation turned out to be strong, its influence on the annotation proper is modest due to its near linearity, even though the mere fact of such pre-annotation leads to relatively short annotation times.
翻訳日:2023-08-11 15:48:42 公開日:2023-08-10
# 光ニューラルネットワークの前方トレーニング

Forward-Forward Training of an Optical Neural Network ( http://arxiv.org/abs/2305.19170v2 )

ライセンス: Link先を確認
Ilker Oguz, Junjie Ke, Qifei Wang, Feng Yang, Mustafa Yildirim, Niyazi Ulas Dinc, Jih-Liang Hsieh, Christophe Moser and Demetri Psaltis(参考訳) ニューラルネットワーク(NN)は様々なタスクにおいて顕著な能力を示しているが、その計算集約性はより高速でエネルギー効率の高いハードウェア実装を必要とする。 シリコンフォトニクスや空間光変調器などの技術を用いた光学ベースのプラットフォームは、この目標を達成するための有望な道を提供する。 しかしながら、これらの物理システムと連動して複数のトレーニング可能なレイヤをトレーニングすることは、完全に特徴付け、異なる関数で記述することが困難であるため、エラーバックプロパゲーションアルゴリズムの使用を妨げる。 最近導入された Forward-Forward Algorithm (FFA) は、学習システムの完全な特徴付けの必要性を排除し、多数のプログラム可能なパラメータによる効率的なトレーニングを約束する。 FFAは重みを更新するためにエラー信号のバックプロパゲートを必要としないが、重みは1方向に情報を送るだけで更新される。 各トレーニング可能なウェイトに対する局所損失関数は、メタヒューリスティックアルゴリズムや強化学習に頼ることなく、低消費電力アナログハードウェアの実装を可能にする。 本稿では,光ファイバにおける多モード非線形波動伝搬を用いた実験を行い,光システムを用いたffa手法の実現可能性を示す。 その結果、FFAで訓練された多層NNアーキテクチャに光変換を組み込むことで、比較的少数のトレーニング可能な重量でも性能が向上することを示した。 提案手法は,光NNのトレーニングにおける新たなパスを提供し,NN性能向上のための物理変換の活用に関する洞察を提供する。

Neural networks (NN) have demonstrated remarkable capabilities in various tasks, but their computation-intensive nature demands faster and more energy-efficient hardware implementations. Optics-based platforms, using technologies such as silicon photonics and spatial light modulators, offer promising avenues for achieving this goal. However, training multiple trainable layers in tandem with these physical systems poses challenges, as they are difficult to fully characterize and describe with differentiable functions, hindering the use of error backpropagation algorithm. The recently introduced Forward-Forward Algorithm (FFA) eliminates the need for perfect characterization of the learning system and shows promise for efficient training with large numbers of programmable parameters. The FFA does not require backpropagating an error signal to update the weights, rather the weights are updated by only sending information in one direction. The local loss function for each set of trainable weights enables low-power analog hardware implementations without resorting to metaheuristic algorithms or reinforcement learning. In this paper, we present an experiment utilizing multimode nonlinear wave propagation in an optical fiber demonstrating the feasibility of the FFA approach using an optical system. The results show that incorporating optical transforms in multilayer NN architectures trained with the FFA, can lead to performance improvements, even with a relatively small number of trainable weights. The proposed method offers a new path to the challenge of training optical NNs and provides insights into leveraging physical transformations for enhancing NN performance.
翻訳日:2023-08-11 15:48:21 公開日:2023-08-10
# ナノスケールにおける効率的な量子作業貯水池

Efficient Quantum Work Reservoirs at the Nanoscale ( http://arxiv.org/abs/2305.17815v2 )

ライセンス: Link先を確認
Jinghao Lyu and Alexander B. Boyd and James P. Crutchfield(参考訳) 資源理論として再編成されると、熱力学は単発のレジームでシステムの挙動を解析できる。 この場合、状態遷移を実装するのに必要な作業は$\alpha$-Renyiの発散によってバウンドされるため、確率的熱力学と比較して効率的な演算の特定が異なる。 したがって, 確率的熱力学と資源論的熱力学との差を詳細に理解する必要がある。 そこで本研究では,単発システムにおける可逆性について検討し,多段作業貯水池に使用する2段作業貯水池を一般化した。 これにより、単発体制におけるあらゆる遷移において可逆性が得られる。 そこで我々は,非散逸状態の多層作業貯水池を触媒と無触媒で体系的に探索する。 資源理論的な結果から、ランダウアーの制約下にある2段階の作業貯水池は、計算中のエネルギー散逸を誤解を招く。 対照的に,マルチレベル作業貯水池はランドウアーの束縛を達成し,エントロピーをゼロにする。

When reformulated as a resource theory, thermodynamics can analyze system behaviors in the single-shot regime. In this, the work required to implement state transitions is bounded by $\alpha$-Renyi divergences and so differs in identifying efficient operations compared to stochastic thermodynamics. Thus, a detailed understanding of the difference between stochastic thermodynamics and resource-theoretic thermodynamics is needed. To this end, we study reversibility in the single-shot regime, generalizing the two-level work reservoirs used there to multi-level work reservoirs. This achieves reversibility in any transition in the single-shot regime. Building on this, we systematically explore multi-level work reservoirs in the nondissipation regime with and without catalysts. The resource-theoretic results show that two-level work reservoirs undershoot Landauer's bound, misleadingly implying energy dissipation during computation. In contrast, we demonstrate that multi-level work reservoirs achieve Landauer's bound and produce zero entropy.
翻訳日:2023-08-11 15:47:57 公開日:2023-08-10
# グラフを用いた不規則サンプリング時系列予測

Forecasting Irregularly Sampled Time Series using Graphs ( http://arxiv.org/abs/2305.12932v2 )

ライセンス: Link先を確認
Vijaya Krishna Yalavarthi, Kiran Madhusudhanan, Randolf Sholz, Nourhan Ahmed, Johannes Burchert, Shayan Jawed, Stefan Born, Lars Schmidt-Thieme(参考訳) 不規則にサンプリングされた時系列の予測は、医療、天文学、気候科学といった現実世界の多くの応用にとって重要な課題である。 この問題に対する最先端のアプローチは通常の微分方程式(ode)に依存している。 この問題に対処するため,不規則にサンプリングされた時系列の予測にグラフを用いた新しいモデルを提案する。 GraFITiはまず、その時系列をスパース二部グラフであるスパーシティ構造グラフに変換し、次にグラフのエッジウェイト予測タスクとして予測問題を再構成する。 グラフニューラルネットワークのパワーを使って、グラフを学習し、ターゲットのエッジウェイトを予測する。 GraFITiは3つの実世界と1つの合成不規則なサンプル時系列データセットでテストされている。 実験結果から,GraFITiは予測精度を最大17%向上し,最先端の予測モデルと比較してランニング時間を最大5倍削減できることがわかった。

Forecasting irregularly sampled time series with missing values is a crucial task for numerous real-world applications such as healthcare, astronomy, and climate sciences. State-of-the-art approaches to this problem rely on Ordinary Differential Equations (ODEs) which are known to be slow and often require additional features to handle missing values. To address this issue, we propose a novel model using Graphs for Forecasting Irregularly Sampled Time Series with missing values which we call GraFITi. GraFITi first converts the time series to a Sparsity Structure Graph which is a sparse bipartite graph, and then reformulates the forecasting problem as the edge weight prediction task in the graph. It uses the power of Graph Neural Networks to learn the graph and predict the target edge weights. GraFITi has been tested on 3 real-world and 1 synthetic irregularly sampled time series dataset with missing values and compared with various state-of-the-art models. The experimental results demonstrate that GraFITi improves the forecasting accuracy by up to 17% and reduces the run time up to 5 times compared to the state-of-the-art forecasting models.
翻訳日:2023-08-11 15:47:39 公開日:2023-08-10
# 距離測度空間におけるランダム探索からバンディット学習へ

From Random Search to Bandit Learning in Metric Measure Spaces ( http://arxiv.org/abs/2305.11509v4 )

ライセンス: Link先を確認
Chuying Han, Yasong Feng, Tianyu Wang(参考訳) ランダム検索はハイパーパラメータ最適化の最も広く使われている手法の1つであり、ディープラーニングモデルの成功に不可欠である。 驚くべき性能にもかかわらず、基礎となる作用機構を記述するために非ヒューリスティック理論はほとんど開発されていない。 本稿ではランダム探索に関する理論的考察を行う。 本稿では,基礎となる関数のランドスケープを記述する「emph{scattering dimension}」の概念を導入し,ランダム探索の性能を定量化する。 環境がノイズのない場合、ランダム探索の出力はレート $ \widetilde{\mathcal{o}} \left( \left( \frac{1}{t} \right)^{ \frac{1}{d_s} } \right) $ の確率において最適値に収束する。 観測された関数値が有界な$iid$ノイズによって破損した場合、ランダム探索の出力は、$ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right)$で確率の最適値に収束する。 さらに、ランダム探索の原理に基づいて、確率測度も同時に与えられるような距離空間の2倍化におけるリプシッツブライトに対して、BLiN-MOSと呼ばれるアルゴリズムを導入し、BLiN-MOSが次数$ \widetilde{\mathcal{O}} \left(T^{ \frac{d_z}{d_z + 1} } \right) $ を満たすことを示す。

Random Search is one of the most widely-used method for Hyperparameter Optimization, and is critical to the success of deep learning models. Despite its astonishing performance, little non-heuristic theory has been developed to describe the underlying working mechanism. This paper gives a theoretical accounting of Random Search. We introduce the concept of \emph{scattering dimension} that describes the landscape of the underlying function, and quantifies the performance of random search. We show that, when the environment is noise-free, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s} } \right) $, where $ d_s \ge 0 $ is the scattering dimension of the underlying function. When the observed function values are corrupted by bounded $iid$ noise, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right) $. In addition, based on the principles of random search, we introduce an algorithm, called BLiN-MOS, for Lipschitz bandits in doubling metric spaces that are also endowed with a probability measure, and show that BLiN-MOS achieves a regret rate of order $ \widetilde{\mathcal{O}} \left( T^{ \frac{d_z}{d_z + 1} } \right) $, where $d_z$ is the zooming dimension of the problem instance.
翻訳日:2023-08-11 15:47:20 公開日:2023-08-10
# 光プラズマ発光のベイズ最適化による組成制御による窒化薄膜の自律スパッタ合成

Autonomous sputter synthesis of thin film nitrides with composition controlled by Bayesian optimization of optical plasma emission ( http://arxiv.org/abs/2305.11122v3 )

ライセンス: Link先を確認
Davi M. Febba, Kevin R. Talley, Kendal Johnson, Stephen Schaefer, Sage R. Bauers, John S. Mangum, Rebecca W. Smaha, Andriy Zakutayev(参考訳) 自律実験は、材料発見のペースを加速するための効率的なアプローチとして登場した。 分子・高分子科学において自律合成のための機器が普及し、ハイブリッド材料やナノ粒子の溶液処理が盛んに行われているが、物理的蒸着のための自律的ツールの例は半導体産業ではあまり重要ではない。 本稿では,Pythonでカスタム制御された高自動スパッタリングリアクター,光発光分光法(OES),ベイズ最適化アルゴリズムを活用する,制御された組成の薄膜のスパッタ堆積のための自律的ワークフローの設計と実装について報告する。 N$2$大気中におけるZnおよびTiターゲットの共スパッタ中に観測される発光線の線形関数として, 蛍光X線で測定した薄膜組成をモデル化した。 OESに通知されたベイズ制御アルゴリズムは、所望の放出信号と測定された放出信号の絶対誤差を最小化することにより、スパッタリングパワーの空間をユーザ定義の組成で製造する。 我々は, Zn$_x$Ti$_{1-x}$N$_y$薄膜を, 15nmの薄膜であっても相対3.5%の範囲内でターゲットカチオン組成から逸脱して自動で作製し, 提案手法が特定の組成で確実に薄膜を合成し, 人間の干渉を最小限に抑えることを示した。 さらに, プラズマ強度が非直線的に圧力に依存する, あるいは素子付着係数が基板温度に強く依存する, より難しい合成実験まで拡張することができる。

Autonomous experimentation has emerged as an efficient approach to accelerate the pace of materials discovery. Although instruments for autonomous synthesis have become popular in molecular and polymer science, solution processing of hybrid materials and nanoparticles, examples of autonomous tools for physical vapor deposition are scarce yet important for the semiconductor industry. Here, we report the design and implementation of an autonomous workflow for sputter deposition of thin films with controlled composition, leveraging a highly automated sputtering reactor custom-controlled by Python, optical emission spectroscopy (OES), and a Bayesian optimization algorithm. We modeled film composition, measured by x-ray fluorescence, as a linear function of emission lines monitored during the co-sputtering from elemental Zn and Ti targets in N$_2$ atmosphere. A Bayesian control algorithm, informed by OES, navigates the space of sputtering power to fabricate films with user-defined composition, by minimizing the absolute error between desired and measured emission signals. We validated our approach by autonomously fabricating Zn$_x$Ti$_{1-x}$N$_y$ films with deviations from the targeted cation composition within relative 3.5 %, even for 15 nm thin films, demonstrating that the proposed approach can reliably synthesize thin films with specific composition and minimal human interference. Moreover, the proposed method can be extended to more difficult synthesis experiments where plasma intensity depends non-linearly on pressure, or the elemental sticking coefficients strongly depend on the substrate temperature.
翻訳日:2023-08-11 15:46:36 公開日:2023-08-10
# mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion ( http://arxiv.org/abs/2307.01097v4 )

ライセンス: Link先を確認
Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa(参考訳) 本稿では,画素間対応が与えられたテキストプロンプト(例えば,パノラマからの視点作物や深度マップやポーズが与えられたマルチビュー画像など)から一貫したマルチビュー画像を生成する,単純かつ効果的な手法であるmvdiffusionを提案する。 反復的な画像ワープや塗装に依存する従来の方法とは異なり、MVDiffusionはグローバルな認識で全ての画像を同時に生成する。 MVDiffusionのコアとなるのは、事前訓練されたテキスト-画像拡散モデルと平行に視点画像を処理し、新しい対応対応型アテンション層を統合して、クロスビューインタラクションを容易にすることである。 パノラマ生成では、10kパノラマでしか訓練されていないが、MVDiffusionは任意のテキストに対して高解像度のフォトリアリスティック画像を生成することができる。 多視点深度画像生成では、MVDiffusionはシーンメッシュのテクスチャ化のための最先端性能を示す。 プロジェクトページはhttps://mvdiffusion.github.io/にある。

This paper introduces MVDiffusion, a simple yet effective method for generating consistent multi-view images from text prompts given pixel-to-pixel correspondences (e.g., perspective crops from a panorama or multi-view images given depth maps and poses). Unlike prior methods that rely on iterative image warping and inpainting, MVDiffusion simultaneously generates all images with a global awareness, effectively addressing the prevalent error accumulation issue. At its core, MVDiffusion processes perspective images in parallel with a pre-trained text-to-image diffusion model, while integrating novel correspondence-aware attention layers to facilitate cross-view interactions. For panorama generation, while only trained with 10k panoramas, MVDiffusion is able to generate high-resolution photorealistic images for arbitrary texts or extrapolate one perspective image to a 360-degree view. For multi-view depth-to-image generation, MVDiffusion demonstrates state-of-the-art performance for texturing a scene mesh. The project page is at https://mvdiffusion.github.io/.
翻訳日:2023-08-11 15:38:10 公開日:2023-08-10
# 一般モデルに対するランダム化群ラスソ推定器を用いた選択推論

Selective inference using randomized group lasso estimators for general models ( http://arxiv.org/abs/2306.13829v2 )

ライセンス: Link先を確認
Yiling Huang, Sarah Pirenne, Snigdha Panigrahi, Gerda Claeskens(参考訳) 多様な分布と損失関数を持つ群ラッソ推定器に対して選択的推論法を開発した。 この方法は指数関数的家族分布の使用や、過剰分散数データに対する準類似モデリングなどを含み、連続共変量と同様に分類的あるいはグループ化された共変量も可能である。 ランダム化群正規化最適化問題について検討する。 追加のランダム化により、群付き共変量の選択のイベントを条件付ける際に、選択推論に適していることを示す選択後可能性を構築することができる。 この可能性はまた、群 lasso の選択を考慮した選択点推定器を提供する。 選択されたモデルにおける回帰パラメータの信頼領域は、ウォルド型領域の形式をとり、境界体積を持つことを示す。 本手法は,全国保健栄養検査調査から得られたデータに基づいて,その行動と他の手法との比較をシミュレーションにより示すものである。

Selective inference methods are developed for group lasso estimators for use with a wide class of distributions and loss functions. The method includes the use of exponential family distributions, as well as quasi-likelihood modeling for overdispersed count data, for example, and allows for categorical or grouped covariates as well as continuous covariates. A randomized group-regularized optimization problem is studied. The added randomization allows us to construct a post-selection likelihood which we show to be adequate for selective inference when conditioning on the event of the selection of the grouped covariates. This likelihood also provides a selective point estimator, accounting for the selection by the group lasso. Confidence regions for the regression parameters in the selected model take the form of Wald-type regions and are shown to have bounded volume. The selective inference method for grouped lasso is illustrated on data from the national health and nutrition examination survey while simulations showcase its behaviour and favorable comparison with other methods.
翻訳日:2023-08-11 15:37:28 公開日:2023-08-10
# 明示的な遷移確率を持つ分離拡散モデル

Decoupled Diffusion Models with Explicit Transition Probability ( http://arxiv.org/abs/2306.13720v4 )

ライセンス: Link先を確認
Yuhang Huang and Zheng Qin and Xinwang Liu and Kai Xu(参考訳) 近年の拡散確率モデル (DPM) は, 生成物の顕著な性能を示すが, 複雑な前処理に悩まされることが多く, 逆処理やサンプリング時間の短縮が困難である。 本稿では, 複雑な拡散過程を2つの比較的単純なプロセスに分離し, 生成効率と速度を改善することを提案する拡散過程自体に着目し, 上記の課題に対処することを目的とする。 特に, ito拡散過程に基づくddm (decoupled diffusion models) と呼ばれる新しい拡散パラダイムを提案し, 雑音経路を標準ワイナー過程で制御しながら, 画像分布を明示的な遷移確率で近似する。 拡散過程の疎結合は学習の難しさを低減し、明示的な遷移確率は生成速度を大幅に向上させる。 我々はDPMの新しい学習目標を証明し、モデルが別々にノイズや画像成分を予測することを学べるようにした。 さらに、新しい前方拡散方程式を考えると、通常の微分方程式(ODE)ベースの加速器を使わずに、自然に生成のステップを少なくするDDMの逆分解式を導出する。 実験により,ddmは従来のdpmよりも少ない機能評価設定で大きな差を示し,長機能評価設定で同等の性能を得た。 また,このフレームワークは画像条件付き生成や高解像度画像合成にも適用可能であること,また,10機能評価のみで高品質な画像を生成することができることを示す。

Recent diffusion probabilistic models (DPMs) have shown remarkable abilities of generated content, however, they often suffer from complex forward processes, resulting in inefficient solutions for the reversed process and prolonged sampling times. In this paper, we aim to address the aforementioned challenges by focusing on the diffusion process itself that we propose to decouple the intricate diffusion process into two comparatively simpler process to improve the generative efficacy and speed. In particular, we present a novel diffusion paradigm named DDM (Decoupled Diffusion Models) based on the Ito diffusion process, in which the image distribution is approximated by an explicit transition probability while the noise path is controlled by the standard Wiener process. We find that decoupling the diffusion process reduces the learning difficulty and the explicit transition probability improves the generative speed significantly. We prove a new training objective for DPM, which enables the model to learn to predict the noise and image components separately. Moreover, given the novel forward diffusion equation, we derive the reverse denoising formula of DDM that naturally supports fewer steps of generation without ordinary differential equation (ODE) based accelerators. Our experiments demonstrate that DDM outperforms previous DPMs by a large margin in fewer function evaluations setting and gets comparable performances in long function evaluations setting. We also show that our framework can be applied to image-conditioned generation and high-resolution image synthesis, and that it can generate high-quality images with only 10 function evaluations.
翻訳日:2023-08-11 15:36:48 公開日:2023-08-10
# 確率分布を負荷する量子生成逆ネットワークのための新しい初期分布

A New Initial Distribution for Quantum Generative Adversarial Networks to Load Probability Distributions ( http://arxiv.org/abs/2306.12303v2 )

ライセンス: Link先を確認
Yuichi Sano, Ryosuke Koga, Masaya Abe, Kei Nakagawa(参考訳) 量子コンピュータは、古典的コンピュータよりも早く特定の問題を解く能力に注目が集まっており、例えば金融などの分野で広く使われているモンテカルロ法を加速する量子期待推定アルゴリズムがある。 先程の研究では、生成逆数ネットワーク(GAN)の量子回路バージョンである量子生成逆数ネットワーク(qGANs)が、浅い量子回路における量子期待推定アルゴリズムに必要な確率分布を生成できることが示されている。 しかし、以前の研究では、生成した分布の収束速度と精度は、qGANs発生器の初期分布によって大きく異なることが示唆されている。 特に、正規分布を初期分布として用いる効果は主張されているが、深い量子回路が必要であり、これはqGANの利点を失う可能性がある。 そこで本研究では,qganの学習効率を向上させるための初期分布生成法を提案する。 浅層量子回路における様々な確率分布を生成するためにラベル置換の古典過程を用いる。 提案手法は, 財務工学において重要な対数正規分布と, 三角分布と双モード分布を, 現在の方法よりも効率的に生成できることを実証する。 さらに,本研究で提案した初期分布は,qGANの初期重みを決定する問題と関連していることを示す。

Quantum computers are gaining attention for their ability to solve certain problems faster than classical computers, and one example is the quantum expectation estimation algorithm that accelerates the widely-used Monte Carlo method in fields such as finance. A previous study has shown that quantum generative adversarial networks(qGANs), a quantum circuit version of generative adversarial networks(GANs), can generate the probability distribution necessary for the quantum expectation estimation algorithm in shallow quantum circuits. However, a previous study has also suggested that the convergence speed and accuracy of the generated distribution can vary greatly depending on the initial distribution of qGANs' generator. In particular, the effectiveness of using a normal distribution as the initial distribution has been claimed, but it requires a deep quantum circuit, which may lose the advantage of qGANs. Therefore, in this study, we propose a novel method for generating an initial distribution that improves the learning efficiency of qGANs. Our method uses the classical process of label replacement to generate various probability distributions in shallow quantum circuits. We demonstrate that our proposed method can generate the log-normal distribution, which is pivotal in financial engineering, as well as the triangular distribution and the bimodal distribution, more efficiently than current methods. Additionally, we show that the initial distribution proposed in our research is related to the problem of determining the initial weights for qGANs.
翻訳日:2023-08-11 15:36:22 公開日:2023-08-10
# Dzyaloshinskii-Moriya相互作用を持つXXZハイゼンベルクモデルにおけるロバスト一方向ファントムヘリックス状態

Robust unidirectional phantom helix states in the XXZ Heisenberg model with Dzyaloshinskii-Moriya interaction ( http://arxiv.org/abs/2306.11578v3 )

ライセンス: Link先を確認
Y. B. Shi and Z. Song(参考訳) ファントム・ヘリックス状態(phantom helix states)は、ゼロエネルギーの周りのエネルギー準位にあり、双方向に等しいxxzハイゼンベルク模型の退化固有状態の特別な集合である。 本研究では,dmi(dzyaloshinskii-moriya interaction)を用いてxxzハイゼンベルク模型のヘリックス状態について検討する。 一方向のヘリックス状態のみが共鳴DMIの存在下で変化しないことを示す。 Holstein--Primakoff(HP)変換に基づいて、量子スピンモデルをボソンモデルにマッピングすることで、基礎となるメカニズムを理解することができる。 さらに、そのような幻状態が強いDMIによってスペクトルから分離され、状態の堅牢性を高めることも示している。 数値シミュレーションにより一方向ファントムヘリックス状態の動的形成過程を示す。 その結果,DMIは高い効率でフィルタとして機能することが示唆された。

The phantom helix states are a special set of degenerate eigenstates of the XXZ Heisenberg model, which lie in the energy levels around zero energy and are bidirectionally equal. In this work, we study the helix state in the XXZ Heisenberg model with the Dzyaloshinskii-Moriya interaction (DMI). We show exactly that only the helix states in one direction remain unchanged in the presence of resonant DMI. Based on the Holstein--Primakoff (HP) transformation, the quantum spin model is mapped to a boson model, which allows us to understand the underlying mechanism. Furthermore, it also indicates that such phantom states can be separated from the spectrum by the strong DMI to enhance the robustness of the states. We demonstrate the dynamic formation processes of unidirectional phantom helix states by numerical simulations. The results indicate that the DMI as expected acts as a filter with high efficiency.
翻訳日:2023-08-11 15:35:59 公開日:2023-08-10
# RemoteCLIP:リモートセンシングのためのビジョン言語基礎モデル

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing ( http://arxiv.org/abs/2306.11029v2 )

ライセンス: Link先を確認
Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Jun Zhou(参考訳) 汎用基礎モデルは人工知能の分野でますます重要になっている。 自己教師付き学習 (SSL) と Masked Image Modeling (MIM) は、リモートセンシングのための基礎モデルを構築する上で有望な結果をもたらしたが、これらのモデルは、主に低レベルの特徴を学習し、微調整のために注釈付きデータを必要とし、言語理解の欠如のために検索やゼロショットアプリケーションには適用できない。 これらの制約に対応するために,我々は,リモートセンシングのための最初の視覚言語基盤モデルであるremoteclipを提案する。 事前学習データの不足に対処するため、データスケーリングを活用し、Box-to-Caption(B2C)とMask-to-Box(M2B)の変換に基づく異種アノテーションを変換し、さらにUAVイメージを取り入れ、12倍の事前学習データセットを生成する。 リモートCLIPは、ゼロショット画像分類、線形探索、k-NN分類、少数ショット分類、画像テキスト検索、オブジェクトカウントなど、さまざまな下流タスクに適用できる。 オブジェクトカウント能力をテストするために新たに導入されたRemoteCountベンチマークを含む16のデータセットの評価によると、RemoteCLIPは、さまざまなモデルスケールでベースライン基盤モデルを一貫して上回っている。 驚くべきことに、RemoteCLIPは以前のSoTAを9.14%上回り、RSICDデータセットでは8.92%上回った。 ゼロショット分類では、我々のRemoteCLIPは12の下流データセットでCLIPベースラインを6.39%平均精度で上回ります。

General-purpose foundation models have become increasingly important in the field of artificial intelligence. While self-supervised learning (SSL) and Masked Image Modeling (MIM) have led to promising results in building such foundation models for remote sensing, these models primarily learn low-level features, require annotated data for fine-tuning, and not applicable for retrieval and zero-shot applications due to the lack of language understanding. In response to these limitations, we propose RemoteCLIP, the first vision-language foundation model for remote sensing that aims to learn robust visual features with rich semantics, as well as aligned text embeddings for seamless downstream application. To address the scarcity of pre-training data, we leverage data scaling, converting heterogeneous annotations based on Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion, and further incorporating UAV imagery, resulting a 12xlarger pretraining dataset. RemoteCLIP can be applied to a variety of downstream tasks, including zero-shot image classification, linear probing, k-NN classification, few-shot classification, image-text retrieval, and object counting. Evaluations on 16 datasets, including a newly introduced RemoteCount benchmark to test the object counting ability, show that RemoteCLIP consistently outperforms baseline foundation models across different model scales. Impressively, RemoteCLIP outperform previous SoTA by 9.14% mean recall on RSICD dataset and by 8.92% on RSICD dataset. For zero-shot classification, our RemoteCLIP outperform CLIP baseline by up to 6.39% average accuracy on 12 downstream datasets.Pretrained models is available at https://github.com/ChenDelong1999/RemoteCLIP .
翻訳日:2023-08-11 15:35:41 公開日:2023-08-10
# STHG:空間時間不均一グラフ学習による高度なオーディオ・ビジュアルダイアリゼーション

STHG: Spatial-Temporal Heterogeneous Graph Learning for Advanced Audio-Visual Diarization ( http://arxiv.org/abs/2306.10608v2 )

ライセンス: Link先を確認
Kyle Min(参考訳) 本稿では,Ego4D Challenge 2023の音声・視覚ダイアリゼーションタスクにおけるSTHGという新しい手法を紹介する。 キーとなるイノベーションは、単一の一元的なグラフ学習フレームワークを使用して、ビデオ内のすべての話者をモデル化することです。 カメラ装着者のみに独立したコンポーネントを必要とする従来のアプローチとは異なり、STHGはカメラ装着者を含む全ての人の音声活動を共同で検出することができる。 最終手法はEgo4Dのテストセット上で61.1%のDERを得るが、これは昨年の勝者と同様に全てのベースラインを著しく上回っている。 Ego4D Challenge 2023で1位を獲得した。 また,本課題では,sthgによるダイアリゼーション音声セグメントに市販音声認識システムを適用することで,音声認識課題における競合性能が向上することを示す。

This report introduces our novel method named STHG for the Audio-Visual Diarization task of the Ego4D Challenge 2023. Our key innovation is that we model all the speakers in a video using a single, unified heterogeneous graph learning framework. Unlike previous approaches that require a separate component solely for the camera wearer, STHG can jointly detect the speech activities of all people including the camera wearer. Our final method obtains 61.1% DER on the test set of Ego4D, which significantly outperforms all the baselines as well as last year's winner. Our submission achieved 1st place in the Ego4D Challenge 2023. We additionally demonstrate that applying the off-the-shelf speech recognition system to the diarized speech segments by STHG produces a competitive performance on the Speech Transcription task of this challenge.
翻訳日:2023-08-11 15:35:05 公開日:2023-08-10
# FALL-E:フォリー音響合成モデルと戦略

FALL-E: A Foley Sound Synthesis Model and Strategies ( http://arxiv.org/abs/2306.09807v2 )

ライセンス: Link先を確認
Minsung Kang, Sangshin Oh, Hyeongi Moon, Kyungyun Lee, Ben Sangbae Chon(参考訳) 本稿では,フォリー合成システムFALL-Eとそのトレーニング/推論戦略を紹介する。 FALL-Eモデルは、低分解能スペクトログラム生成、スペクトル超解像、ボコーダからなるカスケード方式を採用している。 広範なデータセットを使用して、すべての音声関連モデルをスクラッチからトレーニングし、事前学習した言語モデルを使用しました。 我々はデータセット固有のテキストでモデルを条件付けし、テキスト入力に基づいて音質と記録環境を学習できるようにした。 さらに,外部言語モデルを利用してデータセットのテキスト記述を改善し,品質,コヒーレンス,多様性のための迅速なエンジニアリングを行った。 FALL-Eは、DCASE 2023のタスク7における聴取試験と同様に客観的な尺度によって評価された。 この提案は、ダイバーシティーのベストスコア、オーディオ品質の2位、フィットネスのクラスで3位を獲得しながら、平均で2位を達成した。

This paper introduces FALL-E, a foley synthesis system and its training/inference strategies. The FALL-E model employs a cascaded approach comprising low-resolution spectrogram generation, spectrogram super-resolution, and a vocoder. We trained every sound-related model from scratch using our extensive datasets, and utilized a pre-trained language model. We conditioned the model with dataset-specific texts, enabling it to learn sound quality and recording environment based on text input. Moreover, we leveraged external language models to improve text descriptions of our datasets and performed prompt engineering for quality, coherence, and diversity. FALL-E was evaluated by an objective measure as well as listening tests in the DCASE 2023 challenge Task 7. The submission achieved the second place on average, while achieving the best score for diversity, second place for audio quality, and third place for class fitness.
翻訳日:2023-08-11 15:34:50 公開日:2023-08-10
# ロバストなポイントクラウド認識のベンチマークと解析 - 敵の例を守るための小技

Benchmarking and Analyzing Robust Point Cloud Recognition: Bag of Tricks for Defending Adversarial Examples ( http://arxiv.org/abs/2307.16361v2 )

ライセンス: Link先を確認
Qiufan Ji, Lin Wang, Cong Shi, Shengshan Hu, Yingying Chen, Lichao Sun(参考訳) 3Dポイントクラウド認識のためのディープニューラルネットワーク(DNN)は、敵の例に対して脆弱であり、実践的なデプロイメントを脅かす。 近年、この問題に対処するための多くの研究努力がなされているが、3Dポイントの雲における敵の例の多様性は、2D画像よりも防御が難しい。 例えば、攻撃者はポイントの追加、シフト、削除によって敵の例を生成することができる。 したがって、既存の防衛戦略は、目に見えない雲の敵の例に対抗するのは難しい。 本稿では,まず,対向ロバスト性を評価するために,総合的かつ厳密なクラウド対向ロバスト性ベンチマークを構築し,防衛・攻撃手法の効果を詳細に把握する。 次に、既存の防御策をポイントクラウドの敵防衛に集め、これらのトリックの効果的な組み合わせを特定するために、広範囲かつ体系的な実験を行う。 さらに,様々な種類の点雲対向例を対向訓練に適用し,対向ロバスト性を大幅に向上させるハイブリッドトレーニング拡張手法を提案する。 これらのトリックを組み合わせることで、様々な攻撃に対して平均83.45\%の精度を達成する、より堅牢な防御フレームワークを構築し、堅牢な学習者を実現する能力を示す。 当社のコードベースは、下記のとおり、オープンソースです。

Deep Neural Networks (DNNs) for 3D point cloud recognition are vulnerable to adversarial examples, threatening their practical deployment. Despite the many research endeavors have been made to tackle this issue in recent years, the diversity of adversarial examples on 3D point clouds makes them more challenging to defend against than those on 2D images. For examples, attackers can generate adversarial examples by adding, shifting, or removing points. Consequently, existing defense strategies are hard to counter unseen point cloud adversarial examples. In this paper, we first establish a comprehensive, and rigorous point cloud adversarial robustness benchmark to evaluate adversarial robustness, which can provide a detailed understanding of the effects of the defense and attack methods. We then collect existing defense tricks in point cloud adversarial defenses and then perform extensive and systematic experiments to identify an effective combination of these tricks. Furthermore, we propose a hybrid training augmentation methods that consider various types of point cloud adversarial examples to adversarial training, significantly improving the adversarial robustness. By combining these tricks, we construct a more robust defense framework achieving an average accuracy of 83.45\% against various attacks, demonstrating its capability to enabling robust learners. Our codebase are open-sourced on: \url{https://github.com/qiufan319/benchmark_pc_attack.git}.
翻訳日:2023-08-11 15:30:20 公開日:2023-08-10
# 野生sarのためのコンピュータビジョンのオープン問題とpatricia wu-muradの探索

Open Problems in Computer Vision for Wilderness SAR and The Search for Patricia Wu-Murad ( http://arxiv.org/abs/2307.14527v2 )

ライセンス: Link先を確認
Thomas Manzini, Robin Murphy(参考訳) 本稿では,Wu-Murad wilderness search and rescue (WSAR) における2つのコンピュータビジョンシステム,効率的な教師付き学習モデル,および教師なしRXスペクトル分類器を98.9GBのドローン画像に適用する際の課題について述べる。 ドローン画像中の行方不明者を特定するための少なくとも19のアプローチと3つのデータセットが提案されているが、実際のWSAR操作で使用されたのは3つのアプローチ(監視されていない2と未知の構造の1)のみである。 これらの手法のうち、効率的なDETアーキテクチャと教師なしスペクトルRX分類器が最適に選択された。 効率的デットモデルは、heridalデータセットに適用され、最先端と統計的に等価なパフォーマンスを達成するものの、偽陽性(例えば、木足と岩を人として識別する)と偽陰性(例えば、検索チームのメンバーの識別に失敗した)の観点から実世界への変換に失敗した。 データセットに良い結果を示すアルゴリズムの実際的な貧弱な結果は、将来の研究の3つの領域を示唆している: 荒野sarのためのより現実的なデータセット、実際のwsar操作で収集できる様々なイメージをシームレスに処理できるコンピュータビジョンモデル、パフォーマンス測定のアライメントの改善。

This paper details the challenges in applying two computer vision systems, an EfficientDET supervised learning model and the unsupervised RX spectral classifier, to 98.9 GB of drone imagery from the Wu-Murad wilderness search and rescue (WSAR) effort in Japan and identifies 3 directions for future research. There have been at least 19 proposed approaches and 3 datasets aimed at locating missing persons in drone imagery, but only 3 approaches (2 unsupervised and 1 of an unknown structure) are referenced in the literature as having been used in an actual WSAR operation. Of these proposed approaches, the EfficientDET architecture and the unsupervised spectral RX classifier were selected as the most appropriate for this setting. The EfficientDET model was applied to the HERIDAL dataset and despite achieving performance that is statistically equivalent to the state-of-the-art, the model fails to translate to the real world in terms of false positives (e.g., identifying tree limbs and rocks as people), and false negatives (e.g., failing to identify members of the search team). The poor results in practice for algorithms that showed good results on datasets suggest 3 areas of future research: more realistic datasets for wilderness SAR, computer vision models that are capable of seamlessly handling the variety of imagery that can be collected during actual WSAR operations, and better alignment on performance measures.
翻訳日:2023-08-11 15:29:37 公開日:2023-08-10
# 人間のメッシュ回復のための高密度紫外線コンプリート学習

Learning Dense UV Completion for Human Mesh Recovery ( http://arxiv.org/abs/2307.11074v2 )

ライセンス: Link先を確認
Yanjun Wang, Qingping Sun, Wenjia Wang, Jun Ling, Zhongang Cai, Rong Xie, Li Song(参考訳) 単一画像からの人間のメッシュ再構築は、自己や物体、あるいは他の人間によって引き起こされるオクルージョンの存在下では困難である。 既存の手法では、人間の特徴を正確に分離できないか、機能補完のための適切な監督を欠いている。 本稿では,密接な対応地図を利用して閉塞処理を行う2段階の手法であるDense Inpainting Human Mesh Recovery (DIMR)を提案する。 提案手法は,高密度対応マップを用いて視覚的特徴を分離し,注目機能補完モジュールを用いた高密度UVマップ上での人間の特徴を補完する。 また、未使用の機能から学習するためのネットワークを誘導する機能拡張訓練手順を設計する。 提案手法を複数のデータセット上で評価し,その性能を他の手法と比較した。 広汎な実験により,従来のSOTA法よりも高い性能を示し,標準ベンチマーク(3DPW)において同等の結果が得られた。

Human mesh reconstruction from a single image is challenging in the presence of occlusion, which can be caused by self, objects, or other humans. Existing methods either fail to separate human features accurately or lack proper supervision for feature completion. In this paper, we propose Dense Inpainting Human Mesh Recovery (DIMR), a two-stage method that leverages dense correspondence maps to handle occlusion. Our method utilizes a dense correspondence map to separate visible human features and completes human features on a structured UV map dense human with an attention-based feature completion module. We also design a feature inpainting training procedure that guides the network to learn from unoccluded features. We evaluate our method on several datasets and demonstrate its superior performance under heavily occluded scenarios compared to other methods. Extensive experiments show that our method obviously outperforms prior SOTA methods on heavily occluded images and achieves comparable results on the standard benchmarks (3DPW).
翻訳日:2023-08-11 15:29:10 公開日:2023-08-10
# BoxDiff: トレーニング不要なボックス制約拡散を用いたテキスト・画像合成

BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion ( http://arxiv.org/abs/2307.10816v3 )

ライセンス: Link先を確認
Jinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang, Yefeng Zheng and Mike Zheng Shou(参考訳) 最近のテキストから画像への拡散モデルは、高品質な画像を生成する驚くべき能力を示している。 しかし、研究者は主にテキストプロンプトだけで画像の合成方法を研究した。 他のモダリティを条件として利用する研究もあるが、箱/マスク画像ペアや微調整時間など、かなりのペアデータが必要となる。 このようなペアデータには時間と労力がかかり、クローズドセットに制限されるため、オープンワールドにおけるアプリケーションのボトルネックになる可能性がある。 本稿では,ボックスやスクリブルなどのユーザ提供条件の最も単純な形式に焦点を当てる。 上記の問題を緩和するために,与えられた空間条件に固執する合成画像内のオブジェクトやコンテキストを制御するためのトレーニングフリーな手法を提案する。 具体的には、3つの空間的制約、すなわち、インナーボックス、アウターボックス、コーナー制約は、追加のトレーニングや大量のアノテートレイアウトデータを必要としない拡散モデルのデノイングステップにシームレスに統合される。 提案した制約は, 安定拡散モデルが高忠実で多様な概念カバレッジで合成できる能力を維持しつつ, 画像中の何とどこに表示すべきかを制御できることを示す。 コードはhttps://github.com/Sierkinhane/BoxDiffで公開されている。

Recent text-to-image diffusion models have demonstrated an astonishing capacity to generate high-quality images. However, researchers mainly studied the way of synthesizing images with only text prompts. While some works have explored using other modalities as conditions, considerable paired data, e.g., box/mask-image pairs, and fine-tuning time are required for nurturing models. As such paired data is time-consuming and labor-intensive to acquire and restricted to a closed set, this potentially becomes the bottleneck for applications in an open world. This paper focuses on the simplest form of user-provided conditions, e.g., box or scribble. To mitigate the aforementioned problem, we propose a training-free method to control objects and contexts in the synthesized images adhering to the given spatial conditions. Specifically, three spatial constraints, i.e., Inner-Box, Outer-Box, and Corner Constraints, are designed and seamlessly integrated into the denoising step of diffusion models, requiring no additional training and massive annotated layout data. Extensive results show that the proposed constraints can control what and where to present in the images while retaining the ability of the Stable Diffusion model to synthesize with high fidelity and diverse concept coverage. The code is publicly available at https://github.com/Sierkinhane/BoxDiff.
翻訳日:2023-08-11 15:28:55 公開日:2023-08-10
# ニューラルビデオ深度安定化装置

Neural Video Depth Stabilizer ( http://arxiv.org/abs/2307.08695v2 )

ライセンス: Link先を確認
Yiran Wang, Min Shi, Jiaqi Li, Zihao Huang, Zhiguo Cao, Jianming Zhang, Ke Xian, Guosheng Lin(参考訳) ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。 幾何的制約と再射影制約を用いて、単像深度モデルを微調整することで、時間的一貫性を実現する方法もある。 もうひとつのアプローチは、データから時間的一貫性を強制する方法を学ぶことだが、十分に設計されたモデルと十分なビデオ深度データが必要である。 これらの課題に対処するため,NVDS(Neural Video Depth Stabilizer)と呼ばれるプラグイン・アンド・プレイ・フレームワークを提案する。 また,200万フレーム以上のビデオ14,203本からなる大規模データセットであるvideo depth in the wild (vdw)を導入することで,我々の知識の中で最大の自然シーンビデオ深度データセットとなる。 提案手法をVDWデータセットと2つの公開ベンチマークで評価し,従来の手法と比較して,一貫性,精度,効率性を著しく向上したことを示す。 私たちの研究は、堅固なベースラインとして機能し、学習ベースのビデオ深度モデルのためのデータ基盤を提供します。 今後の研究のためにデータセットとコードをリリースします。

Video depth estimation aims to infer temporally consistent depth. Some methods achieve temporal consistency by finetuning a single-image depth model during test time using geometry and re-projection constraints, which is inefficient and not robust. An alternative approach is to learn how to enforce temporal consistency from data, but this requires well-designed models and sufficient video depth data. To address these challenges, we propose a plug-and-play framework called Neural Video Depth Stabilizer (NVDS) that stabilizes inconsistent depth estimations and can be applied to different single-image depth models without extra effort. We also introduce a large-scale dataset, Video Depth in the Wild (VDW), which consists of 14,203 videos with over two million frames, making it the largest natural-scene video depth dataset to our knowledge. We evaluate our method on the VDW dataset as well as two public benchmarks and demonstrate significant improvements in consistency, accuracy, and efficiency compared to previous approaches. Our work serves as a solid baseline and provides a data foundation for learning-based video depth models. We will release our dataset and code for future research.
翻訳日:2023-08-11 15:28:14 公開日:2023-08-10
# 信頼度・多様性・クラスバランスによるドメイン適応型3次元物体検出の再検討

Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and Class-balanced Pseudo-Labeling ( http://arxiv.org/abs/2307.07944v2 )

ライセンス: Link先を確認
Zhuoxiao Chen, Yadan Luo, Zheng Wang, Mahsa Baktashmotlagh, Zi Huang(参考訳) ドメイン適応型3Dオブジェクト検出において,疑似ラベリング技術を用いた教師なしドメイン適応(DA)が重要なアプローチとして浮上している。 既存のDA手法は,低品質な擬似ラベルの共存とクラス不均衡の問題により,マルチクラスのトレーニング環境に適用した場合,性能が大幅に低下する。 本稿では,全てのクラスを同時に検出する学習に適した新しいReDBフレームワークを提案する。 我々の手法は、分布が異なるターゲット領域上での自己学習を反復的に導くために、信頼性、ディバース、およびクラスベース擬似3Dボックスを生成する。 提案したクロスドメイン検査(CDE)は、環境不一致(ビーム数など)による破壊を軽減するため、コピーペースト対象インスタンスをソース環境に挿入して擬似ラベルの正しさを評価し、予測整合性を測定する。 計算オーバーヘッドを低減し、オブジェクトシフト(例えばスケールやポイント密度)を緩和するために、異なる幾何学的特徴にまたがる擬似ラベルオブジェクトを均一にダウンサンプルできるオーバーラップボックスカウント(obc)メトリックを設計する。 クラス間不均衡の問題に対処するため,疑似ラベル付きターゲットインスタンスとソースオブジェクトのクラスバランスを段階的に強化し,頻繁に出現するクラスと稀なクラスの両方において認識精度を高める。 ボクセルベース(SECOND)とポイントベース3D検出器(PointRCNN)の両方を用いた3つのベンチマークデータセットの実験結果から,提案したReDBアプローチが既存の3Dドメイン適応手法を大きなマージンで上回り,nuScenes $\rightarrow$ KITTIタスクにおいて23.15%のmAPを改善することを示した。 コードはhttps://github.com/zhuoxiao-chen/redb-da-3ddetで入手できる。

Unsupervised domain adaptation (DA) with the aid of pseudo labeling techniques has emerged as a crucial approach for domain-adaptive 3D object detection. While effective, existing DA methods suffer from a substantial drop in performance when applied to a multi-class training setting, due to the co-existence of low-quality pseudo labels and class imbalance issues. In this paper, we address this challenge by proposing a novel ReDB framework tailored for learning to detect all classes at once. Our approach produces Reliable, Diverse, and class-Balanced pseudo 3D boxes to iteratively guide the self-training on a distributionally different target domain. To alleviate disruptions caused by the environmental discrepancy (e.g., beam numbers), the proposed cross-domain examination (CDE) assesses the correctness of pseudo labels by copy-pasting target instances into a source environment and measuring the prediction consistency. To reduce computational overhead and mitigate the object shift (e.g., scales and point densities), we design an overlapped boxes counting (OBC) metric that allows to uniformly downsample pseudo-labeled objects across different geometric characteristics. To confront the issue of inter-class imbalance, we progressively augment the target point clouds with a class-balanced set of pseudo-labeled target instances and source objects, which boosts recognition accuracies on both frequently appearing and rare classes. Experimental results on three benchmark datasets using both voxel-based (i.e., SECOND) and point-based 3D detectors (i.e., PointRCNN) demonstrate that our proposed ReDB approach outperforms existing 3D domain adaptation methods by a large margin, improving 23.15% mAP on the nuScenes $\rightarrow$ KITTI task. The code is available at https://github.com/zhuoxiao-chen/ReDB-DA-3Ddet.
翻訳日:2023-08-11 15:27:09 公開日:2023-08-10
# ランダム木との比較による自然言語文のストラー数

Strahler Number of Natural Language Sentences in Comparison with Random Trees ( http://arxiv.org/abs/2307.02697v2 )

ライセンス: Link先を確認
Kumiko Tanaka-Ishii and Akira Tanaka(参考訳) ストラー数は当初、河川分岐の複雑さを特徴付けるために提案され、様々な応用を見出した。 本稿では,自然言語文木構造に対するシュトララー数の上限と下限の計算を提案する。 文法的にアノテートされたデータによる経験的な測定により、ストラフラーの自然言語文の数は、ストラフラー (1957) が報告したように川の分岐の例と同様に、ほぼ3または4であると示される。 この数値の背後にある理論から、文を処理するのに必要なメモリ量の制限が1つ低いことが分かる。 ストラー数を,文の処理に必要な記憶領域の数が解析に3~4であることを示す報告(abney and johnson, 1991; schuler et al., 2010)と,心理学的「魔法数」が3~5であることを示す報告書(cowan, 2001)とを説明する推論として考察する。 分析的および経験的分析により、ストラー数は一定ではないが対数的に増加することが示され、したがってストラー数は文の長さの範囲から導かれる。 さらに、ストラー数はランダム木に対して異なるものではなく、その起源は自然言語に特有ではないことを示唆している。

The Strahler number was originally proposed to characterize the complexity of river bifurcation and has found various applications. This article proposes computation of the Strahler number's upper and lower limits for natural language sentence tree structures. Through empirical measurements across grammatically annotated data, the Strahler number of natural language sentences is shown to be almost 3 or 4, similarly to the case of river bifurcation as reported by Strahler (1957). From the theory behind the number, we show that it is one kind of lower limit on the amount of memory required to process sentences. We consider the Strahler number to provide reasoning that explains reports showing that the number of required memory areas to process sentences is 3 to 4 for parsing (Abney and Johnson, 1991; Schuler et al., 2010), and reports indicating a psychological "magical number" of 3 to 5 (Cowan, 2001). An analytical and empirical analysis shows that the Strahler number is not constant but grows logarithmically; therefore, the Strahler number of sentences derives from the range of sentence lengths. Furthermore, the Strahler number is not different for random trees, which could suggest that its origin is not specific to natural language.
翻訳日:2023-08-11 15:26:32 公開日:2023-08-10
# neurodesからautoencodesへ - 幅変動ニューラルネットワークのための平均場制御フレームワーク

From NeurODEs to AutoencODEs: a mean-field control framework for width-varying Neural Networks ( http://arxiv.org/abs/2307.02279v2 )

ライセンス: Link先を確認
Cristina Cipriani, Massimo Fornasier and Alessandro Scagliotti(参考訳) Residual Neural Networks (ResNets) と連続時間制御システム (NeurODEs) の接続により、ニューラルネットワークの数学的解析が行われ、理論的および実用的意義の両方の興味深い結果が得られた。 しかし、NeurODEは構築によって一定の幅の層を記述することに制限されており、可変幅の層を持つディープラーニングアーキテクチャのモデリングには適さない。 本稿では,動的に駆動する制御フィールドの修正に基づいて,AutoencODEと呼ばれる連続時間オートエンコーダを提案する。 この適応により、従来のNeurODE用に考案された平均場制御フレームワークの拡張が可能になる。 この設定では、tikhonov正規化の低さに対処し、その結果、非凸コストの景観が生じる可能性がある。 高いチホノフ正則化で得られた大域的な結果はグローバルに保持されないが、損失関数が局所凸である領域で多くの結果が回復できることを示した。 理論的な知見に触発されて,残余接続を持つこの特定の種類のオートエンコーダに適したトレーニング手法を開発し,様々な例を用いて数値実験を行った。

The connection between Residual Neural Networks (ResNets) and continuous-time control systems (known as NeurODEs) has led to a mathematical analysis of neural networks which has provided interesting results of both theoretical and practical significance. However, by construction, NeurODEs have been limited to describing constant-width layers, making them unsuitable for modeling deep learning architectures with layers of variable width. In this paper, we propose a continuous-time Autoencoder, which we call AutoencODE, based on a modification of the controlled field that drives the dynamics. This adaptation enables the extension of the mean-field control framework originally devised for conventional NeurODEs. In this setting, we tackle the case of low Tikhonov regularization, resulting in potentially non-convex cost landscapes. While the global results obtained for high Tikhonov regularization may not hold globally, we show that many of them can be recovered in regions where the loss function is locally convex. Inspired by our theoretical findings, we develop a training method tailored to this specific type of Autoencoders with residual connections, and we validate our approach through numerical experiments conducted on various examples.
翻訳日:2023-08-11 15:26:06 公開日:2023-08-10
# DiffSynth:リアルタイムビデオ合成のための遅延インイテレーションデクリッカ

DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis ( http://arxiv.org/abs/2308.03463v3 )

ライセンス: Link先を確認
Zhongjie Duan, Lizhou You, Chengyu Wang, Cen Chen, Ziheng Wu, Weining Qian, Jun Huang(参考訳) 近年、拡散モデルが画像合成における最も強力なアプローチとして登場している。 しかし、これらのモデルをビデオ合成に直接適用することは、しばしば目立ったフリックングコンテンツにつながるため、課題となる。 最近提案されたゼロショット法は、フリックをある程度緩和するが、コヒーレントなビデオを生成するのに苦労している。 本稿では,画像合成パイプラインをビデオ合成パイプラインに変換する新しい手法であるDiffSynthを提案する。 DiffSynthは2つの重要なコンポーネントで構成されている。 潜像デクリッカリングフレームワークは、拡散モデルの潜像空間にビデオデクリッカリングを適用し、中間ステップにおけるフレッカの蓄積を効果的に防止する。 さらに、異なるフレーム内のオブジェクトをリマップし、それらをブレンドしてビデオ一貫性を高める、patch blending algorithmというビデオデクリッカーアルゴリズムを提案する。 diffsynthの顕著な利点の1つは、テキスト誘導ビデオスタイライゼーション、ファッションビデオ合成、画像誘導ビデオスタイライゼーション、ビデオ復元、および3dレンダリングなど、様々なビデオ合成タスクへの一般的な適用である。 テキスト誘導型ビデオスタイリングのタスクでは,チェリーピッキングなしで高品質な映像を合成することができる。 実験結果はDiffSynthの有効性を示した。 すべてのビデオはプロジェクトのページで見ることができる。 ソースコードもリリースされる予定だ。

In recent years, diffusion models have emerged as the most powerful approach in image synthesis. However, applying these models directly to video synthesis presents challenges, as it often leads to noticeable flickering contents. Although recently proposed zero-shot methods can alleviate flicker to some extent, we still struggle to generate coherent videos. In this paper, we propose DiffSynth, a novel approach that aims to convert image synthesis pipelines to video synthesis pipelines. DiffSynth consists of two key components: a latent in-iteration deflickering framework and a video deflickering algorithm. The latent in-iteration deflickering framework applies video deflickering to the latent space of diffusion models, effectively preventing flicker accumulation in intermediate steps. Additionally, we propose a video deflickering algorithm, named patch blending algorithm, that remaps objects in different frames and blends them together to enhance video consistency. One of the notable advantages of DiffSynth is its general applicability to various video synthesis tasks, including text-guided video stylization, fashion video synthesis, image-guided video stylization, video restoring, and 3D rendering. In the task of text-guided video stylization, we make it possible to synthesize high-quality videos without cherry-picking. The experimental results demonstrate the effectiveness of DiffSynth. All videos can be viewed on our project page. Source codes will also be released.
翻訳日:2023-08-11 15:18:25 公開日:2023-08-10
# HARU-NetによるNucleusセグメンテーションの強化:ハイブリッドアテンションに基づく残留U-Blocksネットワーク

Enhancing Nucleus Segmentation with HARU-Net: A Hybrid Attention Based Residual U-Blocks Network ( http://arxiv.org/abs/2308.03382v2 )

ライセンス: Link先を確認
Junzhou Chen, Qian Huang, Yulin Chen, Linyi Qian, Chengyuan Yu(参考訳) 核画像セグメンテーションは、解析、病理診断、分類において重要なステップであり、核セグメンテーションの品質に大きく依存している。 しかし、核の大きさの変化、ぼやけた核輪郭、不均一な染色、細胞クラスタリング、重なり合った細胞といった問題の複雑さは大きな課題となる。 現在の核分割法は主に核形態学や輪郭に基づくアプローチに依存している。 核形態に基づく手法は一般化能力に制限があり、不規則な形状の核を効果的に予測できないが、輪郭に基づく抽出法では重なり合う核を正確に分割することが困難である。 上記の問題に対処するために,ハイブリッドアテンションに基づく残差Uブロックを用いたデュアルブランチネットワークを提案する。 ネットワークは、目標情報と目標輪郭を同時に予測する。 さらに,ターゲット情報とターゲット輪郭を組み合わせた後処理法を導入し,重なり合う核を識別し,インスタンス分割画像を生成する。 ネットワーク内では,ネットワークからコンテキスト情報を効果的に抽出・統合するコンテキスト融合ブロック(cf-block)を提案する。 本手法の性能評価のために, 大規模定量的評価を行った。 実験により,BNS,MoNuSeg,CoNSeg,CPM-17データセットの最先端手法と比較して,提案手法の優れた性能を示した。

Nucleus image segmentation is a crucial step in the analysis, pathological diagnosis, and classification, which heavily relies on the quality of nucleus segmentation. However, the complexity of issues such as variations in nucleus size, blurred nucleus contours, uneven staining, cell clustering, and overlapping cells poses significant challenges. Current methods for nucleus segmentation primarily rely on nuclear morphology or contour-based approaches. Nuclear morphology-based methods exhibit limited generalization ability and struggle to effectively predict irregular-shaped nuclei, while contour-based extraction methods face challenges in accurately segmenting overlapping nuclei. To address the aforementioned issues, we propose a dual-branch network using hybrid attention based residual U-blocks for nucleus instance segmentation. The network simultaneously predicts target information and target contours. Additionally, we introduce a post-processing method that combines the target information and target contours to distinguish overlapping nuclei and generate an instance segmentation image. Within the network, we propose a context fusion block (CF-block) that effectively extracts and merges contextual information from the network. Extensive quantitative evaluations are conducted to assess the performance of our method. Experimental results demonstrate the superior performance of the proposed method compared to state-of-the-art approaches on the BNS, MoNuSeg, CoNSeg, and CPM-17 datasets.
翻訳日:2023-08-11 15:17:59 公開日:2023-08-10
# AI-GOMS: 大規模AI駆動グローバルオーシャンモデリングシステム

AI-GOMS: Large AI-Driven Global Ocean Modeling System ( http://arxiv.org/abs/2308.03152v2 )

ライセンス: Link先を確認
Wei Xiong, Yanfei Xiang, Hao Wu, Shuyi Zhou, Yuze Sun, Muyuan Ma, Xiaomeng Huang(参考訳) 海洋モデリングは海洋の物理的、化学的、生物学的過程をシミュレーションするための強力なツールであり、海洋科学研究と運用海洋学の基礎となっている。 現代の数値海洋モデリングは主に支配方程式と数値アルゴリズムからなる。 非線形不安定性,計算コスト,低再利用効率,高結合コストが,数値海洋モデリングのさらなる発展のボトルネックとなっている。 近年、科学計算における人工知能に基づくモデリングは、デジタル双対や科学シミュレーションの革命的な可能性を示しているが、数値海洋モデリングのボトルネックは解決されていない。 本稿では,AIによる大規模海洋モデリングシステムであるAI-GOMSについて紹介する。 AI-GOMSは、基本海洋変動予測のためのフーリエベースのMasked Autoencoder構造を持つバックボーンモデルと、局所的なダウンスケーリング、ウェーブデコーディング、生化学結合モジュールを含む軽量な微調整モデルから構成される。 AI-GOMSは、1/4{\deg}空間分解能で15の深さ層を持つ大洋の基本変数の30日間の予測で最高のパフォーマンスを達成した。 AI-GOMSは, 統計指標の優れた性能に加えて, 黒潮地域のメソスケール渦を1/12{\degの空間分解能と熱帯太平洋の海洋成層化でシミュレーションした。 AI-GOMSは、地球システムモデリングのための新しいバックボーンダウンストリームパラダイムを提供する。

Ocean modeling is a powerful tool for simulating the physical, chemical, and biological processes of the ocean, which is the foundation for marine science research and operational oceanography. Modern numerical ocean modeling mainly consists of governing equations and numerical algorithms. Nonlinear instability, computational expense, low reusability efficiency and high coupling costs have gradually become the main bottlenecks for the further development of numerical ocean modeling. Recently, artificial intelligence-based modeling in scientific computing has shown revolutionary potential for digital twins and scientific simulations, but the bottlenecks of numerical ocean modeling have not been further solved. Here, we present AI-GOMS, a large AI-driven global ocean modeling system, for accurate and efficient global ocean daily prediction. AI-GOMS consists of a backbone model with the Fourier-based Masked Autoencoder structure for basic ocean variable prediction and lightweight fine-tuning models incorporating regional downscaling, wave decoding, and biochemistry coupling modules. AI-GOMS has achieved the best performance in 30 days of prediction for the global ocean basic variables with 15 depth layers at 1/4{\deg} spatial resolution. Beyond the good performance in statistical metrics, AI-GOMS realizes the simulation of mesoscale eddies in the Kuroshio region at 1/12{\deg} spatial resolution and ocean stratification in the tropical Pacific Ocean. AI-GOMS provides a new backbone-downstream paradigm for Earth system modeling, which makes the system transferable, scalable and reusable.
翻訳日:2023-08-11 15:17:34 公開日:2023-08-10
# 複数参照時代に向けて -- NLG評価におけるデータ漏洩と限定参照多様性の対応

Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation ( http://arxiv.org/abs/2308.03131v4 )

ライセンス: Link先を確認
Xianfeng Zeng, Yijin Liu, Fandong Meng and Jie Zhou(参考訳) BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。 しかし、最近の研究では、これらのマッチングベースのメトリクスと人間の評価との間に弱い相関関係が明らかになっている。 本稿では、マッチングベースのメトリクスにおけるパフォーマンスボトルネックは、参照の多様性の制限によって引き起こされる可能性があると推測する。 この問題に対処するために,これらの指標と人的評価との整合性を高めるために, textit{multiple references} を用いることを提案する。 wmtメトリックベンチマークでは、マルチリファレンスf200spbleuが従来のシングルリファレンスより7.2\%精度が向上している。 驚くべきことに、ニューラルネットワークベースのbertscoreを3.9\%の精度向上で上回っている。 さらに,大規模言語モデル (LLM) におけるデータ漏洩問題は,マルチリファレンス・メトリックによって大幅に軽減できることがわかった。 コードとデータは \url{https://github.com/sefazeng/llm-ref} でリリースします。

N-gram matching-based evaluation metrics, such as BLEU and chrF, are widely utilized across a range of natural language generation (NLG) tasks. However, recent studies have revealed a weak correlation between these matching-based metrics and human evaluations, especially when compared with neural-based metrics like BLEURT. In this paper, we conjecture that the performance bottleneck in matching-based metrics may be caused by the limited diversity of references. To address this issue, we propose to utilize \textit{multiple references} to enhance the consistency between these metrics and human evaluations. Within the WMT Metrics benchmarks, we observe that the multi-references F200spBLEU surpasses the conventional single-reference one by an accuracy improvement of 7.2\%. Remarkably, it also exceeds the neural-based BERTscore by an accuracy enhancement of 3.9\%. Moreover, we observe that the data leakage issue in large language models (LLMs) can be mitigated to a large extent by our multi-reference metric. We release the code and data at \url{https://github.com/SefaZeng/LLM-Ref}
翻訳日:2023-08-11 15:17:11 公開日:2023-08-10
# 軌道角運動量の固有状態を記述する経路分布

Path distributions for describing eigenstates of orbital angular momentum ( http://arxiv.org/abs/2308.02884v2 )

ライセンス: Link先を確認
Randall M. Feenstra(参考訳) 軌道角運動量固有状態の波動関数を形成するために経路の確率振幅が合計される方法について述べる。 定常相解析の一般化を用いて、任意の固有状態に対して経路がどのように寄与するかを測る分布が導出される。 長い旅行時間の極限において、これらの分布は、経路の終点の間の古典的移動を記述する運動量変数の実数値、非負関数であることが判明する(非古典的経路を含む経路は、弾力性(elastica)の項で記述される)。 分布は、この特性運動量の両方の関数であり、また、エンドポイントを接続する測地線の、選択された座標系のz軸に対して傾きを与える極角である。 結果として得られた記述は、軌道角運動量を記述するためによく知られた「ベクトルモデル」の代替となり、重要な点は、量子数 $\ell$ が 0 である場合(すなわち s-状態)の処理を含む。

The manner in which probability amplitudes of paths sum up to form wave functions of orbital angular momentum eigenstates is described. Using a generalization of stationary-phase analysis, distributions are derived that provide a measure of how paths contribute towards any given eigenstate. In the limit of long travel-time, these distributions turn out to be real-valued, non-negative functions of a momentum variable that describes classical travel between the endpoints of a path (with the paths explicitly including nonclassical ones, described in terms of elastica). The distributions are functions of both this characteristic momentum as well as a polar angle that provides a tilt, relative to the z-axis of the chosen coordinate system, of the geodesic that connects the endpoints. The resulting description provides a replacement for the well-known "vector model" for describing orbital angular momentum, and importantly, it includes treatment of the case when the quantum number $\ell$ is zero (i.e., s-states).
翻訳日:2023-08-11 15:16:54 公開日:2023-08-10
# 偽陽性のない量子カオス

Quantum chaos without false positives ( http://arxiv.org/abs/2308.02403v2 )

ライセンス: Link先を確認
Dmitrii A. Trunin(参考訳) 時間外相関器は量子カオスの指標として広く用いられているが、孤立したサドル点を持つ可積分系に対して偽陽性の量子リアプノフ指数を与える。 本稿では,この欠点を解消し,時間外相関器の利点をすべて維持する代替指標を提案する。 特に、新しい指標は、半古典的極限における平均リアプノフ指数とエーレンフェスト時間を正確に予測し、レプリカトリックを用いて解析的に計算し、カオス上の境界を満たす。

Out-of-time-order correlators are widely used as an indicator of quantum chaos, but give false-positive quantum Lyapunov exponents for integrable systems with isolated saddle points. We propose an alternative indicator that fixes this drawback and retains all advantages of out-of-time-order correlators. In particular, the new indicator correctly predicts the average Lyapunov exponent and the Ehrenfest time in the semiclassical limit, can be calculated analytically using the replica trick, and satisfies the bound on chaos.
翻訳日:2023-08-11 15:16:13 公開日:2023-08-10
# 複製時間外相関器からの精製量子リアプノフ指数

Refined quantum Lyapunov exponents from replica out-of-time-order correlators ( http://arxiv.org/abs/2308.02392v2 )

ライセンス: Link先を確認
Dmitrii A. Trunin(参考訳) 対数的外秩序相関器に基づく量子カオスの新しい指標を提案する。 一方、この指標は半古典的極限における平均古典的リアプノフ指数を正しく再現し、量子カオスと古典的K系の定義を直接リンクする。 一方,2n$-fold keldysh輪郭上のレプリカトリックとシュウィンガー・ケルディッシュ図法を用いて解析的に計算することができる。 このアプローチを説明するために、量子猫マップを含むいくつかの1次元システムと、sachdev-ye-kitaevモデルを含む3つのパラダイム的大規模n$モデルを考える。 さらに、レプリカ間の相関関係は、従来の時間外コリケータに基づく推定よりもリアプノフ指数の大きさを小さくできることがわかった。

We suggest a new indicator of quantum chaos based on the logarithmic out-of-time-order correlator. On the one hand, this indicator correctly reproduces the average classical Lyapunov exponent in the semiclassical limit and directly links the definitions of quantum chaos and classical K-system. On the other hand, it can be analytically calculated using the replica trick and the Schwinger-Keldysh diagram technique on a $2n$-fold Keldysh contour. To illustrate this approach, we consider several one-dimensional systems, including the quantum cat map, and three paradigmatic large-$N$ models, including the Sachdev-Ye-Kitaev model. Furthermore, we find that correlations between replicas can reduce the magnitude of the Lyapunov exponent compared to estimates based on conventional out-of-time-order correlators.
翻訳日:2023-08-11 15:16:04 公開日:2023-08-10
# 誰の回答がよいのか? ソフトウェア工学の質問に対するChatGPTとStack Overflowの回答の深さ分析

Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions ( http://arxiv.org/abs/2308.02312v3 )

ライセンス: Link先を確認
Samia Kabir, David N. Udo-Imeh, Bonan Kou, Tianyi Zhang(参考訳) 過去10年間、Q&Aプラットフォームは、プログラマがオンラインの助けを求める上で重要な役割を担ってきた。 しかし、ChatGPTの出現は、このパターンの変化を引き起こしている。 ChatGPTの人気にもかかわらず、ソフトウェアエンジニアリングクエリに対する応答の品質とユーザビリティに関する詳細な調査は行われていない。 このギャップに対処するため、stack overflow(so)から517の質問に対するchatgptの回答を総合的に分析しました。 我々は,これらの回答の正確性,一貫性,包括性,簡潔性を評価した。 さらに,chatgptの回答の言語的・人間的側面に関する洞察を得るために,広範な言語分析とユーザ調査を行った。 調査の結果,ChatGPTの回答の52%が不正確であり,77%が冗長であることがわかった。 それでもユーザは、その包括性と明瞭な言語スタイルのために、依然としてchatgptの回答を39.34%好んでいる。 これらの発見は、chatgptにおける細心の注意深い誤り訂正の必要性を裏付けると同時に、一見正確な回答に関連する潜在的なリスクに対するユーザの意識を高めるものだ。

Over the last decade, Q&A platforms have played a crucial role in how programmers seek help online. The emergence of ChatGPT, however, is causing a shift in this pattern. Despite ChatGPT's popularity, there hasn't been a thorough investigation into the quality and usability of its responses to software engineering queries. To address this gap, we undertook a comprehensive analysis of ChatGPT's replies to 517 questions from Stack Overflow (SO). We assessed the correctness, consistency, comprehensiveness, and conciseness of these responses. Additionally, we conducted an extensive linguistic analysis and a user study to gain insights into the linguistic and human aspects of ChatGPT's answers. Our examination revealed that 52% of ChatGPT's answers contain inaccuracies and 77% are verbose. Nevertheless, users still prefer ChatGPT's responses 39.34% of the time due to their comprehensiveness and articulate language style. These findings underscore the need for meticulous error correction in ChatGPT while also raising awareness among users about the potential risks associated with seemingly accurate answers.
翻訳日:2023-08-11 15:15:49 公開日:2023-08-10
# InFusion:マルチコンセプトゼロショットテキストベースのビデオ編集のためのインジェクションとアテンション融合

InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot Text-based Video Editing ( http://arxiv.org/abs/2308.00135v3 )

ライセンス: Link先を確認
Anant Khandelwal(参考訳) 大規模なテキストから画像への拡散モデルは、多様で高品質な画像を生成することに成功した。 さらに、これらのモデルはテキストプロンプトを変更するだけで入力画像の編集に成功している。 しかし、これらのモデルをビデオに適用する場合、主な課題はフレーム間の時間的一貫性と一貫性を確保することだ。 本稿では,大規模な事前学習画像拡散モデルを利用したゼロショットテキストベースの動画編集フレームワークInFusionを提案する。 本フレームワークは,編集プロンプトで言及されている多種多様な概念に対する画素レベル制御による複数概念の編集を特にサポートしている。 具体的には、デコーダ層のu-net残差ブロックからソースおよび編集プロンプトで得られた機能の違いを注入する。 これらを注入された注意機能と組み合わせると、未編集部分の注入とともにソース内容の問い合わせや編集された概念のスケールが可能である。 編集プロンプトのために、編集部をソースからカットしてデノージングパイプラインにペーストするマスク抽出およびアテンション融合により、さらに細粒度制御される。 私たちのフレームワークは、トレーニングを必要としないため、ワンショットチューニングモデルに代わる低コストな代替品です。 LoRAを用いた画像モデル(Stable Diffusion v1.5)を用いて複雑な概念編集を行った。 適応は既存の画像拡散技術と互換性がある。 広範に実験した結果,高品質で時間的一貫性のある映像のレンダリングにおける既存手法の有効性が示された。

Large text-to-image diffusion models have achieved remarkable success in generating diverse, high-quality images. Additionally, these models have been successfully leveraged to edit input images by just changing the text prompt. But when these models are applied to videos, the main challenge is to ensure temporal consistency and coherence across frames. In this paper, we propose InFusion, a framework for zero-shot text-based video editing leveraging large pre-trained image diffusion models. Our framework specifically supports editing of multiple concepts with pixel-level control over diverse concepts mentioned in the editing prompt. Specifically, we inject the difference in features obtained with source and edit prompts from U-Net residual blocks of decoder layers. When these are combined with injected attention features, it becomes feasible to query the source contents and scale edited concepts along with the injection of unedited parts. The editing is further controlled in a fine-grained manner with mask extraction and attention fusion, which cut the edited part from the source and paste it into the denoising pipeline for the editing prompt. Our framework is a low-cost alternative to one-shot tuned models for editing since it does not require training. We demonstrated complex concept editing with a generalised image model (Stable Diffusion v1.5) using LoRA. Adaptation is compatible with all the existing image diffusion techniques. Extensive experimental results demonstrate the effectiveness of existing methods in rendering high-quality and temporally consistent videos.
翻訳日:2023-08-11 15:15:34 公開日:2023-08-10
# PDFマルウェア検出のための小サイズの特徴セット

A Feature Set of Small Size for the PDF Malware Detection ( http://arxiv.org/abs/2308.04704v2 )

ライセンス: Link先を確認
Ran Liu and Charles Nicholas(参考訳) 機械学習(ml)ベースのマルウェア検出システムは、マルウェアの脅威が増え、より洗練されていくにつれて、ますます重要になっている。 pdfファイルはしばしばフィッシング攻撃のベクターとして使われ、信頼性の高いデータリソースと見なされ、異なるプラットフォームでアクセス可能である。 そのため、研究者は様々なPDFマルウェア検出方法を開発した。 PDFマルウェアの検出性能は特徴選択の影響が大きい。 本研究ではPDFファイルのドメイン知識をあまり必要としない小さな機能セットを提案する。 提案する特徴を6種類の機械学習モデルを用いて評価する。 ランダムフォレストモデルを用いた場合の最適精度は99.75%である。 提案する機能セットは,わずか12の機能で構成され,pdfマルウェア検出の分野で最も簡潔な1つである。 ささやかなサイズにもかかわらず、私たちはより大きな機能セットを使用する最先端の技術に匹敵する結果を得ています。

Machine learning (ML)-based malware detection systems are becoming increasingly important as malware threats increase and get more sophisticated. PDF files are often used as vectors for phishing attacks because they are widely regarded as trustworthy data resources, and are accessible across different platforms. Therefore, researchers have developed many different PDF malware detection methods. Performance in detecting PDF malware is greatly influenced by feature selection. In this research, we propose a small features set that don't require too much domain knowledge of the PDF file. We evaluate proposed features with six different machine learning models. We report the best accuracy of 99.75% when using Random Forest model. Our proposed feature set, which consists of just 12 features, is one of the most conciseness in the field of PDF malware detection. Despite its modest size, we obtain comparable results to state-of-the-art that employ a much larger set of features.
翻訳日:2023-08-11 15:09:52 公開日:2023-08-10
# 大規模言語モデルを用いた累積推論

Cumulative Reasoning with Large Language Models ( http://arxiv.org/abs/2308.04371v3 )

ライセンス: Link先を確認
Yifan Zhang, Jingqin Yang, Yang Yuan, Andrew Chi-Chih Yao(参考訳) 言語モデルは強力で多用途であるが、しばしば非常に複雑な問題に対処できない。 これは、複雑な問題を解決するには意図的な思考が必要であり、トレーニングの間は最小限の指導しか行われていないからである。 本稿では,言語モデルを累積的かつ反復的に活用し,人間の思考過程をエミュレートするCumulative Reasoning(CR)という新しい手法を提案する。 タスクを小さなコンポーネントに分解することで、CRは問題解決プロセスを合理化し、より管理しやすく、効果的にする。 論理推論タスクでは、CRは既存のメソッドを9.3%改善し、計算されたFOLIO wikiデータセットで98.04%の驚くべき精度を達成する。 24ゲームの文脈では、CRは94%の精度を達成しており、これは従来の最先端手法よりも20%の大幅な向上を示している(コードはhttps://github.com/iiis-ai/cumulative-reasoningで入手できる)。

While language models are powerful and versatile, they often fail to address highly complex problems. This is because solving complex problems requires deliberate thinking, which has been only minimally guided during training. In this paper, we propose a new method called Cumulative Reasoning (CR), which employs language models in a cumulative and iterative manner to emulate human thought processes. By decomposing tasks into smaller components, CR streamlines the problem-solving process, rendering it both more manageable and effective. For logical inference tasks, CR consistently outperforms existing methods with an improvement up to 9.3%, and achieves the astonishing accuracy of 98.04% on the curated FOLIO wiki dataset. In the context of the Game of 24, CR achieves an accuracy of 94%, which signifies a substantial enhancement of 20% over the previous state-of-the-art method (code is available at https://github.com/iiis-ai/cumulative-reasoning).
翻訳日:2023-08-11 15:09:42 公開日:2023-08-10
# SLEM:超学習方程式モデリングを用いた経路モデリングと因果推論のための機械学習

SLEM: Machine Learning for Path Modeling and Causal Inference with Super Learner Equation Modeling ( http://arxiv.org/abs/2308.04365v3 )

ライセンス: Link先を確認
Matthew J. Vowels(参考訳) 因果推論は科学の重要な目標であり、観測データを用いて仮説的介入の予測に関する有意義な結論に達することができる。 経路モデル、構造方程式モデル(SEM)、より一般的には、DAG(Directed Acyclic Graphs)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。 関数形式とパラメトリック形式についてほとんど仮定しないDAGとは異なり、SEMは線型性を仮定する。 これにより機能的不特定が生じ、研究者が信頼性の高い効果サイズ推定を行うのを防ぐことができる。 これとは対照的に,機械学習のスーパーラーナーアンサンブルを統合するパスモデリング技術であるSuper Learner Equation Modelingを提案する。 我々は,SEMと比較した場合の線形モデルに対する因果効果の一貫性と不偏性の評価,および非線形関係を扱う場合のSEMに対する優位性を実証的に示す。 オープンソースのコードとサンプルを使ったチュートリアルノートブックを提供し,メソッドの使いやすさを強調する。

Causal inference is a crucial goal of science, enabling researchers to arrive at meaningful conclusions regarding the predictions of hypothetical interventions using observational data. Path models, Structural Equation Models (SEMs), and, more generally, Directed Acyclic Graphs (DAGs), provide a means to unambiguously specify assumptions regarding the causal structure underlying a phenomenon. Unlike DAGs, which make very few assumptions about the functional and parametric form, SEM assumes linearity. This can result in functional misspecification which prevents researchers from undertaking reliable effect size estimation. In contrast, we propose Super Learner Equation Modeling, a path modeling technique integrating machine learning Super Learner ensembles. We empirically demonstrate its ability to provide consistent and unbiased estimates of causal effects, its competitive performance for linear models when compared with SEM, and highlight its superiority over SEM when dealing with non-linear relationships. We provide open-source code, and a tutorial notebook with example usage, accentuating the easy-to-use nature of the method.
翻訳日:2023-08-11 15:09:23 公開日:2023-08-10
# Apple Vision Pro for Healthcare:「究極のディスプレイ」? --正確さのワンダーランドに入る

Apple Vision Pro for Healthcare: "The Ultimate Display"? -- Entering the Wonderland of Precision ( http://arxiv.org/abs/2308.04313v3 )

ライセンス: Link先を確認
Jan Egger, Christina Gsaxner, Xiaojun Chen, Jiang Bian, Jens Kleesiek, Behrus Puladi(参考訳) 2023年6月のWorldwide Developers Conference (WWDC)で、AppleはVision Proを発表した。 Vision ProはMR(Mixed Reality)ヘッドセットで、より具体的にはVR(Virtual Reality)デバイスで、VST(Video See-Through)機能が追加されている。 VST機能は、Vision Proを拡張現実(Augmented Reality, AR)デバイスに変える。 AR機能は、カメラを介して現実世界をユーザーの目の前で(VR)スクリーンにストリーミングすることで実現される。 もちろんこれはユニークではなく、Varjo XR-3のような他のデバイスと似ている。 それでもVision Proには、ヘッドセットの装着者の目が「外」に表示されるインサイド・アウト・スクリーンや、デジタルクラウンと呼ばれる上部のボタンなど、デジタルコンテンツを物理的空間とシームレスにブレンドできる機能があります。 さらに、バッテリへのケーブル以外は接続されていないため、varjo xr-3と比較してヘッドセットはより機敏になる。 これは、1965年にイヴァン・サザーランドがスケッチした「Ultimate Display」に近いかもしれない。 Ultimate Displayのような一般向けにはまだ公開されていないが、この観点からは、ARがまだ医療分野で直面しているいくつかの臨床的課題を克服できるかどうかを見極めるとともに、Vision Proが臨床医を不可欠なタスクで支援し、患者とより多くの時間を過ごすことができるかどうかを議論したい。

At the Worldwide Developers Conference (WWDC) in June 2023, Apple introduced the Vision Pro. The Vision Pro is a Mixed Reality (MR) headset, more specifically it is a Virtual Reality (VR) device with an additional Video See-Through (VST) capability. The VST capability turns the Vision Pro also into an Augmented Reality (AR) device. The AR feature is enabled by streaming the real world via cameras to the (VR) screens in front of the user's eyes. This is of course not unique and similar to other devices, like the Varjo XR-3. Nevertheless, the Vision Pro has some interesting features, like an inside-out screen that can show the headset wearers' eyes to "outsiders" or a button on the top, called "Digital Crown", that allows you to seamlessly blend digital content with your physical space by turning it. In addition, it is untethered, except for the cable to the battery, which makes the headset more agile, compared to the Varjo XR-3. This could actually come closer to the "Ultimate Display", which Ivan Sutherland had already sketched in 1965. Not available to the public yet, like the Ultimate Display, we want to take a look into the crystal ball in this perspective to see if it can overcome some clinical challenges that - especially - AR still faces in the medical domain, but also go beyond and discuss if the Vision Pro could support clinicians in essential tasks to spend more time with their patients.
翻訳日:2023-08-11 15:09:04 公開日:2023-08-10
# ビジョンランゲージモデルを用いたインターリーブ型ビジョンランゲージ指導

Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions ( http://arxiv.org/abs/2308.04152v2 )

ライセンス: Link先を確認
Juncheng Li, Kaihang Pan, Zhiqi Ge, Minghe Gao, Hanwang Zhang, Wei Ji, Wenqiao Zhang, Tat-Seng Chua, Siliang Tang, Yueting Zhuang(参考訳) 最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。 しかし、既存の手法は主に、MLLMの普及を妨げる視覚的コンテキストとして単一のイメージを持つ限られたタイプの命令に焦点を当てている。 本稿では,視覚に豊かなWebページ/テキスト,講義スライド,エンボディダイアログなど,さまざまなシナリオをカバーする複雑な画像テキストシーケンシャルなコンテキストを含む複雑な視覚言語命令に対する命令に従う能力を総合的に評価するI4ベンチマークを提案する。 画像キャプションのアライメントを目標とするVisual Prompt Generator (VPG)は、キャプションのための一般的なフォアグラウンド情報に出席する傾向にあるが、特定のタスクに必要な特定の情報を抽出するのに苦労する。 本稿では,LLMの高度な推論能力を利用してVPGを制御し,命令固有の視覚情報を条件付きで抽出し,LLMに再注入する汎用的で軽量な知識再注入モジュールを提案する。 さらに,基礎モデルのカスケードを協調させることにより,提案モジュールを体系的に学習するための,アノテーションフリーな対物画像学習戦略を提案する。 提案したモジュールとトレーニング戦略によって強化されたCheetorは、トランスフォーマーベースのMLLMで、多種多様な視覚言語命令を効果的に処理し、高品質なマルチモーダル命令チューニングデータなしで、I4の全タスクで最先端のゼロショット性能を実現する。 Cheetorはまた、MMEベンチマークの最先端の命令調律モデルと比較して、競合性能を示している。

Multimodal Large Language Models (MLLMs) have recently sparked significant interest, which demonstrates emergent capabilities to serve as a general-purpose model for various vision-language tasks. However, existing methods mainly focus on limited types of instructions with a single image as visual context, which hinders the widespread availability of MLLMs. In this paper, we introduce the I4 benchmark to comprehensively evaluate the instruction following ability on complicated interleaved vision-language instructions, which involve intricate image-text sequential context, covering a diverse range of scenarios (e.g., visually-rich webpages/textbooks, lecture slides, embodied dialogue). Systematic evaluation on our I4 benchmark reveals a common defect of existing methods: the Visual Prompt Generator (VPG) trained on image-captioning alignment objective tends to attend to common foreground information for captioning but struggles to extract specific information required by particular tasks. To address this issue, we propose a generic and lightweight controllable knowledge re-injection module, which utilizes the sophisticated reasoning ability of LLMs to control the VPG to conditionally extract instruction-specific visual information and re-inject it into the LLM. Further, we introduce an annotation-free cross-attention guided counterfactual image training strategy to methodically learn the proposed module by collaborating a cascade of foundation models. Enhanced by the proposed module and training strategy, we present Cheetor, a Transformer-based MLLM that can effectively handle a wide variety of interleaved vision-language instructions and achieves state-of-the-art zero-shot performance across all tasks of I4, without high-quality multimodal instruction tuning data. Cheetor also exhibits competitive performance compared with state-of-the-art instruction tuned models on MME benchmark.
翻訳日:2023-08-11 15:08:39 公開日:2023-08-10
# 量子エンタングルメントとスクイーズを用いたサブSQL電子場センシング

Sub-SQL electronic field sensing by simultaneously using quantum entanglements and squeezings ( http://arxiv.org/abs/2308.04136v2 )

ライセンス: Link先を確認
X. N. Feng, M. Zhang, and L. F. Wei(参考訳) 量子エンタングルメント(quantum entanglement)と量子スクイージング(quantum squeezing)は、量子メトロロジーにおける感度の高い位相推定の標準量子限界(sql)を打ち負かすための2つの典型的なアプローチである。 それぞれが、トラップされたイオンプラットフォームによる電界センシングの感度を向上させるために、すでに個別に利用されてきたが、実証された感度ゲインの上限は、SQL上の実験的な3dBと理論的な6dBと非常に限られている。 ここで、内部(スピン)外部(オシレータ)状態の絡み合いと発振器のスクイージングを同時に使用して蓄積位相を効果的に増幅し、平均励起フォノン数を圧縮することにより、関連するパラメータを適切に設定できれば、これらの感度向上を効果的に超越することができることを示す。 願わくば、この提案は、所望の電界や他のメトロロギーの繊細なセンシングのためのsqlのより強力なビートに対する新しいアプローチを提供する。

Quantum entanglement and quantum squeezing are two most typical approaches to beat the standard quantum limit (SQL) of the sensitive phase estimations in quantum metrology. Each of them has already been utilized individually to improve the sensitivity of electric field sensing with the trapped ion platform, but the upper bound of the demonstrated sensitivity gain is very limited, i.e., the experimental 3dB and theoretical 6dB, over the SQL. Here, by simultaneously using the internal (spin)-external (oscillator) state entanglements and the oscillator squeezings to effectively amplify the accumulation phase and compress the mean excited phonon number at the same time, we show that these sensitivity gains can be effectively surpassed, once the relevant parameters can be properly set. Hopefully, the proposal provides a novel approach to the stronger beaten of the SQL for the sensitive sensings of the desired electric field and also the other metrologies.
翻訳日:2023-08-11 15:08:04 公開日:2023-08-10
# guarding the guardians: オンライン児童性的虐待の自動分析

Guarding the Guardians: Automated Analysis of Online Child Sexual Abuse ( http://arxiv.org/abs/2308.03880v2 )

ライセンス: Link先を確認
Juanita Puentes, Angela Castillo, Wilmar Osejo, Yuly Calder\'on, Viviana Quintero, Lina Saldarriaga, Diana Agudelo and Pablo Arbel\'aez(参考訳) 子どもに対するオンライン暴力は近年世界的に増加しており、緊急の注意が必要である。 競争当局は、犯罪のダイナミクスを理解しパターンを特定するために、虐待の苦情を手動で分析する。 しかし、これらの苦情を手動で分析することは、レビュープロセス中にアナリストを有害なコンテンツにさらすことが困難である。 これらの課題を踏まえ,子どもの性的虐待報告を包括的に分析する自動化ツールである,新しいソリューションを提案する。 分析プロセスを自動化することにより,対象,犯罪の程度,損害の3次元のレポートを分類することにより,有害コンテンツへの露出リスクを大幅に低減する。 さらに,複数分野のチームの専門知識を生かして,収集したデータに注釈を付ける新しいアプローチを導入し,より詳細なレポート分析を可能にした。 このアプローチは基本的なパターンや傾向の理解を改善し、法執行機関や政策立案者が子供の暴力と戦うための集中した戦略を作ることができる。

Online violence against children has increased globally recently, demanding urgent attention. Competent authorities manually analyze abuse complaints to comprehend crime dynamics and identify patterns. However, the manual analysis of these complaints presents a challenge because it exposes analysts to harmful content during the review process. Given these challenges, we present a novel solution, an automated tool designed to analyze children's sexual abuse reports comprehensively. By automating the analysis process, our tool significantly reduces the risk of exposure to harmful content by categorizing the reports on three dimensions: Subject, Degree of Criminality, and Damage. Furthermore, leveraging our multidisciplinary team's expertise, we introduce a novel approach to annotate the collected data, enabling a more in-depth analysis of the reports. This approach improves the comprehension of fundamental patterns and trends, enabling law enforcement agencies and policymakers to create focused strategies in the fight against children's violence.
翻訳日:2023-08-11 15:07:20 公開日:2023-08-10
# GPT-4は推論できない

GPT-4 Can't Reason ( http://arxiv.org/abs/2308.03762v2 )

ライセンス: Link先を確認
Konstantine Arkoudas(参考訳) GPT-4は2023年3月に広く評価され、GPT-3.5(ChatGPTの初期リリースに使用されたOpenAIのベストモデル)よりも大幅に改良された。 しかし、本当に印象的な改善にもかかわらず、GPT-4の推論能力に非常に懐疑的な理由がある。 本稿では, 推論の性質について論じ, 現在のnlpコミュニティにおける推論問題の定式化や現在llm推論性能の評価方法を批判し, 21の多様な推論問題の少なさを紹介するとともに, それらの問題に対するgpt-4のパフォーマンスの詳細な質的評価を行う。 この分析に基づいて、解析的輝きの時折あるにもかかわらず、現在のGPT-4は推論が全くできないと結論付けている。

GPT-4 was released in March 2023 to wide acclaim, marking a very substantial improvement across the board over GPT-3.5 (OpenAI's previously best model, which had powered the initial release of ChatGPT). However, despite the genuinely impressive improvement, there are good reasons to be highly skeptical of GPT-4's ability to reason. This position paper discusses the nature of reasoning; criticizes the current formulation of reasoning problems in the NLP community, as well as the way in which LLM reasoning performance is currently evaluated; introduces a small collection of 21 diverse reasoning problems; and performs a detailed qualitative evaluation of GPT-4's performance on those problems. Based on this analysis, the paper concludes that, despite its occasional flashes of analytical brilliance, GPT-4 at present is utterly incapable of reasoning.
翻訳日:2023-08-11 15:07:05 公開日:2023-08-10
# 人間のような視覚体験で人間レベルの物体認識能力を達成するために必要なスケーリング

Scaling may be all you need for achieving human-level object recognition capacity with human-like visual experience ( http://arxiv.org/abs/2308.03712v2 )

ライセンス: Link先を確認
A. Emin Orhan(参考訳) 本稿では,現在の自己指導型学習手法が,十分にスケールアップすれば,人間が学習する視覚的体験の種類と量で,人間レベルの視覚的物体認識能力に到達できるかどうかを問う。 この質問に対する以前の研究は、データサイズのスケーリングのみを考慮していた。 本稿では,データサイズ,モデルサイズ,画像解像度の同時スケーリングについて考察する。 最大633mのパラメータサイズ(vit-h/14)の視覚トランスフォーマーを用いて、最大5k時間分の人間ライクなビデオデータ(長大で連続的でほとんどエゴセントリックなビデオ)を最大476×476ピクセルの解像度でトレーニングした。 自己教師付き学習アルゴリズムとしてのマスク付きオートエンコーダ(MAE)の効率は、このスケーリング実験を想定外の学術予算で実行可能にする。 モデルサイズ,データサイズ,画像サイズなどのサブヒューマンスケールで,これらの要因を同時にスケールアップすれば,人間レベルの物体認識能力に到達することが可能であることが判明した。 具体的には,20K時間(2.3年)でトレーニングされた2.5BパラメータViTモデルと,空間解像度922×952ピクセルの映像ネット上で,ほぼ人間レベルの精度に達することができると推定する。 したがって、人間レベルの能力は、人間のような知覚経験(量とタイプの両方において人間のような)から、極めて汎用的な学習アルゴリズムとアーキテクチャで、かつ従属的な帰納的バイアスのない基本的な知覚能力として実現可能である。

This paper asks whether current self-supervised learning methods, if sufficiently scaled up, would be able to reach human-level visual object recognition capabilities with the same type and amount of visual experience humans learn from. Previous work on this question only considered the scaling of data size. Here, we consider the simultaneous scaling of data size, model size, and image resolution. We perform a scaling experiment with vision transformers up to 633M parameters in size (ViT-H/14) trained with up to 5K hours of human-like video data (long, continuous, mostly egocentric videos) with image resolutions of up to 476x476 pixels. The efficiency of masked autoencoders (MAEs) as a self-supervised learning algorithm makes it possible to run this scaling experiment on an unassuming academic budget. We find that it is feasible to reach human-level object recognition capacity at sub-human scales of model size, data size, and image size, if these factors are scaled up simultaneously. To give a concrete example, we estimate that a 2.5B parameter ViT model trained with 20K hours (2.3 years) of human-like video data with a spatial resolution of 952x952 pixels should be able to reach roughly human-level accuracy on ImageNet. Human-level competence is thus achievable for a fundamental perceptual capability from human-like perceptual experience (human-like in both amount and type) with extremely generic learning algorithms and architectures and without any substantive inductive biases.
翻訳日:2023-08-11 15:06:49 公開日:2023-08-10
# 幾何学習に基づく分節誤差推定用トランスネットワーク

Geometric Learning-Based Transformer Network for Estimation of Segmentation Errors ( http://arxiv.org/abs/2308.05068v2 )

ライセンス: Link先を確認
Sneha Sree C, Mohammad Al Fahim, Keerthi Ram, Mohanasankar Sivaprakasam(参考訳) 腫瘍や臓器の3次元ボリュームセグメンテーションには,多くのセグメンテーションネットワークが提案されている。 病院や臨床機関は、画像分割の専門家の努力を加速し、最小化しようとしている。 それでも、これらのネットワークでエラーが発生した場合、臨床医は生成されたセグメンテーションマップを手動で編集する必要がある。 3次元ボリュームとそのセグメンテーションマップを与えられた場合,セグメンテーションマップ内の誤領域を識別・測定する手法を提案する。 提案手法は,品質保証ツールとして,誤ボリューム分割マップから生成された3次元メッシュの任意の点やノードでの誤差を推定できる。 本研究では,ノードフォーマアーキテクチャに基づくグラフニューラルネットワークを用いた変圧器を提案し,任意の点におけるセグメンテーション誤差を計測・分類する。 我々は,人間の内耳小胞体構造の高分解能マイクロCTデータセットを用いて,誤った3次元分割図をシミュレートし,ネットワークの評価を行った。 我々のネットワークは、入力されたマイクロCTデータからノード中心の特徴を計算するための畳み込みエンコーダ、潜在グラフの埋め込みを学習するノードフォーマー、ノードの誤りを計算し分類するマルチ層パーセプトロン(MLP)を備えている。 我々のネットワークは,他のグラフニューラルネットワーク(GNN)に対して平均0.042の絶対誤差を達成し,他のGNNよりも79.53%の精度でノードの誤りを推定し,分類する。 また,ネットワーク全体の性能を改善するために,cnnエンコーダを事前学習するためのカスタムプリテキストタスクとして頂点正規予測を行った。 定性的分析は、誤りを正しく分類し、誤分類を減らすためのネットワークの効率を示す。

Many segmentation networks have been proposed for 3D volumetric segmentation of tumors and organs at risk. Hospitals and clinical institutions seek to accelerate and minimize the efforts of specialists in image segmentation. Still, in case of errors generated by these networks, clinicians would have to manually edit the generated segmentation maps. Given a 3D volume and its putative segmentation map, we propose an approach to identify and measure erroneous regions in the segmentation map. Our method can estimate error at any point or node in a 3D mesh generated from a possibly erroneous volumetric segmentation map, serving as a Quality Assurance tool. We propose a graph neural network-based transformer based on the Nodeformer architecture to measure and classify the segmentation errors at any point. We have evaluated our network on a high-resolution micro-CT dataset of the human inner-ear bony labyrinth structure by simulating erroneous 3D segmentation maps. Our network incorporates a convolutional encoder to compute node-centric features from the input micro-CT data, the Nodeformer to learn the latent graph embeddings, and a Multi-Layer Perceptron (MLP) to compute and classify the node-wise errors. Our network achieves a mean absolute error of ~0.042 over other Graph Neural Networks (GNN) and an accuracy of 79.53% over other GNNs in estimating and classifying the node-wise errors, respectively. We also put forth vertex-normal prediction as a custom pretext task for pre-training the CNN encoder to improve the network's overall performance. Qualitative analysis shows the efficiency of our network in correctly classifying errors and reducing misclassifications.
翻訳日:2023-08-11 14:58:03 公開日:2023-08-10
# 多クラス深層svdd:異なる慣性圏を持つ天文学における異常検出アプローチ

Multi-Class Deep SVDD: Anomaly Detection Approach in Astronomy with Distinct Inlier Categories ( http://arxiv.org/abs/2308.05011v2 )

ライセンス: Link先を確認
Manuel P\'erez-Carrasco, Guillermo Cabrera-Vives, Lorena Hern\'andez-Garc\'ia, Francisco Forster, Paula S\'anchez-S\'aez, Alejandra Mu\~noz Arancibia, Nicol\'as Astorga, Franz Bauer, Amelia Bayo, Martina C\'adiz-Leyton, Marcio Catelan(参考訳) 現代のサーベイ望遠鏡が生成する天文学データの増加に伴い、これらのデータセットから知識を分析し抽出するためには、自動パイプラインと機械学習技術が重要になっている。 データ中の不規則パターンや予期せぬパターンを識別するタスクである異常検出は天文学の複雑な課題である。 本稿では,最先端の異常検出アルゴリズムであるdeep svddの拡張であるmulti-class deep support vector data description (mcdsvdd)を提案する。 MCDSVDDはニューラルネットワークを使用してデータをハイパースフィアにマッピングする。 これらの超球の中心から各サンプルの距離は、異常スコアを決定する。 ツウィッキー・トランジット・インスティテューション (zwicky transient facility) から得られた天文光曲線の大規模データセットにおける複数の異常検出アルゴリズムとの比較により,mcdsvddの有効性を評価した。 以上の結果から, 異常源の検出にMDCSVDDが有効であることが示唆された。 結果の再現に必要なコードとデータは、https://github.com/mperezcarrasco/anomalyalerceで公開されている。

With the increasing volume of astronomical data generated by modern survey telescopes, automated pipelines and machine learning techniques have become crucial for analyzing and extracting knowledge from these datasets. Anomaly detection, i.e. the task of identifying irregular or unexpected patterns in the data, is a complex challenge in astronomy. In this paper, we propose Multi-Class Deep Support Vector Data Description (MCDSVDD), an extension of the state-of-the-art anomaly detection algorithm One-Class Deep SVDD, specifically designed to handle different inlier categories with distinct data distributions. MCDSVDD uses a neural network to map the data into hyperspheres, where each hypersphere represents a specific inlier category. The distance of each sample from the centers of these hyperspheres determines the anomaly score. We evaluate the effectiveness of MCDSVDD by comparing its performance with several anomaly detection algorithms on a large dataset of astronomical light-curves obtained from the Zwicky Transient Facility. Our results demonstrate the efficacy of MCDSVDD in detecting anomalous sources while leveraging the presence of different inlier categories. The code and the data needed to reproduce our results are publicly available at https://github.com/mperezcarrasco/AnomalyALeRCE.
翻訳日:2023-08-11 14:57:34 公開日:2023-08-10
# IDiff-Face:Fizzy Identity-Conditioned Diffusion Modelによる合成顔認識

IDiff-Face: Synthetic-based Face Recognition through Fizzy Identity-Conditioned Diffusion Models ( http://arxiv.org/abs/2308.04995v2 )

ライセンス: Link先を確認
Fadi Boutros, Jonas Henry Grebe, Arjan Kuijper, Naser Damer(参考訳) 大規模な顔データベースが利用できることは、過去10年間の顔認識研究における重要な進歩に不可欠である。 しかし、法的・倫理的な懸念から、これらのデータベースの多くは作者によって最近取り消され、重要なリソースの1つなしで将来の顔認識研究の継続性に関する疑問が持ち上がった。 合成データセットは、顔認識開発のためのプライバシーに敏感な認証データに代わる有望な選択肢として登場した。 しかし、顔認識モデルを訓練するために使用される最近の合成データセットは、クラス内多様性の制限またはクラス内(アイデンティティ)識別の制限に悩まされており、真のデータに基づいて訓練されたモデルによって達成された精度から遠く離れた最適な精度が低い。 本稿では,顔認識訓練のためのリアルなアイデンティティ変動を伴う合成アイデンティティ生成のための条件付き潜在拡散モデルに基づく新しいアプローチであるidiff-faceを提案する。 広範な評価を通じて,提案手法は最先端のパフォーマンスの限界を押し上げ,例えば,ワイルド(lfw)ベンチマークにおけるラベル付き顔の98.00%精度を,95.40%の合成型顔認識ソリューションよりもはるかに上回っており,99.82%の精度で真正な顔認識へのギャップを橋渡ししている。

The availability of large-scale authentic face databases has been crucial to the significant advances made in face recognition research over the past decade. However, legal and ethical concerns led to the recent retraction of many of these databases by their creators, raising questions about the continuity of future face recognition research without one of its key resources. Synthetic datasets have emerged as a promising alternative to privacy-sensitive authentic data for face recognition development. However, recent synthetic datasets that are used to train face recognition models suffer either from limitations in intra-class diversity or cross-class (identity) discrimination, leading to less optimal accuracies, far away from the accuracies achieved by models trained on authentic data. This paper targets this issue by proposing IDiff-Face, a novel approach based on conditional latent diffusion models for synthetic identity generation with realistic identity variations for face recognition training. Through extensive evaluations, our proposed synthetic-based face recognition approach pushed the limits of state-of-the-art performances, achieving, for example, 98.00% accuracy on the Labeled Faces in the Wild (LFW) benchmark, far ahead from the recent synthetic-based face recognition solutions with 95.40% and bridging the gap to authentic-based face recognition with 99.82% accuracy.
翻訳日:2023-08-11 14:57:14 公開日:2023-08-10
# 一般化Few-shot Semantic Segmentationのためのプロトタイプカーネル学習とオープンセット前景知覚

Prototypical Kernel Learning and Open-set Foreground Perception for Generalized Few-shot Semantic Segmentation ( http://arxiv.org/abs/2308.04952v2 )

ライセンス: Link先を確認
Kai Huang, Feigege Wang, Ye Xi, Yutao Gao(参考訳) 汎用Few-shot Semantic Segmentation (GFSS)は、Few-shot Semantic Segmentation (FSS)を拡張して、評価中に未確認のクラスと見たクラスを同時にセグメントする。 以前の作品は、fssの制約された設定を排除するために追加の分岐または原型集約を利用する。 しかし,GFSSの低下に大きく寄与する表現分割と埋め込み偏見は,合成学的には考慮されていない。 上記の問題に対して,プロトタイプカーネル学習とオープンセット前景認識を併用することで対処する。 具体的には、学習可能なカーネル群が、モノクラスを担当する各カーネルとセグメンテーションを行うために提案されている。 そこで我々は,原型学習をベースクラスカーネルの更新にマージすることを検討した。 また、条件バイアスに基づく推論と協調する前景知覚モジュールを採用し、クラス非依存およびオープンセット前景検出を行い、埋め込み偏見を軽減し、新規なターゲットを背景として誤分類することを防止する。 さらに,本手法を,インクリメンタルストリームにおける新規クラスの知識を取り入れたCIFSS(Class Incremental Few-shot Semantic Segmentation)に適応させる。 PASCAL-5iとCOCO-20iデータセットの大規模な実験により、我々の手法は従来の最先端技術よりも優れた性能を示した。

Generalized Few-shot Semantic Segmentation (GFSS) extends Few-shot Semantic Segmentation (FSS) to simultaneously segment unseen classes and seen classes during evaluation. Previous works leverage additional branch or prototypical aggregation to eliminate the constrained setting of FSS. However, representation division and embedding prejudice, which heavily results in poor performance of GFSS, have not been synthetical considered. We address the aforementioned problems by jointing the prototypical kernel learning and open-set foreground perception. Specifically, a group of learnable kernels is proposed to perform segmentation with each kernel in charge of a stuff class. Then, we explore to merge the prototypical learning to the update of base-class kernels, which is consistent with the prototype knowledge aggregation of few-shot novel classes. In addition, a foreground contextual perception module cooperating with conditional bias based inference is adopted to perform class-agnostic as well as open-set foreground detection, thus to mitigate the embedding prejudice and prevent novel targets from being misclassified as background. Moreover, we also adjust our method to the Class Incremental Few-shot Semantic Segmentation (CIFSS) which takes the knowledge of novel classes in a incremental stream. Extensive experiments on PASCAL-5i and COCO-20i datasets demonstrate that our method performs better than previous state-of-the-art.
翻訳日:2023-08-11 14:56:51 公開日:2023-08-10
# StableVQA:ビデオの安定性のための深いノン参照品質評価モデル

StableVQA: A Deep No-Reference Quality Assessment Model for Video Stability ( http://arxiv.org/abs/2308.04904v2 )

ライセンス: Link先を確認
Tengchuan Kou, Xiaohong Liu, Wei Sun, Jun Jia, Xiongkuo Min, Guangtao Zhai, Ning Liu(参考訳) ビデオシャキネス(video shakiness)は、通常、不安定なカメラのホールドによって引き起こされる、ユーザー生成コンテンツ(ugc)ビデオの不快な歪みである。 近年,多くのビデオ安定化アルゴリズムが提案されているが,ビデオの安定性を総合的に評価できる具体的な精度の指標は存在しない。 実際、既存の品質評価モデルのほとんどは、ビデオ安定性の主観的な経験を考慮せずに、全体的な品質を評価する。 したがって、これらのモデルでは映像の安定性を明示的かつ正確に測定することはできない。 また,ビデオ品質評価(VQA-S)の開発を阻害する主観的スコアが利用可能な,様々な程度にぼやけたビデオを含む大規模ビデオデータベースは公開されていない。 そこで我々は,stabledbという新たなデータベースを構築した。このデータベースには1,952種類のシェークなugcビデオが含まれており,各ビデオは平均評価スコア(mos)を34名の被験者で評価する。 さらに,光学的フロー,セマンティック,ブラー特徴をそれぞれ取得する3つの特徴抽出器と,最終的な安定性を予測するための回帰層からなる新しいVQA-SモデルであるStableVQAを精巧に設計する。 広範囲な実験により、StableVQAは既存のVQA-Sモデルや一般的なVQAモデルよりも主観的意見との相関が高いことが示されている。 データベースとコードはhttps://github.com/qmme/stablevqaで入手できる。

Video shakiness is an unpleasant distortion of User Generated Content (UGC) videos, which is usually caused by the unstable hold of cameras. In recent years, many video stabilization algorithms have been proposed, yet no specific and accurate metric enables comprehensively evaluating the stability of videos. Indeed, most existing quality assessment models evaluate video quality as a whole without specifically taking the subjective experience of video stability into consideration. Therefore, these models cannot measure the video stability explicitly and precisely when severe shakes are present. In addition, there is no large-scale video database in public that includes various degrees of shaky videos with the corresponding subjective scores available, which hinders the development of Video Quality Assessment for Stability (VQA-S). To this end, we build a new database named StableDB that contains 1,952 diversely-shaky UGC videos, where each video has a Mean Opinion Score (MOS) on the degree of video stability rated by 34 subjects. Moreover, we elaborately design a novel VQA-S model named StableVQA, which consists of three feature extractors to acquire the optical flow, semantic, and blur features respectively, and a regression layer to predict the final stability score. Extensive experiments demonstrate that the StableVQA achieves a higher correlation with subjective opinions than the existing VQA-S models and generic VQA models. The database and codes are available at https://github.com/QMME/StableVQA.
翻訳日:2023-08-11 14:56:21 公開日:2023-08-10
# InstantAvatar:表面レンダリングによる高能率3次元頭部再構成

InstantAvatar: Efficient 3D Head Reconstruction via Surface Rendering ( http://arxiv.org/abs/2308.04868v2 )

ライセンス: Link先を確認
Antonio Canela, Pol Caselles, Ibrar Malik, Eduard Ramon, Jaime Garc\'ia, Jordi S\'anchez-Riera, Gil Triginer, Francesc Moreno-Noguer(参考訳) 近年のフルヘッド再構築の進歩は、単一シーンを表現するために、異なる表面やボリュームレンダリングを通じて、ニューラルネットワークを最適化することで得られる。 これらの技術は前例のない精度を達成するが、高価な最適化プロセスを必要とするため、数分、あるいは数時間かかる。 そこで本研究では,商品ハードウェア上で数秒で少数の画像からフルヘッドアバターを回収する手法であるinstantavatarを紹介する。 再建過程を高速化するために,ボクセルグリッド型ニューラルネットワーク表現と表面レンダラーを組み合わせたシステムを提案する。 特に、これら2つの手法のナイーブな組み合わせは、有効な解に収束しない不安定な最適化をもたらす。 この制限を克服するために,ボクセルグリッドに基づくアーキテクチャを用いて3次元頭部署名距離関数の事前分布を学習する新しい統計モデルを提案する。 この先行モデルと他の設計選択を組み合わせることで、100倍のスピードアップで最先端技術に匹敵する精度で3dヘッドレコンストラクションを実現するシステムが得られる。

Recent advances in full-head reconstruction have been obtained by optimizing a neural field through differentiable surface or volume rendering to represent a single scene. While these techniques achieve an unprecedented accuracy, they take several minutes, or even hours, due to the expensive optimization process required. In this work, we introduce InstantAvatar, a method that recovers full-head avatars from few images (down to just one) in a few seconds on commodity hardware. In order to speed up the reconstruction process, we propose a system that combines, for the first time, a voxel-grid neural field representation with a surface renderer. Notably, a naive combination of these two techniques leads to unstable optimizations that do not converge to valid solutions. In order to overcome this limitation, we present a novel statistical model that learns a prior distribution over 3D head signed distance functions using a voxel-grid based architecture. The use of this prior model, in combination with other design choices, results into a system that achieves 3D head reconstructions with comparable accuracy as the state-of-the-art with a 100x speed-up.
翻訳日:2023-08-11 14:55:51 公開日:2023-08-10
# TextPainter: ポスターデザインのためのビジュアルハーモニーとテキスト理解によるマルチモーダルテキスト画像生成

TextPainter: Multimodal Text Image Generation withVisual-harmony and Text-comprehension for Poster Design ( http://arxiv.org/abs/2308.04733v2 )

ライセンス: Link先を確認
Yifan Gao, Jinpeng Lin, Min Zhou, Chuanbin Liu, Hongtao Xie, Tiezheng Ge, Yuning Jiang(参考訳) テキストデザインはポスターデザインにおいて最も重要な手順の1つであり、視覚調和とテキスト概念を考慮したテキスト画像を設計するための人間の創造性と専門性に大きく依存している。 本研究は,文脈視覚情報と対応するテキストセマンティクスを利用してテキスト画像を生成する,新しいマルチモーダルアプローチであるtextpainterを紹介する。 具体的には、TextPainterは、グローバルな背景画像をスタイルのヒントとして捉え、テキスト画像生成を視覚調和で導く。 さらに,言語モデルを利用してテキスト理解モジュールを導入し,文レベルと単語レベルの両方のバリエーションを実現する。 さらに,約80Kのポスターに文レベルのバウンディングボックスとテキスト内容を付加したPosterT80Kデータセットを構築した。 このデータセットがマルチモーダルテキスト画像生成に関するさらなる研究の道を開くことを願っている。 広範囲な量的・質的実験により、textpainterはポスターに視覚的・視覚的にハーモニックなテキスト画像を生成できることが示されている。

Text design is one of the most critical procedures in poster design, as it relies heavily on the creativity and expertise of humans to design text images considering the visual harmony and text-semantic. This study introduces TextPainter, a novel multimodal approach that leverages contextual visual information and corresponding text semantics to generate text images. Specifically, TextPainter takes the global-local background image as a hint of style and guides the text image generation with visual harmony. Furthermore, we leverage the language model and introduce a text comprehension module to achieve both sentence-level and word-level style variations. Besides, we construct the PosterT80K dataset, consisting of about 80K posters annotated with sentence-level bounding boxes and text contents. We hope this dataset will pave the way for further research on multimodal text image generation. Extensive quantitative and qualitative experiments demonstrate that TextPainter can generate visually-and-semantically-harmonious text images for posters.
翻訳日:2023-08-11 14:55:34 公開日:2023-08-10
# 動的シーングラフ生成のためのローカル・グローバル情報インタラクションデバイアス

Local-Global Information Interaction Debiasing for Dynamic Scene Graph Generation ( http://arxiv.org/abs/2308.05274v1 )

ライセンス: Link先を確認
Xinyu Lyu, Jingwei Liu, Yuyu Guo, Lianli Gao(参考訳) ダイナミックシーングラフ生成(DynSGG)の課題は、ビデオ内の空間時間情報をモデル化するシーングラフを作成することである。 しかしながら、データセット内のサンプルのロングテール分布のため、以前のdynsggモデルはテール述語を予測できなかった。 この現象は,局所的な空間的時間的情報にのみ注意を払って,複数のフレームの一貫性を無視する従来の手法によるものである,と我々は主張する。 そこで本研究では,マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。 オブジェクトとフレームの特徴の相互作用により、モデルは単一の画像の視覚的コンテキストをより深く理解する。 長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。 Action Genomeデータセットの大規模な実験は,動的なシーングラフ生成を改善するだけでなく,長期的問題を緩和するフレームワークの有効性を示す。

The task of dynamic scene graph generation (DynSGG) aims to generate scene graphs for given videos, which involves modeling the spatial-temporal information in the video. However, due to the long-tailed distribution of samples in the dataset, previous DynSGG models fail to predict the tail predicates. We argue that this phenomenon is due to previous methods that only pay attention to the local spatial-temporal information and neglect the consistency of multiple frames. To solve this problem, we propose a novel DynSGG model based on multi-task learning, DynSGG-MTL, which introduces the local interaction information and global human-action interaction information. The interaction between objects and frame features makes the model more fully understand the visual context of the single image. Long-temporal human actions supervise the model to generate multiple scene graphs that conform to the global constraints and avoid the model being unable to learn the tail predicates. Extensive experiments on Action Genome dataset demonstrate the efficacy of our proposed framework, which not only improves the dynamic scene graph generation but also alleviates the long-tail problem.
翻訳日:2023-08-11 14:10:10 公開日:2023-08-10
# 低リソース音声認識のための新しい自己学習手法

A Novel Self-training Approach for Low-resource Speech Recognition ( http://arxiv.org/abs/2308.05269v1 )

ライセンス: Link先を確認
Satwinder Singh and Feng Hou and Ruili Wang(参考訳) 本稿では,低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。 自己学習のアプローチは英語などの高リソース言語で広く開発され評価されているが、Punjabiのような低リソース言語への適用は制限されている。 注釈付きデータの不足は、特に低リソース言語(例えば、punjabi や m\=aori 言語)向けの正確な asr システムの開発を妨げている。 この問題に対処するために,ラベルなし低資源音声に対して高精度な擬似ラベルを生成する効果的な自己学習手法を提案する。 実験結果から,本手法は単語誤り率を大幅に改善し,4つの実音声データセットのベースラインモデルと比較して,14.94%の相対的改善を達成した。 さらに,提案手法は,共通音声パニャビデータセット上での最良の結果を示す。

In this paper, we propose a self-training approach for automatic speech recognition (ASR) for low-resource settings. While self-training approaches have been extensively developed and evaluated for high-resource languages such as English, their applications to low-resource languages like Punjabi have been limited, despite the language being spoken by millions globally. The scarcity of annotated data has hindered the development of accurate ASR systems, especially for low-resource languages (e.g., Punjabi and M\=aori languages). To address this issue, we propose an effective self-training approach that generates highly accurate pseudo-labels for unlabeled low-resource speech. Our experimental analysis demonstrates that our approach significantly improves word error rate, achieving a relative improvement of 14.94% compared to a baseline model across four real speech datasets. Further, our proposed approach reports the best results on the Common Voice Punjabi dataset.
翻訳日:2023-08-11 14:09:50 公開日:2023-08-10
# 原子-原子相関による相互作用駆動型量子多体エンジン

An interaction-driven quantum many-body engine enabled by atom-atom correlations ( http://arxiv.org/abs/2308.05266v1 )

ライセンス: Link先を確認
R. S. Watson and K. V. Kheruntsyan(参考訳) 量子熱エンジンは、古典的なエンジンサイクルの性能を高めるために、一意に量子多体効果を利用することができる。 本稿では,1次元(1D)ボースガスを作動流体として,突然の相互作用クエンチプロトコルの下で動作する量子多体オットーサイクルの性能について検討する。 このオットーサイクルのエンジンとしての動作は、システム内の原子と原子の相関によって実現されていることを示す。 これらの相関関係は古典的な理想気体と異なり、量子統計学、粒子間相互作用、熱ゆらぎの相互作用の結果である。 また, 熱交換に加えて, システムと熱貯留層との粒子交換を可能とし, エンジンの性能をさらに向上させることができることを示す。 我々は1次元ボースガスを記述したリーブ・ライニッガーモデルで利用可能な近似解析的および正確な熱力学Betheアンザッツ結果を用いてエンジンの性能を評価するが、ここで得られた幅広い結論はこの特定のモデルに限らないことを強調する。

Quantum heat engines are capable of utilizing uniquely quantum many-body effects to enhance the performance of classical engine cycles, implying a quantum advantage. Here we propose and investigate the performance of a quantum many-body Otto cycle operating under a sudden interaction quench protocol, with a one-dimensional (1D) Bose gas as a working fluid. We show that the very operation of this Otto cycle as an engine is enabled by atom-atom correlations in the system. These correlations are different from those in a classical ideal gas, and are a result of the interplay between quantum statistics, interparticle interactions, and thermal fluctuations; extracting positive net work from the system without such correlations would be impossible. We also demonstrate how the performance of the engine can be further enhanced by allowing particle exchange between the system and the thermal reservoirs, in addition to heat exchange. We evaluate the performance of the engine using approximate analytic and exact thermodynamic Bethe ansatz results available for the Lieb-Liniger model that describes the 1D Bose gas, but we emphasise that the broad conclusions arrived at here are not limited to this particular model.
翻訳日:2023-08-11 14:09:34 公開日:2023-08-10
# TrainFors: 画像操作検出とローカライゼーションのための大規模なベンチマークトレーニングデータセット

TrainFors: A Large Benchmark Training Dataset for Image Manipulation Detection and Localization ( http://arxiv.org/abs/2308.05264v1 )

ライセンス: Link先を確認
Soumyaroop Nandi, Prem Natarajan, Wael Abd-Almageed(参考訳) 画像操作検出・ローカライゼーション(IMDL)研究のための評価データセットとメトリクスが標準化された。 しかし、そのようなタスクのトレーニングデータセットはまだ標準ではない。 従来の研究者は、従来と異なるデータセットを使用して、ニューラルネットワークをトレーニングし、画像の偽造を検出し、操作された領域のピクセルマップをローカライズしている。 公正な比較のためには、トレーニングセット、テストセット、評価メトリクスは永続的であるべきです。 したがって、既存のメソッドの比較は、トレーニングデータセットとモデルアーキテクチャに大きく依存するため、公平に思えるかも知れません。 さらに、以前のどの研究もIMDLタスクで使用される合成トレーニングデータセットをリリースしていません。 本稿では,画像スプライシング,コピーモーブ偽造,削除偽造,画像強調偽造のためのベンチマークデータセットの標準化を提案する。 さらに,既存のIMDLデータセットの問題点を特定し,必要な修正を提案する。 また,提案するtrainfors1データセットに最先端imdlメソッドをトレーニングし,同様の条件下での実際の性能を報告した。

The evaluation datasets and metrics for image manipulation detection and localization (IMDL) research have been standardized. But the training dataset for such a task is still nonstandard. Previous researchers have used unconventional and deviating datasets to train neural networks for detecting image forgeries and localizing pixel maps of manipulated regions. For a fair comparison, the training set, test set, and evaluation metrics should be persistent. Hence, comparing the existing methods may not seem fair as the results depend heavily on the training datasets as well as the model architecture. Moreover, none of the previous works release the synthetic training dataset used for the IMDL task. We propose a standardized benchmark training dataset for image splicing, copy-move forgery, removal forgery, and image enhancement forgery. Furthermore, we identify the problems with the existing IMDL datasets and propose the required modifications. We also train the state-of-the-art IMDL methods on our proposed TrainFors1 dataset for a fair evaluation and report the actual performance of these methods under similar conditions.
翻訳日:2023-08-11 14:09:07 公開日:2023-08-10
# DAOT: ドメイン適応型クラウドカウントのためのドメイン非依存の最適トランスポート

DAOT: Domain-Agnostically Aligned Optimal Transport for Domain-Adaptive Crowd Counting ( http://arxiv.org/abs/2308.05311v1 )

ライセンス: Link先を確認
Huilin Zhu, Jingling Yuan, Xian Zhong, Zhengwei Yang, Zheng Wang, and Shengfeng He(参考訳) ドメイン適応は一般的に、異なるデータセット間のドメインギャップをブリッジするために、群衆カウントに使用される。 しかし、既存のドメイン適応法はデータセット間の差異に焦点を合わせ、同じデータセット内の差分を無視し、追加の学習あいまいさをもたらす傾向がある。 これらのドメインに依存しない要因、例えば、密度、監視視点、スケールは、ドメイン内の大きなバリエーションを引き起こし、ドメイン間でのこれらの要因の調整ミスは、クロスドメインの群衆カウントのパフォーマンスの低下につながる。 この問題に対処するために、ドメインに依存しない要素をドメイン間で整合させるドメインに依存しない最適輸送(DAOT)戦略を提案する。 DAOTは3つのステップで構成される。 まず、構造的類似性(ssim)を用いて、ドメイン非依存因子の個人レベル差を測定する。 第二に, 最適伝達(ot)戦略を用いて, これらの差異を平滑化し, 最適ドメイン間ミスアライメントを見いだし, 外れた個人を仮想"ダストビン"カラムで除去する。 第三に、知識は整合したドメインに依存しない因子に基づいて伝達され、モデルはドメイン間のギャップを埋めるためにドメイン適応のために再訓練される。 提案手法は,5つの標準クラウドカウンティングベンチマークにおいて広範な実験を行い,多種多様なデータセットにまたがる強い一般化性を示す。 私たちのコードは、https://github.com/hopoolinz/daot/で利用可能です。

Domain adaptation is commonly employed in crowd counting to bridge the domain gaps between different datasets. However, existing domain adaptation methods tend to focus on inter-dataset differences while overlooking the intra-differences within the same dataset, leading to additional learning ambiguities. These domain-agnostic factors, e.g., density, surveillance perspective, and scale, can cause significant in-domain variations, and the misalignment of these factors across domains can lead to a drop in performance in cross-domain crowd counting. To address this issue, we propose a Domain-agnostically Aligned Optimal Transport (DAOT) strategy that aligns domain-agnostic factors between domains. The DAOT consists of three steps. First, individual-level differences in domain-agnostic factors are measured using structural similarity (SSIM). Second, the optimal transfer (OT) strategy is employed to smooth out these differences and find the optimal domain-to-domain misalignment, with outlier individuals removed via a virtual "dustbin" column. Third, knowledge is transferred based on the aligned domain-agnostic factors, and the model is retrained for domain adaptation to bridge the gap across domains. We conduct extensive experiments on five standard crowd-counting benchmarks and demonstrate that the proposed method has strong generalizability across diverse datasets. Our code will be available at: https://github.com/HopooLinZ/DAOT/.
翻訳日:2023-08-11 14:00:12 公開日:2023-08-10
# グラフクラスタリングのためのホモフィリエンハンス構造学習

Homophily-enhanced Structure Learning for Graph Clustering ( http://arxiv.org/abs/2308.05309v1 )

ライセンス: Link先を確認
Ming Gu (1), Gaoming Yang (2), Sheng Zhou (3), Ning Ma (1), Jiawei Chen (1), Qiaoyu Tan (4), Meihan Liu (1), Jiajun Bu (1) ((1) College of Computer Science and Technology, Zhejiang University, (2) School of Software Technology, Zhejiang University, (3) Zhejiang Provincial Key Laboratory of Service Robot, Zhejiang University, (4) Department of Computer Science, New York University Shanghai)(参考訳) グラフクラスタリングはグラフ解析の基本課題であり、グラフニューラルネットワーク(GNN)の最近の進歩は印象的な結果を示している。 既存のGNNベースのグラフクラスタリング手法の成功にもかかわらず、それらはしばしばグラフ構造の品質を見落としている。 グラフ構造学習は、欠落したリンクを追加し、スプリアス接続を取り除くことで、入力グラフの精細化を可能にする。 しかしながら、グラフ構造学習におけるこれまでの取り組みは、主に教師付き設定を中心に行われており、接地ラベルがないため、特定のクラスタリングタスクに直接適用することはできない。 このギャップを埋めるために,グラフクラスタリング (HoLe) のための新しい手法である \textbf{ho}mophily-enhanced structure \textbf{le}arning を提案する。 我々のモチベーションは、グラフ構造内のホモフィリーの度合いを微妙に向上させることで、GNNとクラスタリングの結果を著しく改善することに由来する。 この目的を実現するために,階層相関推定とクラスタ認識スパース化という2つのクラスタリング指向構造学習モジュールを開発した。 前者モジュールは、潜在空間とクラスタリング空間からのガイダンスを利用して、より正確なペアワイズノード関係の推定を可能にし、後者は類似度行列とクラスタリング割り当てに基づいてスパーシファイド構造を生成する。 さらに,ホモフィリエンハンス構造学習とgnnベースのクラスタリングを交互に行う共同最適化手法を考案し,相互効果の促進を図る。 さまざまなタイプとスケールの7つのベンチマークデータセットに関する広範な実験が、さまざまなクラスタリングメトリクスを通じて、最先端のベースラインに対するホールの優位性を示している。

Graph clustering is a fundamental task in graph analysis, and recent advances in utilizing graph neural networks (GNNs) have shown impressive results. Despite the success of existing GNN-based graph clustering methods, they often overlook the quality of graph structure, which is inherent in real-world graphs due to their sparse and multifarious nature, leading to subpar performance. Graph structure learning allows refining the input graph by adding missing links and removing spurious connections. However, previous endeavors in graph structure learning have predominantly centered around supervised settings, and cannot be directly applied to our specific clustering tasks due to the absence of ground-truth labels. To bridge the gap, we propose a novel method called \textbf{ho}mophily-enhanced structure \textbf{le}arning for graph clustering (HoLe). Our motivation stems from the observation that subtly enhancing the degree of homophily within the graph structure can significantly improve GNNs and clustering outcomes. To realize this objective, we develop two clustering-oriented structure learning modules, i.e., hierarchical correlation estimation and cluster-aware sparsification. The former module enables a more accurate estimation of pairwise node relationships by leveraging guidance from latent and clustering spaces, while the latter one generates a sparsified structure based on the similarity matrix and clustering assignments. Additionally, we devise a joint optimization approach alternating between training the homophily-enhanced structure learning and GNN-based clustering, thereby enforcing their reciprocal effects. Extensive experiments on seven benchmark datasets of various types and scales, across a range of clustering metrics, demonstrate the superiority of HoLe against state-of-the-art baselines.
翻訳日:2023-08-11 13:59:46 公開日:2023-08-10
# CNNからTransformerへ:医療画像分割モデルの検討

From CNN to Transformer: A Review of Medical Image Segmentation Models ( http://arxiv.org/abs/2308.05305v1 )

ライセンス: Link先を確認
Wenjian Yao, Jiajun Bai, Wei Liao, Yuheng Chen, Mengjuan Liu and Yao Xie(参考訳) 医用画像分割は医用画像解析において重要なステップであり、特に効率的な疾患の診断と治療のための重要な前提条件である。 画像セグメンテーションにおけるディープラーニングの利用が主流となっている。 現在広く採用されているアプローチはu-netとその変種である。 さらに、自然言語処理タスクにおける事前訓練モデルの成功により、TransUNetのようなトランスフォーマーベースのモデルは、複数の医療画像セグメンテーションデータセットで望ましいパフォーマンスを達成した。 本稿では,近年最も代表的な4つの医用画像セグメンテーションモデルについて調査する。 我々はこれらのモデルの特徴を理論的に解析し、2つのベンチマークデータセット(胸部X線と卵巣腫瘍)でその性能を定量的に評価する。 最後に,医療画像分割の主な課題と今後の展望について述べる。 我々の研究は、関連分野の研究者が、特定の領域に合わせた医療セグメンテーションモデルを迅速に確立するのを支援できる。

Medical image segmentation is an important step in medical image analysis, especially as a crucial prerequisite for efficient disease diagnosis and treatment. The use of deep learning for image segmentation has become a prevalent trend. The widely adopted approach currently is U-Net and its variants. Additionally, with the remarkable success of pre-trained models in natural language processing tasks, transformer-based models like TransUNet have achieved desirable performance on multiple medical image segmentation datasets. In this paper, we conduct a survey of the most representative four medical image segmentation models in recent years. We theoretically analyze the characteristics of these models and quantitatively evaluate their performance on two benchmark datasets (i.e., Tuberculosis Chest X-rays and ovarian tumors). Finally, we discuss the main challenges and future trends in medical image segmentation. Our work can assist researchers in the related field to quickly establish medical segmentation models tailored to specific regions.
翻訳日:2023-08-11 13:59:12 公開日:2023-08-10
# マルチビジュアル慣性システム : 解析・校正・推定

Multi-Visual-Inertial System: Analysis,Calibration and Estimation ( http://arxiv.org/abs/2308.05303v1 )

ライセンス: Link先を確認
Yulin Yang and Patrick Geneva and Guoquan Huang(参考訳) 本稿では,マルチビジュアル慣性システム(mvis)の状態推定と,任意の数の非同期慣性測定ユニット(imus)やジャイロスコープ,グローバルおよび(または)ローリングシャッターカメラを最適に融合するセンサ融合アルゴリズムを開発した。 IMUやカメラの内在性、IMU-IMU(またはカメラ)時空間外在性、ローリングシャッターカメラ(使用)の画像読取時間など、関連する視覚慣性センサーの完全な校正に関心がある。 この目的のために,本研究では,ベースIMUとともに補助IMUと(または)ジャイロスコープの融合に利用した,内在性決定型ACI3-to preintegrate IMU測定と新たなIMU統合法を開発した。 我々は,IMU-IMUの剛体制約を利用して,補助的慣性ポーズの必要を排除し,複雑性を低減しつつ,必要慣性内在およびIMU-IMU時空間外因性パラメータをすべて含む多慣性測定をモデル化した。 MVISの可観測性解析により,慣性センサの数に関わらず,標準の4つの観測不可能な方向が残っていること,IMU-IMU時空間外在性運動と補助慣性内在性運動の退化を初めて確認した。 分析とアルゴリズムを検証する広範なシミュレーションに加えて、我々は独自のmvisセンサリグを構築し、25以上の実世界のデータセットを収集し、kalibrのような最先端のキャリブレーション手法に対するキャリブレーションを実験的に検証した。 提案するmvisキャリブレーションにより,コンバージェンスとリピート性が向上し,コミュニティのメリットを高めるためにオープンソースとして公開されている競合精度が達成できることを示す。

In this paper, we study state estimation of multi-visual-inertial systems (MVIS) and develop sensor fusion algorithms to optimally fuse an arbitrary number of asynchronous inertial measurement units (IMUs) or gyroscopes and global and(or) rolling shutter cameras. We are especially interested in the full calibration of the associated visual-inertial sensors, including the IMU or camera intrinsics and the IMU-IMU(or camera) spatiotemporal extrinsics as well as the image readout time of rolling-shutter cameras (if used). To this end, we develop a new analytic combined IMU integration with intrinsics-termed ACI3-to preintegrate IMU measurements, which is leveraged to fuse auxiliary IMUs and(or) gyroscopes alongside a base IMU. We model the multi-inertial measurements to include all the necessary inertial intrinsic and IMU-IMU spatiotemporal extrinsic parameters, while leveraging IMU-IMU rigid-body constraints to eliminate the necessity of auxiliary inertial poses and thus reducing computational complexity. By performing observability analysis of MVIS, we prove that the standard four unobservable directions remain - no matter how many inertial sensors are used, and also identify, for the first time, degenerate motions for IMU-IMU spatiotemporal extrinsics and auxiliary inertial intrinsics. In addition to the extensive simulations that validate our analysis and algorithms, we have built our own MVIS sensor rig and collected over 25 real-world datasets to experimentally verify the proposed calibration against the state-of-the-art calibration method such as Kalibr. We show that the proposed MVIS calibration is able to achieve competing accuracy with improved convergence and repeatability, which is open sourced to better benefit the community.
翻訳日:2023-08-11 13:58:55 公開日:2023-08-10
# 画像と映像における3次元ポーズ推定のための二重鎖制約

Double-chain Constraints for 3D Human Pose Estimation in Images and Videos ( http://arxiv.org/abs/2308.05298v1 )

ライセンス: Link先を確認
Hongbo Kang, Yong Wang, Mengyuan Liu, Doudou Wu, Peng Liu, Wenming Yang(参考訳) 深度情報に欠ける2dポーズからの3dポーズの再構築は、人間の動きの複雑さと多様性のために特に困難である。 鍵となるのは、ジョイント間の空間的制約を効果的にモデル化し、固有の依存関係を活用することだ。 そこで本稿では,Double-chain Graph Convolutional Transformer (DC-GCT) と呼ばれる新しいモデルを提案する。 具体的には,GCN と Transformer の利点を組み合わせて,GCN に基づく局所制約モジュール (LCM) と自己保持機構に基づくグローバル制約モジュール (GCM) と,特徴相互作用モジュール (FIM) を設計する。 提案手法は,人体関節間の多レベル依存性を完全に把握し,モデルのモデリング能力を最適化する。 さらに,対象フレームのジョイント埋め込みを通じて映像列埋め込みを誘導し,計算コストを無視できるようにすることで,単一フレームモデルに時間情報を利用する手法を提案する。 実験の結果、DC-GCTは2つの挑戦的データセット(Human3.6MとMPI-INF-3DHP)で最先端の性能を達成することが示された。 特に,本モデルはCPNから検出された2Dポーズを用いて,Human3.6Mデータセットのすべてのアクションカテゴリの最先端性能を達成し, https://github.com/KHB1698/DC-GCTで利用可能である。

Reconstructing 3D poses from 2D poses lacking depth information is particularly challenging due to the complexity and diversity of human motion. The key is to effectively model the spatial constraints between joints to leverage their inherent dependencies. Thus, we propose a novel model, called Double-chain Graph Convolutional Transformer (DC-GCT), to constrain the pose through a double-chain design consisting of local-to-global and global-to-local chains to obtain a complex representation more suitable for the current human pose. Specifically, we combine the advantages of GCN and Transformer and design a Local Constraint Module (LCM) based on GCN and a Global Constraint Module (GCM) based on self-attention mechanism as well as a Feature Interaction Module (FIM). The proposed method fully captures the multi-level dependencies between human body joints to optimize the modeling capability of the model. Moreover, we propose a method to use temporal information into the single-frame model by guiding the video sequence embedding through the joint embedding of the target frame, with negligible increase in computational cost. Experimental results demonstrate that DC-GCT achieves state-of-the-art performance on two challenging datasets (Human3.6M and MPI-INF-3DHP). Notably, our model achieves state-of-the-art performance on all action categories in the Human3.6M dataset using detected 2D poses from CPN, and our code is available at: https://github.com/KHB1698/DC-GCT.
翻訳日:2023-08-11 13:58:17 公開日:2023-08-10
# シーケンス決定のための多重モード事前学習モデル:合成,検証,接地,知覚

Multimodal Pretrained Models for Sequential Decision-Making: Synthesis, Verification, Grounding, and Perception ( http://arxiv.org/abs/2308.05295v1 )

ライセンス: Link先を確認
Yunhao Yang, Cyrus Neary, Ufuk Topcu(参考訳) 最近開発された事前学習モデルは、テキストや画像など、複数のモダリティで表現された豊かな世界知識をエンコードすることができる。 しかし、これらのモデルの出力は逐次的な意思決定タスクを解決するアルゴリズムに統合できない。 本研究では,事前学習したモデルからの知識を利用して,逐次意思決定タスクのための制御器の構築と検証を行い,視覚的観察により制御器をタスク環境に配置するアルゴリズムを開発した。 特に、このアルゴリズムは、ユーザが提供するテキストベースのタスク記述で事前学習されたモデルをクエリし、モデルの出力を使用して、モデルのタスク関連知識をエンコードするオートマトンベースのコントローラを構築する。 そして、コントローラにエンコードされた知識が、環境に関する抽象情報やユーザが提供する仕様を含む他の独立した利用可能な知識と一致しているかどうかを検証する。 この検証ステップが不一致を検出すると、アルゴリズムは自動的にコントローラを洗練して不一致を解消する。 次に、事前訓練されたモデルの視覚と言語能力を利用して、制御器をタスク環境に接地する。 タスク環境からイメージベースの観察を収集し、事前訓練されたモデルを使用して、これらの観察をコントローラにエンコードされたテキストベースの制御ロジック(アクションをトリガーするアクションや条件など)にリンクする。 認識の不確実性が存在する場合でも,コントローラがユーザが提供する仕様を満足させる機構を提案する。 このアルゴリズムは,日常生活やロボット操作など,現実的なタスクのスイートを通じて,オートマトンベースのコントローラを構築し,検証し,構築する能力を示す。

Recently developed pretrained models can encode rich world knowledge expressed in multiple modalities, such as text and images. However, the outputs of these models cannot be integrated into algorithms to solve sequential decision-making tasks. We develop an algorithm that utilizes the knowledge from pretrained models to construct and verify controllers for sequential decision-making tasks, and to ground these controllers to task environments through visual observations. In particular, the algorithm queries a pretrained model with a user-provided, text-based task description and uses the model's output to construct an automaton-based controller that encodes the model's task-relevant knowledge. It then verifies whether the knowledge encoded in the controller is consistent with other independently available knowledge, which may include abstract information on the environment or user-provided specifications. If this verification step discovers any inconsistency, the algorithm automatically refines the controller to resolve the inconsistency. Next, the algorithm leverages the vision and language capabilities of pretrained models to ground the controller to the task environment. It collects image-based observations from the task environment and uses the pretrained model to link these observations to the text-based control logic encoded in the controller (e.g., actions and conditions that trigger the actions). We propose a mechanism to ensure the controller satisfies the user-provided specification even when perceptual uncertainties are present. We demonstrate the algorithm's ability to construct, verify, and ground automaton-based controllers through a suite of real-world tasks, including daily life and robot manipulation tasks.
翻訳日:2023-08-11 13:57:47 公開日:2023-08-10
# 確率勾配雑音非依存学習誤差を用いたビザンチンロバスト分散確率最適化

Byzantine-Robust Decentralized Stochastic Optimization with Stochastic Gradient Noise-Independent Learning Error ( http://arxiv.org/abs/2308.05292v1 )

ライセンス: Link先を確認
Jie Peng, Weiyu Li, Qing Ling(参考訳) 本稿では,Byzantine-Robust 確率的最適化を分散ネットワーク上で検討し,各エージェントが定期的に近隣のエージェントと通信して局所モデルを交換し,その局所モデルを確率勾配勾配(SGD)により更新する。 このような手法の性能は、最適化プロセス中に逆向きに実行される未知数のビザンチンエージェントに影響される。 私たちの知る限りでは、線形収束速度と学習誤差を両立させるような既存の作業は存在しない。 学習誤差は本質的な確率的勾配ノイズに大きく依存する。 本研究は, 確率勾配法 (SAGA) とループレス確率勾配法 (LSVRG) の2つの分散低減法と, 確率勾配雑音の負の効果を排除するために, ビザンチン・ロバスト分散確率最適化を導入する。 2つの手法、BRAVO-SAGAとBRAVO-LSVRGは線形収束速度と確率勾配雑音非依存学習誤差の両方を享受する。 このような学習誤差は、全変動(tv)ノルム正則化と確率的劣次更新に基づく方法のクラスに最適である。 我々は,様々なビザンチン攻撃における有効性を示すために,広範囲な数値実験を行った。

This paper studies Byzantine-robust stochastic optimization over a decentralized network, where every agent periodically communicates with its neighbors to exchange local models, and then updates its own local model by stochastic gradient descent (SGD). The performance of such a method is affected by an unknown number of Byzantine agents, which conduct adversarially during the optimization process. To the best of our knowledge, there is no existing work that simultaneously achieves a linear convergence speed and a small learning error. We observe that the learning error is largely dependent on the intrinsic stochastic gradient noise. Motivated by this observation, we introduce two variance reduction methods, stochastic average gradient algorithm (SAGA) and loopless stochastic variance-reduced gradient (LSVRG), to Byzantine-robust decentralized stochastic optimization for eliminating the negative effect of the stochastic gradient noise. The two resulting methods, BRAVO-SAGA and BRAVO-LSVRG, enjoy both linear convergence speeds and stochastic gradient noise-independent learning errors. Such learning errors are optimal for a class of methods based on total variation (TV)-norm regularization and stochastic subgradient update. We conduct extensive numerical experiments to demonstrate their effectiveness under various Byzantine attacks.
翻訳日:2023-08-11 13:57:17 公開日:2023-08-10
# Debiasingによるインフォームティブなシーングラフ生成

Informative Scene Graph Generation via Debiasing ( http://arxiv.org/abs/2308.05286v1 )

ライセンス: Link先を確認
Lianli Gao, Xinyu Lyu, Yuyu Guo, Yuxuan Hu, Yuan-Fang Li, Lu Xu, Heng Tao Shen and Jingkuan Song(参考訳) シーングラフ生成は、視覚関係三重項(オブジェクト、述語、オブジェクト)を検出することを目的としている。 データに偏りがあるため、現在のモデルは「オン」や「アット」といった一般的な述語を予測する傾向があり、「オン」や「アット」のような情報的な述語は見ない。 この傾向により、正確な情報と全体的な性能が失われる。 モデルが「道路の石」ではなく「道路の石」を使って画像を記述する場合、それは重大な誤解である。 この現象は、意味空間レベルの不均衡とサンプルレベルの不均衡の2つの不均衡によって引き起こされる。 そこで本研究では,従来の分散フィッティングではなく,デバイアスに基づく効果的なフレームワークであるDB-SGGを提案する。 これらの不均衡に対して、semantic debiasing (sd) と balanced predicate learning (bpl) の2つのコンポーネントを統合する。 SDは混乱行列と二部グラフを用いて述語関係を構成する。 BPLはランダムアンダーサンプリング戦略と曖昧性除去戦略を採用し、情報的述語に焦点を当てている。 SGG-VGデータセット上の3つのSGGサブタスクにおいて、mR@20上の136.3%、119.5%、122.6%のトランスフォーマーをSGGモデルに容易に適用できる。 提案手法は,SGGデータセット(SGG-GQA)と2つの下流タスク(文間検索と画像キャプション)でさらに検証される。

Scene graph generation aims to detect visual relationship triplets, (subject, predicate, object). Due to biases in data, current models tend to predict common predicates, e.g. "on" and "at", instead of informative ones, e.g. "standing on" and "looking at". This tendency results in the loss of precise information and overall performance. If a model only uses "stone on road" rather than "stone blocking road" to describe an image, it may be a grave misunderstanding. We argue that this phenomenon is caused by two imbalances: semantic space level imbalance and training sample level imbalance. For this problem, we propose DB-SGG, an effective framework based on debiasing but not the conventional distribution fitting. It integrates two components: Semantic Debiasing (SD) and Balanced Predicate Learning (BPL), for these imbalances. SD utilizes a confusion matrix and a bipartite graph to construct predicate relationships. BPL adopts a random undersampling strategy and an ambiguity removing strategy to focus on informative predicates. Benefiting from the model-agnostic process, our method can be easily applied to SGG models and outperforms Transformer by 136.3%, 119.5%, and 122.6% on mR@20 at three SGG sub-tasks on the SGG-VG dataset. Our method is further verified on another complex SGG dataset (SGG-GQA) and two downstream tasks (sentence-to-graph retrieval and image captioning).
翻訳日:2023-08-11 13:56:52 公開日:2023-08-10
# ソーシャルメディアデータとSIRモデルによる災害対応調査:2020年米国西部の山火事を事例として

Investigating disaster response through social media data and the Susceptible-Infected-Recovered (SIR) model: A case study of 2020 Western U.S. wildfire season ( http://arxiv.org/abs/2308.05281v1 )

ライセンス: Link先を確認
Zihui Ma, Lingyao Li, Libby Hemphill, Gregory B. Baecher(参考訳) 被災地域にとって効果的な災害対応は重要である。 対応者と意思決定者は、災害時にコミュニティに影響を及ぼす問題の信頼性とタイムリーな測定の恩恵を受け、ソーシャルメディアは潜在的に豊かなデータソースを提供する。 ソーシャルメディアは災害時の公共の関心や要求を反映し、意思決定者が進化する状況を理解し、リソース割り当てを最適化するための貴重な洞察を提供する。 トランスフォーマー(bert)トピックモデリングからtwitterデータからトピックをクラスタ化する双方向エンコーダ表現を用いた。 そして,2020年の米国西部の山火事シーズンにおいて,これらの話題の分布について時間空間分析を行った。 その結果,twitter利用者は主に「健康への影響」,「損害」,「救済」の3つの話題に注目した。 SIR(Susceptible-Infected-Recovered)理論を用いて,Twitter上でのトピック拡散の規模と速度について検討した。 その結果,トピックトレンドとワイルドファイア伝播パターンの関係が明らかとなった。 選択都市におけるSIRモデルから得られた推定パラメータから,山火事時の住民の懸念度は高いことがわかった。 本研究では,ソーシャルメディアデータを用いたsirモデルとトピックモデリングが,災害対応を計測し,意思決定プロセスを支援する定量的アプローチを意思決定者に与える方法について述べる。

Effective disaster response is critical for affected communities. Responders and decision-makers would benefit from reliable, timely measures of the issues impacting their communities during a disaster, and social media offers a potentially rich data source. Social media can reflect public concerns and demands during a disaster, offering valuable insights for decision-makers to understand evolving situations and optimize resource allocation. We used Bidirectional Encoder Representations from Transformers (BERT) topic modeling to cluster topics from Twitter data. Then, we conducted a temporal-spatial analysis to examine the distribution of these topics across different regions during the 2020 western U.S. wildfire season. Our results show that Twitter users mainly focused on three topics:"health impact," "damage," and "evacuation." We used the Susceptible-Infected-Recovered (SIR) theory to explore the magnitude and velocity of topic diffusion on Twitter. The results displayed a clear relationship between topic trends and wildfire propagation patterns. The estimated parameters obtained from the SIR model in selected cities revealed that residents exhibited a high level of several concerns during the wildfire. Our study details how the SIR model and topic modeling using social media data can provide decision-makers with a quantitative approach to measure disaster response and support their decision-making processes.
翻訳日:2023-08-11 13:56:23 公開日:2023-08-10
# クロスヘテロゲニティグラフ 少数ショット学習

Cross-heterogeneity Graph Few-shot Learning ( http://arxiv.org/abs/2308.05275v1 )

ライセンス: Link先を確認
Pengfei Ding and Yan Wang and Guanfeng Liu(参考訳) 近年,多様なノードやエッジを含むヘテロジニアスグラフ (HG) のラベル空間性問題に対処するために,異種グラフによる数ショット学習が提案されている。 既存の手法は,HG のリッチラベルクラスから抽出した一般化知識を,ターゲット HG の少数ラベルクラスに転送することで,優れた性能を実現している。 しかし、これらの手法は、ソースとターゲットのhgが固定されたノード/エッジタイプを共有しているシングルヘテロゲニティシナリオのみを考慮し、各hgが異なる固定されたノード/エッジタイプを持つことができるクロスヘテロゲニティのより一般的なシナリオを無視している。 この目的のために,未検討のクロスヘテロゲニティシナリオに着目し,クロスヘテロゲニティグラフの少数ショット学習のための新しいモデル,cgflを提案する。 CGFLでは,まず異種情報を取得するメタパターンを抽出し,HG間のメタパターンを学習するための多視点異種グラフニューラルネットワーク(MHGN)を提案する。 そこで我々は,ラベル付きサンプルの情報量を測定するスコアモジュールを提案し,各ソースHGの転送可能性を決定する。 最後に、MHGNとスコアモジュールをメタ学習機構に統合することにより、CGFLは一般化知識を効果的に伝達し、ラベルの少ないデータで新しいクラスを予測する。 4つの実世界のデータセットに対する大規模な実験は、最先端の手法よりもCGFLの方が優れた性能を示した。

In recent years, heterogeneous graph few-shot learning has been proposed to address the label sparsity issue in heterogeneous graphs (HGs), which contain various types of nodes and edges. The existing methods have achieved good performance by transferring generalized knowledge extracted from rich-labeled classes in source HG(s) to few-labeled classes in a target HG. However, these methods only consider the single-heterogeneity scenario where the source and target HGs share a fixed set of node/edge types, ignoring the more general scenario of cross-heterogeneity, where each HG can have a different and non-fixed set of node/edge types. To this end, we focus on the unexplored cross-heterogeneity scenario and propose a novel model for Cross-heterogeneity Graph Few-shot Learning, namely CGFL. In CGFL, we first extract meta-patterns to capture heterogeneous information and propose a multi-view heterogeneous graph neural network (MHGN) to learn meta-patterns across HGs. Then, we propose a score module to measure the informativeness of labeled samples and determine the transferability of each source HG. Finally, by integrating MHGN and the score module into a meta-learning mechanism, CGFL can effectively transfer generalized knowledge to predict new classes with few-labeled data. Extensive experiments on four real-world datasets have demonstrated the superior performance of CGFL over the state-of-the-art methods.
翻訳日:2023-08-11 13:55:58 公開日:2023-08-10
# メタ認知プロンプトは大規模言語モデルの理解を改善する

Metacognitive Prompting Improves Understanding in Large Language Models ( http://arxiv.org/abs/2308.05342v1 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao(参考訳) 大規模言語モデル(llm)では、タスク固有のパフォーマンスが一貫して向上しており、主に効果的なプロンプト設計の影響を受けている。 LLMの推論能力は近年研究されているが、その理解能力のさらなる向上にはまだギャップが残っている。 本研究では,ヒトの内省的推論プロセスにインスパイアされたメタ認知的促進(MP)戦略を紹介する。 MPを用いることで、LLMは構造化された自己認識評価の体系的なシリーズを実行し、その膨大な固有の知識と新たな洞察を生かした。 我々の実験ではllama2, vicuna, palm, gpt-3.5, gpt-4の5つのllmを用いて,glueおよびsuperglueベンチマークによる汎用自然言語理解(nlu)タスクに適用した。 その結果、GPT-4は、ほとんどのタスクにおいて一貫して優れているが、MPを装備した PaLM はその性能レベルに近づいた。 さらに、モデルとデータセット全体において、MPは標準およびチェーンのプロンプトを含む既存のプロンプトメソッドを一貫して上回る。 本研究は、LLMの理解能力を増幅する可能性を強調し、NLUタスクにおける人間の内省的推論を反映する利点を強調した。

In Large Language Models (LLMs), there have been consistent advancements in task-specific performance, largely influenced by effective prompt design. While recent research on prompting has enhanced the reasoning capabilities of LLMs, a gap remains in further improving their understanding abilities. In this study, we introduce metacognitive prompting (MP), a strategy inspired by human introspective reasoning processes. Using MP, LLMs undergo a systematic series of structured, self-aware evaluations, drawing on both their vast inherent knowledge and new insights. Our experiments involve five prevalent LLMs: Llama2, Vicuna, PaLM, GPT-3.5, and GPT-4, all of which span various general natural language understanding (NLU) tasks from the GLUE and SuperGLUE benchmarks. Results indicate that, although GPT-4 consistently excels in most tasks, PaLM, when equipped with MP, approaches its performance level. Furthermore, across models and datasets, MP consistently outperforms existing prompting methods, including standard and chain-of-thought prompting. This study underscores the potential to amplify the understanding abilities of LLMs and highlights the benefits of mirroring human introspective reasoning in NLU tasks.
翻訳日:2023-08-11 13:51:17 公開日:2023-08-10
# 人間とAIによるテキストの分類:ChatGPTの特徴を探る

Classification of Human- and AI-Generated Texts: Investigating Features for ChatGPT ( http://arxiv.org/abs/2308.05341v1 )

ライセンス: Link先を確認
Lorenz Mindner, Tim Schlippe, Kristina Schaaff(参考訳) 近年、ChatGPTのような生成AIが広く普及している。 これらのツールは、例えば学生がエッセイや全体を生成するために使用できる。 しかし、教師はテキストが生徒かaiによって書かれたかどうかをどうやって知るのか? 本研究では,(1)AIが生成するテキストをスクラッチから検出し,(2)AIが表現するテキストを検出する,従来の特徴と新機能について検討する。 我々は、AIがテキストを作成するように指示されたとき、AIによって生成されたことを人間が認識できないように分類することがより困難であることを発見したので、このより高度なケースについても調査する。 実験では,10の話題を対象とした新しいテキストコーパスを作成した。 基本および高度な人文・AI生成テキストを分類する最良のシステムは、F1スコアが96%以上である。 基本文と先進文を分類する最良のシステムは,f1-scoreが78%以上である。 システムは、パープレキシティ、セマンティック、リスト検索、エラーベース、可読性、AIフィードバック、テキストベクトル機能の組み合わせを使用する。 以上の結果から,多くの分類器の性能向上に寄与することが示唆された。 f1-scoreではgptzeroを183.8%も上回っている。

Recently, generative AIs like ChatGPT have become available to the wide public. These tools can for instance be used by students to generate essays or whole theses. But how does a teacher know whether a text is written by a student or an AI? In our work, we explore traditional and new features to (1) detect text generated by AI from scratch and (2) text rephrased by AI. Since we found that classification is more difficult when the AI has been instructed to create the text in a way that a human would not recognize that it was generated by an AI, we also investigate this more advanced case. For our experiments, we produced a new text corpus covering 10 school topics. Our best systems to classify basic and advanced human-generated/AI-generated texts have F1-scores of over 96%. Our best systems for classifying basic and advanced human-generated/AI-rephrased texts have F1-scores of more than 78%. The systems use a combination of perplexity, semantic, list lookup, error-based, readability, AI feedback, and text vector features. Our results show that the new features substantially help to improve the performance of many classifiers. Our best basic text rephrasing detection system even outperforms GPTZero by 183.8% relative in F1-score.
翻訳日:2023-08-11 13:50:52 公開日:2023-08-10
# シリコン空洞中心を有するハイブリッド系におけるハイゼンベルク制限スピンスクイージング

Heisenberg-limited spin squeezing in a hybrid system with Silicon-Vacancy centers ( http://arxiv.org/abs/2308.05337v1 )

ライセンス: Link先を確認
Zhen-Qiang Ren, Xian-Liang Lu, and Ze-Liang Xiang(参考訳) 本稿では,Si-Vacancy(SiV)中心アンサンブルとダイヤモンド音響導波路をひずみ相互作用により結合したハイブリッド量子系におけるスピンスクイーズについて検討する。 このハイブリッドシステムには、時間依存のマイクロ波場を含む2つの非重複駆動場が適用される。 これらのフィールドを変調することにより、一軸ツイスト(OAT)相互作用と二軸ツイスト(TATS)相互作用を独立に実現できる。 後者の場合、スクイーズパラメータは、ハイゼンベルク極限に非常に近い散逸を考慮した$\xi_R^2\sim1.61N^{-0.64}$としてスピン数にスケールする。 さらに、このハイブリッドシステムは、OAT と TATS 相互作用の同時存在によって生じるスピンスクイーズの研究を可能にし、スピンの数$N_{tot}$のパリティに対する感度を明らかにする。 提案手法は,スピンフォノンハイブリッドシステムにおけるハイゼンベルク限定スピンスクイーズ生成のアプローチを強化し,今後の量子情報処理への応用の可能性を提供する。

In this paper, we investigate spin squeezing in a hybrid quantum system consisting of a Silicon-Vacancy (SiV) center ensemble coupled to a diamond acoustic waveguide via the strain interaction. Two sets of non-overlapping driving fields, each contains two time-dependent microwave fields, are applied to this hybrid system. By modulating these fields, the one-axis twist (OAT) interaction and two-axis two-spin (TATS) interaction can be independently realized. In the latter case the squeezing parameter scales to spin number as $\xi_R^2\sim1.61N^{-0.64}$ with the consideration of dissipation, which is very close to the Heisenberg limit. Furthermore, this hybrid system allows for the study of spin squeezing generated by the simultaneous presence of OAT and TATS interactions, which reveals sensitivity to the parity of the number of spins $N_{tot}$, whether it is even or odd. Our scheme enriches the approach for generating Heisenberg-limited spin squeezing in spin-phonon hybrid systems and offers the possibility for future applications in quantum information processing.
翻訳日:2023-08-11 13:50:30 公開日:2023-08-10
# インフォーマルなペルシャコーパスの開発

Developing an Informal-Formal Persian Corpus ( http://arxiv.org/abs/2308.05336v1 )

ライセンス: Link先を確認
Vahide Tajalli, Fateme Kalantari and Mehrnoush Shamsfard(参考訳) 非公式言語は、カジュアルな会話、ソーシャルメディア、ブログ、メール、テキストメッセージでよく使われる話し言葉や書き言葉のスタイルである。 非公式な文章では、言語は異なる言語によって異なる語彙や構文の変化に直面している。 ペルシャ語はその形式的スタイルと形式的スタイルに多くの違いがある言語の1つであり、そのためこの言語のための非公式な言語処理ツールの開発が必要であると思われる。 このようなコンバータは、言語学者が形式言語でなされるような、口語ペルシャ語の文法と正書法を抽出するのに有用な、口語-形式文の大きな並列コーパスを必要とする。 本稿では,単語/フレーズレベルでアライメントした5万文対の並列コーパスを構築する手法について述べる。 この文は、非公式のペルシア語と形式的なペルシア語の間のほぼあらゆる種類の語彙的および構文的変化をカバーすることを目的としており、したがって、非公式の文字の異なる資源から探索と収集の方法と、できるだけ多くの例を見つけるために音韻学的および形態的変化のパターンに従う方法の両方が適用された。 その結果得られたコーパスには約53万のアライメントと49,397の単語と句のペアを含む辞書がある。

Informal language is a style of spoken or written language frequently used in casual conversations, social media, weblogs, emails and text messages. In informal writing, the language faces some lexical and/or syntactic changes varying among different languages. Persian is one of the languages with many differences between its formal and informal styles of writing, thus developing informal language processing tools for this language seems necessary. Such a converter needs a large aligned parallel corpus of colloquial-formal sentences which can be useful for linguists to extract a regulated grammar and orthography for colloquial Persian as is done for the formal language. In this paper we explain our methodology in building a parallel corpus of 50,000 sentence pairs with alignments in the word/phrase level. The sentences were attempted to cover almost all kinds of lexical and syntactic changes between informal and formal Persian, therefore both methods of exploring and collecting from the different resources of informal scripts and following the phonological and morphological patterns of changes were applied to find as much instances as possible. The resulting corpus has about 530,000 alignments and a dictionary containing 49,397 word and phrase pairs.
翻訳日:2023-08-11 13:50:03 公開日:2023-08-10
# 非エルミート系における複素エネルギー平面の位相不変量

Topological invariants of complex energy plane in non-Hermitian systems ( http://arxiv.org/abs/2308.05329v1 )

ライセンス: Link先を確認
Annan Fan and Shi-Dong Liang(参考訳) 開あるいは散逸系の理論モデルとしての非エルミート系は、凝縮物質物理学におけるリッチな新しい物理的性質と基本的な問題を示し、複素エネルギー平面における擬境界状態と量子状態の位相不変量の間の一般化された局所的対応を提案する。 複素エネルギー平面における擬境界状態のパターンは、ブリルアンゾーンに写像され、パラメータの変形に対して位相不変である。 非エルミートチャーン絶縁体モデルによるこのアプローチの実証を行う。 チャーン数と渦性から得られる一貫した位相位相を与える。 また、チャーン絶縁体モデルの位相相に埋め込まれた新しい位相不変量は、チャーン数と渦度によって予測される以上の非エルミートチャーン絶縁体モデルの位相図を豊かにする。 また,この新しい局所大域対応の背後にある物理を理解するための一般化渦性と反転指数を提案し,局所大域対応とチャーン数との関係とブリルアンゾーンと複素エネルギー平面の間の変換について論じる。 これらの新しいアプローチは、局所的な情報から位相不変量を得る方法や、より一般的な非エルミート系に適用できるであろう量子状態の大域的性質についての洞察を与える。

Non-Hermitian systems as theoretical models of open or dissipative systems exhibit rich novel physical properties and fundamental issues in condensed matter physics.We propose a generalized local-global correspondence between the pseudo-boundary states in the complex energy plane and topological invariants of quantum states. We find that the patterns of the pseudo-boundary states in the complex energy plane mapped to the Brillouin zone are topological invariants against the parameter deformation. We demonstrate this approach by the non-Hermitian Chern insulator model. We give the consistent topological phases obtained from the Chern number and vorticity. We also find some novel topological invariants embedded in the topological phases of the Chern insulator model, which enrich the phase diagram of the non-Hermitian Chern insulators model beyond that predicted by the Chern number and vorticity. We also propose a generalized vorticity and its flipping index to understand physics behind this novel local-global correspondence and discuss the relationships between the local-global correspondence and the Chern number as well as the transformation between the Brillouin zone and the complex energy plane. These novel approaches provide insights to how topological invariants may be obtained from local information as well as the global property of quantum states, which is expected to be applicable in more generic non-Hermitian systems.
翻訳日:2023-08-11 13:49:25 公開日:2023-08-10
# OpenProteinSet:大規模構造生物学のトレーニングデータ

OpenProteinSet: Training data for structural biology at scale ( http://arxiv.org/abs/2308.05326v1 )

ライセンス: Link先を確認
Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi(参考訳) タンパク質の多重配列アライメント(MSA)は、豊富な生物学的情報をコードし、タンパク質の設計やタンパク質構造予測といったタスクのバイオインフォマティックな手法で数十年にわたって研究されてきた。 AlphaFold2のような、トランスフォーマーを使って大量の生のMSAに直接参加する最近のブレークスルーは、その重要性を再確認している。 しかし、MSAの生成は非常に計算集約的であり、AlphaFold2のトレーニングに使用されるデータセットは研究コミュニティで利用できないため、タンパク質の機械学習の進歩を妨げている。 この問題を解決するために,1600万以上のMSAのオープンソースコーパスであるOpenProteinSet,タンパク質データバンクの関連構造ホモログ,およびAlphaFold2タンパク質構造予測を紹介する。 我々は以前、AlphaFold2の再トレーニングに成功したOpenProteinSetの有用性を実証しました。 OpenProteinSetは、トレーニングやバリデーションデータとして広く役立つものと期待しています。 1)タンパク質の構造、機能、設計に焦点をあてた多様なタスク 2)大規模マルチモーダル機械学習の研究。

Multiple sequence alignments (MSAs) of proteins encode rich biological information and have been workhorses in bioinformatic methods for tasks like protein design and protein structure prediction for decades. Recent breakthroughs like AlphaFold2 that use transformers to attend directly over large quantities of raw MSAs have reaffirmed their importance. Generation of MSAs is highly computationally intensive, however, and no datasets comparable to those used to train AlphaFold2 have been made available to the research community, hindering progress in machine learning for proteins. To remedy this problem, we introduce OpenProteinSet, an open-source corpus of more than 16 million MSAs, associated structural homologs from the Protein Data Bank, and AlphaFold2 protein structure predictions. We have previously demonstrated the utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We expect OpenProteinSet to be broadly useful as training and validation data for 1) diverse tasks focused on protein structure, function, and design and 2) large-scale multimodal machine learning research.
翻訳日:2023-08-11 13:48:31 公開日:2023-08-10
# Adv-Inpainting:注意誘導型特徴融合による自然および伝達可能な対向パッチの生成

Adv-Inpainting: Generating Natural and Transferable Adversarial Patch via Attention-guided Feature Fusion ( http://arxiv.org/abs/2308.05320v1 )

ライセンス: Link先を確認
Yanjie Li, Mingxing Duan, Bin Xiao(参考訳) 初歩的な敵対攻撃は、付加雑音を利用して顔認識(FR)モデルを攻撃する。 しかし、顔全体の操作は物理的設定では現実的ではないため、現実世界のFR攻撃のほとんどは、小さな領域に摂動を制限する敵のパッチに基づいている。 以前の敵対的パッチ攻撃は、しばしば不自然なパターンとわかりやすい境界を生み出した。 本稿では, 可塑性成分を用いた対向パッチの生成は, 付加雑音や潜時空間からの直接サンプリングよりも強い伝達性をもたらすと論じる。 自然に見え、高い転送可能な敵パッチを生成するために、Adv-Inpaintingと呼ばれる2段階間粗大攻撃フレームワークを提案する。 第1段階では,アテンションマップに基づくテクスチャとアイデンティティの特徴を適応的に組み合わせて,高透過性および自然対向パッチを生成する,アテンション誘導型スタイルGAN (Att-StyleGAN) を提案する。 第2段階では,パッチと周辺領域との一貫性をさらに向上させるために,新たな境界分散損失を伴う改良ネットワークを設計する。 実験の結果,advインペインティングはステルス性が高く,移動性が強く,視覚品質が向上した敵パッチを生成できることがわかった。

The rudimentary adversarial attacks utilize additive noise to attack facial recognition (FR) models. However, because manipulating the total face is impractical in the physical setting, most real-world FR attacks are based on adversarial patches, which limit perturbations to a small area. Previous adversarial patch attacks often resulted in unnatural patterns and clear boundaries that were easily noticeable. In this paper, we argue that generating adversarial patches with plausible content can result in stronger transferability than using additive noise or directly sampling from the latent space. To generate natural-looking and highly transferable adversarial patches, we propose an innovative two-stage coarse-to-fine attack framework called Adv-Inpainting. In the first stage, we propose an attention-guided StyleGAN (Att-StyleGAN) that adaptively combines texture and identity features based on the attention map to generate high-transferable and natural adversarial patches. In the second stage, we design a refinement network with a new boundary variance loss to further improve the coherence between the patch and its surrounding area. Experiment results demonstrate that Adv-Inpainting is stealthy and can produce adversarial patches with stronger transferability and improved visual quality than previous adversarial patch attacks.
翻訳日:2023-08-11 13:47:59 公開日:2023-08-10
# RLSAC: エンドツーエンドロバスト推定のための強化サンプル合意

RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End Robust Estimation ( http://arxiv.org/abs/2308.05318v1 )

ライセンス: Link先を確認
Chang Nie, Guangming Wang, Zhe Liu, Luca Cavalli, Marc Pollefeys, Hesheng Wang(参考訳) ノイズの多い環境でモデルパラメータを推定する作業は、ロバストな見積もりは非常に重要で難しい作業です。 従来のサンプリングコンセンサスに基づくアルゴリズムは、堅牢性を達成するために数回サンプリングされるが、これらのアルゴリズムはデータの特徴や履歴情報を効果的に利用することはできない。 本稿では,エンドツーエンドロバスト推定のための強化学習強化サンプルコンセンサスフレームワークrlsacを提案する。 RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。 下流タスクのフィードバックは、教師なしトレーニングの報酬となる。 したがって、RSACは、エンドツーエンドのロバスト推定のために下流タスクの特徴やフィードバックを学ぶために差別化を避けることができる。 さらにrlsacは、データとメモリの機能の両方をエンコードする状態遷移モジュールを統合する。 実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。 分析により、rlsacを他のサンプリングコンセンサスに基づくロバスト推定タスクに容易に転送できることが判明した。 我々の知る限り、RSACは、強化学習を用いて、エンドツーエンドのロバストな評価のためのコンセンサスをサンプリングする最初の方法でもある。 コードはhttps://github.com/irmvlab/rlsacでリリースします。

Robust estimation is a crucial and still challenging task, which involves estimating model parameters in noisy environments. Although conventional sampling consensus-based algorithms sample several times to achieve robustness, these algorithms cannot use data features and historical information effectively. In this paper, we propose RLSAC, a novel Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation. RLSAC employs a graph neural network to utilize both data and memory features to guide exploring directions for sampling the next minimum set. The feedback of downstream tasks serves as the reward for unsupervised training. Therefore, RLSAC can avoid differentiating to learn the features and the feedback of downstream tasks for end-to-end robust estimation. In addition, RLSAC integrates a state transition module that encodes both data and memory features. Our experimental results demonstrate that RLSAC can learn from features to gradually explore a better hypothesis. Through analysis, it is apparent that RLSAC can be easily transferred to other sampling consensus-based robust estimation tasks. To the best of our knowledge, RLSAC is also the first method that uses reinforcement learning to sample consensus for end-to-end robust estimation. We release our codes at https://github.com/IRMVLab/RLSAC.
翻訳日:2023-08-11 13:47:36 公開日:2023-08-10
# 統一表現とマルチソース学習によるFew-Shotデータ・テキスト生成

Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning ( http://arxiv.org/abs/2308.05317v1 )

ライセンス: Link先を確認
Alexander Hanbo Li, Mingyue Shang, Evangelia Spiliopoulou, Jie Ma, Patrick Ng, Zhiguo Wang, Bonan Min, William Wang, Kathleen McKeown, Vittorio Castelli, Dan Roth, Bing Xiang(参考訳) 本稿では,構造化データに主眼を置く既存手法の制約に対処する構造化データ・テキスト生成手法を提案する。 提案手法は,表や知識グラフのトリプル,意味表現など,さまざまな構造化データを扱う統一表現を提供することで,マルチタスクトレーニングやゼロショット,少数ショットシナリオのパフォーマンス向上を目的とする。 提案手法は,新しい構造化形式に効果的に適用でき,現行手法と比較して性能を向上できることを示す。 例えば、テーブル入力でトレーニングされたモデルを知識グラフデータセットに転送する際に、ゼロショットbleuスコアが66%向上した。 提案手法は,より一般的なデータ・テキスト生成フレームワークに向けた重要なステップである。

We present a novel approach for structured data-to-text generation that addresses the limitations of existing methods that primarily focus on specific types of structured data. Our proposed method aims to improve performance in multi-task training, zero-shot and few-shot scenarios by providing a unified representation that can handle various forms of structured data such as tables, knowledge graph triples, and meaning representations. We demonstrate that our proposed approach can effectively adapt to new structured forms, and can improve performance in comparison to current methods. For example, our method resulted in a 66% improvement in zero-shot BLEU scores when transferring models trained on table inputs to a knowledge graph dataset. Our proposed method is an important step towards a more general data-to-text generation framework.
翻訳日:2023-08-11 13:47:16 公開日:2023-08-10
# 大規模屋外点群登録のための深部意味グラフマッチング

Deep Semantic Graph Matching for Large-scale Outdoor Point Clouds Registration ( http://arxiv.org/abs/2308.05314v1 )

ライセンス: Link先を確認
Shaocong Liu, Tao Wang, Yan Zhang, Ruqin Zhou, Li Li, Chenguang Dai, Yongsheng Zhang, Hanyun Wang(参考訳) 現在の点雲登録法は主に幾何学的情報に基づいており、通常は点雲の意味情報を無視する。 本稿では,ポイントクラウド登録問題を意味インスタンスマッチングおよび登録タスクとして扱い,大規模アウトドアポイントクラウド登録のための深い意味グラフマッチング手法を提案する。 まず、大規模ポイントクラウドセマンティックセグメンテーションネットワークを用いて、3次元ポイントクラウドの意味圏ラベルを得る。 次に、同じカテゴリラベルを持つ隣接点をユークリッドクラスタリングアルゴリズムを用いてクラスタリングし、セマンティックインスタンスを得る。 次に、セマンティックなインスタンスの空間的隣接関係に基づいてセマンティックな隣接グラフを構築する。 幾何学的形状特徴,意味カテゴリー特徴,空間分布特徴を含む3種類の高次元特徴を,グラフ畳み込みネットワークを通じて学習し,注意機構に基づいて拡張する。 第三に、セマンティックインスタンスマッチング問題は最適な輸送問題としてモデル化され、最適なマッチング層によって解決される。 最後に、マッチングされたセマンティック・インスタンスにより、2点雲間の幾何変換行列は、まずSVDアルゴリズムにより取得され、次にICPアルゴリズムによって洗練される。 実験はKITTI Odometryデータセット上で実施され,提案手法の平均相対翻訳誤差と平均相対回転誤差はそれぞれ 6.6cm と 0.229{\deg} である。

The current point cloud registration methods are mainly based on geometric information and usually ignore the semantic information in the point clouds. In this paper, we treat the point cloud registration problem as semantic instance matching and registration task, and propose a deep semantic graph matching method for large-scale outdoor point cloud registration. Firstly, the semantic category labels of 3D point clouds are obtained by utilizing large-scale point cloud semantic segmentation network. The adjacent points with the same category labels are then clustered together by using Euclidean clustering algorithm to obtain the semantic instances. Secondly, the semantic adjacency graph is constructed based on the spatial adjacency relation of semantic instances. Three kinds of high-dimensional features including geometric shape features, semantic categorical features and spatial distribution features are learned through graph convolutional network, and enhanced based on attention mechanism. Thirdly, the semantic instance matching problem is modeled as an optimal transport problem, and solved through an optimal matching layer. Finally, according to the matched semantic instances, the geometric transformation matrix between two point clouds is first obtained by SVD algorithm and then refined by ICP algorithm. The experiments are cconducted on the KITTI Odometry dataset, and the average relative translation error and average relative rotation error of the proposed method are 6.6cm and 0.229{\deg} respectively.
翻訳日:2023-08-11 13:47:03 公開日:2023-08-10
# WeaverBird: 大規模言語モデル,知識ベース,検索エンジンによる財務意思決定の強化

WeaverBird: Empowering Financial Decision-Making with Large Language Model, Knowledge Base, and Search Engine ( http://arxiv.org/abs/2308.05361v1 )

ライセンス: Link先を確認
Siqiao Xue, Fan Zhou, Yi Xu, Hongyu Zhao, Shuo Xie, Caigao Jiang, James Zhang, Jun Zhou, Peng Xu, Dacheng Xiu, Hongyuan Mei(参考訳) 本稿では,金融分野に特化したインテリジェント対話システムweaverbirdを提案する。 本システムでは,金融関連テキストを多用したgptアーキテクチャの大規模言語モデルを採用している。 その結果,我々のシステムは,「インフレーション時に投資をどのように管理すべきか」といった複雑な金融クエリを理解し,インフォームド・レスポンスを提供する能力を持っている。 さらに,本システムは,地域知識ベースと検索エンジンを組み込んで関連情報を検索する。 最終応答は検索結果に条件付けされ、ソースへの適切な引用が含まれ、信頼性が向上する。 金融関連の様々な質問を通じて,我々は他のモデルと比較して,システムの優れた性能を実証した。 私たちのシステムを実際に体験するために、ユーザはhttps://weaverbird.ttic.eduで私たちのライブデモと対話できる。 v=yofgeqnrMc。

We present WeaverBird, an intelligent dialogue system designed specifically for the finance domain. Our system harnesses a large language model of GPT architecture that has been tuned using extensive corpora of finance-related text. As a result, our system possesses the capability to understand complex financial queries, such as "How should I manage my investments during inflation?", and provide informed responses. Furthermore, our system incorporates a local knowledge base and a search engine to retrieve relevant information. The final responses are conditioned on the search results and include proper citations to the sources, thus enjoying an enhanced credibility. Through a range of finance-related questions, we have demonstrated the superior performance of our system compared to other models. To experience our system firsthand, users can interact with our live demo at https://weaverbird.ttic.edu, as well as watch our 2-min video illustration at https://www.youtube.com/watch?v=yofgeqnlrMc.
翻訳日:2023-08-11 13:39:30 公開日:2023-08-10
# 半教師付きインスタンスセグメンテーションのための擬似ラベルアライメント

Pseudo-label Alignment for Semi-supervised Instance Segmentation ( http://arxiv.org/abs/2308.05359v1 )

ライセンス: Link先を確認
Jie Hu, Chen Chen, Liujuan Cao, Shengchuan Zhang, Annan Shu, Guannan Jiang, and Rongrong Ji(参考訳) 疑似ラベルは、セミ教師付きインスタンスセグメンテーションにおいて重要であり、その後のトレーニングのためにアノテーションのないイメージからインスタンスマスクとクラスを生成する。 しかし、既存のパイプラインでは、クラスやマスクの品質のミスマッチにより、貴重な情報を含む擬似ラベルを直接フィルタリングすることができる。 この問題に対処するため,我々はpseudo-labelaligneding instance segmentation (pais) と呼ばれる新しいフレームワークを提案する。 PAISでは,半教師付き損失項の重みを様々なクラスとマスクスコアペアで調整する動的整合損失(DALoss)を考案する。 COCOデータセットとCityscapesデータセットで実施された広範な実験を通じて、PAISが半教師付きインスタンスセグメンテーションのための有望なフレームワークであることを実証した。 特に1\%のラベル付きデータで、PAISはCOCOデータセット上で21.2 mAP(Mask-RCNNをベースとする)と19.9 mAP(K-Netをベースとする)を達成し、現在の最先端モデルであるShaie, NoisyBoundaryを7.7 mAPのマージンで上回っている。 コードは: \url{https://github.com/hujiecpp/PAIS}で入手できる。

Pseudo-labeling is significant for semi-supervised instance segmentation, which generates instance masks and classes from unannotated images for subsequent training. However, in existing pipelines, pseudo-labels that contain valuable information may be directly filtered out due to mismatches in class and mask quality. To address this issue, we propose a novel framework, called pseudo-label aligning instance segmentation (PAIS), in this paper. In PAIS, we devise a dynamic aligning loss (DALoss) that adjusts the weights of semi-supervised loss terms with varying class and mask score pairs. Through extensive experiments conducted on the COCO and Cityscapes datasets, we demonstrate that PAIS is a promising framework for semi-supervised instance segmentation, particularly in cases where labeled data is severely limited. Notably, with just 1\% labeled data, PAIS achieves 21.2 mAP (based on Mask-RCNN) and 19.9 mAP (based on K-Net) on the COCO dataset, outperforming the current state-of-the-art model, \ie, NoisyBoundary with 7.7 mAP, by a margin of over 12 points. Code is available at: \url{https://github.com/hujiecpp/PAIS}.
翻訳日:2023-08-11 13:39:14 公開日:2023-08-10
# ドメイン適応プレトレーニングと複合二重バックボーンに基づくきめ細かい屋根のインスタンスセグメンテーション

Fine-grained building roof instance segmentation based on domain adapted pretraining and composite dual-backbone ( http://arxiv.org/abs/2308.05358v1 )

ライセンス: Link先を確認
Guozhang Liu, Baochai Peng, Ting Liu, Pan Zhang, Mengke Yuan, Chaoran Lu, Ningning Cao, Sen Zhang, Simin Huang, Tao Wang(参考訳) 様々な地形上に位置するグローバル都市の建築様式の多様性、雲や影の影響による光学画像の劣化、屋根タイプのクラス間の大きな不均衡は、頑健で正確な屋根インスタンスセグメンタを設計する上で課題となる。 そこで本稿では,高分解能衛星画像を用いた個々の建築物の意味解釈を実現するための効果的な枠組みを提案する。 特に、レバレッジドドメイン適応プリトレーニング戦略と複合デュアルバックボーンは、識別的特徴学習を大いに促進する。 さらに、新たなデータ拡張パイプライン、確率重み付け(SWA)トレーニング、およびテストにおけるインスタンスセグメンテーションに基づくモデルアンサンブルを利用して、さらなるパフォーマンス向上を図る。 実験の結果,本手法は2023年のIEEE GRSS Data Fusion Contest (DFC) Track 1 test phase (mAP_{50}$:50.6\%)の第一位にランクされている。 また,光衛星画像とSARデータとのマルチモーダルデータ融合の可能性についても検討した。

The diversity of building architecture styles of global cities situated on various landforms, the degraded optical imagery affected by clouds and shadows, and the significant inter-class imbalance of roof types pose challenges for designing a robust and accurate building roof instance segmentor. To address these issues, we propose an effective framework to fulfill semantic interpretation of individual buildings with high-resolution optical satellite imagery. Specifically, the leveraged domain adapted pretraining strategy and composite dual-backbone greatly facilitates the discriminative feature learning. Moreover, new data augmentation pipeline, stochastic weight averaging (SWA) training and instance segmentation based model ensemble in testing are utilized to acquire additional performance boost. Experiment results show that our approach ranks in the first place of the 2023 IEEE GRSS Data Fusion Contest (DFC) Track 1 test phase ($mAP_{50}$:50.6\%). Note-worthily, we have also explored the potential of multimodal data fusion with both optical satellite imagery and SAR data.
翻訳日:2023-08-11 13:38:47 公開日:2023-08-10
# メモリ付きパリティ依存量子ウォークに基づく量子インスピレーション型ハッシュ関数

Quantum-inspired Hash Function Based on Parity-dependent Quantum Walks with Memory ( http://arxiv.org/abs/2308.05357v1 )

ライセンス: Link先を確認
Qing Zhou, Xueming Tang, Songfeng Lu, Hao Yang(参考訳) 本稿では、パリティ依存の量子ウォークと異なる任意のメモリ長を組み合わせた汎用制御された代替量子ウォークモデル(CQWM-P)を開発し、そのモデルに基づいて量子インスパイアされたハッシュ関数(QHFM-P)を構築する。 数値シミュレーションにより,QHFM-Pの統計的性能はほぼ理想的であり,メッセージに対するハッシュ値の感度,拡散・混乱特性,均一分布特性,衝突抵抗特性などの観点から,離散量子ウォークに基づく最先端ハッシュ関数と同等であることがわかった。 安定性テストにより、提案するハッシュ関数の統計特性はコインパラメーターに対して頑健であることが示され、理論的解析によりqhfm-pの計算複雑性は同値であることが示されている。

In this paper, we develop a generic controlled alternate quantum walk model (called CQWM-P) by combining parity-dependent quantum walks with distinct arbitrary memory lengths and then construct a quantum-inspired hash function (called QHFM-P) based on this model. Numerical simulation shows that QHFM-P has near-ideal statistical performance and is on a par with the state-of-the-art hash functions based on discrete quantum walks in terms of sensitivity of hash value to message, diffusion and confusion properties, uniform distribution property, and collision resistance property. Stability test illustrates that the statistical properties of the proposed hash function are robust with respect to the coin parameters, and theoretical analysis indicates that QHFM-P has the same computational complexity as that of its peers.
翻訳日:2023-08-11 13:38:30 公開日:2023-08-10
# TCSloT:歯科インプラント位置推定のための3Dテクストガイドとスロープアウェアトリプルネットワーク

TCSloT: Text Guided 3D Context and Slope Aware Triple Network for Dental Implant Position Prediction ( http://arxiv.org/abs/2308.05355v1 )

ライセンス: Link先を確認
Xinquan Yang and Jinheng Xie and Xuechen Li and Xuguang Li and Linlin Shen and Yongqiang Deng(参考訳) インプラント補綴治療では、インプラントの外科的ガイドが正確な移植を確実にするために用いられる。 しかし、このような設計はインプラントの位置の手動位置に大きく依存している。 インプラントの位置の特定を支援するディープニューラルネットワークが提案されているとき、ほとんどが入力として1スライスを取るが、3dコンテクスト情報を完全には探索せず、インプラント傾斜の影響を無視する。 本稿では,複数の隣接するスライスからのコンテキスト情報の認識とインプラント斜面の変動に対する認識を可能にする,テクスチャガイド3Dコンテキスト・スロープアウェアトリプルネットワーク(TCSloT)を設計する。 複数のスライスを処理し,スライス間のテクスチャの変化を捉えるために,テクスチャ変化知覚(TVP)モジュールを対応する精細化し,レグレッションヘッドの重みを動的に割り当てるスロープ・アウェア・ロス(SAL)を提案する。 さらに,CLIPからテキスト条件(左,中,右)を統合してインプラント位置予測を支援する条件付きテキストガイダンス(CTG)モジュールを設計する。 5倍のクロスバリデーションによる歯科インプラントデータセットの大規模な実験により,提案したTCSloTは既存の方法よりも優れた性能を示した。

In implant prosthesis treatment, the surgical guide of implant is used to ensure accurate implantation. However, such design heavily relies on the manual location of the implant position. When deep neural network has been proposed to assist the dentist in locating the implant position, most of them take a single slice as input, which do not fully explore 3D contextual information and ignoring the influence of implant slope. In this paper, we design a Text Guided 3D Context and Slope Aware Triple Network (TCSloT) which enables the perception of contextual information from multiple adjacent slices and awareness of variation of implant slopes. A Texture Variation Perception (TVP) module is correspondingly elaborated to process the multiple slices and capture the texture variation among slices and a Slope-Aware Loss (SAL) is proposed to dynamically assign varying weights for the regression head. Additionally, we design a conditional text guidance (CTG) module to integrate the text condition (i.e., left, middle and right) from the CLIP for assisting the implant position prediction. Extensive experiments on a dental implant dataset through five-fold cross-validation demonstrated that the proposed TCSloT achieves superior performance than existing methods.
翻訳日:2023-08-11 13:38:14 公開日:2023-08-10
# マルチクラス優先アタッチメント分類器によるソーシャルネットワーク上のフェイクアカウントのプリエンプティブ検出

Preemptive Detection of Fake Accounts on Social Networks via Multi-Class Preferential Attachment Classifiers ( http://arxiv.org/abs/2308.05353v1 )

ライセンス: Link先を確認
Adam Breuer, Nazanin Khosravani, Michael Tingley, Bradford Cottel(参考訳) 本稿では、ソーシャルネットワーク上で偽アカウントを検出するためのPreAttacK(Preferential Attachment k-class Classifier)と呼ばれる新しいアルゴリズムについて述べる。 近年,この問題に対するアルゴリズムの精度が向上している。 しかし彼らは、偽のアカウントの友情や彼らが他人と共有しているコンテンツに関する情報に頼ることで、それを成し遂げた。 PreAttacKはこれらのアプローチから大きく離れている。 我々は、新しいフェイクアカウント(およびリアルアカウント)が、主要なネットワーク(facebook)に加入した後初めて友人にリクエストしようとする方法に関する、最初の詳細な配布分析を提供する。 新しいアカウントが友達や共有コンテンツを作る前であっても、これらの初期友人の要求行動は、ソーシャルネットワークの成長の標準優先アタッチメントモデルの自然なマルチクラス拡張を引き起こします。 我々はこのモデルを使って新しいアルゴリズムPreAttacKを導出する。 関連する問題例において、プリアタックは、新しいアカウントの友人リクエストの多クラス優先アタッチメントモデルの下で、新しいアカウントがフェイクである確率をほぼ最適に近似することを証明する。 これらは、新しいユーザーに適用される偽アカウント検出の最初の証明可能な保証であり、強いホモフィリー仮定を必要としない。 この原理的なアプローチにより、PreAttacKは、グローバルなFacebookネットワーク上の新しいユーザーに対して最先端のパフォーマンスを保証できる唯一のアルゴリズムとなり、新しいユーザーが送信した後にAUC=0.9に収束する。 比較として、最先端のベンチマークでは、新規ユーザの最初の100人の友人リクエストに関する追加データを観察しても、このAUCは得られない。 したがって、メインストリームのアルゴリズムとは異なり、PreAttacKは中央値の偽アカウントが人間と1つの友情(認められた友人の要求)を結び付ける前に収束する。

In this paper, we describe a new algorithm called Preferential Attachment k-class Classifier (PreAttacK) for detecting fake accounts in a social network. Recently, several algorithms have obtained high accuracy on this problem. However, they have done so by relying on information about fake accounts' friendships or the content they share with others--the very things we seek to prevent. PreAttacK represents a significant departure from these approaches. We provide some of the first detailed distributional analyses of how new fake (and real) accounts first attempt to request friends after joining a major network (Facebook). We show that even before a new account has made friends or shared content, these initial friend request behaviors evoke a natural multi-class extension of the canonical Preferential Attachment model of social network growth. We use this model to derive a new algorithm, PreAttacK. We prove that in relevant problem instances, PreAttacK near-optimally approximates the posterior probability that a new account is fake under this multi-class Preferential Attachment model of new accounts' (not-yet-answered) friend requests. These are the first provable guarantees for fake account detection that apply to new users, and that do not require strong homophily assumptions. This principled approach also makes PreAttacK the only algorithm with provable guarantees that obtains state-of-the-art performance on new users on the global Facebook network, where it converges to AUC=0.9 after new users send + receive a total of just 20 not-yet-answered friend requests. For comparison, state-of-the-art benchmarks do not obtain this AUC even after observing additional data on new users' first 100 friend requests. Thus, unlike mainstream algorithms, PreAttacK converges before the median new fake account has made a single friendship (accepted friend request) with a human.
翻訳日:2023-08-11 13:37:49 公開日:2023-08-10
# 捕捉された偏光子凝縮体のゼエマン抑制と逆転

Occupancy-driven Zeeman suppression and inversion in trapped polariton condensates ( http://arxiv.org/abs/2308.05351v1 )

ライセンス: Link先を確認
Krzysztof Sawicki, Dmitriy Dovzhenko, Yuan Wang, Helgi Sigur{\dh}sson, and Pavlos G. Lagoudakis(参考訳) 複数のIn0.08Ga0.92As量子井戸を有する平面半導体マイクロキャビティにおける光捕捉エキシトン・ポラリトン凝縮体の磁気フォトルミネッセンスの研究を行った。 超高凝縮コヒーレンス時間と偏光子閉じ込めの連続制御は、光トラップによる利点の一つである。 これにより、凝縮体中の磁気誘導された {\mu}eV微細エネルギーシフトを解消し、パラメータ空間内の異常な動的領域を特定できる。 偏光子ゼーマン分裂を観察し, 凝縮密度が臨界値を超えた場合, スピン-マイスナー効果を想起して, 密閉した小さなトラップで全パラメトリックスクリーニングを実証した。 より大きな光学トラップに対して、ゼーマン分裂の完全な反転をパワーの関数として観測し、凝縮凝縮の重要性と背景貯水池の励起子との相互作用を明らかにする。

We study the magneto-photoluminescence of an optically trapped exciton-polariton condensate in a planar semiconductor microcavity with multiple In0.08Ga0.92As quantum wells. Extremely high condensate coherence time and continuous control over the polariton confinement are amongst the advantages provided by optical trapping. This allows us to resolve magnetically induced {\mu}eV fine energy shifts in the condensate, and identify unusual dynamical regions in its parameter space. We observe polariton Zeeman splitting and, in small traps with tight confinement, demonstrate its full parametric screening when the condensate density exceeds a critical value, reminiscent of the spin- Meissner effect. For larger optical traps, we observe a complete inversion in the Zeeman splitting as a function of power, underlining the importance of condensate confinement and interactions with its background reservoir excitons.
翻訳日:2023-08-11 13:37:16 公開日:2023-08-10
# 知識蒸留による汎用・高速ビデオデレインを目指して

Towards General and Fast Video Derain via Knowledge Distillation ( http://arxiv.org/abs/2308.05346v1 )

ライセンス: Link先を確認
Defang Cai, Pan Mu, Sixian Chan, Zhanpeng Shao, Cong Bai(参考訳) 自然の気象条件として、雨はビデオフレームを曖昧にし、視覚システムの性能に影響を与える可能性があるため、ビデオデラインは多くの注目を集めている。 自然環境下では、雨は様々な種類があり、雨の除去作業の困難さを増大させる。 そこで,本研究では,雨のストレークタイプを1つの事前訓練重量で処理する知識蒸留(rrgnet)を用いた,雨レビューに基づく一般ビデオデラインネットワークを提案する。 具体的には,ビデオの時間情報をフル活用したフレームグルーピング方式のエンコーダデコーダネットワークを設計する。 さらに,過去のタスクモデルを用いて,新しい雨のストレークタイプを学習する際の現在のモデルをガイドする。 ネットワークのデランシング能力を統合するため,rain reviewモジュールを設計し,現在のモデルで古いタスクからデータを再生する。 実験の結果,本手法は走行速度とデライン効果の点で最高の結果が得られることがわかった。

As a common natural weather condition, rain can obscure video frames and thus affect the performance of the visual system, so video derain receives a lot of attention. In natural environments, rain has a wide variety of streak types, which increases the difficulty of the rain removal task. In this paper, we propose a Rain Review-based General video derain Network via knowledge distillation (named RRGNet) that handles different rain streak types with one pre-training weight. Specifically, we design a frame grouping-based encoder-decoder network that makes full use of the temporal information of the video. Further, we use the old task model to guide the current model in learning new rain streak types while avoiding forgetting. To consolidate the network's ability to derain, we design a rain review module to play back data from old tasks for the current model. The experimental results show that our developed general method achieves the best results in terms of running speed and derain effect.
翻訳日:2023-08-11 13:37:00 公開日:2023-08-10
# rtllm: 大きな言語モデルによるrtl生成のためのオープンソースベンチマーク

RTLLM: An Open-Source Benchmark for Design RTL Generation with Large Language Model ( http://arxiv.org/abs/2308.05345v1 )

ライセンス: Link先を確認
Yao Lu, Shang Liu, Qijun Zhang, Zhiyao Xie(参考訳) ChatGPTのような最近の大規模言語モデル(LLM)の成功に触発されて、研究者は、自然言語命令に基づいた設計RTLの生成など、アジャイルハードウェア設計におけるLLMの採用を探り始めた。 しかし、既存の研究では、それらのターゲット設計はすべて比較的単純で小規模であり、著者自身によって提案されており、異なるLLMソリューション間で公正に比較することは困難である。 さらに、多くの先行作品は、生成した設計rtlの設計品質を評価することなく、設計の正確性にのみ焦点を合わせている。 本研究では,自然言語命令を用いた設計RTLを生成するRTLLMというオープンソースのベンチマークを提案する。 自動生成設計RTLを体系的に評価するために,構文目標,機能目標,設計品質目標の3つの段階目標をまとめた。 このベンチマークは、任意のLCMベースのソリューションを定量的に評価する。 さらに,提案するベンチマークにおいて,gpt-3.5の性能が大幅に向上することを示すセルフプランニングという,簡便かつ驚くほど効果的なプロンプトエンジニアリング手法を提案する。

Inspired by the recent success of large language models (LLMs) like ChatGPT, researchers start to explore the adoption of LLMs for agile hardware design, such as generating design RTL based on natural-language instructions. However, in existing works, their target designs are all relatively simple and in a small scale, and proposed by the authors themselves, making a fair comparison among different LLM solutions challenging. In addition, many prior works only focus on the design correctness, without evaluating the design qualities of generated design RTL. In this work, we propose an open-source benchmark named RTLLM, for generating design RTL with natural language instructions. To systematically evaluate the auto-generated design RTL, we summarized three progressive goals, named syntax goal, functionality goal, and design quality goal. This benchmark can automatically provide a quantitative evaluation of any given LLM-based solution. Furthermore, we propose an easy-to-use yet surprisingly effective prompt engineering technique named self-planning, which proves to significantly boost the performance of GPT-3.5 in our proposed benchmark.
翻訳日:2023-08-11 13:36:42 公開日:2023-08-10
# 前立腺年齢ギャップ(pag) : 前立腺癌検出のためのmriによる加齢マーカー

Prostate Age Gap (PAG): An MRI surrogate marker of aging for prostate cancer detection ( http://arxiv.org/abs/2308.05344v1 )

ライセンス: Link先を確認
Alvaro Fernandez-Quilez, Tobias Nordstr\"om, Fredrik J\"aderling, Svein Reidar Kjosavik and Martin Eklund(参考訳) 背景: 前立腺癌(PC)MRIベースのリスク電卓は一般に生物学的(例えばPSA)、MRIマーカー(例えば容積)、および患者年齢に基づいている。 患者年齢は個体の年齢を計測するが、生物学的年齢(ba)は個体の生理学を反映した方がよい。 しかし, 前立腺MRIと臨床上重要なPC(csPC)の関連性について検討する。 目的:csPCリスクのMRIマーカーとして,前立腺年齢ギャップ(PAG)の取得と評価を行う。 研究タイプ:ふりかえり。 人口: 前立腺生検を受けた468名から7243名の前立腺MRIスライスを行った。 81例の低悪性度pc (ncspc, gleason score <=6) と131例のmriスライスを採取し, 残りの256例について深層学習モデルを用いて検討した。 評価: 時系列年齢は来訪時の参加者の年齢と定義され, 深層学習モデルを用いて患者の年齢を予測した。 その後, 年齢予測モデルとして定義されたPAGが, 患者の時系列年齢を抑えた。 多変量ロジスティック回帰モデルを用いてオッズ比(OR)とPAGの予測値を用いて相関を推定し,PSA値とPI-RADS>=3。 統計的テスト:T-test、Mann-Whitney Uテスト、Permutationテスト、ROC曲線解析。 結果: 多変量調整モデルでは臨床的に有意なpc (cspc, gleason score >=7) (3.78, 95%信頼区間 (ci): 2.32-6.16, p <.001) の確率に有意差が認められた。 PAGはPI-RADS>=3と比較し, PSA値を含む他の危険因子(AUC=0.981対AUC=0.704, p<.001。 結論: PAGは臨床的に有意なPCのリスクと,他の確立されたPCのリスク因子よりも優れていた。

Background: Prostate cancer (PC) MRI-based risk calculators are commonly based on biological (e.g. PSA), MRI markers (e.g. volume), and patient age. Whilst patient age measures the amount of years an individual has existed, biological age (BA) might better reflect the physiology of an individual. However, surrogates from prostate MRI and linkage with clinically significant PC (csPC) remain to be explored. Purpose: To obtain and evaluate Prostate Age Gap (PAG) as an MRI marker tool for csPC risk. Study type: Retrospective. Population: A total of 7243 prostate MRI slices from 468 participants who had undergone prostate biopsies. A deep learning model was trained on 3223 MRI slices cropped around the gland from 81 low-grade PC (ncsPC, Gleason score <=6) and 131 negative cases and tested on the remaining 256 participants. Assessment: Chronological age was defined as the age of the participant at the time of the visit and used to train the deep learning model to predict the age of the patient. Following, we obtained PAG, defined as the model predicted age minus the patient's chronological age. Multivariate logistic regression models were used to estimate the association through odds ratio (OR) and predictive value of PAG and compared against PSA levels and PI-RADS>=3. Statistical tests: T-test, Mann-Whitney U test, Permutation test and ROC curve analysis. Results: The multivariate adjusted model showed a significant difference in the odds of clinically significant PC (csPC, Gleason score >=7) (OR =3.78, 95% confidence interval (CI):2.32-6.16, P <.001). PAG showed a better predictive ability when compared to PI-RADS>=3 and adjusted by other risk factors, including PSA levels: AUC =0.981 vs AUC =0.704, p<.001. Conclusion: PAG was significantly associated with the risk of clinically significant PC and outperformed other well-established PC risk factors.
翻訳日:2023-08-11 13:36:23 公開日:2023-08-10
# ファッションEコマースのための製品レビューイメージランキング

Product Review Image Ranking for Fashion E-commerce ( http://arxiv.org/abs/2308.05390v1 )

ライセンス: Link先を確認
Sangeet Jaiswal, Dhruv Patel, Sreekanth Vempati, Konduru Saiswaroop(参考訳) 顧客が自分自身で製品を調べることができないファッションeコマースプラットフォームでは、購入決定を行う際に、他の顧客のテキストや製品の画像レビューを見ることが重要です。 これらのレビューへの依存度が高いことから、私たちは長年にわたって、顧客が積極的にレビューを共有するのを観察してきました。 ユーザ生成コンテンツ(UGC)のカバレッジの増加に伴い、顧客イメージの数の増加に対応している。 したがって、ユーザのオンラインショッピング選択や行動に影響を与える可能性があるため、最も関連性の高い画像を表示することが不可欠である。 本稿では,顧客画像のランク付けのための簡易かつ効果的なトレーニング手順を提案する。 我々は、Myntra(大手インドファッションeコマース会社)のスタジオポストと高度に関与した(アップボート/ダウンボート)UGCイメージからなるデータセットを作成し、上記データセットのイメージに選択された歪みテクニックを使用して、悪質なUGCイメージと同等の品質を実現した。 当社のネットワークは、高品質画像よりも低品質画像をランク付けするようにトレーニングしています。 提案手法は,2つの指標,すなわち相関係数と精度のベースラインモデルに対して,かなりのマージンで性能を向上する。

In a fashion e-commerce platform where customers can't physically examine the products on their own, being able to see other customers' text and image reviews of the product is critical while making purchase decisions. Given the high reliance on these reviews, over the years we have observed customers proactively sharing their reviews. With an increase in the coverage of User Generated Content (UGC), there has been a corresponding increase in the number of customer images. It is thus imperative to display the most relevant images on top as it may influence users' online shopping choices and behavior. In this paper, we propose a simple yet effective training procedure for ranking customer images. We created a dataset consisting of Myntra (A Major Indian Fashion e-commerce company) studio posts and highly engaged (upvotes/downvotes) UGC images as our starting point and used selected distortion techniques on the images of the above dataset to bring their quality at par with those of bad UGC images. We train our network to rank bad-quality images lower than high-quality ones. Our proposed method outperforms the baseline models on two metrics, namely correlation coefficient, and accuracy, by substantial margins.
翻訳日:2023-08-11 13:30:53 公開日:2023-08-10
# HGDNet:シングルビュービルディング抽出と高さ推定のための階層型デュアルデコーダネットワーク

HGDNet: A Height-Hierarchy Guided Dual-Decoder Network for Single View Building Extraction and Height Estimation ( http://arxiv.org/abs/2308.05387v1 )

ライセンス: Link先を確認
Chaoran Lu, Ningning Cao, Pan Zhang, Ting Liu, Baochai Peng, Guozhang Liu, Mengke Yuan, Sen Zhang, Simin Huang, Tao Wang(参考訳) 関連衛星画像の抽出と高度推定タスクの統合は,大規模都市3次元再構築における表現の共有とジェネラリストモデル獲得の有望な方法である。 しかし,建物の足跡と立体再構成されたnDSM高さラベルとの共通的な空間的不整合は,両タスクの劣化を招いた。 この問題に対処するために,建物の高さを推定するための階層型ガイドデュアルデコーダネットワーク(HGDNet)を提案する。 合成された離散高さ階層nDSMの指導の下で、補助的な高さ階層構造抽出枝は、暗黙の制約で高さ推定枝を強化し、DFC 2023トラック2データセット上で6%以上の精度向上をもたらす。 より正確な建物抽出を達成するために追加の2段カスケードアーキテクチャが採用されている。 DFC 2023 Track 2データセットを用いた実験では, 建物の高さ推定法 ({\delta}1:0.8012) , インスタンス抽出法 (AP50:0.7730) , 最終平均スコア 0.7871 が試験段階において最上位であった。

Unifying the correlative single-view satellite image building extraction and height estimation tasks indicates a promising way to share representations and acquire generalist model for large-scale urban 3D reconstruction. However, the common spatial misalignment between building footprints and stereo-reconstructed nDSM height labels incurs degraded performance on both tasks. To address this issue, we propose a Height-hierarchy Guided Dual-decoder Network (HGDNet) to estimate building height. Under the guidance of synthesized discrete height-hierarchy nDSM, auxiliary height-hierarchical building extraction branch enhance the height estimation branch with implicit constraints, yielding an accuracy improvement of more than 6% on the DFC 2023 track2 dataset. Additional two-stage cascade architecture is adopted to achieve more accurate building extraction. Experiments on the DFC 2023 Track 2 dataset shows the superiority of the proposed method in building height estimation ({\delta}1:0.8012), instance extraction (AP50:0.7730), and the final average score 0.7871 ranks in the first place in test phase.
翻訳日:2023-08-11 13:30:32 公開日:2023-08-10
# 適応的分類学学習と特許分類のための歴史的パターンモデリング

Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification ( http://arxiv.org/abs/2308.05385v1 )

ライセンス: Link先を確認
Tao Zou, Le Yu, Leilei Sun, Bowen Du, Deqing Wang, Fuzhen Zhuang(参考訳) 特許分類は、所定の特許に複数の国際特許分類(IPC)コードを割り当てることを目的としている。 最近の特許の自動分類法は、主に特許のテキスト記述を分析することに焦点を当てている。 しかし、本文とは別に、各特許はいくつかの割り当て者と関連付けられており、適用された特許の知識は分類に有用であることが多い。 さらに、ipcシステムによって定式化された階層分類は重要な文脈情報を提供し、モデルがより正確な分類のためにipcコード間の相関を利用することができる。 しかし、既存の手法では上記の側面を取り入れられていない。 本稿では,特許分類のための特許に関する情報を包括的に考察する統合フレームワークを提案する。 具体的には、まずIPCコード相関学習モジュールを示し、その意味表現を、同一レベル内および階層分類に沿って異なるレベルにわたって適応的に送信し、集約することで導出する。 さらに,デュアルチャネルアグリゲーション機構により,対応するアサインの前の特許を組み込むために,歴史的なアプリケーションパターン学習コンポーネントを設計する。 最後に,ipc符号のセマンティクスを含む特許文書の文脈情報と,予測を行うユーザのシーケンシャルな選好を組み合わせる。 実世界のデータセットの実験は、既存の手法よりもアプローチの方が優れていることを示す。 さらに,ipcコード間の代入者の時間的パターンと意味的依存関係をキャプチャするモデルの能力を示す。

Patent classification aims to assign multiple International Patent Classification (IPC) codes to a given patent. Recent methods for automatically classifying patents mainly focus on analyzing the text descriptions of patents. However, apart from the texts, each patent is also associated with some assignees, and the knowledge of their applied patents is often valuable for classification. Furthermore, the hierarchical taxonomy formulated by the IPC system provides important contextual information and enables models to leverage the correlations between IPC codes for more accurate classification. However, existing methods fail to incorporate the above aspects. In this paper, we propose an integrated framework that comprehensively considers the information on patents for patent classification. To be specific, we first present an IPC codes correlations learning module to derive their semantic representations via adaptively passing and aggregating messages within the same level and across different levels along the hierarchical taxonomy. Moreover, we design a historical application patterns learning component to incorporate the corresponding assignee's previous patents by a dual channel aggregation mechanism. Finally, we combine the contextual information of patent texts that contains the semantics of IPC codes, and assignees' sequential preferences to make predictions. Experiments on real-world datasets demonstrate the superiority of our approach over the existing methods. Besides, we present the model's ability to capture the temporal patterns of assignees and the semantic dependencies among IPC codes.
翻訳日:2023-08-11 13:30:11 公開日:2023-08-10
# 人的属性を用いたインタラクションアウェア共同注意推定

Interaction-aware Joint Attention Estimation Using People Attributes ( http://arxiv.org/abs/2308.05382v1 )

ライセンス: Link先を確認
Chihiro Nakatani, Hiroaki Kawashima, Norimichi Ukita(参考訳) 本稿では,単一画像における共同注意推定を提案する。 人の視線関連属性のみを個別に採用する関連作業と異なり、(I)その位置と行動は属性を重み付けするための文脈的手がかりとしても使用され、(ii)これらの属性間の相互作用は、我々の方法で明示的にモデル化されている。 低次元の特徴として共同注意を符号化するトランスフォーマーに基づく新しいアテンションネットワークを提案する。 本研究では,トランスフォーマーに位置埋め込みを施した特殊なMLPヘッドを導入し,信頼度マップを生成するための共同注意の画素単位の信頼度を予測する。 この画素ワイズ予測は、低次元の特徴から高次元のヒートマップが予測される不適切な問題を回避することにより、ヒートマップ精度を向上させる。 一般画像に基づくアテンション推定と統合することにより、推定されたジョイントアテンションをさらに改善する。 比較実験でSOTA法を定量的に比較した。 コード:https://anonymous.4open.science/r/anonymized_codes-ECA4。

This paper proposes joint attention estimation in a single image. Different from related work in which only the gaze-related attributes of people are independently employed, (I) their locations and actions are also employed as contextual cues for weighting their attributes, and (ii) interactions among all of these attributes are explicitly modeled in our method. For the interaction modeling, we propose a novel Transformer-based attention network to encode joint attention as low-dimensional features. We introduce a specialized MLP head with positional embedding to the Transformer so that it predicts pixelwise confidence of joint attention for generating the confidence heatmap. This pixelwise prediction improves the heatmap accuracy by avoiding the ill-posed problem in which the high-dimensional heatmap is predicted from the low-dimensional features. The estimated joint attention is further improved by being integrated with general image-based attention estimation. Our method outperforms SOTA methods quantitatively in comparative experiments. Code: https://anonymous.4open.science/r/anonymized_codes-ECA4.
翻訳日:2023-08-11 13:29:48 公開日:2023-08-10
# セマンティックスを超えて:自己教師型学習による行動強化関連モデル学習

Beyond Semantics: Learning a Behavior Augmented Relevance Model with Self-supervised Learning ( http://arxiv.org/abs/2308.05379v1 )

ライセンス: Link先を確認
Zeyuan Chen, Wei Chen, Jia Xu, Zhongyi Liu, Wei Zhang(参考訳) 関連モデリングは,検索エンジンがユーザエクスペリエンスを確保する上で重要な,対応するクエリに対して望ましい項目を見つけることを目的としている。 ほとんどの従来の手法では、クエリとアイテム間のセマンティックな類似性を評価することでこの問題に対処するが、純粋なセマンティックマッチングは、すべてではない。 実際、検索ログのユーザ履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを与えることができる。 そこで我々は,Alipay Search (BARL-ASe) のための新しい行動拡張関連学習モデルを提案し,ターゲットクエリの隣のクエリと隣のクエリの隣のクエリを利用して,ターゲットクエリと項目のセマンティックマッチングを補完する。 具体的には,隣接と対象の両方のビューから粗粒度および細粒度の意味表現を蒸留するマルチレベルコアテンションを構築した。 このモデルはその後,BARL-ASeの精度とロジット学習の強化により頑健性を向上させるために,隣接目標の自己教師型学習を採用する。 さらに、alipayのミニアプリの検索シナリオのロングテールクエリ項目マッチングを実際に扱う方法について論じる。 実業界データとオンラインa/bテストによる実験により,提案手法が低レイテンシで有望な性能を実現することを実証した。

Relevance modeling aims to locate desirable items for corresponding queries, which is crucial for search engines to ensure user experience. Although most conventional approaches address this problem by assessing the semantic similarity between the query and item, pure semantic matching is not everything. In reality, auxiliary query-item interactions extracted from user historical behavior data of the search log could provide hints to reveal users' search intents further. Drawing inspiration from this, we devise a novel Behavior Augmented Relevance Learning model for Alipay Search (BARL-ASe) that leverages neighbor queries of target item and neighbor items of target query to complement target query-item semantic matching. Specifically, our model builds multi-level co-attention for distilling coarse-grained and fine-grained semantic representations from both neighbor and target views. The model subsequently employs neighbor-target self-supervised learning to improve the accuracy and robustness of BARL-ASe by strengthening representation and logit learning. Furthermore, we discuss how to deal with the long-tail query-item matching of the mini apps search scenario of Alipay practically. Experiments on real-world industry data and online A/B testing demonstrate our proposal achieves promising performance with low latency.
翻訳日:2023-08-11 13:29:29 公開日:2023-08-10
# trustworthy llms:大規模言語モデルのアライメント評価のための調査とガイドライン

Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment ( http://arxiv.org/abs/2308.05374v1 )

ライセンス: Link先を確認
Yang Liu, Yuanshun Yao, Jean-Francois Ton, Xiaoying Zhang, Ruocheng Guo Hao Cheng, Yegor Klochkov, Muhammad Faaiz Taufiq, and Hang Li(参考訳) 人間の意図に従ってモデルが振る舞うこと [1,2] を指すアライメントの確保は、現実世界のアプリケーションに大規模言語モデル(llm)をデプロイする前に重要なタスクとなった。 例えば、OpenAIはリリース前に反復的にGPT-4を調整するために6ヶ月を費やしました [3]。 しかしながら、実践者が直面する大きな課題は、llmアウトプットが社会的規範、価値観、規制に合致するかどうかを評価するための明確なガイダンスの欠如である。 この障害は、LLMの体系的なイテレーションとデプロイを妨げる。 本論では,LLMの信頼性を評価する上で重要となる重要な側面について,包括的に調査する。 調査は、信頼性、安全性、公平性、誤用に対する抵抗、説明可能性と推論、社会的規範への順守、堅牢性という7つの主要なカテゴリーをカバーする。 各主要なカテゴリはさらにいくつかのサブカテゴリに分けられ、合計29のサブカテゴリになる。 さらに、さらなる調査のために8つのサブカテゴリのサブセットが選択され、対応する測定研究が、広く使用されている複数のLLMで設計および実施される。 測定結果は、一般に、より整合したモデルの方が全体的な信頼性の点でより優れた性能を示す傾向があることを示している。 しかしながら、アライメントの有効性は、考慮されるさまざまな信頼性カテゴリによって異なる。 このことは、よりきめ細かい分析、テスト、LLMアライメントの継続的な改善を行うことの重要性を強調している。 本稿では,LLMの信頼性に関するこれらの重要な側面に光を当てることで,現場の実践者に貴重な洞察とガイダンスを提供することを目的とする。 これらの懸念を理解し、対処することは、様々なアプリケーションにおけるLLMの信頼性と倫理的に健全な展開を達成する上で重要である。

Ensuring alignment, which refers to making models behave in accordance with human intentions [1,2], has become a critical task before deploying large language models (LLMs) in real-world applications. For instance, OpenAI devoted six months to iteratively aligning GPT-4 before its release [3]. However, a major challenge faced by practitioners is the lack of clear guidance on evaluating whether LLM outputs align with social norms, values, and regulations. This obstacle hinders systematic iteration and deployment of LLMs. To address this issue, this paper presents a comprehensive survey of key dimensions that are crucial to consider when assessing LLM trustworthiness. The survey covers seven major categories of LLM trustworthiness: reliability, safety, fairness, resistance to misuse, explainability and reasoning, adherence to social norms, and robustness. Each major category is further divided into several sub-categories, resulting in a total of 29 sub-categories. Additionally, a subset of 8 sub-categories is selected for further investigation, where corresponding measurement studies are designed and conducted on several widely-used LLMs. The measurement results indicate that, in general, more aligned models tend to perform better in terms of overall trustworthiness. However, the effectiveness of alignment varies across the different trustworthiness categories considered. This highlights the importance of conducting more fine-grained analyses, testing, and making continuous improvements on LLM alignment. By shedding light on these key dimensions of LLM trustworthiness, this paper aims to provide valuable insights and guidance to practitioners in the field. Understanding and addressing these concerns will be crucial in achieving reliable and ethically sound deployment of LLMs in various applications.
翻訳日:2023-08-11 13:29:07 公開日:2023-08-10
# 勾配型メッシュ最適化のためのフレキシブルイソサーフェス抽出

Flexible Isosurface Extraction for Gradient-Based Mesh Optimization ( http://arxiv.org/abs/2308.05371v1 )

ライセンス: Link先を確認
Tianchang Shen, Jacob Munkberg, Jon Hasselgren, Kangxue Yin, Zian Wang, Wenzheng Chen, Zan Gojcic, Sanja Fidler, Nicholas Sharp, Jun Gao(参考訳) グラデーションに基づくメッシュ最適化について考察し、スカラー場の等曲面として表現することで、3次元表面メッシュを反復的に最適化する。 既存の実装では、マーチングキューブやデュアルコントーリングのような古典的な等面抽出アルゴリズムが採用されており、これらの手法は固定された既知のフィールドからメッシュを抽出するように設計されている。 我々は,幾何学的,視覚的,あるいは物理的目的に関して未知のメッシュを最適化するために特別に設計された等表面表現であるflexicubesを紹介する。 我々の主な洞察は、抽出されたメッシュ形状と接続性に対する局所的なフレキシブルな調整を可能にする、追加の綿密なパラメータを表現に導入することである。 これらのパラメータは、下流タスクを最適化する際に自動的に微分することで、基礎となるスカラーフィールドと共に更新される。 我々は,2重マーチングキューブをベースとして位相特性を改良し,四面体および階層的適応メッシュを任意に生成する拡張を提案する。 大規模な実験は、FlexiCubesを合成ベンチマークと実世界のアプリケーションの両方で検証し、メッシュの品質と幾何学的忠実性に大きな改善をもたらすことを示した。

This work considers gradient-based mesh optimization, where we iteratively optimize for a 3D surface mesh by representing it as the isosurface of a scalar field, an increasingly common paradigm in applications including photogrammetry, generative modeling, and inverse physics. Existing implementations adapt classic isosurface extraction algorithms like Marching Cubes or Dual Contouring; these techniques were designed to extract meshes from fixed, known fields, and in the optimization setting they lack the degrees of freedom to represent high-quality feature-preserving meshes, or suffer from numerical instabilities. We introduce FlexiCubes, an isosurface representation specifically designed for optimizing an unknown mesh with respect to geometric, visual, or even physical objectives. Our main insight is to introduce additional carefully-chosen parameters into the representation, which allow local flexible adjustments to the extracted mesh geometry and connectivity. These parameters are updated along with the underlying scalar field via automatic differentiation when optimizing for a downstream task. We base our extraction scheme on Dual Marching Cubes for improved topological properties, and present extensions to optionally generate tetrahedral and hierarchically-adaptive meshes. Extensive experiments validate FlexiCubes on both synthetic benchmarks and real-world applications, showing that it offers significant improvements in mesh quality and geometric fidelity.
翻訳日:2023-08-11 13:28:35 公開日:2023-08-10
# TriDo-Former:低線量シングラムによるPET直接再建用トリプルドメイントランス

TriDo-Former: A Triple-Domain Transformer for Direct PET Reconstruction from Low-Dose Sinograms ( http://arxiv.org/abs/2308.05365v1 )

ライセンス: Link先を確認
Jiaqi Cui, Pinxian Zeng, Xinyi Zeng, Peng Wang, Xi Wu, Jiliu Zhou, Yan Wang, and Dinggang Shen(参考訳) 放射線照射を最小化しながら高画質のポジトロンエミッショントモグラフィー(PET)画像を得るために,低線量PET(LPET)シングラムから直接標準線量PET(SPET)画像を再構成する方法が提案されている。 しかし、現在の方法では、シングラムと画像の再構成の間に境界を無視することが多く、周波数領域の高周波歪みや再構成画像のファジィエッジが減少する。 さらに、一般的に使用される畳み込みアーキテクチャは、長距離非局所相互作用をモデル化する能力に欠けており、大域構造の不正確な表現につながる可能性がある。 そこで本研究では, 直接pet再構成のためのシンノグラム, 画像, 周波数の三重領域を結合したトランスフォーマモデルであるtrido-formerを提案する。 具体的には、TriDo-Formerは、2つのカスケードネットワーク、すなわち入力されたLPETシングラムを復調するシングラム拡張変換器(SE-Former)と、SPET画像を復調する空間スペクトル再構成変換器(SSR-Former)から構成される。 イメージを2Dパッチに分割するバニラ変圧器と異なり、特にPETイメージング機構に基づいて、このSE-Formerは、シングラムを1Dプロジェクションビュー角に分割し、ノイズが画像領域に伝搬するのを防止しながら内部構造を維持する。 さらに、高周波歪みを緩和し、再構成の詳細を改善するために、グローバル周波数パーサ(GFP)をSSR-Formerに統合する。 GFPは学習可能な周波数フィルタとして機能し、周波数領域の周波数成分をグローバルに調整し、ネットワークに実際のSPET画像に似た高周波の詳細を復元させる。 臨床データセット上での検証は,我々のtrido-formerが最先端の手法を質的かつ定量的に上回っていることを示している。

To obtain high-quality positron emission tomography (PET) images while minimizing radiation exposure, various methods have been proposed for reconstructing standard-dose PET (SPET) images from low-dose PET (LPET) sinograms directly. However, current methods often neglect boundaries during sinogram-to-image reconstruction, resulting in high-frequency distortion in the frequency domain and diminished or fuzzy edges in the reconstructed images. Furthermore, the convolutional architectures, which are commonly used, lack the ability to model long-range non-local interactions, potentially leading to inaccurate representations of global structures. To alleviate these problems, we propose a transformer-based model that unites triple domains of sinogram, image, and frequency for direct PET reconstruction, namely TriDo-Former. Specifically, the TriDo-Former consists of two cascaded networks, i.e., a sinogram enhancement transformer (SE-Former) for denoising the input LPET sinograms and a spatial-spectral reconstruction transformer (SSR-Former) for reconstructing SPET images from the denoised sinograms. Different from the vanilla transformer that splits an image into 2D patches, based specifically on the PET imaging mechanism, our SE-Former divides the sinogram into 1D projection view angles to maintain its inner-structure while denoising, preventing the noise in the sinogram from prorogating into the image domain. Moreover, to mitigate high-frequency distortion and improve reconstruction details, we integrate global frequency parsers (GFPs) into SSR-Former. The GFP serves as a learnable frequency filter that globally adjusts the frequency components in the frequency domain, enforcing the network to restore high-frequency details resembling real SPET images. Validations on a clinical dataset demonstrate that our TriDo-Former outperforms the state-of-the-art methods qualitatively and quantitatively.
翻訳日:2023-08-11 13:28:09 公開日:2023-08-10
# CNN推論システムのための機械学習支援型コンピュータアーキテクチャ設計

Machine Learning aided Computer Architecture Design for CNN Inferencing Systems ( http://arxiv.org/abs/2308.05364v1 )

ライセンス: Link先を確認
Christopher A. Metz(参考訳) 機械学習(ML)アルゴリズムの効率的かつタイムリーな計算は、自動運転、IoT(Internet of Things)、エッジコンピューティングといった新興技術に不可欠である。 このようなシステムで使われる主要なMLアルゴリズムの1つは、高い計算資源を必要とする畳み込みニューラルネットワーク(CNN)である。 この要件により、設計上の制約を満たすためにGPGPUのようなMLアクセラレータが使用されるようになった。 しかしながら、最も適切な加速器を選択するには、通常時間を要する、かなりの手作業を必要とする設計空間探索(DSE)が関与する。 本研究は,CNN推論システムにおいて,最も適切なGPGPUを同定し,DSEプロセスの高速化手法を提案する。 我々は,推定中のcnnのパワーと性能を予測するための迅速かつ正確な手法を開発し,mapeは5.3%,5.94%であった。 我々のアプローチは、コンピュータアーキテクトが開発初期段階のパワーと性能を見積もることを可能にし、多くのプロトタイプの必要性を減らす。 これは時間とお金を節約し、市場投入期間も改善する。

Efficient and timely calculations of Machine Learning (ML) algorithms are essential for emerging technologies like autonomous driving, the Internet of Things (IoT), and edge computing. One of the primary ML algorithms used in such systems is Convolutional Neural Networks (CNNs), which demand high computational resources. This requirement has led to the use of ML accelerators like GPGPUs to meet design constraints. However, selecting the most suitable accelerator involves Design Space Exploration (DSE), a process that is usually time-consuming and requires significant manual effort. Our work presents approaches to expedite the DSE process by identifying the most appropriate GPGPU for CNN inferencing systems. We have developed a quick and precise technique for forecasting the power and performance of CNNs during inference, with a MAPE of 5.03% and 5.94%, respectively. Our approach empowers computer architects to estimate power and performance in the early stages of development, reducing the necessity for numerous prototypes. This saves time and money while also improving the time-to-market period.
翻訳日:2023-08-11 13:27:29 公開日:2023-08-10
# FINER: セキュリティ分析に係わる特徴を持つ最先端の分類器の強化

FINER: Enhancing State-of-the-art Classifiers with Feature Attribution to Facilitate Security Analysis ( http://arxiv.org/abs/2308.05362v1 )

ライセンス: Link先を確認
Yiling He, Jian Lou, Zhan Qin, Kui Ren(参考訳) ディープラーニング分類器は様々なリスク検出アプリケーションにおいて最先端の性能を達成する。 豊富な意味表現を探索し、リスク行動を自動的に発見する。 しかし、透明性の欠如により、行動意味論は下流のセキュリティ専門家に伝えられず、セキュリティ分析における重労働負担を減らすことができる。 特徴属性(FA)法は深層学習を説明するのに使えるが、基礎となる分類法は依然として不審な動作に盲目であり、生成された説明法は下流のタスクに適応できない。 本稿では,リスク検出分類器に関する最初のフレームワークである finer を提案する。 ハイレベルなアイデアは、モデル開発者、FAデザイナ、セキュリティ専門家による説明の努力を集めることです。 忠実性を改善するために,説明ガイド付きマルチタスク学習戦略を用いて分類器を微調整する。 そこで我々は,FA手法の調整とアンサンブルをタスク知識として行う。 FINERはリスク検出のための説明品質を向上させる。 さらに,マルウェア解析の容易化において,最先端のツールよりも優れていることを示す。

Deep learning classifiers achieve state-of-the-art performance in various risk detection applications. They explore rich semantic representations and are supposed to automatically discover risk behaviors. However, due to the lack of transparency, the behavioral semantics cannot be conveyed to downstream security experts to reduce their heavy workload in security analysis. Although feature attribution (FA) methods can be used to explain deep learning, the underlying classifier is still blind to what behavior is suspicious, and the generated explanation cannot adapt to downstream tasks, incurring poor explanation fidelity and intelligibility. In this paper, we propose FINER, the first framework for risk detection classifiers to generate high-fidelity and high-intelligibility explanations. The high-level idea is to gather explanation efforts from model developer, FA designer, and security experts. To improve fidelity, we fine-tune the classifier with an explanation-guided multi-task learning strategy. To improve intelligibility, we engage task knowledge to adjust and ensemble FA methods. Extensive evaluations show that FINER improves explanation quality for risk detection. Moreover, we demonstrate that FINER outperforms a state-of-the-art tool in facilitating malware analysis.
翻訳日:2023-08-11 13:27:11 公開日:2023-08-10
# 相対論的電子の散乱と光学現象との類似:ステップポテンシャルにおける縦・横シフトの研究

Scattering of relativistic electrons and analogies with optical phenomena: A study of longitudinal and transverse shifts at step potentials ( http://arxiv.org/abs/2308.05413v1 )

ライセンス: Link先を確認
Yue Ban, and Xi Chen(参考訳) 光学現象と類似して、ポテンシャルステップに遭遇する相対論的電子の挙動を考察する。 ダイラック電流の保存を考慮に入れれば、Goos-H\"アンチェンシフトは、送信領域に入る電流と、入射と反射ビームの間の干渉から生じる2つの成分の組合せとして理解することができる。 この結果は定常位相法を用いて得られた結果と一致することが証明された。 さらに、現在の保存と全角運動量保存の両方を適用し、スピンホール効果と平行な興味を抱くことを明らかにすることで、逆イムベルト・フェドロフシフトを探索する。 基本的な量子現象の理解を深めるだけでなく、我々の発見はディラックやトポロジカル材料を用いたデバイスの設計と特徴付けに潜在的に応用できる可能性がある。

We investigate the behavior of relativistic electrons encountering a potential step through analogies with optical phenomena. By accounting for the conservation of Dirac current, we elucidate that the Goos-H\"anchen shift can be understood as a combination of two components: one arising from the current entering the transmission region and the other originating from the interference between the incident and reflected beams. This result has been proven to be consistent with findings obtained utilizing the stationary phase method. Moreover, we explore the transverse Imbert-Fedorov shift, by applying both current conservation and total angular momentum conservation, revealing intriguing parallel to the spin Hall effect. Beyond enriching our comprehension of fundamental quantum phenomena, our findings have potential applications for designing and characterizing devices using Dirac and topological materials.
翻訳日:2023-08-11 13:19:23 公開日:2023-08-10
# 医学領域における説明可能なAI応用 : 体系的レビュー

Explainable AI applications in the Medical Domain: a systematic review ( http://arxiv.org/abs/2308.05411v1 )

ライセンス: Link先を確認
Nicoletta Prentzas, Antonis Kakas, and Constantinos S. Pattichis(参考訳) 医学における人工知能は、医療画像、患者医療、その他の分野での新たな応用において大きな進歩を遂げている。 これらのアプリケーションは、振り返り研究で成功したが、実際に適用されたものはほとんどない。医療AIの分野は、ユーザーの信頼の構築、規制の遵守、データの倫理的利用など、さまざまな課題に直面している。説明可能なAI(XAI)は、人間がAIを理解し、その結果を信頼することを目的としている。 本稿では,近年発行されている198記事の代表例をもとに,XAIソリューションの医療意思決定支援への展開に関する文献レビューを行う。 関連記事の体系的な合成はいくつかの発見をもたらした。 1) モデル非依存のXAI技術は,主にこれらのソリューションに採用され,(2) ディープラーニングモデルは他の機械学習モデルよりも活用され,(3) 信頼促進のために説明可能性が適用されたが,医師がループに参加することを報告した研究はほとんどなく,(4) 視覚的かつインタラクティブなユーザインタフェースは,システムの説明や推奨を理解する上でより有用である。 医療におけるXAIソリューションの設計、実装、評価に適したフレームワークの開発をガイドする医療専門家とAI専門家の協力には、さらなる研究が必要である。

Artificial Intelligence in Medicine has made significant progress with emerging applications in medical imaging, patient care, and other areas. While these applications have proven successful in retrospective studies, very few of them were applied in practice.The field of Medical AI faces various challenges, in terms of building user trust, complying with regulations, using data ethically.Explainable AI (XAI) aims to enable humans understand AI and trust its results. This paper presents a literature review on the recent developments of XAI solutions for medical decision support, based on a representative sample of 198 articles published in recent years. The systematic synthesis of the relevant articles resulted in several findings. (1) model-agnostic XAI techniques were mostly employed in these solutions, (2) deep learning models are utilized more than other types of machine learning models, (3) explainability was applied to promote trust, but very few works reported the physicians participation in the loop, (4) visual and interactive user interface is more useful in understanding the explanation and the recommendation of the system. More research is needed in collaboration between medical and AI experts, that could guide the development of suitable frameworks for the design, implementation, and evaluation of XAI solutions in medicine.
翻訳日:2023-08-11 13:19:07 公開日:2023-08-10
# sc3k: 回転、ノイズ、デシメテッドポイントクラウドデータからの自己教師付きかつコヒーレントな3dキーポイント推定

SC3K: Self-supervised and Coherent 3D Keypoints Estimation from Rotated, Noisy, and Decimated Point Cloud Data ( http://arxiv.org/abs/2308.05410v1 )

ライセンス: Link先を確認
Mohammad Zohaib and Alessio Del Bue(参考訳) 本稿では,pcd(point cloud data)がノイズ,ダウンサンプリング,任意に回転する実用的なシナリオにおいて,任意の対象カテゴリからキーポイントを推定する新しい手法を提案する。 提案したモデルは以下の原則に従う。 一 キーポイント推論が完全に監督されていないこと(注記なし) 二 キーポイント位置誤差は、PCDの摂動(損耗)に対して低く弾力性を有するべきである。 三 キーポイントは、クラス内オブジェクト(セマンティクスコヒーレンス)のインデックスを変更してはならない。 四 キーポイントは、pcd面(実用性)に近く、又は近近である。 我々は、オブジェクトクラスの事前知識を前提としないキーポイント推定のための新しい自己教師型トレーニング戦略と、所望のキーポイント特性を促進する補助的損失を伴うモデルアーキテクチャを提案する。 提案手法によって推定されるキーポイントと,最新の教師なしアプローチのキーポイントを比較した。 実験の結果,対象物の3d形状を最もよく特徴付ける意味的一貫性(+4.66%)を保ちながら,カバレッジ(+9.41%)向上したキーポイントを推定することで,提案手法が優れていることが示された。 コードとデータは https://github.com/IITPAVIS/SC3K

This paper proposes a new method to infer keypoints from arbitrary object categories in practical scenarios where point cloud data (PCD) are noisy, down-sampled and arbitrarily rotated. Our proposed model adheres to the following principles: i) keypoints inference is fully unsupervised (no annotation given), ii) keypoints position error should be low and resilient to PCD perturbations (robustness), iii) keypoints should not change their indexes for the intra-class objects (semantic coherence), iv) keypoints should be close to or proximal to PCD surface (compactness). We achieve these desiderata by proposing a new self-supervised training strategy for keypoints estimation that does not assume any a priori knowledge of the object class, and a model architecture with coupled auxiliary losses that promotes the desired keypoints properties. We compare the keypoints estimated by the proposed approach with those of the state-of-the-art unsupervised approaches. The experiments show that our approach outperforms by estimating keypoints with improved coverage (+9.41%) while being semantically consistent (+4.66%) that best characterizes the object's 3D shape for downstream tasks. Code and data are available at: https://github.com/IITPAVIS/SC3K
翻訳日:2023-08-11 13:18:43 公開日:2023-08-10
# 量子コンピュータ上の普遍的虚時臨界ダイナミクス

Universal imaginary-time critical dynamics on a quantum computer ( http://arxiv.org/abs/2308.05408v1 )

ライセンス: Link先を確認
Shi-Xin Zhang and Shuai Yin(参考訳) 量子コンピュータは、多体系の異なる基底状態間の急激な変化を記述する量子相転移を調べるための非常に効率的なアプローチを約束する。 量子臨界点において、分岐相関長と絡み合いエントロピーは基底状態の準備を困難にする。 本研究では, 初期緩和過程において, 基底状態の普遍的な情報を抽出できるとして, 普遍的臨界行動を求めるための想像的時間進化について検討する。 本稿では,量子コンピュータ上での仮想時間臨界力学による普遍的挙動の探索手法を提案し,数値シミュレーションと量子ハードウェア実験の両方によるアプローチの有効性を実証する。 仮想時間, システムサイズ, 回路深度の観点からの普遍的スケーリング関数の完全形を用いて, 臨界ダイナミクスの早期およびより浅い量子回路深度でのスケーリング解析により, 普遍性を探索することに成功した。 量子誤差緩和を具備した超伝導量子プロセッサにおける実験結果から期待されたスケーリング挙動を確認する。

Quantum computers promise a highly efficient approach to investigate quantum phase transitions, which describe abrupt changes between different ground states of many-body systems. At quantum critical points, the divergent correlation length and entanglement entropy render the ground state preparation difficult. In this work, we explore the imaginary-time evolution for probing the universal critical behavior as the universal information of the ground state can be extracted in the early-time relaxation process. We propose a systematic and scalable scheme to probe the universal behaviors via imaginary-time critical dynamics on quantum computers and demonstrate the validness of our approach by both numerical simulation and quantum hardware experiments. With the full form of the universal scaling function in terms of imaginary time, system size, and circuit depth, we successfully probe the universality by scaling analysis of the critical dynamics at an early time and with shallower quantum circuit depth. Equipped with quantum error mitigation, we also confirm the expected scaling behavior from experimental results on a superconducting quantum processor which stands as the first experimental demonstration on universal imaginary-time quantum critical dynamics.
翻訳日:2023-08-11 13:18:18 公開日:2023-08-10
# 作物分類のための多視点融合学習の比較評価

A Comparative Assessment of Multi-view fusion learning for Crop Classification ( http://arxiv.org/abs/2308.05407v1 )

ライセンス: Link先を確認
Francisco Mena, Diego Arenas, Marlon Nuske, Andreas Dengel(参考訳) リモートセンシング(RS)データソースの量と多様性が急速に増加し,マルチビュー学習モデルの必要性が強くなっている。 これはRSデータの解像度、大きさ、ノイズの違いを考慮すると複雑なタスクである。 複数のRSソースをマージする典型的なアプローチは入力レベル融合であるが、他のより高度な融合戦略は従来のアプローチよりも優れている。 本研究は,cropharvestデータセットにおける作物分類のための異なる融合戦略を評価する。 本研究で提案する融合法は,個々のビューと過去の融合法に基づくモデルより優れている。 他の全てのアプローチより一貫して優れている単一の融合法は見つからない。 その代わり、3つの異なるデータセットに対する多視点融合法の比較を行い、テスト領域によって異なる手法が最高の性能を得ることを示す。 それにもかかわらず、我々は融合法の選択のための予備的基準を提案する。

With a rapidly increasing amount and diversity of remote sensing (RS) data sources, there is a strong need for multi-view learning modeling. This is a complex task when considering the differences in resolution, magnitude, and noise of RS data. The typical approach for merging multiple RS sources has been input-level fusion, but other - more advanced - fusion strategies may outperform this traditional approach. This work assesses different fusion strategies for crop classification in the CropHarvest dataset. The fusion methods proposed in this work outperform models based on individual views and previous fusion methods. We do not find one single fusion method that consistently outperforms all other approaches. Instead, we present a comparison of multi-view fusion methods for three different datasets and show that, depending on the test region, different methods obtain the best performance. Despite this, we suggest a preliminary criterion for the selection of fusion methods.
翻訳日:2023-08-11 13:17:59 公開日:2023-08-10
# 深部補償展開ネットワークによる低照度光場画像の強調

Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network ( http://arxiv.org/abs/2308.05404v1 )

ライセンス: Link先を確認
Xianqiang Lyu, and Junhui Hou(参考訳) 本稿では,低光環境下での光場(LF)画像の復元を目的とした,DCUNet(Deep compensation Openfolding Network)と呼ばれる新しいエンドツーエンド学習フレームワークを提案する。 DCUNetは、データ駆動方式で逆イメージング問題を解決する最適化プロセスを模倣した多段階アーキテクチャで設計されている。 このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。 さらに、DCUNetは、ノイズと照明マップ推定誤差を抑制するために、各最適化段階でコンテンツ関連深い補償モジュールを含んでいる。 本稿では,LF画像の特徴を適切に掘り下げ,活用するために,LF画像の冗長情報を包括的に活用する擬似明示的特徴相互作用モジュールを提案する。 シミュレーションデータと実データによる実験結果から,dcunetは定性的および定量的に最先端の手法よりも優れていることが示された。 さらに、DCUNetは拡張LF画像の基本的幾何学構造をずっとよく保存する。 コードはhttps://github.com/lyuxianqiang/LFLL-DCUで公開されている。

This paper presents a novel and interpretable end-to-end learning framework, called the deep compensation unfolding network (DCUNet), for restoring light field (LF) images captured under low-light conditions. DCUNet is designed with a multi-stage architecture that mimics the optimization process of solving an inverse imaging problem in a data-driven fashion. The framework uses the intermediate enhanced result to estimate the illumination map, which is then employed in the unfolding process to produce a new enhanced result. Additionally, DCUNet includes a content-associated deep compensation module at each optimization stage to suppress noise and illumination map estimation errors. To properly mine and leverage the unique characteristics of LF images, this paper proposes a pseudo-explicit feature interaction module that comprehensively exploits redundant information in LF images. The experimental results on both simulated and real datasets demonstrate the superiority of our DCUNet over state-of-the-art methods, both qualitatively and quantitatively. Moreover, DCUNet preserves the essential geometric structure of enhanced LF images much better. The code will be publicly available at https://github.com/lyuxianqiang/LFLL-DCU.
翻訳日:2023-08-11 13:17:45 公開日:2023-08-10
# フォールトトレラント量子エラー緩和

Fault Tolerant Quantum Error Mitigation ( http://arxiv.org/abs/2308.05403v1 )

ライセンス: Link先を確認
Alvin Gonzales and Anjala M Babu and Ji Liu and Zain Saleem and Mark Byrd(参考訳) 通常、フォールトトレラントな演算とコード結合は、リソースのオーバーヘッドのために量子エラー訂正のために予約される。 本稿では,フォールトトレラント動作が対称性に基づく誤差軽減手法の性能に大きな影響を与えることを示す。 また、フォールトトレラント量子コンピューティングの結果と同様に、フォールトトレラント量子エラー軽減(FTQEM)におけるコード結合は、エラーを任意のレベルまで指数関数的に抑制できることを示した。 また、繰り返し符号を用いたFTQEMの解析誤差閾値も提供する。 FTQEMのポストセレクションレートも、いくつかの結果を修正することで向上することができる。 FTQEMの利点は数値シミュレーションとハードウェアデモで実証される。

Typically, fault-tolerant operations and code concatenation are reserved for quantum error correction due to their resource overhead. Here, we show that fault tolerant operations have a large impact on the performance of symmetry based error mitigation techniques. We also demonstrate that similar to results in fault tolerant quantum computing, code concatenation in fault-tolerant quantum error mitigation (FTQEM) can exponentially suppress the errors to arbitrary levels. We also provide analytical error thresholds for FTQEM with the repetition code. The post-selection rate in FTQEM can also be increased by correcting some of the outcomes. The benefits of FTQEM are demonstrated with numerical simulations and hardware demonstrations.
翻訳日:2023-08-11 13:17:27 公開日:2023-08-10
# 微細粒度認識のためのガバーテクスチャ特徴の学習

Learning Gabor Texture Features for Fine-Grained Recognition ( http://arxiv.org/abs/2308.05396v1 )

ライセンス: Link先を確認
Lanyun Zhu, Tianrun Chen, Jianxiong Yin, Simon See, Jun Liu(参考訳) きめ細かな認識にはクラス識別特徴の抽出と利用が不可欠である。 既存の作品は、類似のクラスを区別する機能を悪用するために深いcnnを適用する可能性を実証している。 しかし、CNNは、周波数バイアスや詳細なローカル情報の喪失などの問題に悩まされ、細粒度カテゴリの認識性能が制限される。 この課題に対処するために,特徴抽出のためのCNNブランチを補完する新しいテクスチャブランチを提案する。 我々はガボルフィルタを強力な抽出器として革新的に利用し、多周波の特徴を効果的に捉えたガボルフィルタの機能と詳細な局所情報により、テクスチャ特性を利用する。 パラメータ値に制約を課したり,最適なパラメータを決定するための学習法を開発するなど,gaborフィルタの有効性を高めるため,いくつかの設計を実装した。 さらに,gaborフィルタで取得した信号から情報的統計情報を利用する統計特徴抽出器と,テクスチャ抽出の入力として適格領域のみを考慮し,効率的な計算を可能にするゲート選択機構を提案する。 gaborフィルタベースのテクスチャブランチとcnnベースのセマンティクスブランチの機能の統合により、包括的な情報抽出を実現する。 CUB-200-2011,NA-bird,Stanford Dogs,GTOS-mobileなど,複数のデータセットに対する本手法の有効性を示す。 我々の手法により最先端のパフォーマンスが達成される。

Extracting and using class-discriminative features is critical for fine-grained recognition. Existing works have demonstrated the possibility of applying deep CNNs to exploit features that distinguish similar classes. However, CNNs suffer from problems including frequency bias and loss of detailed local information, which restricts the performance of recognizing fine-grained categories. To address the challenge, we propose a novel texture branch as complimentary to the CNN branch for feature extraction. We innovatively utilize Gabor filters as a powerful extractor to exploit texture features, motivated by the capability of Gabor filters in effectively capturing multi-frequency features and detailed local information. We implement several designs to enhance the effectiveness of Gabor filters, including imposing constraints on parameter values and developing a learning method to determine the optimal parameters. Moreover, we introduce a statistical feature extractor to utilize informative statistical information from the signals captured by Gabor filters, and a gate selection mechanism to enable efficient computation by only considering qualified regions as input for texture extraction. Through the integration of features from the Gabor-filter-based texture branch and CNN-based semantic branch, we achieve comprehensive information extraction. We demonstrate the efficacy of our method on multiple datasets, including CUB-200-2011, NA-bird, Stanford Dogs, and GTOS-mobile. State-of-the-art performance is achieved using our approach.
翻訳日:2023-08-11 13:17:17 公開日:2023-08-10
# マーカーレスモバイルARのための視覚慣性オドメトリー制約を用いたロバスト位置決め

Robust Localization with Visual-Inertial Odometry Constraints for Markerless Mobile AR ( http://arxiv.org/abs/2308.05394v1 )

ライセンス: Link先を確認
Changkun Liu, Yukun Zhao, Tristan Braud(参考訳) 視覚慣性オドメトリー(VIO)は、現代の拡張現実(AR)アプリケーションにおいて不可欠なコンポーネントである。 しかし、VIOはデバイスの相対的なポーズのみを追跡し、時間の経過とともにドリフトする。 絶対ポーズ推定手法はデバイスの絶対ポーズを推定するが、その精度は入力品質に依存する。 本稿では、絶対ポーズ回帰器(APR)とローカルVIOトラッキングシステムを組み合わせた、マーカーレスモバイルARのための新しいフレームワークであるVIO-APRを紹介する。 VIO-APRはVIOを用いてAPRとAPRの信頼性を評価し、VIOドリフトの識別と補償を行う。 このフィードバックループはより正確な位置決めとより安定したAR体験をもたらす。 VIO-APRを評価するために、さまざまなスケールの6つの屋内・屋外シーンに対して、カメラ画像とARKitのVIOシステム出力を組み合わせたデータセットを作成しました。 このデータセットを通して、VIO-APRは、一般的なAPRの中央値の精度を最大36\%、オリエンテーション29\%改善し、高い(0.25m, 2^{\circ}$)精度のフレームの割合を最大112\%向上させ、低い(5m, 10^\circ$)精度以下で予測されるフレームの割合を大幅に削減する。 私たちは、その能力を実証するためにUnityを使用してモバイルARアプリケーションにVIO-APRを実装します。 VIO-APRは明らかに精度が高く、全体的な経験も安定している。

Visual Inertial Odometry (VIO) is an essential component of modern Augmented Reality (AR) applications. However, VIO only tracks the relative pose of the device, leading to drift over time. Absolute pose estimation methods infer the device's absolute pose, but their accuracy depends on the input quality. This paper introduces VIO-APR, a new framework for markerless mobile AR that combines an absolute pose regressor (APR) with a local VIO tracking system. VIO-APR uses VIO to assess the reliability of the APR and the APR to identify and compensate for VIO drift. This feedback loop results in more accurate positioning and more stable AR experiences. To evaluate VIO-APR, we created a dataset that combines camera images with ARKit's VIO system output for six indoor and outdoor scenes of various scales. Over this dataset, VIO-APR improves the median accuracy of popular APR by up to 36\% in position and 29\% in orientation, increases the percentage of frames in the high ($0.25 m, 2^{\circ}$) accuracy level by up to 112\% and reduces the percentage of frames predicted below the low ($5 m, 10^\circ$) accuracy greatly. We implement VIO-APR into a mobile AR application using Unity to demonstrate its capabilities. VIO-APR results in noticeably more accurate localization and a more stable overall experience.
翻訳日:2023-08-11 13:16:52 公開日:2023-08-10
# LLMベースのAI自動化エージェントの信頼を高める:新しい考察と今後の課題

Enhancing Trust in LLM-Based AI Automation Agents: New Considerations and Future Challenges ( http://arxiv.org/abs/2308.05391v1 )

ライセンス: Link先を確認
Sivan Schwartz, Avi Yaeli, Segev Shlomov(参考訳) AIエージェントに対する信頼は、文献で広く研究され、この分野の理解において大きな進歩をもたらした。 しかし、LLM(Large Language Models)の急速な進歩とLLMベースのAIエージェントフレームワークの出現は、さらなる研究の新たな課題と機会をもたらす。 プロセス自動化の分野では、AIベースのエージェントの新世代が登場し、複雑なタスクの実行が可能になった。 同時に、自動化を構築するプロセスは、ユーザフレンドリーなノーコードツールとトレーニングメカニズムを通じて、ビジネスユーザによりアクセスしやすくなってきた。 本稿では、これらの新たな課題と機会を探求し、既存の文献で議論されているAIエージェントに対する信頼の主な側面を分析し、この新世代の自動化エージェントに関連する具体的な考察と課題を特定する。 このカテゴリの初期段階の製品がこれらの考慮事項にどのように対処しているかを評価する。 最後に,この発展する状況において,研究コミュニティが取り組むべき課題をいくつか紹介する。

Trust in AI agents has been extensively studied in the literature, resulting in significant advancements in our understanding of this field. However, the rapid advancements in Large Language Models (LLMs) and the emergence of LLM-based AI agent frameworks pose new challenges and opportunities for further research. In the field of process automation, a new generation of AI-based agents has emerged, enabling the execution of complex tasks. At the same time, the process of building automation has become more accessible to business users via user-friendly no-code tools and training mechanisms. This paper explores these new challenges and opportunities, analyzes the main aspects of trust in AI agents discussed in existing literature, and identifies specific considerations and challenges relevant to this new generation of automation agents. We also evaluate how nascent products in this category address these considerations. Finally, we highlight several challenges that the research community should address in this evolving landscape.
翻訳日:2023-08-11 13:16:23 公開日:2023-08-10
# 水中画像強調のための一般物理知識誘導動的モデル

A Generalized Physical-knowledge-guided Dynamic Model for Underwater Image Enhancement ( http://arxiv.org/abs/2308.05447v1 )

ライセンス: Link先を確認
Pan Mu, Hanning Xu, Zheyuan Liu, Zheng Wang, Sixian Chan, Cong Bai(参考訳) 水中の画像は、水による光の散乱と吸収のために、色歪やコントラストの低下によって様々な画像タイプに陥ることが多い。 一般化モデルを用いて高品質なペアトレーニングサンプルを得ることは困難である。 これらの課題に対処するために,大気系動的構造(ADS),透過型動的構造(TDS),先行型マルチスケール構造(PMS)の3つの部分からなる物理知識誘導動的モデル(GUPDMのショート)を用いた汎用水中画像強調手法を設計した。 特に、複雑な水中のシーンをカバーするために、この研究は大気の光と透過を変化させ、形成モデルを通して様々な水中画像(例えば、黄色から青までの水中画像色)をシミュレートする。 次に、動的畳み込みを用いて水中画像から事前情報を適応的に抽出し、PMSのパラメータを生成するADSとTDSを設計する。 これら2つのモジュールにより、ネットワークは様々な水型に対する適切なパラメータを適応的に選択できる。 さらに、PMSのマルチスケール特徴抽出モジュールは、カーネルサイズが異なる畳み込みブロックを使用し、チャネルアテンションブロックを介して各特徴マップの重みを求め、それらを融合させてネットワークの受容野を高める。 ソースコードは \href{https://github.com/shiningZZ/GUPDM}{https://github.com/shiningZZ/GUPDM} で入手できる。

Underwater images often suffer from color distortion and low contrast resulting in various image types, due to the scattering and absorption of light by water. While it is difficult to obtain high-quality paired training samples with a generalized model. To tackle these challenges, we design a Generalized Underwater image enhancement method via a Physical-knowledge-guided Dynamic Model (short for GUPDM), consisting of three parts: Atmosphere-based Dynamic Structure (ADS), Transmission-guided Dynamic Structure (TDS), and Prior-based Multi-scale Structure (PMS). In particular, to cover complex underwater scenes, this study changes the global atmosphere light and the transmission to simulate various underwater image types (e.g., the underwater image color ranging from yellow to blue) through the formation model. We then design ADS and TDS that use dynamic convolutions to adaptively extract prior information from underwater images and generate parameters for PMS. These two modules enable the network to select appropriate parameters for various water types adaptively. Besides, the multi-scale feature extraction module in PMS uses convolution blocks with different kernel sizes and obtains weights for each feature map via channel attention block and fuses them to boost the receptive field of the network. The source code will be available at \href{https://github.com/shiningZZ/GUPDM}{https://github.com/shiningZZ/GUPDM}.
翻訳日:2023-08-11 13:11:03 公開日:2023-08-10
# 顔認識におけるベンチマークアルゴリズムバイアス:合成顔と人間の評価を用いた実験的アプローチ

Benchmarking Algorithmic Bias in Face Recognition: An Experimental Approach Using Synthetic Faces and Human Evaluation ( http://arxiv.org/abs/2308.05441v1 )

ライセンス: Link先を確認
Hao Liang, Pietro Perona and Guha Balakrishnan(参考訳) 顔認識システムにおけるバイアスを測定する実験手法を提案する。 既存のバイアスを測定する方法は、野生で収集され、保護された(人種、性別など)および保護されていない(ポーズ、照明など)属性に注釈付けされたベンチマークデータセットに依存する。 このような観測データセットは相関的な結論のみを許容しており、例えば"Algorithm A's accuracy is different on female and male face in dataset X" である。 対照的に、実験的手法は属性を個別に操作し、例えば「Algorithm A's accuracy are affected by gender and skin color」といった因果的な結論を許容する。本手法は、他の属性を一定に保ちながら、それぞれの属性を独立して変更するニューラルフェイスジェネレータを用いて合成顔を生成することに基づいている。 人間の観察者は、合成画像ペア間の知覚的同一性類似性に関する基礎的真理を重要視している。 我々は3つの研究グレードの顔認識モデルの人種と性別の偏りを定量的に評価する。 我々の合成パイプラインは、これらのアルゴリズムでは、黒と東アジアの人口サブグループの精度が低いことを示している。 本手法は,属性の知覚的変化が顔の識別距離に与える影響を定量化することもできる。 我々の大規模な合成データセットは、48,000の合成顔画像ペア(10,200のユニークな合成顔)と555,000の人間のアノテーション(個人属性とペアのアイデンティティ比較)で構成されており、この重要な領域の研究者が利用できる。

We propose an experimental method for measuring bias in face recognition systems. Existing methods to measure bias depend on benchmark datasets that are collected in the wild and annotated for protected (e.g., race, gender) and non-protected (e.g., pose, lighting) attributes. Such observational datasets only permit correlational conclusions, e.g., "Algorithm A's accuracy is different on female and male faces in dataset X.". By contrast, experimental methods manipulate attributes individually and thus permit causal conclusions, e.g., "Algorithm A's accuracy is affected by gender and skin color." Our method is based on generating synthetic faces using a neural face generator, where each attribute of interest is modified independently while leaving all other attributes constant. Human observers crucially provide the ground truth on perceptual identity similarity between synthetic image pairs. We validate our method quantitatively by evaluating race and gender biases of three research-grade face recognition models. Our synthetic pipeline reveals that for these algorithms, accuracy is lower for Black and East Asian population subgroups. Our method can also quantify how perceptual changes in attributes affect face identity distances reported by these models. Our large synthetic dataset, consisting of 48,000 synthetic face image pairs (10,200 unique synthetic faces) and 555,000 human annotations (individual attributes and pairwise identity comparisons) is available to researchers in this important area.
翻訳日:2023-08-11 13:10:34 公開日:2023-08-10
# ロバストな6次元物体ポーズ推定のための重み付きベクトル方向キーポイント投票型ディープフュージョントランスフォーマタネットワーク

Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints Voting for Robust 6D Object Pose Estimation ( http://arxiv.org/abs/2308.05438v1 )

ライセンス: Link先を確認
Jun Zhou, Kai Chen, Linlin Xu, Qi Dou, Jing Qin(参考訳) 単一のRGBD画像からの6Dオブジェクトのポーズ推定における重要な課題は、色と深さの2つの異なるモードの効率的な統合である。 本研究では, ポーズ推定を改善するために, クロスモダリティ特徴を集約できる新しいディープフュージョントランスフォーマクション(dftr)ブロックによってこの問題に取り組む。 既存の融合法とは異なり、DFTrは、それらの意味的類似性を活用することにより、情報抽出を改善するために、異なるモダリティからグローバルに拡張された特徴をよりよく統合することができる。 さらに,ロバスト性と効率性をさらに高めるため,非イテレーティブな大域的最適化戦略を駆使した重み付きベクトル回り投票アルゴリズムを提案する。 提案する3次元キーポイント投票アルゴリズムの有効性と強汎化能力に関する広範な実験を行った。 また,4つのベンチマークの結果から,提案手法は最先端の手法よりも高い性能を示した。

One critical challenge in 6D object pose estimation from a single RGBD image is efficient integration of two different modalities, i.e., color and depth. In this work, we tackle this problem by a novel Deep Fusion Transformer~(DFTr) block that can aggregate cross-modality features for improving pose estimation. Unlike existing fusion methods, the proposed DFTr can better model cross-modality semantic correlation by leveraging their semantic similarity, such that globally enhanced features from different modalities can be better integrated for improved information extraction. Moreover, to further improve robustness and efficiency, we introduce a novel weighted vector-wise voting algorithm that employs a non-iterative global optimization strategy for precise 3D keypoint localization while achieving near real-time inference. Extensive experiments show the effectiveness and strong generalization capability of our proposed 3D keypoint voting algorithm. Results on four widely used benchmarks also demonstrate that our method outperforms the state-of-the-art methods by large margins.
翻訳日:2023-08-11 13:10:05 公開日:2023-08-10
# マルチモーダル視覚行動認識のためのアンサンブルモデリング

Ensemble Modeling for Multimodal Visual Action Recognition ( http://arxiv.org/abs/2308.05430v1 )

ライセンス: Link先を確認
Jyoti Kini, Sarah Fleischer, Ishan Dave, Mubarak Shah(参考訳) 本研究では,マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。 我々は,MECCANO[21]データセットの長期分布に合わせた焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。 尾部(scarce)クラスと予測困難度の関係を捉えた焦点損失の基本原理に基づき,現在のタスクにおいて指数関数的に減衰する焦点損失の変種を提案する。 最初は、過度に分類されたサンプルからの学習を強調し、データセットの全例に徐々に適応する。 このアニーリングプロセスは、より簡単なサンプルによって提供される情報を活用しながら、スパースなサンプルセットにフォーカスする間のバランスを保ちながら、モデルを促進します。 さらに,最終動作予測のためのrgbからの結果確率分布と深さモダリティを組み合わせるために,後期核融合戦略を選択した。 MECCANOデータセットの実験的評価により,本手法の有効性が示された。

In this work, we propose an ensemble modeling approach for multimodal action recognition. We independently train individual modality models using a variant of focal loss tailored to handle the long-tailed distribution of the MECCANO [21] dataset. Based on the underlying principle of focal loss, which captures the relationship between tail (scarce) classes and their prediction difficulties, we propose an exponentially decaying variant of focal loss for our current task. It initially emphasizes learning from the hard misclassified examples and gradually adapts to the entire range of examples in the dataset. This annealing process encourages the model to strike a balance between focusing on the sparse set of hard samples, while still leveraging the information provided by the easier ones. Additionally, we opt for the late fusion strategy to combine the resultant probability distributions from RGB and Depth modalities for final action prediction. Experimental evaluations on the MECCANO dataset demonstrate the effectiveness of our approach.
翻訳日:2023-08-11 13:09:44 公開日:2023-08-10
# 複合顔と局所顔の動きを用いた音声駆動3次元顔アニメーション

Speech-Driven 3D Face Animation with Composite and Regional Facial Movements ( http://arxiv.org/abs/2308.05428v1 )

ライセンス: Link先を確認
Haozhe Wu, Songtao Zhou, Jia Jia, Junliang Xing, Qi Wen, Xiang Wen(参考訳) 音声駆動の3D顔アニメーションは、人間の顔の動きに固有の複雑さと変動性のために大きな課題を提起する。 本稿では,音声駆動型3d顔アニメーションにおける顔の動きの複合的・局所的特性を考慮することの重要性を強調する。 複合的な性質は、音声非依存的要因が時間的次元に沿って音声による顔の動きをグローバルに調節する方法に関係している。 一方、局所的な性質は、顔の動きはグローバルな相関ではなく、空間次元に沿った局所的な筋肉によって活性化されるという考えを暗示している。 したがって、生き生きとしたアニメーションに両方の性質を組み込むことは不可欠である。 複合的な性質に対処するために,任意の顔の動きを用いて,フレーム間の音声駆動顔の動きをグローバルスケールで動的に調整する適応変調モジュールを提案する。 本手法は,各フレームの顔の特徴のそれぞれの構成成分が3次元顔の局所的な空間運動に焦点をあてることを保証する。 さらに,3次元顔の動きに音声を変換するための非自己回帰バックボーンを提案する。 包括的実験とユーザスタディにより,本手法は質的および定量的に現代の最先端手法を上回っていることが示された。

Speech-driven 3D face animation poses significant challenges due to the intricacy and variability inherent in human facial movements. This paper emphasizes the importance of considering both the composite and regional natures of facial movements in speech-driven 3D face animation. The composite nature pertains to how speech-independent factors globally modulate speech-driven facial movements along the temporal dimension. Meanwhile, the regional nature alludes to the notion that facial movements are not globally correlated but are actuated by local musculature along the spatial dimension. It is thus indispensable to incorporate both natures for engendering vivid animation. To address the composite nature, we introduce an adaptive modulation module that employs arbitrary facial movements to dynamically adjust speech-driven facial movements across frames on a global scale. To accommodate the regional nature, our approach ensures that each constituent of the facial features for every frame focuses on the local spatial movements of 3D faces. Moreover, we present a non-autoregressive backbone for translating audio to 3D facial movements, which maintains high-frequency nuances of facial movements and facilitates efficient inference. Comprehensive experiments and user studies demonstrate that our method surpasses contemporary state-of-the-art approaches both qualitatively and quantitatively.
翻訳日:2023-08-11 13:09:28 公開日:2023-08-10
# 有能な物体検出に対するセグメンテーションの適応的低ランク適応

Adaptive Low Rank Adaptation of Segment Anything to Salient Object Detection ( http://arxiv.org/abs/2308.05426v1 )

ライセンス: Link先を確認
Ruikai Cui, Siyuan He, Shi Qiu(参考訳) OpenAIのGPT-3やGPT-4、MetaのLLaMA、GoogleのPaLM2といった基盤モデルは人工知能の分野に革命をもたらした。 注目すべきパラダイムシフトはSegment Anything Model(SAM)の出現であり、これは10億枚のマスクと1100万枚の画像で訓練された現実世界のオブジェクトをセグメントする驚くべき能力を示している。 SAMは一般のオブジェクトセグメンテーションに優れるが、本質的な検出能力に欠けており、この領域では準最適性能をもたらす。 この課題に対処するために,segment salient object model(ssom)という,深層学習に固有の低ランク構造を用いてsamを適応的に微調整する革新的な手法を提案する。 5つの挑戦的RGBベンチマークデータセットの総合的質的および定量的評価は、最先端の手法を上回る、我々のアプローチの優れた性能を示す。

Foundation models, such as OpenAI's GPT-3 and GPT-4, Meta's LLaMA, and Google's PaLM2, have revolutionized the field of artificial intelligence. A notable paradigm shift has been the advent of the Segment Anything Model (SAM), which has exhibited a remarkable capability to segment real-world objects, trained on 1 billion masks and 11 million images. Although SAM excels in general object segmentation, it lacks the intrinsic ability to detect salient objects, resulting in suboptimal performance in this domain. To address this challenge, we present the Segment Salient Object Model (SSOM), an innovative approach that adaptively fine-tunes SAM for salient object detection by harnessing the low-rank structure inherent in deep learning. Comprehensive qualitative and quantitative evaluations across five challenging RGB benchmark datasets demonstrate the superior performance of our approach, surpassing state-of-the-art methods.
翻訳日:2023-08-11 13:09:06 公開日:2023-08-10
# TSLiNGAM: DirectLiNGAM under heavy tails (英語)

TSLiNGAM: DirectLiNGAM under heavy tails ( http://arxiv.org/abs/2308.05422v1 )

ライセンス: Link先を確認
Sarah Leyder, Jakob Raymaekers and Tim Verdonck(参考訳) 因果発見の確立されたアプローチの1つは、その原因に対する影響の関数的依存性を記述するために、有向非巡回グラフ(DAG)と構造因果モデル(SCM)を組み合わせることである。 与えられたデータに対するSCMの識別可能性は、SCMの雑音変数と機能クラスに関する仮定に依存する。 例えば、リンガムモデルでは、関数クラスは線型関数に制限され、外乱は非ガウスである必要がある。 本研究では,観測データに基づく因果モデルのDAGを同定する新しい手法TSLiNGAMを提案する。 TSLiNGAMは、変数間の因果方向を識別するために単純なOLS回帰を利用する人気アルゴリズムであるDirectLiNGAMをベースにしている。 TSLiNGAMは、LiNGAMモデルにおける誤差項の非ガウス性仮定を利用して、因果構造のより効率的で堅牢な推定を得る。 TSLiNGAMは理論的に正当化され、広範なシミュレーション研究で実証研究されている。 重み付きおよび歪んだデータに対して著しく優れた性能を示し、より小さなサンプル効率を示す。 加えて、TSLiNGAMは汚染に対する耐性が高いため、優れた堅牢性を示す。

One of the established approaches to causal discovery consists of combining directed acyclic graphs (DAGs) with structural causal models (SCMs) to describe the functional dependencies of effects on their causes. Possible identifiability of SCMs given data depends on assumptions made on the noise variables and the functional classes in the SCM. For instance, in the LiNGAM model, the functional class is restricted to linear functions and the disturbances have to be non-Gaussian. In this work, we propose TSLiNGAM, a new method for identifying the DAG of a causal model based on observational data. TSLiNGAM builds on DirectLiNGAM, a popular algorithm which uses simple OLS regression for identifying causal directions between variables. TSLiNGAM leverages the non-Gaussianity assumption of the error terms in the LiNGAM model to obtain more efficient and robust estimation of the causal structure. TSLiNGAM is justified theoretically and is studied empirically in an extensive simulation study. It performs significantly better on heavy-tailed and skewed data and demonstrates a high small-sample efficiency. In addition, TSLiNGAM also shows better robustness properties as it is more resilient to contamination.
翻訳日:2023-08-11 13:08:45 公開日:2023-08-10
# 音声-視覚的質問応答に対する時空間的プログレッシブ知覚

Progressive Spatio-temporal Perception for Audio-Visual Question Answering ( http://arxiv.org/abs/2308.05421v1 )

ライセンス: Link先を確認
Guangyao Li, Wenxuan Hou, Di Hu(参考訳) AVQA(Audio-Visual Question Answering)タスクは、異なる視覚オブジェクト、音、およびそれらの関連性に関する質問に答えることを目的としている。 このような自然なマルチモーダルビデオは、リッチで複雑な動的オーディオ視覚コンポーネントで構成されており、ほとんどのビデオは、与えられた質問とは無関係になり得る。 反対に、質問を意識した音声ビジュアルコンテンツのみに注目すれば影響は排除され、モデルがより効率的に答えられるようになる。 本稿では,鍵時空間を段階的に識別する3つのモジュールを含む,プログレッシブ・時空間知覚ネットワーク(PSTP-Net)を提案する。 具体的には、最初に時間セグメント選択モジュールを導入し、与えられた質問に関連する最も関連性の高い音声視覚セグメントを選択する。 次に、空間領域選択モジュールを用いて、選択された時間セグメントから質問に関連する最も関連する領域を選択する。 特徴の選択をさらに洗練するために、オーディオ誘導視覚注意モジュールを用いて、オードと選択された空間領域の関係を知覚する。 最後に、これらのモジュールの時空間的特徴は質問に答えるために統合される。 一般向けMUSIC-AVQAデータセットとAVQAデータセットの大規模な実験結果から,PSTP-Netの有効性と有効性が確認された。 コードは以下の通り。 \href{https://github.com/GeWu-Lab/PSTP-Net}{https://github.com/GeWu-Lab/PSTP-Net}

Audio-Visual Question Answering (AVQA) task aims to answer questions about different visual objects, sounds, and their associations in videos. Such naturally multi-modal videos are composed of rich and complex dynamic audio-visual components, where most of which could be unrelated to the given questions, or even play as interference in answering the content of interest. Oppositely, only focusing on the question-aware audio-visual content could get rid of influence, meanwhile enabling the model to answer more efficiently. In this paper, we propose a Progressive Spatio-Temporal Perception Network (PSTP-Net), which contains three modules that progressively identify key spatio-temporal regions w.r.t. questions. Specifically, a temporal segment selection module is first introduced to select the most relevant audio-visual segments related to the given question. Then, a spatial region selection module is utilized to choose the most relevant regions associated with the question from the selected temporal segments. To further refine the selection of features, an audio-guided visual attention module is employed to perceive the association between auido and selected spatial regions. Finally, the spatio-temporal features from these modules are integrated for answering the question. Extensive experimental results on the public MUSIC-AVQA and AVQA datasets provide compelling evidence of the effectiveness and efficiency of PSTP-Net. Code is available at: \href{https://github.com/GeWu-Lab/PSTP-Net}{https://github.com/GeWu-Lab/PSTP-Net}
翻訳日:2023-08-11 13:08:24 公開日:2023-08-10
# ガイド付き量子ウォーク

Guided quantum walk ( http://arxiv.org/abs/2308.05418v1 )

ライセンス: Link先を確認
Sebastian Schulz, Dennis Willsch, Kristel Michielsen(参考訳) 局所振幅伝達(LAT)の理論を利用して、断熱定理を超える量子ウォーク(QW)と量子アニール(QA)の洞察を得る。 問題ハミルトニアンの固有空間をハイパーキューブグラフとして表現することにより、確率振幅が一連の局所ラビ振動を通して探索空間を横切ることを示す。 振幅運動は、問題のエネルギースペクトルのみに基づく時間依存ホッピング率を用いて、基底状態へ体系的に誘導することができると論じる。 これらの知見に基づいて,多段階qwの概念を拡張し,誘導量子ウォーク(gqw)をqwライクとqaライクな手続きの橋渡しとして導入する。 正確なカバー,旅行セールスパーソン,庭園最適化問題に対するGQWの性能を9から30キュービットで評価した。 以上の結果から,断熱時間進化の要件を超えて最適な焼鈍スケジュールが存在することを示す。 これらのスケジュールは、問題サイズで線形にスケールする進化時間内の大規模な組合せ最適化問題を解くことができるかもしれない。

We utilize the theory of local amplitude transfers (LAT) to gain insights into quantum walks (QWs) and quantum annealing (QA) beyond the adiabatic theorem. By representing the eigenspace of the problem Hamiltonian as a hypercube graph, we demonstrate that probability amplitude traverses the search space through a series of local Rabi oscillations. We argue that the amplitude movement can be systematically guided towards the ground state using a time-dependent hopping rate based solely on the problem's energy spectrum. Building upon these insights, we extend the concept of multi-stage QW by introducing the guided quantum walk (GQW) as a bridge between QW-like and QA-like procedures. We assess the performance of the GQW on exact cover, traveling salesperson and garden optimization problems with 9 to 30 qubits. Our results provide evidence for the existence of optimal annealing schedules, beyond the requirement of adiabatic time evolutions. These schedules might be capable of solving large-scale combinatorial optimization problems within evolution times that scale linearly in the problem size.
翻訳日:2023-08-11 13:07:57 公開日:2023-08-10
# 最適輸送理論による分布ロバスト最適化の統一

Unifying Distributionally Robust Optimization via Optimal Transport Theory ( http://arxiv.org/abs/2308.05414v1 )

ライセンス: Link先を確認
Jose Blanchet, Daniel Kuhn, Jiajin Li, Bahar Taskesen(参考訳) ここ数年、分散ロバスト最適化(DRO: Distributionally Robust Optimization)の2つの顕著なアプローチにかなりの関心が寄せられている。 発散アプローチは確率比で誤特定をモデル化し、後者は実際の結果における距離またはコストの尺度でモデル化する。 そこで本稿では,これらの手法を条件付きモーメント制約付き最適輸送(ot)に基づく単一フレームワークに統一する新しい手法を提案する。 提案手法は,例えば,ベースラインモデルと逆モデルとの最適な(最適な)結合を図りながら,確率と結果を同時に摂動させることができる。さらに,いくつかの双対性について検討し,この統一フレームワークの実用的適用性を高めるための説明可能な再構成を提案する。

In the past few years, there has been considerable interest in two prominent approaches for Distributionally Robust Optimization (DRO): Divergence-based and Wasserstein-based methods. The divergence approach models misspecification in terms of likelihood ratios, while the latter models it through a measure of distance or cost in actual outcomes. Building upon these advances, this paper introduces a novel approach that unifies these methods into a single framework based on optimal transport (OT) with conditional moment constraints. Our proposed approach, for example, makes it possible for optimal adversarial distributions to simultaneously perturb likelihood and outcomes, while producing an optimal (in an optimal transport sense) coupling between the baseline model and the adversarial model.Additionally, the paper investigates several duality results and presents tractable reformulations that enhance the practical applicability of this unified framework.
翻訳日:2023-08-11 13:07:32 公開日:2023-08-10
# surface masked autoencoder: 皮質イメージングデータの自己スーパービジョン

Surface Masked AutoEncoder: Self-Supervision for Cortical Imaging Data ( http://arxiv.org/abs/2308.05474v1 )

ライセンス: Link先を確認
Simon Dahan, Mariana da Silva, Daniel Rueckert, Emma C Robinson(参考訳) 自己スーパービジョンは、ビジョントランスフォーマーアーキテクチャにおける帰納的バイアスの欠如に対処する手段として広く研究されてきた。 これは、表現型が複雑で異種である皮質イメージングの文脈において重要であるが、利用可能なデータセットのサイズは限られている。 本稿では,視覚変換器を表面メッシュに変換する最近の進歩と,Masked AutoEncoder(MAE)による皮質表面学習の可能性について検討する。 入力の表面データをマスクしたバージョンから再構成することにより,提案手法は効率的に皮質構造をモデル化し,下流タスクの性能向上に寄与する強い表現を学習する。 開発したHuman Connectome Project (dHCP) を用いて, 皮質表現型回帰に対するアプローチを評価し, 事前学習がスクラッチから訓練したモデルと比較して, 80%の収束率で, 性能が26倍に向上することを示した。 さらに,uk biobank (ukb) のような大規模データセット上での事前学習型視覚トランスフォーマーモデルにより,低データシナリオにおける微調整のためのロバスト表現の獲得が可能となる。 私たちのコードと事前トレーニングされたモデルは、 \url{https://github.com/metrics-lab/surface-vision-transformers}で公開されている。

Self-supervision has been widely explored as a means of addressing the lack of inductive biases in vision transformer architectures, which limits generalisation when networks are trained on small datasets. This is crucial in the context of cortical imaging, where phenotypes are complex and heterogeneous, but the available datasets are limited in size. This paper builds upon recent advancements in translating vision transformers to surface meshes and investigates the potential of Masked AutoEncoder (MAE) self-supervision for cortical surface learning. By reconstructing surface data from a masked version of the input, the proposed method effectively models cortical structure to learn strong representations that translate to improved performance in downstream tasks. We evaluate our approach on cortical phenotype regression using the developing Human Connectome Project (dHCP) and demonstrate that pre-training leads to a 26\% improvement in performance, with an 80\% faster convergence, compared to models trained from scratch. Furthermore, we establish that pre-training vision transformer models on large datasets, such as the UK Biobank (UKB), enables the acquisition of robust representations for finetuning in low-data scenarios. Our code and pre-trained models are publicly available at \url{https://github.com/metrics-lab/surface-vision-transformers}.
翻訳日:2023-08-11 13:00:30 公開日:2023-08-10
# 実数をもつ量子力学:絡み合い、超選択規則、ゲージ

Quantum mechanics with real numbers: entanglement, superselection rules and gauges ( http://arxiv.org/abs/2308.05473v1 )

ライセンス: Link先を確認
Vlatko Vedral(参考訳) ヒルベルト空間を拡大し、スーパー選択規則(英語版)(superselection rule)によって量子物理学における虚数を排除する方法を示す。 この手順を量子ビットで説明し、マッハ・ツェンダー干渉計に適用する。 この手順は電磁場の制約付き量子化を少し思い出させるものであり、相対性理論に明確に従うために、縦モードとスカラーモードを量子化することによってヒルベルト空間を拡大するが、それが実際に直接観測できないことを確かめるために制約を導入する。

We show how imaginary numbers in quantum physics can be eliminated by enlarging the Hilbert Space followed by an imposition of - what effectively amounts to - a superselection rule. We illustrate this procedure with a qubit and apply it to the Mach-Zehnder interferometer. The procedure is somewhat reminiscent of the constrained quantization of the electromagnetic field, where, in order to manifestly comply with relativity, one enlargers the Hilbert Space by quantizing the longitudinal and scalar modes, only to subsequently introduce a constraint to make sure that they are actually not directly observable.
翻訳日:2023-08-11 12:59:49 公開日:2023-08-10
# 非定常低ランクmdpの高効率アルゴリズム

Provably Efficient Algorithm for Nonstationary Low-Rank MDPs ( http://arxiv.org/abs/2308.05471v1 )

ライセンス: Link先を確認
Yuan Cheng, Jing Yang, Yingbin Liang(参考訳) 環境変化下での強化学習(RL)は、非定常マルコフ決定プロセス(MDP)を介して多くの現実世界のアプリケーションをモデル化する。 しかし、文献における非定常MDPの理論的研究は、主に表層および線形(混合)MDPに焦点を当てており、深部RLにおける未知表現の性質を捉えていない。 本稿では, 線形状態埋め込み関数に加えて, 遷移カーネルと報酬の両方が時間とともに変化するような, エピソディックな低ランクMDPの下での非定常RLの探索に最初に取り組み, 低ランクモデルでは未知の表現を含む。 まず,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal に改良を加えて,非定常性に関する事前の知識を必要とせず,パラメータ依存型ポリシ最適化アルゴリズムを提案する。 いずれのアルゴリズムも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,多項式サンプルの複雑性を伴う平均的動的準最適ギャップを任意に小さくすることができることを示す。

Reinforcement learning (RL) under changing environment models many real-world applications via nonstationary Markov Decision Processes (MDPs), and hence gains considerable interest. However, theoretical studies on nonstationary MDPs in the literature have mainly focused on tabular and linear (mixture) MDPs, which do not capture the nature of unknown representation in deep RL. In this paper, we make the first effort to investigate nonstationary RL under episodic low-rank MDPs, where both transition kernels and rewards may vary over time, and the low-rank model contains unknown representation in addition to the linear state embedding function. We first propose a parameter-dependent policy optimization algorithm called PORTAL, and further improve PORTAL to its parameter-free version of Ada-PORTAL, which is able to tune its hyper-parameters adaptively without any prior knowledge of nonstationarity. For both algorithms, we provide upper bounds on the average dynamic suboptimality gap, which show that as long as the nonstationarity is not significantly large, PORTAL and Ada-PORTAL are sample-efficient and can achieve arbitrarily small average dynamic suboptimality gap with polynomial sample complexity.
翻訳日:2023-08-11 12:59:32 公開日:2023-08-10
# 量子記憶を伴わない集団攻撃自由制御量子鍵合意

Collective attack free controlled quantum key agreement without quantum memory ( http://arxiv.org/abs/2308.05470v1 )

ライセンス: Link先を確認
Arindam Dutta and Anirban Pathak(参考訳) ここでは、制御量子鍵契約のための新しいプロトコルと、セキュリティ分析に特に焦点をあてた鍵契約のための別のプロトコルを提案する。 具体的には、偽の不正攻撃や集団攻撃に対する詳細なセキュリティ証明が提供されており、提案されたプロトコルは安全であるだけでなく、そのようなスキームの他の望ましい特性(公平性と正確性)も満たしている。 さらに、提案手法は、量子鍵合意のための一連のスキームと、制御された量子鍵合意のための既存のスキーム(Tang et al. のプロトコル)を効率と必要な量子資源の観点から批判的に比較する。 特に、既存のスキームとは対照的に、現在のスキームは量子メモリを必要としないことが観察されている。 さらに、ここで提案される制御量子鍵契約のプロトコルは、Tangなどのプロトコルと同じ目的のために知られている唯一の既存のプロトコルによって要求される量子リソース(GHZ状態)と比較して、生成および維持が容易な量子リソース(ベル状態と単一光子状態)を必要とする。

Here we present a new protocol for controlled quantum key agreement and another protocol for key agreement with a specific focus on the security analysis. Specifically, detailed security proof is provided against impersonated fraudulent attack and collective attacks and it is established that the proposed protocols are not only secure, but they also satisfy other desired properties of such schemes (i.e., fairness and correctness). Further, the proposed schemes are critically compared with a set of schemes for quantum key agreement and an existing scheme for controlled quantum key agreement (Tang et al.'s protocol) in terms of efficiency and the required quantum resources. Especially, it is observed that in contrast to the existing schemes, the present scheme does not require quantum memory. In addition, the protocol for controlled quantum key agreement proposed here is found to require quantum resources (Bell state and single photon state) that are easier to produce and maintain compared to the quantum resources (GHZ states) required by the only known existing protocol for the same purpose, i.e., Tang et al.'s protocol.
翻訳日:2023-08-11 12:58:53 公開日:2023-08-10
# $\mathcal{G}^2Pxy$: プロキシ未知グラフ上の生成的オープンセットノード分類

$\mathcal{G}^2Pxy$: Generative Open-Set Node Classification on Graphs with Proxy Unknowns ( http://arxiv.org/abs/2308.05463v1 )

ライセンス: Link先を確認
Qin Zhang, Zelin Shi, Xiaolin Zhang, Xiaojun Chen, Philippe Fournier-Viger, Shirui Pan(参考訳) ノード分類は、グラフ内のラベルなしノードのラベルを予測するタスクである。 グラフニューラルネットワークに基づく最先端の手法は、トレーニング中にすべてのラベルが利用できる場合に優れたパフォーマンスを達成する。 しかし、現実のモデルでは、しばしば新しいクラスを持つデータに適用されるため、大きな誤分類が生じ、性能が著しく低下する可能性がある。 したがって、ある標本が既知のクラスに属するかどうかを決定するためには、開集合分類法の開発が不可欠である。 既存のオープンセットノード分類の方法は、一般に、オープンセットの分類を助けるために、実際の未知のクラスノードの機能の一部またはすべてを含むトランスダクティブラーニングを使用する。 本稿では,未知のクラスに関する情報が得られない,より厳密な帰納的学習環境に従う新しい生成的オープンセットノード分類法,すなわち$\mathcal{G}^2Pxy$を提案する。 2種類のプロキシ不明ノード、クラス間未知プロキシおよび外部未知プロキシがmixupを介して生成され、新規クラスの分布を効率的に予測する。 生成されたプロキシを使用することで、クローズドセット分類器を、余分なプロキシ分類器で拡張することで、オープンセットに変換することができる。 クロスエントロピー損失と補完エントロピー損失の両方の制約の下で、$\mathcal{g}^2pxy$ は未知のクラス検出と既知のクラス分類において優れた効果を達成し、ベンチマークグラフデータセットの実験によって検証される。 さらに、$\mathcal{G}^2Pxy$ は GNN アーキテクチャに特別な要件を持たず、優れた一般化を示す。

Node classification is the task of predicting the labels of unlabeled nodes in a graph. State-of-the-art methods based on graph neural networks achieve excellent performance when all labels are available during training. But in real-life, models are often applied on data with new classes, which can lead to massive misclassification and thus significantly degrade performance. Hence, developing open-set classification methods is crucial to determine if a given sample belongs to a known class. Existing methods for open-set node classification generally use transductive learning with part or all of the features of real unseen class nodes to help with open-set classification. In this paper, we propose a novel generative open-set node classification method, i.e. $\mathcal{G}^2Pxy$, which follows a stricter inductive learning setting where no information about unknown classes is available during training and validation. Two kinds of proxy unknown nodes, inter-class unknown proxies and external unknown proxies are generated via mixup to efficiently anticipate the distribution of novel classes. Using the generated proxies, a closed-set classifier can be transformed into an open-set one, by augmenting it with an extra proxy classifier. Under the constraints of both cross entropy loss and complement entropy loss, $\mathcal{G}^2Pxy$ achieves superior effectiveness for unknown class detection and known class classification, which is validated by experiments on benchmark graph datasets. Moreover, $\mathcal{G}^2Pxy$ does not have specific requirement on the GNN architecture and shows good generalizations.
翻訳日:2023-08-11 12:58:20 公開日:2023-08-10
# KS-APR:ロバストな絶対値回帰のためのキーフレーム選択

KS-APR: Keyframe Selection for Robust Absolute Pose Regression ( http://arxiv.org/abs/2308.05459v1 )

ライセンス: Link先を確認
Changkun Liu, Yukun Zhao, Tristan Braud(参考訳) Markerless Mobile Augmented Reality (AR)は、特定の2Dや3Dオブジェクトを使わずに、物理的な世界でデジタルコンテンツを固定することを目的としている。 Absolute Pose Regressors (APR) は、単一の単眼画像からデバイスのポーズを推測するエンドツーエンドの機械学習ソリューションである。 計算コストの低いため、モバイルARデバイスの制約されたハードウェア上で直接実行できる。 しかし、APR法はトレーニングセットから遠すぎる入力画像に対して重大な不正確性をもたらす傾向にある。 本稿では,推定ポーズの信頼性を最小限のオーバーヘッドで評価するパイプラインであるKS-APRを紹介する。 モバイルARシステムは、経験中のデバイスの相対的なポーズを追跡するために、視覚慣性計測に依存する傾向がある。 そのため、KS-APRは周波数よりも信頼性を優先し、信頼できないポーズを捨てる。 このパイプラインは既存のほとんどのAPRメソッドを統合することで、信頼できない画像をポーズ推定でフィルタリングすることで精度を向上させることができる。 屋内および屋外データセット上の3種類のAPRモデルにパイプラインを実装した。 位置と向きの中央値の誤差はすべてのモデルで減少し、大きなエラーの割合はデータセット間で最小化される。 本手法はDFNetdmのような最先端のAPRが単一画像および逐次APR法より優れていることを示す。 これらの結果は、ワンショット決定を必要としない視覚的位置決めタスクに対するKS-APRのスケーラビリティと有効性を示す。

Markerless Mobile Augmented Reality (AR) aims to anchor digital content in the physical world without using specific 2D or 3D objects. Absolute Pose Regressors (APR) are end-to-end machine learning solutions that infer the device's pose from a single monocular image. Thanks to their low computation cost, they can be directly executed on the constrained hardware of mobile AR devices. However, APR methods tend to yield significant inaccuracies for input images that are too distant from the training set. This paper introduces KS-APR, a pipeline that assesses the reliability of an estimated pose with minimal overhead by combining the inference results of the APR and the prior images in the training set. Mobile AR systems tend to rely upon visual-inertial odometry to track the relative pose of the device during the experience. As such, KS-APR favours reliability over frequency, discarding unreliable poses. This pipeline can integrate most existing APR methods to improve accuracy by filtering unreliable images with their pose estimates. We implement the pipeline on three types of APR models on indoor and outdoor datasets. The median error on position and orientation is reduced for all models, and the proportion of large errors is minimized across datasets. Our method enables state-of-the-art APRs such as DFNetdm to outperform single-image and sequential APR methods. These results demonstrate the scalability and effectiveness of KS-APR for visual localization tasks that do not require one-shot decisions.
翻訳日:2023-08-11 12:57:50 公開日:2023-08-10
# レータ間の信頼性は個人的公正である

Inter-Rater Reliability is Individual Fairness ( http://arxiv.org/abs/2308.05458v1 )

ライセンス: Link先を確認
Tim R\"az(参考訳) ここでは、レータ間信頼性と個人の公正性との接続を確立する。 レータ間の信頼性は個別の公平性の特別な場合であり、類似の人が同じように扱われることを必要とする公平性の概念である。

In this note, a connection between inter-rater reliability and individual fairness is established. It is shown that inter-rater reliability is a special case of individual fairness, a notion of fairness requiring that similar people are treated similarly.
翻訳日:2023-08-11 12:57:26 公開日:2023-08-10
# 量子ドットループによるスピン量子ビットの励起による非可換ベリー相の測定プロトコル

Protocols to measure the non-Abelian Berry phase by pumping a spin qubit through a quantum-dot loop ( http://arxiv.org/abs/2308.05455v1 )

ライセンス: Link先を確認
Baksa Kolok and Andr\'as P\'alyi(参考訳) 退化エネルギー固有空間に制約された量子系は、非可換ベリー相によって記述される断熱駆動上の非三価時間発展を導くことができる。 この種の力学は、タイミング誤差に対して堅牢な量子コンピューティングにおいて論理ゲートを提供する。 このようなホロノミック量子ゲートを実現する強力な候補は、スピン軌道結合半導体に閉じ込められた電子またはホールスピン量子ビットであり、その2重クラマーの縮退は時間反転対称性によって保護される。 本稿では,量子ドットのループを通してスピン量子ビットを励起することで非可換ベリー相を測定するプロトコルを提案し,定量的に解析する。 これらのプロトコルの1つは、ループのドット内の局所内部ゼーマン場方向を特徴付けることができる。 我々はこれらのプロトコルの短期的な実現を期待しており、すべての鍵要素がスピン量子実験で既に実証されている。 これらの実験は、スピンベースの量子情報処理におけるホロノミック量子ゲートの可能性を評価するために重要である。

A quantum system constrained to a degenerate energy eigenspace can undergo a nontrival time evolution upon adiabatic driving, described by a non-Abelian Berry phase. This type of dynamics may provide logical gates in quantum computing that are robust against timing errors. A strong candidate to realize such holonomic quantum gates is an electron or hole spin qubit trapped in a spin-orbit-coupled semiconductor, whose twofold Kramers degeneracy is protected by time-reversal symmetry. Here, we propose and quantitatively analyze protocols to measure the non-Abelian Berry phase by pumping a spin qubit through a loop of quantum dots. One of these protocols allows to characterize the local internal Zeeman field directions in the dots of the loop. We expect a near-term realisation of these protocols, as all key elements have been already demonstrated in spin-qubit experiments. These experiments would be important to assess the potential of holonomic quantum gates for spin-based quantum information processing.
翻訳日:2023-08-11 12:57:21 公開日:2023-08-10
# Forecaster's Review of Judea Pearl's Causality: Models, Reasoning and Inference, Second Edition, 2009

A Forecaster's Review of Judea Pearl's Causality: Models, Reasoning and Inference, Second Edition, 2009 ( http://arxiv.org/abs/2308.05451v1 )

ライセンス: Link先を確認
Feng Li(参考訳) judea pearl氏のオリジナルの因果関係に関する書籍の人気と成功とともに、このレビューでは2009年の第2版で更新された主要なトピックを取り上げ、予測シナリオにおける因果関係推論戦略について説明している。 さらに,反事実のモデル化や不確実性の推定,予測シナリオにおける因果効果推定のための事前知識の導入といった,時系列予測を伴う因果推論の潜在的なメリットと課題についても論じた。

With the big popularity and success of Judea Pearl's original causality book, this review covers the main topics updated in the second edition in 2009 and illustrates an easy-to-follow causal inference strategy in a forecast scenario. It further discusses some potential benefits and challenges for causal inference with time series forecasting when modeling the counterfactuals, estimating the uncertainty and incorporating prior knowledge to estimate causal effects in different forecasting scenarios.
翻訳日:2023-08-11 12:57:02 公開日:2023-08-10
# 乳癌の診断 : リアルタイム超音波からマンモグラムへの変換による費用対効果診断

Transforming Breast Cancer Diagnosis: Towards Real-Time Ultrasound to Mammogram Conversion for Cost-Effective Diagnosis ( http://arxiv.org/abs/2308.05449v1 )

ライセンス: Link先を確認
Sahar Almahfouz Nasser, Ashutosh Sharma, Anmol Saraf, Amruta Mahendra Parulekar, Purvi Haria, and Amit Sethi(参考訳) 超音波(US)イメージングは、マンモグラフィなどの他のイメージング技術よりもリアルタイムでポータブルであるため、術中設定に適している。 しかし、アメリカの画像は低空間分解能ノイズのようなアーチファクトが特徴である。 本研究は, 超音波画像からマンモグラムのような画像品質をリアルタイムに提供することで, これらの制約に対処することを目的とする。 スペックノイズとして扱うことによってアーティファクトを削減することを目的とした、これまでの米国における画像品質改善のアプローチとは異なり、その価値は情報波干渉パターン(wip)として認識される。 これを実現するために,strideソフトウェアを用いて前方モデルを数値的に解き,乳房x線写真から超音波画像を生成する。 さらに,シミュレーションされた超音波画像のリアリズムを高めるために,領域適応の力を利用する。 次に,gans(generative adversarial network)を用いて,超音波画像からマンモグラム品質画像を生成する逆問題に対処する。 結果として得られた画像は、オリジナルのアメリカ画像よりもかなり識別可能な詳細情報を持っている。

Ultrasound (US) imaging is better suited for intraoperative settings because it is real-time and more portable than other imaging techniques, such as mammography. However, US images are characterized by lower spatial resolution noise-like artifacts. This research aims to address these limitations by providing surgeons with mammogram-like image quality in real-time from noisy US images. Unlike previous approaches for improving US image quality that aim to reduce artifacts by treating them as (speckle noise), we recognize their value as informative wave interference pattern (WIP). To achieve this, we utilize the Stride software to numerically solve the forward model, generating ultrasound images from mammograms images by solving wave-equations. Additionally, we leverage the power of domain adaptation to enhance the realism of the simulated ultrasound images. Then, we utilize generative adversarial networks (GANs) to tackle the inverse problem of generating mammogram-quality images from ultrasound images. The resultant images have considerably more discernible details than the original US images.
翻訳日:2023-08-11 12:56:49 公開日:2023-08-10
# バイナリ値のためのEFXアロケーション

EFX Allocations Exist for Binary Valuations ( http://arxiv.org/abs/2308.05503v1 )

ライセンス: Link先を確認
Xiaolin Bu, Jiaxin Song and Ziqi Yu(参考訳) 公平な分割問題と公平な基準を満たす割り当ての存在について,任意の項目 (EFX) まで検討する。 EFXアロケーションの存在は、フェアディビジョン文学において大きなオープンな問題である。 余分なアイテムを受け取ることでその価値の限界値が$0$または$$$であるような二元評価を考える。 Babaioffなど。 EFXアロケーションが常にバイナリとサブモジュールのバリュエーションに対して存在することを[2021] 証明しました。 本稿では,全く異なる手法を用いて,その存在を必ずしも部分モジュラーではない一般的な二項評価に拡張し,efx割当を計算する多項式時間アルゴリズムを提案する。

We study the fair division problem and the existence of allocations satisfying the fairness criterion envy-freeness up to any item (EFX). The existence of EFX allocations is a major open problem in the fair division literature. We consider binary valuations where the marginal gain of the value by receiving an extra item is either $0$ or $1$. Babaioff et al. [2021] proved that EFX allocations always exist for binary and submodular valuations. In this paper, by using completely different techniques, we extend this existence result to general binary valuations that are not necessarily submodular, and we present a polynomial time algorithm for computing an EFX allocation.
翻訳日:2023-08-11 12:50:53 公開日:2023-08-10
# 人工知能と法律のためのトランスフォーマベースの言語モデルに秩序をもたらす

Bringing order into the realm of Transformer-based language models for artificial intelligence and law ( http://arxiv.org/abs/2308.05502v1 )

ライセンス: Link先を確認
Candida M. Greco, Andrea Tagarelli(参考訳) トランスフォーマーベースの言語モデル(TLM)は、自然言語処理と理解を必要とする問題やアプリケーションに対するディープラーニングベースのソリューションの開発を成功させる最先端技術として広く認識されている。 他のテキストドメインと同様に、TLMも、法律ドメインに関心を持つ多くのタスクに対して、AIアプローチの最先端を推し進めてきた。 約6年前に最初に提案されたTransformerモデルにもかかわらず、この技術は前例のない速度で急速に進歩し、BERTと関連するモデルは、法域においても主要な参照である。 本稿は、法的領域におけるAI駆動問題とタスクに対するTLMベースの手法に関する最初の体系的な概要を提供する。 主な目標は、この分野における研究の進歩を強調することであり、一方、トランスフォーマーが法的プロセスをサポートするaiの成功にどのように貢献したのか、他方では、さらなる研究開発に現在の制限と機会は何があるのかを理解することである。

Transformer-based language models (TLMs) have widely been recognized to be a cutting-edge technology for the successful development of deep-learning-based solutions to problems and applications that require natural language processing and understanding. Like for other textual domains, TLMs have indeed pushed the state-of-the-art of AI approaches for many tasks of interest in the legal domain. Despite the first Transformer model being proposed about six years ago, there has been a rapid progress of this technology at an unprecedented rate, whereby BERT and related models represent a major reference, also in the legal domain. This article provides the first systematic overview of TLM-based methods for AI-driven problems and tasks in the legal sphere. A major goal is to highlight research advances in this field so as to understand, on the one hand, how the Transformers have contributed to the success of AI in supporting legal processes, and on the other hand, what are the current limitations and opportunities for further research development.
翻訳日:2023-08-11 12:50:43 公開日:2023-08-10
# 手術室における麻酔科医の視覚注意の分析 : 深層学習モデルを用いて

More Than Meets the Eye: Analyzing Anesthesiologists' Visual Attention in the Operating Room Using Deep Learning Models ( http://arxiv.org/abs/2308.05501v1 )

ライセンス: Link先を確認
Sapir Gershov, Fadi Mahameed, Aeyal Raz, Shlomi Laufer(参考訳) モニターに表示された患者のバイタルサインは、麻酔科医の視覚注意(va)を、全身麻酔下の患者の安全管理において重要な要素とし、さらに、そのvaの分布と麻酔を通して特定の手がかりを得る能力は、患者の予後に直接影響を与える可能性がある。 現在、ほとんどの研究は、麻酔科医の視覚パターンを分析するためにウェアラブルアイトラッキング技術を採用している。 繊細なデータを生成することができるが、ウェアラブルデバイスは、オペレーティングルーム(OR)でのデータ収集を大規模または長期に使用するための持続可能なソリューションではない。 そこで,モニタ搭載ウェブカメラの処理を行うディープラーニングモデルを用いた新しいアイトラッキング手法を用いて,連続的な行動データを収集し,自然のワークフローを最小限に抑えた麻酔医のVA分布の知見を得た。 本研究では,提案手法を用いて映像記録を収集し,異なる視覚行動パターンを比較した。 非発生期間におけるベースラインのva分布と活動相に関連するパターン,あるいは重要で予期せぬインシデントとを区別した。 将来的には、このようなプラットフォームはORにおけるコンテキスト認識支援技術の重要コンポーネントとして機能する可能性がある。

Patient's vital signs, which are displayed on monitors, make the anesthesiologist's visual attention (VA) a key component in the safe management of patients under general anesthesia; moreover, the distribution of said VA and the ability to acquire specific cues throughout the anesthetic, may have a direct impact on patient's outcome. Currently, most studies employ wearable eye-tracking technologies to analyze anesthesiologists' visual patterns. Albeit being able to produce meticulous data, wearable devices are not a sustainable solution for large-scale or long-term use for data collection in the operating room (OR). Thus, by utilizing a novel eye-tracking method in the form of deep learning models that process monitor-mounted webcams, we collected continuous behavioral data and gained insight into the anesthesiologist's VA distribution with minimal disturbance to their natural workflow. In this study, we collected OR video recordings using the proposed framework and compared different visual behavioral patterns. We distinguished between baseline VA distribution during uneventful periods to patterns associated with active phases or during critical, unanticipated incidents. In the future, such a platform may serve as a crucial component of context-aware assistive technologies in the OR.
翻訳日:2023-08-11 12:50:28 公開日:2023-08-10
# xai for the arts: 生成音楽における潜在空間の説明

Exploring XAI for the Arts: Explaining Latent Space in Generative Music ( http://arxiv.org/abs/2308.05496v1 )

ライセンス: Link先を確認
Nick Bryan-Kinns, Berker Banar, Corey Ford, Courtney N. Reed, Yixiao Zhang, Simon Colton, Jack Armitage(参考訳) 説明可能なAIは、よりインタラクティブで流動的な共創造的なAIシステムをサポートする可能性がある。 これを実現するには、検査可能、理解可能、変更可能なeXplainable AI(XAI)機能を提供することで、クリエイティブなAIモデルをデバッグ可能にする必要がある。 しかし、現在では芸術のXAIはごくわずかである。 本研究では,音楽生成のための潜伏変数モデルについて,より説明しやすくする方法を実証する。 我々は、モデルの説明可能性を高める。 一 潜時空間規則化を用いて、潜時空間の特定次元を有意義な音楽属性にマッピングさせる。 二 潜在空間の寸法を調整し、これらの変化の結果をリアルタイムで観察することができるユーザインタフェースフィードバックループを提供すること。 三 潜在空間における音楽的属性の可視化を提供することにより、潜在空間寸法の変化が与える影響の理解及び予測を助けること。 そこで我々は、潜在空間と生成された音楽結果とのギャップを意味のある方法で橋渡しし、モデルとその出力をより説明しやすくデバッグしやすくすることを提案する。

Explainable AI has the potential to support more interactive and fluid co-creative AI systems which can creatively collaborate with people. To do this, creative AI models need to be amenable to debugging by offering eXplainable AI (XAI) features which are inspectable, understandable, and modifiable. However, currently there is very little XAI for the arts. In this work, we demonstrate how a latent variable model for music generation can be made more explainable; specifically we extend MeasureVAE which generates measures of music. We increase the explainability of the model by: i) using latent space regularisation to force some specific dimensions of the latent space to map to meaningful musical attributes, ii) providing a user interface feedback loop to allow people to adjust dimensions of the latent space and observe the results of these changes in real-time, iii) providing a visualisation of the musical attributes in the latent space to help people understand and predict the effect of changes to latent space dimensions. We suggest that in doing so we bridge the gap between the latent space and the generated musical outcomes in a meaningful way which makes the model and its outputs more explainable and more debuggable.
翻訳日:2023-08-11 12:50:07 公開日:2023-08-10
# パノラマ意味セグメンテーションのための歪み・アウェア非教師なし領域適応

Look at the Neighbor: Distortion-aware Unsupervised Domain Adaptation for Panoramic Semantic Segmentation ( http://arxiv.org/abs/2308.05493v1 )

ライセンス: Link先を確認
Xu Zheng, Tianbo Pan, Yunhao Luo, Lin Wang(参考訳) 最近、ラベル付きピンホール画像ドメインからUnsupervised Domain Adaptation (UDA)を介して未ラベルのパノラマ画像ドメインに知識を伝達する試みがなされている。 その目的は、等角射影(erp)の非一様分布画素から、スタイル格差と歪み問題に起因する領域ギャップに対処することである。 従来の研究は、特に設計されたマルチブランチネットワークアーキテクチャによる幾何学的前提に基づく知識の伝達に重点を置いていた。 その結果、かなりの計算コストが引き起こされ、またその一般化能力は画素間の歪みの変化によって著しく阻害される。 本稿では,ERP の画素近傍領域が実際に歪みが少ないことを明らかにする。 直感的には,パノラマ的セマンティックセグメンテーションの歪み問題に効果的に対処できる新しいUDAフレームワークを提案する。 比較すると,本手法はよりシンプルで実装が容易で,計算効率がよい。 具体的には、幾何学的制約を使わずに隣接する画素分布を捉える歪み認識注意(DA)を提案する。 さらに、メモリバンクを用いて特徴表現を反復的に更新するクラスワイズ機能集約(CFA)モジュールを提案する。 したがって、2つのドメイン間の特徴的類似性を一貫して最適化することができる。 実験の結果,提案手法は80%のパラメータを著しく低減しつつ,新しい最先端性能を実現することがわかった。

Endeavors have been recently made to transfer knowledge from the labeled pinhole image domain to the unlabeled panoramic image domain via Unsupervised Domain Adaptation (UDA). The aim is to tackle the domain gaps caused by the style disparities and distortion problem from the non-uniformly distributed pixels of equirectangular projection (ERP). Previous works typically focus on transferring knowledge based on geometric priors with specially designed multi-branch network architectures. As a result, considerable computational costs are induced, and meanwhile, their generalization abilities are profoundly hindered by the variation of distortion among pixels. In this paper, we find that the pixels' neighborhood regions of the ERP indeed introduce less distortion. Intuitively, we propose a novel UDA framework that can effectively address the distortion problems for panoramic semantic segmentation. In comparison, our method is simpler, easier to implement, and more computationally efficient. Specifically, we propose distortion-aware attention (DA) capturing the neighboring pixel distribution without using any geometric constraints. Moreover, we propose a class-wise feature aggregation (CFA) module to iteratively update the feature representations with a memory bank. As such, the feature similarity between two domains can be consistently optimized. Extensive experiments show that our method achieves new state-of-the-art performance while remarkably reducing 80% parameters.
翻訳日:2023-08-11 12:49:47 公開日:2023-08-10
# スパース・リワードとスパース・インタラクションによる品質多様性:ロボットのグラスピングへの応用

Quality Diversity under Sparse Reward and Sparse Interaction: Application to Grasping in Robotics ( http://arxiv.org/abs/2308.05483v1 )

ライセンス: Link先を確認
J. Huber, F. H\'el\'enon, M. Coninx, F. Ben Amar, S. Doncieux(参考訳) QD法(Quality-Diversity Method)は、与えられた問題に対して多種多様な高性能なソリューションセットを生成することを目的としたアルゴリズムである。 もともと進化ロボティクスのために開発されたqd研究のほとんどは限られた領域で行われ、主に運動に応用され、フィットネスと行動信号が密集している。 グラッピングはロボットの操作にとって重要なタスクだ。 多くの研究コミュニティの努力にもかかわらず、この課題はまだ解決されていない。 グラッピングはQD文学における前例のない課題を累積し、報酬の幅、行動の幅、行動空間のずれに悩まされる。 本研究は,QDが把握にどう対処できるかを考察する。 2つの異なるロボットグリッパーと5つの標準オブジェクトに対応する10の把持領域に関する15の異なる方法に関する実験が行われた。 アルゴリズムと内部コンポーネントを区別する評価フレームワークも,公正な比較のために提案されている。 その結果, 提案手法を優先的に選択したMAP-Elites変種は, 比較手法の全てを大きなマージンで上回ることがわかった。 また,スパース相互作用が偽りの新規性をもたらすという実験的証拠も見いだした。 私たちの知識では,本研究で実証された把持軌跡の例を効率的に生成する能力は,文献に先例がない。

Quality-Diversity (QD) methods are algorithms that aim to generate a set of diverse and high-performing solutions to a given problem. Originally developed for evolutionary robotics, most QD studies are conducted on a limited set of domains - mainly applied to locomotion, where the fitness and the behavior signal are dense. Grasping is a crucial task for manipulation in robotics. Despite the efforts of many research communities, this task is yet to be solved. Grasping cumulates unprecedented challenges in QD literature: it suffers from reward sparsity, behavioral sparsity, and behavior space misalignment. The present work studies how QD can address grasping. Experiments have been conducted on 15 different methods on 10 grasping domains, corresponding to 2 different robot-gripper setups and 5 standard objects. An evaluation framework that distinguishes the evaluation of an algorithm from its internal components has also been proposed for a fair comparison. The obtained results show that MAP-Elites variants that select successful solutions in priority outperform all the compared methods on the studied metrics by a large margin. We also found experimental evidence that sparse interaction can lead to deceptive novelty. To our knowledge, the ability to efficiently produce examples of grasping trajectories demonstrated in this work has no precedent in the literature.
翻訳日:2023-08-11 12:49:24 公開日:2023-08-10
# DBAとしてのLLM

LLM As DBA ( http://arxiv.org/abs/2308.05481v1 )

ライセンス: Link先を確認
Xuanhe Zhou, Guoliang Li, Zhiyuan Liu(参考訳) データベース管理者(DBA)は、データの可用性、パフォーマンス、信頼性を保証するためにデータベースシステムの管理、保守、最適化において重要な役割を果たす。 しかし、DBAが大量のデータベースインスタンス(例えばクラウドデータベース上の数百万のインスタンス)を管理するのは困難で面倒である。 近年、大規模言語モデル(llm)は貴重な文書を理解し、合理的な回答を生み出す大きな可能性を示している。 そこで,本研究では,テキストソースからデータベースのメンテナンス経験を継続的に獲得し,目的とするデータベースに対して合理的かつ十分な時間内診断および最適化アドバイスを提供する,llmベースのデータベース管理者であるd-botを提案する。 本稿では、データベース保守のための革命的LLM中心のフレームワークについて述べる。 (i)文書及びツールからのデータベース保守知識検出 (ii)根本原因分析のための思考推論の木、及び (iii)複数のllm間の協調診断 D-Botが根本原因を効果的かつ効果的に診断できるという予備実験結果がgithub.com/TsinghuaDatabaseGroup/DB-GPTで公開されている。

Database administrators (DBAs) play a crucial role in managing, maintaining and optimizing a database system to ensure data availability, performance, and reliability. However, it is hard and tedious for DBAs to manage a large number of database instances (e.g., millions of instances on the cloud databases). Recently large language models (LLMs) have shown great potential to understand valuable documents and accordingly generate reasonable answers. Thus, we propose D-Bot, a LLM-based database administrator that can continuously acquire database maintenance experience from textual sources, and provide reasonable, well-founded, in-time diagnosis and optimization advice for target databases. This paper presents a revolutionary LLM-centric framework for database maintenance, including (i) database maintenance knowledge detection from documents and tools, (ii) tree of thought reasoning for root cause analysis, and (iii) collaborative diagnosis among multiple LLMs. Our preliminary experimental results that D-Bot can efficiently and effectively diagnose the root causes and our code is available at github.com/TsinghuaDatabaseGroup/DB-GPT.
翻訳日:2023-08-11 12:49:02 公開日:2023-08-10
# YOLO-MS:リアルタイム物体検出のためのマルチスケール表現学習の再考

YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection ( http://arxiv.org/abs/2308.05480v1 )

ライセンス: Link先を確認
Yuming Chen, Xinbin Yuan, Ruiqi Wu, Jiabao Wang, Qibin Hou, Ming-Ming Cheng(参考訳) 本研究の目的は, YOLO-MS と呼ばれる, 効率的かつ高性能な物体検出コミュニティを提供することである。 コア設計は、異なるカーネルサイズでの畳み込みが異なるスケールのオブジェクトの検出性能にどのように影響するかに関する一連の調査に基づいている。 結果は、リアルタイムオブジェクト検出器のマルチスケールな特徴表現を強力に強化する新しい戦略である。 戦略の有効性を検証するため,YOLO-MSと呼ばれるネットワークアーキテクチャを構築した。 私たちは、ImageNetや事前トレーニングされた重みなど、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。 私たちのYOLO-MSはベルとホイッスルなしで、同じ数のパラメータとFLOPを使用する場合、YOLO-v7やRTMDetを含む最新の最先端のリアルタイムオブジェクト検出器よりも優れています。 YOLO-MSのXSバージョンは4.5Mの学習可能なパラメータと8.7GのFLOPしか持たず、同じモデルサイズでRTMDetより約2%高いMS COCOでAPスコアが43%以上に達する。 また,他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても利用できる。 通常,本手法は,パラメータやFLOPを減らし,YOLOv8のAPを37%以上から40%以上に改善する。 コードはhttps://github.com/FishAndWasabi/YOLO-MSで入手できる。

We aim at providing the object detection community with an efficient and performant object detector, termed YOLO-MS. The core design is based on a series of investigations on how convolutions with different kernel sizes affect the detection performance of objects at different scales. The outcome is a new strategy that can strongly enhance multi-scale feature representations of real-time object detectors. To verify the effectiveness of our strategy, we build a network architecture, termed YOLO-MS. We train our YOLO-MS on the MS COCO dataset from scratch without relying on any other large-scale datasets, like ImageNet, or pre-trained weights. Without bells and whistles, our YOLO-MS outperforms the recent state-of-the-art real-time object detectors, including YOLO-v7 and RTMDet, when using a comparable number of parameters and FLOPs. Taking the XS version of YOLO-MS as an example, with only 4.5M learnable parameters and 8.7G FLOPs, it can achieve an AP score of 43%+ on MS COCO, which is about 2%+ higher than RTMDet with the same model size. Moreover, our work can also be used as a plug-and-play module for other YOLO models. Typically, our method significantly improves the AP of YOLOv8 from 37%+ to 40%+ with even fewer parameters and FLOPs. Code is available at https://github.com/FishAndWasabi/YOLO-MS.
翻訳日:2023-08-11 12:48:43 公開日:2023-08-10
# 高分解能3+1Dレーダにおける3次元物体検出器の検証

Reviewing 3D Object Detectors in the Context of High-Resolution 3+1D Radar ( http://arxiv.org/abs/2308.05478v1 )

ライセンス: Link先を確認
Patrick Palmer and Martin Krueger and Richard Altendorfer and Ganesh Adam and Torsten Bertram(参考訳) 近年の高分解能イメージング4D(3+1D)レーダセンサの市場導入は、ディープラーニングに基づくレーダ知覚研究を初期化している。 本研究では3次元物体検出のためのレーダポイントクラウドで動作するディープラーニングモデルについて検討する。 ライダーポイントクラウドデータを用いた3次元物体検出は3次元視覚の成熟した領域である。 多くの異なるアーキテクチャが提案されており、それぞれに強みと弱みがある。 3dlidar point cloudと3+1d radar point cloudsの類似性から、既存の3d object detectorsは、レーダーデータからディープラーニングベースの3d object detectionを開始するための自然な基盤である。 したがって、第1のステップは、新しいデータモダリティに基づいて既存のモデルの検出性能を分析し、それらを深く評価することである。 lidar point cloud用に開発された既存の3d point cloud object detectorsをレーダドメインに適用するには、最初に適用する必要がある。 ポイントピラーズなどの検出器はすでにレーダーデータに適用できるようになっているが、Voxel R-CNN、SECOND、PointRCNN、PV-RCNNなど他の検出器に適応している。 この目的のために、クロスモデル検証(特定のデータセット上のモデルの集合を評価する)とクロスデータセット検証(複数のデータセット上に設定されたモデル内のすべてのモデルを評価する)を行う。 使用される高解像度レーダーデータはview-of-delftとastyxデータセットである。 最後に,モデルの適応と学習手順について評価した。 また,レーダーデータの検出性能に影響を及ぼす主要な要因について検討し,今後の研究道を示す可能性について提案する。

Recent developments and the beginning market introduction of high-resolution imaging 4D (3+1D) radar sensors have initialized deep learning-based radar perception research. We investigate deep learning-based models operating on radar point clouds for 3D object detection. 3D object detection on lidar point cloud data is a mature area of 3D vision. Many different architectures have been proposed, each with strengths and weaknesses. Due to similarities between 3D lidar point clouds and 3+1D radar point clouds, those existing 3D object detectors are a natural basis to start deep learning-based 3D object detection on radar data. Thus, the first step is to analyze the detection performance of the existing models on the new data modality and evaluate them in depth. In order to apply existing 3D point cloud object detectors developed for lidar point clouds to the radar domain, they need to be adapted first. While some detectors, such as PointPillars, have already been adapted to be applicable to radar data, we have adapted others, e.g., Voxel R-CNN, SECOND, PointRCNN, and PV-RCNN. To this end, we conduct a cross-model validation (evaluating a set of models on one particular data set) as well as a cross-data set validation (evaluating all models in the model set on several data sets). The high-resolution radar data used are the View-of-Delft and Astyx data sets. Finally, we evaluate several adaptations of the models and their training procedures. We also discuss major factors influencing the detection performance on radar data and propose possible solutions indicating potential future research avenues.
翻訳日:2023-08-11 12:48:15 公開日:2023-08-10
# 知覚テキスト分類のための機械学習とトランスフォーマーによるアプローチ:比較分析

Exploring Machine Learning and Transformer-based Approaches for Deceptive Text Classification: A Comparative Analysis ( http://arxiv.org/abs/2308.05476v1 )

ライセンス: Link先を確認
Anusuya Krishnan(参考訳) 偽テキスト分類は、偽コンテンツや偽コンテンツを特定することを目的とした自然言語処理において重要なタスクである。 本研究では,機械学習とトランスフォーマーに基づくテキスト分類手法の比較分析を行った。 本稿では, 従来の機械学習アルゴリズムと, BERT, XLNET, DistilBERT, RoBERTaなどの最先端トランスフォーマモデルの有効性を検討した。 認識テキストと非認識テキストからなるラベル付きデータセットは、トレーニングおよび評価目的に使用される。 広範な実験を通じて,異なるアプローチの精度,精度,リコール,f1スコアなど,パフォーマンス指標を比較した。 本研究は, テキスト分類における機械学習とトランスフォーマーに基づく手法の長所と短所に注目し, 研究者や実践者が, コンテンツに対する情報的判断を行えるようにした。

Deceptive text classification is a critical task in natural language processing that aims to identify deceptive or fraudulent content. This study presents a comparative analysis of machine learning and transformer-based approaches for deceptive text classification. We investigate the effectiveness of traditional machine learning algorithms and state-of-the-art transformer models, such as BERT, XLNET, DistilBERT, and RoBERTa, in detecting deceptive text. A labeled dataset consisting of deceptive and non-deceptive texts is used for training and evaluation purposes. Through extensive experimentation, we compare the performance metrics, including accuracy, precision, recall, and F1 score, of the different approaches. The results of this study shed light on the strengths and limitations of machine learning and transformer-based methods for deceptive text classification, enabling researchers and practitioners to make informed decisions when dealing with deceptive content
翻訳日:2023-08-11 12:47:50 公開日:2023-08-10
# 都市緑へのアクセシビリティ測定のための1つの指標から多次元フレームワークへの移行の必要性

On the need to move from a single indicator to a multi-dimensional framework to measure accessibility to urban green ( http://arxiv.org/abs/2308.05538v1 )

ライセンス: Link先を確認
Alice Battiston and Rossano Schifanella(参考訳) 近年の都市緑化介入の拡大に伴い,都市緑化を計測するための空間指標の定義が,政策設計過程の報知において重要視されている。 世界の1000以上の都市でグリーンアクセシビリティの指標によって誘導される人口の安定性と地域ランクを解析することにより、単一メートル法が都市におけるグリーンアクセシビリティの信頼性を評価する程度を調査する。 その結果,都市中心部における緑地空間の空間分布と人口分布との複雑な相互作用から,単一指標を用いた場合,グリーンアクセシビリティの一形態に着目した場合でも,地域やサブグループ間での識別が不十分になる可能性が示唆された。 政策の観点から、これは一度にさまざまな指標を有機的に評価できる多次元フレームワークに切り替える必要があることを示している。

With the recent expansion of urban greening interventions, the definition of spatial indicators to measure the provision of urban greenery has become of pivotal importance in informing the policy-design process. By analyzing the stability of the population and area rankings induced by several indicators of green accessibility for over 1,000 cities worldwide, we investigate the extent to which the use of a single metric provides a reliable assessment of green accessibility in a city. The results suggest that, due to the complex interaction between the spatial distribution of greenspaces in an urban center and its population distribution, the use of a single indicator might lead to insufficient discrimination across areas or subgroups of the population, even when focusing on one form of green accessibility. From a policy perspective, this indicates the need to switch toward a multi-dimensional framework that is able to organically evaluate a range of indicators at once.
翻訳日:2023-08-11 12:39:23 公開日:2023-08-10
# 活動進捗予測の進展はあるか?

Is there progress in activity progress prediction? ( http://arxiv.org/abs/2308.05533v1 )

ライセンス: Link先を確認
Frans de Boer, Jan C. van Gemert, Jouke Dijkstra, Silvia L. Pintea(参考訳) アクティビティ進捗予測は、アクティビティのどのパーセンテージが完了したかを推定することを目的としている。 現在、これは機械学習のアプローチで行われ、複雑で現実的なビデオデータセットでトレーニングされ、評価されている。 これらのデータセットの動画は、長さと外観が大きく異なる。 そして、いくつかの活動は予期せぬ発展を遂げており、活動の進行を見積もるのは困難である。 本研究では,これらのデータセット上で既存の進捗予測手法によって得られた結果について検討する。 その結果,現在の進捗予測手法では,進捗予測タスクに有用な視覚情報を抽出できないことがわかった。 したがって、これらの手法は単純なフレームカウントベースラインを超えない。 我々は,アクティビティ進捗予測のための精密に制御されたデータセットを設計し,本合成データセット上では,提案手法が進捗予測と直接関係する場合に,視覚情報を利用することができることを示す。 我々は、現在使われている実世界のデータセットに進捗予測タスクが不適切であると結論づける。 さらに,アクティビティの進行を適切に測定するためには,シンプルで効果的なフレームカウントベースラインを検討することを勧める。

Activity progress prediction aims to estimate what percentage of an activity has been completed. Currently this is done with machine learning approaches, trained and evaluated on complicated and realistic video datasets. The videos in these datasets vary drastically in length and appearance. And some of the activities have unanticipated developments, making activity progression difficult to estimate. In this work, we examine the results obtained by existing progress prediction methods on these datasets. We find that current progress prediction methods seem not to extract useful visual information for the progress prediction task. Therefore, these methods fail to exceed simple frame-counting baselines. We design a precisely controlled dataset for activity progress prediction and on this synthetic dataset we show that the considered methods can make use of the visual information, when this directly relates to the progress prediction. We conclude that the progress prediction task is ill-posed on the currently used real-world datasets. Moreover, to fairly measure activity progression we advise to consider a, simple but effective, frame-counting baseline.
翻訳日:2023-08-11 12:39:01 公開日:2023-08-10
# クリティカルポイント++:ロバスト分類、敵防衛、説明可能なAIのためのアジャイルポイントクラウド重要度測定

Critical Points ++: An Agile Point Cloud Importance Measure for Robust Classification, Adversarial Defense and Explainable AI ( http://arxiv.org/abs/2308.05525v1 )

ライセンス: Link先を確認
Meir Yossef Levi, Guy Gilboa(参考訳) Out-Of-Distribution (OOD)サンプルの正確かつ迅速な対応能力は、現実世界の安全要求アプリケーションにおいて不可欠である。 本研究は,まず3次元点雲とOODサンプルの臨界点間の相互作用について検討する。 私たちの発見は、共通の腐敗や異常値がしばしば重要なポイントとして解釈されるということです。 臨界点の概念を重要度尺度に一般化する。 重要度の低い点のみに基づく分類ネットワークの訓練は,クリーンセットでの小さな性能損失を犠牲にして,ロバスト性が劇的に向上することを示す。 正規化エントロピーは腐敗分析に非常に有益である。 非臨界点の集合を選択するために正規化エントロピーに基づく適応しきい値を提案する。 提案する重要度は計算が極めて高速である。 説明可能なAI(XAI)、外乱除去、不確実性推定、ロバスト分類、敵防衛など、さまざまなアプリケーションで使用することができることを示す。 後者の2つのタスクのSOTA結果に到達する。

The ability to cope accurately and fast with Out-Of-Distribution (OOD) samples is crucial in real-world safety demanding applications. In this work we first study the interplay between critical points of 3D point clouds and OOD samples. Our findings are that common corruptions and outliers are often interpreted as critical points. We generalize the notion of critical points into importance measures. We show that training a classification network based only on less important points dramatically improves robustness, at a cost of minor performance loss on the clean set. We observe that normalized entropy is highly informative for corruption analysis. An adaptive threshold based on normalized entropy is suggested for selecting the set of uncritical points. Our proposed importance measure is extremely fast to compute. We show it can be used for a variety of applications, such as Explainable AI (XAI), Outlier Removal, Uncertainty Estimation, Robust Classification and Adversarial Defense. We reach SOTA results on the two latter tasks.
翻訳日:2023-08-11 12:38:49 公開日:2023-08-10
# 多次元単一光子時間-ビン重ね合わせの効率的な検出

Efficient detection of multidimensional single-photon time-bin superpositions ( http://arxiv.org/abs/2308.05523v1 )

ライセンス: Link先を確認
Adam Widomski, Maciej Ogrodnik, Micha{\l} Karpi\'nski(参考訳) 量子重ね合わせを検出する能力は、量子力学の基本的および応用的な側面の中心にある。 光の自由度は、ファイバーや集積プラットフォームと互換性のある多次元の方法で量子情報の符号化と伝送を可能にする。 しかし、時間周波数重畳を効率的に検出する能力はまだ得られていない。 ここでは, 時間分解光子検出器を用いて多次元時間ビン重ね合わせを検出する。 本手法は,オフ棚成分を用い,時間的タルボット効果を基礎としており,よく知られた近接場回折効果の時間周波数対応である。 本稿では,量子通信,量子情報処理,時間-周波数量子状態トモグラフィの応用について実験的に検討する。

The ability to detect quantum superpositions lies at the heart of fundamental and applied aspects of quantum mechanics. The time-frequency degree of freedom of light enables encoding and transmitting quantum information in a multi-dimensional fashion compatible with fiber and integrated platforms. However, the ability to efficiently detect time-frequency superpositions is not yet available. Here we show, that multidimensional time-bin superpositions can be detected using a single time-resolved photon detector. Our approach uses off-the shelf components and is based on the temporal Talbot effect -- a time-frequency counterpart of the well-know near field diffraction effect. We provide experimental results and discuss the possible applications in quantum communication, quantum information processing, and time-frequency quantum state tomography.
翻訳日:2023-08-11 12:38:32 公開日:2023-08-10
# モデル問題:一段階のレトロシンセシスが合成計画に及ぼす影響

Models Matter: The Impact of Single-Step Retrosynthesis on Synthesis Planning ( http://arxiv.org/abs/2308.05522v1 )

ライセンス: Link先を確認
Paula Torren-Peraire, Alan Kai Hassen, Samuel Genheden, Jonas Verhoeven, Djork-Arne Clevert, Mike Preuss, Igor Tetko(参考訳) 再合成は、化学化合物を段階的に分子前駆体に分解し、商業的に利用可能な分子の集合が合成経路を提供するために見つかるまでである。 化学反応論理をモデル化する1段階レトロシンセシス予測と、反応の正しい配列を見つけようとする多段階合成計画という2つの主要な研究方向は本質的に絡み合っている。 しかし、この関係は現代の研究には反映されていない。 本研究では、これらの2つの主要な研究方向を多段階合成計画に複数段階の逆合成モデルを適用し、パブリックおよびプロプライエタリな反応データを用いてそれらの影響を分析する。 高い単段性能と潜在的経路探索成功との切り離しを見いだし,今後の合成計画において単段モデルを評価する必要があることを示唆した。 さらに,この評価課題は,大規模で多様なデータセット上でのモデル性能やスケーラビリティを表わさないため,一般的な単段階回帰合成ベンチマークデータセットUSPTO-50kは不十分であることを示す。 多段階合成計画において,単一ステップモデルの選択は,一般的なベースラインモデルと比較して,最大28%の精度で合成計画全体の成功率を向上できることを示す。 最後に,各単段モデルが一意な合成経路を見いだし,経路探索の成功,発見された合成経路の数,化学有効性などの側面が異なることを示し,今後の手法開発において,単段逆合成予測と多段合成計画の組み合わせが重要な側面であることを示す。

Retrosynthesis consists of breaking down a chemical compound recursively step-by-step into molecular precursors until a set of commercially available molecules is found with the goal to provide a synthesis route. Its two primary research directions, single-step retrosynthesis prediction, which models the chemical reaction logic, and multi-step synthesis planning, which tries to find the correct sequence of reactions, are inherently intertwined. Still, this connection is not reflected in contemporary research. In this work, we combine these two major research directions by applying multiple single-step retrosynthesis models within multi-step synthesis planning and analyzing their impact using public and proprietary reaction data. We find a disconnection between high single-step performance and potential route-finding success, suggesting that single-step models must be evaluated within synthesis planning in the future. Furthermore, we show that the commonly used single-step retrosynthesis benchmark dataset USPTO-50k is insufficient as this evaluation task does not represent model performance and scalability on larger and more diverse datasets. For multi-step synthesis planning, we show that the choice of the single-step model can improve the overall success rate of synthesis planning by up to +28% compared to the commonly used baseline model. Finally, we show that each single-step model finds unique synthesis routes, and differs in aspects such as route-finding success, the number of found synthesis routes, and chemical validity, making the combination of single-step retrosynthesis prediction and multi-step synthesis planning a crucial aspect when developing future methods.
翻訳日:2023-08-11 12:38:22 公開日:2023-08-10
# モノヒドラ:IMUを用いた単眼カメラによるリアルタイム3次元シーングラフ構築

Mono-hydra: Real-time 3D scene graph construction from monocular camera input with IMU ( http://arxiv.org/abs/2308.05515v1 )

ライセンス: Link先を確認
U.V.B.L. Udugama, G. Vosselman, F. Nex(参考訳) ロボットが3D環境を自律的にナビゲートする能力は、低レベルの幾何学からオブジェクト、場所、建物といった高レベルの意味論まで、空間概念の理解に依存する。 このような理解を可能にするため、3Dシーングラフは環境を概念とその関連性の層グラフとして表現するための堅牢なツールとして登場した。 しかし、モノキュラビジョンシステムを用いたこれらの表現をリアルタイムに構築することは、まだ深く研究されていない難しい課題である。 本稿では,屋内シナリオに着目したモノクロカメラとIMUセンサーを組み合わせたリアルタイム空間認識システムMono-Hydraを提案する。 しかし、提案手法は屋外アプリケーションに適用可能であり、その潜在的な用途に柔軟性を提供する。 このシステムは、深度と意味を導き出すために、一連のディープラーニングアルゴリズムを使用している。 正方形ルート情報に基づくロボット中心型視覚慣性計測(VIO)アルゴリズムを用いて、IMUと単眼カメラとの整合性を確保する。 このシステムは,リアルタイム処理における20cm以下の誤差を15fpsで達成し,ラップトップGPU(NVIDIA 3080)を用いたリアルタイム3Dシーングラフ構築を実現する。 これにより、シンプルなカメラセットアップにおける意思決定効率と効率が向上し、ロボットシステムのアジリティが向上する。 https://github.com/UAV-Centre-ITC/Mono_HydraでMono-Hydraを公開しています。

The ability of robots to autonomously navigate through 3D environments depends on their comprehension of spatial concepts, ranging from low-level geometry to high-level semantics, such as objects, places, and buildings. To enable such comprehension, 3D scene graphs have emerged as a robust tool for representing the environment as a layered graph of concepts and their relationships. However, building these representations using monocular vision systems in real-time remains a difficult task that has not been explored in depth. This paper puts forth a real-time spatial perception system Mono-Hydra, combining a monocular camera and an IMU sensor setup, focusing on indoor scenarios. However, the proposed approach is adaptable to outdoor applications, offering flexibility in its potential uses. The system employs a suite of deep learning algorithms to derive depth and semantics. It uses a robocentric visual-inertial odometry (VIO) algorithm based on square-root information, thereby ensuring consistent visual odometry with an IMU and a monocular camera. This system achieves sub-20 cm error in real-time processing at 15 fps, enabling real-time 3D scene graph construction using a laptop GPU (NVIDIA 3080). This enhances decision-making efficiency and effectiveness in simple camera setups, augmenting robotic system agility. We make Mono-Hydra publicly available at: https://github.com/UAV-Centre-ITC/Mono_Hydra
翻訳日:2023-08-11 12:37:54 公開日:2023-08-10
# ニューラルネットワーク量子状態におけるrenyiエントロピーの測定

Measuring Renyi Entropy in Neural Network Quantum States ( http://arxiv.org/abs/2308.05513v1 )

ライセンス: Link先を確認
Han-Qing Shi and Hai-Qing Zhang(参考訳) 本稿では,ニューラルネットワーク法により構築された状態に作用するスワッピング演算子を用いて,一次元横場量子イジングモデルにおけるRenyiエントロピーを計算する。 静的基底状態では、レニイエントロピーは常磁性から強磁性への量子相転移の臨界点を明らかにすることができる。 臨界点において、レニイエントロピーとサブシステムサイズの関係は共形場理論からの予測を満たす。 力学の場合には、リニア・クエンチの終了後にレーニーエントロピーのコヒーレント振動が観測される。 これらの振動は、励起状態の重ね合わせから生じる普遍周波数を持つ。 レニイエントロピーの漸近形式は、臨界点から離れた新しい長さのスケールを意味する。 この長さスケールは、縮小されたレーニーエントロピーと無次元サブシステムサイズとの重なりによっても検証される。

We compute the Renyi entropy in a one-dimensional transverse-field quantum Ising model by employing a swapping operator acting on the states which are prepared from the neural network methods. In the static ground state, Renyi entropy can uncover the critical point of the quantum phase transition from paramagnetic to ferromagnetic. At the critical point, the relation between the Renyi entropy and the subsystem size satisfies the predictions from conformal field theory. In the dynamical case, we find coherent oscillations of the Renyi entropy after the end of the linear quench. These oscillations have universal frequencies which may come from the superpositions of excited states. The asymptotic form of the Renyi entropy implies a new length scale away from the critical point. This length scale is also verified by the overlap of the reduced Renyi entropy against the dimensionless subsystem size.
翻訳日:2023-08-11 12:37:30 公開日:2023-08-10
# 強結合ボゾン系における高速量子状態転移と絡み合い形成

Fast quantum state transfer and entanglement preparation in strongly coupled bosonic systems ( http://arxiv.org/abs/2308.05511v1 )

ライセンス: Link先を確認
Yilun Xu, Daoquan Zhu, Feng-Xiao Sun, Qiongyi He, Wei Zhang(参考訳) 線形ボゾン系における総励起の保存を保証する連続U(1)ゲージ対称性は、回転波近似(RWA)が失敗する強い結合状態において破られる。 本稿では, RWAを超えるXX型結合を持つ多モードボソニック系の解析解を開発し, 高速で高忠実度量子状態伝達(QST)と絡み込み準備(EP)を実装する新しい手法を提案する。 このスキームは、大域的u(1)対称性の崩壊にかかわらず励起数が変化しない所定の結合強度とパルス持続時間で実現できる。 QSTタスクでは、いくつかの典型的な量子状態を検討し、この手法が熱雑音や実験シーケンスの不完全性に対して堅牢であることを示す。 EPタスクでは、最短準備時間内にベル状態およびW型状態の準備のために、このスキームをうまく実施する。

Continuous U(1) gauge symmetry, which guarantees the conservation of the total excitations in linear bosonic systems, will be broken when it comes to the strong-coupling regime where the rotation wave approximation (RWA) fails. Here we develop analytic solutions for multi-mode bosonic systems with XX-type couplings beyond RWA, and proposed a novel scheme to implement high-fidelity quantum state transfer (QST) and entanglement preparation (EP) with high speed. The scheme can be realized with designated coupling strength and pulse duration with which the excitation number keeps unchanged regardless of the breakdown of the global U(1) symmetry. In the QST tasks, we consider several typical quantum states and demonstrate that this method is robust against thermal noise and imperfections of experimental sequence. In the EP tasks, the scheme is successfully implemented for the preparation of Bell states and W-type states, within a shortest preparation time.
翻訳日:2023-08-11 12:37:19 公開日:2023-08-10
# relu dnnの最適表現力とそのコルモゴロフ重ね合わせ定理による近似への応用について

On the Optimal Expressive Power of ReLU DNNs and Its Application in Approximation with Kolmogorov Superposition Theorem ( http://arxiv.org/abs/2308.05509v1 )

ライセンス: Link先を確認
Juncai He(参考訳) 本稿では,ReLU深部ニューラルネットワーク(DNN)の最適表現力とそのコルモゴロフ重畳定理による近似への応用について検討する。 O(N^2L)$セグメントからなる$[0,1]$上の任意の連続部分線型関数は、ReLU DNNで表され、層ごとに$L$の隠蔽層と$N$のニューロンを表現できる。 その後、この構成は、ReLU DNNの破砕能力を調べることで達成されたDNNのパラメータ数に対して最適であることを示す。 さらに、コルモゴロフ重畳定理を導出することにより、高次元空間における連続関数を扱う場合の任意の幅と深さのReLU DNNの近似率を向上する。

This paper is devoted to studying the optimal expressive power of ReLU deep neural networks (DNNs) and its application in approximation via the Kolmogorov Superposition Theorem. We first constructively prove that any continuous piecewise linear functions on $[0,1]$, comprising $O(N^2L)$ segments, can be represented by ReLU DNNs with $L$ hidden layers and $N$ neurons per layer. Subsequently, we demonstrate that this construction is optimal regarding the parameter count of the DNNs, achieved through investigating the shattering capacity of ReLU DNNs. Moreover, by invoking the Kolmogorov Superposition Theorem, we achieve an enhanced approximation rate for ReLU DNNs of arbitrary width and depth when dealing with continuous functions in high-dimensional spaces.
翻訳日:2023-08-11 12:37:03 公開日:2023-08-10
# 埋め込みディスタングとドメインアライメントを用いたマルチドメインレコメンデーション

Multi-domain Recommendation with Embedding Disentangling and Domain Alignment ( http://arxiv.org/abs/2308.05508v1 )

ライセンス: Link先を確認
Wentao Ning, Xiao Yan, Weiwen Liu, Reynold Cheng, Rui Zhang and Bo Tang(参考訳) マルチドメインレコメンデーション(MDR)は、複数のドメイン(製品の種類など)に対して、重複するユーザ/イテムを持つレコメンデーションを提供することを目的としており、複数のサービスをホストするAmazon、Facebook、LinkedInなどのプラットフォームに共通している。 既存のMDRモデルは2つの課題に直面している: まず、ドメインをまたいで一般化する知識(例えば、ユーザが安価なアイテムを好む)と単一のドメイン固有の知識(例えば、ユーザが青い服を好むが、青い車ではない)を分離することは困難である。 第二に、ドメイン間の知識を小さな重複で伝達する能力に制限がある。 そこで本稿では, EDDA という2つのキーコンポーネント,すなわちドメインアライメントを組み込んだ新しい MDR 手法を提案する。 特に、埋め込みディエンタングリングレコメンダはドメイン間部分とドメイン内部分の両方のモデルと埋め込みを分離するが、既存のMDRメソッドのほとんどはモデルレベルのディエンタングリングにのみフォーカスする。 ドメインアライメントは、グラフ処理からのランダムなウォークを活用して、異なるドメインから類似のユーザ/アイテムペアを特定し、類似のユーザ/アイテムペアに類似の埋め込みを持たせ、知識転送を強化する。 EDDAと12の最先端のベースラインを3つの実データセットで比較する。 その結果、EDDAはすべてのデータセットやドメインのベースラインを一貫して上回ります。 すべてのデータセットとコードは、https://github.com/stevenn9981/eddaで入手できる。

Multi-domain recommendation (MDR) aims to provide recommendations for different domains (e.g., types of products) with overlapping users/items and is common for platforms such as Amazon, Facebook, and LinkedIn that host multiple services. Existing MDR models face two challenges: First, it is difficult to disentangle knowledge that generalizes across domains (e.g., a user likes cheap items) and knowledge specific to a single domain (e.g., a user likes blue clothing but not blue cars). Second, they have limited ability to transfer knowledge across domains with small overlaps. We propose a new MDR method named EDDA with two key components, i.e., embedding disentangling recommender and domain alignment, to tackle the two challenges respectively. In particular, the embedding disentangling recommender separates both the model and embedding for the inter-domain part and the intra-domain part, while most existing MDR methods only focus on model-level disentangling. The domain alignment leverages random walks from graph processing to identify similar user/item pairs from different domains and encourages similar user/item pairs to have similar embeddings, enhancing knowledge transfer. We compare EDDA with 12 state-of-the-art baselines on 3 real datasets. The results show that EDDA consistently outperforms the baselines on all datasets and domains. All datasets and codes are available at https://github.com/Stevenn9981/EDDA.
翻訳日:2023-08-11 12:36:42 公開日:2023-08-10
# C5: ChatGPTの会話理解とコンテキスト継続性の改善を目指して

C5: Towards Better Conversation Comprehension and Contextual Continuity for ChatGPT ( http://arxiv.org/abs/2308.05567v1 )

ライセンス: Link先を確認
Pan Liang, Danwei Ye, Zihao Zhu, Yunchao Wang, Wang Xia, Ronghua Liang, and Guodao Sun(参考訳) ChatGPTのような大規模言語モデル(LLM)は、特に自然言語理解や生成タスクにおいて、様々な分野で優れたパフォーマンスを示している。 複雑なアプリケーションシナリオでは、ユーザはChatGPTとマルチターン会話を行い、コンテキスト情報を保持し、包括的な応答を得る傾向があります。 しかし,ChatGPTの会話理解とコンテキスト継続性に挑戦するマルチターン会話シナリオでは,人間の忘れと文脈的忘れのモデルが問題となっている。 これらの課題に対処するために,グローバルビュー,トピックビュー,コンテキスト関連Q\&Aビューを含む対話型会話可視化システムC5を提案する。 グローバルビューは、会話構造を表現するのにgitlogダイアグラムのメタファを使用し、会話の進化のトレンドを示し、ローカルにサルエントな機能の探索をサポートする。 トピックビューは、知識グラフの構造を用いてトピック内のすべての質問と回答ノードとその関係を表示し、会話の関連性と進化を表示するように設計されている。 コンテキスト関連Q\&Aビューは3つのリンクされたビューで構成されており、ユーザーは質問を行う際に特定のコンテキスト情報を提供しながら、個々の会話を深く探索することができる。 C5の有用性と有効性は,ケーススタディとユーザスタディを通じて評価した。

Large language models (LLMs), such as ChatGPT, have demonstrated outstanding performance in various fields, particularly in natural language understanding and generation tasks. In complex application scenarios, users tend to engage in multi-turn conversations with ChatGPT to keep contextual information and obtain comprehensive responses. However, human forgetting and model contextual forgetting remain prominent issues in multi-turn conversation scenarios, which challenge the users' conversation comprehension and contextual continuity for ChatGPT. To address these challenges, we propose an interactive conversation visualization system called C5, which includes Global View, Topic View, and Context-associated Q\&A View. The Global View uses the GitLog diagram metaphor to represent the conversation structure, presenting the trend of conversation evolution and supporting the exploration of locally salient features. The Topic View is designed to display all the question and answer nodes and their relationships within a topic using the structure of a knowledge graph, thereby display the relevance and evolution of conversations. The Context-associated Q\&A View consists of three linked views, which allow users to explore individual conversations deeply while providing specific contextual information when posing questions. The usefulness and effectiveness of C5 were evaluated through a case study and a user study.
翻訳日:2023-08-11 12:30:51 公開日:2023-08-10
# AutoGluon-TimeSeries:確率的時系列予測のためのAutoML

AutoGluon-TimeSeries: AutoML for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2308.05566v1 )

ライセンス: Link先を確認
Oleksandr Shchur, Caner Turkmen, Nick Erickson, Huibin Shen, Alexander Shirkov, Tony Hu, Yuyang Wang(参考訳) 確率的時系列予測のためのオープンソースのAutoMLライブラリであるAutoGluon-TimeSeriesを紹介する。 使いやすさと堅牢性を重視したAutoGluon-TimeSeriesでは,Pythonコードのたった3行で,正確なポイントと定量予測を生成することができる。 AutoGluonの設計哲学に基づいて構築されたAutoGluon-TimeSeriesは、さまざまな予測モデルのアンサンブルを活用して、短時間のトレーニング時間内に高い精度を提供する。 AutoGluon-TimeSeriesは、従来の統計モデル、機械学習ベースの予測アプローチ、およびアンサンブルテクニックを組み合わせたものだ。 29のベンチマークデータセットに対する評価では、AutoGluon-TimeSeriesは強力な経験的性能を示し、点数と定量値の両方の予測精度において、様々な予測手法を上回り、多くの場合、先行手法の最も目に見える組み合わせを改善する。

We introduce AutoGluon-TimeSeries - an open-source AutoML library for probabilistic time series forecasting. Focused on ease of use and robustness, AutoGluon-TimeSeries enables users to generate accurate point and quantile forecasts with just 3 lines of Python code. Built on the design philosophy of AutoGluon, AutoGluon-TimeSeries leverages ensembles of diverse forecasting models to deliver high accuracy within a short training time. AutoGluon-TimeSeries combines both conventional statistical models, machine-learning based forecasting approaches, and ensembling techniques. In our evaluation on 29 benchmark datasets, AutoGluon-TimeSeries demonstrates strong empirical performance, outperforming a range of forecasting methods in terms of both point and quantile forecast accuracy, and often even improving upon the best-in-hindsight combination of prior methods.
翻訳日:2023-08-11 12:30:29 公開日:2023-08-10
# 大歪tコプラの効率的な変分推論と日内株式リターンへの応用

Efficient Variational Inference for Large Skew-t Copulas with Application to Intraday Equity Returns ( http://arxiv.org/abs/2308.05564v1 )

ライセンス: Link先を確認
Lin Deng, Michael Stanley Smith, Worapree Maneesoonthorn(参考訳) 大きなスキュー-t因子コプラモデルは、非対称かつ極端なテール依存を可能にするため、金融データのモデリングに魅力的である。 Azzalini と Capitanio (2003) の skew-t 分布に暗黙的に表されるコプラは、2つの一般的な代替スキュー-t コプラよりも高レベルな対非対称依存を可能にすることを示す。 高次元でのこのコプラの推定は困難であり、高速かつ正確なベイズ変分推論(VI)手法を提案する。 この方法は、スキュート分布の条件付きガウス生成表現を用いて、正確に近似できる拡張後部を定義する。 変分最適化の解法として,高速確率勾配上昇アルゴリズムを用いる。 この新しい手法は、米国93株の2017年から2021年までの日内リターンのコプラモデルの推定に使われる。 コプラは、対相関のばらつきに加えて、エクイティ対に対する非対称依存におけるかなりの不均一性を捉えている。 その結果,スキュート・t・コピュラの日内予測密度は他のコピュラモデルよりも正確であり,一方,推定されたペアワイズ・テール依存性に基づくポートフォリオ選択戦略はベンチマーク指標と比較してパフォーマンスが向上することが示された。

Large skew-t factor copula models are attractive for the modeling of financial data because they allow for asymmetric and extreme tail dependence. We show that the copula implicit in the skew-t distribution of Azzalini and Capitanio (2003) allows for a higher level of pairwise asymmetric dependence than two popular alternative skew-t copulas. Estimation of this copula in high dimensions is challenging, and we propose a fast and accurate Bayesian variational inference (VI) approach to do so. The method uses a conditionally Gaussian generative representation of the skew-t distribution to define an augmented posterior that can be approximated accurately. A fast stochastic gradient ascent algorithm is used to solve the variational optimization. The new methodology is used to estimate copula models for intraday returns from 2017 to 2021 on 93 U.S. equities. The copula captures substantial heterogeneity in asymmetric dependence over equity pairs, in addition to the variability in pairwise correlations. We show that intraday predictive densities from the skew-t copula are more accurate than from some other copula models, while portfolio selection strategies based on the estimated pairwise tail dependencies improve performance relative to the benchmark index.
翻訳日:2023-08-11 12:30:12 公開日:2023-08-10
# ディープフェイク検出分野における最近の進歩

Recent Advancements In The Field Of Deepfake Detection ( http://arxiv.org/abs/2308.05563v1 )

ライセンス: Link先を確認
Natalie Krueger, Dr. Mounika Vanamala, Dr. Rushit Dave(参考訳) ディープフェイク(deepfake)は、画像がデジタル的に変更されたり、別の人物の画像に一部置き換えられたりした人物の写真またはビデオである。 ディープフェイクは様々な問題を引き起こす可能性があり、しばしば悪質に使用される。 一般的な使用法は、著名な政治家や有名人のビデオを変更することである。 これらのディープフェイクは、攻撃的、問題のある、あるいは真実でない言明を表現できる。 現在のディープフェイクは非常に現実的であり、このような方法で使うとパニックが広がり、選挙や政治的意見に影響を与えます。 現在使用されているディープフェイク検出戦略は数多く存在するが、最も包括的で普遍的な方法を見つけることは重要である。 そこで本調査では,悪意のあるディープフェイク生成の問題と,ユニバーサルディープフェイク検出方法の欠如に対処する。 本研究の目的は,ディープフェイク検出の分野での様々な手法と進歩を調査し,分析することである。

A deepfake is a photo or video of a person whose image has been digitally altered or partially replaced with an image of someone else. Deepfakes have the potential to cause a variety of problems and are often used maliciously. A common usage is altering videos of prominent political figures and celebrities. These deepfakes can portray them making offensive, problematic, and/or untrue statements. Current deepfakes can be very realistic, and when used in this way, can spread panic and even influence elections and political opinions. There are many deepfake detection strategies currently in use but finding the most comprehensive and universal method is critical. So, in this survey we will address the problems of malicious deepfake creation and the lack of universal deepfake detection methods. Our objective is to survey and analyze a variety of current methods and advances in the field of deepfake detection.
翻訳日:2023-08-11 12:29:50 公開日:2023-08-10
# 環状トラップにおける超流動偏光量子ビット

Superfluid Polaritonic Qubit in an Annular Trap ( http://arxiv.org/abs/2308.05555v1 )

ライセンス: Link先を確認
J. Barrat, A. F. Tzortzakakis, M. Niu, X. Zhou, G.G. Paschos, D. Petrosyan, P.G. Savvidis(参考訳) 本稿では,エキシトン・ポーラリトン量子ビットプロトタイプの試作と特性評価について報告する。 本システムでは, 半導体エキシトン-ポラリトンからなるボース・アインシュタイン凝縮体を, ポラリトン超流動のエネルギー縮退循環電流を支える環状トラップ内に空間パターンのポンプレーザで閉じ込める。 非侵襲的時間的干渉測定を用いて,レーザー印加電位からの弾性散乱に結合した偏光子対流超流動渦状態間のコヒーレント振動を観測した。 クビット基底状態は、直交双曲空間波動関数を形成する2つの渦状態の対称的および反対称的重ね合わせに対応する。 ポテンシャルをエンジニアリングすることで、2つの循環電流状態間の結合とコヒーレント振動を調整し、キュービット基底状態のエネルギーを制御し、クォービットを所望の状態に初期化する。 システムのダイナミクスは理論的な2状態モデルによって正確に再現され、ポーラリトニック量子ビットを完全に制御し、そのような量子ビット間の制御可能な相互作用と量子ゲートを実装するための潜在的な道筋について論じる。

We report on the experimental realization and characterization of an exciton-polariton qubit prototype. In our system, a Bose-Einstein condensate of semiconductor exciton-polaritons is confined by a spatially-patterned pump laser in an annular trap that supports energy-degenerate circulating currents of the polariton superfluid. Using non-invasive temporal interference measurements, we observe coherent oscillations between a pair of counter-circulating superfluid vortex states of the polaritons coupled by elastic scattering off the laser-imprinted potential. The qubit basis states correspond to the symmetric and antisymmetric superpositions of the two vortex states forming orthogonal double-lobe spatial wavefunctions. By engineering the potential, we tune the coupling and coherent oscillations between the two circulating current states, control the energies of the qubit basis states and thereby initialize the qubit in the desired state. The dynamics of the system is accurately reproduced by our theoretical two-state model, and we discuss potential avenues to achieve complete control over our polaritonic qubit and implement controllable interactions and quantum gates between such qubits.
翻訳日:2023-08-11 12:29:36 公開日:2023-08-10
# リッチコンテンツEコマースのためのクロスドメイン製品表現学習

Cross-Domain Product Representation Learning for Rich-Content E-Commerce ( http://arxiv.org/abs/2308.05550v1 )

ライセンス: Link先を確認
Xuehan Bai, Yan Li, Yanhua Cheng, Wenjie Yang, Quan Chen, Han Li(参考訳) ショートビデオやライブストリーミングプラットフォームの普及は、消費者のオンラインショッピングへの取り組みに革命をもたらした。 消費者は商品ページを閲覧する代わりに、リッチコンテンツのeコマースに目を向け、短いビデオやライブストリームのようなダイナミックでインタラクティブなメディアを通じて商品を購入することができる。 このオンラインショッピングの新しい形態は、様々なメディアドメインで異なる商品が提示される可能性があるため、技術的な課題をもたらしている。 したがって、統一された製品表現は、最適なユーザ検索体験と効果的な製品推奨を確保するために、クロスドメイン製品認識を達成するために不可欠である。 クロスドメインな製品表現の緊急な産業的ニーズにもかかわらず、以前の研究では、ショートビデオやライブストリームを考慮せずに、製品ページのみに重点を置いてきた。 本稿では,リッチコンテンツeコマースのギャップを埋めるために,ROPEと呼ばれる大規模cRoss-dOmain製品認識データセットを提案する。 ROPEは幅広い製品カテゴリーをカバーし、数百万のショートビデオとライブストリームに対応する180,000以上の製品を含んでいる。 プロダクトページ、ショートビデオ、ライブストリームを同時にカバーする最初のデータセットであり、異なるメディアドメイン間で統一された製品表現を確立する基盤を提供する。 さらに,テキストや視覚を含むマルチモーダル学習を通じて,異なる領域における製品表現を統一するクロスdOmain Product rEpresentation framework,すなわちCOPEを提案する。 下流タスクに関する大規模な実験は、すべての製品ドメインで共同機能空間を学習する際のCOPEの有効性を示す。

The proliferation of short video and live-streaming platforms has revolutionized how consumers engage in online shopping. Instead of browsing product pages, consumers are now turning to rich-content e-commerce, where they can purchase products through dynamic and interactive media like short videos and live streams. This emerging form of online shopping has introduced technical challenges, as products may be presented differently across various media domains. Therefore, a unified product representation is essential for achieving cross-domain product recognition to ensure an optimal user search experience and effective product recommendations. Despite the urgent industrial need for a unified cross-domain product representation, previous studies have predominantly focused only on product pages without taking into account short videos and live streams. To fill the gap in the rich-content e-commerce area, in this paper, we introduce a large-scale cRoss-dOmain Product Ecognition dataset, called ROPE. ROPE covers a wide range of product categories and contains over 180,000 products, corresponding to millions of short videos and live streams. It is the first dataset to cover product pages, short videos, and live streams simultaneously, providing the basis for establishing a unified product representation across different media domains. Furthermore, we propose a Cross-dOmain Product rEpresentation framework, namely COPE, which unifies product representations in different domains through multimodal learning including text and vision. Extensive experiments on downstream tasks demonstrate the effectiveness of COPE in learning a joint feature space for all product domains.
翻訳日:2023-08-11 12:29:18 公開日:2023-08-10
# 分散最適化による学習

Learning (With) Distributed Optimization ( http://arxiv.org/abs/2308.05548v1 )

ライセンス: Link先を確認
Aadharsh Aadhithya A, Abinesh S, Akshaya J, Jayanth M, Vishnu Radhakrishnan, Sowmya V, Soman K.P(参考訳) 本稿では,1960年代にDantzig, Wolfe, Bendersによって開発された初期の双対性に基づく手法から,Augmented Lagrangian Alternating Direction Inexact Newton (ALADIN)アルゴリズムの出現まで,分散最適化手法の歴史的進歩を概説する。 凸問題と分解戦略に対するラグランジュ緩和に最初に焦点が当てられたことは、乗算器の交互方向法(ADMM)のような手法の洗練につながった。 2000年代後半の分散最適化、特に機械学習とイメージングにおける関心の復活は、ADMMの実用的有効性とその統一可能性を示した。 この概要はまた、近位中心法とその多様な領域への応用の出現を強調している。 さらに本論文は,非凸シナリオに対して補助変数を導入することなく収束保証を提供し,従来の拡張手法と区別するaladinの特徴を強調する。 本研究は,分散最適化の歴史的軌跡を要約し,非凸最適化問題に対処する上でのALADINの期待を裏付けるものである。

This paper provides an overview of the historical progression of distributed optimization techniques, tracing their development from early duality-based methods pioneered by Dantzig, Wolfe, and Benders in the 1960s to the emergence of the Augmented Lagrangian Alternating Direction Inexact Newton (ALADIN) algorithm. The initial focus on Lagrangian relaxation for convex problems and decomposition strategies led to the refinement of methods like the Alternating Direction Method of Multipliers (ADMM). The resurgence of interest in distributed optimization in the late 2000s, particularly in machine learning and imaging, demonstrated ADMM's practical efficacy and its unifying potential. This overview also highlights the emergence of the proximal center method and its applications in diverse domains. Furthermore, the paper underscores the distinctive features of ALADIN, which offers convergence guarantees for non-convex scenarios without introducing auxiliary variables, differentiating it from traditional augmentation techniques. In essence, this work encapsulates the historical trajectory of distributed optimization and underscores the promising prospects of ALADIN in addressing non-convex optimization challenges.
翻訳日:2023-08-11 12:28:52 公開日:2023-08-10
# 予測経路積分制御によるAUVオートノミーの強化

Enhancing AUV Autonomy With Model Predictive Path Integral Control ( http://arxiv.org/abs/2308.05547v1 )

ライセンス: Link先を確認
Pierre Nicolay, Yvan Petillot, Mykhaylo Marfeychuk, Sen Wang, Ignacio Carlucho(参考訳) 自律型水中車両(AUV)は、海洋環境の調査、水中検査、海洋探査において重要な役割を担っている。 しかし、AUVがその任務を成功させるためには、環境条件の変化に適応できる制御システムが必要である。 さらに、ロボットプラットフォームの安全な動作を保証するため、オンボードコントローラは一定の制約の下で動作可能である必要がある。 本研究では,AUV制御のためのモデル予測経路積分制御(MPPI)の実現可能性について検討する。 我々はAUVの非線形モデルを用いてMPPIのサンプルを伝搬し、リアルタイムで制御動作を計算する。 本稿では,MPPIコントローラの性能に及ぼす主パラメータの影響を詳細に評価する。 さらに,提案手法の性能を古典的PIDおよびカスケードPIDアプローチと比較し,提案手法の優位性を実証した。 最後に,環境制約を付加する結果を示し,その制約をコスト関数に組み込むことでMPPIがそれらをどう扱えるかを示す。

Autonomous underwater vehicles (AUVs) play a crucial role in surveying marine environments, carrying out underwater inspection tasks, and ocean exploration. However, in order to ensure that the AUV is able to carry out its mission successfully, a control system capable of adapting to changing environmental conditions is required. Furthermore, to ensure the robotic platform's safe operation, the onboard controller should be able to operate under certain constraints. In this work, we investigate the feasibility of Model Predictive Path Integral Control (MPPI) for the control of an AUV. We utilise a non-linear model of the AUV to propagate the samples of the MPPI, which allow us to compute the control action in real time. We provide a detailed evaluation of the effect of the main hyperparameters on the performance of the MPPI controller. Furthermore, we compared the performance of the proposed method with a classical PID and Cascade PID approach, demonstrating the superiority of our proposed controller. Finally, we present results where environmental constraints are added and show how MPPI can handle them by simply incorporating those constraints in the cost function.
翻訳日:2023-08-11 12:28:30 公開日:2023-08-10
# 低光像分解のためのDeep Richardson-Lucyデコンボリューション

Deep Richardson-Lucy Deconvolution for Low-Light Image Deblurring ( http://arxiv.org/abs/2308.05543v1 )

ライセンス: Link先を確認
Liang Chen, Jiawei Zhang, Zhenhua Li, Yunxuan Wei, Faming Fang, Jimmy Ren, and Jinshan Pan(参考訳) 低照度条件下で撮影された画像は、しばしばぼやけや飽和画素を同時に含む。 飽和ピクセルで画像を色付けするのは非常に難しい。 ダイナミックレンジが限られているため、飽和画素は通常撮像プロセスでクリップされるため、線形ボケモデルではモデル化できない。 従来は手動で設計したスムーズな関数を使ってクリッピング手順を近似していた。 分離プロセスには経験的に定義されたパラメータが必要であり、異なる画像の最適選択ではない可能性がある。 本稿では,飽和画素を学習潜時マップでモデル化するためのデータ駆動型アプローチを開発する。 この新しいモデルに基づき、非ブリンドデブラリングタスクを最大後方(地図)問題に定式化することができ、潜在地図と潜在画像を繰り返し計算することで効果的に解決することができる。 具体的には、地図推定ネットワーク(MEN)から学習して潜時マップを計算し、リチャードソン・ルーシー(RL)ベースの更新方式により潜時画像推定処理を行う。 増幅されたアーティファクトを伴わずに高品質なデブラレーション画像を推定するために,先行推定ネットワーク(pen)を開発し,rlスキームにさらに統合した事前情報を得る。 実験の結果,本手法は合成画像と実世界画像の両方において,定量的かつ定性的に最先端アルゴリズムに対して好適な効果を示すことがわかった。

Images taken under the low-light condition often contain blur and saturated pixels at the same time. Deblurring images with saturated pixels is quite challenging. Because of the limited dynamic range, the saturated pixels are usually clipped in the imaging process and thus cannot be modeled by the linear blur model. Previous methods use manually designed smooth functions to approximate the clipping procedure. Their deblurring processes often require empirically defined parameters, which may not be the optimal choices for different images. In this paper, we develop a data-driven approach to model the saturated pixels by a learned latent map. Based on the new model, the non-blind deblurring task can be formulated into a maximum a posterior (MAP) problem, which can be effectively solved by iteratively computing the latent map and the latent image. Specifically, the latent map is computed by learning from a map estimation network (MEN), and the latent image estimation process is implemented by a Richardson-Lucy (RL)-based updating scheme. To estimate high-quality deblurred images without amplified artifacts, we develop a prior estimation network (PEN) to obtain prior information, which is further integrated into the RL scheme. Experimental results demonstrate that the proposed method performs favorably against state-of-the-art algorithms both quantitatively and qualitatively on synthetic and real-world images.
翻訳日:2023-08-11 12:28:14 公開日:2023-08-10
# マルチラベル長期学習におけるロバスト非対称損失

Robust Asymmetric Loss for Multi-Label Long-Tailed Learning ( http://arxiv.org/abs/2308.05542v1 )

ライセンス: Link先を確認
Wongi Park, Inhyuk Park, Sungeun Kim, Jongbin Ryu(参考訳) 実際の医療データでは、トレーニングサンプルは通常、複数のラベルを持つロングテール分布を示す。 医療データの類型分布は、異なる疾患の発生頻度がかなり異なるロングテール形状であり、同時に、症状を有する患者から採取された画像が多彩な疾患であることも珍しくない。 そこで本稿では,多項式関数にロバストな非対称損失を課すことにより,これら2つの問題を同時に解決する。 我々の損失はロングテールとマルチラベルの2つの分類問題を同時に取り扱うため、多数のハイパーパラメータを持つ損失関数の複雑な設計に繋がる。 モデルは多数のハイパーパラメーターのために高度に微調整することができるが、全てのハイパーパラメーターを同時に最適化することは困難であり、モデルに過度に適合するリスクがある。 したがって,ヒル損失法を用いて損失関数を定式化することで,過度な過パラメータに対する感度を低下させることで,モデルへの過剰フィットのリスクを低減できる。 この理由から,提案手法は医用画像分類タスクに適用できる汎用的手法であり,訓練に要する時間を短縮するものではない。 提案するロバストな非対称損失は,様々な長尾単葉データセットに加えて,長尾の医用画像分類に対して好適に作用することを示す。 特に,ICCV CVAMD 2023コンペティションのCXR-LTデータセットのTop-5結果を得た。 公開リポジトリにおけるロバストな非対称な損失の実装をオープンソースにしています。

In real medical data, training samples typically show long-tailed distributions with multiple labels. Class distribution of the medical data has a long-tailed shape, in which the incidence of different diseases is quite varied, and at the same time, it is not unusual for images taken from symptomatic patients to be multi-label diseases. Therefore, in this paper, we concurrently address these two issues by putting forth a robust asymmetric loss on the polynomial function. Since our loss tackles both long-tailed and multi-label classification problems simultaneously, it leads to a complex design of the loss function with a large number of hyper-parameters. Although a model can be highly fine-tuned due to a large number of hyper-parameters, it is difficult to optimize all hyper-parameters at the same time, and there might be a risk of overfitting a model. Therefore, we regularize the loss function using the Hill loss approach, which is beneficial to be less sensitive against the numerous hyper-parameters so that it reduces the risk of overfitting the model. For this reason, the proposed loss is a generic method that can be applied to most medical image classification tasks and does not make the training process more time-consuming. We demonstrate that the proposed robust asymmetric loss performs favorably against the long-tailed with multi-label medical image classification in addition to the various long-tailed single-label datasets. Notably, our method achieves Top-5 results on the CXR-LT dataset of the ICCV CVAMD 2023 competition. We opensource our implementation of the robust asymmetric loss in the public repository: https://github.com/kalelpark/RAL.
翻訳日:2023-08-11 12:27:50 公開日:2023-08-10
# 一度だけプロンプトする: 有害なコンテンツに取り組むために、大きな言語モデルで素早く学習する能力について

You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content ( http://arxiv.org/abs/2308.05596v1 )

ライセンス: Link先を確認
Xinlei He and Savvas Zannettou and Yun Shen and Yang Zhang(参考訳) オンライン上の有害コンテンツの拡散は、オンラインおよび社会全体においてユーザエクスペリエンスに悪影響を及ぼす重要な問題である。 問題の重要性と影響に動機づけられた研究は、有毒なコンテンツを検出するソリューションの開発に重点を置いており、通常は人間の注釈付きデータセットに基づいてトレーニングされた機械学習(ML)モデルを活用する。 これらの試みは重要であるが、これらのモデルは一般的には一般化せず、新しい傾向(例えば新しい有毒な用語の出現)に対処できない。 GPT-3やT5のような巨大な言語モデル(LLM)を活用して、大規模なコーパスでトレーニングし、強力な一般化性を実現しています。 本研究では,LSMを用いて有害なコンテンツ,特に3つの課題に焦点をあてる学習を迅速に行う方法について検討する。 1)毒性分類 2)毒性スパン検出、及び 3)解毒。 5つのモデルアーキテクチャと8つのデータセットについて広範な評価を行い、これらの特定のタスクでトレーニングされたモデルと比較して、迅速な学習を伴うllmが同等あるいはそれ以上のパフォーマンスを達成できることを実証した。 プロンプト・ラーニングは毒性分類タスクをベースラインと比較して約10-%改善するが、毒性スパン検出タスクでは最高のベースライン($f_1$-scoreで0.643対0.640)のパフォーマンスが向上する。 最後に, 解毒作業において, 素早い学習が意味を保ちながら, 平均毒性スコア(0.775から0.213)を下げることができた。

The spread of toxic content online is an important problem that has adverse effects on user experience online and in our society at large. Motivated by the importance and impact of the problem, research focuses on developing solutions to detect toxic content, usually leveraging machine learning (ML) models trained on human-annotated datasets. While these efforts are important, these models usually do not generalize well and they can not cope with new trends (e.g., the emergence of new toxic terms). Currently, we are witnessing a shift in the approach to tackling societal issues online, particularly leveraging large language models (LLMs) like GPT-3 or T5 that are trained on vast corpora and have strong generalizability. In this work, we investigate how we can use LLMs and prompt learning to tackle the problem of toxic content, particularly focusing on three tasks; 1) Toxicity Classification, 2) Toxic Span Detection, and 3) Detoxification. We perform an extensive evaluation over five model architectures and eight datasets demonstrating that LLMs with prompt learning can achieve similar or even better performance compared to models trained on these specific tasks. We find that prompt learning achieves around 10\% improvement in the toxicity classification task compared to the baselines, while for the toxic span detection task we find better performance to the best baseline (0.643 vs. 0.640 in terms of $F_1$-score). Finally, for the detoxification task, we find that prompt learning can successfully reduce the average toxicity score (from 0.775 to 0.213) while preserving semantic meaning.
翻訳日:2023-08-11 12:20:25 公開日:2023-08-10
# ロバストな皮膚病変解析のためのテストタイム選択

Test-Time Selection for Robust Skin Lesion Analysis ( http://arxiv.org/abs/2308.05595v1 )

ライセンス: Link先を確認
Alceu Bissoto, Catarina Barata, Eduardo Valle, Sandra Avila(参考訳) 皮膚病変解析モデルは、画像取得時に置かれるアーティファクトによってバイアスを受けており、臨床情報を持たないにもかかわらず、モデル予測に影響を与える。 既存のテスト時間デバイアス技術は、テストデータの分布に非現実的な仮定をするか、医療従事者からの厳しいアノテーションを必要とするかのどちらかのため、皮膚病変解析には不適切である。 実験試料中の陽性(病変領域)と陰性(アーティファクトなど)のキーポイントを活用する,ループ内人間によるtts(test-time selection)を提案する。 TTSは、再トレーニングすることなく、アノテーションの要求が少なく、スプリケートなアーティファクト関連の相関を利用してモデルを効果的に回避する。 私たちのソリューションは、さまざまなアノテーションの可用性、さまざまなレベルのバイアスに対して堅牢です。 私たちはISIC2019データセット(注釈付き画像のサブセットをリリースする)で、私たちのモデルを現実世界にデプロイしてバイアスを軽減する方法を紹介します。

Skin lesion analysis models are biased by artifacts placed during image acquisition, which influence model predictions despite carrying no clinical information. Solutions that address this problem by regularizing models to prevent learning those spurious features achieve only partial success, and existing test-time debiasing techniques are inappropriate for skin lesion analysis due to either making unrealistic assumptions on the distribution of test data or requiring laborious annotation from medical practitioners. We propose TTS (Test-Time Selection), a human-in-the-loop method that leverages positive (e.g., lesion area) and negative (e.g., artifacts) keypoints in test samples. TTS effectively steers models away from exploiting spurious artifact-related correlations without retraining, and with less annotation requirements. Our solution is robust to a varying availability of annotations, and different levels of bias. We showcase on the ISIC2019 dataset (for which we release a subset of annotated images) how our model could be deployed in the real-world for mitigating bias.
翻訳日:2023-08-11 12:19:52 公開日:2023-08-10
# 原子誘導電位を含むホットビーム超放射光レーザーの閾値研究

Threshold studies for a hot beam superradiant laser including an atomic guiding potential ( http://arxiv.org/abs/2308.05594v1 )

ライセンス: Link先を確認
Martin Fasser, Christoph Hotter, David Plankensteiner, Helmut Ritsch(参考訳) 最近の理論予測は、高密度でフィルタされた熱線を用いて、狭い光時計遷移に基づく超ラジアントレーザーの実装を示唆している。 対応する数値研究は奨励的な結果を与えるが、必要な非常に高い密度はビームコリメーション誤差と不均質なシフトに敏感である。 本稿では, 空洞軸に沿った実粒子数と速度を含む超ラジアントレーザーのしきい値条件と予測出力パワーに関する広範囲な数値研究を行う。 詳細な研究は、温度の関数としてのしきい値スケーリングと、速度フィルタリングによる原子分布の最も熱い部分の除去および追加の原子ビーム誘導の利点の影響を目標としている。 累積展開法を用いることで、このような構成における原子-原子相関と原子-場相関の意義を定量化することができる。 我々は原子温度と密度に依存する閾値光子数を達成するために必要な条件を予測する。 特に,より多くの原子を用いて温度閾値を著しく上昇させることができることを示す。 興味深いことに、非常に高速な原子を除去する速度フィルタは、位相摂動特性にもかかわらずほとんど無視できる影響しか持たない。 正側では、キャビティモード反極への追加の保守的な光導出は、閾値を著しく低くし、平均光子数を高くする。 興味深いことに、高次原子場と直接原子-原子の量子相関はレーザーダイナミクスにおいて小さな役割しか果たさない。

Recent theoretical predictions hint at an implementation of a superradiant laser based on narrow optical clock transitions by using a filtered thermal beam at high density. Corresponding numerical studies give encouraging results but the required very high densities are sensitive to beam collimation errors and inhomogeneous shifts. Here we present extensive numerical studies of threshold conditions and the predicted output power of such a superradiant laser involving realistic particle numbers and velocities along the cavity axis. Detailed studies target the threshold scaling as a function of temperature as well as the influence of eliminating the hottest part of the atomic distribution via velocity filtering and the benefits of additional atomic beam guiding. Using a cumulant expansion approach allows us to quantify the significance of atom-atom and atom-field correlations in such configurations. We predict necessary conditions to achieve a certain threshold photon number depending on the atomic temperature and density. In particular, we show that the temperature threshold can be significantly increased by using more atoms. Interestingly, a velocity filter removing very fast atoms has only almost negligible influence despite their phase perturbing properties. On the positive side an additional conservative optical guiding towards cavity mode antinodes leads to significantly lower threshold and higher average photon number. Interestingly we see that higher order atom-field and direct atom-atom quantum correlations play only a minor role in the laser dynamics, which is a bit surprising in the superradiant regime.
翻訳日:2023-08-11 12:19:30 公開日:2023-08-10
# プロクサマル政策最適化現実のコンバット:アウトプット・トケナイザー長の操作

Proximal Policy Optimization Actual Combat: Manipulating Output Tokenizer Length ( http://arxiv.org/abs/2308.05585v1 )

ライセンス: Link先を確認
Miao Fan, Chen Hu, Shuchang Zhou(参考訳) ヒューマンフィードバック(rlhf)からの強化学習は、大規模言語モデル(llm)の影響を形作る上で重要な役割を担っており、特にllmは誤解を招くコンテンツを保持し、セキュアなaiシステムのための人間的価値と一致させる緊急性を強調しているため、アウトプット毒性の制御とアウトプットスタイルの選択に大きく寄与している。 RLHFは、高パラメータに対する複雑性、不安定性、感度を特徴とし、複雑なタスクに対する報酬モデルの評価を困難にし、PPO(Proximal Policy Optimization)の使用をさらに複雑にする。 本稿では,PPOの有効性を検証する報奨モデルとしてGlodenを用いたシンプルなタスクを提案する。 実験により、PPOは、このタイプのタスクにおいて、出力トークン化剤の長さをある程度操作するだけでなく、報酬モデルの効果が排除されたら、訓練を円滑に行い、エキサイティングな発展をもたらすことが確認された。

The Reinforcement Learning from Human Feedback (RLHF) plays a pivotal role in shaping the impact of large language models (LLMs), contributing significantly to controlling output toxicity and selecting output styles, particularly as LLMs often harbor misleading content, highlighting the urgency to align them with human values for secure AI systems. The RLHF, characterized by complexity, instability, and sensitivity to hyperparameters, makes the evaluation of the reward model for complex tasks challenging, thereby further complicating the use of Proximal Policy Optimization (PPO). In this paper, we introduce a simple task designed to employ Gloden as a reward model that validates the effectiveness of PPO and inspires it, primarily explaining the task of utilizing PPO to manipulate the tokenizer length of the output generated by the model. Experiments confirm that PPO is not only effective in manipulating the output tokenizer length to a certain extent in this type of task but also exhibits facilitated training once the influence of the reward model effect is excluded, making it an exciting development.
翻訳日:2023-08-11 12:19:07 公開日:2023-08-10
# 無線無線チャネルモデリングとサンプリングのための生成拡散モデル

Generative Diffusion Models for Radio Wireless Channel Modelling and Sampling ( http://arxiv.org/abs/2308.05583v1 )

ライセンス: Link先を確認
Ushnish Sengupta, Chinkuo Jao, Alberto Bernacchia, Sattar Vakili and Da-shan Shiu(参考訳) チャネルモデリングは、現代の無線通信システムの設計に不可欠である。 チャネルモデリングの複雑さの増大と高品質な無線チャネルデータの収集コストが大きな課題となっている。 本稿では,制限されたデータからチャネル実現を迅速に合成するための拡散モデルに基づくチャネルサンプリング手法を提案する。 周波数空間領域で動作するUNetアーキテクチャを用いた拡散モデルを用いる。 トレーニングデータセットにおけるチャネルの真の分布をどの程度正確に再現するかを評価するために、$i)$ アンテナと周波数領域における正規化パワースペクトルの実分布と生成した分布の間の近似2ドル=ヴァッサーシュタイン距離と$ii)$ 分布の精度とリコール距離の2つの評価指標を用いる。 モード崩壊や不安定なトレーニングに苦しむ既存のGANベースのアプローチと比較して,我々の拡散ベースのアプローチは安定して,真のチャネル分布から多種多様な高忠実なサンプルを生成する。 また,シミュレーションした都市マクロセルチャネルデータセット上でモデルを事前学習し,より小さく,分散性の低い都市マイクロセルデータセットに微調整できることを示し,このアプローチで実世界のチャネルをモデル化することは可能であることを示した。

Channel modelling is essential to designing modern wireless communication systems. The increasing complexity of channel modelling and the cost of collecting high-quality wireless channel data have become major challenges. In this paper, we propose a diffusion model based channel sampling approach for rapidly synthesizing channel realizations from limited data. We use a diffusion model with a U Net based architecture operating in the frequency space domain. To evaluate how well the proposed model reproduces the true distribution of channels in the training dataset, two evaluation metrics are used: $i)$ the approximate $2$-Wasserstein distance between real and generated distributions of the normalized power spectrum in the antenna and frequency domains and $ii)$ precision and recall metric for distributions. We show that, compared to existing GAN based approaches which suffer from mode collapse and unstable training, our diffusion based approach trains stably and generates diverse and high-fidelity samples from the true channel distribution. We also show that we can pretrain the model on a simulated urban macro-cellular channel dataset and fine-tune it on a smaller, out-of-distribution urban micro-cellular dataset, therefore showing that it is feasible to model real world channels using limited data with this approach.
翻訳日:2023-08-11 12:18:44 公開日:2023-08-10
# セマンティックセグメンテーションのためのカテゴリー特徴変換器

Category Feature Transformer for Semantic Segmentation ( http://arxiv.org/abs/2308.05581v1 )

ライセンス: Link先を確認
Quan Tang, Chuanjian Liu, Fagui Liu, Yifan Liu, Jun Jiang, Bowen Zhang, Kai Han, Yunhe Wang(参考訳) 多段階の特徴の集約はセマンティックセグメンテーションにおいて重要な役割を果たすことが明らかになった。 本研究は,特徴集約にポイントワイズ総和や連結を用いる従来の手法とは異なり,多段特徴点間のカテゴリ埋め込みと変換の流れを,多面的多面的注意機構を通じて探究するカテゴリ特徴変換(cft)を提案する。 cftは、集約プロセス毎のハイレベル機能から個々のセマンティックカテゴリに対する統一的な機能埋め込みを学び、それらを高解像度機能に動的にブロードキャストする。 提案したCFTを典型的な特徴ピラミッド構造に統合すると、幅広いバックボーンネットワークよりも優れた性能を示す。 我々は、一般的なセマンティクスセグメンテーションベンチマークに関する広範囲な実験を行う。 具体的には、提案するcftは、ade20kデータセットのモデルパラメータと計算量を大幅に削減した55.1%のmiouを得る。

Aggregation of multi-stage features has been revealed to play a significant role in semantic segmentation. Unlike previous methods employing point-wise summation or concatenation for feature aggregation, this study proposes the Category Feature Transformer (CFT) that explores the flow of category embedding and transformation among multi-stage features through the prevalent multi-head attention mechanism. CFT learns unified feature embeddings for individual semantic categories from high-level features during each aggregation process and dynamically broadcasts them to high-resolution features. Integrating the proposed CFT into a typical feature pyramid structure exhibits superior performance over a broad range of backbone networks. We conduct extensive experiments on popular semantic segmentation benchmarks. Specifically, the proposed CFT obtains a compelling 55.1% mIoU with greatly reduced model parameters and computations on the challenging ADE20K dataset.
翻訳日:2023-08-11 12:18:24 公開日:2023-08-10
# 言語モデルは参照されるか?

Do Language Models Refer? ( http://arxiv.org/abs/2308.05576v1 )

ライセンス: Link先を確認
Matthew Mandelkern and Tal Linzen(参考訳) 言語モデル(LM)は言語と何をしますか? 全員が、(ほとんど)コヒーレントな文のシーケンスを作成することに同意する。 しかし、これらの文字列で何かを言っているのか、それとも単に説得力のある言語使用のシミュラクルでバブリングしているだけなのか? これは曖昧な質問であり、正確化には多くの方法があります。 ここでは、lmsの単語が参照するかどうか、すなわち、lmsの出力が"word-to-world"接続を達成するかどうかという問題の一面に対処します。 lmsが通常の言語ユーザーのように世界と相互作用しないからではないと考えるのは、原始的な理由がある。 言語哲学における外部主義の伝統からの洞察を引いて、外観は誤解を招くものであり、lmsが参照できると考える正当な理由があると主張する。

What do language models (LMs) do with language? Everyone agrees that they produce sequences of (mostly) coherent sentences. But are they saying anything with those strings or simply babbling in a convincing simulacrum of language use? This is a vague question, and there are many ways of making it precise. Here we will address one aspect of the question, namely, whether LMs' words refer: that is, whether the outputs of LMs achieve "word-to-world" connections. There is prima facie reason to think they do not since LMs do not interact with the world in the way that ordinary language users do. Drawing on insights from the externalist tradition in philosophy of language, we argue that appearances are misleading and that there is good reason to think that LMs can refer.
翻訳日:2023-08-11 12:18:10 公開日:2023-08-10
# xgboost逆摂動攻撃に対する対称性防御

Symmetry Defense Against XGBoost Adversarial Perturbation Attacks ( http://arxiv.org/abs/2308.05575v1 )

ライセンス: Link先を確認
Blerta Lindqvist(参考訳) 直交摂動攻撃に対して,直交型決定木 (GBDT) などの木に基づくアンサンブル分類器の防御に対称性が有効かどうかを検討する。 このアイデアは、CNNの対称性に対する不変性の欠如を利用した畳み込みニューラルネットワーク分類器(CNN)に対する最近の対称性の防衛に基づいている。 CNNは、元々のサンプルとは異なる水平反転画像のような対称的なサンプルを分類できるため、ばらつきがない。 CNNの非分散性の欠如は、CNNが正反対サンプルの不正な分類とは異なる対称的サンプルを分類できることを意味する。 最近のCNN対称性防衛は、CNNの不変性の欠如を利用して、対称対数サンプルの分類が正しいサンプル分類に戻すことを示した。 GBDTに同じ対称性の防御を施すために,GBDTの不変性を検証し,GBDTにも対称性に関する不変性を欠いていることを示す最初の試みである。 我々は,9つの摂動攻撃に対するGBDT対称性の防御を,ゼロ知識から完全知識への脅威モデルを用いて適用し,評価した。 ゼロ知識逆数に対する特徴反転対称性を用いることで、デフォルト値とロバストな分類器が0%の精度を持つ場合でも、最大100%の精度が得られる。 また,F-MNISTデータセットのGBDT分類器に対して,正解正解に対する特徴反転と水平フリップ対称性を最大95%の精度で達成した。

We examine whether symmetry can be used to defend tree-based ensemble classifiers such as gradient-boosting decision trees (GBDTs) against adversarial perturbation attacks. The idea is based on a recent symmetry defense for convolutional neural network classifiers (CNNs) that utilizes CNNs' lack of invariance with respect to symmetries. CNNs lack invariance because they can classify a symmetric sample, such as a horizontally flipped image, differently from the original sample. CNNs' lack of invariance also means that CNNs can classify symmetric adversarial samples differently from the incorrect classification of adversarial samples. Using CNNs' lack of invariance, the recent CNN symmetry defense has shown that the classification of symmetric adversarial samples reverts to the correct sample classification. In order to apply the same symmetry defense to GBDTs, we examine GBDT invariance and are the first to show that GBDTs also lack invariance with respect to symmetries. We apply and evaluate the GBDT symmetry defense for nine datasets against six perturbation attacks with a threat model that ranges from zero-knowledge to perfect-knowledge adversaries. Using the feature inversion symmetry against zero-knowledge adversaries, we achieve up to 100% accuracy on adversarial samples even when default and robust classifiers have 0% accuracy. Using the feature inversion and horizontal flip symmetries against perfect-knowledge adversaries, we achieve up to over 95% accuracy on adversarial samples for the GBDT classifier of the F-MNIST dataset even when default and robust classifiers have 0% accuracy.
翻訳日:2023-08-11 12:17:56 公開日:2023-08-10
# ドラビダ語の多言語翻訳における言語類似性とゼロショット学習の検討

Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual Translation of Dravidian Languages ( http://arxiv.org/abs/2308.05574v1 )

ライセンス: Link先を確認
Danish Ebadulla, Rahul Raman, S. Natarajan, Hridhay Kiran Shetty, Ashish Harish Shenoy(参考訳) ゼロショット翻訳に関する現在の研究は、高い計算要件、トレーニング時間の増加、ターゲット翻訳の停止など、いくつかの問題に苦しめられている。 提案された改善は、しばしば追加のデータや計算要求のコストがかかる。 Pivotベースのニューラルマシン翻訳は、トレーニングや評価時間の増加にもかかわらず、ほとんどの設定でシングルエンコーダモデルよりも好まれる。 本研究では,翻訳と言語的類似性を利用してゼロショット翻訳の欠点を克服する。 我々はDravidian-Dravidian多言語翻訳のための単一エンコーダデコーダニューラルマシン翻訳システムを構築し,ゼロショット翻訳を行う。 我々は,データとゼロショット精度のトレードオフを比較し,バニラ法の性能をアートピボット法の現状と比較した。 また,形態学的にリッチな言語は語彙を最適なトランスポートベース手法で制限することにより,大きな語彙を必要とするという理論を検証した。 言語方向の50%で学習すると,大規模ピボットベースモデルの3 BLEU以内のスコアが得られた。

Current research in zero-shot translation is plagued by several issues such as high compute requirements, increased training time and off target translations. Proposed remedies often come at the cost of additional data or compute requirements. Pivot based neural machine translation is preferred over a single-encoder model for most settings despite the increased training and evaluation time. In this work, we overcome the shortcomings of zero-shot translation by taking advantage of transliteration and linguistic similarity. We build a single encoder-decoder neural machine translation system for Dravidian-Dravidian multilingual translation and perform zero-shot translation. We compare the data vs zero-shot accuracy tradeoff and evaluate the performance of our vanilla method against the current state of the art pivot based method. We also test the theory that morphologically rich languages require large vocabularies by restricting the vocabulary using an optimal transport based technique. Our model manages to achieves scores within 3 BLEU of large-scale pivot-based models when it is trained on 50\% of the language directions.
翻訳日:2023-08-11 12:17:27 公開日:2023-08-10
# 真空分岐、ダークエネルギー、ダークマター

Vacuum Branching, Dark Energy, Dark Matter ( http://arxiv.org/abs/2308.05569v1 )

ライセンス: Link先を確認
Don Weingarten(参考訳) エヴェレット・デウィットによる量子力学の多世界解釈から始まり、量子系の状態ベクトルが任意の瞬間に直交枝に分裂し、それぞれがほぼ古典的な振る舞いを示すという一連の提案がなされた。 本研究の初期のバージョンでは,分枝分解における分枝の平均二乗量子複雑性の測定値の最小値を求めることで,状態ベクトルの分枝への分解を提案した。 ここではミンコフスキー空間の格子上の量子電磁力学に対する量子複雑性の定式化を定義する。 特定のローレンツフレームに関して、低複雑性状態から始まるシステムに対して、分岐は、各分岐が次々に分裂してさらにサブブランチに繰り返し発生し、その分岐に続く実世界がボルン規則に従って選択される。 あるいは、明示ロレンツ共変定式化において、実世界は漸近的に遅い時間に枝の集合から単一のランダムなドローであり、後期選択によって暗示される分岐事象の集合を順次再現することで、特定のロレンツフレームにおいて有限時間に復元することができる。 ここでの以前のバージョンは、物理真空に基づく複雑性の定義を、素真空に基づく定義に置き換えることで単純化されている。 この交換の結果、物理的真空自体が分岐し、非分岐真空よりもわずかに大きなエネルギー密度を持つ分枝が生じると予測される。 真空エネルギー再正規化定数が通常通り選択され、無分岐真空に0エネルギー密度を与えると、真空分枝はダークエネルギーとダークマター密度の組み合わせを持つように見えるが、追加の粒子含有量は持たない。

Beginning with the Everett-DeWitt many-worlds interpretation of quantum mechanics, there have been a series of proposals for how the state vector of a quantum system might split at any instant into orthogonal branches, each of which exhibits approximately classical behavior. In an earlier version of the present work, we proposed a decomposition of a state vector into branches by finding the minimum of a measure of the mean squared quantum complexity of the branches in the branch decomposition. Here we define a formulation of quantum complexity for quantum electrodynamics on a lattice in Minkowski space. With respect to a particular Lorentz frame, for a system beginning in a state of low complexity, branching occurs repeatedly over time with each branch splitting successively into further sub-branches among which the branch followed by the real world is chosen according to the Born rule. Alternatively, in an explicitly Lorentz covariant formulation, the real world is a single random draw from the set of branches at asymptotically late time, which can then be restored to finite time in a particular Lorentz frame by sequentially retracing the set of branching events implied by the late time choice. The earlier version here is simplified by replacing a definition of complexity based on the physical vacuum with a definition based on the bare vacuum. As a consequence of this replacement, the physical vacuum itself is predicted to branch yielding branches with energy densities slightly larger than that of the unbranched vacuum. If the vacuum energy renormalization constant is chosen as usual to give 0 energy density to the unbranched vacuum, vacuum branches will appear to have a combination of dark energy and dark matter densities but no additional particle content.
翻訳日:2023-08-11 12:17:10 公開日:2023-08-10
# ReLUと加算型Gated RNN

ReLU and Addition-based Gated RNN ( http://arxiv.org/abs/2308.05629v1 )

ライセンス: Link先を確認
Rickard Br\"annvall, Henrik Forsgren, Fredrik Sandin and Marcus Liwicki(参考訳) 従来のリカレントゲートの乗算とシグモイド関数を加算とReLU活性化で置き換える。 この機構は、シーケンス処理のための長期記憶を維持するように設計されているが、計算コストの削減により、制限されたハードウェア上でより効率的な実行やより大きなモデルを実現する。 LSTMやGRUといったゲーティング機構を備えたリカレントニューラルネットワーク(RNN)は、長期的依存関係をキャプチャする能力のため、シーケンシャルデータから学習することに成功している。 従来、現在の入力と前の状態履歴に基づく更新は、それぞれに動的重みを乗算し、結合して次の状態を計算する。 しかし、特に特定のハードウェアアーキテクチャや準同型暗号のような代替算術システムでは、乗算は計算的に高価である。 本機構は,CPU上での実行時間を半減し,暗号化下では3分の1減らすような計算コストを大幅に削減しつつ,標準合成シーケンス学習タスクの長期依存を捕捉できることを実証した。 さらに手書きテキスト認識タスクの実験結果から,従来のGRUやLSTMのベースラインに匹敵する精度を実現するために,提案アーキテクチャをトレーニングできることが示されている。 本論文で導入されたゲーティング機構は,暗号化変数の乗算を回避することにより,同型暗号化で動作するプライバシ保護型AIアプリケーションを可能にする。 また、(暗号化されていない)平文アプリケーションでの量子化もサポートでき、加算ベースの定式化は乗算に必要な倍精度への拡張を避けることができるため、大幅な性能向上の可能性がある。

We replace the multiplication and sigmoid function of the conventional recurrent gate with addition and ReLU activation. This mechanism is designed to maintain long-term memory for sequence processing but at a reduced computational cost, thereby opening up for more efficient execution or larger models on restricted hardware. Recurrent Neural Networks (RNNs) with gating mechanisms such as LSTM and GRU have been widely successful in learning from sequential data due to their ability to capture long-term dependencies. Conventionally, the update based on current inputs and the previous state history is each multiplied with dynamic weights and combined to compute the next state. However, multiplication can be computationally expensive, especially for certain hardware architectures or alternative arithmetic systems such as homomorphic encryption. It is demonstrated that the novel gating mechanism can capture long-term dependencies for a standard synthetic sequence learning task while significantly reducing computational costs such that execution time is reduced by half on CPU and by one-third under encryption. Experimental results on handwritten text recognition tasks furthermore show that the proposed architecture can be trained to achieve comparable accuracy to conventional GRU and LSTM baselines. The gating mechanism introduced in this paper may enable privacy-preserving AI applications operating under homomorphic encryption by avoiding the multiplication of encrypted variables. It can also support quantization in (unencrypted) plaintext applications, with the potential for substantial performance gains since the addition-based formulation can avoid the expansion to double precision often required for multiplication.
翻訳日:2023-08-11 12:11:59 公開日:2023-08-10
# 全員の正規化勾配

Normalized Gradients for All ( http://arxiv.org/abs/2308.05621v1 )

ライセンス: Link先を確認
Francesco Orabona(参考訳) 本稿では, 正規化勾配を用いたH\"{o}lder smoothnessをブラックボックス方式で適用する方法を示す。 さらに、境界は局所 h\"{o}lder の滑らかさという新しい概念に依存する。 主なアイデアは、Levy [2017]から直接来ています。

In this short note, I show how to adapt to H\"{o}lder smoothness using normalized gradients in a black-box way. Moreover, the bound will depend on a novel notion of local H\"{o}lder smoothness. The main idea directly comes from Levy [2017].
翻訳日:2023-08-11 12:11:30 公開日:2023-08-10
# ランクベース互換性を用いた臨床リスク階層モデルの更新:臨床モデルチームパフォーマンスの評価と最適化のためのアプローチ

Updating Clinical Risk Stratification Models Using Rank-Based Compatibility: Approaches for Evaluating and Optimizing Clinician-Model Team Performance ( http://arxiv.org/abs/2308.05619v1 )

ライセンス: Link先を確認
Erkin \"Otle\c{s}, Brian T. Denton, Jenna Wiens(参考訳) データシフトや新しいデータが利用可能になると、臨床機械学習モデルの更新は、時間とともにパフォーマンスを維持または改善するために必要となる。 しかし、モデルの更新は、更新されたモデルの振る舞いがユーザの期待に合致しない場合に互換性の問題を引き起こす可能性がある。 既存の互換性対策は、モデル決定しきい値に依存し、推定リスクに基づいてランキングを生成するためにモデルを使用する設定において、適用可能性を制限する。 この制限に対処するために,新しいランクベース互換性尺度 $c^r$ と,良好な互換性を奨励しながら識別性能を最適化することを目的とした新しい損失関数を提案する。 MIMICのデータを利用した死亡リスク階層化のケーススタディでは、既存のモデル選択手法と比較して差別的性能を維持しながら、より互換性のあるモデルが得られ、C^R$が0.019$(95\%$信頼区間:0.005$,$0.035$)の増加が見られた。 この研究は、臨床医療で使用されるリスク階層モデルを分析し、更新するための新しいツールを提供する。

As data shift or new data become available, updating clinical machine learning models may be necessary to maintain or improve performance over time. However, updating a model can introduce compatibility issues when the behavior of the updated model does not align with user expectations, resulting in poor user-model team performance. Existing compatibility measures depend on model decision thresholds, limiting their applicability in settings where models are used to generate rankings based on estimated risk. To address this limitation, we propose a novel rank-based compatibility measure, $C^R$, and a new loss function that aims to optimize discriminative performance while encouraging good compatibility. Applied to a case study in mortality risk stratification leveraging data from MIMIC, our approach yields more compatible models while maintaining discriminative performance compared to existing model selection techniques, with an increase in $C^R$ of $0.019$ ($95\%$ confidence interval: $0.005$, $0.035$). This work provides new tools to analyze and update risk stratification models used in clinical care.
翻訳日:2023-08-11 12:11:25 公開日:2023-08-10
# ソートメント最適化のためのニューラルネットワークに基づく選択モデル

A Neural Network Based Choice Model for Assortment Optimization ( http://arxiv.org/abs/2308.05617v1 )

ライセンス: Link先を確認
Hanzhao Wang, Zhongze Cai, Xiaocheng Li, Kalyan Talluri(参考訳) 離散収縮モデルは、経済、マーケティング、収益管理において、価格などの機能として、顧客購買確率を予測するために使用される。 それらは表現力があり、顧客の不均一性と振る舞いを捉えることが示されていますが、しばしばユーティリティのような多くの観測不可能な機能に基づいて、見積もるのは困難です。 他のコンテキストでの成功を考えると、自然な疑問は、ニューラルネットワークがコンテキスト依存の顧客行動モデルの構築とハンドコーディングと見積もりのチューニングを慎重に行う必要性を排除することができるかどうかである。 しかし、そのようなニューラルネットワークにどのように分類効果を組み込むか、またそのような選択確率のブラックボックス生成モデルで分類を最適化するかは明らかではない。 本稿では,まず,単一のニューラルネットワークアーキテクチャが,さまざまなコンテキストからデータセットの購入確率を予測できるかどうかについて検討する。 次に,既製の整数計画解法で解けるアソシエーション最適化の定式化を開発する。 シミュレーションおよび実世界のデータセット上での様々なベンチマーク離散化モデルと比較し、ニューラルネットワークの予測とその後の最適化を堅牢にし、代替データと同等のパフォーマンスで実現するためのトレーニング手法を開発した。

Discrete-choice models are used in economics, marketing and revenue management to predict customer purchase probabilities, say as a function of prices and other features of the offered assortment. While they have been shown to be expressive, capturing customer heterogeneity and behaviour, they are also hard to estimate, often based on many unobservables like utilities; and moreover, they still fail to capture many salient features of customer behaviour. A natural question then, given their success in other contexts, is if neural networks can eliminate the necessity of carefully building a context-dependent customer behaviour model and hand-coding and tuning the estimation. It is unclear however how one would incorporate assortment effects into such a neural network, and also how one would optimize the assortment with such a black-box generative model of choice probabilities. In this paper we investigate first whether a single neural network architecture can predict purchase probabilities for datasets from various contexts and generated under various models and assumptions. Next, we develop an assortment optimization formulation that is solvable by off-the-shelf integer programming solvers. We compare against a variety of benchmark discrete-choice models on simulated as well as real-world datasets, developing training tricks along the way to make the neural network prediction and subsequent optimization robust and comparable in performance to the alternates.
翻訳日:2023-08-11 12:11:04 公開日:2023-08-10
# 産業プラント監督のためのスマートロボットシステム

A Smart Robotic System for Industrial Plant Supervision ( http://arxiv.org/abs/2308.05612v1 )

ライセンス: Link先を確認
D. Adriana G\'omez-Rosal (1), Max Bergau (2), Georg K.J. Fischer (3), Andreas Wachaja (4), Johannes Gr\"ater (4), Matthias Odenweller (5), Uwe Piechottka (5), Fabian Hoeflinger (6), Nikhil Gosala (1), Niklas Wetzel (1), Daniel B\"uscher (1), Abhinav Valada (1), Wolfram Burgard (7) ((1) Department of Computer Science, University of Freiburg, Germany (2) Sensors Automation Lab, Endress+Hauser Digital Solutions GmbH, Freiburg, Germany (3) Fraunhofer Institute for Highspeed Dynamics, Ernst-Mach-Institute (EMI), Freiburg, Germany (4) dotscene GmbH, Freiburg, Germany (5) Evonik Operations GmbH, Essen, Germany (6) Telocate GmbH, Freiburg, Germany (7) Department of Engineering, University of Technology Nuremberg, Germany)(参考訳) 今日の化学プラントでは、人間の現場オペレーターが工場の完全性を確認して高い安全基準を保証しているため、危険な運転条件に初めて遭遇した可能性がある。 音声,視覚,嗅覚の知覚による障害検出と監視の課題を軽減すべく,様々なセンサとデータ処理を統合した自律走行ロボットからなるロボットシステムを提案する。 我々は、視覚、嗅覚、聴覚の人間の感覚と解釈能力に似て、自動検査を提供することを目指している。 我々は, 下水処理施設において, 完全作業条件下でのシステム評価を行った。 以上の結果から,本システムはプラントをロバストにナビゲートし,重要な運転条件に関する有用な情報を提供することができることが示された。

In today's chemical production plants, human field operators perform frequent checks on the plant's integrity to guarantee high safety standards, and thus are possibly the first to encounter dangerous operating conditions. To alleviate their tasks of failure detection and monitoring by audio, visual, and olfactory perceptions, we present a robotic system that consists of an autonomously navigating robot integrated with various sensors and data processing. We aim to resemble the human sensing and interpretation capabilities of sight, smell, and hearing, for providing automated inspection. We evaluate our system extensively at a wastewater facility in full working conditions. Our results demonstrate that the system is able to robustly navigate a plant and to provide useful information about critical operating conditions.
翻訳日:2023-08-11 12:10:38 公開日:2023-08-10
# NASA LitCoin NLPコンペティションにおけるLASIGEとUNICAGEソリューション

LASIGE and UNICAGE solution to the NASA LitCoin NLP Competition ( http://arxiv.org/abs/2308.05609v1 )

ライセンス: Link先を確認
Pedro Ruas, Diana F. Sousa, Andr\'e Neves, Carlos Cruz, Francisco M. Couto(参考訳) バイオメディカル自然言語処理(NLP)は、処理されるテキストの量と不均一性のため、ほとんどの研究者にとって面倒になる傾向がある。 この課題に対処するため、業界は高度に効率的なツールを開発し、より柔軟なエンジニアリングソリューションを作成しています。 本研究では,効率的なデータ処理のための産業データ工学ソリューションと,名前付きエンティティ認識(LasigeUnicage\_NER)と関係抽出(BiOnt)のために開発された学術システムを統合する。 我々の設計は、これらのコンポーネントと外部知識の統合を、他のデータセットや生物医学のオントロジーから追加のトレーニングデータとして反映している。 このパイプラインを2022年のlitcoin nlp challengeで使用し、私たちのチームlasigeunicageは、約200の参加チームから第7位を獲得し、アカデミア(lasige)と業界(unicage)の協力が成功したことを反映しました。 この作業をサポートするソフトウェアは \url{https://github.com/lasigeBioTM/Litcoin-Lasige_Unicage} で入手できる。

Biomedical Natural Language Processing (NLP) tends to become cumbersome for most researchers, frequently due to the amount and heterogeneity of text to be processed. To address this challenge, the industry is continuously developing highly efficient tools and creating more flexible engineering solutions. This work presents the integration between industry data engineering solutions for efficient data processing and academic systems developed for Named Entity Recognition (LasigeUnicage\_NER) and Relation Extraction (BiOnt). Our design reflects an integration of those components with external knowledge in the form of additional training data from other datasets and biomedical ontologies. We used this pipeline in the 2022 LitCoin NLP Challenge, where our team LasigeUnicage was awarded the 7th Prize out of approximately 200 participating teams, reflecting a successful collaboration between the academia (LASIGE) and the industry (Unicage). The software supporting this work is available at \url{https://github.com/lasigeBioTM/Litcoin-Lasige_Unicage}.
翻訳日:2023-08-11 12:10:27 公開日:2023-08-10
# 方向対応累積畳み込みネットワークによる自己監督単眼深度推定

Self-Supervised Monocular Depth Estimation by Direction-aware Cumulative Convolution Network ( http://arxiv.org/abs/2308.05605v1 )

ライセンス: Link先を確認
Wencheng Han, Junbo Yin and Jianbing Shen(参考訳) 単眼深度推定は、通常2次元画像内の物体が深さを予測するのに十分な情報を持っていない不適切なタスクとして知られている。 したがって、様々な方法で他のタスク(例えば分類や分節)と異なる振る舞いをする。 本稿では,自己教師付き単眼深度推定により,特徴表現における方向感度と環境依存性を示す。 しかし、他のタスクから借りた現在のバックボーンは、異なる種類の環境情報を扱うことにはあまり注意を払わず、全体的な深さの精度を制限します。 このギャップを埋めるために,2つの側面において深度特徴表現を改善する方向対応累積畳み込みネットワーク (DaCCN) を提案する。 まず,各方向の特徴抽出を学習し,異なる種類の情報の符号化を容易にする方向認識モジュールを提案する。 次に,重要な環境情報を集約する効率を向上させるために,新しい累積畳み込みを設計する。 実験の結果,提案手法はKITTI,Cityscapes,Make3Dの3種類のベンチマークに対して大幅な改善を達成し,これら3種類のセルフスーパービジョンを持つベンチマークに対して,新たな最先端性能を実現することができた。

Monocular depth estimation is known as an ill-posed task in which objects in a 2D image usually do not contain sufficient information to predict their depth. Thus, it acts differently from other tasks (e.g., classification and segmentation) in many ways. In this paper, we find that self-supervised monocular depth estimation shows a direction sensitivity and environmental dependency in the feature representation. But the current backbones borrowed from other tasks pay less attention to handling different types of environmental information, limiting the overall depth accuracy. To bridge this gap, we propose a new Direction-aware Cumulative Convolution Network (DaCCN), which improves the depth feature representation in two aspects. First, we propose a direction-aware module, which can learn to adjust the feature extraction in each direction, facilitating the encoding of different types of information. Secondly, we design a new cumulative convolution to improve the efficiency for aggregating important environmental information. Experiments show that our method achieves significant improvements on three widely used benchmarks, KITTI, Cityscapes, and Make3D, setting a new state-of-the-art performance on the popular benchmarks with all three types of self-supervision.
翻訳日:2023-08-11 12:09:59 公開日:2023-08-10
# Recursive Implicit Mapsを用いたオブジェクトゴールナビゲーション

Object Goal Navigation with Recursive Implicit Maps ( http://arxiv.org/abs/2308.05602v1 )

ライセンス: Link先を確認
Shizhe Chen, Thomas Chabal, Ivan Laptev and Cordelia Schmid(参考訳) オブジェクトのゴールナビゲーションは、エージェントが見えない環境で与えられたオブジェクトカテゴリの位置にナビゲートすることを目的としている。 古典的な手法は、環境の地図を明示的に構築し、オブジェクト指向探索のための意味情報を欠きながら広範なエンジニアリングを必要とする。 一方、エンド・ツー・エンドの学習手法は、暗黙の表現を用いた手動マップの設計と行動予測を緩和する。 しかし、そのような方法には幾何の明確な概念がなく、航法史を符号化する能力に制限がある可能性がある。 本研究では,オブジェクトゴールナビゲーションのための空間マップを提案する。 我々の暗黙の地図は再帰的に更新され、トランスフォーマーを使用して各ステップで新しい観測が行われる。 空間的推論を促進するため,視覚的特徴やセマンティックなラベル,行動を予測するために補助的なタスクを導入し,明示的な地図を再構築するモデルを訓練する。 提案手法は,挑戦的なMP3Dデータセットにおける技術状況を大幅に上回り,HM3Dデータセットによく適合する。 我々は,実際のロボットにモデルをデプロイし,実世界のデモを数回だけ使用して,現実のシーンにおける目標ナビゲーションの促進を実現する。 コード、トレーニングされたモデル、ビデオは \url{https://www.di.ens.fr/willow/research/onav_rim/} で入手できる。

Object goal navigation aims to navigate an agent to locations of a given object category in unseen environments. Classical methods explicitly build maps of environments and require extensive engineering while lacking semantic information for object-oriented exploration. On the other hand, end-to-end learning methods alleviate manual map design and predict actions using implicit representations. Such methods, however, lack an explicit notion of geometry and may have limited ability to encode navigation history. In this work, we propose an implicit spatial map for object goal navigation. Our implicit map is recursively updated with new observations at each step using a transformer. To encourage spatial reasoning, we introduce auxiliary tasks and train our model to reconstruct explicit maps as well as to predict visual features, semantic labels and actions. Our method significantly outperforms the state of the art on the challenging MP3D dataset and generalizes well to the HM3D dataset. We successfully deploy our model on a real robot and achieve encouraging object goal navigation results in real scenes using only a few real-world demonstrations. Code, trained models and videos are available at \url{https://www.di.ens.fr/willow/research/onav_rim/}.
翻訳日:2023-08-11 12:09:22 公開日:2023-08-10
# 交通流予測のためのマルチグラフ時空間グラフ畳み込みネットワーク

Multi-graph Spatio-temporal Graph Convolutional Network for Traffic Flow Prediction ( http://arxiv.org/abs/2308.05601v1 )

ライセンス: Link先を確認
Weilong Ding, Tianpu Zhang, Jianwu Wang, Zhuofeng Zhao(参考訳) 都市間交通は都市生活にとって重要である。 インテリジェント交通システム(ITS)における重要な機能のひとつとして,交通評価が常に重要な役割を担っている。 一方,各地におけるデータ不均衡は予測性能を低下させる。 一方,複合的相関的時空間因子は長期にわたって包括的に採用できない。 本稿では,時空間深層学習による高速道路領域の日中交通流予測手法を提案する。 本手法では,ネットワークワイド料金所におけるトラフィックフローの長期分布により,データ不均衡に対処するためにデータ正規化戦略を用いる。 そして、グラフ畳み込みネットワークに基づいて、異なる意味論を持つネットワークを構築し、時空間的特徴を捉えます。 それに加えて、気象学とカレンダー機能は、トラフィックフローの外部特性を補うために、全接続段階でモデルによって使用されます。 ある中国高規格道路における広範な実験とケーススタディにより,本手法はビジネスにおけるベースラインや実践的利益よりも予測精度が向上したことを示す。

Inter-city highway transportation is significant for urban life. As one of the key functions in intelligent transportation system (ITS), traffic evaluation always plays significant role nowadays, and daily traffic flow prediction still faces challenges at network-wide toll stations. On the one hand, the data imbalance in practice among various locations deteriorates the performance of prediction. On the other hand, complex correlative spatio-temporal factors cannot be comprehensively employed in long-term duration. In this paper, a prediction method is proposed for daily traffic flow in highway domain through spatio-temporal deep learning. In our method, data normalization strategy is used to deal with data imbalance, due to long-tail distribution of traffic flow at network-wide toll stations. And then, based on graph convolutional network, we construct networks in distinct semantics to capture spatio-temporal features. Beside that, meteorology and calendar features are used by our model in the full connection stage to extra external characteristics of traffic flow. By extensive experiments and case studies in one Chinese provincial highway, our method shows clear improvement in predictive accuracy than baselines and practical benefits in business.
翻訳日:2023-08-11 12:08:45 公開日:2023-08-10
# NUPES : 電力指数探索による非均一ポストトレーニング量子化

NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search ( http://arxiv.org/abs/2308.05600v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny and Kevin Bailly(参考訳) deep neural network (dnn)のデプロイメントは、高価な計算要件のため、より大きなハードウェアデバイスに限定されている。 この課題は最近、大規模言語モデル(LLM)の出現とともに、別のスケールに到達した。 メモリフットプリントとレイテンシの両方を減らすために、有望なテクニックは量子化である。 浮動小数点表現を低ビット幅の固定点表現に変換し、通常、正規グリッドへの一様写像を仮定する。 この過程は、文献では一様量子化と呼ばれ、ほとんどのDNN重みと活性化がベルの形状の分布に従うため不適当である。 これは、重量分布が大きく、高い影響、外れ値を示すことが知られているllmではさらに悪化する。 本研究は,ディープラーニングモデルの量子化,すなわち非一様量子化において,この制限に対処する最も一般的な方法に対する改良を提案する。 NUPESは自己同型を利用してスカラー乗法を保存する。 このような変換はパワー関数に由来する。 しかし, 指数パラメータと重み値の最適化は, 予測関数を保存するために, 重み値を丸めたり縮めたりすることだけを学ぶ前回の訓練後の最適化手法では解決できない, 挑戦的で新しい問題である。 我々はこの制限を新しいパラダイムで回避し、量子化された空間全体に新しい量子化された重みを学習する。 同様に、全ての数値不安定性を緩和することにより、トレーニング中の量子化演算子自体の最適化を可能にする。 その結果生じる予測関数は整数のみの低ビット推論と互換性がある。 本稿では,データフリーおよびデータ駆動構成の両方において,最先端の圧縮率を達成する手法の能力を示す。

Deep neural network (DNN) deployment has been confined to larger hardware devices due to their expensive computational requirements. This challenge has recently reached another scale with the emergence of large language models (LLMs). In order to reduce both their memory footprint and latency, a promising technique is quantization. It consists in converting floating point representations to low bit-width fixed point representations, usually by assuming a uniform mapping onto a regular grid. This process, referred to in the literature as uniform quantization, may however be ill-suited as most DNN weights and activations follow a bell-shaped distribution. This is even worse on LLMs whose weight distributions are known to exhibit large, high impact, outlier values. In this work, we propose an improvement over the most commonly adopted way to tackle this limitation in deep learning models quantization, namely, non-uniform quantization. NUPES leverages automorphisms to preserve the scalar multiplications. Such transformations are derived from power functions. However, the optimization of the exponent parameter and weight values remains a challenging and novel problem which could not be solved with previous post training optimization techniques which only learn to round up or down weight values in order to preserve the predictive function. We circumvent this limitation with a new paradigm: learning new quantized weights over the entire quantized space. Similarly, we enable the optimization of the power exponent, i.e. the optimization of the quantization operator itself during training by alleviating all the numerical instabilities. The resulting predictive function is compatible with integer-only low-bit inference. We show the ability of the method to achieve state-of-the-art compression rates in both, data-free and data-driven configurations.
翻訳日:2023-08-11 12:08:10 公開日:2023-08-10
# 熱力学的線形代数

Thermodynamic Linear Algebra ( http://arxiv.org/abs/2308.05660v1 )

ライセンス: Link先を確認
Maxwell Aifer, Kaelan Donatella, Max Hunter Gordon, Thomas Ahle, Daniel Simpson, Gavin E. Crooks, Patrick J. Coles(参考訳) 線形代数的プリミティブは、工学、科学、機械学習における多くの現代的なアルゴリズムの中核である。 したがって、これらのプリミティブを新しいコンピューティングハードウェアで加速させることは、大きな経済的影響をもたらすだろう。 量子コンピューティングはこの目的のために提案されているが、リソース要件は現在の技術能力にはるかに及ばないため、このアプローチは長期的には継続される。 本稿では,古典的熱力学に基づく代替物理に基づく計算パラダイムを考察し,線形代数の高速化に短期的アプローチを提案する。 一見すると、熱力学と線型代数は無関係な場であるように見える。 本研究では、線形代数問題の解法と結合調和振動子の系の熱力学平衡分布からのサンプリングを結合する。 本稿では,(1)方程式の線形系の解法,(2)行列逆数,(3)行列行列行列式,(4)リアプノフ方程式の解法に関する簡単な熱力学アルゴリズムを提案する。 合理的な仮定の下では、行列次元で線形にスケールするデジタル手法と比較して、アルゴリズムの漸近的スピードアップを厳格に確立する。 我々のアルゴリズムはエルゴディディティ、エントロピー、平衡といった熱力学の原理を利用し、これら2つの異なる分野間の深い関係を強調し、熱力学計算ハードウェアの代数的応用を開放する。

Linear algebraic primitives are at the core of many modern algorithms in engineering, science, and machine learning. Hence, accelerating these primitives with novel computing hardware would have tremendous economic impact. Quantum computing has been proposed for this purpose, although the resource requirements are far beyond current technological capabilities, so this approach remains long-term in timescale. Here we consider an alternative physics-based computing paradigm based on classical thermodynamics, to provide a near-term approach to accelerating linear algebra. At first sight, thermodynamics and linear algebra seem to be unrelated fields. In this work, we connect solving linear algebra problems to sampling from the thermodynamic equilibrium distribution of a system of coupled harmonic oscillators. We present simple thermodynamic algorithms for (1) solving linear systems of equations, (2) computing matrix inverses, (3) computing matrix determinants, and (4) solving Lyapunov equations. Under reasonable assumptions, we rigorously establish asymptotic speedups for our algorithms, relative to digital methods, that scale linearly in matrix dimension. Our algorithms exploit thermodynamic principles like ergodicity, entropy, and equilibration, highlighting the deep connection between these two seemingly distinct fields, and opening up algebraic applications for thermodynamic computing hardware.
翻訳日:2023-08-11 12:00:48 公開日:2023-08-10
# AD-CLIP: CLIP を用いたプロンプト空間でのドメイン適応

AD-CLIP: Adapting Domains in Prompt Space Using CLIP ( http://arxiv.org/abs/2308.05659v1 )

ライセンス: Link先を確認
Mainak Singha, Harsh Pal, Ankit Jha, Biplab Banerjee(参考訳) ディープラーニングモデルは教師付き学習タスクで印象的なパフォーマンスを示しているが、トレーニング(ソース)とテスト(ターゲット)の領域が異なる場合、うまく一般化できないことが多い。 非教師なしドメイン適応(DA)がこの問題の一般的な解決策として現れている。 しかし、現在のDA技術は視覚的なバックボーンに依存しており、セマンティック・リッチ性に欠ける可能性がある。 CLIPのような大規模ヴィジュアル言語基盤モデルの可能性にもかかわらず、DAの有効性はまだ十分に検討されていない。 このギャップに対処するため,我々は,CLIPのドメインに依存しないプロンプト学習戦略であるAD-CLIPを紹介した。 我々はCLIPの凍結した視覚バックボーンを利用して画像スタイル(ドメイン)とコンテンツ情報を抽出し、プロンプトトークンを学習する。 我々のプロンプトは、画像スタイルとコンテンツの特徴を同時に学習することで、ドメイン不変でクラス一般化できるように設計されている。 我々は、ソース領域における標準教師付きコントラスト学習を使用し、対象ドメインデータに与えられた埋め込み空間内のドメインをアライメントするエントロピー最小化戦略を提案する。 また、ソースドメインデータなしでテスト中にのみ対象ドメインサンプルが利用可能となるシナリオについても検討し、ドメインに依存しないトークンを幻覚するクロスドメインスタイルマッピングネットワークを提案する。 3つのベンチマークDAデータセットに対する広範な実験により、既存の文献と比較してAD-CLIPの有効性が示された。

Although deep learning models have shown impressive performance on supervised learning tasks, they often struggle to generalize well when the training (source) and test (target) domains differ. Unsupervised domain adaptation (DA) has emerged as a popular solution to this problem. However, current DA techniques rely on visual backbones, which may lack semantic richness. Despite the potential of large-scale vision-language foundation models like CLIP, their effectiveness for DA has yet to be fully explored. To address this gap, we introduce AD-CLIP, a domain-agnostic prompt learning strategy for CLIP that aims to solve the DA problem in the prompt space. We leverage the frozen vision backbone of CLIP to extract both image style (domain) and content information, which we apply to learn prompt tokens. Our prompts are designed to be domain-invariant and class-generalizable, by conditioning prompt learning on image style and content features simultaneously. We use standard supervised contrastive learning in the source domain, while proposing an entropy minimization strategy to align domains in the embedding space given the target domain data. We also consider a scenario where only target domain samples are available during testing, without any source domain data, and propose a cross-domain style mapping network to hallucinate domain-agnostic tokens. Our extensive experiments on three benchmark DA datasets demonstrate the effectiveness of AD-CLIP compared to existing literature.
翻訳日:2023-08-11 12:00:26 公開日:2023-08-10
# 連結車両データとディープラーニングモデルを用いた関連道路インフラの自動抽出

Automatic Extraction of Relevant Road Infrastructure using Connected vehicle data and Deep Learning Model ( http://arxiv.org/abs/2308.05658v1 )

ライセンス: Link先を確認
Adu-Gyamfi Kojo, Kandiboina Raghupathi, Ravichandra-Mouli Varsha, Knickerbocker Skylar, Hans Zachary N, Hawkins, Neal R, Sharma Anuj(参考訳) 今日の急速な都市景観の中で、道路インフラの効率的かつ正確なマッピングは、交通システムの最適化、道路安全の向上、ドライバーや通勤者全体の移動体験の向上に不可欠である。 しかし、恐ろしいボトルネックは進歩を妨げます - 困難で時間を要する手作業による交差点の識別。 単純に、特定すべき交差点の数や、交差点ごとの労働時間を考えると、自動化されたソリューションの必要性は認識不能になる。 そこで本研究では,車載データと最先端ディープラーニング技術を活用した新しいアプローチを提案する。 ジオハッシングを用いて車両の軌跡を分割し、道路セグメントの画像表現を生成することで、ヨーロフ5(you only look once version 5)アルゴリズムを用いて、直線道路セグメントと交差点の正確な分類を行う。 実験の結果、95%の総合的な分類精度が示され、直線道路は97%のf1スコアに達し、交差点は90%のf1スコアに達した。 このアプローチは時間とリソースを節約するだけでなく、より頻繁な更新と道路ネットワークの包括的な理解を可能にします。 本研究は,交通管理,都市計画,自動運転車ナビゲーションシステムに対する潜在的な影響を示す。 コネクテッドカーデータとディープラーニングモデルの融合は、道路インフラマッピングの変革的なシフトを約束し、より賢く、より安全で、よりコネクテッドな交通エコシステムへと私たちを導く。

In today's rapidly evolving urban landscapes, efficient and accurate mapping of road infrastructure is critical for optimizing transportation systems, enhancing road safety, and improving the overall mobility experience for drivers and commuters. Yet, a formidable bottleneck obstructs progress - the laborious and time-intensive manual identification of intersections. Simply considering the shear number of intersections that need to be identified, and the labor hours required per intersection, the need for an automated solution becomes undeniable. To address this challenge, we propose a novel approach that leverages connected vehicle data and cutting-edge deep learning techniques. By employing geohashing to segment vehicle trajectories and then generating image representations of road segments, we utilize the YOLOv5 (You Only Look Once version 5) algorithm for accurate classification of both straight road segments and intersections. Experimental results demonstrate an impressive overall classification accuracy of 95%, with straight roads achieving a remarkable 97% F1 score and intersections reaching a 90% F1 score. This approach not only saves time and resources but also enables more frequent updates and a comprehensive understanding of the road network. Our research showcases the potential impact on traffic management, urban planning, and autonomous vehicle navigation systems. The fusion of connected vehicle data and deep learning models holds promise for a transformative shift in road infrastructure mapping, propelling us towards a smarter, safer, and more connected transportation ecosystem.
翻訳日:2023-08-11 12:00:01 公開日:2023-08-10
# 変分量子回路による多変量積分

Multi-variable integration with a variational quantum circuit ( http://arxiv.org/abs/2308.05657v1 )

ライセンス: Link先を確認
Juan M. Cruz-Martinez, Matteo Robbiati, Stefano Carrazza(参考訳) 本研究では,量子回路を用いた多変数積分の評価手法を提案する。 この手続きはまず積分変数をパラメトリック回路に符号化する。 得られた回路は、パラメータシフト規則手法を用いて積分変数に対して導出される。 導関数を表すオブザーバブルは、量子機械学習アプローチに従って、ターゲット積分関数の予測器として使用される。 そして、元の回路を評価することによって積分計算の基本定理を用いて積分を推定する。 再ロード戦略に従ってデータを埋め込み、多次元変数を回路のゲートに容易にエンコードし、回路を導出しながら個別にターゲットとして取り込むことができる。 これらのテクニックは、関数を部分的に統合したり、トレーニングハイパースペース内のパラメトリック積分を素早く計算するために利用することができる。

In this work we present a novel strategy to evaluate multi-variable integrals with quantum circuits. The procedure first encodes the integration variables into a parametric circuit. The obtained circuit is then derived with respect to the integration variables using the parameter shift rule technique. The observable representing the derivative is then used as the predictor of the target integrand function following a quantum machine learning approach. The integral is then estimated using the fundamental theorem of integral calculus by evaluating the original circuit. Embedding data according to a reuploading strategy, multi-dimensional variables can be easily encoded into the circuit's gates and then individually taken as targets while deriving the circuit. These techniques can be exploited to partially integrate a function or to quickly compute parametric integrands within the training hyperspace.
翻訳日:2023-08-11 11:59:36 公開日:2023-08-10
# 脳画像を用いたアルツハイマー病診断のための多層特徴を有する注意型3次元CNN

Attention-based 3D CNN with Multi-layer Features for Alzheimer's Disease Diagnosis using Brain Images ( http://arxiv.org/abs/2308.05655v1 )

ライセンス: Link先を確認
Yanteng Zhang, Qizhi Teng, Xiaohai He, Tong Niu, Lipei Zhang, Yan Liu, Chao Ren(参考訳) 構造MRIとPET画像はアルツハイマー病(AD)の診断において重要な役割を担い、脳の形態的変化と糖代謝の変化をそれぞれ示す。 例えば、一部の認知障害患者の脳画像における症状は比較的目立たないが、臨床におけるsmriによる正確な診断は困難である。 深層学習の出現に伴い、畳み込みニューラルネットワーク(CNN)はAD支援診断において貴重な手法となっているが、一部のCNN手法では脳画像の特徴を効果的に学習できないため、ADの診断は依然としていくつかの課題を呈している。 本研究では,ResNetに基づくAD診断のためのエンドツーエンドの3D CNNフレームワークを提案する。 注意マップは,本モデルが疾患診断に関連する重要な脳領域に焦点をあてることができることを示した。 本手法はadniデータベースの792名を対象にしたアブレーション実験において, smriとpetを用いて89.71%, 91.18%のad診断精度をそれぞれ達成し, 最先端の手法を上回った。

Structural MRI and PET imaging play an important role in the diagnosis of Alzheimer's disease (AD), showing the morphological changes and glucose metabolism changes in the brain respectively. The manifestations in the brain image of some cognitive impairment patients are relatively inconspicuous, for example, it still has difficulties in achieving accurate diagnosis through sMRI in clinical practice. With the emergence of deep learning, convolutional neural network (CNN) has become a valuable method in AD-aided diagnosis, but some CNN methods cannot effectively learn the features of brain image, making the diagnosis of AD still presents some challenges. In this work, we propose an end-to-end 3D CNN framework for AD diagnosis based on ResNet, which integrates multi-layer features obtained under the effect of the attention mechanism to better capture subtle differences in brain images. The attention maps showed our model can focus on key brain regions related to the disease diagnosis. Our method was verified in ablation experiments with two modality images on 792 subjects from the ADNI database, where AD diagnostic accuracies of 89.71% and 91.18% were achieved based on sMRI and PET respectively, and also outperformed some state-of-the-art methods.
翻訳日:2023-08-11 11:59:25 公開日:2023-08-10
# 弱教師付きビデオモーメント定位のための反事実的クロスモダリティ推論

Counterfactual Cross-modality Reasoning for Weakly Supervised Video Moment Localization ( http://arxiv.org/abs/2308.05648v1 )

ライセンス: Link先を確認
Zezhong Lv, Bing Su, Ji-Rong Wen(参考訳) ビデオモーメントローカライゼーションは、自然言語クエリに従って、未トリミングビデオのターゲットセグメントを検索することを目的としている。 ターゲットセグメントの正確な時間的位置が常に利用できるとは限らないため、弱い教師付き手法が最近注目を集めている。 しかし、弱教師付き手法が直面する最大の課題の一つは、粗い時間的アノテーションによって引き起こされるビデオと言語間のミスマッチである。 視覚言語アライメントを洗練するために、最近の研究は、ポジティブなビデオ提案とネガティブなビデオ提案の間のマスクされたクエリを再構築することで引き起こされる、相互モダリティの類似性を対比している。 しかし、この再構成は、マスク付き単語がクロスモーダル知識から完全に再構成されるわけではないため、復元過程を歪曲し、コントラスト学習の有効性を低下させる、マスク付き部分とマスク付き部分との潜伏的な相関に影響される可能性がある。 本稿では,提案する反事実的相互モダリティ推論法を用いて,このスプリアス相関を発見・緩和する。 具体的には、クロスモーダル性とクエリ知識の集約因果効果として、クエリ再構築を初めて定式化する。 そして, このアグリゲーションに反事実的相互モダリティ知識を導入することにより, 再建に寄与する未完成部分の急激な影響をモデル化する。 最後に,マスククエリによる一助効果を抑えることにより,ビデオ提案の再構成を補正し,合理的なコントラスト学習を行う。 提案手法の有効性を実験的に検証した。 コードは \href{https://github.com/sldz0306/ccr}{https://github.com/sldz0306/ccr} で入手できる。

Video moment localization aims to retrieve the target segment of an untrimmed video according to the natural language query. Weakly supervised methods gains attention recently, as the precise temporal location of the target segment is not always available. However, one of the greatest challenges encountered by the weakly supervised method is implied in the mismatch between the video and language induced by the coarse temporal annotations. To refine the vision-language alignment, recent works contrast the cross-modality similarities driven by reconstructing masked queries between positive and negative video proposals. However, the reconstruction may be influenced by the latent spurious correlation between the unmasked and the masked parts, which distorts the restoring process and further degrades the efficacy of contrastive learning since the masked words are not completely reconstructed from the cross-modality knowledge. In this paper, we discover and mitigate this spurious correlation through a novel proposed counterfactual cross-modality reasoning method. Specifically, we first formulate query reconstruction as an aggregated causal effect of cross-modality and query knowledge. Then by introducing counterfactual cross-modality knowledge into this aggregation, the spurious impact of the unmasked part contributing to the reconstruction is explicitly modeled. Finally, by suppressing the unimodal effect of masked query, we can rectify the reconstructions of video proposals to perform reasonable contrastive learning. Extensive experimental evaluations demonstrate the effectiveness of our proposed method. The code is available at \href{https://github.com/sLdZ0306/CCR}{https://github.com/sLdZ0306/CCR}.
翻訳日:2023-08-11 11:59:01 公開日:2023-08-10
# AST-MHSA : 多頭部自己認識を用いたコード要約

AST-MHSA : Code Summarization using Multi-Head Self-Attention ( http://arxiv.org/abs/2308.05646v1 )

ライセンス: Link先を確認
Yeshwanth Nagaraj, Ujjwal Gupta(参考訳) コード要約は、ソースコードの簡潔な自然言語記述を生成することを目的としている。 一般的なアプローチでは、ソースコードの抽象構文木(AST)を用いて構造情報を符号化するトランスフォーマーベースのエンコーダデコーダアーキテクチャを採用している。 しかし、ASTは対応するソースコードよりもずっと長いので、既存のメソッドはこのサイズ制約を無視して、線形化されたAST全体をエンコーダに直接供給する。 この単純化されたアプローチにより、過剰な入力シーケンスから真に価値のある依存関係関係を抽出することが難しくなり、AST内の全ノードに適用される自己アテンションによる計算オーバーヘッドが大幅に増大する。 この問題を効果的かつ効率的に解決するために,マルチヘッドアテンションを用いてASTから重要な意味情報を抽出するモデルAST-MHSAを提案する。 モデルは、エンコーダとデコーダの2つの主要コンポーネントで構成される。 エンコーダは、コードの抽象構文木(AST)を入力として、隠された状態のシーケンスを生成する。 デコーダは、これらの隠された状態を入力として、コードの自然言語要約を生成する。 マルチヘッドアテンションメカニズムにより、モデルは入力コードの異なる表現を学習することができ、より包括的な要約を生成するために組み合わせることができる。 モデルはコードとサマリーのデータセットでトレーニングされ、モデルのパラメータは生成されたサマリーと基底サマリーの損失を最小限に抑えるように最適化される。

Code summarization aims to generate concise natural language descriptions for source code. The prevailing approaches adopt transformer-based encoder-decoder architectures, where the Abstract Syntax Tree (AST) of the source code is utilized for encoding structural information. However, ASTs are much longer than the corresponding source code, and existing methods ignore this size constraint by directly feeding the entire linearized AST into the encoders. This simplistic approach makes it challenging to extract truly valuable dependency relations from the overlong input sequence and leads to significant computational overhead due to self-attention applied to all nodes in the AST. To address this issue effectively and efficiently, we present a model, AST-MHSA that uses multi-head attention to extract the important semantic information from the AST. The model consists of two main components: an encoder and a decoder. The encoder takes as input the abstract syntax tree (AST) of the code and generates a sequence of hidden states. The decoder then takes these hidden states as input and generates a natural language summary of the code. The multi-head attention mechanism allows the model to learn different representations of the input code, which can be combined to generate a more comprehensive summary. The model is trained on a dataset of code and summaries, and the parameters of the model are optimized to minimize the loss between the generated summaries and the ground-truth summaries.
翻訳日:2023-08-11 11:58:32 公開日:2023-08-10
# 多目的最適化における進化過程評価のための比較ビジュアル分析フレームワーク

A Comparative Visual Analytics Framework for Evaluating Evolutionary Processes in Multi-objective Optimization ( http://arxiv.org/abs/2308.05640v1 )

ライセンス: Link先を確認
Yansong Huang, Zherui Zhang, Ao Jiao, Yuxin Ma, Ran Cheng(参考訳) 進化的多目的最適化(EMO)アルゴリズムは多基準決定問題の解法に有効であることが示されている。 現実世界のアプリケーションでは、アナリストは複数のアルゴリズムを同時に採用し、それぞれの解集合を比較して異なるアルゴリズムの特性を洞察し、より広い範囲の可能な解を探索する。 しかしながら、EMOアルゴリズムは一般にブラックボックスとして扱われ、内部進化過程の詳細な解析と比較を行うのに困難をもたらす。 視覚分析ツールを説明可能なAIに適用することで、インタラクティブな可視化は複数のEMOアルゴリズムの比較分析を大幅に向上させることができると我々は主張する。 本稿では,EMOアルゴリズムにおける進化過程の探索と比較を可能にする視覚分析フレームワークを提案する。 文献のレビューと専門家によるインタビューによって、提案フレームワークは様々な分析課題に対処し、進化の中間世代とソリューションセットの比較分析を支援するために、多面的な可視化設計を確立する。 我々は,ベンチマークと実世界の多目的最適化問題に関するケーススタディを通じて,本フレームワークの有効性を実証し,多種多様なアルゴリズムの検証・比較にアナリストがどのように活用できるかを明らかにする。

Evolutionary multi-objective optimization (EMO) algorithms have been demonstrated to be effective in solving multi-criteria decision-making problems. In real-world applications, analysts often employ several algorithms concurrently and compare their solution sets to gain insight into the characteristics of different algorithms and explore a broader range of feasible solutions. However, EMO algorithms are typically treated as black boxes, leading to difficulties in performing detailed analysis and comparisons between the internal evolutionary processes. Inspired by the successful application of visual analytics tools in explainable AI, we argue that interactive visualization can significantly enhance the comparative analysis between multiple EMO algorithms. In this paper, we present a visual analytics framework that enables the exploration and comparison of evolutionary processes in EMO algorithms. Guided by a literature review and expert interviews, the proposed framework addresses various analytical tasks and establishes a multi-faceted visualization design to support the comparative analysis of intermediate generations in the evolution as well as solution sets. We demonstrate the effectiveness of our framework through case studies on benchmarking and real-world multi-objective optimization problems to elucidate how analysts can leverage our framework to inspect and compare diverse algorithms.
翻訳日:2023-08-11 11:58:07 公開日:2023-08-10
# プライバシー保護型スパイクニューラルネットワークのための同型暗号化フレームワーク

A Homomorphic Encryption Framework for Privacy-Preserving Spiking Neural Networks ( http://arxiv.org/abs/2308.05636v1 )

ライセンス: Link先を確認
Farzad Nikfam, Raffaele Casaburi, Alberto Marchisio, Maurizio Martina and Muhammad Shafique(参考訳) 機械学習(ml)は現在、特にディープニューラルネットワーク(dnn)を通じて広く使われているが、計算負荷の増加とリソース要件がクラウドベースのソリューションにつながった。 この問題に対処するため、スパイキングニューラルネットワーク(SNN)と呼ばれる新しい世代のネットワークが登場し、人間の脳の振る舞いを模倣して効率を改善しエネルギー消費を減らす。 これらのネットワークはしばしば機密データなどの大量の機密情報を処理するため、プライバシー問題が発生する。 ホモモルフィック暗号化(HE)は、暗号データを復号することなく計算を実行できるソリューションを提供する。 本研究は,Brakerski/Fan-Vercauteren暗号方式を用いて従来のDNNとSNNを比較した。 広く使われている畳み込みアーキテクチャであるLeNet-5モデルは、LeNet-5アーキテクチャに基づいたDNNとSNNモデルの両方に使用され、ネットワークはFashionMNISTデータセットを使用してトレーニングされ、比較される。 以上の結果から,snsは平文モジュラスtの低値に対するdnnよりも最大40%高い精度を達成したが,複数の時間ステップを持つ時間符号化性により実行時間が長くなることがわかった。

Machine learning (ML) is widely used today, especially through deep neural networks (DNNs), however, increasing computational load and resource requirements have led to cloud-based solutions. To address this problem, a new generation of networks called Spiking Neural Networks (SNN) has emerged, which mimic the behavior of the human brain to improve efficiency and reduce energy consumption. These networks often process large amounts of sensitive information, such as confidential data, and thus privacy issues arise. Homomorphic encryption (HE) offers a solution, allowing calculations to be performed on encrypted data without decrypting it. This research compares traditional DNNs and SNNs using the Brakerski/Fan-Vercauteren (BFV) encryption scheme. The LeNet-5 model, a widely-used convolutional architecture, is used for both DNN and SNN models based on the LeNet-5 architecture, and the networks are trained and compared using the FashionMNIST dataset. The results show that SNNs using HE achieve up to 40% higher accuracy than DNNs for low values of the plaintext modulus t, although their execution time is longer due to their time-coding nature with multiple time-steps.
翻訳日:2023-08-11 11:57:46 公開日:2023-08-10
# IIHT:画像-指標階層変換器を用いた医用レポート生成

IIHT: Medical Report Generation with Image-to-Indicator Hierarchical Transformer ( http://arxiv.org/abs/2308.05633v1 )

ライセンス: Link先を確認
Keqiang Fan, Xiaohao Cai, Mahesan Niranjan(参考訳) 医療報告の自動生成は、医療分析においてますます重要になっている。 コンピュータ支援による診断記述を作成でき、医師の仕事を大幅に軽減することができる。 ニューラルマシン翻訳と画像キャプションの大きな成功に触発されて、医療報告生成のための様々なディープラーニング手法が提案されている。 しかし、データ不均衡や報告シーケンス間の長さと相関などの医療データの性質から、既存の方法で生成された報告は言語学的な傾向を示すが、十分な臨床精度は得られない。 本稿では,医用レポート生成のための画像対インジケータ階層トランス(iiht)フレームワークを提案する。 3つのモジュール、すなわち分類器モジュール、インジケータ拡張モジュール、ジェネレータモジュールで構成されている。 分類器モジュールは、入力された医用画像から画像特徴を抽出し、対応する状態で疾患関連指標を生成する。 その後、疾患関連指標はインジケータ拡張モジュールの入力として利用され、「データテキストデータ」戦略が組み込まれている。 変換器ベースのジェネレータは、抽出した特徴と画像の特徴を補助情報として利用して最終報告を生成する。 さらに, 本手法は, 実環境シナリオにおける病状指標の修正や, その操作を指標拡張モジュールに統合し, 流動的で正確な医療報告生成を可能にする。 各種評価指標を用いた大規模実験と最新手法との比較により,提案手法の性能が向上した。

Automated medical report generation has become increasingly important in medical analysis. It can produce computer-aided diagnosis descriptions and thus significantly alleviate the doctors' work. Inspired by the huge success of neural machine translation and image captioning, various deep learning methods have been proposed for medical report generation. However, due to the inherent properties of medical data, including data imbalance and the length and correlation between report sequences, the generated reports by existing methods may exhibit linguistic fluency but lack adequate clinical accuracy. In this work, we propose an image-to-indicator hierarchical transformer (IIHT) framework for medical report generation. It consists of three modules, i.e., a classifier module, an indicator expansion module and a generator module. The classifier module first extracts image features from the input medical images and produces disease-related indicators with their corresponding states. The disease-related indicators are subsequently utilised as input for the indicator expansion module, incorporating the "data-text-data" strategy. The transformer-based generator then leverages these extracted features along with image features as auxiliary information to generate final reports. Furthermore, the proposed IIHT method is feasible for radiologists to modify disease indicators in real-world scenarios and integrate the operations into the indicator expansion module for fluent and accurate medical report generation. Extensive experiments and comparisons with state-of-the-art methods under various evaluation metrics demonstrate the great performance of the proposed method.
翻訳日:2023-08-11 11:57:24 公開日:2023-08-10
# プライバシ-バリュー-アプリ関係と価値中心のプライバシアシスタント

The Privacy-Value-App Relationship and the Value-Centered Privacy Assistant ( http://arxiv.org/abs/2308.05700v1 )

ライセンス: Link先を確認
Sarah E. Carter, Mathieu d'Aquin, Dayana Spagnuelo, Ilaria Tiddi, Kathryn Cormican, Heike Felzmann(参考訳) 多くの人は、私たちの価値を考慮せずに、私たちのスマートフォンのデータプライバシーに影響を与える素早い決断をします。 そのような決定の1つは、スマートフォンアプリをダウンロードするかどうかを確立することだ。 本研究は,私たちの価値観とプライバシの好み,アプリ選択との関係をより深く理解し,価値中心のアプリ選択を促進するためのスマートフォン価値中心のプライバシアシスタント(VcPA)の有効性を検討することを目的としている。 そこで我々は,2つの相を含む混合手法の研究を行った。 最初の調査は,2つのアプリ(Lose It!とOpenLitterMap)のうちの1つをダウンロードするかを考えると,273人のスマートフォンユーザの値とプライバシの好みに関するオンライン調査だった。 その結果、価値とプライバシの好みはアプリやコンテキストに依存した方法で関連していることが示唆された。 第2フェーズでは、VcPAを77名のユーザで、Mock App Storeの合成設定でテストした。 私たちは、VcPAのユーザビリティを確立しました。VcPAは、選択した値プロファイルに一貫性のあるアプリを選択するユーザよりも、一部のユーザを支援します。 将来の質的かつコンテキスト特異的なユーザ視点の調査は、プライバシ決定のための価値の特定の役割を適切に把握し、VcPAを改善することに寄与する。

Many of us make quick decisions that affect our data privacy on our smartphones without due consideration of our values. One such decision point is establishing whether to download a smartphone app or not. In this work, we aim to better understand the relationship between our values, our privacy preferences, and our app choices, as well as explore the effectiveness of a smartphone value-centered privacy assistant (VcPA) at promoting value-centered app selection. To do this, we conducted a mixed-methods study that involved two phases. The first was an online survey of 273 smartphone user's values and privacy preferences when considering whether to download one of two apps (Lose It! and OpenLitterMap). Our results suggest that values and privacy preferences are related in an app or context-dependent manner. The second phase was testing the VcPA with 77 users in a synthetic Mock App Store setting. We established usability of a VcPA, with the VcPA helping some users more than others with selecting apps consistent with their selected value profile. Future qualitative and context-specific explorations of user perspectives could contribute to adequately capturing the specific role of values for privacy decision-making and improving the VcPA.
翻訳日:2023-08-11 11:51:58 公開日:2023-08-10
# ボレイリスのテレ増幅

Teleamplification on Borealis ( http://arxiv.org/abs/2308.05699v1 )

ライセンス: Link先を確認
Aaron Z. Goldberg and Khabat Heshami(参考訳) 最近の遠隔増幅の理論的提案では、入力状態の遠隔増幅を行うために、フォック状態、プログラム可能な干渉計、光子数分解検出器の準備が必要である。 これらは、任意に大きなエネルギーカットオフまでのフォトニック状態のテレポーテーションおよび非雑音線形増幅を可能にする。 本稿では, この提案をBorealisに適用し, 可変増幅係数を有する圧縮真空状態の遠隔増幅を示す。 その結果,テレポートモードにおける理論予測と増幅特性が一致した。 このデモンストレーションは、量子通信、センシング、誤り訂正を含むノイズレス線形増幅のためのフォトニック量子コンピューティングハードウェアの継続的な開発を動機付けている。

A recent theoretical proposal for teleamplification requires preparation of Fock states, programmable interferometers, and photon-number resolving detectors to herald the teleamplification of an input state. These enable teleportation and heralded noiseless linear amplification of a photonic state up to an arbitrarily large energy cutoff. We report on adapting this proposal for Borealis and demonstrating teleamplification of squeezed-vacuum states with variable amplification factors. The results match the theoretical predictions and exhibit features of amplification in the teleported mode. This demonstration motivates the continued development of photonic quantum computing hardware for noiseless linear amplification's applications across quantum communication, sensing, and error correction.
翻訳日:2023-08-11 11:51:34 公開日:2023-08-10
# SSLRec:レコメンデーションのための自己監督型学習ライブラリ

SSLRec: A Self-Supervised Learning Library for Recommendation ( http://arxiv.org/abs/2308.05697v1 )

ライセンス: Link先を確認
Xubin Ren, Lianghao Xia, Yuhao Yang, Wei Wei, Tianle Wang, Xuheng Cai and Chao Huang(参考訳) 自己教師付き学習(SSL)は、リコメンデーションシステムにおいてスパースとノイズの多いデータによって引き起こされる課題に対処するソリューションとして、近年大きな関心を集めている。 さまざまなレコメンデーションシナリオ(グラフコラボレーティブフィルタリング、シーケンシャルレコメンデーション、ソーシャルレコメンデーション、KG-enhancedレコメンデーションなど)で最先端のパフォーマンスを提供するために設計されたSSLアルゴリズムが増えているが、異なるドメインにまたがってレコメンデーションアルゴリズムを統合する統一フレームワークはいまだに存在しない。 このようなフレームワークは、自己監督型レコメンデーションアルゴリズムの基盤となり、既存のメソッドの検証を統一し、新しいメソッドの設計を推進する。 このギャップに対処するため、SSLRecという、SSLに強化されたさまざまな推奨者を評価するための、標準化され、フレキシブルで包括的なフレームワークを提供する、新しいベンチマークプラットフォームを紹介します。 SSLRecライブラリは、ユーザが最先端のモデルを簡単に評価できるモジュールアーキテクチャと、データ拡張と自己教師型ツールキットの完全なセットを備え、特定のニーズでSSLレコメンデーションモデルを作成するのに役立つ。 さらにSSLRecは、一貫性と公正な設定で、さまざまなレコメンデーションモデルのトレーニングと評価のプロセスを簡素化する。 私たちのSSLRecプラットフォームは、さまざまなシナリオにわたる最先端のSSL強化レコメンデーションモデルを包括的にカバーしています。 実装されたSSLRecフレームワークは、ソースコードリポジトリhttps://github.com/HKUDS/SSLRecで利用可能です。

Self-supervised learning (SSL) has gained significant interest in recent years as a solution to address the challenges posed by sparse and noisy data in recommender systems. Despite the growing number of SSL algorithms designed to provide state-of-the-art performance in various recommendation scenarios (e.g., graph collaborative filtering, sequential recommendation, social recommendation, KG-enhanced recommendation), there is still a lack of unified frameworks that integrate recommendation algorithms across different domains. Such a framework could serve as the cornerstone for self-supervised recommendation algorithms, unifying the validation of existing methods and driving the design of new ones. To address this gap, we introduce SSLRec, a novel benchmark platform that provides a standardized, flexible, and comprehensive framework for evaluating various SSL-enhanced recommenders. The SSLRec library features a modular architecture that allows users to easily evaluate state-of-the-art models and a complete set of data augmentation and self-supervised toolkits to help create SSL recommendation models with specific needs. Furthermore, SSLRec simplifies the process of training and evaluating different recommendation models with consistent and fair settings. Our SSLRec platform covers a comprehensive set of state-of-the-art SSL-enhanced recommendation models across different scenarios, enabling researchers to evaluate these cutting-edge models and drive further innovation in the field. Our implemented SSLRec framework is available at the source code repository https://github.com/HKUDS/SSLRec.
翻訳日:2023-08-11 11:51:24 公開日:2023-08-10
# 複雑度とアライメントの本質的関係に関する予備的検討

A Preliminary Study of the Intrinsic Relationship between Complexity and Alignment ( http://arxiv.org/abs/2308.05696v1 )

ライセンス: Link先を確認
Yingxiu Zhao, Bowen Yu, Binyuan Hui, Haiyang Yu, Fei Huang, Yongbin Li, Nevin L. Zhang(参考訳) オープンドメイン命令データを用いた大規模言語モデル(LLM)のトレーニングは、エンドタスクやユーザの好みに合わせることに成功している。 広範な研究によって、命令データの質と多様性の強化が一貫してパフォーマンスを向上させることが強調された。 しかし、データの複雑さの影響は、(1)複雑さの増加に伴うパフォーマンス改善の持続可能性が不確実なスケーリング法、(2)複雑化による改善がより多くのトレーニングトークンの導入によってもたらされるかどうかのトークンの追加法、(3)簡単から難易度までの命令を組み込むことの潜在的な利点が完全には理解されていないという3つの側面において、いまだ研究されていない。 本稿では,制御可能な方法で命令データの複雑性を体系的に高めるために, \textit{tree-instruct}を提案する。 このアプローチでは、指定されたノード数を命令セマンティクスツリーに追加し、修正されたツリーに基づいて新しい命令データを生成する。 追加ノード数を調整することで、修正した命令データの難易度を制御できる。 1) 複雑さの増大は継続的にパフォーマンスの改善につながる。 例えば、1000の命令データと10のノードを使用することで、24対%の勝利率が向上した。 2) 同じトークン予算の下では、いくつかの複雑な命令は多様だが単純な命令よりも優れている。 (3) カリキュラム指導のチューニングでは期待された結果が得られず,複雑さの増大に焦点が当てられていることが鍵である。

Training large language models (LLMs) with open-domain instruction data has yielded remarkable success in aligning to end tasks and user preferences. Extensive research has highlighted that enhancing the quality and diversity of instruction data consistently improves performance. However, the impact of data complexity, as a crucial metric, remains relatively unexplored in three aspects: (1) scaling law, where the sustainability of performance improvements with increasing complexity is uncertain, (2) additional tokens, whether the improvement brought by complexity comes from introducing more training tokens, and (3) curriculum tuning, where the potential advantages of incorporating instructions ranging from easy to difficult are not yet fully understood. In this paper, we propose \textit{tree-instruct} to systematically enhance the complexity of instruction data in a controllable manner. This approach adds a specified number of nodes into the instruction semantic tree, yielding new instruction data based on the modified tree. By adjusting the number of added nodes, we can control the difficulty level in the modified instruction data. Our preliminary experiments reveal the following insights: (1) Increasing complexity consistently leads to sustained performance improvements. For instance, using 1,000 instruction data and 10 nodes resulted in a substantial 24\% increase in win rate. (2) Under the same token budget, a few complex instructions outperform diverse yet simple instructions. (3) Curriculum instruction tuning might not yield the anticipated results; focusing on increasing complexity appears to be the key.
翻訳日:2023-08-11 11:50:51 公開日:2023-08-10
# 自己教師表現学習者としてのマスク拡散

Masked Diffusion as Self-supervised Representation Learner ( http://arxiv.org/abs/2308.05695v1 )

ライセンス: Link先を確認
Zixuan Pan, Jianxu Chen, Yiyu Shi(参考訳) denoising diffusion probabilistic modelsは、最近最先端の生成性能を示し、強力なピクセルレベルの表現学習者として使われている。 本稿では,拡散モデルに固有の生成能力と表現学習能力の相互関係を分解する。 本稿では,従来の適応型ガウス雑音をマスキング機構で置き換える,スケーラブルな自己教師付き表現学習機であるマスク拡散モデル(MDM)を提案する。 提案手法は従来のベンチマークをはるかに上回り,医学的・自然的なセマンティックセグメンテーションタスク,特に数ショットシナリオにおける顕著な進歩を示す。

Denoising diffusion probabilistic models have recently demonstrated state-of-the-art generative performance and been used as strong pixel-level representation learners. This paper decomposes the interrelation between the generative capability and representation learning ability inherent in diffusion models. We present masked diffusion model (MDM), a scalable self-supervised representation learner that substitutes the conventional additive Gaussian noise of traditional diffusion with a masking mechanism. Our proposed approach convincingly surpasses prior benchmarks, demonstrating remarkable advancements in both medical and natural image semantic segmentation tasks, particularly within the context of few-shot scenario.
翻訳日:2023-08-11 11:50:24 公開日:2023-08-10
# 任意の数のオブザーバブルに対する普遍的量子確実性関係

A Universal Quantum Certainty Relation for Arbitrary Number of Observables ( http://arxiv.org/abs/2308.05690v1 )

ライセンス: Link先を確認
Ao-Xiang Liu, Ma-Cheng Yang and Cong-Feng Qiao(参考訳) 格子理論によって導出される、n$-次元系における任意の$m$オブザーバブルに対する普遍的量子確実性関係は、確率分布ベクトル(pdvs)の直和に対する状態に依存しない最大下界を与える。 最下界は任意の直交基底に対して$(1/N,...,1/N)$と一致するが、$M\geqslant3$の偏差関係は非自明である。 3つの相互に相補的な可観測集合とより一般的な次元 2 の可観測集合に対する普遍的可微分境界が達成される。 任意に拡散する非互換可観測器のpdvを持つ量子状態は準備できないことが判明した。 さらに、異なる基底を持つ量子コヒーレンスとのトレードオフ関係を特徴付ける量子コヒーレンスに対する相補的な関係も得る。

We derive by lattice theory a universal quantum certainty relation for arbitrary $M$ observables in $N$-dimensional system, which provides a state-independent maximum lower bound on the direct-sum of the probability distribution vectors (PDVs) in terms of majorization relation. While the utmost lower bound coincides with $(1/N,...,1/N)$ for any two orthogonal bases, the majorization certainty relation for $M\geqslant3$ is shown to be nontrivial. The universal majorization bounds for three mutually complementary observables and a more general set of observables in dimension-2 are achieved. It is found that one cannot prepare a quantum state with PDVs of incompatible observables spreading out arbitrarily. Moreover, we obtain a complementary relation for the quantum coherence as well, which characterizes a trade-off relation of quantum coherence with different bases.
翻訳日:2023-08-11 11:50:11 公開日:2023-08-10
# 骨格運動インフォームドグラディエントを用いた骨格に基づく人行動認識におけるハードノンボックス攻撃

Hard No-Box Adversarial Attack on Skeleton-Based Human Action Recognition with Skeleton-Motion-Informed Gradient ( http://arxiv.org/abs/2308.05681v1 )

ライセンス: Link先を確認
Zhengzhi Lu, He Wang, Ziyi Chang, Guoan Yang and Hubert P. H. Shum(参考訳) 近年, 骨格に基づくヒトの行動認識法は, 敵の攻撃に対して脆弱であることが示されている。 しかしながら、これらの攻撃方法は、被害者の完全な知識(ホワイトボックス攻撃)、訓練データへのアクセス(転送ベースの攻撃)、または頻繁なモデルクエリ(ブラックボックス攻撃)を必要とする。 要件はすべて非常に限定的であり、脆弱性がどの程度有害かという疑問を提起する。 本稿では,脆弱性が存在することを実証する。 攻撃者は被害者モデルやトレーニングデータやラベルにアクセスできず、ハード・ノー・ボックス攻撃(hard no-box attack)という用語が使われる。 具体的には,まず,骨格運動インフォームド(SMI)勾配という,攻撃の新たな勾配を計算するために,対向損失を定義する運動多様体を学習する。 我々の勾配には、データの各次元が独立であると仮定して損失勾配を計算する既存の勾配に基づく攻撃方法とは異なる動きダイナミクスの情報が含まれている。 smi勾配は多くの勾配に基づく攻撃法を補強することができ、新しい非ボックス攻撃法に繋がる。 広範な評価と比較により,本手法は既存の分類器に真の脅威を与えることが示された。 彼らはまた、SMI勾配は、非ボックスおよび転送ベースのブラックボックス設定の両方において、反対サンプルの転送可能性と非受容性を向上することを示した。

Recently, methods for skeleton-based human activity recognition have been shown to be vulnerable to adversarial attacks. However, these attack methods require either the full knowledge of the victim (i.e. white-box attacks), access to training data (i.e. transfer-based attacks) or frequent model queries (i.e. black-box attacks). All their requirements are highly restrictive, raising the question of how detrimental the vulnerability is. In this paper, we show that the vulnerability indeed exists. To this end, we consider a new attack task: the attacker has no access to the victim model or the training data or labels, where we coin the term hard no-box attack. Specifically, we first learn a motion manifold where we define an adversarial loss to compute a new gradient for the attack, named skeleton-motion-informed (SMI) gradient. Our gradient contains information of the motion dynamics, which is different from existing gradient-based attack methods that compute the loss gradient assuming each dimension in the data is independent. The SMI gradient can augment many gradient-based attack methods, leading to a new family of no-box attack methods. Extensive evaluation and comparison show that our method imposes a real threat to existing classifiers. They also show that the SMI gradient improves the transferability and imperceptibility of adversarial samples in both no-box and transfer-based black-box settings.
翻訳日:2023-08-11 11:49:52 公開日:2023-08-10
# 多段階検索による脱文物語の探索: クロスリンガル,クロスデータセット,ゼロショット学習の実現

Finding Already Debunked Narratives via Multistage Retrieval: Enabling Cross-Lingual, Cross-Dataset and Zero-Shot Learning ( http://arxiv.org/abs/2308.05680v1 )

ライセンス: Link先を確認
Iknoor Singh, Carolina Scarton, Xingyi Song, Kalina Bontcheva(参考訳) 既に分断された物語を回収する作業は、すでに事実確認済みの物語を検出することを目的としている。 既に発表されている主張の発見の成功は、プロのファクトチェッカーの手作業を減らすだけでなく、誤報の拡散を遅らせることにも寄与する。 主に、簡単に利用可能なデータがないため、特に、言語横断的なタスク、すなわち、チェックされているオンライン投稿の言語とは異なる言語でファクトチェック記事の検索を考える場合、これは未熟な問題である。 この論文はこのギャップを埋める 一 事実確認記事データベースへのつぶやきをクエリとして使用し、既に散逸した物語の言語間検索を可能とする新しいデータセットを作成すること。 二 この作業のための細調整及びオフザシェルフ多言語事前訓練トランスモデルのベンチマークのための広範な実験を提示すること。 (iii)このクロスリンガル・デバンク検索タスクを改良および再ランキング段階に分割する新しい多段階フレームワークの提案。 以上の結果から,すでに分割されている物語の言語横断検索作業は困難であり,既成のトランスフォーマーモデルでは強い語彙ベースライン(BM25)を上回りません。 それでも、当社の多段階検索フレームワークは堅牢であり、ほとんどのシナリオでbm25を上回っており、モデルのパフォーマンスを損なうことなく、クロスドメインおよびゼロショット学習を可能にしています。

The task of retrieving already debunked narratives aims to detect stories that have already been fact-checked. The successful detection of claims that have already been debunked not only reduces the manual efforts of professional fact-checkers but can also contribute to slowing the spread of misinformation. Mainly due to the lack of readily available data, this is an understudied problem, particularly when considering the cross-lingual task, i.e. the retrieval of fact-checking articles in a language different from the language of the online post being checked. This paper fills this gap by (i) creating a novel dataset to enable research on cross-lingual retrieval of already debunked narratives, using tweets as queries to a database of fact-checking articles; (ii) presenting an extensive experiment to benchmark fine-tuned and off-the-shelf multilingual pre-trained Transformer models for this task; and (iii) proposing a novel multistage framework that divides this cross-lingual debunk retrieval task into refinement and re-ranking stages. Results show that the task of cross-lingual retrieval of already debunked narratives is challenging and off-the-shelf Transformer models fail to outperform a strong lexical-based baseline (BM25). Nevertheless, our multistage retrieval framework is robust, outperforming BM25 in most scenarios and enabling cross-domain and zero-shot learning, without significantly harming the model's performance.
翻訳日:2023-08-11 11:49:25 公開日:2023-08-10
# 2d3d-matr : 2d-3dマッチングトランスによる画像と点雲の認識フリー登録

2D3D-MATR: 2D-3D Matching Transformer for Detection-free Registration between Images and Point Clouds ( http://arxiv.org/abs/2308.05667v1 )

ライセンス: Link先を確認
Minhao Li, Zheng Qin, Zhirui Gao, Renjiao Yi, Chengyang Zhu, Kai Xu(参考訳) 一般的に採用されている登録法では,キーポイント検出の不整合性や特徴記述の不整合性により,モダリティ間のケースでは困難が生じる。 2d3d-matrという,画像と点雲の高精度かつロバストな登録手法を提案する。 本手法では,まず,入力画像と点雲のサンプルダウンパッチ間の粗い対応を計算し,それを拡張して,パッチ領域内の画素と点間の密接な対応を形成する。 粗いレベルのパッチマッチングは、セルフアテンションによるグローバルコンテキスト制約とクロスアテンションによるクロスモダリティ相関を共同で学習するトランスフォーマーに基づいている。 パッチマッチングにおけるスケールあいまいさを解消するために,画像パッチ毎にマルチスケールのピラミッドを構築し,適切な解像度レベルで最適な画像パッチを見つけることを学ぶ。 2D3D-MATRは、2D3D-MATRが従来のP2-Netよりも約20ドル高いインヤ比で、登録リコールで10ドル以上のパフォーマンスを示している。 私たちのコードとモデルは \url{https://github.com/minhaolee/2d3dmatr} で利用可能です。

The commonly adopted detect-then-match approach to registration finds difficulties in the cross-modality cases due to the incompatible keypoint detection and inconsistent feature description. We propose, 2D3D-MATR, a detection-free method for accurate and robust registration between images and point clouds. Our method adopts a coarse-to-fine pipeline where it first computes coarse correspondences between downsampled patches of the input image and the point cloud and then extends them to form dense correspondences between pixels and points within the patch region. The coarse-level patch matching is based on transformer which jointly learns global contextual constraints with self-attention and cross-modality correlations with cross-attention. To resolve the scale ambiguity in patch matching, we construct a multi-scale pyramid for each image patch and learn to find for each point patch the best matching image patch at a proper resolution level. Extensive experiments on two public benchmarks demonstrate that 2D3D-MATR outperforms the previous state-of-the-art P2-Net by around $20$ percentage points on inlier ratio and over $10$ points on registration recall. Our code and models are available at \url{https://github.com/minhaolee/2D3DMATR}.
翻訳日:2023-08-11 11:49:00 公開日:2023-08-10
# 人・車のトリップ予測のための深層学習手法の探索:NHTSデータの解析

Exploring Deep Learning Approaches to Predict Person and Vehicle Trips: An Analysis of NHTS Data ( http://arxiv.org/abs/2308.05665v1 )

ライセンス: Link先を確認
Kojo Adu-Gyamfi, Sharma Anuj(参考訳) 現代の交通計画では、人・車両の正確な予測に大きく依存している。 しかし、伝統的な計画モデルはしばしば旅行行動の複雑さとダイナミクスを考慮せず、これらの予測では最適以上の精度が得られない。 本研究は,トリップ予測,最終的には交通計画にアプローチする方法を変革する深層学習技術の可能性を探求する。 全国家庭旅行調査(NHTS)の包括的データセットを用いて,人・車旅行予測のための深層学習モデルを開発し,訓練した。 提案モデルでは、NHTSデータの膨大な情報を活用し、従来見過ごされていた複雑な非線形関係をキャプチャする。 その結果, 深層学習モデルでは, 人的旅行予測では98%, 自動車旅行推定では96%の精度が得られた。 これは、従来の交通計画モデルのパフォーマンスよりも大幅に改善され、このドメインにおけるディープラーニングのパワーを示している。 この研究の意義は、より正確な予測にとどまらない。 トリップ予測モデルの精度と信頼性を高めることで、プランナーはより効率的なデータ駆動輸送政策、インフラ、およびサービスを定式化することができる。 そのため,本研究は,深層学習などの先進的手法を取り入れた交通計画分野の必要性を浮き彫りにしている。 本論文のその後のセクションでは, 詳細な方法論, 結果とその意義について, 徹底的な議論とともに紹介する。

Modern transportation planning relies heavily on accurate predictions of person and vehicle trips. However, traditional planning models often fail to account for the intricacies and dynamics of travel behavior, leading to less-than-optimal accuracy in these predictions. This study explores the potential of deep learning techniques to transform the way we approach trip predictions, and ultimately, transportation planning. Utilizing a comprehensive dataset from the National Household Travel Survey (NHTS), we developed and trained a deep learning model for predicting person and vehicle trips. The proposed model leverages the vast amount of information in the NHTS data, capturing complex, non-linear relationships that were previously overlooked by traditional models. As a result, our deep learning model achieved an impressive accuracy of 98% for person trip prediction and 96% for vehicle trip estimation. This represents a significant improvement over the performances of traditional transportation planning models, thereby demonstrating the power of deep learning in this domain. The implications of this study extend beyond just more accurate predictions. By enhancing the accuracy and reliability of trip prediction models, planners can formulate more effective, data-driven transportation policies, infrastructure, and services. As such, our research underscores the need for the transportation planning field to embrace advanced techniques like deep learning. The detailed methodology, along with a thorough discussion of the results and their implications, are presented in the subsequent sections of this paper.
翻訳日:2023-08-11 11:48:32 公開日:2023-08-10
# 深層学習に基づく自動運転システムにおける予測と計画の統合再考

Rethinking Integration of Prediction and Planning in Deep Learning-Based Automated Driving Systems: A Review ( http://arxiv.org/abs/2308.05731v1 )

ライセンス: Link先を確認
Steffen Hagedorn, Marcel Hallgarten, Martin Stoll, Alexandru Condurache(参考訳) 自動走行は個人、公共、貨物の移動に革命をもたらす可能性がある。 センサデータを使って環境を正確に認識するなど、知覚という大きな課題に加えて、自動運転は安全で快適で効率的な動きの軌跡を計画する。 安全と進歩を促進するために、多くの作品が周辺の交通の将来の動きを予測するモジュールに依存している。 モジュール化された自動運転システムは、予測と計画を逐次別タスクとして処理する。 このことは、周囲の交通がエゴ車両に与える影響を説明するが、エゴ車両の行動に対する交通参加者の反応を予測できない。 最近の研究は、安全で効率的で快適な運転を実現するためには、相互依存的なジョイントステップに予測と計画を統合する必要があることを示唆している。 様々なモデルがこのような統合システムを実装する一方で、様々な原理に関する包括的概要と理論的理解は欠如している。 我々は,最先端のディープラーニングに基づく予測・計画・統合予測・計画モデルを体系的にレビューする。 モデルアーキテクチャやモデル設計から行動的側面まで、統合のさまざまな側面が考慮され、互いに関連しています。 さらに,異なる統合手法の意義,強み,限界についても論じる。 研究のギャップを指摘し,今後の課題を述べるとともに,研究分野の傾向を強調することで,今後の研究の方向性を明らかにする。

Automated driving has the potential to revolutionize personal, public, and freight mobility. Besides the enormous challenge of perception, i.e. accurately perceiving the environment using available sensor data, automated driving comprises planning a safe, comfortable, and efficient motion trajectory. To promote safety and progress, many works rely on modules that predict the future motion of surrounding traffic. Modular automated driving systems commonly handle prediction and planning as sequential separate tasks. While this accounts for the influence of surrounding traffic on the ego-vehicle, it fails to anticipate the reactions of traffic participants to the ego-vehicle's behavior. Recent works suggest that integrating prediction and planning in an interdependent joint step is necessary to achieve safe, efficient, and comfortable driving. While various models implement such integrated systems, a comprehensive overview and theoretical understanding of different principles are lacking. We systematically review state-of-the-art deep learning-based prediction, planning, and integrated prediction and planning models. Different facets of the integration ranging from model architecture and model design to behavioral aspects are considered and related to each other. Moreover, we discuss the implications, strengths, and limitations of different integration methods. By pointing out research gaps, describing relevant future challenges, and highlighting trends in the research field, we identify promising directions for future research.
翻訳日:2023-08-11 11:39:55 公開日:2023-08-10
# expresso:離散表現型音声合成のベンチマークと分析

EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis ( http://arxiv.org/abs/2308.05725v1 )

ライセンス: Link先を確認
Tu Anh Nguyen, Wei-Ning Hsu, Antony D'Avirro, Bowen Shi, Itai Gat, Maryam Fazel-Zarani, Tal Remez, Jade Copet, Gabriel Synnaeve, Michael Hassid, Felix Kreuk, Yossi Adi, Emmanuel Dupoux(参考訳) 近年の研究では、テキストではなく、自己教師型で学習され、書き起こしが難しい音声(韻律、音声スタイル、非言語発声)の表現的側面を捉えることができる低ビットの離散単位に基づいて、高品質な音声を合成できることが示されている。 これらの手法の採用は、ほとんどの音声合成データセットが読み取られており、自発性と表現性が著しく制限されているという事実により、いまだに制限されている。 そこで本研究では,26の自然表現スタイルで表現された読み上げ音声と即興対話の両方を含む,テキストなし音声合成のための高品質な表現音声データセットであるExpressoを紹介する。 このデータセットの課題とポテンシャルを,低ビット単位で入力をエンコードし,コンテンツやスタイルを維持しながら対象音声に合成する,表現力のある再合成ベンチマークで示す。 自己監督型離散エンコーダの自動測定値を用いて再生品質を評価し,品質,ビットレート,話者とスタイルの相違について検討した。 すべてのデータセット、評価メトリクス、ベースラインモデルはオープンソースです

Recent work has shown that it is possible to resynthesize high-quality speech based, not on text, but on low bitrate discrete units that have been learned in a self-supervised fashion and can therefore capture expressive aspects of speech that are hard to transcribe (prosody, voice styles, non-verbal vocalization). The adoption of these methods is still limited by the fact that most speech synthesis datasets are read, severely limiting spontaneity and expressivity. Here, we introduce Expresso, a high-quality expressive speech dataset for textless speech synthesis that includes both read speech and improvised dialogues rendered in 26 spontaneous expressive styles. We illustrate the challenges and potentials of this dataset with an expressive resynthesis benchmark where the task is to encode the input in low-bitrate units and resynthesize it in a target voice while preserving content and style. We evaluate resynthesis quality with automatic metrics for different self-supervised discrete encoders, and explore tradeoffs between quality, bitrate and invariance to speaker and style. All the dataset, evaluation metrics and baseline models are open source
翻訳日:2023-08-11 11:39:37 公開日:2023-08-10
# 動的活性化関数によるフィードフォワードと畳み込みニューラルネットワークの性能最適化

Optimizing Performance of Feedforward and Convolutional Neural Networks through Dynamic Activation Functions ( http://arxiv.org/abs/2308.05724v1 )

ライセンス: Link先を確認
Chinmay Rane, Kanishka Tyagi, Michael Manry(参考訳) ディープラーニングトレーニングトレーニングアルゴリズムは、音声、テキスト、画像ビデオなど、多くの分野において、近年で大きな成功を収めています。 より深い層と深い層が提案され、152層ほどのresnet構造で大きな成功を収めた。 浅層畳み込みニューラルネットワーク(CNN)はまだ活発な研究であり、いくつかの現象はまだ説明されていない。 ネットワークで使用されるアクティベーション機能は、ネットワークに非線型性を提供するため、最も重要である。 Relu は最もよく使われる活性化関数であり、隠れた層に複雑なピースワイド線形(PWL)活性化を示す。 これらのpwl活性化は、畳み込みニューラルネットワークと多層パーセプトロンのためのネットワークのrelu活性化よりもはるかに優れた働きを示す。 浅部および深部CNNに対するPyTorchの結果の比較を行い,本症例をさらに強化した。

Deep learning training training algorithms are a huge success in recent years in many fields including speech, text,image video etc. Deeper and deeper layers are proposed with huge success with resnet structures having around 152 layers. Shallow convolution neural networks(CNN's) are still an active research, where some phenomena are still unexplained. Activation functions used in the network are of utmost importance, as they provide non linearity to the networks. Relu's are the most commonly used activation function.We show a complex piece-wise linear(PWL) activation in the hidden layer. We show that these PWL activations work much better than relu activations in our networks for convolution neural networks and multilayer perceptrons. Result comparison in PyTorch for shallow and deep CNNs are given to further strengthen our case.
翻訳日:2023-08-11 11:39:16 公開日:2023-08-10
# ディエンス予測のマルチタスク学習のためのゲーティング付き変形可能なミキサー変換器

Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction ( http://arxiv.org/abs/2308.05721v1 )

ライセンス: Link先を確認
Yangyang Xu, Yibo Yang, Bernard Ghanemm, Lefei Zhang(参考訳) CNNとTransformerには独自の利点があり、どちらもマルチタスク学習(MTL)における高密度な予測に広く利用されている。 MTLに関する現在の研究の多くは、CNNやTransformerにのみ依存している。 本研究では,変形可能なcnnと問合せに基づくトランスフォーマーのメリットを共有ゲーティングと組み合わせることで,マルチタスク学習と密集型予測を組み合わせた新しいmtlモデルを提案する。 この組み合わせは、強力で柔軟なタスク固有の学習と、コストの低減、複雑さの低減、および従来のmtlメソッドよりも小さいパラメータの利点により、シンプルで効率的なソリューションを提供する。 変形可能なミキサートランス (deformable mixer Transformer with gating, DeMTG) は,MTL用統合ネットワークにコンボリューションとアテンション機構を組み込んだ,シンプルで効果的なエンコーダ・デコーダアーキテクチャである。 各ブロックの利点を巧みに利用し、ローカルおよびグローバルの観点から全てのタスクに対して変形可能で包括的な機能を提供する。 まず、変形可能なミキサーエンコーダは、異なるチャネル間の通信を可能にするためのチャネル認識混合演算子と、より情報のある空間位置を効率的にサンプリングするために、変形可能な畳み込みを施した空間認識変形演算子と、の2種類の演算子を含む。 第2に、タスク対応ゲーティングトランスフォーマーデコーダを用いてタスク固有の予測を行い、タスクインタラクション特徴のキャプチャに自己注意と統合されたタスクインタラクションブロックを適用し、ゲーティングアテンションと統合されたタスククエリブロックを利用してタスク固有の特徴の選定を行う。 さらに,提案するdemtgはgflops使用量が少なく,現行のトランスフォーマベースおよびcnnベースの競合モデルと比較して,3つの密集した予測データセット上での多種多様な指標において有意に性能が向上することを示した。 私たちのコードとモデルはhttps://github.com/yangyangxu0/demtgで利用可能です。

CNNs and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In this work, we present a novel MTL model by combining both merits of deformable CNN and query-based Transformer with shared gating for multi-task learning of dense prediction. This combination may offer a simple and efficient solution owing to its powerful and flexible task-specific learning and advantages of lower cost, less complexity and smaller parameters than the traditional MTL methods. We introduce deformable mixer Transformer with gating (DeMTG), a simple and effective encoder-decoder architecture up-to-date that incorporates the convolution and attention mechanism in a unified network for MTL. It is exquisitely designed to use advantages of each block, and provide deformable and comprehensive features for all tasks from local and global perspective. First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels, and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations. Second, the task-aware gating transformer decoder is used to perform the task-specific predictions, in which task interaction block integrated with self-attention is applied to capture task interaction features, and the task query block integrated with gating attention is leveraged to select corresponding task-specific features. Further, the experiment results demonstrate that the proposed DeMTG uses fewer GFLOPs and significantly outperforms current Transformer-based and CNN-based competitive models on a variety of metrics on three dense prediction datasets. Our code and models are available at https://github.com/yangyangxu0/DeMTG.
翻訳日:2023-08-11 11:39:03 公開日:2023-08-10
# Wolfram AlphaおよびCode Interpreterプラグインを用いたGPT-4のテスト

Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems ( http://arxiv.org/abs/2308.05713v1 )

ライセンス: Link先を確認
Ernest Davis and Scott Aaronson(参考訳) 本報告では,2023年6月から8月にかけて行われた,理科・数学における105のオリジナル問題に対する,Wolfram Alpha と Code Interpreter プラグインを用いた大規模言語モデル GPT-4 のテストについて述べる。 以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。 つまり、GPTは、プラグインから有用な回答を導き出す方法で、問題を定式化するのに苦労することが多いのです。 これらのインターフェースの障害を修正することは、GPTを大学レベルの計算問題に対する信頼性の高いツールにする上で、中心的な課題であるように思える。

This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT's ability to solve these problems. Having said that, there are still often "interface" failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.
翻訳日:2023-08-11 11:38:26 公開日:2023-08-10
# HVAC制御のための古典的・深い強化学習法の比較

A Comparison of Classical and Deep Reinforcement Learning Methods for HVAC Control ( http://arxiv.org/abs/2308.05711v1 )

ライセンス: Link先を確認
Marshall Wang, John Willes, Thomas Jiralerspong, Matin Moezzi(参考訳) 強化学習(RL)は、HVAC制御を最適化するための有望なアプローチである。 RLはシステム性能の向上、エネルギー消費の削減、コスト効率の向上のためのフレームワークを提供する。 我々は,複数のHVAC環境にまたがる古典的およびディープなRL手法(Q-LearningとDeep-Q-Networks)をベンチマークし,モデルハイパーパラメータ選択と報酬チューニングの実践的考察を行った。 その結果, HVAC システムにおける RL エージェントの設定に関する知見が得られ, エネルギー効率とコスト効率が向上した。

Reinforcement learning (RL) is a promising approach for optimizing HVAC control. RL offers a framework for improving system performance, reducing energy consumption, and enhancing cost efficiency. We benchmark two popular classical and deep RL methods (Q-Learning and Deep-Q-Networks) across multiple HVAC environments and explore the practical consideration of model hyper-parameter selection and reward tuning. The findings provide insight for configuring RL agents in HVAC systems, promoting energy-efficient and cost-effective operation.
翻訳日:2023-08-11 11:38:13 公開日:2023-08-10
# ヘラルドghz状態のフォトニック源

A photonic source of heralded GHZ states ( http://arxiv.org/abs/2308.05709v1 )

ライセンス: Link先を確認
H. Cao, L. M. Hansen, F. Giorgino, L. Carosini, P. Zahalka, F. Zilk, J. C. Loredo, P. Walther(参考訳) ユビキタスフォトニック量子コンピューティングと全光量子リピータノードを可能にするため、大きな多光子絡み状態を生成することが主な関心事である。 これらの応用はクラスター状態を用いた計測に基づく量子計算を利用する。 顕著なことに、任意の大きさのフォトニッククラスター状態は、3光子グリーンベルガー・ホルン・ザイリンガー状態(GHZ)を初期資源状態として作用する実現可能な線形光融合ゲートを用いて生成できることが示されている。 したがって、ヘラルドghz状態を生成する能力はフォトニック量子コンピューティングをスケールアップする上で非常に重要である。 ここでは, 固体量子エミッタと安定偏光型干渉計から高レートの6光子源(547{\pm}2$ Hz)を作製する3つの光子の偏光符号化GHZ状態の報告により, この必要ビルディングブロックを実験的に実証する。 3つのアシラリー光子の検出は、3光子GHZ状態の生成を、最大$$\mathcal{F}=0.7278{\pm}0.0106$に導く。 本結果は,線形光学実装を用いたスケーラブルなエンタングリング操作の経路を導出する。

Generating large multiphoton entangled states is of main interest due to enabling universal photonic quantum computing and all-optical quantum repeater nodes. These applications exploit measurement-based quantum computation using cluster states. Remarkably, it was shown that photonic cluster states of arbitrary size can be generated by using feasible heralded linear optics fusion gates that act on heralded three-photon Greenberger-Horne-Zeilinger (GHZ) states as the initial resource state. Thus, the capability of generating heralded GHZ states is of great importance for scaling up photonic quantum computing. Here, we experimentally demonstrate this required building block by reporting a polarisation-encoded heralded GHZ state of three photons, for which we build a high-rate six-photon source ($547{\pm}2$ Hz) from a solid-state quantum emitter and a stable polarisation-based interferometer. The detection of three ancillary photons heralds the generation of three-photon GHZ states among the remaining particles with fidelities up to $\mathcal{F}=0.7278{\pm}0.0106$. Our results initiate a path for scalable entangling operations using heralded linear-optics implementations.
翻訳日:2023-08-11 11:37:59 公開日:2023-08-10
# 因果表現学習のための新しい挑戦的データセットであるshadow datasets

Shadow Datasets, New challenging datasets for Causal Representation Learning ( http://arxiv.org/abs/2308.05707v1 )

ライセンス: Link先を確認
Jiageng Zhu, Hanchen Xie, Jianhua Wu, Jiazhi Li, Mahyar Khayatkhoei, Mohamed E. Hussein, Wael AbdAlmageed(参考訳) 意味的要因間の因果関係の発見は、表現学習において創発的な話題である。 ほとんどの因果表現学習(CRL)は、コストのかかるラベリングのため、完全に管理されている。 この制限を解決するために、弱い教師付きCRL法が導入された。 CRLの性能を評価するために、Pendulum、Flow、CelebA(BEARD)、CelebA(SMILE)の4つの既存のデータセットを利用する。 しかし、既存のCRLデータセットは生成因子が少ない単純なグラフに限られている。 そこで我々は多種多様な生成因子とより洗練された因果グラフを持つ2つの新しいデータセットを提案する。 さらに、現在の実データセットであるceleba(beard)とceleba(smile)では、当初提案された因果グラフはデータセット分布と一致しない。 そこで我々は修正を提案する。

Discovering causal relations among semantic factors is an emergent topic in representation learning. Most causal representation learning (CRL) methods are fully supervised, which is impractical due to costly labeling. To resolve this restriction, weakly supervised CRL methods were introduced. To evaluate CRL performance, four existing datasets, Pendulum, Flow, CelebA(BEARD) and CelebA(SMILE), are utilized. However, existing CRL datasets are limited to simple graphs with few generative factors. Thus we propose two new datasets with a larger number of diverse generative factors and more sophisticated causal graphs. In addition, current real datasets, CelebA(BEARD) and CelebA(SMILE), the originally proposed causal graphs are not aligned with the dataset distributions. Thus, we propose modifications to them.
翻訳日:2023-08-11 11:37:40 公開日:2023-08-10
# エルミート格子と非エルミート格子の接合部におけるエンジニアリングスキン効果

Engineering skin effect across a junction of Hermitian and non-Hermitian lattice ( http://arxiv.org/abs/2308.05702v1 )

ライセンス: Link先を確認
Ranjan Modak(参考訳) 非エルミート格子と非対称近傍ホッピングの2つの辺を対称近傍ホッピングの2つのエルミート格子と接続するシステムについて検討する。 これらのエルミート格子がない場合、系の固有状態の大部分は、非エルミート皮膚効果として知られる現象であるエッジに局在する。 開境界条件 (obc) でエルミート格子と接続すると、非エルミート格子とエルミート格子の接合部に局所状態が存在し、さらにスペクトルは非局在状態と局所状態とを分離した移動性エッジを示す。 反対に、周期境界条件(pbc)ではモビリティエッジは消失し、非局在化位相はスケール不変な局所化位相に変化し、局所化状態はジャンクションで依然としてピークとなる。 また、連結エルミート格子が熱力学的に大きい場合、OBCではほとんどの状態が非局在化され、PBCではスケール不変な局所化相を示す。

We study a system where the two edges of a non-Hermitian lattice with asymmetric nearest-neighbor hopping are connected with two Hermitian lattices with symmetric nearest-neighbor hopping. In the absence of those Hermitian lattices, the majority of the eigenstates of the system will be localized at the edges, the phenomena known as the non-Hermitian skin effect. We show that once we connect it with the Hermitian lattices, for open boundary conditions (OBC), the localized states exist at the junction of the non-Hermitian and Hermitian lattice; moreover, the spectrum shows mobility edges that separate delocalized and localized states. On the contrary, mobility edges vanish for periodic boundary conditions (PBC), and the delocalized phase turns into a scale-invariant localized phase, where the localized states are still peaked at the junctions. We also find that if the connected Hermitian lattices are thermodynamically large, in OBC, most of the states become delocalized, while in PBC, the system still shows the scale-invariant localized phase.
翻訳日:2023-08-11 11:37:26 公開日:2023-08-10
# 自律運転における異常検出のための世界モデルの可能性を探る

Exploring the Potential of World Models for Anomaly Detection in Autonomous Driving ( http://arxiv.org/abs/2308.05701v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Lukas Bosch, Tim Joseph, Helen Gremmelmaier, Yitian Yang, J. Marius Z\"ollner(参考訳) 近年、自動運転は飛躍的な進歩を遂げている。 自動運転車はクローズドな環境で高い性能を示すが、予期せぬ状況に直面すると困難に遭遇する。 同時に、エージェントが潜在的なアクションに応じて未来を予測する方法として、モデルベースの強化学習の分野に世界モデルが出現した。 これにより、少ない報酬と複雑な制御タスクに優れた結果がもたらされた。 この研究は、自動運転の領域で異常検出を行うために、世界モデルをどのように活用できるかの概要を提供する。 我々は,世界モデルのキャラクタリゼーションを提供し,個々のコンポーネントを異常検出の以前の研究に関連付けて,さらなる研究を促進する。

In recent years there have been remarkable advancements in autonomous driving. While autonomous vehicles demonstrate high performance in closed-set conditions, they encounter difficulties when confronted with unexpected situations. At the same time, world models emerged in the field of model-based reinforcement learning as a way to enable agents to predict the future depending on potential actions. This led to outstanding results in sparse reward and complex control tasks. This work provides an overview of how world models can be leveraged to perform anomaly detection in the domain of autonomous driving. We provide a characterization of world models and relate individual components to previous works in anomaly detection to facilitate further research in the field.
翻訳日:2023-08-11 11:37:06 公開日:2023-08-10
# 強く駆動されたフェルミポラロン

The strongly driven Fermi polaron ( http://arxiv.org/abs/2308.05746v1 )

ライセンス: Link先を確認
Franklin J. Vivanco, Alexander Schuckert, Songtao Huang, Grant L. Schumacher, Gabriel G. T. Assump\c{c}\~ao, Yunpeng Ji, Jianyi Chen, Michael Knap, Nir Navon(参考訳) 準粒子は、量子多体系の理解の多くを裏付ける物質の創発的な励起である。 したがって、それらの特性を外部のフィールドで操作したり、破壊したりする可能性には、基本的かつ実用的な意味合いがある。 しかし固体材料では、フォノンなど他の集団励起との複雑な相互作用により、準粒子が外部の場によってどのように変化するかを理解することがしばしば困難である。 ここでは、均質な量子ガスのクリーンな設定と高速高周波制御を利用して、非相互作用するフェルミガスと相互作用する不純物によって形成される準粒子であるフェルミポラロンを弱く超強力に操作する。 不純物の2つの内部状態を利用して定常分光を行い、そこから駆動ポラロンのエネルギーを抽出する。 2つの内部状態間のラビ振動から引き起こされたポーラロンの崩壊速度と準粒子残基を測定する。 大きな駆動強度では、抽出された準粒子残基が一元を超え、ラビ振動と不純物スペクトル関数の関係に関する興味深い疑問を引き起こす。 我々の実験は、強く駆動された量子物質中の制御可能な準粒子を研究するための有望なプラットフォームとしてフェルミ・ポーラロンを確立する。

Quasiparticles are emergent excitations of matter that underlie much of our understanding of quantum many-body systems. Therefore, the prospect of manipulating their properties with external fields -- or even destroying them -- has both fundamental and practical implications. However, in solid-state materials it is often challenging to understand how quasiparticles are modified by external fields owing to their complex interplay with other collective excitations, such as phonons. Here, we take advantage of the clean setting of homogeneous quantum gases and fast radio-frequency control to manipulate Fermi polarons -- quasiparticles formed by impurities interacting with a non-interacting Fermi gas -- from weak to ultrastrong drives. Exploiting two internal states of the impurity species, we develop a steady-state spectroscopy, from which we extract the energy of the driven polaron. We measure the decay rate and the quasiparticle residue of the driven polaron from the Rabi oscillations between the two internal states. At large drive strengths, the so-extracted quasiparticle residue exceeds unity, raising intriguing questions on the relationship between the Rabi oscillations and the impurity's spectral functions. Our experiment establishes the driven Fermi polaron as a promising platform for studying controllable quasiparticles in strongly driven quantum matter.
翻訳日:2023-08-11 11:32:05 公開日:2023-08-10
# 逆イメージング問題を解決するための収束保証付き反復再重み付け最小二乗ネットワーク

Iterative Reweighted Least Squares Networks With Convergence Guarantees for Solving Inverse Imaging Problems ( http://arxiv.org/abs/2308.05745v1 )

ライセンス: Link先を確認
Iaroslav Koshelev and Stamatios Lefkimmiatis(参考訳) 本稿では,解析に基づく画像正則化による画像再構成課題に対する新しい最適化手法を提案する。 そのような正規化子は、$\ell_p^p$-vector と $\mathcal{S}_p^p$ Schatten-matrix quasi-norms の重み付き拡張に対応するポテンシャル関数を用いてパラメータ化する。 提案手法は,合成系$\ell_p$および$\mathcal{s}_p$ノルムおよび解析系$\ell_1$および核ノルム正規化によく用いられる反復的再重み付け最小二乗法(irls法)を拡張したものである。 穏やかな条件下では、我々の最小化アルゴリズムが線形に定常点に収束することを証明し、その収束率の上限を与える。 さらに,問題に対する最良の結果を提供する正規化器のパラメータを選択するために,教師付き学習過程を確率的二段階最適化問題として定式化し,学習データから学習することを提案する。 提案する最小化戦略の収束保証により,メモリ効率の高い暗黙バックプロパゲーション方式により,そのような最適化を成功させることができることを示す。 学習したIRLS変種をリカレントネットワークとして実装し,非盲検,超解像,復号化の課題に対して,その性能評価を行った。 既存の学習された再構成手法と比較すると,本手法は競争力が高く,多くの場合において,パラメータ数が我々の場合よりも桁違いに多い未学習ネットワークよりも優れていた。

In this work we present a novel optimization strategy for image reconstruction tasks under analysis-based image regularization, which promotes sparse and/or low-rank solutions in some learned transform domain. We parameterize such regularizers using potential functions that correspond to weighted extensions of the $\ell_p^p$-vector and $\mathcal{S}_p^p$ Schatten-matrix quasi-norms with $0 < p \le 1$. Our proposed minimization strategy extends the Iteratively Reweighted Least Squares (IRLS) method, typically used for synthesis-based $\ell_p$ and $\mathcal{S}_p$ norm and analysis-based $\ell_1$ and nuclear norm regularization. We prove that under mild conditions our minimization algorithm converges linearly to a stationary point, and we provide an upper bound for its convergence rate. Further, to select the parameters of the regularizers that deliver the best results for the problem at hand, we propose to learn them from training data by formulating the supervised learning process as a stochastic bilevel optimization problem. We show that thanks to the convergence guarantees of our proposed minimization strategy, such optimization can be successfully performed with a memory-efficient implicit back-propagation scheme. We implement our learned IRLS variants as recurrent networks and assess their performance on the challenging image reconstruction tasks of non-blind deblurring, super-resolution and demosaicking. The comparisons against other existing learned reconstruction approaches demonstrate that our overall method is very competitive and in many cases outperforms existing unrolled networks, whose number of parameters is orders of magnitude higher than in our case.
翻訳日:2023-08-11 11:31:45 公開日:2023-08-10
# PlankAssembly:学習型形状プログラムを用いた3次元オーソグラフィからのロバスト3次元再構成

PlankAssembly: Robust 3D Reconstruction from Three Orthographic Views with Learnt Shape Programs ( http://arxiv.org/abs/2308.05744v1 )

ライセンス: Link先を確認
Wentao Hu and Jia Zheng and Zixin Zhang and Xiaojun Yuan and Jian Yin and Zihan Zhou(参考訳) 本稿では,3つの直交図形から3次元CADモデルへの2次元線描画を自動変換する手法を提案する。 既存の手法では、2次元の観測を3次元空間にバックプロジェクションし、入力と出力の間に明示的な対応を維持しながら3次元モデルを再構成する。 このような手法は入力の誤りやノイズに敏感であるため、人間設計者が作成した入力図面が不完全である場合、しばしば失敗する。 この難しさを克服するために、Transformerベースのシーケンス生成モデルにおける注意機構を活用し、入力と出力の間の柔軟なマッピングを学習する。 さらに, 対象物生成に適した形状プログラムの設計を行い, 復元精度を高め, cadモデリングアプリケーションを容易にする。 新しいベンチマークデータセットの実験では、入力がノイズや不完全である場合、我々の手法は既存の手法よりも大幅に優れていた。

In this paper, we develop a new method to automatically convert 2D line drawings from three orthographic views into 3D CAD models. Existing methods for this problem reconstruct 3D models by back-projecting the 2D observations into 3D space while maintaining explicit correspondence between the input and output. Such methods are sensitive to errors and noises in the input, thus often fail in practice where the input drawings created by human designers are imperfect. To overcome this difficulty, we leverage the attention mechanism in a Transformer-based sequence generation model to learn flexible mappings between the input and output. Further, we design shape programs which are suitable for generating the objects of interest to boost the reconstruction accuracy and facilitate CAD modeling applications. Experiments on a new benchmark dataset show that our method significantly outperforms existing ones when the inputs are noisy or incomplete.
翻訳日:2023-08-11 11:31:11 公開日:2023-08-10
# ニューラルプログレッシブメッシュ

Neural Progressive Meshes ( http://arxiv.org/abs/2308.05741v1 )

ライセンス: Link先を確認
Yun-Chun Chen, Vladimir G. Kim, Noam Aigerman, Alec Jacobson(参考訳) 近年の携帯端末で消費される3Dコンテンツの急増は、インターネット上で大規模な幾何学的データを送信するための効率的なツールを必要とする。 詳細な高解像度の資産は、転送帯域幅だけでなくストレージにも挑戦し、適切な帯域幅予算を用いて資産を伝送するためには、詳細レベルの技術がしばしば使用される。 これらの手法は,データ転送を段階的に行うことが特に望ましいため,幾何の質が向上する。 我々の重要な洞察は、3Dメッシュの幾何学的詳細は、異なる形状であってもよく似た局所パターンを示すため、共有学習された生成空間で効果的に表現できるということである。 この空間は、分割ベースのエンコーダ-デコーダアーキテクチャを使って、事前訓練された多数の曲面を用いて学習する。 さらに、クライアントが帯域幅のコストと再構成の質の間のトレードオフを制御できる部分分割の中間レベル間で、追加の残余機能を段階的に送信し、ニューラルネットワークのプログレッシブメッシュ表現を提供する。 本手法は,複雑な3次元形状の多様な集合について評価し,圧縮率と再構成品質の点でベースラインを上回っていることを示す。

The recent proliferation of 3D content that can be consumed on hand-held devices necessitates efficient tools for transmitting large geometric data, e.g., 3D meshes, over the Internet. Detailed high-resolution assets can pose a challenge to storage as well as transmission bandwidth, and level-of-detail techniques are often used to transmit an asset using an appropriate bandwidth budget. It is especially desirable for these methods to transmit data progressively, improving the quality of the geometry with more data. Our key insight is that the geometric details of 3D meshes often exhibit similar local patterns even across different shapes, and thus can be effectively represented with a shared learned generative space. We learn this space using a subdivision-based encoder-decoder architecture trained in advance on a large collection of surfaces. We further observe that additional residual features can be transmitted progressively between intermediate levels of subdivision that enable the client to control the tradeoff between bandwidth cost and quality of reconstruction, providing a neural progressive mesh representation. We evaluate our method on a diverse set of complex 3D shapes and demonstrate that it outperforms baselines in terms of compression ratio and reconstruction quality.
翻訳日:2023-08-11 11:30:54 公開日:2023-08-10
# ゼログラッド:非微分可能グラフィクスのための局所サロゲート損失の学習

Zero Grads Ever Given: Learning Local Surrogate Losses for Non-Differentiable Graphics ( http://arxiv.org/abs/2308.05739v1 )

ライセンス: Link先を確認
Michael Fischer, Tobias Ritschel(参考訳) グラディエントベースの最適化は現在、グラフィックスで広く使われているが、不幸にも未定義やゼロ勾配の問題には適用できない。 この問題を回避するために、損失関数は手動で、類似のミニマを持つが微分可能な「代理」に置き換えることができる。 提案するフレームワークであるZeroGradsは,対象関数であるサロゲートの神経近似を学習することで,このプロセスを自動化する。 目的の積極的に円滑なバージョンでサロゲートを訓練し、局所性を奨励し、サロゲートの能力が現在のトレーニングエピソードで重要なものに集中する。 このフィッティングはパラメータ最適化とともにオンラインで行われ、事前計算されたデータや事前訓練されたモデルなしで自己教師される。 対象のサンプリングはコストがかかるため(フルレンダリングやシミュレータ実行が必要)、トラクタブルな実行時間と競争性能を少ないオーバーヘッドで実現可能な効率的なサンプリングスキームを考案する。 本研究では,レンダリングの可視性,プロシーデュラルモデリングにおける離散パラメータ空間,物理駆動アニメーションにおける最適制御など,多種多様な非凸,非微分のブラックボックス問題を最適化する。 従来のアルゴリズムとは対照的に、我々の手法はより高次元にスケールし、最大35kの相互リンク変数の問題を実演する。

Gradient-based optimization is now ubiquitous across graphics, but unfortunately can not be applied to problems with undefined or zero gradients. To circumvent this issue, the loss function can be manually replaced by a "surrogate" that has similar minima but is differentiable. Our proposed framework, ZeroGrads, automates this process by learning a neural approximation of the objective function, the surrogate, which in turn can be used to differentiate through arbitrary black-box graphics pipelines. We train the surrogate on an actively smoothed version of the objective and encourage locality, focusing the surrogate's capacity on what matters at the current training episode. The fitting is performed online, alongside the parameter optimization, and self-supervised, without pre-computed data or pre-trained models. As sampling the objective is expensive (it requires a full rendering or simulator run), we devise an efficient sampling scheme that allows for tractable run-times and competitive performance at little overhead. We demonstrate optimizing diverse non-convex, non-differentiable black-box problems in graphics, such as visibility in rendering, discrete parameter spaces in procedural modelling or optimal control in physics-driven animation. In contrast to more traditional algorithms, our approach scales well to higher dimensions, which we demonstrate on problems with up to 35k interlinked variables.
翻訳日:2023-08-11 11:30:31 公開日:2023-08-10
# Follow Anything: リアルタイムでオープンセットの検出、追跡、追跡

Follow Anything: Open-set detection, tracking, and following in real-time ( http://arxiv.org/abs/2308.05737v1 )

ライセンス: Link先を確認
Alaa Maalouf and Ninad Jadhav and Krishna Murthy Jatavallabhula and Makram Chahine and Daniel M.Vogt and Robert J. Wood and Antonio Torralba and Daniela Rus(参考訳) 産業自動化から物流や倉庫、医療やセキュリティまで、いくつかのロボティクスのユースケースにおいて、関心事の追跡と追跡は重要である。 本稿では,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。 私たちのアプローチは 'follow anything'' (FAn) と呼ばれ、オープンな語彙とマルチモーダルモデルです -- トレーニング時に見られる概念に制限されず、テキスト、イメージ、クェリを使用して推論時に新しいクラスに適用できます。 大規模な事前訓練モデル(基礎モデル)からリッチなビジュアル記述子を活用することで、FAnは入力画像シーケンスに対してマルチモーダルクエリ(テキスト、画像、クリック)をマッチングすることでオブジェクトを検出し、セグメント化することができる。 これらの検出およびセグメンテーションされたオブジェクトは、画像フレーム全体で追跡される。 我々は、実世界のロボットシステム(マイクロエアロ車両)でFAnを実証し、リアルタイム制御ループで関心のある物体をシームレスに追跡する能力を報告した。 ファンは軽量(6-8gb)のグラフィックカードでラップトップに展開でき、毎秒6〜20フレームのスループットを実現している。 迅速な採用、デプロイメント、拡張性を実現するため、プロジェクトのWebページにあるすべてのコードをhttps://github.com/alaamaalouf/FollowAnything.comでオープンソース化しました。 また読者には、このhttps://www.youtube.com/watch.com で5分間の解説ビデオをご覧ください。 v=6mgt3epytrw。

Tracking and following objects of interest is critical to several robotics use cases, ranging from industrial automation to logistics and warehousing, to healthcare and security. In this paper, we present a robotic system to detect, track, and follow any object in real-time. Our approach, dubbed ``follow anything'' (FAn), is an open-vocabulary and multimodal model -- it is not restricted to concepts seen at training time and can be applied to novel classes at inference time using text, images, or click queries. Leveraging rich visual descriptors from large-scale pre-trained models (foundation models), FAn can detect and segment objects by matching multimodal queries (text, images, clicks) against an input image sequence. These detected and segmented objects are tracked across image frames, all while accounting for occlusion and object re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial vehicle) and report its ability to seamlessly follow the objects of interest in a real-time control loop. FAn can be deployed on a laptop with a lightweight (6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To enable rapid adoption, deployment, and extensibility, we open-source all our code on our project webpage at https://github.com/alaamaalouf/FollowAnything . We also encourage the reader the watch our 5-minutes explainer video in this https://www.youtube.com/watch?v=6Mgt3EPytrw .
翻訳日:2023-08-11 11:30:05 公開日:2023-08-10
# MapTRv2: オンラインベクトル化HDマップ構築のためのエンドツーエンドフレームワーク

MapTRv2: An End-to-End Framework for Online Vectorized HD Map Construction ( http://arxiv.org/abs/2308.05736v1 )

ライセンス: Link先を確認
Bencheng Liao, Shaoyu Chen, Yunchi Zhang, Bo Jiang, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang(参考訳) high-definition(hd)マップは、運転シーンの豊富かつ正確な静的な環境情報を提供し、自律運転システムにおける計画の基本的かつ不可欠な構成要素である。 本稿では,オンラインベクトル化HDマップ構築のためのエンドツーエンドフレームワークであるtextbf{Map} \textbf{TR}ansformerを提案する。 そこで我々は,マップ要素の形状を正確に記述し,学習過程を安定化する,等価な置換群からなる点集合としてマップ要素をモデル化する,統一的な置換等価モデリング手法である \ie を提案する。 構造化地図情報を柔軟にエンコードするために階層的クエリ埋め込みスキームを設計し,階層的2部マッチングを行う。 収束を早めるために、補助的な一対多マッチングと密集した監督を導入する。 提案手法は任意の形状の地図要素によく対応している。 リアルタイムの推論速度で動作し、nuScenesとArgoverse2データセットの両方で最先端のパフォーマンスを達成する。 その結果, 複雑かつ多様な運転シーンにおいて, 安定かつ頑健な地図構築の質が示された。 コードやデモは \url{https://github.com/hustvl/MapTR} で公開されている。

High-definition (HD) map provides abundant and precise static environmental information of the driving scene, serving as a fundamental and indispensable component for planning in autonomous driving system. In this paper, we present \textbf{Map} \textbf{TR}ansformer, an end-to-end framework for online vectorized HD map construction. We propose a unified permutation-equivalent modeling approach, \ie, modeling map element as a point set with a group of equivalent permutations, which accurately describes the shape of map element and stabilizes the learning process. We design a hierarchical query embedding scheme to flexibly encode structured map information and perform hierarchical bipartite matching for map element learning. To speed up convergence, we further introduce auxiliary one-to-many matching and dense supervision. The proposed method well copes with various map elements with arbitrary shapes. It runs at real-time inference speed and achieves state-of-the-art performance on both nuScenes and Argoverse2 datasets. Abundant qualitative results show stable and robust map construction quality in complex and various driving scenes. Code and more demos are available at \url{https://github.com/hustvl/MapTR} for facilitating further studies and applications.
翻訳日:2023-08-11 11:29:32 公開日:2023-08-10
# AudioLDM 2: 自己教師付き事前学習によるホロスティック音声生成学習

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining ( http://arxiv.org/abs/2308.05734v1 )

ライセンス: Link先を確認
Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley(参考訳) 音声生成は、音声、音楽、音響効果などの様々な種類のオーディオに共通するが、それぞれのタイプのデザインモデルは、他のタイプのものと大きく異なる特定の目的やバイアスを慎重に考慮する必要がある。 本稿では,音声生成の統一的な視点に近づけるために,音声・音楽・音響効果生成のための同じ学習手法を用いた枠組みを提案する。 本フレームワークは,loa(language of audio)と呼ばれる音声の汎用表現を導入する。 任意の音声は、自己教師付き事前学習学習モデルであるaudiomaeに基づいてloaに翻訳することができる。 生成過程において、GPT-2モデルを用いて任意のモダリティをLOAに変換し、LOAに条件付き遅延拡散モデルを用いて自己教師付き音声生成学習を行う。 提案フレームワークは, 文脈内学習能力, 自己教師付き事前学習型オーディオマインダ, 潜時拡散モデルなどの利点を自然にもたらす。 text-to-audio、text-to-music、text-to-speechの主要なベンチマーク実験は、以前のアプローチに対する新しい最先端または競争力を示している。 デモとコードはhttps://audioldm.github.io/audioldm2で入手できます。

Although audio generation shares commonalities across different types of audio, such as speech, music, and sound effects, designing models for each type requires careful consideration of specific objectives and biases that can significantly differ from those of other types. To bring us closer to a unified perspective of audio generation, this paper proposes a framework that utilizes the same learning method for speech, music, and sound effect generation. Our framework introduces a general representation of audio, called language of audio (LOA). Any audio can be translated into LOA based on AudioMAE, a self-supervised pre-trained representation learning model. In the generation process, we translate any modalities into LOA by using a GPT-2 model, and we perform self-supervised audio generation learning with a latent diffusion model conditioned on LOA. The proposed framework naturally brings advantages such as in-context learning abilities and reusable self-supervised pretrained AudioMAE and latent diffusion models. Experiments on the major benchmarks of text-to-audio, text-to-music, and text-to-speech demonstrate new state-of-the-art or competitive performance to previous approaches. Our demo and code are available at https://audioldm.github.io/audioldm2.
翻訳日:2023-08-11 11:29:14 公開日:2023-08-10
# frozenrecon: 凍結深度モデルを用いたポーズフリー3dシーン再構成

FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models ( http://arxiv.org/abs/2308.05733v1 )

ライセンス: Link先を確認
Guangkai Xu, Wei Yin, Hao Chen, Chunhua Shen, Kai Cheng, Feng Zhao(参考訳) 3dシーンの再構築は長年のビジョン課題である。 既存のアプローチは、幾何学ベースと学習ベースに分類できる。 前者はマルチビュー幾何学を利用するが、ビュー間の正確なピクセル対応に依存するため、壊滅的な失敗に直面することがある。 後者は2Dまたは3D表現を直接学習することでこれらの問題を軽減した。 しかし、大規模なビデオや3Dトレーニングデータなしでは、ディープネットワークに数千万、あるいは数十億の最適化パラメータが存在するため、様々な現実世界のシナリオに一般化することはほとんどできない。 近年,大規模データセットで学習したロバストな単眼深度推定モデルが弱い3次元形状を持つことが証明されているが,未知のカメラパラメータやアフィン不変性,フレーム間不整合などにより復元には不十分である。 本稿では,LeReSのようなアフィン不変深度モデルのロバスト性を,フレーム間の整合性を確保しつつ,フレーム間の整合性を確保しつつ,多種多様なシーンに変換できる新しいテスト時間最適化手法を提案する。 具体的には,事前学習したアフィン不変深度モデルの深度予測を凍結し,幾何学的整合性アライメントモジュールを用いて未知のスケールシフト値を最適化し,その結果得られたスケール整合深度マップを用いてカメラポーズのロバストな取得と,低テクチュア領域においても密集したシーン再構成を実現する。 実験の結果,本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。

3D scene reconstruction is a long-standing vision task. Existing approaches can be categorized into geometry-based and learning-based methods. The former leverages multi-view geometry but can face catastrophic failures due to the reliance on accurate pixel correspondence across views. The latter was proffered to mitigate these issues by learning 2D or 3D representation directly. However, without a large-scale video or 3D training data, it can hardly generalize to diverse real-world scenarios due to the presence of tens of millions or even billions of optimization parameters in the deep network. Recently, robust monocular depth estimation models trained with large-scale datasets have been proven to possess weak 3D geometry prior, but they are insufficient for reconstruction due to the unknown camera parameters, the affine-invariant property, and inter-frame inconsistency. Here, we propose a novel test-time optimization approach that can transfer the robustness of affine-invariant depth models such as LeReS to challenging diverse scenes while ensuring inter-frame consistency, with only dozens of parameters to optimize per video frame. Specifically, our approach involves freezing the pre-trained affine-invariant depth model's depth predictions, rectifying them by optimizing the unknown scale-shift values with a geometric consistency alignment module, and employing the resulting scale-consistent depth maps to robustly obtain camera poses and achieve dense scene reconstruction, even in low-texture regions. Experiments show that our method achieves state-of-the-art cross-dataset reconstruction on five zero-shot testing datasets.
翻訳日:2023-08-11 11:28:52 公開日:2023-08-10
# PDE-Refiner:ニューラルPDEソルバによる正確なロングロールアウトの実現

PDE-Refiner: Achieving Accurate Long Rollouts with Neural PDE Solvers ( http://arxiv.org/abs/2308.05732v1 )

ライセンス: Link先を確認
Phillip Lippe, Bastiaan S. Veeling, Paris Perdikaris, Richard E. Turner, Johannes Brandstetter(参考訳) 時間依存偏微分方程式(PDE)は、科学や工学においてユビキタスである。 近年,従来の解法では計算コストが高かったため,ディープニューラルネットワークに基づくサロゲートの関心が高まっている。 このようなニューラルネットワークPDEソルバの実用性は、長い時間的水平線上で正確で安定した予測を提供する能力に依存している。 そこで本研究では,PDEソリューションの高頻度に付随する非支配的空間周波数情報の無視を,安定かつ正確なロールアウト性能を制限する主要な落とし穴として,時間的ロールアウト戦略の大規模解析を行う。 PDE-Refiner(PDE-Refiner)は、多段階精製プロセスを通じて全ての周波数成分のより正確なモデリングを可能にする新しいモデルクラスである。 我々はPDE-Refinerを複雑な流体力学の挑戦的なベンチマークで検証し、ニューラル、数値、ハイブリッドなニューラル・数値アーキテクチャを含む最先端のモデルを一貫して上回る安定した正確なロールアウトを示す。 さらに,PDE-Refinerはスペクトルデータ拡張の新たな形態を暗黙的に誘導するため,データ効率を大幅に向上させることを示した。 最後に、PDE-Refinerの拡散モデルへの接続により、モデルの予測不確かさの正確かつ効率的な評価が可能となり、サロゲートが不正確なときに推定できる。

Time-dependent partial differential equations (PDEs) are ubiquitous in science and engineering. Recently, mostly due to the high computational cost of traditional solution techniques, deep neural network based surrogates have gained increased interest. The practical utility of such neural PDE solvers relies on their ability to provide accurate, stable predictions over long time horizons, which is a notoriously hard problem. In this work, we present a large-scale analysis of common temporal rollout strategies, identifying the neglect of non-dominant spatial frequency information, often associated with high frequencies in PDE solutions, as the primary pitfall limiting stable, accurate rollout performance. Based on these insights, we draw inspiration from recent advances in diffusion models to introduce PDE-Refiner; a novel model class that enables more accurate modeling of all frequency components via a multistep refinement process. We validate PDE-Refiner on challenging benchmarks of complex fluid dynamics, demonstrating stable and accurate rollouts that consistently outperform state-of-the-art models, including neural, numerical, and hybrid neural-numerical architectures. We further demonstrate that PDE-Refiner greatly enhances data efficiency, since the denoising objective implicitly induces a novel form of spectral data augmentation. Finally, PDE-Refiner's connection to diffusion models enables an accurate and efficient assessment of the model's predictive uncertainty, allowing us to estimate when the surrogate becomes inaccurate.
翻訳日:2023-08-11 11:28:24 公開日:2023-08-10