このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230317となっている論文です。

PDF登録状況(公開日: 20230317)

TitleAuthorsAbstract論文公表日・翻訳日
# ビッグデータ性能最適化のためのオートノミックアーキテクチャ

Autonomic Architecture for Big Data Performance Optimization ( http://arxiv.org/abs/2304.10503v1 )

ライセンス: Link先を確認
Mikhail Genkin, Frank Dehne, Anousheh Shahmirza, Pablo Navarro, Siyu Zhou(参考訳) apache sparkとhadoopをベースにしたビッグデータソフトウェアスタックは、多くの企業でミッションクリティカルになっています。 sparkとhadoopジョブのパフォーマンスは、多くの設定設定に依存する。 手動チューニングは高価で不安定です。 ビッグデータスタックが手動のチューニングに依存しないようにするために、オンラインおよびオフラインの自動チューニングアプローチを開発する努力がこれまであった。 しかし、これらは小さなデータセット上の非常に単純なシングルユーザーワークロードで、わずかなパフォーマンス改善しか示さなかった。 本稿では,apache spark と hadoop をオンラインで自動チューニングし,人間の管理者によるルールオブthumb チューニングよりも30%高速で,チューニングパラメータ空間を徹底的に探索することにより確立される,最大で92%の速度でチューニングを行う,ビッグデータの自動処理アーキテクチャである kermit を提案する。 KERMITは99%の精度で重要なワークロード変更を検出し、96%の精度で将来のワークロードタイプを予測することができる。 これらのワークロードの例を明示的にトレーニングすることなく、複雑なマルチユーザワークロードを特定して分類することができる。 将来のワークロードクラスとそのパフォーマンスを予測するために、過去のワークロード履歴に依存しない。 KERMITは新しいワークロードクラスを特定して学習し、人間の介入なしにワークロードのドリフトに適応できる。

The big data software stack based on Apache Spark and Hadoop has become mission critical in many enterprises. Performance of Spark and Hadoop jobs depends on a large number of configuration settings. Manual tuning is expensive and brittle. There have been prior efforts to develop on-line and off-line automatic tuning approaches to make the big data stack less dependent on manual tuning. These, however, demonstrated only modest performance improvements with very simple, single-user workloads on small data sets. This paper presents KERMIT - the autonomic architecture for big data capable of automatically tuning Apache Spark and Hadoop on-line, and achieving performance results 30% faster than rule-of-thumb tuning by a human administrator and up to 92% as fast as the fastest possible tuning established by performing an exhaustive search of the tuning parameter space. KERMIT can detect important workload changes with up to 99% accuracy, and predict future workload types with up to 96% accuracy. It is capable of identifying and classifying complex multi-user workloads without being explicitly trained on examples of these workloads. It does not rely on the past workload history to predict the future workload classes and their associated performance. KERMIT can identify and learn new workload classes, and adapt to workload drift, without human intervention.
翻訳日:2023-04-23 03:58:27 公開日:2023-03-17
# 量子チャネルの純度を考慮したガンカリゼ型量子ポントリャーギンニューラルネットワーク

Quantum Pontryagin Neural Networks in Gamkarlidze form subjected to the purity of quantum channels ( http://arxiv.org/abs/2304.02616v1 )

ライセンス: Link先を確認
Nahid Binandeh Dehaghani, A. Pedro Aguiar, Rafal Wisniewski(参考訳) 本研究では,lindblad(あるいはgorini-kossakowski-sudarshan-lindblad)マスター方程式によって動的に制御される開量子系に対する時間とエネルギーの最小化最適制御問題を検討する。 散逸はマルコフ時間非依存であり、制御は量子力学系のハミルトニアンによって支配される。 我々は、状態と制御入力に制約された散逸系における純度の研究に特に関心がある。 この問題を解決するためのアイデアは、以下の2つのテクニックを組み合わせている。 我々は、飽和関数とシステム拡張の概念を通じて制御制約を処理しながら、gamkarlidze再訪メソッドによる状態制約を扱う。 量子純度保存がそのような枠組みで定式化されたのはこれが初めてである。 我々はポントリャーギン最小原理を通じて最適性の必要条件を得る。 最後に、得られた境界値問題は、物理情報ニューラルネットワーク(PINN)アプローチによって解決される。 悪用されたポントリャーギンPINN技術は、量子制御の文脈でも新しい。 これらのPINNが最適制御行動の学習に有効であることを示す。

We investigate a time and energy minimization optimal control problem for open quantum systems, whose dynamics is governed through the Lindblad (or Gorini-Kossakowski-Sudarshan-Lindblad) master equation. The dissipation is Markovian time-independent, and the control is governed by the Hamiltonian of a quantum-mechanical system. We are specifically interested to study the purity in a dissipative system constrained by state and control inputs. The idea for solving this problem is by the combination of two following techniques. We deal with the state constraints through Gamkarlidze revisited method, while handling control constraints through the idea of saturation functions and system extensions. This is the first time that quantum purity conservation is formulated in such framework. We obtain the necessary conditions of optimality through the Pontryagin Minimum Principle. Finally, the resulted boundary value problem is solved by a Physics-Informed Neural Network (PINN) approach. The exploited Pontryagin PINN technique is also new in quantum control context. We show that these PINNs play an effective role in learning optimal control actions.
翻訳日:2023-04-16 22:33:35 公開日:2023-03-17
# 地域主権認識における大規模言語モデルの役割--正当性構築の分析

The Role of Large Language Models in the Recognition of Territorial Sovereignty: An Analysis of the Construction of Legitimacy ( http://arxiv.org/abs/2304.06030v1 )

ライセンス: Link先を確認
Francisco Castillo-Eslava, Carlos Mougan, Alejandro Romero-Eche, Steffen Staab(参考訳) 大規模言語モデル(LLM)が領土主権の認識とその正当性に与える影響について検討する。 google mapsやopenaiのchatgptのような大規模言語モデル(llm)のような技術ツールは、しばしば公平で客観的であると見なされるが、aiアルゴリズムが設計者や彼らが構築したデータのバイアスを反映しているため、この認識には欠陥がある。 我々はまた、それらを提供するAIおよび多国籍企業の行動と決定を評価することの重要性を強調し、集団的想像力におけるアイデアの正当性や確立といった側面において重要な役割を果たす。 本稿は、クリミア、ウェストバンク、トランスニトリアの3つの論争領域について、ウィキペディアの情報と国連の決議に対するChatGPTの反応を比較した。 LLMのようなAIベースのツールの出現は、新興技術が力を強化し、現実の理解に影響を与える新たなシナリオにつながっている、と私たちは主張する。 したがって、正当性の構築と領土主権の認識におけるaiの役割を監視・分析することが重要である。

We examine the potential impact of Large Language Models (LLM) on the recognition of territorial sovereignty and its legitimization. We argue that while technology tools, such as Google Maps and Large Language Models (LLM) like OpenAI's ChatGPT, are often perceived as impartial and objective, this perception is flawed, as AI algorithms reflect the biases of their designers or the data they are built on. We also stress the importance of evaluating the actions and decisions of AI and multinational companies that offer them, which play a crucial role in aspects such as legitimizing and establishing ideas in the collective imagination. Our paper highlights the case of three controversial territories: Crimea, West Bank and Transnitria, by comparing the responses of ChatGPT against Wikipedia information and United Nations resolutions. We contend that the emergence of AI-based tools like LLMs is leading to a new scenario in which emerging technology consolidates power and influences our understanding of reality. Therefore, it is crucial to monitor and analyze the role of AI in the construction of legitimacy and the recognition of territorial sovereignty.
翻訳日:2023-04-16 22:17:59 公開日:2023-03-17
# パンデミックのパルスを感知する:ソーシャルメディアによる公衆の感情に対する認知的格差のジオビジュアル化

Sensing the Pulse of the Pandemic: Geovisualizing the Demographic Disparities of Public Sentiment toward COVID-19 through Social Media ( http://arxiv.org/abs/2304.06120v1 )

ライセンス: Link先を確認
Binbin Lin, Lei Zou, Heng Cai, Mingzheng Yang and Bing Zhou(参考訳) ソーシャルメディアは、重要なイベントやトピックに対するユーザーの感情や主観的な感情を観察するユニークなレンズを提供しており、新型コロナウイルス(covid-19)パンデミックのような危機の間、公衆の感情を調査するために広く使われている。 しかし、ソーシャルメディアの利用は人口層によって異なるため、若者は高齢者よりもソーシャルメディアを使う傾向が強い。 このデジタル分割は、データ代表性と分析結果のバイアスをもたらし、ソーシャルメディアデータに基づく研究において永続的な課題を引き起こします。 本研究は、ソーシャルメディアデータを用いて、新型コロナウイルスに関する世論感情を推定するケーススタディを通じて、この課題に取り組むことを目的とする。 2020年1月から2021年12月までの米国におけるパンデミック関連twitterデータを分析した。 目的は,(1)人口集団間の不均一なソーシャルメディア利用の解明と,(2)ソーシャルメディアデータに基づく世論の偏りのない測定方法を構築すること,(2)人口統計学(SAD)指標による感性調整(Sentiment Adjusted by Demographics)指標,(3)SAD指標を用いた空間的・時間的公衆感情の評価である。 その結果、新型コロナウイルス関連感情の集団間で大きな差異が認められた。 女性と18歳未満のTwitterユーザーは、新型コロナウイルスに対する長期的な否定的な感情を表明した。 この研究で提案されたsad指数は31州、特にバーモント州におけるネガティブ感情の過小評価を補正した。 SADインデックスによると、ワイオミング州(バーモント州)のTwitterユーザーは、パンデミックに対する否定的なツイートの最大(最小)の割合を投稿した。

Social media offers a unique lens to observe users emotions and subjective feelings toward critical events or topics and has been widely used to investigate public sentiment during crises, e.g., the COVID-19 pandemic. However, social media use varies across demographic groups, with younger people being more inclined to use social media than the older population. This digital divide could lead to biases in data representativeness and analysis results, causing a persistent challenge in research based on social media data. This study aims to tackle this challenge through a case study of estimating the public sentiment about the COVID-19 using social media data. We analyzed the pandemic-related Twitter data in the United States from January 2020 to December 2021. The objectives are: (1) to elucidate the uneven social media usage among various demographic groups and the disparities of their emotions toward COVID-19, (2) to construct an unbiased measurement for public sentiment based on social media data, the Sentiment Adjusted by Demographics (SAD) index, through the post-stratification method, and (3) to evaluate the spatially and temporally evolved public sentiment toward COVID-19 using the SAD index. The results show significant discrepancies among demographic groups in their COVID-19-related emotions. Female and under or equal to 18 years old Twitter users expressed long-term negative sentiment toward COVID-19. The proposed SAD index in this study corrected the underestimation of negative sentiment in 31 states, especially in Vermont. According to the SAD index, Twitter users in Wyoming (Vermont) posted the largest (smallest) percentage of negative tweets toward the pandemic.
翻訳日:2023-04-16 21:56:41 公開日:2023-03-17
# 臨床データ共有の実践と課題

Practices and challenges in clinical data sharing ( http://arxiv.org/abs/2304.06509v1 )

ライセンス: Link先を確認
Fida K. Dankar(参考訳) データアクセスとプライバシに関する議論は進行中である。 絶え間ない変更/アップグレードによって生かされる。 一 収集したデータの形状(サイズ、多様性、感度及び品質の点で) (二)データ共有に関する法律 (iii)個人(ソーシャルメディア、ブログ、人口ベースのデータベース等)で利用可能な無料公開データの量 (iv)利用可能なプライバシー強化技術。 本稿では,研究目的のための臨床データ共有フレームワーク構築の方向性,課題,ベストプラクティスを明らかにする。 具体的には、フレームワークのための分類を作成し、各分類群で利用可能な設計選択を特定し、現在の法的枠組みを用いてその選択を実証する。 目的は、効果的で安全で透過的な研究アクセスフレームワークの実装のためのベストプラクティスを考案することである。

The debate on data access and privacy is an ongoing one. It is kept alive by the never-ending changes/upgrades in (i) the shape of the data collected (in terms of size, diversity, sensitivity and quality), (ii) the laws governing data sharing, (iii) the amount of free public data available on individuals (social media, blogs, population-based databases, etc.), as well as (iv) the available privacy enhancing technologies. This paper identifies current directions, challenges and best practices in constructing a clinical data-sharing framework for research purposes. Specifically, we create a taxonomy for the framework, identify the design choices available within each taxon, and demonstrate thew choices using current legal frameworks. The purpose is to devise best practices for the implementation of an effective, safe and transparent research access framework.
翻訳日:2023-04-16 21:38:20 公開日:2023-03-17
# リーンのための機械学習型前提選択

Machine-Learned Premise Selection for Lean ( http://arxiv.org/abs/2304.00994v1 )

ライセンス: Link先を確認
Bartosz Piotrowski, Ramon Fern\'andez Mir, Edward Ayers(参考訳) ユーザによって証明される定理の前提となる前提を示唆する,リーン証明アシスタントのための機械学習ベースのツールを紹介する。 ツールの設計原則は,(1)証明アシスタントとの緊密な統合,(2)使いやすさとインストール,(3)軽量で迅速なアプローチである。 この目的のために、オンラインで訓練されたランダム森林モデルのカスタムバージョンを設計した。 これはLean 4.0のリッチで効率的なメタプログラミング機能のおかげで可能になった。 ランダムな森は、リーンの数学ライブラリであるMathlibから抽出されたデータに基づいて訓練されている。 トレーニング機能やラベルを作成するための様々なオプションを試す。 トレーニングされたモデルからのアドバイスは、対話的に証明を構築しながら、エディターで呼び出すことができるsuggested_premises tacticを介してユーザに提供する。

We introduce a machine-learning-based tool for the Lean proof assistant that suggests relevant premises for theorems being proved by a user. The design principles for the tool are (1) tight integration with the proof assistant, (2) ease of use and installation, (3) a lightweight and fast approach. For this purpose, we designed a custom version of the random forest model, trained in an online fashion. It is implemented directly in Lean, which was possible thanks to the rich and efficient metaprogramming features of Lean 4. The random forest is trained on data extracted from mathlib -- Lean's mathematics library. We experiment with various options for producing training features and labels. The advice from a trained model is accessible to the user via the suggest_premises tactic which can be called in an editor while constructing a proof interactively.
翻訳日:2023-04-09 05:45:02 公開日:2023-03-17
# 深層学習による合成2光子顕微鏡画像におけるナノ粒子の局在

Deep Learning-Assisted Localisation of Nanoparticles in synthetically generated two-photon microscopy images ( http://arxiv.org/abs/2303.16903v1 )

ライセンス: Link先を確認
Rasmus Netterstr{\o}m, Nikolay Kutuzov, Sune Darkner, Maurits J{\o}rring Pallesen, Martin Johannes Lauritzen, Kenny Erleben, Francois Lauze(参考訳) 単一分子の追跡は、生物サンプル中の分子やナノ粒子の輸送を定量化するのに有用である。 既存の強度に基づくローカライゼーション法は走査顕微鏡によるイメージングには開発されていない。 低信号対雑音比、焦点外分子の移動、および走査型2光子顕微鏡(2pm)で記録された画像の高動きのぼやけは、分子の正確な局在に挑戦する。 データ駆動モデルの使用は、インビボ実験の典型例である低データ量のため、困難である。 少ないトレーニングデータを補う2PM画像シミュレータを開発した。 シミュレーターは、現実的な動きのぼやけ、背景蛍光、in vivoで観察されたショットノイズを模倣する。 シミュレーションデータを用いたデータ駆動モデルのトレーニングは、シミュレーション画像のローカライズ品質を改善し、なぜ強度ベースの手法が失敗するのかを示す。

Tracking single molecules is instrumental for quantifying the transport of molecules and nanoparticles in biological samples, e.g., in brain drug delivery studies. Existing intensity-based localisation methods are not developed for imaging with a scanning microscope, typically used for in vivo imaging. Low signal-to-noise ratios, movement of molecules out-of-focus, and high motion blur on images recorded with scanning two-photon microscopy (2PM) in vivo pose a challenge to the accurate localisation of molecules. Using data-driven models is challenging due to low data volumes, typical for in vivo experiments. We developed a 2PM image simulator to supplement scarce training data. The simulator mimics realistic motion blur, background fluorescence, and shot noise observed in vivo imaging. Training a data-driven model with simulated data improves localisation quality in simulated images and shows why intensity-based methods fail.
翻訳日:2023-04-02 18:15:31 公開日:2023-03-17
# 流体力学形式のディラック理論

Dirac Theory in Hydrodynamic Form ( http://arxiv.org/abs/2303.17461v1 )

ライセンス: Link先を確認
Luca Fabbri(参考訳) 相対論的スピノル場の場合、その速度を研究するために流体力学的定式化で記述された量子力学を考える:そのような流体力学的定式化では、通常定義される速度は、粒子の軌跡への接ベクトルを実際に表現することはできない。 我々は、この接ベクトルの代替的な定義を提案し、それゆえ粒子の軌道に対して、新しく、実際に可能な唯一の定義であると信じている。 最後に、多粒子系やアンサンブルの軌道の定義など、量子力学の多くの応用や解釈において有用であるため、これらの結果がさらなる問題に直面するために必要なステップであるについて議論する。

We consider quantum mechanics written in hydrodynamic formulation for the case of relativistic spinor fields to study their velocity: within such a hydrodynamic formulation it is possible to see that the velocity as is usually defined can not actually represent the tangent vector to the trajectories of particles. We propose an alternative definition for this tangent vector and hence for the trajectories of particles, which we believe to be new and in fact the only one that is possible. Finally we discuss how these results are a necessary step to take in order to face further problems, like the definition of trajectories for multi-particle systems or ensembles, as they happen to be useful in many applications and interpretations of quantum mechanics.
翻訳日:2023-04-02 18:10:17 公開日:2023-03-17
# OntoMath${}^{\mathbf{PRO}}$2.0オントロジー:形式モデルの更新

OntoMath${}^{\mathbf{PRO}}$ 2.0 Ontology: Updates of the Formal Model ( http://arxiv.org/abs/2303.13542v1 )

ライセンス: Link先を確認
Alexander Kirillovich, Olga Nevzorova, Evgeny Lipachev(参考訳) 本稿では,オントロジーに基づく数学的知識管理と表現の問題に焦点をあてる。 オープンリンクデータクラウドにおける数学的ステートメント表現のための形式モデルの開発には、主に注意が払われている。 提案モデルは、自然言語数学的テキストから数学的事実を抽出し、これらの事実を連結オープンデータとして表現するアプリケーションを対象としている。 このモデルは、プロ数学のオントロジーであるOntoMath${}^{\mathrm{PRO}}$ Ontologyの新バージョンの開発に使用される。 OntoMath${}^{\mathrm{PRO}}$はセマンティックパブリッシングプラットフォームの基礎であり、LaTeXフォーマットで数学的論文の集合を入力として、オントロジーベースのLinked Open Data表現を構築する。 セマンティックパブリッシングプラットフォームは、オントロジーデジタルエコシステム、オントロジー、テキスト分析ツール、数学的知識管理のためのアプリケーション、数学的公式のセマンティック検索、数学論文のレコメンデータシステムの中心となるコンポーネントである。 新しいモデルによると、オントロジーは、基礎オントロジー層、ドメインオントロジー層、言語層という3つの層に分けられる。 ドメインオントロジー層は言語に依存しない数学の概念を含んでいる。 言語層はこれらの概念の言語的基盤を提供し、基礎オントロジー層はメタオントロジーアノテーションを提供する。 概念は、オブジェクトの階層と再定義された関係の階層という2つの主要な階層にまとめられている。

This paper is devoted to the problems of ontology-based mathematical knowledge management and representation. The main attention is paid to the development of a formal model for the representation of mathematical statements in the Open Linked Data cloud. The proposed model is intended for applications that extract mathematical facts from natural language mathematical texts and represent these facts as Linked Open Data. The model is used in development of a new version of the OntoMath${}^{\mathrm{PRO}}$ ontology of professional mathematics is described. OntoMath${}^{\mathrm{PRO}}$ underlies a semantic publishing platform, that takes as an input a collection of mathematical papers in LaTeX format and builds their ontology-based Linked Open Data representation. The semantic publishing platform, in turn, is a central component of OntoMath digital ecosystem, an ecosystem of ontologies, text analytics tools, and applications for mathematical knowledge management, including semantic search for mathematical formulas and a recommender system for mathematical papers. According to the new model, the ontology is organized into three layers: a foundational ontology layer, a domain ontology layer and a linguistic layer. The domain ontology layer contains language-independent math concepts. The linguistic layer provides linguistic grounding for these concepts, and the foundation ontology layer provides them with meta-ontological annotations. The concepts are organized in two main hierarchies: the hierarchy of objects and the hierarchy of reified relationships.
翻訳日:2023-03-31 16:26:14 公開日:2023-03-17
# XVoxelによる特徴モデルのパラメトリック設計最適化

XVoxel-Based Parametric Design Optimization of Feature Models ( http://arxiv.org/abs/2303.15316v1 )

ライセンス: Link先を確認
Ming Li, Chengfeng Lin, Wei Chen, Yusheng Liu, Shuming Gao, Qiang Zou(参考訳) パラメトリック最適化は、特に現代のパラメトリック機能に基づくcadパラダイムの文脈において、重要な製品設計技術である。 しかし、その完全な可能性を実現するにはCADとCAE(CAD/CAE統合)の間に閉じたループが必要であり、自動的な設計変更とシミュレーションの更新が必要である。 従来、モデル変換のアプローチはループを形成するためによく用いられるが、この働き方は自動化が難しく、手動入力を必要とする。 結果として、全体的な最適化プロセスは、受け入れられるには努力がかかりすぎます。 本稿では,拡張ボクセル(xvoxels)と呼ばれる統一モデル表現スキームに基づいて,パラメトリック最適化の新しい手法を提案する。 このスキームは、特徴モデルとボクセルモデルを新しいセマンティックボクセルの概念にハイブリダイズし、そこではボクセル部がFEM解決に責任を持ち、セマンティック部が設計意図とシミュレーション意図の両方をキャプチャする高レベル情報に責任を持つ。 このように、設計モデルと分析モデルの直接的なマッピングを確立し、設計変更のシミュレーション結果の自動更新を可能にします。 さらに、XVoxelモデルを操作するための堅牢で効率的な幾何アルゴリズムと、XVoxelモデルをシミュレーションするための効率的な数値法(最近の有限セル法に基づく)を提供する。 提案手法は, その有効性を示すために, 複雑化に関する一連の事例研究によって検証された。 特に、既存のFCM法の最大55.8倍の計算効率の改善が見られた。

Parametric optimization is an important product design technique, especially in the context of the modern parametric feature-based CAD paradigm. Realizing its full potential, however, requires a closed loop between CAD and CAE (i.e., CAD/CAE integration) with automatic design modifications and simulation updates. Conventionally the approach of model conversion is often employed to form the loop, but this way of working is hard to automate and requires manual inputs. As a result, the overall optimization process is too laborious to be acceptable. To address this issue, a new method for parametric optimization is introduced in this paper, based on a unified model representation scheme called eXtended Voxels (XVoxels). This scheme hybridizes feature models and voxel models into a new concept of semantic voxels, where the voxel part is responsible for FEM solving, and the semantic part is responsible for high-level information to capture both design and simulation intents. As such, it can establish a direct mapping between design models and analysis models, which in turn enables automatic updates on simulation results for design modifications, and vice versa -- effectively a closed loop between CAD and CAE. In addition, robust and efficient geometric algorithms for manipulating XVoxel models and efficient numerical methods (based on the recent finite cell method) for simulating XVoxel models are provided. The presented method has been validated by a series of case studies of increasing complexity to demonstrate its effectiveness. In particular, a computational efficiency improvement of up to 55.8 times the existing FCM method has been seen.
翻訳日:2023-03-31 16:19:21 公開日:2023-03-17
# 初期パリティのない位相推定のための最大量子フィッシャー情報

Maximal quantum Fisher information for phase estimation without initial parity ( http://arxiv.org/abs/1412.4325v3 )

ライセンス: Link先を確認
Xu Yu, Xiang Zhao, Luyi Shen, Yanyan Shao, Jing Liu, Xiaoguang Wang(参考訳) mach-zehnder干渉計は量子位相推定において一般的な装置であり、その光子損失は高位相精度を達成する上で重要な問題である。 ここでは,コヒーレント状態とコヒーレント状態の重ね合わせを入力状態としてマッハ・ツェンダー干渉計の位相の精度限界を徹底的に検討する。 量子フィッシャー情報の一般的な解析式を提供することにより、位相整合条件と最適初期パリティを与える。 特に光子損失シナリオでは、感度挙動を解析し、対称性及び非対称な損失に対する位相精度を回復するための具体的な戦略を提供する。

Mach-Zehnder interferometer is a common device in quantum phase estimation and the photon losses in it are an important issue for achieving a high phase accuracy. Here we thoroughly discuss the precision limit of the phase in the Mach-Zehnder interferometer with a coherent state and a superposition of coherent states as input states. By providing a general analytical expression of quantum Fisher information, the phase-matching condition and optimal initial parity are given. Especially, in the photon loss scenario, the sensitivity behaviors are analyzed and specific strategies are provided to restore the phase accuracies for symmetric and asymmetric losses.
翻訳日:2023-03-25 04:57:46 公開日:2023-03-17
# 多ビット状態に対する最小シナリオのベル不等式

Minimal scenario facet Bell inequalities for multi-qubit states ( http://arxiv.org/abs/1809.05727v2 )

ライセンス: Link先を確認
Arpan Das, Chandan Datta and Pankaj Agrawal(参考訳) ファセット不等式は量子状態の非局所性を検出する上で重要な役割を果たす。 そのような不等式の数はベルテストのシナリオに依存する。 参加者数の増加、測定結果の増大、あるいは/または測定設定の数の増加により、より非自明な顔の不等式が存在する。 複数のベルシナリオにおいて、2つの当事者の2つの2次測定設定と、他の当事者による1つの2次計測を含むことにより、局所ポリトープは1つの非自明な面しか持たないことを示す。 3つの当事者に対して、この不等式には3つの変種が存在する。 この多部状態の測定シナリオは、非局所性を検出することができる多部相関を含む最小のシナリオとみなすことができる。 この不等式はすべての一般化されたGHZ状態に反することを示す。 唯一のファセットベルの不等式であるため、この不等式は絡み合った3ビットの純状態にも違反する。 また、ノイズW状態に対しては、我々の不等式は有名なメルミン不等式よりも効果的であることを示す。

Facet inequalities play an important role in detecting the nonlocality of a quantum state. The number of such inequalities depends on the Bell test scenario. With the increase in the number of parties, measurement outcomes, or/and the number of measurement settings, there are more nontrivial facet inequalities. For several Bell scenarios, by involving two dichotomic measurement settings for two parties and one dichotomic measurement by other parties, we show that the local polytope has only one nontrivial facet. For three parties, we have three variants of this inequality, depending upon which party is doing one dichotomic measurement. This measurement scenario for a multipartite state may be considered as the minimal scenario involving multipartite correlations that can detect nonlocality. We show that this inequality is violated by all generalized GHZ states. Being the only facet Bell inequality, this inequality is also violated by any entangled three-qubit pure state. We also show that for noisy W states, our inequality is more effective than the well-known Mermin inequality.
翻訳日:2023-03-25 04:50:00 公開日:2023-03-17
# ファジィルールを用いたDeep Image Feature Learning

Deep Image Feature Learning with Fuzzy Rules ( http://arxiv.org/abs/1905.10575v3 )

ライセンス: Link先を確認
Xiang Ma, Liangzhe Chen, Zhaohong Deng, Peng Xu, Qisheng Yan, Kup-Sze Choi, Shitong Wang(参考訳) 画像の特徴を抽出する方法は多くの画像処理タスクの鍵となる。 現在最も一般的な方法はディープニューラルネットワークであり、手作りの特徴抽出ではなく、エンドツーエンドのトレーニングを通じてロバストな特徴を自動的に抽出することができる。 しかし、ディープニューラルネットワークは現在、多くの課題に直面している。 1)その有効性は大規模データセットに大きく依存するため、計算の複雑さが非常に高い。 2) 解釈性に乏しいブラックボックスモデルと見なされることが多い。 以上の課題に対処するため,より解釈可能でスケーラブルな特徴学習手法である深層画像特徴学習とファジィルール(DIFL-FR)を提案し,ルールベースのファジィモデリング技術と深層学習戦略を組み合わせた。 本手法は,ファジィルールに基づいて階層的に画像特徴を段階的に学習するので,生成したルールにより特徴学習プロセスをよりよく説明できる。 さらに, この手法の学習過程は, 後方伝播を伴わない前方伝播と反復学習のみに基づいており, 高い学習効率が得られる。 さらに、この方法は教師なし学習の設定下にあり、教師なし学習や半教師なし学習の場面に容易に拡張することができる。 様々なスケールの画像データセットで広範な実験が行われている。 その結果,提案手法の有効性が明らかとなった。

The methods of extracting image features are the key to many image processing tasks. At present, the most popular method is the deep neural network which can automatically extract robust features through end-to-end training instead of hand-crafted feature extraction. However, the deep neural network currently faces many challenges: 1) its effectiveness is heavily dependent on large datasets, so the computational complexity is very high; 2) it is usually regarded as a black box model with poor interpretability. To meet the above challenges, a more interpretable and scalable feature learning method, i.e., deep image feature learning with fuzzy rules (DIFL-FR), is proposed in the paper, which combines the rule-based fuzzy modeling technique and the deep stacked learning strategy. The method progressively learns image features through a layer-by-layer manner based on fuzzy rules, so the feature learning process can be better explained by the generated rules. More importantly, the learning process of the method is only based on forward propagation without back propagation and iterative learning, which results in the high learning efficiency. In addition, the method is under the settings of unsupervised learning and can be easily extended to scenes of supervised and semi-supervised learning. Extensive experiments are conducted on image datasets of different scales. The results obviously show the effectiveness of the proposed method.
翻訳日:2023-03-25 04:31:40 公開日:2023-03-17
# デジタル経済の効率性 -トークンミクスのプライマー-

Efficiency in Digital Economies -- A Primer on Tokenomics ( http://arxiv.org/abs/2008.02538v2 )

ライセンス: Link先を確認
Ricky Lamberty and Alexander Poddey and David Galindo and Danny de Waard and Tobias Koelbel and Daniel Kirste(参考訳) 暗号トークンは、デジタルエコイステムにおける経済的インセンティブの確立を促進する新しいデジタルパラダイムである。 トークンは、大規模なネットワークを分散的に調整、最適化、管理するために利用することができる。 重要な側面はプログラマビリティであり、彼らが貢献する価値と、彼らが負うリスクに応じて、採用のステージに対して参加者に報酬を与えることができる。 さらに、これは透明で検証可能な方法で実現でき、新興システムの信頼性を高めることができる。 本研究は, この新現象の概要と, トークン化生態系がデジタル時代におけるポジティブ・サム・コラボレーションの大きな動機となっている理由について, 多分野の議論を行う。 デジタル協力の進化過程から生じる特定の原則と価値が、個人とトークン化されたエコシステム全体の経済効率によって特徴づけられる市場経済にどのようにつながるかを説明する。

Cryptographic tokens are a new digital paradigm that can facilitate the establishment of economic incentives in digital ecoystems. Tokens can be leveraged for the coordination, optimization and governance of large networks at scale in a decentralized manner. A key aspect is their programmability, that can reward participants relative to their stage of adoption, according to the value they contribute and the risk they bear. Moreover, this can be done in a transparent and verifiable way, which increases trustworthiness in the emerging systems. This work presents an overview of this new phenomenon and to provide multi-disciplinary arguments on why tokenized ecosystems can drive a huge momentum for positive-sum collaboration in the digital age. We illustrate how certain principles and values that arise from the evolutionary process of digital cooperation can lead to a market economy characterized by economic efficiency of both individuals and the tokenized ecosystem as a whole.
翻訳日:2023-03-25 04:04:10 公開日:2023-03-17
# ローライトビジョンのためのペデストレイン検出

Pedestrain detection for low-light vision proposal ( http://arxiv.org/abs/2303.12725v1 )

ライセンス: Link先を確認
Zhipeng Chang, Ruiling Ma, Wenliang Jia(参考訳) 歩行者検出の需要は、画像融合のような様々な視覚タスクにおいて困難な問題を生み出した。 赤外線画像は熱放射情報を捉えることができるため、赤外線と可視画像の融合は環境制約下でのターゲット検出を大幅に改善する可能性がある。 本プロジェクトでは,画像融合技術を用いてデータセットを前処理し,視覚トランスフォーマモデルを用いて融合画像から歩行者を検出する。 評価の過程では, YOLOv5 と改良 ViT モデルの性能の比較を行った。

The demand for pedestrian detection has created a challenging problem for various visual tasks such as image fusion. As infrared images can capture thermal radiation information, image fusion between infrared and visible images could significantly improve target detection under environmental limitations. In our project, we would approach by preprocessing our dataset with image fusion technique, then using Vision Transformer model to detect pedestrians from the fused images. During the evaluation procedure, a comparison would be made between YOLOv5 and the revised ViT model performance on our fused images
翻訳日:2023-03-25 03:09:44 公開日:2023-03-17
# 非教師付きドメイン適応のための拡散型ターゲットサンプリング

Diffusion-based Target Sampler for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2303.12724v1 )

ライセンス: Link先を確認
Yulong Zhang, Shuhao Chen, Yu Zhang, Jiangang Lu(参考訳) 限られた転送性は、新しいアプリケーションシナリオに適用した場合、ディープラーニングモデルのパフォーマンスを妨げる。 近年,非教師なしドメイン適応(UDA)は,ドメイン不変の特徴を学習することでこの問題に対処する上で大きな進歩を遂げている。 しかし、大きなドメインシフトと対象ドメインのサンプル不足により、既存のUDAメソッドは最適以下の性能を実現する。 これらの問題を緩和するため,我々は高忠実度かつ多様性の疑似ターゲットサンプルを生成するためのdts(plug-and-play diffusion-based target sampler)を提案する。 クラス条件情報を導入することにより、生成されたターゲットサンプルのラベルを制御することができる。 生成されたサンプルは、ターゲットドメインのデータ分布を十分にシミュレートし、既存のUDAメソッドがソースドメインからターゲットドメインへの転送をより容易にし、転送性能を向上させる。 様々なベンチマーク実験により,提案手法により既存のUDA法の性能を大幅に改善できることが示されている。

Limited transferability hinders the performance of deep learning models when applied to new application scenarios. Recently, unsupervised domain adaptation (UDA) has achieved significant progress in addressing this issue via learning domain-invariant features. However, large domain shifts and the sample scarcity in the target domain make existing UDA methods achieve suboptimal performance. To alleviate these issues, we propose a plug-and-play Diffusion-based Target Sampler (DTS) to generate high fidelity and diversity pseudo target samples. By introducing class-conditional information, the labels of the generated target samples can be controlled. The generated samples can well simulate the data distribution of the target domain and help existing UDA methods transfer from the source domain to the target domain more easily, thus improving the transfer performance. Extensive experiments on various benchmarks demonstrate that the performance of existing UDA methods can be greatly improved through the proposed DTS method.
翻訳日:2023-03-25 03:09:36 公開日:2023-03-17
# 管状サンプリングによる低ランクテンソル補完のための非凸法

Non-convex approaches for low-rank tensor completion under tubal sampling ( http://arxiv.org/abs/2303.12721v1 )

ライセンス: Link先を確認
Zheng Tan, Longxiu Huang, HanQin Cai, and Yifei Lou(参考訳) テンソル補完は、現代のデータ分析において重要な問題である。 本研究では,チューブサンプリングと呼ばれる特定のサンプリング戦略について検討する。 実装が容易な2つの新しい非凸テンソル補完フレームワークを提案し,その名のテンソル$L_1$-$L_2$ (TL12) と CUR (TCCUR) によるテンソル補完を提案する。 合成データとカラー画像インパインティング問題の両方における手法の効率性をテストする。 実験結果から, この2つの手法の精度と時間効率のトレードオフを低サンプリング比で明らかにした。 それぞれが、いくつかの古典的な完成法を少なくとも一つの面において上回る。

Tensor completion is an important problem in modern data analysis. In this work, we investigate a specific sampling strategy, referred to as tubal sampling. We propose two novel non-convex tensor completion frameworks that are easy to implement, named tensor $L_1$-$L_2$ (TL12) and tensor completion via CUR (TCCUR). We test the efficiency of both methods on synthetic data and a color image inpainting problem. Empirical results reveal a trade-off between the accuracy and time efficiency of these two methods in a low sampling ratio. Each of them outperforms some classical completion methods in at least one aspect.
翻訳日:2023-03-25 03:08:50 公開日:2023-03-17
# バレット食道病変のモデル化のための幾何学的潜在表現学習

Geometry-Aware Latent Representation Learning for Modeling Disease Progression of Barrett's Esophagus ( http://arxiv.org/abs/2303.12711v1 )

ライセンス: Link先を確認
Vivien van Veldhuizen(参考訳) バレット食道癌(barrett's esophagus、be)は、診断時に予後不良の食道癌の一種である食道腺癌(eac)の唯一の前駆体である。 食道癌の予防と治療にはbeの診断が不可欠である。 教師付き機械学習は診断をサポートするが、病理組織学トレーニングデータにおける高い相互オブザーバ変動はこれらの方法を制限する。 変分オートエンコーダ(vaes)による教師なし表現学習は、入力データを有用な機能のみを持つ低次元多様体にマッピングし、下流タスクと洞察を改善するためのbe進行を特徴付けるので、promiseを示す。 しかしながら、VAEのユークリッド潜伏空間は点関係を歪め、疾患進行モデリングを妨げる。 幾何学的vaesは潜在空間に幾何学的構造を与え、rhvae はリーマン多様体を、$\mathcal{s}$-vae は超球面多様体を仮定する。 我々の研究は、$\mathcal{S}$-VAEがバニラVAEより優れた再構成損失、表現分類精度、高画質な画像および低次元環境下での補間性能を示した。 回転情報を潜伏空間から切り離すことにより、グループベースアーキテクチャを用いて結果をさらに改善する。 さらに,安定性や再構成品質といったオートエンコーダの利点を保ちつつも,定性的な画像を生成する新しいオートエンコーダモデルである$\mathcal{S}$-AE への初期ステップも行う。

Barrett's Esophagus (BE) is the only precursor known to Esophageal Adenocarcinoma (EAC), a type of esophageal cancer with poor prognosis upon diagnosis. Therefore, diagnosing BE is crucial in preventing and treating esophageal cancer. While supervised machine learning supports BE diagnosis, high interobserver variability in histopathological training data limits these methods. Unsupervised representation learning via Variational Autoencoders (VAEs) shows promise, as they map input data to a lower-dimensional manifold with only useful features, characterizing BE progression for improved downstream tasks and insights. However, the VAE's Euclidean latent space distorts point relationships, hindering disease progression modeling. Geometric VAEs provide additional geometric structure to the latent space, with RHVAE assuming a Riemannian manifold and $\mathcal{S}$-VAE a hyperspherical manifold. Our study shows that $\mathcal{S}$-VAE outperforms vanilla VAE with better reconstruction losses, representation classification accuracies, and higher-quality generated images and interpolations in lower-dimensional settings. By disentangling rotation information from the latent space, we improve results further using a group-based architecture. Additionally, we take initial steps towards $\mathcal{S}$-AE, a novel autoencoder model generating qualitative images without a variational framework, but retaining benefits of autoencoders such as stability and reconstruction quality.
翻訳日:2023-03-25 03:08:11 公開日:2023-03-17
# LAION-2Bの非重複性について

On the De-duplication of LAION-2B ( http://arxiv.org/abs/2303.12733v1 )

ライセンス: Link先を確認
Ryan Webster and Julien Rabin and Loic Simon and Frederic Jurie(参考訳) DALL-E、Midjourney、Stable Diffusionなどの生成モデルは、コンピュータ科学の分野を超えて、社会的な意味を持つ。 これらのモデルは、20億の画像を含むLAION-2Bのような大規模な画像データベースを必要とする。 この規模では、手動検査は困難であり、自動分析は困難である。 さらに、最近の研究では、laion2bでトレーニングされたモデルに複製された画像が著作権の問題を引き起こすことが示されている。 本稿では,CLIP特徴を圧縮し,膨大な画像量に対して効率的な重複検出を可能にするアルゴリズムチェーンを提案する。 我々のアプローチでは、LAION-2Bの画像の約7億の画像(約30%)が複製される可能性が示されている。 また,本手法は,本データセットの複製のヒストグラムも提供し,安定拡散による冗長コピーのさらなる例を明らかにし,さらにアプローチを正当化する。 分離されたセットの現在のバージョンはオンラインで配布される。

Generative models, such as DALL-E, Midjourney, and Stable Diffusion, have societal implications that extend beyond the field of computer science. These models require large image databases like LAION-2B, which contain two billion images. At this scale, manual inspection is difficult and automated analysis is challenging. In addition, recent studies show that duplicated images pose copyright problems for models trained on LAION2B, which hinders its usability. This paper proposes an algorithmic chain that runs with modest compute, that compresses CLIP features to enable efficient duplicate detection, even for vast image volumes. Our approach demonstrates that roughly 700 million images, or about 30\%, of LAION-2B's images are likely duplicated. Our method also provides the histograms of duplication on this dataset, which we use to reveal more examples of verbatim copies by Stable Diffusion and further justify the approach. The current version of the de-duplicated set will be distributed online.
翻訳日:2023-03-25 02:59:11 公開日:2023-03-17
# 皮膚科のような説明可能なAIは悪性黒色腫の診断における信頼と信頼を高める

Dermatologist-like explainable AI enhances trust and confidence in diagnosing melanoma ( http://arxiv.org/abs/2303.12806v1 )

ライセンス: Link先を確認
Tirtha Chanda, Katja Hauser, Sarah Hobelsberger, Tabea-Clara Bucher, Carina Nogueira Garcia, Christoph Wies, Harald Kittler, Philipp Tschandl, Cristian Navarrete-Dechent, Sebastian Podlipnik, Emmanouil Chousakos, Iva Crnaric, Jovana Majstorovic, Linda Alhajwan, Tanya Foreman, Sandra Peternel, Sergei Sarap, \.Irem \"Ozdemir, Raymond L. Barnhill, Mar Llamas Velasco, Gabriela Poch, S\"oren Korsing, Wiebke Sondermann, Frank Friedrich Gellrich, Markus V. Heppt, Michael Erdmann, Sebastian Haferkamp, Konstantin Drexler, Matthias Goebeler, Bastian Schilling, Jochen S. Utikal, Kamran Ghoreschi, Stefan Fr\"ohling, Eva Krieghoff-Henning, Titus J. Brinker(参考訳) 人工知能(AI)システムは初期のメラノーマ診断の精度を向上させることが示されているが、メラノーマの識別方法の透明性の欠如は、ユーザの受け入れに深刻な障害をもたらす。 説明可能な人工知能(XAI)メソッドは透明性を高めるのに役立つが、ほとんどのXAIメソッドは正確に位置したドメイン固有の説明を生成できないため、説明の解釈が困難である。 また,XAI法が皮膚科医に与える影響もまだ評価されていない。 既存の2つの分類器を拡張して,皮膚科医がメラノーマとネビの鑑別診断とともに容易に解釈できるテキストと地域に基づく説明を生成するXAIシステムを開発した。 本システムを評価するために,臨床医の診断精度,信頼性,XAI支援に対する信頼度に対する影響を評価するための3部構成の読者調査を行った。 我々は,XAIの説明が臨床医の説明と高度に一致していることを示し,従来のAIシステムと比較して,臨床医の支援システムへの信頼と診断に対する信頼が著しく向上したことを示した。 診断精度は数値的に高かったが,有意差はなかった。 この研究は、臨床医がこのようなXAIシステムを採用する意思があることを示し、その将来的な利用を動機付けている。

Although artificial intelligence (AI) systems have been shown to improve the accuracy of initial melanoma diagnosis, the lack of transparency in how these systems identify melanoma poses severe obstacles to user acceptance. Explainable artificial intelligence (XAI) methods can help to increase transparency, but most XAI methods are unable to produce precisely located domain-specific explanations, making the explanations difficult to interpret. Moreover, the impact of XAI methods on dermatologists has not yet been evaluated. Extending on two existing classifiers, we developed an XAI system that produces text and region based explanations that are easily interpretable by dermatologists alongside its differential diagnoses of melanomas and nevi. To evaluate this system, we conducted a three-part reader study to assess its impact on clinicians' diagnostic accuracy, confidence, and trust in the XAI-support. We showed that our XAI's explanations were highly aligned with clinicians' explanations and that both the clinicians' trust in the support system and their confidence in their diagnoses were significantly increased when using our XAI compared to using a conventional AI system. The clinicians' diagnostic accuracy was numerically, albeit not significantly, increased. This work demonstrates that clinicians are willing to adopt such an XAI system, motivating their future use in the clinic.
翻訳日:2023-03-25 02:42:09 公開日:2023-03-17
# 教育における大規模言語モデルの実践的・倫理的課題:体系的文献レビュー

Practical and Ethical Challenges of Large Language Models in Education: A Systematic Literature Review ( http://arxiv.org/abs/2303.13379v1 )

ライセンス: Link先を確認
Lixiang Yan, Lele Sha, Linxuan Zhao, Yuheng Li, Roberto Martinez-Maldonado, Guanliang Chen, Xinyu Li, Yueqiao Jin and Dragan Ga\v{s}evi\'c(参考訳) 大規模言語モデル(LLM)に基づいて開発された教育技術革新は、テキストコンテンツの生成と分析の面倒なプロセスを自動化する可能性を示している。 様々なイノベーションが様々な教育タスク(質問生成、フィードバック提供、エッセイ等)を自動化するために開発されているが、これらのイノベーションの実践性と倫理性には懸念がある。 このような懸念は、将来の研究を妨げ、本物の教育分野におけるllmsベースのイノベーションの導入を妨げる可能性がある。 そこで本研究では,2017年以降に発行された118論文の体系的文献レビューを行い,教育タスクの自動化と支援にllmを用いた研究の現状を明らかにする。 LLMsベースのイノベーションの実践的および倫理的課題は、その技術的準備性、モデル性能、複製性、システムの透明性、プライバシー、平等、受益性を評価することでも特定された。 この結果は、最先端のモデル(GPT-3など)による既存のイノベーションの更新、オープンソースモデル/システムの導入、開発プロセス全体を通じて人間中心のアプローチの採用など、将来の研究のための3つの推奨事項にまとめられた。 これらの勧告は将来の研究を支援し、様々な教育課題を支援し、学生、教師、機関に利益をもたらすための実践的および倫理的革新を開発することができる。

Educational technology innovations that have been developed based on large language models (LLMs) have shown the potential to automate the laborious process of generating and analysing textual content. While various innovations have been developed to automate a range of educational tasks (e.g., question generation, feedback provision, and essay grading), there are concerns regarding the practicality and ethicality of these innovations. Such concerns may hinder future research and the adoption of LLMs-based innovations in authentic educational contexts. To address this, we conducted a systematic literature review of 118 peer-reviewed papers published since 2017 to pinpoint the current state of research on using LLMs to automate and support educational tasks. The practical and ethical challenges of LLMs-based innovations were also identified by assessing their technological readiness, model performance, replicability, system transparency, privacy, equality, and beneficence. The findings were summarised into three recommendations for future studies, including updating existing innovations with state-of-the-art models (e.g., GPT-3), embracing the initiative of open-sourcing models/systems, and adopting a human-centred approach throughout the developmental process. These recommendations could support future research to develop practical and ethical innovations for supporting diverse educational tasks and benefiting students, teachers, and institutions.
翻訳日:2023-03-25 02:33:35 公開日:2023-03-17
# HDformer:長距離血管信号を利用した糖尿病検出用高次元トランス

HDformer: A Higher Dimensional Transformer for Diabetes Detection Utilizing Long Range Vascular Signals ( http://arxiv.org/abs/2303.11340v1 )

ライセンス: Link先を確認
Ella Lan(参考訳) 糖尿病は世界中で懸念されており、早期発見は深刻な合併症の予防に役立つ。 心臓血管信号を深層学習モデルに取り入れる低コストで非侵襲的な検出法が登場している。 しかし、精度の制限は臨床使用を制限している。 本稿では,新しいトランスフォーマーアーキテクチャであるhigher dimensional transformer (hdformer) を提案する。 長距離ppgは、既存の研究で一般的に使用されている1分未満のppg信号と比較して、より広範で深い信号文脈情報を含んでいる。 長範囲データの処理能力と効率を向上させるため,新たに注目モジュールであるTime Square Attention (TSA)を提案し,トークンの容量を10倍以上削減し,局所的/グローバル的依存関係を維持した。 1次元入力を2次元表現に変換し、隣接する点をエンコーダのバックボーンとして2次元トランスフォーマーモデルを用いて単一の2次元トークンに変換する。 動的パッチサイズをデコーダとしてゲート混合(MoE)ネットワークに生成し、異なる注意領域での学習を最適化する。 大規模な実験により、HDformerは標準的なMIMIC-IIIデータセット上での最先端の性能(感度98.4、精度97.3、特異度92.8、AUC 0.929)が既存の研究を上回っていることが示された。 この研究は、糖尿病検出のためのトランスフォーマーを介して長距離非侵襲的なppg信号を初めて取得し、従来の侵襲的アプローチよりもスケーラブルで便利なソリューションを実現する。 提案するhdformerは、一般的な長距離生体医学波形を分析するためにもスケールできる。 ウェアラブルのプロトタイプの指リングは、概念実証として設計されている。

Diabetes mellitus is a worldwide concern, and early detection can help to prevent serious complications. Low-cost, non-invasive detection methods, which take cardiovascular signals into deep learning models, have emerged. However, limited accuracy constrains their clinical usage. In this paper, we present a new Transformer-based architecture, Higher Dimensional Transformer (HDformer), which takes long-range photoplethysmography (PPG) signals to detect diabetes. The long-range PPG contains broader and deeper signal contextual information compared to the less-than-one-minute PPG signals commonly utilized in existing research. To increase the capability and efficiency of processing the long range data, we propose a new attention module Time Square Attention (TSA), reducing the volume of the tokens by more than 10x, while retaining the local/global dependencies. It converts the 1-dimensional inputs into 2-dimensional representations and groups adjacent points into a single 2D token, using the 2D Transformer models as the backbone of the encoder. It generates the dynamic patch sizes into a gated mixture-of-experts (MoE) network as decoder, which optimizes the learning on different attention areas. Extensive experimentations show that HDformer results in the state-of-the-art performance (sensitivity 98.4, accuracy 97.3, specificity 92.8, and AUC 0.929) on the standard MIMIC-III dataset, surpassing existing studies. This work is the first time to take long-range, non-invasive PPG signals via Transformer for diabetes detection, achieving a more scalable and convenient solution compared to traditional invasive approaches. The proposed HDformer can also be scaled to analyze general long-range biomedical waveforms. A wearable prototype finger-ring is designed as a proof of concept.
翻訳日:2023-03-22 17:54:26 公開日:2023-03-17
# deephys: 分布シフト下での深い電気生理学的、デバッギングニューラルネットワーク

Deephys: Deep Electrophysiology, Debugging Neural Networks under Distribution Shifts ( http://arxiv.org/abs/2303.11912v1 )

ライセンス: Link先を確認
Anirban Sarkar, Matthew Groth, Ian Mason, Tomotake Sasaki, Xavier Boix(参考訳) ディープニューラルネットワーク(DNN)は、しばしば配布外シナリオで失敗する。 本稿では,このような失敗を可視化し,理解するためのツールを提案する。 神経電気生理学の概念からインスピレーションを得て、個々のユニットの特徴的チューニングと不変性を解析することにより、ニューラルネットワークの内部機能を検査する。 深部電気生理学(deep electrophysiology、略称deephys)は、分布内データセットと分布外データセットにおける神経活動の比較可視化により、分布外シナリオにおけるdnnの失敗についての洞察を提供する。 Deephysは、個々のニューロン、個々の画像、カテゴリからの一連の画像のシームレスな分析を提供し、突発的な特徴や新しい特徴の存在によって失敗を明らかにすることができる。 畳み込みおよび変圧器アーキテクチャを用いたDeephysの定性的可視化の妥当性を,いくつかのデータセットと分布シフト(色付きMNIST, CIFAR-10, ImageNet)で検証した。

Deep Neural Networks (DNNs) often fail in out-of-distribution scenarios. In this paper, we introduce a tool to visualize and understand such failures. We draw inspiration from concepts from neural electrophysiology, which are based on inspecting the internal functioning of a neural networks by analyzing the feature tuning and invariances of individual units. Deep Electrophysiology, in short Deephys, provides insights of the DNN's failures in out-of-distribution scenarios by comparative visualization of the neural activity in in-distribution and out-of-distribution datasets. Deephys provides seamless analyses of individual neurons, individual images, and a set of set of images from a category, and it is capable of revealing failures due to the presence of spurious features and novel features. We substantiate the validity of the qualitative visualizations of Deephys thorough quantitative analyses using convolutional and transformers architectures, in several datasets and distribution shifts (namely, colored MNIST, CIFAR-10 and ImageNet).
翻訳日:2023-03-22 14:28:20 公開日:2023-03-17
# 化学特性予測のためのQUBO分子指紋

QUBO-inspired Molecular Fingerprint for Chemical Property Prediction ( http://arxiv.org/abs/2303.10179v1 )

ライセンス: Link先を確認
Koichiro Yawata, Yoshihiro Osakabe, Takuya Okuyama, Akinori Asahara(参考訳) 分子指紋は化学特性の予測に広く用いられており、適切な指紋を選択することが重要である。 より効果的な指紋を用いた予測性能が良いという仮定に基づいて,新たな指紋を生成する。 複数のベース指紋の産物である効果的な相互作用指紋を生成する。 相互作用指紋の全ての組み合わせを計算上の限界から評価することは困難である。 この問題に対して,より効果的なインタラクションフィンガープリントを探索する問題を,二分最適化問題に変換する。 そこで本研究では,QM9データセットを用いた効果的な相互作用指紋を発見した。

Molecular fingerprints are widely used for predicting chemical properties, and selecting appropriate fingerprints is important. We generate new fingerprints based on the assumption that a performance of prediction using a more effective fingerprint is better. We generate effective interaction fingerprints that are the product of multiple base fingerprints. It is difficult to evaluate all combinations of interaction fingerprints because of computational limitations. Against this problem, we transform a problem of searching more effective interaction fingerprints into a quadratic unconstrained binary optimization problem. In this study, we found effective interaction fingerprints using QM9 dataset.
翻訳日:2023-03-21 21:02:00 公開日:2023-03-17
# グラフェン量子ドットにおけるスピンバルブ遮断の粒子ホール対称性

Particle-hole symmetry protects spin-valley blockade in graphene quantum dots ( http://arxiv.org/abs/2303.10201v1 )

ライセンス: Link先を確認
Luca Banszerus, Samuel M\"oller, Katrin Hecker, Eike Icking, Kenji Watanabe, Takashi Taniguchi, Fabian Hassler, Christian Volk, Christoph Stampfer(参考訳) 粒子ホール対称性は固体系の位相相の特徴づけに重要な役割を果たす。 これは例えば半充填の自由フェルミオン系で見られ、相対論的場の理論における反粒子の概念と密接に関連している。 低エネルギー限界では、グラフェンは効果的なディラック方程式によって記述されるギャップのない粒子-ホール対称系の素例であり、トポロジカル位相は対称性の保存(または破壊)によってギャップを開く方法を研究することによって理解することができる。 重要な例は、グラフェンの固有カイン-meleスピン軌道ギャップであり、これはスピンバルブ縮退を解き、グラフェンを量子スピンホール位相における位相絶縁体として、素粒子-ホール対称性を保ちながら表現する。 ここで、二層グラフェンにより、ほぼ完全な粒子ホール対称性を示す電子ホール二重量子ドットを実現することができ、そこでは、反対の量子数を持つ単一電子ホール対の生成と消滅によって輸送が起こる。 さらに,この粒子ホール対称性は保護された単粒子スピンバルブ封鎖をもたらすことを示した。 後者は、スピンからチャージへの堅牢な変換と、スピンとバレー量子ビットの操作に不可欠なバレーからチャージへの変換を可能にする。

Particle-hole symmetry plays an important role for the characterization of topological phases in solid-state systems. It is found, for example, in free-fermion systems at half filling, and it is closely related to the notion of antiparticles in relativistic field theories. In the low energy limit, graphene is a prime example of a gapless particle-hole symmetric system described by an effective Dirac equation, where topological phases can be understood by studying ways to open a gap by preserving (or breaking) symmetries. An important example is the intrinsic Kane-Mele spin-orbit gap of graphene, which leads to a lifting of the spin-valley degeneracy and renders graphene a topological insulator in a quantum spin Hall phase, while preserving particle-hole symmetry. Here, we show that bilayer graphene allows realizing electron-hole double quantum-dots that exhibit nearly perfect particle-hole symmetry, where transport occurs via the creation and annihilation of single electron-hole pairs with opposite quantum numbers. Moreover, we show that this particle-hole symmetry results in a protected single-particle spin-valley blockade. The latter will allow robust spin-to-charge conversion and valley-to-charge conversion, which is essential for the operation of spin and valley qubits.
翻訳日:2023-03-21 20:52:20 公開日:2023-03-17
# 多体フェルミオン系による量子パラメータ推定とホール効果への応用

Quantum parameter estimation with many-body fermionic systems and application to the Hall effect ( http://arxiv.org/abs/2303.10199v1 )

ライセンス: Link先を確認
Olivier Giraud, Mark-Oliver Goerbig, Daniel Braun(参考訳) 一般多体フェルミオン系に対する量子フィッシャー情報をパラメータに応じて純粋に計算する。 パラメータが基底状態、状態係数、またはその両方にインプリントされる状況について議論する。 係数のパラメータ依存性がハミルトニアン進化から生じる場合、量子フィッシャー情報に対して特に単純な表現を導出する。 本研究は量子ホール効果に適用し,有効ハミルトニアンの基底状態におけるシステムの磁場の最適測定に関連する量子フィッシャー情報を評価する。 パウリの原理によって強制される高い運動量を持つ電子状態の占有は、センサーの幾何学に依存するパワー則による感度の超ハイゼンベルクスケーリングにつながる。

We calculate the quantum Fisher information for a generic many-body fermionic system in a pure state depending on a parameter. We discuss the situations where the parameter is imprinted in the basis states, in the state coefficients, or both. In the case where the parameter dependence of coefficients results from a Hamiltonian evolution, we derive a particularly simple expression for the quantum Fisher information. We apply our findings to the quantum Hall effect, and evaluate the quantum Fisher information associated with the optimal measurement of the magnetic field for a system in the ground state of the effective Hamiltonian. The occupation of electron states with high momentum enforced by the Pauli principle leads to a super-Heisenberg scaling of the sensitivity with a power law that depends on the geometry of the sensor.
翻訳日:2023-03-21 20:51:57 公開日:2023-03-17
# 対交換相互作用による絡み合いの広がり

Spreading entanglement through pairwise exchange interactions ( http://arxiv.org/abs/2303.10197v1 )

ライセンス: Link先を確認
L. Theerthagiri, R. Ganesh(参考訳) 絡み合いの広がりは大きな関心事である。 これは量子状態合成に特に関係しており、初期直積状態が高度に絡み合ったターゲット状態に変換されることが求められている。 対交換相互作用に基づくデバイスでは、このようなプロセスは様々な方法で実行および最適化することができる。 ベンチマーク問題として、N個の2レベル原子または量子ビット間で1つの励起を拡散するタスクを考える。 1つの量子ビットが励起された初期状態から始まり、全ての量子ビットが同じ励起振幅(一般化W状態)を持つターゲット状態を求める。 このターゲットは、適切に選択された対交換相互作用によって到達される。 例えば、任意の1組の量子ビットを制御可能な時間に近接させることができるようなセットアップがあるかもしれない。 この課題を達成するための3つのプロトコルについて述べる。 第一に、1つの原子は、他の全ての原子と順次相互作用する飛行量子ビットとして機能する。 第二に、キュービットは順番にペアで相互作用する。 この2つの場合、必要な相互作用時間は、エレガントな幾何学的解釈を持つパターンに従う。 これは2千年以上にわたって知られていたテオドロスの渦巻き内の角度に対応している。 第3のプロトコルは分割と分割のアプローチに従い、各ステップで2つのキュービットを等しく分割する。 大規模な N に対して、フライングキュービットプロトコルは \sqrt{N} としてスケールする全相互作用時間を得る一方、シーケンシャルアプローチは N と線形にスケールする。 例えば、w状態(全ての位相が等しい)は対交換によっては生成できない。

The spread of entanglement is a problem of great interest. It is particularly relevant to quantum state synthesis, where an initial direct-product state is sought to be converted into a highly entangled target state. In devices based on pairwise exchange interactions, such a process can be carried out and optimized in various ways. As a benchmark problem, we consider the task of spreading one excitation among N two-level atoms or qubits. Starting from an initial state where one qubit is excited, we seek a target state where all qubits have the same excitation-amplitude -- a generalized-W state. This target is to be reached by suitably chosen pairwise exchange interactions. For example, we may have a setup where any pair of qubits can be brought into proximity for a controllable period of time. We describe three protocols that accomplish this task, each with N-1 tightly-constrained steps. In the first, one atom acts as a flying qubit that sequentially interacts with all others. In the second, qubits interact pairwise in sequential order. In these two cases, the required interaction times follow a pattern with an elegant geometric interpretation. They correspond to angles within the spiral of Theodorus -- a construction known for more than two millennia. The third protocol follows a divide-and-conquer approach -- dividing equally between two qubits at each step. For large N, the flying-qubit protocol yields a total interaction time that scales as \sqrt{N}, while the sequential approach scales linearly with N. For the divide-and-conquer approach, the time has a lower bound that scales as \ln N. With any such protocol, we show that the phase differences in the final state cannot be independently controlled. For instance, a W-state (where all phases are equal) cannot be generated by pairwise exchange.
翻訳日:2023-03-21 20:51:47 公開日:2023-03-17
# 量子ゼノと反ゼノ効果に関連する確率エントロピー生成の3つの成分

Three components of stochastic entropy production associated with the quantum Zeno and anti-Zeno effects ( http://arxiv.org/abs/2303.10196v1 )

ライセンス: Link先を確認
Ashutosh Kinikar and Ian J. Ford(参考訳) 本研究では,外部測定装置や環境による連続的ランダム乱れによる量子測定を行いながら,ラビ振動を行う2レベル量子系の確率エントロピー生成について検討する。 力学は特定の測定系に対して量子ゼノ効果と反ゼノ効果を生じさせ、確率エントロピー生成は振る舞いの不可逆性の尺度である。 測定障害の強度が時間依存である場合、確率エントロピー生成は3つの成分に分けられる。 2つは緩和的挙動を表し、1つは時間反転対称性の下で奇数となる座標で表される系に特有であり、3番目は力学の詳細なバランスの破れから生じる非平衡定常状態を特徴づける。 この研究は、確率的熱力学のアイデアが量子系と古典系の両方に類似の方法でどのように適用されるかを示している。

We investigate stochastic entropy production in a two-level quantum system that performs Rabi oscillations while undergoing quantum measurement brought about by continuous random disturbance by an external measuring device or environment. The dynamics produce quantum Zeno and anti-Zeno effects for certain measurement regimes, and the stochastic entropy production is a measure of the irreversibility of the behaviour. When the strength of the measurement disturbance is time-dependent, the stochastic entropy production separates into three components. Two represent relaxational behaviour, one being specific to systems represented by coordinates that are odd under time reversal symmetry, and a third characterises the nonequilibrium stationary state arising from breakage of detailed balance in the dynamics. The study illustrates how the ideas of stochastic thermodynamics may be applied in similar ways to both quantum and classical systems.
翻訳日:2023-03-21 20:51:23 公開日:2023-03-17
# 対話型セグメンテーションとマイズショット学習による非専門家による遠隔タスク指向把握領域指導

Remote Task-oriented Grasp Area Teaching By Non-Experts through Interactive Segmentation and Few-Shot Learning ( http://arxiv.org/abs/2303.10195v1 )

ライセンス: Link先を確認
Furkan Kaynar, Sudarshan Rajagopalan, Shaobo Zhou, Eckehard Steinbach(参考訳) 非構造環境で動作するロボットは、予測操作タスクに応じて異なる把持スタイルを区別できなければならない。 遠隔の非専門家のデモンストレーションから学習できるシステムを持つことは、タスク指向の把握のためにロボットの認知スキルを非常に拡張することができる。 この目的に向けて,新たな二段階フレームワークを提案する。 最初のステップは、セグメンテーションによる領域推定の把握である。 対話的なセグメンテーションによって新しいタスクの把握領域のデモンストレーションを受け、これらの少数のデモから学習し、与えられたタスクの見えないシーンで必要な把握領域を推定する。 第2のステップは、セグメント領域における自律的把握推定である。 マイナショット学習のためのセグメンテーションネットワークをトレーニングするために,10089のイメージを1121のセグメンテーションタスクにグループ化した把握領域セグメンテーション(gas)データセットを構築した。 能率的なメタ学習アルゴリズムの利点は,数発適応のための学習である。 実験により,本手法は未確認テストシーンにおける各物体の正しい把握領域の検出に成功し,非専門家による新たな把握戦略の遠隔指導を可能にした。

A robot operating in unstructured environments must be able to discriminate between different grasping styles depending on the prospective manipulation task. Having a system that allows learning from remote non-expert demonstrations can very feasibly extend the cognitive skills of a robot for task-oriented grasping. We propose a novel two-step framework towards this aim. The first step involves grasp area estimation by segmentation. We receive grasp area demonstrations for a new task via interactive segmentation, and learn from these few demonstrations to estimate the required grasp area on an unseen scene for the given task. The second step is autonomous grasp estimation in the segmented region. To train the segmentation network for few-shot learning, we built a grasp area segmentation (GAS) dataset with 10089 images grouped into 1121 segmentation tasks. We benefit from an efficient meta learning algorithm for training for few-shot adaptation. Experimental evaluation showed that our method successfully detects the correct grasp area on the respective objects in unseen test scenes and effectively allows remote teaching of new grasp strategies by non-experts.
翻訳日:2023-03-21 20:51:07 公開日:2023-03-17
# 条件付き可逆ニューラルネットワークによる教師なしドメイン転送

Unsupervised Domain Transfer with Conditional Invertible Neural Networks ( http://arxiv.org/abs/2303.10191v1 )

ライセンス: Link先を確認
Kris K. Dreher, Leonardo Ayala, Melanie Schellenberg, Marco H\"ubner, Jan-Hinrich N\"olke, Tim J. Adler, Silvia Seidlitz, Jan Sellner, Alexander Studier-Fischer, Janek Gr\"ohl, Felix Nickel, Ullrich K\"othe, Alexander Seitel, Lena Maier-Hein(参考訳) 合成医療画像生成は、ニューラルネットワークのトレーニングと検証の鍵となる技術として進化してきた。 しかし、重要な課題はシミュレーションと実際のデータの間のドメインギャップにある。 Cycle Generative Adversarial Networksなどのアーキテクチャを用いたディープラーニングベースのドメイン転送は、この分野でかなりの進歩を遂げているが、最先端のアプローチでは、関連する下流タスクで有効な結果をもたらすトレーニングイメージの生成に失敗するケースもある。 本稿では,条件付き可逆ニューラルネットワーク(cinns)に基づくドメイン転送アプローチでこの問題に対処する。 特に,本手法は,その可逆的アーキテクチャによるサイクル一貫性を本質的に保証し,ネットワークトレーニングを最大限に効果的に行うことができる。 本手法の汎用的適用性を示すために,超スペクトルイメージング(ピクセルレベル)と光音響トモグラフィ(画像レベル)という,異なるスケールの2つのスペクトルイメージングモードに適用した。 総合的な実験により,本手法は,2つの下流分類タスク(バイナリとマルチクラス)において,現実的なスペクトルデータの生成を可能にし,技術の現状を向上する。 したがって、cINNベースのドメイン転送は、スペクトルイメージングなどの分野でのリアルな合成データ生成の重要な方法として進化する可能性がある。

Synthetic medical image generation has evolved as a key technique for neural network training and validation. A core challenge, however, remains in the domain gap between simulations and real data. While deep learning-based domain transfer using Cycle Generative Adversarial Networks and similar architectures has led to substantial progress in the field, there are use cases in which state-of-the-art approaches still fail to generate training images that produce convincing results on relevant downstream tasks. Here, we address this issue with a domain transfer approach based on conditional invertible neural networks (cINNs). As a particular advantage, our method inherently guarantees cycle consistency through its invertible architecture, and network training can efficiently be conducted with maximum likelihood training. To showcase our method's generic applicability, we apply it to two spectral imaging modalities at different scales, namely hyperspectral imaging (pixel-level) and photoacoustic tomography (image-level). According to comprehensive experiments, our method enables the generation of realistic spectral data and outperforms the state of the art on two downstream classification tasks (binary and multi-class). cINN-based domain transfer could thus evolve as an important method for realistic synthetic data generation in the field of spectral imaging and beyond.
翻訳日:2023-03-21 20:50:48 公開日:2023-03-17
# 宇宙物体の制御不能再突入予測のための機械学習と特徴工学的アプローチ

A machine learning and feature engineering approach for the prediction of the uncontrolled re-entry of space objects ( http://arxiv.org/abs/2303.10183v1 )

ライセンス: Link先を確認
Francesco Salmaso and Mirko Trisolini and Camilla Colombo(参考訳) 地球の周りを周回する天体の数は、地球の大気圏に再突入する物体の頻度が増加すると予測されている。 これらの再試行の多くは制御されず、予測に挑戦し、いくつかの不確実性にさらされる。 伝統的に、再突入予測は、オブジェクトに作用する力に対する最先端のモデリング技術を用いて、オブジェクトのダイナミクスの伝播に基づいている。 しかし、特に大気抵抗の予測に関連するモデル誤差は、予測精度が低下する可能性がある。 本稿では,物理に基づくアプローチからデータ駆動アプローチへ,パラダイムシフトを行う可能性を検討する。 本研究では,低地球軌道(LEO)における未制御物体の再突入予測のためのディープラーニングモデルの開発について述べる。 このモデルはSequence-to-Sequenceアーキテクチャの修正版に基づいており、400体以上のTLE(Two-Line Element)データから得られた平均高度プロファイルに基づいて訓練されている。 この研究の斬新さは、平均高度とともに、ドラッグライクな係数(B*)、平均太陽指数、物体の面積と質量比の3つの新しい入力特徴を含むディープラーニングモデルの導入である。 開発モデルは、IADC(Inter-Agency Space Debris Coordination Committee)キャンペーンで研究された一連のオブジェクトでテストされる。 その結果, トレーニングセットと同じ抗力係数と偏心分布で特徴付けられる体上で最高の性能が得られることがわかった。

The continuously growing number of objects orbiting around the Earth is expected to be accompanied by an increasing frequency of objects re-entering the Earth's atmosphere. Many of these re-entries will be uncontrolled, making their prediction challenging and subject to several uncertainties. Traditionally, re-entry predictions are based on the propagation of the object's dynamics using state-of-the-art modelling techniques for the forces acting on the object. However, modelling errors, particularly related to the prediction of atmospheric drag may result in poor prediction accuracies. In this context, we explore the possibility to perform a paradigm shift, from a physics-based approach to a data-driven approach. To this aim, we present the development of a deep learning model for the re-entry prediction of uncontrolled objects in Low Earth Orbit (LEO). The model is based on a modified version of the Sequence-to-Sequence architecture and is trained on the average altitude profile as derived from a set of Two-Line Element (TLE) data of over 400 bodies. The novelty of the work consists in introducing in the deep learning model, alongside the average altitude, three new input features: a drag-like coefficient (B*), the average solar index, and the area-to-mass ratio of the object. The developed model is tested on a set of objects studied in the Inter-Agency Space Debris Coordination Committee (IADC) campaigns. The results show that the best performances are obtained on bodies characterised by the same drag-like coefficient and eccentricity distribution as the training set.
翻訳日:2023-03-21 20:50:27 公開日:2023-03-17
# SFE:高次元データのための簡易かつ高速かつ効率的な特徴選択アルゴリズム

SFE: A Simple, Fast and Efficient Feature Selection Algorithm for High-Dimensional Data ( http://arxiv.org/abs/2303.10182v1 )

ライセンス: Link先を確認
Behrouz Ahadzadeh, Moloud Abdar, Fatemeh Safara, Abbas Khosravi, Mohammad Bagher Menhaj, Ponnuthurai Nagaratnam Suganthan(参考訳) 本稿では,高次元データセットに対してsfe(simple, fast, efficient)と呼ばれる新しい特徴選択アルゴリズムを提案する。 SFEアルゴリズムは探索エージェントと2つの演算子(非選択と選択)を用いて探索処理を行う。 探索と搾取という2つの段階からなる。 探索段階において、非選択演算子は、無関係、冗長、自明、騒々しい特徴について問題探索空間全体において大域的な探索を行い、選択モードから非選択モードへ特徴の状況を変更する。 活用段階において、選択演算子は、分類結果に大きな影響を与える特徴の課題探索空間を探索し、非選択モードから選択モードへ特徴の状況を変更する。 提案したSFEは高次元データセットの特徴選択に成功している。 しかし,データセットの次元性を低下させると,その性能は著しく向上することができない。 このような状況下では、新しい検索空間と縮小された検索空間において、より効率的な特徴のサブセットを見つけるために進化的計算法が用いられる。 そこで本研究では,SFE-PSO (Particle Swarm Optimization) というハイブリッドアルゴリズムを提案する。 特徴選択のためのSFEとSFE-PSOの有効性を40個の高次元データセットで比較した。 その性能は、最近提案された6つの機能選択アルゴリズムと比較された。 その結果,提案された2つのアルゴリズムは他のアルゴリズムを大幅に上回っており,高次元データセットから特徴を選択できる効率的かつ効果的なアルゴリズムとして使用できることがわかった。

In this paper, a new feature selection algorithm, called SFE (Simple, Fast, and Efficient), is proposed for high-dimensional datasets. The SFE algorithm performs its search process using a search agent and two operators: non-selection and selection. It comprises two phases: exploration and exploitation. In the exploration phase, the non-selection operator performs a global search in the entire problem search space for the irrelevant, redundant, trivial, and noisy features, and changes the status of the features from selected mode to non-selected mode. In the exploitation phase, the selection operator searches the problem search space for the features with a high impact on the classification results, and changes the status of the features from non-selected mode to selected mode. The proposed SFE is successful in feature selection from high-dimensional datasets. However, after reducing the dimensionality of a dataset, its performance cannot be increased significantly. In these situations, an evolutionary computational method could be used to find a more efficient subset of features in the new and reduced search space. To overcome this issue, this paper proposes a hybrid algorithm, SFE-PSO (particle swarm optimization) to find an optimal feature subset. The efficiency and effectiveness of the SFE and the SFE-PSO for feature selection are compared on 40 high-dimensional datasets. Their performances were compared with six recently proposed feature selection algorithms. The results obtained indicate that the two proposed algorithms significantly outperform the other algorithms, and can be used as efficient and effective algorithms in selecting features from high-dimensional datasets.
翻訳日:2023-03-21 20:50:05 公開日:2023-03-17
# 資源制約条件下でのクリティカル機械学習モデルの運用

Operating critical machine learning models in resource constrained regimes ( http://arxiv.org/abs/2303.10181v1 )

ライセンス: Link先を確認
Raghavendra Selvan, Julian Sch\"on, Erik B Dam(参考訳) 機械学習手法の急速な発展、主にディープラーニングは、最近の医療画像分析とコンピュータ支援による介入のブレークスルーに因果関係がある。 訓練データ、計算、エネルギーコストの量の観点からは、ディープラーニングモデルのリソース消費は膨大であることが知られている。 これらの大きなリソースコストは、これらのモデルをクリニックにグローバルに展開する上での障壁になり得る。 これを解決するため、機械学習コミュニティにはリソース効率の概念を導入するための協調的な取り組みがある。 例えば、量子化を使ってメモリ消費を緩和する。 これらの手法のほとんどは、リソース利用の削減を図っているが、パフォーマンスのコストがかかる可能性がある。 本研究では,特にクリニックなどのクリティカルな環境で使用されるモデルを扱う場合の,リソース消費とパフォーマンスのトレードオフについて検討する。

The accelerated development of machine learning methods, primarily deep learning, are causal to the recent breakthroughs in medical image analysis and computer aided intervention. The resource consumption of deep learning models in terms of amount of training data, compute and energy costs are known to be massive. These large resource costs can be barriers in deploying these models in clinics, globally. To address this, there are cogent efforts within the machine learning community to introduce notions of resource efficiency. For instance, using quantisation to alleviate memory consumption. While most of these methods are shown to reduce the resource utilisation, they could come at a cost in performance. In this work, we probe into the trade-off between resource consumption and performance, specifically, when dealing with models that are used in critical settings such as in clinics.
翻訳日:2023-03-21 20:49:41 公開日:2023-03-17
# 深部オフライン強化学習を用いた全身麻酔中の安全なプロポフォール投与に向けて

Towards Safe Propofol Dosing during General Anesthesia Using Deep Offline Reinforcement Learning ( http://arxiv.org/abs/2303.10180v1 )

ライセンス: Link先を確認
Xiuding Cai, Jiao Chen, Yaoyao Zhu, Beiming Wang, Yu Yao(参考訳) 自動麻酔は、より正確でパーソナライズされた麻酔管理を可能にし、麻酔医を反復的な作業から解放し、患者の外科的治療の最も重要な側面に焦点を合わせることを約束する。 現在の研究は、エージェントが学習できるシミュレーション環境を作ることに重点を置いている。 これらのアプローチは良い実験結果を示したが、まだ臨床応用には程遠い。 本稿では,実際の臨床データセットにおける麻酔戦略の学習問題を解決するためのデータ駆動強化学習アルゴリズムであるポリシ制約q-learning(pcql)を提案する。 保守的なQ-Learningは、オフライン環境でのQ関数過大評価の問題を軽減するために最初に導入された。 エージェントトレーニングにポリシー制約項を追加し、エージェントと麻酔医のポリシー分布を一定に保つことで、エージェントの麻酔シナリオにおける安全な判断を確実にする。 PCQLの有効性は, 臨床麻酔データセットを用いた広範囲な実験により検証された。 以上の結果から,PCQLは麻酔科医の基準線量との良好な一致を維持しつつ,総線量が少なく,患者のバイタルサインに反応しやすく,ベースラインアプローチよりも高い利得が得られると予測された。 さらに, 麻酔科医の臨床的判断のほとんどをカバーすることが可能な薬剤の信頼区間について検討した。 最後に、モデル予測の寄与成分を分析し、モデルの透明性を高めるための解釈可能な手法SHAPを用いた。

Automated anesthesia promises to enable more precise and personalized anesthetic administration and free anesthesiologists from repetitive tasks, allowing them to focus on the most critical aspects of a patient's surgical care. Current research has typically focused on creating simulated environments from which agents can learn. These approaches have demonstrated good experimental results, but are still far from clinical application. In this paper, Policy Constraint Q-Learning (PCQL), a data-driven reinforcement learning algorithm for solving the problem of learning anesthesia strategies on real clinical datasets, is proposed. Conservative Q-Learning was first introduced to alleviate the problem of Q function overestimation in an offline context. A policy constraint term is added to agent training to keep the policy distribution of the agent and the anesthesiologist consistent to ensure safer decisions made by the agent in anesthesia scenarios. The effectiveness of PCQL was validated by extensive experiments on a real clinical anesthesia dataset. Experimental results show that PCQL is predicted to achieve higher gains than the baseline approach while maintaining good agreement with the reference dose given by the anesthesiologist, using less total dose, and being more responsive to the patient's vital signs. In addition, the confidence intervals of the agent were investigated, which were able to cover most of the clinical decisions of the anesthesiologist. Finally, an interpretable method, SHAP, was used to analyze the contributing components of the model predictions to increase the transparency of the model.
翻訳日:2023-03-21 20:49:30 公開日:2023-03-17
# conversational tree search: 新しいハイブリッドダイアログタスク

Conversational Tree Search: A New Hybrid Dialog Task ( http://arxiv.org/abs/2303.10227v1 )

ライセンス: Link先を確認
Dirk V\"ath, Lindsey Vanderlyn, Ngoc Thang Vu(参考訳) 会話型インターフェースは、ユーザーが入手するのが困難で都合の悪い情報を探すための柔軟で簡単な方法を提供する。 しかし、既存のインターフェースは一般的に2つのカテゴリの1つに分類される: FAQ、ユーザーは一般的な回答を取得するために具体的な質問をしなければならない、ダイアログ。 本稿では、FAQスタイルの情報検索とタスク指向ダイアログのギャップを埋める新しいタスクとして、会話木探索(CTS)を導入し、ドメインエキスパートがダイアログツリーを定義できるようにする。 我々は旅行返済ドメインのデータセットを収集し、このタスクのための新しい深層強化学習アーキテクチャとともにベースラインを示す。 その結果、新しいアーキテクチャはベースラインで使用されるfaqとダイアログシステムの両方のポジティブな側面を結合し、不要な質問をスキップしながらより高いゴール完了を達成する。

Conversational interfaces provide a flexible and easy way for users to seek information that may otherwise be difficult or inconvenient to obtain. However, existing interfaces generally fall into one of two categories: FAQs, where users must have a concrete question in order to retrieve a general answer, or dialogs, where users must follow a predefined path but may receive a personalized answer. In this paper, we introduce Conversational Tree Search (CTS) as a new task that bridges the gap between FAQ-style information retrieval and task-oriented dialog, allowing domain-experts to define dialog trees which can then be converted to an efficient dialog policy that learns only to ask the questions necessary to navigate a user to their goal. We collect a dataset for the travel reimbursement domain and demonstrate a baseline as well as a novel deep Reinforcement Learning architecture for this task. Our results show that the new architecture combines the positive aspects of both the FAQ and dialog system used in the baseline and achieves higher goal completion while skipping unnecessary questions.
翻訳日:2023-03-21 20:44:16 公開日:2023-03-17
# ロバストモードコネクティビティ指向の敵防衛: ニューラルネットワークロバストネスを多様化した$\ell_p$攻撃に対して強化する

Robust Mode Connectivity-Oriented Adversarial Defense: Enhancing Neural Network Robustness Against Diversified $\ell_p$ Attacks ( http://arxiv.org/abs/2303.10225v1 )

ライセンス: Link先を確認
Ren Wang, Yuxuan Li, Sijia Liu(参考訳) 敵の堅牢性は、ニューラルネットワークが推論フェーズ中に敵の攻撃から守る能力を測定する上で重要な概念である。 近年の研究では、ロバストトレーニング技術を用いて1種類の攻撃に対する敵の堅牢性を改善することに成功したが、モデルはまだ$\ell_p$攻撃の多様化に弱いことが示されている。 多様化した$\ell_p$ロバスト性を実現するために,2つの集団ベースの学習フェーズを含む,新しいロバストモード接続(rmc)指向の敵対的防御を提案する。 第1フェーズであるrmcは、2つの事前訓練されたモデル間のモデルパラメータ空間を探索し、多様化した$\ell_p$攻撃に対して高い堅牢性を持つ点を含むパスを見つけることができる。 RMCの有効性を考慮して,RTCをベースとした2次最適化が,ニューラルネットワークのさらなる拡張のための基本単位として機能する。 計算効率を向上させるために, RMCの終端に使用する個体群の急速な増殖を可能にする自己損モード接続モジュール(SRMC)を用いて学習を行う。 また,SRMCとヒト免疫系との類似性も示した。 各種データセットおよびモデルアーキテクチャにおける実験結果から,提案手法は,$\ell_\infty$,$\ell_2$,$\ell_1$,およびハイブリッド攻撃に対して,高多様化した$\ell_p$ロバスト性を実現することが示されている。 コードは \url{https://github.com/wangren09/mcgr} で入手できる。

Adversarial robustness is a key concept in measuring the ability of neural networks to defend against adversarial attacks during the inference phase. Recent studies have shown that despite the success of improving adversarial robustness against a single type of attack using robust training techniques, models are still vulnerable to diversified $\ell_p$ attacks. To achieve diversified $\ell_p$ robustness, we propose a novel robust mode connectivity (RMC)-oriented adversarial defense that contains two population-based learning phases. The first phase, RMC, is able to search the model parameter space between two pre-trained models and find a path containing points with high robustness against diversified $\ell_p$ attacks. In light of the effectiveness of RMC, we develop a second phase, RMC-based optimization, with RMC serving as the basic unit for further enhancement of neural network diversified $\ell_p$ robustness. To increase computational efficiency, we incorporate learning with a self-robust mode connectivity (SRMC) module that enables the fast proliferation of the population used for endpoints of RMC. Furthermore, we draw parallels between SRMC and the human immune system. Experimental results on various datasets and model architectures demonstrate that the proposed defense methods can achieve high diversified $\ell_p$ robustness against $\ell_\infty$, $\ell_2$, $\ell_1$, and hybrid attacks. Codes are available at \url{https://github.com/wangren09/MCGR}.
翻訳日:2023-03-21 20:43:56 公開日:2023-03-17
# cerviformer : cross attention と latent transformer を用いた pap-smear を用いた子宮頸癌分類法

CerviFormer: A Pap-smear based cervical cancer classification method using cross attention and latent transformer ( http://arxiv.org/abs/2303.10222v1 )

ライセンス: Link先を確認
Bhaswati Singha Deo, Mayukha Pal, Prasanta K.Panigarhi, Asima Pradhan(参考訳) 目的: 子宮頸癌は女性の主要な死因の1つである。 早期に診断し、他の疾患と同様に最善の医療アドバイスに従って治療し、その効果を可能な限り最小にするべきである。 papスメア画像は、この種のがんを特定する最も建設的な方法の1つである。 本研究は,papスメア画像における子宮頸癌の信頼できる分類のためのクロス・アテンション・ベースのトランスフォマー・アプローチを提案する。 方法:本研究では,入力データのサイズに関するアーキテクチャ上の仮定を最小化するために,トランスフォーマに依存するモデルであるcerviformerを提案する。 このモデルは、クロスアテンション技術を用いて、入力データをコンパクトな潜在トランスフォーマーモジュールに繰り返し統合し、非常に大規模な入力を管理することができる。 我々は,papスメアデータセットを2つ公開して評価した。 結果: Sipakmedデータ上での3状態分類では、93.70%の精度を達成した。 Herlevデータに基づく2状態分類では、精度は94.57%に達した。 結論: 2つの公開データセットに対する実験結果から,提案手法が現代手法と比較して競争力のある結果が得られることを示した。 提案手法は,papスメア画像における子宮頸癌検出のための包括的分類モデルを提供する。 これにより、医療専門家がより優れた頸がん治療を提供し、その結果、テストプロセス全体の効果を高めることができる。

Purpose: Cervical cancer is one of the primary causes of death in women. It should be diagnosed early and treated according to the best medical advice, as with other diseases, to ensure that its effects are as minimal as possible. Pap smear images are one of the most constructive ways for identifying this type of cancer. This study proposes a cross-attention-based Transfomer approach for the reliable classification of cervical cancer in Pap smear images. Methods: In this study, we propose the CerviFormer -- a model that depends on the Transformers and thereby requires minimal architectural assumptions about the size of the input data. The model uses a cross-attention technique to repeatedly consolidate the input data into a compact latent Transformer module, which enables it to manage very large-scale inputs. We evaluated our model on two publicly available Pap smear datasets. Results: For 3-state classification on the Sipakmed data, the model achieved an accuracy of 93.70%. For 2-state classification on the Herlev data, the model achieved an accuracy of 94.57%. Conclusion: Experimental results on two publicly accessible datasets demonstrate that the proposed method achieves competitive results when compared to contemporary approaches. The proposed method brings forth a comprehensive classification model to detect cervical cancer in Pap smear images. This may aid medical professionals in providing better cervical cancer treatment, consequently, enhancing the overall effectiveness of the entire testing process.
翻訳日:2023-03-21 20:43:25 公開日:2023-03-17
# 要約統計を用いた高次元表現型gwasの統計的枠組みと代謝物gwasへの応用

A statistical framework for GWAS of high dimensional phenotypes using summary statistics, with application to metabolite GWAS ( http://arxiv.org/abs/2303.10221v1 )

ライセンス: Link先を確認
Weiqiong Huang, Emily C. Hector, Joshua Cape, Chris McKennan(参考訳) 近年の遺伝子および高次元バイオバンクと「オミック」データの爆発により、研究者は数百から数千の関連表現型が共有する遺伝的起源(正方性)を調査する機会を得た。 しかしながら、既存のマルチフェノタイプゲノムワイドアソシエーション研究(gwas)の手法は、プレオトロピーをモデル化せず、少数の表現型のみに適用するか、推論を行う方法を提供していない。 さらに複雑化するため、生の遺伝的・表現型データはほとんど観測されず、高次元の統計特性があまり理解されていないgwas要約統計で解析を行う必要がある。 そこで我々は,高次元表現型gwasにおけるベイズ推論を行うための新しいモデル,理論的枠組み,および一連の手法を開発し,プレオトロピーを明示的にモデル化し,高速計算を行い,生物学的にインフォームドされた事前情報の利用を容易にする要約統計を用いた。 そこで我々は、既知の代謝経路情報を用いた代謝物レベルに対する遺伝的影響に対する非パラメトリックな新しい前処理を開発し、経路レベルでの解釈可能な推論を育む。

The recent explosion of genetic and high dimensional biobank and 'omic' data has provided researchers with the opportunity to investigate the shared genetic origin (pleiotropy) of hundreds to thousands of related phenotypes. However, existing methods for multi-phenotype genome-wide association studies (GWAS) do not model pleiotropy, are only applicable to a small number of phenotypes, or provide no way to perform inference. To add further complication, raw genetic and phenotype data are rarely observed, meaning analyses must be performed on GWAS summary statistics whose statistical properties in high dimensions are poorly understood. We therefore developed a novel model, theoretical framework, and set of methods to perform Bayesian inference in GWAS of high dimensional phenotypes using summary statistics that explicitly model pleiotropy, beget fast computation, and facilitate the use of biologically informed priors. We demonstrate the utility of our procedure by applying it to metabolite GWAS, where we develop new nonparametric priors for genetic effects on metabolite levels that use known metabolic pathway information and foster interpretable inference at the pathway level.
翻訳日:2023-03-21 20:43:05 公開日:2023-03-17
# フェデレーション付きコンテキスト帯域幅アルゴリズムの実証評価

An Empirical Evaluation of Federated Contextual Bandit Algorithms ( http://arxiv.org/abs/2303.10218v1 )

ライセンス: Link先を確認
Alekh Agarwal, H. Brendan McMahan, Zheng Xu(参考訳) 局所的なセンシティブなデータからユーザデバイスへの学習において、連合学習の採用が増加するにつれて、多くのタスクで取得が困難な明示的なラベルへのアクセスを必要とせず、ユーザが関心のあるアプリケーションと対話する際に生成された暗黙のシグナルを使って学習を行うことができるかどうかを問うのは自然である。 フェデレーション・コンテキスト・バンディット(federated context bandit)の枠組みを用いてこのような問題にアプローチし、フェデレーション・セッティングの集中的設定から顕著なコンテキスト・バンディットアルゴリズムの変種を開発する。 我々はこれらのアルゴリズムを公開データセットを用いてシミュレートした様々なシナリオで慎重に評価する。 シミュレーションモデルでは,初期事前学習モデルとそれに続くユーザインタラクションとのさまざまな不一致や,クライアント間のデータの非定常性,あるいは不均一性など,実世界で遭遇する典型的なセットアップをモデル化する。 実験の結果, 簡単なソフトマックスヒューリスティックが, 知識の豊富な探査・探査トレードオフのバランスをとる上で, 驚くほどの有効性を示した。

As the adoption of federated learning increases for learning from sensitive data local to user devices, it is natural to ask if the learning can be done using implicit signals generated as users interact with the applications of interest, rather than requiring access to explicit labels which can be difficult to acquire in many tasks. We approach such problems with the framework of federated contextual bandits, and develop variants of prominent contextual bandit algorithms from the centralized seting for the federated setting. We carefully evaluate these algorithms in a range of scenarios simulated using publicly available datasets. Our simulations model typical setups encountered in the real-world, such as various misalignments between an initial pre-trained model and the subsequent user interactions due to non-stationarity in the data and/or heterogeneity across clients. Our experiments reveal the surprising effectiveness of the simple and commonly used softmax heuristic in balancing the well-know exploration-exploitation tradeoff across the breadth of our settings.
翻訳日:2023-03-21 20:42:42 公開日:2023-03-17
# モンテカルロサンプリングを用いた連立構造をもつ群説明器の連立と特徴の積空間に対する近似

Approximation of group explainers with coalition structure using Monte Carlo sampling on the product space of coalitions and features ( http://arxiv.org/abs/2303.10216v1 )

ライセンス: Link先を確認
Konstandinos Kotsiopoulos, Alexey Miroshnikov, Khashayar Filom, Arjun Ravi Kannan(参考訳) 近年,多くの機械学習(ML)の説明手法が協調ゲーム理論のアイデアを用いて設計されている。 これらのゲーム理論的な説明は高い複雑さに苦しめられ、実際の環境での正確な計算を妨げている。 本研究は,MLモデルと予測ベクトルに基づく限界ゲームに対して,線形ゲーム値および連立値の幅広いクラスに焦点を当てる。 これらの説明を適切なサンプル空間に対する期待として見ることにより、背景データセットのサイズに線形に依存する複雑さを低減したモンテカルロサンプリングアルゴリズムを設計する。 統計的解析のための厳密なフレームワークを構築し,サンプリング手法の誤差境界を求める。 このアプローチの利点は、高速で、容易に実装でき、モデルに依存しないことです。 さらに、より複雑でモデル特有の他の既知の推定技術と同様の統計的精度を持つ。 統計的収束の厳密な証明と、理論的な結果と一致した数値実験を提供する。

In recent years, many Machine Learning (ML) explanation techniques have been designed using ideas from cooperative game theory. These game-theoretic explainers suffer from high complexity, hindering their exact computation in practical settings. In our work, we focus on a wide class of linear game values, as well as coalitional values, for the marginal game based on a given ML model and predictor vector. By viewing these explainers as expectations over appropriate sample spaces, we design a novel Monte Carlo sampling algorithm that estimates them at a reduced complexity that depends linearly on the size of the background dataset. We set up a rigorous framework for the statistical analysis and obtain error bounds for our sampling methods. The advantage of this approach is that it is fast, easily implementable, and model-agnostic. Furthermore, it has similar statistical accuracy as other known estimation techniques that are more complex and model-specific. We provide rigorous proofs of statistical convergence, as well as numerical experiments whose results agree with our theoretical findings.
翻訳日:2023-03-21 20:42:23 公開日:2023-03-17
# BotShape:行動パターンを利用した新しいソーシャルボット検出手法

BotShape: A Novel Social Bots Detection Approach via Behavioral Patterns ( http://arxiv.org/abs/2303.10214v1 )

ライセンス: Link先を確認
Jun Wu, Xuesong Ye and Chengjie Mou(参考訳) オンラインソーシャルネットワークのセキュリティにおいて重要なトピックは、ボットアカウントを正確に検知し、有害な影響(誤報、噂、スパムなど)を本物のユーザーに与える方法である。 実世界のデータセットに基づいて、生のイベントログから行動シーケンスを構築する。 行動時系列から重要な特徴を抽出した後、ボットと真のユーザ間の差異とボットアカウント間の類似パターンを観察する。 ボット検出のための分類器の特徴として,行動シーケンスや特徴を自動的に検出する新しいソーシャルボット検出システムbotshapeを提案する。 その結果, 各種分類器において, 検出精度は98.52%, f1-scoreは96.65%であった。 他の研究と比較すると、BotShapeはアカウントをプロファイリングするための新しいアプローチであり、多くのメソッドのパフォーマンス向上に役立つと結論付けている。

An essential topic in online social network security is how to accurately detect bot accounts and relieve their harmful impacts (e.g., misinformation, rumor, and spam) on genuine users. Based on a real-world data set, we construct behavioral sequences from raw event logs. After extracting critical characteristics from behavioral time series, we observe differences between bots and genuine users and similar patterns among bot accounts. We present a novel social bot detection system BotShape, to automatically catch behavioral sequences and characteristics as features for classifiers to detect bots. We evaluate the detection performance of our system in ground-truth instances, showing an average accuracy of 98.52% and an average f1-score of 96.65% on various types of classifiers. After comparing it with other research, we conclude that BotShape is a novel approach to profiling an account, which could improve performance for most methods by providing significant behavioral features.
翻訳日:2023-03-21 20:42:09 公開日:2023-03-17
# ASymReg:反対称定式化と変形反転層を用いたロバスト対称画像登録

ASymReg: Robust symmetric image registration using anti-symmetric formulation and deformation inversion layers ( http://arxiv.org/abs/2303.10211v1 )

ライセンス: Link先を確認
Joel Honkamaa and Pekka Marttinen(参考訳) 深層学習に基づく変形可能な医用画像登録法が,古典的反復的登録法の強力な代替手段として登場した。 しかし、現在発表された深層学習法は、入力の順序にかかわらず登録結果が同じである古典的登録法として入力に関して厳密な対称性特性を満たさない。 いくつかの深層学習法は自身を対称性とみなすが、これらの手法は、任意の入力対に対して対称性を保証しない、あるいは正確な明示的逆数を生成することのできない先行性のみである。 本稿では,登録ネットワークをその入力に対して非対称にするという新しい登録アーキテクチャを提案する。 本研究では,提案手法が登録精度の面で最先端の成果を達成し,生成した変形が明示的な逆数を持つ2つのデータセットについて実証する。

Deep learning based deformable medical image registration methods have emerged as a strong alternative for classical iterative registration methods. However, the currently published deep learning methods do not fulfill as strict symmetry properties with respect to the inputs as some classical registration methods, for which the registration outcome is the same regardless of the order of the inputs. While some deep learning methods label themselves as symmetric, they are either symmetric only a priori, which does not guarantee symmetry for any given input pair, or they do not generate accurate explicit inverses. In this work, we propose a novel registration architecture which by construction makes the registration network anti-symmetric with respect to its inputs. We demonstrate on two datasets that the proposed method achieves state-of-the-art results in terms of registration accuracy and that the generated deformations have accurate explicit inverses.
翻訳日:2023-03-21 20:41:43 公開日:2023-03-17
# CAPE:多視点3Dオブジェクト検出のためのカメラビュー位置埋め込み

CAPE: Camera View Position Embedding for Multi-View 3D Object Detection ( http://arxiv.org/abs/2303.10209v1 )

ライセンス: Link先を確認
Kaixin Xiong, Shi Gong, Xiaoqing Ye, Xiao Tan, Ji Wan, Errui Ding, Jingdong Wang, Xiang Bai(参考訳) 本稿では,マルチビュー画像から3次元物体を検出する問題に対処する。 現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込み(PE)に依存している。 グローバルな3D PEと直接相互作用する2D画像は、カメラ外在物の変化による学習の難しさを増大させる可能性がある。 そこで我々はCAPEと呼ばれるCAmera View Position Embeddingに基づく新しい手法を提案する。 本研究では,グローバル座標系の代わりに局所的なカメラビュー座標系の下で3次元位置埋め込みを構築し,カメラの外部パラメータを符号化することができないようにした。 さらに,前フレームのオブジェクトクエリを活用し,ego-motionをエンコードして3次元オブジェクト検出を促進させることにより,ケープを時間モデルに拡張する。 CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。 コードとモデルは \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} と \href{https://github.com/kaixinbear/CAPE}{PyTorch implementation} で利用可能である。

In this paper, we address the problem of detecting 3D objects from multi-view images. Current query-based methods rely on global 3D position embeddings (PE) to learn the geometric correspondence between images and 3D space. We claim that directly interacting 2D image features with global 3D PE could increase the difficulty of learning view transformation due to the variation of camera extrinsics. Thus we propose a novel method based on CAmera view Position Embedding, called CAPE. We form the 3D position embeddings under the local camera-view coordinate system instead of the global coordinate system, such that 3D position embedding is free of encoding camera extrinsic parameters. Furthermore, we extend our CAPE to temporal modeling by exploiting the object queries of previous frames and encoding the ego-motion for boosting 3D object detection. CAPE achieves state-of-the-art performance (61.0% NDS and 52.5% mAP) among all LiDAR-free methods on nuScenes dataset. Codes and models are available on \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} and \href{https://github.com/kaixinbear/CAPE}{PyTorch Implementation}.
翻訳日:2023-03-21 20:41:17 公開日:2023-03-17
# 深層学習に基づく脳MRI-to-CT合成におけるコントラスト一般化の探索

Exploring contrast generalisation in deep learning-based brain MRI-to-CT synthesis ( http://arxiv.org/abs/2303.10202v1 )

ライセンス: Link先を確認
Lotte Nijskens, Cornelis (Nico) AT van den Berg, Joost JC Verhoeff, Matteo Maspero(参考訳) 背景: シンセティック・コンピュート・トモグラフィー(sCT)が提案され, MRIベースの放射線治療を可能にするために臨床応用が進んでいる。 深層学習(DL)は、最近MRIの固定取得から正確なsCTを生成する能力を示した。 しかし、MRIプロトコルは時間とともに変化するか、あるいはモデル一般化が不十分なため、低品質のsCTが生じる。 目的:脳sCT生成のためのDLモデルの一般化を促進するために、ドメインランダム化(DR)を調査すること。 方法】rtを施行した95例のctおよびそれに対応するt1強調mri,t2強調mriおよびflair mriを,一般化を検討すべき未発見配列を考慮に入れて収集した。 画像の類似性やsctベースの線量計画の精度をctに対して評価し、ベースラインに対して最適なdrアプローチを選択する。 結果: Baseline モデルは FLAIR において,平均絶対誤差 (MAE)=106$\pm$20.7 HU (mean$\pm\sigma$) が最も低かった。 FLAIRの性能はMAE=99.0$\pm$14.9 HUで大幅に改善されたが、ベースライン+FLAIRモデル(MAE=72.6$\pm$10.1 HU)よりは劣った。 同様に、DR対Baselineでは$\gamma$-passレートの改善が得られた。 結語: DRは画像の類似度と線量精度を、取得したMRIでのみ訓練した場合と比較して改善した。 DRにより、モデルはより堅牢になり、再トレーニングのできないシーケンスにモデルを適用する際の再トレーニングの必要性が軽減される。

Background: Synthetic computed tomography (sCT) has been proposed and increasingly clinically adopted to enable magnetic resonance imaging (MRI)-based radiotherapy. Deep learning (DL) has recently demonstrated the ability to generate accurate sCT from fixed MRI acquisitions. However, MRI protocols may change over time or differ between centres resulting in low-quality sCT due to poor model generalisation. Purpose: investigating domain randomisation (DR) to increase the generalisation of a DL model for brain sCT generation. Methods: CT and corresponding T1-weighted MRI with/without contrast, T2-weighted, and FLAIR MRI from 95 patients undergoing RT were collected, considering FLAIR the unseen sequence where to investigate generalisation. A ``Baseline'' generative adversarial network was trained with/without the FLAIR sequence to test how a model performs without DR. Image similarity and accuracy of sCT-based dose plans were assessed against CT to select the best-performing DR approach against the Baseline. Results: The Baseline model had the poorest performance on FLAIR, with mean absolute error (MAE)=106$\pm$20.7 HU (mean$\pm\sigma$). Performance on FLAIR significantly improved for the DR model with MAE=99.0$\pm$14.9 HU, but still inferior to the performance of the Baseline+FLAIR model (MAE=72.6$\pm$10.1 HU). Similarly, an improvement in $\gamma$-pass rate was obtained for DR vs Baseline. Conclusions: DR improved image similarity and dose accuracy on the unseen sequence compared to training only on acquired MRI. DR makes the model more robust, reducing the need for re-training when applying a model on sequences unseen and unavailable for retraining.
翻訳日:2023-03-21 20:40:47 公開日:2023-03-17
# 確率制御とゲームのための機械学習手法の最近の進歩

Recent Developments in Machine Learning Methods for Stochastic Control and Games ( http://arxiv.org/abs/2303.10257v1 )

ライセンス: Link先を確認
Ruimeng Hu, Mathieu Lauri\`ere(参考訳) 確率的最適制御とゲームは、金融や経済学から社会科学、ロボティクス、エネルギー管理に至るまで、幅広い応用を見出している。 多くの実世界の応用は、洗練された数値手法の開発を駆動する複雑なモデルを含んでいる。 近年,確率制御問題やゲームに対して機械学習に基づく計算手法が開発されている。 このような手法を,次元が高い場合や構造が非常に複雑である場合であっても,従来の数値法で実現可能な範囲を超えて,そのような問題を解けるような深層学習アルゴリズムに焦点をあてて検討する。 ここでは、主に連続時間と連続空間の設定を考える。 新たなアプローチの多くは、高次元偏微分方程式や後方確率微分方程式に対する最近のニューラルネットワークに基づく手法や、マルコフ決定過程のモデルフリー強化学習に基づいて構築され、画期的な結果が得られた。 本稿では,これらの手法を紹介するとともに,確率制御とゲームのための機械学習に関する最先端の成果を要約する。

Stochastic optimal control and games have found a wide range of applications, from finance and economics to social sciences, robotics and energy management. Many real-world applications involve complex models which have driven the development of sophisticated numerical methods. Recently, computational methods based on machine learning have been developed for stochastic control problems and games. We review such methods, with a focus on deep learning algorithms that have unlocked the possibility to solve such problems even when the dimension is high or when the structure is very complex, beyond what is feasible with traditional numerical methods. Here, we consider mostly the continuous time and continuous space setting. Many of the new approaches build on recent neural-network based methods for high-dimensional partial differential equations or backward stochastic differential equations, or on model-free reinforcement learning for Markov decision processes that have led to breakthrough results. In this paper we provide an introduction to these methods and summarize state-of-the-art works on machine learning for stochastic control and games.
翻訳日:2023-03-21 20:33:31 公開日:2023-03-17
# ニューラルネットワークと空間分解を用いた電力系統力学における微分代数方程式の解法

Solving Differential-Algebraic Equations in Power Systems Dynamics with Neural Networks and Spatial Decomposition ( http://arxiv.org/abs/2303.10256v1 )

ライセンス: Link先を確認
Jochen Stiasny, Spyros Chatzivasileiadis, Baosen Zhang(参考訳) 動力系のダイナミクスは微分代数方程式の系によって記述される。 時間領域シミュレーションはシステム力学の進化を理解するために用いられる。 これらのシミュレーションは、微妙に離散化された時間ステップを必要とするシステムの剛性のため、計算的に高価である。 許容時間ステップサイズを増加させることで,シミュレーションの高速化を図る。 本稿では,個々の成分が代数方程式と微分方程式の両方を用いて記述されているものの,それらの結合は代数方程式のみを含むという観察を用いている。 この観察の後、ニューラルネットワーク(NN)を用いてコンポーネントの状態の進化を近似し、高速で正確で数値的に安定な近似器を導き、より大きな時間ステップを可能にする。 ネットワークがコンポーネントやその逆に与える影響を考慮するため、nnは結合代数変数の時間的発展をその予測のインプットとして捉えている。 まず、この時間的進化を推定し、ニュートン・ラフソンアルゴリズムを用いて反復的に更新する。 ジャコビアン行列は自動微分で計算され、そのサイズはネットワークサイズにのみ依存するが、コンポーネントのダイナミクスには依存しない。 3つのジェネレータを持つIEEE 9-busテストケース上で,このNNベースのシミュレータを実演する。

The dynamics of the power system are described by a system of differential-algebraic equations. Time-domain simulations are used to understand the evolution of the system dynamics. These simulations can be computationally expensive due to the stiffness of the system which requires the use of finely discretized time-steps. By increasing the allowable time-step size, we aim to accelerate such simulations. In this paper, we use the observation that even though the individual components are described using both algebraic and differential equations, their coupling only involves algebraic equations. Following this observation, we use Neural Networks (NNs) to approximate the components' state evolution, leading to fast, accurate, and numerically stable approximators, which enable larger time-steps. To account for effects of the network on the components and vice-versa, the NNs take the temporal evolution of the coupling algebraic variables as an input for their prediction. We initially estimate this temporal evolution and then update it in an iterative fashion using the Newton-Raphson algorithm. The involved Jacobian matrix is calculated with Automatic Differentiation and its size depends only on the network size but not on the component dynamics. We demonstrate this NN-based simulator on the IEEE 9-bus test case with 3 generators.
翻訳日:2023-03-21 20:33:16 公開日:2023-03-17
# インテリジェントアシスタントとのユーザインタラクションにおけるフィードバック効果:遅延エンゲージメント、適応、ドロップアウト

Feedback Effect in User Interaction with Intelligent Assistants: Delayed Engagement, Adaption and Drop-out ( http://arxiv.org/abs/2303.10255v1 )

ライセンス: Link先を確認
Zidi Xiu, Kai-Chen Cheng, David Q. Sun, Jiannan Lu, Hadas Kotek, Yuhan Zhang, Paul McCarthy, Christopher Klein, Stephen Pulman, Jason D. Williams(参考訳) インテリジェントアシスタント(IA)の人気が高まり、IA品質の評価が研究の活発な分野となっている。 本稿では,IA-ユーザインタラクションにおける新たなコンポーネントであるフィードバック効果の同定と定量化を行う。 第一に,iaからの無力な応答が,短期的にユーザのインタラクションの遅延や減少を引き起こすことを観察的研究によって実証する。 次に、行動変化を調べるための時間的地平線を拡張し、IAの理解と機能的能力の限界を発見すると、IAから有用な応答を受ける可能性を高めるために、要求のスコープと語調を調整することを学ぶ。 その結果,マイクロおよびメソレベルのフィードバック効果の影響が明らかになった。 満足できないインタラクションは、フィードバックループにおける将来のユーザエンゲージメントの可能性と多様性を継続的に減少させます。

With the growing popularity of intelligent assistants (IAs), evaluating IA quality becomes an increasingly active field of research. This paper identifies and quantifies the feedback effect, a novel component in IA-user interactions: how the capabilities and limitations of the IA influence user behavior over time. First, we demonstrate that unhelpful responses from the IA cause users to delay or reduce subsequent interactions in the short term via an observational study. Next, we expand the time horizon to examine behavior changes and show that as users discover the limitations of the IA's understanding and functional capabilities, they learn to adjust the scope and wording of their requests to increase the likelihood of receiving a helpful response from the IA. Our findings highlight the impact of the feedback effect at both the micro and meso levels. We further discuss its macro-level consequences: unsatisfactory interactions continuously reduce the likelihood and diversity of future user engagements in a feedback loop.
翻訳日:2023-03-21 20:32:57 公開日:2023-03-17
# 不均一ネットワークにおけるフェデレーションSVMのマルチタスクモデルパーソナライゼーション

Multi-Task Model Personalization for Federated Supervised SVM in Heterogeneous Networks ( http://arxiv.org/abs/2303.10254v1 )

ライセンス: Link先を確認
Aleksei Ponomarenko-Timofeev, Olga Galinina, Ravikumar Balakrishnan, Nageen Himayat, Sergey Andreev, and Yevgeni Koucheryavy(参考訳) 本稿では,連帯分類と回帰に取り組む支援ベクトルマシン(svms)に基づく効率的な分散反復学習手法を考案する。 提案手法は、異種ノードのネットワークにおける効率的な計算とモデル交換をサポートし、非i.d.データの存在下で学習モデルのパーソナライズを可能にする。 プライバシーをさらに強化するため,データ反転を回避するためにランダムマスク方式を導入する。 最後に,提案するプライバシ機構と参加者のハードウェアとデータの多様性がシステム性能に与える影響を分析した。

In this paper, we design an efficient distributed iterative learning method based on support vector machines (SVMs), which tackles federated classification and regression. The proposed method supports efficient computations and model exchange in a network of heterogeneous nodes and allows personalization of the learning model in the presence of non-i.i.d. data. To further enhance privacy, we introduce a random mask procedure that helps avoid data inversion. Finally, we analyze the impact of the proposed privacy mechanisms and the heterogeneity of participant hardware and data on the system performance.
翻訳日:2023-03-21 20:32:40 公開日:2023-03-17
# 三角面の共形生成モデル

Conformal Generative Modeling on Triangulated Surfaces ( http://arxiv.org/abs/2303.10251v1 )

ライセンス: Link先を確認
Victor Dorobantu, Charlotte Borcherds, Yisong Yue(参考訳) 離散的三角形メッシュによって近似された2次元曲面の生成モデリングのための枠組みである共形生成モデリングを提案する。 本手法は, 離散共形幾何学の進歩を利用して, 原点三角形メッシュから球面のような単純多様体の目標三角形メッシュへの写像を開発する。 メッシュの離散化による誤差を考慮した後、単純な多様体に対して開発された任意の生成的モデリングアプローチをプラグ・アンド・プレイ・サブルーチンとして利用できる。 我々は,複数の複雑な多様体と多重生成モデリングサブルーチン上での枠組みを実証し,サンプルからメッシュ上の分布の良質な推定を学習し,同じ多様体の複数の異なるメッシュから同時に学習できることを示す。

We propose conformal generative modeling, a framework for generative modeling on 2D surfaces approximated by discrete triangle meshes. Our approach leverages advances in discrete conformal geometry to develop a map from a source triangle mesh to a target triangle mesh of a simple manifold such as a sphere. After accounting for errors due to the mesh discretization, we can use any generative modeling approach developed for simple manifolds as a plug-and-play subroutine. We demonstrate our framework on multiple complicated manifolds and multiple generative modeling subroutines, where we show that our approach can learn good estimates of distributions on meshes from samples, and can also learn simultaneously from multiple distinct meshes of the same underlying manifold.
翻訳日:2023-03-21 20:32:28 公開日:2023-03-17
# mri : 多様なモダリティを用いた画像合成のためのマルチモーダル検索手法

MRIS: A Multi-modal Retrieval Approach for Image Synthesis on Diverse Modalities ( http://arxiv.org/abs/2303.10249v1 )

ライセンス: Link先を確認
Boqi Chen, Marc Niethammer(参考訳) 複数の画像モダリティは、疾患の診断、予測、人口ベースの分析にしばしば使用される。 しかし、コスト、異なる研究設計、画像技術の変化のために全てのモダリティが利用できるわけではない。 画像の種類の違いが小さい場合、データ調和法が利用可能であり、大きな変化に対して直接画像合成法が検討されている。 本稿では,多モード距離学習に基づく手法を開発し,多様なモダリティの画像を合成する。 我々は,マルチモーダル画像検索によるメトリック学習を用いて,異なるモダリティの画像を関連付ける埋め込みを実現する。 大きな画像データベースが与えられた場合、学習した画像埋め込みにより、画像合成にk-nearest neighbor(k-NN)レグレッションを利用することができる。 運転医学的問題は変形性膝関節症(koa)である。 3次元磁気共鳴(MR)画像から得られた軟骨厚図を2次元ラジオグラフィーで合成し,そのアプローチを検証した。 実験の結果,提案手法は直接画像合成よりも優れており,合成された厚みマップは,進行予測やケルグレン・ラーレンスグレーディング(KLG)といった下流タスクに関連する情報を保持することがわかった。 この結果から,大規模な画像データベースから高品質で有意義な画像合成結果を得るために,検索手法が有用であることが示唆された。

Multiple imaging modalities are often used for disease diagnosis, prediction, or population-based analyses. However, not all modalities might be available due to cost, different study designs, or changes in imaging technology. If the differences between the types of imaging are small, data harmonization approaches can be used; for larger changes, direct image synthesis approaches have been explored. In this paper, we develop an approach based on multi-modal metric learning to synthesize images of diverse modalities. We use metric learning via multi-modal image retrieval, resulting in embeddings that can relate images of different modalities. Given a large image database, the learned image embeddings allow us to use k-nearest neighbor (k-NN) regression for image synthesis. Our driving medical problem is knee osteoarthritis (KOA), but our developed method is general after proper image alignment. We test our approach by synthesizing cartilage thickness maps obtained from 3D magnetic resonance (MR) images using 2D radiographs. Our experiments show that the proposed method outperforms direct image synthesis and that the synthesized thickness maps retain information relevant to downstream tasks such as progression prediction and Kellgren-Lawrence grading (KLG). Our results suggest that retrieval approaches can be used to obtain high-quality and meaningful image synthesis results given large image databases.
翻訳日:2023-03-21 20:32:18 公開日:2023-03-17
# 光フローと線形ぼかしを用いたビデオシャッター角推定

Video shutter angle estimation using optical flow and linear blur ( http://arxiv.org/abs/2303.10247v1 )

ライセンス: Link先を確認
David Korcak and Jiri Matas(参考訳) 動きを含むビデオクリップの露出時間とフレームレートの相反比であるシャッター角,すなわち露出率を推定する方法を提案する。 このアプローチでは、露光率、光流、および直線運動のぼやけの関係を利用する。 堅牢性は、光学フローとぼやけ推定の両方が信頼できる画像パッチを選択し、一貫性をチェックすることで達成される。 この手法は一般に公開されているビームスプリッターデータセットで0.015から0.36までの露光率で評価された。 推定値の平均絶対誤差は0.039である。 フレーム除去や挿入によるビデオ改ざん検出のための法医学的応用法として,本手法の有効性を検証した。

We present a method for estimating the shutter angle, a.k.a. exposure fraction -- the ratio of the exposure time and the reciprocal of frame rate -- of videoclips containing motion. The approach exploits the relation of the exposure fraction, optical flow, and linear motion blur. Robustness is achieved by selecting image patches where both the optical flow and blur estimates are reliable, checking their consistency. The method was evaluated on the publicly available Beam-Splitter Dataset with a range of exposure fractions from 0.015 to 0.36. The best achieved mean absolute error of estimates was 0.039. We successfully test the suitability of the method for a forensic application of detection of video tampering by frame removal or insertion.
翻訳日:2023-03-21 20:31:54 公開日:2023-03-17
# 1つの奇妙なトリックは、特に1/2ドルに近い成功確率のために、量子敵境界を締め付ける。

One Weird Trick Tightens the Quantum Adversary Bound, Especially for Success Probability Close to $1/2$ ( http://arxiv.org/abs/2303.10244v1 )

ライセンス: Link先を確認
Duyal Yolcu(参考訳) 関数評価のための教科書の逆境は、成功確率を持つ関数$f\colon d\to c$を量子クエリモデルで評価するには、少なくとも$\left(2\delta -\sqrt{1-4\delta^2} \right) adv(f)$クエリが必要であり、ここで$adv(f)$は最適化問題の最適値である。 これは$\delta \ll 1$ に対して、繰り返しと多数の引数の後にも$\theta\left(\delta^2 adv(f)\right)$ のバウンドしか許さない。 対照的に多項式法は、$0$ に収束しない境界を $\delta \to 0$ として証明することができる。 我々は$\delta$-dependentプレファクタを改善し、$2\delta Adv(f)$のバウンドを達成する。 完全入力非依存初期状態から不完全な識別可能な最終状態へ変換するアルゴリズムから、不完全入力非依存初期状態から完全識別可能な最終状態まで、同じ数のクエリで「正しい」最終部分空間に投影して計算不能な状態に変換するアルゴリズムを構築する。 初期グラム行列に対する$\delta$-依存条件は、最終グラム行列における元のアルゴリズムの条件と比較して、引き締められた前因子を導出することができる。

The textbook adversary bound for function evaluation states that to evaluate a function $f\colon D\to C$ with success probability $\frac{1}{2}+\delta$ in the quantum query model, one needs at least $\left( 2\delta -\sqrt{1-4\delta^2} \right) Adv(f)$ queries, where $Adv(f)$ is the optimal value of a certain optimization problem. For $\delta \ll 1$, this only allows for a bound of $\Theta\left(\delta^2 Adv(f)\right)$ even after a repetition-and-majority-voting argument. In contrast, the polynomial method can sometimes prove a bound that doesn't converge to $0$ as $\delta \to 0$. We improve the $\delta$-dependent prefactor and achieve a bound of $2\delta Adv(f)$. The proof idea is to "turn the output condition into an input condition": From an algorithm that transforms perfectly input-independent initial to imperfectly distinguishable final states, we construct one that transforms imperfectly input-independent initial to perfectly distinguishable final states in the same number of queries by projecting onto the "correct" final subspaces and uncomputing. The resulting $\delta$-dependent condition on initial Gram matrices, compared to the original algorithm's condition on final Gram matrices, allows deriving the tightened prefactor.
翻訳日:2023-03-21 20:31:43 公開日:2023-03-17
# 予熱$U(1)$離散時間結晶の観察

Observation of a Prethermal $U(1)$ Discrete Time Crystal ( http://arxiv.org/abs/2303.10238v1 )

ライセンス: Link先を確認
Andrew Stasiuk and Paola Cappellaro(参考訳) 時間結晶は、離散時間翻訳対称性を破る周期的に駆動された物質の状態である。 時間結晶は様々なプログラム可能な量子シミュレーターで実験的に実証され、非平衡の駆動量子系が平衡状態にある系に存在しない興味深い、堅牢な性質を示すことを実証している。 これらの頑健な駆動状態はいくつかの機構によって安定化され、先行候補は多体局在と予熱である。 これは自然発生系の時間結晶性を実験的に観察することを困難にする追加の制約を導入する。 近年の理論的研究は、予熱法(prethermalization \textit{without temperature})の概念を発展させ、時間結晶系のクラスを拡張して無限温度における時間結晶の観測を説明する。 本研究では, 固体nmr量子エミュレータにおける準無限温度におけるu(1)$時間結晶状態の出現を, 温度を伴わない予熱条件の検証によって決定的に観察する。 署名期間の二重化挙動の観察に加えて, 創発的 u(1)$ 保存則の強化により寿命が著しく向上する長寿命の予熱レジームの存在を示す。 この強化をグローバル磁化によって測定するだけでなく、オンサイト障害を利用して局所観測量を測定し、多体局在の可能性を排除し、長距離相関の出現を確認する。

A time crystal is a state of periodically driven matter which breaks discrete time translation symmetry. Time crystals have been demonstrated experimentally in various programmable quantum simulators and exemplify how non-equilibrium, driven quantum systems can exhibit intriguing and robust properties absent in systems at equilibrium. These robust driven states need to be stabilized by some mechanism, with the preeminent candidates being many-body localization and prethermalization. This introduces additional constraints that make it challenging to experimentally observe time crystallinity in naturally occurring systems. Recent theoretical work has developed the notion of prethermalization \textit{without temperature}, expanding the class of time crystal systems to explain time crystalline observations at (or near) infinite temperature. In this work, we conclusively observe the emergence of a prethermal $U(1)$ time crystalline state at quasi-infinite temperature in a solid-state NMR quantum emulator by verifying the requisites of prethermalization without temperature. In addition to observing the signature period-doubling behavior, we show the existence of a long-lived prethermal regime whose lifetime is significantly enhanced by strengthening an emergent $U(1)$ conservation law. Not only do we measure this enhancement through the global magnetization, but we also exploit on-site disorder to measure local observables, ruling out the possibility of many-body localization and confirming the emergence of long-range correlations.
翻訳日:2023-03-21 20:31:16 公開日:2023-03-17
# LSwinSR:リニアスウィントランスを用いたUAV画像超解像

LSwinSR: UAV Imagery Super-Resolution based on Linear Swin Transformer ( http://arxiv.org/abs/2303.10232v1 )

ライセンス: Link先を確認
Rui Li and Xiaowei Zhao(参考訳) 低解像度画像から高解像度画像を再構成することを目的とした超高解像度画像は注目され、コンピュータビジョンやリモートセンシングのコミュニティで研究されている。 超高解像度技術は、無人航空機(UAV)にとって特に有益であり、UAVが捉えた画像の量と解像度は、飛行高度や負荷容量などの物理的制約によって非常に制限される。 近年,超解像タスクにおけるディープラーニング手法の応用が成功し,一連の超解像アルゴリズムが開発されている。 本稿では,uav画像の超高解像度化のために,最先端のスウィントランスを用いた新しいネットワークを提案する。 一方、UAVの基本的な用途の一つは土地被覆と土地利用監視であり、Pak-Signal-to-Noise Ratio (PSNR) やStructure similarity Index Measure (SSIM) のような単純な画像品質評価は、アルゴリズムの性能を総合的に測定するには不十分である。 そこで本研究では,セマンティックセグメンテーションの精度を用いた超解像法の有効性について検討する。 コードはhttps://github.com/lironui/LSwinSRで入手できる。

Super-resolution, which aims to reconstruct high-resolution images from low-resolution images, has drawn considerable attention and has been intensively studied in computer vision and remote sensing communities. The super-resolution technology is especially beneficial for Unmanned Aerial Vehicles (UAV), as the amount and resolution of images captured by UAV are highly limited by physical constraints such as flight altitude and load capacity. In the wake of the successful application of deep learning methods in the super-resolution task, in recent years, a series of super-resolution algorithms have been developed. In this paper, for the super-resolution of UAV images, a novel network based on the state-of-the-art Swin Transformer is proposed with better efficiency and competitive accuracy. Meanwhile, as one of the essential applications of the UAV is land cover and land use monitoring, simple image quality assessments such as the Peak-Signal-to-Noise Ratio (PSNR) and the Structural Similarity Index Measure (SSIM) are not enough to comprehensively measure the performance of an algorithm. Therefore, we further investigate the effectiveness of super-resolution methods using the accuracy of semantic segmentation. The code will be available at https://github.com/lironui/LSwinSR.
翻訳日:2023-03-21 20:30:52 公開日:2023-03-17
# 行動認識のための合成ドメイン適応:データセットとベースライン性能

Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances ( http://arxiv.org/abs/2303.10280v1 )

ライセンス: Link先を確認
Arun V. Reddy, Ketul Shah, William Paul, Rohita Mocharla, Judy Hoffman, Kapil D. Katyal, Dinesh Manocha, Celso M. de Melo, Rama Chellappa(参考訳) 人間の行動認識は、特に主題の出現、背景、視点などの要因に高い変動性がある場合、難しい問題である。 ディープニューラルネットワーク(DNN)は、アクション認識タスクでうまく機能することが示されているが、様々な条件で堅牢なパフォーマンスを達成するためには、通常、大量の高品質なラベル付きデータを必要とする。 合成データは、現実世界で膨大な量のデータを収集しラベル付けすることに関連する、実質的なコストと潜在的な倫理的懸念を避ける手段として、約束を示す。 しかし、合成データは重要な方法で実際のデータと異なる可能性がある。 この現象は \textit{domain shift} と呼ばれ、ロボットアプリケーションにおける合成データの有用性を制限することができる。 ドメインシフトの影響を軽減するため、ドメイン適応(DA)技術の開発に多大な努力が注がれている。 しかし、これらの技術をどのように開発するかについては、まだよく分かっていない。 本稿では,ロボット制御ジェスチャー (RoCoG-v2) と呼ばれる新しいデータセットを提案する。 このデータセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されており、ビデオに基づく行動認識のための合成ドメインシフトの研究を支援することを目的としている。 我々の研究は、人間のロボットチームのためのジェスチャーにアクションクラスを集中させることで既存のデータセットを拡張し、地上と空中の両方でドメインシフトの調査を可能にする。 現状のアクション認識とドメイン適応アルゴリズムを用いてベースライン結果を示し、合成から現実、地上へのドメインシフトに対処するための最初の洞察を提供する。

Human action recognition is a challenging problem, particularly when there is high variability in factors such as subject appearance, backgrounds and viewpoint. While deep neural networks (DNNs) have been shown to perform well on action recognition tasks, they typically require large amounts of high-quality labeled data to achieve robust performance across a variety of conditions. Synthetic data has shown promise as a way to avoid the substantial costs and potential ethical concerns associated with collecting and labeling enormous amounts of data in the real-world. However, synthetic data may differ from real data in important ways. This phenomenon, known as \textit{domain shift}, can limit the utility of synthetic data in robotics applications. To mitigate the effects of domain shift, substantial effort is being dedicated to the development of domain adaptation (DA) techniques. Yet, much remains to be understood about how best to develop these techniques. In this paper, we introduce a new dataset called Robot Control Gestures (RoCoG-v2). The dataset is composed of both real and synthetic videos from seven gesture classes, and is intended to support the study of synthetic-to-real domain shift for video-based action recognition. Our work expands upon existing datasets by focusing the action classes on gestures for human-robot teaming, as well as by enabling investigation of domain shift in both ground and aerial views. We present baseline results using state-of-the-art action recognition and domain adaptation algorithms and offer initial insight on tackling the synthetic-to-real and ground-to-air domain shifts.
翻訳日:2023-03-21 20:23:52 公開日:2023-03-17
# 動的信頼度によるスパイクニューラルネットワークの可能性の解き放つ

Unleashing the Potential of Spiking Neural Networks by Dynamic Confidence ( http://arxiv.org/abs/2303.10276v1 )

ライセンス: Link先を確認
Chen Li, Edward Jones, Steve Furber(参考訳) 本稿では,スパイキングニューラルネットワーク(SNN)の精度とレイテンシのトレードオフを緩和する新しい手法を提案する。 このアプローチでは、sn出力から時間とともに信頼情報をデコードし、各推論を終了するタイミングを動的に決定できる意思決定エージェントを開発する。 提案手法であるDynamic Confidenceは,SNNにいくつかの大きなメリットを提供する。 1. 実行時に動的にレイテンシを最適化し、既存の低レイテンシSNNアルゴリズムとは分離することができる。 CIFAR-10とImageNetデータセットに関する実験は、Dynamic Confidenceを適用した後、8つの異なる設定で平均40%のスピードアップを示した。 2) Dynamic Confidenceにおける意思決定エージェントは,パラメータ空間の構築が容易で,非常に堅牢であり,実装が非常に容易である。 3)提案手法は,現在のSNNが接近するターゲットを設定する任意のSNNのポテンシャルを可視化する。 例えば、SNNが各入力サンプルの最も適切な時刻で終了できる場合、ResNet-50 SNNは平均4.71タイムステップでImageNet上で82.47%の精度を達成できる。 SNNの可能性を解き放つには、信頼性の高い意思決定エージェントを構築し、高品質な基底真理推定を行う必要がある。 この点において、Dynamic ConfidenceはSNNの可能性を実現するための重要なステップである。

This paper presents a new methodology to alleviate the fundamental trade-off between accuracy and latency in spiking neural networks (SNNs). The approach involves decoding confidence information over time from the SNN outputs and using it to develop a decision-making agent that can dynamically determine when to terminate each inference. The proposed method, Dynamic Confidence, provides several significant benefits to SNNs. 1. It can effectively optimize latency dynamically at runtime, setting it apart from many existing low-latency SNN algorithms. Our experiments on CIFAR-10 and ImageNet datasets have demonstrated an average 40% speedup across eight different settings after applying Dynamic Confidence. 2. The decision-making agent in Dynamic Confidence is straightforward to construct and highly robust in parameter space, making it extremely easy to implement. 3. The proposed method enables visualizing the potential of any given SNN, which sets a target for current SNNs to approach. For instance, if an SNN can terminate at the most appropriate time point for each input sample, a ResNet-50 SNN can achieve an accuracy as high as 82.47% on ImageNet within just 4.71 time steps on average. Unlocking the potential of SNNs needs a highly-reliable decision-making agent to be constructed and fed with a high-quality estimation of ground truth. In this regard, Dynamic Confidence represents a meaningful step toward realizing the potential of SNNs.
翻訳日:2023-03-21 20:23:28 公開日:2023-03-17
# MoRF:モノクラービデオのリアルなフルボディアバター

MoRF: Mobile Realistic Fullbody Avatars from a Monocular Video ( http://arxiv.org/abs/2303.10275v1 )

ライセンス: Link先を確認
Alexey Larionov, Evgeniya Ustinova, Mikhail Sidorenko, David Svitov, Ilya Zakharkin, Victor Lempitsky, Renat Bashirov(参考訳) モバイルリアルフルボディ(MoRF)アバターを学習するための新しいアプローチを提案する。 MoRFアバターは携帯電話上でリアルタイムにレンダリングでき、高いリアリズムを持ち、モノクロビデオから学ぶことができる。 従来の研究と同様に、ニューラルネットワークとメッシュベースの体形状モデリングSMPL-Xの組み合わせを用いる。 我々は、ニューラルネットワークのテクスチャ空間におけるフレーム単位のワープフィールドを学習することで、事前作業を改善することにより、異なるフレーム間のトレーニング信号の整合性を向上する。 また,既存のSMPL-Xフィッティング手順をビデオに適用し,全体的なアバター品質を向上させる。 他の単眼ビデオベースのアバターシステムと比較すると、morfアバターはより高い画像のシャープさと時間的一貫性を達成する。 ユーザスタディの参加者はMORFが生成するアバターも好んだ。

We present a new approach for learning Mobile Realistic Fullbody (MoRF) avatars. MoRF avatars can be rendered in real-time on mobile phones, have high realism, and can be learned from monocular videos. As in previous works, we use a combination of neural textures and the mesh-based body geometry modeling SMPL-X. We improve on prior work, by learning per-frame warping fields in the neural texture space, allowing to better align the training signal between different frames. We also apply existing SMPL-X fitting procedure refinements for videos to improve overall avatar quality. In the comparisons to other monocular video-based avatar systems, MoRF avatars achieve higher image sharpness and temporal consistency. Participants of our user study also preferred avatars generated by MoRF.
翻訳日:2023-03-21 20:23:05 公開日:2023-03-17
# 孤立化と帯域幅を増強した量子デバイスのためのファノクビット

Fano-Qubits for Quantum Devices with Enhanced Isolation and Bandwidth ( http://arxiv.org/abs/2303.10269v1 )

ライセンス: Link先を確認
Deepanshu Trivedi, Leonid Belostotski, Arjuna Madanayake, and Alex Krasnok(参考訳) 磁気光学アイソレータやサーキュレータは、読み出し段階での反射やノイズから量子デバイスを保護するために広く用いられている。 しかし、これらのデバイスは帯域幅が限られており、調整性も低く、ばらばらであり、高い損失を被り、回路QEDのような平面技術と互換性がない。 これらの制限に対処するために,量子非相反性に対する新しいアプローチを提案し,量子ビットの固有非線形性と空間対称性の破れを利用した。 ローレンツ型量子ビットを含む回路は、非対称なスペクトル応答を持つファノ型量子ビットに変換できるため、分離(最大40db)と2倍のスペクトル帯域幅(最大200mhz)が向上した。 本解析は実回路パラメータに基づき, 既存の実験結果により検証され, 厳密な量子シミュレーションによって支援されている。 このアプローチは、量子コンピューティング、通信、センシングに潜在的に適用可能な、コンパクトで高性能で平面互換の非相互量子デバイスの開発を可能にする。

Magneto-optical isolators and circulators have been widely used to safeguard quantum devices from reflections and noise in the readout stage. However, these devices have limited bandwidth, low tunability, are bulky, and suffer from high losses, making them incompatible with planar technologies such as circuit QED. To address these limitations, we propose a new approach to quantum non-reciprocity that utilizes the intrinsic nonlinearity of qubits and broken spatial symmetry. We show that a circuit containing Lorentz-type qubits can be transformed into Fano-type qubits with an asymmetric spectral response, resulting in a significant improvement in isolation (up to 40 dB) and a twofold increase in spectral bandwidth (up to 200 MHz). Our analysis is based on realistic circuit parameters, validated by existing experimental results, and supported by rigorous quantum simulations. This approach could enable the development of compact, high-performance, and planar-compatible non-reciprocal quantum devices with potential applications in quantum computing, communication, and sensing.
翻訳日:2023-03-21 20:22:51 公開日:2023-03-17
# 三価論理、複合条件、確率的推論理論について

On Trivalent Logics, Compound Conditionals, and Probabilistic Deduction Theorems ( http://arxiv.org/abs/2303.10268v1 )

ライセンス: Link先を確認
Angelo Gilio, David E. Over, Niki Pfeifer, Giuseppe Sanfilippo(参考訳) 本稿では,条件付きイベント,複合条件付き,条件付き乱数量,p-consistency,p-entailmentについて,いくつかの結果を想起する。 次に、条件付きベットと条件付きベットの同値性を示し、ド・フィネッティの条件付きベットの3値解析をレビューする。 しかし、我々のアプローチは、デ・フィネッティの初期の三価論理解析を超越し、彼の後の考えに基づいて、彼の提案をより高いレベルに進めることを目指している。 本稿では,条件付き三価論理とその論理的妥当性の定義を考察した最近の2つの論文を,複合条件付き論理に対する我々のアプローチと比較する。 条件付き事象に対する確率的推論理論を証明する。 その後、いくつかの確率的推論定理を研究し、いくつかの例を示す。 我々は,我々の確率的推論理論に照らして,反復条件と輸入輸出原則の無効性に注目した。 私たちは、Import-Exportの原則の無効性を示す例として、Disjunctionの"$A$ or $B$"から条件付き"if not-A$ then $B$"への推論を使用します。 また,システムpのp-valid推論規則を検討することで,汎用的なインポート-エクスポート原理を紹介し,最後に,aiに関連するいくつかの関連事項を簡潔に議論する。

In this paper we recall some results for conditional events, compound conditionals, conditional random quantities, p-consistency, and p-entailment. Then, we show the equivalence between bets on conditionals and conditional bets, by reviewing de Finetti's trivalent analysis of conditionals. But our approach goes beyond de Finetti's early trivalent logical analysis and is based on his later ideas, aiming to take his proposals to a higher level. We examine two recent articles that explore trivalent logics for conditionals and their definitions of logical validity and compare them with our approach to compound conditionals. We prove a Probabilistic Deduction Theorem for conditional events. After that, we study some probabilistic deduction theorems, by presenting several examples. We focus on iterated conditionals and the invalidity of the Import-Export principle in the light of our Probabilistic Deduction Theorem. We use the inference from a disjunction, "$A$ or $B$", to the conditional,"if not-$A$ then $B$", as an example to show the invalidity of the Import-Export principle. We also introduce a General Import-Export principle and we illustrate it by examining some p-valid inference rules of System P. Finally, we briefly discuss some related work relevant to AI.
翻訳日:2023-03-21 20:22:31 公開日:2023-03-17
# 正規化型連続学習の固定設計解析

Fixed Design Analysis of Regularization-Based Continual Learning ( http://arxiv.org/abs/2303.10263v1 )

ライセンス: Link先を確認
Haoran Li, Jingfeng Wu, Vladimir Braverman(参考訳) 固定設計における2つの線形回帰タスクを持つ連続学習(CL)問題について考察し,特徴ベクトルを仮定し,ラベルをランダム変数と仮定する。 通常の最小二乗パラメータを計算して第1のデータセットに適合させ、次に第2のデータセットに適合する別のパラメータを$\ell_2$-regularized CLアルゴリズムで計算し、第1のパラメータからの偏差を計算し、第2のパラメータを出力する。 このアルゴリズムは、2つのタスクに対する平均リスクの厳密な境界を提供する。 我々のリスク境界は、$\ell_2$-regularized clアルゴリズムの無視と非翻訳の間の明らかなトレードオフを明らかにしている: 大きな正規化パラメータでは、アルゴリズム出力は最初のタスクについてより少ない情報を忘れますが、第2のタスクから新しい情報を抽出するために非翻訳である。 以上の結果から,clが(正確な類似度測定によって)類似したタスクを持つ場合,壊滅的な忘れ去れが起こりうること,また,よく調整された$\ell_2$-regularization が不翻訳を導入することでこの問題を部分的に軽減できることが示唆された。

We consider a continual learning (CL) problem with two linear regression tasks in the fixed design setting, where the feature vectors are assumed fixed and the labels are assumed to be random variables. We consider an $\ell_2$-regularized CL algorithm, which computes an Ordinary Least Squares parameter to fit the first dataset, then computes another parameter that fits the second dataset under an $\ell_2$-regularization penalizing its deviation from the first parameter, and outputs the second parameter. For this algorithm, we provide tight bounds on the average risk over the two tasks. Our risk bounds reveal a provable trade-off between forgetting and intransigence of the $\ell_2$-regularized CL algorithm: with a large regularization parameter, the algorithm output forgets less information about the first task but is intransigent to extract new information from the second task; and vice versa. Our results suggest that catastrophic forgetting could happen for CL with dissimilar tasks (under a precise similarity measurement) and that a well-tuned $\ell_2$-regularization can partially mitigate this issue by introducing intransigence.
翻訳日:2023-03-21 20:22:06 公開日:2023-03-17
# 高速gnn訓練のための有理収束サブグラフサンプリング

Provably Convergent Subgraph-wise Sampling for Fast GNN Training ( http://arxiv.org/abs/2303.11081v1 )

ライセンス: Link先を確認
Jie Wang, Zhihao Shi, Xize Liang, Shuiwang Ji, Bin Li, and Feng Wu(参考訳) グラフニューラルネットワーク(GNN)のための、有望なミニバッチトレーニングテクニックである、サブグラフワイズサンプリングは、現実世界のアプリケーションには不可欠である。 gnnのメッセージパッシング(mp)の間、サブグラフでサンプリングするメソッドは、よく知られた隣の爆発問題、つまりmpイテレーション数でノードの指数関数的に増加する依存性を避けるために、ミニバッチの外側のメッセージを後方に破棄する。 しかし、メッセージの破棄は勾配推定の精度を犠牲にし、収束解析と収束速度に大きな課題をもたらす可能性がある。 この課題に対処するために,収束保証,すなわちローカルメッセージ補償(LMC)を備えた新しいサブグラフワイズサンプリング手法を提案する。 我々の知る限り、LCCは証明可能な収束性を持つ最初のサブグラフワイドサンプリング法である。 鍵となるアイデアは、後方パスのメッセージパッシング定式化に基づいて、後方パスで破棄されたメッセージを取得することである。 前と後の両方で破棄されたメッセージの効率よく効果的な補償によって、LCCは正確なミニバッチ勾配を計算し、収束を加速する。 さらに、LCCは、畳み込みGNN(異なる層を持つ有限メッセージパッシングイテレーション)や繰り返しGNN(共有層を持つ無限メッセージパッシングイテレーション)など、様々なMPベースのGNNアーキテクチャに適用できる。 大規模ベンチマーク実験により、LCCは最先端のサブグラフワイドサンプリング法よりもはるかに高速であることが示された。

Subgraph-wise sampling -- a promising class of mini-batch training techniques for graph neural networks (GNNs -- is critical for real-world applications. During the message passing (MP) in GNNs, subgraph-wise sampling methods discard messages outside the mini-batches in backward passes to avoid the well-known neighbor explosion problem, i.e., the exponentially increasing dependencies of nodes with the number of MP iterations. However, discarding messages may sacrifice the gradient estimation accuracy, posing significant challenges to their convergence analysis and convergence speeds. To address this challenge, we propose a novel subgraph-wise sampling method with a convergence guarantee, namely Local Message Compensation (LMC). To the best of our knowledge, LMC is the first subgraph-wise sampling method with provable convergence. The key idea is to retrieve the discarded messages in backward passes based on a message passing formulation of backward passes. By efficient and effective compensations for the discarded messages in both forward and backward passes, LMC computes accurate mini-batch gradients and thus accelerates convergence. Moreover, LMC is applicable to various MP-based GNN architectures, including convolutional GNNs (finite message passing iterations with different layers) and recurrent GNNs (infinite message passing iterations with a shared layer). Experiments on large-scale benchmarks demonstrate that LMC is significantly faster than state-of-the-art subgraph-wise sampling methods.
翻訳日:2023-03-21 15:37:37 公開日:2023-03-17
# 対物的説明の反復的部分充足:利益とリスク

Iterative Partial Fulfillment of Counterfactual Explanations: Benefits and Risks ( http://arxiv.org/abs/2303.11111v1 )

ライセンス: Link先を確認
Yilun Zhou(参考訳) counterfactual(cf)による説明は、コントラスト的説明やリコースとしても知られ、高スループット領域における機械学習モデルの予測を説明するのに人気がある。 負のモデル予測を受ける被写体(例えば、住宅ローン申請拒否)は、同様の事例であるが、肯定的な予測を持ち、改善する方法を主題に通知する。 CF説明の妥当性、実現可能性、安定性など、様々な特性が研究されている。 本稿では,反復部分充足(ipf)下での行動について,新しい側面を提示する。 具体的には、CF説明を受けると、被験者は新たな説明で新しい予測を要求する前に部分的にそれを満たすだけで、予測が正になるまで繰り返すことができる。 このような部分的な充足は、対象者の限られた能力(例えば、現時点で4つのクレジットカードアカウントのうち2つしか払えない)や、チャンスを取る試み(例えば、1000ドルが推奨されているにもかかわらず、毎月の給与が800ドル上昇しても十分である)による可能性がある。 このような反復的な部分充足は、被験者による改善の総コストを増加させるか、減少させるか? ipfの数学的形式化を最初に提案し、理論上および経験上、異なるcfアルゴリズムがipfの下で非常に異なる振る舞いを示し、それゆえ被験者の福祉に異なる効果を示すことを実証し、この因子をcfアルゴリズムの研究で考慮することを保証する。 我々は観察の意義を議論し、今後の研究に向けていくつかの方向性を示す。

Counterfactual (CF) explanations, also known as contrastive explanations and recourses, are popular for explaining machine learning model predictions in high-stakes domains. For a subject that receives a negative model prediction (e.g., mortgage application denial), they are similar instances but with positive predictions, which informs the subject of ways to improve. Various properties of CF explanations have been studied, such as validity, feasibility and stability. In this paper, we contribute a novel aspect: their behaviors under iterative partial fulfillment (IPF). Specifically, upon receiving a CF explanation, the subject may only partially fulfills it before requesting a new prediction with a new explanation, and repeat until the prediction is positive. Such partial fulfillment could be due to the subject's limited capability (e.g., can only pay down two out of four credit card accounts at this moment) or an attempt to take the chance (e.g., betting that a monthly salary increase of \$800 is enough even though \$1,000 is recommended). Does such iterative partial fulfillment increase or decrease the total cost of improvement incurred by the subject? We first propose a mathematical formalization of IPF and then demonstrate, both theoretically and empirically, that different CF algorithms exhibit vastly different behaviors under IPF and hence different effects on the subject's welfare, warranting this factor to be considered in the studies of CF algorithms. We discuss implications of our observations and give several directions for future work.
翻訳日:2023-03-21 15:17:22 公開日:2023-03-17
# AI生成したテキストは確実に検出できるのか?

Can AI-Generated Text be Reliably Detected? ( http://arxiv.org/abs/2303.11156v1 )

ライセンス: Link先を確認
Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang and Soheil Feizi(参考訳) LLM(Large Language Models)の急速な進歩により、文書補完や質問応答といった様々なタスクで驚くほどうまく機能するようになりました。 しかし、これらのモデルの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。 したがって、信頼できるai生成テキストの検出は、llmの責任ある使用を保証するために重要である。 最近の研究では、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、特定のパターンをインプリントする透かし技術を適用することでこの問題に対処しようとしている。 本稿では,実験的および理論的にこれらの検出器が実用シナリオでは信頼性に乏しいことを示す。 実験により、生成テキストモデル上に光パラフレーズが適用されるパラフレーズ攻撃は、ウォーターマーキングスキームやニューラルネットワークベースの検出器、ゼロショット分類器などを含む全範囲の検出器を破壊できることを示す。 そして, 十分な良質な言語モデルでは, 最善の確率検出器であっても, ランダム分類器よりもわずかによい性能しか発揮できないことを示す理論的不確実性結果を示す。 最後に,ウォーターマーキングスキームで保護されているllmであっても,悪意のある人間が隠れたウォーターマーキングサインを推測し,生成したテキストにそれを付加することで,llmが生成したテキストとして検出され,開発者の評判を損なう可能性があることを示す。 これらの結果は、AI生成テキストの倫理的かつ信頼性の高い使用に関するコミュニティの正直な会話を開こうとしています。

The rapid progress of Large Language Models (LLMs) has made them capable of performing astonishingly well on various tasks including document completion and question answering. The unregulated use of these models, however, can potentially lead to malicious consequences such as plagiarism, generating fake news, spamming, etc. Therefore, reliable detection of AI-generated text can be critical to ensure the responsible use of LLMs. Recent works attempt to tackle this problem either using certain model signatures present in the generated text outputs or by applying watermarking techniques that imprint specific patterns onto them. In this paper, both empirically and theoretically, we show that these detectors are not reliable in practical scenarios. Empirically, we show that paraphrasing attacks, where a light paraphraser is applied on top of the generative text model, can break a whole range of detectors, including the ones using the watermarking schemes as well as neural network-based detectors and zero-shot classifiers. We then provide a theoretical impossibility result indicating that for a sufficiently good language model, even the best-possible detector can only perform marginally better than a random classifier. Finally, we show that even LLMs protected by watermarking schemes can be vulnerable against spoofing attacks where adversarial humans can infer hidden watermarking signatures and add them to their generated text to be detected as text generated by the LLMs, potentially causing reputational damages to their developers. We believe these results can open an honest conversation in the community regarding the ethical and reliable use of AI-generated text.
翻訳日:2023-03-21 15:10:43 公開日:2023-03-17
# 最適データ特性を用いた協調フィルタリング手法の性能説明

Explaining the Performance of Collaborative Filtering Methods With Optimal Data Characteristics ( http://arxiv.org/abs/2303.11172v1 )

ライセンス: Link先を確認
Samin Poudel and Marwan Bikdash(参考訳) 協調フィルタリング(CF)法の性能はユーザ・アイテム・レーティング・マトリックス(URM)の特性に基づいている。 URMの特性やレーティングデータ特性(RDC)は常に変化しています。 近年の研究では、6つ以上のRCCを用いたURMの変化によるCF法の性能変化が顕著に説明されている。 そこで本研究では,2つのRCCにのみ,異なるCF技術の性能変化のかなりの割合を説明できることを示した。 2つのrdcは、ユーザ毎のレーティング数またはユーザ毎の情報(ipu)と、アイテム毎のレーティング数またはアイテム毎の情報(ipi)である。 また、cfアルゴリズムの性能は正方形urmの ipu (または ipi) に2倍である。 この研究の成果は、確立された7つのcf手法と、1m movielens、2500m movielens、yahoo! music rating datasetsの3つの人気のあるリコメンデーションデータセットに基づいている。

The performance of a Collaborative Filtering (CF) method is based on the properties of a User-Item Rating Matrix (URM). And the properties or Rating Data Characteristics (RDC) of a URM are constantly changing. Recent studies significantly explained the variation in the performances of CF methods resulted due to the change in URM using six or more RDC. Here, we found that the significant proportion of variation in the performances of different CF techniques can be accounted to two RDC only. The two RDC are the number of ratings per user or Information per User (IpU) and the number of ratings per item or Information per Item (IpI). And the performances of CF algorithms are quadratic to IpU (or IpI) for a square URM. The findings of this study are based on seven well-established CF methods and three popular public recommender datasets: 1M MovieLens, 25M MovieLens, and Yahoo! Music Rating datasets
翻訳日:2023-03-21 14:59:06 公開日:2023-03-17
# ChatGPT と GPT-4 を用いた標準言語へのラジオロジーレポートの翻訳とプロンプト学習:結果,限界,可能性

Translating Radiology Reports into Plain Language using ChatGPT and GPT-4 with Prompt Learning: Promising Results, Limitations, and Potential ( http://arxiv.org/abs/2303.09038v2 )

ライセンス: Link先を確認
Qing Lyu, Josh Tan, Michael E. Zapadka, Janardhana Ponnatapura, Chuang Niu, Ge Wang, Christopher T. Whitlow(参考訳) ChatGPTと呼ばれる大きな言語モデルは、人間のような表現と推論能力のために広く注目を集めている。 本研究は,ChatGPTを用いて放射線学報告を患者や医療提供者にとって平易な言語に翻訳し,医療改善のための教育を行うための実験において,ChatGPTの有効性を検討するものである。 2月上旬に62例の低用量胸部CT肺がん検診と76例の脳MRI転移検診検査を施行した。 放射線科医による評価によれば、chatgptは5点システムで平均4.27のスコアで放射線報告書を平易な言語に翻訳することに成功した。 ChatGPTの提案は、医師とのフォローアップを維持し、症状を綿密に監視するなど全般的に関係があり、ChatGPT全体の138例のうち約37%が、報告書の調査結果に基づいて具体的な提案を行っている。 ChatGPTはまた、時折単純化された情報や無視された情報によって応答のランダム性を示す。 さらに、ChatGPTの結果を、新たにリリースされた大型モデルGPT-4と比較し、GPT-4が翻訳レポートの品質を大幅に向上できることを示した。 以上の結果から, 臨床教育における大規模言語モデルの利用は可能であり, 限界に対処し, ポテンシャルを最大化するためには, さらなる努力が必要である。

The large language model called ChatGPT has drawn extensively attention because of its human-like expression and reasoning abilities. In this study, we investigate the feasibility of using ChatGPT in experiments on using ChatGPT to translate radiology reports into plain language for patients and healthcare providers so that they are educated for improved healthcare. Radiology reports from 62 low-dose chest CT lung cancer screening scans and 76 brain MRI metastases screening scans were collected in the first half of February for this study. According to the evaluation by radiologists, ChatGPT can successfully translate radiology reports into plain language with an average score of 4.27 in the five-point system with 0.08 places of information missing and 0.07 places of misinformation. In terms of the suggestions provided by ChatGPT, they are general relevant such as keeping following-up with doctors and closely monitoring any symptoms, and for about 37% of 138 cases in total ChatGPT offers specific suggestions based on findings in the report. ChatGPT also presents some randomness in its responses with occasionally over-simplified or neglected information, which can be mitigated using a more detailed prompt. Furthermore, ChatGPT results are compared with a newly released large model GPT-4, showing that GPT-4 can significantly improve the quality of translated reports. Our results show that it is feasible to utilize large language models in clinical education, and further efforts are needed to address limitations and maximize their potential.
翻訳日:2023-03-21 11:40:23 公開日:2023-03-17
# ShabbyPages: 再現可能なドキュメントのデノベーションとバイナリ化データセット

ShabbyPages: A Reproducible Document Denoising and Binarization Dataset ( http://arxiv.org/abs/2303.09339v2 )

ライセンス: Link先を確認
Alexander Groleau, Kok Wei Chee, Stefan Larson, Samay Maini, Jonathan Boarman(参考訳) ドキュメントの視覚化とバイナライゼーションは、ドキュメント処理の分野における基本的な問題だが、現在のデータセットは小さすぎることが多く、現代的なデータ駆動機械学習モデルを効果的にトレーニングし、ベンチマークするのに十分な複雑さがないことが多い。 このギャップを埋めるために,新たなドキュメントイメージデータセットであるshabbypagesを紹介する。 ShabbyPagesには6000以上のクリーンな「生まれながらのデジタル」イメージが含まれており、Aaugraphyドキュメント拡張ツールを使用して、物理的プロセスによって印刷、ファックス、フォトコピー、その他の変更が行われたかのように拡張されている。 本稿では、ShabbyPagesの作成プロセスについて議論し、ShabbyPagesベンチマークのベースライン性能を確立し、人間の知覚能力の高い実雑音特徴を除去する畳み込みデノイザの訓練によるShabbyPagesの有用性を実証する。

Document denoising and binarization are fundamental problems in the document processing space, but current datasets are often too small and lack sufficient complexity to effectively train and benchmark modern data-driven machine learning models. To fill this gap, we introduce ShabbyPages, a new document image dataset designed for training and benchmarking document denoisers and binarizers. ShabbyPages contains over 6,000 clean "born digital" images with synthetically-noised counterparts ("shabby pages") that were augmented using the Augraphy document augmentation tool to appear as if they have been printed and faxed, photocopied, or otherwise altered through physical processes. In this paper, we discuss the creation process of ShabbyPages and demonstrate the utility of ShabbyPages by training convolutional denoisers which remove real noise features with a high degree of human-perceptible fidelity, establishing baseline performance for a new ShabbyPages benchmark.
翻訳日:2023-03-21 11:30:04 公開日:2023-03-17
# PersonalTailor: 3Dガーメントポイントクラウドから2Dパターンをパーソナライズ

PersonalTailor: Personalizing 2D Pattern Design from 3D Garment Point Clouds ( http://arxiv.org/abs/2303.09695v1 )

ライセンス: Link先を確認
Anran Qi, Sauradip Nag, Xiatian Zhu and Ariel Shamir(参考訳) ガーメントパターン設計は、3D衣服を対応する2Dパネルとその縫製構造に変換することを目的としている。 既存の手法は、ヒューリスティックスと事前仮定によるテンプレートフィッティングや、複雑な形状パラメータ化を伴うモデル学習に依存する。 重要なのは、どちらのアプローチも出力された衣服のパーソナライズを許可していないことだ。 この要求を満たすために,パーソナライズされた2dパターン設計手法であるpersonaltailorを導入する。3dポイントクラウドから個人用2dパネルを作成するための,特定の制約や要求(言語やスケッチ)を入力できる。 PersonalTailorはまず、教師なしクロスモーダルアソシエーションと注意融合に基づくマルチモーダルパネル埋め込みを学習する。 次に、トランスフォーマーエンコーダ-デコーダフレームワークを使用してバイナリパネルマスクを個別に予測する。 大規模な実験により、PersonalTailorはパーソナライズと標準パターン作成の両方に長けていることがわかった。

Garment pattern design aims to convert a 3D garment to the corresponding 2D panels and their sewing structure. Existing methods rely either on template fitting with heuristics and prior assumptions, or on model learning with complicated shape parameterization. Importantly, both approaches do not allow for personalization of the output garment, which today has increasing demands. To fill this demand, we introduce PersonalTailor: a personalized 2D pattern design method, where the user can input specific constraints or demands (in language or sketch) for personal 2D panel fabrication from 3D point clouds. PersonalTailor first learns a multi-modal panel embeddings based on unsupervised cross-modal association and attentive fusion. It then predicts a binary panel masks individually using a transformer encoder-decoder framework. Extensive experiments show that our PersonalTailor excels on both personalized and standard pattern fabrication tasks.
翻訳日:2023-03-20 16:10:12 公開日:2023-03-17
# ニューラルネットワークトレーニングのためのカスケードフォワードアルゴリズム

The Cascaded Forward Algorithm for Neural Network Training ( http://arxiv.org/abs/2303.09728v1 )

ライセンス: Link先を確認
Gongpei Zhao, Tao Wang, Yidong Li, Yi Jin, Congyan Lang, Haibin Ling(参考訳) バックプロパゲーションアルゴリズムは、過去10年間、ニューラルネットワークの主流となる学習手順として広く使われてきた。 しかし、このアルゴリズムにはいくつかの制限があり、例えば局所的な極小さに固執し、その生物学的な可能性に関する疑問を引き起こした。 これらの制限に対処するために、バックプロパゲーションの代替アルゴリズムが事前に検討されており、フォワードフォワード(ff)アルゴリズムがよく知られている。 本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。 FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力するが、これは追加の負のサンプルの生成を必要としないため、トレーニングとテストの両方においてより効率的なプロセスにつながる。 さらに,我々のフレームワークでは,各ブロックを独立して訓練することが可能であり,並列加速度システムに容易に展開できる。 提案手法を4つの公開画像分類ベンチマークで評価し, 実験結果から, ベースラインと比較した場合の予測精度が有意に向上することを示した。

Backpropagation algorithm has been widely used as a mainstream learning procedure for neural networks in the past decade, and has played a significant role in the development of deep learning. However, there exist some limitations associated with this algorithm, such as getting stuck in local minima and experiencing vanishing/exploding gradients, which have led to questions about its biological plausibility. To address these limitations, alternative algorithms to backpropagation have been preliminarily explored, with the Forward-Forward (FF) algorithm being one of the most well-known. In this paper we propose a new learning framework for neural networks, namely Cascaded Forward (CaFo) algorithm, which does not rely on BP optimization as that in FF. Unlike FF, our framework directly outputs label distributions at each cascaded block, which does not require generation of additional negative samples and thus leads to a more efficient process at both training and testing. Moreover, in our framework each block can be trained independently, so it can be easily deployed into parallel acceleration systems. The proposed method is evaluated on four public image classification benchmarks, and the experimental results illustrate significant improvement in prediction accuracy in comparison with the baseline.
翻訳日:2023-03-20 16:01:15 公開日:2023-03-17
# 周波数多重Hong-Ou-Mandel干渉

Frequency-multiplexed Hong-Ou-Mandel interference ( http://arxiv.org/abs/2303.09721v1 )

ライセンス: Link先を確認
Mayuka Ichihara, Daisuke Yoshida, Feng-Lei Hong, and Tomoyuki Horikiri(参考訳) 長距離量子通信に必要な量子リピータの実装には、基本リンク間で分散された量子エンタングルメントの生成が必要である。 これらの絡み合いはベル状態測定によって量子リピータ間で交換されなければならない。 本研究の目的は,ベル状態測定の周波数多重化による絡み合い発生率の向上である。 周波数多重化ベル状態測定の予備段階として、弱コヒーレント状態を用いたイオンドープ$\mathrm{Pr^{3+}}$\mathrm{Y_2SiO_5}$結晶で作製した原子周波数コムで3つの周波数モードを時間モードにマッピングし、同時検出により2つの入力の不連続性を測定するホン・オウ・マンデル干渉を観測した。 すべてのモードの可視性は40%-42%(理論上は50%まで)であった。 さらに,異なるモードの混合が回避されることを示す。 本結果は,周波数選択型ベル状態測定と周波数多重化量子リピータに関係している。

The implementation of quantum repeaters needed for long-distance quantum communication requires the generation of quantum entanglement distributed among the elementary links. These entanglements must be swapped among the quantum repeaters through Bell-state measurements. This study aims to improve the entanglement generation rate by frequency multiplexing the Bell-state measurements. As a preliminary step of the frequency-multiplexed Bell-state measurements, three frequency modes are mapped to a temporal mode by an atomic frequency comb prepared in $\mathrm{Pr^{3+}}$ ion-doped $\mathrm{Y_2SiO_5}$ crystals using a weak coherent state, and Hong-Ou-Mandel interference, which is a measure of the indistinguishability of two inputs, is observed in each frequency mode by coincidence detection. The visibility for all the modes was 40%-42% (theoretically up to 50%). Furthermore, we show that a mixture of different modes is avoided. The present results are connected to frequency-selective Bell-state measurements and therefore frequency-multiplexed quantum repeaters.
翻訳日:2023-03-20 16:00:37 公開日:2023-03-17
# 対話生成のための選択的データ拡張に向けた学習

Learning towards Selective Data Augmentation for Dialogue Generation ( http://arxiv.org/abs/2303.09719v1 )

ライセンス: Link先を確認
Xiuying Chen, Mingzhe Li, Jiayi Zhang, Xiaoqiang Xia, Chen Wei, Jianwei Cui, Xin Gao, Xiangliang Zhang, Rui Yan(参考訳) ニューラルダイアログモデルのトレーニングには膨大な量のデータを取得するのが面倒で費用がかかるため、既存のトレーニングサンプルを効果的に活用するためにデータ拡張を提案する。 しかしながら、ダイアログ生成タスクにおける現在のデータ拡張技術は、異なるケース間の固有の属性を考慮せずに、トレーニングデータセットのすべてのケースをほとんど強化する。 我々は、すべてのケースが拡張タスクに有益であるとは限らないし、拡張に適したケースは以下の2つの属性に従うべきであると主張する。(1)低品質(ダイアログモデルは、ケースに対して高品質な応答を生成することができない)、2)代表(ケースはデータセット全体の特性を表すべきである)。 本稿では、応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。 SDAは、最低品質と最も代表的なデータポイントを1段階で選択するために、二重対向ネットワークを使用している。 公開されている2つのデータセット、すなわちdailydialogとopensubtitlesで行った広範な実験は、我々のフレームワークがさまざまなメトリクスに対するレスポンス生成パフォーマンスを向上させることができることを示している。

As it is cumbersome and expensive to acquire a huge amount of data for training neural dialog models, data augmentation is proposed to effectively utilize existing training samples. However, current data augmentation techniques on the dialog generation task mostly augment all cases in the training dataset without considering the intrinsic attributes between different cases. We argue that not all cases are beneficial for augmentation task, and the cases suitable for augmentation should obey the following two attributes: (1) low-quality (the dialog model cannot generate a high-quality response for the case), (2) representative (the case should represent the property of the whole dataset). Herein, we explore this idea by proposing a Selective Data Augmentation framework (SDA) for the response generation task. SDA employs a dual adversarial network to select the lowest quality and most representative data points for augmentation in one stage. Extensive experiments conducted on two publicly available datasets, i.e., DailyDialog and OpenSubtitles, show that our framework can improve the response generation performance with respect to various metrics.
翻訳日:2023-03-20 16:00:10 公開日:2023-03-17
# ゼロサムマルコフゲームにおける強化学習のための新しいポリシー反復アルゴリズム

A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum Markov Games ( http://arxiv.org/abs/2303.09716v1 )

ライセンス: Link先を確認
Anna Winnicki, R. Srikant(参考訳) 多くのモデルベース強化学習(RL)アルゴリズムは、モデルをほぼ学習した学習フェーズと、学習したモデルを使用してポリシーを導出する計画フェーズという、2つのフェーズを反復的に実装したと見なすことができる。 標準的なMDPの場合、価値反復またはポリシー反復を用いて学習問題を解くことができる。 しかし、ゼロサムマルコフゲームの場合、効率的なポリシー反復アルゴリズムは存在しない。例えばHansen et al. (2013) では、αが割引因子である Omega(1/(1-alpha)) の MDP を解くことで、唯一既知のポリシー反復の収束版を実装することが示されている。 マルコフゼロサムゲームのための別のアルゴリズムはナイーブ・ポリシー・イテレーション(naive policy iteration)と呼ばれ、実装が容易であるが、非常に制限された仮定の下でのみ確実に収束する。 単純ポリシー反復アルゴリズムの修正の試みにはいくつかの制限がある。 ここでは,ゲームに対するナイーブなポリシー反復の簡単な変形が収束し,指数関数的に速く収束することを示す。 政策反復を示唆する唯一の追加は、政策改善フェーズにおけるルックアヘッドの使用です。 これは、ルックアヘッドがゲームでRLでよく使用されるため、魅力的である。 さらに,最近注目されている線形mdpに対応する線形マルコフゲームにおいて,lookaheadを効率的に実装できることを示す。 次に,提案手法を計画段階に用いたマルチエージェント強化学習を考察し,そのアルゴリズムにサンプルおよび時間複雑性境界を与える。

Many model-based reinforcement learning (RL) algorithms can be viewed as having two phases that are iteratively implemented: a learning phase where the model is approximately learned and a planning phase where the learned model is used to derive a policy. In the case of standard MDPs, the learning problem can be solved using either value iteration or policy iteration. However, in the case of zero-sum Markov games, there is no efficient policy iteration algorithm; e.g., it has been shown in Hansen et al. (2013) that one has to solve Omega(1/(1-alpha)) MDPs, where alpha is the discount factor, to implement the only known convergent version of policy iteration. Another algorithm for Markov zero-sum games, called naive policy iteration, is easy to implement but is only provably convergent under very restrictive assumptions. Prior attempts to fix naive policy iteration algorithm have several limitations. Here, we show that a simple variant of naive policy iteration for games converges, and converges exponentially fast. The only addition we propose to naive policy iteration is the use of lookahead in the policy improvement phase. This is appealing because lookahead is anyway often used in RL for games. We further show that lookahead can be implemented efficiently in linear Markov games, which are the counterpart of the linear MDPs and have been the subject of much attention recently. We then consider multi-agent reinforcement learning which uses our algorithm in the planning phases, and provide sample and time complexity bounds for such an algorithm.
翻訳日:2023-03-20 15:59:51 公開日:2023-03-17
# シューターシューティングの理由を理解する - バスケットボールのパフォーマンスプロファイリングのためのaiエンジン

Understanding why shooters shoot -- An AI-powered engine for basketball performance profiling ( http://arxiv.org/abs/2303.09715v1 )

ライセンス: Link先を確認
Alejandro Rodriguez Pascual, Ishan Mehta, Muhammad Khan, Frank Rodriz and Rose Yu(参考訳) 選手のシューティングプロファイルを理解することは、バスケットボールの分析に欠かせない部分である: 特定の相手選手が撃たれる場所を知ることは、コーチが相手から攻撃的なゲームプランを中和させるのに役立つ。 これらのパフォーマンスプロファイルをタイムリーに提供できる自動ツールが、コーチにとって、ゲームプランの有効性と、練習やその他の関連する活動に費やした時間の両方を最大化することができる。 さらに、バスケットボールはプレイスタイルやゲームダイナミクスなど多くの変数によって規定され、ゲームの流れや拡張によってプレイヤーのパフォーマンスプロファイルを変えることができる。 パフォーマンスプロファイルは多様なプレイスタイルを反映し、ゲームの高速変化のダイナミクスを反映することが重要である。 本稿では,プレイスタイルやゲームダイナミクスなどの要因を考慮しつつ,プレイヤーのパフォーマンスプロファイルをタイムリーに可視化するツールを提案する。 ゲームダイナミクスやプレイスタイルなど,非空間要因がプレイヤーのパフォーマンスプロファイルに与える影響を識別し,解析することのできる解釈可能なヒートマップを生成する。

Understanding player shooting profiles is an essential part of basketball analysis: knowing where certain opposing players like to shoot from can help coaches neutralize offensive gameplans from their opponents; understanding where their players are most comfortable can lead them to developing more effective offensive strategies. An automatic tool that can provide these performance profiles in a timely manner can become invaluable for coaches to maximize both the effectiveness of their game plan as well as the time dedicated to practice and other related activities. Additionally, basketball is dictated by many variables, such as playstyle and game dynamics, that can change the flow of the game and, by extension, player performance profiles. It is crucial that the performance profiles can reflect the diverse playstyles, as well as the fast-changing dynamics of the game. We present a tool that can visualize player performance profiles in a timely manner while taking into account factors such as play-style and game dynamics. Our approach generates interpretable heatmaps that allow us to identify and analyze how non-spatial factors, such as game dynamics or playstyle, affect player performance profiles.
翻訳日:2023-03-20 15:59:22 公開日:2023-03-17
# CHAMPAGNE: 大規模Webビデオから実世界の会話を学ぶ

CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos ( http://arxiv.org/abs/2303.09713v1 )

ライセンス: Link先を確認
Seungju Han, Jack Hessel, Nouha Dziri, Yejin Choi, Youngjae Yu(参考訳) 視覚情報は会話の中心であり、例えば、身体のジェスチャーや表情は、単語のみを超越する意味に寄与する。 しかし今のところ、ほとんどのニューラルな会話モデルはテキストのみに限られている。 本稿では,視覚的文脈を考慮した会話生成モデルCHAMPAGNEを紹介する。 CHAMPAGNEを訓練するために,大規模な18Mビデオ対話コーパスYTD-18Mを収集・リリースする。 YTD-18MはWebビデオから構築されている: 我々のデータ収集パイプラインにとって重要なのは、エラーを起こしやすい自動書き起こしを、意味を保ちながらよりクリーンな対話形式に変換する事前訓練された言語モデルである。 人間による評価では、ytd-18mは視覚的な接地性を維持しつつ、以前の資源(mmダイアログ、1m対話)よりも賢明で特定できる。 実験が示すのは 1)CHAMPAGNEはYTD-18Mから会話を学習し、 2)詳細な調整を行うと,実世界の会話に注目した4つの視覚言語タスクの最先端結果が得られる。 データ、モデル、コードをhttps://seungjuhan.me/champagne.comでリリースします。

Visual information is central to conversation: body gestures and facial expressions, for example, contribute to meaning that transcends words alone. To date, however, most neural conversational models are limited to just text. We introduce CHAMPAGNE, a generative model of conversations that can account for visual contexts. To train CHAMPAGNE, we collect and release YTD-18M, a large-scale corpus of 18M video-based dialogues. YTD-18M is constructed from web videos: crucial to our data collection pipeline is a pretrained language model that converts error-prone automatic transcripts to a cleaner dialogue format while maintaining meaning. Human evaluation reveals that YTD-18M is more sensible and specific than prior resources (MMDialog, 1M dialogues), while maintaining visual-groundedness. Experiments demonstrate that 1) CHAMPAGNE learns to conduct conversation from YTD-18M; and 2) when fine-tuned, it achieves state-of-the-art results on four vision-language tasks focused on real-world conversations. We release data, models, and code at https://seungjuhan.me/champagne.
翻訳日:2023-03-20 15:59:01 公開日:2023-03-17
# 不確実性マイニングと知識埋め込みによる無人運転注意予測

Unsupervised Self-Driving Attention Prediction via Uncertainty Mining and Knowledge Embedding ( http://arxiv.org/abs/2303.09706v1 )

ライセンス: Link先を確認
Pengfei Zhu, Mengshi Qi, Xia Li, Weijian Li and Huadong Ma(参考訳) 関心のある注意領域を予測することは、自動運転システムにとって重要な課題である。 既存の手法は、労働集約的な大規模ラベル付きトラフィックデータセットに依存している。 さらに、現在のデータセットにおける自然なシーンとトラフィックシーンの間の大きなドメインギャップは、モデルトレーニングの可能性を制限する。 これらの課題に対処するため、我々は、不確実性モデリングと知識統合の推進により、自動運転の注意を予測できる教師なしの方法を導入する。 提案手法のUncertainty Mining Branch (UMB) は, 自然環境下で事前学習したモデルから得られた複数の擬似ラベルの共通点と相違点を, 積極的に不確実性を測定することによって検出する。 一方、我々の知識埋め込みブロック(keb)は、生成された擬似ラベルを適応的に洗練するために、駆動知識を組み込んでドメインギャップを橋渡しします。 3つの公開データセットすべてで完全に監視された最先端のアプローチと比較して、同等あるいはさらに印象的なパフォーマンスを持つ定量的、質的結果が、提案手法の有効性とこの方向の可能性を示している。 コードは公開される予定だ。

Predicting attention regions of interest is an important yet challenging task for self-driving systems. Existing methodologies rely on large-scale labeled traffic datasets that are labor-intensive to obtain. Besides, the huge domain gap between natural scenes and traffic scenes in current datasets also limits the potential for model training. To address these challenges, we are the first to introduce an unsupervised way to predict self-driving attention by uncertainty modeling and driving knowledge integration. Our approach's Uncertainty Mining Branch (UMB) discovers commonalities and differences from multiple generated pseudo-labels achieved from models pre-trained on natural scenes by actively measuring the uncertainty. Meanwhile, our Knowledge Embedding Block (KEB) bridges the domain gap by incorporating driving knowledge to adaptively refine the generated pseudo-labels. Quantitative and qualitative results with equivalent or even more impressive performance compared to fully-supervised state-of-the-art approaches across all three public datasets demonstrate the effectiveness of the proposed method and the potential of this direction. The code will be made publicly available.
翻訳日:2023-03-20 15:58:40 公開日:2023-03-17
# メタツリー上の後木分布のバッチ更新

Batch Updating of a Posterior Tree Distribution over a Meta-Tree ( http://arxiv.org/abs/2303.09705v1 )

ライセンス: Link先を確認
Yuta Nakahara, Toshiyasu Matsushima(参考訳) 従来,観測不能な木に代表される確率的データ生成モデルと,木の集合上の後続分布を計算するための逐次更新手法を提案した。 集合はメタ木と呼ばれる。 本稿では,より効率的なバッチ更新手法を提案する。

Previously, we proposed a probabilistic data generation model represented by an unobservable tree and a sequential updating method to calculate a posterior distribution over a set of trees. The set is called a meta-tree. In this paper, we propose a more efficient batch updating method.
翻訳日:2023-03-20 15:58:20 公開日:2023-03-17
# 異常検出のためのBi-LSTMオートエンコーダフレームワーク-風力発電データの一事例

A Bi-LSTM Autoencoder Framework for Anomaly Detection -- A Case Study of a Wind Power Dataset ( http://arxiv.org/abs/2303.09703v1 )

ライセンス: Link先を確認
Ahmed Shoyeb Raihan and Imtiaz Ahmed(参考訳) 異常(英: Anomalies)とは、不正な活動、ネットワークの侵入、機器の故障、プロセスの変更、その他重要で頻繁な出来事を含む、通常の出来事から逸脱するデータポイントまたはイベントを指す。 このような事象の急激な検出は、財務、情報、人的資源の面での潜在的な損失を防ぐことができる。 計算能力の進歩と大規模データセットの可用性により、異常検出は主要な研究分野となっている。 これらのうち、時間次元による複雑さの増大により、近年、時系列における異常検出が注目されている。 本研究では,Bidirectional Long Short Term Memory (Bi-LSTM)アーキテクチャとAutoencoderを組み合わせた時系列異常検出フレームワークを提案する。 2つの一方向LSTMネットワークからなるBi-LSTMネットワークは、両方の方向から時系列データを解析し、シーケンシャルデータに隠された長期的な依存関係を効果的に発見することができる。 一方、Autoencoderメカニズムは、イベントを異常として分類する以上の最適なしきい値を確立するのに役立つ。 提案手法の有効性を示すため,風力発電所から収集した実世界の多変量時系列データセットに適用した。 Bi-LSTM Autoencoderモデルは96.79%の分類精度を達成し、より一般的なLSTM Autoencoderモデルよりも優れていた。

Anomalies refer to data points or events that deviate from normal and homogeneous events, which can include fraudulent activities, network infiltrations, equipment malfunctions, process changes, or other significant but infrequent events. Prompt detection of such events can prevent potential losses in terms of finances, information, and human resources. With the advancement of computational capabilities and the availability of large datasets, anomaly detection has become a major area of research. Among these, anomaly detection in time series has gained more attention recently due to the added complexity imposed by the time dimension. This study presents a novel framework for time series anomaly detection using a combination of Bidirectional Long Short Term Memory (Bi-LSTM) architecture and Autoencoder. The Bi-LSTM network, which comprises two unidirectional LSTM networks, can analyze the time series data from both directions and thus effectively discover the long-term dependencies hidden in the sequential data. Meanwhile, the Autoencoder mechanism helps to establish the optimal threshold beyond which an event can be classified as an anomaly. To demonstrate the effectiveness of the proposed framework, it is applied to a real-world multivariate time series dataset collected from a wind farm. The Bi-LSTM Autoencoder model achieved a classification accuracy of 96.79% and outperformed more commonly used LSTM Autoencoder models.
翻訳日:2023-03-20 15:58:14 公開日:2023-03-17
# リンク勧告の遅延と間接的影響

Delayed and Indirect Impacts of Link Recommendations ( http://arxiv.org/abs/2303.09700v1 )

ライセンス: Link先を確認
Han Zhang, Shangen Lu, Yixin Wang, Mihaela Curmei(参考訳) リンクレコメンデーションがソーシャルネットワークに与える影響を評価することは困難であり、これまで限られた環境で研究されてきた。 観察的研究は、答えられる因果関係の質問の種類に制限されており、A/Bテストは、未報告のネットワーク干渉によるバイアス評価につながることが多い。 さらに、シミュレーション設定の評価は、リンクレコメンデーションと有機ネットワーク進化の間の潜在的なフィードバックループを考慮していない静的ネットワークモデルに限られることが多い。 この目的のために,動的設定におけるソーシャルネットワークに対するレコメンデーションの影響について検討する。 シミュレーションに基づくアプローチを採用することで、明示的な動的形成モデル -- 有名なjackson-rogersモデルの拡張 -- を検討し、リンクレコメンデーションがネットワークの進化にどのように影響するかを検討する。 ネットワークの構造特性に対するリンクレコメンデーションの遅延と間接的影響を実証的に確認した。 具体的には,リンクレコメンデーションが短期的および長期的に大きく異なる影響を与えることを発見した。 例えば、友人関係のレコメンデーションは、次数不平等の減少に直ちに影響するが、長期的には、その度合い分布を著しく不平等にすることができる。 さらに,レコメンデーションがオフになっても,その間接的影響が自然力学に与える影響から,ネットワーク内でレコメンデーションの効果が持続することを示した。 反実的シミュレーションでは、リンク推奨の間接効果を除去することで、自然成長力学の下でのネットワークのトレンドがより高速になることを示す。

The impacts of link recommendations on social networks are challenging to evaluate, and so far they have been studied in limited settings. Observational studies are restricted in the kinds of causal questions they can answer and naive A/B tests often lead to biased evaluations due to unaccounted network interference. Furthermore, evaluations in simulation settings are often limited to static network models that do not take into account the potential feedback loops between link recommendation and organic network evolution. To this end, we study the impacts of recommendations on social networks in dynamic settings. Adopting a simulation-based approach, we consider an explicit dynamic formation model -- an extension of the celebrated Jackson-Rogers model -- and investigate how link recommendations affect network evolution over time. Empirically, we find that link recommendations have surprising delayed and indirect effects on the structural properties of networks. Specifically, we find that link recommendations can exhibit considerably different impacts in the immediate term and in the long term. For instance, we observe that friend-of-friend recommendations can have an immediate effect in decreasing degree inequality, but in the long term, they can make the degree distribution substantially more unequal. Moreover, we show that the effects of recommendations can persist in networks, in part due to their indirect impacts on natural dynamics even after recommendations are turned off. We show that, in counterfactual simulations, removing the indirect effects of link recommendations can make the network trend faster toward what it would have been under natural growth dynamics.
翻訳日:2023-03-20 15:57:50 公開日:2023-03-17
# 注意的意味単位を用いたビデオ行動認識

Video Action Recognition with Attentive Semantic Units ( http://arxiv.org/abs/2303.09756v1 )

ライセンス: Link先を確認
Yifei Chen, Dapeng Chen, Ruijin Liu, Hao Li, Wei Peng(参考訳) VLM(Visual-Language Models)は、かなり高度なアクションビデオ認識を持つ。 アクションラベルのセマンティクスによって監督された最近の研究は、ビデオ表現を学ぶためにVLMの視覚的分岐に適応している。 これらの研究によって証明された効果にもかかわらず、我々はVLMの可能性はまだ十分に活用されていないと考えている。 そこで我々は,アクションラベルの裏側に隠された意味単位(SU)を活用し,フレーム内の細粒度アイテムとの相関を利用してより正確なアクション認識を行う。 SUは、ボディパーツ、オブジェクト、シーン、モーションを含むアクションセット全体の言語記述から抽出されたエンティティである。 視覚コンテンツとSUのアライメントをさらに強化するため,VLMの視覚枝にマルチリージョンモジュール(MRA)を導入する。 mraは、元のグローバル機能を超えた、地域対応の視覚特徴の認識を可能にする。 本手法は,フレームの視覚的特徴と関連するsusを適応的に対応・選択する。 クロスモーダルデコーダにより、選択されたSUは時空間ビデオ表現をデコードする。 要約すると、媒体としてのSUは差別能力と伝達可能性を高めることができる。 具体的には,フル教師付き学習において,Kinetics-400で87.8\%のTop-1精度を達成した。 K=2小ショット実験では, HMDB-51 と UCF-101 で, 従来手法を+7.1%, +15.0% で上回った。

Visual-Language Models (VLMs) have significantly advanced action video recognition. Supervised by the semantics of action labels, recent works adapt the visual branch of VLMs to learn video representations. Despite the effectiveness proved by these works, we believe that the potential of VLMs has yet to be fully harnessed. In light of this, we exploit the semantic units (SU) hiding behind the action labels and leverage their correlations with fine-grained items in frames for more accurate action recognition. SUs are entities extracted from the language descriptions of the entire action set, including body parts, objects, scenes, and motions. To further enhance the alignments between visual contents and the SUs, we introduce a multi-region module (MRA) to the visual branch of the VLM. The MRA allows the perception of region-aware visual features beyond the original global feature. Our method adaptively attends to and selects relevant SUs with visual features of frames. With a cross-modal decoder, the selected SUs serve to decode spatiotemporal video representations. In summary, the SUs as the medium can boost discriminative ability and transferability. Specifically, in fully-supervised learning, our method achieved 87.8\% top-1 accuracy on Kinetics-400. In K=2 few-shot experiments, our method surpassed the previous state-of-the-art by +7.1% and +15.0% on HMDB-51 and UCF-101, respectively.
翻訳日:2023-03-20 15:51:45 公開日:2023-03-17
# CoLT5: 条件計算付きより高速なロングレンジトランス

CoLT5: Faster Long-Range Transformers with Conditional Computation ( http://arxiv.org/abs/2303.09752v1 )

ライセンス: Link先を確認
Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Onta\~n\'on, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai(参考訳) 多くの自然言語処理タスクは、長い入力の恩恵を受けるが、長い文書をトランスフォーマーで処理するのは高価である。 しかし、特に長い文書では、すべてのトークンが等しく重要であるわけではない。 本研究では,条件計算を駆使して,フィードフォワード層とアテンション層の両方で重要なトークンにより多くのリソースを割り当てる,この直観に基づく長入力トランスフォーマモデル colt5 を提案する。 我々は、長い入力SCROLLSベンチマークでSOTAを達成し、より高速なトレーニングと推論により、CoLT5はLongT5よりも強力な性能を実現することを示す。 さらに、CoLT5は、非常に長い入力を効果的に、かつ、牽引的に利用でき、64kまでの入力長が強い。

Many natural language processing tasks benefit from long inputs, but processing long documents with Transformers is expensive -- not only due to quadratic attention complexity but also from applying feedforward and projection layers to every token. However, not all tokens are equally important, especially for longer documents. We propose CoLT5, a long-input Transformer model that builds on this intuition by employing conditional computation, devoting more resources to important tokens in both feedforward and attention layers. We show that CoLT5 achieves stronger performance than LongT5 with much faster training and inference, achieving SOTA on the long-input SCROLLS benchmark. Moreover, CoLT5 can effectively and tractably make use of extremely long inputs, showing strong gains up to 64k input length.
翻訳日:2023-03-20 15:51:22 公開日:2023-03-17
# クラス条件印象再出現による分布外例の検出

Detecting Out-of-distribution Examples via Class-conditional Impressions Reappearing ( http://arxiv.org/abs/2303.09746v1 )

ライセンス: Link先を確認
Jinggang Chen, Xiaoyang Qu, Junjie Li, Jianzong Wang, Jiguang Wan, Jing Xiao(参考訳) Out-of-Distribution(OOD)検出は、標準のディープニューラルネットワークを拡張して、元のトレーニングデータと異常な入力を区別することを目的としている。 これまでの進歩は、流通訓練データやいくつかのOOD例が前提条件である様々なアプローチを導入してきた。 しかし、プライバシーとセキュリティのため、補助データは現実のシナリオでは実用的でない傾向がある。 本稿では,固定モデルからの画像インプレッションを活用し,クラスコンディショナル特徴統計を復元する,クラスコンディショナルインプレッション再出現(c2ir)と呼ばれる自然データ学習を伴わないデータフリー手法を提案する。 そこで我々は,階層的クラス条件の偏差を推定し,グラディエント・ベース・インフォメーション(MGI)の測定により層重みを求める積分確率指標を導入する。 実験により,本手法の有効性を検証し,C2IRが他のポストホック法より優れ,特に遠距離OODデータセット(SVHN)において全アクセス(IDおよびOOD)検出法に匹敵する性能を示した。

Out-of-distribution (OOD) detection aims at enhancing standard deep neural networks to distinguish anomalous inputs from original training data. Previous progress has introduced various approaches where the in-distribution training data and even several OOD examples are prerequisites. However, due to privacy and security, auxiliary data tends to be impractical in a real-world scenario. In this paper, we propose a data-free method without training on natural data, called Class-Conditional Impressions Reappearing (C2IR), which utilizes image impressions from the fixed model to recover class-conditional feature statistics. Based on that, we introduce Integral Probability Metrics to estimate layer-wise class-conditional deviations and obtain layer weights by Measuring Gradient-based Importance (MGI). The experiments verify the effectiveness of our method and indicate that C2IR outperforms other post-hoc methods and reaches comparable performance to the full access (ID and OOD) detection method, especially in the far-OOD dataset (SVHN).
翻訳日:2023-03-20 15:51:08 公開日:2023-03-17
# ホームレスサービスにおける最前線労働者と非収容者のAI観の理解

Understanding Frontline Workers' and Unhoused Individuals' Perspectives on AI Used in Homeless Services ( http://arxiv.org/abs/2303.09743v1 )

ライセンス: Link先を確認
Tzu-Sheng Kuo, Hong Shen, Jisoo Geum, Nev Jones, Jason I. Hong, Haiyi Zhu, Kenneth Holstein(参考訳) 近年、ホームレスサービスにおけるaiベースの意思決定支援システム(ads)の採用が増加しているが、ステークホルダーの欲求や利用に関する懸念についてはほとんどわかっていない。 本研究では,少ない住宅資源を優先するデプロイされたADSにおける利害関係者の視点を理解することを目的とする。 提案手法の適応バージョンであるaiライフサイクルcomicboardingを用いて,aiシステム設計のさまざまなコンポーネントに対してステークホルダーからのフィードバックと設計アイデアを導き出した。 我々は、ADSを毎日運営する郡労働者、ADSから直接影響を受けるサービス提供者、地域の未収容者からのフィードバックを求めた。 参加者は、AIシステムの全体的な目的、特定のモデル設計の選択、データセットの選択、デプロイメントにおける使用に関する懸念と設計提案を共有しました。 我々の調査結果は、AIの知識がなくてもステークホルダーが、AIシステムの設計とデプロイメントに関する具体的な、重要なフィードバックを提供できることを示している。

Recent years have seen growing adoption of AI-based decision-support systems (ADS) in homeless services, yet we know little about stakeholder desires and concerns surrounding their use. In this work, we aim to understand impacted stakeholders' perspectives on a deployed ADS that prioritizes scarce housing resources. We employed AI lifecycle comicboarding, an adapted version of the comicboarding method, to elicit stakeholder feedback and design ideas across various components of an AI system's design. We elicited feedback from county workers who operate the ADS daily, service providers whose work is directly impacted by the ADS, and unhoused individuals in the region. Our participants shared concerns and design suggestions around the AI system's overall objective, specific model design choices, dataset selection, and use in deployment. Our findings demonstrate that stakeholders, even without AI knowledge, can provide specific and critical feedback on an AI system's design and deployment, if empowered to do so.
翻訳日:2023-03-20 15:50:47 公開日:2023-03-17
# 圧縮CNNの動的構造解析

Dynamic Structure Pruning for Compressing CNNs ( http://arxiv.org/abs/2303.09736v1 )

ライセンス: Link先を確認
Jun-Hyung Park, Yeachan Kim, Junho Kim, Joon-Young Choi, SangKeun Lee(参考訳) 構造プルーニングはニューラルネットワークを圧縮し加速する効果的な方法である。 フィルタやチャネルプルーニングは他の構造プルーニング法よりもリアルなアクセラレーションやハードウェアとの互換性が望ましいが、チャネル内プルーニングのような粒度の細かいプルーニング法では、よりコンパクトで計算効率のよいネットワークが得られることが期待されている。 典型的なチャネル内プルーニング法は、大きな探索空間のために静的かつ手作りのプルーニング粒度を利用し、プルーニング性能の改善の余地を残している。 本稿では,チャネル内プルーニングの最適プルーニング粒度を特定するために,動的構造プルーニングと呼ばれる新しい構造プルーニング法を提案する。 既存のチャネル内プルーニング法とは対照的に,提案手法はディープニューラルネットワークを訓練しながら各層における動的プルーニング粒度を自動的に最適化する。 そこで本研究では,フィルタ群の勾配に基づく学習に基づいて,プルーニング粒度を効率的に学習するグループ学習手法を提案する。 実験結果から, チャネルプルーニングと比較して, 動的構造プルーニングがGPU上での最先端のプルーニング性能, より現実的なアクセラレーションを実現することが示された。 特に、ImageNetデータセットの精度劣化なしに、ResNet50のFLOPを71.85%削減する。 私たちのコードはhttps://github.com/irishev/dsp.comで利用可能です。

Structure pruning is an effective method to compress and accelerate neural networks. While filter and channel pruning are preferable to other structure pruning methods in terms of realistic acceleration and hardware compatibility, pruning methods with a finer granularity, such as intra-channel pruning, are expected to be capable of yielding more compact and computationally efficient networks. Typical intra-channel pruning methods utilize a static and hand-crafted pruning granularity due to a large search space, which leaves room for improvement in their pruning performance. In this work, we introduce a novel structure pruning method, termed as dynamic structure pruning, to identify optimal pruning granularities for intra-channel pruning. In contrast to existing intra-channel pruning methods, the proposed method automatically optimizes dynamic pruning granularities in each layer while training deep neural networks. To achieve this, we propose a differentiable group learning method designed to efficiently learn a pruning granularity based on gradient-based learning of filter groups. The experimental results show that dynamic structure pruning achieves state-of-the-art pruning performance and better realistic acceleration on a GPU compared with channel pruning. In particular, it reduces the FLOPs of ResNet50 by 71.85% without accuracy degradation on the ImageNet dataset. Our code is available at https://github.com/irishev/DSP.
翻訳日:2023-03-20 15:50:30 公開日:2023-03-17
# SRFormer: 単一画像の超解像のための可変自己認識

SRFormer: Permuted Self-Attention for Single Image Super-Resolution ( http://arxiv.org/abs/2303.09735v1 )

ライセンス: Link先を確認
Yupeng Zhou, Zhen Li, Chun-Le Guo, Song Bai, Ming-Ming Cheng, Qibin Hou(参考訳) 以前の研究では、Transformerベースの画像超解像モデル(例えばSwinIR)のウィンドウサイズが大きくなることで、モデルの性能が大幅に向上することが示されたが、計算オーバーヘッドもかなり大きい。 本稿では,SRFormerを提案する。SRFormerは,大きなウィンドウ自己注意の利点を享受できるが,計算負担を低減できる簡易な手法である。 SRFormerのコアとなるのは、チャネルと空間情報の適切なバランスを保ちながら自己認識を行うpermuted self-attention (PSA)である。 我々のPSAは単純で、ウィンドウの自己注意に基づいて既存の超解像ネットワークに容易に適用できる。 我々のSRFormerは、SwinIRよりも0.46dB高いUrban100データセット上で33.86dBのPSNRスコアを達成しているが、パラメータや計算は少ない。 超高解像度モデル設計における今後の研究に役立つツールとして,我々のシンプルで効果的なアプローチが期待できる。

Previous works have shown that increasing the window size for Transformer-based image super-resolution models (e.g., SwinIR) can significantly improve the model performance but the computation overhead is also considerable. In this paper, we present SRFormer, a simple but novel method that can enjoy the benefit of large window self-attention but introduces even less computational burden. The core of our SRFormer is the permuted self-attention (PSA), which strikes an appropriate balance between the channel and spatial information for self-attention. Our PSA is simple and can be easily applied to existing super-resolution networks based on window self-attention. Without any bells and whistles, we show that our SRFormer achieves a 33.86dB PSNR score on the Urban100 dataset, which is 0.46dB higher than that of SwinIR but uses fewer parameters and computations. We hope our simple and effective approach can serve as a useful tool for future research in super-resolution model design.
翻訳日:2023-03-20 15:50:05 公開日:2023-03-17
# Scribble-Supervised RGB-T Salient Object Detection

Scribble-Supervised RGB-T Salient Object Detection ( http://arxiv.org/abs/2303.09733v1 )

ライセンス: Link先を確認
Zhengyi Liu, Xiaoshen Huang, Guanghui Zhang, Xianyong Fang, Linbo Wang, Bin Tang(参考訳) 静かなオブジェクト検出セグメントは、シーン内の魅力的なオブジェクトです。 RGBと熱モダリティは相補的な情報を提供し、スクリブルアノテーションは大量の人的労働を軽減する。 以上の事実に基づいて,scribble-supervised rgb-t salient object detectionモデルを提案する。 4段階の解法(拡張、予測、集約、監視)により、スクリブル制御法のラベルスパース課題を解決する。 scribbleアノテーションを拡張するために、前景のscribbleが通過するスーパーピクセルをrgbと熱画像でそれぞれ収集する。 拡張されたマルチモーダルラベルは粗いオブジェクト境界を提供する。 拡張ラベルをさらに洗練するために,境界のシャープさを緩和する予測モジュールを提案する。 2つのモダリティの相補的な役割を演じるために、この2つを擬似ラベルに結合する。 アノテーションと擬似ラベルによって教師付けされた本モデルは,RGBT-Sデータセットの最先端性能を実現する。 さらに、RGB-Dおよびビデオスクリブル監視アプリケーションに適用し、一貫した性能を実現する。

Salient object detection segments attractive objects in scenes. RGB and thermal modalities provide complementary information and scribble annotations alleviate large amounts of human labor. Based on the above facts, we propose a scribble-supervised RGB-T salient object detection model. By a four-step solution (expansion, prediction, aggregation, and supervision), label-sparse challenge of scribble-supervised method is solved. To expand scribble annotations, we collect the superpixels that foreground scribbles pass through in RGB and thermal images, respectively. The expanded multi-modal labels provide the coarse object boundary. To further polish the expanded labels, we propose a prediction module to alleviate the sharpness of boundary. To play the complementary roles of two modalities, we combine the two into aggregated pseudo labels. Supervised by scribble annotations and pseudo labels, our model achieves the state-of-the-art performance on the relabeled RGBT-S dataset. Furthermore, the model is applied to RGB-D and video scribble-supervised applications, achieving consistently excellent performance.
翻訳日:2023-03-20 15:49:45 公開日:2023-03-17
# ニューラルネットワークによる深層学習モデルにおけるホワイトボックス透かしの再検討

Rethinking White-Box Watermarks on Deep Learning Models under Neural Structural Obfuscation ( http://arxiv.org/abs/2303.09732v1 )

ライセンス: Link先を確認
Yifan Yan, Xudong Pan, Mi Zhang, Min Yang(参考訳) ディープニューラルネットワーク(DNN)に対する著作権保護は、AI企業にとって緊急の必要性である。 違法に分散されたモデルコピーをトレースするために、DNN透かしは、予測行動やモデル内部に秘密のIDメッセージを埋め込んで検証するための新興技術である。 機能不足とターゲットdnnに関するさらなる知識を犠牲にして、後者のブランチである \textit{white-box dnn watermarking} は、多くの既知のウォーターマーク除去攻撃に対して正確で信頼性が高く、安全であると信じられており、アカデミーと業界の両方で新たな研究が進められている。 本稿では,標的モデルに付加できるがモデル行動に不変なニューロン群である \textit{dummy neurons} を用いて,主流のホワイトボックスdnnウォーターマークが神経構造難読化に対して一般的に脆弱であることを示す最初の体系的研究を行う。 ダミーニューロンを高ステルス性で自動生成・注入する包括的枠組みを考案し,本攻撃は標的モデルのアーキテクチャを集中的に修正し,透かし検証の成功を抑制する。 広範囲な評価により,9つの電子透かし方式が検証手順の修正を必要とすることが明らかとなった。

Copyright protection for deep neural networks (DNNs) is an urgent need for AI corporations. To trace illegally distributed model copies, DNN watermarking is an emerging technique for embedding and verifying secret identity messages in the prediction behaviors or the model internals. Sacrificing less functionality and involving more knowledge about the target DNN, the latter branch called \textit{white-box DNN watermarking} is believed to be accurate, credible and secure against most known watermark removal attacks, with emerging research efforts in both the academy and the industry. In this paper, we present the first systematic study on how the mainstream white-box DNN watermarks are commonly vulnerable to neural structural obfuscation with \textit{dummy neurons}, a group of neurons which can be added to a target model but leave the model behavior invariant. Devising a comprehensive framework to automatically generate and inject dummy neurons with high stealthiness, our novel attack intensively modifies the architecture of the target model to inhibit the success of watermark verification. With extensive evaluation, our work for the first time shows that nine published watermarking schemes require amendments to their verification procedures.
翻訳日:2023-03-20 15:49:27 公開日:2023-03-17
# 臨機応変時の自動走行システムにおけるLiDARによる物体検出装置の保護

Exorcising ''Wraith'': Protecting LiDAR-based Object Detector in Automated Driving System from Appearing Attacks ( http://arxiv.org/abs/2303.09731v1 )

ライセンス: Link先を確認
Qifan Xiao, Xudong Pan, Yifan Lu, Mi Zhang, Jiarun Dai, Min Yang(参考訳) 自動駆動システムは、LiDAR点雲から可能な障害物を認識するために、3Dオブジェクト検出器に依存している。 しかし、近年の研究では、敵が存在しない車を数個のフェイクポイント(すなわち出現攻撃)で予測結果に偽造できることが示されている。 統計的外れを除去することで、既存の防御は特定の攻撃のために設計されるか、事前に定義されたヒューリスティックなルールによってバイアスされる。 より包括的な緩和に向けて,我々はまず,最近出現した攻撃のメカニズムを体系的に検証した。 (i)実際の障害物と比較して局所的な部分で明らかな違いがある (ii)深さと点密度の物理的関係に違反する。 本稿では,lidarをベースとする物体検出装置を用いて,局所部品の大部分が対象性の低い鍛造障害物,すなわち実物体にどの程度属しているのかを除去した,新しいプラグ・アンド・プレイ防御モジュールを提案する。 モジュールのコアには局所的オブジェクトネス予測器があり、深さ情報と点密度の関係をモデル化し、障害物の局所的な部分をオブジェクトネススコアで予測する。 広範囲にわたる実験の結果,提案手法では,少なくとも70%の車両が3つの既知の攻撃で偽造され,30%未満の車両が削除されたことが判明した。 一方、同じ状況下では、当社の防衛は既存の防衛よりもAP/精度のオーバーヘッドが少ない。 さらに,BaiduのApolloのオープンソースシステムにおいて,シミュレーションに基づくクローズドループ制御駆動試験の有効性を検証する。

Automated driving systems rely on 3D object detectors to recognize possible obstacles from LiDAR point clouds. However, recent works show the adversary can forge non-existent cars in the prediction results with a few fake points (i.e., appearing attack). By removing statistical outliers, existing defenses are however designed for specific attacks or biased by predefined heuristic rules. Towards more comprehensive mitigation, we first systematically inspect the mechanism of recent appearing attacks: Their common weaknesses are observed in crafting fake obstacles which (i) have obvious differences in the local parts compared with real obstacles and (ii) violate the physical relation between depth and point density. In this paper, we propose a novel plug-and-play defensive module which works by side of a trained LiDAR-based object detector to eliminate forged obstacles where a major proportion of local parts have low objectness, i.e., to what degree it belongs to a real object. At the core of our module is a local objectness predictor, which explicitly incorporates the depth information to model the relation between depth and point density, and predicts each local part of an obstacle with an objectness score. Extensive experiments show, our proposed defense eliminates at least 70% cars forged by three known appearing attacks in most cases, while, for the best previous defense, less than 30% forged cars are eliminated. Meanwhile, under the same circumstance, our defense incurs less overhead for AP/precision on cars compared with existing defenses. Furthermore, We validate the effectiveness of our proposed defense on simulation-based closed-loop control driving tests in the open-source system of Baidu's Apollo.
翻訳日:2023-03-20 15:49:03 公開日:2023-03-17
# elasticvit: さまざまなモバイルデバイスに高速ビジョントランスフォーマーをデプロイするためのコンフリクトアウェアスーパーネットトレーニング

ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices ( http://arxiv.org/abs/2303.09730v1 )

ライセンス: Link先を確認
Chen Tang, Li Lyna Zhang, Huiqiang Jiang, Jiahang Xu, Ting Cao, Quanlu Zhang, Yuqing Yang, Zhi Wang, Mao Yang(参考訳) ニューラルアーキテクチャサーチ(NAS)は、1G FLOPを超える視覚変換器(ViT)の自動設計において有望な性能を示した。 しかし、多様なモバイルデバイス向けに軽量で低レイテンシのViTモデルを設計することは大きな課題だ。 本研究では,多種多様なモバイルデバイスをサポートする非常に大きな検索空間上で高品質なvitスーパーネットをトレーニングし,最適なサブネットワーク(サブネット)を検索して直接配置する2段階nasアプローチであるelasticvitを提案する。 しかし、一様サンプリングに依存する事前のスーパーネットトレーニング手法は、勾配競合の問題に悩まされ、サンプル化されたサブネットはモデルサイズが大きく異なり(例えば、50M対2G FLOP)、最適化の方向が異なり、性能が劣る。 そこで本研究では,この課題に対処するために,複雑性対応サンプリングとパフォーマンス対応サンプリングという2つの新しいサンプリング手法を提案する。 複雑性を意識したサンプリングは、隣接するトレーニングステップでサンプリングされたサブネット間のフラップ差を制限し、検索空間で異なるサイズのサブネットをカバーする。 パフォーマンスアウェアサンプリングはさらに精度のよいサブネットを選択し、グラデーションコンフリクトを低減し、スーパーネットの品質を向上させる。 発見されたモデルであるElasticViTモデルは、ImageNetの67.2%から80.0%までのトップ1の精度を60Mから800MのFLOPから追加のトレーニングなしで達成し、精度とレイテンシの観点から、以前のCNNやViTよりも優れています。 私たちの小さなモデルと小さなモデルも、モバイルデバイスのレイテンシが大幅に低い最先端のCNNを上回る最初のViTモデルです。 例えば elasticvit-s1 は efficientnet-b0 よりも 2.62倍高速で、精度は 0.1% 高い。

Neural Architecture Search (NAS) has shown promising performance in the automatic design of vision transformers (ViT) exceeding 1G FLOPs. However, designing lightweight and low-latency ViT models for diverse mobile devices remains a big challenge. In this work, we propose ElasticViT, a two-stage NAS approach that trains a high-quality ViT supernet over a very large search space that supports a wide range of mobile devices, and then searches an optimal sub-network (subnet) for direct deployment. However, prior supernet training methods that rely on uniform sampling suffer from the gradient conflict issue: the sampled subnets can have vastly different model sizes (e.g., 50M vs. 2G FLOPs), leading to different optimization directions and inferior performance. To address this challenge, we propose two novel sampling techniques: complexity-aware sampling and performance-aware sampling. Complexity-aware sampling limits the FLOPs difference among the subnets sampled across adjacent training steps, while covering different-sized subnets in the search space. Performance-aware sampling further selects subnets that have good accuracy, which can reduce gradient conflicts and improve supernet quality. Our discovered models, ElasticViT models, achieve top-1 accuracy from 67.2% to 80.0% on ImageNet from 60M to 800M FLOPs without extra retraining, outperforming all prior CNNs and ViTs in terms of accuracy and latency. Our tiny and small models are also the first ViT models that surpass state-of-the-art CNNs with significantly lower latency on mobile devices. For instance, ElasticViT-S1 runs 2.62x faster than EfficientNet-B0 with 0.1% higher accuracy.
翻訳日:2023-03-20 15:48:35 公開日:2023-03-17
# Mpox-AISM: モンキーポックス拡散のAIによる監視

Mpox-AISM: AI-Mediated Super Monitoring for Forestalling Monkeypox Spread ( http://arxiv.org/abs/2303.09780v1 )

ライセンス: Link先を確認
Yubiao Yue, Zhenzhang Li, Xinyue Zhang, Jialong Xu, Jinbao Liu, Yang Li(参考訳) フォレストアリング・モンキーポックス(mpox)の拡散に関する課題は、早期感染者に対するタイムリーで便利で正確な診断である。 そこで本研究では, 早期mpoxの低コスト, 簡便, タイムリー, 非専門化診断を実現するために, 遠隔かつリアルタイムのオンライン可視化戦略「スーパーモニタリング」を提案する。 このようなaiを媒介とする"super monitoring"(mpox-aism)は、ディープラーニング、データ拡張、自己教師付き学習によって組み立てられたフレームワークを起動すると同時に、mpoxのデータセットの特徴と進化傾向に基づいて4つのサブタイプを専門的に分類し、高い類似度を持つ他の7種類の皮膚症を分類する。 その結果,インターネットおよび通信端末上でのクラウドサービスの活用により,空港の進入検査,家族医師,未開発地域の農村部,野生部などの様々なシナリオにおいて,早期Mpoxのリアルタイム検出に活用でき,Mpoxのウィンドウ期間を効果的に短縮することができる。

The challenge on forestalling monkeypox (Mpox) spread is the timely, convenient and accurate diagnosis for earlystage infected individuals. Here, we propose a remote and realtime online visualization strategy, called "Super Monitoring" to construct a low cost, convenient, timely and unspecialized diagnosis of early-stage Mpox. Such AI-mediated "Super Monitoring" (Mpox-AISM) invokes a framework assembled by deep learning, data augmentation and self-supervised learning, as well as professionally classifies four subtypes according to dataset characteristics and evolution trend of Mpox and seven other types of dermatopathya with high similarity, hence these features together with reasonable program interface and threshold setting ensure that its Recall (Sensitivity) was beyond 95.9% and the specificity was almost 100%. As a result, with the help of cloud service on Internet and communication terminal, this strategy can be potentially utilized for the real-time detection of earlystage Mpox in various scenarios including entry-exit inspection in airport, family doctor, rural area in underdeveloped region and wild to effectively shorten the window period of Mpox spread.
翻訳日:2023-03-20 15:42:22 公開日:2023-03-17
# ドメイン適応意味セグメンテーションのための双方向ドメインミックスアップ

Bidirectional Domain Mixup for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2303.09779v1 )

ライセンス: Link先を確認
Daehan Kim, Minseok Seo, Kwanyong Park, Inkyu Shin, Sanghyun Woo, In-So Kweon, Dong-Geol Choi(参考訳) Mixupは補間されたトレーニングサンプルを提供し、モデルがよりスムーズな決定境界を得ることができ、より一般化できる。 このアイデアはドメイン適応タスクに自然に適用することができ、ソースとターゲットサンプルを混合してドメイン混合サンプルを得ることができ、適応性を向上させることができる。 しかし、概念の分類からセグメンテーション(すなわち構造化アウトプット)への拡張は非自明である。 本稿では、ドメイン適応型セマンティックセグメンテーションタスクにおけるミックスアップの影響を体系的に研究し、双方向ドメインミキサップ(BDM)と呼ばれる単純なミックスアップ戦略を示す。 具体的には、ドメインミックスアップをカットとペーストという2ステップで実現します。 適応手法からトレーニングしたウォームアップモデルを考えると、ソースとターゲットサンプルを転送し、信頼できない領域(カット)から簡単なしきい値ベースのカットを実行する。 その後、ドロップしたリージョンを他のドメイン領域パッチ(ペースト)で埋めます。 そこで我々は,クラス分布,空間構造,擬似ラベルの信頼性を共同で検討する。 分析の結果,BDMはドメイン転送可能な領域を切断し,データセットレベルのクラス分布のバランスを保ちながら,パッティングによる自然なシーンコンテキストを保っていることがわかった。 提案手法を各種の最先端適応モデルと組み合わせ,大幅な改善を継続的に観察した。 フレームワークの主要なコンポーネントを実証的に検証するために、広範なアブレーション実験も行っています。 コードはhttps://sites.google.com/view/bidirectional-domain-mixup。

Mixup provides interpolated training samples and allows the model to obtain smoother decision boundaries for better generalization. The idea can be naturally applied to the domain adaptation task, where we can mix the source and target samples to obtain domain-mixed samples for better adaptation. However, the extension of the idea from classification to segmentation (i.e., structured output) is nontrivial. This paper systematically studies the impact of mixup under the domain adaptaive semantic segmentation task and presents a simple yet effective mixup strategy called Bidirectional Domain Mixup (BDM). In specific, we achieve domain mixup in two-step: cut and paste. Given the warm-up model trained from any adaptation techniques, we forward the source and target samples and perform a simple threshold-based cut out of the unconfident regions (cut). After then, we fill-in the dropped regions with the other domain region patches (paste). In doing so, we jointly consider class distribution, spatial structure, and pseudo label confidence. Based on our analysis, we found that BDM leaves domain transferable regions by cutting, balances the dataset-level class distribution while preserving natural scene context by pasting. We coupled our proposal with various state-of-the-art adaptation models and observe significant improvement consistently. We also provide extensive ablation experiments to empirically verify our main components of the framework. Visit our project page with the code at https://sites.google.com/view/bidirectional-domain-mixup
翻訳日:2023-03-20 15:41:56 公開日:2023-03-17
# SE-GSL: 構造エントロピー最適化による汎用的で効果的なグラフ構造学習フレームワーク

SE-GSL: A General and Effective Graph Structure Learning Framework through Structural Entropy Optimization ( http://arxiv.org/abs/2303.09778v1 )

ライセンス: Link先を確認
Dongcheng Zou, Hao Peng, Xiang Huang, Renyu Yang, Jianxin Li, Jia Wu, Chunyang Liu and Philip S. Yu(参考訳) グラフニューラルネットワーク(GNN)は、構造的データ学習のデファクトソリューションである。 しかし、実世界のグラフでは例外ではなく規範であった低品質で信頼性の低い構造に影響を受けやすい。 既存のグラフ構造学習(GSL)フレームワークには、堅牢性と解釈性がない。 本稿では、構造エントロピーと符号化木に抽象化されたグラフ階層を通して、一般的なGSLフレームワークSE-GSLを提案する。 特に,1次元構造エントロピーを利用して,周辺属性を融合させて元のグラフを強化する場合の埋め込み情報量を最大化する。 グラフにおける不確実性やノイズを最小限に抑えつつ,階層的抽象化で適切なコミュニティ分割を確保すべく,最適な符号化木を構築する新しい手法を提案する。 本稿では,ノード構造エントロピー分布によるグラフ構造復元のための新しいサンプルベース機構を提案する。 低レベルのコミュニティにおいて、大きな不確実性を持つノード間の接続を増加させる。 SE-GSLは様々なGNNモデルと互換性があり、ノイズや不均一構造に対する堅牢性を高める。 広範な実験により、構造学習とノード表現学習の有効性とロバスト性が大幅に向上した。

Graph Neural Networks (GNNs) are de facto solutions to structural data learning. However, it is susceptible to low-quality and unreliable structure, which has been a norm rather than an exception in real-world graphs. Existing graph structure learning (GSL) frameworks still lack robustness and interpretability. This paper proposes a general GSL framework, SE-GSL, through structural entropy and the graph hierarchy abstracted in the encoding tree. Particularly, we exploit the one-dimensional structural entropy to maximize embedded information content when auxiliary neighbourhood attributes are fused to enhance the original graph. A new scheme of constructing optimal encoding trees is proposed to minimize the uncertainty and noises in the graph whilst assuring proper community partition in hierarchical abstraction. We present a novel sample-based mechanism for restoring the graph structure via node structural entropy distribution. It increases the connectivity among nodes with larger uncertainty in lower-level communities. SE-GSL is compatible with various GNN models and enhances the robustness towards noisy and heterophily structures. Extensive experiments show significant improvements in the effectiveness and robustness of structure learning and node representation learning.
翻訳日:2023-03-20 15:41:34 公開日:2023-03-17
# プログレッシブコンテンツアウェア符号化ハイパースペクトル圧縮イメージング

Progressive Content-aware Coded Hyperspectral Compressive Imaging ( http://arxiv.org/abs/2303.09773v1 )

ライセンス: Link先を確認
Xuanyu Zhang, Bin Chen, Wenzhen Zou, Shuai Liu, Yongbing Zhang, Ruiqin Xiong, Jian Zhang(参考訳) ハイパースペクトルイメージングは、リモートセンシング、医療、細胞診など、幅広い応用において重要な役割を果たす。 2Dセンサーを介して3Dハイパースペクトル画像(HSI)を取得することで、ハードウェアフレンドリーな実装と高速な撮像速度により、符号化開口スナップショット分光画像(CASSI)は大きな成功を収めた。 しかし、スペクトルの少ないシーンでは、単一スナップショットと不合理な符号化開口設計により、HSI回復が悪化し、空間的およびスペクトル的忠実性が低下する傾向にある。 本稿では,複数のコンテントアウェア・アパーチャを最適化したhsisをキャプチャし,すべてのスナップショットを逐次合成するために融合する,pca-cassiと呼ばれる新しいプログレッシブコンテンツアウェアcassiフレームワークを提案する。 同時に、Range-Null空間分解(RND)を複数の位相を持つディープネットワークにマッピングすることにより、HSI回復のためのRND-HRNetを提案する。 各リカバリフェーズは、明示的な$\mathcal{R}$-$\mathcal{N}$分解を通じて符号化開口内の隠れた物理的情報をフル活用し、双対変圧器ブロックによる空間-スペクトル相関を探索することができる。 本手法は,複数撮影と単一撮影の両方のHSI撮像タスクにおいて,他の最先端の手法を大きなマージンで超えることが検証された。

Hyperspectral imaging plays a pivotal role in a wide range of applications, like remote sensing, medicine, and cytology. By acquiring 3D hyperspectral images (HSIs) via 2D sensors, the coded aperture snapshot spectral imaging (CASSI) has achieved great success due to its hardware-friendly implementation and fast imaging speed. However, for some less spectrally sparse scenes, single snapshot and unreasonable coded aperture design tend to make HSI recovery more ill-posed and yield poor spatial and spectral fidelity. In this paper, we propose a novel Progressive Content-Aware CASSI framework, dubbed PCA-CASSI, which captures HSIs with multiple optimized content-aware coded apertures and fuses all the snapshots for reconstruction progressively. Simultaneously, by mapping the Range-Null space Decomposition (RND) into a deep network with several phases, an RND-HRNet is proposed for HSI recovery. Each recovery phase can fully exploit the hidden physical information in the coded apertures via explicit $\mathcal{R}$$-$$\mathcal{N}$ decomposition and explore the spatial-spectral correlation by dual transformer blocks. Our method is validated to surpass other state-of-the-art methods on both multiple- and single-shot HSI imaging tasks by large margins.
翻訳日:2023-03-20 15:41:17 公開日:2023-03-17
# QUBO Decision Tree:Annealing Machineが決定木分割を強化

QUBO Decision Tree: Annealing Machine Extends Decision Tree Splitting ( http://arxiv.org/abs/2303.09772v1 )

ライセンス: Link先を確認
Koichiro Yawata, Yoshihiro Osakabe, Takuya Okuyama, Akinori Asahara(参考訳) 本稿では,二分最適化(qubo)による回帰木の拡張を提案する。 回帰木は、表付きデータセットでトレーニング可能な非常に一般的な予測モデルであるが、決定ルールが単純すぎるため、その正確性は不十分である。 提案手法は決定木の決定規則を多次元境界まで拡張する。 このような拡張は計算の限界のために一般に実装できないが、提案手法はトレーニングプロセスをquboに変換し、アニーリングマシンがこの問題を解決できるようにする。

This paper proposes an extension of regression trees by quadratic unconstrained binary optimization (QUBO). Regression trees are very popular prediction models that are trainable with tabular datasets, but their accuracy is insufficient because the decision rules are too simple. The proposed method extends the decision rules in decision trees to multi-dimensional boundaries. Such an extension is generally unimplementable because of computational limitations, however, the proposed method transforms the training process to QUBO, which enables an annealing machine to solve this problem.
翻訳日:2023-03-20 15:40:49 公開日:2023-03-17
# denoising diffusion autoencoderは統一された自己教師付き学習者である

Denoising Diffusion Autoencoders are Unified Self-supervised Learners ( http://arxiv.org/abs/2303.09769v1 )

ライセンス: Link先を確認
Weilai Xiang, Hongyu Yang, Di Huang, Yunhong Wang(参考訳) 自動エンコーダを連想させる拡散モデルの最近の進歩に触発され、生成前訓練により分類のための識別的表現を得られるかを検討する。 本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,非条件画像生成の事前学習により,補助エンコーダを使わずに中間層で線形分離表現を学習し,拡散事前学習を自己教師付き生成・識別学習の一般的なアプローチとして実現していることを示す。 これを検証するために,マルチクラスデータセット上で線形プローブおよび微調整評価を行う。 拡散に基づくアプローチでは、cifar-10とtiny-imagenetの95.9%と50.0%の線形プローブアキュラリティを達成し、初めてマスク付きオートエンコーダとコントラスト学習に匹敵する。 さらに、ImageNetからの転送学習はDDAEが潜在空間ビジョン変換器に適合していることを確認し、DDAEを統一基盤モデルとしてスケールする可能性を示唆している。

Inspired by recent advances in diffusion models, which are reminiscent of denoising autoencoders, we investigate whether they can acquire discriminative representations for classification via generative pre-training. This paper shows that the networks in diffusion models, namely denoising diffusion autoencoders (DDAE), are unified self-supervised learners: by pre-training on unconditional image generation, DDAE has already learned strongly linear-separable representations at its intermediate layers without auxiliary encoders, thus making diffusion pre-training emerge as a general approach for self-supervised generative and discriminative learning. To verify this, we perform linear probe and fine-tuning evaluations on multi-class datasets. Our diffusion-based approach achieves 95.9% and 50.0% linear probe accuracies on CIFAR-10 and Tiny-ImageNet, respectively, and is comparable to masked autoencoders and contrastive learning for the first time. Additionally, transfer learning from ImageNet confirms DDAE's suitability for latent-space Vision Transformers, suggesting the potential for scaling DDAEs as unified foundation models.
翻訳日:2023-03-20 15:40:41 公開日:2023-03-17
# すべてはデータに関するものだ – 逆のロバスト性に対するデータの影響に関する調査

It Is All About Data: A Survey on the Effects of Data on Adversarial Robustness ( http://arxiv.org/abs/2303.09767v1 )

ライセンス: Link先を確認
Peiyu Xiong, Michael Tegegn, Jaskeerat Singh Sarin, Shubhraneel Pal, Julia Rubin(参考訳) 敵の例は機械学習モデルへの入力であり、攻撃者が意図的にモデルを混同して間違いを起こすように設計した。 このような例は、特に生命および安全クリティカルな領域において、機械学習ベースのシステムの適用性に深刻な脅威をもたらす。 この問題に対処するため、敵対的堅牢性領域は、これらの攻撃に対する敵対的攻撃と防御の背後にあるメカニズムを調査している。 本調査は,モデルが使用するデータがモデルの対角的堅牢性に与える影響に着目した文献をレビューする。 この領域における最先端の研究を体系的に特定し、要約し、知識のギャップと将来的な研究の方向性についてさらに議論する。

Adversarial examples are inputs to machine learning models that an attacker has intentionally designed to confuse the model into making a mistake. Such examples pose a serious threat to the applicability of machine-learning-based systems, especially in life- and safety-critical domains. To address this problem, the area of adversarial robustness investigates mechanisms behind adversarial attacks and defenses against these attacks. This survey reviews literature that focuses on the effects of data used by a model on the model's adversarial robustness. It systematically identifies and summarizes the state-of-the-art research in this area and further discusses gaps of knowledge and promising future research directions.
翻訳日:2023-03-20 15:40:19 公開日:2023-03-17
# 最適トポロジーの拡散:生成的最適化アプローチ

Diffusing the Optimal Topology: A Generative Optimization Approach ( http://arxiv.org/abs/2303.09760v1 )

ライセンス: Link先を確認
Giorgio Giannone, Faez Ahmed(参考訳) トポロジ最適化は、システムパフォーマンスを最大化しながら制約セットを満たす最良の設計を見つけようとしている。 従来のSIMPのような反復最適化手法は計算コストがかかり、局所的なミニマで行き詰まり、複雑な問題や大規模な問題に適用可能である。 トポロジー最適化プロセスを加速するために学習ベースのアプローチが開発されているが、これらの手法は分散制約設定に挑戦した場合、フローティングマテリアルと低パフォーマンスの設計を生成することができる。 近年、制約や物理学の分野を前提とした生成型ネットワークや拡散モデルのような深層生成モデルは有望であるが、性能向上には広範な事前処理と代理モデルが必要である。 これらの問題に対処するため,SIMPのような古典最適化を深い生成モデルによって生成されるトポロジの精製機構として統合した生成最適化手法を提案する。 また,従来のODEソリューションにインスパイアされた計算コストの低い近似を用いて,物理分野の条件付けの必要性を排除し,実現可能かつ性能の高いトポロジを生成するために必要なステップ数を削減した。 本手法により,外部の補助モデルやラベル付きデータの必要なしに,優れたトポロジーを効率的に生成し,高い製造性と高性能領域に明示的に誘導することができる。 我々は,本手法が工学応用における構造物の設計と最適化の大幅な進歩につながり,より広範な性能認識工学設計問題に適用できると信じている。

Topology Optimization seeks to find the best design that satisfies a set of constraints while maximizing system performance. Traditional iterative optimization methods like SIMP can be computationally expensive and get stuck in local minima, limiting their applicability to complex or large-scale problems. Learning-based approaches have been developed to accelerate the topology optimization process, but these methods can generate designs with floating material and low performance when challenged with out-of-distribution constraint configurations. Recently, deep generative models, such as Generative Adversarial Networks and Diffusion Models, conditioned on constraints and physics fields have shown promise, but they require extensive pre-processing and surrogate models for improving performance. To address these issues, we propose a Generative Optimization method that integrates classic optimization like SIMP as a refining mechanism for the topology generated by a deep generative model. We also remove the need for conditioning on physical fields using a computationally inexpensive approximation inspired by classic ODE solutions and reduce the number of steps needed to generate a feasible and performant topology. Our method allows us to efficiently generate good topologies and explicitly guide them to regions with high manufacturability and high performance, without the need for external auxiliary models or additional labeled data. We believe that our method can lead to significant advancements in the design and optimization of structures in engineering applications, and can be applied to a broader spectrum of performance-aware engineering design problems.
翻訳日:2023-03-20 15:40:05 公開日:2023-03-17
# 非局所マルチビューステレオの階層的事前マイニング

Hierarchical Prior Mining for Non-local Multi-View Stereo ( http://arxiv.org/abs/2303.09758v1 )

ライセンス: Link先を確認
Chunlin Ren, Qingshan Xu, Shikun Zhang, Jiaqi Yang(参考訳) コンピュータビジョンの基本的な問題として、マルチビューステレオ(MVS)は、ターゲットの3次元形状を一連の2次元画像から復元することを目的としている。 MVSの最近の進歩は、低テクスチャ領域における幾何学の回復のために、非局所構造情報を知覚することが重要であることを示している。 本研究では,非局所マルチビューステレオ(hpm-mvs)の階層的事前マイニングを提案する。 主な特徴は、非ローカル情報を利用したMVS支援技術である。 1)非局所拡張型サンプリングパターン (NESP) は, 局所最適解に精通することなく, サンプル領域のサイズを適応的に変化させることができる。 2)K-Nearest Neighbor(KNN)に基づく非局所信頼点の活用と計画的事前モデルの構築により,事前構築が困難である地域に対する潜在的仮説を得る。 3) 大規模非局所的事前情報を異なるスケールでマイニングして3次元モデル復元を支援する階層的事前マイニング(hpm)フレームワークは,詳細な再構築と低テクスチャ領域とのかなりのバランスを実現することができる。 eth3d とタンク \& temple の実験結果から,本手法の優れた性能と強汎化性能が確認できた。 私たちのコードはリリースされます。

As a fundamental problem in computer vision, multi-view stereo (MVS) aims at recovering the 3D geometry of a target from a set of 2D images. Recent advances in MVS have shown that it is important to perceive non-local structured information for recovering geometry in low-textured areas. In this work, we propose a Hierarchical Prior Mining for Non-local Multi-View Stereo (HPM-MVS). The key characteristics are the following techniques that exploit non-local information to assist MVS: 1) A Non-local Extensible Sampling Pattern (NESP), which is able to adaptively change the size of sampled areas without becoming snared in locally optimal solutions. 2) A new approach to leverage non-local reliable points and construct a planar prior model based on K-Nearest Neighbor (KNN), to obtain potential hypotheses for the regions where prior construction is challenging. 3) A Hierarchical Prior Mining (HPM) framework, which is used to mine extensive non-local prior information at different scales to assist 3D model recovery, this strategy can achieve a considerable balance between the reconstruction of details and low-textured areas. Experimental results on the ETH3D and Tanks \& Temples have verified the superior performance and strong generalization capability of our method. Our code will be released.
翻訳日:2023-03-20 15:39:39 公開日:2023-03-17
# 物理的に先行したマルチレンジ時間アライメントネットワークによる映像デハジング

Video Dehazing via a Multi-Range Temporal Alignment Network with Physical Prior ( http://arxiv.org/abs/2303.09757v1 )

ライセンス: Link先を確認
Jiaqi Xu, Xiaowei Hu, Lei Zhu, Qi Dou, Jifeng Dai, Yu Qiao, Pheng-Ann Heng(参考訳) video dehazingは、高視認性とコントラストでhazeフリーのフレームを復元することを目的としている。 本稿では,物理ヘイズ先行を効果的に探索し,時間情報を集約する新しい枠組みを提案する。 具体的には,メモリをベースとした物理事前誘導モジュールを設計し,その特徴を長距離メモリにエンコードする。 また,複数の時空範囲の時空依存性をキャプチャするために,複数範囲のシーンラミアンスリカバリモジュールを定式化し,隣接フレームからの時間情報を効果的に集約する。 さらに,実世界の様々なシナリオのビデオを含む,初の大規模屋外ビデオデヘイジングベンチマークデータセットを構築した。 合成条件と実条件の両方の実験結果から,提案手法の優位性を示した。

Video dehazing aims to recover haze-free frames with high visibility and contrast. This paper presents a novel framework to effectively explore the physical haze priors and aggregate temporal information. Specifically, we design a memory-based physical prior guidance module to encode the prior-related features into long-range memory. Besides, we formulate a multi-range scene radiance recovery module to capture space-time dependencies in multiple space-time ranges, which helps to effectively aggregate temporal information from adjacent frames. Moreover, we construct the first large-scale outdoor video dehazing benchmark dataset, which contains videos in various real-world scenarios. Experimental results on both synthetic and real conditions show the superiority of our proposed method.
翻訳日:2023-03-20 15:39:18 公開日:2023-03-17
# 2次元トーキングヘッドアニメーションのためのスタイル転送

Style Transfer for 2D Talking Head Animation ( http://arxiv.org/abs/2303.09799v1 )

ライセンス: Link先を確認
Trong-Thang Pham, Nhat Le, Tuong Do, Hung Nguyen, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 音声駆動音声ヘッドアニメーションは多くの現実世界のアプリケーションで難しい研究トピックである。 最近の作品では、写真リアリスティックな2Dアニメーションの作成に焦点が当てられているが、異なる話し方や歌唱スタイルを学ぶことは未解決の問題である。 本稿では,学習可能なスタイル参照を用いた対話型ヘッドアニメーション生成手法を提案する。 スタイル参照フレームのセットが与えられた場合、このフレームワークは、単一の入力画像とオーディオストリームに基づいて、2D音声ヘッドアニメーションを再構成することができる。 提案手法はまず音声ストリームから顔のランドマークの動きを生成し,スタイル参照画像から中間スタイルパターンを構築する。 そして、両方の出力をスタイル対応の画像生成器に入力し、写真リアルで忠実な2Dアニメーションを生成する。 実際に,本フレームワークは,特定の文字のスタイル情報を抽出し,対話型ヘッドアニメーションのための任意の静止画像に転送することができる。 集中実験の結果,最近の最先端手法よりも質的,定量的に優れた結果が得られた。

Audio-driven talking head animation is a challenging research topic with many real-world applications. Recent works have focused on creating photo-realistic 2D animation, while learning different talking or singing styles remains an open problem. In this paper, we present a new method to generate talking head animation with learnable style references. Given a set of style reference frames, our framework can reconstruct 2D talking head animation based on a single input image and an audio stream. Our method first produces facial landmarks motion from the audio stream and constructs the intermediate style patterns from the style reference images. We then feed both outputs into a style-aware image generator to generate the photo-realistic and fidelity 2D animation. In practice, our framework can extract the style information of a specific character and transfer it to any new static image for talking head animation. The intensive experimental results show that our method achieves better results than recent state-of-the-art approaches qualitatively and quantitatively.
翻訳日:2023-03-20 15:32:53 公開日:2023-03-17
# MMFace4D:オーディオ駆動型3D顔アニメーションのための大規模マルチモーダル4D顔データセット

MMFace4D: A Large-Scale Multi-Modal 4D Face Dataset for Audio-Driven 3D Face Animation ( http://arxiv.org/abs/2303.09797v1 )

ライセンス: Link先を確認
Haozhe Wu, Jia Jia, Junliang Xing, Hongwei Xu, Xiangyuan Wang, Jelo Wang(参考訳) オーディオ駆動のフェイスアニメーションは、vr/ar、ゲーム、映画製作などのアプリケーションで期待されている技術だ。 3dエンジンの急速な開発により、オーディオによる3d顔の運転の需要が高まっている。 しかし、現在利用可能な3D顔アニメーションデータセットは、スケール制限または品質不満足である。 この課題に対処するために,431のアイデンティティ,35,904のシーケンス,390万フレームからなる大規模マルチモーダル4D顔データセットMMFace4Dを提案する。 MMFace4Dには3つの特徴がある。 1)高度に多様化した主題とコーパス 2)高分解能面ディテールによるオーディオと3dメッシュの同期シーケンス 3) 3次元メッシュ列上の新しい効率的な圧縮アルゴリズムによるストレージコストの低減。 これらの特徴は、高忠実で表現力があり、一般化可能な顔アニメーションモデルのトレーニングを可能にする。 mmface4dでは,高速な推論速度で非自己回帰生成を可能とし,最先端の自己回帰手法よりも優れる,強力なベースラインを持つ,音声駆動3d顔アニメーションの難解なベンチマークを構築した。 ベンチマーク全体がリリースされる。

Audio-Driven Face Animation is an eagerly anticipated technique for applications such as VR/AR, games, and movie making. With the rapid development of 3D engines, there is an increasing demand for driving 3D faces with audio. However, currently available 3D face animation datasets are either scale-limited or quality-unsatisfied, which hampers further developments of audio-driven 3D face animation. To address this challenge, we propose MMFace4D, a large-scale multi-modal 4D (3D sequence) face dataset consisting of 431 identities, 35,904 sequences, and 3.9 million frames. MMFace4D has three appealing characteristics: 1) highly diversified subjects and corpus, 2) synchronized audio and 3D mesh sequence with high-resolution face details, and 3) low storage cost with a new efficient compression algorithm on 3D mesh sequences. These characteristics enable the training of high-fidelity, expressive, and generalizable face animation models. Upon MMFace4D, we construct a challenging benchmark of audio-driven 3D face animation with a strong baseline, which enables non-autoregressive generation with fast inference speed and outperforms the state-of-the-art autoregressive method. The whole benchmark will be released.
翻訳日:2023-03-20 15:32:38 公開日:2023-03-17
# 半教師付き意味セグメンテーションのための再訪画像再構成

Revisiting Image Reconstruction for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2303.09794v1 )

ライセンス: Link先を確認
Yuhao Lin, Haiming Xu, Lingqiao Liu, Jinan Zou, Javen Qinfeng Shi(参考訳) ボトルネック潜在表現を通じて入力画像を再構成することを目的としたオートエンコーディングは、古典的な特徴表現学習戦略の1つである。 半教師付き学習の補助タスクとして有効であることが示されているが、近年ではより洗練された手法が提案されているため、あまり普及していない。 本稿では,画像再構成を補助課題として活用するという考え方を再考し,半教師付きセマンティックセマンティクスフレームワークに組み込む。 驚くことに、このような半教師付き学習の古いアイデアは、最先端のセマンティックセグメンテーションアルゴリズムと競合する結果をもたらす。 画像再構成モジュールの中間層活性化を可視化することにより,特徴写像チャネルが意味論的概念とよく相関することを示す。 本研究の目的は,背景パターンから物体の手がかりをさらに遠ざけることを目的として,画像再構成タスクの修正を提案することである。 各種データセットに対する実験結果から,再構成を補助的損失として用いることにより,各種データセットや手法の一貫性が向上することを示した。 提案手法は,オブジェクト中心セグメンテーションタスクの大幅な改善につながる可能性がある。

Autoencoding, which aims to reconstruct the input images through a bottleneck latent representation, is one of the classic feature representation learning strategies. It has been shown effective as an auxiliary task for semi-supervised learning but has become less popular as more sophisticated methods have been proposed in recent years. In this paper, we revisit the idea of using image reconstruction as the auxiliary task and incorporate it with a modern semi-supervised semantic segmentation framework. Surprisingly, we discover that such an old idea in semi-supervised learning can produce results competitive with state-of-the-art semantic segmentation algorithms. By visualizing the intermediate layer activations of the image reconstruction module, we show that the feature map channel could correlate well with the semantic concept, which explains why joint training with the reconstruction task is helpful for the segmentation task. Motivated by our observation, we further proposed a modification to the image reconstruction task, aiming to further disentangle the object clue from the background patterns. From experiment evaluation on various datasets, we show that using reconstruction as auxiliary loss can lead to consistent improvements in various datasets and methods. The proposed method can further lead to significant improvement in object-centric segmentation tasks.
翻訳日:2023-03-20 15:32:17 公開日:2023-03-17
# クロスドメインセマンティクスセグメンテーションのためのスパースビジュアルプロンプトの検討

Exploring Sparse Visual Prompt for Cross-domain Semantic Segmentation ( http://arxiv.org/abs/2303.09792v1 )

ライセンス: Link先を確認
Senqiao Yang, Jiarui Wu, Jiaming Liu, Xiaoqi Li, Qizhe Zhang, Mingjie Pan, Mingjie Pan, Shanghang Zhang(参考訳) Visual Domain Prompts (VDP)は、視覚的クロスドメイン問題に対処する有望な可能性を示している。 既存の手法では、ターゲットドメインに対する画像レベルや特徴レベルプロンプトのチューニングなど、分類領域適応(DA)にVDPを採用している。 従来の密接なプロンプトは不透明であり、プロンプト領域における連続的な空間的詳細を隠蔽するため、密接な予測(セマンティックセグメンテーション)DA問題を扱う際に、不正確な文脈情報抽出とドメイン固有の特徴伝達に悩まされる。 そこで,sparse visual domain prompts (svdp) アプローチでは,プロンプトの最小の離散学習可能なパラメータ(例えば10\%)を保持し,より空間的な情報を格納する意味セグメンテーションにおける領域シフト問題に対処する。 SVDPをよりよく適用するために、不確実性ガイダンスに基づいて複数のデータ分布距離を持つ領域に適応的にSVDPを配布するDomain Prompt Placement (DPP)法を提案する。 よりローカルなドメイン固有の知識を抽出し、効率的なクロスドメイン学習を実現する。 さらに、ドメインシフトの度合いが異なる各ドメインサンプルに対して異なるプロンプトパラメータを最適化するために、DPU(Domain Prompt Updating)メソッドを設計する。 広く利用されているベンチマーク(Cityscapes, Foggy-Cityscapes, ACDC)を用いて実験を行った結果,提案手法は6つのテスト時間適応と1つのセマンティックセマンティックセマンティックセマンティクスにおける連続テスト時間適応を含む,ソースフリー適応における最先端性能を実現する。

Visual Domain Prompts (VDP) have shown promising potential in addressing visual cross-domain problems. Existing methods adopt VDP in classification domain adaptation (DA), such as tuning image-level or feature-level prompts for target domains. Since the previous dense prompts are opaque and mask out continuous spatial details in the prompt regions, it will suffer from inaccurate contextual information extraction and insufficient domain-specific feature transferring when dealing with the dense prediction (i.e. semantic segmentation) DA problems. Therefore, we propose a novel Sparse Visual Domain Prompts (SVDP) approach tailored for addressing domain shift problems in semantic segmentation, which holds minimal discrete trainable parameters (e.g. 10\%) of the prompt and reserves more spatial information. To better apply SVDP, we propose Domain Prompt Placement (DPP) method to adaptively distribute several SVDP on regions with large data distribution distance based on uncertainty guidance. It aims to extract more local domain-specific knowledge and realizes efficient cross-domain learning. Furthermore, we design a Domain Prompt Updating (DPU) method to optimize prompt parameters differently for each target domain sample with different degrees of domain shift, which helps SVDP to better fit target domain knowledge. Experiments, which are conducted on the widely-used benchmarks (Cityscapes, Foggy-Cityscapes, and ACDC), show that our proposed method achieves state-of-the-art performances on the source-free adaptations, including six Test Time Adaptation and one Continual Test-Time Adaptation in semantic segmentation.
翻訳日:2023-03-20 15:31:55 公開日:2023-03-17
# 学生のt分布の混合による多目的眼疾患スクリーニング

Reliable Multimodality Eye Disease Screening via Mixture of Student's t Distributions ( http://arxiv.org/abs/2303.09790v1 )

ライセンス: Link先を確認
Ke Zou and Tian Lin and Xuedong Yuan and Haoyu Chen and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 眼科では多彩な眼疾患スクリーニングが重要であり、それぞれのパフォーマンスを補完するために様々な情報源からの情報を統合している。 しかし、既存の手法は各一様性の信頼性を評価するのに弱いため、信頼できないモダリティを直接融合させるとスクリーニングエラーが発生する可能性がある。 そこで本研究では,眼疾患スクリーニングのためのマルチモダリティ可視化パイプラインであるeyemos$t$を導入し,単モダリティに対する信頼度を測定し,マルチモダリティ情報を多分布融合視点からエレガントに統合する。 具体的には,ユニモダリティの局所的不確かさと融合モダリティのグローバルな不確実性の両方を推定し,信頼性の高い分類結果を得る。 さらに重要なのは、学生の$t$分布の混合案が適応的に異なるモダリティを統合し、モデルに重い尾を持つ特性を付与し、堅牢性と信頼性を高めることである。 パブリックデータセットと社内データセットの両方の実験結果から,我々のモデルは現在の手法よりも信頼性が高いことがわかった。 さらに、eyemos$t$は、データ品質判別器として機能する可能性があり、マルチモダリティ眼疾患スクリーニングのための信頼できる意思決定を可能にする。

Multimodality eye disease screening is crucial in ophthalmology as it integrates information from diverse sources to complement their respective performances. However, the existing methods are weak in assessing the reliability of each unimodality, and directly fusing an unreliable modality may cause screening errors. To address this issue, we introduce a novel multimodality evidential fusion pipeline for eye disease screening, EyeMoS$t$, which provides a measure of confidence for unimodality and elegantly integrates the multimodality information from a multi-distribution fusion perspective. Specifically, our model estimates both local uncertainty for unimodality and global uncertainty for the fusion modality to produce reliable classification results. More importantly, the proposed mixture of Student's $t$ distributions adaptively integrates different modalities to endow the model with heavy-tailed properties, increasing robustness and reliability. Our experimental findings on both public and in-house datasets show that our model is more reliable than current methods. Additionally, EyeMos$t$ has the potential ability to serve as a data quality discriminator, enabling reliable decision-making for multimodality eye disease screening.
翻訳日:2023-03-20 15:31:20 公開日:2023-03-17
# 都市部における交通流予測

Urban Regional Function Guided Traffic Flow Prediction ( http://arxiv.org/abs/2303.09789v1 )

ライセンス: Link先を確認
Kuo Wang, Lingbo Liu, Yang Liu, Guanbin Li, Fan Zhou, Liang Lin(参考訳) 交通流の予測は空間時間解析において困難だが重要な問題であり、近年関心が高まりつつある。 空間的時間的相関に加えて,都市部の機能も交通流予測において重要な役割を担っている。 しかし, 地域機能特性の探索は, 地域交通パターンに対する機能特性の影響を無視して, 追加のトポロジ的構造の追加に重点を置いている。 既存の研究とは違って,poi-metablockと呼ばれる新しいモジュールを提案し,各領域の機能(ポイント・オブ・関心分布によって表現される)をメタデータとして活用し,異なる機能を持つ領域におけるトラフィック特性をさらに探究する。 具体的には、提案するPOI-MetaBlockは自己注意アーキテクチャを採用し、POIと時間情報を組み込んで各領域の動的注意パラメータを生成し、各領域の異なるトラフィックパターンを異なる時間で適合させることができる。 さらに,我々の軽量POI-MetaBlockは,従来の交通流予測モデルに容易に統合できる。 大規模な実験により,我々のモジュールは交通流予測の性能を大幅に改善し,メタデータを用いた最先端の手法よりも優れていた。

The prediction of traffic flow is a challenging yet crucial problem in spatial-temporal analysis, which has recently gained increasing interest. In addition to spatial-temporal correlations, the functionality of urban areas also plays a crucial role in traffic flow prediction. However, the exploration of regional functional attributes mainly focuses on adding additional topological structures, ignoring the influence of functional attributes on regional traffic patterns. Different from the existing works, we propose a novel module named POI-MetaBlock, which utilizes the functionality of each region (represented by Point of Interest distribution) as metadata to further mine different traffic characteristics in areas with different functions. Specifically, the proposed POI-MetaBlock employs a self-attention architecture and incorporates POI and time information to generate dynamic attention parameters for each region, which enables the model to fit different traffic patterns of various areas at different times. Furthermore, our lightweight POI-MetaBlock can be easily integrated into conventional traffic flow prediction models. Extensive experiments demonstrate that our module significantly improves the performance of traffic flow prediction and outperforms state-of-the-art methods that use metadata.
翻訳日:2023-03-20 15:30:59 公開日:2023-03-17
# ハミルトン力学の高階量子変換

Higher-order quantum transformations of Hamiltonian dynamics ( http://arxiv.org/abs/2303.09788v1 )

ライセンス: Link先を確認
Tatsuki Odake, Hl\'er Kristj\'ansson, Akihito Soeda, Mio Murao(参考訳) ハミルトンシミュレーションの最先端のアルゴリズムは、幅広い量子システムをシミュレートできることを約束する。 しかし、既存の技法は望まれるハミルトンの古典的な記述に頼っており、ブラックボックスとして与えられるハミルトンの操作を妨げている。 本研究では, 量子アルゴリズムを用いて, ブラックボックスとして与えられたシード・ハミルトンの力学に対して, 有限個のクエリを入力として, ハミルトン力学の高次変換を実現する。 このアルゴリズムは、シードハミルトニアンから得られる物理的に実現可能な任意のハミルトニアンのダイナミクスを、シードハミルトニアンダイナミクスに加えて相関ランダム性を持つクリフォード演算のみを用いて、線形変換によって効率的にシミュレートする。 このアルゴリズムは関数型プログラミングの量子バージョンに対応するものの一例であり、所望の関数は高階量子変換の連結として指定される。 このアルゴリズムの例として,任意のハミルトニアンダイナミクスの負の時間発展と時間反転をシミュレートする一般関数を構築し,このアルゴリズムをハミルトニアン学習タスクに適用し,マルチパラメータハミルトニアンの一パラメータを効率的に推定する。

State-of-the-art algorithms for Hamiltonian simulation promise the ability to simulate a wide range of quantum systems. However, existing techniques rely on having a classical description of the desired Hamiltonian, preventing the manipulation of Hamiltonians given as black boxes. In this work, we present a quantum algorithm to achieve higher-order transformations of Hamiltonian dynamics, the input of which is a finite number of queries to the dynamics of a seed Hamiltonian given as a black box. The algorithm efficiently simulates the dynamics of any physically realizable Hamiltonian that can be obtained from the seed Hamiltonian by a linear transformation, using only Clifford operations with correlated randomness in addition to the seed Hamiltonian dynamics. This algorithm is an instance of what corresponds to a quantum version of functional programming, where the desired function is specified as a concatenation of higher-order quantum transformations. As examples of our algorithm, we construct general functions that can simulate the negative time-evolution and the time-reversal of any Hamiltonian dynamics, and show an application of our algorithm to a Hamiltonian learning task for efficiently estimating a single parameter of a multi-parameter Hamiltonian.
翻訳日:2023-03-20 15:30:39 公開日:2023-03-17
# ポスト選択アンサンブルにおける微小効果の増幅と推定のための最適設定

Optimal Settings For Amplification And Estimation Of Small Effects In Postselected Ensembles ( http://arxiv.org/abs/2303.09786v1 )

ライセンス: Link先を確認
Aiham M. Rostom(参考訳) 選択後の量子アンサンブルを記述するために、演算子の弱値と呼ばれる複素量を用いる。 弱値は、対応する作用素の固有値に制限されないという事実から、非常に議論を呼んでいる。 しかし、近年の量子干渉法では、異常な弱値の取得は強力な技術と見なされている。 ここでは、量子系におけるポストセレクションが測定装置における完全に隠れた干渉効果を回復することを示す。 干渉パターンの研究は、増幅とパラメータ推定の最適な設定を示す。 また、弱い値は現実の要素ではないことも証明される。 単一光子を用いて、ポスト選択された光子が非線形光学媒質中で弱相互作用する光子に$\pi$位相シフト(増幅のピーク)を与える方法を検討した。 絡み合いの程度の増加はパラメータ推定におけるポストセレクションの有効性の背後にある。 特に、純粋な絡み合った状態のポストセレクションにアレンジすることで、信号と雑音の比率を最適化し、低入力電力を用いた高感度の測定を実現することができる。

To describe the pre- and post-selected quantum ensembles, a complex quantity called the weak value of an operator is used. The weak value is highly controversial due to the fact that it is not bounded by the possible eigenvalues of the corresponding operator. Nevertheless, the obtaining of the anomalous weak value is regarded as a powerful technique in the quantum interferometry nowadays. Here it is shown that the postselection on a quantum system recovers a completely hidden interference effect in the measurement apparatus. Studying the interference pattern shows the optimal settings for the amplification and the parameter estimation. It also proves that the weak value is not an element of reality. Using single photons, it is investigated how a postselected photon can impart a $\pi$ phase shift (the peak of the amplification) to a photon interacting weakly with it in a nonlinear optical medium. The increasing of the degree of the entanglement lies behind the effectiveness of the postselection in the parameter estimation. In particular, arranging to postselect on pure entangled states can optimize the signal-to-noise ratio, allowing to achieve high-sensitive measurements using low input power.
翻訳日:2023-03-20 15:30:18 公開日:2023-03-17
# ABAW : 野生における表情認識

ABAW : Facial Expression Recognition in the wild ( http://arxiv.org/abs/2303.09785v1 )

ライセンス: Link先を確認
Darshan Gera, Badveeti Naveen Siva Kumar, Bobbili Veerendra Raj Kumar, S Balasubramanian(参考訳) 第5回acidive behavior analysis in-the-wild (abaw) コンペティションには,valence-arousal estimation challenge, expression classification challenge, action unit detection challenge, emotional reaction intensity estimation challengeなど,複数の課題がある。 本稿では,完全教師付き,半教師付き,雑音付きラベルアプローチなどの複数のアプローチを用いて,表現分類の問題に対処した。 提案手法は,ベースラインモデルより10.46%,半教師モデルの方が9.38%,完全教師モデルが9.34%,ベースラインモデルより9.34%改善している。

The fifth Affective Behavior Analysis in-the-wild (ABAW) competition has multiple challenges such as Valence-Arousal Estimation Challenge, Expression Classification Challenge, Action Unit Detection Challenge, Emotional Reaction Intensity Estimation Challenge. In this paper we have dealt only expression classification challenge using multiple approaches such as fully supervised, semi-supervised and noisy label approach. Our approach using noise aware model has performed better than baseline model by 10.46% and semi supervised model has performed better than baseline model by 9.38% and the fully supervised model has performed better than the baseline by 9.34%
翻訳日:2023-03-20 15:29:59 公開日:2023-03-17
# グラフニューラルネットワーク支援マルチモーダルデータ融合を用いた高精度かつ説明可能なマルチピル検出フレームワーク

High Accurate and Explainable Multi-Pill Detection Framework with Graph Neural Network-Assisted Multimodal Data Fusion ( http://arxiv.org/abs/2303.09782v1 )

ライセンス: Link先を確認
Anh Duy Nguyen, Huy Hieu Pham, Huynh Thanh Trung, Quoc Viet Hung Nguyen, Thao Nguyen Truong, Phi Le Nguyen(参考訳) 視覚的外観に顕著な類似性のため、ピル誤用は一般的であり、世界中で3分の1の死亡の原因となっている。 したがって、パイル識別は徹底的に調査する必要がある重要な問題である。 近年, 深層学習を利用した錠剤識別問題への取り組みが試みられている。 しかし、ほとんどの出版物は単孔識別のみを考慮し、同一の外観の硬いサンプルを識別できない。 また、既存のピル画像データセットのほとんどは、理想的な照明条件とクリーンな背景の下で、注意深く制御された環境で撮影された単一のピルイメージのみを特徴としている。 本研究は, 実環境におけるマルチピル検出問題に最初に取り組み, 利用者が服用した錠剤のローカライズと特定を目的としたものである。 さらに,制約のない条件下でのマルチピル画像データセットも導入する。 ハードサンプルを扱うために, 共起可能性, 相対サイズ, 視覚意味相関の3つの形態を含む不均一な事前グラフを構築する新しい手法を提案する。 次に,検出精度を高めるために,プリオリとピルの視覚機能を統合するためのフレームワークを提供する。 実験の結果,提案フレームワークの堅牢性,信頼性,説明可能性が確認された。 実験的に、すべての評価指標で全ての検出ベンチマークを上回っます。 具体的には,提案フレームワークにより,r-cnnよりも9.4%向上し,vanilla yolov5と比較して12.0%向上した。 我々の研究は、AIベースの錠剤識別ソリューションを用いて、患者を薬物エラーから守る新たな機会を開く。

Due to the significant resemblance in visual appearance, pill misuse is prevalent and has become a critical issue, responsible for one-third of all deaths worldwide. Pill identification, thus, is a crucial concern needed to be investigated thoroughly. Recently, several attempts have been made to exploit deep learning to tackle the pill identification problem. However, most published works consider only single-pill identification and fail to distinguish hard samples with identical appearances. Also, most existing pill image datasets only feature single pill images captured in carefully controlled environments under ideal lighting conditions and clean backgrounds. In this work, we are the first to tackle the multi-pill detection problem in real-world settings, aiming at localizing and identifying pills captured by users in a pill intake. Moreover, we also introduce a multi-pill image dataset taken in unconstrained conditions. To handle hard samples, we propose a novel method for constructing heterogeneous a priori graphs incorporating three forms of inter-pill relationships, including co-occurrence likelihood, relative size, and visual semantic correlation. We then offer a framework for integrating a priori with pills' visual features to enhance detection accuracy. Our experimental results have proved the robustness, reliability, and explainability of the proposed framework. Experimentally, it outperforms all detection benchmarks in terms of all evaluation metrics. Specifically, our proposed framework improves COCO mAP metrics by 9.4% over Faster R-CNN and 12.0% compared to vanilla YOLOv5. Our study opens up new opportunities for protecting patients from medication errors using an AI-based pill identification solution.
翻訳日:2023-03-20 15:29:45 公開日:2023-03-17
# アニメーションビデオ超解像のための学習データ駆動ベクトル量子化分解モデル

Learning Data-Driven Vector-Quantized Degradation Model for Animation Video Super-Resolution ( http://arxiv.org/abs/2303.09826v1 )

ライセンス: Link先を確認
Zixi Tuo, Huan Yang, Jianlong Fu, Yujie Dun, Xueming Qian(参考訳) 既存の仮想ビデオ超解像法(VSR)は、特定のドメイン(例えばアニメーションビデオ)に適用する際の性能を強く制限するデータ固有の特性を無視しながら、オープンドメインビデオの一般的な分解パイプラインを設計することに焦点を当てている。 本稿では,アニメーション映像の特徴を徹底的に検討し,より実用的なアニメーションvsrモデルとして,実世界のアニメーションデータのリッチプリエントを活用する。 特に,大域構造から局所的な詳細を分解し,実世界のアニメーション映像の劣化前処理を学習ベクトル量子化コードブックに転送するアニメーションビデオスーパーレゾリューション(vqd-sr)のためのマルチスケールベクトル量子化分解モデルを提案する。 先行データを抽出するためのリッチコンテンツリアルアニメーション低品質ビデオデータセットを収集する。 さらに,既存のHRビデオが顕著な圧縮アーティファクトを含むWebから収集されるという観察に基づいて,高解像度(HR)トレーニングビデオのデータ強化戦略を提案する。 提案手法は,特定のVSRモデルによらず,アニメーションVSR性能の上限を引き上げることが有効である。 実験により,最新のアニメーションビデオ超高解像度ベンチマークの定量的および定性的評価により,提案手法よりもVQD-SRの方が優れていることが示された。

Existing real-world video super-resolution (VSR) methods focus on designing a general degradation pipeline for open-domain videos while ignoring data intrinsic characteristics which strongly limit their performance when applying to some specific domains (e.g. animation videos). In this paper, we thoroughly explore the characteristics of animation videos and leverage the rich priors in real-world animation data for a more practical animation VSR model. In particular, we propose a multi-scale Vector-Quantized Degradation model for animation video Super-Resolution (VQD-SR) to decompose the local details from global structures and transfer the degradation priors in real-world animation videos to a learned vector-quantized codebook for degradation modeling. A rich-content Real Animation Low-quality (RAL) video dataset is collected for extracting the priors. We further propose a data enhancement strategy for high-resolution (HR) training videos based on our observation that existing HR videos are mostly collected from the Web which contains conspicuous compression artifacts. The proposed strategy is valid to lift the upper bound of animation VSR performance, regardless of the specific VSR model. Experimental results demonstrate the superiority of the proposed VQD-SR over state-of-the-art methods, through extensive quantitative and qualitative evaluations of the latest animation video super-resolution benchmark.
翻訳日:2023-03-20 15:23:29 公開日:2023-03-17
# LCE-Calib: グローバル最適解を用いたLiDARフレーム/イベントカメラの外部校正

LCE-Calib: Automatic LiDAR-Frame/Event Camera Extrinsic Calibration With A Globally Optimal Solution ( http://arxiv.org/abs/2303.09825v1 )

ライセンス: Link先を確認
Jianhao Jiao, Feiyi Chen, Hexiang Wei, Jin Wu, Ming Liu(参考訳) LiDARとカメラの組み合わせにより、移動ロボットはマルチモーダルデータで環境を知覚し、堅牢な知覚を達成する上で重要な要素となる。 従来のフレームカメラは照明条件の変更に敏感で、LiDARカメラの融合をより完全かつ堅牢にするための新しいイベントカメラの導入を動機付けています。 しかし,これらのセンサを共同利用するには,外因性キャリブレーションの問題に対処する必要がある。 本稿では,LiDARとフレーム/イベントカメラの外部特性をキャリブレーションするためのチェッカーボードによる自動手法を提案する。 まず,LiDARの点群から特徴抽出とチェッカーボードの自動追跡手法を提案する。 第2に,イベントストリームから現実的なフレームイメージを再構成し,従来のコーナー検出器をイベントカメラに適用する。 第3に, 平面間および直線間制約を粗い方法で推定するための初期化補正手法を提案する。 第4に,キャリブレーションにおける2つの最適化問題に対処するために,統一的かつグローバルに最適解を提案する。 このアプローチは、19のシミュレーションおよび実世界のデータセットに関する広範囲な実験によって検証され、最先端よりも優れています。

The combination of LiDARs and cameras enables a mobile robot to perceive environments with multi-modal data, becoming a key factor in achieving robust perception. Traditional frame cameras are sensitive to changing illumination conditions, motivating us to introduce novel event cameras to make LiDAR-camera fusion more complete and robust. However, to jointly exploit these sensors, the challenging extrinsic calibration problem should be addressed. This paper proposes an automatic checkerboard-based approach to calibrate extrinsics between a LiDAR and a frame/event camera, where four contributions are presented. Firstly, we present an automatic feature extraction and checkerboard tracking method from LiDAR's point clouds. Secondly, we reconstruct realistic frame images from event streams, applying traditional corner detectors to event cameras. Thirdly, we propose an initialization-refinement procedure to estimate extrinsics using point-to-plane and point-to-line constraints in a coarse-to-fine manner. Fourthly, we introduce a unified and globally optimal solution to address two optimization problems in calibration. Our approach has been validated with extensive experiments on 19 simulated and real-world datasets and outperforms the state-of-the-art.
翻訳日:2023-03-20 15:23:04 公開日:2023-03-17
# 自動運転のためのパスプランニング:技術の現状と展望

Path Planning for Autonomous Driving: The State of the Art and Perspectives ( http://arxiv.org/abs/2303.09824v1 )

ライセンス: Link先を確認
Siyu Teng, Peng Deng, Yuchen Li, Bai Li, Xuemin Hu, Zhe Xuanyuan, Long Chen, Yunfeng Ai, Lingxi Li, Fei-Yue Wang(参考訳) 知能車(IV)は、利便性、安全性、潜在的な商業価値により、広く注目を集めている。 自動運転ユニコーンのいくつかは、IVは2025年までに商業展開可能であると主張しているが、その展開は、安全性、信頼性、計画手法の一般化といった様々な問題により、小規模な検証に限定されている。 複雑な環境下での知覚的不完全さがivsの商業化の成功の障害となるため、計画手法による制御コマンドや軌道の正確な計算は、ivsにとって必須条件である。 本稿では,パイプライン計画やエンドツーエンド計画など,最先端の計画手法の見直しを目的とする。 パイプライン手法では,拡張と最適化のメカニズムに関する議論とともに,アルゴリズムの選択に関する調査が提供される。一方,エンドツーエンド手法では,タスクのトレーニングアプローチと検証シナリオが懸念点となっている。 実験プラットフォームをレビューし、読者が適切なトレーニングと検証方法を選択できるようにする。 最後に,現在の課題と今後の方向性について述べる。 この調査で示されたサイドバイサイド比較は、レビューされた手法の長所と短所に関する洞察を得るのに役立ち、システムレベルの設計選択にも役立ちます。

Intelligent vehicles (IVs) have attracted wide attention thanks to the augmented convenience, safety advantages, and potential commercial value. Although a few of autonomous driving unicorns assert that IVs will be commercially deployable by 2025, their deployment is still restricted to small-scale validation due to various issues, among which safety, reliability, and generalization of planning methods are prominent concerns. Precise computation of control commands or trajectories by planning methods remains a prerequisite for IVs, owing to perceptual imperfections under complex environments, which pose an obstacle to the successful commercialization of IVs. This paper aims to review state-of-the-art planning methods, including pipeline planning and end-to-end planning methods. In terms of pipeline methods, a survey of selecting algorithms is provided along with a discussion of the expansion and optimization mechanisms, whereas in end-to-end methods, the training approaches and verification scenarios of driving tasks are points of concern. Experimental platforms are reviewed to facilitate readers in selecting suitable training and validation methods. Finally, the current challenges and future directions are discussed. The side-by-side comparison presented in this survey helps to gain insights into the strengths and limitations of the reviewed methods, which also assists with system-level design choices.
翻訳日:2023-03-20 15:22:45 公開日:2023-03-17
# トランスフォーマーとアンサンブル法:アラビア語におけるヘイトスピーチ検出のための解法

Transformers and Ensemble methods: A solution for Hate Speech Detection in Arabic languages ( http://arxiv.org/abs/2303.09823v1 )

ライセンス: Link先を確認
Angel Felipe Magnoss\~ao de Paula, Imene Bensalem, Paolo Rosso, Wajdi Zaghouani(参考訳) 本稿では,CERIST NLP Challenge 2022のサブタスクであるヘイトスピーチ検出の共有タスクへの参加について述べる。 実験では、6つの変圧器モデルとその組み合わせの性能を2つのアンサンブル手法を用いて評価した。 5倍のクロスバリデーションシナリオにおけるトレーニングセットの最良の結果は,過半数投票に基づくアンサンブルアプローチを用いて得られた。 テストセットでのこのアプローチの評価の結果、F1スコアは0.60、精度は0.86となった。

This paper describes our participation in the shared task of hate speech detection, which is one of the subtasks of the CERIST NLP Challenge 2022. Our experiments evaluate the performance of six transformer models and their combination using 2 ensemble approaches. The best results on the training set, in a five-fold cross validation scenario, were obtained by using the ensemble approach based on the majority vote. The evaluation of this approach on the test set resulted in an F1-score of 0.60 and an Accuracy of 0.86.
翻訳日:2023-03-20 15:22:23 公開日:2023-03-17
# 量子コンピュータ上の分子のロ振動エネルギー準位の変動計算のためのコンパクト量子回路

Compact quantum circuits for variational calculations of ro-vibrational energy levels of molecules on a quantum computer ( http://arxiv.org/abs/2303.09822v1 )

ライセンス: Link先を確認
K. Asnaashari, R. V. Krems(参考訳) 量子コンピューティングアルゴリズムは分子の電子構造にうまく応用されているが、量子コンピューティングの分子動力学への応用はまだ少ない。 分子内相互作用ポテンシャルの変動性は、幅広い特性を持つ振動状態を引き起こす。 したがって、限られた数の量子ビットと量子ゲートを持つ量子コンピュータの状態による分子ロ振動状態の一般的な表現を得ることは困難である。 分子ハミルトニアンの離散変数表現と変分量子固有解法とゲート置換の欲張りな探索を組み合わせることで、分子のロ振動エネルギー準位を計算する一般的なアプローチを示し、数個のゲートを持つコンパクト量子回路により、基底状態と励起振動状態の正確な表現をもたらす。 このアプローチの一般性と適応性を説明するため, ファンデルワールス錯体Ar-HClとMg-NHの振動エネルギーレベルと, 7電子状態におけるCr$_2$の振動エネルギーレベルを計算し, 1 cm$^{-1}$の精度を2から9個のエンタングゲートで達成できることを示した。

While quantum computing algorithms have been successfully applied to electronic structure of molecules, applications of quantum computing to molecular dynamics remain scarce. The variability of intra-molecular interaction potentials gives rise to vibrational states with a wide range of properties. It is therefore challenging to obtain a general representation of molecular ro-vibrational states by states of a quantum computer with a limited number of qubits and quantum gates. We demonstrate a general approach to computing the ro-vibrational energy levels of molecules by combining the discrete variable representation of molecular Hamiltonians with variational quantum eigensolvers and a greedy search of gate permutations, yielding accurate representations of both ground and excited vibrational states by compact quantum circuits with a small number of gates. To illustrate the generality and adaptability of this approach, we compute the vibrational energy levels of Cr$_2$ in seven electronic states as well as the vibrational energy levels of van der Waals complexes Ar-HCl and Mg-NH, illustrating that accuracy of 1 cm$^{-1}$ can be achieved with between 2 and 9 entangling gates.
翻訳日:2023-03-20 15:22:13 公開日:2023-03-17
# 放射線学における信頼できる人間-AI連携に向けたマルチモーダルデータに基づく静止予測の病院長

Hospital Length of Stay Prediction Based on Multi-modal Data towards Trustworthy Human-AI Collaboration in Radiomics ( http://arxiv.org/abs/2303.09817v1 )

ライセンス: Link先を確認
Hubert Baniecki, Bartlomiej Sobieski, Przemys{\l}aw Bombi\'nski, Patryk Szatkowski, Przemys{\l}aw Biecek(参考訳) X線画像のみを用いて,患者の入院期間をどの程度予測できるのか? 本稿では,1235の画像から作成した新しいマルチモーダルデータセットと,人間による注釈付きテキストラジオグラフィーレポートを比較し,機械学習サバイバルモデルの性能を比較した。 ブラックボックスモデルは、cox比例ハザードのような解釈可能なモデルよりも平均でより良い予測をするが、本質的には理解できない。 この信頼問題を克服するために、人間-AI意思決定プロセスに時間依存モデル説明を導入する。 human-annoted と algorithm-extracted radiomics featureは、病院で働く医師にとって貴重な洞察を提供する。 提案手法は一般的なものであり、他の時間から時間への医療用途にも広く適用できると考えられる。 再現性のために、私たちはhttps://github.com/mi2datalab/xlungs-trustworthy-los-predictionでコードとTLOSデータセットをオープンソース化しました。

To what extent can the patient's length of stay in a hospital be predicted using only an X-ray image? We answer this question by comparing the performance of machine learning survival models on a novel multi-modal dataset created from 1235 images with textual radiology reports annotated by humans. Although black-box models predict better on average than interpretable ones, like Cox proportional hazards, they are not inherently understandable. To overcome this trust issue, we introduce time-dependent model explanations into the human-AI decision making process. Explaining models built on both: human-annotated and algorithm-extracted radiomics features provides valuable insights for physicians working in a hospital. We believe the presented approach to be general and widely applicable to other time-to-event medical use cases. For reproducibility, we open-source code and the TLOS dataset at https://github.com/mi2datalab/xlungs-trustworthy-los-prediction.
翻訳日:2023-03-20 15:21:51 公開日:2023-03-17
# diffusionseg: 教師なしオブジェクト発見への拡散適応

DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery ( http://arxiv.org/abs/2303.09813v1 )

ライセンス: Link先を確認
Chaofan Ma, Yuhuan Yang, Chen Ju, Fei Zhang, Jinxiang Liu, Yu Wang, Ya Zhang, Yanfeng Wang(参考訳) 大量のデータから学び、事前学習されたモデルは、今日、驚くべき進歩を遂げている。 一般的な生成前学習として、拡散モデルは低レベルの視覚知識と高レベルの意味関係の両方を捉える。 本稿では,非教師付き物体発見(saliency segmentation)とオブジェクトローカライゼーション(object localization)という主観的判別タスクに対して,そのような知識に富む拡散モデルを適用することを提案する。 しかし、生成的モデルと識別的モデルの間には1つの構造的な違いがあり、直接の使用が制限される。 さらに、明示的なラベル付きデータの欠如は、教師なし設定のパフォーマンスを著しく制限している。 これらの課題に対処するために,2段階戦略を含む新しい合成探索フレームワークであるDiffusionSegを紹介する。 データ不足を軽減するため、豊富な画像を合成し、第1合成段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。 第2のエクスプロイト段階では、構造ギャップを橋渡しするために、与えられた画像を拡散特徴にマップするインバージョン技術を使用します。 これらの機能は、下流アーキテクチャで直接使用できる。 広範囲にわたる実験とアブレーション研究は、教師なし物体発見に対する適応拡散の優位性を示している。

Learning from a large corpus of data, pre-trained models have achieved impressive progress nowadays. As popular generative pre-training, diffusion models capture both low-level visual knowledge and high-level semantic relations. In this paper, we propose to exploit such knowledgeable diffusion models for mainstream discriminative tasks, i.e., unsupervised object discovery: saliency segmentation and object localization. However, the challenges exist as there is one structural difference between generative and discriminative models, which limits the direct use. Besides, the lack of explicitly labeled data significantly limits performance in unsupervised settings. To tackle these issues, we introduce DiffusionSeg, one novel synthesis-exploitation framework containing two-stage strategies. To alleviate data insufficiency, we synthesize abundant images, and propose a novel training-free AttentionCut to obtain masks in the first synthesis stage. In the second exploitation stage, to bridge the structural gap, we use the inversion technique, to map the given image back to diffusion features. These features can be directly used by downstream architectures. Extensive experiments and ablation studies demonstrate the superiority of adapting diffusion for unsupervised object discovery.
翻訳日:2023-03-20 15:21:36 公開日:2023-03-17
# TKN:リアルタイムビデオ予測のためのトランスフォーマーベースのキーポイント予測ネットワーク

TKN: Transformer-based Keypoint Prediction Network For Real-time Video Prediction ( http://arxiv.org/abs/2303.09807v1 )

ライセンス: Link先を確認
Haoran Li, Pengyuan Zhou, Yihang Lin, Yanbin Hao, Haiyong Xie, Yong Liao(参考訳) ビデオ予測は、多くのユースケースにおいて大きなポテンシャルを持つ複雑な時系列予測タスクである。 しかし、従来の手法では、過剰なGPUメモリ消費で過度に冗長な情報を学習する複雑なモデル構造による遅延予測速度を無視しながら、精度を過度に強調する。 さらに,従来の手法ではフレームを逐次(フレーム単位で)予測することが多いため,高速化は困難である。 したがって、リアルタイムの危険予知や警告のような貴重なユースケースは、現実に適用できる十分な推論速度を達成できない。 そこで本研究では,制約付き情報抽出と並列予測による予測プロセスを促進する教師なし学習手法であるtransformer-based keypoint prediction neural network (tkn)を提案する。 TKNは私たちの知る限りでは初めてのリアルタイムビデオ予測ソリューションであり、計算コストを大幅に削減し、他の性能を維持する。 KTHとHuman3.6データセットの大規模な実験により、TKNは既存の手法よりも11倍高速で、メモリ消費を17.4%削減し、最先端の予測性能を平均で達成している。

Video prediction is a complex time-series forecasting task with great potential in many use cases. However, conventional methods overemphasize accuracy while ignoring the slow prediction speed caused by complicated model structures that learn too much redundant information with excessive GPU memory consumption. Furthermore, conventional methods mostly predict frames sequentially (frame-by-frame) and thus are hard to accelerate. Consequently, valuable use cases such as real-time danger prediction and warning cannot achieve fast enough inference speed to be applicable in reality. Therefore, we propose a transformer-based keypoint prediction neural network (TKN), an unsupervised learning method that boost the prediction process via constrained information extraction and parallel prediction scheme. TKN is the first real-time video prediction solution to our best knowledge, while significantly reducing computation costs and maintaining other performance. Extensive experiments on KTH and Human3.6 datasets demonstrate that TKN predicts 11 times faster than existing methods while reducing memory consumption by 17.4% and achieving state-of-the-art prediction performance on average.
翻訳日:2023-03-20 15:21:17 公開日:2023-03-17
# 高度物体検出のための適応グラフ畳み込みモジュール

Adaptive Graph Convolution Module for Salient Object Detection ( http://arxiv.org/abs/2303.09801v1 )

ライセンス: Link先を確認
Yongwoo Lee, Minhyeok Lee, Suhwan Cho, Sangyoun Lee(参考訳) サリアントオブジェクト検出(Salient Object Detection、SOD)は、画像中の最も目立った物体を識別し、セグメント化するタスクである。 既存のソリューションでは、イメージのグローバルコンテキストを検出するために、マルチスケールの機能融合メカニズムを使用することができる。 しかし、画像の構造や遠方の画素間の関係は考慮されていないため、従来の方法では複雑なシーンを効果的に扱うことはできない。 本稿では,これらの制約を克服するための適応グラフ畳み込みモジュール(AGCM)を提案する。 まず、画像中の特徴を空間的にグループ化する学習可能な領域生成層を用いて、入力画像からプロトタイプ特徴を抽出する。 プロトタイプ機能は、各機能をノードと見なすグラフアーキテクチャに基づいて、それら間で情報を伝達することによって洗練される。 実験の結果,AGCMはSODの性能を定量的かつ定量的に劇的に改善することがわかった。

Salient object detection (SOD) is a task that involves identifying and segmenting the most visually prominent object in an image. Existing solutions can accomplish this use a multi-scale feature fusion mechanism to detect the global context of an image. However, as there is no consideration of the structures in the image nor the relations between distant pixels, conventional methods cannot deal with complex scenes effectively. In this paper, we propose an adaptive graph convolution module (AGCM) to overcome these limitations. Prototype features are initially extracted from the input image using a learnable region generation layer that spatially groups features in the image. The prototype features are then refined by propagating information between them based on a graph architecture, where each feature is regarded as a node. Experimental results show that the proposed AGCM dramatically improves the SOD performance both quantitatively and quantitatively.
翻訳日:2023-03-20 15:20:57 公開日:2023-03-17
# GOOD:LiDAR-Camera Object Candidatesによる3Dオブジェクト検出のための汎用最適化ベースフュージョン

GOOD: General Optimization-based Fusion for 3D Object Detection via LiDAR-Camera Object Candidates ( http://arxiv.org/abs/2303.09800v1 )

ライセンス: Link先を確認
Bingqi Shen, Shuwei Dai, Yuyin Chen, Rong Xiong, Yue Wang, and Yanmei Jiao(参考訳) 3dオブジェクト検出は、自動運転における知覚タスクの中核となる。 近年、より堅牢で正確な3次元物体検出のためのマルチモーダル融合戦略が急速に進展している。 しかしながら、ロバスト融合に関する現在の研究は、すべて学習ベースのフレームワークであり、大量のトレーニングデータを必要とし、新しい場面で実装するのは不便である。 本稿では,3次元検出の精度とロバスト性を向上させるため,3次元検出器と2次元検出器の組み合わせのいずれにも適用可能な,汎用的な最適化ベース融合フレームワークGOODを提案する。 まず、3D-2Dデータアソシエーションを実現するために、相互側近近傍確率モデルを適用する。 そして、マッチング結果に基づいて異なる種類のインスタンスを個別に最適化できる最適化パイプラインを設計する。 これとは別に、3D MOT法も導入され、以前のフレームによる性能向上が図られている。 我々の知る限り、これはマルチモーダル3Dオブジェクト検出のための最初の最適化ベースのレイトフュージョンフレームワークであり、その後の研究のベースラインとして機能する。 nuScenesとKITTIデータセットの両方の実験を行い、その結果、GOODはPointPillarsと比較してmAPスコアで9.1\%向上し、学習ベースの後期融合CLOCと競合する結果が得られた。

3D object detection serves as the core basis of the perception tasks in autonomous driving. Recent years have seen the rapid progress of multi-modal fusion strategies for more robust and accurate 3D object detection. However, current researches for robust fusion are all learning-based frameworks, which demand a large amount of training data and are inconvenient to implement in new scenes. In this paper, we propose GOOD, a general optimization-based fusion framework that can achieve satisfying detection without training additional models and is available for any combinations of 2D and 3D detectors to improve the accuracy and robustness of 3D detection. First we apply the mutual-sided nearest-neighbor probability model to achieve the 3D-2D data association. Then we design an optimization pipeline that can optimize different kinds of instances separately based on the matching result. Apart from this, the 3D MOT method is also introduced to enhance the performance aided by previous frames. To the best of our knowledge, this is the first optimization-based late fusion framework for multi-modal 3D object detection which can be served as a baseline for subsequent research. Experiments on both nuScenes and KITTI datasets are carried out and the results show that GOOD outperforms by 9.1\% on mAP score compared with PointPillars and achieves competitive results with the learning-based late fusion CLOCs.
翻訳日:2023-03-20 15:20:43 公開日:2023-03-17
# 導波路量子電磁力学における遠方光子のバウンド状態

Bound state of distant photons in waveguide quantum electrodynamics ( http://arxiv.org/abs/2303.09854v1 )

ライセンス: Link先を確認
Alexander V. Poshakinskiy, Alexander N. Poddubny(参考訳) 遠い粒子間の量子相関は、量子力学の誕生以来謎のままである。 ここでは、箱の中の2つの相互作用粒子の最も単純な1次元配置において、新しい種類の結合量子状態を予測する。 逆に、2つの絡み合った粒子が箱の反対側の端で局在するが、遠くでの相互作用は役に立たないように見える。 このような状態は、超伝導量子ビットや冷たい原子の配列が導波路に結合される導波路量子電磁力学プラットフォームで実現できる。 長距離導波路を媒介とするカップリングにより、大きな距離で分離された相互作用誘起量子状態を実現する方法を示す。 キタエフ模型のマヨラナフェルミオンと同様に、このような遠方の光子の束縛状態は短距離相互作用に影響を受けず、堅牢な量子情報処理に応用できる。

Quantum correlations between distant particles remain enigmatic since the birth of quantum mechanics. Here we predict a novel kind of bound quantum state in the simplest one-dimensional setup of two interacting particles in a box. Paradoxically, two entangled particles become localized at the opposite edges of the box even though their interactions at large distance should seemingly play no role. Such states could be realized in the waveguide quantum electrodynamics platform, where an array of superconducting qubits or cold atoms is coupled to a waveguide. We demonstrate how long-range waveguide-mediated couplings enable interaction-induced quantum states separated by large distances. Similarly to Majorana fermions in the Kitaev model, such bound state of distant photons is immune to short-range interactions and could find applications in robust quantum information processing.
翻訳日:2023-03-20 15:14:15 公開日:2023-03-17
# トランスダクティブゼロショット学習における意味属性の活用

Exploiting Semantic Attributes for Transductive Zero-Shot Learning ( http://arxiv.org/abs/2303.09849v1 )

ライセンス: Link先を確認
Zhengbo Wang, Jian Liang, Zilei Wang, Tieniu Tan(参考訳) ゼロショット学習(ZSL)は、視覚的特徴と視覚的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。 トランスダクティブゼロショット学習(Transductive zero-shot learning)と呼ばれる最近のパラダイムは、トレーニング中にラベルのない未確認データをさらに活用し、印象的な結果を得た。 これらの手法は常に属性から生成的対向ネットワークを通じて見えない特徴を合成し、見やすいクラスへのバイアスを軽減する。 しかし、ラベルなしの未確認データのセマンティック情報は無視され、したがって高忠実な属性一貫性の未確認特徴を生成できない。 そこで本研究では,未取得データの意味的属性を生成し,生成プロセスに強制する新しいトランスダクティブzsl法を提案する。 特に,視覚的特徴から意味的属性へのマッピングを学習する属性デコーダを訓練する。 そして,属性デコーダからラベルのないデータの擬似属性を取得し,それらを生成モデルに統合することにより,未確認クラスの詳細な相違を捉え,より識別的な特徴を合成する。 5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。

Zero-shot learning (ZSL) aims to recognize unseen classes by generalizing the relation between visual features and semantic attributes learned from the seen classes. A recent paradigm called transductive zero-shot learning further leverages unlabeled unseen data during training and has obtained impressive results. These methods always synthesize unseen features from attributes through a generative adversarial network to mitigate the bias towards seen classes. However, they neglect the semantic information in the unlabeled unseen data and thus fail to generate high-fidelity attribute-consistent unseen features. To address this issue, we present a novel transductive ZSL method that produces semantic attributes of the unseen data and imposes them on the generative process. In particular, we first train an attribute decoder that learns the mapping from visual features to semantic attributes. Then, from the attribute decoder, we obtain pseudo-attributes of unlabeled data and integrate them into the generative model, which helps capture the detailed differences within unseen classes so as to synthesize more discriminative features. Experiments on five standard benchmarks show that our method yields state-of-the-art results for zero-shot learning.
翻訳日:2023-03-20 15:14:02 公開日:2023-03-17
# DUDES: セマンティックセグメンテーションのためのアンサンブルを用いた深部不確かさ蒸留

DUDES: Deep Uncertainty Distillation using Ensembles for Semantic Segmentation ( http://arxiv.org/abs/2303.09843v1 )

ライセンス: Link先を確認
Steven Landgraf, Kira Wursthorn, Markus Hillemann, Markus Ulrich(参考訳) ディープニューラルネットワークは解釈可能性に欠け、過信される傾向があるため、自律運転、医療画像撮影、マシンビジョンタスクといった安全クリティカルなアプリケーションにおいて、信頼性の要求の高い深刻な問題を引き起こす。 予測の不確実性の定量化は、そのようなアプリケーションにディープニューラルネットワークを使用するための、有望な取り組みである。 残念ながら、現在の利用可能なメソッドは計算コストが高い。 本研究では, 分節化(dudes)のためのアンサンブルを用いた深部不確実性蒸留と呼ぶ, 効率的で信頼性の高い不確実性推定手法を提案する。 DUDESは、学生と教師の蒸留をディープ・アンサンブルで適用し、単純さと適応性を維持しながら、単一の前方通過で予測の不確実性を正確に推定する。 実験的に、DUDESはセグメンテーションタスクのパフォーマンスを犠牲にすることなく予測の不確かさを正確に把握し、Cityscapesデータセット上の間違った分類されたピクセルと外部サンプルを識別する印象的な能力を示す。 DUDESでは、Deep Ensembleベースの不確かさ蒸留に関する以前の作業の簡素化と性能の向上を実現しています。

Deep neural networks lack interpretability and tend to be overconfident, which poses a serious problem in safety-critical applications like autonomous driving, medical imaging, or machine vision tasks with high demands on reliability. Quantifying the predictive uncertainty is a promising endeavour to open up the use of deep neural networks for such applications. Unfortunately, current available methods are computationally expensive. In this work, we present a novel approach for efficient and reliable uncertainty estimation which we call Deep Uncertainty Distillation using Ensembles for Segmentation (DUDES). DUDES applies student-teacher distillation with a Deep Ensemble to accurately approximate predictive uncertainties with a single forward pass while maintaining simplicity and adaptability. Experimentally, DUDES accurately captures predictive uncertainties without sacrificing performance on the segmentation task and indicates impressive capabilities of identifying wrongly classified pixels and out-of-domain samples on the Cityscapes dataset. With DUDES, we manage to simultaneously simplify and outperform previous work on Deep Ensemble-based Uncertainty Distillation.
翻訳日:2023-03-20 15:13:39 公開日:2023-03-17
# 未知ハイパーパラメータを持つカーネルに基づく線形システム同定のための誤差境界

Error Bounds for Kernel-Based Linear System Identification with Unknown Hyperparameters ( http://arxiv.org/abs/2303.09842v1 )

ライセンス: Link先を確認
Mingzhou Yin, Roy S. Smith(参考訳) カーネルベースの手法は、安定なカーネル設計を用いた線形システム同定に成功している。 ガウス過程の観点からは、後方共分散から同定されたモデルの確率的誤差境界を自動的に提供し、ロバストかつ確率的制御に有用である。 しかし、誤差境界はカーネル設計における真のハイパーパラメータの知識を必要とし、軽い減衰系や高ノイズの存在下で推定されたハイパーパラメータと不正確であることが示されている。 本研究では,ハイパーパラメータが未知の場合に推定誤差の信頼性の高い定量化を行う。 境界は、まず、限界確率関数から真のハイパーパラメーターの高確率集合を構築し、その集合の中で最悪のケース後部共分散を求めることによって得られる。 提案した境界は,確率の高い真のモデルを含むことを証明し,その妥当性を数値シミュレーションで検証する。

The kernel-based method has been successfully applied in linear system identification using stable kernel designs. From a Gaussian process perspective, it automatically provides probabilistic error bounds for the identified models from the posterior covariance, which are useful in robust and stochastic control. However, the error bounds require knowledge of the true hyperparameters in the kernel design and are demonstrated to be inaccurate with estimated hyperparameters for lightly damped systems or in the presence of high noise. In this work, we provide reliable quantification of the estimation error when the hyperparameters are unknown. The bounds are obtained by first constructing a high-probability set for the true hyperparameters from the marginal likelihood function and then finding the worst-case posterior covariance within the set. The proposed bound is proven to contain the true model with a high probability and its validity is verified in numerical simulation.
翻訳日:2023-03-20 15:13:16 公開日:2023-03-17
# GADFormer: 軌道上のグループ異常検出のための注意に基づくモデル

GADFormer: An Attention-based Model for Group Anomaly Detection on Trajectories ( http://arxiv.org/abs/2303.09841v1 )

ライセンス: Link先を確認
Andreas Lohrer, Darpan Malik and Peer Kr\"oger(参考訳) グループ異常検出(GAD)は、複数のメンバーインスタンスから構成されるグループ間の異常な振る舞いを明らかにする。 このタスクは複数の分野にまたがって重要であり、トラジェクタのようなシーケンスもグループと見なすことができる。 しかし、グループメンバーの量や異質性の増加に伴い、特に教師なしまたは半教師なしの環境では、実際の異常集団の検出が困難になる。 リカレントニューラルネットワークは、よく確立されたディープシーケンスモデルであるが、近年の研究により、シーケンス長の増加に伴い、その性能が低下することが示された。 そこで本稿では,GAD固有のBERTアーキテクチャであるGADFormerについて紹介する。 注意に基づくグループ異常検出問題として, 軌道外乱検出をいかに実現できるかを, 公式かつ実験的に示す。 さらに,GAD用トランスフォーマーエンコーダブロックの解釈性を向上させるため,BAS(Block Attention-anomaly Score)を導入する。 それに加えて、合成軌道生成により、ドメイン固有のGADのトレーニングを最適化できる。 広範に実験を行った結果, 合成および実世界のデータセットにおけるトラジェクティブノイズと新規性に対するGRUに対する我々のアプローチを検討した。

Group Anomaly Detection (GAD) reveals anomalous behavior among groups consisting of multiple member instances, which are, individually considered, not necessarily anomalous. This task is of major importance across multiple disciplines, in which also sequences like trajectories can be considered as a group. However, with increasing amount and heterogenity of group members, actual abnormal groups get harder to detect, especially in an unsupervised or semi-supervised setting. Recurrent Neural Networks are well established deep sequence models, but recent works have shown that their performance can decrease with increasing sequence lengths. Hence, we introduce with this paper GADFormer, a GAD specific BERT architecture, capable to perform attention-based Group Anomaly Detection on trajectories in an unsupervised and semi-supervised setting. We show formally and experimentally how trajectory outlier detection can be realized as an attention-based Group Anomaly Detection problem. Furthermore, we introduce a Block Attention-anomaly Score (BAS) to improve the interpretability of transformer encoder blocks for GAD. In addition to that, synthetic trajectory generation allows us to optimize the training for domain-specific GAD. In extensive experiments we investigate our approach versus GRU in their robustness for trajectory noise and novelties on synthetic and real world datasets.
翻訳日:2023-03-20 15:13:00 公開日:2023-03-17
# 線形パラメータスイープを用いた量子オシレータ系の制御

Controlling qubit-oscillator systems using linear parameter sweeps ( http://arxiv.org/abs/2303.09834v1 )

ライセンス: Link先を確認
Sahel Ashhab, Tomoko Fuse, Fumiki Yoshihara, Sunmi Kim, Kouichi Semba(参考訳) システムパラメータの線形スイープの影響下での量子オシレータ系のダイナミクスについて検討する。 主な事例は2つある。 第一に, 弱相関基底状態と強相関基底状態の関係, 常相と超ラジカル相の2つの相の有限次クエンチとみなすことができる状況, のパラメータを整理することを検討する。 このクエンチの結果、励起が生成される。 励起確率の各種パラメータ依存性について検討した。 超ラジアントと超ラジアントのクエンチの間の力学における定性的非対称性を見いだす。 パラメータスイープの2つ目の例は、高調波発振器に結合した量子ビットの偏差項におけるランダウ・ツェナースイープの問題である。 我々は、力学を独立したランダウ・ツェナー遷移の列に分解できるという仮定に基づいて理論式を解析する。 本システムでは, 理論式の有効性の確立に加えて, 適切な条件下では, 決定論的かつ堅牢な多光子状態の調製が可能となる。

We investigate the dynamics of a qubit-oscillator system under the influence of a linear sweep of system parameters. We consider two main cases. In the first case, we consider sweeping the parameters between the regime of a weakly correlated ground state and the regime of a strongly correlated ground state, a situation that can be viewed as a finite-duration quench between two phases of matter: the normal phase and the superradiant phase. Excitations are created as a result of this quench. We investigate the dependence of the excitation probabilities on the various parameters. We find a qualitative asymmetry in the dynamics between the cases of a normal-to-superradiant and superradiant-to-normal quench. The second case of parameter sweeps that we investigate is the problem of a Landau-Zener sweep in the qubit bias term for a qubit coupled to a harmonic oscillator. We analyze a theoretical formula based on the assumption that the dynamics can be decomposed into a sequence of independent Landau-Zener transitions. In addition to establishing the conditions of validity for the theoretical formula, we find that under suitable conditions, deterministic and robust multi-photon state preparation is possible in this system.
翻訳日:2023-03-20 15:12:20 公開日:2023-03-17
# FreeDoM:自由エネルギー誘導条件拡散モデル

FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model ( http://arxiv.org/abs/2303.09833v1 )

ライセンス: Link先を確認
Jiwen Yu, Yinhuai Wang, Chen Zhao, Bernard Ghanem, Jian Zhang(参考訳) 近年、条件付き拡散モデルはその例外的な生成能力のために多くの応用で人気を集めている。 しかし、既存の多くの手法は訓練が要求される。 時間依存型分類器や条件依存型スコア推定器を訓練する必要があるため、条件付き拡散モデルの構築コストが増大し、異なる条件間での移動が不便である。 現在の研究では、トレーニングフリーなソリューションを提案することで、この制限を克服することを目的としているが、ほとんどは、より一般的な条件ではなく、特定のタスクのカテゴリにしか適用できない。 本研究では,様々な条件下でのトレーニングフリー条件拡散モデル(freedom)を提案する。 具体的には,既成の事前学習ネットワークである顔検出モデルを用いて,学習を必要とせず生成過程を導く時間に依存しないエネルギー関数を構築する。 さらに,エネルギー関数の構成は様々な条件に非常に柔軟で適応できるため,提案したFreeDoMは既存のトレーニング不要手法よりも幅広い適用範囲を有する。 FreeDoMはその単純さ、有効性、低コストで有利です。 実験により、FreeDoMは様々な条件で有効であり、画像や潜時コードドメインを含む多様なデータドメインの拡散モデルに適していることが示された。

Recently, conditional diffusion models have gained popularity in numerous applications due to their exceptional generation ability. However, many existing methods are training-required. They need to train a time-dependent classifier or a condition-dependent score estimator, which increases the cost of constructing conditional diffusion models and is inconvenient to transfer across different conditions. Some current works aim to overcome this limitation by proposing training-free solutions, but most can only be applied to a specific category of tasks and not to more general conditions. In this work, we propose a training-Free conditional Diffusion Model (FreeDoM) used for various conditions. Specifically, we leverage off-the-shelf pre-trained networks, such as a face detection model, to construct time-independent energy functions, which guide the generation process without requiring training. Furthermore, because the construction of the energy function is very flexible and adaptable to various conditions, our proposed FreeDoM has a broader range of applications than existing training-free methods. FreeDoM is advantageous in its simplicity, effectiveness, and low cost. Experiments demonstrate that FreeDoM is effective for various conditions and suitable for diffusion models of diverse data domains, including image and latent code domains.
翻訳日:2023-03-20 15:11:46 公開日:2023-03-17
# 修正:スタイルイメージのないモデル駆動のフェイススタイライゼーション

MODIFY: Model-driven Face Stylization without Style Images ( http://arxiv.org/abs/2303.09831v1 )

ライセンス: Link先を確認
Yuhe Ding, Jian Liang, Jie Cao, Aihua Zheng, Ran He(参考訳) 既存のフェイススタイライゼーション手法は、翻訳プロセス中に常にターゲット(スタイル)ドメインの存在を獲得し、これはプライバシー規則に違反し、現実世界のシステムでの適用性を制限する。 そこで本稿では,対象画像の依存性を回避するために生成モデルに依存するモデル駆動型顔スタイライゼーション(modify)を提案する。 簡単に言えば、MODIFYはまずターゲットドメインで生成モデルを訓練した後、提供されたスタイルモデルを介してソース入力をターゲットドメインに変換する。 マルチモーダルスタイル情報を保存するために、MODIFYはさらに追加のリマッピングネットワークを導入し、既知の連続分布をエンコーダの埋め込み空間にマッピングする。 ソースドメインの翻訳中、MODIFYはターゲットスタイルパーバーモデル内のエンコーダモジュールを微調整して、ソース入力の内容を可能な限り正確にキャプチャする。 本手法は非常に単純で,顔スタイライゼーションのための多彩なトレーニングモードを満足できる。 複数の異なるデータセットに対する実験結果は、教師なし顔のスタイリングにおけるMODIFYの有効性を検証する。

Existing face stylization methods always acquire the presence of the target (style) domain during the translation process, which violates privacy regulations and limits their applicability in real-world systems. To address this issue, we propose a new method called MODel-drIven Face stYlization (MODIFY), which relies on the generative model to bypass the dependence of the target images. Briefly, MODIFY first trains a generative model in the target domain and then translates a source input to the target domain via the provided style model. To preserve the multimodal style information, MODIFY further introduces an additional remapping network, mapping a known continuous distribution into the encoder's embedding space. During translation in the source domain, MODIFY fine-tunes the encoder module within the target style-persevering model to capture the content of the source input as precisely as possible. Our method is extremely simple and satisfies versatile training modes for face stylization. Experimental results on several different datasets validate the effectiveness of MODIFY for unsupervised face stylization.
翻訳日:2023-03-20 15:11:21 公開日:2023-03-17
# モダリティを欠いた医療セグメント化のための原型知識蒸留法

Prototype Knowledge Distillation for Medical Segmentation with Missing Modality ( http://arxiv.org/abs/2303.09830v1 )

ライセンス: Link先を確認
Shuai Wang, Zipei Yan, Daoan Zhang, Haining Wei, Zhongsen Li, Rui Li(参考訳) 医用画像分割のための補完情報を提供するため,多モード医用画像は臨床治療において重要である。 しかし, 臨床におけるマルチモーダルデータの収集は, スキャン時間や臨床状況の制限などにより困難である。 このように、この欠落したモダリティ問題に対処するイメージセグメンテーションパラダイムを開発することは臨床的に有意義である。 本稿では,1つのモードデータのみにアクセス可能な最も困難なシナリオにおいて,課題に取り組むためのプロトタイプ知識蒸留(protokd)手法を提案する。 具体的には,マルチモダリティデータのピクセル単位での知識を単一モダリティデータに蒸留するだけでなく,クラス内およびクラス間の特徴のバリエーションを伝達することで,教師モデルからより堅牢な特徴表現を学習し,単一のモダリティデータのみを用いて推論することができる。 提案手法はBraTSベンチマークにおける最先端性能を実現する。

Multi-modality medical imaging is crucial in clinical treatment as it can provide complementary information for medical image segmentation. However, collecting multi-modal data in clinical is difficult due to the limitation of the scan time and other clinical situations. As such, it is clinically meaningful to develop an image segmentation paradigm to handle this missing modality problem. In this paper, we propose a prototype knowledge distillation (ProtoKD) method to tackle the challenging problem, especially for the toughest scenario when only single modal data can be accessed. Specifically, our ProtoKD can not only distillate the pixel-wise knowledge of multi-modality data to single-modality data but also transfer intra-class and inter-class feature variations, such that the student model could learn more robust feature representation from the teacher model and inference with only one single modality data. Our method achieves state-of-the-art performance on BraTS benchmark.
翻訳日:2023-03-20 15:11:01 公開日:2023-03-17
# DORIC : 依存関係解析によるオープンインテントクラスタリングのためのドメインロバストファインチューニング

DORIC : Domain Robust Fine-Tuning for Open Intent Clustering through Dependency Parsing ( http://arxiv.org/abs/2303.09827v1 )

ライセンス: Link先を確認
Jihyun Lee, Seungyeon Seo, Yunsu Kim, Gary Geunbae Lee(参考訳) 本稿では,Dialog System Technology Challenges 11 (DSTC11) のトラック2について紹介する。 dstc11-track2はゼロショット、クロスドメイン、インテントセットインダクションのベンチマークを提供することを目的としている。 ドメイン内のトレーニングデータセットがない場合、ドメイン間で使用可能な堅牢な発話表現は、ユーザの意図を誘導するために必要である。 これを実現するために,多領域対話データセットを用いて言語モデルを微調整し,不要な情報のアーティファクトを取り除くためにVerb-Objectペアの抽出を提案する。 さらに,クラスタ化結果の解法として,各クラスタの名前を生成する手法を考案した。 提案手法は精度スコアにおいて3位となり, 各種ドメインデータセットのベースラインモデルよりも精度が高く, 正規化相互情報(NMI)スコアが高かった。

We present our work on Track 2 in the Dialog System Technology Challenges 11 (DSTC11). DSTC11-Track2 aims to provide a benchmark for zero-shot, cross-domain, intent-set induction. In the absence of in-domain training dataset, robust utterance representation that can be used across domains is necessary to induce users' intentions. To achieve this, we leveraged a multi-domain dialogue dataset to fine-tune the language model and proposed extracting Verb-Object pairs to remove the artifacts of unnecessary information. Furthermore, we devised the method that generates each cluster's name for the explainability of clustered results. Our approach achieved 3rd place in the precision score and showed superior accuracy and normalized mutual information (NMI) score than the baseline model on various domain datasets.
翻訳日:2023-03-20 15:10:43 公開日:2023-03-17
# 深層多視点クラスタリングにおける自己スーパービジョンとコントラストアライメントの効果について

On the Effects of Self-supervision and Contrastive Alignment in Deep Multi-view Clustering ( http://arxiv.org/abs/2303.09877v1 )

ライセンス: Link先を確認
Daniel J. Trosten, Sigurd L{\o}kse, Robert Jenssen, Michael C. Kampffmeyer(参考訳) 自己教師付き学習は、近年の深層多視点クラスタリング(MVC)における中心的なアプローチである。 しかし、ディープMVCのための自己超越的手法の開発には大きなバリエーションがあり、フィールドの進行を遅らせる可能性がある。 この問題に対処するため、最近の多くのメソッドをインスタンスとして含むディープMVCの統一フレームワークであるDeepMVCを紹介します。 我々は,自己超越の効果,特にコントラスト学習による表現の整合性の欠点について重要な観察を行うために,我々の枠組みを活用する。 さらに,コントラストアライメントがクラスタ分離性に負の影響を及ぼし,ビュー数が増加すると効果が悪化することを示した。 われわれは新たな自己監督型DeepMVCインスタンスを複数開発した。 広範囲にわたる実験を行い (i)我々の理論的知見に従い、対照的なアライメントは、多くのビューを持つデータセットのパフォーマンスを低下させる。 (二)全ての方法が何らかの形態の自己監督から恩恵を受けること (iii)我々の新しいインスタンスは、複数のデータセット上の以前のメソッドよりも優れています。 この結果をもとに,今後の研究に期待できる方向をいくつか提案する。 フィールドのオープン性を高めるため,最新のモデルや新しいインスタンスを含む,DeepMVCのオープンソース実装を提供する。 実装には一貫した評価プロトコルが含まれており,メソッドやコンポーネントの公平かつ正確な評価が容易である。

Self-supervised learning is a central component in recent approaches to deep multi-view clustering (MVC). However, we find large variations in the development of self-supervision-based methods for deep MVC, potentially slowing the progress of the field. To address this, we present DeepMVC, a unified framework for deep MVC that includes many recent methods as instances. We leverage our framework to make key observations about the effect of self-supervision, and in particular, drawbacks of aligning representations with contrastive learning. Further, we prove that contrastive alignment can negatively influence cluster separability, and that this effect becomes worse when the number of views increases. Motivated by our findings, we develop several new DeepMVC instances with new forms of self-supervision. We conduct extensive experiments and find that (i) in line with our theoretical findings, contrastive alignments decreases performance on datasets with many views; (ii) all methods benefit from some form of self-supervision; and (iii) our new instances outperform previous methods on several datasets. Based on our results, we suggest several promising directions for future research. To enhance the openness of the field, we provide an open-source implementation of DeepMVC, including recent models and our new instances. Our implementation includes a consistent evaluation protocol, facilitating fair and accurate evaluation of methods and components.
翻訳日:2023-03-20 15:05:18 公開日:2023-03-17
# 映像予測のための動的マルチスケールVoxel Flow Network

A Dynamic Multi-Scale Voxel Flow Network for Video Prediction ( http://arxiv.org/abs/2303.09875v1 )

ライセンス: Link先を確認
Xiaotao Hu, Zhewei Huang, Ailin Huang, Jun Xu, Shuchang Zhou(参考訳) ビデオ予測の性能は、高度なディープニューラルネットワークによって大幅に向上している。 しかし、現在の手法のほとんどは大きなモデルサイズに悩まされており、将来性のある性能のためにセマンティック/深度マップのような追加の入力を必要とする。 本稿では,RGB画像のみを用いて,より少ない計算コストでより優れた映像予測性能を実現するための動的マルチスケールVoxel Flow Network(DMVFN)を提案する。 DMVFNの中核は、ビデオフレームの運動スケールを効果的に知覚できる、微分可能なルーティングモジュールである。 トレーニングが完了すると、DMVFNは推論段階で異なる入力に対する適応サブネットワークを選択する。 いくつかのベンチマーク実験により、DMVFNはDeep Voxel Flowよりも桁違いに高速であり、生成した画像の品質に対して最先端の反復型OPTを超えることが示されている。 コードとデモはhttps://huxiaotaostasy.github.io/dmvfn/で閲覧できます。

The performance of video prediction has been greatly boosted by advanced deep neural networks. However, most of the current methods suffer from large model sizes and require extra inputs, e.g., semantic/depth maps, for promising performance. For efficiency consideration, in this paper, we propose a Dynamic Multi-scale Voxel Flow Network (DMVFN) to achieve better video prediction performance at lower computational costs with only RGB images, than previous methods. The core of our DMVFN is a differentiable routing module that can effectively perceive the motion scales of video frames. Once trained, our DMVFN selects adaptive sub-networks for different inputs at the inference stage. Experiments on several benchmarks demonstrate that our DMVFN is an order of magnitude faster than Deep Voxel Flow and surpasses the state-of-the-art iterative-based OPT on generated image quality. Our code and demo are available at https://huxiaotaostasy.github.io/DMVFN/.
翻訳日:2023-03-20 15:04:56 公開日:2023-03-17
# 画像統計と人間の知覚の関連性について

Disentangling the Link Between Image Statistics and Human Perception ( http://arxiv.org/abs/2303.09874v1 )

ライセンス: Link先を確認
Alexander Hepburn, Valero Laparra, Raul Santos-Rodriguez, Jes\'us Malo(参考訳) 1950年代、horace barlow と fred attneave は感覚系と環境への適応性との関係を提唱した。 シャノンの定義に従い、この情報は自然シーンから撮影した画像の確率を用いて記述された。 これまでは、計算限界のため、画像確率の直接的正確な予測は不可能であった。 このアイデアは間接的であり、主に画像密度の過度に単純化されたモデルやシステム設計法に基づくものであったが、これらの手法は幅広い生理的・心理学的な現象を再現することに成功した。 本稿では,自然画像の確率を直接評価し,その知覚感度をどう判断するかを解析する。 我々は、人間の視覚の代理として人間の意見とよく相関する画質指標と、確率を直接推定する高度な生成モデルを用いる。 具体的には,自然画像の確率分布から直接求めた量から,フルリファレンス画像品質指標の感度を推定する方法について分析する。 まず,幅広い確率サーロゲート間の相互情報と測定値の感度を算出し,ノイズ画像の確率が最も影響する要因であることを示す。 次に、これらの確率代理を単純なモデルを用いて組み合わせて計量感度を予測し、モデル予測と実際の知覚感度との相関関係を0.85の上限とする。 最後に,単純な表現を用いて確率サロゲートを組み合わせる方法について検討し,特定の画像から人間の視覚系の感度を予測できる2つの機能形式(1つまたは2つのサロゲート)を得る。

In the 1950s Horace Barlow and Fred Attneave suggested a connection between sensory systems and how they are adapted to the environment: early vision evolved to maximise the information it conveys about incoming signals. Following Shannon's definition, this information was described using the probability of the images taken from natural scenes. Previously, direct accurate predictions of image probabilities were not possible due to computational limitations. Despite the exploration of this idea being indirect, mainly based on oversimplified models of the image density or on system design methods, these methods had success in reproducing a wide range of physiological and psychophysical phenomena. In this paper, we directly evaluate the probability of natural images and analyse how it may determine perceptual sensitivity. We employ image quality metrics that correlate well with human opinion as a surrogate of human vision, and an advanced generative model to directly estimate the probability. Specifically, we analyse how the sensitivity of full-reference image quality metrics can be predicted from quantities derived directly from the probability distribution of natural images. First, we compute the mutual information between a wide range of probability surrogates and the sensitivity of the metrics and find that the most influential factor is the probability of the noisy image. Then we explore how these probability surrogates can be combined using a simple model to predict the metric sensitivity, giving an upper bound for the correlation of 0.85 between the model predictions and the actual perceptual sensitivity. Finally, we explore how to combine the probability surrogates using simple expressions, and obtain two functional forms (using one or two surrogates) that can be used to predict the sensitivity of the human visual system given a particular pair of images.
翻訳日:2023-03-20 15:04:38 公開日:2023-03-17
# 流体力学ネットワーク:流体力学による位相非依存4次元再構成

Fluid Dynamics Network: Topology-Agnostic 4D Reconstruction via Fluid Dynamics Priors ( http://arxiv.org/abs/2303.09871v1 )

ライセンス: Link先を確認
Daniele Baieri, Stefano Esposito, Filippo Maggioli, Emanuele Rodol\`a(参考訳) 3次元曲面を$\mathbb{R}^3$上の連続関数のレベル集合として表現することは、ニューラルな暗黙表現の共通分母であり、最近、幾何学的深層学習とコンピュータビジョンタスクの顕著な進歩を可能にした。 この枠組み内での3次元運動を表現するために、曲面が下る可能性のある変換は同型であると仮定される(明示的にも暗黙的にも)。 より一般的な変形のクラスを表現するために、この理論フレームワークを単純な4次元暗黙関数(符号付き距離場など)の最適化のための正則化器として適用することを提案する。 この表現は同相的変形とトポロジー変化の両方を捉えることができ、同時に連続的に再構成された曲面上の対応も定義できることを示した。

Representing 3D surfaces as level sets of continuous functions over $\mathbb{R}^3$ is the common denominator of neural implicit representations, which recently enabled remarkable progress in geometric deep learning and computer vision tasks. In order to represent 3D motion within this framework, it is often assumed (either explicitly or implicitly) that the transformations which a surface may undergo are homeomorphic: this is not necessarily true, for instance, in the case of fluid dynamics. In order to represent more general classes of deformations, we propose to apply this theoretical framework as regularizers for the optimization of simple 4D implicit functions (such as signed distance fields). We show that our representation is capable of capturing both homeomorphic and topology-changing deformations, while also defining correspondences over the continuously-reconstructed surfaces.
翻訳日:2023-03-20 15:04:11 公開日:2023-03-17
# TeSLA: 自動対向強化によるテスト時間自己学習

TeSLA: Test-Time Self-Learning With Automatic Adversarial Augmentation ( http://arxiv.org/abs/2303.09870v1 )

ライセンス: Link先を確認
Devavrat Tomar, Guillaume Vray, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) 最近のテスト時間適応手法は、分類タスクのみに焦点を当て、特殊なネットワークアーキテクチャを使用し、モデルの校正を破壊したり、ソースドメインからの軽量情報に依存する。 このような問題に対処するために,未ラベルのストリーミングテストデータに事前学習したソースモデルを適応させる,TeSLAと呼ばれる自動適応型テスト時自己学習手法を提案する。 クロスエントロピーに基づく従来の自己学習手法とは対照的に,相互情報とオンライン知識蒸留との暗黙的に密接な関係を通じて,新たなテスト時間損失関数を導入する。 さらに,高エントロピー強調画像のシミュレートにより,オンライン知識蒸留をさらに強化する,学習可能な効率の良い対向拡張モジュールを提案する。 本手法は,いくつかのベンチマークとドメインシフトのタイプ,特に医用画像の計測シフトの難易度において,最先端の分類とセグメンテーション結果を達成する。 TeSLAはまた、キャリブレーション、不確実性メトリクス、モデルアーキテクチャへの過敏性、ソーストレーニング戦略といった点で競合する手法と比較して、いくつかの望ましい特性の恩恵を受ける。 コードとモデルはGitHubから入手可能です。

Most recent test-time adaptation methods focus on only classification tasks, use specialized network architectures, destroy model calibration or rely on lightweight information from the source domain. To tackle these issues, this paper proposes a novel Test-time Self-Learning method with automatic Adversarial augmentation dubbed TeSLA for adapting a pre-trained source model to the unlabeled streaming test data. In contrast to conventional self-learning methods based on cross-entropy, we introduce a new test-time loss function through an implicitly tight connection with the mutual information and online knowledge distillation. Furthermore, we propose a learnable efficient adversarial augmentation module that further enhances online knowledge distillation by simulating high entropy augmented images. Our method achieves state-of-the-art classification and segmentation results on several benchmarks and types of domain shifts, particularly on challenging measurement shifts of medical images. TeSLA also benefits from several desirable properties compared to competing methods in terms of calibration, uncertainty metrics, insensitivity to model architectures, and source training strategies, all supported by extensive ablations. Our code and models are available on GitHub.
翻訳日:2023-03-20 15:03:56 公開日:2023-03-17
# DiffusionRet:拡散モデルを用いた生成テキストビデオ検索

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model ( http://arxiv.org/abs/2303.09867v1 )

ライセンス: Link先を確認
Peng Jin, Hao Li, Zesen Cheng, Kehan Li, Xiangyang Ji, Chang Liu, Li Yuan, Jie Chen(参考訳) 既存のテキストビデオ検索ソリューションは、本質的には条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てた判別モデルである。 このデファクトパラダイムは単純ではあるが、基盤となるデータ分散p(query)を見落としており、分散データの識別が難しい。 この制限に対処するために,この課題を生成的視点から創造的に解決し,テキストと動画の相関関係を確率 p(candidates,query) としてモデル化する。 これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。 トレーニング中、DiffusionRetは生成と識別の両方の観点から最適化され、ジェネレータは生成損失と対照的な損失でトレーニングされた特徴抽出器によって最適化される。 このように、DiffusionRetは生成的および識別的手法の長所を巧みに活用する。 MSRVTT, LSMDC, MSVD, ActivityNet Captions, DiDeMoの5つの一般的なテキストビデオ検索ベンチマーク実験により, 提案手法の有効性を正当化した。 さらに奨励的に、DiffusionRetはドメイン外の検索設定でもうまく機能する。 この研究は、関連する分野に基本的な洞察をもたらしていると考えています。 コードはhttps://github.com/jpthu17/diffusionretで入手できる。

Existing text-video retrieval solutions are, in essence, discriminant models focused on maximizing the conditional likelihood, i.e., p(candidates|query). While straightforward, this de facto paradigm overlooks the underlying data distribution p(query), which makes it challenging to identify out-of-distribution data. To address this limitation, we creatively tackle this task from a generative viewpoint and model the correlation between the text and the video as their joint probability p(candidates,query). This is accomplished through a diffusion-based text-video retrieval framework (DiffusionRet), which models the retrieval task as a process of gradually generating joint distribution from noise. During training, DiffusionRet is optimized from both the generation and discrimination perspectives, with the generator being optimized by generation loss and the feature extractor trained with contrastive loss. In this way, DiffusionRet cleverly leverages the strengths of both generative and discriminative methods. Extensive experiments on five commonly used text-video retrieval benchmarks, including MSRVTT, LSMDC, MSVD, ActivityNet Captions, and DiDeMo, with superior performances, justify the efficacy of our method. More encouragingly, without any modification, DiffusionRet even performs well in out-domain retrieval settings. We believe this work brings fundamental insights into the related fields. Code will be available at https://github.com/jpthu17/DiffusionRet.
翻訳日:2023-03-20 15:03:35 公開日:2023-03-17
# チャートオートエンコーダによる固有データ構造の深部非パラメトリック推定:一般化誤差とロバスト性

Deep Nonparametric Estimation of Intrinsic Data Structures by Chart Autoencoders: Generalization Error and Robustness ( http://arxiv.org/abs/2303.09863v1 )

ライセンス: Link先を確認
Hao Liu, Alex Havrilla, Rongjie Lai and Wenjing Liao(参考訳) オートエンコーダは、様々なアプリケーションにまたがる高次元データの低次元潜在特徴を学習することに成功した。 低次元多様体の近傍でデータをサンプリングすると、グラフの集合上の低次元潜在特徴にデータをエンコードし、データ多様体の位相と幾何を保存するチャートオートエンコーダを用いる。 本稿では, グラフオートエンコーダの一般化誤差に関する統計的保証を確立し, ノイズフリーな学習サンプルとともに, $d$次元多様体上で, ノイズフリーな学習サンプルを考慮し, それらの記述能力を実証する。 オートエンコーダを訓練することにより、チャートオートエンコーダは入力データを正常な雑音で効果的に識別できることを示す。 適切なネットワークアーキテクチャの下では、チャートオートエンコーダは、多様体の固有次元に依存し、周囲の次元とノイズレベルに弱くのみ依存する$\displaystyle n^{-\frac{2}{d+2}}\log^4n}\の順に二乗一般化誤差を達成する。 我々はさらに、正規成分と有形成分の両方を含むノイズを伴うデータに関する理論を拡張し、チャートオートエンコーダは通常の成分に対してデノイング効果を示す。 特別な場合として、データ多様体が大域的パラメトリゼーションを持つ限り、我々の理論は古典的自己エンコーダにも当てはまる。 本研究は, オートエンコーダの有効性に関する理論的基礎を提供し, 数値実験によりさらに検証した。

Autoencoders have demonstrated remarkable success in learning low-dimensional latent features of high-dimensional data across various applications. Assuming that data are sampled near a low-dimensional manifold, we employ chart autoencoders, which encode data into low-dimensional latent features on a collection of charts, preserving the topology and geometry of the data manifold. Our paper establishes statistical guarantees on the generalization error of chart autoencoders, and we demonstrate their denoising capabilities by considering $n$ noisy training samples, along with their noise-free counterparts, on a $d$-dimensional manifold. By training autoencoders, we show that chart autoencoders can effectively denoise the input data with normal noise. We prove that, under proper network architectures, chart autoencoders achieve a squared generalization error in the order of $\displaystyle n^{-\frac{2}{d+2}}\log^4 n$, which depends on the intrinsic dimension of the manifold and only weakly depends on the ambient dimension and noise level. We further extend our theory on data with noise containing both normal and tangential components, where chart autoencoders still exhibit a denoising effect for the normal component. As a special case, our theory also applies to classical autoencoders, as long as the data manifold has a global parametrization. Our results provide a solid theoretical foundation for the effectiveness of autoencoders, which is further validated through several numerical experiments.
翻訳日:2023-03-20 15:03:09 公開日:2023-03-17
# 1億語で訓練されたBERTがBritish National Corpusと出会う

Trained on 100 million words and still in shape: BERT meets British National Corpus ( http://arxiv.org/abs/2303.09859v1 )

ライセンス: Link先を確認
David Samuel, Andrey Kutuzov, Lilja {\O}vrelid and Erik Velldal(参考訳) 現代のマスク付き言語モデル(LM)は、ずっと大きなコーパスで訓練されているが、ここでは、低スケールのトレーニングを、控えめながら代表的でバランスのとれた、公開の英語テキストソースであるBritish National Corpusへの効果を探る。 この厳格なコーパスの事前学習は,従来のBERTモデルよりも優れた性能が得られることを示す。 このタイプのコーパスは言語モデリングベンチマークとして大きな可能性を秘めています。 この可能性を示すために,lmsの公平で再現性が高く,データ効率の良い比較研究を行い,いくつかのトレーニング目標とモデルアーキテクチャを評価し,従来の実験結果を体系的な方法で再現する。 LTG-BERTと呼ばれる最適化されたLMアーキテクチャを提案する。

While modern masked language models (LMs) are trained on ever larger corpora, we here explore the effects of down-scaling training to a modestly-sized but representative, well-balanced, and publicly available English text source -- the British National Corpus. We show that pre-training on this carefully curated corpus can reach better performance than the original BERT model. We argue that this type of corpora has great potential as a language modeling benchmark. To showcase this potential, we present fair, reproducible and data-efficient comparative studies of LMs, in which we evaluate several training objectives and model architectures and replicate previous empirical results in a systematic way. We propose an optimized LM architecture called LTG-BERT.
翻訳日:2023-03-20 15:02:40 公開日:2023-03-17
# MedLocker:医療画像データセットの不正解析を防止するためのトランスファー可能な逆向き透かし

MedLocker: A Transferable Adversarial Watermarking for Preventing Unauthorized Analysis of Medical Image Dataset ( http://arxiv.org/abs/2303.09858v1 )

ライセンス: Link先を確認
Bangzheng Pu, Xingxing Wei, Shiji Zha and Huazhu Fu(参考訳) 医療画像データセットの収集は、膨大なリソースを必要とする、要求の厳しい作業である。 さらに、これらの医療データセットには個人識別可能な情報が含まれており、不正アクセスを防止するための措置が必要である。 そうしないことは、データセット所有者の知的財産権を侵害し、患者のプライバシーを侵害する可能性がある。 結果として、医療データセットの保護と、AI診断モデルによる不正使用の防止が課題となっている。 この課題に対処するため,MedLocker という医用画像著作権保護のための新しい対面透かし手法を提案する。 提案手法では,透かしロゴの位置と透明度を連続的に最適化することで,目標モデルの性能を低下させ,誤った予測を行う。 重要なことは,本手法が意味的セグメンテーションに基づく病変領域の境界ボックスである意味的マスク(WSM)を用いて透かし位置を拘束することにより,臨床視覚化への影響を最小限に抑えることである。 異なるモデル間での透かしの転送性を確保するため,単一モデル上で生成された透かしのクロスモデル転送性を検証する。 さらに,認証の認証として使用可能なユニークな透かしパラメータリストを毎回生成する。 各種メインストリームのバックボーン上でのMedLockerの有効性を評価し,2つの糖尿病網膜症検出データセットにおける著作権保護のための敵対的透かしの有効性を検証した。 この結果から、MedLockerは医療データセットの著作権を効果的に保護し、不正使用者がAI診断モデルを用いて医療画像を分析するのを防ぐことができることが示された。

The collection of medical image datasets is a demanding and laborious process that requires significant resources. Furthermore, these medical datasets may contain personally identifiable information, necessitating measures to ensure that unauthorized access is prevented. Failure to do so could violate the intellectual property rights of the dataset owner and potentially compromise the privacy of patients. As a result, safeguarding medical datasets and preventing unauthorized usage by AI diagnostic models is a pressing challenge. To address this challenge, we propose a novel visible adversarial watermarking method for medical image copyright protection, called MedLocker. Our approach involves continuously optimizing the position and transparency of a watermark logo, which reduces the performance of the target model, leading to incorrect predictions. Importantly, we ensure that our method minimizes the impact on clinical visualization by constraining watermark positions using semantical masks (WSM), which are bounding boxes of lesion regions based on semantic segmentation. To ensure the transferability of the watermark across different models, we verify the cross-model transferability of the watermark generated on a single model. Additionally, we generate a unique watermark parameter list each time, which can be used as a certification to verify the authorization. We evaluate the performance of MedLocker on various mainstream backbones and validate the feasibility of adversarial watermarking for copyright protection on two widely-used diabetic retinopathy detection datasets. Our results demonstrate that MedLocker can effectively protect the copyright of medical datasets and prevent unauthorized users from analyzing medical images with AI diagnostic models.
翻訳日:2023-03-20 15:02:25 公開日:2023-03-17
# 映像から映像変換器へのデュアルパス適応

Dual-path Adaptation from Image to Video Transformers ( http://arxiv.org/abs/2303.09857v1 )

ライセンス: Link先を確認
Jungin Park, Jiyoung Lee, Kwanghoon Sohn(参考訳) 本稿では,ViT や Swin などの視覚基礎モデルの超越する表現力を,トレーニング可能なパラメータの少ないビデオ理解のために効率的に転送する。 従来の適応手法では、学習可能なモジュールを統一した空間的・時間的モデリングが同時に検討されてきたが、画像トランスフォーマーの代表的能力の活用に悩まされている。 ビデオモデルにおける一般的なデュアルパス(2ストリーム)アーキテクチャは、この問題を緩和できると主張している。 本稿では,各変圧器ブロックに軽量なボトルネックアダプタを用いた,空間的および時間的適応経路に分離した新しいデュアルパス適応法を提案する。 特に時間的動的モデリングでは,連続するフレームをグリッド状のフレームセットに組み込んで,トークン間の関係を外挿する視覚トランスフォーマーの能力を正確に模倣する。 さらに,ビデオ理解の統一的な視点から複数のベースラインを幅広く検討し,それらをDualPathと比較した。 4つの行動認識ベンチマークの実験結果から、DualPathを用いた事前学習画像変換器はデータ領域を超えて効果的に一般化できることが証明された。

In this paper, we efficiently transfer the surpassing representation power of the vision foundation models, such as ViT and Swin, for video understanding with only a few trainable parameters. Previous adaptation methods have simultaneously considered spatial and temporal modeling with a unified learnable module but still suffered from fully leveraging the representative capabilities of image transformers. We argue that the popular dual-path (two-stream) architecture in video models can mitigate this problem. We propose a novel DualPath adaptation separated into spatial and temporal adaptation paths, where a lightweight bottleneck adapter is employed in each transformer block. Especially for temporal dynamic modeling, we incorporate consecutive frames into a grid-like frameset to precisely imitate vision transformers' capability that extrapolates relationships between tokens. In addition, we extensively investigate the multiple baselines from a unified perspective in video understanding and compare them with DualPath. Experimental results on four action recognition benchmarks prove that pretrained image transformers with DualPath can be effectively generalized beyond the data domain.
翻訳日:2023-03-20 15:01:57 公開日:2023-03-17
# 分散3dlidarを用いたプライバシー保護歩行者追跡

Privacy-preserving Pedestrian Tracking using Distributed 3D LiDARs ( http://arxiv.org/abs/2303.09915v1 )

ライセンス: Link先を確認
Masakazu Ohno, Riki Ukyo, Tatsuya Amano, Hamada Rizk and Hirozumi Yamaguchi(参考訳) インテリジェントな環境への需要の高まりは、個人の生活をより快適で安全にするプライバシーに配慮したアプリケーションという異常なサイクルを生み出します。 これらの応用例としては、広範囲の歩行者追跡システムがある。 本稿では,複数の分散LiDARを用いたスマート環境における歩行者追跡のための新しいプライバシ保護システムを提案する。 このシステムは、LiDARデバイスを利用して部分的に覆われたエリアの歩行者を追跡するように設計されている。 そこで本システムは,異なるLiDARによって捕捉された点雲を用いて,歩行者マッチングのための距離学習モデルを訓練するために使用される識別的特徴を抽出する。 システムのロバスト性を高めるため,個人の動的移動パターンをモデル化・適応するための確率論的アプローチを活用し,70個の無色LiDARを用いた大規模テストベッドにシステムを構築し,3つの異なる実験を行った。 入場者評価の結果は、ゼロカバーエリアでも0.98Fで歩行者を正確に追跡する能力を確認している。 この結果から,スマート環境における次世代のプライバシ保護トラッキング手段としてのシステムの実現が期待できる。

The growing demand for intelligent environments unleashes an extraordinary cycle of privacy-aware applications that makes individuals' life more comfortable and safe. Examples of these applications include pedestrian tracking systems in large areas. Although the ubiquity of camera-based systems, they are not a preferable solution due to the vulnerability of leaking the privacy of pedestrians.In this paper, we introduce a novel privacy-preserving system for pedestrian tracking in smart environments using multiple distributed LiDARs of non-overlapping views. The system is designed to leverage LiDAR devices to track pedestrians in partially covered areas due to practical constraints, e.g., occlusion or cost. Therefore, the system uses the point cloud captured by different LiDARs to extract discriminative features that are used to train a metric learning model for pedestrian matching purposes. To boost the system's robustness, we leverage a probabilistic approach to model and adapt the dynamic mobility patterns of individuals and thus connect their sub-trajectories.We deployed the system in a large-scale testbed with 70 colorless LiDARs and conducted three different experiments. The evaluation result at the entrance hall confirms the system's ability to accurately track the pedestrians with a 0.98 F-measure even with zero-covered areas. This result highlights the promise of the proposed system as the next generation of privacy-preserving tracking means in smart environments.
翻訳日:2023-03-20 14:54:48 公開日:2023-03-17
# 量子コンピュータによる分子電子構造計算

Molecular Electronic Structure Calculation via a Quantum Computer ( http://arxiv.org/abs/2303.09911v1 )

ライセンス: Link先を確認
Hamid Reza Naeij, Erfan Mahmoudi, Hossein Davoodi Yeganeh and Mohsen Akbari(参考訳) 量子コンピュータは電子構造を計算し、多電子分子系の基底状態エネルギーを推定するために用いられる。 本研究では,量子ビット数が増加傾向にあるh3+,oh-,hf,bh3などの分子の基底状態エネルギーを計算するハイブリッド量子古典アルゴリズムとして,変分量子固有ソルバ(vqe)アルゴリズムを実装した。 我々はFermionのパリティ変換をqubitエンコーディングに、Unitary Coupled Cluster for Single and Double Excitations (UCCSD) を用いてアンサッツを構築する。 量子シミュレーションの結果とフルコンフィグレーション相互作用 (fci) をベンチマークエネルギーとして,unrestricted hartree-fock (uhf) を一般的な計算手法として計算化学手法と比較した。 以上の結果から,vqeとfciから得られる分子基底状態エネルギーは良好な一致を示した。 さらに,VQEから得られた基底状態エネルギーの精度は,これまでに報告した値よりも高い。

Quantum computers can be used to calculate the electronic structure and estimate the ground state energy of many-electron molecular systems. In the present study, we implement the Variational Quantum Eigensolver (VQE) algorithm, as a hybrid quantum-classical algorithm to calculate the ground state energy of the molecules such as H3+, OH-, HF and BH3 in which the number of qubits has an increasing trend. We use the parity transformation for Fermion to qubit encoding and the Unitary Coupled Cluster for Single and Double excitations (UCCSD) to construct an ansatz. We compare our quantum simulation results with the computational chemistry approaches including Full Configuration Interaction (FCI), as benchmark energy and Unrestricted Hartree-Fock (UHF), as a common computational method. Our results show that there is a good agreement between molecular ground state energy obtained from VQE and FCI. Moreover, the accuracy of the ground state energies obtained from VQE in our work is higher than the previously reported values.
翻訳日:2023-03-20 14:53:46 公開日:2023-03-17
# 断面曲率による次元低減のための評価枠組み

An evaluation framework for dimensionality reduction through sectional curvature ( http://arxiv.org/abs/2303.09909v1 )

ライセンス: Link先を確認
Ra\'ul Lara-Cabrera, \'Angel Gonz\'alez-Prieto, Diego P\'erez-L\'opez, Diego Trujillo, Fernando Ortega(参考訳) 教師なし機械学習は定義によって根底的な真実を欠いている。 このようなアルゴリズムの性能を評価するためにメトリクスを設計する場合、これは大きな困難をもたらす。 文献で多くの品質指標が研究されている教師あり学習とは対照的に、次元の減少の分野では、過度に単純化された指標のみが提案されている。 本研究は,初めて非自明な次元減少性能指標を導入することを目的とする。 この計量はリーマン幾何学から生じる断面曲率の挙動に基づいている。 その実現可能性をテストするために、この測定基準は、技術の現状において最もよく使われる次元削減アルゴリズムの性能を評価するために用いられてきた。 さらに、平面曲線の曲率特性を用いてアルゴリズムの評価を堅牢かつ代表的にするために、関数生成器の形で新しいパラメータ化問題インスタンス生成器を構築した。 実験結果は、評価アルゴリズムの設計と特性、およびメソッドのフィードに使用されるデータインスタンスの特徴に基づいて、期待できることと一致している。

Unsupervised machine learning lacks ground truth by definition. This poses a major difficulty when designing metrics to evaluate the performance of such algorithms. In sharp contrast with supervised learning, for which plenty of quality metrics have been studied in the literature, in the field of dimensionality reduction only a few over-simplistic metrics has been proposed. In this work, we aim to introduce the first highly non-trivial dimensionality reduction performance metric. This metric is based on the sectional curvature behaviour arising from Riemannian geometry. To test its feasibility, this metric has been used to evaluate the performance of the most commonly used dimension reduction algorithms in the state of the art. Furthermore, to make the evaluation of the algorithms robust and representative, using curvature properties of planar curves, a new parameterized problem instance generator has been constructed in the form of a function generator. Experimental results are consistent with what could be expected based on the design and characteristics of the evaluated algorithms and the features of the data instances used to feed the method.
翻訳日:2023-03-20 14:53:27 公開日:2023-03-17
# 神経確率モデルによる集団運動のメゾスコピック表現の発見

Discovering mesoscopic descriptions of collective movement with neural stochastic modelling ( http://arxiv.org/abs/2303.09906v1 )

ライセンス: Link先を確認
Utkarsh Pratiush, Arshed Nabeel, Vishwesha Guttal, Prathosh AP(参考訳) 集団運動は自然界においてユビキタスな現象であり、工学者、物理学者、数学者に数学的モデルや生物にインスパイアされたデザインの開発を促す。 小中小のグループサイズでの集団運動("mesoscale"とも呼ばれる)は、確率性に起因する非自明な特徴を示すことができる。 したがって、力学の決定論的側面と確率論的側面の両方を特徴付けることは、メソスケール集団現象の研究において重要である。 ここでは、物理学に着想を得たニューラルネットワークに基づくアプローチを用いて、相互作用する個人の確率群力学を、そのグループの集合力学を支配する確率微分方程式(SDE)を通して特徴づける。 本研究では,この手法を合成と実世界の両方のデータセットに適用し,ドリフトと拡散場を用いた力学の決定論的・確率的側面を同定し,これらのシステムにおける秩序の性質に関する新しい推論を可能にする。

Collective motion is an ubiquitous phenomenon in nature, inspiring engineers, physicists and mathematicians to develop mathematical models and bio-inspired designs. Collective motion at small to medium group sizes ($\sim$10-1000 individuals, also called the `mesoscale'), can show nontrivial features due to stochasticity. Therefore, characterizing both the deterministic and stochastic aspects of the dynamics is crucial in the study of mesoscale collective phenomena. Here, we use a physics-inspired, neural-network based approach to characterize the stochastic group dynamics of interacting individuals, through a stochastic differential equation (SDE) that governs the collective dynamics of the group. We apply this technique on both synthetic and real-world datasets, and identify the deterministic and stochastic aspects of the dynamics using drift and diffusion fields, enabling us to make novel inferences about the nature of order in these systems.
翻訳日:2023-03-20 14:53:11 公開日:2023-03-17
# tree-based paraphrase ranking によるよりロバストなスキーマ誘導対話状態追跡

More Robust Schema-Guided Dialogue State Tracking via Tree-Based Paraphrase Ranking ( http://arxiv.org/abs/2303.09905v1 )

ライセンス: Link先を確認
A. Coca, B.H. Tseng, W. Lin, B. Byrne(参考訳) スキーマ誘導パラダイムは、静的オントロジーを用いたタスク指向対話(TOD)エージェントの構築に固有のスケーラビリティ問題を克服する。 エージェントは対話コンテキストのみで動作する代わりに、タスク関連自然言語記述を含む階層スキーマにアクセスすることができる。 微調整言語モデルは、スキーマ誘導対話状態追跡(DST)において優れているが、スキーマの書き込みスタイルに敏感である。 DSTモデルのロバスト性を改善する方法について検討する。 本稿では,木に基づくランキングを用いて,語彙の多様性と意味的忠実度を協調的に最適化する合成スキーマを生成するフレームワークを提案する。 sgd-xベンチマークにおける平均目標精度 (jga) とスキーマ感度 (ss) の著しい改善が示されるように, トレーニングデータをプロンプトで拡張することで, 強力なベースラインの一般化が向上した。

The schema-guided paradigm overcomes scalability issues inherent in building task-oriented dialogue (TOD) agents with static ontologies. Instead of operating on dialogue context alone, agents have access to hierarchical schemas containing task-relevant natural language descriptions. Fine-tuned language models excel at schema-guided dialogue state tracking (DST) but are sensitive to the writing style of the schemas. We explore methods for improving the robustness of DST models. We propose a framework for generating synthetic schemas which uses tree-based ranking to jointly optimise lexical diversity and semantic faithfulness. The generalisation of strong baselines is improved when augmenting their training data with prompts generated by our framework, as demonstrated by marked improvements in average joint goal accuracy (JGA) and schema sensitivity (SS) on the SGD-X benchmark.
翻訳日:2023-03-20 14:52:53 公開日:2023-03-17
# mCPT at SemEval-2023 Task 3: Multilingual Label-Aware Contrastive Pre-Training of Transformer for Few- and Zero-shot Framing Detection

mCPT at SemEval-2023 Task 3: Multilingual Label-Aware Contrastive Pre-Training of Transformers for Few- and Zero-shot Framing Detection ( http://arxiv.org/abs/2303.09901v1 )

ライセンス: Link先を確認
Markus Reiter-Haas, Alexander Ertl, Kevin Innerhofer, Elisabeth Lex(参考訳) 本稿では,ゼロショット・スパニッシュ・フレーミング検出タスクの勝利システムについて述べる。 フレーミング検出タスクの課題は、サンプルが数個または0個しかない場合に、14個のフレームのセットを識別することである。 提案手法は,ラベル認識型コントラスト損失関数を用いた多言語変換器に基づく事前学習手法を用いる。 本システムを説明することに加えて, プレトレーニングがフレーミング検出をどのように支援し, 計算フレーミング解析を推し進めるかを実証するために, 埋め込み空間解析およびアブレーション研究を行う。

This paper presents the winning system for the zero-shot Spanish framing detection task, which also achieves competitive places in eight additional languages. The challenge of the framing detection task lies in identifying a set of 14 frames when only a few or zero samples are available, i.e., a multilingual multi-label few- or zero-shot setting. Our developed solution employs a pre-training procedure based on multilingual Transformers using a label-aware contrastive loss function. In addition to describing the system, we perform an embedding space analysis and ablation study to demonstrate how our pre-training procedure supports framing detection to advance computational framing analysis.
翻訳日:2023-03-20 14:52:38 公開日:2023-03-17
# memotion 3: codemixed hindi- english ミームの感情と感情分析に関するデータセット

Memotion 3: Dataset on sentiment and emotion analysis of codemixed Hindi-English Memes ( http://arxiv.org/abs/2303.09892v1 )

ライセンス: Link先を確認
Shreyash Mishra, S Suryavardan, Parth Patwa, Megha Chakraborty, Anku Rani, Aishwarya Reganti, Aman Chadha, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal and Srijan Kumar(参考訳) ミームはソーシャルメディアサイトにおけるユーモアの新しい年齢搬送メカニズムである。 ミームには画像やテキストが含まれることが多い。 ミームは偽情報や憎悪の促進に使用できるため、詳細を調査することが重要である。 memotion 3は10,000の注釈付きミームを持つ新しいデータセットである。 memotion 3は、memotionの以前のイテレーションを含む、ドメイン内の他の一般的なデータセットとは異なり、ヒンズー英語のcodemixed memeを導入している。 本稿では,Memotionタスク,データ収集,データセット作成手法について述べる。 タスクのベースラインも提供しています。 ベースラインコードとデータセットはhttps://github.com/Shreyashm16/Memotion-3.0で公開される。

Memes are the new-age conveyance mechanism for humor on social media sites. Memes often include an image and some text. Memes can be used to promote disinformation or hatred, thus it is crucial to investigate in details. We introduce Memotion 3, a new dataset with 10,000 annotated memes. Unlike other prevalent datasets in the domain, including prior iterations of Memotion, Memotion 3 introduces Hindi-English Codemixed memes while prior works in the area were limited to only the English memes. We describe the Memotion task, the data collection and the dataset creation methodologies. We also provide a baseline for the task. The baseline code and dataset will be made available at https://github.com/Shreyashm16/Memotion-3.0
翻訳日:2023-03-20 14:52:20 公開日:2023-03-17
# 適応型ファジィ強化学習協調手法によるFlockシステムの自律制御

An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the Autonomous Control of Flock Systems ( http://arxiv.org/abs/2303.09946v1 )

ライセンス: Link先を確認
Shuzheng Qu, Mohammed Abouheaf, Wail Gueaieb, and Davide Spinello(参考訳) 群集誘導問題は、複数の最適化目的を同時に解決する難しい構造を享受する。 これは通常、誘導、衝突回避、凝集など様々な目的に取り組むための異なる制御アプローチを必要とする。 特にガイダンススキームは、トラッキングエラーの複雑なダイナミクスに長年苦しめられている。 さらに、平衡条件で得られる線形フィードバック戦略に基づく手法は、不確定な動的環境に適用しても保持または劣化しない。 事前調整されたファジィ推論アーキテクチャは、そのような非モデル化条件下での堅牢性に欠ける。 本研究は,群集システムの自律制御のための適応分散手法を導入する。 その比較的柔軟な構造は、オンラインファジィ強化学習スキームに基づいており、同時に、リーダーのフォロー、衝突の回避、群集速度のコンセンサスに達するなど、多くの目標を目標としている。 動的障害に直面した場合のレジリエンスに加えて、アルゴリズムはフィードバック信号としてエージェントの位置以上のものを必要としない。 提案手法の有効性を2つのシミュレーションシナリオで検証し,同様の手法に対するベンチマークを行った。

The flock-guidance problem enjoys a challenging structure where multiple optimization objectives are solved simultaneously. This usually necessitates different control approaches to tackle various objectives, such as guidance, collision avoidance, and cohesion. The guidance schemes, in particular, have long suffered from complex tracking-error dynamics. Furthermore, techniques that are based on linear feedback strategies obtained at equilibrium conditions either may not hold or degrade when applied to uncertain dynamic environments. Pre-tuned fuzzy inference architectures lack robustness under such unmodeled conditions. This work introduces an adaptive distributed technique for the autonomous control of flock systems. Its relatively flexible structure is based on online fuzzy reinforcement learning schemes which simultaneously target a number of objectives; namely, following a leader, avoiding collision, and reaching a flock velocity consensus. In addition to its resilience in the face of dynamic disturbances, the algorithm does not require more than the agent position as a feedback signal. The effectiveness of the proposed method is validated with two simulation scenarios and benchmarked against a similar technique from the literature.
翻訳日:2023-03-20 14:46:10 公開日:2023-03-17
# サイクルエラー再構成によるエラープロファイルへのコヒーレントな貢献度の推定

Estimating Coherent Contributions to the Error Profile Using Cycle Error Reconstruction ( http://arxiv.org/abs/2303.09945v1 )

ライセンス: Link先を確認
Arnaud Carignan-Dugas, Shashank Kumar Ranu, Patrick Dreher(参考訳) 緩和と校正スキームは、今日のノイズ中間スケール量子(NISQ)ハードウェアの計算範囲を最大化するために中心的であるが、これらのスキームは、コヒーレントまたはデコヒーレントなエラーソースにのみ対処するように特化されている。 2つのタイプのエラーを定量化することは、ベンチマークエラー抑制ツールに関して望ましい機能となる。 本稿では,計算サイクルの誤差プロファイルに対するコヒーレントな寄与の詳細な推定値を得るための,スケーラブルでサイクル中心の方法論を提案する。 提案するプロトコルは、K-body Noise Reconstruction(KNR)とも呼ばれるCER(Cycle Error Reconstruction)に基づいている。 このプロトコルはCycle Benchmarking (CB) と似ており、Pauli の忠実度推定に基づくサイクル中心の診断を提供する。 我々は、pauli twirlingの対象となる前に、ハードサイクルを複数回折り畳むことができるようにすることで、cerにさらにハイパーパラメータを導入する。 付加した超パラメータの異なる値に対してCERを実行することにより、忠実度減衰公式の一般化によりコヒーレントな誤差寄与を推定できる。 量子シミュレータの数値シミュレーションにより,提案手法の精度を確認し,IBMチップ3つ(グアダルーペ,マニラ,モントレア)で概念実証実験を行った。 これら3つの実験で、Z$でバイアスされたかなりのコヒーレント誤差を測定する。

Mitigation and calibration schemes are central to maximize the computational reach of today's Noisy Intermediate Scale Quantum (NISQ) hardware, but these schemes are often specialized to exclusively address either coherent or decoherent error sources. Quantifying the two types of errors hence constitutes a desirable feature when it comes to benchmarking error suppression tools. In this paper, we present a scalable and cycle-centric methodology for obtaining a detailed estimate of the coherent contribution to the error profile of a computing cycle. The protocol that we suggest is based on Cycle Error Reconstruction (CER), also known as K-body Noise Reconstruction (KNR). This protocol is similar to Cycle Benchmarking (CB) in that it provides a cycle-centric diagnostic based on Pauli fidelity estimation. We introduce an additional hyper-parameter in CER by allowing the hard cycles to be folded multiple times before being subject to Pauli twirling. Performing CER for different values of our added hyper-parameter allows estimating the coherent error contributions through a generalization of the fidelity decay formula. We confirm the accuracy of our method through numerical simulations on a quantum simulator, and perform proof-of-concept experiments on three IBM chips, namely guadalupe, manila and montreal. In all three experiments, we measure substantial coherent errors biased in $Z$.
翻訳日:2023-03-20 14:45:53 公開日:2023-03-17
# 時計回りの最適自由空間量子通信のための調整可能な空間フィルタ

Adjustable spatial filter for optimal free-space quantum communication round the clock ( http://arxiv.org/abs/2303.09942v1 )

ライセンス: Link先を確認
Andrej Kr\v{z}i\v{c}, Nico D\"oll, Uday Chandrashekara, Christopher Spiess, Fabian Steinlechner(参考訳) 日中の自由空間量子通信は空間フィルタリングに大きく依存する。 しかし、最適なフィルタ構成は、常に変化するリンク条件に依存する。 この目的のために,システム視野をオンザフライで変更できる調整可能な空間フィルタを開発した。 我々は1.7km自由空間リンク上の量子鍵分布におけるその利用を実証する。 さらに,マルチモードファイバ結合によるフィルタリングと比較した。 最後に,本研究の結果をより広い範囲の現実的なリンク条件に推定し,アクティブなフィールドオブビュー最適化がシステム全体のセキュアなキー出力を大幅に改善する可能性を示す。

Free-space quantum communication in daylight relies crucially on spatial filtering. The optimal filter configuration, however, depends on ever-changing link conditions. To this end, we developed an adjustable spatial filter that can be used to change the system field of view on the fly. We demonstrate its use in quantum key distribution over a 1.7-km free-space link. Furthermore, we compare it to filtering with multi-mode fibre coupling. Finally, we extrapolate our results to a broader range of realistic link conditions and show that active field-of-view optimization has the potential to substantially improve the overall secure key output of the system.
翻訳日:2023-03-20 14:45:27 公開日:2023-03-17
# 記憶に跳躍する: 時空深層特徴合成

Leaping Into Memories: Space-Time Deep Feature Synthesis ( http://arxiv.org/abs/2303.09941v1 )

ライセンス: Link先を確認
Alexandros Stergiou and Nikos Deligiannis(参考訳) ディープラーニングモデルの成功は、顕著なビデオ理解手法による適応と採用につながった。 これらのアプローチの大部分は、内部動作と学習された表現が視覚的に解釈するのが困難である共同時空モダリティの特徴を符号化している。 モデルの内部時空間表現から映像を合成するアーキテクチャに依存しないLEAPS(LEArned Preconscious Synthesis)を提案する。 刺激映像と対象クラスを用いて固定時空モデルを生成し,無作為な雑音により初期化された映像を反復的に最適化する。 また,合成ビデオの特徴の多様性や,フレーム間の時間的コヒーレンスを改善するために,追加のレギュレータを組み込んだ。 我々は,Kineetics-400で訓練された多種多様な時空間畳み込みおよび注意に基づくアーキテクチャを逆転させることにより,LEAPSの適用性を定量的に,質的に評価する。

The success of deep learning models has led to their adaptation and adoption by prominent video understanding methods. The majority of these approaches encode features in a joint space-time modality for which the inner workings and learned representations are difficult to visually interpret. We propose LEArned Preconscious Synthesis (LEAPS), an architecture-agnostic method for synthesizing videos from the internal spatiotemporal representations of models. Using a stimulus video and a target class, we prime a fixed space-time model and iteratively optimize a video initialized with random noise. We incorporate additional regularizers to improve the feature diversity of the synthesized videos as well as the cross-frame temporal coherence of motions. We quantitatively and qualitatively evaluate the applicability of LEAPS by inverting a range of spatiotemporal convolutional and attention-based architectures trained on Kinetics-400, which to the best of our knowledge has not been previously accomplished.
翻訳日:2023-03-20 14:45:19 公開日:2023-03-17
# 代替損失関数はニューラルネットワークの性能を向上させる

Alternate Loss Functions Can Improve the Performance of Artificial Neural Networks ( http://arxiv.org/abs/2303.09935v1 )

ライセンス: Link先を確認
Mathew Mithra Noel, Arindam Banerjee, Geraldine Bessie Amali D(参考訳) すべての機械学習アルゴリズムは損失、コスト、ユーティリティ、報酬関数を使用して学習目標を符号化し、学習プロセスを監督する。 学習を監督するこの関数は、しばしば認識されていないハイパーパラメータであり、不正な出力がどのようにペナル化され、パフォーマンスを改善するために調整されるかを決定する。 本稿では,ニューラルネットワークの学習速度と最終的な精度が,ニューラルネットワークの学習に使用される損失関数に大きく依存することを示す。 特に、微分値は損失関数が異なる場合に大きく異なることができ、勾配降下に基づくバックプロパゲーション(BP)訓練後の性能が著しく異なる。 本稿では,不正確な出力をペナライズする際の一般的なクロスエントロピー損失に比べ,よりリベラルな,あるいは厳密な新たな損失関数の性能への影響について検討する。 8つの新たな損失関数を提案し,異なる損失関数との比較を行った。 本稿では,コンピュータビジョンとNLPベンチマークにおいて,クロスエントロピー損失よりも優れた損失関数を示す。

All machine learning algorithms use a loss, cost, utility or reward function to encode the learning objective and oversee the learning process. This function that supervises learning is a frequently unrecognized hyperparameter that determines how incorrect outputs are penalized and can be tuned to improve performance. This paper shows that training speed and final accuracy of neural networks can significantly depend on the loss function used to train neural networks. In particular derivative values can be significantly different with different loss functions leading to significantly different performance after gradient descent based Backpropagation (BP) training. This paper explores the effect on performance of new loss functions that are more liberal or strict compared to the popular Cross-entropy loss in penalizing incorrect outputs. Eight new loss functions are proposed and a comparison of performance with different loss functions is presented. The new loss functions presented in this paper are shown to outperform Cross-entropy loss on computer vision and NLP benchmarks.
翻訳日:2023-03-20 14:45:02 公開日:2023-03-17
# 自己スーパービジョン・アウト・オブ・ディストリビューション・スコリングによる病理画像のロバスト半監督学習

Robust Semi-Supervised Learning for Histopathology Images through Self-Supervision Guided Out-of-Distribution Scoring ( http://arxiv.org/abs/2303.09930v1 )

ライセンス: Link先を確認
Nikhil Cherian Kurian, Varsha S, Abhijit Patil, Shashikant Khade, Amit Sethi(参考訳) 半教師付き学習 (semi-sl) は, 医用画像解析における品質管理が困難である場合, 教師付き学習に代わる有望な代替手段である。 しかし、semi-slは、基礎となる未監査データの分布が少数のラベル付きサンプルの分布と一致すると仮定している。 半SLの未ラベルトレーニングプールにおけるOOD(out-of-distriion)サンプルの存在は避けられず,アルゴリズムの効率を低下させることができる。 異常サンプルをフィルターする一般的な前処理方法は、幅広い解剖学的構造と稀な形態を含む医療画像には適さないかもしれない。 本稿では,デジタルヒストロジー画像におけるオープンセット教師あり学習課題に対処するための新しいパイプラインを提案する。 パイプラインは、自己教師付き学習に基づいて、各データポイントのOODスコアを効率的に推定し、その後の半SLフレームワークに必要な知識を校正する。 OOD検出器から得られる外れ値スコアを用いて、その後の半SLステージのサンプル選択を変調し、少数のラベル付きサンプルの分布に応じたサンプルがその後の半SLフレームワークにより頻繁に露出することを保証する。 我々のフレームワークはどんなセミSLフレームワークとも互換性があり、我々の実験は人気のあるMixmatchセミSLフレームワークに基づいています。 大腸組織学データセットとtga-brca全体のスライド画像から得られたデータセットの2つのデジタル病理学データセットについて広範な研究を行い,半slアルゴリズムの一般的な方法とフレームワークを様々な実験を通して比較することにより,本手法の有効性を確立した。

Semi-supervised learning (semi-SL) is a promising alternative to supervised learning for medical image analysis when obtaining good quality supervision for medical imaging is difficult. However, semi-SL assumes that the underlying distribution of unaudited data matches that of the few labeled samples, which is often violated in practical settings, particularly in medical images. The presence of out-of-distribution (OOD) samples in the unlabeled training pool of semi-SL is inevitable and can reduce the efficiency of the algorithm. Common preprocessing methods to filter out outlier samples may not be suitable for medical images that involve a wide range of anatomical structures and rare morphologies. In this paper, we propose a novel pipeline for addressing open-set supervised learning challenges in digital histology images. Our pipeline efficiently estimates an OOD score for each unlabelled data point based on self-supervised learning to calibrate the knowledge needed for a subsequent semi-SL framework. The outlier score derived from the OOD detector is used to modulate sample selection for the subsequent semi-SL stage, ensuring that samples conforming to the distribution of the few labeled samples are more frequently exposed to the subsequent semi-SL framework. Our framework is compatible with any semi-SL framework, and we base our experiments on the popular Mixmatch semi-SL framework. We conduct extensive studies on two digital pathology datasets, Kather colorectal histology dataset and a dataset derived from TCGA-BRCA whole slide images, and establish the effectiveness of our method by comparing with popular methods and frameworks in semi-SL algorithms through various experiments.
翻訳日:2023-03-20 14:44:48 公開日:2023-03-17
# 拡張時空における連続変数共有のための量子絡み合い

Quantum entanglement for continuous variables sharing in an expanding spacetime ( http://arxiv.org/abs/2303.09924v1 )

ライセンス: Link先を確認
Wen-Mei Li, Rui-Di Wang, Hao-Yu Wu, Xiao-Li Huang, Hao-Sheng Zen, Shu-Min Wu(参考訳) 時空の構造を量子技術で検出することは、相対論的量子情報のフロンティアのトピックである。 ここでは,時空拡大に伴うスカラー場のガウス的絡み合いの発生と再分布を解析的に研究する。 我々は,この状態が漸近的過去から漸近的未来への時間進化に対応するガウス増幅チャネルを介して2モード圧縮状態を考える。 したがって、膨張する宇宙におけるガウス状態の動的絡み合いは、基礎となる時空構造に関する歴史的情報をエンコードし、観測宇宙論における有望な応用を示唆する。 量子の絡み合いは膨張体積よりも膨張速度に敏感であることがわかった。 量子エンタングルメントの分析によると、運動量と最適な質量を持つ粒子を選ぶことは、膨張する宇宙に関する情報を抽出するより良い方法である。 これらの結果は、量子系における膨張する宇宙のシミュレーションを導くことができる。

Detecting the structure of spacetime with quantum technologies has always been one of the frontier topics of relativistic quantum information. Here, we analytically study the generation and redistribution of Gaussian entanglement of the scalar fields in an expanding spacetime. We consider a two-mode squeezed state via a Gaussian amplification channel that corresponds to the time-evolution of the state from the asymptotic past to the asymptotic future. Therefore, the dynamical entanglement of the Gaussian state in an expanding universe encodes historical information about the underlying spacetime structure, suggesting a promising application in observational cosmology. We find that quantum entanglement is more sensitive to the expansion rate than the expansion volume. According to the analysis of quantum entanglement, choosing the particles with the smaller momentum and the optimal mass is a better way to extract information about the expanding universe. These results can guide the simulation of the expanding universe in quantum systems.
翻訳日:2023-03-20 14:44:16 公開日:2023-03-17
# 衝突分解圧力センサ

Collision-resolved pressure sensing ( http://arxiv.org/abs/2303.09922v1 )

ライセンス: Link先を確認
Daniel S. Barker, Daniel Carney, Thomas W. LeBrun, David C. Moore, Jacob M. Taylor(参考訳) 熱と圧力は最終的に気体粒子やフォノンのような量子化された自由度を通じて伝達される。 これらのノイズ源の連続的なブラウン記述は、比較的長い積分時間を持つ測定をモデル化するのに適しているが、十分正確な測定は、個々の浴系相互作用から生じる詳細な時間依存性を解決できる。 本稿では,センサ上でのガス粒子の衝突を直接数えることで,超低ガス圧を検知するために,「標準量子限界」の周囲のインパルス読み出し感度で動作するナノメカニカルデバイスを提案する。 我々は、光学浮揚ナノビーズと、フォノニックバンドギャップシールド内のテザリング膜システムという2つのパラダイムモデルシステムでこれを説明する。

Heat and pressure are ultimately transmitted via quantized degrees of freedom, like gas particles and phonons. While a continuous Brownian description of these noise sources is adequate to model measurements with relatively long integration times, sufficiently precise measurements can resolve the detailed time dependence coming from individual bath-system interactions. We propose the use of nanomechanical devices operated with impulse readout sensitivity around the ``standard quantum limit'' to sense ultra-low gas pressures by directly counting the individual collisions of gas particles on a sensor. We illustrate this in two paradigmatic model systems: an optically levitated nanobead and a tethered membrane system in a phononic bandgap shield.
翻訳日:2023-03-20 14:44:02 公開日:2023-03-17
# 学習可能な表現を用いたイベントベースオブジェクト検出のためのデュアルメモリ集約ネットワーク

Dual Memory Aggregation Network for Event-Based Object Detection with Learnable Representation ( http://arxiv.org/abs/2303.09919v1 )

ライセンス: Link先を確認
Dongsheng Wang, Xu Jia, Yang Zhang, Xinyu Zhang, Yaoyuan Wang, Ziyang Zhang, Dong Wang, Huchuan Lu(参考訳) イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。 フレームベースのセンサーと比較すると、イベントカメラはマイクロ秒レベルのレイテンシと高いダイナミックレンジを有しており、高速動作と照明条件の悪い環境での物体検出には大きな可能性を秘めている。 イベントストリームによるスパーシリティと非同期性のため、既存のアプローチの多くは、イベントデータを2Dグリッド表現に変換する手作りの手法を採用している。 しかし、それらはオブジェクト検出のためにイベントストリームから情報を集約するサブ最適である。 本研究では,イベントベースオブジェクト検出に最適化されたイベント表現の学習を提案する。 具体的には、イベントストリームは正極性と負極性の両方のx-y-t座標の格子に分割され、3次元テンソル表現として一連の柱を生成する。 オブジェクトを検出するためにイベントストリームを用いた情報を完全に活用するために、イベントストリームに沿った長メモリと短メモリの両方を活用するために、デュアルメモリ集約ネットワーク(DMANet)が提案されている。 長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリは隣接する時間間隔でイベントピラー間の空間時間相関を計算することによってモデル化される。 最近リリースされたイベントベース自動車検知データセットの大規模な実験により,提案手法の有効性が示された。

Event-based cameras are bio-inspired sensors that capture brightness change of every pixel in an asynchronous manner. Compared with frame-based sensors, event cameras have microsecond-level latency and high dynamic range, hence showing great potential for object detection under high-speed motion and poor illumination conditions. Due to sparsity and asynchronism nature with event streams, most of existing approaches resort to hand-crafted methods to convert event data into 2D grid representation. However, they are sub-optimal in aggregating information from event stream for object detection. In this work, we propose to learn an event representation optimized for event-based object detection. Specifically, event streams are divided into grids in the x-y-t coordinates for both positive and negative polarity, producing a set of pillars as 3D tensor representation. To fully exploit information with event streams to detect objects, a dual-memory aggregation network (DMANet) is proposed to leverage both long and short memory along event streams to aggregate effective information for object detection. Long memory is encoded in the hidden state of adaptive convLSTMs while short memory is modeled by computing spatial-temporal correlation between event pillars at neighboring time intervals. Extensive experiments on the recently released event-based automotive detection dataset demonstrate the effectiveness of the proposed method.
翻訳日:2023-03-20 14:43:48 公開日:2023-03-17
# よりクリーンな自己によるセマンティックシーンの完成

Semantic Scene Completion with Cleaner Self ( http://arxiv.org/abs/2303.09977v1 )

ライセンス: Link先を確認
Fengyun Wang, Dong Zhang, Hanwang Zhang, Jinhui Tang, and Qianru Sun(参考訳) semantic scene completion (ssc) は、シングルビュー深度および/またはrgb 2dピクセルの画像を3dボクセルに変換し、それぞれに意味ラベルが予測される。 SSCは、予測モデルが目に見える表面の背後にあるものを「想像する」必要があるため、よく知られた偽装問題であり、通常はTrncated Signed Distance Function (TSDF) によって表される。 奥行きカメラの感覚不完全性のため、奥行き値から推定される雑音性TSDFに基づく既存の方法がほとんどである。 1)不完全な容積予測と 2) 意味ラベルの混同。 この目的のために、地上3Dボクセルを用いて、TSDF-CADと呼ばれる完全な可視表面を生成し、次に「クリーン」SSCモデルを訓練する。 モデルはノイズフリーであるため、見えないボクセルの「想像」をより重視することが期待されている。 そこで, 中間の「クリーナー」知識を, 雑音tsdf入力のある別のモデルに蒸留する。 特に,3次元占有率特徴と「クリーナー・セルフ」の意味関係を用いて,上記の2つの不正確な予測にそれぞれ対応する「ノイズ・セルフ」を監督する。 実験の結果,3.1%のIoUと2.2%のmIoUを用いて,シーン完了とSSCを計測し,また,人気の高いNYUデータセット上で新たな最先端の精度を実現することができた。

Semantic Scene Completion (SSC) transforms an image of single-view depth and/or RGB 2D pixels into 3D voxels, each of whose semantic labels are predicted. SSC is a well-known ill-posed problem as the prediction model has to "imagine" what is behind the visible surface, which is usually represented by Truncated Signed Distance Function (TSDF). Due to the sensory imperfection of the depth camera, most existing methods based on the noisy TSDF estimated from depth values suffer from 1) incomplete volumetric predictions and 2) confused semantic labels. To this end, we use the ground-truth 3D voxels to generate a perfect visible surface, called TSDF-CAD, and then train a "cleaner" SSC model. As the model is noise-free, it is expected to focus more on the "imagination" of unseen voxels. Then, we propose to distill the intermediate "cleaner" knowledge into another model with noisy TSDF input. In particular, we use the 3D occupancy feature and the semantic relations of the "cleaner self" to supervise the counterparts of the "noisy self" to respectively address the above two incorrect predictions. Experimental results validate that our method improves the noisy counterparts with 3.1% IoU and 2.2% mIoU for measuring scene completion and SSC, and also achieves new state-of-the-art accuracy on the popular NYU dataset.
翻訳日:2023-03-20 14:36:30 公開日:2023-03-17
# mednext: 医用画像セグメンテーションのためのconvnetのトランスフォーマー駆動スケーリング

MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation ( http://arxiv.org/abs/2303.09975v1 )

ライセンス: Link先を確認
Saikat Roy, Gregor Koehler, Constantin Ulrich, Michael Baumgartner, Jens Petersen, Fabian Isensee, Paul F. Jaeger, Klaus Maier-Hein(参考訳) 医療画像セグメンテーションのためにTransformerベースのアーキテクチャを採用することへの関心は爆発的に高まっている。 しかし、大規模な注釈付き医療データセットの欠如により、自然画像のそれと同等のパフォーマンスを達成することは困難である。 対照的に畳み込みネットワークは誘導バイアスが高く、その結果、高い性能で容易に訓練できる。 近年、convnextアーキテクチャはトランスフォーマーブロックをミラーリングすることで標準convnetの近代化を試みた。 そこで本研究では, 医療現場の課題に合わせてカスタマイズした, 現代的でスケーラブルな畳み込み型アーキテクチャの設計を改良した。 トランスフォーマーにインスパイアされた大規模カーネルセグメンテーションネットワークであるMedNeXtを導入し,1)医療画像セグメンテーションのための完全なConvNeXt 3Dエンコーダデコーダネットワークを導入する。 2) 規模にまたがる意味的豊かさを維持するため,残留ConvNeXtのアップアンドダウンサンプリングブロック。 3)小規模カーネルネットワークのアップサンプリングによるカーネルサイズを反復的に増加させ,限られた医療データの性能飽和を防止する新手法 4)MedNeXtの複数レベルの複合スケーリング(深さ,幅,カーネルサイズ)。 これにより、CTとMRIの4つのタスクにおける最先端のパフォーマンスと、さまざまなデータセットサイズが実現され、医療画像セグメンテーションのための近代化されたディープアーキテクチャが表される。

There has been exploding interest in embracing Transformer-based architectures for medical image segmentation. However, the lack of large-scale annotated medical datasets make achieving performances equivalent to those in natural images challenging. Convolutional networks, in contrast, have higher inductive biases and consequently, are easily trainable to high performance. Recently, the ConvNeXt architecture attempted to modernize the standard ConvNet by mirroring Transformer blocks. In this work, we improve upon this to design a modernized and scalable convolutional architecture customized to challenges of data-scarce medical settings. We introduce MedNeXt, a Transformer-inspired large kernel segmentation network which introduces - 1) A fully ConvNeXt 3D Encoder-Decoder Network for medical image segmentation, 2) Residual ConvNeXt up and downsampling blocks to preserve semantic richness across scales, 3) A novel technique to iteratively increase kernel sizes by upsampling small kernel networks, to prevent performance saturation on limited medical data, 4) Compound scaling at multiple levels (depth, width, kernel size) of MedNeXt. This leads to state-of-the-art performance on 4 tasks on CT and MRI modalities and varying dataset sizes, representing a modernized deep architecture for medical image segmentation.
翻訳日:2023-03-20 14:36:02 公開日:2023-03-17
# 外乱検知器改善のための周辺平均化

Neighborhood Averaging for Improving Outlier Detectors ( http://arxiv.org/abs/2303.09972v1 )

ライセンス: Link先を確認
Jiawei Yang, Susanto Rahardja, Pasi Franti(参考訳) 類似した対象が類似した外れ値を持つべきだと仮定する。 我々の知る限り、既存の外れ値検出器は全て、他のオブジェクトの外れ値によらず、各オブジェクトの外れ値を計算する。 したがって、類似のオブジェクトが同様の外れ値を持つことを保証しない。 提案する仮説を検証するために,物体とその近傍に注意を払って,元のスコアよりも類似した外れ値を持つことを保証する,近傍平均化(na)と呼ばれる異常値検出のための外れ値後処理手法を提案する。 物体とその外れ値が任意の外れ値検出器から与えられると、NAはその外れ値と最も近い隣人のスコアを組み合わせてその外れ値を変更する。 我々は、よく知られたk-nearest neighbors (k-NN)を用いてNAの効果を示す。 実験の結果、NAは9つの実世界のデータセットで評価された平均10基のベースライン検出器を13%(0.70から0.79 AUC)改善した。 また、既にk-nnに基づく異常検出器も改善されている。 実験によっては、検出器がNAと共同で使用される場合、検出器の選択はもはや重要ではないことが示され、これはデータモデルが最も重要な要素であるという一般的な考え方に挑戦する可能性がある。 再現性のためにwww.outlierNet.comでコードを開きます。

We hypothesize that similar objects should have similar outlier scores. To our knowledge, all existing outlier detectors calculate the outlier score for each object independently regardless of the outlier scores of the other objects. Therefore, they do not guarantee that similar objects have similar outlier scores. To verify our proposed hypothesis, we propose an outlier score post-processing technique for outlier detectors, called neighborhood averaging(NA), which pays attention to objects and their neighbors and guarantees them to have more similar outlier scores than their original scores. Given an object and its outlier score from any outlier detector, NA modifies its outlier score by combining it with its k nearest neighbors' scores. We demonstrate the effectivity of NA by using the well-known k-nearest neighbors (k-NN). Experimental results show that NA improves all 10 tested baseline detectors by 13% (from 0.70 to 0.79 AUC) on average evaluated on nine real-world datasets. Moreover, even outlier detectors that are already based on k-NN are also improved. The experiments also show that in some applications, the choice of detector is no more significant when detectors are jointly used with NA, which may pose a challenge to the generally considered idea that the data model is the most important factor. We open our code on www.outlierNet.com for reproducibility.
翻訳日:2023-03-20 14:35:38 公開日:2023-03-17
# 対物的視覚的説明法

Adversarial Counterfactual Visual Explanations ( http://arxiv.org/abs/2303.09962v1 )

ライセンス: Link先を確認
Guillaume Jeanneret and Lo\"ic Simon and Fr\'ed\'eric Jurie(参考訳) 反事実的説明と敵対的攻撃は、その特性に関係なく最小限の摂動で出力ラベルをひっくり返すという、関連する目標を持っている。 しかし、このような摂動はノイズとして認識され、動作可能で理解可能な画像修正ではないため、反現実的な説明の観点からは直接は敵攻撃は使用できない。 本稿では, 頑健な学習文献に基づいて, 対人攻撃を意味論的に意味のある摂動に変換するためのエレガントな手法を提案する。 提案手法は,拡散確率モデルが敵攻撃発生時の高周波および分布外摂動を回避するための優れた正則化器であることを仮定する。 論文の重要なアイデアは、拡散モデルを通じてそれらを磨く攻撃を構築することである。 これにより、ロバスト化レベルに関係なくターゲットモデルを研究することができる。 大規模実験により,複数のテストベッドにおける現状に対する反実的説明手法の利点が示された。

Counterfactual explanations and adversarial attacks have a related goal: flipping output labels with minimal perturbations regardless of their characteristics. Yet, adversarial attacks cannot be used directly in a counterfactual explanation perspective, as such perturbations are perceived as noise and not as actionable and understandable image modifications. Building on the robust learning literature, this paper proposes an elegant method to turn adversarial attacks into semantically meaningful perturbations, without modifying the classifiers to explain. The proposed approach hypothesizes that Denoising Diffusion Probabilistic Models are excellent regularizers for avoiding high-frequency and out-of-distribution perturbations when generating adversarial attacks. The paper's key idea is to build attacks through a diffusion model to polish them. This allows studying the target model regardless of its robustification level. Extensive experimentation shows the advantages of our counterfactual explanation approach over current State-of-the-Art in multiple testbeds.
翻訳日:2023-03-20 14:35:20 公開日:2023-03-17
# 多項式推定器による確率的部分モジュラー最大化

Stochastic Submodular Maximization via Polynomial Estimators ( http://arxiv.org/abs/2303.09960v1 )

ライセンス: Link先を確認
G\"ozde \"Ozcan and Stratis Ioannidis(参考訳) 本稿では,オンライン学習,チーム形成,施設配置,影響最大化,アクティブラーニング,客観的機能センシングにおいて自然に発生する,一般的なマトロイド制約を伴う確率的サブモジュラー最大化問題について検討する。 言い換えれば、未知分布を持つ部分モジュラ関数のクラスに対する期待として定義される部分モジュラ関数を最大化することに集中する。 この形の単調関数に対して、確率的連続グリーディアルゴリズムは勾配の多項式推定を用いて、任意に$(1-1/e) \approx 63\%$に近似比(予想)を得ることを示す。 サンプリングを用いた従来の手法の代わりにこの多項式推定器を用いることで、ランダム性の源を排除し、実行時間を実験的に短縮する。

In this paper, we study stochastic submodular maximization problems with general matroid constraints, that naturally arise in online learning, team formation, facility location, influence maximization, active learning and sensing objective functions. In other words, we focus on maximizing submodular functions that are defined as expectations over a class of submodular functions with an unknown distribution. We show that for monotone functions of this form, the stochastic continuous greedy algorithm attains an approximation ratio (in expectation) arbitrarily close to $(1-1/e) \approx 63\%$ using a polynomial estimation of the gradient. We argue that using this polynomial estimator instead of the prior art that uses sampling eliminates a source of randomness and experimentally reduces execution time.
翻訳日:2023-03-20 14:35:03 公開日:2023-03-17
# GNNFormer: 細胞病理レポート生成のためのグラフベースのフレームワーク

GNNFormer: A Graph-based Framework for Cytopathology Report Generation ( http://arxiv.org/abs/2303.09956v1 )

ライセンス: Link先を確認
Yang-Fan Zhou, Kai-Lang Yao, Wu-Jun Li(参考訳) 病理組織学的レポートの作成は病理画像の標準化検査に必要なステップである。 しかし、手動で詳細なレポートを書くことは、病理学者に重荷をもたらす。 効率を向上させるために、自然画像に当初提案されていた視覚エンコーダを用いた画像キャプション生成フレームワークを応用し、細胞病理報告の自動生成に関する研究を行っている。 これらの研究の一般的な弱点は、病理画像の重要な特徴である細胞間の構造情報を明示的にモデル化していないことであり、診断を行う上で重要な情報を提供する。 本稿では,細胞病理報告生成のためのグラフニューラルネットワーク(GNN)とTransformerをシームレスに同じフレームワークに統合する,GNNFormerと呼ばれる新しいグラフベースのフレームワークを提案する。 我々の知る限り、GNNFormerは病理画像中の細胞間の構造情報を明示的にモデル化する最初のレポート生成手法である。 また、細胞間の構造情報、細胞の微細な形態特徴、背景特徴を効果的に融合し、高品質なレポートを生成する。 NMI-WSIデータセットの実験結果は、GNNFormerが他の最先端ベースラインより優れていることを示している。

Cytopathology report generation is a necessary step for the standardized examination of pathology images. However, manually writing detailed reports brings heavy workloads for pathologists. To improve efficiency, some existing works have studied automatic generation of cytopathology reports, mainly by applying image caption generation frameworks with visual encoders originally proposed for natural images. A common weakness of these works is that they do not explicitly model the structural information among cells, which is a key feature of pathology images and provides significant information for making diagnoses. In this paper, we propose a novel graph-based framework called GNNFormer, which seamlessly integrates graph neural network (GNN) and Transformer into the same framework, for cytopathology report generation. To the best of our knowledge, GNNFormer is the first report generation method that explicitly models the structural information among cells in pathology images. It also effectively fuses structural information among cells, fine-grained morphology features of cells and background features to generate high-quality reports. Experimental results on the NMI-WSI dataset show that GNNFormer can outperform other state-of-the-art baselines.
翻訳日:2023-03-20 14:34:47 公開日:2023-03-17
# ネットワークシナリオにおける局所モデルの数値支援決定

Numerically assisted determination of local models in network scenarios ( http://arxiv.org/abs/2303.09954v1 )

ライセンス: Link先を確認
Jos\'e M\'ariso da Silva and Fernando Parisio(参考訳) ネットワークシナリオにおける隠れ変数の濃度が一般性を失うことなく有限であると仮定できるという事実を生かして、与えられた統計的振る舞いを再現する明示的な局所モデルを見つけるための数値ツールを開発した。 次に,ネットワーク局所境界が知られている統計的行動の家族を用いて,二元的シナリオを用いて数値計算を行った。 さらに,入力のない三角形ネットワークにおいて,均一なランダムノイズを混合した3つの顕著な分布の臨界可視性について検討した。 グリーンベルガー・ホルン・ザイリンガー(GHZ)およびW分布(第4次多項式の根である)の臨界可視性についての予想と、エレガント関節計測分布の臨界可視性の低い境界推定を提供する。 開発されたコードとドキュメントはgithub.com/mariofilho281/localmodelsで公開されている

Taking advantage of the fact that the cardinalities of hidden variables in network scenarios can be assumed to be finite without loss of generality, a numerical tool for finding explicit local models that reproduce a given statistical behaviour was developed. The numerical procedure was then validated using families of statistical behaviours for which the network-local boundary is known, in the bilocal scenario. Furthermore, the critical visibility for 3 notable distributions mixed with a uniform random noise is investigated in the triangle network without inputs. We provide conjectures for the critical visibilities of the Greenberger-Horne-Zeilinger (GHZ) and W distributions (which are roots of 4th degree polynomials), as well as a lower bound estimate of the critical visibility of the Elegant Joint Measurement distribution. The developed codes and documentation are publicly available at github.com/mariofilho281/localmodels
翻訳日:2023-03-20 14:34:30 公開日:2023-03-17
# 深度教師による単眼神経放射野

Single-view Neural Radiance Fields with Depth Teacher ( http://arxiv.org/abs/2303.09952v1 )

ライセンス: Link先を確認
Yurui Chen, Chun Gu, Feihu Zhang, Li Zhang(参考訳) ニューラルレージアンス場 (NeRF) はフォトリアリスティックな新しいビューレンダリングのために提案されている。 しかし、トレーニングには複数の異なるシーンのビューが必要である。 また、新しい場面への一般化が乏しく、各シーンの調整や微調整も必要である。 本稿では,単一画像のみを入力として,新しいビュー合成のための新しいNeRFモデルを開発する。 本稿では,平面レンダリングとボリュームレンダリング(細かな)を組み合わせて,高いレンダリング品質とより良い一般化を実現することを提案する。 また,統合レンダリング機構を監督し,一貫した3次元幾何学の学習を促進するために,密集した擬似深度マップを予測する深度教師ネットを設計する。 提案手法を3つの挑戦的データセットで評価する。 PSNRの5$\sim$20\%の改善と、深度レンダリングにおけるエラーの20$\sim$50\%削減によって、最先端のシングルビューNeRFよりも優れています。 また、新しいシーンごとに微調整することなく、データを見落とせる優れた一般化能力を示す。

Neural Radiance Fields (NeRF) have been proposed for photorealistic novel view rendering. However, it requires many different views of one scene for training. Moreover, it has poor generalizations to new scenes and requires retraining or fine-tuning on each scene. In this paper, we develop a new NeRF model for novel view synthesis using only a single image as input. We propose to combine the (coarse) planar rendering and the (fine) volume rendering to achieve higher rendering quality and better generalizations. We also design a depth teacher net that predicts dense pseudo depth maps to supervise the joint rendering mechanism and boost the learning of consistent 3D geometry. We evaluate our method on three challenging datasets. It outperforms state-of-the-art single-view NeRFs by achieving 5$\sim$20\% improvements in PSNR and reducing 20$\sim$50\% of the errors in the depth rendering. It also shows excellent generalization abilities to unseen data without the need to fine-tune on each new scene.
翻訳日:2023-03-20 14:34:13 公開日:2023-03-17
# 深いグラフに基づくロバストな非剛点クラウド登録のための空間整合性

Deep Graph-based Spatial Consistency for Robust Non-rigid Point Cloud Registration ( http://arxiv.org/abs/2303.09950v1 )

ライセンス: Link先を確認
Zheng Qin, Hao Yu, Changjian Wang, Yuxing Peng and Kai Xu(参考訳) 非剛性点雲登録における異常対応プルーニングの問題について検討する。 厳密な登録では、空間的一貫性は、異常値から外れ値を区別するために一般的に用いられる基準である。 2点の雲における各距離間の差分によって2つの対応の整合性を測定する。 しかし,非剛性症例では空間的整合性はもはや保たず,非剛性登録に対する外周拒絶は十分に研究されていない。 本研究では,グラフベースの空間整合性ネットワーク(GraphSCNet)を提案する。 本手法は,非剛性変形が通常局所的剛性あるいは局所的形状保存であるという事実に基づく。 まず,点雲の変形グラフ上での局所的空間的整合性尺度の設計を行い,グラフノード近傍の対応値間の空間的整合性を評価する。 次に,局所的空間的一貫性から非剛性対応のロバスト表現を学ぶために注意に基づく非剛性対応埋め込みモジュールを考案した。 その単純さにもかかわらず、GraphSCNetは命令対応の品質を効果的に改善し、3つの挑戦的なベンチマークで最先端のパフォーマンスを達成する。 私たちのコードとモデルはhttps://github.com/qinzheng93/graphscnetで利用可能です。

We study the problem of outlier correspondence pruning for non-rigid point cloud registration. In rigid registration, spatial consistency has been a commonly used criterion to discriminate outliers from inliers. It measures the compatibility of two correspondences by the discrepancy between the respective distances in two point clouds. However, spatial consistency no longer holds in non-rigid cases and outlier rejection for non-rigid registration has not been well studied. In this work, we propose Graph-based Spatial Consistency Network (GraphSCNet) to filter outliers for non-rigid registration. Our method is based on the fact that non-rigid deformations are usually locally rigid, or local shape preserving. We first design a local spatial consistency measure over the deformation graph of the point cloud, which evaluates the spatial compatibility only between the correspondences in the vicinity of a graph node. An attention-based non-rigid correspondence embedding module is then devised to learn a robust representation of non-rigid correspondences from local spatial consistency. Despite its simplicity, GraphSCNet effectively improves the quality of the putative correspondences and attains state-of-the-art performance on three challenging benchmarks. Our code and models are available at https://github.com/qinzheng93/GraphSCNet.
翻訳日:2023-03-20 14:33:56 公開日:2023-03-17
# ニューラルネットワーク波動関数の基礎モデルに向けて

Towards a Foundation Model for Neural Network Wavefunctions ( http://arxiv.org/abs/2303.09949v1 )

ライセンス: Link先を確認
Michael Scherbela, Leon Gerard, Philipp Grohs(参考訳) 深部ニューラルネットワークは、電子的シュリンガー方程式を解くための変分モンテカルロ法と組み合わせて、非常に正確で強力な波動関数アンサッツとなった。 しかし、その成功と優れたスケーリングにもかかわらず、これらの手法は広く採用するには計算コストがかかりすぎる。 重要な障害は、新しいシステムのスクラッチから波動関数を最適化する必要があるため、長い最適化が必要であることである。 本研究では,非相関で計算コストの低いHartree-Fock軌道を相関した高精度ニューラルネットワーク軌道に効果的にマッピングするニューラルネットワークアンサッツを提案する。 このアンザッツは、複数の化合物とジオメトリーにまたがる単一波動関数を学習することが可能であり、より小さなフラグメント上で事前訓練された波動関数モデルをより大きな化合物に転送することに成功した。 さらに、このような一般化波動関数モデルの様々な化合物およびジオメトリーにわたる広範な事前学習が基礎波動関数モデルに繋がる可能性を支持するための十分な実験的な証拠を提供する。 このようなモデルは、可観測性の微調整と評価に最小限の計算労力しか使わず、高精度のab-initioエネルギーを得ることができる。

Deep neural networks have become a highly accurate and powerful wavefunction ansatz in combination with variational Monte Carlo methods for solving the electronic Schr\"odinger equation. However, despite their success and favorable scaling, these methods are still computationally too costly for wide adoption. A significant obstacle is the requirement to optimize the wavefunction from scratch for each new system, thus requiring long optimization. In this work, we propose a novel neural network ansatz, which effectively maps uncorrelated, computationally cheap Hartree-Fock orbitals, to correlated, high-accuracy neural network orbitals. This ansatz is inherently capable of learning a single wavefunction across multiple compounds and geometries, as we demonstrate by successfully transferring a wavefunction model pre-trained on smaller fragments to larger compounds. Furthermore, we provide ample experimental evidence to support the idea that extensive pre-training of a such a generalized wavefunction model across different compounds and geometries could lead to a foundation wavefunction model. Such a model could yield high-accuracy ab-initio energies using only minimal computational effort for fine-tuning and evaluation of observables.
翻訳日:2023-03-20 14:33:35 公開日:2023-03-17
# TBP-Former:視覚中心自律運転における同時知覚と予測のための時間鳥の視点ピラミッド学習

TBP-Former: Learning Temporal Bird's-Eye-View Pyramid for Joint Perception and Prediction in Vision-Centric Autonomous Driving ( http://arxiv.org/abs/2303.09998v1 )

ライセンス: Link先を確認
Shaoheng Fang, Zi Wang, Yiqi Zhong, Junhao Ge, Siheng Chen, Yanfeng Wang(参考訳) 視覚中心の関節知覚と予測(PnP)は自律運転研究の新たなトレンドとなっている。 生のRGB画像から周辺環境における交通参加者の今後の状況を予測する。 しかしながら、不可避な幾何学的歪みにより、複数のカメラビューとタイムスタンプで得られた特徴を同期させることは依然として重要な課題であり、これらの空間的-時間的特徴をさらに活用する。 この問題に対処するために,2つの新しいデザインを含む視覚中心型PnPのための時間鳥眼視ピラミッドトランス (TBP-Former) を提案する。 まず、ポーズ同期型BEVエンコーダを提案し、任意のカメラポーズで生画像入力を任意のタイミングで共有同期型BEV空間にマッピングし、時空間同期性を向上する。 第二に、空間的時間的ピラミッド変換器を導入して、マルチスケールのBEV特徴を包括的に抽出し、空間的時間的事前支援により将来のBEV状態を予測する。 nuscenesデータセットに関する広範囲な実験により,提案するフレームワーク全体が,最先端のビジョンに基づく予測手法よりも優れていることが示された。

Vision-centric joint perception and prediction (PnP) has become an emerging trend in autonomous driving research. It predicts the future states of the traffic participants in the surrounding environment from raw RGB images. However, it is still a critical challenge to synchronize features obtained at multiple camera views and timestamps due to inevitable geometric distortions and further exploit those spatial-temporal features. To address this issue, we propose a temporal bird's-eye-view pyramid transformer (TBP-Former) for vision-centric PnP, which includes two novel designs. First, a pose-synchronized BEV encoder is proposed to map raw image inputs with any camera pose at any time to a shared and synchronized BEV space for better spatial-temporal synchronization. Second, a spatial-temporal pyramid transformer is introduced to comprehensively extract multi-scale BEV features and predict future BEV states with the support of spatial-temporal priors. Extensive experiments on nuScenes dataset show that our proposed framework overall outperforms all state-of-the-art vision-based prediction methods.
翻訳日:2023-03-20 14:27:48 公開日:2023-03-17
# ニューラル・プライア確率ブロックモデル

Neural-prior stochastic block model ( http://arxiv.org/abs/2303.09995v1 )

ライセンス: Link先を確認
O. Duranthon, L. Zdeborov\`a(参考訳) 確率ブロックモデル(SBM)は,グラフクラスタリングのベンチマークとして広く研究されている。 実際には、グラフデータは多くの場合、コミュニティに関する追加情報を持つノード属性を伴います。 ノード属性がノードコミュニティメンバシップから生成されることを考慮し、そのようなデータをモデル化した以前の作業。 本稿では,ディープニューラルネットワークを用いた近年の信号処理の進展に動機づけられ,その逆ではなく,ノード属性によって決定されるコミュニティをモデル化することを提案する。 対応するモデルを定義し,それをニューラルプライアSBMと呼ぶ。 本稿では,信念伝播と近似メッセージパッシングを組み合わせた統計物理学に基づくアルゴリズムを提案する。 ベイズ最適性能だけでなくアルゴリズムの性能も解析する。 検出可能性と正確な回復相転移,およびアルゴリズム的に硬い領域を同定する。 提案したモデルとアルゴリズムは理論とアルゴリズムのベンチマークとして利用できる。 これを説明するために、簡単なグラフニューラルネットワークの性能と最適性能を比較した。

The stochastic block model (SBM) is widely studied as a benchmark for graph clustering aka community detection. In practice, graph data often come with node attributes that bear additional information about the communities. Previous works modeled such data by considering that the node attributes are generated from the node community memberships. In this work, motivated by a recent surge of works in signal processing using deep neural networks as priors, we propose to model the communities as being determined by the node attributes rather than the opposite. We define the corresponding model; we call it the neural-prior SBM. We propose an algorithm, stemming from statistical physics, based on a combination of belief propagation and approximate message passing. We analyze the performance of the algorithm as well as the Bayes-optimal performance. We identify detectability and exact recovery phase transitions, as well as an algorithmically hard region. The proposed model and algorithm can be used as a benchmark for both theory and algorithms. To illustrate this, we compare the optimal performances to the performance of simple graph neural networks.
翻訳日:2023-03-20 14:27:25 公開日:2023-03-17
# 強化学習に基づくデータ駆動型モデル参照適応制御手法

A Data-Driven Model-Reference Adaptive Control Approach Based on Reinforcement Learning ( http://arxiv.org/abs/2303.09994v1 )

ライセンス: Link先を確認
Mohammed Abouheaf, Wail Gueaieb, Davide Spinello and Salah Al-Sharhan(参考訳) モデル参照適応システム(model-reference adaptive systems)は、植物が所望の参照軌道を追跡する手法のコンソーシアムである。 リアプノフ、滑り面、バックステッピングなどの理論に基づくアプローチは、適応制御戦略を助言するために一般的に用いられる。 結果として得られる解は、しばしば参照モデルの複雑さと派生した制御戦略によって挑戦される。 さらに、プロセス力学と参照力学モデルに対する制御戦略の明示的な依存は、不確実または未知のダイナミクスに直面して効率を低下させるのに寄与する。 ここではモデル参照適応解が自律系に対して開発され、ハミルトン・ヤコビ・ベルマン方程式の誤差に基づく構造を解く。 提案手法では, 積分時間差分方程式を用いてその過程を記述し, 積分強化学習機構を用いて解く。 これは、制御戦略においてプロセスまたは参照モデルのダイナミクスを知らずに、リアルタイムで行われる。 提案手法を検証するために航空機の種類が採用された。

Model-reference adaptive systems refer to a consortium of techniques that guide plants to track desired reference trajectories. Approaches based on theories like Lyapunov, sliding surfaces, and backstepping are typically employed to advise adaptive control strategies. The resulting solutions are often challenged by the complexity of the reference model and those of the derived control strategies. Additionally, the explicit dependence of the control strategies on the process dynamics and reference dynamical models may contribute in degrading their efficiency in the face of uncertain or unknown dynamics. A model-reference adaptive solution is developed here for autonomous systems where it solves the Hamilton-Jacobi-Bellman equation of an error-based structure. The proposed approach describes the process with an integral temporal difference equation and solves it using an integral reinforcement learning mechanism. This is done in real-time without knowing or employing the dynamics of either the process or reference model in the control strategies. A class of aircraft is adopted to validate the proposed technique.
翻訳日:2023-03-20 14:27:11 公開日:2023-03-17
# lion: 暗黙の視覚プロンプトチューニング

LION: Implicit Vision Prompt Tuning ( http://arxiv.org/abs/2303.09992v1 )

ライセンス: Link先を確認
Haixin Wang, Jianlong Chang, Xiao Luo, Jinan Sun, Zhouchen Lin, Qi Tian(参考訳) 近年の視覚タスク間の競合性能にもかかわらず、視覚変換器には計算コストの重い問題がある。 近年、視覚素早い学習は、大規模なモデル全体を微調整することなく、この問題に対する経済的解決策を提供している。 しかしながら、既存のモデルの効率は、広範囲なプロンプトブロックとトリックプロンプトの設計が挿入されたため、まだ満足できない。 本稿では,様々な複雑なタスクに対して,メモリコストの安定な暗黙的モデルによって動機付けられた,p ImpLicit vIsion prOmpt tuNing (LION) という効率的な視覚モデルを提案する。 特に、トレーニング済みのメインバックボーンの両端に2つの平衡暗黙の層を投射するだけで、バックボーンのパラメータは凍結した。 さらに,この2つの層におけるパラメータを,宝くじ仮説により推定する。 当社のライオンが獲得したパフォーマンスは,幅広いデータセットにおいて有望である。 特にLIONはトレーニングパラメータの最大11.5%を削減し、最先端のベースラインVPTよりも高いパフォーマンスを実現しています。 さらに,提案する LION の一般化性能が良好であることから,将来的なトランスファー学習の促進も容易であることがわかった。

Despite recent competitive performance across a range of vision tasks, vision Transformers still have an issue of heavy computational costs. Recently, vision prompt learning has provided an economic solution to this problem without fine-tuning the whole large-scale models. However, the efficiency of existing models are still far from satisfactory due to insertion of extensive prompts blocks and trick prompt designs. In this paper, we propose an efficient vision model named impLicit vIsion prOmpt tuNing (LION), which is motivated by deep implicit models with stable memory costs for various complex tasks. In particular, we merely insect two equilibrium implicit layers in two ends of the pre-trained main backbone with parameters in the backbone frozen. Moreover, we prune the parameters in these two layers according to lottery hypothesis. The performance obtained by our LION are promising on a wide range of datasets. In particular, our LION reduces up to 11.5% of training parameter numbers while obtaining higher performance compared with the state-of-the-art baseline VPT, especially under challenging scenes. Furthermore, we find that our proposed LION had a good generalization performance, making it an easy way to boost transfer learning in the future.
翻訳日:2023-03-20 14:26:55 公開日:2023-03-17
# 領域一般化における能力領域の探索

Finding Competence Regions in Domain Generalization ( http://arxiv.org/abs/2303.09989v1 )

ライセンス: Link先を確認
Jens M\"uller, Stefan T. Radev, Robert Schmier, Felix Draxler, Carsten Rother, Ullrich K\"othe(参考訳) 本稿では,テスト分布がトレーニング分布と異なるドメイン一般化(DG)において,サイレント障害に対処する"学習を拒否する"フレームワークを提案する。 軽微な分布シフトを仮定すると、OODデータを完全に拒否するのではなく、モデルが推定する能力が信頼できる応答を予測するたびに、アウト・オブ・ディストリビューション(OOD)データを受け入れたい。 信頼度はプロキシ非能率スコアによって予測され、分類器のパフォーマンスと密接に関連している。 分類のための非能率スコアの総合的な実験評価を行い、拒絶率と精度向上のトレードオフを明らかにする。 先行研究と組み合わせるために,標準dgベンチマークに着目し,クローズド対オープンワールドにおける異なる学習表現による非能率の測定の効果を検討する。 以上の結果から,不適格スコアの増加は精度の低下を予測し,適格不適格閾値以下では平均精度が有意に向上することが示唆された。 しかし、テスト対象のすべてのドメインで良好な精度/リジェクションのトレードオフを可能にするのに、スコアはまだ十分ではない。 また,DGロバスト性に最適化された分類器は,試験試料が低能力スコアを付与する能力領域において,単純な経験的リスク最小化(ERM)ベースラインを上回りません。

We propose a "learning to reject" framework to address the problem of silent failures in Domain Generalization (DG), where the test distribution differs from the training distribution. Assuming a mild distribution shift, we wish to accept out-of-distribution (OOD) data whenever a model's estimated competence foresees trustworthy responses, instead of rejecting OOD data outright. Trustworthiness is then predicted via a proxy incompetence score that is tightly linked to the performance of a classifier. We present a comprehensive experimental evaluation of incompetence scores for classification and highlight the resulting trade-offs between rejection rate and accuracy gain. For comparability with prior work, we focus on standard DG benchmarks and consider the effect of measuring incompetence via different learned representations in a closed versus an open world setting. Our results suggest that increasing incompetence scores are indeed predictive of reduced accuracy, leading to significant improvements of the average accuracy below a suitable incompetence threshold. However, the scores are not yet good enough to allow for a favorable accuracy/rejection trade-off in all tested domains. Surprisingly, our results also indicate that classifiers optimized for DG robustness do not outperform a naive Empirical Risk Minimization (ERM) baseline in the competence region, that is, where test samples elicit low incompetence scores.
翻訳日:2023-03-20 14:26:39 公開日:2023-03-17
# star-net: より効率的な接続と多様な機能インタラクションによる単一の画像認識モデルの改善

Star-Net: Improving Single Image Desnowing Model With More Efficient Connection and Diverse Feature Interaction ( http://arxiv.org/abs/2303.09988v1 )

ライセンス: Link先を確認
Jiawei Mao, Yuanqi Chang, Xuesong Yin, Binling Nie(参考訳) 他の厳しい気象画像復元タスクと比較すると、単一の画像認識はより困難なタスクである。 これは主に雪の形状が多様で不規則であるため、雪の場面でイメージを復元することは極めて困難である。 さらに、雪の粒子は、ヘイズやミストに似たベール効果も持つ。 現在の作業では、様々な形状の雪粒子を効果的に除去できるが、復元された画像にも歪みをもたらす。 この問題に対処するため,我々はstar-netと呼ばれる新しい画像認識ネットワークを提案する。 まず, 積雪粒子の複雑な形状に対処可能な, 様々な規模の情報チャネルを確立するために, SSC (Star Type Skip Connection) を設計し, 積雪粒子の形状をよりよく理解し, 様々な重要な画像復元特徴を明示的にモデル化することで, 画像歪みに対処するために, マルチステージインタラクティブトランスフォーマ (MIT) をStar-Netのベースモジュールとして提案する。 最後に,sscにおける雪粒子と雪霧の残留を空間領域と流路領域にフィルターする縮退フィルタモジュール(dfm)を提案する。 大規模実験により,3つの標準除雪データセットで最新の除雪性能を達成し,画像のシャープさを保った。

Compared to other severe weather image restoration tasks, single image desnowing is a more challenging task. This is mainly due to the diversity and irregularity of snow shape, which makes it extremely difficult to restore images in snowy scenes. Moreover, snow particles also have a veiling effect similar to haze or mist. Although current works can effectively remove snow particles with various shapes, they also bring distortion to the restored image. To address these issues, we propose a novel single image desnowing network called Star-Net. First, we design a Star type Skip Connection (SSC) to establish information channels for all different scale features, which can deal with the complex shape of snow particles.Second, we present a Multi-Stage Interactive Transformer (MIT) as the base module of Star-Net, which is designed to better understand snow particle shapes and to address image distortion by explicitly modeling a variety of important image recovery features. Finally, we propose a Degenerate Filter Module (DFM) to filter the snow particle and snow fog residual in the SSC on the spatial and channel domains. Extensive experiments show that our Star-Net achieves state-of-the-art snow removal performances on three standard snow removal datasets and retains the original sharpness of the images.
翻訳日:2023-03-20 14:26:11 公開日:2023-03-17
# 空間トランスクリプトミクスデータとディープラーニングを用いた乳癌病理組織像に基づく遺伝子発現予測

Breast Cancer Histopathology Image based Gene Expression Prediction using Spatial Transcriptomics data and Deep Learning ( http://arxiv.org/abs/2303.09987v1 )

ライセンス: Link先を確認
Md Mamunur Rahaman, Ewan K. A. Millar and Erik Meijering(参考訳) 乳癌における腫瘍の多様性は予後予測や治療への反応に困難をもたらす。 空間転写学技術は、細胞レベルで遺伝子発現に関する豊富な情報を提供するため、これらの課題に対処できるが、それらは高価であり、大規模な臨床腫瘍学研究での使用を妨げている。 ヘマトキシリンおよびエオシン染色組織像からの遺伝子発現の予測は、そのような研究のより安価な代替手段となる。 本稿では,空間的転写学データを用いた病理組織画像からの遺伝子発現予測のための深層学習フレームワークbrst-netを提案する。 この枠組みを用いて,250遺伝子の予測に事前訓練した重みを使わずに10種類の最先端ディープラーニングモデルを訓練・評価した。 メインネットワークの一般化性能を向上させるため,フレームワークに補助ネットワークを導入する。 本手法は,0.50以上の正相関係数を持つ24遺伝子を含む237遺伝子を同定し,過去の研究より優れていた。 これは以前の研究よりも顕著な改善であり、正の相関を持つ102遺伝子しか予測できず、最も高い相関値は0.29から0.34である。

Tumour heterogeneity in breast cancer poses challenges in predicting outcome and response to therapy. Spatial transcriptomics technologies may address these challenges, as they provide a wealth of information about gene expression at the cell level, but they are expensive, hindering their use in large-scale clinical oncology studies. Predicting gene expression from hematoxylin and eosin stained histology images provides a more affordable alternative for such studies. Here we present BrST-Net, a deep learning framework for predicting gene expression from histopathology images using spatial transcriptomics data. Using this framework, we trained and evaluated 10 state-of-the-art deep learning models without utilizing pretrained weights for the prediction of 250 genes. To enhance the generalisation performance of the main network, we introduce an auxiliary network into the framework. Our methodology outperforms previous studies, with 237 genes identified with positive correlation, including 24 genes with a median correlation coefficient greater than 0.50. This is a notable improvement over previous studies, which could predict only 102 genes with positive correlation, with the highest correlation values ranging from 0.29 to 0.34.
翻訳日:2023-03-20 14:25:46 公開日:2023-03-17
# ai制御fes-rerestoration of movement--強化学習によるサイクリング刺激パターンの学習

Towards AI-controlled FES-restoration of movements: Learning cycling stimulation pattern with reinforcement learning ( http://arxiv.org/abs/2303.09986v1 )

ライセンス: Link先を確認
Nat Wannawas, A. Aldo Faisal(参考訳) 機能的電気刺激(fes)はロボットを含む他のリハビリデバイスと統合されつつある。 FESサイクリングはリハビリテーションにおける一般的なFES応用の1つであり、特定のパターンで脚の筋肉を刺激することによって行われる。 適切なパターンは個人によって異なり、個々のユーザにとって時間と困難を伴う手動チューニングが必要になる。 ここでは、余分なハードウェアやセンサーを必要としないパターンを見つけるためのAIベースの手法を提案する。 本手法は強化学習と詳細な筋骨格モデルを用いたモデルベースパターンの探索から始める2つのフェーズを有する。 モデルはオープンソースソフトウェアを使って構築されており、私たちの自動化されたスクリプトでカスタマイズすることができます。 次に,実際のサイクリングデータを用いてパターンを微調整する。 シミュレーションと実験の両方を定常三輪車でテストします。 シミュレーションテストでは,異なるサイクリング構成のモデルに基づくパターンを頑健に提供することができる。 実験により,本手法はEMGパターンよりも高速なサイクリング速度を誘導するモデルに基づくパターンを見つけることができることがわかった。 100秒のサイクリングデータを使用することで、より優れたサイクリングパフォーマンスを実現するための微調整パターンを提供できる。 FESサイクリング以外にも、この研究は実世界のリハビリテーションにおける人間のループ内AIの可能性と可能性を示す展示会である。

Functional electrical stimulation (FES) has been increasingly integrated with other rehabilitation devices, including robots. FES cycling is one of the common FES applications in rehabilitation, which is performed by stimulating leg muscles in a certain pattern. The appropriate pattern varies across individuals and requires manual tuning which can be time-consuming and challenging for the individual user. Here, we present an AI-based method for finding the patterns, which requires no extra hardware or sensors. Our method has two phases, starting with finding model-based patterns using reinforcement learning and detailed musculoskeletal models. The models, built using open-source software, can be customised through our automated script and can be therefore used by non-technical individuals without extra cost. Next, our method fine-tunes the pattern using real cycling data. We test our both in simulation and experimentally on a stationary tricycle. In the simulation test, our method can robustly deliver model-based patterns for different cycling configurations. The experimental evaluation shows that our method can find a model-based pattern that induces higher cycling speed than an EMG-based pattern. By using just 100 seconds of cycling data, our method can deliver a fine-tuned pattern that gives better cycling performance. Beyond FES cycling, this work is a showcase, displaying the feasibility and potential of human-in-the-loop AI in real-world rehabilitation.
翻訳日:2023-03-20 14:25:25 公開日:2023-03-17
# キャビティエンハンス干渉計測における内部スクイーズによる基本量子限界

Fundamental quantum limit achieved by internal squeezing in cavity-enhanced interferometric measurements ( http://arxiv.org/abs/2303.09983v1 )

ライセンス: Link先を確認
Mikhail Korobko, Jan S\"udbeck, Sebastian Steinlechner, Roman Schnabel(参考訳) 共振器型レーザー干渉計による変位測定の量子ノイズ制限感度は、測定時間、使用した量子状態の種類、およびデコヒーレンス率で統合された干渉計アームの光子フラックスに依存する。 本稿では, 干渉計の空洞内で最適に調整された量子スクイーズ操作により, 外部生成したスクイーズ状態の注入を補完し, 感度への影響を低減する。 我々は,新しい一般化された基本感度限界を解析的に導出する。 さらに, 外部から発生した絞り光と付加的な内部絞り操作を組み合わせることにより, 新基本バウンドの実験実験を行った。 検出損失に依存しない感度向上を実験的に実証した。 この結果は,重力波検出器など,テーブルトップから大規模まで幅広い量子センサに適用できる。

The quantum noise limited sensitivity of cavity-enhanced laser-interferometric displacement measurements depends on the photon flux in the interferometer arms integrated over the measuring time, the kind of quantum states used, and the decoherence rate. Here, we complement the injection of externally generated squeezed states with an optimally tuned quantum squeeze operation inside the interferometer's cavity to reduce the impact of decoherence on sensitivity. We analytically derive the new, generalized fundamental sensitivity limit. Furthermore, we report on the experimental test of the new fundamental bound by combining for the first time externally generated squeezed light with an additional internal squeeze operation. We experimentally demonstrate the enhanced sensitivity independent on the detection loss. Our results apply to a broad range of quantum sensors, from table-top to large-scale, such as gravitational-wave detectors.
翻訳日:2023-03-20 14:25:04 公開日:2023-03-17
# 飛行経路と手順によるターミナル空域の交通モデルの推定

Inferring Traffic Models in Terminal Airspace from Flight Tracks and Procedures ( http://arxiv.org/abs/2303.09981v1 )

ライセンス: Link先を確認
Soyeon Jung and Mykel J. Kochenderfer(参考訳) 現実的な航空機軌道モデルは、航空交通管理(ATM)システムの設計と検証に有用である。 計器飛行規則(IFR)の下で運用される航空機のモデルは、航空機が通常の飛行手順に従う方法に固有の変動を捉える必要がある。 航空機の挙動の変動は飛行段階によって異なる。 本稿では,レーダー監視データから収集した手続きデータと飛行軌跡から変動性を学習できる確率モデルを提案する。 各セグメントについて、ガウス混合モデルを用いて、その手順から航空機の軌道の偏差を学習する。 新たな手法により、訓練されたガウス分布から一連の偏差をサンプリングし、偏差と手順を用いて航空機軌道を再構築することにより、合成軌道を生成することができる。 本手法を拡張して航空機間の対向相関を捉え,任意の数の航空機を含むトラヒックを対向モデルで生成する方法を示す。 我々は、ジョン・f・ケネディ国際空港の到着経路と手順について提案モデルを実証する。 原点と合成軌道データセットの分布類似性は, 異なる変数の実験分布間のjensen-shannon発散を用いて評価した。 また, モデルから生成した合成軌道の定性解析を行った。

Realistic aircraft trajectory models are useful in the design and validation of air traffic management (ATM) systems. Models of aircraft operated under instrument flight rules (IFR) require capturing the variability inherent in how aircraft follow standard flight procedures. The variability in aircraft behavior varies among flight stages. In this paper, we propose a probabilistic model that can learn the variability from the procedural data and flight tracks collected from radar surveillance data. For each segment, a Gaussian mixture model is used to learn the deviations of aircraft trajectories from their procedures. Given new procedures, we can generate synthetic trajectories by sampling a series of deviations from the trained Gaussian distributions and reconstructing the aircraft trajectory using the deviations and the procedures. We extend this method to capture pairwise correlations between aircraft and show how a pairwise model can be used to generate traffic involving an arbitrary number of aircraft. We demonstrate the proposed models on the arrival tracks and procedures of the John F. Kennedy International Airport. The distributional similarity between the original and the synthetic trajectory dataset was evaluated using the Jensen-Shannon divergence between the empirical distributions of different variables. We also provide qualitative analyses of the synthetic trajectories generated from the models.
翻訳日:2023-03-20 14:24:50 公開日:2023-03-17
# 共同医用画像分類と分割のための不確かさによる相互学習

Uncertainty-informed Mutual Learning for Joint Medical Image Classification and Segmentation ( http://arxiv.org/abs/2303.10049v1 )

ライセンス: Link先を確認
Kai Ren and Ke Zou and Xianjie Liu and Yidi Chen and Xuedong Yuan and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 分類とセグメンテーションは、正確な診断と疾患のモニタリングを可能にするため、医療画像解析において重要である。 しかし、現在の方法は、機能や性能の信頼性を無視しながら、相互学習機能と共有モデルパラメータを優先することが多い。 本稿では,医療画像解析の信頼性と解釈が可能な新しいUML(Uncertainty-informed Mutual Learning)フレームワークを提案する。 このumlは,相互学習と不確実性を活用して,協調分類とセグメント化タスクに信頼性を導入している。 そこで我々はまず,画像レベルの信頼度と画素単位の信頼度を提供するために明らかな深層学習を利用する。 次に,不確かさナビゲータデコーダを構築し,相互特徴をよく利用し,セグメンテーション結果を生成する。 さらに、信頼性の高いマスクを分類するために、不確実性インストラクタを提案する。 全体として、UMLは各リンク(分類とセグメンテーション)の特徴と性能の信頼度を推定できる。 公開データセットの実験では、UMLは精度と堅牢性の両方の観点から既存のメソッドよりも優れています。 我々のUMLは、より信頼性が高く説明可能な医用画像解析モデルの開発を探求する可能性がある。 受け入れ後、再生のためのコードをリリースします。

Classification and segmentation are crucial in medical image analysis as they enable accurate diagnosis and disease monitoring. However, current methods often prioritize the mutual learning features and shared model parameters, while neglecting the reliability of features and performances. In this paper, we propose a novel Uncertainty-informed Mutual Learning (UML) framework for reliable and interpretable medical image analysis. Our UML introduces reliability to joint classification and segmentation tasks, leveraging mutual learning with uncertainty to improve performance. To achieve this, we first use evidential deep learning to provide image-level and pixel-wise confidences. Then, an Uncertainty Navigator Decoder is constructed for better using mutual features and generating segmentation results. Besides, an Uncertainty Instructor is proposed to screen reliable masks for classification. Overall, UML could produce confidence estimation in features and performance for each link (classification and segmentation). The experiments on the public datasets demonstrate that our UML outperforms existing methods in terms of both accuracy and robustness. Our UML has the potential to explore the development of more reliable and explainable medical image analysis models. We will release the codes for reproduction after acceptance.
翻訳日:2023-03-20 14:17:42 公開日:2023-03-17
# ライドバーグ原子のスターク分光法による冷イオン源の電界解析

Electric field analysis in a cold-ion source using Stark spectroscopy of Rydberg atoms ( http://arxiv.org/abs/2303.10044v1 )

ライセンス: Link先を確認
Alisher Duspayev and Georg Raithel(参考訳) 1064nmレーザー用近心型真空キャビティの焦点近傍に閉じ込められた冷媒rb原子の準連続光イオン化により発生したイオン源の電界を解析した。 イオンストリームは外部電場${\bf{F}}$で抽出される。 Rb 57$F$および近隣の高角運動量Rydberg濃度のスターク効果は、0<F<0.35$V/cmの抽出フィールド範囲でイオン源領域内の純電場確率分布を研究するために用いられる。 f=0$の場合、60$p_{1/2}$状態のイオン場誘起スタークスペクトルも調べ、より単純な電場解析を可能にする(より小さい)二次電界応答を示す。 実験的なライドバーグスペクトルは、クーロン相互作用を含む古典的イオン-軌道シミュレーションから得られる純電場分布と重なる理論スタークスペクトルと比較される。 実験とモデルはうまく一致します。 小さなf$と高いイオン源速度で、磁場はおよそホルツマルク分布に従い、イオンの流れはクーロンマイクロフィールドによって劣化する。 F$の増加と低いイオン源率の上昇により、フィールドは${\bf{F}}$付近に狭く分散し、マイクロフィールドによる劣化の少ない方向性イオンストリームとなる。 本研究は,クーロン相互作用が懸念される集束イオンビーム用冷電源のモニタリングと,冷プラズマ中の電場の研究を目的とした。

We analyze electric fields in ion sources generated by quasi-continuous photo-ionization of cold Rb atoms trapped in the focal spot of a near-concentric, in-vacuum cavity for 1064-nm laser light. Ion streams are extracted with an external electric field, ${\bf{F}}$. Stark effects of Rb 57$F$ and of nearby high-angular-momentum Rydberg levels, which exhibit large, linear Stark shifts, are employed to study the net electric-field probability distribution within the ion-source region over an extraction-field range of $0<F<0.35$ V/cm. For $F=0$, we also investigate ion-field-induced Stark spectra of the 60$P_{1/2}$-state, which exhibits a (lesser) quadratic electric-field response that affords a simplified electric-field analysis. Experimental Rydberg spectra are compared with theoretical Stark spectra, which are weighed with net electric-field distributions obtained from classical ion-trajectory simulations that include Coulomb interactions. Experiments and models agree well. At small $F$ and high ion source rates, the field approximately follows a Holtsmark distribution, and the ion streams are degraded by the Coulomb micro-fields. With increasing $F$ and at lower ion source rates, the fields become narrowly distributed around ${\bf{F}}$, resulting in directional ion streams that are less degraded by micro-fields. Our results are of interest for monitoring cold-ion sources for focused-ion-beam applications, where Coulomb interactions are of concern, and for studies of electric fields in cold plasmas.
翻訳日:2023-03-20 14:17:24 公開日:2023-03-17
# ShaRPy:不確実性のあるRGB-Dの形状再構成と手探り推定

ShaRPy: Shape Reconstruction and Hand Pose Estimation from RGB-D with Uncertainty ( http://arxiv.org/abs/2303.10042v1 )

ライセンス: Link先を確認
Vanessa Wirth, Anna-Maria Liphardt, Birte Coppers, Johanna Br\"aunig, Simon Heinrich, Arnd Kleyer, Georg Schett, Martin Vossiek, Bernhard Egger, Marc Stamminger(参考訳) その可能性にもかかわらず、マーカーレスハンドトラッキング技術は、炎症性筋骨格疾患における活動の診断やモニタリングに実際は適用されていない。 一つの理由は、ほとんどの方法の焦点が、ジェスチャー認識やAR/VR応用のための粗いポーズの再構築にあるのに対し、臨床の文脈では、正確で、解釈可能で、信頼性の高い結果が必要であるからである。 そこで本研究では,最初のRGB-D形状再構成システムであるShaRPyを提案する。 本手法では,1台のコンシューマレベルのRGB-Dカメラを搭載した軽量な設定しか必要としないが,小さな関節角偏差だけで類似のポーズを識別することができる。 これは、データ駆動密度対応予測器と従来のエネルギー最小化を組み合わせ、ポーズパラメータと手形状パラメータの両方を最適化することで達成される。 キーポイント検出ベンチマークにおいてシャープ性を評価し,患者の記録に質的結果を示す。

Despite their potential, markerless hand tracking technologies are not yet applied in practice to the diagnosis or monitoring of the activity in inflammatory musculoskeletal diseases. One reason is that the focus of most methods lies in the reconstruction of coarse, plausible poses for gesture recognition or AR/VR applications, whereas in the clinical context, accurate, interpretable, and reliable results are required. Therefore, we propose ShaRPy, the first RGB-D Shape Reconstruction and hand Pose tracking system, which provides uncertainty estimates of the computed pose to guide clinical decision-making. Our method requires only a light-weight setup with a single consumer-level RGB-D camera yet it is able to distinguish similar poses with only small joint angle deviations. This is achieved by combining a data-driven dense correspondence predictor with traditional energy minimization, optimizing for both, pose and hand shape parameters. We evaluate ShaRPy on a keypoint detection benchmark and show qualitative results on recordings of a patient.
翻訳日:2023-03-20 14:16:57 公開日:2023-03-17
# 知識ネットワークナビゲーションにおける個人差

Individual differences in knowledge network navigation ( http://arxiv.org/abs/2303.10036v1 )

ライセンス: Link先を確認
Manran Zhu, Taha Yasseri, J\'anos Kert\'esz(参考訳) オンライン情報が前例のないペースで蓄積するにつれ、webを効率的にナビゲートすることがますます重要で困難になっている。 異なる年齢層、性別、その他の特徴にまたがる個人向けに簡単にナビゲート可能なサイバースペースを作成するためには、webをナビゲートする方法をまず理解する必要があります。 以前の研究では空間ナビゲーションの個人差が明らかにされているが、知識空間ナビゲーションの差異についてはほとんど分かっていない。 このギャップを埋めるために、参加者はwikipediaでナビゲーションゲームをプレイし、個人情報に関するアンケートに記入したオンライン実験を行った。 分析の結果,知識空間でのナビゲーション性能は,年齢とともに低下し,外国語スキルによって増加することがわかった。 しかし, 男性と女性のパフォーマンスの違いは, 実験において有意ではない。 目標への経路を見つける成功を予測する参加者の特徴は、必ずしも革新的な経路を見つける能力を示すものではない。

As online information accumulates at an unprecedented rate, it is becoming increasingly important and difficult to navigate the web efficiently. To create an easily navigable cyberspace for individuals across different age groups, genders, and other characteristics, we first need to understand how they navigate the web differently. Previous studies have revealed individual differences in spatial navigation, yet very little is known about their differences in knowledge space navigation. To close this gap, we conducted an online experiment where participants played a navigation game on Wikipedia and filled in questionnaires about their personal information. Our analysis shows that participants' navigation performance in the knowledge space declines with age and increases with foreign language skills. The difference between male and female performance is, however, not significant in our experiment. Participants' characteristics that predict success in finding routes to the target do not necessarily indicate their ability to find innovative routes.
翻訳日:2023-03-20 14:16:40 公開日:2023-03-17
# 群れ運動制御のためのポリシー反復アプローチ

A Policy Iteration Approach for Flock Motion Control ( http://arxiv.org/abs/2303.10035v1 )

ライセンス: Link先を確認
Shuzheng Qu, Mohammed Abouheaf, Wail Gueaieb and Davide Spinello(参考訳) 群れ移動制御は、マルチエージェントシステムのローカルとチームの目標間の衝突の可能性があることを管理する。 全体的な制御プロセスは、群集結合性と局在を監視しながらエージェントを導く。 根底にあるメカニズムは、群れのダイナミクスと形成に関連する不確実性を見落としているため、劣化する可能性がある。 一方、様々な制御設計の効率性は、リアルタイムで異なる動的状況に迅速に適応できることに依存している。 時間変化グラフトポロジ上で独立したコマンドジェネレータに従うようにエージェント群をガイドするために、オンラインモデルフリーのポリシーイテレーションメカニズムが開発されている。 位置隣接依存性関数を用いて、任意の2つのエージェント間の接続強度またはグラフエッジ重みを決定する。 エージェントやコマンドジェネレータのダイナミクスを知らずにガイダンス戦略を調整するために、オンライン再帰的最小二乗法が採用されている。 これは、価値反復法に基づく文献からの他の強化学習手法と比較される。 政策反復機構のシミュレーション結果から,計算労力の少ない高速学習と収束挙動が明らかになった。

The flocking motion control is concerned with managing the possible conflicts between local and team objectives of multi-agent systems. The overall control process guides the agents while monitoring the flock-cohesiveness and localization. The underlying mechanisms may degrade due to overlooking the unmodeled uncertainties associated with the flock dynamics and formation. On another side, the efficiencies of the various control designs rely on how quickly they can adapt to different dynamic situations in real-time. An online model-free policy iteration mechanism is developed here to guide a flock of agents to follow an independent command generator over a time-varying graph topology. The strength of connectivity between any two agents or the graph edge weight is decided using a position adjacency dependent function. An online recursive least squares approach is adopted to tune the guidance strategies without knowing the dynamics of the agents or those of the command generator. It is compared with another reinforcement learning approach from the literature which is based on a value iteration technique. The simulation results of the policy iteration mechanism revealed fast learning and convergence behaviors with less computational effort.
翻訳日:2023-03-20 14:16:26 公開日:2023-03-17
# アンサンブル法によるマルチモーダル表現認識

Multi-modal Expression Recognition with Ensemble Method ( http://arxiv.org/abs/2303.10033v1 )

ライセンス: Link先を確認
Chuanhe Liu, Xinjie Zhang, Xiaolong Liu, Tenggan Zhang, Liyu Meng, Yuchen Liu, Yuanyuan Deng, Wenqiang Jiang(参考訳) 本稿では,第5回愛着行動分析コンペティション(abaw)における表現分類の課題について述べる。 本手法では,複数の異なる事前学習モデルから抽出したマルチモーダル特徴の組み合わせを適用し,より効果的な感情情報を収集する。 これらの視覚的特徴と音声的特徴の組み合わせについて,2つの時間的エンコーダを用いて,データ内の時間的文脈情報を探索する。 また,表情認識結果の精度を高めるために,異なる実験設定のためのアンサンブル戦略を複数採用した。 本システムは,検証セットの平均F1スコア0.45774を達成する。

This paper presents our submission to the Expression Classification Challenge of the fifth Affective Behavior Analysis in-the-wild (ABAW) Competition. In our method, multimodal feature combinations extracted by several different pre-trained models are applied to capture more effective emotional information. For these combinations of visual and audio modal features, we utilize two temporal encoders to explore the temporal contextual information in the data. In addition, we employ several ensemble strategies for different experimental settings to obtain the most accurate expression recognition results. Our system achieves the average F1 Score of 0.45774 on the validation set.
翻訳日:2023-03-20 14:16:09 公開日:2023-03-17
# 対向雑音に対する核ノルム最小化によるランダム化ブラインドデコンボリューションはどの程度堅牢か?

How robust is randomized blind deconvolution via nuclear norm minimization against adversarial noise? ( http://arxiv.org/abs/2303.10030v1 )

ライセンス: Link先を確認
Julia Kostin, Felix Krahmer, Dominik St\"oger(参考訳) 本稿では,その畳み込みから2つの未知の信号を回収する問題について検討する。 低ランクリカバリ問題としてのブラインドデコンボリューションの改革は、核規範の最小化ヒューリスティックの成功により、過去10年間に複数の理論的リカバリ保証につながった。 特にノイズがない場合には、低次元部分空間に含まれる十分な不整合信号に対して正確な回復が確立されている。 しかし、加法的な有界雑音によって畳み込みが崩壊した場合、回復問題の安定性は未だ理解されていない。 特に、既存のレコンストラクション境界は大きな次元因子を含み、したがって核ノルム最小化の次元非依存ロバスト性に関する経験的証拠を説明できない。 近年,低位マトリクスリカバリのノイズレベルが十分に小さい場合,不適切な挙動が理論的に証明されている。 本研究では,ノイズレベルの平方根スケーリングを示す対向雑音によるブラインドデコンボリューションの回復保証を改良する。 その結果,ノイズレベルにおける線形スケーリングに対する既存の反例と一致し,関連する低ランク行列の回復問題に対して検討した。

In this paper, we study the problem of recovering two unknown signals from their convolution, which is commonly referred to as blind deconvolution. Reformulation of blind deconvolution as a low-rank recovery problem has led to multiple theoretical recovery guarantees in the past decade due to the success of the nuclear norm minimization heuristic. In particular, in the absence of noise, exact recovery has been established for sufficiently incoherent signals contained in lower-dimensional subspaces. However, if the convolution is corrupted by additive bounded noise, the stability of the recovery problem remains much less understood. In particular, existing reconstruction bounds involve large dimension factors and therefore fail to explain the empirical evidence for dimension-independent robustness of nuclear norm minimization. Recently, theoretical evidence has emerged for ill-posed behavior of low-rank matrix recovery for sufficiently small noise levels. In this work, we develop improved recovery guarantees for blind deconvolution with adversarial noise which exhibit square-root scaling in the noise level. Hence, our results are consistent with existing counterexamples which speak against linear scaling in the noise level as demonstrated for related low-rank matrix recovery problems.
翻訳日:2023-03-20 14:16:00 公開日:2023-03-17
# タイムキーピングにおける量子アドバンテージ:次元アドバンテージ、エントロピーアドバンテージ、ベリー相と超レギュラー自発発光によるそれを実現する方法

Quantum advantages in timekeeping: dimensional advantage, entropic advantage and how to realise them via Berry phases and ultra-regular spontaneous emission ( http://arxiv.org/abs/2303.10029v1 )

ライセンス: Link先を確認
Arman Pour Tak Dost and Mischa P. Woods(参考訳) 原子が励起状態にあるとき、ある程度の時間の後、プロセス中に光子を放出する低いエネルギー状態に崩壊する。 これは自発的放出と呼ばれる。 3つの基本的な光-物質相互作用の1つである。 もしそれが時間$t$で崩壊していないなら、次の無限小時間ステップ$[t, t+\delta t]$ でそうする確率は$t$非依存である。 したがって、崩壊する好む時間は存在しない -- この意味では、それはランダムなプロセスである。 ここで、この光と物質との相互作用を慎重に設計することにより、物質が時計ワークを構成し、自発的な放出が時計のひび割れを構成する時計と関連付けることができることを示す。 特に、準理想時計を実現する方法を示す。 サードクロックは、抽象的で理論的な意味で、量子理論によって許容される最も正確なクロックであると証明され、同じ大きさの最高の確率クロックに対する多項式の精度が向上した。 その結果, 自発的放出の一見ランダムな過程は, 正しい状況下では, 量子理論によって許容される最も正規な過程であることがわかった。 これを達成するために、幾何学的特徴とフラックスループ挿入を用いて対称性とベリー相を光マッターカップリングに誘導する。 また,タケ当たりの時計のエントロピーについても検討し,文献で既知の半古典的時計から発生するものよりも量子的に有利であることを示した。

When an atom is in an excited state, after some amount of time, it will decay to a lower energy state emitting a photon in the process. This is known as spontaneous emission. It is one of the three elementary light-matter interactions. If it has not decayed at time $t$, then the probability that it does so in the next infinitesimal time step $[t, t+\delta t]$, is $t$-independent. So there is no preferred time at which to decay -- in this sense it is a random process. Here we show, by carefully engineering this light-matter interaction, that we can associate it with a clock, where the matter constitutes the clockwork and the spontaneous emission constitutes the ticking of the clock. In particular, we show how to realise the quasi-ideal clock. Said clock has been proven -- in an abstract and theoretic sense -- to be the most accurate clock permissible by quantum theory, with a polynomial enhancement in precision over the best stochastic clock of the same size. Our results thus demonstrate that the seemingly random process of spontaneous emission can in actual fact, under the right circumstances, be the most regular one permissible by quantum theory. To achieve this we use geometric features and flux-loop insertions to induce symmetry and Berry phases into the light-matter coupling. We also study the entropy the clock produces per tick and show that it also possesses a quantum advantage over that generated from the previously known semi-classical clocks in the literature.
翻訳日:2023-03-20 14:15:40 公開日:2023-03-17
# 非定常系のガウス過程モデルを積極的に学習するための階層超平面カーネル

Hierarchical-Hyperplane Kernels for Actively Learning Gaussian Process Models of Nonstationary Systems ( http://arxiv.org/abs/2303.10022v1 )

ライセンス: Link先を確認
Matthias Bitzer, Mona Meister, Christoph Zimmer(参考訳) 複雑なコンピュータシミュレーションと物理マシンの正確なサロゲートモデルを学ぶには、しばしば長期間または高価な実験を必要とする。 さらに、モデル化された物理的依存関係は非線形および非定常挙動を示す。 したがって、サロゲートモデルを生成するために使用される機械学習手法は、例えばアクティブラーニングを用いてクエリ数を小さく抑え、システムの非線形および非定常特性をキャプチャできるスキームを提供することによって、これらの問題に対処する必要がある。 非定常性のモデル化の1つの方法は、ガウス過程のアクティブ学習において有利であることが証明された入出力を誘導することである。 しかし、これらの手法は既知の分割を仮定するか、複雑なサンプリングスキームを導入するか、非常に単純なジオメトリに依存する。 本稿では,分割処理を組み込んだ,シンプルだが強力なカーネルファミリーを紹介する。 一 勾配に基づく方法により学習することができる。 ii) 従来よりも柔軟な幾何学を使用しながら,低データ方式にも適用可能であること。 したがって、アクティブな学習手順に十分な事前を提供する。 我々は様々なアクティブラーニングタスクにおいて優れた性能を示す。

Learning precise surrogate models of complex computer simulations and physical machines often require long-lasting or expensive experiments. Furthermore, the modeled physical dependencies exhibit nonlinear and nonstationary behavior. Machine learning methods that are used to produce the surrogate model should therefore address these problems by providing a scheme to keep the number of queries small, e.g. by using active learning and be able to capture the nonlinear and nonstationary properties of the system. One way of modeling the nonstationarity is to induce input-partitioning, a principle that has proven to be advantageous in active learning for Gaussian processes. However, these methods either assume a known partitioning, need to introduce complex sampling schemes or rely on very simple geometries. In this work, we present a simple, yet powerful kernel family that incorporates a partitioning that: i) is learnable via gradient-based methods, ii) uses a geometry that is more flexible than previous ones, while still being applicable in the low data regime. Thus, it provides a good prior for active learning procedures. We empirically demonstrate excellent performance on various active learning tasks.
翻訳日:2023-03-20 14:15:13 公開日:2023-03-17
# 多変量確率CRPS学習と日頭電力価格への応用

Multivariate Probabilistic CRPS Learning with an Application to Day-Ahead Electricity Prices ( http://arxiv.org/abs/2303.10019v1 )

ライセンス: Link先を確認
Jonathan Berrisch, Florian Ziel(参考訳) 本稿では,オンライン学習が可能なスムーズな手順により,量子量と共変量間の依存関係を考慮した多変量確率予測を合成(あるいは集約)する手法を提案する。 2つの平滑化法について,基底行列を用いた次元性低減法とペナルティ化平滑化法について考察した。 新しいオンライン学習アルゴリズムは、標準CRPS学習フレームワークを多変量次元に一般化する。 これはBernstein Online Aggregation (BOA)に基づいており、最適な漸近学習特性をもたらす。 本稿では,提案アルゴリズムの拡張の可能性と,既存文献に関連するネスト事例について,オンライン予測の組み合わせについて詳細に検討する。 この手法は24次元分布予測である日頭電力価格の予測に応用される。 提案手法は,CRPS(Continuous Rank probability score)の観点から,均一な組み合わせよりも顕著な改善をもたらす。 重みとハイパーパラメータの時間的進化について論じ, 推奨モデルの縮小版の結果を示す。 すべての議論されたメソッドの高速なC++実装がR-Package profocで提供されている。

This paper presents a new method for combining (or aggregating or ensembling) multivariate probabilistic forecasts, taking into account dependencies between quantiles and covariates through a smoothing procedure that allows for online learning. Two smoothing methods are discussed: dimensionality reduction using Basis matrices and penalized smoothing. The new online learning algorithm generalizes the standard CRPS learning framework into multivariate dimensions. It is based on Bernstein Online Aggregation (BOA) and yields optimal asymptotic learning properties. We provide an in-depth discussion on possible extensions of the algorithm and several nested cases related to the existing literature on online forecast combination. The methodology is applied to forecasting day-ahead electricity prices, which are 24-dimensional distributional forecasts. The proposed method yields significant improvements over uniform combination in terms of continuous ranked probability score (CRPS). We discuss the temporal evolution of the weights and hyperparameters and present the results of reduced versions of the preferred model. A fast C++ implementation of all discussed methods is provided in the R-Package profoc.
翻訳日:2023-03-20 14:14:55 公開日:2023-03-17
# 固有熱化の厳密な境界

Rigorous Bounds on Eigenstate Thermalization ( http://arxiv.org/abs/2303.10069v1 )

ライセンス: Link先を確認
Shoki Sugimoto, Ryusuke Hamazaki, Masahito Ueda(参考訳) 多体量子系のすべての固有状態は熱アンサンブルと区別できないと主張する固有状態熱化仮説(eth)は、孤立した量子システムの熱化を理解する上で重要な役割を果たす。 しかし、カオス系における eth が {\textit{any}$ few-body operator in a chaotic system; 統計力学における重要な量(例えば、全磁化、運動量分布、およびそれらの低次熱および量子揺らぎ)を含むかどうかについての証拠は得られていない。 ここで、$m_{\ast}$の厳密な上限と下限を特定し、$m < m_{\ast}$を持つ$\textit{all}$ m$-body演算子が完全なカオスシステムにおけるethを満たすようにします。 haar測度に属する任意の次元の n$-粒子系に対して、$n$ 独立な正の定数 ${\alpha}_l$ と ${\alpha}_u$ が存在して、${\alpha}_l \leq m_{\ast} / n \leq {\alpha}_u$ が成り立つことを証明する。 境界${\alpha}_L$と${\alpha}_U$はスピン系のスピン量子数とボース系とフェルミ系の粒子数密度にのみ依存する。 したがって、$\textit{any}$ の演算子に対する$\textit{typical}$システムの熱化は厳密に証明される。

The eigenstate thermalization hypothesis (ETH), which asserts that every eigenstate of a many-body quantum system is indistinguishable from a thermal ensemble, plays a pivotal role in understanding thermalization of isolated quantum systems. Yet, no evidence has been obtained as to whether the ETH holds for $\textit{any}$ few-body operators in a chaotic system; such few-body operators include crucial quantities in statistical mechanics, e.g., the total magnetization, the momentum distribution, and their low-order thermal and quantum fluctuations. Here, we identify rigorous upper and lower bounds on $m_{\ast}$ such that $\textit{all}$ $m$-body operators with $m < m_{\ast}$ satisfy the ETH in fully chaotic systems. For arbitrary dimensional $N$-particle systems subject to the Haar measure, we prove that there exist $N$-independent positive constants ${\alpha}_L$ and ${\alpha}_U$ such that ${\alpha}_L \leq m_{\ast} / N \leq {\alpha}_U$ holds. The bounds ${\alpha}_L$ and ${\alpha}_U$ depend only on the spin quantum number for spin systems and the particle-number density for Bose and Fermi systems. Thermalization of $\textit{typical}$ systems for $\textit{any}$ few-body operators is thus rigorously proved.
翻訳日:2023-03-20 14:09:16 公開日:2023-03-17
# DBLPデータを用いたDeep Author Name Disambiguation

Deep Author Name Disambiguation using DBLP Data ( http://arxiv.org/abs/2303.10067v1 )

ライセンス: Link先を確認
Zeyd Boukhers and Nagaraj Bahubali Asundi(参考訳) 学術界では、科学者の数は毎年増え、同じ名前の著者の数が増えている。 そのため、新たに出版された論文をそれぞれの著者に割り当てることは困難である。 したがって、著者名Ambiguity(ANA)はデジタル図書館において重要なオープン問題であると考えられている。 本稿では,共著者と研究領域を活用することで,著者名と現実の実体をリンクする著者名曖昧化(AND)アプローチを提案する。 この目的のために、約260万人の共著者によって書かれた500万以上の書誌記録を含むDBLPリポジトリから収集されたデータを使用する。 我々のアプローチは、同じ名前と同じ名前のイニシャルを共有する著者を最初にグループ化する。 各グループ内の著者は、対応する著者の検証された出版物のタイトルで表される、共同著者および研究領域との関係を捉えて特定される。 この目的のために、共著者とタイトルの表現から学習するニューラルネットワークモデルをトレーニングする。 大規模データセットに対して広範な実験を行い,提案手法の有効性を検証した。

In the academic world, the number of scientists grows every year and so does the number of authors sharing the same names. Consequently, it challenging to assign newly published papers to their respective authors. Therefore, Author Name Ambiguity (ANA) is considered a critical open problem in digital libraries. This paper proposes an Author Name Disambiguation (AND) approach that links author names to their real-world entities by leveraging their co-authors and domain of research. To this end, we use data collected from the DBLP repository that contains more than 5 million bibliographic records authored by around 2.6 million co-authors. Our approach first groups authors who share the same last names and same first name initials. The author within each group is identified by capturing the relation with his/her co-authors and area of research, represented by the titles of the validated publications of the corresponding author. To this end, we train a neural network model that learns from the representations of the co-authors and titles. We validated the effectiveness of our approach by conducting extensive experiments on a large dataset.
翻訳日:2023-03-20 14:08:44 公開日:2023-03-17
# 信頼度を考慮した3次元視線推定と評価指標

Confidence-aware 3D Gaze Estimation and Evaluation Metric ( http://arxiv.org/abs/2303.10062v1 )

ライセンス: Link先を確認
Qiaojie Zheng, Jiucai Zhang, Amy Zhang, Xiaoli Zhang(参考訳) ディープラーニングの外観に基づく3D視線推定は、最小限のハードウェア要件と制約のないことから人気を集めている。 しかし、信頼できず、信頼できない推論は、この視線推定法の採用をまだ制限している。 信頼できない,自信過剰な問題に対処するために,不確実性を予測し,視線角度の推定を行う信頼度認識モデルを導入する。 また,目特徴の劣化と推定の不確実性上昇の因果関係に基づく新しい有効性評価手法を導入し,不確実性推定について検討する。 信頼度対応モデルは信頼性の高い不確実性推定を示しつつ,現状と同等の角推定精度を提供する。 既存の統計的不確実性-三角誤差評価指標と比較して,提案手法は各予測における不確実性の評価をより効果的に評価することができる。

Deep learning appearance-based 3D gaze estimation is gaining popularity due to its minimal hardware requirements and being free of constraint. Unreliable and overconfident inferences, however, still limit the adoption of this gaze estimation method. To address the unreliable and overconfident issues, we introduce a confidence-aware model that predicts uncertainties together with gaze angle estimations. We also introduce a novel effectiveness evaluation method based on the causality between eye feature degradation and the rise in inference uncertainty to assess the uncertainty estimation. Our confidence-aware model demonstrates reliable uncertainty estimations while providing angular estimation accuracies on par with the state-of-the-art. Compared with the existing statistical uncertainty-angular-error evaluation metric, the proposed effectiveness evaluation approach can more effectively judge inferred uncertainties' performance at each prediction.
翻訳日:2023-03-20 14:08:28 公開日:2023-03-17
# 量子力学における非局所移流拡散方程式と2スリット実験

The nonlocal advection diffusion equation and the two-slit experiment in quantum mechanics ( http://arxiv.org/abs/2303.10061v1 )

ライセンス: Link先を確認
Glenn Webb(参考訳) 量子力学の2分割実験のために偏微分方程式モデルを解析する。 この方程式の状態変数は粒子の位置の確率密度関数である。 この方程式は、粒子のランダムな動きに対応する拡散項と、その前方運動に垂直な横方向の粒子の動きに対応する非局所的対流項とを有する。 このモデルは実験のシュル=オディンガー方程式モデルと比較される。 このモデルは量子力学のアンサンブル解釈をサポートする。

A partial differential equation model is analyzed for the two-slit experiment of quantum mechanics. The state variable of the equation is the probability density function of particle positions. The equation has a diffusion term corresponding to the random movement of particles, and a nonlocal advection term corresponding to the movement of particles in the transverse direction perpendicular to their forward movement. The model is compared to the Schr\"odinger equation model of the experiment. The model supports the ensemble interpretation of quantum mechanics.
翻訳日:2023-03-20 14:08:13 公開日:2023-03-17
# 分類バイアスの恐れがない:合成・固定型分類器を用いたニューラルネットワークによるフェデレーション学習

No Fear of Classifier Biases: Neural Collapse Inspired Federated Learning with Synthetic and Fixed Classifier ( http://arxiv.org/abs/2303.10058v1 )

ライセンス: Link先を確認
Zexi Li, Xinyi Shang, Rui He, Tao Lin, Chao Wu(参考訳) データの多様性は、連合学習(fl)のパフォーマンスを妨げる固有の課題である。 近年の研究では、局所モデルのバイアス付き分類器が重要なボトルネックとなっている。 FLトレーニング後に分類器の校正を試みたが、訓練時分類器バイアスによる特徴表現の改善には不十分である。 FLにおける分類器バイアスジレンマを解くには、分類器の背後にあるメカニズムを完全に理解する必要がある。 近年の神経崩壊の進展により、完全な訓練シナリオの下での分類器と機能プロトタイプは、simplex equiangular tight frame (etf)と呼ばれる最適な構造に崩壊することが示されている。 この神経崩壊の洞察に基づいて, FLの分類器バイアス問題の解法を, 学習中に合成・固定されたETF分類器を用いて提案する。 最適な分類器構造により、すべてのクライアントは、非常に異質なデータの下でも、統一的で最適な特徴表現を学べる。 FLにおけるETF構造をよりよく適応するために,高一般化とパーソナライズの両方を実現するために,いくつかの効果的なモジュールを考案した。 本研究では,CIFAR-10,CIFAR-100,Tiny-ImageNet上での最先端の性能を示す実験を行った。

Data heterogeneity is an inherent challenge that hinders the performance of federated learning (FL). Recent studies have identified the biased classifiers of local models as the key bottleneck. Previous attempts have used classifier calibration after FL training, but this approach falls short in improving the poor feature representations caused by training-time classifier biases. Resolving the classifier bias dilemma in FL requires a full understanding of the mechanisms behind the classifier. Recent advances in neural collapse have shown that the classifiers and feature prototypes under perfect training scenarios collapse into an optimal structure called simplex equiangular tight frame (ETF). Building on this neural collapse insight, we propose a solution to the FL's classifier bias problem by utilizing a synthetic and fixed ETF classifier during training. The optimal classifier structure enables all clients to learn unified and optimal feature representations even under extremely heterogeneous data. We devise several effective modules to better adapt the ETF structure in FL, achieving both high generalization and personalization. Extensive experiments demonstrate that our method achieves state-of-the-art performances on CIFAR-10, CIFAR-100, and Tiny-ImageNet.
翻訳日:2023-03-20 14:08:06 公開日:2023-03-17
# 深層学習を用いた後部推定:動的PETにおける比較モデルの検討

Posterior Estimation Using Deep Learning: A Simulation Study of Compartmental Modeling in Dynamic PET ( http://arxiv.org/abs/2303.10057v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Thibault Marin, Tiss Amal, Jonghye Woo, Georges El Fakhri, Jinsong Ouyang(参考訳) 背景: 医用画像では、画像は通常決定論として扱われるが、その不確実性はほとんど未熟である。 目的: 深層学習を用いて、画像パラメータの後方分布を効率的に推定し、最も可能性の高いパラメータとその不確かさを導出することを目的とする。 提案手法は,条件付き変分オートエンコーダ(CVAE)とCVAEデュアルエンコーダ(CVAE-dual-encoder)とCVAE-dual-decoder(CVAE-dual-decoder)の2つの異なるディープニューラルネットワークを用いて実装された変分ベイズ推論フレームワークに基づく。 従来のCVAEフレームワーク、すなわちCVAE-vanillaは、これらの2つのニューラルネットワークの単純化されたケースとみなすことができる。 これらの手法を、参照領域に基づく運動モデルを用いた動的脳PETイメージングのシミュレーション研究に応用した。 結果: シミュレーション実験では, PETの運動パラメータの後方分布を時間活性曲線の測定値から推定した。 提案するCVAE-dual-encoderとCVAE-dual-decoderは,マルコフ・チェイン・モンテカルロ(MCMC)による漸近的に偏りのない後部分布とよく一致している。 CVAE-vanillaは後部分布の推定にも使えるが、CVAE-dual-encoderとCVAE-dual-decoderに劣る性能を持つ。 結論: 動的脳PETにおける後部分布推定のためのディープラーニング手法の性能評価を行った。 我々の深層学習アプローチは,MCMCが推定した非偏平分布とよく一致した後部分布を生成する。 これらのニューラルネットワークはすべて異なる特性を持ち、特定のアプリケーションに対してユーザが選択することができる。 提案手法は一般的であり,他の問題に適用可能である。

Background: In medical imaging, images are usually treated as deterministic, while their uncertainties are largely underexplored. Purpose: This work aims at using deep learning to efficiently estimate posterior distributions of imaging parameters, which in turn can be used to derive the most probable parameters as well as their uncertainties. Methods: Our deep learning-based approaches are based on a variational Bayesian inference framework, which is implemented using two different deep neural networks based on conditional variational auto-encoder (CVAE), CVAE-dual-encoder and CVAE-dual-decoder. The conventional CVAE framework, i.e., CVAE-vanilla, can be regarded as a simplified case of these two neural networks. We applied these approaches to a simulation study of dynamic brain PET imaging using a reference region-based kinetic model. Results: In the simulation study, we estimated posterior distributions of PET kinetic parameters given a measurement of time-activity curve. Our proposed CVAE-dual-encoder and CVAE-dual-decoder yield results that are in good agreement with the asymptotically unbiased posterior distributions sampled by Markov Chain Monte Carlo (MCMC). The CVAE-vanilla can also be used for estimating posterior distributions, although it has an inferior performance to both CVAE-dual-encoder and CVAE-dual-decoder. Conclusions: We have evaluated the performance of our deep learning approaches for estimating posterior distributions in dynamic brain PET. Our deep learning approaches yield posterior distributions, which are in good agreement with unbiased distributions estimated by MCMC. All these neural networks have different characteristics and can be chosen by the user for specific applications. The proposed methods are general and can be adapted to other problems.
翻訳日:2023-03-20 14:07:46 公開日:2023-03-17
# GlueGen: X-to-image 生成のためのプラグインとマルチモーダルエンコーダ

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation ( http://arxiv.org/abs/2303.10056v1 )

ライセンス: Link先を確認
Can Qin, Ning Yu, Chen Xing, Shu Zhang, Zeyuan Chen, Stefano Ermon, Yun Fu, Caiming Xiong, Ran Xu(参考訳) 拡散過程に基づくテキスト・ツー・イメージ(t2i)モデルは,ユーザ提供キャプションを用いた制御可能な画像生成において大きな成功を収めている。 しかし、現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合は、置き換えやアップグレードを困難にしている。 このような変更は、しばしば大規模な微調整や、禁止費用をゼロからトレーニングすることさえ必要となる。 そこで本研究では,t2iモデルの潜在空間とシングルモーダルまたはマルチモーダルエンコーダの特徴を整合させるために,新たに提案するgluenetモデルを適用したgluegenを提案する。 このアプローチでは、並列コーパスを活用して異なるエンコーダの表現空間を調整する、新たなトレーニング目標が導入されている。 実験の結果、gluenetは効率的にトレーニングでき、以前の最先端モデルを超えて様々な機能を可能にする。 1) XLM-Roberta のような多言語言語モデルは,既存の T2I モデルと整合し,英語以外のキャプションから高品質な画像を生成することができる。 2)GlueNetは,AudioCLIPなどのマルチモーダルエンコーダを安定拡散モデルに整合させ,音像生成を可能にする。 3) 潜在拡散モデルの現在のテキストエンコーダをアップグレードしてケース生成に挑戦することもできる。 様々な特徴表現のアラインメントにより、gluenetは、新しい機能を既存のt2iモデルに柔軟かつ効率的な統合を可能にし、x-to-image (x2i) 生成に光を当てる。

Text-to-image (T2I) models based on diffusion processes have achieved remarkable success in controllable image generation using user-provided captions. However, the tight coupling between the current text encoder and image decoder in T2I models makes it challenging to replace or upgrade. Such changes often require massive fine-tuning or even training from scratch with the prohibitive expense. To address this problem, we propose GlueGen, which applies a newly proposed GlueNet model to align features from single-modal or multi-modal encoders with the latent space of an existing T2I model. The approach introduces a new training objective that leverages parallel corpora to align the representation spaces of different encoders. Empirical results show that GlueNet can be trained efficiently and enables various capabilities beyond previous state-of-the-art models: 1) multilingual language models such as XLM-Roberta can be aligned with existing T2I models, allowing for the generation of high-quality images from captions beyond English; 2) GlueNet can align multi-modal encoders such as AudioCLIP with the Stable Diffusion model, enabling sound-to-image generation; 3) it can also upgrade the current text encoder of the latent diffusion model for challenging case generation. By the alignment of various feature representations, the GlueNet allows for flexible and efficient integration of new functionality into existing T2I models and sheds light on X-to-image (X2I) generation.
翻訳日:2023-03-20 14:07:15 公開日:2023-03-17
# ドメインウォール融解時の前面のスケーリングと絡み合いの拡大

Scaling of fronts and entanglement spreading during a domain wall melting ( http://arxiv.org/abs/2303.10054v1 )

ライセンス: Link先を確認
Stefano Scopa and Dragi Karevski(参考訳) ドメインウォール状態である $\vert\psi_0\rangle=\vert\dots \uparrow\downarrow\downarrow\dots\rangle$ で最初に用意された1次元xxzスピンチェーンのユニタリ進化中に生じる平衡外の物理を再検討する。 相互作用がなければ、磁化やスピン電流プロファイルなどを含むいくつかの保存量の正確な格子計算をレビューする。 x$ と times $t$ の大規模な距離において、これらの量が、正確に計算可能なスケーリング関数を持つ、スケーリング変数 $\zeta= x/t$ の観点で、いかに弾道スケーリングの振る舞いを可能にするかを示す。 このような大きな時空スケールの限界において、系の漸近的挙動はスピンレスフェルミオンモードの局所的占有関数によって好適に捉えられ、相空間における半古典的進化はオイラー流体力学方程式によって与えられる。 同様に、一般流体力学による相互作用鎖の漸近フロントダイナミクスの解析結果が得られる。 研究の最後の部分では、進化するフェルミ輪郭に沿って生きる共形場理論の形で、半古典的流体力学の背景の上に大規模な量子ゆらぎを含む。 この手順は量子一般化流体力学と呼ばれ、融解力学中に広がる絡み合いに対して正確な漸近的な結果を得ることができる。

We revisit the out-of-equilibrium physics arising during the unitary evolution of a one-dimensional XXZ spin chain initially prepared in a domain wall state $\vert\psi_0\rangle=\vert\dots \uparrow\uparrow\downarrow\downarrow\dots\rangle$. In absence of interactions, we review the exact lattice calculation of several conserved quantities, including e.g. the magnetization and the spin current profiles. At large distances $x$ and times $t$, we show how these quantities allow for a ballistic scaling behavior in terms of the scaling variable $\zeta= x/t$, with exactly computable scaling functions. In such a limit of large space-time scales, we show that the asymptotic behavior of the system is suitably captured by the local occupation function of spinless fermionic modes, whose semi-classical evolution in phase space is given by a Euler hydrodynamic equation. Similarly, analytical results for the asymptotic fronts dynamics are obtained for the interacting chain via Generalized Hydrodynamics. In the last part of the work, we include large-scale quantum fluctuations on top of the semi-classical hydrodynamic background in the form of a conformal field theory that lives along the evolving Fermi contour. With this procedure, dubbed quantum generalized hydrodynamics, it is possible to obtain exact asymptotic results for the entanglement spreading during the melting dynamics.
翻訳日:2023-03-20 14:06:48 公開日:2023-03-17
# シリコン空孔中心を用いた動的解離保護型非断熱幾何学量子計算

Dynamical-decoupling protected nonadiabatic geometric quantum computation with silicon-vacancy centers ( http://arxiv.org/abs/2303.10053v1 )

ライセンス: Link先を確認
M.-R. Yun, L.-L. Yan, Yu Jia, S.-L. Su, C.-X Shan(参考訳) ダイヤモンド中の負電荷のシリコン空孔中心は、強いゼロフォノン線放出、狭い不均一な拡張、安定した光遷移周波数のために量子情報処理に大きな可能性を持っている。 シリコン空洞センターにおける普遍量子計算の開発が期待されている。 本稿では,シリコン空洞中心を1次元フォノニック導波路に配置したシステムにおける非断熱幾何量子計算のスキームを提案する。 提案方式の性能向上のために, 動的デカップリングパルス列を用いて環境の影響を解消する。 このスキームは、エラーを制御するのに堅牢な幾何学的量子計算の特徴を持ち、環境影響に影響を受けない動的デカップリングの利点を持っている。 さらに、シリコン空白中心の長寿命基底状態において量子ビットが符号化される特徴は、崩壊によるデコヒーレンスを低減できる。 数値シミュレーションにより, シリコン空洞中心系の量子計算に対する効果と, 環境騒音に対する量子システム免疫における動的分離パルスの改善が示された。 本手法は、固体系における高忠実性幾何量子計算への有望な方法となるかもしれない。

The negatively charged silicon-vacancy center in diamond has great potential for quantum information processing due to its strong zero-phonon line emission, narrow inhomogeneous broadening, and stable optical transition frequencies. Developing universal quantum computation in silicon-vacancy centers is highly expected. Here, we propose a scheme for nonadiabatic geometric quantum computation in the system, in which silicon-vacancy centers are placed in a one-dimensional phononic waveguide. To improve the performance of the scheme, dynamical decoupling pulse sequences are used to eliminate the impact of the environment on its system. This scheme has the feature of geometric quantum computation that is robust to control errors and has the advantage of dynamical decoupling that is insensitive to environmental impact. Moreover, the feature that qubits are encoded in long-lifetime ground states of silicon-vacancy centers can reduce the decoherence caused by decay. Numerical simulation shows the effectiveness of the silicon-vacancy center system for quantum computation and the improvement of dynamic decoupling pulse in quantum system immunity to environmental noise. Our scheme may provide a promising way toward high-fidelity geometric quantum computation in the solid-state system.
翻訳日:2023-03-20 14:06:25 公開日:2023-03-17
# 中性原子量子プロセッサの中間回路計測

Mid-circuit measurements on a neutral atom quantum processor ( http://arxiv.org/abs/2303.10051v1 )

ライセンス: Link先を確認
T. M. Graham, L. Phuttitarn, R. Chinnarasu, Y. Song, C. Poole, K. Jooya, J. Scott, A. Scott, P. Eichler, and M. Saffman(参考訳) 非破壊的にアンシラキュービットを計測しながら、保護された超微細ゼマン準状態におけるデータキュービットを棚上げすることにより、中性原子配列における中間回路の測定を示す。 測定中,腹腔のマイクロ波リポンピングにより測定精度が向上した。 シェルブデータキュービットのコヒーレンスを、動的に分離されたパルスでancilla読み出し中に拡張し、その後、データキュービットをmf = 0 の計算基底状態に戻した。 データ量子ビットの量子状態は、F = 97.0(5)%のプロセス忠実度を補正した状態準備測定(SPAM)により、一定位相シフトまで十分に保存されていることを実証する。 状態準備誤差の補正後のアシラ量子ビット上の測定忠実度は, F = 94.9(8)%, F = 95.3(1.1)% for |0>, |1> qubit%である。 本稿では、この手法を4重極再帰とマイクロ波ベースの量子状態リセットを用いた繰り返し量子誤り訂正に拡張することについて議論する。

We demonstrate mid-circuit measurements in a neutral atom array by shelving data qubits in protected hyperfine-Zeeman sub-states while non-destructively measuring an ancilla qubit. Measurement fidelity was enhanced using microwave repumping of the ancilla during the measurement. The coherence of the shelved data qubits was extended during the ancilla readout with dynamical decoupling pulses, after which the data qubits are returned to mf = 0 computational basis states. We demonstrate that the quantum state of the data qubits is well preserved up to a constant phase shift with a state preparation and measurement (SPAM) corrected process fidelity of F = 97.0(5)%. The measurement fidelity on the ancilla qubit after correction for state preparation errors is F = 94.9(8)% and F = 95.3(1.1)% for |0> and |1> qubit states, respectively. We discuss extending this technique to repetitive quantum error correction using quadrupole recooling and microwave-based quantum state resetting.
翻訳日:2023-03-20 14:06:06 公開日:2023-03-17
# 均一拡散塗装のための4Kマスクの高効率ニューラルネットワーク

Efficient Neural Generation of 4K Masks for Homogeneous Diffusion Inpainting ( http://arxiv.org/abs/2303.10096v1 )

ライセンス: Link先を確認
Karl Schrader, Pascal Peter, Niklas K\"amper, Joachim Weickert(参考訳) 適切に選択されたデータにより、均質な拡散塗装は、スパースデータから高品質で画像を再構成することができる。 サイズ3840 x 2160の4kカラー画像は、すでにリアルタイムにペイント可能だが、画像圧縮のようなアプリケーションのために既知のデータを最適化することは、依然として困難である。 最近、このいわゆるマスク最適化問題に対する最初のニューラルアプローチは、小さな画像に対して高速で優れた品質を提供する。 マスク生成ネットワークを、神経の塗布サロゲートの助けを借りて訓練する。 しかし、これらのマスクネットワークは、トレーニングされた解像度とマスク密度のためにのみマスクを出力することができる。 これらの問題を解き、ニューロ明示的粗大な戦略により高解像度画像のマスク最適化を可能にする。 さらに, マスクネットワークのトレーニングと解釈性を向上させるために, 数値塗布解器をネットワークに直接組み込む。 これにより、4k画像のマスクを0.6秒程度で生成でき、実際に関連する密度の確率的方法の品質を上回っている。 既存の一般的なアプローチと比較して、これは最大4桁の加速度である。

With well-selected data, homogeneous diffusion inpainting can reconstruct images from sparse data with high quality. While 4K colour images of size 3840 x 2160 can already be inpainted in real time, optimising the known data for applications like image compression remains challenging: Widely used stochastic strategies can take days for a single 4K image. Recently, a first neural approach for this so-called mask optimisation problem offered high speed and good quality for small images. It trains a mask generation network with the help of a neural inpainting surrogate. However, these mask networks can only output masks for the resolution and mask density they were trained for. We solve these problems and enable mask optimisation for high-resolution images through a neuroexplicit coarse-to-fine strategy. Additionally, we improve the training and interpretability of mask networks by including a numerical inpainting solver directly into the network. This allows to generate masks for 4K images in around 0.6 seconds while exceeding the quality of stochastic methods on practically relevant densities. Compared to popular existing approaches, this is an acceleration of up to four orders of magnitude.
翻訳日:2023-03-20 14:00:50 公開日:2023-03-17
# 物体検出のための領域単語アライメントにおける文脈の役割強化

Enhancing the Role of Context in Region-Word Alignment for Object Detection ( http://arxiv.org/abs/2303.10093v1 )

ライセンス: Link先を確認
Kyle Buettner, Adriana Kovashka(参考訳) イメージキャプションペア間のきめ細かな領域単語アライメントを学習するための視覚言語事前学習は、オープン語彙オブジェクト検出の進歩を促している。 対象名詞のみに対する検出には領域単語アライメント法が一般的に用いられており,属性などのキャプションにおける他のリッチコンテキストの影響は不明確である。 本研究では,言語コンテキストが下流オブジェクトの検出に与える影響について検討し,文脈の役割を高めることを提案する。 特に,アライメント改善のためのグラウンドトレーニング目標を戦略的にコンテキスト化する方法を示す。 我々はさらに,特に有用なオブジェクトコンテキストとしての属性に着目し,新しい形容詞と名詞に基づく否定的サンプリング戦略を提案する。 全体として,本手法は,地域単語事前学習における最先端技術と比較してオブジェクト検出を向上する。 また,テキスト領域検索と句接頭辞解析による属性感性モデルの有用性を強調した。

Vision-language pretraining to learn a fine-grained, region-word alignment between image-caption pairs has propelled progress in open-vocabulary object detection. We observe that region-word alignment methods are typically used in detection with respect to only object nouns, and the impact of other rich context in captions, such as attributes, is unclear. In this study, we explore how language context affects downstream object detection and propose to enhance the role of context. In particular, we show how to strategically contextualize the grounding pretraining objective for improved alignment. We further hone in on attributes as especially useful object context and propose a novel adjective and noun-based negative sampling strategy for increasing their focus in contrastive learning. Overall, our methods enhance object detection when compared to the state-of-the-art in region-word pretraining. We also highlight the fine-grained utility of an attribute-sensitive model through text-region retrieval and phrase grounding analysis.
翻訳日:2023-03-20 14:00:35 公開日:2023-03-17
# 神経特徴合成による絶対ポーズ回帰の精密化

Refinement for Absolute Pose Regression with Neural Feature Synthesis ( http://arxiv.org/abs/2303.10087v1 )

ライセンス: Link先を確認
Shuai Chen, Yash Bhalgat, Xinghui Li, Jiawang Bian, Kejie Li, Zirui Wang, Victor Adrian Prisacariu(参考訳) APR(Absolute Pose Regression)メソッドは、ディープニューラルネットワークを使用して、RGBイメージからカメラのポーズを直接回帰する。 推論速度と単純さの利点にもかかわらず、これらの手法は幾何に基づく手法によって達成された正確さに欠ける。 この問題に対処するため,ニューラル・フィーチャー・シンセサイザー (NeFeS) と呼ばれる新しいモデルを提案する。 提案手法は, トレーニング中の3次元幾何学的特徴を符号化し, 任意のAPR手法から推定カメラのポーズを精査する。 ラベルなしのトレーニングデータを必要とする以前のAPR作業とは異なり、ロバストな機能フィールドを使用してテスト時間中に暗黙的な幾何的制約を利用する。 NeFeSネットワークの堅牢性を高めるために,機能融合モジュールとプログレッシブトレーニング戦略を導入する。 提案手法は,非ラベルデータトレーニングに要しない屋内および屋外ベンチマークデータセットにおいて,最先端のシングルイメージAPR精度を54.9%向上させる。

Absolute Pose Regression (APR) methods use deep neural networks to directly regress camera poses from RGB images. Despite their advantages in inference speed and simplicity, these methods still fall short of the accuracy achieved by geometry-based techniques. To address this issue, we propose a new model called the Neural Feature Synthesizer (NeFeS). Our approach encodes 3D geometric features during training and renders dense novel view features at test time to refine estimated camera poses from arbitrary APR methods. Unlike previous APR works that require additional unlabeled training data, our method leverages implicit geometric constraints during test time using a robust feature field. To enhance the robustness of our NeFeS network, we introduce a feature fusion module and a progressive training strategy. Our proposed method improves the state-of-the-art single-image APR accuracy by as much as 54.9% on indoor and outdoor benchmark datasets without additional time-consuming unlabeled data training.
翻訳日:2023-03-20 14:00:19 公開日:2023-03-17
# 主化格子上の確率的純粋状態変換

Probabilistic pure state conversion on the majorization lattice ( http://arxiv.org/abs/2303.10086v1 )

ライセンス: Link先を確認
Serge Deside, Matthieu Arnhem, C\'elia Griffet, and Nicolas J. Cerf(参考訳) 局所的な操作と古典的通信の下での純粋に絡み合った状態の許容変換を特徴付けるために、メジャー化格子が適切な枠組みを提供することを示す。 meet $\land$ と join $\lor$ という基本的な概念は、それぞれ最適な共通資源と最適な共通積状態を定義することにつながる。 これらの2つの状態に基づき,二成分純状態の(単一コピー)変換のための2つの最適確率的プロトコルを導入し,greedy と thrifty と名づけた。 どちらのプロトコルも、初期状態と最終状態が同等であれば、ヴィダルのプロトコル (G. Vidal, Phys. Lett. 83, 1046 (1999)) に還元されるが、そうでなければ、スリフティプロトコルは失敗するとより絡み合った残留状態が得られるので、グリーディプロトコルよりも優れていることが示される(どちらも成功すれば同じ絡み合った状態になる)。 最後に,複数の初期状態や最終状態を含む絡み合い変換へのこれらのプロトコルの一般化を検討する。

We show that the majorization lattice provides the appropriate framework in order to characterize the allowed transformations of pure entangled states under local operations and classical communication. The underlying notions of meet $\land$ and join $\lor$ in the majorization lattice lead us to define, respectively, the optimal common resource and optimal common product states. Based on these two states, we introduce two optimal probabilistic protocols for the (single-copy) conversion of incomparable bipartite pure states, which we name greedy and thrifty. Both protocols reduce to Vidal's protocol [G. Vidal, Phys. Rev. Lett. 83, 1046 (1999)] if the initial and final states are comparable, but otherwise the thrifty protocol can be shown to be superior to the greedy protocol as it yields a more entangled residual state when it fails (they both yield the same entangled state with the same optimal probability when they succeed). Finally, we consider the generalization of these protocols to entanglement transformations involving multiple possible initial or final states.
翻訳日:2023-03-20 13:59:58 公開日:2023-03-17
# 制約付き輸送計量によるロバスト確率的推論

Robust probabilistic inference via a constrained transport metric ( http://arxiv.org/abs/2303.10085v1 )

ライセンス: Link先を確認
Abhisek Chakraborty, Anirban Bhattacharya, Debdeep Pati(参考訳) フレキシブルベイズモデルは通常、多くのパラメータを持つ大きなパラメトリックモデルの限界を使って構築され、しばしば解釈できない。 本稿では,ワッサースタイン計量の新しい変種に対して,選択分布のパラメトリック族近傍に集中するように慎重に設計した指数関数的に傾斜した経験的確率を,モデルパラメータの事前分布と組み合わせて頑健な後続を求めることにより,新たな代替案を提案する。 提案手法は, 様々なロバストな推論問題に応用し, 中心分布に付随するパラメータを外乱の存在下で推論することを目的としている。 提案手法は,離散最適輸送問題に対してシンクホーン正則化を有効利用し,本質的に並列化可能である。 現状の頑健なベイズ推論手法と比較した場合,提案手法の優れた性能を示す。 また,本手法を適切な漸近的枠組みの下で非パラメトリックベイズ定式化と等価性を示し,その柔軟性を検証した。 我々の可能性の定式化の中心に位置する制約付きエントロピーの最大化は、強靭なベイズ推論以上の有用性を見出す。

Flexible Bayesian models are typically constructed using limits of large parametric models with a multitude of parameters that are often uninterpretable. In this article, we offer a novel alternative by constructing an exponentially tilted empirical likelihood carefully designed to concentrate near a parametric family of distributions of choice with respect to a novel variant of the Wasserstein metric, which is then combined with a prior distribution on model parameters to obtain a robustified posterior. The proposed approach finds applications in a wide variety of robust inference problems, where we intend to perform inference on the parameters associated with the centering distribution in presence of outliers. Our proposed transport metric enjoys great computational simplicity, exploiting the Sinkhorn regularization for discrete optimal transport problems, and being inherently parallelizable. We demonstrate superior performance of our methodology when compared against state-of-the-art robust Bayesian inference methods. We also demonstrate equivalence of our approach with a nonparametric Bayesian formulation under a suitable asymptotic framework, testifying to its flexibility. The constrained entropy maximization that sits at the heart of our likelihood formulation finds its utility beyond robust Bayesian inference; an illustration is provided in a trustworthy machine learning application.
翻訳日:2023-03-20 13:59:33 公開日:2023-03-17
# $\alpha$surf:半透明および薄い物体の非結合な形状と不透明性を持つ暗黙的表面再構成

$\alpha$Surf: Implicit Surface Reconstruction for Semi-Transparent and Thin Objects with Decoupled Geometry and Opacity ( http://arxiv.org/abs/2303.10083v1 )

ライセンス: Link先を確認
Tianhao Wu, Hanxue Liang, Fangcheng Zhong, Gernot Riegler, Shimon Vainer, Cengiz Oztireli(参考訳) 符号付き距離関数 (SDF) のような入射表面表現は, 画像に基づく表面再構成に有望なアプローチとして現れている。 しかし、既存の最適化手法では固体表面を仮定し、半透明表面や細い構造を適切に再構築することができず、背景とのブレンディング効果により不透明度も低い。 ニューラル・ラジアンス・フィールド(nerf)に基づく手法は、合成された新規ビューにおいて半透明性をモデル化し、フォトリアリスティックな品質を達成することができるが、その体積幾何学表現は、幾何学と不透明性を密結合しており、アーティファクトを導入することなく簡単に表面へ変換することはできない。 色が混ざった半透明表面と薄い表面の再構成のための、疎結合な幾何学と不透明性を持つ新しい曲面表現である$\alpha$Surfを提示する。 我々の表現における線-面の交叉は、立方多項式の解析解を通じて閉形式で見ることができ、モンテカルロサンプリングを避け、構成によって完全に微分可能である。 定性的および定量的評価により, 半透明, 薄肉で表面を再現し, 加工品が少なく, 再現性は現状の SDF 法や NeRF 法より良好であることがわかった。 ウェブサイト:https://alphasurf.netlify.app/

Implicit surface representations such as the signed distance function (SDF) have emerged as a promising approach for image-based surface reconstruction. However, existing optimization methods assume solid surfaces and are therefore unable to properly reconstruct semi-transparent surfaces and thin structures, which also exhibit low opacity due to the blending effect with the background. While neural radiance field (NeRF) based methods can model semi-transparency and achieve photo-realistic quality in synthesized novel views, their volumetric geometry representation tightly couples geometry and opacity, and therefore cannot be easily converted into surfaces without introducing artifacts. We present $\alpha$Surf, a novel surface representation with decoupled geometry and opacity for the reconstruction of semi-transparent and thin surfaces where the colors mix. Ray-surface intersections on our representation can be found in closed-form via analytical solutions of cubic polynomials, avoiding Monte-Carlo sampling and is fully differentiable by construction. Our qualitative and quantitative evaluations show that our approach can accurately reconstruct surfaces with semi-transparent and thin parts with fewer artifacts, achieving better reconstruction quality than state-of-the-art SDF and NeRF methods. Website: https://alphasurf.netlify.app/
翻訳日:2023-03-20 13:58:53 公開日:2023-03-17
# ファジィチューニング: 反対例の伝達性の向上

Fuzziness-tuned: Improving the Transferability of Adversarial Examples ( http://arxiv.org/abs/2303.10078v1 )

ライセンス: Link先を確認
Xiangyuan Yang, Jie Lin, Hanlin Zhang, Xinyu Yang, Peng Zhao(参考訳) 敵対的攻撃の発展に伴い、深いニューラルネットワーク上でのトレーニングモデルの堅牢性を高めるために、敵の例が広く使用されている。 攻撃例の伝達性を改善するための敵意攻撃の努力が盛んに行われているが、攻撃力の低い被害者モデル(例えば、攻撃強度$8/255$)よりも、サロゲートモデルへの移動ベースの攻撃の攻撃成功率ははるかに高い。 本稿では,まずこの問題を体系的に検討し,サロゲートモデルと被害者モデルとの攻撃成功率の相違が,特定の領域(ファジィドメインと呼ばれる)の存在によって引き起こされ,その領域の敵の例がサロゲートモデルによって正しく分類されながら,サロゲートモデルによって正しく分類されることがわかった。 そして,このような攻撃成功率の差をなくし,生成した敵の移動性を向上させるために,信頼度スケーリング機構と温度スケーリング機構からなるファジィ調整手法を提案し,生成した敵がファジィ領域から効果的に抜け出すことができるようにする。 信頼性スケーリング機構と温度スケーリング機構は、ファジィの勾配降下重量を調整し、更新方向を安定化することにより、生成した対向例のファジィを協調的に調整することができる。 具体的には,提案手法を既存の敵攻撃と効果的に統合することにより,時間的複雑さを伴わずに,先行例の転送性をさらに向上することができる。 拡張実験により、ファジィ調整法は、最新の転送ベース攻撃における敵例の転送性を効果的に向上することを示した。

With the development of adversarial attacks, adversairal examples have been widely used to enhance the robustness of the training models on deep neural networks. Although considerable efforts of adversarial attacks on improving the transferability of adversarial examples have been developed, the attack success rate of the transfer-based attacks on the surrogate model is much higher than that on victim model under the low attack strength (e.g., the attack strength $\epsilon=8/255$). In this paper, we first systematically investigated this issue and found that the enormous difference of attack success rates between the surrogate model and victim model is caused by the existence of a special area (known as fuzzy domain in our paper), in which the adversarial examples in the area are classified wrongly by the surrogate model while correctly by the victim model. Then, to eliminate such enormous difference of attack success rates for improving the transferability of generated adversarial examples, a fuzziness-tuned method consisting of confidence scaling mechanism and temperature scaling mechanism is proposed to ensure the generated adversarial examples can effectively skip out of the fuzzy domain. The confidence scaling mechanism and the temperature scaling mechanism can collaboratively tune the fuzziness of the generated adversarial examples through adjusting the gradient descent weight of fuzziness and stabilizing the update direction, respectively. Specifically, the proposed fuzziness-tuned method can be effectively integrated with existing adversarial attacks to further improve the transferability of adverarial examples without changing the time complexity. Extensive experiments demonstrated that fuzziness-tuned method can effectively enhance the transferability of adversarial examples in the latest transfer-based attacks.
翻訳日:2023-03-20 13:58:13 公開日:2023-03-17
# 自律運転における3次元動作推定のための簡易試み

A Simple Attempt for 3D Occupancy Estimation in Autonomous Driving ( http://arxiv.org/abs/2303.10076v1 )

ライセンス: Link先を確認
Wanshui Gan, Ningkai Mo, Hongbin Xu, Naoto Yokoya(参考訳) 周囲の視界画像から3次元の占有度を推定するタスクは、バードズアイビュー(BEV)の認識の成功に続く自動運転分野におけるエキサイティングな発展であり、このタスクは運転環境の重要な3次元特性を提供し、周囲の空間の全体的な理解と認識を高める。 しかし、ネットワーク設計、最適化、評価など、タスクを定義するためのベースラインが依然として欠けている。 本研究では,3次元占有率推定のためのいくつかの重要な要因を明らかにするために設計されたcnnベースのフレームワークである3次元占有率推定のための簡易な試みを提案する。 さらに,3次元占有率推定と,単眼深度推定,ステレオマッチング,BEV知覚(3Dオブジェクト検出,マップセグメンテーション)などの関連課題との関係について検討した。 評価のために,現在の公開データセットに柔軟である占有評価基準を定義するための簡単なサンプリング戦略を提案する。 さらに,提案手法とDDADおよびNuscenesデータセットの単眼深度推定手法を比較し,深度推定の指標として新しいベンチマークを構築した。関連コードはhttps://github.com/GANWANSHUI/SimpleOccupancyで利用可能である。

The task of estimating 3D occupancy from surrounding view images is an exciting development in the field of autonomous driving, following the success of Birds Eye View (BEV) perception.This task provides crucial 3D attributes of the driving environment, enhancing the overall understanding and perception of the surrounding space. However, there is still a lack of a baseline to define the task, such as network design, optimization, and evaluation. In this work, we present a simple attempt for 3D occupancy estimation, which is a CNN-based framework designed to reveal several key factors for 3D occupancy estimation. In addition, we explore the relationship between 3D occupancy estimation and other related tasks, such as monocular depth estimation, stereo matching, and BEV perception (3D object detection and map segmentation), which could advance the study on 3D occupancy estimation. For evaluation, we propose a simple sampling strategy to define the metric for occupancy evaluation, which is flexible for current public datasets. Moreover, we establish a new benchmark in terms of the depth estimation metric, where we compare our proposed method with monocular depth estimation methods on the DDAD and Nuscenes datasets.The relevant code will be available in https://github.com/GANWANSHUI/SimpleOccupancy
翻訳日:2023-03-20 13:57:36 公開日:2023-03-17
# dialogpaint:ダイアログベースの画像編集モデル

DialogPaint: A Dialog-based Image Editing Model ( http://arxiv.org/abs/2303.10073v1 )

ライセンス: Link先を確認
Jingxuan Wei, Shiyu Wu, Xin Jiang, Yequan Wang(参考訳) 画像編集に対話型対話型アプローチを用いた革新的なフレームワークであるdialogpaintを提案する。 フレームワークは、事前訓練された対話モデル(Blenderbot)と拡散モデル(Stable Diffusion)とを含む。 対話モデルは,ユーザの要求を理解するために対話を行い,対話に基づいて簡潔な指示を生成する。 その後、安定拡散モデルは、入力画像とともにこれらの命令を用いて所望の出力を生成する。 このようなモデルのための微調整データの取得が難しいため、複数の大規模モデルを用いてシミュレーション対話と対応する画像ペアを生成する。 合成データでフレームワークを微調整した後、実際のアプリケーションシーンでの性能を評価する。 その結果,DialogPaintは客観的および主観的評価指標の両面で優れており,あいまいな指示を効果的に処理し,オブジェクト置換,スタイル移動,色変化などのタスクを実行することができることがわかった。 さらに,複雑な編集作業の完了を可能にするマルチラウンド編集もサポートしている。

We present DialogPaint, an innovative framework that employs an interactive conversational approach for image editing. The framework comprises a pretrained dialogue model (Blenderbot) and a diffusion model (Stable Diffusion). The dialogue model engages in conversation with users to understand their requirements and generates concise instructions based on the dialogue. Subsequently, the Stable Diffusion model employs these instructions, along with the input image, to produce the desired output. Due to the difficulty of acquiring fine-tuning data for such models, we leverage multiple large-scale models to generate simulated dialogues and corresponding image pairs. After fine-tuning our framework with the synthesized data, we evaluate its performance in real application scenes. The results demonstrate that DialogPaint excels in both objective and subjective evaluation metrics effectively handling ambiguous instructions and performing tasks such as object replacement, style transfer, color modification. Moreover, our framework supports multi-round editing, allowing for the completion of complicated editing tasks.
翻訳日:2023-03-20 13:57:09 公開日:2023-03-17
# 一般パラメーター効率性を考慮した統一連続学習フレームワーク

A Unified Continual Learning Framework with General Parameter-Efficient Tuning ( http://arxiv.org/abs/2303.10070v1 )

ライセンス: Link先を確認
Qiankun Gao, Chen Zhao, Yifan Sun, Teng Xi, Gang Zhang, Bernard Ghanem, Jian Zhang(参考訳) この「事前学習$\rightarrow$ダウンストリーム適応」では、継続学習(CL)の新たな機会と課題が提示される。 最近のCLの最先端はパラメータ・効率・チューニング(PET)適応パラダイムによって達成されているが、プロンプトのみが検討されており、トランスフォーマーのみに制限されている。 本稿では,PETの1つのインスタンス化と位置づけ,ラーニング・アキュミュレーション・アンサンブル(LAE)と呼ばれる一般PETを用いた統合CLフレームワークを提案する。 PET(Adapter、LoRA、Prefixなど)は、トレーニング済みのモデルをより少ないパラメータとリソースで下流のタスクに適応させることができる。 LAEフレームワークは,PET法によりCLに3つの新しい設計を組み込む。 1)学習:事前学習モデルでは,オンラインPETモジュールを調整し,異なるPETモジュールを調整するために適応速度校正を行う。 2)蓄積:オンラインPETモジュールが学習したタスク固有の知識をモーメント更新によりオフラインPETモジュールに蓄積する。 3)アンサンブルでは,オンライン/オフラインPETモジュール(新規/歴史的タスクに好まれる)を用いて,それぞれ2人の専門家による予測アンサンブルを構築した。 LAEはPET方式のバッテリと互換性があり,CL能力も高いことを示す。 例えば、Adaptor PETを使用したLAEは、CIFAR100とImageNet-Rデータセットにおける最終段階の精度をそれぞれ1.3%と3.6%上回る。

The "pre-training $\rightarrow$ downstream adaptation" presents both new opportunities and challenges for Continual Learning (CL). Although the recent state-of-the-art in CL is achieved through Parameter-Efficient-Tuning (PET) adaptation paradigm, only prompt has been explored, limiting its application to Transformers only. In this paper, we position prompting as one instantiation of PET, and propose a unified CL framework with general PET, dubbed as Learning-Accumulation-Ensemble (LAE). PET, e.g., using Adapter, LoRA, or Prefix, can adapt a pre-trained model to downstream tasks with fewer parameters and resources. Given a PET method, our LAE framework incorporates it for CL with three novel designs. 1) Learning: the pre-trained model adapts to the new task by tuning an online PET module, along with our adaptation speed calibration to align different PET modules, 2) Accumulation: the task-specific knowledge learned by the online PET module is accumulated into an offline PET module through momentum update, 3) Ensemble: During inference, we respectively construct two experts with online/offline PET modules (which are favored by the novel/historical tasks) for prediction ensemble. We show that LAE is compatible with a battery of PET methods and gains strong CL capability. For example, LAE with Adaptor PET surpasses the prior state-of-the-art by 1.3% and 3.6% in last-incremental accuracy on CIFAR100 and ImageNet-R datasets, respectively.
翻訳日:2023-03-20 13:56:52 公開日:2023-03-17
# 単語長の圧縮の直接的および間接的証拠。 Zipfの省略法則の再検討

Direct and indirect evidence of compression of word lengths. Zipf's law of abbreviation revisited ( http://arxiv.org/abs/2303.10128v1 )

ライセンス: Link先を確認
Sonia Petrini, Antoni Casas-i-Mu\~noz, Jordi Cluet-i-Martinell, Mengxue Wang, Chris Bentz and Ramon Ferrer-i-Cancho(参考訳) Zipfの省略法則(英語版)は、より頻繁な単語が短くなる傾向にあり、例外なく、あるいは地球上の言語の数に比べて圧倒的に小さい例外があるという意味で、言語普遍の最も堅固な候補の1つである。 Zipfの先駆的な研究以来、この法則は、コミュニケーションの労力を減らすために、コミュニケーションの普遍的な原則、すなわち単語長の最小化の現れと見なされてきた。 ここでは、文語と略語の法則の一致を再検討する。 特に,14の言語族に属する46の言語において,この法が音声(単語の長さが経時的に測定されている場合)にも当てはまるというより広い証拠を提供する。 省略法則との合意は、省略法則が最適符号化の予測であるという理論的議論を通じて、言語圧縮の間接的な証拠を提供する。 圧縮の直接的な証拠の必要性から,単語の長さが言語系や書記系にまたがって体系的に低いこと,また測定単位(文字の長さや時間長)とは独立に,ランダムなベースラインの単純な公式を導出する。 我々の研究は、言語における単語長の最適度を測り、比較する方法である。

Zipf's law of abbreviation, the tendency of more frequent words to be shorter, is one of the most solid candidates for a linguistic universal, in the sense that it has the potential for being exceptionless or with a number of exceptions that is vanishingly small compared to the number of languages on Earth. Since Zipf's pioneering research, this law has been viewed as a manifestation of a universal principle of communication, i.e. the minimization of word lengths, to reduce the effort of communication. Here we revisit the concordance of written language with the law of abbreviation. Crucially, we provide wider evidence that the law holds also in speech (when word length is measured in time), in particular in 46 languages from 14 linguistic families. Agreement with the law of abbreviation provides indirect evidence of compression of languages via the theoretical argument that the law of abbreviation is a prediction of optimal coding. Motivated by the need of direct evidence of compression, we derive a simple formula for a random baseline indicating that word lengths are systematically below chance, across linguistic families and writing systems, and independently of the unit of measurement (length in characters or duration in time). Our work paves the way to measure and compare the degree of optimality of word lengths in languages.
翻訳日:2023-03-20 13:50:49 公開日:2023-03-17
# IRGen:画像検索のための生成モデリング

IRGen: Generative Modeling for Image Retrieval ( http://arxiv.org/abs/2303.10126v1 )

ライセンス: Link先を確認
Yidan Zhang, Ting Zhang, Dong Chen, Yujing Wang, Qi Chen, Xing Xie, Hao Sun, Weiwei Deng, Qi Zhang, Fan Yang, Mao Yang, Qingmin Liao, Baining Guo(参考訳) 生成的モデリングは自然言語処理やコンピュータビジョンにおいてユビキタスであるが、画像検索への応用は未検討である。 本稿では,シーケンス・ツー・シーケンスモデルを用いて画像検索を生成モデルの一形態として再キャストし,現在の統一テーマに寄与する。 我々のフレームワークIRGenは、エンドツーエンドの微分検索を可能にする統一モデルであり、直接最適化により優れた性能を実現する。 IRGenの開発中、画像の極めて短いセマンティックな配列に変換するという重要な技術的課題に取り組み、効率的かつ効果的な検索を可能にする。 実証実験により,本モデルが一般的に使用される3つのベンチマーク,例えばre recall@10スコアのin-shopデータセットにおけるprecision@10の最高基準法よりも22.9\%高い値が得られることを示した。

While generative modeling has been ubiquitous in natural language processing and computer vision, its application to image retrieval remains unexplored. In this paper, we recast image retrieval as a form of generative modeling by employing a sequence-to-sequence model, contributing to the current unified theme. Our framework, IRGen, is a unified model that enables end-to-end differentiable search, thus achieving superior performance thanks to direct optimization. While developing IRGen we tackle the key technical challenge of converting an image into quite a short sequence of semantic units in order to enable efficient and effective retrieval. Empirical experiments demonstrate that our model yields significant improvement over three commonly used benchmarks, for example, 22.9\% higher than the best baseline method in precision@10 on In-shop dataset with comparable recall@10 score.
翻訳日:2023-03-20 13:50:24 公開日:2023-03-17
# 二層グラフェン二重量子ドットにおけるコヒーレント電荷振動

Coherent Charge Oscillations in a Bilayer Graphene Double Quantum Dot ( http://arxiv.org/abs/2303.10119v1 )

ライセンス: Link先を確認
Katrin Hecker, Luca Banszerus, Aaron Sch\"apers, Samuel M\"oller, Anton Peters, Eike Icking, Kenji Watanabe, Takashi Taniguchi, Christian Volk, Christoph Stampfer(参考訳) 2つのエネルギーレベルの反交差を通過する量子力学的2レベル系のコヒーレントダイナミクスは、ランダウ・ツェナー・シュタッケルベルク(LZS)干渉を引き起こす。 LZS干渉分光法は、半導体量子ドット(QD)における電荷ノイズと電荷デコヒーレンスを研究するための実りあるツールであることが証明されている。 近年、二層グラフェンは、スピンおよびバレーキュービットのホスティングに有用な、高度に調整可能なqdsをホストするための有望なプラットフォームとして開発されている。 これまでのところ、この系ではコヒーレント振動は観測されておらず、荷電ノイズについてはほとんど知られていない。 ここでは、2層グラフェン二重QDにおけるコヒーレント電荷振動と$T_2^*$電荷デコヒーレンス時間を報告する。 電荷デコヒーレンス時間はLZS干渉と光子アシストトンネルを用いて独立に測定される。 どちらの手法も400から500~psの範囲で平均値$t_2^*$を得る。 電荷コヒーレンス観測は、将来の実験における電荷ノイズの起源とスペクトル分布の研究を可能にする。

The coherent dynamics of a quantum mechanical two-level system passing through an anti-crossing of two energy levels can give rise to Landau-Zener-St\"uckelberg (LZS) interference. LZS interference spectroscopy has proven to be a fruitful tool to investigate charge noise and charge decoherence in semiconductor quantum dots (QDs). Recently, bilayer graphene has developed as a promising platform to host highly tunable QDs potentially useful for hosting spin and valley qubits. So far, in this system no coherent oscillations have been observed and little is known about charge noise in this material. Here, we report coherent charge oscillations and $T_2^*$ charge decoherence times in a bilayer graphene double QD. The charge decoherence times are measured independently using LZS interference and photon assisted tunneling. Both techniques yield $T_2^*$ average values in the range of 400 to 500~ps. The observation of charge coherence allows to study the origin and spectral distribution of charge noise in future experiments.
翻訳日:2023-03-20 13:50:08 公開日:2023-03-17
# $\textit{Clingraph}$:ASPベースの可視化システム

$\textit{Clingraph}$: A System for ASP-based Visualization ( http://arxiv.org/abs/2303.10118v1 )

ライセンス: Link先を確認
Susana Hahn, Orkunt Sabuncu, Torsten Schaub, Tobias Stolzmann(参考訳) ASP ベースの視覚化ツール $\textit{clingraph}$ を提示する。 このアイデアは、$\textit{aspviz}$ツールと$\textit{clingraph}$再開発に遡り、現代的なaspシステムのコンテキストでそれを拡張します。 より正確には、$\textit{clingraph}$は、ASP事実の観点からグラフ仕様を取り、それらをグラフ視覚化システム$\textit{graphviz}$に渡します。 aspの使用は、論理プログラムと/または応答セットとそれらの可視化の間の優れたインターフェースを提供する。 また、$\textit{clingraph}$は$\textit{python}$ apiを提供し、このインターフェイスを簡単に$\textit{clingo}$のapiに拡張する。

We present the ASP-based visualization tool $\textit{clingraph}$ which aims at visualizing various concepts of ASP by means of ASP itself. This idea traces back to the $\textit{aspviz}$ tool and $\textit{clingraph}$ redevelops and extends it in the context of modern ASP systems. More precisely, $\textit{clingraph}$ takes graph specifications in terms of ASP facts and hands them over to the graph visualization system $\textit{graphviz}$. The use of ASP provides a great interface between logic programs and/or answer sets and their visualization. Also, $\textit{clingraph}$ offers a $\textit{python}$ API that extends this ease of interfacing to $\textit{clingo}$'s API, and in turn to connect and monitor various aspects of the solving process.
翻訳日:2023-03-20 13:49:52 公開日:2023-03-17
# 時間データからの因果発見 : 概観と新たな展望

Causal Discovery from Temporal Data: An Overview and New Perspectives ( http://arxiv.org/abs/2303.10112v1 )

ライセンス: Link先を確認
Chang Gong, Di Yao, Chuzhe Zhang, Wenbin Li and Jingping Bi(参考訳) 複雑なシステムの時系列観測を表す時間データは、常に典型的なデータ構造であり、産業、医療、金融など多くの領域で広く利用されている。 このタイプのデータを分析することは、様々なアプリケーションにとって非常に価値がある。 このように,過去数十年間,分類,クラスタリング,予測といった時間的データ分析タスクが提案されてきた。 その中でも,時間的データから因果関係を学習する因果発見は興味深いが重要な課題であり,研究の注目を集めている。 既存のカジュアルな発見作業は、時間データの校正、多変量時系列のカジュアルな発見、イベントシークエンスなカジュアルな発見の2つの高い相関カテゴリに分けることができる。 しかしながら、以前の調査のほとんどは、時系列のカジュアルな発見のみに焦点を当てており、第2のカテゴリを無視している。 本稿では,2つのカテゴリ間の相関関係を定義し,既存のソリューションの体系的概要を提供する。 さらに,公開データセット,評価指標,時間的データのカジュアルな発見のための新たな視点を提供する。

Temporal data, representing chronological observations of complex systems, has always been a typical data structure that can be widely generated by many domains, such as industry, medicine and finance. Analyzing this type of data is extremely valuable for various applications. Thus, different temporal data analysis tasks, eg, classification, clustering and prediction, have been proposed in the past decades. Among them, causal discovery, learning the causal relations from temporal data, is considered an interesting yet critical task and has attracted much research attention. Existing casual discovery works can be divided into two highly correlated categories according to whether the temporal data is calibrated, ie, multivariate time series casual discovery, and event sequence casual discovery. However, most previous surveys are only focused on the time series casual discovery and ignore the second category. In this paper, we specify the correlation between the two categories and provide a systematical overview of existing solutions. Furthermore, we provide public datasets, evaluation metrics and new perspectives for temporal data casual discovery.
翻訳日:2023-03-20 13:49:31 公開日:2023-03-17
# 拡散モデルを用いたラベルなしグラフからのデータ中心学習

Data-Centric Learning from Unlabeled Graphs with Diffusion Model ( http://arxiv.org/abs/2303.10108v1 )

ライセンス: Link先を確認
Gang Liu, Eric Inae, Tong Zhao, Jiaxin Xu, Tengfei Luo, Meng Jiang(参考訳) グラフプロパティ予測タスクは重要かつ多様である。 各タスクはラベル付きサンプルの小さなサイズを提供するが、ラベル付きグラフは様々なソースや大規模から収集されている。 従来の手法では、自己教師型タスクのラベルのないグラフでモデルをトレーニングし、予測タスクのモデルを微調整する。 しかし、自己監督型タスク知識は、予測に必要なものと一致したり、時には矛盾することはなかった。 本稿では,ラベルなしグラフの大規模集合の基盤となる知識を,各特性予測モデルを強化する有用なデータ点の集合として抽出する。 拡散モデルを用いてラベルのないグラフを完全に活用し、2つの新しい目的を設計し、各タスクのラベル付きデータを用いてモデルの認知プロセスをガイドし、タスク固有のグラフ例とそのラベルを生成する。 実験の結果、データ中心のアプローチは15のタスクにおいて、既存の14の様々な方法よりもかなり優れていることが示されました。 ラベルなしデータによるパフォーマンス改善は、自己教師付き学習とは異なり、生成されたラベル付きサンプルとして見ることができる。

Graph property prediction tasks are important and numerous. While each task offers a small size of labeled examples, unlabeled graphs have been collected from various sources and at a large scale. A conventional approach is training a model with the unlabeled graphs on self-supervised tasks and then fine-tuning the model on the prediction tasks. However, the self-supervised task knowledge could not be aligned or sometimes conflicted with what the predictions needed. In this paper, we propose to extract the knowledge underlying the large set of unlabeled graphs as a specific set of useful data points to augment each property prediction model. We use a diffusion model to fully utilize the unlabeled graphs and design two new objectives to guide the model's denoising process with each task's labeled data to generate task-specific graph examples and their labels. Experiments demonstrate that our data-centric approach performs significantly better than fourteen existing various methods on fifteen tasks. The performance improvement brought by unlabeled data is visible as the generated labeled examples unlike self-supervised learning.
翻訳日:2023-03-20 13:49:13 公開日:2023-03-17
# 機関的AI研究と導入を導く多ドメイン関係フレームワーク

A multidomain relational framework to guide institutional AI research and adoption ( http://arxiv.org/abs/2303.10106v1 )

ライセンス: Link先を確認
Vincent J. Straub, Deborah Morgan, Youmna Hashem, John Francis, Saba Esnaashari, Jonathan Bright(参考訳) 機関や行政における人工知能(AI)の採用を導くための新しいメトリクス、技術標準、ガバナンスメカニズムが現在一般的である。 しかし、AIを採用することの意味を理解することを目的としたほとんどの研究と政策の取り組みは、ほんの一握りのアイデアだけを優先する傾向がある。 本稿では, 社会技術的談話における関係問題(relational problem)とは, 意味的曖昧性, 概念間の明確な関係の欠如, 標準用語の相違など, 根本的な存在論的問題は未だ解決されていない。 これは、機関のaiシステムを評価するための異なる推論モードの永続性や、ml、ヒューマンファクター、社会科学、政策などを研究する分野における概念的孤立の流行に寄与している。 この批判を発展させた後、我々は、関連する概念と関連するメソッドをグループ化するための3つの水平領域からなるフィールドをまたいだ用語を整理する概念的枠組みの形で、シンプルなポリシーと研究設計ツールを提案する。 まず,2つの主要な学術会場であるAIESとFAccTの社会技術談話の背景に立ち,それぞれの領域で関連する概念を運用することで,適切なメトリクス,標準,メカニズムの開発をいかに支援できるかを説明する。 最後に,このリレーショナルアプローチを制度的AI研究や導入に適用するための,優れた質問を概説する。

Calls for new metrics, technical standards and governance mechanisms to guide the adoption of Artificial Intelligence (AI) in institutions and public administration are now commonplace. Yet, most research and policy efforts aimed at understanding the implications of adopting AI tend to prioritize only a handful of ideas; they do not fully account for all the different perspectives and topics that are potentially relevant. In this position paper, we contend that this omission stems, in part, from what we call the relational problem in socio-technical discourse: fundamental ontological issues have not yet been settled-including semantic ambiguity, a lack of clear relations between concepts and differing standard terminologies. This contributes to the persistence of disparate modes of reasoning to assess institutional AI systems, and the prevalence of conceptual isolation in the fields that study them including ML, human factors, social science and policy. After developing this critique, we offer a way forward by proposing a simple policy and research design tool in the form of a conceptual framework to organize terms across fields-consisting of three horizontal domains for grouping relevant concepts and related methods: Operational, epistemic, and normative. We first situate this framework against the backdrop of recent socio-technical discourse at two premier academic venues, AIES and FAccT, before illustrating how developing suitable metrics, standards, and mechanisms can be aided by operationalizing relevant concepts in each of these domains. Finally, we outline outstanding questions for developing this relational approach to institutional AI research and adoption.
翻訳日:2023-03-20 13:48:57 公開日:2023-03-17
# ブラインド音源分離のロバスト性解析

A Robustness Analysis of Blind Source Separation ( http://arxiv.org/abs/2303.10104v1 )

ライセンス: Link先を確認
Alexander Schell(参考訳) blind source separation (bss) は、影響変換 $f$ が可逆だが未知であるという条件の下で、その混合 $x=f(s)$ から観測されていない信号 $s$ を回復することを目的としている。 これは多くの実用的応用における基本的な問題であるため、この問題の解法が統計的事前仮定に反した場合にどのように振る舞うかを理解することが根本的な問題である。 古典的な線形混合の文脈では、そのような違反を分析し、その影響を$X$から$S$の盲点回復に与える影響を定量化するための一般的な枠組みを示す。 多次元確率過程としての$s$ のモデル化では、混合 $x$ の根底にある可能な原因の空間上の情報的トポロジーを導入し、構造的仮定から一般の偏差に対応する一般的なbss解の振る舞いを、このトポロジーに関して明示的な連続性保証の形で、経済的に解析できることを示す。 これにより、汎用モデルの不確実性シナリオのフレキシブルで便利な定量化が可能になり、BSSにとって初めての包括的な堅牢性フレームワークとなる。 我々のアプローチは完全に構成的であり、多くの統計応用に対する新しい理論的保証によってその有用性を実証する。

Blind source separation (BSS) aims to recover an unobserved signal $S$ from its mixture $X=f(S)$ under the condition that the effecting transformation $f$ is invertible but unknown. As this is a basic problem with many practical applications, a fundamental issue is to understand how the solutions to this problem behave when their supporting statistical prior assumptions are violated. In the classical context of linear mixtures, we present a general framework for analysing such violations and quantifying their impact on the blind recovery of $S$ from $X$. Modelling $S$ as a multidimensional stochastic process, we introduce an informative topology on the space of possible causes underlying a mixture $X$, and show that the behaviour of a generic BSS-solution in response to general deviations from its defining structural assumptions can be profitably analysed in the form of explicit continuity guarantees with respect to this topology. This allows for a flexible and convenient quantification of general model uncertainty scenarios and amounts to the first comprehensive robustness framework for BSS. Our approach is entirely constructive, and we demonstrate its utility with novel theoretical guarantees for a number of statistical applications.
翻訳日:2023-03-20 13:48:27 公開日:2023-03-17
# 非線形弾性による画像比較とスケーリング

Image comparison and scaling via nonlinear elasticity ( http://arxiv.org/abs/2303.10103v1 )

ライセンス: Link先を確認
John M. Ball and Christopher L. Horner(参考訳) 画像比較のための非線形弾性モデルを定式化し解析し、積分関数の最小値として画像間の最適な変換を求める。 画像領域間の相同性の適切なクラスにおける最小化子の存在は、自然仮説の下で確立される。 線形関連画像に対して,最小化アルゴリズムが一意な最小化として線形変換をもたらすかどうかを検討する。

A nonlinear elasticity model for comparing images is formulated and analyzed, in which optimal transformations between images are sought as minimizers of an integral functional. The existence of minimizers in a suitable class of homeomorphisms between image domains is established under natural hypotheses. We investigate whether for linearly related images the minimization algorithm delivers the linear transformation as the unique minimizer.
翻訳日:2023-03-20 13:47:59 公開日:2023-03-17
# 自己監督型ビデオセグメンテーションのための統一マスク埋め込みと対応学習

Unified Mask Embedding and Correspondence Learning for Self-Supervised Video Segmentation ( http://arxiv.org/abs/2303.10100v1 )

ライセンス: Link先を確認
Liulei Li, Wenguan Wang, Tianfei Zhou, Jianwu Li, Yi Yang(参考訳) 本研究の目的は,ビデオオブジェクトセグメンテーションの自己教師型学習である。 我々は,局所的特徴学習のためのフレーム間密対応をモデル化し,対象マスク復号のためのオブジェクト指向コンテキストを組み込む統一フレームワークを開発した。 結果として、ラベルのないビデオからマスクガイド付きシーケンシャルセグメンテーションを直接学習することができるが、従来の取り組みは斜めのソリューションに依存しており、ピクセル単位の相関に従って安価にラベルを「コピー」することができる。 具体的には このアルゴリズムは 一 ニヒロの擬似セグメンテーションラベルを作成するためのビデオ画素のクラスタリング 二 擬似ラベルを利用して、VOSのマスクエンコーディング及び復号を学ぶこと。 教師なし対応学習は、学習表現の汎用性を確保し、クラスタ縮退を避けるために、この自己学習型マスク埋め込みスキームにさらに組み込まれている。 我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットし、パフォーマンス設計とネットワークアーキテクチャ設計の両方の観点から、自己管理VOSと完全管理VOSのギャップを狭める。

The objective of this paper is self-supervised learning of video object segmentation. We develop a unified framework which simultaneously models cross-frame dense correspondence for locally discriminative feature learning and embeds object-level context for target-mask decoding. As a result, it is able to directly learn to perform mask-guided sequential segmentation from unlabeled videos, in contrast to previous efforts usually relying on an oblique solution - cheaply "copying" labels according to pixel-wise correlations. Concretely, our algorithm alternates between i) clustering video pixels for creating pseudo segmentation labels ex nihilo; and ii) utilizing the pseudo labels to learn mask encoding and decoding for VOS. Unsupervised correspondence learning is further incorporated into this self-taught, mask embedding scheme, so as to ensure the generic nature of the learnt representation and avoid cluster degeneracy. Our algorithm sets state-of-the-arts on two standard benchmarks (i.e., DAVIS17 and YouTube-VOS), narrowing the gap between self- and fully-supervised VOS, in terms of both performance and network architecture design.
翻訳日:2023-03-20 13:47:54 公開日:2023-03-17
# Dynamic Update-to-Data Ratio: World Model Overfittingの最小化

Dynamic Update-to-Data Ratio: Minimizing World Model Overfitting ( http://arxiv.org/abs/2303.10144v1 )

ライセンス: Link先を確認
Nicolai Dorka, Tim Welschehold, Wolfram Burgard(参考訳) 検証セットのパフォーマンスに基づく早期停止は、教師あり学習のコンテキストにおいて、下位と過剰のバランスを見つけるための一般的なアプローチである。 しかしながら、強化学習では、世界モデル学習のような教師付きサブプロブレムでも、データセットが継続的に進化しているため、早期停止は適用されない。 そこで本研究では,トレーニングに使用しない連続的な経験の少ない部分集合に対する過度および過度な検出に基づいて,トレーニング中のデータ更新率(UTD)を動的に調整する手法を提案する。 本稿では,最新のモデルベース強化学習アルゴリズムであるDreamerV2に適用し,DeepMind Control SuiteとAtari 100$kベンチマークで評価する。 その結果、DreamerV2のデフォルト設定と比較してUTD比を調整することで、過小評価と過大評価のバランスが良くなり、多くのアプリケーションでは実現不可能な広範なハイパーパラメータ検索と競合することを示した。 本手法は,UTDハイパーパラメータを手動で設定する必要をなくし,さらに必要なチューニング量を減らすことで,学習関連ハイパーパラメータに対して高いロバスト性を実現する。

Early stopping based on the validation set performance is a popular approach to find the right balance between under- and overfitting in the context of supervised learning. However, in reinforcement learning, even for supervised sub-problems such as world model learning, early stopping is not applicable as the dataset is continually evolving. As a solution, we propose a new general method that dynamically adjusts the update to data (UTD) ratio during training based on under- and overfitting detection on a small subset of the continuously collected experience not used for training. We apply our method to DreamerV2, a state-of-the-art model-based reinforcement learning algorithm, and evaluate it on the DeepMind Control Suite and the Atari $100$k benchmark. The results demonstrate that one can better balance under- and overestimation by adjusting the UTD ratio with our approach compared to the default setting in DreamerV2 and that it is competitive with an extensive hyperparameter search which is not feasible for many applications. Our method eliminates the need to set the UTD hyperparameter by hand and even leads to a higher robustness with regard to other learning-related hyperparameters further reducing the amount of necessary tuning.
翻訳日:2023-03-20 13:40:42 公開日:2023-03-17
# 乳腺浸潤性直腸癌に対するハイブリッド型古典量子計算法

Hybrid Classic-Quantum Computing for Staging of Invasive Ductal Carcinoma of Breast ( http://arxiv.org/abs/2303.10142v1 )

ライセンス: Link先を確認
Vicente Moret-Bonillo, Eduardo Mosqueira-Rey, Samuel Magaz-Romero, Diego Alvarez-Estevez(参考訳) 人工知能の現在の大きな関連性と、この分野が多くの分野にもたらした驚くべきイノベーションにもかかわらず、人工知能の医療応用の専門家たちは、現在の人工知能プログラムが最適な解決策を提供していない問題を解決するための新しい方法を模索している。 このために、有望な選択肢は量子力学の概念とアイデアを使用することで、量子ベースの人工知能システムを構築することである。 古典量子のハイブリッドの観点から、本論文は乳腺浸潤性乳管癌の進行過程における量子コンピューティング技術の応用を扱っている。 1) 古典的かつ確立された医学的推論の一般的な説明, (2) 臨床問題の記述, (3) 浸潤性胆管癌の発症に関する概念モデル,(4) 量子規則に基づくシステムに関する基本的な概念,(5) 浸潤性胆管癌の量子化のための提案するアプローチの段階的説明,(6) かなりの数のユースケースで量子システムを実行した後の結果を含む。 本論文の最後にも詳細な議論がなされている。

Despite the great current relevance of Artificial Intelligence, and the extraordinary innovations that this discipline has brought to many fields -among which, without a doubt, medicine is found-, experts in medical applications of Artificial Intelligence are looking for new alternatives to solve problems for which current Artificial Intelligence programs do not provide with optimal solutions. For this, one promising option could be the use of the concepts and ideas of Quantum Mechanics, for the construction of quantum-based Artificial Intelligence systems. From a hybrid classical-quantum perspective, this article deals with the application of quantum computing techniques for the staging of Invasive Ductal Carcinoma of the breast. It includes: (1) a general explanation of a classical, and well-established, approach for medical reasoning, (2) a description of the clinical problem, (3) a conceptual model for staging invasive ductal carcinoma, (4) some basic notions about Quantum Rule-Based Systems, (5) a step-by-step explanation of the proposed approach for quantum staging of the invasive ductal carcinoma, and (6) the results obtained after running the quantum system on a significant number of use cases. A detailed discussion is also provided at the end of this paper.
翻訳日:2023-03-20 13:40:22 公開日:2023-03-17
# 分子結晶構造予測のための幾何学的深層学習

Geometric Deep Learning for Molecular Crystal Structure Prediction ( http://arxiv.org/abs/2303.10140v1 )

ライセンス: Link先を確認
Michael Kilgour, Jutta Rogal, Mark Tuckerman(参考訳) 分子グラフの幾何学的深層学習ツールを用いて,分子結晶構造ランキングと結晶特性予測を高速化するための新しい機械学習戦略を開発し,検証する。 グラフベース学習の発展と大規模分子結晶データセットの利用可能性を活用して, 精度が高く, 評価が早く, 幅広い大きさと組成の分子に適用可能な密度予測と安定性ランキングのモデルを訓練する。 私たちの密度予測モデルであるMollXtalNet-Dは、大規模で多様なテストデータセット上で2%未満の絶対誤差で、アートパフォーマンスの状態を達成します。 結晶ランキングツールである MolXtalNet-S は,合成された偽物から実験試料を正しく識別し,ケンブリッジ構造データベース Blind Tests 5 および 6 への提出品の分析によりさらに検証する。 我々の新しいツールは、探索空間とスコア/フィルタ結晶候補を減らすために、既存の結晶構造予測パイプラインに配置できるほど安価で柔軟である。

We develop and test new machine learning strategies for accelerating molecular crystal structure ranking and crystal property prediction using tools from geometric deep learning on molecular graphs. Leveraging developments in graph-based learning and the availability of large molecular crystal datasets, we train models for density prediction and stability ranking which are accurate, fast to evaluate, and applicable to molecules of widely varying size and composition. Our density prediction model, MolXtalNet-D, achieves state of the art performance, with lower than 2% mean absolute error on a large and diverse test dataset. Our crystal ranking tool, MolXtalNet-S, correctly discriminates experimental samples from synthetically generated fakes and is further validated through analysis of the submissions to the Cambridge Structural Database Blind Tests 5 and 6. Our new tools are computationally cheap and flexible enough to be deployed within an existing crystal structure prediction pipeline both to reduce the search space and score/filter crystal candidates.
翻訳日:2023-03-20 13:40:02 公開日:2023-03-17
# Distill n' Explain:単純なサロゲートを用いたグラフニューラルネットワークの説明

Distill n' Explain: explaining graph neural networks using simple surrogates ( http://arxiv.org/abs/2303.10139v1 )

ライセンス: Link先を確認
Tamara Pereira and Erik Nasciment and Lucas E. Resck and Diego Mesquita and Amauri Souza(参考訳) グラフニューラルネットワーク(GNN)でノード予測を説明することは、しばしば、予測を保存するグラフサブ構造を見つけることにつながる。 これらの構造を見つけることは、通常、GNNを通してバックプロパゲートし、GNNの複雑さ(例えば、層数)を説明コストに結びつけることを意味する。 単純な代理GNNを説明することで、この債券を破ることができるだろうか? この疑問に答えるために、DnX(Distill n' Explain)を提案する。 まず、DnXは知識蒸留を通して代理GNNを学ぶ。 そして、DnXは単純な凸プログラムを解くことでノードやエッジレベルの説明を抽出する。 また,我々のサロゲートモデルの線形分解を利用した高速なdnxであるfastdnxを提案する。 実験の結果、DnXとFastDnXは最先端のGNN説明器よりも桁違いに高速であることがわかった。 さらに, サロゲートモデルの品質(すなわち蒸留誤差)と説明の忠実さを結びつけた理論的結果を用いて, 経験的知見を裏付ける。

Explaining node predictions in graph neural networks (GNNs) often boils down to finding graph substructures that preserve predictions. Finding these structures usually implies back-propagating through the GNN, bonding the complexity (e.g., number of layers) of the GNN to the cost of explaining it. This naturally begs the question: Can we break this bond by explaining a simpler surrogate GNN? To answer the question, we propose Distill n' Explain (DnX). First, DnX learns a surrogate GNN via knowledge distillation. Then, DnX extracts node or edge-level explanations by solving a simple convex program. We also propose FastDnX, a faster version of DnX that leverages the linear decomposition of our surrogate model. Experiments show that DnX and FastDnX often outperform state-of-the-art GNN explainers while being orders of magnitude faster. Additionally, we support our empirical findings with theoretical results linking the quality of the surrogate model (i.e., distillation error) to the faithfulness of explanations.
翻訳日:2023-03-20 13:39:43 公開日:2023-03-17
# 生成, 変換, 回答: 語彙データのための質問特定ツール合成

Generate, Transform, Answer: Question Specific Tool Synthesis for Tabular Data ( http://arxiv.org/abs/2303.10138v1 )

ライセンス: Link先を確認
Carlos Gemmell, Jeffrey Dalton(参考訳) Tabular Question answering (TQA) は、自然言語と大量の半構造化データとの結合推論を必要とすることによって、ニューラルネットワークに挑戦的な設定を提供する。 処理前にデータ変換にフィルタのようなプログラムツールを使用する人間とは異なり、TQAプロセステーブルの言語モデルは直接的にデータ変換を行う。 本稿では,クエリ固有のプログラムを生成し,テーブルの変換にいつ適用すればよいかを検出し,TQAモデルの機能と整合させるツールWriterを提案する。 ToolWriterで行フィルタリングツールを生成することで、WikiTableQuestionsやWikiSQLの最先端性が向上する。 ヘッドルームを調査することで、我々の研究は、大量の構造化データを操作するためのプログラムツールとニューラルネットワークコンポーネントを組み合わせた幅広い可能性を強調します。

Tabular question answering (TQA) presents a challenging setting for neural systems by requiring joint reasoning of natural language with large amounts of semi-structured data. Unlike humans who use programmatic tools like filters to transform data before processing, language models in TQA process tables directly, resulting in information loss as table size increases. In this paper we propose ToolWriter to generate query specific programs and detect when to apply them to transform tables and align them with the TQA model's capabilities. Focusing ToolWriter to generate row-filtering tools improves the state-of-the-art for WikiTableQuestions and WikiSQL with the most performance gained on long tables. By investigating headroom, our work highlights the broader potential for programmatic tools combined with neural components to manipulate large amounts of structured data.
翻訳日:2023-03-20 13:39:30 公開日:2023-03-17
# 透かし拡散モデルのためのレシピ

A Recipe for Watermarking Diffusion Models ( http://arxiv.org/abs/2303.10137v1 )

ライセンス: Link先を確認
Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Ngai-Man Cheung, Min Lin(参考訳) 近年,拡散モデル (DM) は生成タスクに有利な可能性を実証している。 フォトリアリスティック画像の生成や編集など、DMを下流のアプリケーションに組み込むことには幅広い関心がある。 しかし、dmsの実用的な展開と前例のない力は著作権保護や生成コンテンツの監視といった法的問題を引き起こす。 この点において、ウォーターマーキングは著作権保護とコンテンツ監視の証明済みのソリューションであるが、DMの文献では過小評価されている。 具体的には、DMはより長い線路からサンプルを生成し、新しく設計されたマルチモーダル構造を持つ可能性がある。 そこで本研究では,スクラッチや微調整からのトレーニングを通じて,最先端dms(例えば安定拡散)を効率的に透かし出すためのレシピを総合的に解析し,導出する。 われわれのレシピは単純だが、実装の詳細を実証的に改善し、将来の透かしDM研究の基盤となる。 コード:https://github.com/yunqing-me/WatermarkDM。

Recently, diffusion models (DMs) have demonstrated their advantageous potential for generative tasks. Widespread interest exists in incorporating DMs into downstream applications, such as producing or editing photorealistic images. However, practical deployment and unprecedented power of DMs raise legal issues, including copyright protection and monitoring of generated content. In this regard, watermarking has been a proven solution for copyright protection and content monitoring, but it is underexplored in the DMs literature. Specifically, DMs generate samples from longer tracks and may have newly designed multimodal structures, necessitating the modification of conventional watermarking pipelines. To this end, we conduct comprehensive analyses and derive a recipe for efficiently watermarking state-of-the-art DMs (e.g., Stable Diffusion), via training from scratch or finetuning. Our recipe is straightforward but involves empirically ablated implementation details, providing a solid foundation for future research on watermarking DMs. Our Code: https://github.com/yunqing-me/WatermarkDM.
翻訳日:2023-03-20 13:39:16 公開日:2023-03-17
# MassNet: 単圧画像からの体重抽出のためのディープラーニングアプローチ

MassNet: A Deep Learning Approach for Body Weight Extraction from A Single Pressure Image ( http://arxiv.org/abs/2303.10136v1 )

ライセンス: Link先を確認
Ziyu Wu, Quan Wan, Mingjie Zhao, Yi Ke, Yiran Fang, Zhen Liang, Fangting Xie and Jingyuan Cheng(参考訳) 身体の重量は、重要な生理的特性として、身体管理、リハビリテーション、患者固有の治療のための薬物服用など多くの応用において重要なものである。 これまでの体重推定作業は、主に2D/3D、深度、赤外線画像を用いて視覚に基づいており、照明、閉塞、特にプライバシーの問題に直面している。 圧力マッピングマットレスは、ベッド表面上の圧力分布画像を得るための非侵襲的かつプライバシー保護ツールであり、嘘つき者の体重と強く相関する。 本画像から体重を抽出するために,深部特徴を抽出し,それぞれ特徴を呈示する二分岐ネットワークを含む深部学習モデルを提案する。 対照的な学習モジュールとdeep-featureブランチを組み合わせることで、各被験者の異なる姿勢の相互要因を掘り下げることができる。 2つの特徴群は、体重回帰タスクのために連結される。 異なるハードウェアおよび姿勢設定でモデルの性能をテストするために、自作の圧力感知ベッドシートを用いて、被験者10名と姿勢23名の圧力画像データセットを作成する。 このデータセットは、この論文と共に公開され、パブリックデータセットと共に、検証に使用される。 その結果,2つのデータセットに対して,モデルが最先端のアルゴリズムより優れていることがわかった。 本研究は,臨床および在宅医療における完全自動体重推定に向けた重要なステップである。 私たちのデータセットは、研究目的のhttps://github.com/ustcwzy/massestimationで利用できます。

Body weight, as an essential physiological trait, is of considerable significance in many applications like body management, rehabilitation, and drug dosing for patient-specific treatments. Previous works on the body weight estimation task are mainly vision-based, using 2D/3D, depth, or infrared images, facing problems in illumination, occlusions, and especially privacy issues. The pressure mapping mattress is a non-invasive and privacy-preserving tool to obtain the pressure distribution image over the bed surface, which strongly correlates with the body weight of the lying person. To extract the body weight from this image, we propose a deep learning-based model, including a dual-branch network to extract the deep features and pose features respectively. A contrastive learning module is also combined with the deep-feature branch to help mine the mutual factors across different postures of every single subject. The two groups of features are then concatenated for the body weight regression task. To test the model's performance over different hardware and posture settings, we create a pressure image dataset of 10 subjects and 23 postures, using a self-made pressure-sensing bedsheet. This dataset, which is made public together with this paper, together with a public dataset, are used for the validation. The results show that our model outperforms the state-of-the-art algorithms over both 2 datasets. Our research constitutes an important step toward fully automatic weight estimation in both clinical and at-home practice. Our dataset is available for research purposes at: https://github.com/USTCWzy/MassEstimation.
翻訳日:2023-03-20 13:38:58 公開日:2023-03-17
# グラフ表現学習による効率的かつ実現可能なロボット組立シーケンス計画

Efficient and Feasible Robotic Assembly Sequence Planning via Graph Representation Learning ( http://arxiv.org/abs/2303.10135v1 )

ライセンス: Link先を確認
Matan Atad, Jianxiang Feng, Ismael Rodr\'iguez, Maximilian Durner, Rudolph Triebel(参考訳) 自動ロボット組立シーケンス計画(RASP)は、製品カスタマイズの必要性が高まるとともに、現代製造業における生産性とレジリエンスを大幅に向上させることができる。 このような自動化を実現する上での最大の課題のひとつは、ますます複雑なアセンブリの潜在的なシーケンスの数が増えることによるソリューションの効率的な発見にある。 さらに、ロボットシステムにはコストのかかる実現性チェックが常に必要です。 そこで本研究では,製品アセンブリのためのグラフ表現であるアセンブリグラフと,アセンブリシーケンス生成のためのGRACEと呼ばれるポリシアーキテクチャであるGraph Assembly Processing Networkを提案する。 次に、GRACEを用いてグラフ入力から意味のある情報を抽出し、ステップバイステップでアセンブリシーケンスを予測する。 実験では、両腕ロボットシステムのシミュレーションで収集したデータに基づいて、アルミニウムプロファイルの製品変種間で実現可能な組立シーケンスを予測できることを示す。 さらに,本手法は, 偽予測による望ましくない影響を著しく軽減し, 現実の展開を容易にすることができることを示す。 コードとトレーニングデータはオープンソースになる。

Automatic Robotic Assembly Sequence Planning (RASP) can significantly improve productivity and resilience in modern manufacturing along with the growing need for greater product customization. One of the main challenges in realizing such automation resides in efficiently finding solutions from a growing number of potential sequences for increasingly complex assemblies. Besides, costly feasibility checks are always required for the robotic system. To address this, we propose a holistic graphical approach including a graph representation called Assembly Graph for product assemblies and a policy architecture, Graph Assembly Processing Network, dubbed GRACE for assembly sequence generation. Secondly, we use GRACE to extract meaningful information from the graph input and predict assembly sequences in a step-by-step manner. In experiments, we show that our approach can predict feasible assembly sequences across product variants of aluminum profiles based on data collected in simulation of a dual-armed robotic system. We further demonstrate that our method is capable of detecting infeasible assemblies, substantially alleviating the undesirable impacts from false predictions, and hence facilitating real-world deployment soon. Code and training data will be open-sourced.
翻訳日:2023-03-20 13:38:34 公開日:2023-03-17
# 彼女は要求とテストを取り除き:大規模言語モデルにおけるソフトウェア工学のジェンダーバイアス

She Elicits Requirements and He Tests: Software Engineering Gender Bias in Large Language Models ( http://arxiv.org/abs/2303.10131v1 )

ライセンス: Link先を確認
Christoph Treude, Hideaki Hata(参考訳) ソフトウェア開発における性的偏見は、男性との技術的な役割の関連など、文書化された問題である。 このバイアスに対処するためには、より詳細に理解することが重要です。 本研究では,データマイニング手法を用いて,大規模言語モデルに埋め込まれた暗黙のジェンダーバイアスによって,githubイシューの割り当てやテストなど,ソフトウェア開発に関連する56のタスクがどの程度影響を受けるかを検討する。 我々は,各タスクを英語からジェンダーレス言語に体系的に翻訳し,各タスクに関連する代名詞を調査した。 それぞれのタスクを異なる順に100回翻訳することで、異なるタスクの性別付き代名詞関係における大きな相違を識別する。 具体的には、要件の明確化は「he」の代名詞にわずか6%で関連し、テストは100%のケースで「he」に関連していた。 また、他人を助けるタスクは「彼」と91%の関連があり、同僚への質問に関連するタスクの関連は52%に過ぎなかった。 これらの結果は、ソフトウェア開発タスクに関連する性別バイアスの明確なパターンを明らかにし、大きな言語モデルの訓練と幅広い社会においてこの問題に対処するために重要な意味を持つ。

Implicit gender bias in software development is a well-documented issue, such as the association of technical roles with men. To address this bias, it is important to understand it in more detail. This study uses data mining techniques to investigate the extent to which 56 tasks related to software development, such as assigning GitHub issues and testing, are affected by implicit gender bias embedded in large language models. We systematically translated each task from English into a genderless language and back, and investigated the pronouns associated with each task. Based on translating each task 100 times in different permutations, we identify a significant disparity in the gendered pronoun associations with different tasks. Specifically, requirements elicitation was associated with the pronoun "he" in only 6% of cases, while testing was associated with "he" in 100% of cases. Additionally, tasks related to helping others had a 91% association with "he" while the same association for tasks related to asking coworkers was only 52%. These findings reveal a clear pattern of gender bias related to software development tasks and have important implications for addressing this issue both in the training of large language models and in broader society.
翻訳日:2023-03-20 13:38:18 公開日:2023-03-17
# GPTはGPTである:大規模言語モデルの労働市場影響の早期調査

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models ( http://arxiv.org/abs/2303.10130v1 )

ライセンス: Link先を確認
Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock(参考訳) 本稿では,米国労働市場におけるGPTモデルとその関連技術の可能性について検討する。 新たなルーブリックを用いて,GPT-4の専門知識と分類の両面を取り入れ,GPT機能との対応に基づく職業評価を行った。 その結果、米国の労働力の約80%は、GPTの導入によって影響を受ける仕事の少なくとも10%を、労働者の約19%は、その仕事の少なくとも50%が影響を受けていることがわかった。 この影響は全ての賃金水準に及んでおり、高所得の雇用はより大きな露出に直面する可能性がある。 特にこの影響は、最近の生産性が向上している業界に限ったものではない。 我々は,ジェネレーティブ・プレトレーニングトランスが汎用技術(gpts)の特徴を示し,これらのモデルが経済的,社会的,政策的な意味を持つ可能性を示唆する。

We investigate the potential implications of Generative Pre-trained Transformer (GPT) models and related technologies on the U.S. labor market. Using a new rubric, we assess occupations based on their correspondence with GPT capabilities, incorporating both human expertise and classifications from GPT-4. Our findings indicate that approximately 80% of the U.S. workforce could have at least 10% of their work tasks affected by the introduction of GPTs, while around 19% of workers may see at least 50% of their tasks impacted. The influence spans all wage levels, with higher-income jobs potentially facing greater exposure. Notably, the impact is not limited to industries with higher recent productivity growth. We conclude that Generative Pre-trained Transformers exhibit characteristics of general-purpose technologies (GPTs), suggesting that as these models could have notable economic, social, and policy implications.
翻訳日:2023-03-20 13:37:57 公開日:2023-03-17
# 一般化分割局所深さ

Generalized partitioned local depth ( http://arxiv.org/abs/2303.10167v1 )

ライセンス: Link先を確認
Kenneth S. Berenhaut, John D. Foley and Liangdongsheng Lyu(参考訳) 本稿では,Berenhaut, Moore, Melvinが最近導入した凝集の概念の一般化について述べる。 この定式化は,2つの主要な確率論的概念である局所的妥当性と支援分割を蒸留することにより,局所的深度を分割する手法に基づいて構築された。 以前の結果は新しいコンテキスト内で拡張され、不確実性のあるデータのコミュニティを明らかにするためのアプリケーションの例が含まれている。

In this paper we provide a generalization of the concept of cohesion as introduced recently by Berenhaut, Moore and Melvin [Proceedings of the National Academy of Sciences, 119 (4) (2022)]. The formulation presented builds on the technique of partitioned local depth by distilling two key probabilistic concepts: local relevance and support division. Earlier results are extended within the new context, and examples of applications to revealing communities in data with uncertainty are included.
翻訳日:2023-03-20 13:32:13 公開日:2023-03-17
# 線形混合mdpのための最適地平線なし報酬フリー探索法

Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs ( http://arxiv.org/abs/2303.10165v1 )

ライセンス: Link先を確認
Junkai Zhang and Weitong Zhang and Quanquan Gu(参考訳) そこでは,(1)探索段階では,エージェントは環境と相互作用するが報酬にはアクセスできない,(2)計画段階では報酬関数が与えられ,探索段階で収集されたサンプルに基づいて,ほぼ最適方針が求められる,という2つのフェーズでエージェントが機能する線形関数近似を用いた報酬不要強化学習(RL)について検討する。 既存の報酬のないアルゴリズムのサンプルの複雑さは計画の地平線に依存するため、長期計画の地平線rl問題では役に立たない。 本稿では,線形混合マルコフ決定過程(MDP)を学習するための新たな報奨自由アルゴリズムを提案し,その遷移確率を既知の特徴写像の線形結合としてパラメータ化する。 提案アルゴリズムのコアとなるのは,探索駆動擬似回帰による不確実性重み付き値目標回帰と,アレタリックおよびエピステマティック不確実性に対する高次モーメント推定器である。 合計報酬が$$$に制限されている場合、我々のアルゴリズムは$\tilde O(d^2\varepsilon^{-2})$のエピソードを探索するだけで、$\varepsilon$-Optimal Policyを見つけることができる。 このアルゴリズムのサンプル複雑性は計画の地平線に多対数依存性しか持たず、したがって 'horizon-free'' である。 さらに, アルゴリズムのサンプル複雑性を対数因子に合わせることで, アルゴリズムが最適であることを示す,$\Omega(d^2\varepsilon^{-2})$ sample complexity lower boundを提供する。

We study reward-free reinforcement learning (RL) with linear function approximation, where the agent works in two phases: (1) in the exploration phase, the agent interacts with the environment but cannot access the reward; and (2) in the planning phase, the agent is given a reward function and is expected to find a near-optimal policy based on samples collected in the exploration phase. The sample complexities of existing reward-free algorithms have a polynomial dependence on the planning horizon, which makes them intractable for long planning horizon RL problems. In this paper, we propose a new reward-free algorithm for learning linear mixture Markov decision processes (MDPs), where the transition probability can be parameterized as a linear combination of known feature mappings. At the core of our algorithm is uncertainty-weighted value-targeted regression with exploration-driven pseudo-reward and a high-order moment estimator for the aleatoric and epistemic uncertainties. When the total reward is bounded by $1$, we show that our algorithm only needs to explore $\tilde O( d^2\varepsilon^{-2})$ episodes to find an $\varepsilon$-optimal policy, where $d$ is the dimension of the feature mapping. The sample complexity of our algorithm only has a polylogarithmic dependence on the planning horizon and therefore is ``horizon-free''. In addition, we provide an $\Omega(d^2\varepsilon^{-2})$ sample complexity lower bound, which matches the sample complexity of our algorithm up to logarithmic factors, suggesting that our algorithm is optimal.
翻訳日:2023-03-20 13:32:04 公開日:2023-03-17
# データ中心の人工知能:調査

Data-centric Artificial Intelligence: A Survey ( http://arxiv.org/abs/2303.10158v1 )

ライセンス: Link先を確認
Daochen Zha, Zaid Pervaiz Bhat, Kwei-Herng Lai, Fan Yang, Zhimeng Jiang, Shaochen Zhong, Xia Hu(参考訳) 人工知能(AI)は、ほぼすべての領域で大きな影響を与えています。 その大きな成功の重要な有効要因は、マシンラーニングモデルを構築するための豊富な高品質のデータの提供である。 近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。 研究者や実践者の関心は、徐々にモデル設計の進展から、データの品質や量の向上へと移りつつある。 本調査では,データ中心型AIの必要性について論じるとともに,データ中心型目標(データ開発,推論データ開発,データ保守)と代表的な手法を総合的に考察する。 また、自動化やコラボレーションの観点から既存の文献を整理し、課題を議論し、さまざまなタスクのベンチマークを集計します。 これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査であると考えています。 読者がこの分野の全体像を効率的に把握し、aiシステム構築のためのデータを体系的に設計するための技術やさらなる研究アイデアを読者に提供できることを願っている。 データ中心AIリソースのコンパニオンリストは、https://github.com/daochenzha/data-centric-AIで定期的に更新される。

Artificial Intelligence (AI) is making a profound impact in almost every domain. A vital enabler of its great success is the availability of abundant and high-quality data for building machine learning models. Recently, the role of data in AI has been significantly magnified, giving rise to the emerging concept of data-centric AI. The attention of researchers and practitioners has gradually shifted from advancing model design to enhancing the quality and quantity of the data. In this survey, we discuss the necessity of data-centric AI, followed by a holistic view of three general data-centric goals (training data development, inference data development, and data maintenance) and the representative methods. We also organize the existing literature from automation and collaboration perspectives, discuss the challenges, and tabulate the benchmarks for various tasks. We believe this is the first comprehensive survey that provides a global view of a spectrum of tasks across various stages of the data lifecycle. We hope it can help the readers efficiently grasp a broad picture of this field, and equip them with the techniques and further research ideas to systematically engineer data for building AI systems. A companion list of data-centric AI resources will be regularly updated on https://github.com/daochenzha/data-centric-AI
翻訳日:2023-03-20 13:31:05 公開日:2023-03-17
# 安定化エントロピーと非安定化モノトン

Stabilizer entropies and nonstabilizerness monotones ( http://arxiv.org/abs/2303.10152v1 )

ライセンス: Link先を確認
Tobias Haug, Lorenzo Piroli(参考訳) 安定化エントロピー (ses) の異なる側面を研究し, ミン相関エントロピーや魔法のロバスト性などの既知の非安定性モノトンと比較した。 まず、明示的な例により、R\'enyi index $0\leq n<2$ に対して、SE は純粋状態に制限されたとしても(問題は$n\geq 2$ に対してオープンであるにもかかわらず)、計算基底の測定を含む安定化プロトコルに関して単調ではないことを示す。 次に、任意の R'enyi 指数に対して、SE は計算基底測定に関して強い単調性条件を満たさないことを示す。 さらに多体状態の異なるクラスでSEを研究する。 我々はSEと他の指標を比較し、それらの間の不等式を示す数値的な証拠を提供する。 最後に,多数のキュービットに対して行列生成状態(mpss)のsesを計算するための,厳密で効率的なテンソルネットワーク数値計算法について考察する。 従来開発されたR'enyi SEsを計算するための正確な方法に加えて、完全MPSサンプリングに基づくスキームも提案し、大きな結合次元のvon Neumann SEを効率的に計算できるようにした。

We study different aspects of the stabilizer entropies (SEs) and compare them against known nonstabilizerness monotones such as the min-relative entropy and the robustness of magic. First, by means of explicit examples, we show that, for R\'enyi index $0\leq n<2$, the SEs are not monotones with respect to stabilizer protocols which include computational-basis measurements, not even when restricting to pure states (while the question remains open for $n\geq 2$). Next, we show that, for any R\'enyi index, the SEs do not satisfy a strong monotonicity condition with respect to computational-basis measurements. We further study SEs in different classes of many-body states. We compare the SEs with other measures, either proving or providing numerical evidence for inequalities between them. Finally, we discuss exact or efficient tensor-network numerical methods to compute SEs of matrix-product states (MPSs) for large numbers of qubits. In addition to previously developed exact methods to compute the R\'enyi SEs, we also put forward a scheme based on perfect MPS sampling, allowing us to compute efficiently the von Neumann SE for large bond dimensions.
翻訳日:2023-03-20 13:30:17 公開日:2023-03-17
# 外観に基づく視線推定のための超解法に向けて

Toward Super-Resolution for Appearance-Based Gaze Estimation ( http://arxiv.org/abs/2303.10151v1 )

ライセンス: Link先を確認
Galen O'Shea, Majid Komeili(参考訳) 視線追跡は、医療、心理学、バーチャルリアリティー、マーケティング、安全など、さまざまな分野の幅広い応用を持つ貴重なツールである。 したがって、コスト効率が高く高性能な視線追跡ソフトウェアを持つことが不可欠である。 特に、映像が動きのぼやけ、ビデオ圧縮、ノイズによって影響を受ける現実の状況では、視線を正確に予測することは難しい課題である。 超解像度は視覚的観点から画質を改善することが示されている。 本研究は、外観に基づく視線追跡を改善するための超解像の有用性を検討する。 すべてのSRモデルが視線方向を保存するわけではないことを示す。 swinirスーパーレゾリューションモデルに基づく2段階フレームワークを提案する。 提案手法は,特に低解像度画像や劣化画像のシナリオにおいて,最先端の手法を一貫して上回っている。 さらに,視線予測のための自己教師付き学習レンズによる超解像の利用について検討した。 自己教師付き学習は、ラベルなしのデータから学習し、下流タスクに必要なラベル付きデータ量を削減することを目的としている。 本稿では,SRバックボーンネットワークをResNet18(スキップ接続)に融合させることにより,SuperVisionと呼ばれる新しいアーキテクチャを提案する。 提案手法では,100%のトレーニングデータを用いたgazingtrの最先端手法である5倍少ないラベルデータを用いるが,15%の精度向上が期待できる。

Gaze tracking is a valuable tool with a broad range of applications in various fields, including medicine, psychology, virtual reality, marketing, and safety. Therefore, it is essential to have gaze tracking software that is cost-efficient and high-performing. Accurately predicting gaze remains a difficult task, particularly in real-world situations where images are affected by motion blur, video compression, and noise. Super-resolution has been shown to improve image quality from a visual perspective. This work examines the usefulness of super-resolution for improving appearance-based gaze tracking. We show that not all SR models preserve the gaze direction. We propose a two-step framework based on SwinIR super-resolution model. The proposed method consistently outperforms the state-of-the-art, particularly in scenarios involving low-resolution or degraded images. Furthermore, we examine the use of super-resolution through the lens of self-supervised learning for gaze prediction. Self-supervised learning aims to learn from unlabelled data to reduce the amount of required labeled data for downstream tasks. We propose a novel architecture called SuperVision by fusing an SR backbone network to a ResNet18 (with some skip connections). The proposed SuperVision method uses 5x less labeled data and yet outperforms, by 15%, the state-of-the-art method of GazeTR which uses 100% of training data.
翻訳日:2023-03-20 13:29:52 公開日:2023-03-17
# CoDEPS: 深度推定とパノプティックセグメンテーションのためのオンライン連続学習

CoDEPS: Online Continual Learning for Depth Estimation and Panoptic Segmentation ( http://arxiv.org/abs/2303.10147v1 )

ライセンス: Link先を確認
Niclas V\"odisch, K\"ursat Petek, Wolfram Burgard, Abhinav Valada(参考訳) オープンな世界でロボットを運用するには、これまで目に見えない環境に対して高いレベルの堅牢性が必要である。 最適に、ロボットは人間の監督なしに新しい条件に適応できる。例えば、その知覚システムを照明条件の変更に自動的に調整する。 本研究では,新しい環境下での,深層学習に基づく単眼深度推定とパンオプティカルセグメンテーションのための連続学習の課題をオンライン方式で解決する。 複数の現実世界のドメインを包含する連続学習を実現するために,我々は,経験リプレイを活用することで破滅的な忘れを軽減しつつ,CoDEPSを導入している。 特に,パンオプティカルセグメンテーションを適応させるために擬似ラベルを生成する新しいドメイン混合戦略を提案する。 さらに,珍しいセマンティッククラスサンプリングと画像の多様性に基づいて,固定サイズのリプレイバッファを構築するためのサンプリング戦略を提案することで,ロボットシステムの限られたストレージ容量に対処する。 我々は,さまざまな実世界のデータセット上でCoDEPSを広範囲に評価し,従来のドメインの性能を犠牲にすることなく,現状の成果を達成できることを示す。 私たちの作業のコードはhttp://codeps.cs.uni-freiburg.deで公開されています。

Operating a robot in the open world requires a high level of robustness with respect to previously unseen environments. Optimally, the robot is able to adapt by itself to new conditions without human supervision, e.g., automatically adjusting its perception system to changing lighting conditions. In this work, we address the task of continual learning for deep learning-based monocular depth estimation and panoptic segmentation in new environments in an online manner. We introduce CoDEPS to perform continual learning involving multiple real-world domains while mitigating catastrophic forgetting by leveraging experience replay. In particular, we propose a novel domain-mixing strategy to generate pseudo-labels to adapt panoptic segmentation. Furthermore, we explicitly address the limited storage capacity of robotic systems by proposing sampling strategies for constructing a fixed-size replay buffer based on rare semantic class sampling and image diversity. We perform extensive evaluations of CoDEPS on various real-world datasets demonstrating that it successfully adapts to unseen environments without sacrificing performance on previous domains while achieving state-of-the-art results. The code of our work is publicly available at http://codeps.cs.uni-freiburg.de.
翻訳日:2023-03-20 13:29:32 公開日:2023-03-17
# 輝度検出のためのスペクトルインスピレーションによる低光画像変換

Spectrum-inspired Low-light Image Translation for Saliency Detection ( http://arxiv.org/abs/2303.10145v1 )

ライセンス: Link先を確認
Kitty Varghese, Sudarshan Rajagopalan, Mohit Lamba, Kaushik Mitra(参考訳) 精度検出方法は、ロボットナビゲーションや衛星画像などの現実的な応用の中心である。 しかし、トレーニングデータセットは、主に明るい画像で構成されているため、既存の手法の性能は低照度で劣化する。 可能な解決策の1つは、低照度条件のための新しいデータセットを集めることである。 これは、退屈で時間を要するだけでなく、巨大なトレーニングコーパスが必要な場合にも有効ではないピクセルレベルのアノテーションを含んでいる。 本稿では,Fourier空間における古典的帯域通過フィルタにより,鮮やかな画像を低照度画像に変換し,実際の低照度画像のプロキシとして利用する手法を提案する。 何千ものパラメータと膨大なトレーニングデータを必要とする一般的なディープラーニングアプローチとは異なり、提案する変換は高速でシンプルで、低光度推定など他のタスクにも簡単に拡張できる。 提案手法では, 実低照度画像では, 既存の手法で訓練したネットワークに比べて, 最先端のサリエンシー検出と深度推定ネットワークの性能が著しく向上することを示す。

Saliency detection methods are central to several real-world applications such as robot navigation and satellite imagery. However, the performance of existing methods deteriorate under low-light conditions because training datasets mostly comprise of well-lit images. One possible solution is to collect a new dataset for low-light conditions. This involves pixel-level annotations, which is not only tedious and time-consuming but also infeasible if a huge training corpus is required. We propose a technique that performs classical band-pass filtering in the Fourier space to transform well-lit images to low-light images and use them as a proxy for real low-light images. Unlike popular deep learning approaches which require learning thousands of parameters and enormous amounts of training data, the proposed transformation is fast and simple and easy to extend to other tasks such as low-light depth estimation. Our experiments show that the state-of-the-art saliency detection and depth estimation networks trained on our proxy low-light images perform significantly better on real low-light images than networks trained using existing strategies.
翻訳日:2023-03-20 13:29:12 公開日:2023-03-17
# Wikiベースの関心のコミュニティ: デモグラフィックとアウトリーチ

Wiki-based Communities of Interest: Demographics and Outliers ( http://arxiv.org/abs/2303.09189v2 )

ライセンス: Link先を確認
Hiba Arnaout, Simon Razniewski, Jeff Z. Pan(参考訳) 本稿では,人口統計情報と地域コミュニティの外れ値に関するデータを公開する。 Wikidataを中心とするウィキソースから特定され、ホワイトハウスコロナウイルスタスクフォースのメンバーやデボラ・バークスなど345kの被験者を含む7.5kのコミュニティをカバーしている。 このようなデータマイニングに採用した統計的推論手法について述べる。 サブジェクト中心でグループ中心のデータセットをjson形式でリリースし、ブラウジングインターフェースも提供しています。 最後に, 社会科学研究においては, 人口統計分析の資源を提供し, ウェブ規模の共同百科事典では, 知識ギャップを埋めるための編集レコメンデーターとして機能し, ウェブ検索では, 質問対象に関する敬意の表を, より高いユーザエンゲージメントのために提供している。

In this paper, we release data about demographic information and outliers of communities of interest. Identified from Wiki-based sources, mainly Wikidata, the data covers 7.5k communities, such as members of the White House Coronavirus Task Force, and 345k subjects, e.g., Deborah Birx. We describe the statistical inference methodology adopted to mine such data. We release subject-centric and group-centric datasets in JSON format, as well as a browsing interface. Finally, we forsee three areas this research can have an impact on: in social sciences research, it provides a resource for demographic analyses; in web-scale collaborative encyclopedias, it serves as an edit recommender to fill knowledge gaps; and in web search, it offers lists of salient statements about queried subjects for higher user engagement.
翻訳日:2023-03-20 11:06:22 公開日:2023-03-17
# nlut: ビデオフォトリアリスティックなスタイル転送のためのニューラルベースの3dルックアップテーブル

NLUT: Neural-based 3D Lookup Tables for Video Photorealistic Style Transfer ( http://arxiv.org/abs/2303.09170v2 )

ライセンス: Link先を確認
Yaosen Chen, Han Yang, Yuexin Yang, Yuegen Liu, Wei Wang, Xuming Wen, Chaoping Xie(参考訳) ビデオフォトリアリスティックなスタイル転送は、時間的一貫性を維持しつつ、スタイル画像に類似したフォトリアリスティックなスタイルの動画を生成することが望まれる。 しかし,既存の手法ではフレーム単位のフォトリアリスティックなスタイル転送を行うことで,スタイリングされた映像の時間的一貫性を確保できない。 この問題に対処するために,我々は,映像のフォトリアリスティックな転送にluts(neural network-based 3d lookup tables)を使用し,効率と効率のバランスを実現している。 We first train a neural network for generating photorealistic stylized 3D LUTs on a large-scale dataset; then, when performing photorealistic style transfer for a specific video, we select a keyframe and style image in the video as the data source and fine-turn the neural network; finally, we query the 3D LUTs generated by the fine-tuned neural network for the colors in the video, resulting in a super-fast photorealistic style transfer, even processing 8K video takes less than 2 millisecond per frame. 実験の結果,任意のスタイル画像の光写実的スタイル転送を実現するだけでなく,視覚的品質や一貫性の観点からも既存手法よりも優れていた。 プロジェクトページ:https://semchan.github.io/NLUT_Project

Video photorealistic style transfer is desired to generate videos with a similar photorealistic style to the style image while maintaining temporal consistency. However, existing methods obtain stylized video sequences by performing frame-by-frame photorealistic style transfer, which is inefficient and does not ensure the temporal consistency of the stylized video. To address this issue, we use neural network-based 3D Lookup Tables (LUTs) for the photorealistic transfer of videos, achieving a balance between efficiency and effectiveness. We first train a neural network for generating photorealistic stylized 3D LUTs on a large-scale dataset; then, when performing photorealistic style transfer for a specific video, we select a keyframe and style image in the video as the data source and fine-turn the neural network; finally, we query the 3D LUTs generated by the fine-tuned neural network for the colors in the video, resulting in a super-fast photorealistic style transfer, even processing 8K video takes less than 2 millisecond per frame. The experimental results show that our method not only realizes the photorealistic style transfer of arbitrary style images but also outperforms the existing methods in terms of visual quality and consistency. Project page:https://semchan.github.io/NLUT_Project.
翻訳日:2023-03-20 11:06:04 公開日:2023-03-17
# フィルタを用いた細胞分類のためのt-SPNの最大マルジン学習

Maximum Margin Learning of t-SPNs for Cell Classification with Filtering ( http://arxiv.org/abs/2303.09065v2 )

ライセンス: Link先を確認
Haeyong Kang, Chang D. Yoo, Yongcheon Na(参考訳) 木構造的要約生産ネットワーク(t-SPN)と呼ばれる深い確率的アーキテクチャに基づくアルゴリズムを細胞分類として検討する。 t-SPNは、非正規化確率が最も類似したセルクラスのサブセットの条件確率として表されるように構成される。 構築されたt-SPNアーキテクチャは、真と最も競合する偽ラベルの条件付き確率の差であるマージンを最大化することによって学習される。 アーキテクチャの一般化能力を高めるため,L2規則化(REG)は学習過程における最大マージン(MM)基準とともに検討される。 細胞の特徴を強調するために, 理想的高域通過フィルタとガウスフィルタのラプラシアンフィルタの2つの汎用高域通過フィルタの有効性について検討した。 HEp-2とFeulgenベンチマークデータセットの両方で、正規化による最大マージン基準に基づいて学習されたt-SPNアーキテクチャは、畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムを含む他の最先端アルゴリズムと比較して、最も精度が高い。 理想的なハイパスフィルタは、免疫蛍光染色に基づくHEp-2データセットでより効果的であり、LOGはフェールゲン染色に基づくフェールゲンデータセットでより効果的であった。

An algorithm based on a deep probabilistic architecture referred to as a tree-structured sum-product network (t-SPN) is considered for cell classification. The t-SPN is constructed such that the unnormalized probability is represented as conditional probabilities of a subset of most similar cell classes. The constructed t-SPN architecture is learned by maximizing the margin, which is the difference in the conditional probability between the true and the most competitive false label. To enhance the generalization ability of the architecture, L2-regularization (REG) is considered along with the maximum margin (MM) criterion in the learning process. To highlight cell features, this paper investigates the effectiveness of two generic high-pass filters: ideal high-pass filtering and the Laplacian of Gaussian (LOG) filtering. On both HEp-2 and Feulgen benchmark datasets, the t-SPN architecture learned based on the max-margin criterion with regularization produced the highest accuracy rate compared to other state-of-the-art algorithms that include convolutional neural network (CNN) based algorithms. The ideal high-pass filter was more effective on the HEp-2 dataset, which is based on immunofluorescence staining, while the LOG was more effective on the Feulgen dataset, which is based on Feulgen staining.
翻訳日:2023-03-20 11:05:42 公開日:2023-03-17
# 資源制約および細粒度物体検出のためのコモンセンス知識支援深層学習

Commonsense Knowledge Assisted Deep Learning for Resource-constrained and Fine-grained Object Detection ( http://arxiv.org/abs/2303.09026v2 )

ライセンス: Link先を確認
Pu Zhang, Bin Liu(参考訳) 本稿では,エッジコンピューティングなどの資源制約のあるケースにおける微細な画像オブジェクト検出について考察する。 ディープラーニング(DL)、すなわちディープニューラルネットワーク(DNN)による学習は、オブジェクト検出において支配的なアプローチとなっている。 正確なきめ細かい検出を実現するには、十分に大きなDNNモデルと大量のデータアノテーションを使用する必要がある。 そこで本研究では,コモンセンスの知識を活用し,粗粒度物体検出器の高精度検出を支援する手法を提案する。 具体的には,ベンチマークDL検出器によって得られた粗粒度ラベレを処理し,微細粒度ラベレを生成するコモンセンス知識推論モジュール(CKIM)を導入する。 我々はckimにおいて、spash-rule とファジィ-rule に基づく推論の両方を考慮し、後者は対象意味ラベルの曖昧さを扱うために使用される。 本手法は, YOLOv4, Mobilenetv3-SSD, YOLOv7-tinyという, 最新のDL検出器を用いて実装した。 実験結果から,提案手法は精度,モデルサイズ,処理遅延の点でベンチマーク検出器よりも優れていた。

In this paper, we consider fine-grained image object detection in resource-constrained cases such as edge computing. Deep learning (DL), namely learning with deep neural networks (DNNs), has become the dominating approach to object detection. To achieve accurate fine-grained detection, one needs to employ a large enough DNN model and a vast amount of data annotations, which brings a challenge for using modern DL object detectors in resource-constrained cases. To this end, we propose an approach, which leverages commonsense knowledge to assist a coarse-grained object detector to get accurate fine-grained detection results. Specifically, we introduce a commonsense knowledge inference module (CKIM) to process coarse-grained lables given by a benchmark DL detector to produce fine-grained lables. We consider both crisp-rule and fuzzy-rule based inference in our CKIM; the latter is used to handle ambiguity in the target semantic labels. We implement our method based on several modern DL detectors, namely YOLOv4, Mobilenetv3-SSD and YOLOv7-tiny. Experiment results show that our approach outperforms benchmark detectors remarkably in terms of accuracy, model size and processing latency.
翻訳日:2023-03-20 11:05:16 公開日:2023-03-17
# PRESTO: 現実的なタスク指向の対話を解析するための多言語データセット

PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs ( http://arxiv.org/abs/2303.08954v2 )

ライセンス: Link先を確認
Rahul Goel, Waleed Ammar, Aditya Gupta, Siddharth Vashishtha, Motoki Sano, Faiz Surani, Max Chang, HyunJeong Choe, David Greene, Kyle He, Rattima Nitisaroj, Anna Trukhina, Shachi Paul, Pararth Shah, Rushin Shah and Zhou Yu(参考訳) タスク指向ダイアログに対する研究の関心は、Google Assistant、Alexa、Siriといったシステムが日常的に普及するにつれて高まっている。 しかし、この領域における学術研究の影響は、幅広いユーザー痛点を現実的に捉えるデータセットの欠如によって制限されてきた。 リアルな会話を解析するより困難な側面について研究するために,人間と仮想アシスタントの550k以上の文脈的多言語会話の公開データセットであるprestoを紹介する。 prestoには、ディフルエンシー、コードスイッチ、リビジョンなど、現実世界のnluタスクで発生するさまざまな課題が含まれている。 これは、ユーザの連絡先やリストなどの構造化されたコンテキストを提供する、大規模な人間生成の会話解析データセットである。 我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象がモデル化が困難であることを示し、低リソースのセットアップでさらに顕著である。

Research interest in task-oriented dialogs has increased as systems such as Google Assistant, Alexa and Siri have become ubiquitous in everyday life. However, the impact of academic research in this area has been limited by the lack of datasets that realistically capture the wide array of user pain points. To enable research on some of the more challenging aspects of parsing realistic conversations, we introduce PRESTO, a public dataset of over 550K contextual multilingual conversations between humans and virtual assistants. PRESTO contains a diverse array of challenges that occur in real-world NLU tasks such as disfluencies, code-switching, and revisions. It is the only large scale human generated conversational parsing dataset that provides structured context such as a user's contacts and lists for each example. Our mT5 model based baselines demonstrate that the conversational phenomenon present in PRESTO are challenging to model, which is further pronounced in a low-resource setup.
翻訳日:2023-03-20 11:04:52 公開日:2023-03-17
# 条件付きカテゴリー拡散モデルによる確率的セグメンテーション

Stochastic Segmentation with Conditional Categorical Diffusion Models ( http://arxiv.org/abs/2303.08888v2 )

ライセンス: Link先を確認
Lukas Zbinden, Lars Doorenbos, Theodoros Pissas, Raphael Sznitman, Pablo M\'arquez-Neila(参考訳) 深層ニューラルネットワークのおかげで、セマンティックセグメンテーションは近年大きく進歩しているが、画像の内容と正確に一致する単一のセグメンテーション出力を生成するという共通の目的は、医療診断や自律運転のような安全クリティカルな領域には適さないかもしれない。 代わりに、アノテーションマップの真の分布を反映するために、複数の可能な正しいセグメンテーション写像が必要である。 この文脈では、確率的セマンティックセグメンテーション法は、画像が与えられたラベルの条件分布を予測することを学ばなければならないが、これは典型的なマルチモーダル分布、高次元出力空間、限られたアノテーションデータのために難しい。 これらの課題に対処するため,Denoising Diffusion Probabilistic Models に基づくセグメンテーションのための条件カテゴリー拡散モデル (CCDM) を提案する。 本モデルは入力画像に対して条件付けされ,異なる基底的真理のアノテーションから生じるアレエータ的不確実性を考慮した複数のセグメンテーションラベルマップを生成することができる。 実験の結果,ccdmは統計的意味セグメンテーションデータセットであるlidcで最先端のパフォーマンスを達成し,従来のセグメンテーションデータセットでは確立されたベースラインを上回った。

Semantic segmentation has made significant progress in recent years thanks to deep neural networks, but the common objective of generating a single segmentation output that accurately matches the image's content may not be suitable for safety-critical domains such as medical diagnostics and autonomous driving. Instead, multiple possible correct segmentation maps may be required to reflect the true distribution of annotation maps. In this context, stochastic semantic segmentation methods must learn to predict conditional distributions of labels given the image, but this is challenging due to the typically multimodal distributions, high-dimensional output spaces, and limited annotation data. To address these challenges, we propose a conditional categorical diffusion model (CCDM) for semantic segmentation based on Denoising Diffusion Probabilistic Models. Our model is conditioned to the input image, enabling it to generate multiple segmentation label maps that account for the aleatoric uncertainty arising from divergent ground truth annotations. Our experimental results show that CCDM achieves state-of-the-art performance on LIDC, a stochastic semantic segmentation dataset, and outperforms established baselines on the classical segmentation dataset Cityscapes.
翻訳日:2023-03-20 11:04:35 公開日:2023-03-17
# ニューラルアンサンブル探索のためのベイズ二次

Bayesian Quadrature for Neural Ensemble Search ( http://arxiv.org/abs/2303.08874v2 )

ライセンス: Link先を確認
Saad Hamid, Xingchen Wan, Martin J{\o}rgensen, Binxin Ru, Michael Osborne(参考訳) 組立はニューラルネットワークの性能を向上させることができるが、既存のアプローチはアーキテクチャの可能性が分散し、ピークが狭くなると困難である。 さらに、既存の手法は等しく重み付けされたアンサンブルを構築しており、弱いアーキテクチャの障害モードに対して脆弱である可能性が高い。 センセーブリングを概ねアーキテクチャ上の限界と見なすことで、分散した狭いピークを持つ可能性曲面の探索に適したベイズ二次ツールを用いてアンサンブルを構築する。 さらに、結果として生じるアンサンブルは、そのパフォーマンスに相応しい重み付けのアーキテクチャで構成されている。 実験結果から,本手法が最先端のベースラインよりも優れていることを示すとともに,そのコンポーネントが独立に動作することをアブレーション実験により検証する。

Ensembling can improve the performance of Neural Networks, but existing approaches struggle when the architecture likelihood surface has dispersed, narrow peaks. Furthermore, existing methods construct equally weighted ensembles, and this is likely to be vulnerable to the failure modes of the weaker architectures. By viewing ensembling as approximately marginalising over architectures we construct ensembles using the tools of Bayesian Quadrature -- tools which are well suited to the exploration of likelihood surfaces with dispersed, narrow peaks. Additionally, the resulting ensembles consist of architectures weighted commensurate with their performance. We show empirically -- in terms of test likelihood, accuracy, and expected calibration error -- that our method outperforms state-of-the-art baselines, and verify via ablation studies that its components do so independently.
翻訳日:2023-03-20 11:04:04 公開日:2023-03-17
# 中性子拡散固有値問題を解くためのデータ有効物理形ニューラルネットワークの不確実性解析について

On the uncertainty analysis of the data-enabled physics-informed neural network for solving neutron diffusion eigenvalue problem ( http://arxiv.org/abs/2303.08455v3 )

ライセンス: Link先を確認
Yu Yang, Helin Gong, Qihong Yang, Yangtao Deng, Qiaolin He, Shiquan Zhang(参考訳) 実際の工学実験では、検出器によって得られたデータは必然的にうるさい。 既に提案されているデータ対応物理インフォームドニューラルネットワーク (DEPINN) \citep{DEPINN} について, 先行データがノイズのスケールが異なる場合の中性子拡散固有値問題の計算におけるDEPINNの性能について検討した。 さらに,ノイズの影響を低減し,ノイズ先行データの利用性を向上させるために,革新的区間損失関数を提案し,厳密な数学的証明を与える。 DEPINNのロバスト性は2つの典型的なベンチマーク問題に対して,多数の数値結果を用いて検討し,提案した区間損失関数の有効性を比較検討した。 本稿では, 原子炉物理の実用化に向けた改良型DEPINNの実現可能性を確認する。

In practical engineering experiments, the data obtained through detectors are inevitably noisy. For the already proposed data-enabled physics-informed neural network (DEPINN) \citep{DEPINN}, we investigate the performance of DEPINN in calculating the neutron diffusion eigenvalue problem from several perspectives when the prior data contain different scales of noise. Further, in order to reduce the effect of noise and improve the utilization of the noisy prior data, we propose innovative interval loss functions and give some rigorous mathematical proofs. The robustness of DEPINN is examined on two typical benchmark problems through a large number of numerical results, and the effectiveness of the proposed interval loss function is demonstrated by comparison. This paper confirms the feasibility of the improved DEPINN for practical engineering applications in nuclear reactor physics.
翻訳日:2023-03-20 11:03:48 公開日:2023-03-17
# videoflow: 時間的手がかりを利用した多フレーム光流推定

VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow Estimation ( http://arxiv.org/abs/2303.08340v2 )

ライセンス: Link先を確認
Xiaoyu Shi, Zhaoyang Huang, Weikang Bian, Dasong Li, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li(参考訳) ビデオのための新しい光フロー推定フレームワークであるVideoFlowを紹介する。 2つのフレームから光の流れを推定することを学ぶ従来の方法とは対照的に、videoflowは時間的手がかりを十分に活用してビデオで利用可能な複数のフレームの双方向光フローを同時推定する。 まず、TRiフレーム光フロー(TROF)モジュールを提案し、3フレーム方式で中央フレームの双方向光フローを推定する。 フレームトリプルトの情報は、中心フレームに反復的に融合される。 より多くのフレームを扱うためのTROFを拡張するために,複数のTROFをブリッジし,隣接するTROF間での動作特徴を伝搬するMOPモジュールを提案する。 反復流量推定補正により、個々のTROFに融合した情報をMOPを介して全シーケンスに伝播することができる。 ビデオ情報を効果的に活用することで、VideoFlowは素晴らしいパフォーマンスを示し、すべての公開ベンチマークで1位にランクインする。 Sintelベンチマークでは、最終パスとクリーンパスでビデオFlowは1.649と0.991の平均終点エラー(AEPE)を達成し、最高の結果(FlowFormer++の1.943と1.073)から15.1%と7.6%のエラー削減を達成した。 KITTI-2015ベンチマークでは、VideoFlowがF1-allエラーを3.65%達成し、最高の結果から19.2%エラーを削減した(FlowFormer++の4.52%)。

We introduce VideoFlow, a novel optical flow estimation framework for videos. In contrast to previous methods that learn to estimate optical flow from two frames, VideoFlow concurrently estimates bi-directional optical flows for multiple frames that are available in videos by sufficiently exploiting temporal cues. We first propose a TRi-frame Optical Flow (TROF) module that estimates bi-directional optical flows for the center frame in a three-frame manner. The information of the frame triplet is iteratively fused onto the center frame. To extend TROF for handling more frames, we further propose a MOtion Propagation (MOP) module that bridges multiple TROFs and propagates motion features between adjacent TROFs. With the iterative flow estimation refinement, the information fused in individual TROFs can be propagated into the whole sequence via MOP. By effectively exploiting video information, VideoFlow presents extraordinary performance, ranking 1st on all public benchmarks. On the Sintel benchmark, VideoFlow achieves 1.649 and 0.991 average end-point-error (AEPE) on the final and clean passes, a 15.1% and 7.6% error reduction from the best published results (1.943 and 1.073 from FlowFormer++). On the KITTI-2015 benchmark, VideoFlow achieves an F1-all error of 3.65%, a 19.2% error reduction from the best published result (4.52% from FlowFormer++).
翻訳日:2023-03-20 11:03:31 公開日:2023-03-17
# FateZero:ゼロショットテキストベースのビデオ編集のための注意喚起

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing ( http://arxiv.org/abs/2303.09535v2 )

ライセンス: Link先を確認
Chenyang Qi, Xiaodong Cun, Yong Zhang, Chenyang Lei, Xintao Wang, Ying Shan, Qifeng Chen(参考訳) 拡散に基づく生成モデルは、テキストベースの画像生成において顕著な成功を収めた。 しかし、生成の進行に膨大なランダム性があるため、実際のビジュアルコンテンツ編集、特にビデオにそのようなモデルを適用することは依然として困難である。 本稿では,実世界ビデオにおけるゼロショットテキストベースの編集手法であるfatezeroを提案する。 ビデオの編集を一貫して行うために,事前学習したモデルに基づく手法を提案する。 まず,直感的なDDIMインバージョンとは対照的に,本手法はインバージョン中の中間注目マップを捕捉し,構造情報と動作情報の両方を効果的に保持する。 これらのマップは、同期中に生成するのではなく、編集プロセスで直接融合される。 さらにソースビデオのセマンティックリークを最小限に抑えるため、ソースプロンプトからのクロスアテンション特徴から得られるブレンディングマスクと自己アテンションを融合する。 さらに,フレームの整合性を確保するために空間的時間的注意を導入することで,UNetの自己注意機構を改良した。 しかし,本手法は,訓練されたテキスト対画像モデルから,ゼロショットのテキスト駆動ビデオスタイルとローカル属性編集の能力を示す最初の手法である。 また,テキスト対ビデオモデルに基づくゼロショット形状認識編集能力も向上した。 広範な実験により,過去の作品よりも優れた時間的一貫性と編集能力が実証された。

The diffusion-based generative models have achieved remarkable success in text-based image generation. However, since it contains enormous randomness in generation progress, it is still challenging to apply such models for real-world visual content editing, especially in videos. In this paper, we propose FateZero, a zero-shot text-based editing method on real-world videos without per-prompt training or use-specific mask. To edit videos consistently, we propose several techniques based on the pre-trained models. Firstly, in contrast to the straightforward DDIM inversion technique, our approach captures intermediate attention maps during inversion, which effectively retain both structural and motion information. These maps are directly fused in the editing process rather than generated during denoising. To further minimize semantic leakage of the source video, we then fuse self-attentions with a blending mask obtained by cross-attention features from the source prompt. Furthermore, we have implemented a reform of the self-attention mechanism in denoising UNet by introducing spatial-temporal attention to ensure frame consistency. Yet succinct, our method is the first one to show the ability of zero-shot text-driven video style and local attribute editing from the trained text-to-image model. We also have a better zero-shot shape-aware editing ability based on the text-to-video model. Extensive experiments demonstrate our superior temporal consistency and editing capability than previous works.
翻訳日:2023-03-20 10:57:13 公開日:2023-03-17
# IntelのニューロモーフィックDNSチャレンジ

The Intel Neuromorphic DNS Challenge ( http://arxiv.org/abs/2303.09503v2 )

ライセンス: Link先を確認
Jonathan Timcheck, Sumit Bam Shrestha, Daniel Ben Dayan Rubin, Adam Kupryjanow, Garrick Orchard, Lukasz Pindor, Timothy Shea, and Mike Davies(参考訳) ニューロモルフィックコンピューティング研究の進歩のための重要なイネーブルは、重要なタスクにおいて異なるニューロモルフィックソリューションを透過的に評価し、それらを最先端の従来のソリューションと比較する能力である。 Microsoft DNS ChallengeにインスパイアされたIntel Neuromorphic Deep Noise Suppression Challenge (Intel N-DNS Challenge)は、ユビキタスで商業的なタスクであるリアルタイムオーディオデノイングに取り組む。 音声のノイズ除去は、低帯域幅、時間的性質、低消費電力デバイスとの関連性から、ニューロモルフィックコンピューティングの利点を享受する可能性が高い。 Intel N-DNS Challengeは、アルゴリズム革新を促進するシミュレーションベースのアルゴリズムトラックと、ソリューションを厳格に評価するニューロモルフィックハードウェア(Loihi 2)トラックの2つのトラックで構成されている。 両トラックについて,出力音声品質に加えて,エネルギー,レイテンシ,リソース消費に基づく評価手法を提案する。 我々は、Intel N-DNS Challengeデータセットのスクリプトと評価コードを自由にアクセス可能にし、コミュニティによる金銭的報酬への参加を奨励し、Microsoft NsNet2や製品で使用される独自のIntel Denoisingモデルと比較して、有望なオーディオ品質、高電力効率、低リソース消費を示すニューロモルフィックベースラインソリューションをリリースする。 Intel N-DNS Challengeがニューロモルフィックアルゴリズムの研究、特にリアルタイム信号処理のトレーニングツールや手法の分野でイノベーションを加速させることを期待している。 この課題の勝者たちは、従来の最先端のソリューションと比較して、現在利用可能なニューロモルフィックデバイスにおいて、オーディオのノイズ発生、電力とリソースの大幅な増加といった問題を実現することを期待している。

A critical enabler for progress in neuromorphic computing research is the ability to transparently evaluate different neuromorphic solutions on important tasks and to compare them to state-of-the-art conventional solutions. The Intel Neuromorphic Deep Noise Suppression Challenge (Intel N-DNS Challenge), inspired by the Microsoft DNS Challenge, tackles a ubiquitous and commercially relevant task: real-time audio denoising. Audio denoising is likely to reap the benefits of neuromorphic computing due to its low-bandwidth, temporal nature and its relevance for low-power devices. The Intel N-DNS Challenge consists of two tracks: a simulation-based algorithmic track to encourage algorithmic innovation, and a neuromorphic hardware (Loihi 2) track to rigorously evaluate solutions. For both tracks, we specify an evaluation methodology based on energy, latency, and resource consumption in addition to output audio quality. We make the Intel N-DNS Challenge dataset scripts and evaluation code freely accessible, encourage community participation with monetary prizes, and release a neuromorphic baseline solution which shows promising audio quality, high power efficiency, and low resource consumption when compared to Microsoft NsNet2 and a proprietary Intel denoising model used in production. We hope the Intel N-DNS Challenge will hasten innovation in neuromorphic algorithms research, especially in the area of training tools and methods for real-time signal processing. We expect the winners of the challenge will demonstrate that for problems like audio denoising, significant gains in power and resources can be realized on neuromorphic devices available today compared to conventional state-of-the-art solutions.
翻訳日:2023-03-20 10:56:49 公開日:2023-03-17
# NeRF固有の4つ: 逆内在カメラパラメータと外在カメラパラメータの同時最適化

NeRFtrinsic Four: An End-To-End Trainable NeRF Jointly Optimizing Diverse Intrinsic and Extrinsic Camera Parameters ( http://arxiv.org/abs/2303.09412v2 )

ライセンス: Link先を確認
Hannah Schieber, Fabian Deuser, Bernhard Egger, Norbert Oswald, Daniel Roth(参考訳) ニューラル放射場(NeRF)を用いた新しいビュー合成は、新しい視点から高品質な画像を生成する最先端技術である。 既存の手法では、極端および内在的なカメラパラメータに関する事前知識が必要である。 これにより、前処理ステップが必要な合成シーンや現実世界のシナリオへの適用が制限される。 カメラパラメータとNeRFの合同最適化に関する最近の研究は、ノイズのある外部カメラパラメータの精製に重点を置いており、しばしば固有のカメラパラメータの事前処理に依存している。 さらなるアプローチは、1つのカメラのみを本質的にカバーすることに限られる。 これらの制約に対処するため、我々はNeRFtrinsic Fourと呼ばれる新しいエンドツーエンドのトレーニング可能なアプローチを提案する。 我々は,gaussian fourier特徴を用いて,外部カメラパラメータを推定し,投影誤差の監視により,固有カメラパラメータの変動を動的に予測する。 提案手法はLLFFとBLEFFの既存の共同最適化手法よりも優れている。 これら既存のデータセットに加えて,固有カメラパラメータの異なるiffと呼ばれる新しいデータセットも導入する。 nerftrinsic fourは、nerfベースのビュー合成を共同最適化するステップであり、カメラパラメータの異なる現実世界のシナリオにおいて、よりリアルで柔軟なレンダリングを可能にする。

Novel view synthesis using neural radiance fields (NeRF) is the state-of-the-art technique for generating high-quality images from novel viewpoints. Existing methods require a priori knowledge about extrinsic and intrinsic camera parameters. This limits their applicability to synthetic scenes, or real-world scenarios with the necessity of a preprocessing step. Current research on the joint optimization of camera parameters and NeRF focuses on refining noisy extrinsic camera parameters and often relies on the preprocessing of intrinsic camera parameters. Further approaches are limited to cover only one single camera intrinsic. To address these limitations, we propose a novel end-to-end trainable approach called NeRFtrinsic Four. We utilize Gaussian Fourier features to estimate extrinsic camera parameters and dynamically predict varying intrinsic camera parameters through the supervision of the projection error. Our approach outperforms existing joint optimization methods on LLFF and BLEFF. In addition to these existing datasets, we introduce a new dataset called iFF with varying intrinsic camera parameters. NeRFtrinsic Four is a step forward in joint optimization NeRF-based view synthesis and enables more realistic and flexible rendering in real-world scenarios with varying camera parameters.
翻訳日:2023-03-20 10:56:15 公開日:2023-03-17
# AIシステムによるマニピュレーションの特徴付け

Characterizing Manipulation from AI Systems ( http://arxiv.org/abs/2303.09387v2 )

ライセンス: Link先を確認
Micah Carroll, Alan Chan, Henry Ashton, David Krueger(参考訳) 操作は、ソーシャルメディア、広告、チャットボットなど、多くのドメインで共通の関心事である。 aiシステムは、私たちの世界とのインタラクションをより多く仲介するので、aiシステムが人間の \textit{with the intent of the system designer}を操作できる程度を理解することが重要です。 我々の研究は、AIシステムのコンテキストにおける操作の定義と測定における課題を明らかにする。 第一に、私たちは他の分野からの操作に関する先行文献を構築し、インセンティブ、意図、危害、隠ぺいの概念に依存する操作の可能な概念の空間を特徴づける。 各要因の運用方法についての提案をレビューする。 第2に,我々の特性に基づく操作の定義を提案する。 システムは操作的 \textit{if it が意図的かつ秘密的に人間(または他のエージェント)を変更するインセンティブを追求しているかのように振る舞う。 第3に,マニピュレーションと関連する概念(デセプションや強制など)との関係について論じる。 最後に、いくつかのアプリケーションにおける操作の運用をコンテキスト化します。 全体的な評価では、AIシステムによる操作の定義と測定にいくつかの進歩があったが、多くのギャップが残っている。 コンセンサスの定義や測定のための信頼できるツールがないため、システム設計者の意図なしにAIシステムが人間の操作を学ぶ可能性を排除することはできない。 このような操作は、人間の自律性に重大な脅威をもたらし、それを軽減するための予防措置が保証されていることを示唆している。

Manipulation is a common concern in many domains, such as social media, advertising, and chatbots. As AI systems mediate more of our interactions with the world, it is important to understand the degree to which AI systems might manipulate humans \textit{without the intent of the system designers}. Our work clarifies challenges in defining and measuring manipulation in the context of AI systems. Firstly, we build upon prior literature on manipulation from other fields and characterize the space of possible notions of manipulation, which we find to depend upon the concepts of incentives, intent, harm, and covertness. We review proposals on how to operationalize each factor. Second, we propose a definition of manipulation based on our characterization: a system is manipulative \textit{if it acts as if it were pursuing an incentive to change a human (or another agent) intentionally and covertly}. Third, we discuss the connections between manipulation and related concepts, such as deception and coercion. Finally, we contextualize our operationalization of manipulation in some applications. Our overall assessment is that while some progress has been made in defining and measuring manipulation from AI systems, many gaps remain. In the absence of a consensus definition and reliable tools for measurement, we cannot rule out the possibility that AI systems learn to manipulate humans without the intent of the system designers. We argue that such manipulation poses a significant threat to human autonomy, suggesting that precautionary actions to mitigate it are warranted.
翻訳日:2023-03-20 10:55:56 公開日:2023-03-17
# aiの誤用から社会を守る - 能力制限はいつ保証されるのか?

Protecting Society from AI Misuse: When are Restrictions on Capabilities Warranted? ( http://arxiv.org/abs/2303.09377v2 )

ライセンス: Link先を確認
Markus Anderljung and Julian Hazell(参考訳) 人工知能(AI)システムは、より有能に成長するにつれて、ますます害をもたらすために使われるようになる。 事実、AIシステムは、不正行為の自動化、人権侵害、有害な偽画像の作成、危険な毒素の特定にすでに使われ始めている。 AIの誤用を防ぐため、特定の能力に対するターゲットの介入は保証される。 これらの制限には、特定のタイプのAIモデルにアクセス可能な人、使用可能なもの、アウトプットがフィルタリングされているか、あるいはユーザにトレース可能であるか、開発に必要なリソースを制御することが含まれる。 また、危害を引き起こすのに必要なAI以外の機能に制限を加える必要があるとも主張しています。 能力制限は誤用以上の使用を減らすリスクを負うが(好ましくない誤用トレードオフに直面している)、他の介入が不十分な場合に能力への介入が保証される。 誤用(誤用連鎖)を引き起こすのに必要な特定のステップに注目し、介入が保証されているかどうかを判断する枠組みに注目し、ai誤用を減らすための介入の分類を提供する。 この推論を,新しい毒素の予測,有害な画像の作成,槍フィッシングキャンペーンの自動化という3つの例に適用する。

Artificial intelligence (AI) systems will increasingly be used to cause harm as they grow more capable. In fact, AI systems are already starting to be used to automate fraudulent activities, violate human rights, create harmful fake images, and identify dangerous toxins. To prevent some misuses of AI, we argue that targeted interventions on certain capabilities will be warranted. These restrictions may include controlling who can access certain types of AI models, what they can be used for, whether outputs are filtered or can be traced back to their user, and the resources needed to develop them. We also contend that some restrictions on non-AI capabilities needed to cause harm will be required. Though capability restrictions risk reducing use more than misuse (facing an unfavorable Misuse-Use Tradeoff), we argue that interventions on capabilities are warranted when other interventions are insufficient, the potential harm from misuse is high, and there are targeted ways to intervene on capabilities. We provide a taxonomy of interventions that can reduce AI misuse, focusing on the specific steps required for a misuse to cause harm (the Misuse Chain), and a framework to determine if an intervention is warranted. We apply this reasoning to three examples: predicting novel toxins, creating harmful images, and automating spear phishing campaigns.
翻訳日:2023-03-20 10:55:31 公開日:2023-03-17
# dinar: 一発ヒトアバターの神経テクスチャの拡散インパインティング

DINAR: Diffusion Inpainting of Neural Textures for One-Shot Human Avatars ( http://arxiv.org/abs/2303.09375v2 )

ライセンス: Link先を確認
David Svitov, Dmitrii Gudkov, Renat Bashirov, Victor Lempitsky(参考訳) DINARは、1枚のRGB画像から現実的なフルボディアバターを作成するためのアプローチである。 従来の研究と同様に, SMPL-Xボディーモデルと組み合わせた神経テクスチャを用いて, アバターのフォトリアリスティックな品質を実現し, アニメーションや高速な推論を実現している。 テクスチャを復元するために、潜伏拡散モデルを使用し、そのようなモデルを神経テクスチャ空間でどのようにトレーニングするかを示す。 拡散モデルを用いることで、正面から見ると人物の背中のような大きな目立たない領域を現実的に再構築することができる。 パイプライン内のモデルは、2D画像とビデオのみを使用してトレーニングされています。 実験では,最先端のレンダリング品質と,新たなポーズや視点への優れた一般化を実現する。 特に、このアプローチはSnapshotPeople公開ベンチマークの最先端を改善している。

We present DINAR, an approach for creating realistic rigged fullbody avatars from single RGB images. Similarly to previous works, our method uses neural textures combined with the SMPL-X body model to achieve photo-realistic quality of avatars while keeping them easy to animate and fast to infer. To restore the texture, we use a latent diffusion model and show how such model can be trained in the neural texture space. The use of the diffusion model allows us to realistically reconstruct large unseen regions such as the back of a person given the frontal view. The models in our pipeline are trained using 2D images and videos only. In the experiments, our approach achieves state-of-the-art rendering quality and good generalization to new poses and viewpoints. In particular, the approach improves state-of-the-art on the SnapshotPeople public benchmark.
翻訳日:2023-03-20 10:55:06 公開日:2023-03-17
# 特権情報を用いた学習による教師なしドメイン適応

Unsupervised domain adaptation by learning using privileged information ( http://arxiv.org/abs/2303.09350v2 )

ライセンス: Link先を確認
Adam Breitholtz, Anton Matsson and Fredrik D. Johansson(参考訳) unsupervised domain adaptation (uda) の成功は、共変量シフトや入力領域間の重なりといった強い仮定の下でのみ保証される。 後者は画像分類のような高次元のアプリケーションではしばしば違反するが、この問題にもかかわらずアルゴリズム開発のためのインスピレーションとベンチマークとして機能し続けている。 本研究では,情報源と対象領域からのサンプルに関するサイド情報へのアクセスが,これらの仮定を緩和し,よりリッチな変数集合を収集するコストを犠牲にして,学習におけるサンプル効率を向上させることができることを示す。 我々はこのドメイン適応を特権情報(DALUPI)を用いて学習する。 本稿では,本手法を応用した2段階学習アルゴリズムと,マルチラベル画像分類のための実用的エンドツーエンドアルゴリズムを提案する。 医学画像解析への応用を含む一連の実験において、学習に特権情報を組み込むことで、古典的学習に比べてドメイン転送の誤りを低減できることを実証する。

Successful unsupervised domain adaptation (UDA) is guaranteed only under strong assumptions such as covariate shift and overlap between input domains. The latter is often violated in high-dimensional applications such as image classification which, despite this challenge, continues to serve as inspiration and benchmark for algorithm development. In this work, we show that access to side information about examples from the source and target domains can help relax these assumptions and increase sample efficiency in learning, at the cost of collecting a richer variable set. We call this domain adaptation by learning using privileged information (DALUPI). Tailored for this task, we propose a simple two-stage learning algorithm inspired by our analysis and a practical end-to-end algorithm for multi-label image classification. In a suite of experiments, including an application to medical image analysis, we demonstrate that incorporating privileged information in learning can reduce errors in domain transfer compared to classical learning.
翻訳日:2023-03-20 10:54:50 公開日:2023-03-17
# BanglaCoNER:Robust Bangla Complexd Entity Recognitionを目指して

BanglaCoNER: Towards Robust Bangla Complex Named Entity Recognition ( http://arxiv.org/abs/2303.09306v2 )

ライセンス: Link先を確認
HAZ Sameen Shahgir, Ramisa Alam, Md. Zarif Ul Alam(参考訳) 名前付きエンティティ認識(NER)は、名前付きエンティティをテキストで識別し分類する自然言語処理の基本的なタスクである。 しかし、バングラデシュでは世界第7位の言語であるにもかかわらず、複雑な名前付きエンティティ認識のための多くの作業は行われていない。 CNERは従来のNERよりも難しいタスクであり、バングラ語では一般的ではない複雑で複雑なエンティティを識別し分類する。 本稿では,BanglaCoNERデータセット上のCNERタスク,すなわち条件付きランダムフィールド(CRF)と,BanglaBERTのような微調整型トランスフォーマーに基づくディープラーニングモデルを用いて,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。 データセットはトレーニング用15300文と検証用800文で構成された。 conll形式。 データセット上の探索データ分析(EDA)では、データセットには7つの異なるNERタグがあり、英語の単語の存在が顕著であり、データセットが合成され、おそらく翻訳の産物であることを示している。 NERのBanglaBERT(大規模)モデルを微調整しながら,音声の一部(POS)タグ,単語接尾辞,ガゼッタ,埋め込みからのクラスタ情報など,さまざまな機能の組み合わせを実験した。 CNERタスクを含むNLPにおいて、ディープラーニングに基づくモデルがより効果的なモデルであることが証明された理由として、すべての言語パターンがすぐに人間に明らかまたは直感的であるわけではないことが判明した。 我々の微調整BanglaBERT(大きな)モデルは、検証セット上でF1スコア0.79を達成する。 本研究は,Bangla Complex Named Entity Recognitionの重要性,特に合成データセットの文脈において強調した。 また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。

Named Entity Recognition (NER) is a fundamental task in natural language processing that involves identifying and classifying named entities in text. But much work hasn't been done for complex named entity recognition in Bangla, despite being the seventh most spoken language globally. CNER is a more challenging task than traditional NER as it involves identifying and classifying complex and compound entities, which are not common in Bangla language. In this paper, we present the winning solution of Bangla Complex Named Entity Recognition Challenge - addressing the CNER task on BanglaCoNER dataset using two different approaches, namely Conditional Random Fields (CRF) and finetuning transformer based Deep Learning models such as BanglaBERT. The dataset consisted of 15300 sentences for training and 800 sentences for validation, in the .conll format. Exploratory Data Analysis (EDA) on the dataset revealed that the dataset had 7 different NER tags, with notable presence of English words, suggesting that the dataset is synthetic and likely a product of translation. We experimented with a variety of feature combinations including Part of Speech (POS) tags, word suffixes, Gazetteers, and cluster information from embeddings, while also finetuning the BanglaBERT (large) model for NER. We found that not all linguistic patterns are immediately apparent or even intuitive to humans, which is why Deep Learning based models has proved to be the more effective model in NLP, including CNER task. Our fine tuned BanglaBERT (large) model achieves an F1 Score of 0.79 on the validation set. Overall, our study highlights the importance of Bangla Complex Named Entity Recognition, particularly in the context of synthetic datasets. Our findings also demonstrate the efficacy of Deep Learning models such as BanglaBERT for NER in Bangla language.
翻訳日:2023-03-20 10:54:35 公開日:2023-03-17
# SwinVFTR:3D OCT流体セグメンテーションのための新しいボリューム特徴学習変換器

SwinVFTR: A Novel Volumetric Feature-learning Transformer for 3D OCT Fluid Segmentation ( http://arxiv.org/abs/2303.09233v2 )

ライセンス: Link先を確認
Sharif Amit Kamran, Khondker Fariha Hossain, Alireza Tavakkoli, Salah A. Baker, Stewart Lee Zuckerbrod(参考訳) 3Dボリューム光コヒーレンストモグラフィー(OCT)画像における流体の正確なセグメンテーションは、眼疾患を検出する上で重要な課題である。 従来の自己エンコーディングに基づくセグメンテーション手法は、符号化相における連続的な解像度損失と復号相における損失情報を復元できないことによる流体領域の抽出に制限がある。 現在の医療用画像セグメンテーションのトランスフォーマは、この制限に対処しているが、異なるベンダー装置と抽出技術に基づいて幅の広いチャネル軸サイズを持つ3d octボリュームのアウト・オブ・ザ・ボックスを適用するようには設計されていない。 これらの問題に対処するために,3次元ボリュームCT画像の精密な流体分割を目的としたトランスフォーマーベースアーキテクチャSwinVFTRを提案する。 まず、チャネルワイドボリュームサンプリングを用いて、深さの異なるOCTボリュームのトレーニングを行う(Bスキャン)。 次に、エンコーダ内の新しいシフトウインドウトランスフォーマーブロックを使用して、流体領域のより優れたローカライゼーションとセグメンテーションを実現する。 さらに,従来のスキップ接続を改良した空間的・奥行き的注意のための新しいボリューム的注意ブロックを提案する。 その結果、マルチクラスのサイス損失を利用して、提案アーキテクチャは、Spectralis、Cirrus、Topconの3つの公開ベンダ固有のOCTデータセットにおいて、それぞれ平均サイススコア0.72、0.59、0.68で、既存のアーキテクチャを上回ります。 さらに、SwinVFTRは2つの関連する指標、平均交叉結合(Mean-IOU)と構造類似度測定(SSIM)で他のアーキテクチャより優れている。

Accurately segmenting fluid in 3D volumetric optical coherence tomography (OCT) images is a crucial yet challenging task for detecting eye diseases. Traditional autoencoding-based segmentation approaches have limitations in extracting fluid regions due to successive resolution loss in the encoding phase and the inability to recover lost information in the decoding phase. Although current transformer-based models for medical image segmentation addresses this limitation, they are not designed to be applied out-of-the-box for 3D OCT volumes, which have a wide-ranging channel-axis size based on different vendor device and extraction technique. To address these issues, we propose SwinVFTR, a new transformer-based architecture designed for precise fluid segmentation in 3D volumetric OCT images. We first utilize a channel-wise volumetric sampling for training on OCT volumes with varying depths (B-scans). Next, the model uses a novel shifted window transformer block in the encoder to achieve better localization and segmentation of fluid regions. Additionally, we propose a new volumetric attention block for spatial and depth-wise attention, which improves upon traditional residual skip connections. Consequently, utilizing multi-class dice loss, the proposed architecture outperforms other existing architectures on the three publicly available vendor-specific OCT datasets, namely Spectralis, Cirrus, and Topcon, with mean dice scores of 0.72, 0.59, and 0.68, respectively. Additionally, SwinVFTR outperforms other architectures in two additional relevant metrics, mean intersection-over-union (Mean-IOU) and structural similarity measure (SSIM).
翻訳日:2023-03-20 10:54:03 公開日:2023-03-17
# デジタルカメラノイズ合成のための生成モデル

A Generative Model for Digital Camera Noise Synthesis ( http://arxiv.org/abs/2303.09199v2 )

ライセンス: Link先を確認
Mingyang Song, Yang Zhang, Tun\c{c} O. Ayd{\i}n, Elham Amin Mansour, Christopher Schroers(参考訳) ノイズ合成は、カメラの設定とともにクリーンな画像から現実的なノイズを生成することを目的とした、挑戦的な低レベルのビジョンタスクである。 そこで本研究では,クリーンな特徴をネットワークへのノイズ注入のガイダンスとして利用する効果的な生成モデルを提案する。 具体的には,unetライクな構造でスキップ接続を行うが,ダウンサンプリングやアップサンプリングは行わない。 まず、クリーン画像から深い特徴を誘導として抽出し、ガウスノイズマップをノイズ源としてエンコーダとデコーダ間の遷移点に結合する。 次に,雑音特性をモデル化するためにガウス雑音を注入するデコーダ内の雑音合成ブロックを提案する。 第3に,追加のStyle Lossを用いることで,発電機の騒音特性の監視性を向上させることを提案する。 新たな実験を複数実施し,音の時間的ばらつきと空間的相関について検討し,今後の研究に有意義な知見を与えることを期待する。 最後に,提案手法は既存のカメラノイズ合成手法よりも優れていることを示す。

Noise synthesis is a challenging low-level vision task aiming to generate realistic noise given a clean image along with the camera settings. To this end, we propose an effective generative model which utilizes clean features as guidance followed by noise injections into the network. Specifically, our generator follows a UNet-like structure with skip connections but without downsampling and upsampling layers. Firstly, we extract deep features from a clean image as the guidance and concatenate a Gaussian noise map to the transition point between the encoder and decoder as the noise source. Secondly, we propose noise synthesis blocks in the decoder in each of which we inject Gaussian noise to model the noise characteristics. Thirdly, we propose to utilize an additional Style Loss and demonstrate that this allows better noise characteristics supervision in the generator. Through a number of new experiments, we evaluate the temporal variance and the spatial correlation of the generated noise which we hope can provide meaningful insights for future works. Finally, we show that our proposed approach outperforms existing methods for synthesizing camera noise.
翻訳日:2023-03-20 10:53:31 公開日:2023-03-17