このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230330となっている論文です。

PDF登録状況(公開日: 20230330)

TitleAuthorsAbstract論文公表日・翻訳日
# ChatGPTは科学的仮説を生成できるのか?

Can ChatGPT be used to generate scientific hypotheses? ( http://arxiv.org/abs/2304.12208v1 )

ライセンス: Link先を確認
Yang Jeong Park, Daniel Kaplan, Zhichu Ren, Chia-Wei Hsu, Changhao Li, Haowei Xu, Sipei Li and Ju Li(参考訳) 大規模言語モデルが人間の研究者が定期的に行う創造的仮説生成を実現することができるかどうかを検討する。 エラー率は高いが、生成AIは膨大な量の科学的知識を効果的に構築し、興味深く検証可能な仮説を提供することができるようだ。 将来の科学企業には、自動化された実験と敵対的ピアレビューによって挑戦される「仮説機械」の群れとの相乗的取り組みが含まれるかもしれない。

We investigate whether large language models can perform the creative hypothesis generation that human researchers regularly do. While the error rate is high, generative AI seems to be able to effectively structure vast amounts of scientific knowledge and provide interesting and testable hypotheses. The future scientific enterprise may include synergistic efforts with a swarm of "hypothesis machines", challenged by automated experimentation and adversarial peer reviews.
翻訳日:2023-04-30 07:39:38 公開日:2023-03-30
# 最適予測性能モデルのオンラインアンサンブルとセクタ回転戦略への応用

Online Ensemble of Models for Optimal Predictive Performance with Applications to Sector Rotation Strategy ( http://arxiv.org/abs/2304.09947v1 )

ライセンス: Link先を確認
Jiaju Miao and Pawel Polak(参考訳) 資産固有の要因は、金融リターンの予測や資産固有のリスク予知の定量化によく用いられる。 様々な機械学習モデルを用いて、これらの要因に含まれる情報により、セクターリターンの予測や、セクター固有のリスク予知の測定において、さらに大きな経済的な利益をもたらすことを実証する。 異なるセクターのパフォーマンスに対する個々のモデルの強い予測結果を活用するために,予測性能の最適化を学習する新しいオンラインアンサンブルアルゴリズムを開発した。 アルゴリズムは時間とともに適応し、最新の予測性能だけを分析して、個々のモデルの最適な組み合わせを決定する。 これにより、時系列問題、ローリングウィンドウのバックテスト手順、潜在的ブラックボックスモデルのシステムに特に適合する。 最適利得関数を導出し、サンプル外 r-二乗測度を用いて対応する後悔境界を表現し、アルゴリズムの最適学習率を導出する。 実験的に、この新しいアンサンブルは、個別の機械学習モデルとそれらの単純な平均の両方で、セクターリスク・プレミアのより良い測定結果を提供する。 さらに、特定のモデルにコンディショニングすることなく、さまざまなセクタにまたがるさまざまな要因のパフォーマンス帰属を可能にする。 最後に、我々のアンサンブルからの月次予測を利用して、市場を著しく上回るセクターローテーション戦略を開発する。 この戦略は、様々な金融要因、財政難の期間、保守的な取引コストに対して堅固である。 特に、この戦略の有効性は時間とともに持続し、長期にわたる検査期間を通して一貫した改善を示し、新型コロナウイルスのパンデミックの経済混乱で実質的な利益をもたらしている。

Asset-specific factors are commonly used to forecast financial returns and quantify asset-specific risk premia. Using various machine learning models, we demonstrate that the information contained in these factors leads to even larger economic gains in terms of forecasts of sector returns and the measurement of sector-specific risk premia. To capitalize on the strong predictive results of individual models for the performance of different sectors, we develop a novel online ensemble algorithm that learns to optimize predictive performance. The algorithm continuously adapts over time to determine the optimal combination of individual models by solely analyzing their most recent prediction performance. This makes it particularly suited for time series problems, rolling window backtesting procedures, and systems of potentially black-box models. We derive the optimal gain function, express the corresponding regret bounds in terms of the out-of-sample R-squared measure, and derive optimal learning rate for the algorithm. Empirically, the new ensemble outperforms both individual machine learning models and their simple averages in providing better measurements of sector risk premia. Moreover, it allows for performance attribution of different factors across various sectors, without conditioning on a specific model. Finally, by utilizing monthly predictions from our ensemble, we develop a sector rotation strategy that significantly outperforms the market. The strategy remains robust against various financial factors, periods of financial distress, and conservative transaction costs. Notably, the strategy's efficacy persists over time, exhibiting consistent improvement throughout an extended backtesting period and yielding substantial profits during the economic turbulence of the COVID-19 pandemic.
翻訳日:2023-04-23 03:57:50 公開日:2023-03-30
# 自然言語仕様からの数学的プログラムの合成

Synthesis of Mathematical programs from Natural Language Specifications ( http://arxiv.org/abs/2304.03287v1 )

ライセンス: Link先を確認
Ganesh Prasath and Shirish Karande(参考訳) 様々なビジネス領域で遭遇するいくつかの決定問題は、数学的プログラム、すなわち最適化問題としてモデル化することができる。 このようなモデリングを行うプロセスは、しばしばオペレーション研究や高度なアルゴリズムで訓練された専門家の関与を必要とする。 驚くべきことに、プログラムとコード合成の方法、automl、最適化の学習といった大きな進歩にもかかわらず、数学的プログラムの合成のタスクを自動化することにはほとんど注意が払われていない。 我々は、モデリングの仕様、すなわち、目的と制約が自然言語(NL)の非構造化形式で表現され、そのようなNL仕様から数学的プログラムを合成しなければならないシナリオを想像する。 本研究では,データ拡張とビーム後処理によるCodeT5の有効性を評価する。 GPT-3と逆翻訳を用いて合成例を生成する。 さらに、線形プログラミングの規則を適用し、共通の誤りパターンに基づいてビームと正しいビームをスコアリングする。 これらの強化により、codet5 base は、chatgpt による 0.41 と codex による 0.36 のゼロショット実行精度よりもはるかに優れた 0.73 の実行精度が得られる。

Several decision problems that are encountered in various business domains can be modeled as mathematical programs, i.e. optimization problems. The process of conducting such modeling often requires the involvement of experts trained in operations research and advanced algorithms. Surprisingly, despite the significant advances in the methods for program and code synthesis, AutoML, learning to optimize etc., there has been little or no attention paid to automating the task of synthesizing mathematical programs. We imagine a scenario where the specifications for modeling, i.e. the objective and constraints are expressed in an unstructured form in natural language (NL) and the mathematical program has to be synthesized from such an NL specification. In this work we evaluate the efficacy of employing CodeT5 with data augmentation and post-processing of beams. We utilize GPT-3 with back translation for generation of synthetic examples. Further we apply rules of linear programming to score beams and correct beams based on common error patterns. We observe that with these enhancements CodeT5 base gives an execution accuracy of 0.73 which is significantly better than zero-shot execution accuracy of 0.41 by ChatGPT and 0.36 by Codex.
翻訳日:2023-04-16 22:34:08 公開日:2023-03-30
# グラフ埋め込みの教師なし学習によるオブジェクト非依存アフォーマンス分類

Object-agnostic Affordance Categorization via Unsupervised Learning of Graph Embeddings ( http://arxiv.org/abs/2304.05989v1 )

ライセンス: Link先を確認
Alexia Toumpa and Anthony G. Cohn(参考訳) オブジェクトのインタラクションとアプライアンスに関する知識を得ることで、シーンの理解とヒューマン・ロボットのコラボレーションタスクが容易になる。 人間は、シーンやオブジェクトの可用性によって様々な方法でオブジェクトを使用する傾向があるため、日常シナリオにおける学習対象の余裕は、特にオープンな相互作用やオブジェクトの存在下では、難しい課題である。 オープンなインタラクションセットを持つクラス非依存オブジェクトのアフォーマンス分類の問題に対処し、教師なしの方法でオブジェクトインタラクション間の類似性を学習することにより、オブジェクトアフォーマンスの集合を誘導する。 rgb-dビデオにおける時空間相互作用の連続表現を抽象化したアクティビティグラフ(ags)の構築のために,新しい深さ非定性空間表現を提案する。 これらのagsはクラスター化され、同様のアフォーアンスを持つオブジェクト群を得る。 実世界のシナリオで行った実験では,乱雑なシーンでも高いv-measureでオブジェクトアプライアンスクラスタを作成することを学ぶことができた。 提案手法は,オブジェクトやシーンの制約を課すことなく,効果的に可能なインタラクションをキャプチャすることで,オブジェクトのオクルージョンを処理する。

Acquiring knowledge about object interactions and affordances can facilitate scene understanding and human-robot collaboration tasks. As humans tend to use objects in many different ways depending on the scene and the objects' availability, learning object affordances in everyday-life scenarios is a challenging task, particularly in the presence of an open set of interactions and objects. We address the problem of affordance categorization for class-agnostic objects with an open set of interactions; we achieve this by learning similarities between object interactions in an unsupervised way and thus inducing clusters of object affordances. A novel depth-informed qualitative spatial representation is proposed for the construction of Activity Graphs (AGs), which abstract from the continuous representation of spatio-temporal interactions in RGB-D videos. These AGs are clustered to obtain groups of objects with similar affordances. Our experiments in a real-world scenario demonstrate that our method learns to create object affordance clusters with a high V-measure even in cluttered scenes. The proposed approach handles object occlusions by capturing effectively possible interactions and without imposing any object or scene constraints.
翻訳日:2023-04-16 22:17:38 公開日:2023-03-30
# テキスト対画像生成レンズによる社会的バイアス

Social Biases through the Text-to-Image Generation Lens ( http://arxiv.org/abs/2304.06034v1 )

ライセンス: Link先を確認
Ranjita Naik, Besmira Nushi(参考訳) テキスト・ツー・イメージ(T2I)生成は、与えられた記述的テキストから始まる高光写実性のあるイラストラティブコンテンツをプロンプトとして生成することにより、プロダクティビティソフトウェアのクリエータ、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。 しかし、そのようなモデルは大量のwebデータに基づいて訓練され、生成プロセス自体に漏れる可能性のある有害なバイアスの危険を表面化します。 本稿では, 職業, 性格特性, 日常的状況が性別, 年齢, 人種, 地理的位置の表象にまたがってどのように表されるかに注目し, 生成画像に反映される共通の社会バイアスを研究し, 定量化する多次元的アプローチを提案する。 自動評価実験と人間の評価実験の両方を通じて,t2iモデルであるdalle-v2とstable diffusionについて知見を得た。 以上の結果から,中性刺激の重篤な職業的偏見が,両モデルの結果から大半を除外していることが明らかとなった。 このようなバイアスは、プロンプト自体の仕様の量を増やすことで軽減できるが、プロンプトの緩和は、画像品質や他のモデルや他のシナリオにおけるその表現の相違に対処しない。 さらに,人種,性別,年齢の交点において,限られた人数にのみ関連付けられる性格特性を観察する。 最後に、日々の状況(例えば、公園、食べ物、結婚式)における地理的な位置表現の分析は、ほとんどの状況において、デフォルトの位置中立的なプロンプトによって生成された画像は、米国とドイツの場所のために生成された画像に近づき、より類似していることを示している。

Text-to-Image (T2I) generation is enabling new applications that support creators, designers, and general end users of productivity software by generating illustrative content with high photorealism starting from a given descriptive text as a prompt. Such models are however trained on massive amounts of web data, which surfaces the peril of potential harmful biases that may leak in the generation process itself. In this paper, we take a multi-dimensional approach to studying and quantifying common social biases as reflected in the generated images, by focusing on how occupations, personality traits, and everyday situations are depicted across representations of (perceived) gender, age, race, and geographical location. Through an extensive set of both automated and human evaluation experiments we present findings for two popular T2I models: DALLE-v2 and Stable Diffusion. Our results reveal that there exist severe occupational biases of neutral prompts majorly excluding groups of people from results for both models. Such biases can get mitigated by increasing the amount of specification in the prompt itself, although the prompting mitigation will not address discrepancies in image quality or other usages of the model or its representations in other scenarios. Further, we observe personality traits being associated with only a limited set of people at the intersection of race, gender, and age. Finally, an analysis of geographical location representations on everyday situations (e.g., park, food, weddings) shows that for most situations, images generated through default location-neutral prompts are closer and more similar to images generated for locations of United States and Germany.
翻訳日:2023-04-16 22:06:06 公開日:2023-03-30
# 個人の健康指標形成における国際機能・障害・健康分類(ICF)の利用

Utilizing the International Classification of Functioning, Disability and Health (ICF) in forming a personal health index ( http://arxiv.org/abs/2304.06143v1 )

ライセンス: Link先を確認
Ilkka Rautiainen, Lauri Parviainen, Veera Jakoaho, Sami \"Ayr\"am\"o and Jukka-Pekka Kauppi(参考訳) 個人の健康指標を算出し,個人の健康状態を包括的にモニタリングする新しいモデルを提案する。 モデルの中心的な枠組みは、世界保健機関によって開発された国際機能、障害、健康の分類(ICF)である。 このモデルは、異なる手法で収集された不完全で異種なデータセットを処理することができる。 健康指標は、リハビリテーション中の個人が提供した2つの自己評価健康対策と比較して検証した。 その結果,本モデルが有効な健康指標結果をもたらし,提案モデルが実際に適用可能であることが示唆された。

We propose a new model for comprehensively monitoring the health status of individuals by calculating a personal health index. The central framework of the model is the International Classification of Functioning, Disability and Health (ICF) developed by the World Health Organization. The model is capable of handling incomplete and heterogeneous data sets collected using different techniques. The health index was validated by comparing it to two self-assessed health measures provided by individuals undergoing rehabilitation. Results indicate that the model yields valid health index outcomes, suggesting that the proposed model is applicable in practice.
翻訳日:2023-04-16 21:57:47 公開日:2023-03-30
# 観察健康研究における健康・病気記述のためのロバストな計算可能な表現型定義ワークフローの開発

Developing a Robust Computable Phenotype Definition Workflow to Describe Health and Disease in Observational Health Research ( http://arxiv.org/abs/2304.06504v1 )

ライセンス: Link先を確認
Jacob S. Zelko, Sarah Gasman, Shenita R. Freeman, Dong Yun Lee, Jaan Altosaar, Azza Shoaibi, Gowtham Rao(参考訳) 健康情報学は、実践者、患者、政策立案者、研究者が健康と病気について考える必要があると判断することができる。 健康情報学は患者の健康データに基づいて構築されており、患者の健康情報を体系化する必要がある。 このような標準化は、疫学などの分野で使われる一般的な指標である人口統計(有病率、発生率など)を計算するために必要である。 健康と病気に関する信頼できる意思決定は、患者の健康データを含むデータリポジトリを整理、分析、評価する能力にかかっています。 健康情報交換、臨床データリポジトリ、健康データマーケットプレースなどの患者データソースをまたいで患者データを構造化および分析するための標準が存在するが、健康情報学の文脈で患者人口を厳密に定義するための類似のベストプラクティスは存在しない。 疾患定義を開発するためのベストプラクティスの体系化は、臨床ガイドラインの効果的な開発を支援し、臨床決定支援システムで使用されるアルゴリズムや追加の患者ガイドラインを通知する。 本稿では,表現型定義の開発のためのワークフローを提案する。 このワークフローは、健康と病気を定義するための一連の推奨事項を提示します。 このワークフローをヘルスインフォマティクスのコンテキストで示すために,本稿のさまざまな例を示す。

Health informatics can inform decisions that practitioners, patients, policymakers, and researchers need to make about health and disease. Health informatics is built upon patient health data leading to the need to codify patient health information. Such standardization is required to compute population statistics (such as prevalence, incidence, etc.) that are common metrics used in fields such as epidemiology. Reliable decision-making about health and disease rests on our ability to organize, analyze, and assess data repositories that contain patient health data. While standards exist to structure and analyze patient data across patient data sources such as health information exchanges, clinical data repositories, and health data marketplaces, analogous best practices for rigorously defining patient populations in health informatics contexts do not exist. Codifying best practices for developing disease definitions could support the effective development of clinical guidelines, inform algorithms used in clinical decision support systems, and additional patient guidelines. In this paper, we present a workflow for the development of phenotype definitions. This workflow presents a series of recommendations for defining health and disease. Various examples within this paper are presented to demonstrate this workflow in health informatics contexts.
翻訳日:2023-04-16 21:37:32 公開日:2023-03-30
# SU(2)コヒーレント光子の対称性とPoincar\e回転子への応用

SU(2) Symmetry of Coherent Photons and Application to Poincar\'e Rotator ( http://arxiv.org/abs/2303.18199v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) リー代数は自然界で実現された様々な量子系の背後にある隠れた数学的構造である。 ここでは、レーザー源から放出されるコヒーレント光子の偏光状態に対する$su(2)$波動関数を検討し、同型定理に基づくso(3)対称性とスピン期待値との関係について論じる。 特に、回転した半波プレートは反エルミート性のため投影された o(2) 平面の部分群を形成しないポアンカルス球面の鏡鏡反射に対応していることがわかった。 これは、物理的回転によって決定される任意の回転角を許容する$su(2)$でプリシン回転子を実現するための別のハーフウェーブプレートを準備することによって実験的に克服することができる。 他の2つの4/4波プレートを組み合わせることで、真の位相シフト器を構築できるので、ポアンカルス球面全体に対するパッシブ制御を実現することができる。

Lie algebra is a hidden mathematical structure behind various quantum systems realised in nature. Here, we consider $SU(2)$ wavefunctions for polarisation states of coherent photons emitted from a laser source, and discuss the relationship to spin expectation values with SO(3) symmetry based on isomorphism theorems. In particular, we found rotated half-wave-plates correspond to mirror reflections in the Poincar\'e sphere, which do not form a subgroup in the projected O(2) plane due to anti-hermitian property. This could be overcome experimentally by preparing another half-wave-plate to realise a pristine rotator in $SU(2)$, which allows arbitrary rotation angles determined by the physical rotation. By combining another 2 quarter-wave-plates, we could also construct a genuine phase-shifter, thus, realising passive control over the full Poincar\'e sphere.
翻訳日:2023-04-09 05:55:38 公開日:2023-03-30
# 位相分極状態

Topological Polarisation States ( http://arxiv.org/abs/2304.00014v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) 偏極状態はStokesパラメータと呼ばれるスピン期待値によって記述され、回転対称系の軌道はPoincar\'eに因む球面を形成する。 ここでは,破断した回転対称系の軌道が分極状態において異なる位相構造を示すことを示す。 位相シフト器を用いて偏極円({\mathbb S}^1$)を形成し、回転に伴う出力状態の位相変化によって元の入力に干渉する。 回転子を用いて円を回転させることにより、軌道は偏極トーラス({\mathbb S}^1 \times {\mathbb S}^1$)となり、マッハ・ツェンダー干渉計とともに受動光学部品を用いた簡単なセットアップで実験的に確認された。 また、M\"obius strip, Hopf-links, and Topological Dirac bosons with a bulk-edge correspondenceなど、他の位相的特徴の実現についても論じる。

Polarisation states are described by spin expectation values, known as Stokes parameters, whose trajectories in a rotationally symmetric system form a sphere named after Poincar\'e. Here, we show that the trajectories of broken rotational symmetric systems can exhibit distinct topological structures in polarisation states. We use a phase-shifter to form a polarisation circle (${\mathbb S}^1$), which interferes with the original input due to the phase change of the output state upon the rotation. By rotating the circle using a rotator, the trajectories become a polarisation torus (${\mathbb S}^1 \times {\mathbb S}^1$), which was experimentally confirmed in a simple set-up using passive optical components together with Mach-Zehnder interferometers. We also discuss about realisations of other topological features, such as M\"obius strip, Hopf-links, and topological Dirac bosons with a bulk-edge correspondence.
翻訳日:2023-04-09 05:44:37 公開日:2023-03-30
# Adaptive SpikeDeep-Classifier:オンラインスパイクソートのための自己組織化と自己教師型機械学習アルゴリズム

Adaptive SpikeDeep-Classifier: Self-organizing and self-supervised machine learning algorithm for online spike sorting ( http://arxiv.org/abs/2304.01355v1 )

ライセンス: Link先を確認
Muhammad Saif-ur-Rehman, Omair Ali, Christian Klaes, Ioannis Iossifidis(参考訳) 目的。 脳-コンピュータインターフェース(BCI)の研究は、現実世界で重度の障害のある患者をリハビリするために進んでいる。 ユーザ意図の復号化に成功する2つの重要な要因は、埋め込まれたマイクロ電極アレイのサイズと、優れたオンラインスパイクソートアルゴリズムである。 3072チャンネルの小型で高密度なマイクロ電極アレイが最近、ユーザの意図をデコードするために開発された。 スパイク分類のプロセスは、記録された神経データから異なるソース(ニューロン)のスパイク活性(sa)を決定する。 残念ながら、現在のスパイクソートアルゴリズムは、高密度のマイクロ電極アレイから大量のデータを処理できないため、スパイクソートはオンラインBCIデコーディングフレームワークの脆弱なコンポーネントとなっている。 アプローチ。 本稿では,チャネル選択にspikedeeptectorを使用するadaptive spike deep-classifier(ada-spike deepclassifier)と,背景イベントを破棄するadaptive background activity rejector(ada-bar)と,異なる神経単位のsaを分類するadaptive spike classifier(ada-spike classifier)という,オンラインスパイクソートのための適応的かつ自己組織化されたアルゴリズムを提案する。 結果だ 提案アルゴリズムは,これまでに公表したSpikeDeep-Classifierおよび他の8つのスパイクソートアルゴリズムを,人間のデータセットと公開可能なシミュレートデータセットで評価した。 重要なこと。 提案アルゴリズムはノイズとSAの分布の急激な変化を自動的に学習する最初のスパイクソートアルゴリズムである。 このアルゴリズムは、ウェアラブルな侵入型BCIに使用できるニューロモルフィックチップのハードウェア実装に適した人工ニューラルネットワークベースのアルゴリズムである。

Objective. Research on brain-computer interfaces (BCIs) is advancing towards rehabilitating severely disabled patients in the real world. Two key factors for successful decoding of user intentions are the size of implanted microelectrode arrays and a good online spike sorting algorithm. A small but dense microelectrode array with 3072 channels was recently developed for decoding user intentions. The process of spike sorting determines the spike activity (SA) of different sources (neurons) from recorded neural data. Unfortunately, current spike sorting algorithms are unable to handle the massively increasing amount of data from dense microelectrode arrays, making spike sorting a fragile component of the online BCI decoding framework. Approach. We proposed an adaptive and self-organized algorithm for online spike sorting, named Adaptive SpikeDeep-Classifier (Ada-SpikeDeepClassifier), which uses SpikeDeeptector for channel selection, an adaptive background activity rejector (Ada-BAR) for discarding background events, and an adaptive spike classifier (Ada-Spike classifier) for classifying the SA of different neural units. Results. Our algorithm outperformed our previously published SpikeDeep-Classifier and eight other spike sorting algorithms, as evaluated on a human dataset and a publicly available simulated dataset. Significance. The proposed algorithm is the first spike sorting algorithm that automatically learns the abrupt changes in the distribution of noise and SA. It is an artificial neural network-based algorithm that is well-suited for hardware implementation on neuromorphic chips that can be used for wearable invasive BCIs.
翻訳日:2023-04-09 05:36:52 公開日:2023-03-30
# 脳-コンピュータインタフェースのための信号処理とディープニューラルネットワークを用いた脳波に基づく気分検出

Optimized EEG based mood detection with signal processing and deep neural networks for brain-computer interface ( http://arxiv.org/abs/2304.01349v1 )

ライセンス: Link先を確認
Subhrangshu Adhikary, Kushal Jain, Biswajit Saha and Deepraj Chowdhury(参考訳) 脳波(Electroencephalogram、EEG)は、頭皮の特定の点に付着した特定の電極によって検出された神経細胞の電気刺激によるシナプス後電位を増幅し測定することにより、脳の信号や活動を研究するための非常に有望で広く実装された手順である。 脳の異常、頭痛、その他の状態を検出するために研究することができる。 しかし、脳波と被験者の気分との関係を識別するためのスマートな意思決定モデルを確立するための研究は限られている。 この実験では、健康な28人の被験者の脳波信号が同意を得て観察され、気分の研究と認識が試みられている。 データフィルタリングにはサビツキーゴレー帯域通過フィルタリングと独立成分分析が用いられており、被験者の気分に基づいて脳波データを分析・分類するために異なるニューラルネットワークアルゴリズムが実装されている。 このモデルは、ブラックマンウィンドウベースのフーリエ変換を用いることでさらに最適化され、各電極の最も重要な周波数を抽出する。 これらの技術を用いて、96.01%の検出精度が得られた。

Electroencephalogram (EEG) is a very promising and widely implemented procedure to study brain signals and activities by amplifying and measuring the post-synaptical potential arising from electrical impulses produced by neurons and detected by specialized electrodes attached to specific points in the scalp. It can be studied for detecting brain abnormalities, headaches, and other conditions. However, there are limited studies performed to establish a smart decision-making model to identify EEG's relation with the mood of the subject. In this experiment, EEG signals of 28 healthy human subjects have been observed with consent and attempts have been made to study and recognise moods. Savitzky-Golay band-pass filtering and Independent Component Analysis have been used for data filtration.Different neural network algorithms have been implemented to analyze and classify the EEG data based on the mood of the subject. The model is further optimised by the usage of Blackman window-based Fourier Transformation and extracting the most significant frequencies for each electrode. Using these techniques, up to 96.01% detection accuracy has been obtained.
翻訳日:2023-04-09 05:36:16 公開日:2023-03-30
# フォトニック量子色力学

Photonic Quantum Chromo-Dynamics ( http://arxiv.org/abs/2304.01217v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) 有限な軌道角運動量を持つ渦光子は、特定の方向に伝播しながら、モードの中心に位相電荷を持つ異なるモードプロファイルを持つ。 m$ の異なる位相電荷を持つ各モードは直交的であり、重複積分が $m$ の異なる値を持つモード間で消滅するという意味でである。 ここでは、左渦と右渦を持つ3つの異なるモードと渦のないガウスモードの間の重ね合わせ状態について理論的に考察する。 これらの3つの状態は異なる量子状態に割り当てられていると考えられるため、我々はフォトニック状態を分類するために$\mathfrak{su}(3)$リー代数と関連するsu(3)リー群を用いる。 生成器はエルミートであるため観測可能であるはずの$\mathfrak{su}(3)$リー代数の8つの生成器の期待値を計算した。 我々はこれらのパラメータをゲルマンパラメータと呼び、クォークの量子クロモダイナミクス(QCD)を確立した理論物理学者マレー・ゲルマンに因んで命名した。 ゲルマンパラメータは、カシミール作用素の保存則により半径が固定された8次元超球面上で表される。 実験では,SO(6) と SO(5) にパラメータを埋め込むために,SU(3) を分類し,フォトニック QCD を探索する可能性について議論した。

Vortexed photons with finite orbital angular momentum have a distinct mode profile with topological charge at the centre of the mode, while propagating in a certain direction. Each mode with different topological charge of $m$ is orthogonal, in the sense that the overlap integral vanishes among modes with different values of $m$. Here, we theoretically consider a superposition state among 3 different modes with left- and right-vorticies and a Gaussian mode without a vortex. These 3 states are considered to be assigned to different quantum states, thus, we have employed the $\mathfrak{su}(3)$ Lie algebra and the associated SU(3) Lie group to classify the photonic states. We have calculated expectation values of 8 generators of the $\mathfrak{su}(3)$ Lie algebra, which should be observable, since the generators are Hermite. We proposed to call these parameters as Gell-Mann parameters, named after the theoretical physicist, Murray Gell-Mann, who established Quantum Chromo-Dynamics (QCD) for quarks. The Gell-Mann parameters are represented on the 8-dimensional hypersphere with its radius fixed due to the conservation law of the Casimir operator. We have discussed a possibility to explore photonic QCD in experiments and classified SU(3) states to embed the parameters in SO(6) and SO(5).
翻訳日:2023-04-09 05:35:56 公開日:2023-03-30
# コヒーレント光子の巨視的一重項、三重項および色電荷状態

Macroscopic Singlet, Triplet, and Colour-Charged States of Coherent Photons ( http://arxiv.org/abs/2304.01216v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) レーザー源から放出される光子の光線はコヒーレントな状態にあり、同じ量子状態において巨視的な光子の数が縮退する。 コヒーレント状態はスピン運動量と軌道角運動量に対する自由度を持ち、その振幅と位相が変化する直交状態の間の任意の重ね合わせ状態がリー代数とリー群の表現論によって記述される。 ここでは,コヒーレント光子の量子状態に対する回転生成子を,半波長や四分波のプレートや渦レンズといった広く利用可能な光学成分を組み合わせるだけで構築できることを実験的に証明する。 渦状態と非渦状態の間の重ね合わせ状態は、SU(3)状態の回転に対するトポロジカル電荷の運動によって特徴づけられる。 また、光子の光線と直交偏光状態と渦状態を組み合わせた一重項状態と三重項状態も実現した。 これは有効な SU(4) 状態を実現し、偏光器を通過するときに SU(2)$\times$SU(2) 状態への射影を確認した。

A ray of photons, emitted from a laser source, is in a coherent state, where macroscopic number of photons are degenerate in the same quantum state. The coherent state has degrees of freedom for spin and orbital angular momentum, which allow an arbitrary superposition state among orthogonal states with varying their amplitudes and phases, described by a representation theory of Lie algebra and Lie group. Here, we experimentally demonstrate that we can construct generators of rotations for the quantum states of coherent photons, simply by combining widely available optical components, such as half- and quarter-wave plates and vortex lenses. We have found that a superposition state between vortexed and no-vortex states is characterised by the motion of the topological charge upon the rotation in the SU(3) states. We also realised singlet and triplet states by combining rays of photons with orthogonal polarisation states and vortexed states. This corresponds to realise an effective SU(4) state and we have confirmed the projection to an SU(2)$\times$SU(2) state upon passing through a polariser.
翻訳日:2023-04-09 05:35:30 公開日:2023-03-30
# ツリーベース手法による蜂蜜生産予測のための機械学習手法

A Machine Learning Approach to Forecasting Honey Production with Tree-Based Methods ( http://arxiv.org/abs/2304.01215v1 )

ライセンス: Link先を確認
Alessio Brini, Elisa Giovannini, Elia Smaniotto(参考訳) 養蜂部門は、気候変動が進行するにつれて、悪天候のため、過去数年間でかなりの生産変化を経験してきた。 これらの現象は高い影響があり、ミツバチの活動に対して環境が不利になる可能性がある。 我々はハチミツ生産ドライバを木ベースの方法で分離し、ヨーロッパ最大のハチミツ生産国の一つであるイタリアにおけるハチミツ生産の変動を予測する。 このデータベースは、2019年から2022年にかけての何百ものビーヒーブデータを、高度な精度のビーキーピング技術でカバーしている。 機械学習モデルをトレーニングし、解釈することで、予測だけでなく規範的になります。 標準的な線形手法と比較して、木に基づく手法の優れた予測性能は、ハチの活動のより優れた保護を可能にし、ハチのリスク管理における潜在的な損失を評価する。

The beekeeping sector has undergone considerable production variations over the past years due to adverse weather conditions, occurring more frequently as climate change progresses. These phenomena can be high-impact and cause the environment to be unfavorable to the bees' activity. We disentangle the honey production drivers with tree-based methods and predict honey production variations for hives in Italy, one of the largest honey producers in Europe. The database covers hundreds of beehive data from 2019-2022 gathered with advanced precision beekeeping techniques. We train and interpret the machine learning models making them prescriptive other than just predictive. Superior predictive performances of tree-based methods compared to standard linear techniques allow for better protection of bees' activity and assess potential losses for beekeepers for risk management.
翻訳日:2023-04-09 05:35:11 公開日:2023-03-30
# コヒーレント光子のマクロ単一量子ビット演算

Macroscopic Single-Qubit Operation for Coherent Photons ( http://arxiv.org/abs/2304.00013v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) 偏光は、ユビキタスレーザー源から放出される光子のマクロコヒーレンスにより、$SU(2)$の波動関数によって記述されるので、レーザーパルスは、マクロ的な量子ビット(量子ビット)として振る舞うことが期待される。 本稿では,光変調器を標準光板と共に,コンピュータ制御されたファイバー光学構成において,このようなマクロ量子ビットに対して任意の単一量子ビット演算を行うことが可能であることを示す。 我々はこの装置をポインカーの回転子と命名し、ポインカーの球面上で任意の量の回転を実行することによって偏極状態の動的制御を可能にする。 Poincar\'e 回転子は、位相を変更するために$U(1)$演算と、波動関数の振幅を変更するために$U(1)$演算を組み合わせることで、リー群の任意の$SU(2)$演算子として機能する。 我々は,4 \times 4=16$,8 \times 8=64$,10 \times 10=100$のような様々な偏極状態を実現した。 球面上の実現された偏光状態の軌跡として、バックミンスターフルレレン (c$_{60}$) の分子構造と地球の海岸線を導いた。

Polarisation is described by an $SU(2)$ wavefunction due to macroscopic coherence of photons emitted from a ubiquitous laser source, and thus, a laser pulse is expected to behave as a macroscopic quantum bit (qubit), i.e., a qubit realised by a macroscopic number of photons. Here, we show that an arbitrary single-qubit operation can be carried out for such a macroscopic qubit by employing optical modulators, together with standard optical plates, in a computer-controlled fibre-optic configuration. We named the device as a Poincar\'e rotator, which allows a dynamic control over a polarisation state by executing an arbitrary amount of rotations on the Poincar\'e sphere. The Poincar\'e rotator works as an arbitrary $SU(2)$ operator in a Lie group, by combining a $U(1)$ operation to change the phase and another $U(1)$ operation to change the amplitude of the wavefunction. We have realised various polarisation states, such as $4 \times 4=16$, $8 \times 8=64$, and $10 \times 10=100$ distinguishable states on the sphere. As a locus of the realised polarisation states on the sphere, we have successfully drawn the molecular structure of Buckminsterfullerene (C$_{60}$) and the coastline of the earth.
翻訳日:2023-04-04 20:18:14 公開日:2023-03-30
# 移植後死亡原因分析のためのマルチタスク学習--肝移植を事例として

Multi-Task Learning for Post-transplant Cause of Death Analysis: A Case Study on Liver Transplant ( http://arxiv.org/abs/2304.00012v1 )

ライセンス: Link先を確認
Sirui Ding, Qiaoyu Tan, Chia-yuan Chang, Na Zou, Kai Zhang, Nathan R. Hoot, Xiaoqian Jiang, Xia Hu(参考訳) 臓器移植は、いくつかの末期疾患、例えば肝不全に対する重要な治療方法である。 臓器移植後の移植後死因(cod)の分析は、パーソナライズされた治療や臓器割り当てを含む、臨床意思決定のための強力なツールを提供する。 しかしながら、末期肝疾患モデル(meld)スコアや従来の機械学習(ml)法は、cod分析において2つの主要なデータとモデル関連の課題により制限されている。 そこで本研究では,多タスク学習を利用したCoD-MTLという新しいフレームワークを提案し,様々なCoD予測タスク間の意味関係をモデル化する。 具体的には,木モデルとマルチタスク学習の両方の強みを組み合わせたマルチタスク学習のための新しい木蒸留戦略を開発した。 本フレームワークの正確かつ信頼性の高いcod予測を示すために実験を行った。 本法が肝移植において臨床的に重要であることを示すため,本法を施行した。

Organ transplant is the essential treatment method for some end-stage diseases, such as liver failure. Analyzing the post-transplant cause of death (CoD) after organ transplant provides a powerful tool for clinical decision making, including personalized treatment and organ allocation. However, traditional methods like Model for End-stage Liver Disease (MELD) score and conventional machine learning (ML) methods are limited in CoD analysis due to two major data and model-related challenges. To address this, we propose a novel framework called CoD-MTL leveraging multi-task learning to model the semantic relationships between various CoD prediction tasks jointly. Specifically, we develop a novel tree distillation strategy for multi-task learning, which combines the strength of both the tree model and multi-task learning. Experimental results are presented to show the precise and reliable CoD predictions of our framework. A case study is conducted to demonstrate the clinical importance of our method in the liver transplant.
翻訳日:2023-04-04 20:17:48 公開日:2023-03-30
# drip:逆問題に対する深い正規化子

DRIP: Deep Regularizers for Inverse Problems ( http://arxiv.org/abs/2304.00015v1 )

ライセンス: Link先を確認
Moshe Eliasof, Eldad Haber, Eran Treister(参考訳) 逆問題は数学的に不適切である。 したがって、いくつかの(ノイズの多い)データを考えると、複数のソリューションがデータに適合する。 近年、aプライオリ情報を含むという意味で、最も適切な解を見つけるディープニューラル技術が開発されている。 しかし、いくつかの欠点がある。 まず、ほとんどのテクニックは、ソリューションが推論時にデータに適合することを保証できません。 第二に、この技術の導出は有効なスカラー正規化関数の存在から着想を得ているが、そのような技法は実際にはそのような関数に依存しておらず、従って古典的変分法から遠ざかっている。 本研究では, 逆問題解に対するニューラル正規化器の新たなファミリーを導入する。 これらの正規化子は変分定式化に基づいており、データに適合することが保証されている。 画像デブラリングから限定的な角度トモグラフィまで,多くの不適切な問題に対する使用例を示す。

Inverse problems are mathematically ill-posed. Thus, given some (noisy) data, there is more than one solution that fits the data. In recent years, deep neural techniques that find the most appropriate solution, in the sense that it contains a-priori information, were developed. However, they suffer from several shortcomings. First, most techniques cannot guarantee that the solution fits the data at inference. Second, while the derivation of the techniques is inspired by the existence of a valid scalar regularization function, such techniques do not in practice rely on such a function, and therefore veer away from classical variational techniques. In this work we introduce a new family of neural regularizers for the solution of inverse problems. These regularizers are based on a variational formulation and are guaranteed to fit the data. We demonstrate their use on a number of highly ill-posed problems, from image deblurring to limited angle tomography.
翻訳日:2023-04-04 20:05:37 公開日:2023-03-30
# 二重棒振り子の量子カオス

Quantum Chaology of Double Rod Pendulum ( http://arxiv.org/abs/2304.00997v1 )

ライセンス: Link先を確認
Yu-xuan Sun, Ding-fang Zeng(参考訳) ダブルロッド振り子(英語版)はよく知られた古典的なカオスシステムであるため、量子バージョンは量子カオスの様々な診断をテストする理想的な実験室である。 本システムは, スペクトル解析法により, 標準的に定量化し, 最小の10^4$固有値および固有波動関数を少なくとも10^{-4}$相対精度で計算する。 これらの固有値と固有波動関数を用いて、量子カオスの3つの一般的な診断を計算し、検討する。 NNSDの診断では,古典的な限界において量子系がカオスであるために必要な条件ではないか,古典的なレベルではダブルロッド振子がカオスではないかのどちらかが分かる。 OTOC診断では,OTOCの早期の指数的成長と遅発性接触が二重棒振り子で良好に一致していることが観察された。 cc診断では、nnsdと状態が似ている。 長い時間における線形成長の特徴は、古典的な極限において量子系がカオス的であるという良い診断ではないか、または二重棒振り子が古典的なレベルで強いカオスシステムではないかである。

The double rod pendulum is a well known classic chaotic system, so its quantum version is an ideal laboratory to test various diagnosis for quantum chaos. We quantise this system canonically and calculate its lowest $10^4$ eigenvalues and eigenstate wave functions with at least $10^{-4}$ relative precision by the spectral analysis method. With these eigenvalues and eigenstate wave functions, we calculate and examine the three popular diagnosis on quantum chaos. On the NNSD diagnosis, we find that, either the GOE feature of NNSD is not a necessary condition for a quantum system to be chaotic at classic limit, or the double rod pendulum is not strong chaotic at the classic level. On the OTOC diagnosis, we observed that the early time exponential growth and late time constance approaching feature of OTOC is well conformed by the double rod pendulum. On the CC diagnosis, the status is similar with NNSD. Its linear growth feature at long time limit is either not a good diagnosis for a quantum system to be chaotic at classic limit or the double rod pendulum is not a strong chaotic system at classic levels.
翻訳日:2023-04-04 15:13:59 公開日:2023-03-30
# 時間勾配擬似ラベルを用いた教師なし単語セグメンテーション

Unsupervised Word Segmentation Using Temporal Gradient Pseudo-Labels ( http://arxiv.org/abs/2304.00993v1 )

ライセンス: Link先を確認
Tzeviya Sylvia Fuchs and Yedid Hoshen(参考訳) 音声発話における教師なし単語のセグメンテーションは、通常、音声では単語の間に隙間がないため、難しい。 予備実験では,最近の深い自己教師付き特徴が単語分割に非常に有効であるが,分類ヘッドの訓練には監督が必要であることを示す。 その効果を教師なし単語セグメンテーションに拡張するために,擬似ラベル戦略を提案する。 我々のアプローチは、埋め込みの時間的勾配の大きさ(つまり、後のフレームの埋め込み間の距離)が、通常境界から最小であり、境界に近いという観察に依存している。 時間勾配大小のしきい値関数を用いて,単語性のためのpsuedoラベルを定義する。 線形分類器を訓練し、一つのフレームの埋め込みを擬似ラベルにマッピングする。 最後に、フレームが単語なのか境界なのかを予測するために分類器スコアを使用する。 実証的な調査により,提案手法は単純かつ高速な実行時間にもかかわらず,従来の手法を2つのデータセットで大幅に上回ることがわかった。

Unsupervised word segmentation in audio utterances is challenging as, in speech, there is typically no gap between words. In a preliminary experiment, we show that recent deep self-supervised features are very effective for word segmentation but require supervision for training the classification head. To extend their effectiveness to unsupervised word segmentation, we propose a pseudo-labeling strategy. Our approach relies on the observation that the temporal gradient magnitude of the embeddings (i.e. the distance between the embeddings of subsequent frames) is typically minimal far from the boundaries and higher nearer the boundaries. We use a thresholding function on the temporal gradient magnitude to define a psuedo-label for wordness. We train a linear classifier, mapping the embedding of a single frame to the pseudo-label. Finally, we use the classifier score to predict whether a frame is a word or a boundary. In an empirical investigation, our method, despite its simplicity and fast run time, is shown to significantly outperform all previous methods on two datasets.
翻訳日:2023-04-04 15:13:09 公開日:2023-03-30
# 音楽アノテーションのパターン

The Music Annotation Pattern ( http://arxiv.org/abs/2304.00988v1 )

ライセンス: Link先を確認
Jacopo de Berardinis, Albert Mero\~no-Pe\~nuela, Andrea Poltronieri, Valentina Presutti(参考訳) 音楽コンテンツの注釈は、その固有の多面的、主観的、学際的な性質のために表現する複雑なプロセスである。 過去数十年間、アノテート音楽のための多くのシステムや慣習が独立した標準として開発されてきた。 相互運用可能にするためにはほとんど行われていないが、多くの慣習に慣れる必要があるため、クロスコーパス研究を危険にさらしている。 これらのシステムの多くは、音楽言語の複雑さを表現するのに必要な意味表現力に欠けており、オーディオやシンボリックソースから派生したマルチモーダルアノテーションをモデル化することはできない。 本稿では,異なるアノテーション体系を均質化し,複数の種類の音楽オブジェクト(コード,パターン,構造など)を表現するために,オントロジーデザインパターン(ODP)である音楽アノテーションパターンを紹介する。 このODPは、オブジェクトの内容の異なるレベルと時間的粒度のセマンティクスを保存する。 また,音楽データセットの統合を大規模に実現した最初の事例として,異なるソースからのアノテーションを記述するため,odpはマルチモダリティを前もって考慮している。

The annotation of music content is a complex process to represent due to its inherent multifaceted, subjectivity, and interdisciplinary nature. Numerous systems and conventions for annotating music have been developed as independent standards over the past decades. Little has been done to make them interoperable, which jeopardises cross-corpora studies as it requires users to familiarise with a multitude of conventions. Most of these systems lack the semantic expressiveness needed to represent the complexity of the musical language and cannot model multi-modal annotations originating from audio and symbolic sources. In this article, we introduce the Music Annotation Pattern, an Ontology Design Pattern (ODP) to homogenise different annotation systems and to represent several types of musical objects (e.g. chords, patterns, structures). This ODP preserves the semantics of the object's content at different levels and temporal granularity. Moreover, our ODP accounts for multi-modality upfront, to describe annotations derived from different sources, and it is the first to enable the integration of music datasets at a large scale.
翻訳日:2023-04-04 15:12:17 公開日:2023-03-30
# 音楽ノートオントロジー

The Music Note Ontology ( http://arxiv.org/abs/2304.00986v1 )

ライセンス: Link先を確認
Andrea Poltronieri and Aldo Gangemi(参考訳) 本稿では,音符をモデル化するオントロジーである音楽ノートオントロジーとその実現法を提案する。 オントロジーは記号表現システムで表現された音と、その実現、すなわち音楽演奏との関係を扱う。 そこで本研究では,音声信号の抽象的記号的特徴と対応する物理的特徴との関係を分析する際に生じるモデリングと表現の問題を解決することを目的とする。 オントロジーは3つの異なるオントロジー・デザイン・パターン(ODP)から構成されており、スコア・パート・パターン(Score Part Pattern)、記号表記(Music Note Pattern)、その実現(Musical Object Pattern)の構造をモデル化している。

In this paper we propose the Music Note Ontology, an ontology for modelling music notes and their realisation. The ontology addresses the relation between a note represented in a symbolic representation system, and its realisation, i.e. a musical performance. This work therefore aims to solve the modelling and representation issues that arise when analysing the relationships between abstract symbolic features and the corresponding physical features of an audio signal. The ontology is composed of three different Ontology Design Patterns (ODP), which model the structure of the score (Score Part Pattern), the note in the symbolic notation (Music Note Pattern) and its realisation (Musical Object Pattern).
翻訳日:2023-04-04 15:11:59 公開日:2023-03-30
# クリーン・アタックシナリオにおけるフェデレーション学習に基づく多言語絵文字予測

Federated Learning Based Multilingual Emoji Prediction In Clean and Attack Scenarios ( http://arxiv.org/abs/2304.01005v1 )

ライセンス: Link先を確認
Karim Gamal, Ahmed Gaber and Hossam Amer(参考訳) 連合学習は、分散的でプライベートな設計のため、機械学習コミュニティで成長している分野である。 フェデレート学習におけるモデルトレーニングは、プライバシを維持しながら多くのクライアントデータにアクセスできるようにする複数のクライアントに分散される。 次にサーバは、これらの複数のクライアントで行ったトレーニングをデータにアクセスせずに集約する。これは、あらゆるソーシャルメディアサービスやインスタントメッセージングプラットフォームで広く使用されている絵文字で、ユーザの感情を表現する。 本稿では,クリーンシナリオとアタックシナリオの両方において,連合学習に基づく多言語絵文字予測を提案する。 絵文字予測データはTwitterとSemEvalの絵文字データセットから収集された。 このデータは、すべてのクライアントにおけるクリーンデータの仮定や、一部のクライアントにおけるラベルフリップ攻撃による有毒データの仮定を含む、疎活性化トランスフォーマーモデルサイズのトレーニングと評価に使用される。 これらのモデルの実験結果から,クリーンあるいはアタックのシナリオにおけるフェデレーション学習は,異なるデータソースと分布下で,多言語間絵文字予測における集中型学習と類似していることが示された。 トレーニングされたトランスフォーマーは、プライバシーに加えて、フェデレーション学習の分散メリットに加えて、セメバル絵文字データセットの他のテクニックよりもパフォーマンスが優れています。

Federated learning is a growing field in the machine learning community due to its decentralized and private design. Model training in federated learning is distributed over multiple clients giving access to lots of client data while maintaining privacy. Then, a server aggregates the training done on these multiple clients without access to their data, which could be emojis widely used in any social media service and instant messaging platforms to express users' sentiments. This paper proposes federated learning-based multilingual emoji prediction in both clean and attack scenarios. Emoji prediction data have been crawled from both Twitter and SemEval emoji datasets. This data is used to train and evaluate different transformer model sizes including a sparsely activated transformer with either the assumption of clean data in all clients or poisoned data via label flipping attack in some clients. Experimental results on these models show that federated learning in either clean or attacked scenarios performs similarly to centralized training in multilingual emoji prediction on seen and unseen languages under different data sources and distributions. Our trained transformers perform better than other techniques on the SemEval emoji dataset in addition to the privacy as well as distributed benefits of federated learning.
翻訳日:2023-04-04 15:02:24 公開日:2023-03-30
# QUADRo:QUestion-Answerデータベース検索のためのデータセットとモデル

QUADRo: Dataset and Models for QUestion-Answer Database Retrieval ( http://arxiv.org/abs/2304.01003v1 )

ライセンス: Link先を確認
Stefano Campese, Ivano Lauriola, Alessandro Moschitti(参考訳) 自動質問応答システムを構築するための効果的なパラダイムは、faqやフォーラムアプリケーションなど、事前に回答した質問の再使用である。 質問/回答(q/a)対のデータベース(db)が与えられると、同様の質問のためにdbをスキャンしてターゲットの質問に答えることができる。 本稿では、このアプローチをオープンドメインに拡張し、非構造化ドキュメントやグラフベースといった他の標準メソッドと競合するようにします。 この目的のために、我々は (i)公開質問を用いて6.3M q/a対の大規模DBを構築する。 (二)ニューラルIRとq/aペアリランカに基づく新しいシステムの設計、及び (iii)モデルとの比較実験を行うためのトレーニングおよびテストデータの構築。 我々は,(q,a)ペアを用いたトランスフォーマーモデルが,ニューラルサーチとリランクの両方において,質問表現のみに基づくモデルよりも優れていることを示した。 さらに、BING検索エンジン上に構築されたQAシステムとDBベースのアプローチが競合していることを示し、関連する情報を見つけることの課題を示す。 最後に、将来の研究のためにデータとモデルを利用可能にします。

An effective paradigm for building Automated Question Answering systems is the re-use of previously answered questions, e.g., for FAQs or forum applications. Given a database (DB) of question/answer (q/a) pairs, it is possible to answer a target question by scanning the DB for similar questions. In this paper, we scale this approach to open domain, making it competitive with other standard methods, e.g., unstructured document or graph based. For this purpose, we (i) build a large scale DB of 6.3M q/a pairs, using public questions, (ii) design a new system based on neural IR and a q/a pair reranker, and (iii) construct training and test data to perform comparative experiments with our models. We demonstrate that Transformer-based models using (q,a) pairs outperform models only based on question representation, for both neural search and reranking. Additionally, we show that our DB-based approach is competitive with Web-based methods, i.e., a QA system built on top the BING search engine, demonstrating the challenge of finding relevant information. Finally, we make our data and models available for future research.
翻訳日:2023-04-04 15:02:06 公開日:2023-03-30
# ユニタリ変換の古典的複雑性

Classical Complexity of Unitary Transformations ( http://arxiv.org/abs/2109.01960v5 )

ライセンス: Link先を確認
Alexei Kaltchenko(参考訳) 有限次元ユニタリ変換の古典的複雑性について論じるが、これはキュービットの集合に作用するユニタリ変換の古典的記述的複雑性の計算可能な近似と見なすことができる。

We discuss a classical complexity of finite-dimensional unitary transformations, which can been seen as a computable approximation of classical descriptional complexity of a unitary transformation acting on a set of qubits.
翻訳日:2023-04-03 20:55:16 公開日:2023-03-30
# 1+1次元における量子色力学の量子シミュレーションの準備: (II)単一バリオン$\beta$-Decayをリアルタイムに

Preparations for Quantum Simulations of Quantum Chromodynamics in 1+1 Dimensions: (II) Single-Baryon $\beta$-Decay in Real Time ( http://arxiv.org/abs/2209.10781v2 )

ライセンス: Link先を確認
Roland C. Farrell, Ivan A. Chernyshev, Sarah J. M. Powell, Nikita A. Zemlevskiy, Marc Illa and Martin J. Savage(参考訳) 1次元の2相格子理論におけるハドロンと原子核の実時間弱崩壊の量子シミュレーションのための枠組みを提案する。 標準模型の1世代は、ジョルダン・ウィグナー変換を通じてスピン作用素に写像した後、空間格子サイトあたり16 qubitsを必要とする。 量子色力学とフレーバー交換弱い相互作用の両方がダイナミクスに含まれており、後者は4フェルミ効果作用素である。 この格子理論に時間的発展をもたらす量子回路が開発され、1つの格子上の1バリオンの$\beta$-decayをシミュレートするためにQuantinuumの20量子ビットトラップイオン系上で動作している。 これらのシミュレーションには初期状態の準備が含まれており、1つの時間ステップと2つの時間ステップの両方で実行される。 このタイプの格子理論の潜在的な固有誤差補正特性を議論し、ニュートリノマヨラナ質量項によって誘導される核の$0\nu\beta\beta$-decayをシミュレートするために必要とされる格子ハミルトンを導く。

A framework for quantum simulations of real-time weak decays of hadrons and nuclei in a 2-flavor lattice theory in one spatial dimension is presented. A single generation of the Standard Model is found to require 16 qubits per spatial lattice site after mapping to spin operators via the Jordan-Wigner transformation. Both quantum chromodynamics and flavor-changing weak interactions are included in the dynamics, the latter through four-Fermi effective operators. Quantum circuits which implement time evolution in this lattice theory are developed and run on Quantinuum's H1-1 20-qubit trapped ion system to simulate the $\beta$-decay of a single baryon on one lattice site. These simulations include the initial state preparation and are performed for both one and two Trotter time steps. The potential intrinsic error-correction properties of this type of lattice theory are discussed and the leading lattice Hamiltonian required to simulate $0\nu\beta\beta$-decay of nuclei induced by a neutrino Majorana mass term is provided.
翻訳日:2023-04-03 20:45:42 公開日:2023-03-30
# フェルミオン系の量子シミュレーションのための並列化技術

Parallelization techniques for quantum simulation of fermionic systems ( http://arxiv.org/abs/2207.12470v3 )

ライセンス: Link先を確認
Jacob Bringewatt and Zohreh Davoudi(参考訳) フェルミオン作用素を量子ビット作用素にマッピングすることは、量子コンピュータ上でフェルミオン系をシミュレートするための重要なステップである。 このような写像の選択が量子プロセッサの量子ビット接続とどのように相互作用し、その結果のハミルトンシミュレーションアルゴリズムの並列化(あるいは障害)を可能にするかを検討する。 この問題は、フェルミオンを量子ビットに符号化する特定の選択と、フェルミオン相互作用を経路に符号化するグラフ上の経路着色問題にマッピングできることが示されている。 この問題の基本的なバージョンは弱い着色問題と呼ばれる。 マッピングの詳細な詳細を考慮すると、強い着色問題と呼ばれる問題が発生し、並列化性能が向上する。 弱色と強色の両方の並列化における改善の量を示すために、様々な図式解析および数値的な例を示す。 回路深さの最小化がアルゴリズムの実現性に必要となる、短期量子プロセッサの実装には特に重要である。

Mapping fermionic operators to qubit operators is an essential step for simulating fermionic systems on a quantum computer. We investigate how the choice of such a mapping interacts with the underlying qubit connectivity of the quantum processor to enable (or impede) parallelization of the resulting Hamiltonian-simulation algorithm. It is shown that this problem can be mapped to a path coloring problem on a graph constructed from the particular choice of encoding fermions onto qubits and the fermionic interactions onto paths. The basic version of this problem is called the weak coloring problem. Taking into account the fine-grained details of the mapping yields what is called the strong coloring problem, which leads to improved parallelization performance. A variety of illustrative analytical and numerical examples are presented to demonstrate the amount of improvement for both weak and strong coloring-based parallelizations. Our results are particularly important for implementation on near-term quantum processors where minimizing circuit depth is necessary for algorithmic feasibility.
翻訳日:2023-04-03 20:44:23 公開日:2023-03-30
# Asymptopia (複数形 Asymptopias)

Far from Asymptopia ( http://arxiv.org/abs/2205.03343v2 )

ライセンス: Link先を確認
Michael C. Abbott and Benjamin B. Machta(参考訳) 限られたデータからの推論はパラメータ空間上の測度の概念を必要とするが、ベイズフレームワークは前者である。 ここではジェフリーズ・プリアー(jeffreys prior)が、典型的な科学的モデルに適用すると、膨大なバイアスをもたらすことを実証する。 このようなモデルは、顕微鏡パラメータの数よりもはるかに小さい有効次元を持つ。 ジェフリーズは全ての微視的パラメータを等しく扱うため、無関係な方向の局所的共体積の変化のため、関連するパラメータのサブ空間に投影されたときから均一である。 我々は,この問題を回避する尺度の原理的選択の結果を提示し,複雑なモデルにおける偏りのない推論へと導く。 この最適な事前は収集されるデータの量に依存し、漸近的限界に先立ってジェフリーズにアプローチする。 しかし、この限界は、微視的パラメータの数に指数関数的な大量のデータなしでは正当化できない。

Inference from limited data requires a notion of measure on parameter space, most explicit in the Bayesian framework as a prior. Here we demonstrate that Jeffreys prior, the best-known uninformative choice, introduces enormous bias when applied to typical scientific models. Such models have a relevant effective dimensionality much smaller than the number of microscopic parameters. Because Jeffreys prior treats all microscopic parameters equally, it is from uniform when projected onto the sub-space of relevant parameters, due to variations in the local co-volume of irrelevant directions. We present results on a principled choice of measure which avoids this issue, leading to unbiased inference in complex models. This optimal prior depends on the quantity of data to be gathered, and approaches Jeffreys prior in the asymptotic limit. However, this limit cannot be justified without an impossibly large amount of data, exponential in the number of microscopic parameters.
翻訳日:2023-04-03 20:43:31 公開日:2023-03-30
# 非線型対流拡散吸着系の効率的なハイブリッドモデリングと吸着モデル発見--系統的科学的機械学習アプローチ

Efficient hybrid modeling and sorption model discovery for non-linear advection-diffusion-sorption systems: A systematic scientific machine learning approach ( http://arxiv.org/abs/2303.13555v2 )

ライセンス: Link先を確認
Vinicius V. Santana, Erbet Costa, Carine M. Rebello, Ana Mafalda Ribeiro, Chris Rackauckas, Idelfonso B. R. Nogueira(参考訳) 本研究では,非線型対流拡散吸着系における効率的なハイブリッドモデルの作成と吸着取り込みモデル発見のための機械学習手法を提案する。 これは、勾配に基づく最適化器、随伴感度解析、JITコンパイルベクタージャコビアン積を用いて、空間離散化と適応積分器を組み合わせたこれらの複雑なシステムを効果的に訓練する方法を示す。 ニューラルネットワークの欠落する機能を特定するためにスパースとシンボリックレグレッションが用いられた。 提案手法のロバスト性は, 固定層吸着のノイズ破砕曲線観測のシリカ内データセット上で試験され, 良好なハイブリッドモデルが得られた。 本研究は, 偏差とシンボリック回帰を用いて吸収吸収速度論を再構成し, 同定多項式を用いたブレークスルー曲線を精度良く予測し, 吸着運動法則構造の発見のためのフレームワークの可能性を強調した。

This study presents a systematic machine learning approach for creating efficient hybrid models and discovering sorption uptake models in non-linear advection-diffusion-sorption systems. It demonstrates an effective method to train these complex systems using gradient based optimizers, adjoint sensitivity analysis, and JIT-compiled vector Jacobian products, combined with spatial discretization and adaptive integrators. Sparse and symbolic regression were employed to identify missing functions in the artificial neural network. The robustness of the proposed method was tested on an in-silico data set of noisy breakthrough curve observations of fixed-bed adsorption, resulting in a well-fitted hybrid model. The study successfully reconstructed sorption uptake kinetics using sparse and symbolic regression, and accurately predicted breakthrough curves using identified polynomials, highlighting the potential of the proposed framework for discovering sorption kinetic law structures.
翻訳日:2023-04-03 20:26:56 公開日:2023-03-30
# オンライン格付けにおけるイデオロギー駆動の分極化--the review bomb of the last of us part ii

Ideology-driven polarisation in online ratings: the review bombing of The Last of Us Part II ( http://arxiv.org/abs/2104.01140v2 )

ライセンス: Link先を確認
Giulio Giacomo Cantone, Venera Tomaselli, and Valeria Mazzeo(参考訳) レビュー爆弾(Review bomb)は、商品、サービス、ビジネスに関するオンラインレビューが、そのエンティティに関する世論を操ろうとする人々のグループによって調整され、急速に急増する爆弾である。 本研究は、レビュー爆撃は単に誤報の現象であり、オンラインレビューのモチベーションと実質的な内容と、事実の判断と価値のより広範な理論を結びつけるという仮定に挑戦する。 これらの理論は、ビデオゲーム『The Last of Us Part II』を含むレビュー爆撃の最も顕著な事例の定量的分析で検証されている。 その結果、イデオロギーによる評価は、負の評価の影響を緩和することを目的とした草の根対爆弾が続くことがわかった。 爆撃機の2つの派閥は、政治的に極的な反対にもかかわらず、他の指標に関して非常によく似ている。 証拠は、政治的偽情報の理論的な枠組みが、この場合の爆撃を説明できないことを示唆している。 再フレーム・レビュー爆撃の必要性を踏まえ,今後の事例の予防管理のための勧告が提案されている。

A review bomb is a large and quick surge in online reviews about a product, service, or business, coordinated by a group of people willing to manipulate public opinion about that entity. This study challenges the assumption that review bombing is solely a phenomenon of misinformation and connects motivations and substantial content of online reviews with the broader theory of judgement of facts and of value. These theories are verified in a quantitative analysis of the most prominent case of review bombing, which involves the video game The Last of Us Part II. It is discovered that ideology-driven ratings are followed by a grassroots counter-bombing, aimed at mitigating the effects of the negative ratings. The two factions of bombers, despite being politically polar opposites, are very similar in terms of other metrics. Evidence suggests the theoretical framework of political disinformation is insufficient to explain this case of review bombing. In light of the need to re-frame review bombing, recommendations are proposed for the preventive management of future cases.
翻訳日:2023-04-03 18:39:45 公開日:2023-03-30
# ディープニューラルネットワークにおける情報圧縮を示す適応推定器

Adaptive Estimators Show Information Compression in Deep Neural Networks ( http://arxiv.org/abs/1902.09037v2 )

ライセンス: Link先を確認
Ivan Chelombiev, Conor Houghton, Cian O'Donnell(参考訳) ニューラルネットワークの機能を改善するには、学習プロセスを理解することが不可欠である。 深層学習における情報ボトルネック理論は、そのタスクに関係のない情報を無視して表現を圧縮することで、ニューラルネットワークが良好な一般化を達成することを提案している。 しかし、この理論の実証的な証拠は相反しており、ネットワークが飽和活性化関数を使用する場合にのみ圧縮が観察された。 対照的に、非飽和活性化機能を持つネットワークはタスク性能に匹敵するレベルに達したが、圧縮は示さなかった。 本稿では,ニューラルネットワークの隠れた活動に適応し,すべての関数,特に非有界関数からのアクティベーションのより感度の高い測定を行う,より堅牢な相互情報推定手法を開発した。 これらの適応的推定手法を用いて,様々なアクティベーション関数を持つネットワークの圧縮について検討した。 2つの改良された推定方法により,まず,アクティベーション関数の飽和度を圧縮に必要とせず,異なるアクティベーション関数間で圧縮量が変化することを示した。 また、異なるネットワーク初期化間の圧縮に多くのばらつきがあることが判明した。 第二に、L2正規化は圧縮を著しく増加させ、過度な適合を防ぐ。 最後に,最後の層のみの圧縮が一般化と正の相関を持つことを示す。

To improve how neural networks function it is crucial to understand their learning process. The information bottleneck theory of deep learning proposes that neural networks achieve good generalization by compressing their representations to disregard information that is not relevant to the task. However, empirical evidence for this theory is conflicting, as compression was only observed when networks used saturating activation functions. In contrast, networks with non-saturating activation functions achieved comparable levels of task performance but did not show compression. In this paper we developed more robust mutual information estimation techniques, that adapt to hidden activity of neural networks and produce more sensitive measurements of activations from all functions, especially unbounded functions. Using these adaptive estimation techniques, we explored compression in networks with a range of different activation functions. With two improved methods of estimation, firstly, we show that saturation of the activation function is not required for compression, and the amount of compression varies between different activation functions. We also find that there is a large amount of variation in compression between different network initializations. Secondary, we see that L2 regularization leads to significantly increased compression, while preventing overfitting. Finally, we show that only compression of the last layer is positively correlated with generalization.
翻訳日:2023-04-03 18:38:14 公開日:2023-03-30
# 近所の計測とモデリング

Measuring and Modeling Neighborhoods ( http://arxiv.org/abs/2110.14014v4 )

ライセンス: Link先を確認
Cory McCartan, Jacob R. Brown, and Kosuke Imai(参考訳) 粒度の地理的データは、地域がどのように形成され、どのように政治に影響を及ぼすかを理解する新しい機会を提供する。 同時に、地域固有の主観性は、それらの測定とモデリングにおいて方法論的な課題を生み出す。 我々は、回答者が自分の近所を地図上に描いたりできる調査機器を開発した。 また,地域と回答者の特性がどのように主観的地域を決定するかを分析する統計モデルを提案する。 我々は、マイアミ、ニューヨーク、フェニックスの有権者から主観的な近隣住民を収集し、ニューヨーク市の住民に市政委員会の地区に含める関心のある地域を惹きつけるよう求めた。 我々の分析によると、他の要因を一定に保ちながら、白人の回答者は近隣により多くの白人住民がいる国勢調査ブロックを含めている。 同様に、民主党と共和党は共同党派地域を含める傾向にある。 さらに,本モデルでは,標準近傍測度よりも精度の高いサンプル外予測を行う。

Granular geographic data present new opportunities to understand how neighborhoods are formed, and how they influence politics. At the same time, the inherent subjectivity of neighborhoods creates methodological challenges in measuring and modeling them. We develop a survey instrument that allows respondents to draw their neighborhoods on a map. We also propose a statistical model to analyze how the characteristics of respondents and local areas determine subjective neighborhoods. We conduct two surveys: collecting subjective neighborhoods from voters in Miami, New York City, and Phoenix, and asking New York City residents to draw a community of interest for inclusion in their city council district. Our analysis shows that, holding other factors constant, White respondents include census blocks with more White residents in their neighborhoods. Similarly, Democrats and Republicans are more likely to include co-partisan areas. In addition, our model provides more accurate out-of-sample predictions than standard neighborhood measures.
翻訳日:2023-04-03 17:57:11 公開日:2023-03-30
# 自然言語からシミュレーションへ:GPT-3コーデックスを応用してロジスティックスシステムの自動シミュレーションモデリング

From Natural Language to Simulations: Applying GPT-3 Codex to Automate Simulation Modeling of Logistics Systems ( http://arxiv.org/abs/2202.12107v3 )

ライセンス: Link先を確認
Ilya Jackson and Maria Jesus Saenz(参考訳) 我々の研究は、物流にとって重要なシステムのシミュレーションモデルの開発を自動化するために自然言語処理を適用する最初の試みである。 我々は,変換言語モデルであるGPT-3コーデックスをベースとしたフレームワークが,言語記述による待ち行列と在庫制御系の機能的に有効なシミュレーションを生成できることを実証した。 実験では、GPT-3コーデックスはPythonの専門知識とドメイン固有の語彙の理解を実証した。 その結果、言語モデルは、ドメイン固有のコンテキスト、プロセスの詳細記述、および対応する値を持つ変数のリストが与えられた単一製品在庫管理システムと単一サーバキューシステムのシミュレーションを作成することができた。 実験の結果は、言語モデルの急速な改善とともに、シミュレーションモデル開発の背後にあるワークフローを大幅に単純化するための扉を開く。

Our work is the first attempt to apply Natural Language Processing to automate the development of simulation models of systems vitally important for logistics. We demonstrated that the framework built on top of the fine-tuned GPT-3 Codex, a Transformer-based language model, could produce functionally valid simulations of queuing and inventory control systems given the verbal description. In conducted experiments, GPT-3 Codex demonstrated convincing expertise in Python as well as an understanding of the domain-specific vocabulary. As a result, the language model could produce simulations of a single-product inventory-control system and single-server queuing system given the domain-specific context, a detailed description of the process, and a list of variables with the corresponding values. The demonstrated results, along with the rapid improvement of language models, open the door for significant simplification of the workflow behind the simulation model development, which will allow experts to focus on the high-level consideration of the problem and holistic thinking.
翻訳日:2023-04-03 17:48:03 公開日:2023-03-30
# 不完全情報を用いた総合型ゲームの準最適学習

Near-Optimal Learning of Extensive-Form Games with Imperfect Information ( http://arxiv.org/abs/2202.01752v2 )

ライセンス: Link先を確認
Yu Bai, Chi Jin, Song Mei, Tiancheng Yu(参考訳) 本稿では,バンディットフィードバックから不完全な情報を広範に学習するための,最適に近いアルゴリズムを設計するという課題を解決する。 x,y$ は情報集合の数であり、$a,b$ は2人のプレイヤーのアクションの数である2人のゼロサムゲームにおいて$\varepsilon$-approximate nash平衡を見つけるためにプレイのエピソードのうち、$\widetilde{\mathcal{o}}((xa+yb)/\varepsilon^2) だけを必要とするアルゴリズムの最初の行を示す。 これにより、$\widetilde{\mathcal{O}}((X^2A+Y^2B)/\varepsilon^2)$の係数が$\widetilde{\mathcal{O}}(\max\{X, Y\})$の最もよく知られたサンプル複雑性が改善され、情報理論の下限を対数因子に合わせる。 我々はこのサンプルの複雑さを2つの新しいアルゴリズム: Balanced Online Mirror Descent と Balanced Counterfactual Regret Minimization によって達成する。 どちらのアルゴリズムも、古典的手法に『emph{balanced exploration policies}』を統合する新しい手法に依存している。 また,マルチプレイヤー汎用ゲームにおける粗相関平衡学習にも適用した。

This paper resolves the open question of designing near-optimal algorithms for learning imperfect-information extensive-form games from bandit feedback. We present the first line of algorithms that require only $\widetilde{\mathcal{O}}((XA+YB)/\varepsilon^2)$ episodes of play to find an $\varepsilon$-approximate Nash equilibrium in two-player zero-sum games, where $X,Y$ are the number of information sets and $A,B$ are the number of actions for the two players. This improves upon the best known sample complexity of $\widetilde{\mathcal{O}}((X^2A+Y^2B)/\varepsilon^2)$ by a factor of $\widetilde{\mathcal{O}}(\max\{X, Y\})$, and matches the information-theoretic lower bound up to logarithmic factors. We achieve this sample complexity by two new algorithms: Balanced Online Mirror Descent, and Balanced Counterfactual Regret Minimization. Both algorithms rely on novel approaches of integrating \emph{balanced exploration policies} into their classical counterparts. We also extend our results to learning Coarse Correlated Equilibria in multi-player general-sum games.
翻訳日:2023-04-03 17:47:08 公開日:2023-03-30
# 因子増強木のアンサンブル

Factor-augmented tree ensembles ( http://arxiv.org/abs/2111.14000v5 )

ライセンス: Link先を確認
Filippo Pellegrino(参考訳) 本論文は, 時系列回帰木の情報集合を, 状態空間法で抽出した潜在定常因子を用いて拡張することを提案する。 このアプローチでは、2次元の時系列回帰木を一般化する。 まず、測定誤差、非定常傾向、季節性、観察不足などの不規則性を示す予測器を処理できる。 第二に、ドメイン固有理論を使って時系列回帰木を知らせる透明な方法を与える。 経験的に、これらの因子拡大木のアンサンブルは、マクロファイナンス問題に対する信頼できるアプローチを提供する。 この記事では、株式のボラティリティと米国のビジネスサイクルの間のリードラグ効果に焦点を当てます。

This manuscript proposes to extend the information set of time-series regression trees with latent stationary factors extracted via state-space methods. In doing so, this approach generalises time-series regression trees on two dimensions. First, it allows to handle predictors that exhibit measurement error, non-stationary trends, seasonality and/or irregularities such as missing observations. Second, it gives a transparent way for using domain-specific theory to inform time-series regression trees. Empirically, ensembles of these factor-augmented trees provide a reliable approach for macro-finance problems. This article highlights it focussing on the lead-lag effect between equity volatility and the business cycle in the United States.
翻訳日:2023-04-03 17:46:23 公開日:2023-03-30
# 生涯学習のための連続的評価:安定性ギャップの同定

Continual evaluation for lifelong learning: Identifying the stability gap ( http://arxiv.org/abs/2205.13452v2 )

ライセンス: Link先を確認
Matthias De Lange, Gido van de Ven, Tinne Tuytelaars(参考訳) 時間に依存したデータ生成分布は、ニューラルネットワークの勾配に基づくトレーニングでは困難であることが証明されている。 この忘れを克服する継続的な学習分野の進歩にもかかわらず、新しいタスクを学習し始める際には、一連の一般的な最先端の手法が依然としてかなり忘れられてしまうが、しかしながら、この忘れは一時的なものであり、パフォーマンス回復の段階が続く。 興味深いが潜在的に問題となる現象を安定性ギャップと呼ぶ。 各タスクの後にのみ連続学習モデルを評価するという標準的な実践のため、安定性のギャップはレーダー下にとどまった可能性が高い。 代わりに、各項目評価を用いた連続評価のためのフレームワークを構築し、最悪の場合のパフォーマンスを定量化する新しいメトリクスセットを定義します。 経験的リプレイ,制約に基づくリプレイ,知識蒸留,パラメータ正規化といった手法は,安定性のギャップを生じやすく,安定性のギャップは,クラス,タスク,ドメインインクリメンタルな学習ベンチマークで観測可能であることを示す。 さらに、制御された実験は、タスクがより異なる場合に安定性ギャップが増加することを示している。 最後に, 塑性および安定性成分に勾配を分散させることにより, 安定性ギャップの概念的説明を提案する。

Time-dependent data-generating distributions have proven to be difficult for gradient-based training of neural networks, as the greedy updates result in catastrophic forgetting of previously learned knowledge. Despite the progress in the field of continual learning to overcome this forgetting, we show that a set of common state-of-the-art methods still suffers from substantial forgetting upon starting to learn new tasks, except that this forgetting is temporary and followed by a phase of performance recovery. We refer to this intriguing but potentially problematic phenomenon as the stability gap. The stability gap had likely remained under the radar due to standard practice in the field of evaluating continual learning models only after each task. Instead, we establish a framework for continual evaluation that uses per-iteration evaluation and we define a new set of metrics to quantify worst-case performance. Empirically we show that experience replay, constraint-based replay, knowledge-distillation, and parameter regularization methods are all prone to the stability gap; and that the stability gap can be observed in class-, task-, and domain-incremental learning benchmarks. Additionally, a controlled experiment shows that the stability gap increases when tasks are more dissimilar. Finally, by disentangling gradients into plasticity and stability components, we propose a conceptual explanation for the stability gap.
翻訳日:2023-04-03 17:37:48 公開日:2023-03-30
# ランダム粒子エンタングルメント蒸留における局所運転と古典通信(LOCC)のラウンドコンプレックス

The Round Complexity of Local Operations and Classical Communication (LOCC) in Random-Party Entanglement Distillation ( http://arxiv.org/abs/2204.00781v3 )

ライセンス: Link先を確認
Guangkuo Liu, Ian George, Eric Chitambar(参考訳) 分散量子情報処理のための強力な操作パラダイムは、局所演算と古典通信(locc)による事前共有の絡み合いを操作することである。 与えられたタスクのLOCCラウンドの複雑さは、タスクを完了するために古典的なコミュニケーションのラウンドがいくつ必要かを記述する。 1ラウンドと2ラウンドのプロトコルを分離した結果もあるが、より高いラウンドの複雑さについてはほとんど知られていない。 本稿では,LOCCラウンド複雑性の興味深い特徴を明らかにする手段として,一発ランダムパーティー蒸留の課題を再考する。 まず, 3 キュービットのランダムな蒸留において, 最適なプロトコルで必要とされる通信ラウンドの数は, 使用する絡み合いの度合いに依存し, 同じ固定状態の場合, 絡み合いの度合いを最大化するためには2ラウンドしか必要としない。 そこで我々は,実装に無拘束なラウンド数を必要とするLOCC楽器群を構築した。 次に,蒸留成功確率の関数として,LOCCラウンド番号の厳密な下限を証明した。 計算結果から,fortescue と lo による w-state random distillation protocol はラウンド複雑性の点で本質的に最適であることがわかった。

A powerful operational paradigm for distributed quantum information processing involves manipulating pre-shared entanglement by local operations and classical communication (LOCC). The LOCC round complexity of a given task describes how many rounds of classical communication are needed to complete the task. Despite some results separating one-round versus two-round protocols, very little is known about higher round complexities. In this paper, we revisit the task of one-shot random-party entanglement distillation as a way to highlight some interesting features of LOCC round complexity. We first show that for random-party distillation in three qubits, the number of communication rounds needed in an optimal protocol depends on the entanglement measure used; for the same fixed state some entanglement measures need only two rounds to maximize whereas others need an unbounded number of rounds. In doing so, we construct a family of LOCC instruments that require an unbounded number of rounds to implement. We then prove explicit tight lower bounds on the LOCC round number as a function of distillation success probability. Our calculations show that the original W-state random distillation protocol by Fortescue and Lo is essentially optimal in terms of round complexity.
翻訳日:2023-04-03 17:36:15 公開日:2023-03-30
# SexWEs: ソーシャルメディアにおける中国語性検知のための言語間セマンティックスペシャライゼーションによるドメイン認識語埋め込み

SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic Specialisation for Chinese Sexism Detection in Social Media ( http://arxiv.org/abs/2211.08447v3 )

ライセンス: Link先を確認
Aiqi Jiang, Arkaitz Zubiaga(参考訳) 性差別検出の目標は、特定の性別グループをターゲットにしたネガティブなオンラインコンテンツを緩和することである。 しかし、ラベル付き性差別関連データセットが限られたため、低リソース言語に対するオンライン性差別を特定することは問題となる。 本稿では,1つの低リソース言語である中国語に対するソーシャルメディアにおける性差別の自動検出の課題に対処する。 新しい性差別データを収集したり、言語間移動学習モデルを構築する代わりに、既存のデータを活用するために言語間ドメイン認識セマンティック・スペシャライゼーション・システムを開発する。 意味的特殊化(semantic specialization)は、外部言語知識(lexico-semantic relationsなど)を特殊化特徴空間に統合することにより、事前訓練された分布的単語ベクトルを再構築する技法である。 これを実現するために、ハイリソース言語(英語)からの性差別のためのセマンティックリソースを活用し、対象言語(中国語)における事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。 本研究は, セクシストの単語埋め込み(sexwes)の利点を, 単語類似性の固有評価とセクシズム検出の極端評価を通じて実証する。 他の特殊化手法や中国語のベースライン単語ベクトルと比較すると,本質的評価と外因的評価では平均スコアが0.033,0.064であった。 また,低リソース言語における単語ベクトルの再構成におけるSexWEsの有効性を検証した。

The goal of sexism detection is to mitigate negative online content targeting certain gender groups of people. However, the limited availability of labeled sexism-related datasets makes it problematic to identify online sexism for low-resource languages. In this paper, we address the task of automatic sexism detection in social media for one low-resource language -- Chinese. Rather than collecting new sexism data or building cross-lingual transfer learning models, we develop a cross-lingual domain-aware semantic specialisation system in order to make the most of existing data. Semantic specialisation is a technique for retrofitting pre-trained distributional word vectors by integrating external linguistic knowledge (such as lexico-semantic relations) into the specialised feature space. To do this, we leverage semantic resources for sexism from a high-resource language (English) to specialise pre-trained word vectors in the target language (Chinese) to inject domain knowledge. We demonstrate the benefit of our sexist word embeddings (SexWEs) specialised by our framework via intrinsic evaluation of word similarity and extrinsic evaluation of sexism detection. Compared with other specialisation approaches and Chinese baseline word vectors, our SexWEs shows an average score improvement of 0.033 and 0.064 in both intrinsic and extrinsic evaluations, respectively. The ablative results and visualisation of SexWEs also prove the effectiveness of our framework on retrofitting word vectors in low-resource languages.
翻訳日:2023-04-03 17:20:26 公開日:2023-03-30
# 手のポーズ推定を用いた開手術訓練フィードバックの自動化

Using Hand Pose Estimation To Automate Open Surgery Training Feedback ( http://arxiv.org/abs/2211.07021v2 )

ライセンス: Link先を確認
Eddie Bkheet, Anne-Lise D'Angelo, Adam Goldbraikh, Shlomi Laufer(参考訳) 目的: 本研究の目的は, 外科医の自動訓練と手術映像の分析に最先端のコンピュータビジョンアルゴリズムを使用することである。 2次元手のポーズを推定することにより,練習者の手の動きと手術器具との相互作用をモデル化し,手術訓練における有用性について検討した。 方法: 2dのポーズで100本のオープン手術シミュレーションビデオの独自のデータセットを作成するために,事前トレーニングされたモデルを公開のハンドデータセット上で活用する。 また,手術映像をジェスチャやツール使用セグメントに分割する姿勢推定能力を評価し,運動センサやi3d機能と比較した。 さらに,本手法では生の映像から自動的に検出できる領域の専門家のトレーニングアドバイスから生じる6種類の新しい手術用デキスタリティプロキシを導入する。 結果:複数角度からの2DポーズとI3D特徴の融合により,Open Surgery Simulationデータセットの最先端ジェスチャーセグメンテーション精度88.35\%を達成する。 導入した手術スキルプロキシは,熟練者に比べて初心者に有意な差を示し,改善のための行動的フィードバックが得られた。 結語:本研究は,ジェスチャー分割とスキルアセスメントの有効性を解析し,開腹手術におけるポーズ推定の利点を示す。 ポーズ推定を用いたジェスチャーセグメンテーションは、リモートかつマーカーレスで物理的センサーと同等の結果を得た。 ポーズ推定に依存する外科的デキスタリティプロキシは、自動トレーニングフィードバックに向けた作業に使用できることを示した。 外科的訓練をより効率的にするための,新たなスキルプロキシのさらなるコラボレーションが期待できる。

Purpose: This research aims to facilitate the use of state-of-the-art computer vision algorithms for the automated training of surgeons and the analysis of surgical footage. By estimating 2D hand poses, we model the movement of the practitioner's hands, and their interaction with surgical instruments, to study their potential benefit for surgical training. Methods: We leverage pre-trained models on a publicly-available hands dataset to create our own in-house dataset of 100 open surgery simulation videos with 2D hand poses. We also assess the ability of pose estimations to segment surgical videos into gestures and tool-usage segments and compare them to kinematic sensors and I3D features. Furthermore, we introduce 6 novel surgical dexterity proxies stemming from domain experts' training advice, all of which our framework can automatically detect given raw video footage. Results: State-of-the-art gesture segmentation accuracy of 88.35\% on the Open Surgery Simulation dataset is achieved with the fusion of 2D poses and I3D features from multiple angles. The introduced surgical skill proxies presented significant differences for novices compared to experts and produced actionable feedback for improvement. Conclusion: This research demonstrates the benefit of pose estimations for open surgery by analyzing their effectiveness in gesture segmentation and skill assessment. Gesture segmentation using pose estimations achieved comparable results to physical sensors while being remote and markerless. Surgical dexterity proxies that rely on pose estimation proved they can be used to work towards automated training feedback. We hope our findings encourage additional collaboration on novel skill proxies to make surgical training more efficient.
翻訳日:2023-04-03 17:20:01 公開日:2023-03-30
# 暗黙のグラフェン神経表現

Implicit Graphon Neural Representation ( http://arxiv.org/abs/2211.03329v3 )

ライセンス: Link先を確認
Xinyue Xia, Gal Mishne, Yusu Wang(参考訳) グラフェンは、様々なサイズのグラフを生成するための一般的かつ強力なモデルである。 本稿では,ニューラルネットワークを用いて直接グラフをモデル化し,Implicit Graphon Neural Representation (IGNR) を得る。 グラノンのモデリングと再構成における既存の作業は、しばしば固定解像度のピースワイド定数表現によって標的グラノンを近似する。 我々のIGNRは、任意の解像度までグラフを表現できることの利点があり、モデルが学習されると、所望の構造を持つ任意のサイズのグラフを自然かつ効率的に生成できる。 さらに,Gromov-Wasserstein距離を利用して,入力グラフデータを不整合にし,異なるサイズにすることができる。 まず,グラフ学習タスクにおいて,その優れた性能を示すことにより,モデルの有効性を実証する。 次に,自動エンコーダフレームワークに組み込むことができるignrの拡張を提案し,graphon学習のより一般的な設定下でその優れた性能を示す。 また,このモデルがグラフ表現学習やグラフ生成に適していることを示す。

Graphons are general and powerful models for generating graphs of varying size. In this paper, we propose to directly model graphons using neural networks, obtaining Implicit Graphon Neural Representation (IGNR). Existing work in modeling and reconstructing graphons often approximates a target graphon by a fixed resolution piece-wise constant representation. Our IGNR has the benefit that it can represent graphons up to arbitrary resolutions, and enables natural and efficient generation of arbitrary sized graphs with desired structure once the model is learned. Furthermore, we allow the input graph data to be unaligned and have different sizes by leveraging the Gromov-Wasserstein distance. We first demonstrate the effectiveness of our model by showing its superior performance on a graphon learning task. We then propose an extension of IGNR that can be incorporated into an auto-encoder framework, and demonstrate its good performance under a more general setting of graphon learning. We also show that our model is suitable for graph representation learning and graph generation.
翻訳日:2023-04-03 17:19:17 公開日:2023-03-30
# 拡散モデルを用いたマルチタスク脳腫瘍の1例

Multitask Brain Tumor Inpainting with Diffusion Models: A Methodological Report ( http://arxiv.org/abs/2210.12113v2 )

ライセンス: Link先を確認
Pouria Rouzrokh, Bardia Khosravi, Shahriar Faghani, Mana Moassefi, Sanaz Vahdati, Bradley J. Erickson(参考訳) 医学画像に深層学習(DL)モデルを適用することへの関心はますます高まっているが、医学データセットの典型的不足と不均衡は、DLモデルの性能に深刻な影響を及ぼす可能性がある。 患者プライバシを損なうことなく自由に共有できる合成データの生成は、これらの困難に対処するためのよく知られたテクニックである。 InpaintingアルゴリズムはDL生成モデルのサブセットであり、入力画像の1つまたは複数の領域を周囲のコンテキストにマッチさせ、場合によっては非イメージ入力条件を変更できる。 医用画像データの塗装技術の多くはGAN(Generative Adversarial Network)を用いているが、これらのアルゴリズムの性能は限られた出力の多様性のため、しばしば準最適である。 denoising diffusion probabilistic models (ddpms) はgansと同等の品質を生成できるが、様々な出力を持つ生成ネットワークの一群である。 本稿では,脳mriの2次元軸スライスに対して,様々なシーケンスで複数のインペインティングタスクを実行するddpmについて述べるとともに,様々な評価シナリオにおいてその性能の実証例を示す。 私たちのモデルと試すためのオンラインインターフェースは、https://github.com/mayo-radiology-informatics-lab/mbtiで利用可能です。

Despite the ever-increasing interest in applying deep learning (DL) models to medical imaging, the typical scarcity and imbalance of medical datasets can severely impact the performance of DL models. The generation of synthetic data that might be freely shared without compromising patient privacy is a well-known technique for addressing these difficulties. Inpainting algorithms are a subset of DL generative models that can alter one or more regions of an input image while matching its surrounding context and, in certain cases, non-imaging input conditions. Although the majority of inpainting techniques for medical imaging data use generative adversarial networks (GANs), the performance of these algorithms is frequently suboptimal due to their limited output variety, a problem that is already well-known for GANs. Denoising diffusion probabilistic models (DDPMs) are a recently introduced family of generative networks that can generate results of comparable quality to GANs, but with diverse outputs. In this paper, we describe a DDPM to execute multiple inpainting tasks on 2D axial slices of brain MRI with various sequences, and present proof-of-concept examples of its performance in a variety of evaluation scenarios. Our model and a public online interface to try our tool are available at: https://github.com/Mayo-Radiology-Informatics-Lab/MBTI
翻訳日:2023-04-03 17:18:36 公開日:2023-03-30
# PDE発見と演算子学習のためのカーネルアプローチ

A Kernel Approach for PDE Discovery and Operator Learning ( http://arxiv.org/abs/2210.08140v2 )

ライセンス: Link先を確認
Da Long, Nicole Mrvaljevic, Shandian Zhe, and Bamdad Hosseini(参考訳) 本稿では,カーネル法を用いて偏微分方程式(PDE)を学習し,解くための3段階の枠組みを提案する。 メッシュ上のノイズの多いPDE解とソース/バウンダリ項のペアからなるトレーニングセットが与えられた場合、カーネルスムーシングは、そのソリューションのデータと近似デリバティブを分解するために使用される。 この情報は、PDEの代数形式を学ぶために、カーネル回帰モデルで使用される。 学習されたPDEはカーネルベースのソルバ内で使われ、PDEの解を新しいソース/バウンダリ項で近似し、演算子学習フレームワークを構成する。 数値実験では、この手法を最先端のアルゴリズムと比較し、その競合性能を示す。

This article presents a three-step framework for learning and solving partial differential equations (PDEs) using kernel methods. Given a training set consisting of pairs of noisy PDE solutions and source/boundary terms on a mesh, kernel smoothing is utilized to denoise the data and approximate derivatives of the solution. This information is then used in a kernel regression model to learn the algebraic form of the PDE. The learned PDE is then used within a kernel based solver to approximate the solution of the PDE with a new source/boundary term, thereby constituting an operator learning framework. Numerical experiments compare the method to state-of-the-art algorithms and demonstrate its competitive performance.
翻訳日:2023-04-03 17:18:01 公開日:2023-03-30
# diner: 深度認識画像に基づくニューラルネットワークの放射場

DINER: Depth-aware Image-based NEural Radiance fields ( http://arxiv.org/abs/2211.16630v2 )

ライセンス: Link先を確認
Malte Prinzler, Otmar Hilliges, Justus Thies(参考訳) 本稿では,深度認識型画像ベースニューラルラミアンスフィールド(diner)を提案する。 RGB入力ビューの粗いセットを考慮し、深度と特徴マップを予測して、新しいビューの下で3Dオブジェクトを描画できるボリュームシーン表現の再構築を誘導する。 具体的には,深度情報を特徴融合と効率的なシーンサンプリングに組み込む新しい手法を提案する。 以前の技術と比較すると、ダイナーは高い合成品質を達成し、高い差で入力ビューを処理できる。 これにより、ハードウェア要件のキャプチャを変更することなく、シーンをより完全にキャプチャすることができ、最終的には、新しいビュー合成時の視点変更を可能にします。 人間の頭と対象物の両方に新しいビューを合成することにより,本手法の評価を行い,従来の技術と比較すると,質的結果と知覚的指標が有意に向上したのを観察した。 コードは研究目的で公開されている。

We present Depth-aware Image-based NEural Radiance fields (DINER). Given a sparse set of RGB input views, we predict depth and feature maps to guide the reconstruction of a volumetric scene representation that allows us to render 3D objects under novel views. Specifically, we propose novel techniques to incorporate depth information into feature fusion and efficient scene sampling. In comparison to the previous state of the art, DINER achieves higher synthesis quality and can process input views with greater disparity. This allows us to capture scenes more completely without changing capturing hardware requirements and ultimately enables larger viewpoint changes during novel view synthesis. We evaluate our method by synthesizing novel views, both for human heads and for general objects, and observe significantly improved qualitative results and increased perceptual metrics compared to the previous state of the art. The code is publicly available for research purposes.
翻訳日:2023-04-03 17:11:25 公開日:2023-03-30
# DyNCA:ニューラルセルオートマタを用いたリアルタイム動的テクスチャ合成

DyNCA: Real-time Dynamic Texture Synthesis Using Neural Cellular Automata ( http://arxiv.org/abs/2211.11417v2 )

ライセンス: Link先を確認
Ehsan Pajouheshgar, Yitao Xu, Tong Zhang, Sabine S\"usstrunk(参考訳) 現在の動的テクスチャ合成(DyTS)モデルは、リアルなビデオを合成することができる。 しかし、単一の固定サイズショートビデオの合成には遅い反復最適化プロセスが必要であり、合成プロセスに対する後処理制御は提供されない。 リアルタイムかつ制御可能な動的テクスチャ合成のためのフレームワークである動的ニューラルネットワークセルオートマタ(DyNCA)を提案する。 提案手法は,最近導入されたncaモデルに基づき,無限に長大かつ任意の大きさの映像テクスチャをリアルタイムに合成する。 我々は,我々のモデルを定量的に質的に評価し,既存の結果よりもリアルに見えることを示す。 我々はSOTA DyTSの性能を$2\sim 4$で改善する。 さらに,動作速度,動作方向,編集用ブラシツールなど,複数のリアルタイムビデオ制御も提供する。 トレーニングされたモデルを、ローカルハードウェア上で動作し、パーソナルコンピュータやスマートフォンでアクセス可能なオンラインインタラクティブなデモで展示します。

Current Dynamic Texture Synthesis (DyTS) models can synthesize realistic videos. However, they require a slow iterative optimization process to synthesize a single fixed-size short video, and they do not offer any post-training control over the synthesis process. We propose Dynamic Neural Cellular Automata (DyNCA), a framework for real-time and controllable dynamic texture synthesis. Our method is built upon the recently introduced NCA models and can synthesize infinitely long and arbitrary-sized realistic video textures in real time. We quantitatively and qualitatively evaluate our model and show that our synthesized videos appear more realistic than the existing results. We improve the SOTA DyTS performance by $2\sim 4$ orders of magnitude. Moreover, our model offers several real-time video controls including motion speed, motion direction, and an editing brush tool. We exhibit our trained models in an online interactive demo that runs on local hardware and is accessible on personal computers and smartphones.
翻訳日:2023-04-03 17:09:01 公開日:2023-03-30
# ディープ線形ネットワークにおけるニューラル崩壊:バランスデータから不均衡データへ

Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced Data ( http://arxiv.org/abs/2301.00437v3 )

ライセンス: Link先を確認
Hien Dang and Tho Tran and Stanley Osher and Hung Tran-The and Nhat Ho and Tan Nguyen(参考訳) 最近のディープニューラルネットワークは、画像分類から自然言語処理まで、タスクで素晴らしいパフォーマンスを達成している。 驚くべきことに、大量のパラメータを持つこれらの複雑なシステムは、収束までのトレーニングにおいて、最終層の特徴と分類器において同じ構造特性を示す。 特に、ラスト層の特徴はクラス平均に崩壊し、それらのクラス平均は単純等角タイトフレーム(etf)の頂点であることが観察されている。 この現象はNeural Collapse(\mathcal{NC}$)として知られている。 最近の論文では、$\mathcal{NC}$が'unconstrained feature model'を単純化した訓練問題の最小化に現れていることが理論的に示されている。 この文脈では、一般的な平均二乗誤差(MSE)とクロスエントロピー(CE)の損失に対して、深い線形ネットワークにおいて$\mathcal{NC}$が発生することを証明し、大域的解が線形層全体にわたって$\mathcal{NC}$の性質を示すことを示す。 さらに,MSE損失に対する不均衡データに研究を拡張し,バイアスのない条件下での$\mathcal{NC}$の幾何学的解析を行った。 以上の結果から,最終層の特徴と分類器の直交ベクトルからなる幾何への収束が,対応するクラスにおけるデータ量に依存することを示す。 最後に、バランスの取れたシナリオと不均衡なシナリオの両方で、合成および実用的なネットワークアーキテクチャに関する理論的解析を実証的に検証する。

Modern deep neural networks have achieved impressive performance on tasks from image classification to natural language processing. Surprisingly, these complex systems with massive amounts of parameters exhibit the same structural properties in their last-layer features and classifiers across canonical datasets when training until convergence. In particular, it has been observed that the last-layer features collapse to their class-means, and those class-means are the vertices of a simplex Equiangular Tight Frame (ETF). This phenomenon is known as Neural Collapse ($\mathcal{NC}$). Recent papers have theoretically shown that $\mathcal{NC}$ emerges in the global minimizers of training problems with the simplified ``unconstrained feature model''. In this context, we take a step further and prove the $\mathcal{NC}$ occurrences in deep linear networks for the popular mean squared error (MSE) and cross entropy (CE) losses, showing that global solutions exhibit $\mathcal{NC}$ properties across the linear layers. Furthermore, we extend our study to imbalanced data for MSE loss and present the first geometric analysis of $\mathcal{NC}$ under bias-free setting. Our results demonstrate the convergence of the last-layer features and classifiers to a geometry consisting of orthogonal vectors, whose lengths depend on the amount of data in their corresponding classes. Finally, we empirically validate our theoretical analyses on synthetic and practical network architectures with both balanced and imbalanced scenarios.
翻訳日:2023-04-03 17:02:12 公開日:2023-03-30
# HandsOff:追加の人間アノテーションのないラベル付きデータセット生成

HandsOff: Labeled Dataset Generation With No Additional Human Annotations ( http://arxiv.org/abs/2212.12645v2 )

ライセンス: Link先を確認
Austin Xu, Mariya I. Vasileva, Achal Dave, Arjun Seshadri(参考訳) 最近の研究では、ジェネレーティブ・アドバーサリアン・ネットワーク(gans)の表現力を利用してラベル付き合成データセットを生成する。 これらのデータセット生成方法は、しばしば合成画像の新しいアノテーションを必要とするため、実践者はアノテーションを探し出し、合成画像の集合をキュレートし、生成されたラベルの品質を保証する。 我々は,50枚未満のラベル付き画像でトレーニングした後,無制限に多数の合成画像と対応するラベルを生成する技術であるHandsOffフレームワークを紹介する。 本フレームワークは,GANインバージョンフィールドとデータセット生成を統一することにより,先行作業の現実的な欠点を回避する。 顔、車、フルボディの人間のポーズ、都市運転シーンなど、複数の挑戦的な領域において、リッチなピクセルワイズラベルを持つデータセットを生成します。 本手法は,従来のデータセット生成手法や伝達学習ベースラインと比較して,セマンティックセグメンテーション,キーポイント検出,深さ推定における最先端性能を実現する。 さらに、セマンティックセグメンテーションにおけるロングテール問題など、固定された手書きのデータセットに由来するモデル開発における幅広い課題に対処する能力についても紹介する。 プロジェクトページ: austinxu87.github.io/handsoff

Recent work leverages the expressive power of generative adversarial networks (GANs) to generate labeled synthetic datasets. These dataset generation methods often require new annotations of synthetic images, which forces practitioners to seek out annotators, curate a set of synthetic images, and ensure the quality of generated labels. We introduce the HandsOff framework, a technique capable of producing an unlimited number of synthetic images and corresponding labels after being trained on less than 50 pre-existing labeled images. Our framework avoids the practical drawbacks of prior work by unifying the field of GAN inversion with dataset generation. We generate datasets with rich pixel-wise labels in multiple challenging domains such as faces, cars, full-body human poses, and urban driving scenes. Our method achieves state-of-the-art performance in semantic segmentation, keypoint detection, and depth estimation compared to prior dataset generation approaches and transfer learning baselines. We additionally showcase its ability to address broad challenges in model development which stem from fixed, hand-annotated datasets, such as the long-tail problem in semantic segmentation. Project page: austinxu87.github.io/handsoff.
翻訳日:2023-04-03 17:01:47 公開日:2023-03-30
# 予測区間生成のための2重精度品質駆動ニューラルネットワーク

Dual Accuracy-Quality-Driven Neural Network for Prediction Interval Generation ( http://arxiv.org/abs/2212.06370v2 )

ライセンス: Link先を確認
Giorgio Morales and John W. Sheppard(参考訳) 実世界のアプリケーションにおけるディープラーニングモデルの信頼性を高めるためには,正確な不確かさの定量化が不可欠である。 回帰タスクの場合、深層学習モデルの決定論的予測とともに予測間隔(PI)を提供する必要がある。 このようなpiは、十分に狭く、確率密度の大部分を捉える限り、有用または「高品質」である。 本稿では,従来の目標予測に加えて,回帰型ニューラルネットワークの予測間隔を自動的に学習する手法を提案する。 特に,1つの出力,対象推定,および2つの出力,対応するPIの上と下の境界を使用するニューラルネットワークを訓練する。 我々の主な貢献は、目標推定ネットワークの出力を考慮に入れ、平均予測間隔幅を最小化し、予測間隔確率を暗黙的に最大化する制約を用いてPI整合性を確保するという2つの最適化目標を持つPI世代ネットワークの新規損失関数の設計である。 さらに,損失関数内の目的と目的のバランスをとる自己適応係数を導入し,微調整作業の軽減を図る。 合成データセット,8つのベンチマークデータセット,実世界の作物収量予測データセットを用いた実験により,本手法は3つの最先端ニューラルネットワーク法で生成されたpiと比較して,その推定精度を損なうことなく,名目的確率範囲を維持し,極めて狭いpiを生成することができた。 言い換えれば,本手法は高品質なPIを生成する。

Accurate uncertainty quantification is necessary to enhance the reliability of deep learning models in real-world applications. In the case of regression tasks, prediction intervals (PIs) should be provided along with the deterministic predictions of deep learning models. Such PIs are useful or "high-quality" as long as they are sufficiently narrow and capture most of the probability density. In this paper, we present a method to learn prediction intervals for regression-based neural networks automatically in addition to the conventional target predictions. In particular, we train two companion neural networks: one that uses one output, the target estimate, and another that uses two outputs, the upper and lower bounds of the corresponding PI. Our main contribution is the design of a novel loss function for the PI-generation network that takes into account the output of the target-estimation network and has two optimization objectives: minimizing the mean prediction interval width and ensuring the PI integrity using constraints that maximize the prediction interval probability coverage implicitly. Furthermore, we introduce a self-adaptive coefficient that balances both objectives within the loss function, which alleviates the task of fine-tuning. Experiments using a synthetic dataset, eight benchmark datasets, and a real-world crop yield prediction dataset showed that our method was able to maintain a nominal probability coverage and produce significantly narrower PIs without detriment to its target estimation accuracy when compared to those PIs generated by three state-of-the-art neural-network-based methods. In other words, our method was shown to produce higher-quality PIs.
翻訳日:2023-04-03 17:00:38 公開日:2023-03-30
# cityspec with shield: 要求の形式化のためのセキュアなインテリジェントアシスタント

CitySpec with Shield: A Secure Intelligent Assistant for Requirement Formalization ( http://arxiv.org/abs/2302.09665v2 )

ライセンス: Link先を確認
Zirong Chen, Issa Li, Haoxiang Zhang, Sarah Preum, John A. Stankovic, Meiyi Ma(参考訳) 都市のリアルタイム運用が安全と性能の要求を満たすことを保証するため、スマートシティで監視システムの開発が増えている。 しかし、既存の都市要件の多くは英語で書かれており、不正確、曖昧な情報が欠けている。 人為的要件をマシン理解可能な監視システムの形式仕様に変換する上で,都市政策立案者支援の需要が高まっている。 この制限に対処するため、スマートシティにおける要求仕様のための初のインテリジェントアシスタントシステムであるCitySpecを構築した。 CitySpecを作成するために、まず100以上の都市から異なる領域(例えば輸送とエネルギー)にわたる1500以上の都市要件を収集し、都市固有の知識を抽出し、3,061単語の都市語彙のデータセットを生成する。 また,要求合成による翻訳モデルの構築や,遮蔽バリデーションを用いた新しいオンライン学習フレームワークの開発も行なっている。 実世界の都市要件に対する評価結果は、CitySpecが要件仕様の文レベル精度を59.02%から86.64%に引き上げ、新しい都市と新しいドメインに強い適応性を持つことを示している(例えば、シアトルにおける要件F1スコアは、オンライン学習で77.6%から93.75%に増加した)。 シールド機能の強化後、CitySpecは最も知られているテキストの敵対的入力(例えば、シールド機能後のDeepWordBugの攻撃成功率は82.73%から0%に減少する)に免疫されている。 異なるドメインから18人の参加者でCitySpecをテストする。 CitySpecは、異なるドメインに対する強力なユーザビリティと適応性を示し、悪意のある入力に対する堅牢性を示している。

An increasing number of monitoring systems have been developed in smart cities to ensure that the real-time operations of a city satisfy safety and performance requirements. However, many existing city requirements are written in English with missing, inaccurate, or ambiguous information. There is a high demand for assisting city policymakers in converting human-specified requirements to machine-understandable formal specifications for monitoring systems. To tackle this limitation, we build CitySpec, the first intelligent assistant system for requirement specification in smart cities. To create CitySpec, we first collect over 1,500 real-world city requirements across different domains (e.g., transportation and energy) from over 100 cities and extract city-specific knowledge to generate a dataset of city vocabulary with 3,061 words. We also build a translation model and enhance it through requirement synthesis and develop a novel online learning framework with shielded validation. The evaluation results on real-world city requirements show that CitySpec increases the sentence-level accuracy of requirement specification from 59.02% to 86.64%, and has strong adaptability to a new city and a new domain (e.g., the F1 score for requirements in Seattle increases from 77.6% to 93.75% with online learning). After the enhancement from the shield function, CitySpec is now immune to most known textual adversarial inputs (e.g., the attack success rate of DeepWordBug after the shield function is reduced to 0% from 82.73%). We test the CitySpec with 18 participants from different domains. CitySpec shows its strong usability and adaptability to different domains, and also its robustness to malicious inputs.
翻訳日:2023-04-03 16:53:29 公開日:2023-03-30
# GFM:連続事前訓練による地理空間基盤モデルの構築

GFM: Building Geospatial Foundation Models via Continual Pretraining ( http://arxiv.org/abs/2302.04476v2 )

ライセンス: Link先を確認
Matias Mendieta, Boran Han, Xingjian Shi, Yi Zhu, Chen Chen(参考訳) 地球空間技術は、農業、都市計画、災害対応など幅広い用途において、我々の世界でますます不可欠になりつつある。 これらの地理空間的タスクにおけるディープラーニングモデルの適用性とパフォーマンスを改善するため、様々な研究がこの分野の基礎モデルの調査を開始した。 研究者は、地理空間アプリケーションにそのようなモデルを導入するための2つの顕著なアプローチを探求してきたが、どちらもパフォーマンス上の利点や禁止的なトレーニングコストの点で欠点がある。 そこで本研究では,資源コストと炭素影響を最小限に抑え,高効率な地理空間基盤モデルを構築するための新しいパラダイムを提案する。 まず、複数のソースからコンパクトだが多様なデータセットを構築し、GeoPileと呼ぶ特徴多様性を促進する。 次に,大規模なImageNet-22kモデルからの継続事前学習の可能性について検討し,画像Netの強力な表現を活用しながら,価値あるドメイン内特徴を学習する自由を提供する多目的連続事前学習パラダイムを提案する。 提案手法は,変更検出,分類,マルチラベル分類,意味セグメンテーション,スーパーレゾリューションといったさまざまなタスクをカバーする7つの下流データセットの広範な評価において,先行手法よりも優れている。

Geospatial technologies are becoming increasingly essential in our world for a wide range of applications, including agriculture, urban planning, and disaster response. To help improve the applicability and performance of deep learning models on these geospatial tasks, various works have begun investigating foundation models for this domain. Researchers have explored two prominent approaches for introducing such models in geospatial applications, but both have drawbacks in terms of limited performance benefit or prohibitive training cost. Therefore, in this work, we propose a novel paradigm for building highly effective geospatial foundation models with minimal resource cost and carbon impact. We first construct a compact yet diverse dataset from multiple sources to promote feature diversity, which we term GeoPile. Then, we investigate the potential of continual pretraining from large-scale ImageNet-22k models and propose a multi-objective continual pretraining paradigm, which leverages the strong representations of ImageNet while simultaneously providing the freedom to learn valuable in-domain features. Our approach outperforms previous state-of-the-art geospatial pretraining methods in an extensive evaluation on seven downstream datasets covering various tasks such as change detection, classification, multi-label classification, semantic segmentation, and super-resolution.
翻訳日:2023-04-03 16:52:48 公開日:2023-03-30
# 大規模ニューラルネットワークの幾何ロバスト性検証に向けて

Towards Verifying the Geometric Robustness of Large-scale Neural Networks ( http://arxiv.org/abs/2301.12456v2 )

ライセンス: Link先を確認
Fu Wang, Peipei Xu, Wenjie Ruan, Xiaowei Huang(参考訳) ディープニューラルネットワーク(DNN)は、敵対的な幾何学的変換に弱いことが知られている。 本稿では,複数の幾何変換と証明可能な保証の組み合わせに対して,大規模DNNのロバスト性を検証することを目的とする。 一連の変換(回転、スケーリングなど)が与えられた場合、ネットワークの出力に影響を与え、変更する変換の最悪の組み合わせを見つけるために、新しいグローバル最適化戦略に基づいて構築されたブラックボックスロバスト分析器であるGeoRobustを開発する。 GeoRobustは、リプシッツ理論の最近の進歩に基づく最悪の組み合わせを見つけるための証明可能な保証を提供することができる。 ブラックボックスの性質のため、GeoRobustはアーキテクチャ、アクティベーション機能、ニューロンの数に関わらず、大規模DNNにデプロイすることができる。 実際にGeoRobustは、ImageNet上のResNet50モデルの精度の高い最悪の幾何学変換を、平均数秒で見つけることができる。 我々は,ResNetファミリやビジョントランスフォーマーを含む18のイメージネット分類器を調査し,ネットワークの幾何学的ロバスト性とパラメータ数との正の相関を見出した。 また,DNNの深さの増大は,その幾何学的堅牢性の向上の観点から,その幅の増大よりも有益であることを示す。 GeoRobustはhttps://github.com/TrustAI/GeoRobust.comで利用可能です。

Deep neural networks (DNNs) are known to be vulnerable to adversarial geometric transformation. This paper aims to verify the robustness of large-scale DNNs against the combination of multiple geometric transformations with a provable guarantee. Given a set of transformations (e.g., rotation, scaling, etc.), we develop GeoRobust, a black-box robustness analyser built upon a novel global optimisation strategy, for locating the worst-case combination of transformations that affect and even alter a network's output. GeoRobust can provide provable guarantees on finding the worst-case combination based on recent advances in Lipschitzian theory. Due to its black-box nature, GeoRobust can be deployed on large-scale DNNs regardless of their architectures, activation functions, and the number of neurons. In practice, GeoRobust can locate the worst-case geometric transformation with high precision for the ResNet50 model on ImageNet in a few seconds on average. We examined 18 ImageNet classifiers, including the ResNet family and vision transformers, and found a positive correlation between the geometric robustness of the networks and the parameter numbers. We also observe that increasing the depth of DNN is more beneficial than increasing its width in terms of improving its geometric robustness. Our tool GeoRobust is available at https://github.com/TrustAI/GeoRobust.
翻訳日:2023-04-03 16:51:45 公開日:2023-03-30
# 統合埋め込み予測アーキテクチャを用いた画像からの自己教師付き学習

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture ( http://arxiv.org/abs/2301.08243v2 )

ライセンス: Link先を確認
Mahmoud Assran, Quentin Duval, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Yann LeCun, Nicolas Ballas(参考訳) 本稿では,手作りデータに頼らずに,高度に意味のある画像表現を学習するためのアプローチを示す。 本稿では,画像からの自己教師型学習のための非生成的アプローチであるイメージベースジョイントエンベッドディング予測アーキテクチャ(I-JEPA)を紹介する。 I-JEPAの背景にあるアイデアは単純で、単一のコンテキストブロックから、同じイメージ内の様々なターゲットブロックの表現を予測する。 I-JEPAを意味表現に導くための中核的な設計選択はマスキング戦略である。 (a)十分な規模(意味)のターゲットブロックのサンプル、及び (b)十分な情報(便宜的分散)コンテキストブロックを使用する。 実証的には、Vision Transformersと組み合わせると、I-JEPAは高度にスケーラブルである。 例えば、イメージネット上で16のA100 GPUを使用してVT-Huge/14を72時間以内にトレーニングし、線形分類からオブジェクトカウント、深さ予測まで幅広いタスクで強力なダウンストリーム性能を実現する。

This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) sample target blocks with sufficiently large scale (semantic), and to (b) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/14 on ImageNet using 16 A100 GPUs in under 72 hours to achieve strong downstream performance across a wide range of tasks, from linear classification to object counting and depth prediction.
翻訳日:2023-04-03 16:50:59 公開日:2023-03-30
# nvautonet: 自己運転のための高速で正確な360$^{\circ}$ 3d視覚知覚

NVAutoNet: Fast and Accurate 360$^{\circ}$ 3D Visual Perception For Self Driving ( http://arxiv.org/abs/2303.12976v2 )

ライセンス: Link先を確認
Trung Pham, Mehran Maghoumi, Wanli Jiang, Bala Siva Sashank Jujjavarapu, Mehdi Sajjadi Xin Liu, Hsuan-Chu Lin, Bor-Jeng Chen, Giang Truong, Chao Fang, Junghyun Kwon, Minwoo Park(参考訳) 3D世界に対するロバストなリアルタイム認識は、自動運転車にとって不可欠である。 我々は、自動運転のためのエンドツーエンドのサラウンドカメラ認識システムを導入する。 私たちの知覚システムは,様々な時間同期カメラを入力として,サイズ,方向,障害物の位置,駐車スペース,フリースペースなどの3d信号の豊富なコレクションを生成する,新しいマルチタスクマルチカメラネットワークである。 私たちの知覚ネットワークはモジュラーでエンドツーエンドです。 1)アウトプットは、クラスタリングやフュージョンのようなポストプロセスなしで、下流モジュールによって直接消費できる -- モデルのデプロイと車内テストのスピードを改善する。 2) ネットワークトレーニングは1つのステージで行われ、モデルの改善とイテレーションのスピードが向上します。 このネットワークは、nvidia orin soc(system-on-a-chip)上で53fpsで動作しながら、高精度に設計されている。 ネットワークはセンサー搭載のバリエーションに頑健であり、トレーニングやテスト中にキャリブレーションパラメータを追加入力として使用することで、効率的なモデルの微調整により、さまざまな車両タイプに対して迅速にカスタマイズすることができる。 最も重要なことは、私たちのネットワークは実際の道路でうまくデプロイされ、テストされています。

Robust real-time perception of 3D world is essential to the autonomous vehicle. We introduce an end-to-end surround camera perception system for self-driving. Our perception system is a novel multi-task, multi-camera network which takes a variable set of time-synced camera images as input and produces a rich collection of 3D signals such as sizes, orientations, locations of obstacles, parking spaces and free-spaces, etc. Our perception network is modular and end-to-end: 1) the outputs can be consumed directly by downstream modules without any post-processing such as clustering and fusion -- improving speed of model deployment and in-car testing 2) the whole network training is done in one single stage -- improving speed of model improvement and iterations. The network is well designed to have high accuracy while running at 53 fps on NVIDIA Orin SoC (system-on-a-chip). The network is robust to sensor mounting variations (within some tolerances) and can be quickly customized for different vehicle types via efficient model fine-tuning thanks of its capability of taking calibration parameters as additional inputs during training and testing. Most importantly, our network has been successfully deployed and being tested on real roads.
翻訳日:2023-04-03 16:43:27 公開日:2023-03-30
# 最大絡み合ったボゾン状態の漸近的決定論的ロバストな準備

Asymptotically-deterministic robust preparation of maximally entangled bosonic states ( http://arxiv.org/abs/2303.11484v2 )

ライセンス: Link先を確認
Matteo Piccolini, Vittorio Giovannetti, Rosario Lo Franco(参考訳) 任意の局所雑音の作用下でロバストな2つのボソニック量子ビットの純粋なベル一重項状態を作成するための理論的スキームを導入する。 提案手法では, 受動型光デバイスと偏光非感受性非吸収性パリティチェック検出器を用いて, 繰り返し回数に漸近的に決定性を実現する。 2つの異なる空間モードに光子を分散させることにより、最大絡み合った状態からなる関連基底の要素が、受動光学変換に基づく同値性に応じて2つのグループに分割可能であることを示す。 パリティチェック検出器が2つの状態の接続に使用できることを実証する。 したがって,提案プロトコルは,内部自由度(ベル状態)と空間モード(正午状態)のいずれかに極端に絡み合う2つのボソンの純粋な状態を作成するために利用できると結論づける。

We introduce a theoretical scheme to prepare a pure Bell singlet state of two bosonic qubits, in a way that is robust under the action of arbitrary local noise. Focusing on a photonic platform, the proposed procedure employs passive optical devices and a polarization-insensitive, non-absorbing, parity check detector in an iterative process which achieves determinism asymptotically with the number of repetitions. Distributing the photons over two distinct spatial modes, we further show that the elements of the related basis composed of maximally entangled states can be divided in two groups according to an equivalence based on passive optical transformations. We demonstrate that the parity check detector can be used to connect the two sets of states. We thus conclude that the proposed protocol can be employed to prepare any pure state of two bosons which are maximally entangled in either the internal degree of freedom (Bell states) or the spatial mode (NOON states).
翻訳日:2023-04-03 16:42:36 公開日:2023-03-30
# 実際、ベル型不平等の違反を証明しているものは何か?

What in fact proves the violation of the Bell-type inequalities? ( http://arxiv.org/abs/2303.08821v2 )

ライセンス: Link先を確認
Sofia Wechsler(参考訳) A. Peres はスピン一重項状態にある粒子の例を構築した。 彼はCHSHの不等式を取得し、この不等式に違反すると、ある変数がテストされた場合、テストされていない他の変数が定義値を持たないことを示すと結論付けた。 本稿では,CHSH不等式違反の正しい結論が異なることを証明した。 テスト結果の確率の古典的な計算は、コルモゴロフ公理に従い、確率振幅に支配される量子形式論には適さないことが証明された。

A. Peres constructed an example of particles entangled in the state of spin singlet. He claimed to have obtained the CHSH inequality and concluded that the violation of this inequality shows that in a measurement in which some variables are tested, other variables, not tested, have no defined value. In the present paper is proved that the correct conclusion of the violation of the CHSH inequality is different. It is proved that the classical calculus of probabilities of test results, obeying the Kolmogorov axioms, is unfit for the quantum formalism, dominated by probability amplitudes.
翻訳日:2023-04-03 16:41:43 公開日:2023-03-30
# 数百万人のユーザによるリアルタイムエンゲージメントのためのチャットボットのリワード

Rewarding Chatbots for Real-World Engagement with Millions of Users ( http://arxiv.org/abs/2303.06135v2 )

ライセンス: Link先を確認
Robert Irvine, Douglas Boubert, Vyas Raina, Adian Liusie, Ziyi Zhu, Vineet Mudupalli, Aliaksei Korshuk, Zongyi Liu, Fritz Cremer, Valentin Assassi, Christie-Carol Beauchamp, Xiaoding Lu, Thomas Rialan, William Beauchamp(参考訳) 事前訓練された大きな言語モデルの出現は、chitchatのための様々なソーシャルチャットボットの展開につながった。 これらのチャットボットは、言語能力と流用度を示すが、ユーザをエンゲージすることが保証されておらず、ユーザを維持するのに苦労する。 本研究では、ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討し、特に高機能チャットボットを効率的に開発するためのヒューマンフィードバックの利用について検討する。 提案手法では,ユーザのインタラクションから収集した擬似ラベルを自動生成し,チャットボットモデルが生成したサンプル応答を推論時に拒否する報酬モデルをトレーニングする。 平均会話長(MCL)などの直感的評価指標がプロキシとして導入され、デプロイされたチャットボットのエンゲージメントのレベルを測定する。 Chai Researchプラットフォーム上の1万人の毎日のチャットボットユーザを対象にしたA/Bテストでは、このアプローチがMCLを最大70%増加させ、GPT-J 6Bモデルのユーザ保持率を30%以上向上させた。 今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。

The emergence of pretrained large language models has led to the deployment of a range of social chatbots for chitchat. Although these chatbots demonstrate language ability and fluency, they are not guaranteed to be engaging and can struggle to retain users. This work investigates the development of social chatbots that prioritize user engagement to enhance retention, specifically examining the use of human feedback to efficiently develop highly engaging chatbots. The proposed approach uses automatic pseudo-labels collected from user interactions to train a reward model that can be used to reject low-scoring sample responses generated by the chatbot model at inference time. Intuitive evaluation metrics, such as mean conversation length (MCL), are introduced as proxies to measure the level of engagement of deployed chatbots. A/B testing on groups of 10,000 new daily chatbot users on the Chai Research platform shows that this approach increases the MCL by up to 70%, which translates to a more than 30% increase in user retention for a GPT-J 6B model. Future work aims to use the reward model to realise a data fly-wheel, where the latest user conversations can be used to alternately fine-tune the language model and the reward model.
翻訳日:2023-04-03 16:41:33 公開日:2023-03-30
# BO-Muse:実験設計を加速するための人間専門家とAIコラボレーションフレームワーク

BO-Muse: A human expert and AI teaming framework for accelerated experimental design ( http://arxiv.org/abs/2303.01684v2 )

ライセンス: Link先を確認
Sunil Gupta, Alistair Shilton, Arun Kumar A V, Shannon Ryan, Majid Abdolshah, Hung Le, Santu Rana, Julian Berk, Mahad Rashid, Svetha Venkatesh(参考訳) 本稿では,高額なブラックボックス関数の最適化のための人間とAIのコラボレーション手法であるBO-Museを紹介する。 専門家の知識を抽出し、それをaiモデルに蒸留する本質的な困難さや、実世界の実験設計における人間の行動の観察に触発されたアルゴリズムは、人間の専門家が実験プロセスをリードすることを可能にする。 人間の専門家はドメインの専門知識を最大限に活用することができ、一方でAIはミューズの役割を担い、新奇性を注入し、認知的介入によって引き起こされる過度の爆発から人間を破滅させる弱点の領域を探す。 軽微な仮定で、我々のアルゴリズムはAIや人間よりも速い速度でサブ線形に収束することを示す。 本アルゴリズムは合成データを用いて検証し,人間と共に実世界実験を行う。

In this paper we introduce BO-Muse, a new approach to human-AI teaming for the optimization of expensive black-box functions. Inspired by the intrinsic difficulty of extracting expert knowledge and distilling it back into AI models and by observations of human behavior in real-world experimental design, our algorithm lets the human expert take the lead in the experimental process. The human expert can use their domain expertise to its full potential, while the AI plays the role of a muse, injecting novelty and searching for areas of weakness to break the human out of over-exploitation induced by cognitive entrenchment. With mild assumptions, we show that our algorithm converges sub-linearly, at a rate faster than the AI or human alone. We validate our algorithm using synthetic data and with human experts performing real-world experiments.
翻訳日:2023-04-03 16:41:04 公開日:2023-03-30
# ELBOの重み付き積分としての拡散対象の理解

Understanding the Diffusion Objective as a Weighted Integral of ELBOs ( http://arxiv.org/abs/2303.00848v3 )

ライセンス: Link先を確認
Diederik P. Kingma and Ruiqi Gao(参考訳) 文献中の拡散モデルは、重み付け関数がノイズレベルあたりの重みを規定する重み付け損失の特別な場合である様々な目的に最適化されている。 一様重み付けは、最大確率の原理近似であるエルボの最大化に対応する。 現在の拡散モデルは、サンプル品質の面でのより良い結果のために、非一様重み付けで最適化されている。 本研究では,重み付き損失(重み付き損失)とELBO目標との直接的な関係を明らかにする。 重み付き損失はELBOの重み付き積分として記述できることを示す。 重み付け関数が単調ならば、重み付き損失は確率に基づく目標であり、単純なデータ拡張、すなわちガウス雑音の摂動の下でエルボを最大化する。 我々の主な貢献は拡散目的の深い理論的理解であると同時に、モノトニックと非モノトニックの重み付けを比較する実験も行っており、モノトニックの重み付けは最も優れた結果と競合することが判明した。

Diffusion models in the literature are optimized with various objectives that are special cases of a weighted loss, where the weighting function specifies the weight per noise level. Uniform weighting corresponds to maximizing the ELBO, a principled approximation of maximum likelihood. In current practice diffusion models are optimized with non-uniform weighting due to better results in terms of sample quality. In this work we expose a direct relationship between the weighted loss (with any weighting) and the ELBO objective. We show that the weighted loss can be written as a weighted integral of ELBOs, with one ELBO per noise level. If the weighting function is monotonic, then the weighted loss is a likelihood-based objective: it maximizes the ELBO under simple data augmentation, namely Gaussian noise perturbation. Our main contribution is a deeper theoretical understanding of the diffusion objective, but we also performed some experiments comparing monotonic with non-monotonic weightings, finding that monotonic weighting performs competitively with the best published results.
翻訳日:2023-04-03 16:40:50 公開日:2023-03-30
# oBERTa: 初期化, 蒸留, プルーニング体制の改善によるスパーストランスファー学習の改善

oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes ( http://arxiv.org/abs/2303.17612v1 )

ライセンス: Link先を確認
Daniel Campos, Alexandre Marques, Mark Kurtz, and ChengXiang Zhai(参考訳) 本稿では,自然言語処理(NLP)の実践者が,モデル圧縮の専門知識のない3.8倍から24.3倍の高速なモデルを得ることができる,使い易い言語モデルであるoBERTa言語モデルについて紹介する。 特に、oBERTaは、刈り込み、知識蒸留、量子化に関する既存の作業を拡張し、凍結埋め込みを活用して知識蒸留を改善し、モデル初期化を改善し、幅広い転送タスクにおいて高い精度を提供する。 oBERTa の生成において,事前学習や微調整において,高度に最適化された RoBERTa が BERT とどのように異なるかを検討した。 幅広い7つの代表的nlpタスクにおける oberta の使用について検討し、改良された圧縮技術により、pruned oberta モデルがbertbase のパフォーマンスに適合し、squad v1.1 の質問応答データセットにおけるprune の性能を8倍と2倍と、推論が速いことを発見した。 私たちは、使用と実験を促進するために、コード、トレーニング体制、および関連するモデルをリリースします。

In this paper, we introduce the range of oBERTa language models, an easy-to-use set of language models, which allows Natural Language Processing (NLP) practitioners to obtain between 3.8 and 24.3 times faster models without expertise in model compression. Specifically, oBERTa extends existing work on pruning, knowledge distillation, and quantization and leverages frozen embeddings to improve knowledge distillation, and improved model initialization to deliver higher accuracy on a a broad range of transfer tasks. In generating oBERTa, we explore how the highly optimized RoBERTa differs from the BERT with respect to pruning during pre-training and fine-tuning and find it less amenable to compression during fine-tuning. We explore the use of oBERTa on a broad seven representative NLP tasks and find that the improved compression techniques allow a pruned oBERTa model to match the performance of BERTBASE and exceed the performance of Prune OFA Large on the SQUAD V1.1 Question Answering dataset, despite being 8x and 2x, respectively, faster in inference. We release our code, training regimes, and associated model for broad usage to encourage usage and experimentation.
翻訳日:2023-04-03 16:35:18 公開日:2023-03-30
# 多言語大言語モデルによるコード混合テキスト生成の促進--東南アジア言語を事例として

Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages ( http://arxiv.org/abs/2303.13592v2 )

ライセンス: Link先を確認
Zheng-Xin Yong, Ruochen Zhang, Jessica Zosa Forde, Skyler Wang, Samuel Cahyawijaya, Holy Lovenia, Genta Indra Winata, Lintang Sutawika, Jan Christian Blaise Cruz, Long Phan, Yin Lin Tan, Alham Fikri Aji(参考訳) コードミキシングは世界中の多くの地域で一般的であるが、高品質で低コストのコードミキシングデータを集めることは自然言語処理(NLP)研究の課題である。 近年のLarge Language Models(LLM)の普及は、次のような質問を補完している。 本稿では,東南アジアの5カ国語(インドネシア語,マレー語,中国語,タガログ語,ベトナム語,クレオール語,シングリッシュ語)のコードミックスデータを作成するため,ゼロショット方式の多言語 LLM の推進について検討する。 コードミキシング」という言葉が明示的に定義されている時間の68%をコードミキシングで生成できるChatGPTが最も可能性を示す。 さらに、ChatGPTとInstructGPTの両方のパフォーマンス(davinci-003)も注目すべきであり、様々なプロンプトで平均96%の成功率である。 しかし、それらのコード混合能力は、意味的不正確性につながる単語選択エラーによって弱められている。 bloomzやflan-t5-xxlのような他の多言語モデルは、コード混合テキストを全く生成できない。 低リソースデータ生成の特定の形式でのLLMの限られた約束を強調することにより、同様の手法を他のデータ共有NLPコンテキストに適用する際の計測アプローチを求める。

While code-mixing is a common linguistic practice in many parts of the world, collecting high-quality and low-cost code-mixed data remains a challenge for natural language processing (NLP) research. The proliferation of Large Language Models (LLMs) in recent times compels one to ask: can these systems be used for data generation? In this article, we explore prompting multilingual LLMs in a zero-shot manner to create code-mixed data for five languages in South East Asia (SEA) -- Indonesian, Malay, Chinese, Tagalog, Vietnamese, as well as the creole language Singlish. We find that ChatGPT shows the most potential, capable of producing code-mixed text 68% of the time when the term "code-mixing" is explicitly defined. Moreover, both ChatGPT's and InstructGPT's (davinci-003) performances in generating Singlish texts are noteworthy, averaging a 96% success rate across a variety of prompts. Their code-mixing proficiency, however, is dampened by word choice errors that lead to semantic inaccuracies. Other multilingual models such as BLOOMZ and Flan-T5-XXL are unable to produce code-mixed texts altogether. By highlighting the limited promises of LLMs in a specific form of low-resource data generation, we call for a measured approach when applying similar techniques to other data-scarce NLP contexts.
翻訳日:2023-04-03 16:32:24 公開日:2023-03-30
# 非局所重力相互作用を持つ質量の量子絡み合い

Quantum entanglement of masses with non-local gravitational interaction ( http://arxiv.org/abs/2303.17640v1 )

ライセンス: Link先を確認
Ulrich K. Beckering Vinckers, \'Alvaro de la Cruz-Dombriz and Anupam Mazumdar(参考訳) 一般相対性理論と物質との特定の非局所相互作用の文脈における2つの実験質量の量子的重力絡みについて検討する。 これを達成するために、等質量の2つの試験粒子を記述するエネルギー-運動量テンソルを考える。 線形化理論の量子化について論じた後、この場合作用素値である重力エネルギーシフトを計算する。 局所的な重力相互作用と比較すると、自己相互作用項による重力エネルギーの変化は有限であることが分かる。 次に、2つの異なるシナリオに対して量子重力による質量の絡み合いを研究する。 第一のシナリオは、2つのテスト質量を重力エネルギーシフトによって与えられる相互作用ハミルトニアンと調和振動子として扱うことである。 2つ目のシナリオでは、それぞれのテスト質量はそれぞれのスピン状態に基づいて2つの位置の量子空間重ね合わせに置かれ、それらの絡み合いは重力相互作用と真空エネルギーのシフトによって引き起こされる。 これら2つのシナリオに対して、コンカレンスとフォン・ノイマンエントロピーを計算し、重力相互作用の非局所性の増加がこれらの量の両方を減少させることを示した。

We examine the quantum gravitational entanglement of two test masses in the context of linearized General Relativity with specific non-local interaction with matter. To accomplish this, we consider an energy-momentum tensor describing two test particles of equal mass with each possessing some non-zero momentum. After discussing the quantization of the linearized theory, we compute the gravitational energy shift which is operator-valued in this case. As compared to the local gravitational interaction, we find that the change in the gravitational energy due to the self-interaction terms is finite. We then move on to study the quantum gravity induced entanglement of masses for two different scenarios. The first scenario involves treating the two test masses as harmonic oscillators with an interaction Hamiltonian given by the aforesaid gravitational energy shift. In the second scenario, each of the test masses is placed in a quantum spatial superposition of two locations, based on their respective spin states, and their entanglement being induced by the gravitational interaction and the shift in the vacuum energy. For these two scenarios, we compute both the concurrence and the von Neumann entropy; showing that an increase in the non-locality of the gravitational interaction results in a decrease in both of these quantities.
翻訳日:2023-04-03 16:25:33 公開日:2023-03-30
# 内視鏡領域の予知は意味を成すか?

Whether and When does Endoscopy Domain Pretraining Make Sense? ( http://arxiv.org/abs/2303.17636v1 )

ライセンス: Link先を確認
Dominik Bati\'c, Felix Holm, Ege \"Ozsoy, Tobias Czempiel, Nassir Navab(参考訳) 自動内視鏡映像解析は、手術中の外科医の補助を主な目的とし、医療用コンピュータビジョンにおいて困難な課題である。 この困難は、手術シーンの複雑さと十分な量の注釈データがないことから生じる。 近年、大規模事前学習は自然言語処理とコンピュータビジョンのコミュニティで大きな成功を収めている。 これらのアプローチは、常に医学領域の関心事である注釈付きデータの必要性を減らす。 しかし、ほとんどの作業は、自然画像で事前学習されたビデオ理解モデルを使用しており、事前学習と微調整の間のドメインギャップを生んでいる。 そこで本研究では,下流の目的に基づいた内視鏡領域特異的予習の必要性について検討する。 そこで我々はまず,9つのMISデータセットから抽出した内視鏡画像の最大公用コーパスであるEndo700kを収集した。 endo700kには70万点以上の無注の生画像が含まれている。 次に、内視鏡トレーニング済みビジョントランス(ViT)であるEndoViTを紹介する。 アブレーションにより,より複雑な下流課題(アクショントリプレット検出など)にはドメイン特異的事前訓練が特に有用であり,手術相認識などより単純なタスクには効果が低く不要であることが示された。 弊社のコードと事前訓練済みのモデルの両方を受諾時にリリースし、この方向のさらなる研究を促進する。

Automated endoscopy video analysis is a challenging task in medical computer vision, with the primary objective of assisting surgeons during procedures. The difficulty arises from the complexity of surgical scenes and the lack of a sufficient amount of annotated data. In recent years, large-scale pretraining has shown great success in natural language processing and computer vision communities. These approaches reduce the need for annotated data, which is always a concern in the medical domain. However, most works on endoscopic video understanding use models pretrained on natural images, creating a domain gap between pretraining and finetuning. In this work, we investigate the need for endoscopy domain-specific pretraining based on downstream objectives. To this end, we first collect Endo700k, the largest publicly available corpus of endoscopic images, extracted from nine public Minimally Invasive Surgery (MIS) datasets. Endo700k comprises more than 700,000 unannotated raw images. Next, we introduce EndoViT, an endoscopy pretrained Vision Transformer (ViT). Through ablations, we demonstrate that domain-specific pretraining is particularly beneficial for more complex downstream tasks, such as Action Triplet Detection, and less effective and even unnecessary for simpler tasks, such as Surgical Phase Recognition. We will release both our code and pretrained models upon acceptance to facilitate further research in this direction.
翻訳日:2023-04-03 16:25:14 公開日:2023-03-30
# マルチタスク機械学習のための構成量子貯留層計算

Configured Quantum Reservoir Computing for Multi-Task Machine Learning ( http://arxiv.org/abs/2303.17629v1 )

ライセンス: Link先を確認
Wei Xia, Jie Zou, Xingze Qiu, Feng Chen, Bing Zhu, Chunhe Li, Dong-Ling Deng and Xiaopeng Li(参考訳) 実験技術の急速な進歩の中で、ノイズ中間スケール量子(nisq)デバイスはプログラム可能になり、量子計算の利点を活用するための多様な機会を提供している。 本稿では、量子貯水池計算のためのプログラム可能なNISQデバイスの複雑なダイナミクスについて考察する。 遺伝的アルゴリズムを用いて量子貯水池の力学を構成することにより,学習性能を体系的に向上する。 注目すべきことに、単一の構成された量子貯水池は、転写調節因子の合成振動ネットワーク、遺伝子制御ネットワークにおけるカオスモチーフ、および分数次Chua回路など、複数のタスクを同時に学習することができる。 我々の構成した量子貯水池計算は、従来の貯水池計算よりも優れた精度でこれらの学習タスクを予測できる。 また、外国為替(fx)市場における構成された量子貯水池計算をテストし、古典的貯水池計算手法よりもかなり高い精度で交換レートの確率的進化を捉える能力を示す。 古典的な貯水池計算と比較して、量子貯水池における量子コヒーレンスの役割を強調し、その例外的な学習性能を支えている。 以上の結果から,nisqデバイスの量子計算能力を利用するための構成量子貯水池計算のエキサイティングなポテンシャルが示唆された。

Amidst the rapid advancements in experimental technology, noise-intermediate-scale quantum (NISQ) devices have become increasingly programmable, offering versatile opportunities to leverage quantum computational advantage. Here we explore the intricate dynamics of programmable NISQ devices for quantum reservoir computing. Using a genetic algorithm to configure the quantum reservoir dynamics, we systematically enhance the learning performance. Remarkably, a single configured quantum reservoir can simultaneously learn multiple tasks, including a synthetic oscillatory network of transcriptional regulators, chaotic motifs in gene regulatory networks, and the fractional-order Chua's circuit. Our configured quantum reservoir computing yields highly precise predictions for these learning tasks, outperforming classical reservoir computing. We also test the configured quantum reservoir computing in foreign exchange (FX) market applications and demonstrate its capability to capture the stochastic evolution of the exchange rates with significantly greater accuracy than classical reservoir computing approaches. Through comparison with classical reservoir computing, we highlight the unique role of quantum coherence in the quantum reservoir, which underpins its exceptional learning performance. Our findings suggest the exciting potential of configured quantum reservoir computing for exploiting the quantum computation power of NISQ devices in developing artificial general intelligence.
翻訳日:2023-04-03 16:24:39 公開日:2023-03-30
# 相互作用するマヨラナスピン液体における体積則の絡み合い

Structured volume-law entanglement in an interacting, monitored Majorana spin liquid ( http://arxiv.org/abs/2303.17627v1 )

ライセンス: Link先を確認
Guo-Yi Zhu, Nathanan Tantivasadakarn, Simon Trebst(参考訳) 監視された量子回路は、前例のない多体絡みの動的制御を可能にする。 ここで、キタエフ・ハニカムモデルの結合とプラーペットカップリングの競合を実装したランダムな測定のみの回路は、$l \ln l$ 液体スケーリング挙動をサブリードする構造的ボリュームロー絡みの位相をもたらすことを示す。 この相互作用するマヨラナ液体は、相対結合確率を変化させる際に得られるエンタングルメント位相図内で高度に対称な球面パラメータ空間を取る。 球体自体が臨界境界であり、量子リフシッツスケーリングは、体積法相を近縁領域法相、色符号またはトーリック符号から分離する。 例外は、体積法相と面積法相が一致するような有効(1+1)d共形スケーリングを示す三項自双点の集合である。 量子情報の観点からは, 投影誤差と確率的シンドローム測定の存在下で, カラーコードの誤差しきい値を定義する。 我々は,単一ゲートと1量子ビットの同時計測のみを用いて,モデル回路の代替実現を実現することができることを示す。

Monitored quantum circuits allow for unprecedented dynamical control of many-body entanglement. Here we show that random, measurement-only circuits, implementing the competition of bond and plaquette couplings of the Kitaev honeycomb model, give rise to a structured volume-law entangled phase with subleading $L \ln L$ liquid scaling behavior. This interacting Majorana liquid takes up a highly-symmetric, spherical parameter space within the entanglement phase diagram obtained when varying the relative coupling probabilities. The sphere itself is a critical boundary with quantum Lifshitz scaling separating the volume-law phase from proximate area-law phases, a color code or a toric code. An exception is a set of tricritical, self-dual points exhibiting effective (1+1)d conformal scaling at which the volume-law phase and both area-law phases meet. From a quantum information perspective, our results define error thresholds for the color code in the presence of projective error and stochastic syndrome measurements. We show that an alternative realization of our model circuit can be implemented using unitary gates plus ancillary single-qubit measurements only.
翻訳日:2023-04-03 16:24:04 公開日:2023-03-30
# 人間-ロボット協調のための注視に基づく注意認識

Gaze-based Attention Recognition for Human-Robot Collaboration ( http://arxiv.org/abs/2303.17619v1 )

ライセンス: Link先を確認
Pooja Prajod, Matteo Lavit Nicora, Matteo Malosio, Elisabeth Andr\'e(参考訳) 注意(および注意をそらす)認識は、人間とロボットのコラボレーションを改善する上で重要な要素である。 本稿では,人間オペレータとコボットが等しく協力してギアボックスを組み立てる組立シナリオを提案する。 このセットアップは、cobotがオペレータの注意に応じて行動に適応する複数の機会を提供し、コラボレーション体験を改善し、心理的負担を軽減することができる。 最初のステップとして、人間の操作者が注意を払っている作業空間内の領域を認識し、操作者が気を散らされていることを検知する。 本稿では,注目度認識モデルを開発するための新しいディープラーニング手法を提案する。 まず、公開画像データセットを用いて視線方向を推定するために畳み込みニューラルネットワークを訓練する。 次に,小さなデータセットを用いた転送学習を用いて,視線方向を興味のある既定領域にマッピングする。 このアプローチでトレーニングされたモデルは、小さなデータセットのremove-one-subject-out評価で非常にうまく機能しました。 提案した組立シナリオのオペレータとして作業する参加者から収集したビデオスニペットを用いて,モデルをさらに検証した。 この場合、気を取られたクラスへのリコールは低かったが、モデルはオペレーターが注意を払っていた領域を認識するのにうまくいった。 我々の知る限りでは、産業用ロボットのコラボレーションを模倣する設定から得られたデータを用いて、アテンション認識モデルを検証する最初の研究である。 本研究は, 完全誘導型非誘導型シナリオにおける注意認識ソリューションの検証の必要性を強調した。

Attention (and distraction) recognition is a key factor in improving human-robot collaboration. We present an assembly scenario where a human operator and a cobot collaborate equally to piece together a gearbox. The setup provides multiple opportunities for the cobot to adapt its behavior depending on the operator's attention, which can improve the collaboration experience and reduce psychological strain. As a first step, we recognize the areas in the workspace that the human operator is paying attention to, and consequently, detect when the operator is distracted. We propose a novel deep-learning approach to develop an attention recognition model. First, we train a convolutional neural network to estimate the gaze direction using a publicly available image dataset. Then, we use transfer learning with a small dataset to map the gaze direction onto pre-defined areas of interest. Models trained using this approach performed very well in leave-one-subject-out evaluation on the small dataset. We performed an additional validation of our models using the video snippets collected from participants working as an operator in the presented assembly scenario. Although the recall for the Distracted class was lower in this case, the models performed well in recognizing the areas the operator paid attention to. To the best of our knowledge, this is the first work that validated an attention recognition model using data from a setting that mimics industrial human-robot collaboration. Our findings highlight the need for validation of attention recognition solutions in such full-fledged, non-guided scenarios.
翻訳日:2023-04-03 16:23:36 公開日:2023-03-30
# アダプティブリファインメントとカントロビッチ計量によるデータ駆動抽象化 [拡張版]

Data-driven abstractions via adaptive refinements and a Kantorovich metric [extended version] ( http://arxiv.org/abs/2303.17618v1 )

ライセンス: Link先を確認
Adrien Banse, Licio Romao, Alessandro Abate, Rapha\"el M. Jungers(参考訳) 本稿では,動的システムのスマートでスケーラブルな抽象化のための適応的改良手順を提案する。 我々の手法は将来の出力の観測に依存する状態空間の分割に依存している。 しかし、この知識は適応的で非対称な方法で動的に構築される。 最適構造を学ぶために,マルコフ鎖間のカントロヴィチに触発された計量を定義し,損失関数として用いる。 私たちの技術はデータ駆動型フレームワークに傾向がありますが、制限はありません。 また、上記のマルコフ連鎖間の計量の性質について研究し、より広い目的のために応用できると考えている。 近似アルゴリズムを提案し,従来の線形プログラミング手法よりも計算の複雑さがはるかに高いことを示す。

We introduce an adaptive refinement procedure for smart, and scalable abstraction of dynamical systems. Our technique relies on partitioning the state space depending on the observation of future outputs. However, this knowledge is dynamically constructed in an adaptive, asymmetric way. In order to learn the optimal structure, we define a Kantorovich-inspired metric between Markov chains, and we use it as a loss function. Our technique is prone to data-driven frameworks, but not restricted to. We also study properties of the above mentioned metric between Markov chains, which we believe could be of application for wider purpose. We propose an algorithm to approximate it, and we show that our method yields a much better computational complexity than using classical linear programming techniques.
翻訳日:2023-04-03 16:23:13 公開日:2023-03-30
# 水消費データに基づく時系列予測モデルの評価:ギリシャを事例として

An evaluation of time series forecasting models on water consumption data: A case study of Greece ( http://arxiv.org/abs/2303.17617v1 )

ライセンス: Link先を確認
Ioannis Kontopoulos, Antonios Makris, Konstantinos Tserpes, Theodora Varvarigou(参考訳) 近年、都市化と工業化が進み、水需要と資源が増大し、需要と供給のギャップが増大している。 水資源の運用、計画、管理を改善することで需要と供給の均衡を緩和する上で、適切な水流通と水消費の予測が重要な要素である。 そこで本稿では, 多様な社会経済・都市化問題を抱えるギリシャにおける, 時系列・水消費データを用いて, 予測アルゴリズムの評価を行った。 予測アルゴリズムは、ギリシャの水供給下水会社が提供する実世界のデータセットで評価され、各アルゴリズムとその使用に関する重要な洞察が明らかにされる。

In recent years, the increased urbanization and industrialization has led to a rising water demand and resources, thus increasing the gap between demand and supply. Proper water distribution and forecasting of water consumption are key factors in mitigating the imbalance of supply and demand by improving operations, planning and management of water resources. To this end, in this paper, several well-known forecasting algorithms are evaluated over time series, water consumption data from Greece, a country with diverse socio-economic and urbanization issues. The forecasting algorithms are evaluated on a real-world dataset provided by the Water Supply and Sewerage Company of Greece revealing key insights about each algorithm and its use.
翻訳日:2023-04-03 16:23:02 公開日:2023-03-30
# ドメイン変換とディープラーニングによるグルコース時系列のパターン検出

Patterns Detection in Glucose Time Series by Domain Transformations and Deep Learning ( http://arxiv.org/abs/2303.17616v1 )

ライセンス: Link先を確認
J. Alvarado, J. Manuel Velasco, F. Ch\'avez, J.Ignacio Hidalgo, F. Fern\'andez de Vega(参考訳) 糖尿病患者は血糖値を適切な範囲に保つために管理しなければならない。 将来のグルコース値が健康な閾値外になるかどうかを予測することは、健康被害を避けるための修正措置を取る上で極めて重要である。 本稿では,血糖値の将来的な挙動を予測し,血糖値低下の事象を予知することを目的とした。 この研究のアプローチは、グルコース時系列への変換関数の適用と畳み込みニューラルネットワークにおける利用である。 提案手法は,4種類の糖尿病患者の実データを用いて有望な結果を得た。

People with diabetes have to manage their blood glucose level to keep it within an appropriate range. Predicting whether future glucose values will be outside the healthy threshold is of vital importance in order to take corrective actions to avoid potential health damage. In this paper we describe our research with the aim of predicting the future behavior of blood glucose levels, so that hypoglycemic events may be anticipated. The approach of this work is the application of transformation functions on glucose time series, and their use in convolutional neural networks. We have tested our proposed method using real data from 4 different diabetes patients with promising results.
翻訳日:2023-04-03 16:22:50 公開日:2023-03-30
# de novo薬物設計における強化学習の活用

Utilizing Reinforcement Learning for de novo Drug Design ( http://arxiv.org/abs/2303.17615v1 )

ライセンス: Link先を確認
Hampus Gummesson Svensson, Christian Tyrchan, Ola Engkvist, Morteza Haghir Chehreghani(参考訳) 特定の性質を持つ新規な薬物分子を生成するためのディープラーニングベースのアプローチは、ここ数年で大きな関心を集めている。 近年の研究では、強化学習を利用した新規分子の文字列ベース生成に有望な性能を示した。 本稿では,ドパミン受容体RDD2に対して活性を示すと予測される新規分子を生成するためのRNNベースのポリシーを学習するために,ドノボ薬物設計のための強化学習を用いた統一的な枠組みを開発し,様々なオン・オフ・ポリティクス強化学習アルゴリズムとバッファーを体系的に研究する。 以上の結果から,少なくともトップスコーリング分子とロースコーリング分子の両方を,構造多様性が不可欠である場合の方針更新に利用する方が有利であることが示唆された。 すべての生成分子を反復で使用すると、オンポジーアルゴリズムのパフォーマンス安定性が向上するようである。 さらに、高分子、中間分子、低分子を再生する場合、オフポリシーアルゴリズムは、生成する活性分子の構造的多様性と数を改善する可能性を示すが、より長い探索フェーズのコストがかかる可能性がある。 本研究は,ド・ノボ薬物設計のための様々な強化学習手法を研究者が研究できるオープンソースフレームワークを提供する。

Deep learning-based approaches for generating novel drug molecules with specific properties have gained a lot of interest in the last years. Recent studies have demonstrated promising performance for string-based generation of novel molecules utilizing reinforcement learning. In this paper, we develop a unified framework for using reinforcement learning for de novo drug design, wherein we systematically study various on- and off-policy reinforcement learning algorithms and replay buffers to learn an RNN-based policy to generate novel molecules predicted to be active against the dopamine receptor DRD2. Our findings suggest that it is advantageous to use at least both top-scoring and low-scoring molecules for updating the policy when structural diversity is essential. Using all generated molecules at an iteration seems to enhance performance stability for on-policy algorithms. In addition, when replaying high, intermediate, and low-scoring molecules, off-policy algorithms display the potential of improving the structural diversity and number of active molecules generated, but possibly at the cost of a longer exploration phase. Our work provides an open-source framework enabling researchers to investigate various reinforcement learning methods for de novo drug design.
翻訳日:2023-04-03 16:22:40 公開日:2023-03-30
# 多筋協調運動における連続筋疲労の推定 : パイロット研究

Estimating Continuous Muscle Fatigue For Multi-Muscle Coordinated Exercise: A Pilot Study ( http://arxiv.org/abs/2303.17614v1 )

ライセンス: Link先を確認
Chunzhi Yi, Baichun Wei, Wei Jin, Jianfei Zhu, Seungmin Rho, Zhiyuan Chen and Feng Jiang(参考訳) 日常運動における筋疲労の進行を評価することは、特にメタバースの文脈下で、正確なリハビリテーション、パーソナライズされた訓練用量にとって重要な指標となる。 多筋協調運動の疲労評価には, 筋の時空間的適応の疲労を表わす神経筋的特徴と, 経時的疲労進行を捉える推定因子が必要である。 本稿では,筋補償と脊髄モジュール活性化の特徴による疲労の描写と,生理的合理的モデルによる連続疲労の推定を提案する。 まず,疲労により引き起こされる神経筋適応の先行に触発された特徴として,筋シナジー分画と脊髄モジュールスパイキングの変動を抽出する。 第2に,特徴を観察として扱い,ベイズ・ガウス過程を発達させ,時間発展の進行を捉える。 第3に,疲労の時間発展特性を損失関数として数学的に定式化することにより,監督情報の欠如を解消する。 最後に,疲労の生理的原理に従う指標を適用し,パフォーマンスを定量的に評価する。 我々の広範な実験では、日数0.99の類似性、疲労の他の見解と0.7以上の類似性、および他の方法に匹敵する1に近い弱単調性を示す。 本研究は筋疲労の客観的評価を目的とした。

Assessing the progression of muscle fatigue for daily exercises provides vital indicators for precise rehabilitation, personalized training dose, especially under the context of Metaverse. Assessing fatigue of multi-muscle coordination-involved daily exercises requires the neuromuscular features that represent the fatigue-induced characteristics of spatiotemporal adaptions of multiple muscles and the estimator that captures the time-evolving progression of fatigue. In this paper, we propose to depict fatigue by the features of muscle compensation and spinal module activation changes and estimate continuous fatigue by a physiological rationale model. First, we extract muscle synergy fractionation and the variance of spinal module spikings as features inspired by the prior of fatigue-induced neuromuscular adaptations. Second, we treat the features as observations and develop a Bayesian Gaussian process to capture the time-evolving progression. Third, we solve the issue of lacking supervision information by mathematically formulating the time-evolving characteristics of fatigue as the loss function. Finally, we adapt the metrics that follow the physiological principles of fatigue to quantitatively evaluate the performance. Our extensive experiments present a 0.99 similarity between days, a over 0.7 similarity with other views of fatigue and a nearly 1 weak monotonicity, which outperform other methods. This study would aim the objective assessment of muscle fatigue.
翻訳日:2023-04-03 16:22:19 公開日:2023-03-30
# 粒径分布検出のためのベースラインの確立とTernaryMixOEの導入

Establishing baselines and introducing TernaryMixOE for fine-grained out-of-distribution detection ( http://arxiv.org/abs/2303.17658v1 )

ライセンス: Link先を確認
Noah Fleischmann, Walter Bennette, Nathan Inkawhich(参考訳) オープンワールドにデプロイされた機械学習モデルは、認識する訓練を受けていない観察に遭遇する可能性があり、そのような観測を高い信頼性で誤分類するリスクがある。 したがって、これらのモデルは、この誤分類を避けるために、内分布(id)と外分布(ood)のどちらであるかを確認できることが不可欠である。 近年では、この区別にロバストなモデルを作成する上で大きな進歩を遂げている。 その結果、現在の最先端技術は、トラックと馬を区別するなど、比較的粗いOOD検出タスクにおいて、商業航空機の差別化モデルのようなよりきめ細かい分類に苦しむなど、ほぼ完全なパフォーマンスに達している。 本稿では, 細粒度および粗粒度OOD検出の新たな理論的枠組みについて述べるとともに, 細粒度分類を3つの問題に再概念化し, 細粒度階層データセット上でのOODモデルに対する新しいベースラインタスク, 細粒度と粗粒度OOD性能を区別する2つの新しい評価手法と, モデルに対する新たな損失関数を提案する。

Machine learning models deployed in the open world may encounter observations that they were not trained to recognize, and they risk misclassifying such observations with high confidence. Therefore, it is essential that these models are able to ascertain what is in-distribution (ID) and out-of-distribution (OOD), to avoid this misclassification. In recent years, huge strides have been made in creating models that are robust to this distinction. As a result, the current state-of-the-art has reached near perfect performance on relatively coarse-grained OOD detection tasks, such as distinguishing horses from trucks, while struggling with finer-grained classification, like differentiating models of commercial aircraft. In this paper, we describe a new theoretical framework for understanding fine- and coarse-grained OOD detection, we re-conceptualize fine grained classification into a three part problem, and we propose a new baseline task for OOD models on two fine-grained hierarchical data sets, two new evaluation methods to differentiate fine- and coarse-grained OOD performance, along with a new loss function for models in this task.
翻訳日:2023-04-03 16:16:19 公開日:2023-03-30
# 機械学習を用いたCMSにおける改良粒子流アルゴリズムの進歩

Progress towards an improved particle flow algorithm at CMS with machine learning ( http://arxiv.org/abs/2303.17657v1 )

ライセンス: Link先を確認
Farouk Mokhtar, Joosep Pata, Javier Duarte, Eric Wulff, Maurizio Pierini, Jean-Roch Vlimant(参考訳) トラックとカロリメータのクラスターに基づいて粒子を推定する粒子フロー(pf)アルゴリズムはcern lhcのcms実験においてイベントリコンストラクションの中心的重要であり、パイルアップと検出器粒度の増加を伴う計画段階2の走行条件に照らして開発が進められている。 近年、pf再構成を行うグラフニューラルネットワークである machine learned particle-flow (mlpf) アルゴリズムがcmsで研究されており、興味の物理量を直接最適化し、新しい条件に高度に再構成可能であり、異種加速器への展開に自然に適合する利点がある。 本報告では,MLPF 再構成の実装改善に向けた CMS の進展を論じ,生成/シミュレーションレベル粒子情報をターゲットとして最適化した。 これにより、関心の物理量の観点から検出器応答を改善することができる。 シミュレーションに基づくトレーニングターゲット,事象に基づく損失項の進展と研究,モデルハイパーパラメータチューニングの詳細,およびジェットのような高レベルな物理量と過渡運動量分解能の欠如の観点からの現在のPFアルゴリズムに関する物理検証について述べる。 MLPFアルゴリズムは, 生成/シミュレーションレベル粒子情報を初めてトレーニングし, ベースラインPFと広範囲に互換性のある粒子とジェットの再構成性能を実現し, 追加のトレーニング統計とモデルチューニングによる物理性能向上のステージを設定した。

The particle-flow (PF) algorithm, which infers particles based on tracks and calorimeter clusters, is of central importance to event reconstruction in the CMS experiment at the CERN LHC, and has been a focus of development in light of planned Phase-2 running conditions with an increased pileup and detector granularity. In recent years, the machine learned particle-flow (MLPF) algorithm, a graph neural network that performs PF reconstruction, has been explored in CMS, with the possible advantages of directly optimizing for the physical quantities of interest, being highly reconfigurable to new conditions, and being a natural fit for deployment to heterogeneous accelerators. We discuss progress in CMS towards an improved implementation of the MLPF reconstruction, now optimized using generator/simulation-level particle information as the target for the first time. This paves the way to potentially improving the detector response in terms of physical quantities of interest. We describe the simulation-based training target, progress and studies on event-based loss terms, details on the model hyperparameter tuning, as well as physics validation with respect to the current PF algorithm in terms of high-level physical quantities such as the jet and missing transverse momentum resolutions. We find that the MLPF algorithm, trained on a generator/simulator level particle information for the first time, results in broadly compatible particle and jet reconstruction performance with the baseline PF, setting the stage for improving the physics performance by additional training statistics and model tuning.
翻訳日:2023-04-03 16:15:55 公開日:2023-03-30
# 障害物環境におけるUAVスワムを用いた経路計画のためのQラーニングシステム

Q-learning Based System for Path Planning with UAV Swarms in Obstacle Environments ( http://arxiv.org/abs/2303.17655v1 )

ライセンス: Link先を確認
Alejandro Puente-Castro, Daniel Rivero, Eurico Pedrosa, Artur Pereira, Nuno Lau, Enrique Fernandez-Blanco(参考訳) 無人航空機群(uav)の自律制御のための経路計画手法は、それらがもたらすすべての利点のために高まっている。 複数のUAVを自律的に制御する必要があるシナリオはますます増えている。 これらのシナリオのほとんどは、電力線や木のような多くの障害をもたらします。 すべてのUAVを自律的に運用できれば、人件費を削減できる。 さらに、飛行経路が最適であれば、エネルギー消費は減少する。 これにより、他の操作により多くのバッテリ時間が残される。 本稿では,q-learningを用いて障害のある環境においてこの問題を解決するための強化学習ベースシステムを提案する。 この方法では、モデル、特にこの場合、ニューラルネットワークは、失敗や成果から学習することで自己調整を可能にする。 地図のサイズやSwarm内のUAVの数に関わらず、これらのパスの目標は、フィールド探索のようなタスクのための固定された障害のある領域を完全にカバーすることである。 目標を設定したり、提供されたマップ以外に事前情報を持つ必要はない。 実験では、異なる障害物を持つ大きさの5つのマップが使用された。 実験は異なる数のUAVを用いて行われた。 結果の計算には、各実験でタスクを完了するためにすべてのuavが行うアクションの数を考慮に入れる。 アクションの数が少ないほど、パスが短くなり、エネルギー消費が減ります。 結果は満足でき、システムはより多くのuavが存在するほど、より少ない動きで解を得る。 より良いプレゼンテーションのために、これらの結果は別の最先端のアプローチと比較された。

Path Planning methods for autonomous control of Unmanned Aerial Vehicle (UAV) swarms are on the rise because of all the advantages they bring. There are more and more scenarios where autonomous control of multiple UAVs is required. Most of these scenarios present a large number of obstacles, such as power lines or trees. If all UAVs can be operated autonomously, personnel expenses can be decreased. In addition, if their flight paths are optimal, energy consumption is reduced. This ensures that more battery time is left for other operations. In this paper, a Reinforcement Learning based system is proposed for solving this problem in environments with obstacles by making use of Q-Learning. This method allows a model, in this particular case an Artificial Neural Network, to self-adjust by learning from its mistakes and achievements. Regardless of the size of the map or the number of UAVs in the swarm, the goal of these paths is to ensure complete coverage of an area with fixed obstacles for tasks, like field prospecting. Setting goals or having any prior information aside from the provided map is not required. For experimentation, five maps of different sizes with different obstacles were used. The experiments were performed with different number of UAVs. For the calculation of the results, the number of actions taken by all UAVs to complete the task in each experiment is taken into account. The lower the number of actions, the shorter the path and the lower the energy consumption. The results are satisfactory, showing that the system obtains solutions in fewer movements the more UAVs there are. For a better presentation, these results have been compared to another state-of-the-art approach.
翻訳日:2023-04-03 16:15:27 公開日:2023-03-30
# 自己定義: 自己フィードバックによる反復的リファインメント

Self-Refine: Iterative Refinement with Self-Feedback ( http://arxiv.org/abs/2303.17651v1 )

ライセンス: Link先を確認
Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Sean Welleck, Bodhisattwa Prasad Majumder, Shashank Gupta, Amir Yazdanbakhsh, Peter Clark(参考訳) 人と同様に、LLMは最初の試行で与えられた世代問題(要約、回答、説明など)に対して常に最高のテキストを生成するわけではない。 人々がテキストを洗練させるのと同じように、反復的なフィードバックと改善を通じてLLMからの初期出力を改善するフレームワークであるSELF-REFINEを導入します。 主なアイデアは、llmを使用して出力を生成して、同じモデルが自身の出力に対してマルチアスペクトのフィードバックを提供することである。 従来の作業とは異なり、反復的な改善フレームワークは教師付きトレーニングデータや強化学習を必要とせず、単一のLLMで動作する。 レビューの書き直しから数学の推論まで,7つのタスクを試行し,我々のアプローチが直接生成より優れていることを示す。 すべてのタスクにおいて、SELF-REFINEで生成された出力は、人間や、GPT-3.5とGPT-4で直接生成されたものよりも自動化されたメトリクスによって好まれる。

Like people, LLMs do not always generate the best text for a given generation problem on their first try (e.g., summaries, answers, explanations). Just as people then refine their text, we introduce SELF-REFINE, a framework for similarly improving initial outputs from LLMs through iterative feedback and refinement. The main idea is to generate an output using an LLM, then allow the same model to provide multi-aspect feedback for its own output; finally, the same model refines its previously generated output given its own feedback. Unlike earlier work, our iterative refinement framework does not require supervised training data or reinforcement learning, and works with a single LLM. We experiment with 7 diverse tasks, ranging from review rewriting to math reasoning, demonstrating that our approach outperforms direct generation. In all tasks, outputs generated with SELF-REFINE are preferred by humans and by automated metrics over those generated directly with GPT-3.5 and GPT-4, improving on average by absolute 20% across tasks.
翻訳日:2023-04-03 16:15:07 公開日:2023-03-30
# ブラインドレビュアーとテキスト分類アルゴリズムによるChatGPTから生成された抽象要約と実要約の比較

Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries Through Blinded Reviewers and Text Classification Algorithms ( http://arxiv.org/abs/2303.17650v1 )

ライセンス: Link先を確認
Mayank Soni and Vincent Wade(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおける印象的なパフォーマンスのために大きな注目を集めています。 OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたもので、ヒューマンライクなテキスト生成機能のために、少数の人々によって破壊的技術と呼ばれている。 インターネット上の多くの逸話的な例はチャットgptの強みと弱みを評価しているが、体系的な研究は少ない。 本稿では,ChatGPTの体系的な研究の体系化に寄与するため,自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。 chatgpt生成の要約を検出する自動テキスト分類器も構築した。 テキスト分類アルゴリズムは実要約と生成要約を区別できるが,人間は実要約とchatgptで生成された要約を区別できないことがわかった。

Large Language Models (LLMs) have gathered significant attention due to their impressive performance on a variety of tasks. ChatGPT, developed by OpenAI, is a recent addition to the family of language models and is being called a disruptive technology by a few, owing to its human-like text-generation capabilities. Although, many anecdotal examples across the internet have evaluated ChatGPT's strength and weakness, only a few systematic research studies exist. To contribute to the body of literature of systematic research on ChatGPT, we evaluate the performance of ChatGPT on Abstractive Summarization by the means of automated metrics and blinded human reviewers. We also build automatic text classifiers to detect ChatGPT generated summaries. We found that while text classification algorithms can distinguish between real and generated summaries, humans are unable to distinguish between real summaries and those produced by ChatGPT.
翻訳日:2023-04-03 16:14:48 公開日:2023-03-30
# 強化学習を用いた英語中規模GPTモデルをスペイン語の小さな閉領域にアライメントする

Aligning a medium-size GPT model in English to a small closed domain in Spanish using reinforcement learning ( http://arxiv.org/abs/2303.17649v1 )

ライセンス: Link先を確認
Oscar R. Navarrete-Parra, Victor Uc-Cetina, Jorge Reyes-Magana(参考訳) 本稿では,もともとオープンドメインのために英語で訓練された中規模gptモデルを,スペイン語の小さなクローズドドメインに整合させる手法を提案する。 モデルを微調整したアプリケーションは、質問応答タスクである。 これを実現するためには、別のニューラルネットワーク(報酬モデルと呼んでいます)をトレーニングし、実装する必要があります。 このコンポーネントは、システムのデコードと応答の生成を改善するのに役立った。 BLEUやパープレキシティなどの数値指標をモデル評価に使用し、デコード手法と他の手法との比較にも人的判断を用いた。 その結果,提案手法が好適であり,報奨モデルを用いて応答の生成を調整することが可能であることが判明した。

In this paper, we propose a methodology to align a medium-sized GPT model, originally trained in English for an open domain, to a small closed domain in Spanish. The application for which the model is finely tuned is the question answering task. To achieve this we also needed to train and implement another neural network (which we called the reward model) that could score and determine whether an answer is appropriate for a given question. This component served to improve the decoding and generation of the answers of the system. Numerical metrics such as BLEU and perplexity were used to evaluate the model, and human judgment was also used to compare the decoding technique with others. Finally, the results favored the proposed method, and it was determined that it is feasible to use a reward model to align the generation of responses.
翻訳日:2023-04-03 16:14:32 公開日:2023-03-30
# パーソナライズ実験による実践的政策最適化

Practical Policy Optimization with Personalized Experimentation ( http://arxiv.org/abs/2303.17648v1 )

ライセンス: Link先を確認
Mia Garrard, Hanson Wang, Ben Letham, Shaun Singh, Abbas Kazerouni, Sarah Tan, Zehui Wang, Yin Huang, Yichun Hu, Chad Zhou, Norm Zhou, Eytan Bakshy(参考訳) 多くの組織は実験プラットフォームを通じて治療効果を測定し、実際の展開前に製品のバリエーションのカジュアルな効果を評価する。 しかし、標準実験プラットフォームは、ヘテロジニアス処理効果(HTE)を示すエンドユーザーに対して最適に機能しない。 本稿では、HTEモデリングとシーケンシャル決定ポリシー最適化を通じて、ユーザレベルでの治療グループ割り当てを最適化し、複数の短期および長期の成果を同時に最適化するパーソナライズド実験フレームワークPEXを提案する。 実際に成功したことが証明され、オープンソースソフトウェアを使って簡単に実装できるエンドツーエンドワークフローについて説明する。

Many organizations measure treatment effects via an experimentation platform to evaluate the casual effect of product variations prior to full-scale deployment. However, standard experimentation platforms do not perform optimally for end user populations that exhibit heterogeneous treatment effects (HTEs). Here we present a personalized experimentation framework, Personalized Experiments (PEX), which optimizes treatment group assignment at the user level via HTE modeling and sequential decision policy optimization to optimize multiple short-term and long-term outcomes simultaneously. We describe an end-to-end workflow that has proven to be successful in practice and can be readily implemented using open-source software.
翻訳日:2023-04-03 16:14:19 公開日:2023-03-30
# ビジュアルストーリーにおける重要人物の検出と接地

Detecting and Grounding Important Characters in Visual Stories ( http://arxiv.org/abs/2303.17647v1 )

ライセンス: Link先を確認
Danyang Liu, Frank Keller(参考訳) 登場人物はどんな物語の筋書きにも欠かせない。 ストーリーを書く前にキャラクターを確立することは、プロットの明快さと物語全体の流れを改善することができる。 しかし、ビジュアルストーリーテリングに関する以前の研究は、画像中のオブジェクトの検出とそれらの間の関係の発見に集中する傾向がある。 このアプローチでは、文字は生成パイプラインに投入されたときに他のオブジェクトと区別されない。 結果として、キャラクター中心のストーリーではなく、イベントのコヒーレントなシーケンスになる。 この制限に対処するために、vist-characterデータセットを導入し、ビジュアルおよびテキストのコリファレンスチェーンと文字の重要性評価を含む、リッチな文字中心のアノテーションを提供する。 このデータセットに基づいて,重要な文字検出と視覚的ストーリーにおける文字グラウンドニングという2つの新しいタスクを提案する。 どちらのタスクでも,分布的類似性と事前学習された視覚言語モデルに基づく,単純で教師なしのモデルを開発する。 我々の新しいデータセットは、これらのモデルとともに、キャラクター中心の視点からストーリーを分析し、生成する作業の基盤となる。

Characters are essential to the plot of any story. Establishing the characters before writing a story can improve the clarity of the plot and the overall flow of the narrative. However, previous work on visual storytelling tends to focus on detecting objects in images and discovering relationships between them. In this approach, characters are not distinguished from other objects when they are fed into the generation pipeline. The result is a coherent sequence of events rather than a character-centric story. In order to address this limitation, we introduce the VIST-Character dataset, which provides rich character-centric annotations, including visual and textual co-reference chains and importance ratings for characters. Based on this dataset, we propose two new tasks: important character detection and character grounding in visual stories. For both tasks, we develop simple, unsupervised models based on distributional similarity and pre-trained vision-and-language models. Our new dataset, together with these models, can serve as the foundation for subsequent work on analysing and generating stories from a character-centric perspective.
翻訳日:2023-04-03 16:14:08 公開日:2023-03-30
# XPert:エリアとエネルギー効率の高いXbarベースのコンピューティングのための周辺回路とニューラルネットワークの共同研究

XPert: Peripheral Circuit & Neural Architecture Co-search for Area and Energy-efficient Xbar-based Computing ( http://arxiv.org/abs/2303.17646v1 )

ライセンス: Link先を確認
Abhishek Moitra, Abhiroop Bhattacharjee, Youngeun Kim and Priyadarshini Panda(参考訳) インメモリコンピューティング(IMC)アーキテクチャに実装されたディープニューラルネットワーク(DNN)のハードウェア効率と精度は、主にDNNアーキテクチャと周辺回路パラメータに依存している。 したがって、最適性能を達成するために、ネットワークと周辺パラメータを確率的に共同研究することが不可欠である。 そこで本研究では,アナログ・デジタルコンバータの型と精度,クロスバー・カラムの共有,レイヤ固有の入力精度といった周辺パラメータを,最適化に基づく設計空間探索を用いて共同で探索するXPertを提案する。 VGG16ベースラインと比較して、XPertは10.24x (4.7x)低いEDAP、1.72x (1.62x)高いTOPS/W,1.93x (3x)高いTOPS/mm2を92.46% (56.7%)の精度で達成している。 この論文のコードはhttps://github.com/intelligent-computing-lab-yale/xpertで入手できる。

The hardware-efficiency and accuracy of Deep Neural Networks (DNNs) implemented on In-memory Computing (IMC) architectures primarily depend on the DNN architecture and the peripheral circuit parameters. It is therefore essential to holistically co-search the network and peripheral parameters to achieve optimal performance. To this end, we propose XPert, which co-searches network architecture in tandem with peripheral parameters such as the type and precision of analog-to-digital converters, crossbar column sharing and the layer-specific input precision using an optimization-based design space exploration. Compared to VGG16 baselines, XPert achieves 10.24x (4.7x) lower EDAP, 1.72x (1.62x) higher TOPS/W,1.93x (3x) higher TOPS/mm2 at 92.46% (56.7%) accuracy for CIFAR10 (TinyImagenet) datasets. The code for this paper is available at https://github.com/Intelligent-Computing-Lab-Yale/XPert.
翻訳日:2023-04-03 16:13:53 公開日:2023-03-30
# 放射線画像のための視覚言語モデリングと低データ領域での報告

Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime ( http://arxiv.org/abs/2303.17644v1 )

ライセンス: Link先を確認
Rhydian Windsor, Amir Jamaludin, Timor Kadir, Andrew Zisserman(参考訳) 本稿では、医用視覚言語モデル(VLM)のトレーニングについて、視覚的および言語的入力が共通の空間に埋め込まれている点について考察する。 我々は、下記を含む、低データパフォーマンスを改善する候補メソッドをいくつか検討する。 (i)ユニモーダル・セルフ・スーパービジョンによる新しい画像及びテキスト領域(医用画像及びレポート)へのジェネリック事前学習モデルの適用 (ii) ローカル(GLoRIAなど)とグローバル(InfoNCEなど)のコントラスト損失関数と2つの組み合わせを使用すること。 (iii)vlm訓練中の追加監督 (a)画像及びテキストのみの自己スーパービジョン、及び (b)増補と近距離探索による訓練のためのポジティブな画像テキストペアの作成。 テキストから画像への検索をベンチマークとして評価し,胸部x線撮影とx線撮影の多変量トレーニングデータセットを用いて評価を行った。 組み合わせることで、データのトレーニングとほぼ同等の微調整のCLIPに比べて、検索が大幅に改善される。 CXR 関連条件の下流タスク分類では,CLIP よりも優れたCXR VLM ベンチマークである BioVIL も,ゼロショットおよびリニアプローブ設定では同様のパターンがみられた。 トレーニングデータが少ない場合には、他の医用画像のモダリティに基づいて視覚言語モデルを訓練することを目的とした研究者のための一連の勧告で締めくくる。 さらなる研究を容易にするため、コードとモデルを公開します。

This paper explores training medical vision-language models (VLMs) -- where the visual and language inputs are embedded into a common space -- with a particular focus on scenarios where training data is limited, as is often the case in clinical datasets. We explore several candidate methods to improve low-data performance, including: (i) adapting generic pre-trained models to novel image and text domains (i.e. medical imaging and reports) via unimodal self-supervision; (ii) using local (e.g. GLoRIA) & global (e.g. InfoNCE) contrastive loss functions as well as a combination of the two; (iii) extra supervision during VLM training, via: (a) image- and text-only self-supervision, and (b) creating additional positive image-text pairs for training through augmentation and nearest-neighbour search. Using text-to-image retrieval as a benchmark, we evaluate the performance of these methods with variable sized training datasets of paired chest X-rays and radiological reports. Combined, they significantly improve retrieval compared to fine-tuning CLIP, roughly equivalent to training with the data. A similar pattern is found in the downstream task classification of CXR-related conditions with our method outperforming CLIP and also BioVIL, a strong CXR VLM benchmark, in the zero-shot and linear probing settings. We conclude with a set of recommendations for researchers aiming to train vision-language models on other medical imaging modalities when training data is scarce. To facilitate further research, we will make our code and models publicly available.
翻訳日:2023-04-03 16:13:30 公開日:2023-03-30
# 仮想試着におけるロバストウォーピングのためのガーメントDensePoseの学習

Learning Garment DensePose for Robust Warping in Virtual Try-On ( http://arxiv.org/abs/2303.17688v1 )

ライセンス: Link先を確認
Aiyu Cui, Sen He, Tao Xiang, Antoine Toisoul(参考訳) 仮想試着(virtual try-on、仮想試着)は、コンピュータビジョンにおける活発な研究分野であり、優れた商業的応用がある。 現在の仮想試行方法は、通常2段階のパイプラインで機能する。 まず、フロー推定ネットワークを用いて、衣服画像を人のポーズに反動させる。 そして、第2段では、歪んだ衣服を人物画像と融合させて新たな試着画像を描画する。 残念なことに、こうした手法は、ハードポーズ(例えば腕を持ち上げる、または交差する人)を扱うときにしばしば失敗する衣服のワープの品質に大きく依存している。 本研究では,DensePose と直接対応した学習衣服 DensePose に基づく仮想試行のための堅牢なワープ手法を提案する。 注釈データの欠如により,既設の人物密度分布モデルと事前学習フローモデルを用いて,被服密度分布を弱い教師付きで学習する方法を示す。 DensePoseは、任意の人のポーズに、余分な計算なしで堅牢なワープを可能にする。 提案手法は,仮想試行ベンチマークにおける最先端の等価性を実現し,実世界の仮想試行アプリケーションに適していることを示す。

Virtual try-on, i.e making people virtually try new garments, is an active research area in computer vision with great commercial applications. Current virtual try-on methods usually work in a two-stage pipeline. First, the garment image is warped on the person's pose using a flow estimation network. Then in the second stage, the warped garment is fused with the person image to render a new try-on image. Unfortunately, such methods are heavily dependent on the quality of the garment warping which often fails when dealing with hard poses (e.g., a person lifting or crossing arms). In this work, we propose a robust warping method for virtual try-on based on a learned garment DensePose which has a direct correspondence with the person's DensePose. Due to the lack of annotated data, we show how to leverage an off-the-shelf person DensePose model and a pretrained flow model to learn the garment DensePose in a weakly supervised manner. The garment DensePose allows a robust warping to any person's pose without any additional computation. Our method achieves the state-of-the-art equivalent on virtual try-on benchmarks and shows warping robustness on in-the-wild person images with hard poses, making it more suited for real-world virtual try-on applications.
翻訳日:2023-04-03 16:06:20 公開日:2023-03-30
# 金属カーボンナノチューブ中のwigner cuspsの観察

Observation of Wigner cusps in a metallic carbon nanotube ( http://arxiv.org/abs/2303.17687v1 )

ライセンス: Link先を確認
B.T. Blue, R. Tsuchikawa, A. Ahmadi, Z. Zhang, D. Heligman, S.D. Lough, J. Hone, E. R. Mucciolo, M. Ishigami(参考訳) 従来の金属カーボンナノチューブのゲート依存性コンダクタンス測定では、2つの異なるゲート電圧で発生する説明不能コンダクタンス抑制が明らかになった。 これらは従来、接触抵抗のゲート依存性が原因であった。 キラリティが知られている金属ナノチューブのゲート依存性伝導度測定は、これらのバイモーダル伝導抑制が、原子物理学実験や原子核実験でよく見られるウィグナーカスの徴候であることを示している。

Previous gate-dependent conductance measurements of metallic carbon nanotubes have revealed unexplainable conductance suppressions, occurring at two different gate voltages. These were previously attributed to the gate-dependency of contact resistance. Our gate-dependent conductivity measurements on a metallic nanotube with known chirality show that these bimodal conductance suppressions are the manifestations of Wigner cusps, often seen in atomic and nuclear physics experiments.
翻訳日:2023-04-03 16:05:56 公開日:2023-03-30
# チップスケールトランスデューサを用いた非古典的マイクロ波光光子対生成

Non-classical microwave-optical photon pair generation with a chip-scale transducer ( http://arxiv.org/abs/2303.17684v1 )

ライセンス: Link先を確認
Srujan Meesala, Steven Wood, David Lake, Piero Chiappina, Changchun Zhong, Andrew D. Beyer, Matthew D. Shaw, Liang Jiang, Oskar Painter(参考訳) スーパーコンピュータやインターネットのような現代のコンピューティングや通信技術は、マイクロ波周波数情報プロセッサの光接続ネットワークに基づいている。 近年,量子コンピューティングの先駆的プラットフォームである遠隔超伝導量子プロセッサ間の光分散絡み合いを持つ量子ネットワークの類似アーキテクチャが出現している。 ここでは、光リンク中の光子と超伝導電気回路との間の非古典的相関を観測することにより、そのようなネットワークへの重要なマイルストーンを報告する。 我々は、チップスケールのピエゾ-オプトメカニカルトランスデューサにおいて、自発的パラメトリックダウンコンバージョン(spdc)プロセスを通じてそのような光状態を生成する。 光光子検出にともなうマイクロ波状態において、発光光の古典的でない性質を観察することにより検証する。 このようなトランスデューサは超伝導量子プロセッサに容易に接続でき、マイクロ波キュービットの光量子ネットワークの鍵となるビルディングブロックとして機能する。

Modern computing and communication technologies such as supercomputers and the internet are based on optically connected networks of microwave frequency information processors. In recent years, an analogous architecture has emerged for quantum networks with optically distributed entanglement between remote superconducting quantum processors, a leading platform for quantum computing. Here we report an important milestone towards such networks by observing non-classical correlations between photons in an optical link and a superconducting electrical circuit. We generate such states of light through a spontaneous parametric down-conversion (SPDC) process in a chip-scale piezo-optomechanical transducer. The non-classical nature of the emitted light is verified by observing anti-bunching in the microwave state conditioned on detection of an optical photon. Such a transducer can be readily connected to a superconducting quantum processor, and serve as a key building block for optical quantum networks of microwave frequency qubits.
翻訳日:2023-04-03 16:05:46 公開日:2023-03-30
# 文字レベル雑音を呈する細調整BERTによる辞書および近接言語へのゼロショット転送

Fine-Tuning BERT with Character-Level Noise for Zero-Shot Transfer to Dialects and Closely-Related Languages ( http://arxiv.org/abs/2303.17683v1 )

ライセンス: Link先を確認
Aarohi Srivastava and David Chiang(参考訳) 本研究では,BERTを微調整することで,未知の方言や言語へのゼロショットのクロスランガル移動を可能にするため,様々な形態の文字レベルノイズを誘導する。 BERTを3つの文レベルの分類タスクで微調整し、未知の方言や言語へのアプローチを評価する。 文字レベルの雑音は特定の条件下での言語間伝達の極めて有効なエージェントとなりうるが、他の状況ではそれほど役に立たない。 具体的には、タスクの性質と、ソース言語とターゲット言語の関係からこれらの違いを探求し、微調整中の文字レベルノイズの導入は、タスクが表面レベルに描画されるときに特に有用であり、ソース-ターゲットのクロスリンガルペアは、平均的に短い(つまり、あまり意味のない)未確認トークンと比較的高い語彙重なりを持つ。

In this work, we induce character-level noise in various forms when fine-tuning BERT to enable zero-shot cross-lingual transfer to unseen dialects and languages. We fine-tune BERT on three sentence-level classification tasks and evaluate our approach on an assortment of unseen dialects and languages. We find that character-level noise can be an extremely effective agent of cross-lingual transfer under certain conditions, while it is not as helpful in others. Specifically, we explore these differences in terms of the nature of the task and the relationships between source and target languages, finding that introduction of character-level noise during fine-tuning is particularly helpful when a task draws on surface level cues and the source-target cross-lingual pair has a relatively high lexical overlap with shorter (i.e., less meaningful) unseen tokens on average.
翻訳日:2023-04-03 16:05:32 公開日:2023-03-30
# 到達可能な集合の凸包の厳密なキャラクタリゼーション

Exact Characterization of the Convex Hulls of Reachable Sets ( http://arxiv.org/abs/2303.17674v1 )

ライセンス: Link先を確認
Thomas Lew, Riccardo Bonalli, Marco Pavone(参考訳) 境界外乱を持つ非線形システムの到達可能な集合の凸包について検討する。 到達可能な集合は制御において重要な役割を果たすが、計算が困難であることで知られており、既存の過剰近似ツールは保守的あるいは計算的に高価である傾向がある。 本研究では、到達可能な集合の凸包を、外乱のすべての可能な初期値から通常の微分方程式の解の凸包として正確に特徴づける。 この有限次元キャラクタリゼーションは、既存の手法よりもはるかに高速で精度の高い超近似リーチブル集合に対する厳密な推定アルゴリズムを解き放つ。 ニューラルフィードバックループ解析とロバストモデル予測制御への応用について述べる。

We study the convex hulls of reachable sets of nonlinear systems with bounded disturbances. Reachable sets play a critical role in control, but remain notoriously challenging to compute, and existing over-approximation tools tend to be conservative or computationally expensive. In this work, we exactly characterize the convex hulls of reachable sets as the convex hulls of solutions of an ordinary differential equation from all possible initial values of the disturbances. This finite-dimensional characterization unlocks a tight estimation algorithm to over-approximate reachable sets that is significantly faster and more accurate than existing methods. We present applications to neural feedback loop analysis and robust model predictive control.
翻訳日:2023-04-03 16:05:10 公開日:2023-03-30
# 制御されたResNetの無限幅深度限界としてのニューラルシグネチャカーネル

Neural signature kernels as infinite-width-depth-limits of controlled ResNets ( http://arxiv.org/abs/2303.17671v1 )

ライセンス: Link先を確認
Nicola Muca Cirone, Maud Lemercier, Cristopher Salvi(参考訳) 貯水池計算のパラダイムに動機づけられ,神経制御微分方程式(神経cdes)のオイラー離散化として定義されるランダム初期化制御再ネットを考える。 無限幅の極限と適切なスケーリングの下では、これらのアーキテクチャは連続パスのある空間上にインデックス付けされたガウス過程と、活性化関数の選択に応じて変化する偏微分方程式(pdes)を満たすカーネルに弱収束する。 活性化が同一性である特別な場合、方程式は線形pdeに還元され、制限核はsalvi et al. (2021) のシグネチャ核と一致することを示す。 この設定では、幅幅制限が通勤することを示す。 我々はこの制限カーネルの新たなファミリーをニューラルシグネチャカーネルと名付けた。 最後に,有限深層構造において,有限幅制御レネットは,重みが層間で共有されているか,時間に依存しないかガウス的か,あるいは行列値のブラウン運動のように振る舞うランダムベクトル場を持つ神経cdに分布的に収束することを示した。

Motivated by the paradigm of reservoir computing, we consider randomly initialized controlled ResNets defined as Euler-discretizations of neural controlled differential equations (Neural CDEs). We show that in the infinite-width-then-depth limit and under proper scaling, these architectures converge weakly to Gaussian processes indexed on some spaces of continuous paths and with kernels satisfying certain partial differential equations (PDEs) varying according to the choice of activation function. In the special case where the activation is the identity, we show that the equation reduces to a linear PDE and the limiting kernel agrees with the signature kernel of Salvi et al. (2021). In this setting, we also show that the width-depth limits commute. We name this new family of limiting kernels neural signature kernels. Finally, we show that in the infinite-depth regime, finite-width controlled ResNets converge in distribution to Neural CDEs with random vector fields which, depending on whether the weights are shared across layers, are either time-independent and Gaussian or behave like a matrix-valued Brownian motion.
翻訳日:2023-04-03 16:05:00 公開日:2023-03-30
# リモートセンシングによる土地利用と稲作パターンの分析

Utilizing Remote Sensing to Analyze Land Usage and Rice Planting Patterns ( http://arxiv.org/abs/2303.17670v1 )

ライセンス: Link先を確認
Nicholas Milikich(参考訳) バリの米段丘の協調管理は、人間の決定と生態系プロセスの間のフィードバックループに由来する興味深い現象を明らかにした。 特に空間的なパターンが観察され、農夫が作物を植えることを決めたことと、害虫被害や水不足といった物理的環境からの反応に大きく依存している。 最近の研究では、バリ地域に沿った空間的パターンを規定する特定の権力法則を推測する進化ゲーム理論モデルが提案されている。 本稿では,米の生育の異なる段階を示す色付きバリの稲穂のスナップショットを示す。

The cooperative management of rice terraces in Bali reveals an interesting phenomenon that stems from the feedback loop between human decisions and the ecosystem process. In particular, spatial patterning is observed, which is heavily reliant on the farmer's decision to plant crops as well as the response from the physical environment like pest damage and water shortage. A recent study proposed an evolutionary game theoretic model to infer particular power laws governing this spatial patterning along the Bali region. In this paper, we show a snapshot of rice patches in Bali with colors to indicate the different stages of rice growth
翻訳日:2023-04-03 16:04:39 公開日:2023-03-30
# Taureau: Twitter Sentiment分析に基づく株式市場の動き予測フレームワーク

Taureau: A Stock Market Movement Inference Framework Based on Twitter Sentiment Analysis ( http://arxiv.org/abs/2303.17667v1 )

ライセンス: Link先を確認
Nicholas Milikich and Joshua Johnson(参考訳) 急速な情報普及と検索の出現により、株式市場価格予測の自動化手段を身につけることが本質的に重要になっている。 本稿では、twitterの感情分析を利用して株式市場の動きを予測するフレームワークであるtaureauを提案する。 当社の研究の目的は、一般大衆の代表と推定されるtwitterが、特定の企業の一般認識に対する洞察を与え、その企業の株価変動と何らかの相関があるかどうかを判断することにある。 我々はこの相関を利用して株価変動を予測する。 まずTweepyとgetOldTweetsを使って、主要なイベントの期間中にトップ企業の意見を示す歴史的なツイートを入手する。 標準のプログラミングライブラリを使ってツイートをフィルタリングし、ラベル付けします。 そして、得られたツイートから単語をベクトル化し、埋め込みを生成する。 その後、現在最先端の感情分析エンジンであるTextBlobを活用し、ツイートに基づいてユーザーの気分を評価し定量化する。 次に、得られた感情スコアの時間次元を月次株価変動データと相関する。 最後に,評価スコアから株価変動を予測するための予測モデルの設計と評価を行う。 我々は,実際の株価変動データを用いて,その動き方向を予測する能力を評価する。

With the advent of fast-paced information dissemination and retrieval, it has become inherently important to resort to automated means of predicting stock market prices. In this paper, we propose Taureau, a framework that leverages Twitter sentiment analysis for predicting stock market movement. The aim of our research is to determine whether Twitter, which is assumed to be representative of the general public, can give insight into the public perception of a particular company and has any correlation to that company's stock price movement. We intend to utilize this correlation to predict stock price movement. We first utilize Tweepy and getOldTweets to obtain historical tweets indicating public opinions for a set of top companies during periods of major events. We filter and label the tweets using standard programming libraries. We then vectorize and generate word embedding from the obtained tweets. Afterward, we leverage TextBlob, a state-of-the-art sentiment analytics engine, to assess and quantify the users' moods based on the tweets. Next, we correlate the temporal dimensions of the obtained sentiment scores with monthly stock price movement data. Finally, we design and evaluate a predictive model to forecast stock price movement from lagged sentiment scores. We evaluate our framework using actual stock price movement data to assess its ability to predict movement direction.
翻訳日:2023-04-03 16:04:29 公開日:2023-03-30
# ツイスト相ネットワークにおけるフロッケ符号と位相

Floquet codes and phases in twist-defect networks ( http://arxiv.org/abs/2303.17664v1 )

ライセンス: Link先を確認
Joseph Sullivan, Rui Wen, Andrew C. Potter(参考訳) 我々は、タキエフのハニカムモデルの構造を一般化したペアドツイスト相反ネットワークと呼ばれるモデル群を導入する。 一 フロケット符号(FC) 二 ガッピングハミルトニアンの断熱ループ、及び 三 ユニタリループ又はフロッケエンリッチ位相秩序(fets)多体局所化相 この定式化により、FCの力学を理解し、多くのFCモデルのコード特性を迅速に評価するために、FET に対して十分にキャラクタライズされたトポロジカル指数定理を適用することができる。 その結果,haahとhastingsのハニカムフロッケ符号は,バルク測定スケジュールと同じ周期性を持つ単純な論理境界を形成するための位相的障害であるカイラルフロッケ指数の不合理な値に支配されていることがわかった。 さらに,アベリア位相秩序の一般型に対して任意の正準自己同型ダイナミクスを示すHoneycomb Floquet符号の一般化を構築する。

We introduce a class of models, dubbed paired twist-defect networks, that generalize the structure of Kitaev's honeycomb model for which there is a direct equivalence between: i) Floquet codes (FCs), ii) adiabatic loops of gapped Hamiltonians, and iii) unitary loops or Floquet-enriched topological orders (FETs) many-body localized phases. This formalism allows one to apply well-characterized topological index theorems for FETs to understand the dynamics of FCs, and to rapidly assess the code properties of many FC models. As an application, we show that the Honeycomb Floquet code of Haah and Hastings is governed by an irrational value of the chiral Floquet index, which implies a topological obstruction to forming a simple, logical boundary with the same periodicity as the bulk measurement schedule. In addition, we construct generalizations of the Honeycomb Floquet code exhibiting arbitrary anyon-automorphism dynamics for general types of Abelian topological order.
翻訳日:2023-04-03 16:04:11 公開日:2023-03-30
# MetaEnhance: 大学図書館の電子資料・論文のメタデータ品質改善

MetaEnhance: Metadata Quality Improvement for Electronic Theses and Dissertations of University Libraries ( http://arxiv.org/abs/2303.17661v1 )

ライセンス: Link先を確認
Muntabir Hasan Choudhury, Lamia Salsabil, Himarsha R. Jayanetti, Jian Wu, William A. Ingram, Edward A. Fox(参考訳) メタデータの品質は、デジタルライブラリインタフェースを通してデジタルオブジェクトを発見するために不可欠である。 しかし、様々な理由から、デジタルオブジェクトのメタデータは不完全、矛盾、誤った値を示すことが多い。 本研究では,学術メタデータの自動検出,正当化,正準化を行う手法について,電子的情報・論文の7分野(ETD)を事例として検討する。 本稿では,最先端の人工知能手法を用いて,これらの分野の品質を向上させるためのフレームワークであるmetaenhanceを提案する。 メタエンハンスを評価するために,500個のETDを含むメタデータ品質評価ベンチマークを,複数の基準でサンプリングしたサブセットを組み合わせてコンパイルした。 このベンチマークでMetaEnhanceを検証したところ,提案手法は5つのフィールドのうち0.85から1.00の誤差を検出できるF1スコアとF1スコアをほぼ完璧に検出できることがわかった。

Metadata quality is crucial for digital objects to be discovered through digital library interfaces. However, due to various reasons, the metadata of digital objects often exhibits incomplete, inconsistent, and incorrect values. We investigate methods to automatically detect, correct, and canonicalize scholarly metadata, using seven key fields of electronic theses and dissertations (ETDs) as a case study. We propose MetaEnhance, a framework that utilizes state-of-the-art artificial intelligence methods to improve the quality of these fields. To evaluate MetaEnhance, we compiled a metadata quality evaluation benchmark containing 500 ETDs, by combining subsets sampled using multiple criteria. We tested MetaEnhance on this benchmark and found that the proposed methods achieved nearly perfect F1-scores in detecting errors and F1-scores in correcting errors ranging from 0.85 to 1.00 for five of seven fields.
翻訳日:2023-04-03 16:03:53 公開日:2023-03-30
# Fairer Weak Supervisionのソースバイアスの緩和

Mitigating Source Bias for Fairer Weak Supervision ( http://arxiv.org/abs/2303.17713v1 )

ライセンス: Link先を確認
Changho Shin, Sonia Cromp, Dyah Adila, Frederic Sala(参考訳) 弱監督はラベルボトルネックを克服し、トレーニングセットの効率的な開発を可能にする。 このようなデータセットでトレーニングされた数百万のモデルが現実世界にデプロイされ、毎日ユーザと対話している。 しかし、弱い監督を魅力的にする技術 -- 未知のラベルを推定するために信号のソースを統合するなど -- は、それが生成する擬似ラベルが非常に偏りがあることを保証する。 驚いたことに、日常の使用とバイアスの増加の可能性を考えると、公正の観点からは、弱い監督は研究されていない。 この研究はそのような研究から始まる。 我々の出発点は、地平線ラベルにアクセス可能なデータセットから公正なモデルを構築することができても、弱い監督によってラベル付けされた対応するデータセットは、任意に不公平であることです。 幸運なことに、すべてが失われるわけではない:弱い監督下でソースの不公平なモデルを提案し、実証的に検証し、これらのバイアスを緩和できる単純な反実的公正に基づく手法を導入する。 理論的には、トレードオフに苦しむ標準的な公正なアプローチとは対照的に、精度と公平性の両方を同時に改善することが可能である。 本手法は,人口格差を82.5%削減しつつ,弱監督基準の精度を最大32%向上させることを実証的に示す。

Weak supervision overcomes the label bottleneck, enabling efficient development of training sets. Millions of models trained on such datasets have been deployed in the real world and interact with users on a daily basis. However, the techniques that make weak supervision attractive -- such as integrating any source of signal to estimate unknown labels -- also ensure that the pseudolabels it produces are highly biased. Surprisingly, given everyday use and the potential for increased bias, weak supervision has not been studied from the point of view of fairness. This work begins such a study. Our departure point is the observation that even when a fair model can be built from a dataset with access to ground-truth labels, the corresponding dataset labeled via weak supervision can be arbitrarily unfair. Fortunately, not all is lost: we propose and empirically validate a model for source unfairness in weak supervision, then introduce a simple counterfactual fairness-based technique that can mitigate these biases. Theoretically, we show that it is possible for our approach to simultaneously improve both accuracy and fairness metrics -- in contrast to standard fairness approaches that suffer from tradeoffs. Empirically, we show that our technique improves accuracy on weak supervision baselines by as much as 32% while reducing demographic parity gap by 82.5%.
翻訳日:2023-04-03 15:58:01 公開日:2023-03-30
# S-VolSDF:Sparse Multi-View Stereo Regularization of Neural Implicit Surfaces

S-VolSDF: Sparse Multi-View Stereo Regularization of Neural Implicit Surfaces ( http://arxiv.org/abs/2303.17712v1 )

ライセンス: Link先を確認
Haoyu Wu, Alexandros Graikos, Dimitris Samaras(参考訳) 暗黙的表面のニューラルレンダリングは、3d視覚アプリケーションでうまく機能する。 しかし、監督には密集した入力ビューが必要である。 スパース入力画像のみが利用可能になると、形状照度曖昧性の問題により出力品質が著しく低下する。 マルチビューステレオ(MVS)の場合のように、複数のビューで3Dポイントが見える場合、この曖昧さは制約される。 そこで我々は,MVSソリューションを用いてニューラルレンダリング最適化の正規化を提案する。 MVS確率体積と一般化されたクロスエントロピー損失の使用は、耐雑音性最適化プロセスにつながる。 さらに、ニューラルレンダリングは、MVS深度仮説サンプリングをガイドするグローバルな一貫性の制約を提供するため、MVSのパフォーマンスが向上する。 3つのスパース・インプット・ビューのみを考えると,本手法は汎用的なニューラルレンダリングモデルよりも大きなマージンで優れるだけでなく,MVSモデルの再構築品質も著しく向上することが示された。 プロジェクトWebページ: https://hao-yu-wu.github.io/s-volsdf/。

Neural rendering of implicit surfaces performs well in 3D vision applications. However, it requires dense input views as supervision. When only sparse input images are available, output quality drops significantly due to the shape-radiance ambiguity problem. We note that this ambiguity can be constrained when a 3D point is visible in multiple views, as is the case in multi-view stereo (MVS). We thus propose to regularize neural rendering optimization with an MVS solution. The use of an MVS probability volume and a generalized cross entropy loss leads to a noise-tolerant optimization process. In addition, neural rendering provides global consistency constraints that guide the MVS depth hypothesis sampling and thus improves MVS performance. Given only three sparse input views, experiments show that our method not only outperforms generic neural rendering models by a large margin but also significantly increases the reconstruction quality of MVS models. Project webpage: https://hao-yu-wu.github.io/s-volsdf/.
翻訳日:2023-04-03 15:57:41 公開日:2023-03-30
# 質問に答えるにはどのような質問が必要か? AskReddit 質問のケーススタディ

What Types of Questions Require Conversation to Answer? A Case Study of AskReddit Questions ( http://arxiv.org/abs/2303.17710v1 )

ライセンス: Link先を確認
Shih-Hong Huang, Chieh-Yang Huang, Ya-Fang Lin, Ting-Hao 'Kenneth' Huang(参考訳) チャットボット、音声対話システム、スマートスピーカーなどの自動会話システムの普及は、現代のデジタル生活に大きな影響を与えている。 しかし、これらのシステムは、ユーザが複雑な不明確な質問を探索するのを支援するのではなく、よく定義された質問に対する回答を提供するように設計されている。 本稿では,会話を通じて最も答えられる不明瞭でオープンな質問のタイプを調べることにより,会話システムの境界を押し上げることを目的とする。 最初にAskRedditに投稿された100万件のオープンエンドリクエストから500件の質問をサンプリングし、オンラインの群衆労働者を雇い、これらの質問について8つの質問に答えた。 また、オープンコーディングを行い、質問を27の異なる領域に分類しました。 人々が十分解決するために会話を必要とすると考える問題は、高度に社会的で個人的なものであることが分かりました。 私たちの研究は、将来の研究がどのようにユーザのニーズに合わせることができるかについての洞察を提供する。

The proliferation of automated conversational systems such as chatbots, spoken-dialogue systems, and smart speakers, has significantly impacted modern digital life. However, these systems are primarily designed to provide answers to well-defined questions rather than to support users in exploring complex, ill-defined questions. In this paper, we aim to push the boundaries of conversational systems by examining the types of nebulous, open-ended questions that can best be answered through conversation. We first sampled 500 questions from one million open-ended requests posted on AskReddit, and then recruited online crowd workers to answer eight inquiries about these questions. We also performed open coding to categorize the questions into 27 different domains. We found that the issues people believe require conversation to resolve satisfactorily are highly social and personal. Our work provides insights into how future research could be geared to align with users' needs.
翻訳日:2023-04-03 15:57:23 公開日:2023-03-30
# 深層学習モデル変換器の故障とリスクの分析:ONNXエコシステムを事例として

Analysis of Failures and Risks in Deep Learning Model Converters: A Case Study in the ONNX Ecosystem ( http://arxiv.org/abs/2303.17708v1 )

ライセンス: Link先を確認
Purvish Jajal, Wenxin Jiang, Arav Tewari, Joseph Woo, Yung-Hsiang Lu, George K. Thiruvathukal, James C. Davis(参考訳) ソフトウェアエンジニアは、ディープラーニング(DL)モデルを開発し、微調整し、デプロイする。 さまざまな開発フレームワークでモデルを使用、再利用し、さまざまなランタイム環境にデプロイする。 この多様なエコシステムにおいて、エンジニアはdlモデルコンバータを使用してモデルをフレームワークからランタイム環境に移行する。 しかし、コンバータのエラーはモデルの品質を損なう可能性がある。 dlモデル変換器の故障頻度と故障モードは不明である。 本稿では,dlモデル変換器における最初の故障解析を行う。 具体的には、ONNX(Open Neural Network eXchange)に関連するモデルコンバータの故障を特徴付ける。 我々は、PyTorchとTensorFlowという2つの主要なDLフレームワークにおいて、ONNXコンバータの過去の障害を分析する。 症状、原因、障害の場所(N=200問題)、時間経過の傾向も報告されている。 また,実世界インスタンスと合成インスタンスの両方で8,797モデルを変換して,現在の障害を評価する。 両研究から得られた一貫した結果は、DLモデルコンバータが不正確な動作を示すモデルを生成することで、一般的に失敗するということである。 我々の成果は、DLソフトウェアをメンテナンス、拡張、検証しやすくするための将来の研究を動機付けている。

Software engineers develop, fine-tune, and deploy deep learning (DL) models. They use and re-use models in a variety of development frameworks and deploy them on a range of runtime environments. In this diverse ecosystem, engineers use DL model converters to move models from frameworks to runtime environments. However, errors in converters can compromise model quality and disrupt deployment. The failure frequency and failure modes of DL model converters are unknown. In this paper, we conduct the first failure analysis on DL model converters. Specifically, we characterize failures in model converters associated with ONNX (Open Neural Network eXchange). We analyze past failures in the ONNX converters in two major DL frameworks, PyTorch and TensorFlow. The symptoms, causes, and locations of failures (for N=200 issues), and trends over time are also reported. We also evaluate present-day failures by converting 8,797 models, both real-world and synthetically generated instances. The consistent result from both parts of the study is that DL model converters commonly fail by producing models that exhibit incorrect behavior: 33% of past failures and 8% of converted models fell into this category. Our results motivate future research on making DL software simpler to maintain, extend, and validate.
翻訳日:2023-04-03 15:57:09 公開日:2023-03-30
# AIの説明可能性と可視性を再考する

Rethinking AI Explainability and Plausibility ( http://arxiv.org/abs/2303.17707v1 )

ライセンス: Link先を確認
Weina Jin and Xiaoxiao Li and Ghassan Hamarneh(参考訳) 説明可能な人工知能(XAI)のための適切な評価目標を設定することは、XAIアルゴリズムを人間のコミュニケーション規範に従い、人間の推論プロセスをサポートし、AI説明に対する人間の要求を満たすために不可欠である。 本稿では,xai評価において最も広く普及している概念である説明可能性について考察する。 可視性は、機械の説明が人間の説明といかに妥当かを測定する。 可塑性は従来,AI説明可能性タスクの重要な評価対象として定式化されてきた。 我々は、この考え方に反対し、XAIを可否性のために最適化し評価することは、時に有害であり、常にモデルの理解可能性、透明性、信頼性を達成するために効果がないことを示す。 具体的には、XAIアルゴリズムの評価により、機械の説明が人間の説明と全く同じ内容を表現するように正規化され、人間の説明の基本的動機から逸脱する: 類似または代替的な推論軌跡を、理解可能な形式や言語に順応しながら表現する。 モデル決定の正確性によらず、xaiを実用性に最適化することは、モデルの信頼性を損なう。そうすることで、人間と人間の説明において重要な仮定が破られる。 XAI評価の最終目標である代わりに、XAIの有用性を最適化するために説明を解釈する人間のプロセスの中間的な計算プロキシとして機能することができる。 さらに、AI説明タスクとオブジェクトのローカライゼーションタスクを区別することで、説明可能性固有の評価対象の重要性を強調した。

Setting proper evaluation objectives for explainable artificial intelligence (XAI) is vital for making XAI algorithms follow human communication norms, support human reasoning processes, and fulfill human needs for AI explanations. In this article, we examine explanation plausibility, which is the most pervasive human-grounded concept in XAI evaluation. Plausibility measures how reasonable the machine explanation is compared to the human explanation. Plausibility has been conventionally formulated as an important evaluation objective for AI explainability tasks. We argue against this idea, and show how optimizing and evaluating XAI for plausibility is sometimes harmful, and always ineffective to achieve model understandability, transparency, and trustworthiness. Specifically, evaluating XAI algorithms for plausibility regularizes the machine explanation to express exactly the same content as human explanation, which deviates from the fundamental motivation for humans to explain: expressing similar or alternative reasoning trajectories while conforming to understandable forms or language. Optimizing XAI for plausibility regardless of the model decision correctness also jeopardizes model trustworthiness, as doing so breaks an important assumption in human-human explanation namely that plausible explanations typically imply correct decisions, and violating this assumption eventually leads to either undertrust or overtrust of AI models. Instead of being the end goal in XAI evaluation, plausibility can serve as an intermediate computational proxy for the human process of interpreting explanations to optimize the utility of XAI. We further highlight the importance of explainability-specific evaluation objectives by differentiating the AI explanation task from the object localization task.
翻訳日:2023-04-03 15:56:51 公開日:2023-03-30
# 最初は成功しなかった場合: ゼロショット、クロスドメイン検索のためのテスト時間の再ランキング

If At First You Don't Succeed: Test Time Re-ranking for Zero-shot, Cross-domain Retrieval ( http://arxiv.org/abs/2303.17703v1 )

ライセンス: Link先を確認
Finlay G. C. Hudson and William A. P. Smith(参考訳) 本稿では,2つの重要な貢献を行う,ゼロショット・クロスドメイン画像検索手法を提案する。 ひとつは、クエリとギャラリーのペアを、意味のある共有視覚的特徴を伴わずに、ギャラリーとギャラリーのランクを反復的な再ランク付けプロセスに組み込むことで、マッチングを可能にするテスト時間の再ランク付け手順である。 2つ目は、訓練時のクロスアテンションと知識蒸留を用いて、1枚の画像からテスト時にクロスアテンションのような特徴を抽出する。 Vision Transformer アーキテクチャとゼロショット検索損失を組み合わせると,Sketchy と TU-Berlin のスケッチに基づく画像検索ベンチマークの最先端結果が得られる。 しかし、従来の多くの方法とは異なり、スケッチベースの画像検索タスクに特化して設計されたコンポーネントは存在せず、クロスドメインのゼロショット検索タスクに一般的に適用することができる。 また,Office-Homeデータセットを用いたゼロショットマンガ画像検索の結果も示す。

In this paper we propose a novel method for zero-shot, cross-domain image retrieval in which we make two key contributions. The first is a test-time re-ranking procedure that enables query-gallery pairs, without meaningful shared visual features, to be matched by incorporating gallery-gallery ranks into an iterative re-ranking process. The second is the use of cross-attention at training time and knowledge distillation to encourage cross-attention-like features to be extracted at test time from a single image. When combined with the Vision Transformer architecture and zero-shot retrieval losses, our approach yields state-of-the-art results on the Sketchy and TU-Berlin sketch-based image retrieval benchmarks. However, unlike many previous methods, none of the components in our approach are engineered specifically towards the sketch-based image retrieval task - it can be generally applied to any cross-domain, zero-shot retrieval task. We therefore also show results on zero-shot cartoon-to-photo retrieval using the Office-Home dataset.
翻訳日:2023-04-03 15:56:25 公開日:2023-03-30
# ブレイディングのないトポロジカル量子テレポーテーションと超高密度符号化

Topological Quantum Teleportation and Superdense Coding Without Braiding ( http://arxiv.org/abs/2303.17700v1 )

ライセンス: Link先を確認
Sachin J. Valera(参考訳) 量子テレポーテーションとスーパーデンス符号化プロトコルを,任意のオンによって実現されたトポロジカルキューディットの文脈で提示する。 提案手法の単純さは, タンバラ-山上分類のモノイド構造に基づくものであり, 最大絡み合った四重項の生成が容易である。 特に,いずれのプロトコルも,任意のブレイディングを行なわずに実行可能であることを示す。 本発表では, プロトコルが自然な解釈を見出す媒体である, 組込み融合カテゴリのグラフィカル計算を利用する。 また、Ising anyon を用いて、パウリ門のブレイドフリーな実現も見出す。

We present the quantum teleportation and superdense coding protocols in the context of topological qudits, as realised by anyons. The simplicity of our proposed realisation hinges on the monoidal structure of Tambara-Yamagami categories, which readily allows for the generation of maximally entangled qudits. In particular, we show that both protocols can be performed without any braiding of anyons. Our exposition makes use of the graphical calculus for braided fusion categories, a medium in which the protocols find a natural interpretation. We also find a braid-free realisation of the Pauli gates using Ising anyons.
翻訳日:2023-04-03 15:56:06 公開日:2023-03-30
# 医用画像分割のためのdual cross-attention

Dual Cross-Attention for Medical Image Segmentation ( http://arxiv.org/abs/2303.17696v1 )

ライセンス: Link先を確認
Gorkem Can Ates, Prasoon Mohan, Emrah Celik(参考訳) 医用画像セグメンテーションのためのU-Netアーキテクチャにおけるスキップ接続を向上できる,シンプルで効果的な注意モジュールであるDual Cross-Attention (DCA)を提案する。 DCAは、エンコーダとデコーダの機能間のセマンティックギャップに対処し、マルチスケールエンコーダ機能間のチャネルと空間の依存関係を順次キャプチャする。 まず、Channel Cross-Attention (CCA)は、マルチスケールエンコーダ機能のチャネルトークン間のクロスアテンションを利用して、グローバルなチャネル依存性を抽出する。 次に、spatial cross-attention(sca)モジュールは、空間トークン間の空間依存性をキャプチャするクロスアテンションを実行する。 最後に、これらの細粒度エンコーダ機能はアップサンプリングされ、対応するデコーダ部品に接続され、スキップ接続スキームを形成する。 提案するdcaモジュールは,u-netやその変種などのスキップ接続により,任意のエンコーダ・デコーダアーキテクチャに統合することができる。 我々は、DCAモジュールをU-Net、V-Net、R2Unet、ResUnet++、DoubleUnet、MultiResUnetの6つのU-Netアーキテクチャに統合してテストする。 DCAモジュールでは、Dice ScoreがGlaSで2.05%、MoNuSegで2.74%、CVC-ClinicDBで1.37%、Kvasir-Segで1.12%、Synapseデータセットで1.44%向上している。 私たちのコードは、https://github.com/gorkemcanates/Dual-Cross-Attentionで利用可能です。

We propose Dual Cross-Attention (DCA), a simple yet effective attention module that is able to enhance skip-connections in U-Net-based architectures for medical image segmentation. DCA addresses the semantic gap between encoder and decoder features by sequentially capturing channel and spatial dependencies across multi-scale encoder features. First, the Channel Cross-Attention (CCA) extracts global channel-wise dependencies by utilizing cross-attention across channel tokens of multi-scale encoder features. Then, the Spatial Cross-Attention (SCA) module performs cross-attention to capture spatial dependencies across spatial tokens. Finally, these fine-grained encoder features are up-sampled and connected to their corresponding decoder parts to form the skip-connection scheme. Our proposed DCA module can be integrated into any encoder-decoder architecture with skip-connections such as U-Net and its variants. We test our DCA module by integrating it into six U-Net-based architectures such as U-Net, V-Net, R2Unet, ResUnet++, DoubleUnet and MultiResUnet. Our DCA module shows Dice Score improvements up to 2.05% on GlaS, 2.74% on MoNuSeg, 1.37% on CVC-ClinicDB, 1.12% on Kvasir-Seg and 1.44% on Synapse datasets. Our codes are available at: https://github.com/gorkemcanates/Dual-Cross-Attention
翻訳日:2023-04-03 15:55:54 公開日:2023-03-30
# 主観的知識を用いたタスク指向会話モデル

Task Oriented Conversational Modelling With Subjective Knowledge ( http://arxiv.org/abs/2303.17695v1 )

ライセンス: Link先を確認
Raja Kumar(参考訳) 既存の会話モデルはデータベース(DB)とAPIベースのシステムによって処理される。 しかし、ユーザの質問はそのようなシステムでは処理できない情報を必要とすることが多い。 それでも、これらの質問に対する回答は、顧客レビューやFAQの形で提供されている。 DSTC-11は、ターン検出、知識選択、応答生成を求める知識からなる3段階パイプラインを提案し、この主観的知識に基づく会話モデルを作成する。 本稿では,システム全体の性能を向上させるための知識選択モジュールの改良に着目する。 特に,より正確かつ高速な知識検索を実現するエンティティ検索手法を提案する。 提案した名前付きエンティティ認識(NER)に基づくエンティティ検索手法は,ベースラインモデルよりも7倍高速な検索を実現する。 また,知識選択の精度を向上する潜在的なキーワード抽出手法についても検討する。 予備的な結果から,知識選択作業における正確な一致点の 4 % の改善が見られた。 コードはhttps://github.com/raja-kumar/knowledge-grounded-TODSで入手できる。

Existing conversational models are handled by a database(DB) and API based systems. However, very often users' questions require information that cannot be handled by such systems. Nonetheless, answers to these questions are available in the form of customer reviews and FAQs. DSTC-11 proposes a three stage pipeline consisting of knowledge seeking turn detection, knowledge selection and response generation to create a conversational model grounded on this subjective knowledge. In this paper, we focus on improving the knowledge selection module to enhance the overall system performance. In particular, we propose entity retrieval methods which result in an accurate and faster knowledge search. Our proposed Named Entity Recognition (NER) based entity retrieval method results in 7X faster search compared to the baseline model. Additionally, we also explore a potential keyword extraction method which can improve the accuracy of knowledge selection. Preliminary results show a 4 \% improvement in exact match score on knowledge selection task. The code is available https://github.com/raja-kumar/knowledge-grounded-TODS
翻訳日:2023-04-03 15:55:23 公開日:2023-03-30
# 多くの物理設計問題は 疎いqcqpsです

Many Physical Design Problems are Sparse QCQPs ( http://arxiv.org/abs/2303.17691v1 )

ライセンス: Link先を確認
Shai Gertler, Zeyu Kuang, Colin Christie, and Owen D. Miller(参考訳) 物理設計は、マクスウェルの微分方程式やシュロディンガーの微分方程式のような制御力学方程式の対象となる目的(例えば、強い光-物質相互作用や完全な量子状態移動)の数学的最適化を指す。 これらの問題は非常に非凸であり、グローバルな最適性を見つけることはNP困難である。 ここで、線形微分方程式力学(線形電磁気学、弾性、量子力学など)では、物理設計最適化問題はスパース行列、二次拘束二次プログラム(qcqp)に変換できることを示す。 スパースQCQPは、科学や工学の他の分野におけるグローバル境界や高性能設計を特定するために開発された凸最適化技術(半有限プログラミングなど)に対処できるが、波動物理学の設計問題には適用できないように思われた。 我々の定式化を原型的フォトニック設計問題に適用し、大面積の地表面の基本的限界を計算できることと、地球規模の最適性に近づく設計の同定を示す。 われわれのアプローチは、特定の物理設計問題に合わせたベスポークアルゴリズムを開発するという約束を強調している。

Physical design refers to mathematical optimization of a desired objective (e.g. strong light--matter interactions, or complete quantum state transfer) subject to the governing dynamical equations, such as Maxwell's or Schrodinger's differential equations. Computing an optimal design is challenging: generically, these problems are highly nonconvex and finding global optima is NP hard. Here we show that for linear-differential-equation dynamics (as in linear electromagnetism, elasticity, quantum mechanics, etc.), the physical-design optimization problem can be transformed to a sparse-matrix, quadratically constrained quadratic program (QCQP). Sparse QCQPs can be tackled with convex optimization techniques (such as semidefinite programming) that have thrived for identifying global bounds and high-performance designs in other areas of science and engineering, but seemed inapplicable to the design problems of wave physics. We apply our formulation to prototypical photonic design problems, showing the possibility to compute fundamental limits for large-area metasurfaces, as well as the identification of designs approaching global optimality. Looking forward, our approach highlights the promise of developing bespoke algorithms tailored to specific physical design problems.
翻訳日:2023-04-03 15:55:11 公開日:2023-03-30
# NISQアルゴリズムにおける効率的な読み出し誤り除去手法の開発と実証

Development and Demonstration of an Efficient Readout Error Mitigation Technique for use in NISQ Algorithms ( http://arxiv.org/abs/2303.17741v1 )

ライセンス: Link先を確認
Andrew Arrasmith, Andrew Patterson, Alice Boughton, and Marco Paini(参考訳) 近似状態推定と密接な関係を持つ古典影法により、比較的少ないショットで複雑な可観測性が推定できる。 これらの手法は、読み出しエラーの影響を対称性のあるランダムな測定値を用いているため、量子ビット数の増加とともに$\mathcal{o}(1)$にスケールするサンプル数だけを必要とする読み出しエラー軽減のための簡易なアプローチが可能であることが示されている。 しかし、これらの技術は各ショットで異なる回路を実行する必要があり、通常、実用上の使用を禁じる遅延量が追加される。 本稿では,リードアウト緩和期待値の近似状態推定と,その手法をRigetti量子コンピューティングハードウェア上で最適に実装する方法を検討する。 本研究では,推定された期待値に対する読み出し誤差の影響を明示的に計算し,その影響を緩和する方法を提案する。 リゲッティ制御システムの改善を活用し、このアプローチの効率的な実装を実証する。 相関したエラーの影響を抑止し、読み出しエラーを正確に緩和できるだけでなく、短時間で10^6$のサンプルを15ドル未満で収集し、処理できることがわかりました。 この開発は、この種のランダム化によるメソッドの実践的利用の道を開く。

The approximate state estimation and the closely related classical shadows methods allow for the estimation of complicated observables with relatively few shots. As these methods make use of random measurements that can symmetrise the effect of readout errors, they have been shown to permit simplified approaches to readout error mitigation which require only a number of samples that scales as $\mathcal{O}(1)$ with increasing numbers of qubits. However, these techniques require executing a different circuit at each shot, adding a typically prohibitive amount of latency that prohibits their practical application. In this manuscript we consider the approximate state estimation of readout-mitigated expectation values, and how to best implement that procedure on the Rigetti quantum computing hardware. We discuss the theoretical aspects involved, providing an explicit computation of the effect of readout error on the estimated expectation values and how to mitigate that effect. Leveraging improvements to the Rigetti control systems, we then demonstrate an efficient implementation of this approach. Not only do we find that we can suppress the effect of correlated errors and accurately mitigate the readout errors, we find that we can do so quickly, collecting and processing $10^6$ samples in less than $1.5$ minutes. This development opens the way for practical uses of methods with this type of randomisation.
翻訳日:2023-04-03 15:48:31 公開日:2023-03-30
# 28シリコン中のイオン化ドナーを用いた39分を超える室温量子ビットストレージ

Room temperature quantum bit storage exceeding 39 minutes using ionized donors in 28-silicon ( http://arxiv.org/abs/2303.17734v1 )

ライセンス: Link先を確認
Kamyar Saeedi, Stephanie Simmons, Jeff Z. Salvail, Phillip Dluhy, Helge Riemann, Nikolai V. Abrosimov, Peter Becker, Hans-Joachim Pohl, John J. L. Morton, and Mike L. W. Thewalt(参考訳) 部屋の温度で長時間コヒーレントな情報を保存し回収できる量子記憶は、多くの新しい技術を可能にする。 半導体中の浅い中性ドナーを用いる電子および核スピン量子ビットは広く研究されているが、低温(約10k)に限定されているが、イオン化ドナーの核スピンは高温操作の可能性を持っている。 等方性に精製された28siにおける31pドナーのアンサンブルに対して, 光学的手法と動的デカップリングを用いて, 室温コヒーレンス時間39分以上を観測する。 さらに、コヒーレントなスピン重ね合わせを4.2kから室温と裏にサイクルでき、同じ系で3時間極低温コヒーレンス時間を報告できることを示した。

Quantum memories capable of storing and retrieving coherent information for extended times at room temperature would enable a host of new technologies. Electron and nuclear spin qubits using shallow neutral donors in semiconductors have been studied extensively but are limited to low temperatures ($\le$10 K); however, the nuclear spins of ionized donors have potential for high temperature operation. We use optical methods and dynamical decoupling to realize this potential for an ensemble of 31P donors in isotopically purified 28Si and observe a room temperature coherence time of over 39 minutes. We further show that a coherent spin superposition can be cycled from 4.2 K to room temperature and back, and report a cryogenic coherence time of 3 hours in the same system.
翻訳日:2023-04-03 15:48:09 公開日:2023-03-30
# 最適な入力ゲイン:フィードフォワードニューラルネットワークをスーパーチャージするだけ

Optimal Input Gain: All You Need to Supercharge a Feed-Forward Neural Network ( http://arxiv.org/abs/2303.17732v1 )

ライセンス: Link先を確認
Chinmay Rane, Kanishka Tyagi, Sanjeev Malalur, Yash Shinge, Michael Manry(参考訳) 入力の線形変換は、それ以外は等価なフィードフォワードネットワークのトレーニング性能を変化させる。 しかし、ほとんどの線形変換は実際のトレーニングとは別個の前処理操作と見なされる。 等価ネットワークから、線形変換を用いた前処理入力は、トレーニングイテレーション毎に負の勾配行列と自己相関行列を乗じることと等価であることが示されている。 繰り返しの学習を最大化する自己相関行列を求めるために, 2次手法を提案する。 自己相関行列が対角的であれば、入力ゲインを最適化する。 この最適入力ゲイン(OIG)アプローチは、入力重みを交互に更新し、出力重みに対する線形方程式を解く、バックプロパゲーション(BP)と隠れ重み最適化(HWO)の2つの一階2段階トレーニングアルゴリズムを改善するために用いられる。 その結果,提案手法は一階アルゴリズムの性能を大幅に向上させ,より少ない計算量で一般的なレベンバーグ・マーカルト法に匹敵する結果が得られた。 HWOはWhitening変換を入力に適用したBPと等価であることが示されている。 HWOは、ホワイトニング変換と学習を効果的に組み合わせている。 したがって、OIGの改善されたHWOは、より複雑なディープラーニングアーキテクチャへの重要なビルディングブロックになり得る。

Linear transformation of the inputs alters the training performance of feed-forward networks that are otherwise equivalent. However, most linear transforms are viewed as a pre-processing operation separate from the actual training. Starting from equivalent networks, it is shown that pre-processing inputs using linear transformation are equivalent to multiplying the negative gradient matrix with an autocorrelation matrix per training iteration. Second order method is proposed to find the autocorrelation matrix that maximizes learning in a given iteration. When the autocorrelation matrix is diagonal, the method optimizes input gains. This optimal input gain (OIG) approach is used to improve two first-order two-stage training algorithms, namely back-propagation (BP) and hidden weight optimization (HWO), which alternately update the input weights and solve linear equations for output weights. Results show that the proposed OIG approach greatly enhances the performance of the first-order algorithms, often allowing them to rival the popular Levenberg-Marquardt approach with far less computation. It is shown that HWO is equivalent to BP with Whitening transformation applied to the inputs. HWO effectively combines Whitening transformation with learning. Thus, OIG improved HWO could be a significant building block to more complex deep learning architectures.
翻訳日:2023-04-03 15:47:53 公開日:2023-03-30
# $\beta^{4}$-irt:新しい$\beta^{3}$-irt

$\beta^{4}$-IRT: A New $\beta^{3}$-IRT with Enhanced Discrimination Estimation ( http://arxiv.org/abs/2303.17731v1 )

ライセンス: Link先を確認
Manuel Ferreira-Junior, Jessica T.S. Reinaldo, Telmo M. Silva Filho, Eufrasio A. Lima Neto, Ricardo B.C. Prudencio(参考訳) 項目応答理論は, 難易度が異なる項目からなるテストにおいて, 回答者の潜伏スキルを推定することを目的としている。 項目応答理論のいくつかのモデルは、二進的または確率的応答、応答時間、複数応答など、様々な種類のタスクに対して提案されている。 本稿では,モデルパラメータの推定に勾配降下法を用いる$\beta^3$-IRTの新バージョンである$\beta^{4}$-IRTを提案する。 しかし、$\beta^3$-irt では、能力と難易度は限定されており、$\beta^{4}$-irt を制約のない勾配降下プロセスに変換するためにリンク関数を用いる。 もともとの$\beta^3$-IRTは対称性の問題であり、もしアイテムが間違った符号で識別値で初期化されていれば、例えば、実際の識別が正のときに負の値となると、そのアイテムの正しい識別と難易度を回復できない。 この制限に対処するため、我々は識別パラメータを2つの新しいパラメータの積としてモデル化した。 また,すべてのパラメータに対する有意義な事前設定も提案した。 我々はパラメータリカバリに関して$\beta^{4}$-IRTと$\beta^3$-IRTを比較する実験を行い、我々の新バージョンはオリジナルの$\beta^3$-IRTよりも優れていた。 最後に、実験で使われる$\beta^3$-IRTの実装とともに、$\beta^{4}$-IRTをPythonパッケージとして公開しました。

Item response theory aims to estimate respondent's latent skills from their responses in tests composed of items with different levels of difficulty. Several models of item response theory have been proposed for different types of tasks, such as binary or probabilistic responses, response time, multiple responses, among others. In this paper, we propose a new version of $\beta^3$-IRT, called $\beta^{4}$-IRT, which uses the gradient descent method to estimate the model parameters. In $\beta^3$-IRT, abilities and difficulties are bounded, thus we employ link functions in order to turn $\beta^{4}$-IRT into an unconstrained gradient descent process. The original $\beta^3$-IRT had a symmetry problem, meaning that, if an item was initialised with a discrimination value with the wrong sign, e.g. negative when the actual discrimination should be positive, the fitting process could be unable to recover the correct discrimination and difficulty values for the item. In order to tackle this limitation, we modelled the discrimination parameter as the product of two new parameters, one corresponding to the sign and the second associated to the magnitude. We also proposed sensible priors for all parameters. We performed experiments to compare $\beta^{4}$-IRT and $\beta^3$-IRT regarding parameter recovery and our new version outperformed the original $\beta^3$-IRT. Finally, we made $\beta^{4}$-IRT publicly available as a Python package, along with the implementation of $\beta^3$-IRT used in our experiments.
翻訳日:2023-04-03 15:47:29 公開日:2023-03-30
# バイオメディカルテキストにおけるタンパク質間相互作用の同定のためのGPTおよびBERTモデルの評価

Evaluation of GPT and BERT-based models on identifying protein-protein interactions in biomedical text ( http://arxiv.org/abs/2303.17728v1 )

ライセンス: Link先を確認
Hasin Rehana, Nur Bengisu \c{C}am, Mert Basmaci, Yongqun He, Arzucan \"Ozg\"ur, Junguk Hur(参考訳) タンパク質-タンパク質相互作用(PPI)の検出は、遺伝子機構、疾患の病因、薬物設計を理解するために重要である。 しかし, 生物医学文献の急速な成長に伴い, 科学的知識発見を促進するために, PPIの自動的かつ正確な抽出の必要性が高まっている。 生成事前学習変換器(GPT)や変換器(BERT)からの双方向エンコーダ表現などの事前学習言語モデルは、自然言語処理(NLP)タスクにおいて有望な結果を示している。 各種GPTおよびBERTモデルのPPI識別性能について,LLL(Learning Language in logic)から77文で164PPIのベンチマークコーパスを手作業で評価した。 BERTベースのモデルは最高性能を達成し、PubMedBERTは最高精度85.17%、F1スコア86.47%、BioM-ALBERTは最高リコール93.83%を記録した。 GPT-4はバイオメディカルテキストのトレーニングを受けていなかったが、83.34%の精度、76.57%のリコール、79.18%のF1スコアで最高のBERTモデルに匹敵する性能を達成した。 これらの結果から, GPTモデルはテキストデータからPPIを効果的に検出し, バイオメディカル文献マイニングタスクに活用できる可能性が示唆された。

Detecting protein-protein interactions (PPIs) is crucial for understanding genetic mechanisms, disease pathogenesis, and drug design. However, with the fast-paced growth of biomedical literature, there is a growing need for automated and accurate extraction of PPIs to facilitate scientific knowledge discovery. Pre-trained language models, such as generative pre-trained transformer (GPT) and bidirectional encoder representations from transformers (BERT), have shown promising results in natural language processing (NLP) tasks. We evaluated the PPI identification performance of various GPT and BERT models using a manually curated benchmark corpus of 164 PPIs in 77 sentences from learning language in logic (LLL). BERT-based models achieved the best overall performance, with PubMedBERT achieving the highest precision (85.17%) and F1-score (86.47%) and BioM-ALBERT achieving the highest recall (93.83%). Despite not being explicitly trained for biomedical texts, GPT-4 achieved comparable performance to the best BERT models with 83.34% precision, 76.57% recall, and 79.18% F1-score. These findings suggest that GPT models can effectively detect PPIs from text data and have the potential for use in biomedical literature mining tasks.
翻訳日:2023-04-03 15:46:58 公開日:2023-03-30
# BOLT:コモディティCPUハードウェア上で大規模ニューラルネットワークをトレーニングおよびデプロイするためのディープラーニングフレームワーク

BOLT: An Automated Deep Learning Framework for Training and Deploying Large-Scale Neural Networks on Commodity CPU Hardware ( http://arxiv.org/abs/2303.17727v1 )

ライセンス: Link先を確認
Nicholas Meisburger, Vihan Lakshman, Benito Geordie, Joshua Engels, David Torres Ramos, Pratik Pranav, Benjamin Coleman, Benjamin Meisburger, Shubh Gupta, Yashwanth Adunukota, Tharun Medini, Anshumali Shrivastava(参考訳) コモディティCPUハードウェア上での大規模なニューラルネットワークトレーニングと推論は、ディープラーニング(DL)機能を民主化する上で、極めて実践的な重要性を持つ。 現在、数十億から数十億のパラメータからなる大規模モデルをトレーニングするプロセスでは、GPUのような特別なハードウェアアクセラレータを広範囲に使用する必要がある。 さらに、これらのモデルのトレーニングとデプロイに関連するカーボンフットプリントが懸念されることが多い。 本稿では,標準的なCPUハードウェア上で大規模ニューラルネットワークモデルをトレーニングするための疎いディープラーニングライブラリBOLTを導入することで,これらの課題に対処する。 boltは、既存の人気のあるdlフレームワークのユーザになじみのあるモデルを構築するための、柔軟でハイレベルなapiを提供する。 特殊なハイパーパラメータを自動的にチューニングすることで、BOLTはスパースネットワークトレーニングのアルゴリズムの詳細を抽象化する。 我々は、推薦、検索、自然言語処理、パーソナライズから引き出された機械学習タスクをBOLTで評価する。 提案システムは,コストとエネルギー消費のごく一部で最先端技術と競合する性能と,より高速な推定時間を実現する。 boltはまた、重要な問題に対処するために複数のビジネスによってうまくデプロイされ、eコマースの分野における1つの顧客展開ケーススタディを強調する。

Efficient large-scale neural network training and inference on commodity CPU hardware is of immense practical significance in democratizing deep learning (DL) capabilities. Presently, the process of training massive models consisting of hundreds of millions to billions of parameters requires the extensive use of specialized hardware accelerators, such as GPUs, which are only accessible to a limited number of institutions with considerable financial resources. Moreover, there is often an alarming carbon footprint associated with training and deploying these models. In this paper, we address these challenges by introducing BOLT, a sparse deep learning library for training massive neural network models on standard CPU hardware. BOLT provides a flexible, high-level API for constructing models that will be familiar to users of existing popular DL frameworks. By automatically tuning specialized hyperparameters, BOLT also abstracts away the algorithmic details of sparse network training. We evaluate BOLT on a number of machine learning tasks drawn from recommendations, search, natural language processing, and personalization. We find that our proposed system achieves competitive performance with state-of-the-art techniques at a fraction of the cost and energy consumption and an order-of-magnitude faster inference time. BOLT has also been successfully deployed by multiple businesses to address critical problems, and we highlight one customer deployment case study in the field of e-commerce.
翻訳日:2023-04-03 15:46:34 公開日:2023-03-30
# ミニバッチにおける逆行性サンプルの生成は、逆行性ロバスト性に有害である可能性がある

Generating Adversarial Samples in Mini-Batches May Be Detrimental To Adversarial Robustness ( http://arxiv.org/abs/2303.17720v1 )

ライセンス: Link先を確認
Timothy Redgrave and Colton Crum(参考訳) ニューラルネットワークはコンピュータビジョンにおいて非常に効果的であることが証明されており、敵の攻撃に対して非常に脆弱である。 その結果、ニューラルネットワークの使用は、その無効なパフォーマンスによって増加するため、敵の攻撃による脅威も発生する。 本研究では, 対向試料生成時に使用するミニバッチサイズと, 対向試料の強度の関係を探索することにより, 対向ロバストネスの課題に対処する。 小型バッチサイズの増加によって生成した試料の有効性が低下することを示し,これらの観測結果と消失勾配の現象との関係を明らかにした。 次に, サンプル強度がミニバッチサイズで低下しないような損失関数を定式化する。 本研究は,敵対的攻撃の真の(実践的な)強さを過小評価する可能性,モデルの頑健さを過大評価するリスクを明らかにする。 コードを共有して、他の人が実験を再現できるようにし、バッチサイズと対向的なサンプル強度の間の関係をさらに探究できるようにします。

Neural networks have been proven to be both highly effective within computer vision, and highly vulnerable to adversarial attacks. Consequently, as the use of neural networks increases due to their unrivaled performance, so too does the threat posed by adversarial attacks. In this work, we build towards addressing the challenge of adversarial robustness by exploring the relationship between the mini-batch size used during adversarial sample generation and the strength of the adversarial samples produced. We demonstrate that an increase in mini-batch size results in a decrease in the efficacy of the samples produced, and we draw connections between these observations and the phenomenon of vanishing gradients. Next, we formulate loss functions such that adversarial sample strength is not degraded by mini-batch size. Our findings highlight a potential risk for underestimating the true (practical) strength of adversarial attacks, and a risk of overestimating a model's robustness. We share our codes to let others replicate our experiments and to facilitate further exploration of the connections between batch size and adversarial sample strength.
翻訳日:2023-04-03 15:46:15 公開日:2023-03-30
# なぜ勝者がベストなのか?

Why is the winner the best? ( http://arxiv.org/abs/2303.17719v1 )

ライセンス: Link先を確認
Matthias Eisenmann, Annika Reinke, Vivienn Weru, Minu Dietlinde Tizabi, Fabian Isensee, Tim J. Adler, Sharib Ali, Vincent Andrearczyk, Marc Aubreville, Ujjwal Baid, Spyridon Bakas, Niranjan Balu, Sophia Bano, Jorge Bernal, Sebastian Bodenstedt, Alessandro Casella, Veronika Cheplygina, Marie Daum, Marleen de Bruijne, Adrien Depeursinge, Reuben Dorent, Jan Egger, David G. Ellis, Sandy Engelhardt, Melanie Ganz, Noha Ghatwary, Gabriel Girard, Patrick Godau, Anubha Gupta, Lasse Hansen, Kanako Harada, Mattias Heinrich, Nicholas Heller, Alessa Hering, Arnaud Huaulm\'e, Pierre Jannin, Ali Emre Kavur, Old\v{r}ich Kodym, Michal Kozubek, Jianning Li, Hongwei Li, Jun Ma, Carlos Mart\'in-Isla, Bjoern Menze, Alison Noble, Valentin Oreiller, Nicolas Padoy, Sarthak Pati, Kelly Payette, Tim R\"adsch, Jonathan Rafael-Pati\~no, Vivek Singh Bawa, Stefanie Speidel, Carole H. Sudre, Kimberlin van Wijnen, Martin Wagner, Donglai Wei, Amine Yamlahi, Moi Hoon Yap, Chun Yuan, Maximilian Zenk, Aneeq Zia, David Zimmerer, Dogu Baran Aydogan, Binod Bhattarai, Louise Bloch, Raphael Br\"ungel, Jihoon Cho, Chanyeol Choi, Qi Dou, Ivan Ezhov, Christoph M. Friedrich, Clifton Fuller, Rebati Raman Gaire, Adrian Galdran, \'Alvaro Garc\'ia Faura, Maria Grammatikopoulou, SeulGi Hong, Mostafa Jahanifar, Ikbeom Jang, Abdolrahim Kadkhodamohammadi, Inha Kang, Florian Kofler, Satoshi Kondo, Hugo Kuijf, Mingxing Li, Minh Huan Luu, Toma\v{z} Martin\v{c}i\v{c}, Pedro Morais, Mohamed A. Naser, Bruno Oliveira, David Owen, Subeen Pang, Jinah Park, Sung-Hong Park, Szymon P{\l}otka, Elodie Puybareau, Nasir Rajpoot, Kanghyun Ryu, Numan Saeed, Adam Shephard, Pengcheng Shi, Dejan \v{S}tepec, Ronast Subedi, Guillaume Tochon, Helena R. Torres, Helene Urien, Jo\~ao L. Vila\c{c}a, Kareem Abdul Wahid, Haojie Wang, Jiacheng Wang, Liansheng Wang, Xiyue Wang, Benedikt Wiestler, Marek Wodzinski, Fangfang Xia, Juanying Xie, Zhiwei Xiong, Sen Yang, Yanwu Yang, Zixuan Zhao, Klaus Maier-Hein, Paul F. J\"ager, Annette Kopp-Schneider, and Lena Maier-Hein(参考訳) 画像解析手法の比較性能評価には,国際ベンチマーク競技が基本となっている。 しかし、これらの競技会から何が学べるかについてはほとんど注目されていない。 本当に科学的進歩をもたらすのか? 共通して成功した参加戦略とは何か? 競合する方法よりも優れたソリューションは何でしょうか? このギャップに対処するために,ieee isbi 2021とmiccai 2021の範囲で実施した80のコンペティションすべてを対象に,多施設共同研究を行った。 提案するアルゴリズムのランクに関連付けられた包括的記述と,それに基づく参加戦略に基づく統計的分析により,勝利解の共通的特徴が明らかになった。 一般的には、マルチタスク学習(63%)および/またはマルチステージパイプライン(61%)の使用、拡張(100%)、イメージ前処理(97%)、データキュレーション(79%)、ポストプロセッシング(66%)に重点を置いている。 優勝チームの"典型的な"リーダは、博士号を持つコンピュータ科学者であり、バイオメディカル画像解析で5年、ディープラーニングで4年の経験がある。 高ランクのチームでは、メソッド設計におけるメトリクスの反映と、障害ケースの分析と処理に焦点を当てた2つの中核的な開発戦略が目立った。 主催者によると、優勝アルゴリズムの43%が最先端のアルゴリズムを上回り、各ドメインの問題を解いたのはわずか11%だった。 本研究の知見は,(1)新しい問題にアプローチする際のアルゴリズム開発戦略の改善に有効であり,(2)本研究で明らかになったオープンな研究課題に焦点をあてる。

International benchmarking competitions have become fundamental for the comparative performance assessment of image analysis methods. However, little attention has been given to investigating what can be learnt from these competitions. Do they really generate scientific progress? What are common and successful participation strategies? What makes a solution superior to a competing method? To address this gap in the literature, we performed a multi-center study with all 80 competitions that were conducted in the scope of IEEE ISBI 2021 and MICCAI 2021. Statistical analyses performed based on comprehensive descriptions of the submitted algorithms linked to their rank as well as the underlying participation strategies revealed common characteristics of winning solutions. These typically include the use of multi-task learning (63%) and/or multi-stage pipelines (61%), and a focus on augmentation (100%), image preprocessing (97%), data curation (79%), and postprocessing (66%). The "typical" lead of a winning team is a computer scientist with a doctoral degree, five years of experience in biomedical image analysis, and four years of experience in deep learning. Two core general development strategies stood out for highly-ranked teams: the reflection of the metrics in the method design and the focus on analyzing and handling failure cases. According to the organizers, 43% of the winning algorithms exceeded the state of the art but only 11% completely solved the respective domain problem. The insights of our study could help researchers (1) improve algorithm development strategies when approaching new problems, and (2) focus on open research questions revealed by this work.
翻訳日:2023-04-03 15:45:55 公開日:2023-03-30
# オンライン・マルチクラス学習能力の評価

A Characterization of Online Multiclass Learnability ( http://arxiv.org/abs/2303.17716v1 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) ラベル数が無制限である場合,オンラインマルチクラス学習の問題を考える。 マルチクラスのLittlestone次元が最初に導入されたのは \cite{DanielyERMprinciple} であり、この設定ではオンライン学習性の特徴付けを続けている。 この結果は,ラベル空間が非有界である場合に,バッチマルチクラス学習性を特徴付ける「cite{Brukhimetal2022}」の最近の研究を補完するものである。

We consider the problem of online multiclass learning when the number of labels is unbounded. We show that the Multiclass Littlestone dimension, first introduced in \cite{DanielyERMprinciple}, continues to characterize online learnability in this setting. Our result complements the recent work by \cite{Brukhimetal2022} who give a characterization of batch multiclass learnability when the label space is unbounded.
翻訳日:2023-04-03 15:45:29 公開日:2023-03-30
# 量子計算サイクルの誤差再構成とコンパイル校正

The Error Reconstruction and Compiled Calibration of Quantum Computing Cycles ( http://arxiv.org/abs/2303.17714v1 )

ライセンス: Link先を確認
Arnaud Carignan-Dugas, Dar Dahlen, Ian Hincks, Egor Ospadov, Stefanie J. Beale, Samuele Ferracin, Joshua Skanes-Norman, Joseph Emerson, Joel J. Wallman(参考訳) 量子コンピュータは計算中に発生する物理誤差によって阻害される。 このため、より洗練されたエラーキャラクタリゼーションとエラー抑制技術の開発が量子コンピューティングの進歩の中心となっている。 誤差分布は、量子処理ユニット全体の正確なゲートスケジューリングにかなり影響を受けている。 この全体的な特徴を考慮に入れれば、各エラープロファイルを(クロック)サイクルに割り当てることができる。 ランダム化コンパイル(英: randomized compiling)として知られる有名なテクニックは、サイクルの命令の中にランダム性を導入する。 本研究では,サイクル・ベンチマーク(cb)回路の構造と既知のポーリチャネル推定手法を用いて,サイクル・エラー・リコンストラクション(cer)と呼ばれる手法を導出し,任意の有効サイクルに関連する限界誤差分布を乗法的精度で推定する。 CERプロトコルは任意の数のキュービットに対してスケールするように設計されている。 さらに,任意の利害サイクルで発生する局所的コヒーレントエラー源を同定し抑制する,確率的キャリブレーション(sc)と呼ばれる高速コンパイルに基づくキャリブレーション手法を開発した。 両プロトコルをIBM-Q 5量子デバイス上で実行した。 そこで,本校正方式により回路性能を最大5倍改善した。

Quantum computers are inhibited by physical errors that occur during computation. For this reason, the development of increasingly sophisticated error characterization and error suppression techniques is central to the progress of quantum computing. Error distributions are considerably influenced by the precise gate scheduling across the entire quantum processing unit. To account for this holistic feature, we may ascribe each error profile to a (clock) cycle, which is a scheduled list of instructions over an arbitrarily large fraction of the chip. A celebrated technique known as randomized compiling introduces some randomness within cycles' instructions, which yields effective cycles with simpler, stochastic error profiles. In the present work, we leverage the structure of cycle benchmarking (CB) circuits as well as known Pauli channel estimation techniques to derive a method, which we refer to as cycle error reconstruction (CER), to estimate with multiplicative precision the marginal error distribution associated with any effective cycle of interest. The CER protocol is designed to scale for an arbitrarily large number of qubits. Furthermore, we develop a fast compilation-based calibration method, referred to as stochastic calibration (SC), to identify and suppress local coherent error sources occurring in any effective cycle of interest. We performed both protocols on IBM-Q 5-qubit devices. Via our calibration scheme, we obtained up to a 5-fold improvement of the circuit performance.
翻訳日:2023-04-03 15:45:23 公開日:2023-03-30
# L2損失下における非線形回帰に関する一考察

A Note On Nonlinear Regression Under L2 Loss ( http://arxiv.org/abs/2303.17745v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) L2損失(二乗損失)関数の非線形回帰問題について検討する。 従来の非線形回帰モデルはしばしばパラメータ集合に関して非凸最適化問題をもたらす。 従来の最小二乗問題に対して凸非線形回帰モデルが存在することを示した。

We investigate the nonlinear regression problem under L2 loss (square loss) functions. Traditional nonlinear regression models often result in non-convex optimization problems with respect to the parameter set. We show that a convex nonlinear regression model exists for the traditional least squares problem, which can be a promising towards designing more complex systems with easier to train models.
翻訳日:2023-04-03 15:36:46 公開日:2023-03-30
# fairgen: 公正グラフ生成に向けて

FairGen: Towards Fair Graph Generation ( http://arxiv.org/abs/2303.17743v1 )

ライセンス: Link先を確認
Lecheng Zheng, Dawei Zhou, Hanghang Tong, Jiejun Xu, Yada Zhu, Jingrui He(参考訳) 過去数十年にわたり、ソーシャルネットワークからコンピュータネットワーク、遺伝子規制ネットワークからオンライントランザクションネットワークまで、さまざまなドメインにおける現実的なグラフの生成に力を入れてきた。 顕著な成功にもかかわらず、これらの作品の大部分は本質的に教師なしであり、通常、期待されたグラフ再構成の損失を最小限に抑えるように訓練されており、結果として生成されたグラフにおける表現格差、すなわち保護されたグループ(少数派)は目的にあまり貢献せず、体系的に高いエラーに苦しむことになる。 本稿では,ラベル情報とユーザの予測したパリティ制約を利用して,ダウンストリームマイニングタスクにグラフ生成を合わせることを目的とする。 特に,グラフ生成モデルの文脈における表現格差の研究から始める。 この格差を軽減するために,FairGen というグラフ生成モデルを提案する。 本モデルでは,'easy'概念から'hard'概念まで,保護群と非保護群の振る舞いを段階的に学習することにより,ラベル付きグラフ生成モジュールと公平表現学習モジュールを共同で学習する。 さらに,グラフ生成モデルに対する一般的なコンテキストサンプリング戦略を提案し,高い確率で各グループのコンテキスト情報を正確に把握できることが証明された。 webベースのグラフを含む7つの実世界のデータセットにおける実験の結果は、fairgen (1) が6つのネットワーク特性にわたる最先端グラフ生成モデルと同等のパフォーマンスを得られること、 (2) 生成されたグラフにおける表現格差の軽減、(3) データ拡張によるダウンストリームタスクの最大17%のモデル性能向上を実証している。

There have been tremendous efforts over the past decades dedicated to the generation of realistic graphs in a variety of domains, ranging from social networks to computer networks, from gene regulatory networks to online transaction networks. Despite the remarkable success, the vast majority of these works are unsupervised in nature and are typically trained to minimize the expected graph reconstruction loss, which would result in the representation disparity issue in the generated graphs, i.e., the protected groups (often minorities) contribute less to the objective and thus suffer from systematically higher errors. In this paper, we aim to tailor graph generation to downstream mining tasks by leveraging label information and user-preferred parity constraint. In particular, we start from the investigation of representation disparity in the context of graph generative models. To mitigate the disparity, we propose a fairness-aware graph generative model named FairGen. Our model jointly trains a label-informed graph generation module and a fair representation learning module by progressively learning the behaviors of the protected and unprotected groups, from the `easy' concepts to the `hard' ones. In addition, we propose a generic context sampling strategy for graph generative models, which is proven to be capable of fairly capturing the contextual information of each group with a high probability. Experimental results on seven real-world data sets, including web-based graphs, demonstrate that FairGen (1) obtains performance on par with state-of-the-art graph generative models across six network properties, (2) mitigates the representation disparity issues in the generated graphs, and (3) substantially boosts the model performance by up to 17% in downstream tasks via data augmentation.
翻訳日:2023-04-03 15:36:41 公開日:2023-03-30
# 形態素アナロジーの解法:検索から生成へ

Solving morphological analogies: from retrieval to generation ( http://arxiv.org/abs/2303.18062v1 )

ライセンス: Link先を確認
Esteban Marquer and Miguel Couceiro(参考訳) 分析推論は人間の推論の顕著な能力であり、難解な推論タスクの解決に用いられてきた。 アナロジーに基づく推論(AR)は、人工知能コミュニティから関心が高まり、分類、意思決定、競争結果による推薦など、複数の機械学習タスクにおいてその可能性を示している。 本稿では,arにおける2つの重要な課題であるアナロジー検出と解法に対処するための,ディープラーニング(dl)フレームワークを提案する。 このフレームワークは、単語間の形態的類似比(APs)のSiganalogiesデータセットで徹底的にテストされ、多くの言語においてシンボル的アプローチよりも優れていることを示す。 これまでの研究は、類推検出における類推ニューラルネットワーク(annc)の挙動と、検索による類推解決における類推ニューラルネットワーク(annr)の挙動と、類推解決のためのオートエンコーダ(ae)のポテンシャルについて研究してきた。 本稿では,これらの知見を要約し,ANNrとAE埋め込みモデルを組み合わせて拡張し,ANNcの性能を検索手法として検証する。 ANNrとAEの組み合わせは、ほぼすべてのケースにおいて他のアプローチよりも優れており、ANNcは3CosMulよりも競争力や性能が高い。 我々は、我々のフレームワークをDLでAPに対処するための一般的なガイドラインで締めくくった。

Analogical inference is a remarkable capability of human reasoning, and has been used to solve hard reasoning tasks. Analogy based reasoning (AR) has gained increasing interest from the artificial intelligence community and has shown its potential in multiple machine learning tasks such as classification, decision making and recommendation with competitive results. We propose a deep learning (DL) framework to address and tackle two key tasks in AR: analogy detection and solving. The framework is thoroughly tested on the Siganalogies dataset of morphological analogical proportions (APs) between words, and shown to outperform symbolic approaches in many languages. Previous work have explored the behavior of the Analogy Neural Network for classification (ANNc) on analogy detection and of the Analogy Neural Network for retrieval (ANNr) on analogy solving by retrieval, as well as the potential of an autoencoder (AE) for analogy solving by generating the solution word. In this article we summarize these findings and we extend them by combining ANNr and the AE embedding model, and checking the performance of ANNc as an retrieval method. The combination of ANNr and AE outperforms the other approaches in almost all cases, and ANNc as a retrieval method achieves competitive or better performance than 3CosMul. We conclude with general guidelines on using our framework to tackle APs with DL.
翻訳日:2023-04-03 13:57:41 公開日:2023-03-30
# 時系列からネットワークを推測する:ニューラルネットワーク

Inferring networks from time series: a neural approach ( http://arxiv.org/abs/2303.18059v1 )

ライセンス: Link先を確認
Thomas Gaskin, Grigorios A. Pavliotis, Mark Girolami(参考訳) ネットワーク構造は、遺伝子規制や食品ウェブから電力網やソーシャルメディアに至るまで、多くの複雑な現象のダイナミクスを基盤としている。 しかし、しばしば直接観測できないため、それらの結合性は創発力学の観測から推測されなければならない。 本研究では,ニューラルネットワークを用いて時系列データから大規模ネットワーク隣接行列を推定する,強力で高速な計算手法を提案する。 ニューラルネットワークを使用することで、推論問題の非凸性とデータのノイズの両方を反映した予測の不確実性定量化が可能になる。 ネットワーク推論の問題は一般的に未決定であり、ネットワーク推論の方法に欠けていた機能であるため、これは有用である。 本手法は,イギリス電力網の系統故障箇所を電力カットに対する応答を観測して推算し,その性能を実証する。 問題は未決定であるため、多くの古典的な統計ツール(例えば回帰)は直接適用されない。 対照的に,提案手法は各エッジに確率密度を提供し,仮説テストを用いることでパワーカットの位置に関する有意義な確率的ステートメントを実現できる。 また, グレーター・ロンドンにおける経済活動のデータセットから, 非線形モデルに対するコスト行列全体を学習できることを示す。 提案手法は, 雑音データに対して, 速度と予測精度の両方でOLSレグレッションを上回り, OLSが立方体である場合, N^2$としてスケールする。 本手法は特にネットワーク推定のために設計されていないため,任意のパラメータ次元に適用可能な一般パラメータ推定方式を示す。

Network structures underlie the dynamics of many complex phenomena, from gene regulation and foodwebs to power grids and social media. Yet, as they often cannot be observed directly, their connectivities must be inferred from observations of their emergent dynamics. In this work we present a powerful and fast computational method to infer large network adjacency matrices from time series data using a neural network. Using a neural network provides uncertainty quantification on the prediction in a manner that reflects both the non-convexity of the inference problem as well as the noise on the data. This is useful since network inference problems are typically underdetermined, and a feature that has hitherto been lacking from network inference methods. We demonstrate our method's capabilities by inferring line failure locations in the British power grid from observations of its response to a power cut. Since the problem is underdetermined, many classical statistical tools (e.g. regression) will not be straightforwardly applicable. Our method, in contrast, provides probability densities on each edge, allowing the use of hypothesis testing to make meaningful probabilistic statements about the location of the power cut. We also demonstrate our method's ability to learn an entire cost matrix for a non-linear model from a dataset of economic activity in Greater London. Our method outperforms OLS regression on noisy data in terms of both speed and prediction accuracy, and scales as $N^2$ where OLS is cubic. Since our technique is not specifically engineered for network inference, it represents a general parameter estimation scheme that is applicable to any parameter dimension.
翻訳日:2023-04-03 13:56:33 公開日:2023-03-30
# 動的負荷を受ける相間複合材料の過渡応答学習のためのディープニューラルオペレータ

Deep neural operator for learning transient response of interpenetrating phase composites subject to dynamic loading ( http://arxiv.org/abs/2303.18055v1 )

ライセンス: Link先を確認
Minglei Lu, Ali Mohammadi, Zhaoxu Meng, Xuhui Meng, Gang Li and Zhen Li(参考訳) 添加物製造は、コンピュータ支援設計モデルから直接複雑な三次元(3d)構造を持つ材料を製造できる産業技術革命として認識されている。 界面相複合材料(IPC)の力学的特性, 特に動的荷重に対する応答は, 3次元構造に大きく依存する。 一般に、特定の構造設計ごとに、有限要素解析(FEA)または与えられた動的負荷に対するIPCの機械的応答をテストする実験を行うのに数時間または数日かかる可能性がある。 種々の構造設計のためのIPCの力学特性の物理に基づく予測を高速化するため,我々はDNO(Deep Neural operator)を用いて,動的負荷下でのIPCの過渡応答を物理ベースFEAモデルのサロゲートとして学習する。 ヤング率2.7の比を持つ2つの金属で形成された3次元IPCビームを考察し,DNOモデルの汎用性とロバスト性を示すために構成材料のランダムなブロックを用いる。 IPC特性のFAA結果を得るには、ガウス過程ケネルによって生じる5000のランダムな時間依存ひずみ荷重を3次元IPCビームに適用し、様々な負荷下でのIPCビーム内の反応力および応力場を収集する。 その後、jaxで実装されたシーケンスからシーケンスへのトレーニングを備えたインクリメンタルな学習手法を用いてdnoモデルをトレーニングし、広く使用されているバニラディープオペレータネットワークモデルと比較して100倍のスピードアップを実現している。 オフライントレーニングの後、dnoモデルは物理ベースのfeaのサロゲートとして動作し、反応力と様々なひずみ負荷に対するipcの応力分布から1秒間に98%の精度で過渡的な機械的応答を予測することができる。 また、学習したオペレータは、ipcビームの長大なランダムひずみ荷重に対する拡張予測を適度に精度良く行うことができる。

Additive manufacturing has been recognized as an industrial technological revolution for manufacturing, which allows fabrication of materials with complex three-dimensional (3D) structures directly from computer-aided design models. The mechanical properties of interpenetrating phase composites (IPCs), especially response to dynamic loading, highly depend on their 3D structures. In general, for each specified structural design, it could take hours or days to perform either finite element analysis (FEA) or experiments to test the mechanical response of IPCs to a given dynamic load. To accelerate the physics-based prediction of mechanical properties of IPCs for various structural designs, we employ a deep neural operator (DNO) to learn the transient response of IPCs under dynamic loading as surrogate of physics-based FEA models. We consider a 3D IPC beam formed by two metals with a ratio of Young's modulus of 2.7, wherein random blocks of constituent materials are used to demonstrate the generality and robustness of the DNO model. To obtain FEA results of IPC properties, 5,000 random time-dependent strain loads generated by a Gaussian process kennel are applied to the 3D IPC beam, and the reaction forces and stress fields inside the IPC beam under various loading are collected. Subsequently, the DNO model is trained using an incremental learning method with sequence-to-sequence training implemented in JAX, leading to a 100X speedup compared to widely used vanilla deep operator network models. After an offline training, the DNO model can act as surrogate of physics-based FEA to predict the transient mechanical response in terms of reaction force and stress distribution of the IPCs to various strain loads in one second at an accuracy of 98%. Also, the learned operator is able to provide extended prediction of the IPC beam subject to longer random strain loads at a reasonably well accuracy.
翻訳日:2023-04-03 13:56:08 公開日:2023-03-30
# TPMCF:マルチソース協調機能を用いた時間QoS予測

TPMCF: Temporal QoS Prediction using Multi-Source Collaborative Features ( http://arxiv.org/abs/2303.18201v1 )

ライセンス: Link先を確認
Suraj Kumar, Soumi Chattopadhyay, Chandranath Adak(参考訳) 近年,サービスAPIの迅速な展開により,eコマース産業の成長において,パーソナライズされたサービスレコメンデーションが重要な役割を担っている。 サービスパフォーマンスを決定するqos(quality-of-service)パラメータは、レコメンデーションによく使用されるが、時間とともに変動する。 したがって、qos予測は、時間とともに機能的に等価なサービス間で適切なサービスを特定するために不可欠である。 現在の時間的qos予測手法では,データスパーシティや異常値の処理が不可能であり,ユーザサービス間インタラクション間の高次時間的関係を捉えるなど,さまざまな制限により所望の精度が得られなかった。 最近のリカレントニューラルネットワークベースのアーキテクチャでは、QoSデータ間の時間的関係をモデル化することができるが、他の機能(例えば協調的な機能)がないために予測精度が低下し、ユーザサービス間のインタラクション間の関係が理解される。 本稿では、上記の課題に対処し、TPMCF(Multi-source Collaborative-Features)を用いた時間的QoS予測のためのスケーラブルな戦略を提案する。 TPMCFは、グラフ畳み込みとトランスフォーマーエンコーダとマルチヘッド自己アテンションを用いて、時空間の自動抽出機能とユーザサービスの関係を利用して、ユーザ/サービスの協調機能を組み合わせる。 提案手法をWS-DREAM-2データセット上で検証した。 大規模な実験により、TPMCFは高いスケーラビリティと応答性を確保するとともに、予測精度に関する最先端のアプローチよりも優れていた。

Recently, with the rapid deployment of service APIs, personalized service recommendations have played a paramount role in the growth of the e-commerce industry. Quality-of-Service (QoS) parameters determining the service performance, often used for recommendation, fluctuate over time. Thus, the QoS prediction is essential to identify a suitable service among functionally equivalent services over time. The contemporary temporal QoS prediction methods hardly achieved the desired accuracy due to various limitations, such as the inability to handle data sparsity and outliers and capture higher-order temporal relationships among user-service interactions. Even though some recent recurrent neural-network-based architectures can model temporal relationships among QoS data, prediction accuracy degrades due to the absence of other features (e.g., collaborative features) to comprehend the relationship among the user-service interactions. This paper addresses the above challenges and proposes a scalable strategy for Temporal QoS Prediction using Multi-source Collaborative-Features (TPMCF), achieving high prediction accuracy and faster responsiveness. TPMCF combines the collaborative-features of users/services by exploiting user-service relationship with the spatio-temporal auto-extracted features by employing graph convolution and transformer encoder with multi-head self-attention. We validated our proposed method on WS-DREAM-2 datasets. Extensive experiments showed TPMCF outperformed major state-of-the-art approaches regarding prediction accuracy while ensuring high scalability and reasonably faster responsiveness.
翻訳日:2023-04-03 13:20:04 公開日:2023-03-30
# 次数付き指数ファイバーの特殊相対性理論

Special Theory of Relativity for a Graded Index Fibre ( http://arxiv.org/abs/2303.18197v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) 真空中の光の速度(c$)は、相対性理論によれば、伝播を記述するためのフレームの選択に依存しない。 我々は、光の速度が有限誘電率によって真空のそれと異なる物質において、光がどのように特徴づけられるかを考える。 材料の位相速度は$c$より小さく、移動フレームの速度は位相速度よりも大きくなり、フレームは材料の光速よりも速く動くことができる。 これにより、異常ドップラー効果が期待され、フレームの速度を増加させると、移動フレームの波長が赤方偏移から青方偏移に変化する。 光の対応するエネルギーは正から負の符号も変化するが、運動量は常に正であり、位相速度とヘリシティに対するsingの変化に繋がる。 正確な解が使用可能な次数付き指数ファイバーでは、光子の有限有効質量のためにさらに複雑な現象が予測される。 光ファイバーと光軌道角運動量によって生じるエネルギーギャップの増加に伴い、光子の有効質量は増加する。 ギャップが十分に大きい場合、運動量は常に正であるのに対して、フレーム速度が増加すると符号が変化し始める。 この場合、運動量と名声の速度が一致した場合、位相速度は発散する。 位相速度の異常な挙動とは異なり、群速度は常に$c$以下である。 この思考実験は、光の偏光衛星の洞察を考えるのに役立つかもしれない。

The speed of light ($c$) in a vacuum is independent on a choice of frames to describe the propagation, according to the theory of relativity. We consider how light is characterised in a material, where the speed of light is different from that in a vacuum due to the finite dielectric constant. The phase velocity in a material is smaller than $c$, such that the speed of a moving frame can be larger than the phase velocity, such that the frame can move faster than the speed of light in a material. Consequently, an unusual Doppler effect is expected, and the wavelength in the moving frame changes from the red-shift to the blue-shift upon increasing the speed of the frame. The corresponding energy of the light also changes sign from positive to negative, while momentum is always positive, leading to the changes of sings for the phase velocity and the helicity. In a graded index fibre, where the exact solution is available, even more complicated phenomena are expected, due to the finite effective mass of photons. Upon the increase of the energy gap, generated by optical confinements and optical orbital angular momentum, the effective mass of photons increases. If the gap is large enough, momentum starts to change the sign upon increasing the frame velocity, while the energy of photons is always positive. In this case, the phase velocity diverges if momentum is in agreement with the fame velocity. Contrary to the unusual behaviours of the phase velocity, the group velocity is always below $c$. This thought-experiment might be useful to consider the insight for the polarisation sate of light.
翻訳日:2023-04-03 13:19:36 公開日:2023-03-30
# 光子に対するディラック方程式:偏光の起源

Dirac Equation for Photons: Origin of Polarisation ( http://arxiv.org/abs/2303.18196v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) スピンは基本的な自由度であり、その存在は量子力学に相対性理論を課すことでディラックによって証明され、ディラック方程式を導出する勝利に繋がった。 光子のスピンは偏光に関連付けるべきであるが、電子に対する同様の議論は、既にローレンツ不変量であるマクスウェル方程式には適用されなかった。 したがって、偏光の起源とスピンとの関係は、まだ完全に解明されていない。 本稿では, 直交光ファイバーにおける光子のコヒーレント光線の伝搬について論じる。これは, ラゲール・ガウスモードやエルミート・ガウスモードを用いて, 筒状あるいはカルテシアン座標で正確に解ける。 エネルギースペクトルは、閉じ込めと軌道角運動量の関数として有効質量で大質量であることが判明した。 この伝播は1次元(1D$)の非相対論的シュレーディンガー方程式によって説明され、これはユニタリ変換によって2D$空間時間クライン=ゴードン方程式と等価である。 確率論的解釈と保存法則はクライン=ゴードン方程式の分解を必要とし、スピンを持つ2D$ディラック方程式に繋がる。 レーザからのコヒーレント線に対してバルディーン・クーパー・シュリエッファー(bcs)-ボゴリューボフ理論を適用し,破壊対称性を回復するための放射性ナムブ・アンダーソン・ヒッグス・ゴールドストーンモードを同定した。 光子のスピン期待値はポアンカレ球の偏極状態に対応しており、これは破壊された$SU(2)$対称性によりレイシングの開始後の固定位相によって特徴づけられ、その方位角はエネルギーギャップの位相から来ていることが示されている。

Spin is a fundamental degree of freedom, whose existence was proven by Dirac for an electron by imposing the relativity to quantum mechanics, leading to the triumph to derive the Dirac equation. Spin of a photon should be linked to polarisation, however, the similar argument for an electron was not applicable to Maxwell equations, which are already Lorentz invariant. Therefore, the origin of polarisation and its relationship with spin are not completely elucidated, yet. Here, we discuss propagation of coherent rays of photons in a graded-index optical fibre, which can be solved exactly using the Laguerre-Gauss or Hermite-Gauss modes in a cylindrical or a Cartesian coordinate. We found that the energy spectrum is massive with the effective mass as a function of the confinement and orbital angular momentum. The propagation is described by the one-dimensional ($1D$) non-relativistic Schr\"odinger equation, which is equivalent to the $2D$ space-time Klein-Gordon equation by a unitary transformation. The probabilistic interpretation and the conservation law require the factorisation of the Klein-Gordon equation, leading to the $2D$ Dirac equation with spin. We applied the Bardeen-Cooper-Schrieffer (BCS)-Bogoliubov theory of superconductivity to a coherent ray from a laser and identified a radiative Nambu-Anderson-Higgs-Goldstone mode for recovering the broken symmetry. The spin expectation value of a photon corresponds to the polarisation state in the Poincar\'e sphere, which is characterised by fixed phases after the onset of lasing due to the broken $SU(2)$ symmetry, and it is shown that its azimuthal angle is coming from the phase of the energy gap.
翻訳日:2023-04-03 13:19:14 公開日:2023-03-30
# イベント駆動フォワードプロセスによるスパイクニューラルネットワークの学習

Learning Spiking Neural Systems with the Event-Driven Forward-Forward Process ( http://arxiv.org/abs/2303.18187v1 )

ライセンス: Link先を確認
Alexander Ororbia(参考訳) 我々は,フィードバックシナプスを必要としないスパイクニューロンを用いた情報処理のための新しい信用割当アルゴリズムを開発した。 具体的には、刺激窓越しに感覚入力を反復的に処理するスパイキング神経系の前向きの事象駆動型一般化と予測前向き学習プロセスを提案する。 その結果、リカレント回路は各層内の各ニューロンの膜電位を局所的ボトムアップ、トップダウン、横方向の信号の関数として計算し、動的で層単位で並列なニューラル計算を容易にする。 神経活動を調整するためのフィードバックシナプスに依存するスパイクニューラルコーディングとは異なり、我々のモデルは純粋にオンラインとフォワードで動作し、時間的スパイク信号で感覚データパターンの分散表現を学習する有望な方法を提供する。 特に,いくつかのパターンデータセットに対する実験結果から,偶発駆動前向き(ED-FF)フレームワークが,分類と再構成の両立が可能な動的再帰スパイクシステムの訓練に有効であることが示された。

We develop a novel credit assignment algorithm for information processing with spiking neurons without requiring feedback synapses. Specifically, we propose an event-driven generalization of the forward-forward and the predictive forward-forward learning processes for a spiking neural system that iteratively processes sensory input over a stimulus window. As a result, the recurrent circuit computes the membrane potential of each neuron in each layer as a function of local bottom-up, top-down, and lateral signals, facilitating a dynamic, layer-wise parallel form of neural computation. Unlike spiking neural coding, which relies on feedback synapses to adjust neural electrical activity, our model operates purely online and forward in time, offering a promising way to learn distributed representations of sensory data patterns with temporal spike signals. Notably, our experimental results on several pattern datasets demonstrate that the even-driven forward-forward (ED-FF) framework works well for training a dynamic recurrent spiking system capable of both classification and reconstruction.
翻訳日:2023-04-03 13:18:00 公開日:2023-03-30
# Diff-ID:ディープフェイク検出のための説明可能な識別差分定量化フレームワーク

Diff-ID: An Explainable Identity Difference Quantification Framework for DeepFake Detection ( http://arxiv.org/abs/2303.18174v1 )

ライセンス: Link先を確認
Chuer Yu, Xuhong Zhang, Yuxuan Duan, Senbo Yan, Zonghui Wang, Yang Xiang, Shouling Ji, Wenzhi Chen(参考訳) ディープフェイク偽造検出アルゴリズムが既知の操作で印象的な性能を達成したにもかかわらず、目に見えない操作に一般化すると、しばしば悲惨なパフォーマンス低下に直面する。 最近のいくつかの作品では一般化が改善されているが、圧縮などの画像歪みに弱い特徴に依存している。 この目的のために,顔の操作によって引き起こされるアイデンティティ損失を説明・測定する,簡潔で効果的なアプローチであるDiff-IDを提案する。 Diff-IDは、特定の人物の画像をテストする際に、その人物の真正像を基準として使用し、フェイススワッピングジェネレータを適用して同一のアイデンティティ非感性特徴空間に整列する。 次に,一致したペアの画像差から,テストと参照画像の識別損失を可視化し,識別損失を定量化するカスタムメトリックを設計する。 この計量は偽画像と実画像の区別に有効であることが証明された。 広汎な実験により,DeepFake画像の高検出性能と未知の偽造法に対する最先端の一般化能力を実現するとともに,画像歪みにも頑健であることがわかった。

Despite the fact that DeepFake forgery detection algorithms have achieved impressive performance on known manipulations, they often face disastrous performance degradation when generalized to an unseen manipulation. Some recent works show improvement in generalization but rely on features fragile to image distortions such as compression. To this end, we propose Diff-ID, a concise and effective approach that explains and measures the identity loss induced by facial manipulations. When testing on an image of a specific person, Diff-ID utilizes an authentic image of that person as a reference and aligns them to the same identity-insensitive attribute feature space by applying a face-swapping generator. We then visualize the identity loss between the test and the reference image from the image differences of the aligned pairs, and design a custom metric to quantify the identity loss. The metric is then proved to be effective in distinguishing the forgery images from the real ones. Extensive experiments show that our approach achieves high detection performance on DeepFake images and state-of-the-art generalization ability to unknown forgery methods, while also being robust to image distortions.
翻訳日:2023-04-03 13:17:03 公開日:2023-03-30
# 擬似表現からの物理と化学:不変変分オートエンコーダによる画像解析

Physics and Chemistry from Parsimonious Representations: Image Analysis via Invariant Variational Autoencoders ( http://arxiv.org/abs/2303.18236v1 )

ライセンス: Link先を確認
Mani Valleti, Yongtao Liu, Sergei Kalinin(参考訳) 電子、光学、走査型プローブ顕微鏡法は、原子やメソスケールの構造や機能に関する情報を含む画像データ量を増やし続けている。 これは、電子の対称性の破れや走査型トンネル顕微鏡画像、ナノ粒子の可変性などのデータから物理現象や化学現象を発見するための機械学習手法の開発を必要とする。 変分オートエンコーダ(vaes)は教師なしデータ解析の強力なパラダイムとして登場し、変分可能性の要因を解消し、最適な調律表現を見つけることができる。 ここでは,最近のvaesの発展を概説し,vaesの基本原理と直観について述べる。 不変量vaesは、画像データに存在するスケールおよび変換不変量に対応し、発見されるものから変化の既知の要因を分離するアプローチとして導入される。 さらに,条件付き,半教師付き,ジョイントvaeを含むvaeアーキテクチャの制御によって実現される機会について述べる。 トイモデルとScanning Transmission Electron Microscopyにおける実験データセットに対するVAE応用のいくつかのケーススタディを議論し、VAEと基本的な物理原理との深い関係を強調した。 ここで使用されるすべてのコードは、https://github.com/saimani5/vae-tutorialsで利用可能です。

Electron, optical, and scanning probe microscopy methods are generating ever increasing volume of image data containing information on atomic and mesoscale structures and functionalities. This necessitates the development of the machine learning methods for discovery of physical and chemical phenomena from the data, such as manifestations of symmetry breaking in electron and scanning tunneling microscopy images, variability of the nanoparticles. Variational autoencoders (VAEs) are emerging as a powerful paradigm for the unsupervised data analysis, allowing to disentangle the factors of variability and discover optimal parsimonious representation. Here, we summarize recent developments in VAEs, covering the basic principles and intuition behind the VAEs. The invariant VAEs are introduced as an approach to accommodate scale and translation invariances present in imaging data and separate known factors of variations from the ones to be discovered. We further describe the opportunities enabled by the control over VAE architecture, including conditional, semi-supervised, and joint VAEs. Several case studies of VAE applications for toy models and experimental data sets in Scanning Transmission Electron Microscopy are discussed, emphasizing the deep connection between VAE and basic physical principles. All the codes used here are available at https://github.com/saimani5/VAE-tutorials and this article can be used as an application guide when applying these to own data sets.
翻訳日:2023-04-03 12:59:41 公開日:2023-03-30
# 幻想的な破片:現実世界の壊れた物体とその完全なカウンターの3Dスキャンデータ

Fantastic Breaks: A Dataset of Paired 3D Scans of Real-World Broken Objects and Their Complete Counterparts ( http://arxiv.org/abs/2303.14152v3 )

ライセンス: Link先を確認
Nikolas Lamb, Cameron Palmer, Benjamin Molloy, Sean Banerjee, Natasha Kholgade Banerjee(参考訳) 自動形状修正アプローチは現在、現実世界の損傷した形状を記述するデータセットへのアクセスを欠いている。 https://terascale-all-sensing-research-studio.github.io/fantasticbreaks)は、150個の壊れたオブジェクトに対してスキャン、防水、クリーンな3dメッシュを含むデータセット。 Fantastic Breaksには、クラスとマテリアルラベル、壊れたメッシュに結合して完全なメッシュを生成するプロキシ修復部品、手動で注釈付き破壊境界が含まれている。 フラクチャー幾何の詳細な解析により, 幾何学的および物理学的手法で生成されたフラクチャーデータセットとファンタスティックブレイクの差異を明らかにした。 合成データセットで事前学習し,ファンタスティックブレイクのサブセットで再学習した複数の学習に基づくアプローチを用いて,ファンタスティックブレイクによる形状修復実験を行った。

Automated shape repair approaches currently lack access to datasets that describe real-world damaged geometry. We present Fantastic Breaks (and Where to Find Them: https://terascale-all-sensing-research-studio.github.io/FantasticBreaks), a dataset containing scanned, waterproofed, and cleaned 3D meshes for 150 broken objects, paired and geometrically aligned with complete counterparts. Fantastic Breaks contains class and material labels, proxy repair parts that join to broken meshes to generate complete meshes, and manually annotated fracture boundaries. Through a detailed analysis of fracture geometry, we reveal differences between Fantastic Breaks and synthetic fracture datasets generated using geometric and physics-based methods. We show experimental shape repair evaluation with Fantastic Breaks using multiple learning-based approaches pre-trained with synthetic datasets and re-trained with subset of Fantastic Breaks.
翻訳日:2023-04-03 10:38:52 公開日:2023-03-30
# 小さな/大きな世界で学ぶ

Learning in a Small/Big World ( http://arxiv.org/abs/2009.11917v8 )

ライセンス: Link先を確認
Benson Tsz Kin Leung(参考訳) 複雑さと能力の制限は、不確実性の下での学習と意思決定に多大な影響を与えます。 本稿では,有限オートマトン理論を用いて,環境の複雑さが低く,かつ,意思決定者の認知能力に比較して高い,小・大世界の最適学習行動の特性について考察する。 最適な振る舞いは、非常に小さな世界のベイズベンチマークによってよく近似されるが、世界が大きくなるにつれてより異なる。 加えて、大世界において、最適な学習行動は、ヒューリスティックスの使用、相関無視、持続的過信、不注意な学習、モデルの単純化や不特定といった幅広い非ベイズ学習行動を示す可能性がある。 これらの結果は、非ベイズ的学習行動、複雑さ、認知能力の卓越性の間に明確で証明可能な関係を確立する。

Complexity and limited ability have profound effect on how we learn and make decisions under uncertainty. Using the theory of finite automaton to model belief formation, this paper studies the characteristics of optimal learning behavior in small and big worlds, where the complexity of the environment is low and high, respectively, relative to the cognitive ability of the decision maker. Optimal behavior is well approximated by the Bayesian benchmark in very small world but is more different as the world gets bigger. In addition, in big worlds, the optimal learning behavior could exhibit a wide range of well-documented non-Bayesian learning behavior, including the use of heuristics, correlation neglect, persistent over-confidence, inattentive learning, and other behaviors of model simplification or misspecification. These results establish a clear and testable relationship among the prominence of non-Bayesian learning behavior, complexity, and cognitive ability.
翻訳日:2023-03-31 18:58:13 公開日:2023-03-30
# 凸ペナルティを有するロバストM推定器のサンプル外誤差推定

Out-of-sample error estimate for robust M-estimators with convex penalty ( http://arxiv.org/abs/2008.11840v5 )

ライセンス: Link先を確認
Pierre C Bellec(参考訳) x,y)$ が観測され、p,n$ が同じ順序である高次元線形回帰において凸ペナルティで正則化された頑健な $m$-推定子に対して、一般的なサンプル外誤差推定が提案されている。 もし$\psi$ がロバストなデータフィッティング損失 $\rho$ の導関数であるなら、その推定は $\hat\psi = \psi(y-x\hat\beta)$, $x^\top \hat\psi$ と $(\partial/\partial y) \hat\psi$ と $(\partial/\partial y) x\hat\beta$ の固定値 $x$ によってのみ観測されたデータに依存する。 アウト・オブ・サンプル誤差推定は、ガウス共変量と独立ノイズを持つ線型モデルにおいて、$p/n\le \gamma$または高次元漸近状態において$p/n\to\gamma'\in(0,\infty)$の相対誤差を楽しむ。 一般的な微分可能損失関数 $\rho$ は $\psi=\rho'$ が 1-Lipschitz であるときに与えられる。 サンプル外誤差推定の妥当性は、強い凸性仮定の下で、または$\ell_1$-penalized Huber M-estimatorに対して、真の$\beta$の破損した観測数とスパーシリティが、ある小さな定数$s_*\in(0,1)$$$n,p$から独立して、上から$s_*n$に制限される。 正方形の損失と応答の腐敗がない場合、結果はさらに$n^{-1/2}$-consistent estimates of the noise variance and the generalization errorである。 これは、ラッソで知られていた任意の凸のペナルティに一般化される。

A generic out-of-sample error estimate is proposed for robust $M$-estimators regularized with a convex penalty in high-dimensional linear regression where $(X,y)$ is observed and $p,n$ are of the same order. If $\psi$ is the derivative of the robust data-fitting loss $\rho$, the estimate depends on the observed data only through the quantities $\hat\psi = \psi(y-X\hat\beta)$, $X^\top \hat\psi$ and the derivatives $(\partial/\partial y) \hat\psi$ and $(\partial/\partial y) X\hat\beta$ for fixed $X$. The out-of-sample error estimate enjoys a relative error of order $n^{-1/2}$ in a linear model with Gaussian covariates and independent noise, either non-asymptotically when $p/n\le \gamma$ or asymptotically in the high-dimensional asymptotic regime $p/n\to\gamma'\in(0,\infty)$. General differentiable loss functions $\rho$ are allowed provided that $\psi=\rho'$ is 1-Lipschitz. The validity of the out-of-sample error estimate holds either under a strong convexity assumption, or for the $\ell_1$-penalized Huber M-estimator if the number of corrupted observations and sparsity of the true $\beta$ are bounded from above by $s_*n$ for some small enough constant $s_*\in(0,1)$ independent of $n,p$. For the square loss and in the absence of corruption in the response, the results additionally yield $n^{-1/2}$-consistent estimates of the noise variance and of the generalization error. This generalizes, to arbitrary convex penalty, estimates that were previously known for the Lasso.
翻訳日:2023-03-31 18:57:58 公開日:2023-03-30
# DeepEMD:Few-Shot Learningのための微分可能なアースマーバー距離

DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning ( http://arxiv.org/abs/2003.06777v5 )

ライセンス: Link先を確認
Chi Zhang, Yujun Cai, Guosheng Lin, Chunhua Shen(参考訳) 本研究では,画像領域間の最適マッチングという新しい視点から,少数ショット画像分類法を開発した。 我々は、高密度画像表現間の構造的距離を計算し、画像関連性を決定するために、Earth Mover's Distance (EMD) を用いる。 emdは、分類のための画像距離を計算するために使用される最小マッチングコストを有する構造要素間の最適なマッチングフローを生成する。 EMD の定式化において重要な要素の重み付けを生成するために,乱れの背景やクラス内変動の大きな影響を効果的に緩和するクロス参照機構を設計する。 そこで,kショット分類を実現するために,emdを用いて高密度画像表現を直接分類できる構造的完全連結層を学習することを提案する。 暗黙の関数定理に基づいて、EMDはネットワークに層として挿入してエンドツーエンドのトレーニングを行うことができる。 提案手法の有効性を,MiniImageNet, tieredImageNet, Fewshot-CIFAR100 (FC100), Caltech-UCSD Birds-200-2011 (CUB), CIFAR-FewShot (CIFAR-FS) の5つの大小小小小分類ベンチマークで比較検討した。 また,本実験における画像検索における提案手法の有効性を示す。

In this work, we develop methods for few-shot image classification from a new perspective of optimal matching between image regions. We employ the Earth Mover's Distance (EMD) as a metric to compute a structural distance between dense image representations to determine image relevance. The EMD generates the optimal matching flows between structural elements that have the minimum matching cost, which is used to calculate the image distance for classification. To generate the important weights of elements in the EMD formulation, we design a cross-reference mechanism, which can effectively alleviate the adverse impact caused by the cluttered background and large intra-class appearance variations. To implement k-shot classification, we propose to learn a structured fully connected layer that can directly classify dense image representations with the EMD. Based on the implicit function theorem, the EMD can be inserted as a layer into the network for end-to-end training. Our extensive experiments validate the effectiveness of our algorithm which outperforms state-of-the-art methods by a significant margin on five widely used few-shot classification benchmarks, namely, miniImageNet, tieredImageNet, Fewshot-CIFAR100 (FC100), Caltech-UCSD Birds-200-2011 (CUB), and CIFAR-FewShot (CIFAR-FS). We also demonstrate the effectiveness of our method on the image retrieval task in our experiments.
翻訳日:2023-03-31 18:56:48 公開日:2023-03-30
# 幾何学的クラスタリングのための変分wasserstein barycenters

Variational Wasserstein Barycenters for Geometric Clustering ( http://arxiv.org/abs/2002.10543v2 )

ライセンス: Link先を確認
Liang Mi(参考訳) 本稿では,モンジュ写像を変分原理で解くことにより,WB(Wasserstein Barycenters)を計算することを提案する。 我々はWBsの計量特性について論じ、その関係、特にモンジュWBsのK平均クラスタリングとコクラスタリングについて考察する。 また,不均衡測度と球面領域に対するmonge wbの実現可能性についても論じる。 正規化K平均とWasserstein Barycenter圧縮という2つの新しい問題を提案する。 クラスタリングに関連する問題の解決にVWBを使うことを実証する。

We propose to compute Wasserstein barycenters (WBs) by solving for Monge maps with variational principle. We discuss the metric properties of WBs and explore their connections, especially the connections of Monge WBs, to K-means clustering and co-clustering. We also discuss the feasibility of Monge WBs on unbalanced measures and spherical domains. We propose two new problems -- regularized K-means and Wasserstein barycenter compression. We demonstrate the use of VWBs in solving these clustering-related problems.
翻訳日:2023-03-31 18:56:21 公開日:2023-03-30
# スタガー付きロールアウトの最適実験設計

Optimal Experimental Design for Staggered Rollouts ( http://arxiv.org/abs/1911.03764v5 )

ライセンス: Link先を確認
Ruoxuan Xiong, Susan Athey, Mohsen Bayati, Guido Imbens(参考訳) 本稿では, 処理開始時刻が単位によって異なる複数時間にわたって, 一連の単位に対して実施した実験の設計と解析について検討する。 設計問題は、処理の瞬時効果と累積効果の両方を最も正確に推定するために、各ユニットの初期処理時間を選択することである。 まず, 適応的でない実験について検討し, 実験開始前に全ての治療課題決定を行う。 この場合、最適化問題は一般にnpハードであることが示され、近似最適解を提案する。 この溶液下では、各周期で治療に入る割合は、最初は低く、その後高く、最後に再び低い。 次に、各期間のデータ収集後に、実験を継続する決定と治療課題を決定する決定が更新される適応的な実験設計問題について検討する。 適応型の場合, 適応型アルゴリズムであるPGAEアルゴリズムを提案する。このアルゴリズムは, 設計段階でも, 処理効果を推定する段階でも問題に対処し, 設計の適応性を考慮した有効な実験後推測を確実にする。 現実的な設定を用いることで,提案手法は静的設計ベンチマークと比較して,実験の機会コストを50%以上削減できることを実証する。

In this paper, we study the design and analysis of experiments conducted on a set of units over multiple time periods where the starting time of the treatment may vary by unit. The design problem involves selecting an initial treatment time for each unit in order to most precisely estimate both the instantaneous and cumulative effects of the treatment. We first consider non-adaptive experiments, where all treatment assignment decisions are made prior to the start of the experiment. For this case, we show that the optimization problem is generally NP-hard, and we propose a near-optimal solution. Under this solution, the fraction entering treatment each period is initially low, then high, and finally low again. Next, we study an adaptive experimental design problem, where both the decision to continue the experiment and treatment assignment decisions are updated after each period's data is collected. For the adaptive case, we propose a new algorithm, the Precision-Guided Adaptive Experiment (PGAE) algorithm, that addresses the challenges at both the design stage and at the stage of estimating treatment effects, ensuring valid post-experiment inference accounting for the adaptive nature of the design. Using realistic settings, we demonstrate that our proposed solutions can reduce the opportunity cost of the experiments by over 50%, compared to static design benchmarks.
翻訳日:2023-03-31 18:55:50 公開日:2023-03-30
# 非線形系の連続時間最適制御のための収束保証付き緩和アクター臨界

Relaxed Actor-Critic with Convergence Guarantees for Continuous-Time Optimal Control of Nonlinear Systems ( http://arxiv.org/abs/1909.05402v2 )

ライセンス: Link先を確認
Jingliang Duan, Jie Li, Qiang Ge, Shengbo Eben Li, Monimoy Bujarbaruah, Fei Ma, Dezhao Zhang(参考訳) 本稿では、車両の経路追従制御など、既知の動的かつ無限の地平線を持つ非線形連続時間(CT)システムに対して、ほぼ最適なポリシーを求める手法であるRelaxed Continuous-Time Actor-critic (RCTAC)アルゴリズムを提案する。 RCTACは既存のCTシステムに対する適応動的プログラミングアルゴリズムに対していくつかの利点がある。 初期化ポリシーの ` `admissibility" や収束のための制御システムの入力-アフィンの性質は不要である。 代わりに、初期ポリシーが与えられた場合、RCTACは許容可能で、その後、飽和コントローラを持つ一般的な非線形システムに対してほぼ最適なポリシーに収束することができる。 rctacはウォームアップフェーズと一般的なポリシーイテレーションフェーズの2つのフェーズで構成されている。 ウォームアップフェーズはハミルトニアンの二乗を最小化し許容度を達成し、一般化されたポリシー反復フェーズはより高速な収束のために更新終了条件を緩和する。 アルゴリズムの収束と最適性はリアプノフ解析によって証明され、その効果はシミュレーションと実世界の経路追跡タスクによって実証される。

This paper presents the Relaxed Continuous-Time Actor-critic (RCTAC) algorithm, a method for finding the nearly optimal policy for nonlinear continuous-time (CT) systems with known dynamics and infinite horizon, such as the path-tracking control of vehicles. RCTAC has several advantages over existing adaptive dynamic programming algorithms for CT systems. It does not require the ``admissibility" of the initialized policy or the input-affine nature of controlled systems for convergence. Instead, given any initial policy, RCTAC can converge to an admissible, and subsequently nearly optimal policy for a general nonlinear system with a saturated controller. RCTAC consists of two phases: a warm-up phase and a generalized policy iteration phase. The warm-up phase minimizes the square of the Hamiltonian to achieve admissibility, while the generalized policy iteration phase relaxes the update termination conditions for faster convergence. The convergence and optimality of the algorithm are proven through Lyapunov analysis, and its effectiveness is demonstrated through simulations and real-world path-tracking tasks.
翻訳日:2023-03-31 18:55:28 公開日:2023-03-30
# deep-learning-enhanced feedforward controlによる単一電子スピンのノイズ予測と低減

Noise prediction and reduction of single electron spin by deep-learning-enhanced feedforward control ( http://arxiv.org/abs/2201.06002v2 )

ライセンス: Link先を確認
Nanyang Xu, Feifei Zhou, Xiangyu Ye, Xue Lin, Bao Chen, Ting Zhang, Feng Yue, Bing Chen, Ya Wang and Jiangfeng Du(参考訳) ダイヤモンドをベースとしたナノスケールセンシングでは,低周波ノイズをリアルタイムに補正する手法が一般的である。 しかし、スピン状態の読み出しは低光子検出効率のため長い時間を要する。 これは必然的にノイズ低減プロセスの遅延を導入し、性能を制限します。 本稿では,ノイズの傾向を予測し,遅延を補償することにより,この制約を緩和するディープラーニング手法を提案する。 ダイヤモンド中の窒素空孔中心のフィードフォワード量子制御を実験的に実装し、スピンコヒーレンスを保護し、ノイズに対する検知性能を向上させる。 この新しいアプローチは電子スピンのデコヒーレンス時間を効果的に向上させ、共鳴分光法からより多くの物理学を探索することができる。 改善を説明する理論的モデルが提供される。 このスキームは一般的なセンシングスキームに適用でき、他の量子系にも拡張できる。

Noise-induced control imperfection is an important problem in applications of diamond-based nano-scale sensing, where measurement-based strategies are generally utilized to correct low-frequency noises in realtime. However, the spin-state readout requires a long time due to the low photon-detection efficiency. This inevitably introduces a delay in noise-reduction process and limits its performance. Here we introduce the deep learning approach to relax this restriction by predicting the trend of noise and compensating the delay. We experimentally implement feedforward quantum control of nitrogen-vacancy center in diamond to protect its spin coherence and improve the sensing performance against noise. The new approach effectively enhances the decoherence time of the electron spin, which enables exploring more physics from its resonant spectroscopy. A theoretical model is provided to explain the improvement. This scheme could be applied in general sensing schemes and extended to other quantum systems.
翻訳日:2023-03-31 18:48:41 公開日:2023-03-30
# moef: プロモーション・アウェアクリックスルー率予測のための周波数領域における時折進化のモデル化

MOEF: Modeling Occasion Evolution in Frequency Domain for Promotion-Aware Click-Through Rate Prediction ( http://arxiv.org/abs/2112.13747v6 )

ライセンス: Link先を確認
Xiaofeng Pan, Yibin Shen, Jing Zhang, Xu He, Yang Huang, Hong Wen, Chengjun Mao and Bo Cao(参考訳) プロモーションは、顧客を惹きつけ、売上を伸ばすために、電子商取引においてますます重要で、普及している。 このような状況下では,既存のClick-Through Rate (CTR) モデルでは,今後の配電の不確実性のため,オンラインサービスにうまく対応できない。 本稿では,頻繁な変化下でのレコメンデーションのための新しいctrモデルmoefを提案する。 まず、オンラインビジネスシナリオから生成された時折のシグナルからなる時系列をデザインする。 周波数領域では周波数信号がより識別されるので、時系列上でスライディング時間ウィンドウにフーリエ変換を適用し、オッケーション進化層(OEL)によって処理される周波数スペクトル列を得る。 このようにして、オンライン配信の不確実性に対処するために、高階の機会表現を学ぶことができる。 さらに,注目機構を介して特徴表現を導出する複数の側面から特徴表現を学ぶために,複数の専門家を採用する。 これにより、異なるタイミングで特徴表現の混合が適応的に得られ、最終的なCTRを予測する。 実世界のデータセットによる実験結果からMOEFの優位性を検証し,オンラインA/BテストもMOEFが代表的CTRモデルよりも優れていた。

Promotions are becoming more important and prevalent in e-commerce to attract customers and boost sales, leading to frequent changes of occasions, which drives users to behave differently. In such situations, most existing Click-Through Rate (CTR) models can't generalize well to online serving due to distribution uncertainty of the upcoming occasion. In this paper, we propose a novel CTR model named MOEF for recommendations under frequent changes of occasions. Firstly, we design a time series that consists of occasion signals generated from the online business scenario. Since occasion signals are more discriminative in the frequency domain, we apply Fourier Transformation to sliding time windows upon the time series, obtaining a sequence of frequency spectrum which is then processed by Occasion Evolution Layer (OEL). In this way, a high-order occasion representation can be learned to handle the online distribution uncertainty. Moreover, we adopt multiple experts to learn feature representations from multiple aspects, which are guided by the occasion representation via an attention mechanism. Accordingly, a mixture of feature representations is obtained adaptively for different occasions to predict the final CTR. Experimental results on real-world datasets validate the superiority of MOEF and online A/B tests also show MOEF outperforms representative CTR models significantly.
翻訳日:2023-03-31 18:48:26 公開日:2023-03-30
# 確率的最適停止問題の量子アルゴリズムとファイナンスへの応用

Quantum algorithm for stochastic optimal stopping problems with applications in finance ( http://arxiv.org/abs/2111.15332v3 )

ライセンス: Link先を確認
Jo\~ao F. Doriguello, Alessandro Luongo, Jinge Bao, Patrick Rebentrost, Miklos Santha(参考訳) 有名な最小二乗モンテカルロ(LSM)アルゴリズムは、線形最小二乗回帰とモンテカルロシミュレーションを組み合わせることで、確率的最適停止理論の問題を解決する。 本研究では,確率過程への量子アクセス,最適停止時間計算のための量子回路,モンテカルロの量子技術に基づく量子LSMを提案する。 このアルゴリズムについて,モンテカルロにおける関数近似と量子アルゴリズムの複雑な相互作用を解明する。 提案アルゴリズムは,軽度仮定下でのLSMアルゴリズムと比較して,実行時のほぼ2次高速化を実現する。 具体的には、我々の量子アルゴリズムをアメリカのオプション価格に適用し、ブラウン運動と幾何学的ブラウン運動の共通状況に関するケーススタディを分析する。

The famous least squares Monte Carlo (LSM) algorithm combines linear least square regression with Monte Carlo simulation to approximately solve problems in stochastic optimal stopping theory. In this work, we propose a quantum LSM based on quantum access to a stochastic process, on quantum circuits for computing the optimal stopping times, and on quantum techniques for Monte Carlo. For this algorithm, we elucidate the intricate interplay of function approximation and quantum algorithms for Monte Carlo. Our algorithm achieves a nearly quadratic speedup in the runtime compared to the LSM algorithm under some mild assumptions. Specifically, our quantum algorithm can be applied to American option pricing and we analyze a case study for the common situation of Brownian motion and geometric Brownian motion processes.
翻訳日:2023-03-31 18:48:06 公開日:2023-03-30
# CATRO: クラス認識トレース比最適化によるチャネルプルーニング

CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization ( http://arxiv.org/abs/2110.10921v2 )

ライセンス: Link先を確認
Wenzheng Hu, Zhengping Che, Ning Liu, Mingyang Li, Jian Tang, Changshui Zhang, Jianqiang Wang(参考訳) 深層畳み込みニューラルネットワークは、多くのアプリケーションシナリオにおいて高いパラメトリックおよび計算冗長性で過剰に機能していることが示されており、軽量で効率的なネットワークを得るためにモデルプラニングを探求する作業が増えている。 しかしながら、既存のプルーニングアプローチの多くは経験的ヒューリスティックによって推進され、チャネルの結合的な影響をほとんど考慮せず、曖昧で最適でないパフォーマンスに繋がる。 本稿では,計算負荷を低減し,モデル推論を高速化するために,クラスアウェアトレース比最適化(catro)を用いた新しいチャネルプルーニング手法を提案する。 いくつかのサンプルからクラス情報を利用することで、CATROは特徴空間の識別によって複数のチャネルの結合影響を測定し、保存されたチャネルの層的影響を統合する。 チャネルプルーニングを部分モジュラー集合関数最大化問題として定式化することにより、catroは2段階のグリーディ反復最適化手順により効率的に解く。 さらに,catroの収束とprunedネットワークの性能に関する理論的正当性を示す。 実験の結果、catroは他の最先端チャネルプラニングアルゴリズムと同等の精度で、同様の計算コストや計算コストの低減で高い精度を達成できることが示されている。 さらに,CATROはクラス認識の特性から,様々な分類サブタスクに適応的に効率の良いネットワークを創出するのに適しており,実世界のアプリケーションにおけるディープネットワークの便利展開と利用が向上している。

Deep convolutional neural networks are shown to be overkill with high parametric and computational redundancy in many application scenarios, and an increasing number of works have explored model pruning to obtain lightweight and efficient networks. However, most existing pruning approaches are driven by empirical heuristic and rarely consider the joint impact of channels, leading to unguaranteed and suboptimal performance. In this paper, we propose a novel channel pruning method via Class-Aware Trace Ratio Optimization (CATRO) to reduce the computational burden and accelerate the model inference. Utilizing class information from a few samples, CATRO measures the joint impact of multiple channels by feature space discriminations and consolidates the layer-wise impact of preserved channels. By formulating channel pruning as a submodular set function maximization problem, CATRO solves it efficiently via a two-stage greedy iterative optimization procedure. More importantly, we present theoretical justifications on convergence of CATRO and performance of pruned networks. Experimental results demonstrate that CATRO achieves higher accuracy with similar computation cost or lower computation cost with similar accuracy than other state-of-the-art channel pruning algorithms. In addition, because of its class-aware property, CATRO is suitable to prune efficient networks adaptively for various classification subtasks, enhancing handy deployment and usage of deep networks in real-world applications.
翻訳日:2023-03-31 18:47:54 公開日:2023-03-30
# 統計的に有意義な近似:変圧器付きチューリングマシンのケーススタディ

Statistically Meaningful Approximation: a Case Study on Approximating Turing Machines with Transformers ( http://arxiv.org/abs/2107.13163v3 )

ライセンス: Link先を確認
Colin Wei, Yining Chen, Tengyu Ma(参考訳) ニューラルネットワークアーキテクチャを理論的に研究する一般的なレンズは、近似可能な関数を分析することである。 しかし、近似理論による構成は非現実的であり、従って意味が薄い。 例えば、共通の非現実的なトリックは、目標関数値を無限の精度でエンコードすることである。 これらの問題に対処するため、この研究は、統計的学習可能性を示すために近似ネットワークを必要とする統計的意味(SM)近似の形式的定義を提案する。 ブール回路とチューリングマシンの2種類の関数クラスに対するSM近似について検討した。 過パラメータ化されたフィードフォワードニューラルネットワークは,ネットワークサイズではなく,回路サイズにのみ依存するサンプル複雑性を持つ近似ブール回路をsmできることを示す。 さらに、変換器は、演算時間を$T$で有界なチューリングマシンを、アルファベットサイズ、状態空間サイズ、$\log (T)$のサンプル複雑性多項式で近似できることを示す。 また,一般的なvc次元やノルムベース境界よりもはるかに厳密なサンプル複雑度を提供する一般化分析ツールも紹介する。

A common lens to theoretically study neural net architectures is to analyze the functions they can approximate. However, constructions from approximation theory may be unrealistic and therefore less meaningful. For example, a common unrealistic trick is to encode target function values using infinite precision. To address these issues, this work proposes a formal definition of statistically meaningful (SM) approximation which requires the approximating network to exhibit good statistical learnability. We study SM approximation for two function classes: boolean circuits and Turing machines. We show that overparameterized feedforward neural nets can SM approximate boolean circuits with sample complexity depending only polynomially on the circuit size, not the size of the network. In addition, we show that transformers can SM approximate Turing machines with computation time bounded by $T$ with sample complexity polynomial in the alphabet size, state space size, and $\log (T)$. We also introduce new tools for analyzing generalization which provide much tighter sample complexities than the typical VC-dimension or norm-based bounds, which may be of independent interest.
翻訳日:2023-03-31 18:46:55 公開日:2023-03-30
# 多世界理論の確率

Probability in many-worlds theories ( http://arxiv.org/abs/2106.16145v3 )

ライセンス: Link先を確認
Anthony J. Short(参考訳) 我々は、決定論的多世界理論の単純なクラスの中で、世界上の自然確率分布を定義する方法を考察する。 これはそのような状態における世界の典型的な性質を理解するのに役立ち、従って多世界枠組みにおける量子論の実証的な成功を説明することができる。 量子論の場合にはボルン則につながる3つの合理的公理を与えるとともに、古典確率力学の多世界変種を含む他の場合においても自然の結果をもたらす。

We consider how to define a natural probability distribution over worlds within a simple class of deterministic many-worlds theories. This can help us understand the typical properties of worlds within such states, and hence explain the empirical success of quantum theory within a many-worlds framework. We give three reasonable axioms which lead to the Born rule in the case of quantum theory, and also yield natural results in other cases, including a many-worlds variant of classical stochastic dynamics.
翻訳日:2023-03-31 18:46:34 公開日:2023-03-30
# 自由フェルミオン鎖の対称性を解消したエンタングルメントの完全クエンチダイナミクス

Exact quench dynamics of symmetry resolved entanglement in a free fermion chain ( http://arxiv.org/abs/2106.13115v3 )

ライセンス: Link先を確認
Gilles Parez, Riccarda Bonsignori and Pasquale Calabrese(参考訳) 絡み合いダイナミクスの研究は、多体量子系の平衡状態から挙動を理解する上で重要な役割を果たす。 グローバルに保存された電荷の存在下では、様々な対称性セクターにおける絡み合いの解消に関する知識によって更なる洞察が得られる。 ここでは,自由フェルミオン系における対称性解決された絡み合いの時間発展の研究のために,我々が始めたプログラム [phys. rev. b 103, l041104 (2021)] を継続する。 我々は、相互情報を解決した対称性を定義し、定量化することで、導出を完備し拡張する。 絡み合うエントロピーは、私たちが正確に特徴付ける電荷セクタに依存する時間遅延を表示する。 絡み合いエントロピーと相互情報の両方は、大きな時間とサブシステムサイズのスケーリング限界において有効に公平であることを示している。 さらに,荷電エントロピーの挙動は,絡み合いの広がりに対する準粒子像の枠組みにおいて定量的に理解することができ,その結果の適切な適応が多種多様な可積分系に適用されることを期待する。 また,数エントロピーは,サブシステムサイズの対数に比例する値に飽和するまでの時間とともに対数的に増加することがわかった。

The study of the entanglement dynamics plays a fundamental role in understanding the behaviour of many-body quantum systems out of equilibrium. In the presence of a globally conserved charge, further insights are provided by the knowledge of the resolution of entanglement in the various symmetry sectors. Here, we carry on the program we initiated in [Phys. Rev. B 103, L041104 (2021)], for the study of the time evolution of the symmetry resolved entanglement in free fermion systems. We complete and extend our derivations also by defining and quantifying a symmetry resolved mutual information. The entanglement entropies display a time delay that depends on the charge sector that we characterise exactly. Both entanglement entropies and mutual information show effective equipartition in the scaling limit of large time and subsystem size. Furthermore, we argue that the behaviour of the charged entropies can be quantitatively understood in the framework of the quasiparticle picture for the spreading of entanglement, and hence we expect that a proper adaptation of our results should apply to a large class of integrable systems. We also find that the number entropy grows logarithmically with time before saturating to a value proportional to the logarithm of the subsystem size.
翻訳日:2023-03-31 18:46:27 公開日:2023-03-30
# SHAP-Score-based Explanationsの複雑さについて:知識コンパイルによるトラクタビリティと非近似結果

On the Complexity of SHAP-Score-Based Explanations: Tractability via Knowledge Compilation and Non-Approximability Results ( http://arxiv.org/abs/2104.08015v2 )

ライセンス: Link先を確認
Marcelo Arenas, Pablo Barcel\'o, Leopoldo Bertossi, Mika\"el Monet(参考訳) Machine Learningでは、$\mathsf{SHAP}$-scoreはShapley値のバージョンであり、すべての機能にスコアを割り当てることで、特定のエンティティ上で学習したモデルの結果を説明するために使用される。 一般に、Shapley値は難解な問題であるが、$\mathsf{SHAP}$-scoreは決定論的で分解可能なブール回路よりも多項式時間で計算できるという強い正の結果を証明している。 このような回路は知識コンパイルの分野で研究され、二分決定木や順序付き二分決定図(OBDD)を含む幅広いブール回路と二分決定図を一般化する。 また,shap-scoreの計算限界は,ブールモデルのクラス上での計算が,そのクラスのモデルカウント問題と同じくらい多項式的に困難であることを観測することによって確立する。 これは、決定論と分解可能性の両方が、我々が考慮する回路にとって不可欠な性質であることを意味する。 また、$\mathsf{shap}$-scores の計算は dnf の命題公式のクラス上でも扱いがたいことを意味する。 この負の結果に基づいて、そのようなクラス上の$\mathsf{SHAP}$-scoresを計算するための完全多項式ランダム化近似スキーム (FPRAS) の存在を探索する。 FPRASを許容するDNF公式のモデルカウント問題とは対照的に,$\mathsf{SHAP}$-scoresの計算にはそのようなFPRASは存在しない。 驚くべきことに、この負の結果はDNFの単調式でも成り立つ。 広く信じられている複雑性仮定の下では、単調 dnf の公式 $\varphi$ が与えられ、$\mathsf{shap}$-score ($x$ in $\varphi$) が$\mathsf{shap}$-score ($y$ in $\varphi$) よりも小さいかどうかをチェックする多項式時間アルゴリズムは存在しない。

In Machine Learning, the $\mathsf{SHAP}$-score is a version of the Shapley value that is used to explain the result of a learned model on a specific entity by assigning a score to every feature. While in general computing Shapley values is an intractable problem, we prove a strong positive result stating that the $\mathsf{SHAP}$-score can be computed in polynomial time over deterministic and decomposable Boolean circuits. Such circuits are studied in the field of Knowledge Compilation and generalize a wide range of Boolean circuits and binary decision diagrams classes, including binary decision trees and Ordered Binary Decision Diagrams (OBDDs). We also establish the computational limits of the SHAP-score by observing that computing it over a class of Boolean models is always polynomially as hard as the model counting problem for that class. This implies that both determinism and decomposability are essential properties for the circuits that we consider. It also implies that computing $\mathsf{SHAP}$-scores is intractable as well over the class of propositional formulas in DNF. Based on this negative result, we look for the existence of fully-polynomial randomized approximation schemes (FPRAS) for computing $\mathsf{SHAP}$-scores over such class. In contrast to the model counting problem for DNF formulas, which admits an FPRAS, we prove that no such FPRAS exists for the computation of $\mathsf{SHAP}$-scores. Surprisingly, this negative result holds even for the class of monotone formulas in DNF. These techniques can be further extended to prove another strong negative result: Under widely believed complexity assumptions, there is no polynomial-time algorithm that checks, given a monotone DNF formula $\varphi$ and features $x,y$, whether the $\mathsf{SHAP}$-score of $x$ in $\varphi$ is smaller than the $\mathsf{SHAP}$-score of $y$ in $\varphi$.
翻訳日:2023-03-31 18:45:52 公開日:2023-03-30
# movies2scenes:映画メタデータを使ってシーン表現を学ぶ

Movies2Scenes: Using Movie Metadata to Learn Scene Representation ( http://arxiv.org/abs/2202.10650v3 )

ライセンス: Link先を確認
Shixing Chen, Chun-Hao Liu, Xiang Hao, Xiaohan Nie, Maxim Arap, Raffay Hamid(参考訳) 映画のシーンを理解することは、ビデオモデレーション、検索、レコメンデーションなど、さまざまなアプリケーションにとって不可欠である。 しかし、個々のシーンのラベル付けは時間がかかる。 対照的に、映画レベルのメタデータ(ジャンル、シナプスなど)は、映画制作プロセスの一部として定期的に生産されるため、より一般的である。 本研究では,映画メタデータを用いて汎用シーン表現を学習する新しいコントラスト学習手法を提案する。 具体的には,映画メタデータを用いて映画類似性の尺度を定義し,コントラスト学習中にそれを用いてポジティブなシーンペアの探索を互いに類似していると考えられる映画に限定する。 学習シーンの表現は、複数のベンチマークデータセットを用いて評価された多様なタスクセットにおいて、既存の最先端メソッドよりも一貫して優れています。 特に、学習した表現は、7つの分類タスクの平均7.9%、LVUデータセットの2つの回帰タスクの平均9.7%の改善を提供します。 さらに,新たに収集した映画データセットを用いて,映像モデレーションタスクの集合上でのシーン表現の比較結果を提示し,その一般化可能性を示す。

Understanding scenes in movies is crucial for a variety of applications such as video moderation, search, and recommendation. However, labeling individual scenes is a time-consuming process. In contrast, movie level metadata (e.g., genre, synopsis, etc.) regularly gets produced as part of the film production process, and is therefore significantly more commonly available. In this work, we propose a novel contrastive learning approach that uses movie metadata to learn a general-purpose scene representation. Specifically, we use movie metadata to define a measure of movie similarity, and use it during contrastive learning to limit our search for positive scene-pairs to only the movies that are considered similar to each other. Our learned scene representation consistently outperforms existing state-of-the-art methods on a diverse set of tasks evaluated using multiple benchmark datasets. Notably, our learned representation offers an average improvement of 7.9% on the seven classification tasks and 9.7% improvement on the two regression tasks in LVU dataset. Furthermore, using a newly collected movie dataset, we present comparative results of our scene representation on a set of video moderation tasks to demonstrate its generalizability on previously less explored tasks.
翻訳日:2023-03-31 18:38:29 公開日:2023-03-30
# システム一般化のための因果モデルに基づく強化学習

Provably Efficient Causal Model-Based Reinforcement Learning for Systematic Generalization ( http://arxiv.org/abs/2202.06545v3 )

ライセンス: Link先を確認
Mirco Mutti, Riccardo De Santi, Emanuele Rossi, Juan Felipe Calderon, Michael Bronstein, Marcello Restelli(参考訳) シーケンシャルな意思決定設定では、エージェントは、大きな、おそらく無限の環境セット上の体系的な一般化を達成することを目指している。 このような環境は、特徴ベクトルを通して表される状態と行動の両方を持つ離散マルコフ決定プロセスとしてモデル化される。 環境の基盤となる構造は、トランジッションのダイナミクスを、環境固有のものと共有されるものとの2つのコンポーネントに分解することができる。 動きの法則を共有する一連の環境を例に考えてみましょう。 この設定では、エージェントはこれらの環境の部分集合から有限量の報酬のない相互作用を取ることができる。 エージェントは、上記の相互作用のみに依存するため、元のセットの任意の環境上で定義された任意の計画タスクを概ね解決できなければならない。 この体系的一般化という野心的な目標を達成するための証明可能な効率的なアルゴリズムを設計できるだろうか? 本稿では,この問題に対して部分的に肯定的な回答を与える。 まず,因果的視点を用いて体系的一般化の扱いやすい定式化を提案する。 そして、特定の構造的仮定の下で、多項式サンプルの複雑さを示しながら、避けられない準最適項までの計画誤差を保証する単純な学習アルゴリズムを提供する。

In the sequential decision making setting, an agent aims to achieve systematic generalization over a large, possibly infinite, set of environments. Such environments are modeled as discrete Markov decision processes with both states and actions represented through a feature vector. The underlying structure of the environments allows the transition dynamics to be factored into two components: one that is environment-specific and another that is shared. Consider a set of environments that share the laws of motion as an example. In this setting, the agent can take a finite amount of reward-free interactions from a subset of these environments. The agent then must be able to approximately solve any planning task defined over any environment in the original set, relying on the above interactions only. Can we design a provably efficient algorithm that achieves this ambitious goal of systematic generalization? In this paper, we give a partially positive answer to this question. First, we provide a tractable formulation of systematic generalization by employing a causal viewpoint. Then, under specific structural assumptions, we provide a simple learning algorithm that guarantees any desired planning error up to an unavoidable sub-optimality term, while showcasing a polynomial sample complexity.
翻訳日:2023-03-31 18:38:10 公開日:2023-03-30
# 自由フェルミオン模型におけるクエンチ後の電荷不平衡分解エンタングルメントネガティビティのダイナミクス

Dynamics of charge-imbalance-resolved entanglement negativity after a quench in a free-fermion model ( http://arxiv.org/abs/2202.05309v3 )

ライセンス: Link先を確認
Gilles Parez, Riccarda Bonsignori, Pasquale Calabrese(参考訳) 量子多体系における大域的内部対称性の存在は、その部分間の絡み合いに内部構造が与えられているという事実に反映される。 絡み合い測度の対称性分解は、量子システムの平衡外ダイナミクスを調べるための強固なツールを提供する。 本研究では,自由フェルミオン系の文脈における大域的クエンチ後の電荷不平衡分解ネガティビティの時間発展を研究し,対称性解消エントロピーの先行研究を補完する。 電荷不均衡を解いた対数ネガティリティは、大きな時間とシステムサイズのスケーリング限界において、初期および無限の時間に対して完全な等分性を示す。 また、荷電された r\'enyi logarithmic negativity の力学の公式を導出し、予想する。 我々は、この結果は、絡み合いダイナミクスのための準粒子図の枠組みで理解でき、汎用可積分モデルで有効であると期待できる予想を与えることができると主張する。

The presence of a global internal symmetry in a quantum many-body system is reflected in the fact that the entanglement between its subparts is endowed with an internal structure, namely it can be decomposed as sum of contributions associated to each symmetry sector. The symmetry resolution of entanglement measures provides a formidable tool to probe the out-of-equilibrium dynamics of quantum systems. Here, we study the time evolution of charge-imbalance-resolved negativity after a global quench in the context of free-fermion systems, complementing former works for the symmetry-resolved entanglement entropy. We find that the charge-imbalance-resolved logarithmic negativity shows an effective equipartition in the scaling limit of large times and system size, with a perfect equipartition for early and infinite times. We also derive and conjecture a formula for the dynamics of the charged R\'enyi logarithmic negativities. We argue that our results can be understood in the framework of the quasiparticle picture for the entanglement dynamics, and provide a conjecture that we expect to be valid for generic integrable models.
翻訳日:2023-03-31 18:37:54 公開日:2023-03-30
# 標準制約ニューラルネットワークの近似境界と回帰とGANへの応用

Approximation bounds for norm constrained neural networks with applications to regression and GANs ( http://arxiv.org/abs/2201.09418v3 )

ライセンス: Link先を確認
Yuling Jiao, Yang Wang, Yunfei Yang(参考訳) 本稿では,ReLUニューラルネットワークの重みに対する標準制約による近似能力について検討する。 滑らかな関数クラスに対するこれらのネットワークの近似誤差の上限と下限を証明した。 下限は、独立した関心を持つかもしれないニューラルネットワークのラデマッハ複雑性によって導かれる。 これらの近似境界をノルム制約付きニューラルネットワークとganによる分布推定を用いた回帰収束解析に適用する。 特に,超パラメータニューラルネットワークの収束率を求める。 また、判別器が適切に選択されたノルム制約ニューラルネットワークである場合、GANが学習確率分布の最適速度を達成することも示している。

This paper studies the approximation capacity of ReLU neural networks with norm constraint on the weights. We prove upper and lower bounds on the approximation error of these networks for smooth function classes. The lower bound is derived through the Rademacher complexity of neural networks, which may be of independent interest. We apply these approximation bounds to analyze the convergences of regression using norm constrained neural networks and distribution estimation by GANs. In particular, we obtain convergence rates for over-parameterized neural networks. It is also shown that GANs can achieve optimal rate of learning probability distributions, when the discriminator is a properly chosen norm constrained neural network.
翻訳日:2023-03-31 18:37:11 公開日:2023-03-30
# 非線形未知入力可観測性と未知入力再構成:一般解析解

Nonlinear Unknown Input Observability and Unknown Input Reconstruction: The General Analytical Solution ( http://arxiv.org/abs/2201.07610v3 )

ライセンス: Link先を確認
Agostino Martinelli(参考訳) 可観測性は任意の動的システムの基本的な構造特性であり、入力や出力を観測することからシステムの特徴を特徴づける状態を再構築する可能性を記述する。 この特性を調査し、動的システムがこの特性を満たすかどうかを確認できる解析基準を導入するという大きな努力にもかかわらず、未知の入力によって動的も駆動される場合、状態の可観測性を自動的にチェックする一般的な分析基準は存在しない。 本稿では, 未知入力可観測性問題と呼ばれる, この基本問題の一般解析解を提案する。 本稿では, この問題の一般的な解析解, すなわち, 自動計算(微分および行列ランク決定)に基づく体系的手順を提供し, 未知の入力が存在する場合でも, 状態の可観測性を自動的にチェックできるようにする(Algorithm 6.1)。 この問題の第一の解は、本書の第2部で「可観測性:不変性群に基づく新しい理論」として提示された [45]。 この論文で提示された解決策は[45]で前のソリューションを完成させます。 特に、新しい解法は「未知の入力に対してカノニックである」システムのカテゴリに属さないシステムを徹底的に説明している。 解析的導出は[45]で導入されたいくつかの新しい概念と分析結果を利用する。 最後に、得られた結果の簡単な結果として、状態可観測性の問題と密接に関連している未知の入力再構成問題に対する回答を提供する。 2つの未知入力と1つの既知の入力によって駆動される視覚慣性センサ融合の枠組みにおいて、非線形システムの可観測性を研究することにより、新しいアルゴリズムの実装を示す。

Observability is a fundamental structural property of any dynamic system and describes the possibility of reconstructing the state that characterizes the system from observing its inputs and outputs. Despite the huge effort made to study this property and to introduce analytical criteria able to check whether a dynamic system satisfies this property or not, there is no general analytical criterion to automatically check the state observability when the dynamics are also driven by unknown inputs. Here, we introduce the general analytical solution of this fundamental problem, often called the unknown input observability problem. This paper provides the general analytical solution of this problem, namely, it provides the systematic procedure, based on automatic computation (differentiation and matrix rank determination), that allows us to automatically check the state observability even in the presence of unknown inputs (Algorithm 6.1). A first solution of this problem was presented in the second part of the book: "Observability: A New Theory Based on the Group of Invariance" [45]. The solution presented by this paper completes the previous solution in [45]. In particular, the new solution exhaustively accounts for the systems that do not belong to the category of the systems that are "canonic with respect to their unknown inputs". The analytical derivations largely exploit several new concepts and analytical results introduced in [45]. Finally, as a simple consequence of the results here obtained, we also provide the answer to the problem of unknown input reconstruction which is intimately related to the problem of state observability. We illustrate the implementation of the new algorithm by studying the observability properties of a nonlinear system in the framework of visual-inertial sensor fusion, whose dynamics are driven by two unknown inputs and one known input.
翻訳日:2023-03-31 18:37:01 公開日:2023-03-30
# 超低温原子の二重配列からの量子非線形準曲面

Quantum nonlinear metasurfaces from dual arrays of ultracold atoms ( http://arxiv.org/abs/2201.06544v3 )

ライセンス: Link先を確認
Simon Panyella Pedersen, Lida Zhang, Thomas Pohl(参考訳) サブ波長格子内の原子は、科学的、技術的に重要な光学的性質を持つ。 ここでは、単一原子配列以上への光の結合が、これらの視点を量子非線形光学の領域にどのように拡張するかを示す。 単一のアレイが光をほぼ直線的に送信し反射する一方で、2つのアレイの組み合わせは、入ってくる古典的ビームを高い反有界光に変換する強力な光子-光子相互作用を引き起こす。 このような量子準曲面は、光学量子情報処理から強い相互作用を持つ光子の2次元系における量子多体現象の探索まで、非古典的な光をコヒーレントに生成し、操作する新たな可能性を開く。

Atoms in a sub-wavelength lattices have remarkable optical properties that have become of high scientific and technological significance. Here, we show how the coupling of light to more than a single atomic array can expand these perspectives into the domain of quantum nonlinear optics. While a single array transmits and reflects light in a largely linear fashion, the combination of two arrays is found to induce strong photon-photon interactions that can convert an incoming classical beam into highly antibunched light. Such quantum metasurfaces open up new possibilities for coherently generating and manipulating nonclassical light, from optical quantum information processing to exploring quantum many-body phenomena in two-dimensional systems of strongly interacting photons.
翻訳日:2023-03-31 18:36:32 公開日:2023-03-30
# グローバルプロトタイプによる連続学習の強化 - 否定表現ドリフトの反作用

Enhancing Continual Learning with Global Prototypes: Counteracting Negative Representation Drift ( http://arxiv.org/abs/2205.12186v2 )

ライセンス: Link先を確認
Xueying Bai, Jinghuan Shang, Yifan Sun, Niranjan Balasubramanian(参考訳) 連続学習(CL)は、あるタスクから別のタスクへデータ分布をシフトさせて、時間の経過とともに一連のタスクを学習することを目的としている。 新しいタスクデータに対するトレーニングでは、古いタスクからのデータ表現がドリフトする可能性がある。 負の表現の漂流は、局所的に学習されたクラスプロトタイプとデータ表現がタスク間で相関が悪くなることによって、破滅的な忘れを引き起こす可能性がある。 このような表現のドリフトを軽減するために,学習をガイドするグローバルプロトタイプを見つけ,自己教師情報の正規化によってデータ表現を学習する手法を提案する。 特に、nlpタスクでは、各タスクをマスキング言語モデリングスタイルで定式化し、事前学習した言語モデルよりも近隣の注意機構を介してタスクを学習する。 実験結果から,提案手法は表現のドリフトを少なくして整合性のある表現を学習でき,過去のタスクからデータを再サンプリングすることなくCLにおける破滅的な忘れを著しく低減できることがわかった。

Continual learning (CL) aims to learn a sequence of tasks over time, with data distributions shifting from one task to another. When training on new task data, data representations from old tasks may drift. Some negative representation drift can result in catastrophic forgetting, by causing the locally learned class prototypes and data representations to correlate poorly across tasks. To mitigate such representation drift, we propose a method that finds global prototypes to guide the learning, and learns data representations with the regularization of the self-supervised information. Specifically, for NLP tasks, we formulate each task in a masked language modeling style, and learn the task via a neighbor attention mechanism over a pre-trained language model. Experimental results show that our proposed method can learn fairly consistent representations with less representation drift, and significantly reduce catastrophic forgetting in CL without resampling data from past tasks.
翻訳日:2023-03-31 18:30:09 公開日:2023-03-30
# 半パラメトリック誘導点ネットワークと神経過程

Semi-Parametric Inducing Point Networks and Neural Processes ( http://arxiv.org/abs/2205.11718v2 )

ライセンス: Link先を確認
Richa Rastogi, Yair Schiff, Alon Hacohen, Zhaozhi Li, Ian Lee, Yuntian Deng, Mert R. Sabuncu, Volodymyr Kuleshov(参考訳) 本稿では,半パラメトリック誘導点ネットワーク (SPIN) を導入し,計算効率のよい推論時間でトレーニングセットをクエリできる汎用アーキテクチャを提案する。 半パラメトリックアーキテクチャは一般にパラメトリックモデルよりもコンパクトであるが、計算の複雑さはしばしば二次的である。 対照的にSPINは、ポイントメソッドの誘導にインスパイアされたデータポイント間のクロスアテンションメカニズムを通じて線形複雑性を実現する。 大規模なトレーニングセットのクエリは、追加のトレーニングシグナルをアンロックするため、メタラーニングでは特に有用だが、既存のモデルのスケーリング制限を超えることが多い。 Inducing Point Neural Processはメタラーニングにおいて大きなコンテキストをサポートする確率モデルであり,既存のモデルがフェールした場合の高精度を実現する。 実験では,SPINはメモリ要件を低減し,様々なメタラーニングタスクの精度を向上し,重要な実用的問題である遺伝子型計算における最先端性能を向上させる。

We introduce semi-parametric inducing point networks (SPIN), a general-purpose architecture that can query the training set at inference time in a compute-efficient manner. Semi-parametric architectures are typically more compact than parametric models, but their computational complexity is often quadratic. In contrast, SPIN attains linear complexity via a cross-attention mechanism between datapoints inspired by inducing point methods. Querying large training sets can be particularly useful in meta-learning, as it unlocks additional training signal, but often exceeds the scaling limits of existing models. We use SPIN as the basis of the Inducing Point Neural Process, a probabilistic model which supports large contexts in meta-learning and achieves high accuracy where existing models fail. In our experiments, SPIN reduces memory requirements, improves accuracy across a range of meta-learning tasks, and improves state-of-the-art performance on an important practical problem, genotype imputation.
翻訳日:2023-03-31 18:29:52 公開日:2023-03-30
# インタラクション・レプリカ:人間と物体の相互作用とシーンの変化を追跡する

Interaction Replica: Tracking human-object interaction and scene changes from human motion ( http://arxiv.org/abs/2205.02830v2 )

ライセンス: Link先を確認
Vladimir Guzov, Julian Chibane, Riccardo Marin, Torsten Sattler, Gerard Pons-Moll(参考訳) 人間は、例えばドアを開いたり家具を動かしたりすることで、対話を通じて自然に環境を変える。 このような相互作用を仮想空間(メタバースなど)で再現するには、シーン形状の変化を含む、理想的には自我中心の入力(ヘッドカメラとボディウーンの慣性センサー)をキャプチャしてモデル化する必要がある。 ヘッドカメラはシーン内の人物をローカライズするのに使えるが、ダイナミックなオブジェクトのポーズを推定するのはずっと難しい。 被写体は、しばしばヘッドカメラから見えないため(例えば、座っている間椅子を見ていない人間)、視覚的な物体のポーズ推定に頼ることはできない。 その代わり、人間の動きがシーンの変化について多くのことを教えてくれます。 そこで本研究では,人間の動きのみに基づく物体やシーンの変化をトラッキングできる,最初の人間と物体の相互作用推論手法iReplicaを提案する。 iReplicaは没入型仮想空間における高度なAR/VRアプリケーションに向けた重要な第一歩であり、マシンが周囲と対話するための人間中心のトレーニングデータを提供する。 私たちのコード、データ、モデルはプロジェクトのページ http://virtual humans.mpi-inf.mpg.de/ireplica/で公開されます。

Humans naturally change their environment through interactions, e.g., by opening doors or moving furniture. To reproduce such interactions in virtual spaces (e.g., metaverse), we need to capture and model them, including changes in the scene geometry, ideally from egocentric input alone (head camera and body-worn inertial sensors). While the head camera can be used to localize the person in the scene, estimating dynamic object pose is much more challenging. As the object is often not visible from the head camera (e.g., a human not looking at a chair while sitting down), we can not rely on visual object pose estimation. Instead, our key observation is that human motion tells us a lot about scene changes. Motivated by this, we present iReplica, the first human-object interaction reasoning method which can track objects and scene changes based solely on human motion. iReplica is an essential first step towards advanced AR/VR applications in immersive virtual universes and can provide human-centric training data to teach machines to interact with their surroundings. Our code, data and model will be available on our project page at http://virtualhumans.mpi-inf.mpg.de/ireplica/
翻訳日:2023-03-31 18:28:48 公開日:2023-03-30
# スパイク表現の差分による高性能低レイテンシスパイクニューラルネットワークの訓練

Training High-Performance Low-Latency Spiking Neural Networks by Differentiation on Spike Representation ( http://arxiv.org/abs/2205.00459v2 )

ライセンス: Link先を確認
Qingyan Meng, Mingqing Xiao, Shen Yan, Yisen Wang, Zhouchen Lin, Zhi-Quan Luo(参考訳) spiking neural network(snn)は、ニューロモルフィックなハードウェア上で実装される、エネルギー効率の高いaiモデルである。 しかし、その非微分性から効率的にsnsを訓練することは困難である。 既存の手法の多くは、高いレイテンシ(すなわち長いシミュレーション時間ステップ)に苦しむか、あるいは人工ニューラルネットワーク(anns)ほど高いパフォーマンスを達成できない。 本稿では、低レイテンシでANNと競合する高い性能を実現することができるスパイク表現法(DSR)の差分法を提案する。 まず、(重み付き)発射速度符号化を用いてスパイク列車をスパイク表現に符号化する。 スパイク表現に基づいて,共通の神経モデルを持つスパイクダイナミクスを部分微分可能写像として表現できることを体系的に導出する。 この観点から,提案手法はSNNの勾配を学習し,SNN訓練における一般的な非微分可能性問題を回避する。 次に、SNNの前方計算で特定マッピングを表現する際の誤差を解析する。 このような誤差を低減するために,各層におけるスパイクしきい値のトレーニングと,ニューラルモデルに対する新しいハイパーパラメータの導入を提案する。 これらのコンポーネントにより、DSR法は、CIFAR-10、CIFAR-100、ImageNet、DVS-CIFAR10を含む静的およびニューロモルフィックなデータセット上で、低レイテンシで最先端のSNN性能を実現することができる。

Spiking Neural Network (SNN) is a promising energy-efficient AI model when implemented on neuromorphic hardware. However, it is a challenge to efficiently train SNNs due to their non-differentiability. Most existing methods either suffer from high latency (i.e., long simulation time steps), or cannot achieve as high performance as Artificial Neural Networks (ANNs). In this paper, we propose the Differentiation on Spike Representation (DSR) method, which could achieve high performance that is competitive to ANNs yet with low latency. First, we encode the spike trains into spike representation using (weighted) firing rate coding. Based on the spike representation, we systematically derive that the spiking dynamics with common neural models can be represented as some sub-differentiable mapping. With this viewpoint, our proposed DSR method trains SNNs through gradients of the mapping and avoids the common non-differentiability problem in SNN training. Then we analyze the error when representing the specific mapping with the forward computation of the SNN. To reduce such error, we propose to train the spike threshold in each layer, and to introduce a new hyperparameter for the neural models. With these components, the DSR method can achieve state-of-the-art SNN performance with low latency on both static and neuromorphic datasets, including CIFAR-10, CIFAR-100, ImageNet, and DVS-CIFAR10.
翻訳日:2023-03-31 18:28:27 公開日:2023-03-30
# データに基づく価格識別における情報理論の限界

Information-theoretic limitations of data-based price discrimination ( http://arxiv.org/abs/2204.12723v3 )

ライセンス: Link先を確認
Haitian Xie, Ying Zhu, Denis Shishkin(参考訳) 本稿では,コバリアイトが連続しており,販売者にはデータの分布が不明な,ランダムな評価データと共変量データに基づいて,第3次価格差別(3PD)について検討する。 本論文の主な成果は2つである。 最初の一連の結果は、独立した価格戦略であり、3PDと均一価格の2つのケースでデータベースの価格戦略の基本的な情報理論的な制限を明らかにする。 第2の結果は、K$-markets empirical revenue maximization (ERM) 戦略を提案し、K$-markets ERM 戦略と均一 ERM 戦略が、それぞれの真分布3PD と均一価格オプティマによって生成される収益の最適収束率を達成することを示す。 我々の理論的および数値的な結果は、サンプルサイズが十分に小さい場合、一様(すなわち1ドル市場)のEMM戦略は、Kドル市場EMM戦略よりも大きな収益を生み出すことを示唆している。

This paper studies third-degree price discrimination (3PD) based on a random sample of valuation and covariate data, where the covariate is continuous, and the distribution of the data is unknown to the seller. The main results of this paper are twofold. The first set of results is pricing strategy independent and reveals the fundamental information-theoretic limitation of any data-based pricing strategy in revenue generation for two cases: 3PD and uniform pricing. The second set of results proposes the $K$-markets empirical revenue maximization (ERM) strategy and shows that the $K$-markets ERM and the uniform ERM strategies achieve the optimal rate of convergence in revenue to that generated by their respective true-distribution 3PD and uniform pricing optima. Our theoretical and numerical results suggest that the uniform (i.e., $1$-market) ERM strategy generates a larger revenue than the $K$-markets ERM strategy when the sample size is small enough, and vice versa.
翻訳日:2023-03-31 18:27:33 公開日:2023-03-30
# 可動完全鏡で分離した2つの半空間における電界観測物の空間相関

Spatial correlations of field observables in two half-spaces separated by a movable perfect mirror ( http://arxiv.org/abs/2204.06886v3 )

ライセンス: Link先を確認
Federico Montalbano, Federico Armata, Lucia Rizzuto, Roberto Passante(参考訳) 移動自在な有限質量の反射境界によって分離され、調和ポテンシャルによってその平衡位置に有界な2つの空洞系を考える。 これにより、有効ミラー-フィールド相互作用と、可動境界によって媒介されるフィールドモード間の効果的な相互作用が得られる。 2つの無質量スカラー場は各空洞で定義される。 ミラーの自由度とスカラー場の両方の仮想励起を含む系の2次相互作用基底状態を考える。 2つのキャビティ内の電界観測値間の相関関数について検討し、相互作用する基底状態の2つのキャビティ内の正方形スカラー場が反相関であることを示す。 鏡の平均位置から考える2点の距離とその質量および振動角周波数に対する相関の依存性について検討した。 これらの結果から,移動鏡によって分離された2つの半空間間の通信は,その位置ゆらぎを媒介とする。 偏光性物体間の二体または多体相互作用を利用した新しい現象の観測可能性について論じる。 実導体の場合と同様に、周波数積分を正則化するために導入されたカットオフ周波数への依存性についても論じる。

We consider a system of two cavities separated by a reflecting boundary of finite mass that is free to move, and bounded to its equilibrium position by a harmonic potential. This yields an effective mirror-field interaction, as well as an effective interaction between the field modes mediated by the movable boundary. Two massless scalar fields are defined in each cavity. We consider the second-order interacting ground state of the system, that contains virtual excitations of both mirror's degrees of freedom and of the scalar fields. We investigate the correlation functions between field observables in the two cavities, and find that the squared scalar fields in the two cavities, in the interacting ground state, are anticorrelated. We discuss the dependence of the correlation on the distance of the two points considered from the mirror's average position and on its mass and oscillation angular frequency. These results show a sort of communication between the two half-spaces separated by the movable mirror, mediated by its position fluctuations. Observability of this new phenomenon exploiting two- or many-body dispersion interactions between polarizable bodies is discussed. The dependence on a cutoff frequency introduced to regularize the frequency integrations, as well as the case of a real conductor, are also discussed.
翻訳日:2023-03-31 18:27:13 公開日:2023-03-30
# マルチラベル特徴選択のためのランダム多様体サンプリングとジョイントスパース正規化

Random Manifold Sampling and Joint Sparse Regularization for Multi-label Feature Selection ( http://arxiv.org/abs/2204.06445v3 )

ライセンス: Link先を確認
Haibao Li and Hongzhi Zhai(参考訳) マルチラベル学習は通常、特徴とラベルの相関関係をマイニングするために使用され、少数の特徴を通して可能な限り多くの情報を保持することができる。 $\ell_{2,1}$正規化法はスパース係数行列を得ることができるが、多重線型性問題を効果的に解くことはできない。 The model proposed in this paper can obtain the most relevant few features by solving the joint constrained optimization problems of $\ell_{2,1}$ and $\ell_{F}$ regularization.In manifold regularization, we implement random walk strategy based on joint information matrix, and get a highly robust neighborhood graph.In addition, we given the algorithm for solving the model and proved its convergence.Comparative experiments on real-world data sets show that the proposed method outperforms other methods.

Multi-label learning is usually used to mine the correlation between features and labels, and feature selection can retain as much information as possible through a small number of features. $\ell_{2,1}$ regularization method can get sparse coefficient matrix, but it can not solve multicollinearity problem effectively. The model proposed in this paper can obtain the most relevant few features by solving the joint constrained optimization problems of $\ell_{2,1}$ and $\ell_{F}$ regularization.In manifold regularization, we implement random walk strategy based on joint information matrix, and get a highly robust neighborhood graph.In addition, we given the algorithm for solving the model and proved its convergence.Comparative experiments on real-world data sets show that the proposed method outperforms other methods.
翻訳日:2023-03-31 18:26:53 公開日:2023-03-30
# ニューラルネットワークによるマルチスケール注意画像デライニングネットワーク

Multi-scale Attentive Image De-raining Networks via Neural Architecture Search ( http://arxiv.org/abs/2207.00728v2 )

ライセンス: Link先を確認
Lei Cai, Yuli Fu, Wanliang Huo, Youjun Xiang, Tao Zhu, Ying Zhang, Huanqiang Zeng and Delu Zeng(参考訳) マルチスケールアーキテクチャとアテンションモジュールは、多くの深層学習に基づく画像デレイニング手法において有効性を示している。 しかし、これらの2つのコンポーネントをニューラルネットワークに手動で設計し、統合するには、膨大な労力と幅広い専門知識が必要です。 本稿では,画像デレーシングのために,高性能なマルチスケールニューラルネットワーク検索(manas)フレームワークを開発した。 提案手法は,画像デレイティングタスクに好適な複数のフレキシブルモジュールを用いた,新しいマルチスケールアテンション検索空間を定式化する。 探索空間下では、マルチスケールの減衰セルが構築され、強力な画像デレイニングネットワークの構築にさらに使用される。 ディライニングネットワークの内部のマルチスケール注意アーキテクチャは、手動設計の煩わしい手順をある程度回避する勾配に基づく探索アルゴリズムによって自動的に探索される。 Moreover, in order to obtain a robust image de-raining model, a practical and effective multi-to-one training strategy is also presented to allow the de-raining network to get sufficient background information from multiple rainy images with the same background scene, and meanwhile, multiple loss functions including external loss, internal loss, architecture regularization loss, and model complexity loss are jointly optimized to achieve robust de-raining performance and controllable model complexity. 合成および現実的な降雨画像および下流視覚応用(すなわち、対物検出とセグメンテーション)に関する大規模な実験結果は、提案手法の優位性を一貫して示している。 コードはhttps://github.com/lcai-gz/MANASで公開されている。

Multi-scale architectures and attention modules have shown effectiveness in many deep learning-based image de-raining methods. However, manually designing and integrating these two components into a neural network requires a bulk of labor and extensive expertise. In this article, a high-performance multi-scale attentive neural architecture search (MANAS) framework is technically developed for image deraining. The proposed method formulates a new multi-scale attention search space with multiple flexible modules that are favorite to the image de-raining task. Under the search space, multi-scale attentive cells are built, which are further used to construct a powerful image de-raining network. The internal multiscale attentive architecture of the de-raining network is searched automatically through a gradient-based search algorithm, which avoids the daunting procedure of the manual design to some extent. Moreover, in order to obtain a robust image de-raining model, a practical and effective multi-to-one training strategy is also presented to allow the de-raining network to get sufficient background information from multiple rainy images with the same background scene, and meanwhile, multiple loss functions including external loss, internal loss, architecture regularization loss, and model complexity loss are jointly optimized to achieve robust de-raining performance and controllable model complexity. Extensive experimental results on both synthetic and realistic rainy images, as well as the down-stream vision applications (i.e., objection detection and segmentation) consistently demonstrate the superiority of our proposed method. The code is publicly available at https://github.com/lcai-gz/MANAS.
翻訳日:2023-03-31 18:21:39 公開日:2023-03-30
# 共振可変カプラによる超伝導量子ビットの制御制御位相ゲート

Controlled-Controlled-Phase Gates for Superconducting Qubits Mediated by a Shared Tunable Coupler ( http://arxiv.org/abs/2206.12392v2 )

ライセンス: Link先を確認
Niklas J. Glaser, Federico Roy, Stefan Filipp(参考訳) ノイズの多い中間スケール量子コンピューティングデバイスのためのアプリケーションは、潜在的な量子アドバンテージに到達するために多くの量子ビットの効率の良い絡み合いに依存する。 エンタングルメントは通常2量子ビットゲートで生成されるが、強いマルチ量子ビット相互作用を直接制御することでプロセスの効率が向上する。 本稿では, 超伝導トランスモン型量子ビットを1つの磁束可変カプラで結合するシステムについて検討する。 アダバティックフラックスパルスによるカプラの周波数調整により、キュービット間の条件エネルギーシフトを制御し、マルチキュービット相互作用を直接実現することができる。 制御された相対位相を正確に調整するために、パルスの再フォーカスと調整可能な相互作用時間を含むゲートプロトコルを記述する。 これにより、ペアワイズ制御相(CPHASE)と制御制御相(CCPHASE)の完全なファミリーの実装が可能になる。 数値シミュレーションにより, 現在達成可能なシステムパラメータとデコヒーレンス率を用いて, 300 ns以下で99 %, ゲートタイムが得られた。

Applications for noisy intermediate-scale quantum computing devices rely on the efficient entanglement of many qubits to reach a potential quantum advantage. Although entanglement is typically generated using two-qubit gates, direct control of strong multi-qubit interactions can improve the efficiency of the process. Here, we investigate a system of three superconducting transmon-type qubits coupled via a single flux-tunable coupler. Tuning the frequency of the coupler by adiabatic flux pulses enables us to control the conditional energy shifts between the qubits and directly realize multi-qubit interactions. To accurately adjust the resulting controlled relative phases, we describe a gate protocol involving refocusing pulses and adjustable interaction times. This enables the implementation of the full family of pairwise controlled-phase (CPHASE) and controlled-controlled-phase (CCPHASE) gates. Numerical simulations result in fidelities around 99 % and gate times below 300 ns using currently achievable system parameters and decoherence rates.
翻訳日:2023-03-31 18:21:16 公開日:2023-03-30
# 非自己回帰型エンドツーエンド音声認識のための高速かつ高精度並列変換器

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition ( http://arxiv.org/abs/2206.08317v3 )

ライセンス: Link先を確認
Zhifu Gao, Shiliang Zhang, Ian McLoughlin, Zhijie Yan(参考訳) トランスフォーマーは最近ASRの分野を支配した。 優れた性能が得られるが、オートレグレッシブ(AR)デコーダが1つずつトークンを生成し、これは計算的に非効率である。 推論を高速化するため、単一ステップのNARのような非自己回帰(NAR)手法が設計され、並列生成が可能になった。 しかし、出力トークン内の独立性の仮定のため、単一ステップのNARの性能はARモデル、特に大規模コーパスよりも劣る。 ひとつは、出力トークンの数を正確に予測し、隠れた変数を抽出すること、もうひとつは、出力トークン間の相互依存性のモデリングを強化することである。 両課題に対処するため,Paraformerと呼ばれる高速かつ高精度な並列トランスを提案する。 これは連続的な統合とファイアベースの予測器を使用してトークンの数を予測し、隠れた変数を生成する。 グリランシング言語モデル(GLM)は、コンテキスト相互依存性をモデル化するNARデコーダの能力を高めるためにセマンティック埋め込みを生成する。 最後に,最小単語誤り率トレーニングのための負のサンプルを生成する戦略を考案し,さらに性能を向上させる。 パブリックなAISHELL-1、AISHELL-2ベンチマーク、産業レベルの20,000時間のタスクを使用した実験は、提案されたParaformerが10倍以上のスピードアップで最先端のARトランスフォーマーと同等のパフォーマンスを達成できることを実証している。

Transformers have recently dominated the ASR field. Although able to yield good performance, they involve an autoregressive (AR) decoder to generate tokens one by one, which is computationally inefficient. To speed up inference, non-autoregressive (NAR) methods, e.g. single-step NAR, were designed, to enable parallel generation. However, due to an independence assumption within the output tokens, performance of single-step NAR is inferior to that of AR models, especially with a large-scale corpus. There are two challenges to improving single-step NAR: Firstly to accurately predict the number of output tokens and extract hidden variables; secondly, to enhance modeling of interdependence between output tokens. To tackle both challenges, we propose a fast and accurate parallel transformer, termed Paraformer. This utilizes a continuous integrate-and-fire based predictor to predict the number of tokens and generate hidden variables. A glancing language model (GLM) sampler then generates semantic embeddings to enhance the NAR decoder's ability to model context interdependence. Finally, we design a strategy to generate negative samples for minimum word error rate training to further improve performance. Experiments using the public AISHELL-1, AISHELL-2 benchmark, and an industrial-level 20,000 hour task demonstrate that the proposed Paraformer can attain comparable performance to the state-of-the-art AR transformer, with more than 10x speedup.
翻訳日:2023-03-31 18:20:57 公開日:2023-03-30
# FixEval: プログラミング問題に対するプログラム修正の実行ベースの評価

FixEval: Execution-based Evaluation of Program Fixes for Programming Problems ( http://arxiv.org/abs/2206.07796v4 )

ライセンス: Link先を確認
Md Mahim Anjum Haque and Wasi Uddin Ahmad and Ismini Lourentzou and Chris Brown(参考訳) 現代のソフトウェアの複雑さは、ソフトウェアバグの検出と修正に関連する時間とコストを大幅に増加させました。 これに対し、研究者たちはバグのあるコードの修正を自動的に生成する様々な方法を模索した。 しかしながら、特定のバグに対する修正の可能な大きな組み合わせスペースのため、モデル生成の修正を効果的に評価するツールやデータセットは少ない。 この問題に対処するため,我々は,競合するプログラミング問題に対するバグの多いコード投稿とその修正からなるベンチマークであるfixevalを紹介する。 FixEvalは、モデル生成プログラム修正の正確性を評価し、判断に基づいて時間、メモリ制約、受け入れに関するさらなる情報を評価するために、ユニットテストの広範なコレクションを提供する。 プログラミング言語上で事前訓練された2つのトランスフォーマー言語モデルをベースラインとして、マッチベースおよび実行ベース評価指標を用いて比較する。 実験の結果,マッチングに基づくメトリクスは,モデル生成プログラムの修正を正確に反映しないことがわかった。 同時に、実行ベースのメソッドは、そのソリューションのために明示的に設計されたすべてのケースとシナリオを通してプログラムを評価する。 したがって、FixEvalは実際の自動バグ修正とモデル生成コード評価へのステップを提供すると思います。 データセットとモデルはhttps://github.com/mahimanzum/FixEval.comで公開されている。

The complexity of modern software has led to a drastic increase in the time and cost associated with detecting and rectifying software bugs. In response, researchers have explored various methods to automatically generate fixes for buggy code. However, due to the large combinatorial space of possible fixes for any given bug, few tools and datasets are available to evaluate model-generated fixes effectively. To address this issue, we introduce FixEval, a benchmark comprising of buggy code submissions to competitive programming problems and their corresponding fixes. FixEval offers an extensive collection of unit tests to evaluate the correctness of model-generated program fixes and assess further information regarding time, memory constraints, and acceptance based on a verdict. We consider two Transformer language models pretrained on programming languages as our baseline and compare them using match-based and execution-based evaluation metrics. Our experiments show that match-based metrics do not reflect model-generated program fixes accurately. At the same time, execution-based methods evaluate programs through all cases and scenarios designed explicitly for that solution. Therefore, we believe FixEval provides a step towards real-world automatic bug fixing and model-generated code evaluation. The dataset and models are open-sourced at https://github.com/mahimanzum/FixEval.
翻訳日:2023-03-31 18:20:30 公開日:2023-03-30
# 深層学習による大規模細胞電子顕微鏡のセグメンテーション--文献的研究

Segmentation in large-scale cellular electron microscopy with deep learning: A literature survey ( http://arxiv.org/abs/2206.07171v3 )

ライセンス: Link先を確認
Anusha Aswath, Ahmad Alsahaf, Ben N. G. Giepmans, George Azzopardi(参考訳) バイオメディカル電子顕微鏡(EM)における自動および半自動技術により、大規模なデータセットを高速に取得することができる。 そのため、これらの大量のデータを解析し、解釈するためには、セグメンテーション法が不可欠である。 近年、ディープラーニングアルゴリズムは、ピクセルレベルのラベリング(セグメンテーション)と、同じクラスの別々のインスタンス(インスタンスセグメンテーション)のラベリングの両方で印象的な結果を達成している。 本稿では,これらのアルゴリズムをem画像中の細胞構造と細胞内構造を分割するタスクに適用した方法について検討する。 このような画像やネットワークアーキテクチャによって引き起こされる特別な課題について説明する。 さらに、EMにおけるディープラーニングの普及に寄与した注目すべきデータセットについても、詳細な概要が述べられている。 最後に,特にラベルフリー学習分野におけるEMセグメンテーションの動向と今後の展望について概観する。

Automated and semi-automated techniques in biomedical electron microscopy (EM) enable the acquisition of large datasets at a high rate. Segmentation methods are therefore essential to analyze and interpret these large volumes of data, which can no longer completely be labeled manually. In recent years, deep learning algorithms achieved impressive results in both pixel-level labeling (semantic segmentation) and the labeling of separate instances of the same class (instance segmentation). In this review, we examine how these algorithms were adapted to the task of segmenting cellular and sub-cellular structures in EM images. The special challenges posed by such images and the network architectures that overcame some of them are described. Moreover, a thorough overview is also provided on the notable datasets that contributed to the proliferation of deep learning in EM. Finally, an outlook of current trends and future prospects of EM segmentation is given, especially in the area of label-free learning.
翻訳日:2023-03-31 18:19:39 公開日:2023-03-30
# 双対ハミルトニアンパラメータ推定を用いた双線形状態を超えた2量子容量相互作用の探索

Probing two-qubit capacitive interactions beyond bilinear regime using dual Hamiltonian parameter estimations ( http://arxiv.org/abs/2206.04321v2 )

ライセンス: Link先を確認
Jonginn Yun, Jaemin Park, Hyeongyu Jang, Jehyun Kim, Wonjin Jang, Youngwook Song, Min-Kyun Cho, Hanseo Sohn, Hwanchul Jung, Vladimir Umansky, Dohun Kim(参考訳) GaAs四重極量子ドットアレイにおける準定常核雑音から積極的に分離された2電子スピン量子ビットの同時動作と2量子結合の測定を報告する。 両量子ビットのコヒーレントラビ振動(約$\approx$2 {\mu}s;周波数数mhz)は、高速に収束するハミルトニアン推定器を用いて駆動周波数を連続的にチューニングすることで達成される。 状態条件交換振動測定により、強い2ビット容量相互作用(>190MHz)も観測する。 量子ビット間交換エネルギーに対する容量的相互作用のスケーリングは、最近の理論的予測と一致する双線型形式よりも強いことを示す。 コヒーレンス時間と条件相フリップ時間の間の高い比(>16)を観測し、単純な静電容量相互作用を用いて符号化スピン量子ビット間の高忠実性および高速量子絡み合いを生成することができる。

We report the simultaneous operation and two-qubit coupling measurement of a pair of two-electron spin qubits that are actively decoupled from quasistatic nuclear noise in a GaAs quadruple quantum dot array. Coherent Rabi oscillations of both qubits (decay time $\approx$2 {\mu}s; frequency few MHz) are achieved by continuously tuning the drive frequency using rapidly converging real-time Hamiltonian estimators. By state conditional exchange oscillation measurements, we also observe strong two-qubit capacitive interaction (> 190 MHz). We show that the scaling of the capacitive interaction with respect to intra-qubit exchange energies is stronger than the bilinear form, consistent with recent theoretical predictions. We observe a high ratio (>16) between coherence and conditional phase-flip time, which supports the possibility of generating high-fidelity and fast quantum entanglement between encoded spin qubits using a simple capacitive interaction.
翻訳日:2023-03-31 18:19:23 公開日:2023-03-30
# 確率零次勾配とヘシアン推定器:分散低減と補充バイアス境界

Stochastic Zeroth Order Gradient and Hessian Estimators: Variance Reduction and Refined Bias Bounds ( http://arxiv.org/abs/2205.14737v3 )

ライセンス: Link先を確認
Yasong Feng, Tianyu Wang(参考訳) 我々は$\mathbb{R}^n$における実数値関数に対する確率零次勾配とヘッセン推定器について検討する。 ランダム直交方向に沿って有限差分を取ることにより,確率的有限差分推定器の分散を著しく低減できることを示す。 In particular, we design estimators for smooth functions such that, if one uses $ \Theta \left( k \right) $ random directions sampled from the Stiefel's manifold $ \text{St} (n,k) $ and finite-difference granularity $\delta$, the variance of the gradient estimator is bounded by $ \mathcal{O} \left( \left( \frac{n}{k} - 1 \right) + \left( \frac{n^2}{k} - n \right) \delta^2 + \frac{ n^2 \delta^4 }{ k } \right) $, and the variance of the Hessian estimator is bounded by $\mathcal{O} \left( \left( \frac{n^2}{k^2} - 1 \right) + \left( \frac{n^4}{k^2} - n^2 \right) \delta^2 + \frac{n^4 \delta^4 }{k^2} \right) $. k = n$ の場合、分散は無視できるほど小さくなる。 さらに,推定者に対するバイアスバウンダリも改善した。 滑らかな関数 $f$ に対する勾配とヘッセン推定子のバイアスは次数 $\mathcal{O} \left( \delta^2 \Gamma \right)$ であり、$\delta$ は有限差分粒度であり、$ \Gamma $ は $f$ の高階微分に依存する。 我々の結果は実証的な観察によって証明される。

We study stochastic zeroth order gradient and Hessian estimators for real-valued functions in $\mathbb{R}^n$. We show that, via taking finite difference along random orthogonal directions, the variance of the stochastic finite difference estimators can be significantly reduced. In particular, we design estimators for smooth functions such that, if one uses $ \Theta \left( k \right) $ random directions sampled from the Stiefel's manifold $ \text{St} (n,k) $ and finite-difference granularity $\delta$, the variance of the gradient estimator is bounded by $ \mathcal{O} \left( \left( \frac{n}{k} - 1 \right) + \left( \frac{n^2}{k} - n \right) \delta^2 + \frac{ n^2 \delta^4 }{ k } \right) $, and the variance of the Hessian estimator is bounded by $\mathcal{O} \left( \left( \frac{n^2}{k^2} - 1 \right) + \left( \frac{n^4}{k^2} - n^2 \right) \delta^2 + \frac{n^4 \delta^4 }{k^2} \right) $. When $k = n$, the variances become negligibly small. In addition, we provide improved bias bounds for the estimators. The bias of both gradient and Hessian estimators for smooth function $f$ is of order $\mathcal{O} \left( \delta^2 \Gamma \right)$, where $\delta$ is the finite-difference granularity, and $ \Gamma $ depends on high order derivatives of $f$. Our results are evidenced by empirical observations.
翻訳日:2023-03-31 18:18:46 公開日:2023-03-30
# 不確実性のあるユニバーサルドメイン適応

Provably Uncertainty-Guided Universal Domain Adaptation ( http://arxiv.org/abs/2209.09616v6 )

ライセンス: Link先を確認
Yifan Wang, Lin Zhang, Ran Song, Wei Zhang(参考訳) ユニバーサルドメイン適応(UniDA)は、ラベル付きソースドメインからラベルセットの仮定なしにラベル付きターゲットドメインに知識を転送することを目的としている。 UniDAの主な課題は、識別できないラベルセットが2つのドメイン間のミスアライメントを引き起こすことである。 さらに、ソース領域におけるドメインの不一致と教師付き目的は、モデル全体を共通のクラスに偏りやすくし、未知のサンプルに対して過信な予測を生成する。 上記の課題に対処するため、我々は新しい不確実性誘導型UniDAフレームワークを提案する。 まず、未知のクラスに属する対象サンプルの確率を実証的に推定し、潜在空間における対象サンプルの分布を完全に活用する。 次に,この推定に基づいて,$\delta$-filter の線形部分空間における新しい近傍探索スキームを提案し,対象サンプルの不確かさスコアを推定し,未知のサンプルを探索する。 ソースドメイン内のターゲットサンプルとその隣人との関係を完全に活用し、ドメインのミスアライメントの影響を避ける。 次に,未知のクラスに対するクラス内分散の差を低減できる未知のサンプルの信頼度に基づく不確実性誘導マージン損失により,未知のサンプルと未知のサンプルの両方に対する予測の信頼度をバランスさせる。 最後に,3つの公開データセットを用いた実験により,本手法が既存の最先端手法を大幅に上回ることを示した。

Universal domain adaptation (UniDA) aims to transfer the knowledge from a labeled source domain to an unlabeled target domain without any assumptions of the label sets, which requires distinguishing the unknown samples from the known ones in the target domain. A main challenge of UniDA is that the nonidentical label sets cause the misalignment between the two domains. Moreover, the domain discrepancy and the supervised objectives in the source domain easily lead the whole model to be biased towards the common classes and produce overconfident predictions for unknown samples. To address the above challenging problems, we propose a new uncertainty-guided UniDA framework. Firstly, we introduce an empirical estimation of the probability of a target sample belonging to the unknown class which fully exploits the distribution of the target samples in the latent space. Then, based on the estimation, we propose a novel neighbors searching scheme in a linear subspace with a $\delta$-filter to estimate the uncertainty score of a target sample and discover unknown samples. It fully utilizes the relationship between a target sample and its neighbors in the source domain to avoid the influence of domain misalignment. Secondly, this paper well balances the confidences of predictions for both known and unknown samples through an uncertainty-guided margin loss based on the confidences of discovered unknown samples, which can reduce the gap between the intra-class variances of known classes with respect to the unknown class. Finally, experiments on three public datasets demonstrate that our method significantly outperforms existing state-of-the-art methods.
翻訳日:2023-03-31 18:11:26 公開日:2023-03-30
# 確率事象に対するアライメントに基づくコンフォーマンスチェック

Alignment-based conformance checking over probabilistic events ( http://arxiv.org/abs/2209.04309v2 )

ライセンス: Link先を確認
Jiawei Zheng and Petros Papapanagiotou and Jacques D. Fleuriot(参考訳) コンフォーマンスチェック技術により、監視されたイベントのトレースとして表される一部の振る舞いが、特定のプロセスモデルにどの程度適合しているかを評価することができます。 センサ、IoT、統計、AIなどに依存する現代の監視とアクティビティ認識技術は、豊富な関連するイベントデータを生成することができる。 しかしながら、このデータは、コンフォーマンスチェックアルゴリズムが要求する決定論的イベントログの仮定とは対照的に、ノイズと不確実性によって特徴づけられる。 本稿では,アライメントに基づくコンフォーマンスチェックを確率的イベントログ下で機能するように拡張する。 本稿では,重み付きトレースモデルと重み付きアライメントコスト関数,およびイベントデータに対する信頼度とプロセスモデルに対する信頼度を制御するカスタムしきい値パラメータを導入する。 結果のアルゴリズムは、プロセスモデルによく適合する低いが十分に高い確率のアクティビティを考察する。 形式的・直感的視点からアルゴリズムとその動機を説明し,実生活データセットを用いた決定論的アライメントと比較し,その機能を示す。

Conformance checking techniques allow us to evaluate how well some exhibited behaviour, represented by a trace of monitored events, conforms to a specified process model. Modern monitoring and activity recognition technologies, such as those relying on sensors, the IoT, statistics and AI, can produce a wealth of relevant event data. However, this data is typically characterised by noise and uncertainty, in contrast to the assumption of a deterministic event log required by conformance checking algorithms. In this paper, we extend alignment-based conformance checking to function under a probabilistic event log. We introduce a weighted trace model and weighted alignment cost function, and a custom threshold parameter that controls the level of confidence on the event data vs. the process model. The resulting algorithm considers activities of lower but sufficiently high probability that better align with the process model. We explain the algorithm and its motivation both from formal and intuitive perspectives, and demonstrate its functionality in comparison with deterministic alignment using real-life datasets.
翻訳日:2023-03-31 18:10:56 公開日:2023-03-30
# Fengshenbang 1.0:中国認知知の基盤になる

Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence ( http://arxiv.org/abs/2209.02970v3 )

ライセンス: Link先を確認
Jiaxing Zhang, Ruyi Gan, Junjie Wang, Yuxiang Zhang, Lin Zhang, Ping Yang, Xinyu Gao, Ziwei Wu, Xiaoqun Dong, Junqing He, Jianheng Zhuo, Qi Yang, Yongfeng Huang, Xiayu Li, Yanghan Wu, Junyu Lu, Xinyu Zhu, Weifeng Chen, Ting Han, Kunhao Pan, Rui Wang, Hao Wang, Xiaojun Wu, Zhongshen Zeng, Chongpei Chen(参考訳) 今日では、基礎モデルは人工知能の基本的な基盤の一つとなり、一般の知性への道を開いた。 既存の基礎モデルは英語コミュニティが支配しており、ユーザーは限られたリソースを与えられることが多く、ファンデーションモデルを使うことはできない。 中国語コミュニティの発展を支援するために,認知コンピューティング・自然言語研究センター(CCNL)が主導するFengshenbangというオープンソースプロジェクトを紹介した。 私たちのプロジェクトには、大規模な事前トレーニングモデル、ユーザフレンドリなAPI、ベンチマーク、データセットなど、包括的な機能があります。 これらすべてを、fengshenbangモデル、fengshenフレームワーク、fengshenベンチマークという3つのサブプロジェクトにまとめています。 オープンソースロードマップであるFengshenbangは、中国の事前訓練された大規模モデルのオープンソースコミュニティを再評価することを目的としている。 また、ユーザ中心のオープンソースエコシステムを構築して、個人が自分のコンピューティングリソースに合わせて、望ましいモデルにアクセスできるようにしたいと考えています。 さらに私たちは,企業や大学,研究機関に対して,大規模なオープンソースモデルベースのエコシステムを構築するための協力を求めています。 このプロジェクトが中国の認知知能の基礎になることを願っている。

Nowadays, foundation models become one of fundamental infrastructures in artificial intelligence, paving ways to the general intelligence. However, the reality presents two urgent challenges: existing foundation models are dominated by the English-language community; users are often given limited resources and thus cannot always use foundation models. To support the development of the Chinese-language community, we introduce an open-source project, called Fengshenbang, which leads by the research center for Cognitive Computing and Natural Language (CCNL). Our project has comprehensive capabilities, including large pre-trained models, user-friendly APIs, benchmarks, datasets, and others. We wrap all these in three sub-projects: the Fengshenbang Model, the Fengshen Framework, and the Fengshen Benchmark. An open-source roadmap, Fengshenbang, aims to re-evaluate the open-source community of Chinese pre-trained large-scale models, prompting the development of the entire Chinese large-scale model community. We also want to build a user-centered open-source ecosystem to allow individuals to access the desired models to match their computing resources. Furthermore, we invite companies, colleges, and research institutions to collaborate with us to build the large-scale open-source model-based ecosystem. We hope that this project will be the foundation of Chinese cognitive intelligence.
翻訳日:2023-03-31 18:10:37 公開日:2023-03-30
# 雑音一般化固有値問題に対するトリミングサンプリングアルゴリズム

Trimmed Sampling Algorithm for the Noisy Generalized Eigenvalue Problem ( http://arxiv.org/abs/2209.02083v2 )

ライセンス: Link先を確認
Caleb Hicks and Dean Lee(参考訳) 一般化固有値問題を解くことは、大きな量子系のエネルギー固有状態を見つけるのに有用な方法である。 一般に直交的でない基底状態の集合への射影を用いる。 成分が基底状態の内部積である行列を反転させる必要があり、その過程は残念ながら小さな誤りにも影響を受けやすい。 行列要素が確率的手法で評価され、大きなエラーバーを持つ場合、特に問題となる。 本研究では,この問題を解決するために,トリミングサンプリングアルゴリズムを提案する。 ベイズ推論の枠組みを用いて, 様々な行列要素の不確かさ推定と, 物理学的不定制約からなる帰納関数によって決定される事前確率分布をサンプリングする。 その結果、固有ベクトルと可観測値の確率分布が自動的に誤差の信頼性を推定し、標準正規化法よりもはるかに優れている。 この手法は、大規模量子システムの古典的および量子計算計算を含む幅広い応用に直ちに適用すべきである。

Solving the generalized eigenvalue problem is a useful method for finding energy eigenstates of large quantum systems. It uses projection onto a set of basis states which are typically not orthogonal. One needs to invert a matrix whose entries are inner products of the basis states, and the process is unfortunately susceptible to even small errors. The problem is especially bad when matrix elements are evaluated using stochastic methods and have significant error bars. In this work, we introduce the trimmed sampling algorithm in order to solve this problem. Using the framework of Bayesian inference, we sample prior probability distributions determined by uncertainty estimates of the various matrix elements and likelihood functions composed of physics-informed constraints. The result is a probability distribution for the eigenvectors and observables which automatically comes with a reliable estimate of the error and performs far better than standard regularization methods. The method should have immediate use for a wide range of applications involving classical and quantum computing calculations of large quantum systems.
翻訳日:2023-03-31 18:10:16 公開日:2023-03-30
# 実空間およびフォック空間励起による非エルゴディック拡張状態の診断と多くの身体局在効果

Diagnostics of nonergodic extended states and many body localization proximity effect through real-space and Fock-space excitations ( http://arxiv.org/abs/2208.10714v2 )

ライセンス: Link先を確認
Nilanjan Roy, Jagannath Sutradhar, and Sumilan Banerjee(参考訳) 我々は、相互作用する準周期系においてエルゴード、非エルゴード拡張(NEE)および多体局所化(MBL)相の実空間およびフォック空間(FS)特徴づけ、すなわち、非相互作用極限においてモビリティエッジを持つ一般化 Aubry-Andr\e-Harper モデルを提供する。 単一粒子(SP)励起における移動エッジは,NEE相における相互作用の存在下でも残存することを示す。 対照的に、全てのsp励起はmbl近接効果によりmbl相に局在する。 局所的fs自己エネルギーと減衰長を局所的および非局所的fs伝達体にそれぞれ計算することにより、エルゴード状態とmbl状態とのnee状態の区別に関する補足的な洞察を与える。 NEEからエルゴード遷移における典型的な局所自己エネルギーの有限サイズスケーリング解析に基づいて、MBLおよびNEE状態が定性的に類似したマルチフラクタル特性を示すことを示す。 しかし、nee状態とmbl状態は、fsにおける非局所プロパゲータの崩壊の観点から区別できるのに対し、典型的な局所 fs 自己エネルギーはそれらを区別できない。

We provide real-space and Fock-space (FS) characterizations of ergodic, nonergodic extended (NEE) and many-body localized (MBL) phases in an interacting quasiperiodic system, namely generalized Aubry-Andr\'e-Harper model, which possesses a mobility edge in the non-interacting limit. We show that a mobility edge in the single-particle (SP) excitations survives even in the presence of interaction in the NEE phase. In contrast, all SP excitations get localized in the MBL phase due to the MBL proximity effect. We give complementary insights into the distinction of the NEE states from the ergodic and MBL states by computing local FS self-energies and decay length associated, respectively, with the local and the non-local FS propagators. Based on a finite-size scaling analysis of the typical local self-energy across the NEE to ergodic transition, we show that MBL and NEE states exhibit qualitatively similar multifractal character. However, we find that the NEE and MBL states can be distinguished in terms of the decay of the non-local propagator in the FS, whereas the typical local FS self-energy cannot tell them apart.
翻訳日:2023-03-31 18:09:36 公開日:2023-03-30
# 3次元同変グラフ翻訳における条件付き抗体設計

Conditional Antibody Design as 3D Equivariant Graph Translation ( http://arxiv.org/abs/2208.06073v6 )

ライセンス: Link先を確認
Xiangzhe Kong, Wenbing Huang, Yang Liu(参考訳) 抗体設計は治療用および生物学的研究に有用である。 既存のディープラーニングベースの手法は、いくつかの重要な問題に遭遇する。 1) 相補性決定領域(cdr)生成の不完全コンテキスト 2) 入力構造の3次元形状全体をキャプチャできないこと。 3) 自己回帰的にCDR配列の非効率な予測を行う。 本稿では,CDRの1次元配列と3次元構造を共設計するマルチチャネル等価アテンションネットワーク(MEAN)を提案する。 具体的には、ターゲット抗原及び抗体の軽鎖を含む余分な成分を輸入することにより、条件付きグラフ翻訳問題として抗体設計を行う。 次にMEANは、E(3)-同変メッセージパッシングと、異なるコンポーネント間の幾何学的相関をよりよく捉えるための注意機構を提案する。 最後に、複数ラウンドのプログレッシブフルショットスキームにより、1Dシーケンスと3D構造の両方を出力し、従来の自己回帰アプローチに対してより効率と精度を享受する。 本手法は, 配列および構造モデリング, 抗原結合型CDR設計, 結合親和性最適化における最先端モデルを大幅に上回る。 特に、ベースラインに対する相対的な改善は、抗原結合性CDR設計の23%、親和性最適化の34%である。

Antibody design is valuable for therapeutic usage and biological research. Existing deep-learning-based methods encounter several key issues: 1) incomplete context for Complementarity-Determining Regions (CDRs) generation; 2) incapability of capturing the entire 3D geometry of the input structure; 3) inefficient prediction of the CDR sequences in an autoregressive manner. In this paper, we propose Multi-channel Equivariant Attention Network (MEAN) to co-design 1D sequences and 3D structures of CDRs. To be specific, MEAN formulates antibody design as a conditional graph translation problem by importing extra components including the target antigen and the light chain of the antibody. Then, MEAN resorts to E(3)-equivariant message passing along with a proposed attention mechanism to better capture the geometrical correlation between different components. Finally, it outputs both the 1D sequences and 3D structure via a multi-round progressive full-shot scheme, which enjoys more efficiency and precision against previous autoregressive approaches. Our method significantly surpasses state-of-the-art models in sequence and structure modeling, antigen-binding CDR design, and binding affinity optimization. Specifically, the relative improvement to baselines is about 23% in antigen-binding CDR design and 34% for affinity optimization.
翻訳日:2023-03-31 18:08:39 公開日:2023-03-30
# 量子光回路シミュレーションにおける光子部分識別性の実装

Implementation of photon partial distinguishability in a quantum optical circuit simulation ( http://arxiv.org/abs/2208.03250v2 )

ライセンス: Link先を確認
Javier Osca and Jiri Vala(参考訳) 我々は、特定の現実的な条件下での量子光学回路の数値シミュレーション、特に光子量子状態が完全に区別できないことを懸念している。 部分光子識別性は、光学量子情報処理の実装において深刻な制限を与える。 量子情報プロトコルへの影響を適切に評価するには、量子回路操作を密にエミュレートする正確な数値シミュレーションが不可欠である。 我々の具体的な目的は、理想量子回路に使われている既存のシミュレーション技術に原則として適用可能な部分光子識別可能性のコンピュータ実装を提供することであり、その大幅な修正は不要である。 本手法は, 目的に適したGram-Schmidt正規正規化法に基づいている。 フォトニック量子状態は、時間と周波数分布に関する情報を含むウェーブパックによって表される。 部分光子識別性を考慮し,回路動作に伴う自由度数を拡大し,光子チャネルの定義を拡張し,波束自由度を組み込む。 この戦略により、線形光学素子と同じ基盤で遅延演算を定義することができる。

We are concerned with numerical simulations of quantum optical circuits under certain realistic conditions, specifically that photon quantum states are not perfectly indistinguishable. The partial photon distinguishability presents a serious limitation in implementation of optical quantum information processing. In order to properly assess its effect on quantum information protocols, accurate numerical simulations, which closely emulate quantum circuit operations, are essential. Our specific objective is to provide a computer implementation of the partial photon distinguishability which is in principle applicable to existing simulation techniques used for ideal quantum circuits and which avoids a need for their significant modification. Our approach is based on the Gram-Schmidt orthonormalization process, which is well suited for our purpose. Photonic quantum states are represented by wavepackets which contain information on their time and frequency distributions. In order to account for the partial photon distinguishability, we expand the number of degrees of freedom associated with the circuit operation extending the definition of the photon channels to incorporate wavepacket degrees of freedom. This strategy allows to define delay operations in the same footing as the linear optical elements.
翻訳日:2023-03-31 18:08:20 公開日:2023-03-30
# 超伝導量子ビットの電場によるコヒーレンス向上

Enhancing the Coherence of Superconducting Quantum Bits with Electric Fields ( http://arxiv.org/abs/2208.01570v2 )

ライセンス: Link先を確認
J\"urgen Lisenfeld, Alexander Bilmes, and Alexey V. Ustinov(参考訳) 量子コンピュータを現実にするために、集積超伝導回路は有望なアーキテクチャとなっている。 このアプローチの大きな課題は、クビット電極の界面における急激な原子トンネル欠陥から生じるデコヒーレンスであり、これはクォービットの振動電場からのエネルギーを共鳴的に吸収し、クォービットのエネルギー緩和時間を$T_1$に減少させる。 そこで,直流電界を応用することにより,量子共鳴から支配欠陥をチューニングすることにより,量子コヒーレンスを改善できることを示す。 応用場バイアスを最適化し,30分の平均量子ビットであるT_1$時間を23\%向上する手法を実証する。 また,局所ゲート電極を超伝導量子プロセッサに実装することで,個々の量子ビットのコヒーレンス最適化を実現する方法について検討する。

In the endeavour to make quantum computers a reality, integrated superconducting circuits have become a promising architecture. A major challenge of this approach is decoherence originating from spurious atomic tunneling defects at the interfaces of qubit electrodes, which may resonantly absorb energy from the qubit's oscillating electric field and reduce the qubit's energy relaxation time $T_1$. Here, we show that qubit coherence can be improved by tuning dominating defects away from the qubit resonance using an applied DC-electric field. We demonstrate a method that optimizes the applied field bias and enhances the 30-minute averaged qubit $T_1$ time by 23\%. We also discuss how local gate electrodes can be implemented in superconducting quantum processors to enable simultaneous in-situ coherence optimization of individual qubits.
翻訳日:2023-03-31 18:08:03 公開日:2023-03-30
# 効率的な不確実性推定のためのパッケージアンサンブル

Packed-Ensembles for Efficient Uncertainty Estimation ( http://arxiv.org/abs/2210.09184v2 )

ライセンス: Link先を確認
Olivier Laurent, Adrien Lafage, Enzo Tartaglione, Geoffrey Daniel, Jean-Marc Martinez, Andrei Bursuc and Gianni Franchi(参考訳) ディープアンサンブル(de)は、精度、キャリブレーション、不確実性推定、分散検出といった重要な指標において優れたパフォーマンスを達成するための顕著なアプローチである。 しかし、現実世界のシステムのハードウェア制限は、より小さなアンサンブルや低容量ネットワークに制約され、性能と特性が著しく低下する。 符号化空間の寸法を慎重に調整し,軽量な構造化アンサンブルを設計・訓練する戦略であるPacked-Ensembles (PE)を紹介した。 グループ化された畳み込みを利用して、アンサンブルを単一の共有バックボーンとフォワードパスに並列化し、トレーニングと推論速度を改善する。 PEは、標準的なニューラルネットワークのメモリ制限内で動作するように設計されている。 広範な研究により,peは多様性などのdeの特性を正確に保持し,精度,キャリブレーション,分散検出,分散シフトに対するロバスト性といった点で等しく機能することが示された。 コードはhttps://github.com/ensta-u2is/torch-uncertaintyで利用可能です。

Deep Ensembles (DE) are a prominent approach for achieving excellent performance on key metrics such as accuracy, calibration, uncertainty estimation, and out-of-distribution detection. However, hardware limitations of real-world systems constrain to smaller ensembles and lower-capacity networks, significantly deteriorating their performance and properties. We introduce Packed-Ensembles (PE), a strategy to design and train lightweight structured ensembles by carefully modulating the dimension of their encoding space. We leverage grouped convolutions to parallelize the ensemble into a single shared backbone and forward pass to improve training and inference speeds. PE is designed to operate within the memory limits of a standard neural network. Our extensive research indicates that PE accurately preserves the properties of DE, such as diversity, and performs equally well in terms of accuracy, calibration, out-of-distribution detection, and robustness to distribution shift. We make our code available at https://github.com/ENSTA-U2IS/torch-uncertainty.
翻訳日:2023-03-31 18:02:24 公開日:2023-03-30
# HyperDomainNet: 生成逆ネットワークのためのユニバーサルドメイン適応

HyperDomainNet: Universal Domain Adaptation for Generative Adversarial Networks ( http://arxiv.org/abs/2210.08884v4 )

ライセンス: Link先を確認
Aibek Alanov, Vadim Titov, Dmitry Vetrov(参考訳) GANのドメイン適応フレームワークは、非常に限られたトレーニングデータにおいて、現代GANのトレーニングを成功させる主要なアプローチとして、近年大きな進歩を遂げている。 本研究では,生成器を微調整するための非常にコンパクトなパラメータ空間を提案することにより,この枠組みを著しく改善する。 対象領域に適応するために,3000万重量のstylegan2の代わりに6万次元ベクトルのみを最適化する新しいドメイン変調手法を提案する。 このパラメータ化を最先端のドメイン適応法に適用し,全パラメータ空間とほぼ同一の表現性を示す。 さらに, 微調整発電機の多様性を著しく向上させる新しい正規化損失を提案する。 最適化パラメータ空間の大きさの縮小に触発されて、ganのマルチドメイン適応の問題、すなわち、同じモデルが入力クエリに応じて複数のドメインに適応できる場合の設定について検討する。 我々は,対象領域に対してパラメータ化を予測するハイパーネットワークであるhyperdomainnetを提案する。 実験により、複数のドメインを一度に学習し、未知のドメインにも一般化できることを確認した。 ソースコードはhttps://github.com/MACderRu/HyperDomainNetで確認できる。

Domain adaptation framework of GANs has achieved great progress in recent years as a main successful approach of training contemporary GANs in the case of very limited training data. In this work, we significantly improve this framework by proposing an extremely compact parameter space for fine-tuning the generator. We introduce a novel domain-modulation technique that allows to optimize only 6 thousand-dimensional vector instead of 30 million weights of StyleGAN2 to adapt to a target domain. We apply this parameterization to the state-of-art domain adaptation methods and show that it has almost the same expressiveness as the full parameter space. Additionally, we propose a new regularization loss that considerably enhances the diversity of the fine-tuned generator. Inspired by the reduction in the size of the optimizing parameter space we consider the problem of multi-domain adaptation of GANs, i.e. setting when the same model can adapt to several domains depending on the input query. We propose the HyperDomainNet that is a hypernetwork that predicts our parameterization given the target domain. We empirically confirm that it can successfully learn a number of domains at once and may even generalize to unseen domains. Source code can be found at https://github.com/MACderRu/HyperDomainNet
翻訳日:2023-03-31 18:02:02 公開日:2023-03-30
# 脳-視覚言語特徴のマルチモーダル学習による視覚神経表現の復号

Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features ( http://arxiv.org/abs/2210.06756v2 )

ライセンス: Link先を確認
Changde Du, Kaicheng Fu, Jinpeng Li, Huiguang He(参考訳) 人間の視覚神経表現の解読は、視覚処理機構の解明や脳のような知的機械の開発において、科学的に非常に重要な課題である。 既存の手法の多くは、トレーニングに対応する神経データを持たない、新しいカテゴリに一般化することが難しい。 2つの主な理由は 1) ニューラルデータの基盤となるマルチモーダル意味知識の過小評価 2) 少数のペア(刺激応答)訓練データ。 これらの制約を克服するために,脳-視覚-言語特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。 マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。 具体的には,3つのモダリティのコヒーレントな結合生成を可能にする潜在符号を推論するために,その混合式を利用した。 脳活動データに制限がある場合、より一貫性のある共同表現を学習し、データ効率を向上させるために、モーダリティ内およびモーダリティ間相互情報最大化正規化項を利用する。 特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。 最後に、3つのトライモーダルマッチングデータセットを構築し、広範な実験によっていくつかの興味深い結論と認知的洞察が得られます。 1)人間の脳活動から新しい視覚カテゴリーを復号することは、精度良く実現可能である。 2) 視覚的特徴と言語的特徴の組み合わせを用いた復号モデルは,両者単独で使用するモデルよりもはるかに優れている。 3)視覚知覚には,視覚刺激の意味を表現する言語的影響が伴う。 コードとデータ:https://github.com/ChangdeDu/BraVL。

Decoding human visual neural representations is a challenging task with great scientific significance in revealing vision-processing mechanisms and developing brain-like intelligent machines. Most existing methods are difficult to generalize to novel categories that have no corresponding neural data for training. The two main reasons are 1) the under-exploitation of the multimodal semantic knowledge underlying the neural data and 2) the small number of paired (stimuli-responses) training data. To overcome these limitations, this paper presents a generic neural decoding method called BraVL that uses multimodal learning of brain-visual-linguistic features. We focus on modeling the relationships between brain, visual and linguistic features via multimodal deep generative models. Specifically, we leverage the mixture-of-product-of-experts formulation to infer a latent code that enables a coherent joint generation of all three modalities. To learn a more consistent joint representation and improve the data efficiency in the case of limited brain activity data, we exploit both intra- and inter-modality mutual information maximization regularization terms. In particular, our BraVL model can be trained under various semi-supervised scenarios to incorporate the visual and textual features obtained from the extra categories. Finally, we construct three trimodal matching datasets, and the extensive experiments lead to some interesting conclusions and cognitive insights: 1) decoding novel visual categories from human brain activity is practically possible with good accuracy; 2) decoding models using the combination of visual and linguistic features perform much better than those using either of them alone; 3) visual perception may be accompanied by linguistic influences to represent the semantics of visual stimuli. Code and data: https://github.com/ChangdeDu/BraVL.
翻訳日:2023-03-31 18:01:41 公開日:2023-03-30
# ACSeg: 教師なしセマンティックセグメンテーションのための適応的概念化

ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation ( http://arxiv.org/abs/2210.05944v3 )

ライセンス: Link先を確認
Kehan Li, Zhennan Wang, Zesen Cheng, Runyi Yu, Yian Zhao, Guoli Song, Chang Liu, Li Yuan, Jie Chen(参考訳) 近年、自己監督型大規模視覚前訓練モデルでは、画素レベルの意味的関係を表現し、教師なしの密接な予測タスク、例えば教師なしセマンティックセグメンテーション(USS)の開発が著しく促進されている。 ピクセルレベルの表現間の抽出された関係は、通常、表現空間に意味的に同一の画素埋め込みが集まって洗練された概念を形成するようなリッチなクラス認識情報を含む。 しかしながら、画像内の意味的に一貫性のある画素群や領域を確認するために学習モデルを活用することは、異なる画像の様々な意味分布の下で概念化手順を圧倒するので、自明ではない。 本研究では,自己教師型ViT事前訓練モデルにおける画素レベルのセマンティックアグリゲーションをイメージセグメンテーションとして検討し,ACSegと呼ばれるUSSの適応概念化アプローチを提案する。 具体的には、概念を学習可能なプロトタイプに明示的にエンコードし、これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするAdaptive Concept Generator (ACG)を設計する。 一方,異なる画像のシーンの複雑さを考慮して,同一概念に属する画素対の強度を推定することにより,概念数に依存しないaggを最適化するモジュラリティロスを提案する。 最後に、USSタスクを教師なしの方法で発見された概念を分類する。 最先端実験により提案手法の有効性が示された。

Recently, self-supervised large-scale visual pre-training models have shown great promise in representing pixel-level semantic relationships, significantly promoting the development of unsupervised dense prediction tasks, e.g., unsupervised semantic segmentation (USS). The extracted relationship among pixel-level representations typically contains rich class-aware information that semantically identical pixel embeddings in the representation space gather together to form sophisticated concepts. However, leveraging the learned models to ascertain semantically consistent pixel groups or regions in the image is non-trivial since over/ under-clustering overwhelms the conceptualization procedure under various semantic distributions of different images. In this work, we investigate the pixel-level semantic aggregation in self-supervised ViT pre-trained models as image Segmentation and propose the Adaptive Conceptualization approach for USS, termed ACSeg. Concretely, we explicitly encode concepts into learnable prototypes and design the Adaptive Concept Generator (ACG), which adaptively maps these prototypes to informative concepts for each image. Meanwhile, considering the scene complexity of different images, we propose the modularity loss to optimize ACG independent of the concept number based on estimating the intensity of pixel pairs belonging to the same concept. Finally, we turn the USS task into classifying the discovered concepts in an unsupervised manner. Extensive experiments with state-of-the-art results demonstrate the effectiveness of the proposed ACSeg.
翻訳日:2023-03-31 18:01:14 公開日:2023-03-30
# 位相項をもつ非線形シグマモデルの量子シミュレーションに向けて

Towards a Quantum Simulation of Nonlinear Sigma Models with a Topological Term ( http://arxiv.org/abs/2210.03679v2 )

ライセンス: Link先を確認
Jack Y. Araz, Sebastian Schenk and Michael Spannowsky(参考訳) テンソルネットワークとデジタル量子アルゴリズムを用いて位相的$\theta$-termで拡張された2次元$O(3)$非線形シグマモデルの質量ギャップを決定する。 原理の証明として、例えば $\theta = \pi$ を考え、基底状態の絡み合いエントロピーを調べることによって量子シミュレータ上での臨界挙動を研究する。 量子論は解析結果と一致して、強い結合状態において質量を持たないことが確認される。 しかし、弱いカップリング理論では、ノイズの多い中間スケール量子デバイス用に設計された現在の量子アルゴリズムの限界も強調する。 最後に,量子アルゴリズムの性能を古典的テンソルネットワーク法と比較する。

We determine the mass gap of a two-dimensional $O(3)$ nonlinear sigma model augmented with a topological $\theta$-term using tensor network and digital quantum algorithms. As proof of principle, we consider the example $\theta = \pi$ and study its critical behaviour on a quantum simulator by examining the entanglement entropy of the ground state. We confirm that the quantum theory is massless in the strong-coupling regime, in agreement with analytical results. However, we also highlight the limitations of current quantum algorithms, designed for noisy intermediate-scale quantum devices, in the theory simulation at weak coupling. Finally, we compare the performance of our quantum algorithms to classical tensor network methods.
翻訳日:2023-03-31 18:00:48 公開日:2023-03-30
# ターゲット外なバックドアwatermark: 有害でステルスなデータセットの著作権保護を目指す

Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection ( http://arxiv.org/abs/2210.00875v2 )

ライセンス: Link先を確認
Yiming Li, Yang Bai, Yong Jiang, Yong Yang, Shu-Tao Xia, Bo Li(参考訳) ディープニューラルネットワーク(DNN)は、実際にその優位性を実証している。 おそらくdnnsの急速な発展は、研究者や開発者が簡単に学習方法を評価し改善できる高品質な(オープンソース)データセットの恩恵を受けている。 データ収集は通常、時間を要するか、あるいは費用がかかるため、著作権を保護する方法は非常に重要であり、さらなる調査に値する。 本稿では,データセットの所有権検証を再考する。 既存の検証手法では,保護されたデータセット上でトレーニングされたdnnに新たなセキュリティリスクが導入された。 この問題を軽減するため,本研究では,異常モデル行動が決定論的でない,未目標のバックドア透かし方式について検討する。 具体的には、2つの分散性を導入し、それらの相関性を証明し、有害ラベルとクリーンラベルの両方の設定で未ターゲットのバックドア透かしを設計する。 また、提案した未ターゲットのバックドア透かしをデータセットのオーナシップ検証に利用する方法について論じる。 ベンチマークデータセットにおける実験は、提案手法の有効性と既存のバックドア防御に対する耐性を検証する。 我々のコードは \url{https://github.com/THUYimingLi/Untargeted_Backdoor_Watermark} で利用可能です。

Deep neural networks (DNNs) have demonstrated their superiority in practice. Arguably, the rapid development of DNNs is largely benefited from high-quality (open-sourced) datasets, based on which researchers and developers can easily evaluate and improve their learning methods. Since the data collection is usually time-consuming or even expensive, how to protect their copyrights is of great significance and worth further exploration. In this paper, we revisit dataset ownership verification. We find that existing verification methods introduced new security risks in DNNs trained on the protected dataset, due to the targeted nature of poison-only backdoor watermarks. To alleviate this problem, in this work, we explore the untargeted backdoor watermarking scheme, where the abnormal model behaviors are not deterministic. Specifically, we introduce two dispersibilities and prove their correlation, based on which we design the untargeted backdoor watermark under both poisoned-label and clean-label settings. We also discuss how to use the proposed untargeted backdoor watermark for dataset ownership verification. Experiments on benchmark datasets verify the effectiveness of our methods and their resistance to existing backdoor defenses. Our codes are available at \url{https://github.com/THUYimingLi/Untargeted_Backdoor_Watermark}.
翻訳日:2023-03-31 18:00:36 公開日:2023-03-30
# 音声分離のためのトップダウン注目を用いた効率的なエンコーダデコーダアーキテクチャ

An efficient encoder-decoder architecture with top-down attention for speech separation ( http://arxiv.org/abs/2209.15200v5 )

ライセンス: Link先を確認
Kai Li, Runxuan Yang, Xiaolin Hu(参考訳) ディープニューラルネットワークは、音声分離タスクにおいて優れた将来性を示している。 しかし、実際のアプリケーションでは、モデルの複雑さを低く保ちながら良い結果を得るのは難しい。 本稿では,TDANetと呼ばれる脳のトップダウンの注意を模倣して,バイオインスパイアされた効率的なエンコーダデコーダアーキテクチャを提案する。 TDANetにおけるトップダウンアテンションは、グローバルアテンション(GA)モジュールとカスケードローカルアテンション(LA)レイヤによって抽出される。 GAモジュールはマルチスケール音響特徴を入力としてグローバルアテンション信号を抽出し、直接トップダウン接続によって異なるスケールの特徴を変調する。 LA層は、隣接層の特徴を入力として、局所的な注意信号を抽出し、トップダウン方式で横方向の入力を変調する。 3つのベンチマークデータセットでは、TDANetは従来型のSOTA(State-of-the-art)メソッドとの競合分離性能を高い効率で継続的に達成した。 特に、tdanet の multiply-accumulate operations (mac) は、以前の sota モデルの 1 つである sepformer の 5\% であり、cpu の推論時間は sepformer の 10\% である。 さらに、tdanetの大規模バージョンでは、3つのデータセットでsomaの結果が得られ、macはsepformerの10\%、cpu推論時間はsepformerの24\%であった。

Deep neural networks have shown excellent prospects in speech separation tasks. However, obtaining good results while keeping a low model complexity remains challenging in real-world applications. In this paper, we provide a bio-inspired efficient encoder-decoder architecture by mimicking the brain's top-down attention, called TDANet, with decreased model complexity without sacrificing performance. The top-down attention in TDANet is extracted by the global attention (GA) module and the cascaded local attention (LA) layers. The GA module takes multi-scale acoustic features as input to extract global attention signal, which then modulates features of different scales by direct top-down connections. The LA layers use features of adjacent layers as input to extract the local attention signal, which is used to modulate the lateral input in a top-down manner. On three benchmark datasets, TDANet consistently achieved competitive separation performance to previous state-of-the-art (SOTA) methods with higher efficiency. Specifically, TDANet's multiply-accumulate operations (MACs) are only 5\% of Sepformer, one of the previous SOTA models, and CPU inference time is only 10\% of Sepformer. In addition, a large-size version of TDANet obtained SOTA results on three datasets, with MACs still only 10\% of Sepformer and the CPU inference time only 24\% of Sepformer.
翻訳日:2023-03-31 17:59:57 公開日:2023-03-30
# 頂点色制約下での量子インスパイアされた完全マッチング

Quantum-Inspired Perfect Matching under Vertex-Color Constraints ( http://arxiv.org/abs/2209.13063v2 )

ライセンス: Link先を確認
Moshe Y. Vardi and Zhiwei Zhang(参考訳) 両色エッジを持つグラフに頂点色制約の下で完全マッチングが存在するというグラフ理論問題EXISTS-PMVCを提案する。 EXISTS-PMVCは、量子状態の同定と量子実験設計によるモチベーションと、その豊かな表現性、すなわち、EXISTS-PMVCは、完全マッチングのような多くの制約付きマッチング問題を自然に仮定するため、特に関心がある。 我々は,2種類の頂点色制約の下で,EXISTS-PMVCの複雑さとアルゴリズム的結果を与える。 1)対称制約(EXISTS-PMVC-Sym)と 2)決定ダイアグラム制約(exists-pmvc-dd)。 EXISTS-PMVC-DDでは,グラフガジェット法によりNP硬度を明らかにする。 有界な色数(EXISTS-PMVC-Sym-Bunded)のEXISTS-PMVC-Sym-BundedがExact Perfect Matching(XPM)と同じくらい硬いことを証明した。 しかしながら、XPM が EXISTS-PMVC-Sym-Bounded を解くために直接アルゴリズムを適用することは、削減によって引き起こされるオーバーヘッドのために現実的ではない。 そこで本研究では,EXISTS-PMVC-Sym-Boundedを効率よくネイティブに処理するアルゴリズムを提案する。 EXISTS-PMVCの新たな結果は、制約付きマッチングとスケーラブルな量子実験設計の両方に関する洞察を提供する。

We propose and study the graph-theoretical problem EXISTS-PMVC: the existence of perfect matching under vertex-color constraints on graphs with bi-colored edges. EXISTS-PMVC is of special interest because of its motivation from quantum-state identification and quantum-experiment design, as well as its rich expressiveness, i.e., EXISTS-PMVC naturally subsumes many constrained matching problems, such as exact perfect matching. We give complexity and algorithmic results for EXISTS-PMVC under two types of vertex color constraints: 1) symmetric constraints (EXISTS-PMVC-Sym) and 2) decision-diagram constraints (EXISTS-PMVC-DD). For EXISTS-PMVC-DD, we reveal its NP-hardness by a graph-gadget-based technique. We prove that EXISTS-PMVC-Sym with a bounded number of colors (EXISTS-PMVC-Sym-Bounded) is as hard as Exact Perfect Matching (XPM), which indicates EXISTS-PMVC-Sym-Bounded is in RNC on general graphs and PTIME on planar graphs. Directly applying algorithms for XPM to solve EXISTS-PMVC-Sym-Bounded is, however, impractical due to the overhead brought by the reduction. Therefore, we propose algorithms that natively handle EXISTS-PMVC-Sym-Bounded with significantly better efficiency. Our novel results for EXISTS-PMVC provide insights into both constrained matching and scalable quantum experiment design.
翻訳日:2023-03-31 17:59:30 公開日:2023-03-30
# フィードバックによる皮膚効果による絡み合い遷移の欠如

Absence of entanglement transition due to feedback-induced skin effect ( http://arxiv.org/abs/2209.11241v3 )

ライセンス: Link先を確認
Yu-Peng Wang, Chen Fang, and Jie Ren(参考訳) ユニタリ進化の対象となる量子多体系と、増大速度を持つ局所的な測定は、(sub)拡張から領域法則エントロピースケーリングへの絡み合い遷移を行う。 非エルミート系における「スキン効果」を想起して,「射影的モニタリング」と条件付きフィードバックからなる「一般化された監視」の下での特定の開放境界系は,異常な後期粒子濃度をエッジに表示する。 このようなフィードバックによる皮膚効果は、絡み合いの発生を抑制し、絡み合い遷移なしに短距離絡み合いを生じさせる。

A quantum many-body system subject to unitary evolution and repeated local measurements with an increasing rate undergoes an entanglement transition from (sub)extensive to area law entropy scaling. We find that certain open boundary systems under "generalized monitoring", consisting of "projective monitoring" and conditional feedback, display an anomalous late-time particle concentration on the edge, reminiscent of the "skin effect" in non-Hermitian systems. Such feedback-induced skin effect will suppress the entanglement generation, rendering the system short-range entangled without any entanglement transition.
翻訳日:2023-03-31 17:59:03 公開日:2023-03-30
# Paired Inverse Pyramid StructureとDense MLP Blockに基づく効果的な音声分類網

Effective Audio Classification Network Based on Paired Inverse Pyramid Structure and Dense MLP Block ( http://arxiv.org/abs/2211.02940v3 )

ライセンス: Link先を確認
Yunhao Chen, Yunjie Zhu, Zihui Yan, Yifan Huang, Zhen Ren, Jianlu Shen and Lifang Chen(参考訳) 近年,畳み込みニューラルネットワーク(CNN)と自己認識機構に基づく大規模アーキテクチャが,音声分類に必要となっている。 これらのテクニックは最先端技術であるが、これらの作業の有効性は、膨大な計算コストとパラメータ、大量のデータ拡張、大規模なデータセットからの転送などによってのみ保証される。 本稿では,音声の軽量性を活用することで,ペア化逆ピラミッド構造(pip)とペア化逆ピラミッド構造mlpネットワーク(pipmn)と呼ばれる効率的なネットワーク構造を提案する。 pipmnは、urbansound8kデータセットにおける環境音分類(esc)精度の96\%、gtaznデータセット上の音楽ジャンル分類(mgc)の93.2\%に到達し、パラメータはわずか100万である。 両方の結果はデータ拡張やモデル転送なしで達成されます。 公開コードはhttps://github.com/jnaic/pipmn。

Recently, massive architectures based on Convolutional Neural Network (CNN) and self-attention mechanisms have become necessary for audio classification. While these techniques are state-of-the-art, these works' effectiveness can only be guaranteed with huge computational costs and parameters, large amounts of data augmentation, transfer from large datasets and some other tricks. By utilizing the lightweight nature of audio, we propose an efficient network structure called Paired Inverse Pyramid Structure (PIP) and a network called Paired Inverse Pyramid Structure MLP Network (PIPMN). The PIPMN reaches 96\% of Environmental Sound Classification (ESC) accuracy on the UrbanSound8K dataset and 93.2\% of Music Genre Classification (MGC) on the GTAZN dataset, with only 1 million parameters. Both of the results are achieved without data augmentation or model transfer. Public code is available at: https://github.com/JNAIC/PIPMN
翻訳日:2023-03-31 17:52:34 公開日:2023-03-30
# 量子量列挙器とテンソルネットワーク

Quantum weight enumerators and tensor networks ( http://arxiv.org/abs/2211.02756v2 )

ライセンス: Link先を確認
ChunJun Cao and Brad Lackey(参考訳) 本稿では,テンソルネットワーク構造の解析における重み付き列挙子の利用,特に最近導入された量子レゴフレームワークについて検討する。 量子重み列挙子の概念をいわゆるテンソル列挙子に拡張し、テンソルネットワーク上のトレース演算がテンソル列挙子上のトレース演算と互換性があることを証明する。 これにより、テンソルネットワークメソッドによって構築されたような大きな符号の量子量列挙子をより効率的に計算することができる。 また、特別な場合としてテンソル列挙子を含む量子macwilliams identityの一般的なフレームワークも提供する。

We examine the use of weight enumerators for analyzing tensor network constructions, and specifically the quantum lego framework recently introduced. We extend the notion of quantum weight enumerators to so-called tensor enumerators, and prove that the trace operation on tensor networks is compatible with a trace operation on tensor enumerators. This allows us to compute quantum weight enumerators of larger codes such as the ones constructed through tensor network methods more efficiently. We also provide a general framework for quantum MacWilliams identities that includes tensor enumerators as a special case.
翻訳日:2023-03-31 17:52:17 公開日:2023-03-30
# 中性ストロンチウムにおける$^{1}\mathrm{s}_0$-$^{3}\mathrm{p}_2$磁気四極子転移

The $^{1}\mathrm{S}_0$-$^{3}\mathrm{P}_2$ magnetic quadrupole transition in neutral strontium ( http://arxiv.org/abs/2211.02470v3 )

ライセンス: Link先を確認
J. Trautmann, D. Yankelev, V. Kl\"usener, A. J. Park, I. Bloch, S. Blatt(参考訳) 我々は、中性ストロンチウム中における超狭磁性四極子$^{1}\mathrm{S}_0$-$^{3}\mathrm{P}_2$遷移の詳細な研究を行い、量子シミュレーションや量子計算にどのようにアクセスできるかを示す。 1次元光学格子の光シフトをエンジニアリングすることにより、高分解能分光を行い、磁気四重極遷移の特性吸収パターンを観察する。 絶対遷移周波数は、$^{88}\mathrm{Sr}$と$^{88}\mathrm{Sr}$-$^{87}\mathrm{Sr}$同位体シフト+62.91(4) MHzで446,647,242,704(2) kHzである。 原理実証実験では、この遷移を利用して、レイリー基準分解能494(45)nmの532nmの光学格子で局所的なアドレッシングを示す。 以上の結果から, 磁気四極子遷移を光量子ビットとして, 光格子の単一部位アドレッシングへの応用の道を開いた。

We present a detailed investigation of the ultranarrow magnetic-quadrupole $^{1}\mathrm{S}_0$-$^{3}\mathrm{P}_2$ transition in neutral strontium and show how it can be made accessible for quantum simulation and quantum computation. By engineering the light shift in a one-dimensional optical lattice, we perform high-resolution spectroscopy and observe the characteristic absorption patterns for a magnetic quadrupole transition. We measure an absolute transition frequency of 446,647,242,704(2) kHz in $^{88}\mathrm{Sr}$ and an $^{88}\mathrm{Sr}$-$^{87}\mathrm{Sr}$ isotope shift of +62.91(4) MHz. In a proof-of-principle experiment, we use this transition to demonstrate local addressing in an optical lattice with 532 nm spacing with a Rayleigh-criterion resolution of 494(45) nm. Our results pave the way for applications of the magnetic quadrupole transition as an optical qubit and for single-site addressing in optical lattices.
翻訳日:2023-03-31 17:52:07 公開日:2023-03-30
# 分散合成最適化のための高速適応運動量ベースフェデレート法

Faster Adaptive Momentum-Based Federated Methods for Distributed Composition Optimization ( http://arxiv.org/abs/2211.01883v2 )

ライセンス: Link先を確認
Feihu Huang(参考訳) フェデレーション学習(federated learning)は、マシンラーニングにおいて一般的な分散学習パラダイムである。 一方、合成最適化は効果的な階層学習モデルであり、メタラーニングやロバストラーニングといった多くの機械学習アプリケーションに現れる。 より最近では、いくつかの結合合成最適化アルゴリズムが提案されているが、それでも高いサンプルと通信の複雑さに苦しんでいる。 そこで本稿では,非凸分散合成問題の解法として,モーメントに基づく分散分散化と局所SGDに基づく高速な合成最適化アルゴリズム(MFCGDとAdaMFCGD)を提案する。 特に,適応型アルゴリズム (adamfcgd) では,適応型行列を用いて様々な適応型学習率を柔軟に組み込む。 さらに,非i.i.d.条件下でのアルゴリズムの強固な理論的解析を行い,既存のフェデレーション合成アルゴリズムよりも低いサンプルと通信の複雑度を同時に得ることを証明した。 特に、我々のアルゴリズムは、$\epsilon$-定常解を見つける際に$\tilde{o}(\epsilon^{-3})$のサンプル複雑性と$\tilde{o}(\epsilon^{-2})$の通信複雑さを得る。 我々は,アルゴリズムの効率性を示すために,堅牢なフェデレーション学習と分散メタ学習タスクに関する数値実験を行った。

Federated Learning is a popular distributed learning paradigm in machine learning. Meanwhile, composition optimization is an effective hierarchical learning model, which appears in many machine learning applications such as meta learning and robust learning. More recently, although a few federated composition optimization algorithms have been proposed, they still suffer from high sample and communication complexities. In the paper, thus, we propose a class of faster federated compositional optimization algorithms (i.e., MFCGD and AdaMFCGD) to solve the nonconvex distributed composition problems, which builds on the momentum-based variance reduced and local-SGD techniques. In particular, our adaptive algorithm (i.e., AdaMFCGD) uses a unified adaptive matrix to flexibly incorporate various adaptive learning rates. Moreover, we provide a solid theoretical analysis for our algorithms under non-i.i.d. setting, and prove our algorithms obtain a lower sample and communication complexities simultaneously than the existing federated compositional algorithms. Specifically, our algorithms obtain lower sample complexity of $\tilde{O}(\epsilon^{-3})$ with lower communication complexity of $\tilde{O}(\epsilon^{-2})$ in finding an $\epsilon$-stationary solution. We conduct the numerical experiments on robust federated learning and distributed meta learning tasks to demonstrate the efficiency of our algorithms.
翻訳日:2023-03-31 17:51:43 公開日:2023-03-30
# MAgNET:メッシュベースのシミュレーションのためのグラフU-Netアーキテクチャ

MAgNET: A Graph U-Net Architecture for Mesh-Based Simulations ( http://arxiv.org/abs/2211.00713v2 )

ライセンス: Link先を確認
Saurabh Deshpande, St\'ephane P.A. Bordas, Jakub Lengiewicz(参考訳) 多くの最先端アプリケーションでは、高忠実度計算モデルは実用には遅すぎることが証明され、より高速な代理モデルに置き換えられる。 近年,このような予測を加速する上で,ディープラーニング技術の重要性が高まっている。 しかし、より大きく複雑な問題に直面した場合には、混乱する傾向がある。 そこで本研究では,任意の構造(グラフデータ)の大次元データを扱うための新しい幾何学的深層学習フレームワークであるmagnet: multi-channel aggregation networkを提案する。 MAgNETは、畳み込みニューラルネットワークにおけるマルチチャネル局所演算の概念を任意の非グリッド入力に一般化する、MAg(Multi channel Aggregation)演算に基づいている。 MAg層は提案したグラフプーリング/アンプール操作とインターリーブされ、堅牢で任意の複雑なメッシュを扱えるグラフU-Netアーキテクチャを形成し、大規模グラフ構造化データに対する教師あり学習を効率的に行う。 いくつかの非線形有限要素シミュレーションのためのMAgNETの予測能力を実証し、将来の研究を促進するためのオープンソースデータセットとコードを提供する。

In many cutting-edge applications, high-fidelity computational models prove too slow to be practical and are thus replaced by much faster surrogate models. Recently, deep learning techniques have become increasingly important in accelerating such predictions. However, they tend to falter when faced with larger and more complex problems. Therefore, this work introduces MAgNET: Multi-channel Aggregation Network, a novel geometric deep learning framework designed to operate on large-dimensional data of arbitrary structure (graph data). MAgNET is built upon the MAg (Multichannel Aggregation) operation, which generalizes the concept of multi-channel local operations in convolutional neural networks to arbitrary non-grid inputs. The MAg layers are interleaved with the proposed novel graph pooling/unpooling operations to form a graph U-Net architecture that is robust and can handle arbitrary complex meshes, efficiently performing supervised learning on large-dimensional graph-structured data. We demonstrate the predictive capabilities of MAgNET for several non-linear finite element simulations and provide open-source datasets and codes to facilitate future research.
翻訳日:2023-03-31 17:51:19 公開日:2023-03-30
# LongShortNet: ストリーミング知覚における時間的特徴と意味的特徴の融合を探る

LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception ( http://arxiv.org/abs/2210.15518v4 )

ライセンス: Link先を確認
Chenyang Li, Zhi-Qi Cheng, Jun-Yan He, Pengyu Li, Bin Luo, Hanyuan Chen, Yifeng Geng, Jin-Peng Lan, Xuansong Xie(参考訳) ストリーミング知覚は、自動操縦システムのレイテンシと精度のバランスを必要とする自律運転において重要なタスクである。 しかし、現在のストリーミング知覚法は、動きパターンを学ぶために現在の2フレームと隣接する2フレームのみに依存するため、制限されている。 これにより複雑なシーンをモデル化する能力が制限され、しばしば検出結果が不十分になる。 この制限に対処するために,長期時間運動をキャプチャし,リアルタイム知覚のための短期空間意味論と統合する,新しいデュアルパスネットワークであるlong shortnetを提案する。 LongShortNetは、長期の時間的モデリングをストリーミング知覚に拡張し、時空間的特徴融合を可能にする最初の試みである。 我々は、Argoverse-HDデータセット上でLongShortNetを評価し、既存の最先端手法よりも計算コストがほとんどないことを示す。

Streaming perception is a critical task in autonomous driving that requires balancing the latency and accuracy of the autopilot system. However, current methods for streaming perception are limited as they only rely on the current and adjacent two frames to learn movement patterns. This restricts their ability to model complex scenes, often resulting in poor detection results. To address this limitation, we propose LongShortNet, a novel dual-path network that captures long-term temporal motion and integrates it with short-term spatial semantics for real-time perception. LongShortNet is notable as it is the first work to extend long-term temporal modeling to streaming perception, enabling spatiotemporal feature fusion. We evaluate LongShortNet on the challenging Argoverse-HD dataset and demonstrate that it outperforms existing state-of-the-art methods with almost no additional computational cost.
翻訳日:2023-03-31 17:51:01 公開日:2023-03-30
# ProContEXT: トラッキングのためのプログレッシブコンテキストトランスフォーマーの探索

ProContEXT: Exploring Progressive Context Transformer for Tracking ( http://arxiv.org/abs/2210.15511v4 )

ライセンス: Link先を確認
Jin-Peng Lan, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Xu Bao, Wangmeng Xiang, Yifeng Geng, Xuansong Xie(参考訳) 既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。 これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。 そこで我々は,プログレッシブ・コンテクスト・エンコーディング・トランスフォーマー(ProContEXT)によるトラッキング・フレームワークを改良し,空間的・時間的コンテキストを利用して物体の動きの軌跡を予測する。 具体的には、procontextはコンテキスト対応のセルフアテンションモジュールを使用して、空間的および時間的コンテキストをエンコードし、マルチスケールの静的および動的テンプレートを改良および更新し、正確なトラッキングを行う。 時間的文脈と時間的文脈の相補性を探求し、トランスフォーマーベースのトラッカーのためのマルチコンテキストモデリングへの新しい経路を提起する。 さらに、ProContEXTは計算複雑性を低減するためにトークンプルーニング手法を改訂した。 GOT-10kやTrackingNetのような一般的なベンチマークデータセットに対する大規模な実験は、提案されたProContEXTが最先端のパフォーマンスを達成することを示した。

Existing Visual Object Tracking (VOT) only takes the target area in the first frame as a template. This causes tracking to inevitably fail in fast-changing and crowded scenes, as it cannot account for changes in object appearance between frames. To this end, we revamped the tracking framework with Progressive Context Encoding Transformer Tracker (ProContEXT), which coherently exploits spatial and temporal contexts to predict object motion trajectories. Specifically, ProContEXT leverages a context-aware self-attention module to encode the spatial and temporal context, refining and updating the multi-scale static and dynamic templates to progressively perform accurately tracking. It explores the complementary between spatial and temporal context, raising a new pathway to multi-context modeling for transformer-based trackers. In addition, ProContEXT revised the token pruning technique to reduce computational complexity. Extensive experiments on popular benchmark datasets such as GOT-10k and TrackingNet demonstrate that the proposed ProContEXT achieves state-of-the-art performance.
翻訳日:2023-03-31 17:50:45 公開日:2023-03-30
# 学生中心の学習管理システム活動と学業成績モデル--因果関係から因果関係へ

Student-centric Model of Learning Management System Activity and Academic Performance: from Correlation to Causation ( http://arxiv.org/abs/2210.15430v3 )

ライセンス: Link先を確認
Varun Mandalapu, Lujie Karen Chen, Sushruta Shetty, Zhiyuan Chen, Jiaqi Gong(参考訳) 近年,メタ認知や自己統制といった学習行動パターンを理解するために,学生の学習管理システム(LMS)におけるデジタルトレースをモデル化することへの関心が高まっている。 しかし、この目標を達成するには、既存の文献を考えると、対処すべき主な課題が2つある。 第一に、現在の研究のほとんどは、学生中心ではなくコース中心(すなわち、特定のコースのデータからモデルを構築する)であり、第二に、モデルの大多数は因果関係ではなく相関関係にある。 これらの問題は、キャンパス全体の学術的支援のほとんどが設計されている学生レベルで、最も有望な介入の要因を特定するのに困難である。 本稿では,LMS活動データを対象とした学生中心分析フレームワークについて検討し,観察データから抽出した相関性だけでなく因果的洞察も提供する。 2019年秋の1学期に米国の公立大学での主要学生を1651人のデータセットで計算することで,このアプローチを実証した。 このデータセットには、学生の詳細なLMSインタラクションログと、人口統計学や学業成績などの管理データが含まれている。 さらに、ログインの時間(例えば、chronotype)を特徴付けることができるように、lms行動指標のリポジトリを拡張します。 分析の結果,学生のログイン量は,他のログイン行動指標と比較して,学生の成績に強く相関し,因果関係があることが明らかとなった。 これらの知見が学生支援グループにとって、効果的でスケーラブルな介入を学生中心で目標とする活動を開始するための証拠となると期待している。

In recent years, there is a lot of interest in modeling students' digital traces in Learning Management System (LMS) to understand students' learning behavior patterns including aspects of meta-cognition and self-regulation, with the ultimate goal to turn those insights into actionable information to support students to improve their learning outcomes. In achieving this goal, however, there are two main issues that need to be addressed given the existing literature. Firstly, most of the current work is course-centered (i.e. models are built from data for a specific course) rather than student-centered; secondly, a vast majority of the models are correlational rather than causal. Those issues make it challenging to identify the most promising actionable factors for intervention at the student level where most of the campus-wide academic support is designed for. In this paper, we explored a student-centric analytical framework for LMS activity data that can provide not only correlational but causal insights mined from observational data. We demonstrated this approach using a dataset of 1651 computing major students at a public university in the US during one semester in the Fall of 2019. This dataset includes students' fine-grained LMS interaction logs and administrative data, e.g. demographics and academic performance. In addition, we expand the repository of LMS behavior indicators to include those that can characterize the time-of-the-day of login (e.g. chronotype). Our analysis showed that student login volume, compared with other login behavior indicators, is both strongly correlated and causally linked to student academic performance, especially among students with low academic performance. We envision that those insights will provide convincing evidence for college student support groups to launch student-centered and targeted interventions that are effective and scalable.
翻訳日:2023-03-31 17:50:23 公開日:2023-03-30
# 因果回復による条件付き力学の推論

Inference in conditioned dynamics through causality restoration ( http://arxiv.org/abs/2210.10179v2 )

ライセンス: Link先を確認
Alfredo Braunstein, Giovanni Catania, Luca Dall'Asta, Matteo Mariani, Anna Paola Muntoni(参考訳) なぜなら、非条件の力学から独立サンプルを効率的に得ることは、通常は実現可能であるが、通常、ほとんどのサンプルは、課された条件を満たさないため、(重要なサンプリングの形で)破棄されなければならないからである。 条件付き分布から直接サンプリングすることは非自明であり、条件付きはダイナミクスの因果特性を壊し、最終的にサンプリング手順を効率的にする。 標準的な方法の1つはメトロポリス・モンテ・カルロ法であるが、この手順は通常は遅く、少数の統計的に独立なサンプルを得るためにはモンテ・カルロ法が非常に多く必要である。 本研究では,条件付き分布から独立したサンプルを生成する方法を提案する。 本手法は,条件付き分布を変動的に最適に記述する一般化力学モデルのパラメータを学習する。 結果は有効で無条件の動的モデルであり、そこから独立サンプルを自明に得ることができ、条件付き分布の因果関係を効果的に復元することができる。 その結果は2つある:一方、独立したサンプルを平均化することによって、条件付きダイナミクスから効率的にオブザーバブルを計算できる。 一方、本手法は、解釈が容易な効率的な無条件分布を与える。 この手法は柔軟で、どんな力学にも事実上適用できる。 本研究は, ジレスピー様のサンプラーを付与した大規模流行モデルに対する(不完全な)臨床検査からの流行リスクアセスメントの課題である。 本手法は, ソフトマージン法や平均場法など, 美術品の状態と好適に比較できることを示す。

Computing observables from conditioned dynamics is typically computationally hard, because, although obtaining independent samples efficiently from the unconditioned dynamics is usually feasible, generally most of the samples must be discarded (in a form of importance sampling) because they do not satisfy the imposed conditions. Sampling directly from the conditioned distribution is non-trivial, as conditioning breaks the causal properties of the dynamics which ultimately renders the sampling procedure efficient. One standard way of achieving it is through a Metropolis Monte-Carlo procedure, but this procedure is normally slow and a very large number of Monte-Carlo steps is needed to obtain a small number of statistically independent samples. In this work, we propose an alternative method to produce independent samples from a conditioned distribution. The method learns the parameters of a generalized dynamical model that optimally describe the conditioned distribution in a variational sense. The outcome is an effective, unconditioned, dynamical model, from which one can trivially obtain independent samples, effectively restoring causality of the conditioned distribution. The consequences are twofold: on the one hand, it allows us to efficiently compute observables from the conditioned dynamics by simply averaging over independent samples. On the other hand, the method gives an effective unconditioned distribution which is easier to interpret. The method is flexible and can be applied virtually to any dynamics. We discuss an important application of the method, namely the problem of epidemic risk assessment from (imperfect) clinical tests, for a large family of time-continuous epidemic models endowed with a Gillespie-like sampler. We show that the method compares favorably against the state of the art, including the soft-margin approach and mean-field methods.
翻訳日:2023-03-31 17:49:34 公開日:2023-03-30
# モダリティを欠くロバストな行動認識のための良い実践に向けて

Towards Good Practices for Missing Modality Robust Action Recognition ( http://arxiv.org/abs/2211.13916v2 )

ライセンス: Link先を確認
Sangmin Woo, Sumin Lee, Yeonju Park, Muhammad Adi Nugroho, Changick Kim(参考訳) 標準的なマルチモーダルモデルは、トレーニングと推論の段階で同じモダリティを使用する。 しかし、実際には、マルチモーダルモデルが動作する環境はそのような仮定を満たさないかもしれない。 したがって、推論の段階でモダリティが欠けている場合、パフォーマンスは劇的に劣化する。 モダリティの欠如に対して堅牢なモデルをどうやってトレーニングすればよいのか? 本稿では,マルチモーダルな行動認識のための優れたプラクティスのセットを求め,推論時にいくつかのモダリティが利用できない状況に特に関心を寄せる。 まず,トレーニング中(データ拡張など)にモデルを効果的に規則化する方法について検討する。 第二に、モダリティの欠如に対するロバスト性に関する融合法について検討し、トランスフォーマーベースの融合は、和や結合よりもモダリティの欠如に対してより良いロバスト性を示すことを示した。 第3に,モダリティ特徴をランダムにドロップすることでモダリティ予測符号の欠如を学習し,残りのモダリティ特徴で再構成を試みる,シンプルなモジュラーネットワークであるActionMAEを提案する。 これらの優れたプラクティスを結合することで、マルチモーダルなアクション認識だけでなく、モダリティの欠如に対して堅牢なモデルを構築します。 本モデルでは,複数のベンチマークの最先端性を達成し,モダリティを欠くシナリオにおいても競争性能を維持する。 コードはhttps://github.com/sangminwoo/ActionMAEで入手できる。

Standard multi-modal models assume the use of the same modalities in training and inference stages. However, in practice, the environment in which multi-modal models operate may not satisfy such assumption. As such, their performances degrade drastically if any modality is missing in the inference stage. We ask: how can we train a model that is robust to missing modalities? This paper seeks a set of good practices for multi-modal action recognition, with a particular interest in circumstances where some modalities are not available at an inference time. First, we study how to effectively regularize the model during training (e.g., data augmentation). Second, we investigate on fusion methods for robustness to missing modalities: we find that transformer-based fusion shows better robustness for missing modality than summation or concatenation. Third, we propose a simple modular network, ActionMAE, which learns missing modality predictive coding by randomly dropping modality features and tries to reconstruct them with the remaining modality features. Coupling these good practices, we build a model that is not only effective in multi-modal action recognition but also robust to modality missing. Our model achieves the state-of-the-arts on multiple benchmarks and maintains competitive performances even in missing modality scenarios. Codes are available at https://github.com/sangminwoo/ActionMAE.
翻訳日:2023-03-31 17:43:49 公開日:2023-03-30
# CODA-Prompt:リハーサルなし連続学習のための意図に基づく意識型プロンプト

CODA-Prompt: COntinual Decomposed Attention-based Prompting for Rehearsal-Free Continual Learning ( http://arxiv.org/abs/2211.13218v2 )

ライセンス: Link先を確認
James Seale Smith, Leonid Karlinsky, Vyshnavi Gutta, Paola Cascante-Bonilla, Donghyun Kim, Assaf Arbelle, Rameswar Panda, Rogerio Feris, Zsolt Kira(参考訳) コンピュータビジョンモデルは、連続的なトレーニングデータから新しい概念を学ぶとき、破滅的な忘れと呼ばれる現象に苦しむ。 この継続学習問題の典型的な解決策は、以前見られたデータの広範なリハーサルを必要とする。 近年,大規模な事前学習型視覚トランスフォーマーモデルの出現により,データリハーサルの代替として,プロンプトアプローチが実現されている。 これらのアプローチは、プロンプトを生成するキークエリ機構に依存しており、十分に確立されたリハーサルのない連続学習環境において、破滅的な忘れ方に非常に耐性があることが判明した。 しかし、これらのメソッドの重要なメカニズムは、タスクシーケンスでエンドツーエンドを訓練するものではない。 実験の結果,これによって可塑性が低下し,新たなタスク精度が犠牲になり,パラメータの容量が拡張できないことがわかった。 そこで我々は,入力条件付きプロンプトを生成するために,入力条件付き重みで組み立てられた一連のプロンプトコンポーネントを学習することを提案する。 実験により,既存のSOTA法であるDualPromptを,平均的な最終精度で最大4.5%上回る結果を得た。 また,多くの実践的設定に対応するクラス単位とドメイン単位の両方のタスクシフトを含む連続学習ベンチマークにおいて,芸術の状態を最大4.4%精度で上回っている。 私たちのコードはhttps://github.com/GT-RIPL/CODA-Promptで利用可能です。

Computer vision models suffer from a phenomenon known as catastrophic forgetting when learning novel concepts from continuously shifting training data. Typical solutions for this continual learning problem require extensive rehearsal of previously seen data, which increases memory costs and may violate data privacy. Recently, the emergence of large-scale pre-trained vision transformer models has enabled prompting approaches as an alternative to data-rehearsal. These approaches rely on a key-query mechanism to generate prompts and have been found to be highly resistant to catastrophic forgetting in the well-established rehearsal-free continual learning setting. However, the key mechanism of these methods is not trained end-to-end with the task sequence. Our experiments show that this leads to a reduction in their plasticity, hence sacrificing new task accuracy, and inability to benefit from expanded parameter capacity. We instead propose to learn a set of prompt components which are assembled with input-conditioned weights to produce input-conditioned prompts, resulting in a novel attention-based end-to-end key-query scheme. Our experiments show that we outperform the current SOTA method DualPrompt on established benchmarks by as much as 4.5% in average final accuracy. We also outperform the state of art by as much as 4.4% accuracy on a continual learning benchmark which contains both class-incremental and domain-incremental task shifts, corresponding to many practical settings. Our code is available at https://github.com/GT-RIPL/CODA-Prompt
翻訳日:2023-03-31 17:43:27 公開日:2023-03-30
# PNI : 位置情報と周辺情報を用いた産業異常検出

PNI : Industrial Anomaly Detection using Position and Neighborhood Information ( http://arxiv.org/abs/2211.12634v3 )

ライセンス: Link先を確認
Jaehyeok Bae, Jae-Han Lee, Seyun Kim(参考訳) 異常サンプルはトレーニングに使用できないため、多くの異常検出および局所化手法は事前学習されたネットワークと非パラメトリックモデリングを使用して符号化された特徴分布を推定する。 しかし,これらの手法は,通常の特徴の分布に及ぼす位置や周辺情報の影響を無視する。 これを解決するために,マルチ層パーセプトロンネットワークでモデル化した条件付き確率を用いて正規分布を推定する新しいアルゴリズムである \textbf{PNI} を提案する。 また、各位置に代表的特徴のヒストグラムを作成することで位置情報を利用する。 提案手法では, 単に異常マップをリサイズする代わりに, 合成異常画像に訓練された改良ネットワークを用いて, 入力画像の形状とエッジをよりよく補間し, 考慮する。 mvtec ad benchmarkデータセットを用いた実験を行い, 異常検出と局所化において, \textbf{99.56\%} と \textbf{98.98\%} aurocスコアを用いて最新性能を得た。

Because anomalous samples cannot be used for training, many anomaly detection and localization methods use pre-trained networks and non-parametric modeling to estimate encoded feature distribution. However, these methods neglect the impact of position and neighborhood information on the distribution of normal features. To overcome this, we propose a new algorithm, \textbf{PNI}, which estimates the normal distribution using conditional probability given neighborhood features, modeled with a multi-layer perceptron network. Moreover, position information is utilized by creating a histogram of representative features at each position. Instead of simply resizing the anomaly map, the proposed method employs an additional refine network trained on synthetic anomaly images to better interpolate and account for the shape and edge of the input image. We conducted experiments on the MVTec AD benchmark dataset and achieved state-of-the-art performance, with \textbf{99.56\%} and \textbf{98.98\%} AUROC scores in anomaly detection and localization, respectively.
翻訳日:2023-03-31 17:42:49 公開日:2023-03-30
# LidarGait: ポイントクラウドによる3D歩行認識のベンチマーク

LidarGait: Benchmarking 3D Gait Recognition with Point Clouds ( http://arxiv.org/abs/2211.10598v2 )

ライセンス: Link先を確認
Chuanfu Shen, Chao Fan, Wei Wu, Rui Wang, George Q. Huang, Shiqi Yu(参考訳) ビデオベースの歩行認識は制約のあるシナリオで印象的な結果を得た。 しかし、視覚カメラは人間の3d構造情報を無視し、3dワイルドワールドにおける歩行認識の可能性を制限する。 画像から歩行特徴を抽出する代わりに、ポイントクラウドから正確な3D歩行特徴を探索し、シンプルだが効率的な3D歩行認識フレームワークであるLidarGaitを提案する。 提案手法は,3次元幾何情報を用いた表現を深度マップに分割して学習し,既存のポイントワイド法やカメラベース法よりかなり優れていることを示す。 ポイントクラウドデータセットの欠如により,lidarセンサとrgbカメラによって収集された,初の大規模lidarベースの歩行認識データセットであるsustech1kを構築した。 データセットには1,050人の被験者から25,239のシーケンスがあり、可視性、ビュー、オクルージョン、衣服、持ち運び、シーンなど、さまざまなバリエーションをカバーしている。 広範な実験により,(1)3次元構造情報が歩行認識の重要な特徴であることが示された。 (2)lidargaitは,既存のポイントベースおよびシルエットベースの手法をかなりのマージンで上回り,安定したクロスビュー結果も提供する。 3)LiDARセンサは,屋外環境における歩行認識において,RGBカメラよりも優れている。 ソースコードとデータセットはhttps://lidargait.github.ioで公開されている。

Video-based gait recognition has achieved impressive results in constrained scenarios. However, visual cameras neglect human 3D structure information, which limits the feasibility of gait recognition in the 3D wild world. Instead of extracting gait features from images, this work explores precise 3D gait features from point clouds and proposes a simple yet efficient 3D gait recognition framework, termed LidarGait. Our proposed approach projects sparse point clouds into depth maps to learn the representations with 3D geometry information, which outperforms existing point-wise and camera-based methods by a significant margin. Due to the lack of point cloud datasets, we built the first large-scale LiDAR-based gait recognition dataset, SUSTech1K, collected by a LiDAR sensor and an RGB camera. The dataset contains 25,239 sequences from 1,050 subjects and covers many variations, including visibility, views, occlusions, clothing, carrying, and scenes. Extensive experiments show that (1) 3D structure information serves as a significant feature for gait recognition. (2) LidarGait outperforms existing point-based and silhouette-based methods by a significant margin, while it also offers stable cross-view results. (3) The LiDAR sensor is superior to the RGB camera for gait recognition in the outdoor environment. The source code and dataset have been made available at https://lidargait.github.io.
翻訳日:2023-03-31 17:42:28 公開日:2023-03-30
# コンストラクトVL:データフリー連続構造VL概念学習

ConStruct-VL: Data-Free Continual Structured VL Concepts Learning ( http://arxiv.org/abs/2211.09790v2 )

ライセンス: Link先を確認
James Seale Smith, Paola Cascante-Bonilla, Assaf Arbelle, Donghyun Kim, Rameswar Panda, David Cox, Diyi Yang, Zsolt Kira, Rogerio Feris, Leonid Karlinsky(参考訳) 近年,大規模事前学習型視覚言語(vl)基礎モデルが,ゼロショットダウンストリームタスクの多くにおいて顕著な性能を示し,短いテキストプロンプトで定義した物体を識別する競争的結果を達成している。 しかしながら、VLモデルは、オブジェクト属性、状態、オブジェクト間の関係を認識する能力など、構造化VL概念(SVLC)の推論においてまだ脆弱であることも示されている。 これは、vlモデルに不足しているsvlcスキルを教えることによって生じる誤りの推論につながる。多くの場合、問題が発生したプライベートデータを使用して行う必要があり、自然にデータフリーの連続的な(タスクidなし)vl学習設定につながる。 本稿では,データフリーな構造化vl概念学習(construct-vl)ベンチマーク(continual data-free structured vl concepts learning)について紹介する。 そこで本研究では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するadversarial pseudo-replay (apr) の新たなアプローチによるデータフリー手法を提案する。 また,この手法を効率的に利用するために,連続パラメータ効率の高いLaLo(LaLo)ニューラルアーキテクチャを提案する。 このアプローチは、いくつかのレベルのエクスペリエンス再生(データプライバシを保存する必要があるアプリケーションに対しては禁止)に対応しながら、すべてのデータフリーメソッドを最大7%上回ります。 私たちのコードはhttps://github.com/jamessealesmith/ConStruct-VLで公開されています。

Recently, large-scale pre-trained Vision-and-Language (VL) foundation models have demonstrated remarkable capabilities in many zero-shot downstream tasks, achieving competitive results for recognizing objects defined by as little as short text prompts. However, it has also been shown that VL models are still brittle in Structured VL Concept (SVLC) reasoning, such as the ability to recognize object attributes, states, and inter-object relations. This leads to reasoning mistakes, which need to be corrected as they occur by teaching VL models the missing SVLC skills; often this must be done using private data where the issue was found, which naturally leads to a data-free continual (no task-id) VL learning setting. In this work, we introduce the first Continual Data-Free Structured VL Concepts Learning (ConStruct-VL) benchmark and show it is challenging for many existing data-free CL strategies. We, therefore, propose a data-free method comprised of a new approach of Adversarial Pseudo-Replay (APR) which generates adversarial reminders of past tasks from past task models. To use this method efficiently, we also propose a continual parameter-efficient Layered-LoRA (LaLo) neural architecture allowing no-memory-cost access to all past models at train time. We show this approach outperforms all data-free methods by as much as ~7% while even matching some levels of experience-replay (prohibitive for applications where data-privacy must be preserved). Our code is publicly available at https://github.com/jamessealesmith/ConStruct-VL
翻訳日:2023-03-31 17:42:04 公開日:2023-03-30
# ArcAid:図面を用いた考古学的遺物の分析

ArcAid: Analysis of Archaeological Artifacts using Drawings ( http://arxiv.org/abs/2211.09480v2 )

ライセンス: Link先を確認
Offry Hayon, Stefan M\"unger, Ilan Shimshoni, Ayellet Tal(参考訳) 考古学はコンピュータビジョンの興味深い分野である。 ラベル付き)データの不足だけでなく、高度に乱雑なデータにも苦しんでいます。 本稿では,考古学的遺物の画像の分類と検索のための新しい半教師付きモデルを提案する。 このモデルはドメイン内に存在するユニークなデータ -- 特殊なアーティストによる手作業による図面 -- を利用する。 これらはトレーニング中に、図面から対応する画像にドメインの知識を暗黙的に転送し、分類結果を改善するために使用される。 分類の仕方を学習しながら、このモデルは、現在手作業で行われている重要なドキュメントタスクであるアーティファクトの図面を生成する方法も学んでいます。 最後に、我々は南レバントのスタンプシールの新しいデータセットを収集しました。 データセットとコードは、受け入れ次第、リリースされます。

Archaeology is an intriguing domain for computer vision. It suffers not only from shortage in (labeled) data, but also from highly-challenging data, which is often extremely abraded and damaged. This paper proposes a novel semi-supervised model for classification and retrieval of images of archaeological artifacts. This model utilizes unique data that exists in the domain -- manual drawings made by special artists. These are used during training to implicitly transfer the domain knowledge from the drawings to their corresponding images, improving their classification results. We show that while learning how to classify, our model also learns how to generate drawings of the artifacts, an important documentation task, which is currently performed manually. Last but not least, we collected a new dataset of stamp-seals of the Southern Levant. The dataset and the code will be released upon acceptance.
翻訳日:2023-03-31 17:41:33 公開日:2023-03-30
# ソーシャルメディアテキストによる臨床うつ病の深部時間的モデリング

Deep Temporal Modelling of Clinical Depression through Social Media Text ( http://arxiv.org/abs/2211.07717v3 )

ライセンス: Link先を確認
Nawshad Farruque, Randy Goebel, Sudhakar Sivapalan and Osmar R. Za\"iane(参考訳) 本稿では,ユーザの時間的ソーシャルメディア投稿に基づいて,ユーザレベルの臨床うつ病を検出するモデルの開発について述べる。 本モデルでは,うつ病症状に対する医用注釈付きツイートの最大のサンプルをもとに訓練した,うつ病症状検出(DSD)分類器を用いた。 その後,DSDモデルを用いて,うつ病スコアとその関連時間パターンの抽出や,ユーザの投稿行動パターンの定量化,例えば「活動なし」や「サイレンス」などの臨床的特徴を抽出する。 さらに,抽出された特徴の有効性を評価するために,既存の2つのベンチマークデータセットから,テストデータセットを含む3種類のデータセットを作成し,ユーザレベルの抑うつ検出を行う。 次に,異なる時間的粒度レベルにおいて,単一特徴量,ベースライン特徴量,特徴アブレーションテストに基づいて精度測定を行う。 関連するデータ分布と臨床うつ病検出関連設定を利用して、作成したデータセット間で異なる特徴の影響の完全な図を作成することができる。 最後に、一般に、意味指向表現モデルのみがうまく機能することを示す。 しかし、トレーニングとテストの分布が似ており、ユーザのタイムラインにより多くのデータがあるため、臨床機能により全体的なパフォーマンスが向上する可能性がある。 その結果, より敏感な臨床うつ病検出設定において, うつ病スコアの予測能力は有意に増大した。

We describe the development of a model to detect user-level clinical depression based on a user's temporal social media posts. Our model uses a Depression Symptoms Detection (DSD) classifier, which is trained on the largest existing samples of clinician annotated tweets for clinical depression symptoms. We subsequently use our DSD model to extract clinically relevant features, e.g., depression scores and their consequent temporal patterns, as well as user posting activity patterns, e.g., quantifying their ``no activity'' or ``silence.'' Furthermore, to evaluate the efficacy of these extracted features, we create three kinds of datasets including a test dataset, from two existing well-known benchmark datasets for user-level depression detection. We then provide accuracy measures based on single features, baseline features and feature ablation tests, at several different levels of temporal granularity. The relevant data distributions and clinical depression detection related settings can be exploited to draw a complete picture of the impact of different features across our created datasets. Finally, we show that, in general, only semantic oriented representation models perform well. However, clinical features may enhance overall performance provided that the training and testing distribution is similar, and there is more data in a user's timeline. The consequence is that the predictive capability of depression scores increase significantly while used in a more sensitive clinical depression detection settings.
翻訳日:2023-03-31 17:41:21 公開日:2023-03-30
# 力学系の学習:オープン量子システムダイナミクスからの例

Learning dynamical systems: an example from open quantum system dynamics ( http://arxiv.org/abs/2211.06678v2 )

ライセンス: Link先を確認
Pietro Novelli(参考訳) データから動的システムを学習するために設計された機械学習アルゴリズムは、観測されたダイナミクスを予測、制御、解釈するために使用できる。 この研究では、オープン量子系力学の文脈において、そのようなアルゴリズムの1つ、すなわちクープマン演算子学習の使用を例示する。 我々は,小さなスピンチェーンのダイナミクスとデファスゲートを組み合わせることにより,クープマン作用素学習が密度行列の進化だけでなく,系に関連する全ての物理観測性も効率的に学習する手法であることを示す。 最後に、学習されたkoopman演算子のスペクトル分解を利用して、基礎となるダイナミクスによって従う対称性をデータから直接推測する方法を示す。

Machine learning algorithms designed to learn dynamical systems from data can be used to forecast, control and interpret the observed dynamics. In this work we exemplify the use of one of such algorithms, namely Koopman operator learning, in the context of open quantum system dynamics. We will study the dynamics of a small spin chain coupled with dephasing gates and show how Koopman operator learning is an approach to efficiently learn not only the evolution of the density matrix, but also of every physical observable associated to the system. Finally, leveraging the spectral decomposition of the learned Koopman operator, we show how symmetries obeyed by the underlying dynamics can be inferred directly from data.
翻訳日:2023-03-31 17:40:57 公開日:2023-03-30
# PDAC患者に対する治療効果予測のためのセグメンテーションラベルと表現学習

Exploiting segmentation labels and representation learning to forecast therapy response of PDAC patients ( http://arxiv.org/abs/2211.04180v2 )

ライセンス: Link先を確認
Alexander Ziller, Ayhan Can Erdur, Friederike Jungmann, Daniel Rueckert, Rickmer Braren, Georgios Kaissis(参考訳) 膵管腺癌治療反応の予測は、この高モルティリティ腫瘍における臨床的に困難かつ重要な課題である。 この課題に対処できるニューラルネットワークのトレーニングは、大規模なデータセットの欠如と、膵臓の解剖学的局在の困難さによって妨げられている。 そこで本研究では,固形腫瘍(recist)スコアにおける反応評価基準,臨床医による癌反応評価の標準化方法,腫瘍マーカーを用いた臨床評価に基づく,初期化学療法に対する腫瘍反応予測のためのハイブリッドディープニューラルネットワークパイプラインを提案する。 セグメンテーションから分類への表現伝達と局所化と表現学習の組み合わせを活用する。 提案手法は, 合計477個のデータセットを用いて, ROC-AUC 63.7% の処理応答を予測できる極めて効率的な手法である。

The prediction of pancreatic ductal adenocarcinoma therapy response is a clinically challenging and important task in this high-mortality tumour entity. The training of neural networks able to tackle this challenge is impeded by a lack of large datasets and the difficult anatomical localisation of the pancreas. Here, we propose a hybrid deep neural network pipeline to predict tumour response to initial chemotherapy which is based on the Response Evaluation Criteria in Solid Tumors (RECIST) score, a standardised method for cancer response evaluation by clinicians as well as tumour markers, and clinical evaluation of the patients. We leverage a combination of representation transfer from segmentation to classification, as well as localisation and representation learning. Our approach yields a remarkably data-efficient method able to predict treatment response with a ROC-AUC of 63.7% using only 477 datasets in total.
翻訳日:2023-03-31 17:40:45 公開日:2023-03-30
# 量子コンピュータにおける衝突子の実現 - ビッグデータのための量子機械学習の課題に対処する

Fitting a Collider in a Quantum Computer: Tackling the Challenges of Quantum Machine Learning for Big Datasets ( http://arxiv.org/abs/2211.03233v3 )

ライセンス: Link先を確認
Miguel Ca\c{c}ador Peixoto, Nuno Filipe Castro, Miguel Crispim Rom\~ao, Maria Gabriela Jord\~ao Oliveira, In\^es Ochoa(参考訳) 現在の量子システムは、高エネルギー物理学の典型である高次元の大規模データセットの処理に重大な制限がある。 本稿では,この課題に対処するため,特徴およびデータプロトタイプの選択手法について検討した。 グリッド検索を行い、量子機械学習モデルをトレーニングし、データセットの縮小と完全の両方でトレーニングされた古典的な浅層機械学習手法に対してベンチマークを行った。 量子アルゴリズムの性能は、大規模なデータセットを使用しても、古典的なアルゴリズムに匹敵することがわかった。 連続した後方選択と主成分分析技術が特徴の選択に使われ、前者は特定のケースでより良い量子機械学習モデルを生成できるが、より不安定である。 さらに、これらの変数の変動性は、高エネルギー物理学の文脈における量子機械学習応用のための主成分分析変換データの適合性を強調し、離散変数の使用によって引き起こされることを示す。

Current quantum systems have significant limitations affecting the processing of large datasets with high dimensionality, typical of high energy physics. In the present paper, feature and data prototype selection techniques were studied to tackle this challenge. A grid search was performed and quantum machine learning models were trained and benchmarked against classical shallow machine learning methods, trained both in the reduced and the complete datasets. The performance of the quantum algorithms was found to be comparable to the classical ones, even when using large datasets. Sequential Backward Selection and Principal Component Analysis techniques were used for feature's selection and while the former can produce the better quantum machine learning models in specific cases, it is more unstable. Additionally, we show that such variability in the results is caused by the use of discrete variables, highlighting the suitability of Principal Component analysis transformed data for quantum machine learning applications in the high energy physics context.
翻訳日:2023-03-31 17:40:28 公開日:2023-03-30
# 自己教師付き学習とバッチナレッジセンスリングによるcovid-19自動検出性能の向上

Boosting Automatic COVID-19 Detection Performance with Self-Supervised Learning and Batch Knowledge Ensembling ( http://arxiv.org/abs/2212.09281v2 )

ライセンス: Link先を確認
Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama(参考訳) 問題:胸部X線(CXR)画像から新型コロナウイルスを検出することが、新型コロナウイルスを検出する最も迅速かつ簡単な方法の1つとなっている。 しかし、既存の手法は通常、自然画像からの教師あり転送学習を事前学習プロセスとして使用する。 これらの方法は、COVID-19の特異な特徴や、他の肺炎と類似した特徴を考慮していない。 目的:本稿では、cxr画像を用いた新しい高精度新型コロナウイルス検出法をデザインし、covid-19の特徴と、covid-19と他の肺炎との類似性を考察したい。 方法:本手法は2段階からなる。 1つは自己教師型学習であり、もう1つはバッチ知識に基づく微調整である。 自己教師付き学習に基づく事前学習は、手動のアノテートラベルなしでCXR画像から区別された表現を学習することができる。 一方、バッチ知識に基づく微調整では、視覚的特徴の類似性に応じて、バッチ内の画像のカテゴリ知識を利用して検出性能を向上させることができる。 これまでの実装と異なり、細調整フェーズにバッチ知識を導入し、自己教師付き学習で使用されるメモリを削減し、COVID-19検出精度を向上させる。 結果: 大規模データセットと非バランスデータセットの2つの公開CXRデータセットでは, 有望なCOVID-19検出性能を示した。 本手法は,注釈付きCXRトレーニング画像が大幅に削減された場合でも高い検出精度を維持する(例えば,元のデータセットの10%しか使用していない)。 また,本手法は過度パラメータの変化に敏感である。

Problem: Detecting COVID-19 from chest X-Ray (CXR) images has become one of the fastest and easiest methods for detecting COVID-19. However, the existing methods usually use supervised transfer learning from natural images as a pretraining process. These methods do not consider the unique features of COVID-19 and the similar features between COVID-19 and other pneumonia. Aim: In this paper, we want to design a novel high-accuracy COVID-19 detection method that uses CXR images, which can consider the unique features of COVID-19 and the similar features between COVID-19 and other pneumonia. Methods: Our method consists of two phases. One is self-supervised learning-based pertaining; the other is batch knowledge ensembling-based fine-tuning. Self-supervised learning-based pretraining can learn distinguished representations from CXR images without manually annotated labels. On the other hand, batch knowledge ensembling-based fine-tuning can utilize category knowledge of images in a batch according to their visual feature similarities to improve detection performance. Unlike our previous implementation, we introduce batch knowledge ensembling into the fine-tuning phase, reducing the memory used in self-supervised learning and improving COVID-19 detection accuracy. Results: On two public COVID-19 CXR datasets, namely, a large dataset and an unbalanced dataset, our method exhibited promising COVID-19 detection performance. Our method maintains high detection accuracy even when annotated CXR training images are reduced significantly (e.g., using only 10% of the original dataset). In addition, our method is insensitive to changes in hyperparameters.
翻訳日:2023-03-31 17:34:01 公開日:2023-03-30
# スライス最適部分輸送

Sliced Optimal Partial Transport ( http://arxiv.org/abs/2212.08049v6 )

ライセンス: Link先を確認
Yikun Bai and Bernard Schmitzer and Mathew Thorpe and Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、データサイエンス、コンピュータビジョンにおいて非常に人気がある。 OT問題における中核的な仮定は、ソースおよびターゲット測度における質量の等しい総量であり、その応用を制限する。 最適部分輸送(OPT)はこの制限に対する最近提案された解決策である。 OT問題と同様に、OPTの計算は線形プログラミング問題(しばしば高次元)の解法に依存しており、計算的に禁止される。 本稿では,2つの非負測度間のオプト問題を1次元で計算する効率的なアルゴリズムを提案する。 次に、スライスされたOT距離のアイデアに従い、スライスされたOPT距離を定義するためにスライスを利用する。 最後に、様々な数値実験において、スライスされたOPT法による計算と精度の利点を示す。 特に,提案するスライテッドOPTのノイズ点クラウド登録への応用について述べる。

Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
翻訳日:2023-03-31 17:33:36 公開日:2023-03-30
# HS拡散:ヘッドスワッピングのための意味混合拡散モデル学習

HS-Diffusion: Learning a Semantic-Mixing Diffusion Model for Head Swapping ( http://arxiv.org/abs/2212.06458v2 )

ライセンス: Link先を確認
Qinghe Wang, Lijie Liu, Miao Hua, Qian He, Pengfei Zhu, Bing Cao, Qinghua Hu(参考訳) 画像ベースのヘッドスワップタスクは、ソースヘッドを他のソースボディに完璧に縫い合わせることを目的としている。 この研究課題は2つの大きな課題に直面します。 1)シームレスな遷移領域を生成しつつ、様々なソースから頭と体を保存する。 2) ヘッドスワップデータセットとベンチマークのペアは今のところない。 本稿では,遅延拡散モデル (LDM) と意味的レイアウト生成器からなるヘッドスワップ (HS-Diffusion) のための意味混合拡散モデルを提案する。 ソースヘッドとソースボディのセマンティクスレイアウトをブレンドし、セマンティクスレイアウト生成器によって遷移領域を塗り込み、粒度の粗いヘッドスワップを実現する。 セマンティクスミックスldmは、高品質な再構築で頭と体を保ちつつ、プログレッシブ融合プロセスにより、インペインテッドレイアウトと交換した細粒度のヘッドを条件としてさらに実装することができる。 そこで本研究では,自然塗布のセマンティックキャリブレーション戦略と幾何学的リアリズムのネックアライメントを提案する。 重要な点として、画像ベースの新しいヘッドスワップベンチマークを構築し、Mask-FIDとFocal-FIDの2つを設計する。 広範な実験が我々の枠組みの優越性を示している。 コードはhttps://github.com/qinghew/hs-diffusion。

Image-based head swapping task aims to stitch a source head to another source body flawlessly. This seldom-studied task faces two major challenges: 1) Preserving the head and body from various sources while generating a seamless transition region. 2) No paired head swapping dataset and benchmark so far. In this paper, we propose a semantic-mixing diffusion model for head swapping (HS-Diffusion) which consists of a latent diffusion model (LDM) and a semantic layout generator. We blend the semantic layouts of source head and source body, and then inpaint the transition region by the semantic layout generator, achieving a coarse-grained head swapping. Semantic-mixing LDM can further implement a fine-grained head swapping with the inpainted layout as condition by a progressive fusion process, while preserving head and body with high-quality reconstruction. To this end, we propose a semantic calibration strategy for natural inpainting and a neck alignment for geometric realism. Importantly, we construct a new image-based head swapping benchmark and design two tailor-designed metrics (Mask-FID and Focal-FID). Extensive experiments demonstrate the superiority of our framework. The code will be available: https://github.com/qinghew/HS-Diffusion.
翻訳日:2023-03-31 17:33:23 公開日:2023-03-30
# ulip: 3d理解のための言語,イメージ,ポイントクラウドの統一表現の学習

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding ( http://arxiv.org/abs/2212.05171v2 )

ライセンス: Link先を確認
Le Xue, Mingfei Gao, Chen Xing, Roberto Mart\'in-Mart\'in, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese(参考訳) 現在の最先端の3dモデルの認識能力は、少数の注釈付きデータと予め定義されたカテゴリのデータセットによって制限されている。 最近の2Dの進歩は、言語などの他のモダリティからの知識を利用することで、同様の問題を著しく軽減できることを示している。 このことから、3Dモダリティにマルチモーダル情報を活用することで、制限されたデータ体制下での3D理解を改善することが期待できるが、この研究は十分に研究されていない。 そこで,3つのモードからオブジェクト三重項を事前学習することで,画像,テキスト,3次元点雲の統一表現を学習するためにULIPを導入する。 トレーニングトリプレットの不足を克服するために、ulipは、大量の画像テキストペアでトレーニングすることで、すでに共通の視覚空間とテキスト空間を学習した、事前訓練されたビジョン言語モデルを活用する。 そして、ULIPは、少数の自動合成三重項を用いて、共通画像テキスト空間と整合した3次元表現空間を学習する。 ULIPは3Dバックボーンネットワークとは無関係であり、どんな3Dアーキテクチャにも容易に統合できる。 実験により,本フレームワークを用いたShapeNet55の事前学習により,ModelNet40およびScanObjectNNの標準3D分類とゼロショット3D分類の両面での最先端性能を実現することにより,最近の複数の3Dバックボーンの性能を効果的に向上することが示された。 ULIPはまた、ScanObjectNNの3D分類ではポイントMLPを約3%改善し、ModelNet40のゼロショット3D分類ではトップ1の精度でポイントCLIPを28.8%上回っている。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/salesforce/ULIP.comでリリースされています。

The recognition capabilities of current state-of-the-art 3D models are limited by datasets with a small number of annotated data and a pre-defined set of categories. In its 2D counterpart, recent advances have shown that similar problems can be significantly alleviated by employing knowledge from other modalities, such as language. Inspired by this, leveraging multimodal information for 3D modality could be promising to improve 3D understanding under the restricted data regime, but this line of research is not well studied. Therefore, we introduce ULIP to learn a unified representation of image, text, and 3D point cloud by pre-training with object triplets from the three modalities. To overcome the shortage of training triplets, ULIP leverages a pre-trained vision-language model that has already learned a common visual and textual space by training with massive image-text pairs. Then, ULIP learns a 3D representation space aligned with the common image-text space, using a small number of automatically synthesized triplets. ULIP is agnostic to 3D backbone networks and can easily be integrated into any 3D architecture. Experiments show that ULIP effectively improves the performance of multiple recent 3D backbones by simply pre-training them on ShapeNet55 using our framework, achieving state-of-the-art performance in both standard 3D classification and zero-shot 3D classification on ModelNet40 and ScanObjectNN. ULIP also improves the performance of PointMLP by around 3% in 3D classification on ScanObjectNN, and outperforms PointCLIP by 28.8% on top-1 accuracy for zero-shot 3D classification on ModelNet40. Our code and pre-trained models are released at https://github.com/salesforce/ULIP.
翻訳日:2023-03-31 17:32:57 公開日:2023-03-30
# MSI:Few-Shotセグメンテーションのためのサポートセット情報の最大化

MSI: Maximize Support-Set Information for Few-Shot Segmentation ( http://arxiv.org/abs/2212.04673v2 )

ライセンス: Link先を確認
Seonghyeon Moon, Samuel S. Sohn, Honglu Zhou, Sejong Yoon, Vladimir Pavlovic, Muhammad Haris Khan, Mubbasir Kapadia(参考訳) FSS(Few-shot segmentation)は、少数のラベル付きイメージ(サポートセット)を使用してターゲットクラスをセグメントすることを目的としている。 ターゲットクラスに関連する情報を抽出するため、最善のfss手法における支配的アプローチは、サポートマスクを用いて背景特徴を除去する。 制限サポートマスクによるこの機能の除去は,fssの課題,例えば,小さなターゲットや不正確なターゲット境界などにおいて,情報のボトルネックをもたらす。 そこで本研究では,2つの補完的特徴源を利用して超相関マップを生成することで,支援集合情報を最大化する新しい手法(msi)を提案する。 提案手法の有効性を,最近の3つの強力なFSS手法に分類して検証する。 FSSベンチマークによる実験結果から,提案手法は目に見えるマージンによって連続的に性能を向上し,より高速な収束をもたらすことが示された。 私たちのコードとモデルは公開されます。

FSS(Few-shot segmentation) aims to segment a target class using a small number of labeled images (support set). To extract the information relevant to target class, a dominant approach in best performing FSS methods removes background features using a support mask. We observe that this feature excision through a limiting support mask introduces an information bottleneck in several challenging FSS cases, e.g., for small targets and/or inaccurate target boundaries. To this end, we present a novel method (MSI), which maximizes the support-set information by exploiting two complementary sources of features to generate super correlation maps. We validate the effectiveness of our approach by instantiating it into three recent and strong FSS methods. Experimental results on several publicly available FSS benchmarks show that our proposed method consistently improves the performance by visible margins and leads to faster convergence. Our code and models will be publicly released.
翻訳日:2023-03-31 17:32:25 公開日:2023-03-30
# LLM-Planner:大規模言語モデルを用いた身体的エージェントの接地計画

LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models ( http://arxiv.org/abs/2212.04088v3 )

ライセンス: Link先を確認
Chan Hee Song, Jiaman Wu, Clayton Washington, Brian M. Sadler, Wei-Lun Chao, Yu Su(参考訳) 本研究は,視覚的に知覚された環境下で複雑なタスクを完了させるために,自然言語命令に従うことができるエンボディエージェントのプランナーとして,大規模言語モデル(LLM)を使用することに焦点を当てる。 高いデータコストと既存の方法のサンプル効率の低さは、多くのタスクをこなすことができ、新しいタスクを素早く学習できる多用途エージェントの開発を妨げる。 本研究では,大規模言語モデルのパワーを活用し,エンボディエージェントの少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。 また,現在の環境に根ざした計画の生成と更新のために,物理接地によるLCMの簡易かつ効果的な拡張手法を提案する。 LLM-Plannerは、0.5%未満のペアトレーニングデータを使用しても、フルトレーニングデータを使用してトレーニングされた最近のベースラインと競合するパフォーマンスを実現しています。 既存のメソッドは、同じ数ショット設定で、どんなタスクでもほとんど完了できません。 我々の研究は、多くのタスクを素早く学習できる多目的でサンプル効率の良いエンボディエージェントを開発するための扉を開く。 ウェブサイト:https://dki-lab.github.io/LLM-Planner

This study focuses on using large language models (LLMs) as a planner for embodied agents that can follow natural language instructions to complete complex tasks in a visually-perceived environment. The high data cost and poor sample efficiency of existing methods hinders the development of versatile agents that are capable of many tasks and can learn new tasks quickly. In this work, we propose a novel method, LLM-Planner, that harnesses the power of large language models to do few-shot planning for embodied agents. We further propose a simple but effective way to enhance LLMs with physical grounding to generate and update plans that are grounded in the current environment. Experiments on the ALFRED dataset show that our method can achieve very competitive few-shot performance: Despite using less than 0.5% of paired training data, LLM-Planner achieves competitive performance with recent baselines that are trained using the full training data. Existing methods can barely complete any task successfully under the same few-shot setting. Our work opens the door for developing versatile and sample-efficient embodied agents that can quickly learn many tasks. Website: https://dki-lab.github.io/LLM-Planner
翻訳日:2023-03-31 17:32:07 公開日:2023-03-30
# グラフ階層による短時間・長期追跡の統一

Unifying Short and Long-Term Tracking with Graph Hierarchies ( http://arxiv.org/abs/2212.03038v2 )

ライセンス: Link先を確認
Orcun Cetintas, Guillem Bras\'o, Laura Leal-Taix\'e(参考訳) 長いビデオ上でオブジェクトを追跡することは、非閉塞オブジェクトの短期関連から、閉鎖されたオブジェクトの長期関連まで、さまざまな問題を解決することを意味する。 これらの2つのタスクに取り組むメソッドは、しばしば特定のシナリオのために結合せず、作成される。そして、トップパフォーマンスアプローチは、しばしばテクニックの混合であり、汎用性を欠いたエンジニアリングに富んだソリューションをもたらす。 本研究では,ハイブリッドアプローチの必要性に疑問を呈し,統一かつスケーラブルなマルチオブジェクトトラッカーであるSUSHIを導入する。 我々のアプローチは、長いクリップをサブクリップの階層に分割することで処理し、高いスケーラビリティを実現する。 私たちはグラフニューラルネットワークを利用して階層のすべてのレベルを処理します。 その結果,4つの多様なデータセット上での最先端技術に対する大幅な改善が得られた。 私たちのコードとモデルはbit.ly/sushi-motで利用可能です。

Tracking objects over long videos effectively means solving a spectrum of problems, from short-term association for un-occluded objects to long-term association for objects that are occluded and then reappear in the scene. Methods tackling these two tasks are often disjoint and crafted for specific scenarios, and top-performing approaches are often a mix of techniques, which yields engineering-heavy solutions that lack generality. In this work, we question the need for hybrid approaches and introduce SUSHI, a unified and scalable multi-object tracker. Our approach processes long clips by splitting them into a hierarchy of subclips, which enables high scalability. We leverage graph neural networks to process all levels of the hierarchy, which makes our model unified across temporal scales and highly general. As a result, we obtain significant improvements over state-of-the-art on four diverse datasets. Our code and models are available at bit.ly/sushi-mot.
翻訳日:2023-03-31 17:31:46 公開日:2023-03-30
# MHCCL:多変量時系列のための階層型クラスタワイズコントラスト学習

MHCCL: Masked Hierarchical Cluster-Wise Contrastive Learning for Multivariate Time Series ( http://arxiv.org/abs/2212.01141v4 )

ライセンス: Link先を確認
Qianwen Meng, Hangwei Qian, Yong Liu, Lizhen Cui, Yonghui Xu, Zhiqi Shen(参考訳) 未ラベルの時系列データから意味豊かな表現を学習することは、分類や予測といった下流のタスクに不可欠である。 対照的な学習は、最近、専門家のアノテーションがない場合に有望な表現学習能力を示している。 しかし、既存の対照的なアプローチは一般的に各インスタンスを独立に扱い、同じ意味論を共有する偽の負のペアを生み出す。 この問題に対処するために,多変量時系列の複数の潜在パーティションからなる階層構造から得られた意味情報を利用する,マスケッド階層クラスタ単位のコントラスト学習モデルであるMHCCLを提案する。 細粒度クラスタリングが高純度を維持しつつ、粗粒度が高レベルのセマンティクスを反映しているという観察に動機づけられ、クラスタリング階層から複数の粒度情報を取り入れることで偽陰性をフィルタリングし、正を補う新しい下方マスキング戦略を提案する。 加えて、mhcclで新しい上向きマスキング戦略が設計され、各パーティションのクラスタの異常を取り除き、プロトタイプを洗練し、階層的クラスタリングプロセスを高速化し、クラスタリング品質を向上させる。 広帯域多変量時系列データセットの実験的評価を行う。 その結果,教師なし時系列表現学習における最先端手法よりもmhcclが優れていることが示された。

Learning semantic-rich representations from raw unlabeled time series data is critical for downstream tasks such as classification and forecasting. Contrastive learning has recently shown its promising representation learning capability in the absence of expert annotations. However, existing contrastive approaches generally treat each instance independently, which leads to false negative pairs that share the same semantics. To tackle this problem, we propose MHCCL, a Masked Hierarchical Cluster-wise Contrastive Learning model, which exploits semantic information obtained from the hierarchical structure consisting of multiple latent partitions for multivariate time series. Motivated by the observation that fine-grained clustering preserves higher purity while coarse-grained one reflects higher-level semantics, we propose a novel downward masking strategy to filter out fake negatives and supplement positives by incorporating the multi-granularity information from the clustering hierarchy. In addition, a novel upward masking strategy is designed in MHCCL to remove outliers of clusters at each partition to refine prototypes, which helps speed up the hierarchical clustering process and improves the clustering quality. We conduct experimental evaluations on seven widely-used multivariate time series datasets. The results demonstrate the superiority of MHCCL over the state-of-the-art approaches for unsupervised time series representation learning.
翻訳日:2023-03-31 17:31:30 公開日:2023-03-30
# マルチサンプルハイパーネットによるParetoフロントエンド学習の改善

Improving Pareto Front Learning via Multi-Sample Hypernetworks ( http://arxiv.org/abs/2212.01130v5 )

ライセンス: Link先を確認
Long P. Hoang, Dung D. Le, Tran Anh Tuan, Tran Ngoc Thang(参考訳) パレートフロントラーニング(PFL)は、最近、与えられたトレードオフベクトルからパレートフロントの解へのマッピング関数を得るための効果的なアプローチとして導入され、多目的最適化(MOO)問題を解く。 対立する目標間の固有のトレードオフのため、pflは多くのシナリオにおいて柔軟なアプローチを提供しており、意思決定者は1つのparetoソリューションの好みを別々に指定できず、状況に応じてそれらを切り替えなければならない。 しかし、既存のPFL法は最適化過程における解間の関係を無視し、得られたフロントの品質を損なう。 この問題を克服するために,PFL フレームワーク PHN-HVI を提案する。このフレームワークはハイパーネットワークを用いて,多様なトレードオフ選択から複数のソリューションを生成し,これらのソリューションによって定義されたハイパーボリューム指標を最大化することによりパレートフロントの品質を向上させる。 複数のMOO機械学習タスクの実験結果から,提案手法がParetoフロントのトレードオフ生成におけるベースラインを大幅に上回っていることが示された。

Pareto Front Learning (PFL) was recently introduced as an effective approach to obtain a mapping function from a given trade-off vector to a solution on the Pareto front, which solves the multi-objective optimization (MOO) problem. Due to the inherent trade-off between conflicting objectives, PFL offers a flexible approach in many scenarios in which the decision makers can not specify the preference of one Pareto solution over another, and must switch between them depending on the situation. However, existing PFL methods ignore the relationship between the solutions during the optimization process, which hinders the quality of the obtained front. To overcome this issue, we propose a novel PFL framework namely PHN-HVI, which employs a hypernetwork to generate multiple solutions from a set of diverse trade-off preferences and enhance the quality of the Pareto front by maximizing the Hypervolume indicator defined by these solutions. The experimental results on several MOO machine learning tasks show that the proposed framework significantly outperforms the baselines in producing the trade-off Pareto front.
翻訳日:2023-03-31 17:31:06 公開日:2023-03-30
# マスキングによる言語画像事前学習のスケーリング

Scaling Language-Image Pre-training via Masking ( http://arxiv.org/abs/2212.00794v2 )

ライセンス: Link先を確認
Yanghao Li, Haoqi Fan, Ronghang Hu, Christoph Feichtenhofer, Kaiming He(参考訳) CLIPの簡易かつ効率的な訓練法であるFLIP(Fast Language- Image Pre-training)を提案する。 本手法は,トレーニング中の画像パッチの大部分をランダムにマスクアウトし,除去する。 マスキングによって、同じウォールクロック時間でより多くの画像テキストペアから学ぶことができ、同じメモリフットプリントで、イテレーション毎により多くのサンプルをコントラストできる。 正確さとトレーニング時間の間の良好なトレードオフにつながります。 4億の画像テキストペアに対する実験では、FLIPは非マスキングベースラインよりも精度と速度を向上する。 下流タスクの多様さにおいて、FLIPは同じデータでトレーニングされたCLIPタスクよりも圧倒的に優れています。 スピードアップに特化して、モデルサイズ、データサイズ、トレーニング長の増大によるスケーリングの挙動を調査し、奨励的な結果と比較を報告する。 私たちの研究が視覚言語学習のスケーリングに関する将来の研究を促進することを期待しています。

We present Fast Language-Image Pre-training (FLIP), a simple and more efficient method for training CLIP. Our method randomly masks out and removes a large portion of image patches during training. Masking allows us to learn from more image-text pairs given the same wall-clock time and contrast more samples per iteration with similar memory footprint. It leads to a favorable trade-off between accuracy and training time. In our experiments on 400 million image-text pairs, FLIP improves both accuracy and speed over the no-masking baseline. On a large diversity of downstream tasks, FLIP dominantly outperforms the CLIP counterparts trained on the same data. Facilitated by the speedup, we explore the scaling behavior of increasing the model size, data size, or training length, and report encouraging results and comparisons. We hope that our work will foster future research on scaling vision-language learning.
翻訳日:2023-03-31 17:30:46 公開日:2023-03-30
# FENDI: 量子インターネットにおける高密度エンタングルメント分布

FENDI: High-Fidelity Entanglement Distribution in the Quantum Internet ( http://arxiv.org/abs/2301.08269v2 )

ライセンス: Link先を確認
Huayue Gu, Zhouyu Li, Ruozhou Yu, Xiaojian Wang, Fangtong Zhou, Jianqing Liu(参考訳) 量子ネットワークは、多くの量子アプリケーションにおいて鍵となるリモートノード間の量子絡み合いを分散する。 しかし、量子演算における避けられないノイズは、低スループットと低エンタングルメント分布の両方をもたらす可能性がある。 本稿では,バッファリングマルチホップ量子ネットワークにおけるスループットと品質の指数関数的劣化に対処することを目的とする。 最短ケース(等方性)ノイズを持つエンドツーエンドの忠実度モデルに基づいて、単一音源対に対する高忠実度リモート絡み合い分布問題を定式化し、そのNP硬度を証明する。 この問題に対処するために,量子ネットワークの制御平面に対する完全多項式時間近似スキームと,制御平面出力に基づいて所望の長期スループットと最悪のケース忠実性を達成する分散データプレーンプロトコルを開発した。 アルゴリズムとプロトコルを評価するため,離散時間量子ネットワークシミュレータを開発した。 シミュレーションの結果,既存の忠実度非依存および忠実度対応ソリューションと比較して,提案手法の優れた性能を示す。

A quantum network distributes quantum entanglements between remote nodes, which is key to many quantum applications. However, unavoidable noise in quantum operations could lead to both low throughput and low quality of entanglement distribution. This paper aims to address the simultaneous exponential degradation in throughput and quality in a buffered multi-hop quantum network. Based on an end-to-end fidelity model with worst-case (isotropic) noise, we formulate the high-fidelity remote entanglement distribution problem for a single source-destination pair, and prove its NP-hardness. To address the problem, we develop a fully polynomial-time approximation scheme for the control plane of the quantum network, and a distributed data plane protocol that achieves the desired long-term throughput and worst-case fidelity based on control plane outputs. To evaluate our algorithm and protocol, we develop a discrete-time quantum network simulator. Simulation results show the superior performance of our approach compared to existing fidelity-agnostic and fidelity-aware solutions.
翻訳日:2023-03-31 17:25:02 公開日:2023-03-30
# 深度画像から変形を推定するソフトマテリアルのコマニピュレーション

Co-manipulation of soft-materials estimating deformation from depth images ( http://arxiv.org/abs/2301.05609v3 )

ライセンス: Link先を確認
Giorgio Nicola, Enrico Villagrossi, Nicola Pedrocchi(参考訳) 布、複合材料、紙/ボール紙などの柔らかい材料を人ロボットで共同操作することは、いくつかの産業応用を提示する困難な作業である。 コマニピュレーションされた材料の変形状態を推定することが主な課題である。 人間のロボットの相対距離を計算して間接測度を提供する。 本稿では,畳み込みニューラルネットワーク(CNN)を用いて,深度画像から素材の変形状態を推定するデータ駆動モデルを開発する。 まず,素材の変形状態を,現在のロボットポーズと人間のつかみ位置との相対的なロト変換として定義する。 モデルは、畳み込みニューラルネットワーク、特にImageNetで事前訓練されたDenseNet-121を介して、電流と所望の変形状態の間のデルタをロボットコントローラに供給し、ツイストコマンドを出力する。 本稿では,データセットの取得,事前処理,モデルのトレーニングのために開発された手法について述べる。 このモデルは、カメラからの骨格トラッカーに基づく最先端の手法と比較される。 結果から,本手法は,骨格トラッカーによる性能向上と種々の欠点を回避し,データセット取得に必要な時間を最小限に抑えるため,異なるアーキテクチャやデータセット次元によるモデル性能についても検討した。

Human-robot co-manipulation of soft materials, such as fabrics, composites, and sheets of paper/cardboard, is a challenging operation that presents several relevant industrial applications. Estimating the deformation state of the co-manipulated material is one of the main challenges. Viable methods provide the indirect measure by calculating the human-robot relative distance. In this paper, we develop a data-driven model to estimate the deformation state of the material from a depth image through a Convolutional Neural Network (CNN). First, we define the deformation state of the material as the relative roto-translation from the current robot pose and a human grasping position. The model estimates the current deformation state through a Convolutional Neural Network, specifically a DenseNet-121 pretrained on ImageNet.The delta between the current and the desired deformation state is fed to the robot controller that outputs twist commands. The paper describes the developed approach to acquire, preprocess the dataset and train the model. The model is compared with the current state-of-the-art method based on a skeletal tracker from cameras. Results show that our approach achieves better performances and avoids the various drawbacks caused by using a skeletal tracker.Finally, we also studied the model performance according to different architectures and dataset dimensions to minimize the time required for dataset acquisition
翻訳日:2023-03-31 17:23:51 公開日:2023-03-30
# Frank-Wolfe 最適化による効率的なオンライン学習:動的レギュレット境界付きアルゴリズムと制御への応用

Efficient Online Learning with Memory via Frank-Wolfe Optimization: Algorithms with Bounded Dynamic Regret and Applications to Control ( http://arxiv.org/abs/2301.00497v2 )

ライセンス: Link先を確認
Hongyu Zhou, Zirui Xu, Vasileios Tzoumas(参考訳) 投影操作はオンライン学習における典型的な計算ボトルネックである。 本稿では,OCO-M(Online Convex Optimization with Memory)のフレームワーク内でのプロジェクションフリーなオンライン学習を可能にする。OCO-Mは,オンライン学習損失関数が現在および過去の意思決定に依存することを許すことで,意思決定履歴が現在の結果にどのように影響するかをキャプチャする。 特に,動的後悔を最小化するメモリを持つ最初のプロジェクションフリーメタベース学習アルゴリズムを導入する。 私たちは、自律エージェントがリアルタイムに時間変動環境に適応する必要がある人工知能アプリケーションによって動機付けられています。 そのような応用例としては、動的システムのオンライン制御、統計仲裁、時系列予測などがある。 このアルゴリズムは、Online Frank-Wolfe(OFW)とHedgeアルゴリズムに基づいている。 本稿では,予測不能なプロセスノイズの存在下で,線形時間変化システムのオンライン制御にアルゴリズムを適用する方法を示す。 この目的のために、最適な時間変化線形フィードバック制御ポリシーに対してメモリと動的後悔を限定した最初のコントローラを開発する。 線形時間不変システムのオンライン制御をシミュレートしたシナリオでアルゴリズムを検証する。

Projection operations are a typical computation bottleneck in online learning. In this paper, we enable projection-free online learning within the framework of Online Convex Optimization with Memory (OCO-M) -- OCO-M captures how the history of decisions affects the current outcome by allowing the online learning loss functions to depend on both current and past decisions. Particularly, we introduce the first projection-free meta-base learning algorithm with memory that minimizes dynamic regret, i.e., that minimizes the suboptimality against any sequence of time-varying decisions. We are motivated by artificial intelligence applications where autonomous agents need to adapt to time-varying environments in real-time, accounting for how past decisions affect the present. Examples of such applications are: online control of dynamical systems; statistical arbitrage; and time series prediction. The algorithm builds on the Online Frank-Wolfe (OFW) and Hedge algorithms. We demonstrate how our algorithm can be applied to the online control of linear time-varying systems in the presence of unpredictable process noise. To this end, we develop the first controller with memory and bounded dynamic regret against any optimal time-varying linear feedback control policy. We validate our algorithm in simulated scenarios of online control of linear time-invariant systems.
翻訳日:2023-03-31 17:23:12 公開日:2023-03-30
# 条件付き発電機によるマルチリアリズム画像圧縮

Multi-Realism Image Compression with a Conditional Generator ( http://arxiv.org/abs/2212.13824v2 )

ライセンス: Link先を確認
Eirikur Agustsson, David Minnen, George Toderici, Fabian Mentzer(参考訳) レート歪み-リアリズムトレードオフを最適化することにより、生成圧縮アプローチは、レート歪み最適化モデルによって生成されたぼやけた再構成ではなく、低ビットレートでも詳細で現実的な画像を生成する。 しかし, 従来の手法では, どれだけの細部が合成されるかは明確に制御されておらず, 利用者は入力画像から遠く離れた誤解を招く再構成が生成されることを心配している。 本研究では,2つの体制を橋渡しし,歪みリアリズムのトレードオフをナビゲートするデコーダを訓練することで,これらの懸念を軽減する。 単一の圧縮された表現から、受信側は入力に近い低い平均2乗誤差再構成、高い知覚的品質の現実的再構成、あるいはその中間のあらゆるものを再構築することができる。 提案手法では,変形実数論における新たな最先端の設定を行い,実現可能な歪み実数対のフロンティア,すなわち高実数論におけるより優れた歪みと低歪み下でのより良い実数論を実現する。

By optimizing the rate-distortion-realism trade-off, generative compression approaches produce detailed, realistic images, even at low bit rates, instead of the blurry reconstructions produced by rate-distortion optimized models. However, previous methods do not explicitly control how much detail is synthesized, which results in a common criticism of these methods: users might be worried that a misleading reconstruction far from the input image is generated. In this work, we alleviate these concerns by training a decoder that can bridge the two regimes and navigate the distortion-realism trade-off. From a single compressed representation, the receiver can decide to either reconstruct a low mean squared error reconstruction that is close to the input, a realistic reconstruction with high perceptual quality, or anything in between. With our method, we set a new state-of-the-art in distortion-realism, pushing the frontier of achievable distortion-realism pairs, i.e., our method achieves better distortions at high realism and better realism at low distortion than ever before.
翻訳日:2023-03-31 17:22:51 公開日:2023-03-30
# TempCLR: コントラスト学習による時間的アライメント表現

TempCLR: Temporal Alignment Representation with Contrastive Learning ( http://arxiv.org/abs/2212.13738v2 )

ライセンス: Link先を確認
Yuncong Yang, Jiawei Ma, Shiyuan Huang, Long Chen, Xudong Lin, Guangxing Han, Shih-Fu Chang(参考訳) ビデオ表現学習はゼロショット転送のためのビデオテキスト事前学習に成功しており、各文は共通の特徴空間でペアビデオクリップに近いように訓練されている。 長いビデオでは、文章がビデオの異なるセグメントを記述した段落が与えられ、全ての文とクリップのペアをマッチングすることで、段落と全動画が暗黙的に並べられる。 しかし、このような単位レベルの比較は、大域的時間的文脈を無視し、必然的に一般化能力を制限する。 本稿では,ビデオの全文と段落を明示的に比較するコントラスト学習フレームワークであるTempCLRを提案する。 ビデオ/パラグラフはクリップ/文のシーケンスとして定式化され、時間的順序の制約の下で、動的時間ワープを用いて、文-クリップペアの最小累積コストをシーケンスレベル距離として計算する。 時間的ダイナミクスを探索するために、時間的微粒度をビデオクリップにシャッフルすることで、時間的継承の一貫性を破る。 そして、時間的情報を認識し、シーケンスアライメントを容易にするクリップ/文の表現を得る。 ビデオとパラグラフの事前トレーニングに加えて、ビデオインスタンス間のマッチングを一般化することも可能です。 我々は,ビデオ検索,アクションステップのローカライゼーション,数発のアクション認識に対するアプローチを評価し,3つのタスクすべてに対して一貫したパフォーマンス向上を実現する。 アプローチ設計を正当化するための詳細なアブレーション研究が提供されている。

Video representation learning has been successful in video-text pre-training for zero-shot transfer, where each sentence is trained to be close to the paired video clips in a common feature space. For long videos, given a paragraph of description where the sentences describe different segments of the video, by matching all sentence-clip pairs, the paragraph and the full video are aligned implicitly. However, such unit-level comparison may ignore global temporal context, which inevitably limits the generalization ability. In this paper, we propose a contrastive learning framework TempCLR to compare the full video and the paragraph explicitly. As the video/paragraph is formulated as a sequence of clips/sentences, under the constraint of their temporal order, we use dynamic time warping to compute the minimum cumulative cost over sentence-clip pairs as the sequence-level distance. To explore the temporal dynamics, we break the consistency of temporal succession by shuffling video clips w.r.t. temporal granularity. Then, we obtain the representations for clips/sentences, which perceive the temporal information and thus facilitate the sequence alignment. In addition to pre-training on the video and paragraph, our approach can also generalize on the matching between video instances. We evaluate our approach on video retrieval, action step localization, and few-shot action recognition, and achieve consistent performance gain over all three tasks. Detailed ablation studies are provided to justify the approach design.
翻訳日:2023-03-31 17:22:30 公開日:2023-03-30
# 時間系の絡み合いと特殊相対性

Time-System Entanglement and Special Relativity ( http://arxiv.org/abs/2212.13348v2 )

ライセンス: Link先を確認
Ngo Phuc Duc Loc(参考訳) 空間と時間は古典物理学ではほぼ等しく扱われるが、量子力学ではそうではないことも分かっている。 空間と時間の両方の量子記述は、現実の量子性を理解する上で重要である。 量子時間のページ・ウーター機構は、量子系の進化と量子時間自由度の間の絡み合いによって記述される、有望な出発点である。 本稿では,ローレンツ変換によって誘起されるウィグナー回転により量子系と絡み合う量子ビット時計を考える。 この時間系の絡み合いがローレンツ加速の速さに依存するかを研究する。 実例として、ガウス運動量分布を持つスピン-1/2粒子の場合を考える。 また、時間系の絡み合いエントロピーとスピン運動量絡みエントロピーを比較し、前者が後者より小さいことを発見した。

We know that space and time are treated almost equally in classical physics, but we also know that this is not the case for quantum mechanics. A quantum description of both space and time is important to really understand the quantum nature of reality. The Page-Wootters mechanism of quantum time is a promising starting point, according to which the evolution of the quantum system is described by the entanglement between it and quantum temporal degrees of freedom. In this paper, we consider a qubit clock that is entangled with a quantum system due to the Wigner rotation induced by Lorentz transformation. We study how this time-system entanglement depends on the rapidity of the Lorentz boost. We consider the case of a spin-1/2 particle with Gaussian momentum distribution as a concrete example. We also compare the time-system entanglement entropy with the spin-momentum entanglement entropy and find that the former is smaller than the latter.
翻訳日:2023-03-31 17:22:04 公開日:2023-03-30
# マルチレーン検出

Multi Lane Detection ( http://arxiv.org/abs/2212.11533v3 )

ライセンス: Link先を確認
Fei Wu and Luoyu Chen(参考訳) 車線検出は長年の課題であり、自動運転の基本モジュールである。 課題は、現在の運転道路の車線を検知し、ID、方向、曲率、幅、長さなどの関連情報と視覚化を提供することである。 我々の研究は、CNNのバックボーンDLA-34とアフィニティ・フィールズ(Affinity Fields)をベースとし、車線数を仮定することなく、様々な車線を頑健に検出することを目的としている。 さらに,より効率的な車線検出アルゴリズムを実現するための新しい復号法について検討する。

Lane detection is a long-standing task and a basic module in autonomous driving. The task is to detect the lane of the current driving road, and provide relevant information such as the ID, direction, curvature, width, length, with visualization. Our work is based on CNN backbone DLA-34, along with Affinity Fields, aims to achieve robust detection of various lanes without assuming the number of lanes. Besides, we investigate novel decoding methods to achieve more efficient lane detection algorithm.
翻訳日:2023-03-31 17:21:48 公開日:2023-03-30
# 事前学習基礎モデルに関する総合的調査:BERTからChatGPTへ

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT ( http://arxiv.org/abs/2302.09419v2 )

ライセンス: Link先を確認
Ce Zhou (1), Qian Li (2), Chen Li (2), Jun Yu (3), Yixin Liu (3), Guangjing Wang (1), Kai Zhang (3), Cheng Ji (2), Qiben Yan (1), Lifang He (3), Hao Peng (2), Jianxin Li (2), Jia Wu (4), Ziwei Liu (5), Pengtao Xie (6), Caiming Xiong (7), Jian Pei (8), Philip S. Yu (9), Lichao Sun (3) ((1) Michigan State University, (2) Beihang University, (3) Lehigh University, (4) Macquarie University, (5) Nanyang Technological University, (6) University of California San Diego, (7) Salesforce AI Research, (8) Duke University, (9) University of Illinois at Chicago)(参考訳) 事前訓練された基礎モデル(PFM)は、異なるデータモダリティを持つ様々な下流タスクの基礎と見なされている。 PFM(BERT、ChatGPT、GPT-4)は、広範囲の下流アプリケーションに対して合理的なパラメータ初期化を提供する大規模データに基づいて訓練される。 BERTはTransformerから双方向エンコーダ表現を学び、大きなデータセットをコンテキスト言語モデルとしてトレーニングする。 同様に、ジェネラティブプリトレーニングトランス(gpt)法は、特徴抽出器としてトランスを使用し、大規模データセットの自己回帰パラダイムを用いて訓練される。 最近、ChatGPTは大きな言語モデルで有望な成功を見せている。 PFMの顕著な成果は、AIのさまざまな分野に大きなブレークスルーをもたらした。 多くの研究が異なる方法を提案し、最新の調査の需要を高めている。 本研究は, テキスト, 画像, グラフ, その他のデータモダリティにおける PFM の最近の進歩, 課題, 機会を概観するものである。 このレビューでは、自然言語処理、コンピュータビジョン、グラフ学習で使用される基本的なコンポーネントと既存の事前学習方法を取り上げている。 さらに、異なるデータモダリティに使用される高度なPFMと、データ品質と量を考慮した統一されたPFMについても検討している。 レビューでは、モデル効率や圧縮、セキュリティ、プライバシといった、PFMの基礎に関する研究についても論じている。 最後に、この研究は、PFMの分野における重要な意味、今後の研究の方向性、課題、オープンな問題を提供する。 全体として、この調査は、スケーラビリティ、セキュリティ、論理的推論能力、クロスドメイン学習能力、および人工知能のユーザフレンドリーなインタラクティブ能力に関するpfmsの研究に光を当てることを目的としている。

Pretrained Foundation Models (PFMs) are regarded as the foundation for various downstream tasks with different data modalities. A PFM (e.g., BERT, ChatGPT, and GPT-4) is trained on large-scale data which provides a reasonable parameter initialization for a wide range of downstream applications. BERT learns bidirectional encoder representations from Transformers, which are trained on large datasets as contextual language models. Similarly, the generative pretrained transformer (GPT) method employs Transformers as the feature extractor and is trained using an autoregressive paradigm on large datasets. Recently, ChatGPT shows promising success on large language models, which applies an autoregressive language model with zero shot or few shot prompting. The remarkable achievements of PFM have brought significant breakthroughs to various fields of AI. Numerous studies have proposed different methods, raising the demand for an updated survey. This study provides a comprehensive review of recent research advancements, challenges, and opportunities for PFMs in text, image, graph, as well as other data modalities. The review covers the basic components and existing pretraining methods used in natural language processing, computer vision, and graph learning. Additionally, it explores advanced PFMs used for different data modalities and unified PFMs that consider data quality and quantity. The review also discusses research related to the fundamentals of PFMs, such as model efficiency and compression, security, and privacy. Finally, the study provides key implications, future research directions, challenges, and open problems in the field of PFMs. Overall, this survey aims to shed light on the research of the PFMs on scalability, security, logical reasoning ability, cross-domain learning ability, and the user-friendly interactive ability for artificial general intelligence.
翻訳日:2023-03-31 17:15:58 公開日:2023-03-30
# autofed:ロバストな自動運転のためのヘテロゲニティアウェアフェデレーション型マルチモーダル学習

AutoFed: Heterogeneity-Aware Federated Multimodal Learning for Robust Autonomous Driving ( http://arxiv.org/abs/2302.08646v3 )

ライセンス: Link先を確認
Tianyue Zheng, Ang Li, Zhe Chen, Hongbo Wang, and Jun Luo(参考訳) 搭載されたセンサー(ライダー、レーダー、カメラなど)による物体検出は、自律走行(AD)において重要な役割を果たす。 クラウドセンシングは、これらのセンサー(膨大な量の)を利用してより包括的な知識を導出する可能性があるが、この可能性に到達するために必要なツールとして、 \textit{federated learning} (fl) がある。 しかし、マルチモーダルセンサは分散avにまたがる様々なデータ不均一性(ラベル量スキューや様々なモダリティなど)を導入し、効果的なflにとって重要な課題となっている。 そこで我々はAutoFedを異機種対応FLフレームワークとして,AV上のマルチモーダルセンサデータをフル活用し,ロバストADを実現する。 具体的には,非ラベルオブジェクトを背景として誤って扱うことを避けるために,擬似ラベルを用いた新しいモデルを提案する。 また,avsの欠落したデータモダリティを利用可能なデータに埋め込む自動エンコーダベースのデータインプテーション手法を提案する。 この不均一性をさらに改善するために,クライアントモデル間の類似性を利用して,トレーニング安定性と収束率の両方を改善するクライアント選択機構を提案する。 ベンチマークデータを用いた実験により,AutoFedは精度とリコールの両面で現状クオアプローチを大幅に改善し,悪天候条件に対する強い堅牢性を示した。

Object detection with on-board sensors (e.g., lidar, radar, and camera) play a crucial role in autonomous driving (AD), and these sensors complement each other in modalities. While crowdsensing may potentially exploit these sensors (of huge quantity) to derive more comprehensive knowledge, \textit{federated learning} (FL) appears to be the necessary tool to reach this potential: it enables autonomous vehicles (AVs) to train machine learning models without explicitly sharing raw sensory data. However, the multimodal sensors introduce various data heterogeneity across distributed AVs (e.g., label quantity skews and varied modalities), posing critical challenges to effective FL. To this end, we present AutoFed as a heterogeneity-aware FL framework to fully exploit multimodal sensory data on AVs and thus enable robust AD. Specifically, we first propose a novel model leveraging pseudo-labeling to avoid mistakenly treating unlabeled objects as the background. We also propose an autoencoder-based data imputation method to fill missing data modality (of certain AVs) with the available ones. To further reconcile the heterogeneity, we finally present a client selection mechanism exploiting the similarities among client models to improve both training stability and convergence rate. Our experiments on benchmark dataset confirm that AutoFed substantially improves over status quo approaches in both precision and recall, while demonstrating strong robustness to adverse weather conditions.
翻訳日:2023-03-31 17:15:28 公開日:2023-03-30
# 投影潜在空間におけるビデオ確率拡散モデル

Video Probabilistic Diffusion Models in Projected Latent Space ( http://arxiv.org/abs/2302.07685v2 )

ライセンス: Link先を確認
Sihyun Yu, Kihyuk Sohn, Subin Kim, Jinwoo Shin(参考訳) 深部生成モデルの顕著な進歩にもかかわらず、高解像度かつ時間的コヒーレントなビデオの合成は、その高次元性と複雑な時間的ダイナミクスと大きな空間的変動により依然として課題である。 拡散モデルに関する最近の研究は、この課題を解決する可能性を示しているが、スケーラビリティを制限する厳密な計算とメモリ効率に悩まされている。 そこで本研究では,低次元潜時空間における映像分布を学習し,限られた資源で高分解能映像を効率的に訓練できる確率的拡散モデルであるpvdm(projected latent video diffusion model)を提案する。 具体的にはPVDMは2つのコンポーネントから構成される。 (a)ビデオ画素の複雑な立方体構造を分解する2D字型潜在ベクトルとして映像を投影するオートエンコーダ b)新しい因子化潜在空間と任意の長さの映像を単一のモデルで合成する訓練/サンプリング手順に特化した拡散モデルアーキテクチャ。 例えば、PVDMはUCF-101長ビデオ(128フレーム)生成ベンチマークでFVDスコア639.7を取得し、従来の最先端の1773.4を改善している。

Despite the remarkable progress in deep generative models, synthesizing high-resolution and temporally coherent videos still remains a challenge due to their high-dimensionality and complex temporal dynamics along with large spatial variations. Recent works on diffusion models have shown their potential to solve this challenge, yet they suffer from severe computation- and memory-inefficiency that limit the scalability. To handle this issue, we propose a novel generative model for videos, coined projected latent video diffusion models (PVDM), a probabilistic diffusion model which learns a video distribution in a low-dimensional latent space and thus can be efficiently trained with high-resolution videos under limited resources. Specifically, PVDM is composed of two components: (a) an autoencoder that projects a given video as 2D-shaped latent vectors that factorize the complex cubic structure of video pixels and (b) a diffusion model architecture specialized for our new factorized latent space and the training/sampling procedure to synthesize videos of arbitrary length with a single model. Experiments on popular video generation datasets demonstrate the superiority of PVDM compared with previous video synthesis methods; e.g., PVDM obtains the FVD score of 639.7 on the UCF-101 long video (128 frames) generation benchmark, which improves 1773.4 of the prior state-of-the-art.
翻訳日:2023-03-31 17:15:01 公開日:2023-03-30
# 状態空間ガウス過程を用いた太陽エネルギーの短期予測とフィルタリング

Short-term Prediction and Filtering of Solar Power Using State-Space Gaussian Processes ( http://arxiv.org/abs/2302.00388v2 )

ライセンス: Link先を確認
Sean Nassimiha, Peter Dudfield, Jack Kelly, Marc Peter Deisenroth, So Takao(参考訳) 太陽光発電エネルギー(pv)生産の短期予測は発電所管理に重要である。 理想的には、これらの予測はエラーバーを備えており、下流の決定が不確実性を説明することができる。 この設定でエラーバーによる予測を生成するために、イギリスにおける太陽熱発電のモデル化と予測のためのガウス過程(GP)を検討する。 PVの時系列データに対するGP回帰の標準的な適用は、PVの読み出しの大きなデータサイズと非ガウス性のために実現不可能である。 しかし、これは最近のスケーラブルなGP推論の進歩、特に現代の変分推論技術と組み合わせたGPの状態空間形式を利用することによって実現されている。 結果として得られるモデルは、大規模なデータセットにスケーラブルであるだけでなく、Kalmanフィルタによる継続的データストリームも処理できる。

Short-term forecasting of solar photovoltaic energy (PV) production is important for powerplant management. Ideally these forecasts are equipped with error bars, so that downstream decisions can account for uncertainty. To produce predictions with error bars in this setting, we consider Gaussian processes (GPs) for modelling and predicting solar photovoltaic energy production in the UK. A standard application of GP regression on the PV timeseries data is infeasible due to the large data size and non-Gaussianity of PV readings. However, this is made possible by leveraging recent advances in scalable GP inference, in particular, by using the state-space form of GPs, combined with modern variational inference techniques. The resulting model is not only scalable to large datasets but can also handle continuous data streams via Kalman filtering.
翻訳日:2023-03-31 17:13:46 公開日:2023-03-30
# 脳の力学の量子古典モデル

A Quantum-Classical Model of Brain Dynamics ( http://arxiv.org/abs/2301.09569v4 )

ライセンス: Link先を確認
Alessandro Sergi, Antonino Messina, Carmelo M. Vicario, Gabriella Martino(参考訳) 人間の精神の研究は、脳の活動によって支配される知識と学習を生成するプロセスの量子古典的性質を反映した認知の2部構造を解明した。 モデル化におけるそのような発見の重要性を認識し,混合ワイル記号の量子古典力学を用いて脳を研究するアプローチを仮定する。 混合ワイル記号(Mixed Weyl symbol)は、脳の過程を顕微鏡レベルで記述するために用いられ、メソスコピックスケールでの計測結果のリンクを提供する。 このアプローチでは、量子変数(例えば、原子核スピンや電子スピン、粒子や分子の双極子モーメント、トンネル自由度など)はスピノルで表されるが、この過程に関わる電磁場やフォノンモードは、量子零点揺らぎも考慮して古典的または半古典的に扱われる。 ゼロ点量子効果は、専用Nos\`e-Hooverチェーンサーモスタットへの結合を通じて各フィールドモードの温度を制御することで数値シミュレーションに組み込むことができる。 各サーモスタットの温度は、正準アンサンブルで量子統計を再現するために選択される。 本稿では,脳力学の量子古典モデルを紹介し,その数学的構造を明らかにし,その予測値に議論を集中させる。 本論文では,今後の研究のために残されたモデルの解析結果について報告する。 我々の治療には、電磁場理論、オーケストレーションされた目的還元理論、脳の散逸的量子モデルという3つのよく知られた脳力学への量子的アプローチの互換性と、脳活動における量子古典的プロセスの存在を維持する説得力のある議論のヒントが含まれている。 3つのモデルがレビューされている。

The study of the human psyche has elucidated a bipartite structure of cognition reflecting the quantum-classical nature of any process that generates knowledge and learning governed by brain activity. Acknowledging the importance of such a finding for modelization, we posit an approach to study brain by means of the quantum-classical dynamics of a Mixed Weyl symbol. The Mixed Weyl symbol is used to describe brain processes at the microscopic level and provides a link to the results of measurements made at the mesoscopic scale. Within this approach, quantum variables (such as,for example, nuclear and electron spins, dipole momenta of particles or molecules, tunneling degrees of freedom, etc may be represented by spinors while the electromagnetic fields and phonon modes involved in the processes are treated either classically or semi-classically, by also considering quantum zero-point fluctuations. Zero-point quantum effects can be incorporated into numerical simulations by controlling the temperature of each field mode via coupling to a dedicated Nos\`e-Hoover chain thermostat. The temperature of each thermostat is chosen in order to reproduce quantum statistics in the canonical ensemble. In this first paper, we introduce a quantum-classical model of brain dynamics, clarifying its mathematical strucure and focusing the discussion on its predictive value. Analytical consequences of the model are not reported in this paper, since they are left for future work. Our treatment incorporates compatible features of three well-known quantum approaches to brain dynamics - namely the electromagnetic field theory approach, the orchestrated objective reduction theory, and the dissipative quantum model of the brain - and hints at convincing arguments that sustain the existence of quantum-classical processes in the brain activity. All three models are reviewed.
翻訳日:2023-03-31 17:12:41 公開日:2023-03-30
# FlatFormer: 効率的なポイントクラウドトランスのためのフラットなウィンドウアテンション

FlatFormer: Flattened Window Attention for Efficient Point Cloud Transformer ( http://arxiv.org/abs/2301.08739v2 )

ライセンス: Link先を確認
Zhijian Liu, Xinyu Yang, Haotian Tang, Shang Yang, Song Han(参考訳) cnnの代替としてtransformerは、多くのモダリティ(テキストや画像など)において有効であることが証明されている。 3dポイントクラウドトランスフォーマーでは、既存の取り組みは主に精度を最先端レベルに引き上げることに集中している。 しかし、彼らのレイテンシはスパース畳み込みベースのモデル(3倍遅い)に遅れており、リソース制約のあるレイテンシに敏感なアプリケーション(自動運転など)での使用を妨げる。 この非効率性は点雲のスパースと不規則な性質に由来するが、トランスフォーマーは密度の高い通常のワークロード用に設計されている。 本稿では,空間的近接を交換することで,このレイテンシギャップを閉じるフラットフォームを提案する。 まず、ウィンドウベースのソートと分割ポイントで点雲を平らにし、同じ形状のウィンドウではなく、同じサイズのグループに分割する。 これにより、コストのかかる構造やパッドのオーバーヘッドを効果的に回避できる。 次に、グループ内でセルフアテンションを適用して、ローカルな特徴を抽出し、異なる方向から機能を集め、ウィンドウをグループ間で機能交換にシフトします。 FlatFormerはWaymo Open Dataset上で4.6倍のスピードアップ(トランスフォーマーベース)SST、1.4倍のスピードアップ(小さな畳み込み)CenterPointを提供する。 これは、エッジgpuでリアルタイムパフォーマンスを実現する最初のポイントクラウドトランスフォーマーであり、大規模なベンチマークでほぼあるいはそれ以上の精度を達成しながら、疎畳み込みメソッドよりも高速である。

Transformer, as an alternative to CNN, has been proven effective in many modalities (e.g., texts and images). For 3D point cloud transformers, existing efforts focus primarily on pushing their accuracy to the state-of-the-art level. However, their latency lags behind sparse convolution-based models (3x slower), hindering their usage in resource-constrained, latency-sensitive applications (such as autonomous driving). This inefficiency comes from point clouds' sparse and irregular nature, whereas transformers are designed for dense, regular workloads. This paper presents FlatFormer to close this latency gap by trading spatial proximity for better computational regularity. We first flatten the point cloud with window-based sorting and partition points into groups of equal sizes rather than windows of equal shapes. This effectively avoids expensive structuring and padding overheads. We then apply self-attention within groups to extract local features, alternate sorting axis to gather features from different directions, and shift windows to exchange features across groups. FlatFormer delivers state-of-the-art accuracy on Waymo Open Dataset with 4.6x speedup over (transformer-based) SST and 1.4x speedup over (sparse convolutional) CenterPoint. This is the first point cloud transformer that achieves real-time performance on edge GPUs and is faster than sparse convolutional methods while achieving on-par or even superior accuracy on large-scale benchmarks.
翻訳日:2023-03-31 17:12:10 公開日:2023-03-30
# Deep Learning-based Denoising Methodの客観的タスクベース評価の必要性:心筋血流SPECTにおける検討

Need for Objective Task-based Evaluation of Deep Learning-Based Denoising Methods: A Study in the Context of Myocardial Perfusion SPECT ( http://arxiv.org/abs/2303.02110v4 )

ライセンス: Link先を確認
Zitong Yu, Md Ashequr Rahman, Richard Laforest, Thomas H. Schindler, Robert J. Gropler, Richard L. Wahl, Barry A. Siegel, Abhinav K. Jha(参考訳) 人工知能に基づく手法は核医学に大きな関心を呼んだ。 関心のある領域は、低用量、より短い取得時間、あるいは両方で取得した画像を識別するためのディープラーニング(DL)ベースのアプローチである。 これらのアプローチの客観的評価は臨床応用に不可欠である。 dlに基づく核医学画像の脱ノイズ化手法は、一般的にrmseやssimのような忠実度に基づく評価(foms)を用いて評価されている。 しかし,これらの画像は臨床的タスクのために取得され,それらのタスクのパフォーマンスに基づいて評価されるべきである。 本研究の目的は,(1)fomによる評価が客観的な臨床課題に基づく評価と一致しているか,(2)信号検出課題に対する脱音の影響を理論的に決定するための分析を行うこと,(3)dlに基づく方法を評価するための仮想臨床試験(vcts)の有用性を示すことである。 心筋灌流SPECT(MPS)画像の診断にDL法を応用したVCTを施行した。 人為的チャネルを持つモデル観測者を用いて,MPS画像の灌流欠陥検出性能を定量化したFoMsとAUCを用いて,DLベースデノナイジングの効果を評価した。 忠実度をベースとしたFoMでは,DL法を併用することで性能が著しく向上した。 しかし,ROC分析ではデノナイジングは改善せず,実際は検出タスク性能が劣化することが多かった。 その結果、dlに基づく分別手法の客観的タスクベース評価の必要性が高まった。 さらに,本研究では,VCTを用いて評価を行うメカニズムについて述べる。 最後に,提案手法の限定的な性能の理由を理論的に明らかにした。

Artificial intelligence-based methods have generated substantial interest in nuclear medicine. An area of significant interest has been using deep-learning (DL)-based approaches for denoising images acquired with lower doses, shorter acquisition times, or both. Objective evaluation of these approaches is essential for clinical application. DL-based approaches for denoising nuclear-medicine images have typically been evaluated using fidelity-based figures of merit (FoMs) such as RMSE and SSIM. However, these images are acquired for clinical tasks and thus should be evaluated based on their performance in these tasks. Our objectives were to (1) investigate whether evaluation with these FoMs is consistent with objective clinical-task-based evaluation; (2) provide a theoretical analysis for determining the impact of denoising on signal-detection tasks; (3) demonstrate the utility of virtual clinical trials (VCTs) to evaluate DL-based methods. A VCT to evaluate a DL-based method for denoising myocardial perfusion SPECT (MPS) images was conducted. The impact of DL-based denoising was evaluated using fidelity-based FoMs and AUC, which quantified performance on detecting perfusion defects in MPS images as obtained using a model observer with anthropomorphic channels. Based on fidelity-based FoMs, denoising using the considered DL-based method led to significantly superior performance. However, based on ROC analysis, denoising did not improve, and in fact, often degraded detection-task performance. The results motivate the need for objective task-based evaluation of DL-based denoising approaches. Further, this study shows how VCTs provide a mechanism to conduct such evaluations using VCTs. Finally, our theoretical treatment reveals insights into the reasons for the limited performance of the denoising approach.
翻訳日:2023-03-31 17:06:59 公開日:2023-03-30
# 時空間的因果注意機構を有する解釈可能な水位予測器

Interpretable Water Level Forecaster with Spatiotemporal Causal Attention Mechanisms ( http://arxiv.org/abs/2303.00515v5 )

ライセンス: Link先を確認
Sunghcul Hong, Yunjin Choi and Jong-June Jeon(参考訳) ハン川の水位を予測することは交通の制御や自然災害の回避に重要である。 漢川には多くの変数があり、複雑に繋がっている。 本研究では,変数間の事前知識に基づいて因果関係を利用した新しい変圧器を提案し,漢川に架かるジャムス橋の水位を予測した。 提案モデルは,多層ネットワークとして因果構造を定式化し,マスキング法を用いて空間的および時間的因果関係を考察する。 このアプローチにより、事前の知識と一致する解釈可能性を持つことができる。 実データ解析では,2016年から2021年までのhan riverデータセットを用いて,提案モデルとディープラーニングモデルを比較した。

Forecasting the water level of the Han river is important to control traffic and avoid natural disasters. There are many variables related to the Han river and they are intricately connected. In this work, we propose a novel transformer that exploits the causal relationship based on the prior knowledge among the variables and forecasts the water level at the Jamsu bridge in the Han river. Our proposed model considers both spatial and temporal causation by formalizing the causal structure as a multilayer network and using masking methods. Due to this approach, we can have interpretability that consistent with prior knowledge. In real data analysis, we use the Han river dataset from 2016 to 2021 and compare the proposed model with deep learning models.
翻訳日:2023-03-31 17:06:00 公開日:2023-03-30
# ジョイントMAE:3Dポイントクラウド事前トレーニング用2D-3Dジョイントマスク付きオートエンコーダ

Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training ( http://arxiv.org/abs/2302.14007v2 )

ライセンス: Link先を確認
Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzhi Li, Pheng-Ann Heng(参考訳) Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンの両方において、自己教師型学習において有望な性能を示した。 しかし、既存のmaeスタイルの手法は、2dと3dの暗黙的な意味と幾何学的相関を無視するイメージやポイントクラウドといった単一のモダリティのデータからのみ学習することができる。 本稿では,2次元モダリティが3次元マスクによる自動エンコーディングにどのように役立つかを検討し,自己教師付き3次元ポイントクラウドプリトレーニングのための2d-3dジョイントmaeフレームワークであるjoint-maeを提案する。 ジョイントMAEは入力された3Dポイントクラウドとその投影された2Dイメージをランダムにマスキングし、2つのモードのマスキング情報を再構成する。 2つの階層的な2D-3D埋め込みモジュール、ジョイントエンコーダ、およびモーダルシェードおよびモデル固有デコーダを用いたジョイントデコーダにより、より優れたクロスモーダル相互作用を実現する。 さらに,2次元3次元のセマンティックキューに対する局所的アテンション機構である3次元表現学習の促進と,2次元3次元の幾何制約に対するクロスコンストラクション損失の2つのクロスモーダル戦略を導入する。 トレーニング前のパラダイムにより、Joint-MAEは、ModelNet40上の線形SVMの92.4%の精度、ScanObjectNNの最も難しい分割における86.07%の精度など、複数のダウンストリームタスクにおいて優れたパフォーマンスを達成する。

Masked Autoencoders (MAE) have shown promising performance in self-supervised learning for both 2D and 3D computer vision. However, existing MAE-style methods can only learn from the data of a single modality, i.e., either images or point clouds, which neglect the implicit semantic and geometric correlation between 2D and 3D. In this paper, we explore how the 2D modality can benefit 3D masked autoencoding, and propose Joint-MAE, a 2D-3D joint MAE framework for self-supervised 3D point cloud pre-training. Joint-MAE randomly masks an input 3D point cloud and its projected 2D images, and then reconstructs the masked information of the two modalities. For better cross-modal interaction, we construct our JointMAE by two hierarchical 2D-3D embedding modules, a joint encoder, and a joint decoder with modal-shared and model-specific decoders. On top of this, we further introduce two cross-modal strategies to boost the 3D representation learning, which are local-aligned attention mechanisms for 2D-3D semantic cues, and a cross-reconstruction loss for 2D-3D geometric constraints. By our pre-training paradigm, Joint-MAE achieves superior performance on multiple downstream tasks, e.g., 92.4% accuracy for linear SVM on ModelNet40 and 86.07% accuracy on the hardest split of ScanObjectNN.
翻訳日:2023-03-31 17:05:48 公開日:2023-03-30
# 述語と対象の曖昧さ

Vagueness in Predicates and Objects ( http://arxiv.org/abs/2302.13189v2 )

ライセンス: Link先を確認
Brandon Bennett and Luc\'ia G\'omez \'Alvarez(参考訳) 古典意味論は、正確な参照対象の固定領域に関して、参照、述語、量化をモデル化できると仮定している。 非論理用語と量子化は、この領域の要素と部分集合の観点で直接解釈される。 我々は、曖昧さ、文脈、定義や意見の多様性などの要因により、この古典的な述語や対象を一般化し、意味の多様性を考慮する方法を模索する。 名前と述語表現の両方は、複数の意味的参照を与えられるか、ある変数のモデルを含む意味的参照と関連付けられる。 本稿では,述語とオブジェクトの両方に関して,いくつかの可変性モードに対応可能な,可変参照セマンティクスという意味論フレームワークを提案する。

Classical semantics assumes that one can model reference, predication and quantification with respect to a fixed domain of precise referent objects. Non-logical terms and quantification are then interpreted directly in terms of elements and subsets of this domain. We explore ways to generalise this classical picture of precise predicates and objects to account for variability of meaning due to factors such as vagueness, context and diversity of definitions or opinions. Both names and predicative expressions can be given either multiple semantic referents or be associated with semantic referents that incorporate some model of variability. We present a semantic framework, Variable Reference Semantics, that can accommodate several modes of variability in relation to both predicates and objects.
翻訳日:2023-03-31 17:05:18 公開日:2023-03-30
# PIFON-EPT:物理インフォームドフーリエネットワークを用いたMR特性トモグラフィ

PIFON-EPT: MR-Based Electrical Property Tomography Using Physics-Informed Fourier Networks ( http://arxiv.org/abs/2302.11883v3 )

ライセンス: Link先を確認
Xinling Yu, Jos\'e E. C. Serrall\'es, Ilias I. Giannakopoulos, Ziyue Liu, Luca Daniel, Riccardo Lattanzi, Zheng Zhang(参考訳) 本稿では,ノイズおよび/または不完全磁気共鳴(MR)測定に基づく逆散乱問題の解法であるPFON-EPT(Physical-Informed Fourier Networks for Electrical Properties Tomography)を紹介する。 ヘルムホルツ方程式を解くために、入力された$b_1^{+}$マップの非有線バージョンを学習し、対象のepを推定するために、$b_1^{+}$ net と ep net という2つの独立した完全接続ニューラルネットワークを使いました。 ランダムなフーリエ特徴マッピングが$b_1^{+}$ netに組み込まれ、$b_1^{+}$の高周波詳細がより効率的に学習された。 2つのニューラルネットワークは、物理インフォームド損失と勾配降下によるデータミスマッチ損失の最小化により、共同でトレーニングされた。 PIFON-EPTがEPと送信フィールドの物理的に一貫した再構成を提供できることを示す数値実験を行った。 ノイズの少ないmr測定の50\%$のみが入力として使われた場合でも、ファントム全体の相対誘電率、導電率、および$b_{1}^{+}$に対して平均誤差2.49\%$、$4.09\%$、$0.32\%$でepと送信フィールドを再構成することができた。 EPの勾配を考慮したPIFON-EPTの一般化版は、境界条件を必要としない異なるEP値の領域間の界面で正確な結果を得た。 この研究はPIFON-EPTの実現可能性を示し、EP推定の正確かつ効果的な方法であることを示した。 \textit{Significance:} PIFON-EPTは、他のMRベースのEPT技術を改善する可能性がある$B_1^{+}$マップを効率的にデノイズすることができる。 さらに、PIFON-EPTは、不完全雑音MR測定からEPとB_{1}^{+}$を同時に再構成できる最初の技術である。

\textit{Objective:} In this paper, we introduce Physics-Informed Fourier Networks for Electrical Properties Tomography (PIFON-EPT), a novel deep learning-based method that solves an inverse scattering problem based on noisy and/or incomplete magnetic resonance (MR) measurements. \textit{Methods:} We used two separate fully-connected neural networks, namely $B_1^{+}$ Net and EP Net, to solve the Helmholtz equation in order to learn a de-noised version of the input $B_1^{+}$ maps and estimate the object's EP. A random Fourier features mapping was embedded into $B_1^{+}$ Net, to learn the high-frequency details of $B_1^{+}$ more efficiently. The two neural networks were trained jointly by minimizing the combination of a physics-informed loss and a data mismatch loss via gradient descent. \textit{Results:} We performed several numerical experiments, showing that PIFON-EPT could provide physically consistent reconstructions of the EP and transmit field. Even when only $50\%$ of the noisy MR measurements were used as inputs, our method could still reconstruct the EP and transmit field with average error $2.49\%$, $4.09\%$ and $0.32\%$ for the relative permittivity, conductivity and $B_{1}^{+}$, respectively, over the entire volume of the phantom. The generalized version of PIFON-EPT that accounts for gradients of EP yielded accurate results at the interface between regions of different EP values without requiring any boundary conditions. \textit{Conclusion:} This work demonstrated the feasibility of PIFON-EPT, suggesting it could be an accurate and effective method for EP estimation. \textit{Significance:} PIFON-EPT can efficiently de-noise $B_1^{+}$ maps, which has the potential to improve other MR-based EPT techniques. Furthermore, PIFON-EPT is the first technique that can reconstruct EP and $B_{1}^{+}$ simultaneously from incomplete noisy MR measurements.
翻訳日:2023-03-31 17:05:07 公開日:2023-03-30
# 医用画像の深部強化学習におけるコアセットを用いた選択的リプレイ圧縮

Selective experience replay compression using coresets for lifelong deep reinforcement learning in medical imaging ( http://arxiv.org/abs/2302.11510v4 )

ライセンス: Link先を確認
Guangyao Zheng, Samson Zhou, Vladimir Braverman, Michael A. Jacobs, Vishwa S. Parekh(参考訳) 選択経験リプレイは、生涯学習と深層強化学習を統合するための一般的な戦略である。 Selective Experience Replayは、過去のタスクから選択した経験をリカウントして、破滅的な忘れ物を避けることを目的としている。 さらに、選択的なエクスペリエンスリプレイベースのテクニックはモデル非依存であり、さまざまなモデル間でエクスペリエンスを共有することができる。 しかしながら、これまでのすべてのタスクからの経験を格納することで、選択的な経験を用いた生涯学習は、タスク数の増加に伴って計算コストが非常に高く非現実的になる。 そこで我々は,選択的なエクスペリエンス再生のためのバッファを圧縮する,報酬分布保存コアセット圧縮手法を提案する。 左膝蓋,左腎,右転子,左肺,脾臓の局所化を目的として,脳腫瘍セグメント化(BRATS)データセットのコアセット圧縮技術の評価を行った。 10種類の異なる脳MR画像環境でトレーニングしたコアセット寿命学習モデルでは,10倍の圧縮率で平均画素誤差距離12.93の心室局所化性能が良好であった。 一方、従来の生涯学習モデルは、平均画素距離10.87の心室を局所化した。 同様に、全身mriで訓練されたcoreset生涯学習モデルは、10倍の圧縮コアセット生涯学習モデルと従来の生涯学習モデルとの間に有意差(p=0.28)を示さなかった。 圧縮された10xモデルの平均ピクセル距離は25.30であり、従来の生涯学習モデルでは19.24である。 その結果,coresetベースのerb圧縮方式が,性能低下を伴わずに圧縮できる可能性が示唆された。

Selective experience replay is a popular strategy for integrating lifelong learning with deep reinforcement learning. Selective experience replay aims to recount selected experiences from previous tasks to avoid catastrophic forgetting. Furthermore, selective experience replay based techniques are model agnostic and allow experiences to be shared across different models. However, storing experiences from all previous tasks make lifelong learning using selective experience replay computationally very expensive and impractical as the number of tasks increase. To that end, we propose a reward distribution-preserving coreset compression technique for compressing experience replay buffers stored for selective experience replay. We evaluated the coreset compression technique on the brain tumor segmentation (BRATS) dataset for the task of ventricle localization and on the whole-body MRI for localization of left knee cap, left kidney, right trochanter, left lung, and spleen. The coreset lifelong learning models trained on a sequence of 10 different brain MR imaging environments demonstrated excellent performance localizing the ventricle with a mean pixel error distance of 12.93 for the compression ratio of 10x. In comparison, the conventional lifelong learning model localized the ventricle with a mean pixel distance of 10.87. Similarly, the coreset lifelong learning models trained on whole-body MRI demonstrated no significant difference (p=0.28) between the 10x compressed coreset lifelong learning models and conventional lifelong learning models for all the landmarks. The mean pixel distance for the 10x compressed models across all the landmarks was 25.30, compared to 19.24 for the conventional lifelong learning models. Our results demonstrate that the potential of the coreset-based ERB compression method for compressing experiences without a significant drop in performance.
翻訳日:2023-03-31 17:04:26 公開日:2023-03-30
# 視覚的説明の定量的評価のコヒーレンスについて

On The Coherence of Quantitative Evaluation of Visual Explanations ( http://arxiv.org/abs/2302.10764v3 )

ライセンス: Link先を確認
Benjamin Vandersmissen, Jose Oramas(参考訳) 近年,視覚的説明を通じてニューラルネットワークの予測を正当化する手法の開発が進んでいる。 これらの説明は、通常、入力画像の各画素にサリエンシー(または関連)値を割り当てるヒートマップの形式をとり、そのピクセルがラベルの予測にどの程度関係しているかを表現する。 この開発を補完し、このような説明の「良さ」を評価する評価手法が提案されている。 一方、これらの手法のいくつかは合成データセットに依存している。 しかし、これはより現実的な設定で適用性に制限があるという弱点をもたらす。 一方で、客観的評価のためのメトリクスに依存する手法もある。 しかし,これらの評価手法のいくつかが相互に作用する程度は定かではない。 このことを考慮し、imagenet-1kバリデーションセットのサブセットを包括的に研究し、一連の評価方法に従って、複数の異なるよく使われる説明方法を評価する。 本研究は,評価手法の信頼性と特徴が評価方法に与える影響を調査する手段として,評価手法の健全性チェックを補完するものである。 本研究の結果から, 評価方法のいくつかは, 階調のコヒーレンシーが欠如していることが示唆された。 さらに,性能に有意な影響を及ぼす可能性のある空間性など,説明のいくつかの特徴を明らかにした。

Recent years have shown an increased development of methods for justifying the predictions of neural networks through visual explanations. These explanations usually take the form of heatmaps which assign a saliency (or relevance) value to each pixel of the input image that expresses how relevant the pixel is for the prediction of a label. Complementing this development, evaluation methods have been proposed to assess the "goodness" of such explanations. On the one hand, some of these methods rely on synthetic datasets. However, this introduces the weakness of having limited guarantees regarding their applicability on more realistic settings. On the other hand, some methods rely on metrics for objective evaluation. However the level to which some of these evaluation methods perform with respect to each other is uncertain. Taking this into account, we conduct a comprehensive study on a subset of the ImageNet-1k validation set where we evaluate a number of different commonly-used explanation methods following a set of evaluation methods. We complement our study with sanity checks on the studied evaluation methods as a means to investigate their reliability and the impact of characteristics of the explanations on the evaluation methods. Results of our study suggest that there is a lack of coherency on the grading provided by some of the considered evaluation methods. Moreover, we have identified some characteristics of the explanations, e.g. sparsity, which can have a significant effect on the performance.
翻訳日:2023-03-31 17:03:58 公開日:2023-03-30
# mulgt: タスク対応のナレッジインジェクションとドメイン知識駆動プールを備えたマルチタスクグラフ変換器

MulGT: Multi-task Graph-Transformer with Task-aware Knowledge Injection and Domain Knowledge-driven Pooling for Whole Slide Image Analysis ( http://arxiv.org/abs/2302.10574v3 )

ライセンス: Link先を確認
Weiqin Zhao, Shujun Wang, Maximus Yeung, Tianye Niu, Lequan Yu(参考訳) 深層学習領域における自動診断を支援するためにWSI(Whole Slide Image)が広く用いられている。 しかし、これまでのほとんどの研究は、実際の臨床環境と一致しないSINGLEタスク設定についてのみ論じており、病理学者は複数の診断タスクを同時に行うことが多い。 また、マルチタスク学習パラダイムは、複数のタスク間の共通点や相違点を活用することにより、学習効率を向上させることが一般的である。 この目的のために,タスク認識型知識注入とドメイン知識駆動型グラフポーリングモジュールを備えたグラフ変換器により,WSI解析のための新しいマルチタスクフレームワーク(MulGT)を提案する。 基本的に、Graph Neural NetworkとTransformerをビルディングコモンズとして、我々のフレームワークはタスクに依存しない低レベルローカル情報とタスク固有の高レベルグローバル表現を学習することができる。 WSI分析の異なるタスクが異なる機能や性質に依存していることを考慮し、タスク共有グラフをタスク固有の特徴空間に埋め込む新しいタスク対応知識注入モジュールを設計し、異なるタスクのより正確な表現を学ぶ。 さらに,各タスクに対する新たなドメイン知識駆動グラフプーリングモジュールの設計を行い,複数のタスクの異なる診断パターンを活用して,タスクの正確性と堅牢性を向上させる。 TCGAプロジェクトの2つの公開WSIデータセット,すなわち食道癌と腎癌について検討した。 実験の結果, 腫瘍のタイピングとステージングの両方において, シングルタスクと最先端メソッドに勝ることがわかった。

Whole slide image (WSI) has been widely used to assist automated diagnosis under the deep learning fields. However, most previous works only discuss the SINGLE task setting which is not aligned with real clinical setting, where pathologists often conduct multiple diagnosis tasks simultaneously. Also, it is commonly recognized that the multi-task learning paradigm can improve learning efficiency by exploiting commonalities and differences across multiple tasks. To this end, we present a novel multi-task framework (i.e., MulGT) for WSI analysis by the specially designed Graph-Transformer equipped with Task-aware Knowledge Injection and Domain Knowledge-driven Graph Pooling modules. Basically, with the Graph Neural Network and Transformer as the building commons, our framework is able to learn task-agnostic low-level local information as well as task-specific high-level global representation. Considering that different tasks in WSI analysis depend on different features and properties, we also design a novel Task-aware Knowledge Injection module to transfer the task-shared graph embedding into task-specific feature spaces to learn more accurate representation for different tasks. Further, we elaborately design a novel Domain Knowledge-driven Graph Pooling module for each task to improve both the accuracy and robustness of different tasks by leveraging different diagnosis patterns of multiple tasks. We evaluated our method on two public WSI datasets from TCGA projects, i.e., esophageal carcinoma and kidney carcinoma. Experimental results show that our method outperforms single-task counterparts and the state-of-theart methods on both tumor typing and staging tasks.
翻訳日:2023-03-31 17:03:36 公開日:2023-03-30
# 多体非マルコフ力学のダイアグラム法:記憶効果と絡み合い遷移

Diagrammatic method for many-body non-Markovian dynamics: memory effects and entanglement transitions ( http://arxiv.org/abs/2302.10563v2 )

ライセンス: Link先を確認
Giuliano Chiriac\`o and Mikheil Tsitsishvili and Dario Poletti and Rosario Fazio and Marcello Dalmonte(参考訳) 我々は,多体系のコヒーレント進化と非マルコフ浴との結合の量子力学について検討した。 本稿では,量子ジャンプの観点から非マルコフ力学を解き明かす手法を提案する。 量子軌道の確率を体系的に計算し,それを図式構造で定式化する手法を開発した。 非マルコフ性は量子軌道を実現する確率を再正規化し、記憶効果はマルコフ力学の上の摂動として解釈できる。 図形構造はダイソン方程式と類似しており、軌道の確率は解析的に計算可能であることを示す。 次に、ランダムなユニタリ回路における測定誘起絡み合い遷移について検討する。 非マルコビアン性は遷移を著しくシフトさせるのではなく、過渡的な強い散逸から守ることで絡み合いの体積法相を安定化させる。

We study the quantum dynamics of a many-body system subject to coherent evolution and coupled to a non-Markovian bath. We propose a technique to unravel the non-Markovian dynamics in terms of quantum jumps, a connection that was so far only understood for single-body systems. We develop a systematic method to calculate the probability of a quantum trajectory, and formulate it in a diagrammatic structure. We find that non-Markovianity renormalizes the probability of realizing a quantum trajectory, and that memory effects can be interpreted as a perturbation on top of the Markovian dynamics. We show that the diagrammatic structure is akin to that of a Dyson equation, and that the probability of the trajectories can be calculated analytically. We then apply our results to study the measurement-induced entanglement transition in random unitary circuits. We find that non-Markovianity does not significantly shift the transition, but stabilizes the volume law phase of the entanglement by shielding it from transient strong dissipation.
翻訳日:2023-03-31 17:03:07 公開日:2023-03-30
# InstMove: オブジェクト中心のビデオセグメンテーションのためのインスタンスモーション

InstMove: Instance Motion for Object-centric Video Segmentation ( http://arxiv.org/abs/2303.08132v2 )

ライセンス: Link先を確認
Qihao Liu, Junfeng Wu, Yi Jiang, Xiang Bai, Alan Yuille, Song Bai(参考訳) 重要な努力にもかかわらず、最先端のビデオセグメンテーション法は、これらの乱れに弱い物体の埋め込み形式における物体の出現に依存しているため、依然として閉塞や急激な動きに敏感である。 一般的な解決策は、光学フローを使ってモーション情報を提供することだが、基本的にはピクセルレベルの動きのみを考慮し、見た目の類似性に依存しており、オクルージョンや速い動きでは不正確であることが多い。 本研究では、オブジェクト中心ビデオセグメンテーションにおけるインスタンスレベルの動きとインスタンスレベルの動きについて検討する。 InstMoveは主に画像特徴の埋め込みが不要なインスタンスレベルのモーション情報に依存しており、物理的解釈が特徴であり、閉塞や高速移動に対してより正確で堅牢である。 ビデオセグメンテーションタスクにもっとうまく適合するために、InstMoveはインスタンスマスクを使用してオブジェクトの物理的存在をモデル化し、メモリネットワークを通じて動的モデルを学び、次のフレームの位置と形状を予測する。 数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために現在のSOTAメソッドに統合され、パフォーマンスが向上する。 具体的には,ovisデータセットでは1.5 ap,youtubevis-longデータセットでは4.9 ap,高速に移動するオブジェクトを主とする。 これらの結果は、インスタンスレベルの動きは堅牢で正確であり、オブジェクト中心のビデオセグメンテーションの複雑なシナリオにおいて強力な解決策となることを示唆している。

Despite significant efforts, cutting-edge video segmentation methods still remain sensitive to occlusion and rapid movement, due to their reliance on the appearance of objects in the form of object embeddings, which are vulnerable to these disturbances. A common solution is to use optical flow to provide motion information, but essentially it only considers pixel-level motion, which still relies on appearance similarity and hence is often inaccurate under occlusion and fast movement. In this work, we study the instance-level motion and present InstMove, which stands for Instance Motion for Object-centric Video Segmentation. In comparison to pixel-wise motion, InstMove mainly relies on instance-level motion information that is free from image feature embeddings, and features physical interpretations, making it more accurate and robust toward occlusion and fast-moving objects. To better fit in with the video segmentation tasks, InstMove uses instance masks to model the physical presence of an object and learns the dynamic model through a memory network to predict its position and shape in the next frame. With only a few lines of code, InstMove can be integrated into current SOTA methods for three different video segmentation tasks and boost their performance. Specifically, we improve the previous arts by 1.5 AP on OVIS dataset, which features heavy occlusions, and 4.9 AP on YouTubeVIS-Long dataset, which mainly contains fast-moving objects. These results suggest that instance-level motion is robust and accurate, and hence serving as a powerful solution in complex scenarios for object-centric video segmentation.
翻訳日:2023-03-31 16:57:14 公開日:2023-03-30
# 量子電池充電のための有益かつ有害な絡み合い

Beneficial and detrimental entanglement for quantum battery charging ( http://arxiv.org/abs/2303.07841v2 )

ライセンス: Link先を確認
Ju-Yeon Gyhm and Uwe R. Fischer(参考訳) 量子バッテリの最大チャージパワーを高めるために、高絡み合い量子状態を用いる潜在的な利点を評価するために、実装に依存しない一般的なアプローチを確立した。 エンタングルメントの電力への影響は、ハミルトニアン駆動の最適選択に関連する大域的な量子速度限界と電池のエネルギーギャップの両方から分離できることが示されている。 次に、所与の量子速度限界と電池エネルギーギャップで得られる電力として定義される電池充電の量子状態の利点は、絡み合いモノトンではないことを実証する。 特筆すべき例は、局所電池の独立な熱化が、あらゆる絡み合いを完全に破壊し、初期最大絡み状態よりも大きな帯電力をもたらすことである。 したがって、非常に絡み合った状態は、製品状態と比較した場合に$disadvantageous$となる可能性がある。 また,w や $k$ の局所的絡み合い状態などの高い絡み合い状態の生成に相当な労力を掛けて,バッテリセル数で量子エンハンスドスケーリング動作を得るには不十分であることを実証した。

We establish a general implementation-independent approach to assess the potential advantage of using highly entangled quantum states for enhancing the maximum charging power of quantum batteries. It is shown that the impact of entanglement on power can be separated from both the global quantum speed limit associated to an optimal choice of driving Hamiltonian and the energy gap of the batteries. We then demonstrate that the quantum state advantage of battery charging, defined as the power obtainable for given quantum speed limit and battery energy gap, is not an entanglement monotone. A striking example we provide is that, counterintuitively, independent thermalization of the local batteries, completely destroying any entanglement, can lead to larger charging power than that of the initial maximally entangled state. Highly entangled states can thus also be potentially $disadvantageous$ when compared to product states. We also demonstrate that taking the considerable effort of producing highly entangled states, such as W or $k$-locally entangled states, is not sufficient to obtain quantum-enhanced scaling behavior with the number of battery cells.
翻訳日:2023-03-31 16:56:45 公開日:2023-03-30
# 説明可能なAIを用いた高感度領域ベース変成テストフレームワーク

Sensitive Region-based Metamorphic Testing Framework using Explainable AI ( http://arxiv.org/abs/2303.07580v2 )

ライセンス: Link先を確認
Yuma Torikoshi, Yasuharu Nishi and Juichi Takahashi(参考訳) ディープラーニング(DL)は、機械学習およびDL駆動画像認識システムにおいて最も人気のある研究トピックの1つである。 近年の研究では、誤分類画像の検出にメタモルフィックテスト(MT)が用いられている。 それらの多くは変成関係(MR)について論じており、どの領域を変換すべきかは限定的である。 小さい変換でも予測結果を容易に変更できるセンシティブな領域が存在することに着目し、これらのセンシティブな領域を変換することで非分類化しやすい領域を効率的にテストするMTフレームワークを提案する。 評価の結果、この感度領域は説明可能なAI(XAI)によって特定でき、このフレームワークは障害を効果的に検出する。

Deep Learning (DL) is one of the most popular research topics in machine learning and DL-driven image recognition systems have developed rapidly. Recent research has employed metamorphic testing (MT) to detect misclassified images. Most of them discuss metamorphic relations (MR), with limited attention given to which regions should be transformed. We focus on the fact that there are sensitive regions where even small transformations can easily change the prediction results and propose an MT framework that efficiently tests for regions prone to misclassification by transforming these sensitive regions. Our evaluation demonstrated that the sensitive regions can be specified by Explainable AI (XAI) and our framework effectively detects faults.
翻訳日:2023-03-31 16:56:25 公開日:2023-03-30
# PoseExaminer:人体における分布外ロバストネスの自動検査と形状推定

PoseExaminer: Automated Testing of Out-of-Distribution Robustness in Human Pose and Shape Estimation ( http://arxiv.org/abs/2303.07337v2 )

ライセンス: Link先を確認
Qihao Liu, Adam Kortylewski, Alan Yuille(参考訳) HPS(Human pose and shape)推定法は優れた結果をもたらす。 しかし、現在のHPSベンチマークは主に、トレーニングデータに似たシナリオでモデルをテストするために設計されている。 これにより、観測されたデータがトレーニングデータと大きく異なる場合、実世界のアプリケーションにおいて重要な状況が発生する可能性がある。 したがってHPS法のOODロバスト性を試験・改善することが重要である。 この根本的な問題に対処するために,解釈可能なパラメータを用いて微粒度制御可能なシミュレータを開発し,ポーズや形状,衣服のバリエーションなど,人間のポーズのイメージの多様体を探索する。 本稿では,人間のポーズ画像のパラメータ空間を探索することでHPSアルゴリズムを自動的に診断する,PoseExaminerと呼ばれる学習ベースのテスト手法を提案する。 この高次元パラメータ空間を探索するための戦略は、エージェントが協調してパラメータ空間の異なる部分を探索するマルチエージェント強化学習システムである。 実世界のシナリオには関係しているものの、現在のベンチマークでは見逃されている現在の最先端モデルには、さまざまな制限があることを示します。 例えば、正しく予測されていない現実的な人間のポーズの大きな領域を見つけると同時に、細い体型や体型を持つ人間のパフォーマンスを低下させる。 さらに,posexaminer の故障モードを利用してhps法を微調整することで,標準ベンチマークにおけるロバスト性や性能が大幅に向上することを示した。 コードは研究目的で利用可能である。

Human pose and shape (HPS) estimation methods achieve remarkable results. However, current HPS benchmarks are mostly designed to test models in scenarios that are similar to the training data. This can lead to critical situations in real-world applications when the observed data differs significantly from the training data and hence is out-of-distribution (OOD). It is therefore important to test and improve the OOD robustness of HPS methods. To address this fundamental problem, we develop a simulator that can be controlled in a fine-grained manner using interpretable parameters to explore the manifold of images of human pose, e.g. by varying poses, shapes, and clothes. We introduce a learning-based testing method, termed PoseExaminer, that automatically diagnoses HPS algorithms by searching over the parameter space of human pose images to find the failure modes. Our strategy for exploring this high-dimensional parameter space is a multi-agent reinforcement learning system, in which the agents collaborate to explore different parts of the parameter space. We show that our PoseExaminer discovers a variety of limitations in current state-of-the-art models that are relevant in real-world scenarios but are missed by current benchmarks. For example, it finds large regions of realistic human poses that are not predicted correctly, as well as reduced performance for humans with skinny and corpulent body shapes. In addition, we show that fine-tuning HPS methods by exploiting the failure modes found by PoseExaminer improve their robustness and even their performance on standard benchmarks by a significant margin. The code are available for research purposes.
翻訳日:2023-03-31 16:55:09 公開日:2023-03-30
# 不確実性定量化指標の検証:一貫性と適応性の概念に基づくプライマー

Validation of uncertainty quantification metrics: a primer based on the consistency and adaptivity concepts ( http://arxiv.org/abs/2303.07170v2 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) 不確実性定量化(uq)検証の実践は、特に物理化学の機械学習において、全ての望ましいものをカバーすることなく、キャリブレーションの補完的な側面を探求するいくつかのグラフィカルな方法(散乱プロット、キャリブレーション曲線、信頼性図、信頼度曲線)にかかっている。 例えば、これらの手法は、入力機能(適応性)の範囲にわたるUQメトリクスの信頼性を扱いません。 一貫性と適応性の相補的な概念に基づいて、分散と間隔に基づくUQメトリクスの共通検証手法のツールボックスは、それらの能力をよりよく把握することを目的として再考される。 この研究は、UQ検証の導入として考えられ、すべての方法がいくつかの基本的なルールから導出される。 本手法は,最近の物理化学機械学習uq文献から抽出した合成データセットおよび代表例を用いて,その解析と検証を行った。

The practice of uncertainty quantification (UQ) validation, notably in machine learning for the physico-chemical sciences, rests on several graphical methods (scattering plots, calibration curves, reliability diagrams and confidence curves) which explore complementary aspects of calibration, without covering all the desirable ones. For instance, none of these methods deals with the reliability of UQ metrics across the range of input features (adaptivity). Based on the complementary concepts of consistency and adaptivity, the toolbox of common validation methods for variance- and intervals- based UQ metrics is revisited with the aim to provide a better grasp on their capabilities. This study is conceived as an introduction to UQ validation, and all methods are derived from a few basic rules. The methods are illustrated and tested on synthetic datasets and representative examples extracted from the recent physico-chemical machine learning UQ literature.
翻訳日:2023-03-31 16:54:41 公開日:2023-03-30
# 雑音量子コンピュータにおける量子信号処理の実現

Realization of quantum signal processing on a noisy quantum computer ( http://arxiv.org/abs/2303.05533v2 )

ライセンス: Link先を確認
Yuta Kikuchi, Conor Mc Keever, Luuk Coopmans, Michael Lubasch, Marcello Benedetti(参考訳) 量子信号処理(QSP)は、量子アルゴリズムの設計のための強力なツールボックスであり、漸近的に最適な計算コストをもたらす。 しかし、フォールトトレランスのないノイズの多い量子コンピュータでは、一般に深い量子回路を必要とするため、実現は困難である。 我々は,各ステップのオーバーヘッドコストを慎重に削減し,ノイズ量子ハードウェア上でqspプロトコル全体を動作させる戦略を提案する。 このアプローチを説明するために、qspが時間発展作用素の多項式近似を実装したハミルトニアンシミュレーションの適用を考える。 我々は,ハネウェルを動力とする量子コンピュータ h1-1 上でアルゴリズムを実行することでプロトコルをテストする。 特に、イジングスピン鎖に対する二部交絡エントロピーの時間依存性を計算し、正確な数値シミュレーションとよく一致している。 デバイスを最大限に活用するために,ハードウェアの簡易誤差モデルを用いて最適実験パラメータを決定するとともに,ハミルトンシミュレーション時間,多項式次数,全精度のトレードオフを数値的に検討する。 この結果はQSPに基づく量子アルゴリズムの実験的な実現の第一歩である。

Quantum signal processing (QSP) is a powerful toolbox for the design of quantum algorithms and can lead to asymptotically optimal computational costs. Its realization on noisy quantum computers without fault tolerance, however, is challenging because it requires a deep quantum circuit in general. We propose a strategy to run an entire QSP protocol on noisy quantum hardware by carefully reducing overhead costs at each step. To illustrate the approach, we consider the application of Hamiltonian simulation for which QSP implements a polynomial approximation of the time evolution operator. We test the protocol by running the algorithm on Quantinuum's H1-1 trapped-ion quantum computer powered by Honeywell. In particular, we compute the time dependence of bipartite entanglement entropies for an Ising spin chain and find good agreement with exact numerical simulations. To make the best use of the device, we determine optimal experimental parameters by using a simplified error model for the hardware and numerically studying the trade-off between Hamiltonian simulation time, polynomial degree, and total accuracy. Our results are the first step in the experimental realization of QSP-based quantum algorithms.
翻訳日:2023-03-31 16:54:25 公開日:2023-03-30
# 複合開量子系の断熱除去:ハイゼンベルクの定式化と数値シミュレーション

Adiabatic elimination for composite open quantum systems: Heisenberg formulation and numerical simulations ( http://arxiv.org/abs/2303.05089v3 )

ライセンス: Link先を確認
Fran\c{c}ois-Marie Le R\'egent, Pierre Rouchon(参考訳) 本稿では,複数のオープン量子サブシステムからなるオープン量子システムを用いて,古典的コンピュータ上でシミュレーションを行う数値計算法を提案する。 各サブシステムはデコヒーレンス自由部分空間に向かって指数関数的に安定化され、いくつかのデコヒーレンスチャネルにわずかに影響され、他のサブシステムと弱結合していると仮定される。 この数値法は、連続時間または離散時間における力学のハイゼンベルク定式化を利用したオリジナルの漸近展開による摂動解析に基づいている。 これはサブシステムの局所的および名目的散逸的ダイナミクスの不変作用素に依存する。 ヒルベルト空間全体の大域的な計算を避けた局所計算だけで二階展開を計算できることが示されている。 このアルゴリズムは、例えばschr\"odinger cat状態を持つボソニック符号のような自律的量子誤り訂正スキームのシミュレーションに特に適している。 これらの二階ハイゼンベルクシミュレーションは、完全シュル=オディンガーシミュレーションと二階断熱による解析公式と比較されている。 これらの比較は、1つの猫量子ビット上のZゲート、2つの猫量子ビット上のZZゲート、3つの猫量子ビット上のZZZゲートという3つの猫量子ビットゲートを実行する。 zzz-gateでは、各キャットキュービットのエネルギーである$\alpha^2$が8を超えると完全なシュル=オディンガーシミュレーションはほぼ不可能であるが、第2次ハイゼンベルクシミュレーションはマシン精度まで容易にアクセス可能である。 これらの数値的な研究は、2階ハイゼンベルク力学が非常に小さなビットフリップ誤差確率を捉え、指数関数は 1 から 16 まで様々に$\alpha^2$に対して減少することを示している。 また、量子プロセストモグラフィー(いわゆる$\chi$ matrix)への直接的な数値アクセスを提供し、それらの確率で異なるエラーチャネルの完全な特徴づけを提供する。

This report proposes a numerical method for simulating on a classical computer an open quantum system composed of several open quantum subsystems. Each subsystem is assumed to be strongly stabilized exponentially towards a decoherence free sub-space, slightly impacted by some decoherence channels and weakly coupled to the other subsystems. This numerical method is based on a perturbation analysis with an original asymptotic expansion exploiting the Heisenberg formulation of the dynamics, either in continuous time or discrete time. It relies on the invariant operators of the local and nominal dissipative dynamics of the subsystems. It is shown that second-order expansion can be computed with only local calculations avoiding global computations on the entire Hilbert space. This algorithm is particularly well suited for simulation of autonomous quantum error correction schemes, such as in bosonic codes with Schr\"odinger cat states. These second-order Heisenberg simulations have been compared with complete Schr\"odinger simulations and analytical formulas obtained by second order adiabatic elimination. These comparisons have been performed three cat-qubit gates: a Z-gate on a single cat qubit; a ZZ-gate on two cat qubits; a ZZZ-gate on three cat qubits. For the ZZZ-gate, complete Schr\"odinger simulations are almost impossible when $\alpha^2$, the energy of each cat qubit, exceeds 8, whereas second-order Heisenberg simulations remain easily accessible up to machine precision. These numerical investigations indicate that second-order Heisenberg dynamics capture the very small bit-flip error probabilities and their exponential decreases versus $\alpha^2$ varying from 1 to 16. They also provides a direct numerical access to quantum process tomography, the so called $\chi$ matrix providing a complete characterization of the different error channels with their probabilities.
翻訳日:2023-03-31 16:54:07 公開日:2023-03-30
# 仮説プラニング性能保証によるpomdp計画を考慮したデータアソシエーション

Data Association Aware POMDP Planning with Hypothesis Pruning Performance Guarantees ( http://arxiv.org/abs/2303.02139v2 )

ライセンス: Link先を確認
Moran Barenboim, Idan Lev-Yehudi and Vadim Indelman(参考訳) 現実世界で活動する自律エージェントは、部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化される部分観測可能性を扱う必要がある。 しかし、従来のPOMDPモデルは、完全に観測可能なデータアソシエーションとして知られる観測源の完全な知識の仮定に依存している。 この制限に対処するために、各コンポーネントが異なるデータアソシエーション仮説に対応する信念混合として表される複数のデータアソシエーション仮説を維持する計画アルゴリズムを提案する。 しかし、この方法では仮説の数が指数関数的に増加し、計算オーバーヘッドが大きくなる可能性がある。 この課題を克服するため,我々は,あいまいなデータアソシエーションを用いたプランニング手法を提案する。 我々の重要な貢献は、仮説の完全な集合に基づく値関数と仮説のプルーニングされた部分集合に基づく値関数の境界を導出することであり、計算効率と性能のトレードオフを確立することができる。 これらの境界を遡及的に刈り取るヒューリスティックの証明に利用できることを実証し、損失に対する事前定義された限界を確保するために、どの仮説をプルーンにするかを決定する新しいアプローチを提案する。 シミュレーション環境でのアプローチを評価し,曖昧なデータ関連を持つマルチモーダル信念の処理におけるその効果を実証する。

Autonomous agents that operate in the real world must often deal with partial observability, which is commonly modeled as partially observable Markov decision processes (POMDPs). However, traditional POMDP models rely on the assumption of complete knowledge of the observation source, known as fully observable data association. To address this limitation, we propose a planning algorithm that maintains multiple data association hypotheses, represented as a belief mixture, where each component corresponds to a different data association hypothesis. However, this method can lead to an exponential growth in the number of hypotheses, resulting in significant computational overhead. To overcome this challenge, we introduce a pruning-based approach for planning with ambiguous data associations. Our key contribution is to derive bounds between the value function based on the complete set of hypotheses and the value function based on a pruned-subset of the hypotheses, enabling us to establish a trade-off between computational efficiency and performance. We demonstrate how these bounds can both be used to certify any pruning heuristic in retrospect and propose a novel approach to determine which hypotheses to prune in order to ensure a predefined limit on the loss. We evaluate our approach in simulated environments and demonstrate its efficacy in handling multi-modal belief hypotheses with ambiguous data associations.
翻訳日:2023-03-31 16:53:34 公開日:2023-03-30
# ポスト選択量子状態のテレポーテーション

Teleportation of Post-Selected Quantum States ( http://arxiv.org/abs/2303.12456v2 )

ライセンス: Link先を確認
Daniel Collins(参考訳) テレポーテーションにより、アリスは、事前共有された絡み合いと古典的なコミュニケーションのみを使用して、準備済みの量子状態をボブに送ることができる。 ここで、$\it{post}$-selectedである状態のテレポートが可能であることを示す。 状態の選択後$\phi$ は、アリスが実験を終えた後、彼女は測定を行い、測定結果が$\phi$である実験の実行だけを維持することを意味する。 また、事前および選択後の$\it{port}$-based Teleportationも紹介する。 最後に、これらのプロトコルを用いて、前・後選択系において瞬時非局所量子計算を行い、空間的に分離された前・後選択系の任意の非局所変数を瞬時に測定するための絡み合いを大幅に低減する。

Teleportation allows Alice to send a pre-prepared quantum state to Bob using only pre-shared entanglement and classical communication. Here we show that it is possible to teleport a state which is also $\it{post}$-selected. Post-selection of a state $\Phi$ means that after Alice has finished her experiment she performs a measurement and only keeps runs of the experiment where the measurement outcome is $\Phi$. We also demonstrate pre and post-selected $\it{port}$-based teleportation. Finally we use these protocols to perform instantaneous non-local quantum computation on pre and post-selected systems, and significantly reduce the entanglement required to instantaneously measure an arbitrary non-local variable of spatially separated pre and post-selected systems.
翻訳日:2023-03-31 16:47:43 公開日:2023-03-30
# 注意のない権威: マスク義務反応の背後にある道徳的価値

Authority without Care: Moral Values behind the Mask Mandate Response ( http://arxiv.org/abs/2303.12014v2 )

ライセンス: Link先を確認
Yelena Mejova, Kyrieki Kalimeri, Gianmarco De Francisci Morales(参考訳) マスクは、新型コロナウイルス(COVID-19)などの航空病に対して、最も安価で効果的な非医薬品介入の1つである。 残念なことに、特にアメリカ合衆国では人口のかなりの一部が抵抗に遭っている。 本研究では,マスク委任統治に対する反応の根底にある潜在的道徳的価値観を明らかにするとともに,国家の政治的背景に対処する。 マスクに関する議論はtwitterで7ヶ月で約6万人のユーザーが参加している。 グラフマイニング,自然言語処理,トピックモデリング,コンテンツ分析,時系列分析の組み合わせを用いて,好む者と反対者の両方のマスク命令に対する応答を特徴付ける。 我々は,モラル基礎理論とホフステデの文化的側面の理論的枠組みに基づく分析を行った。 以上の結果から,反マスクの姿勢は保守的な政治的傾倒と結びついているが,その支持者による道徳的価値観は,保守派が通常使うものとは異なっていた。 特に、権威と純粋性の価値に期待される強調は、グループ内の忠誠心の非定型的な欠如を伴う。 委任後、親マスク側と反マスク側は、他者に対する注意を減らし、権威と公平性への注意を増し、この問題をさらに政治的にすることを発見した。 さらに、マスク義務は、反マスク物語における個人主義の増加と、親マスク主義の低下とともに、両者間の個人主義・集団主義の表現を逆転させる。 対象者の根底にある価値観に敏感な効果的な公衆衛生キャンペーンを設計するには,道徳的位置決めのダイナミクスのモニタリングが不可欠である。

Face masks are one of the cheapest and most effective non-pharmaceutical interventions available against airborne diseases such as COVID-19. Unfortunately, they have been met with resistance by a substantial fraction of the populace, especially in the U.S. In this study, we uncover the latent moral values that underpin the response to the mask mandate, and paint them against the country's political backdrop. We monitor the discussion about masks on Twitter, which involves almost 600k users in a time span of 7 months. By using a combination of graph mining, natural language processing, topic modeling, content analysis, and time series analysis, we characterize the responses to the mask mandate of both those in favor and against them. We base our analysis on the theoretical frameworks of Moral Foundation Theory and Hofstede's cultural dimensions. Our results show that, while the anti-mask stance is associated with a conservative political leaning, the moral values expressed by its adherents diverge from the ones typically used by conservatives. In particular, the expected emphasis on the values of authority and purity is accompanied by an atypical dearth of in-group loyalty. We find that after the mandate, both pro- and anti-mask sides decrease their emphasis on care about others, and increase their attention on authority and fairness, further politicizing the issue. In addition, the mask mandate reverses the expression of Individualism-Collectivism between the two sides, with an increase of individualism in the anti-mask narrative, and a decrease in the pro-mask one. We argue that monitoring the dynamics of moral positioning is crucial for designing effective public health campaigns that are sensitive to the underlying values of the target audience.
翻訳日:2023-03-31 16:47:29 公開日:2023-03-30
# Sketch2 Saliency:人間の描画から有能な物体を検出する学習

Sketch2Saliency: Learning to Detect Salient Objects from Human Drawings ( http://arxiv.org/abs/2303.11502v3 )

ライセンス: Link先を確認
Ayan Kumar Bhunia, Subhadeep Koley, Amandeep Kumar, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song(参考訳) 人間のスケッチは、様々な視覚理解タスク(検索、セグメンテーション、画像キャプチャなど)ですでにその価値が証明されている。 本稿では,スケッチの新たな特徴を明らかにする。 スケッチは自然な注意深いプロセスであり、これは直感的です。 より具体的には、スケッチを弱いラベルとして使用して、画像に存在する健全な物体を検出することを目的としている。 そこで本研究では,手描きのスケッチで「精細な物体」がいかに説明できるかを強調する新しい手法を提案する。 そこで本研究では、2Dアテンション機構を用いて、与えられた視覚写真に対応する逐次的スケッチ座標を生成することを目的とした写真間スケッチ生成モデルを提案する。 時間ステップを通じて蓄積されたアテンションマップは、プロセス内の健全な領域を生じさせる。 広範囲にわたる定量的・定性的な実験により,本仮説が証明され,スケッチに基づく塩分検出モデルが最先端と比較して競争力を発揮できることを示す。

Human sketch has already proved its worth in various visual understanding tasks (e.g., retrieval, segmentation, image-captioning, etc). In this paper, we reveal a new trait of sketches - that they are also salient. This is intuitive as sketching is a natural attentive process at its core. More specifically, we aim to study how sketches can be used as a weak label to detect salient objects present in an image. To this end, we propose a novel method that emphasises on how "salient object" could be explained by hand-drawn sketches. To accomplish this, we introduce a photo-to-sketch generation model that aims to generate sequential sketch coordinates corresponding to a given visual photo through a 2D attention mechanism. Attention maps accumulated across the time steps give rise to salient regions in the process. Extensive quantitative and qualitative experiments prove our hypothesis and delineate how our sketch-based saliency detection model gives a competitive performance compared to the state-of-the-art.
翻訳日:2023-03-31 16:47:00 公開日:2023-03-30
# photo that sketch - 抽象スケッチからのフォトリアリスティックな画像生成

Picture that Sketch: Photorealistic Image Generation from Abstract Sketches ( http://arxiv.org/abs/2303.11162v2 )

ライセンス: Link先を確認
Subhadeep Koley, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song(参考訳) あなたや私のような訓練を受けていないアマチュアから、抽象的で変形した、普通のスケッチが与えられたこの論文は、それをフォトリアリスティックなイメージにします。 私たちは、エッジマップのようなスケッチを最初から指示するのではなく、抽象的なフリーハンドな人間のスケッチで作業することを目指しています。 そうすることで、スケッチから写真へのパイプラインを民主化し、スケッチの良さに関わらずスケッチを"表示する"のです。 当初からのコントリビューションは、デコーダとデコーダを分離したトレーニングパラダイムで、デコーダは写真のみにトレーニングされたStyleGANです。 これは、生成された結果が常にフォトリアリスティックであることを保証する。 残りの部分はすべて、スケッチと写真の間の抽象的なギャップに対処する最善の方法に集中している。 そこで本研究では,スケッチをStyleGAN潜在空間にマップするスケッチフォトペアを訓練した自動回帰スケッチマッパーを提案する。 さらに,人間のスケッチの抽象的性質に取り組むために,訓練されたスケッチ写真検索モデルの背部におけるきめ細かな識別損失や部分認識スケッチ拡張戦略など,具体的設計を導入する。 最後に,我々の生成モデルでは,スケッチコミュニティでよく研究されている問題である細粒度なスケッチベースの画像検索を,画像検索タスク(生成)に還元し,最先端を上回らせることが可能な,いくつかの下流タスクを提示する。 誰でも精査できるように補足で生成された結果を提出した。

Given an abstract, deformed, ordinary sketch from untrained amateurs like you and me, this paper turns it into a photorealistic image - just like those shown in Fig. 1(a), all non-cherry-picked. We differ significantly from prior art in that we do not dictate an edgemap-like sketch to start with, but aim to work with abstract free-hand human sketches. In doing so, we essentially democratise the sketch-to-photo pipeline, "picturing" a sketch regardless of how good you sketch. Our contribution at the outset is a decoupled encoder-decoder training paradigm, where the decoder is a StyleGAN trained on photos only. This importantly ensures that generated results are always photorealistic. The rest is then all centred around how best to deal with the abstraction gap between sketch and photo. For that, we propose an autoregressive sketch mapper trained on sketch-photo pairs that maps a sketch to the StyleGAN latent space. We further introduce specific designs to tackle the abstract nature of human sketches, including a fine-grained discriminative loss on the back of a trained sketch-photo retrieval model, and a partial-aware sketch augmentation strategy. Finally, we showcase a few downstream tasks our generation model enables, amongst them is showing how fine-grained sketch-based image retrieval, a well-studied problem in the sketch community, can be reduced to an image (generated) to image retrieval task, surpassing state-of-the-arts. We put forward generated results in the supplementary for everyone to scrutinise.
翻訳日:2023-03-31 16:46:44 公開日:2023-03-30
# contranerf: コントラスト学習による合成から現実へのニューラル・ラミアンス・フィールドの一般化

ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real Novel View Synthesis via Contrastive Learning ( http://arxiv.org/abs/2303.11052v2 )

ライセンス: Link先を確認
Hao Yang, Lanqing Hong, Aoxue Li, Tianyang Hu, Zhenguo Li, Gim Hee Lee, Liwei Wang(参考訳) 最近の多くの研究は、見えないシーンに対する一般化可能なNeRFベースの新規ビュー合成を研究しているが、多くの実践的応用において望まれる合成から現実への一般化はめったに考えられない。 本研究では,合成データを用いた新しい視点合成における合成データの効果を最初に検討し,合成データで学習されたモデルがよりシャープだが正確な体積密度を生み出す傾向があることを驚くほど観察した。 ボリューム密度が正しい画素については、細かな詳細情報が得られる。 そうでなければ、深刻な人工物が生産される。 本稿では,そのネガティブな効果を回避しつつ,合成データを用いる利点を維持するために,幾何学的制約を伴う多視点一貫した特徴を学習するために,幾何認識型コントラスト学習を導入することを提案する。 また,入力ビューにまたがる特徴を問合せすることで,特徴の幾何学的知覚をさらに高めるために,クロスビューに着目した。 提案手法は,PSNR,SSIM,LPIPSの手法により,より高品質で詳細な画像の描画が可能であり,既存の一般化可能な新規ビュー合成手法よりも優れていることを示す。 実データでトレーニングすると,本手法は最先端の結果も得る。

Although many recent works have investigated generalizable NeRF-based novel view synthesis for unseen scenes, they seldom consider the synthetic-to-real generalization, which is desired in many practical applications. In this work, we first investigate the effects of synthetic data in synthetic-to-real novel view synthesis and surprisingly observe that models trained with synthetic data tend to produce sharper but less accurate volume densities. For pixels where the volume densities are correct, fine-grained details will be obtained. Otherwise, severe artifacts will be produced. To maintain the advantages of using synthetic data while avoiding its negative effects, we propose to introduce geometry-aware contrastive learning to learn multi-view consistent features with geometric constraints. Meanwhile, we adopt cross-view attention to further enhance the geometry perception of features by querying features across input views. Experiments demonstrate that under the synthetic-to-real setting, our method can render images with higher quality and better fine-grained details, outperforming existing generalizable novel view synthesis methods in terms of PSNR, SSIM, and LPIPS. When trained on real data, our method also achieves state-of-the-art results.
翻訳日:2023-03-31 16:46:17 公開日:2023-03-30
# 共同医用画像分類と分割のための不確かさによる相互学習

Uncertainty-informed Mutual Learning for Joint Medical Image Classification and Segmentation ( http://arxiv.org/abs/2303.10049v3 )

ライセンス: Link先を確認
Kai Ren and Ke Zou and Xianjie Liu and Yidi Chen and Xuedong Yuan and Xiaojing Shen and Meng Wang and Huazhu Fu(参考訳) 分類とセグメンテーションは、正確な診断と疾患のモニタリングを可能にするため、医療画像解析において重要である。 しかし、現在の方法は、機能や性能の信頼性を無視しながら、相互学習機能と共有モデルパラメータを優先することが多い。 本稿では,医療画像解析の信頼性と解釈が可能な新しいUML(Uncertainty-informed Mutual Learning)フレームワークを提案する。 このumlは,相互学習と不確実性を活用して,協調分類とセグメント化タスクに信頼性を導入している。 そこで我々はまず,画像レベルの信頼度と画素単位の信頼度を提供するために明らかな深層学習を利用する。 次に,不確かさナビゲータデコーダを構築し,相互特徴をよく利用し,セグメンテーション結果を生成する。 さらに、信頼性の高いマスクを分類するために、不確実性インストラクタを提案する。 全体として、UMLは各リンク(分類とセグメンテーション)の特徴と性能の信頼度を推定できる。 公開データセットの実験では、UMLは精度と堅牢性の両方の観点から既存のメソッドよりも優れています。 我々のUMLは、より信頼性が高く説明可能な医用画像解析モデルの開発を探求する可能性がある。 受け入れ後、再生のためのコードをリリースします。

Classification and segmentation are crucial in medical image analysis as they enable accurate diagnosis and disease monitoring. However, current methods often prioritize the mutual learning features and shared model parameters, while neglecting the reliability of features and performances. In this paper, we propose a novel Uncertainty-informed Mutual Learning (UML) framework for reliable and interpretable medical image analysis. Our UML introduces reliability to joint classification and segmentation tasks, leveraging mutual learning with uncertainty to improve performance. To achieve this, we first use evidential deep learning to provide image-level and pixel-wise confidences. Then, an Uncertainty Navigator Decoder is constructed for better using mutual features and generating segmentation results. Besides, an Uncertainty Instructor is proposed to screen reliable masks for classification. Overall, UML could produce confidence estimation in features and performance for each link (classification and segmentation). The experiments on the public datasets demonstrate that our UML outperforms existing methods in terms of both accuracy and robustness. Our UML has the potential to explore the development of more reliable and explainable medical image analysis models. We will release the codes for reproduction after acceptance.
翻訳日:2023-03-31 16:45:55 公開日:2023-03-30
# 連続学習における補助ネットワークによる安定性・塑性トレードオフの達成

Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks in Continual Learning ( http://arxiv.org/abs/2303.09483v2 )

ライセンス: Link先を確認
Sanghwan Kim, Lorenzo Noci, Antonio Orvieto and Thomas Hofmann(参考訳) 新しいタスクをシーケンシャルに学習する人間の自然な能力とは対照的に、ニューラルネットワークは壊滅的な忘れに苦しむことが知られており、古いタスクにおけるモデルのパフォーマンスは、新しいタスクに最適化された後に劇的に低下する。 それ以来、継続学習(CL)コミュニティは、ニューラルネットワークに現在のタスク(塑性)を学習する能力を持たせつつ、以前のタスク(安定性)を高い精度で達成することを目的とした、いくつかのソリューションを提案してきた。 顕著な改善にもかかわらず、可塑性-安定性のトレードオフはまだ解決には程遠い。 本研究では,主に安定性を重視した連続学習モデルに可塑性を促進させる補助的ネットワークを新たに導入する,補助的ネットワーク継続学習(ANCL)を提案する。 より具体的には、提案したフレームワークは、可塑性と安定性を自然に補間し、タスクインクリメンタルとクラスインクリメンタルシナリオの強いベースラインを超えたレギュレータとして実現されている。 ancl溶液の広範な分析を通じて,安定性・可塑性トレードオフ下での重要な原理を明らかにした。

In contrast to the natural capabilities of humans to learn new tasks in a sequential fashion, neural networks are known to suffer from catastrophic forgetting, where the model's performances on old tasks drop dramatically after being optimized for a new task. Since then, the continual learning (CL) community has proposed several solutions aiming to equip the neural network with the ability to learn the current task (plasticity) while still achieving high accuracy on the previous tasks (stability). Despite remarkable improvements, the plasticity-stability trade-off is still far from being solved and its underlying mechanism is poorly understood. In this work, we propose Auxiliary Network Continual Learning (ANCL), a novel method that applies an additional auxiliary network which promotes plasticity to the continually learned model which mainly focuses on stability. More concretely, the proposed framework materializes in a regularizer that naturally interpolates between plasticity and stability, surpassing strong baselines on task incremental and class incremental scenarios. Through extensive analyses on ANCL solutions, we identify some essential principles beneath the stability-plasticity trade-off.
翻訳日:2023-03-31 16:45:37 公開日:2023-03-30
# パララックスカメラモーションボケのための奥行き認識画像合成モデル

Depth-Aware Image Compositing Model for Parallax Camera Motion Blur ( http://arxiv.org/abs/2303.09334v2 )

ライセンス: Link先を確認
German F. Torres, Joni-Kristian K\"am\"ar\"ainen(参考訳) カメラの動きは、3D世界の奥行きの変化によって空間的に異なるぼやけをもたらす。 本研究では,パララックスカメラ動作下でのぼかしが生じるシーン構成について検討する。 深度依存型空間変化ブラーのための単純で正確な画像合成ブラー(ICB)モデルを提案する。 前方)モデルは、単一の画像、深度マップ、カメラ軌道から現実的な動きのぼかしを生成する。 さらに、ICBモデルと座標ベースMLPを組み合わせることで、ぼやけた入力から鋭い神経表現を学習する。 実験結果は合成および実例で報告されている。 その結果, icbフォワードモデルは計算効率が良く, 咬合情報の欠如にもかかわらず現実的なぼやけを生じさせることがわかった。 さらに, 鋭い表現を復元する手法は, 分離作業に対する競争的アプローチであることが証明された。

Camera motion introduces spatially varying blur due to the depth changes in the 3D world. This work investigates scene configurations where such blur is produced under parallax camera motion. We present a simple, yet accurate, Image Compositing Blur (ICB) model for depth-dependent spatially varying blur. The (forward) model produces realistic motion blur from a single image, depth map, and camera trajectory. Furthermore, we utilize the ICB model, combined with a coordinate-based MLP, to learn a sharp neural representation from the blurred input. Experimental results are reported for synthetic and real examples. The results verify that the ICB forward model is computationally efficient and produces realistic blur, despite the lack of occlusion information. Additionally, our method for restoring a sharp representation proves to be a competitive approach for the deblurring task.
翻訳日:2023-03-31 16:45:16 公開日:2023-03-30
# トークンスカラー化による視覚変換器の効率化

Making Vision Transformers Efficient from A Token Sparsification View ( http://arxiv.org/abs/2303.08685v2 )

ライセンス: Link先を確認
Shuning Chang, Pichao Wang, Ming Lin, Fan Wang, David Junhao Zhang, Rong Jin, Mike Zheng Shou(参考訳) トークン数に対する二次計算の複雑さは、視覚変換器(ViT)の実用的応用を制限する。 いくつかの研究は、効率的なViTを実現するために冗長トークンをプルークすることを提案する。 しかし これらの手法は一般に (i)劇的な精度低下。 (ii)局所視覚変換器の応用難しさ、及び (iii)ダウンストリームタスクのための非汎用ネットワーク。 本研究では,効率的なグローバル・ローカル・ビジョン・トランスフォーマーのための新しいセマンティック・トークンViT (STViT) を提案する。 セマンティックトークンはクラスタセンターを表し、画像トークンを空間にプールすることで初期化され、グローバルまたはローカルなセマンティック情報を適応的に表現することができる。 クラスタ特性のため、グローバルビジョントランスフォーマーとローカルビジョントランスフォーマーの両方において、いくつかのセマンティックトークンは広大なイメージトークンと同じ効果を実現できる。 例えば、DeiT-(Tiny,Small,Base)上の16のセマンティックトークンは、100%以上の推論速度の改善と60%近いFLOPの削減で同じ精度を達成することができる。 画像分類における大きな成功に加え、我々はこの手法をビデオ認識にも拡張する。 さらに,STViTに基づく詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,従来のトークンスカラー化手法では無力な下流タスクに対して機能する。 実験により,本手法は対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できることがわかった。 コードはhttp://github.com/changsn/STViT-Rで入手できる。

The quadratic computational complexity to the number of tokens limits the practical applications of Vision Transformers (ViTs). Several works propose to prune redundant tokens to achieve efficient ViTs. However, these methods generally suffer from (i) dramatic accuracy drops, (ii) application difficulty in the local vision transformer, and (iii) non-general-purpose networks for downstream tasks. In this work, we propose a novel Semantic Token ViT (STViT), for efficient global and local vision transformers, which can also be revised to serve as backbone for downstream tasks. The semantic tokens represent cluster centers, and they are initialized by pooling image tokens in space and recovered by attention, which can adaptively represent global or local semantic information. Due to the cluster properties, a few semantic tokens can attain the same effect as vast image tokens, for both global and local vision transformers. For instance, only 16 semantic tokens on DeiT-(Tiny,Small,Base) can achieve the same accuracy with more than 100% inference speed improvement and nearly 60% FLOPs reduction; on Swin-(Tiny,Small,Base), we can employ 16 semantic tokens in each window to further speed it up by around 20% with slight accuracy increase. Besides great success in image classification, we also extend our method to video recognition. In addition, we design a STViT-R(ecover) network to restore the detailed spatial information based on the STViT, making it work for downstream tasks, which is powerless for previous token sparsification methods. Experiments demonstrate that our method can achieve competitive results compared to the original networks in object detection and instance segmentation, with over 30% FLOPs reduction for backbone. Code is available at http://github.com/changsn/STViT-R
翻訳日:2023-03-31 16:45:03 公開日:2023-03-30
# 2次元カメラを用いた人体骨格電位からの経済的四元数抽出

Economical Quaternion Extraction from a Human Skeletal Pose Estimate using 2-D Cameras ( http://arxiv.org/abs/2303.08657v2 )

ライセンス: Link先を確認
Sriram Radhakrishna, Adithya Balasubramanyam(参考訳) 本稿では, 2次元カメラフレームから四元数を抽出し, 人体の骨格ポーズを推定する新しいアルゴリズムを提案する。 ポーズ推定の問題は、通常3次元空間における点測定のための深度とユークリッド距離を得るために、ステレオカメラと慣性測定ユニットの使用によって取り組まれる。 しかし、これらのデバイスの使用には、高い信号処理遅延とかなりの金銭的コストが伴う。 人間のポーズ推定のための知覚パイプラインを構築するためのフレームワークであるmediapipeを使用することで、提案アルゴリズムは、人間の物体の画像を5ミリ秒未満のレイテンシでキャプチャする2次元フレームから四元数を抽出すると同時に、単一のカメラフレームと一般的に計算資源の可用性が低いエッジに配置することができる。 このアルゴリズムは、資金の障壁を回避し、制御システムを設計するロボット研究者のアクセシビリティを向上させる。

In this paper, we present a novel algorithm to extract a quaternion from a two dimensional camera frame for estimating a contained human skeletal pose. The problem of pose estimation is usually tackled through the usage of stereo cameras and intertial measurement units for obtaining depth and euclidean distance for measurement of points in 3D space. However, the usage of these devices comes with a high signal processing latency as well as a significant monetary cost. By making use of MediaPipe, a framework for building perception pipelines for human pose estimation, the proposed algorithm extracts a quaternion from a 2-D frame capturing an image of a human object at a sub-fifty millisecond latency while also being capable of deployment at edges with a single camera frame and a generally low computational resource availability, especially for use cases involving last-minute detection and reaction by autonomous robots. The algorithm seeks to bypass the funding barrier and improve accessibility for robotics researchers involved in designing control systems.
翻訳日:2023-03-31 16:44:33 公開日:2023-03-30
# 多変量臨床時系列のクラスタリングによるTBI生理状態の同定

Identifying TBI Physiological States by Clustering of Multivariate Clinical Time-Series ( http://arxiv.org/abs/2303.13024v2 )

ライセンス: Link先を確認
Hamid Ghaderi, Brandon Foreman, Amin Nayebi, Sindhu Tipirneni, Chandan K. Reddy, Vignesh Subbian(参考訳) 外傷性脳損傷(tbi)、呼吸不全、心不全などの急性疾患に対する適切な治療を行うには、多変量時系列データから臨床関連生理状態を決定することが不可欠である。 非時間的クラスタリングやデータ計算や集約技術を利用することで、貴重な情報やバイアス分析が失われる可能性がある。 本研究では,イミューテーションやアグリゲーションを回避してデータの整合性を維持する革新的な自己超越型アプローチであるSLAC-Timeアルゴリズムを適用し,急性患者の状態をより有用な表現を提供する。 大規模な研究データセットにSLAC-Timeを用いてデータをクラスタリングすることにより,3つの異なるTBI生理状態とその特徴プロファイルを同定した。 種々のクラスタリング評価指標を用いて,臨床領域の専門家からの入力を取り入れ,同定された生理状態の検証と解釈を行った。 さらに,臨床経過や介入が患者の状態や状態遷移にどのように影響するかも明らかにした。

Determining clinically relevant physiological states from multivariate time series data with missing values is essential for providing appropriate treatment for acute conditions such as Traumatic Brain Injury (TBI), respiratory failure, and heart failure. Utilizing non-temporal clustering or data imputation and aggregation techniques may lead to loss of valuable information and biased analyses. In our study, we apply the SLAC-Time algorithm, an innovative self-supervision-based approach that maintains data integrity by avoiding imputation or aggregation, offering a more useful representation of acute patient states. By using SLAC-Time to cluster data in a large research dataset, we identified three distinct TBI physiological states and their specific feature profiles. We employed various clustering evaluation metrics and incorporated input from a clinical domain expert to validate and interpret the identified physiological states. Further, we discovered how specific clinical events and interventions can influence patient states and state transitions.
翻訳日:2023-03-31 16:35:04 公開日:2023-03-30
# 自己監督型視覚前訓練のための相関画像モデリング

Correlational Image Modeling for Self-Supervised Visual Pre-Training ( http://arxiv.org/abs/2303.12670v3 )

ライセンス: Link先を確認
Wei Li, Jiahao Xie, Chen Change Loy(参考訳) 自己教師付き視覚前訓練に対する新規かつ驚くほど効果的なアプローチである相関画像モデリング(cim)を提案する。 入力画像(コンテキスト)から画像領域(exemplars)をランダムに抽出し、exemplarsとコンテキスト間の相関マップを予測します。 3つの重要な設計は、非自明で有意義な自己スーパーバイザリータスクとして相関画像モデリングを可能にする。 まず,実例と文脈のペアを生成するために,様々なスケール,形状,回転,変換による画像領域の切り抜きについて検討する。 次に、オンラインおよびターゲットエンコーダを含むブートストラップ学習フレームワークを使用します。 事前トレーニングの間、前者は例を入力として取り、後者はコンテキストを変換する。 第3に,コンテクストがクエリとして機能し,exemplarが値とキーを提供する単純なクロスアテンションブロックを用いて,出力相関マップをモデル化する。 我々は,cimが自己監視および転送ベンチマークにおける現在の技術と同等以上のパフォーマンスを示す。

We introduce Correlational Image Modeling (CIM), a novel and surprisingly effective approach to self-supervised visual pre-training. Our CIM performs a simple pretext task: we randomly crop image regions (exemplars) from an input image (context) and predict correlation maps between the exemplars and the context. Three key designs enable correlational image modeling as a nontrivial and meaningful self-supervisory task. First, to generate useful exemplar-context pairs, we consider cropping image regions with various scales, shapes, rotations, and transformations. Second, we employ a bootstrap learning framework that involves online and target encoders. During pre-training, the former takes exemplars as inputs while the latter converts the context. Third, we model the output correlation maps via a simple cross-attention block, within which the context serves as queries and the exemplars offer values and keys. We show that CIM performs on par or better than the current state of the art on self-supervised and transfer benchmarks.
翻訳日:2023-03-31 16:34:46 公開日:2023-03-30
# Sigmoid Loss for Language Image Pre-Training (英語)

Sigmoid Loss for Language Image Pre-Training ( http://arxiv.org/abs/2303.15343v2 )

ライセンス: Link先を確認
Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer(参考訳) 画像テキスト事前学習のための簡易なペアワイズsgmoid損失を提案する。 ソフトマックス正規化を伴う標準的なコントラスト学習とは異なり、シグモイド損失は画像とテキストのペアのみにのみ依存し、正規化にペアの類似点のグローバルなビューを必要としない。 Sigmoidの損失により、バッチサイズをさらにスケールアップできると同時に、より小さなバッチサイズでもパフォーマンスが向上する。 4つのTPUv4チップで、4kバッチサイズでBase CLIPモデルと20kバッチサイズでLarge LiTモデルをトレーニングでき、後者は2日間で84.5%のImageNetゼロショット精度を実現している。 このバッチサイズと損失のばらつきにより、サンプル対対および正の比率に対する負の影響をさらに研究することができる。 最後に、バッチサイズを最大100万まで極端にプッシュし、バッチサイズの増大によるメリットが急速に減少し、より合理的なバッチサイズである32kが十分であることが分かりました。 我々の研究は、言語イメージ事前学習の品質と効率を改善するためのさらなる研究を動機づけることを願っている。

We propose a simple pairwise sigmoid loss for image-text pre-training. Unlike standard contrastive learning with softmax normalization, the sigmoid loss operates solely on image-text pairs and does not require a global view of the pairwise similarities for normalization. The sigmoid loss simultaneously allows further scaling up the batch size, while also performing better at smaller batch sizes. With only four TPUv4 chips, we can train a Base CLIP model at 4k batch size and a Large LiT model at 20k batch size, the latter achieves 84.5% ImageNet zero-shot accuracy in two days. This disentanglement of the batch size from the loss further allows us to study the impact of examples vs pairs and negative to positive ratio. Finally, we push the batch size to the extreme, up to one million, and find that the benefits of growing batch size quickly diminish, with a more reasonable batch size of 32k being sufficient. We hope our research motivates further explorations in improving the quality and efficiency of language-image pre-training.
翻訳日:2023-03-31 16:19:55 公開日:2023-03-30
# アウトカム駆動サブグループに向けて:6つのうつ病治療研究にわたる機械学習分析

Towards Outcome-Driven Patient Subgroups: A Machine Learning Analysis Across Six Depression Treatment Studies ( http://arxiv.org/abs/2303.15202v2 )

ライセンス: Link先を確認
David Benrimoh, Akiva Kleinerman, Toshi A. Furukawa, Charles F. Reynolds III, Eric Lenze, Jordan Karp, Benoit Mulsant, Caitrin Armstrong, Joseph Mehltretter, Robert Fratila, Kelly Perlman, Sonia Israel, Myriam Tanguay-Sela, Christina Popescu, Grace Golden, Sabrina Qassim, Alexandra Anacleto, Adam Kapelner, Ariel Rosenfeld, Gustavo Turecki(参考訳) 主要なうつ病性障害(mdd)は不均一な疾患であり、複数の基礎となる神経生物学的基質が治療反応の変動と関連している可能性がある。 この可変性と予測結果の源泉を理解することは明白である。 機械学習はmddで治療反応を予測することが期待されているが、機械学習モデルの臨床的解釈性の欠如が制限されている。 うつ病に対する薬理学的治療(total n = 5438)の6つの臨床試験から,治療関連患者クラスターの導出に使用可能なニューラルネットワークモデルである差分原型ニューラルネットワーク(DPNN)を用いて,差分処理応答の確率を学習しながら分析した。 臨床および人口統計データを用いて, 寛解・個別寛解確率を分類し, 5本の単眼および3種類の組み合わせ治療を訓練した。 モデルの妥当性と臨床的有用性は,AUC (Area under the curve) とモデル誘導治療による試料送還率の改善に基づいて測定した。 ポストホック分析は、トレーニング中に学んだ患者プロトタイプに基づいてクラスター(サブグループ)を得た。 特徴分布と治療特異的な結果の違いを評価することにより, 解釈可能性の評価を行った。 3-プロトタイプモデルではAUCは0.66であり、標本再送率に比べて絶対的な人口再送率の向上が期待された。 臨床的に解釈可能な3つの治療関連患者クラスターを同定した。 機械学習モデルを用いて新しい治療関連患者のプロファイルを作成することが可能であり、うつ病の精密医療を改善することができる。 注:このモデルは、現在、アクティブな臨床試験の対象ではなく、臨床用途を意図していない。

Major depressive disorder (MDD) is a heterogeneous condition; multiple underlying neurobiological substrates could be associated with treatment response variability. Understanding the sources of this variability and predicting outcomes has been elusive. Machine learning has shown promise in predicting treatment response in MDD, but one limitation has been the lack of clinical interpretability of machine learning models. We analyzed data from six clinical trials of pharmacological treatment for depression (total n = 5438) using the Differential Prototypes Neural Network (DPNN), a neural network model that derives patient prototypes which can be used to derive treatment-relevant patient clusters while learning to generate probabilities for differential treatment response. A model classifying remission and outputting individual remission probabilities for five first-line monotherapies and three combination treatments was trained using clinical and demographic data. Model validity and clinical utility were measured based on area under the curve (AUC) and expected improvement in sample remission rate with model-guided treatment, respectively. Post-hoc analyses yielded clusters (subgroups) based on patient prototypes learned during training. Prototypes were evaluated for interpretability by assessing differences in feature distributions and treatment-specific outcomes. A 3-prototype model achieved an AUC of 0.66 and an expected absolute improvement in population remission rate compared to the sample remission rate. We identified three treatment-relevant patient clusters which were clinically interpretable. It is possible to produce novel treatment-relevant patient profiles using machine learning models; doing so may improve precision medicine for depression. Note: This model is not currently the subject of any active clinical trials and is not intended for clinical use.
翻訳日:2023-03-31 16:18:30 公開日:2023-03-30
# 命令型言語モデルを用いた統一テキスト構造化

Unified Text Structuralization with Instruction-tuned Language Models ( http://arxiv.org/abs/2303.14956v2 )

ライセンス: Link先を確認
Xuanfan Ni, Piji Li and Huayang Li(参考訳) テキスト構造化は自然言語処理(NLP)の重要な分野の一つであり、情報抽出(IE)と構造形式化から構成される。 しかし、現在のテキスト構造化の研究は、専門的な専門知識を必要とする異なるドメインや言語から手動で注釈付けされた高品質なデータセットが不足している。 さらに、ほとんどのIEメソッドは、エンティティ、リレーション、イベントといった特定のタイプの構造化データのために設計されており、他人に一般化するのは困難である。 本研究では,テキストから多種多様な構造を抽出するために,大規模言語モデル(llm)を指示する簡易かつ効率的な手法を提案する。 より具体的には、テキストをllmに送る前に、それぞれ所望のieタスクと構造体タイプを示すプレフィックスと接尾辞命令を追加します。 2つのLCMの実験では、言語モデルが様々な言語や知識のデータセット上で、他の最先端のメソッドと同等に動作し、命令の内容を変更することで、他のIEサブタスクに一般化できることが示されている。 私たちのアプローチのもう1つの利点は、研究者がローソースやドメイン固有のシナリオ(例えば金融や法学の分野)で、低コストでデータセットを構築するのに役立つことです。

Text structuralization is one of the important fields of natural language processing (NLP) consists of information extraction (IE) and structure formalization. However, current studies of text structuralization suffer from a shortage of manually annotated high-quality datasets from different domains and languages, which require specialized professional knowledge. In addition, most IE methods are designed for a specific type of structured data, e.g., entities, relations, and events, making them hard to generalize to others. In this work, we propose a simple and efficient approach to instruct large language model (LLM) to extract a variety of structures from texts. More concretely, we add a prefix and a suffix instruction to indicate the desired IE task and structure type, respectively, before feeding the text into a LLM. Experiments on two LLMs show that this approach can enable language models to perform comparable with other state-of-the-art methods on datasets of a variety of languages and knowledge, and can generalize to other IE sub-tasks via changing the content of instruction. Another benefit of our approach is that it can help researchers to build datasets in low-source and domain-specific scenarios, e.g., fields in finance and law, with low cost.
翻訳日:2023-03-31 16:18:06 公開日:2023-03-30
# 両世界のベスト:表データと画像データを用いたマルチモーダルコントラスト学習

Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging Data ( http://arxiv.org/abs/2303.14080v3 )

ライセンス: Link先を確認
Paul Hager, Martin J. Menten, Daniel Rueckert(参考訳) 医用データセット、特にバイオバンクは、画像に加えて豊富な臨床情報を含む広範な表型データを含むことが多い。 実際には、臨床医は多様性とスケールの両面でデータが少ないが、いまだにディープラーニングソリューションの展開を望んでいる。 医療データセットのサイズの増加と高価なアノテーションコストに加えて、マルチモーダルで事前訓練し、一様予測できる教師なしの方法の必要性が高まっている。 これらのニーズに対処するために,画像と表データを利用して非モーダルエンコーダを訓練する,自己指導型コントラスト学習フレームワークを提案する。 我々のソリューションはSimCLRとSCARFという2つの主要なコントラスト学習戦略を組み合わせており、シンプルで効果的です。 実験では,心mri画像と4万人の英国バイオバンク患者から120の臨床的特徴を用いて,心筋梗塞および冠動脈疾患(cad)のリスクを予測することにより,枠組みの強度を実証する。 さらに,DVMカー広告データセットを用いて,自然画像へのアプローチの一般化可能性を示す。 表データの高い解釈可能性を利用し,帰属実験およびアブレーション実験により,形態計測表の特徴は,大きさと形状を記述し,比較学習過程において重要度を大きくし,学習埋め込みの質を向上させることを見出した。 最後に,教師付きコントラスト学習の新たな形式であるlaaf( label as a feature)を導入し,マルチモーダル事前学習中に基底真理ラベルを表型特徴として付加し,教師付きコントラストベースラインを上回った。

Medical datasets and especially biobanks, often contain extensive tabular data with rich clinical information in addition to images. In practice, clinicians typically have less data, both in terms of diversity and scale, but still wish to deploy deep learning solutions. Combined with increasing medical dataset sizes and expensive annotation costs, the necessity for unsupervised methods that can pretrain multimodally and predict unimodally has risen. To address these needs, we propose the first self-supervised contrastive learning framework that takes advantage of images and tabular data to train unimodal encoders. Our solution combines SimCLR and SCARF, two leading contrastive learning strategies, and is simple and effective. In our experiments, we demonstrate the strength of our framework by predicting risks of myocardial infarction and coronary artery disease (CAD) using cardiac MR images and 120 clinical features from 40,000 UK Biobank subjects. Furthermore, we show the generalizability of our approach to natural images using the DVM car advertisement dataset. We take advantage of the high interpretability of tabular data and through attribution and ablation experiments find that morphometric tabular features, describing size and shape, have outsized importance during the contrastive learning process and improve the quality of the learned embeddings. Finally, we introduce a novel form of supervised contrastive learning, label as a feature (LaaF), by appending the ground truth label as a tabular feature during multimodal pretraining, outperforming all supervised contrastive baselines.
翻訳日:2023-03-31 16:17:44 公開日:2023-03-30
# ステレオシーン:BEV支援のステレオマッチングパワーで3Dセマンティックシーンが完成

StereoScene: BEV-Assisted Stereo Matching Empowers 3D Semantic Scene Completion ( http://arxiv.org/abs/2303.13959v2 )

ライセンス: Link先を確認
Bohan Li, Yasheng Sun, Xin Jin, Wenjun Zeng, Zheng Zhu, Xiaoefeng Wang, Yunpeng Zhang, James Okae, Hang Xiao, Dalong Du(参考訳) 3Dセマンティックシーン補完(SSC)は、不完全な観察から密集した3Dシーンを推測する必要がある不適切な課題である。 従来の手法では、3Dの幾何学的入力を明示的に取り入れるか、単眼のRGB画像の後方で学習した3Dに頼っていた。 しかし、LiDARのような3Dセンサーは高価で侵入性があり、モノクラーカメラは固有の曖昧さのために正確な幾何学をモデル化する上で困難に直面している。 本研究では,外部の3dセンサを使わずに,軽量カメラ入力を最大限に活用する3dセマンティックシーン補完(ssc)のためのステレオセンシングを提案する。 私たちの重要な洞察は、ステレオマッチングを利用して幾何学的曖昧さを解決することです。 未マッチング領域におけるロバスト性を改善するため,リッチな文脈情報による幻覚能力を高めるために,鳥眼ビュー(BEV)表現を導入する。 ステレオおよびBEV表現の上に、相互インタラクティブアグリゲーション(MIA)モジュールを慎重に設計し、そのパワーを完全に解放する。 具体的には、信頼度再重み付けを付加した双方向相互作用変換器(BIT)を用いて相互誘導による信頼性予測を行い、二重体積集約(DVA)モジュールは相補的な集約を容易にするように設計されている。 semantickittiの実験結果は、提案されたステレオシーンが最先端のカメラベース手法を上回り、相対的に26.9%、セマンティクスが38.6%改善していることを示している。

3D semantic scene completion (SSC) is an ill-posed task that requires inferring a dense 3D scene from incomplete observations. Previous methods either explicitly incorporate 3D geometric input or rely on learnt 3D prior behind monocular RGB images. However, 3D sensors such as LiDAR are expensive and intrusive while monocular cameras face challenges in modeling precise geometry due to the inherent ambiguity. In this work, we propose StereoScene for 3D Semantic Scene Completion (SSC), which explores taking full advantage of light-weight camera inputs without resorting to any external 3D sensors. Our key insight is to leverage stereo matching to resolve geometric ambiguity. To improve its robustness in unmatched areas, we introduce bird's-eye-view (BEV) representation to inspire hallucination ability with rich context information. On top of the stereo and BEV representations, a mutual interactive aggregation (MIA) module is carefully devised to fully unleash their power. Specifically, a Bi-directional Interaction Transformer (BIT) augmented with confidence re-weighting is used to encourage reliable prediction through mutual guidance while a Dual Volume Aggregation (DVA) module is designed to facilitate complementary aggregation. Experimental results on SemanticKITTI demonstrate that the proposed StereoScene outperforms the state-of-the-art camera-based methods by a large margin with a relative improvement of 26.9% in geometry and 38.6% in semantic.
翻訳日:2023-03-31 16:17:15 公開日:2023-03-30
# LON-GNN:学習可能な直交基底を持つスペクトルGNN

LON-GNN: Spectral GNNs with Learnable Orthonormal Basis ( http://arxiv.org/abs/2303.13750v2 )

ライセンス: Link先を確認
Qian Tao, Zhen Wang, Wenyuan Yu, Yaliang Li, Zhewei Wei(参考訳) 近年,スペクトルグラフニューラルネットワーク(GNN)手法は,多くのノードレベルタスクにおいて最上位性能を達成するために,学習可能な係数を多項式ベースとして活用している。 様々な多項式基底が研究されているが、与えられたグラフの最適選択ではない固定多項式基底を採用する。 また,これらの手法のいわゆる過渡問題を特定し,その非正規化戦略と非正規化基底にいくらか根ざしていることを示す。 本稿では,この2つの課題に対する最初の試みについて述べる。 ヤコビ多項式を用いて,学習可能な正規直交基底を持つ新しいスペクトルgnn,lon-gnnを設計し,正規化係数が現在学習フィルタ関数のノルムを正規化することと同値になることを示す。 様々なグラフデータセットについて広範な実験を行い,lon-gnnの適合性と一般化能力を評価した。

In recent years, a plethora of spectral graph neural networks (GNN) methods have utilized polynomial basis with learnable coefficients to achieve top-tier performances on many node-level tasks. Although various kinds of polynomial bases have been explored, each such method adopts a fixed polynomial basis which might not be the optimal choice for the given graph. Besides, we identify the so-called over-passing issue of these methods and show that it is somewhat rooted in their less-principled regularization strategy and unnormalized basis. In this paper, we make the first attempts to address these two issues. Leveraging Jacobi polynomials, we design a novel spectral GNN, LON-GNN, with Learnable OrthoNormal bases and prove that regularizing coefficients becomes equivalent to regularizing the norm of learned filter function now. We conduct extensive experiments on diverse graph datasets to evaluate the fitting and generalization capability of LON-GNN, where the results imply its superiority.
翻訳日:2023-03-31 16:16:49 公開日:2023-03-30
# Adaptive Voronoi NeRFs

Adaptive Voronoi NeRFs ( http://arxiv.org/abs/2303.16001v2 )

ライセンス: Link先を確認
Tim Elsner, Victor Czech, Julia Berger, Zain Selman, Isaak Lim, Leif Kobbelt(参考訳) neural radiance fields(nerfs)は、登録された画像のセットから3dシーンを表現することを学ぶ。 シーンのサイズが大きくなると、すべての詳細を捉えるために、一般的にニューラルネットワークによって表現されるより複雑な関数が要求される。 トレーニングと推論は、画像当たり何百万回もニューラルネットワークをクエリし、非現実的に遅くなります。 このような複雑な関数は、速度を改善するために複数の単純関数に置き換えることができるので、ボロノイ図形の階層構造がシーンを分割するのに適切な選択であることを示す。 それぞれのVoronoiセルに独自のNeRFを組み込むことで,シーン表現を迅速に学習することができる。 本稿では,ネットワーク間で情報を均等に分配することで,トレーニング中の品質向上を向上する空間の直感的な分割と,トップダウン適応改良によるアーティファクトの回避を提案する。 我々のフレームワークは基礎となるNeRF法とは無関係で実装が容易であり、学習とレンダリングの高速化のために様々なNeRF変種に適用することができる。

Neural Radiance Fields (NeRFs) learn to represent a 3D scene from just a set of registered images. Increasing sizes of a scene demands more complex functions, typically represented by neural networks, to capture all details. Training and inference then involves querying the neural network millions of times per image, which becomes impractically slow. Since such complex functions can be replaced by multiple simpler functions to improve speed, we show that a hierarchy of Voronoi diagrams is a suitable choice to partition the scene. By equipping each Voronoi cell with its own NeRF, our approach is able to quickly learn a scene representation. We propose an intuitive partitioning of the space that increases quality gains during training by distributing information evenly among the networks and avoids artifacts through a top-down adaptive refinement. Our framework is agnostic to the underlying NeRF method and easy to implement, which allows it to be applied to various NeRF variants for improved learning and rendering speeds.
翻訳日:2023-03-31 16:10:48 公開日:2023-03-30
# 半教師付き回帰深層学習モデルを用いた古絵画の平織りにおけるスレッドカウント

Thread Counting in Plain Weave for Old Paintings Using Semi-Supervised Regression Deep Learning Models ( http://arxiv.org/abs/2303.15999v2 )

ライセンス: Link先を確認
A. D. Bejarano, Juan J. Murillo-Fuentes, and Laura Alba-Carcelen(参考訳) 本研究では, 深層学習に基づく回帰手法を開発し, 平織りキャンバス解析のためのスレッド密度推定を行う。 以前のアプローチは、いくつかのシナリオでは非常に堅牢なFourier分析に基づくものだったが、他のいくつかのシナリオでは失敗している。例えば、手前の絵を事前にラベル付けする機械学習ツールや、事前にラベル付けする必要のないすべてのシナリオで優れた見積もりを提供するスレッド交差ポイントのセグメンテーションなどだ。 交差点を同定した後、密度の推定を行うため、セグメンテーションアプローチは時間を要する。 本稿では、回帰ディープラーニングモデルを用いて、画像から直接スレッドの密度を計算することにより、このステップを回避する。 また、入力画像の初期前処理にいくつかの改善を加え、最終的なエラーに影響を及ぼす。 いくつかのモデルが提案され、最良のモデルを維持するために分析されます。 さらに,半教師付きアプローチを導入することで,密度推定誤差をさらに低減する。 提案アルゴリズムの性能は,Ribera,Vel\azquez,Poussinの3つの手法を用いて解析し,従来の手法と比較した。 最後に、この手法は、プラド美術館の著者や傑作の変更を支援するために実践されている。

In this work, the authors develop regression approaches based on deep learning to perform thread density estimation for plain weave canvas analysis. Previous approaches were based on Fourier analysis, which is quite robust for some scenarios but fails in some others, in machine learning tools, that involve pre-labeling of the painting at hand, or the segmentation of thread crossing points, that provides good estimations in all scenarios with no need of pre-labeling. The segmentation approach is time-consuming as the estimation of the densities is performed after locating the crossing points. In this novel proposal, we avoid this step by computing the density of threads directly from the image with a regression deep learning model. We also incorporate some improvements in the initial preprocessing of the input image with an impact on the final error. Several models are proposed and analyzed to retain the best one. Furthermore, we further reduce the density estimation error by introducing a semi-supervised approach. The performance of our novel algorithm is analyzed with works by Ribera, Vel\'azquez, and Poussin where we compare our results to the ones of previous approaches. Finally, the method is put into practice to support the change of authorship or a masterpiece at the Museo del Prado.
翻訳日:2023-03-31 16:10:29 公開日:2023-03-30
# 資源制約付き無線エッジネットワークを用いた並列分割学習

Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks ( http://arxiv.org/abs/2303.15991v2 )

ライセンス: Link先を確認
Zheng Lin, Guangyu Zhu, Yiqin Deng, Xianhao Chen, Yue Gao, Kaibin Huang, Yuguang Fang(参考訳) ますます深いニューラルネットワークは、フェデレーション学習(FL)のような、プライバシ強化による分散学習の、リソース制約のあるデバイスへの民主化を妨げる。 本稿では、エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱し、複数のクライアントデバイスがレイヤーワイドモデル分割を介してエッジサーバに大規模なトレーニングワークロードをオフロードできるようにする。 既存のPSLスキームが過度なトレーニング遅延と大量のデータ伝送を発生させるのを観察することにより、モデルトレーニングを加速するために、効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。 具体的には、epslはクライアント側のモデルのトレーニングを並列化し、ラスト層勾配アグリゲーションを通じてバックプロパゲーション(bp)の局所勾配の次元を削減し、サーバ側のトレーニングと通信遅延を大幅に削減する。 さらに,クライアントデバイスにおける不均質なチャネル条件と計算能力を考慮することで,サブチャネル割り当て,電力制御,カット層選択を共同で最適化し,ラウンド単位のレイテンシを最小化する。 シミュレーションの結果,epslフレームワークは,目標精度を達成するのに必要なトレーニングレイテンシを,最先端のベンチマークと比較して有意に低減し,最適化せずにリソース管理とレイヤ分割戦略をカスタマイズすることでレイテンシを大幅に削減できることがわかった。

The increasingly deeper neural networks hinder the democratization of privacy-enhancing distributed learning, such as federated learning (FL), to resource-constrained devices. To overcome this challenge, in this paper, we advocate the integration of edge computing paradigm and parallel split learning (PSL), allowing multiple client devices to offload substantial training workloads to an edge server via layer-wise model split. By observing that existing PSL schemes incur excessive training latency and large volume of data transmissions, we propose an innovative PSL framework, namely, efficient parallel split learning (EPSL), to accelerate model training. To be specific, EPSL parallelizes client-side model training and reduces the dimension of local gradients for back propagation (BP) via last-layer gradient aggregation, leading to a significant reduction in server-side training and communication latency. Moreover, by considering the heterogeneous channel conditions and computing capabilities at client devices, we jointly optimize subchannel allocation, power control, and cut layer selection to minimize the per-round latency. Simulation results show that the proposed EPSL framework significantly decreases the training latency needed to achieve a target accuracy compared with the state-of-the-art benchmarks, and the tailored resource management and layer split strategy can considerably reduce latency than the counterpart without optimization.
翻訳日:2023-03-31 16:10:07 公開日:2023-03-30
# TraffNet: ロードネットワークディジタル双生児のためのトラフィック生成の因果関係の学習

TraffNet: Learning Causality of Traffic Generation for Road Network Digital Twins ( http://arxiv.org/abs/2303.15954v2 )

ライセンス: Link先を確認
Ming Xu, Yunyi Ma, Ruimin Li, Geqi Qi, Xiangfu Meng, Haibo Jin(参考訳) 道路ネットワークデジタルツイン(RNDT)は、次世代のインテリジェント交通システムの開発において重要な役割を担い、より正確な交通計画と制御を可能にしている。 ジャスト・イン・タイム(JIT)意思決定をサポートするため、RNDTはオンラインセンサデータからトラフィックパターンを動的に学習し、高忠実度シミュレーション結果を生成するモデルを必要とする。 グラフニューラルネットワークに基づく現在の交通予測技術は、最先端の性能を達成したが、これらの手法は、交通需要や経路選択といった交通発生の原因を無視して、過去の交通データのマイニング相関によって、将来の交通を予測するだけである。 したがって、そのパフォーマンスはJITの判断には信頼できない。 このギャップを埋めるために,車両軌道データから交通量の因果関係を学習するtraffnetと呼ばれる新しいディープラーニングフレームワークを提案する。 まず,ヘテロジニアスグラフを用いて道路網を表現し,モデルが交通量の因果的特徴を取り入れられるようにした。 次に、交通分野の知識を活かした交通因果学習手法を提案し、各道路区間の走行要求と経路レベルの依存性を符号化した埋め込みベクトルを学習する。 そして、トラフィック生成の基盤となるプロセスに適合するように、時間的依存関係をモデル化する。 最後に、実験はTraffNetの有効性を検証する。 traffnetのコードはhttps://github.com/mayunyi-1999/traffnet_code.gitで入手できる。

Road network digital twins (RNDTs) play a critical role in the development of next-generation intelligent transportation systems, enabling more precise traffic planning and control. To support just-in-time (JIT) decision making, RNDTs require a model that dynamically learns the traffic patterns from online sensor data and generates high-fidelity simulation results. Although current traffic prediction techniques based on graph neural networks have achieved state-of-the-art performance, these techniques only predict future traffic by mining correlations in historical traffic data, disregarding the causes of traffic generation, such as traffic demands and route selection. Therefore, their performance is unreliable for JIT decision making. To fill this gap, we introduce a novel deep learning framework called TraffNet that learns the causality of traffic volume from vehicle trajectory data. First, we use a heterogeneous graph to represent the road network, allowing the model to incorporate causal features of traffic volumes. Next, motivated by the traffic domain knowledge, we propose a traffic causality learning method to learn an embedding vector that encodes travel demands and path-level dependencies for each road segment. Then, we model temporal dependencies to match the underlying process of traffic generation. Finally, the experiments verify the utility of TraffNet. The code of TraffNet is available at https://github.com/mayunyi-1999/TraffNet_code.git.
翻訳日:2023-03-31 16:09:41 公開日:2023-03-30
# クロスビュー部分サンプルとプロトタイプアライメントを用いたディープ不完全マルチビュークラスタリング

Deep Incomplete Multi-view Clustering with Cross-view Partial Sample and Prototype Alignment ( http://arxiv.org/abs/2303.15689v2 )

ライセンス: Link先を確認
Jiaqi Jin, Siwei Wang, Zhibin Dong, Xinwang Liu, En Zhu(参考訳) 既存のマルチビュークラスタリングの成功は、複数のビューにわたるサンプル整合性の仮定に依存する。 しかし、実世界のシナリオでは、データの破損やセンサーの故障によってマルチビューのサンプルが部分的に利用可能であり、不完全なマルチビュークラスタリング研究(IMVC)につながる。 IMVCに対処する試みはいくつか提案されているが、以下の欠点に悩まされている。 一 既存の方法は、主に、各サンプルの表示を全く同じように強制する対面的学習を採用しており、表示の相違や柔軟性を無視することができる。 二 複数のビューにわたって観測されていないサンプルがないため、得られたクラスターのプロトタイプは、不整合で偏りがあり、誤った融合につながる可能性がある。 上記の問題に対処するため,我々は,ディープ不完全マルチビュークラスタリングのためのクロスビュー部分サンプルおよびプロトタイプアライメントネットワーク(cpspan)を提案する。 まず,既存のコントラストベース手法とは異なり,ペアオブザーバデータアライメントを「プロキシ教師信号」として採用し,ビュー間のインスタンス間対応構成をガイドする。 次に,imvcにおけるシフトプロトタイプについて,ビュー間の不完全分布校正を実現するためのプロトタイプアライメントモジュールを提案する。 大規模な実験結果から提案モジュールの有効性が明らかとなり,既存のIMVCのベンチマークデータセットと比較すると,注目すべき性能向上が得られた。

The success of existing multi-view clustering relies on the assumption of sample integrity across multiple views. However, in real-world scenarios, samples of multi-view are partially available due to data corruption or sensor failure, which leads to incomplete multi-view clustering study (IMVC). Although several attempts have been proposed to address IMVC, they suffer from the following drawbacks: i) Existing methods mainly adopt cross-view contrastive learning forcing the representations of each sample across views to be exactly the same, which might ignore view discrepancy and flexibility in representations; ii) Due to the absence of non-observed samples across multiple views, the obtained prototypes of clusters might be unaligned and biased, leading to incorrect fusion. To address the above issues, we propose a Cross-view Partial Sample and Prototype Alignment Network (CPSPAN) for Deep Incomplete Multi-view Clustering. Firstly, unlike existing contrastive-based methods, we adopt pair-observed data alignment as 'proxy supervised signals' to guide instance-to-instance correspondence construction among views. Then, regarding of the shifted prototypes in IMVC, we further propose a prototype alignment module to achieve incomplete distribution calibration across views. Extensive experimental results showcase the effectiveness of our proposed modules, attaining noteworthy performance improvements when compared to existing IMVC competitors on benchmark datasets.
翻訳日:2023-03-31 16:09:17 公開日:2023-03-30
# Sauvegrain 法による骨年齢評価のための自己累積視覚変換器

Self-accumulative Vision Transformer for Bone Age Assessment Using the Sauvegrain Method ( http://arxiv.org/abs/2303.16557v2 )

ライセンス: Link先を確認
Hong-Jun Choi, Dongbin Na, Kyungjin Cho, Byunguk Bae, Seo Taek Kong, Hyunjoon An(参考訳) 本研究では,Sauvegrain法に基づく多視点マルチタスク分類モデルを用いた骨年齢評価(BAA)に対する新しいアプローチを提案する。 肘のそれぞれのランドマークの成熟度を評価し骨年齢を予測するSauvegrain法を自動化するための簡単な解決策は、興味のある各領域(RoI)を評価するために個別に分類器を訓練することであるが、このアプローチはアクセス可能な情報をローカルな形態に制限し、計算コストを増大させる。 本研究は,多視点多タスク問題において発生する異方性挙動を緩和し,トークン再生と局所的注意バイアスを適用して視覚変換器の有効性を制限する自己累積視覚変換器(SAT)を提案する。 いくつかの実験では、SATはランドマーク間の関係をうまく利用し、グローバルな形態的特徴を学習し、その結果、以前の研究よりも0.11低いBAAの平均的な絶対誤差をもたらすことを示した。 さらに、提案したSATは、前の作業の個々の分類器のアンサンブルよりも4倍のパラメータを持つ。 最後に、この研究は、青年期における異常成長の診断におけるbaaの正確性と効率を改善する、臨床実践に有益な意味を与えている。

This study presents a novel approach to bone age assessment (BAA) using a multi-view, multi-task classification model based on the Sauvegrain method. A straightforward solution to automating the Sauvegrain method, which assesses a maturity score for each landmark in the elbow and predicts the bone age, is to train classifiers independently to score each region of interest (RoI), but this approach limits the accessible information to local morphologies and increases computational costs. As a result, this work proposes a self-accumulative vision transformer (SAT) that mitigates anisotropic behavior, which usually occurs in multi-view, multi-task problems and limits the effectiveness of a vision transformer, by applying token replay and regional attention bias. A number of experiments show that SAT successfully exploits the relationships between landmarks and learns global morphological features, resulting in a mean absolute error of BAA that is 0.11 lower than that of the previous work. Additionally, the proposed SAT has four times reduced parameters than an ensemble of individual classifiers of the previous work. Lastly, this work also provides informative implications for clinical practice, improving the accuracy and efficiency of BAA in diagnosing abnormal growth in adolescents.
翻訳日:2023-03-31 16:01:29 公開日:2023-03-30
# 訓練データ再構成のための非漸近下限

Non-Asymptotic Lower Bounds For Training Data Reconstruction ( http://arxiv.org/abs/2303.16372v2 )

ライセンス: Link先を確認
Prateeti Mukherjee and Satya Lokam(参考訳) 本研究では,データ再構成攻撃(dras)の学習能力に対する個人学習アルゴリズムの意味的保証について検討する。 この目的のために, 差分プライバシー (DP) とメートル法差プライバシー (mDP) を満たす学習者に対して, 敵の復元誤差の非漸近的最小限境界を導出する。 さらに,後者に対する下限解析は,入力データ次元が敵の問合せ予算よりも大きい場合の高次元構造にも適用できることを示した。 DP-SGD や Projected Noisy SGD のような一般的な深層学習アルゴリズムのプライバシー解析を拡張して,メートル法差分プライバシーのより広範な概念をカバーする。

We investigate semantic guarantees of private learning algorithms for their resilience to training Data Reconstruction Attacks (DRAs) by informed adversaries. To this end, we derive non-asymptotic minimax lower bounds on the adversary's reconstruction error against learners that satisfy differential privacy (DP) and metric differential privacy (mDP). Furthermore, we demonstrate that our lower bound analysis for the latter also covers the high dimensional regime, wherein, the input data dimensionality may be larger than the adversary's query budget. Motivated by the theoretical improvements conferred by metric DP, we extend the privacy analysis of popular deep learning algorithms such as DP-SGD and Projected Noisy SGD to cover the broader notion of metric differential privacy.
翻訳日:2023-03-31 16:01:07 公開日:2023-03-30
# PCA-Netによる演算子学習--上と下の境界

Operator learning with PCA-Net: upper and lower complexity bounds ( http://arxiv.org/abs/2303.16317v2 )

ライセンス: Link先を確認
Samuel Lanthaler(参考訳) PCA-Netは、ニューラルネットワークと主成分分析(PCA)を組み合わせて、無限次元関数空間間の近似演算子を提案する。 本研究は, 基礎となる演算子とデータ生成分布について最小限の仮定の下で, 新たな普遍近似結果が導出される。 次に、PCA-Netを用いた効率的な演算子学習のための2つの潜在的障害を特定し、より低い複雑性境界を通して正確にし、第1に、PCA固有値の緩やかな減衰によって測定された出力分布の複雑さに関連する。 もう1つの障害は、無限次元の入力空間と出力空間の間の作用素空間の固有の複雑さに関係し、その結果、厳密で定量化可能な次元の呪いのステートメントとなる。 これらの下限に加えて、高次複雑性境界が導出される。 PCA固有値の代数的減衰を確実にするために、適切な滑らか度基準を示す。 さらに、PCA-Netは、ダーシー流とナビエ・ストークス方程式から生じる特定の興味を持つ演算子に対する次元性の一般的な呪いを克服できることを示した。

PCA-Net is a recently proposed neural operator architecture which combines principal component analysis (PCA) with neural networks to approximate operators between infinite-dimensional function spaces. The present work develops approximation theory for this approach, improving and significantly extending previous work in this direction: First, a novel universal approximation result is derived, under minimal assumptions on the underlying operator and the data-generating distribution. Then, two potential obstacles to efficient operator learning with PCA-Net are identified, and made precise through lower complexity bounds; the first relates to the complexity of the output distribution, measured by a slow decay of the PCA eigenvalues. The other obstacle relates to the inherent complexity of the space of operators between infinite-dimensional input and output spaces, resulting in a rigorous and quantifiable statement of the curse of dimensionality. In addition to these lower bounds, upper complexity bounds are derived. A suitable smoothness criterion is shown to ensure an algebraic decay of the PCA eigenvalues. Furthermore, it is shown that PCA-Net can overcome the general curse of dimensionality for specific operators of interest, arising from the Darcy flow and the Navier-Stokes equations.
翻訳日:2023-03-31 16:00:52 公開日:2023-03-30
# 重複サンプルを限定したコミュニケーション効率の高い垂直フェデレーション学習

Communication-Efficient Vertical Federated Learning with Limited Overlapping Samples ( http://arxiv.org/abs/2303.16270v2 )

ライセンス: Link先を確認
Jingwei Sun, Ziyue Xu, Dong Yang, Vishwesh Nath, Wenqi Li, Can Zhao, Daguang Xu, Yiran Chen, Holger R. Roth(参考訳) フェデレーション学習(federated learning)は、クライアントがローカルデータを共有せずにグローバルモデルをトレーニングできる、一般的なコラボレーティブ学習アプローチである。 垂直連合学習(VFL)は、クライアント上のデータが異なる特徴空間を持つが、重複するサンプルを共有するシナリオを扱う。 既存のvflアプローチは高い通信コストを被り、現実世界で一般的に見られる重複したサンプルを効率的に処理できない。 本稿では,半教師付き学習に基づく通信ボトルネックとサンプル重複問題を同時に解決可能な,実用的な垂直フェデレート学習(vfl)フレームワークである \textbf{one-shot vfl}を提案する。 また,サーバとクライアント間の通信ラウンドを1回だけ行うことで,さらに精度を向上させるために, \textbf{few-shot vfl}を提案する。 提案するフレームワークでは,クライアントはサーバとの通信を1回,あるいは数回のみ行わなければなりません。 提案するVFLフレームワークを画像と表のデータセットの両方で評価する。 提案手法は, CIFAR-10で評価した場合, 精度を46.5\%以上向上し, 通信コストを330$\times$以上削減できる。 我々のコードは \url{https://nvidia.github.io/NVFlare/research/one-shot-vfl} で公開されます。

Federated learning is a popular collaborative learning approach that enables clients to train a global model without sharing their local data. Vertical federated learning (VFL) deals with scenarios in which the data on clients have different feature spaces but share some overlapping samples. Existing VFL approaches suffer from high communication costs and cannot deal efficiently with limited overlapping samples commonly seen in the real world. We propose a practical vertical federated learning (VFL) framework called \textbf{one-shot VFL} that can solve the communication bottleneck and the problem of limited overlapping samples simultaneously based on semi-supervised learning. We also propose \textbf{few-shot VFL} to improve the accuracy further with just one more communication round between the server and the clients. In our proposed framework, the clients only need to communicate with the server once or only a few times. We evaluate the proposed VFL framework on both image and tabular datasets. Our methods can improve the accuracy by more than 46.5\% and reduce the communication cost by more than 330$\times$ compared with state-of-the-art VFL methods when evaluated on CIFAR-10. Our code will be made publicly available at \url{https://nvidia.github.io/NVFlare/research/one-shot-vfl}.
翻訳日:2023-03-31 16:00:30 公開日:2023-03-30
# 分布分解による一様学習者のリフティング

Lifting uniform learners via distributional decomposition ( http://arxiv.org/abs/2303.16208v2 )

ライセンス: Link先を確認
Guy Blanc, Jane Lange, Ali Malik, Li-Yang Tan(参考訳) 均一分布の下で動作する任意のPAC学習アルゴリズムが、ブラックボックス方式で任意の未知分布である$\mathcal{D}$の下で機能するアルゴリズムに変換可能であることを示す。 変換の効率性は、$\mathcal{d}$の固有の複雑さとともにスケールし、$\mathrm{poly}(n, (md)^d)$の分布に対して$\{\pm 1\}^n$のpmfが深さ$d$決定木によって計算される。 単調分布の場合、変換は$\mathcal{d}$のサンプルのみを使用し、一般にはsubcube条件付きサンプルを使用する。 重要な技術的要素は、前述の$\mathcal{D}$へのアクセスが与えられたとき、解離部分キューブ上の均一分布の混合として$\mathcal{D}$:$\mathcal{D}$の近似を最適に決定木分解するアルゴリズムである。 この分解を手元に,各サブキューブ上で一様分布学習器を実行し,決定木を用いて仮説を結合する。 このアルゴリズム分解補題は、新しいアルゴリズムによって決定木分布を学習し、その実行時によって、以前の技術 -- 分散学習に対する独立した関心の結果 -- を指数関数的に改善する。

We show how any PAC learning algorithm that works under the uniform distribution can be transformed, in a blackbox fashion, into one that works under an arbitrary and unknown distribution $\mathcal{D}$. The efficiency of our transformation scales with the inherent complexity of $\mathcal{D}$, running in $\mathrm{poly}(n, (md)^d)$ time for distributions over $\{\pm 1\}^n$ whose pmfs are computed by depth-$d$ decision trees, where $m$ is the sample complexity of the original algorithm. For monotone distributions our transformation uses only samples from $\mathcal{D}$, and for general ones it uses subcube conditioning samples. A key technical ingredient is an algorithm which, given the aforementioned access to $\mathcal{D}$, produces an optimal decision tree decomposition of $\mathcal{D}$: an approximation of $\mathcal{D}$ as a mixture of uniform distributions over disjoint subcubes. With this decomposition in hand, we run the uniform-distribution learner on each subcube and combine the hypotheses using the decision tree. This algorithmic decomposition lemma also yields new algorithms for learning decision tree distributions with runtimes that exponentially improve on the prior state of the art -- results of independent interest in distribution learning.
翻訳日:2023-03-31 16:00:09 公開日:2023-03-30
# MRI再構成のためのNull空間におけるフェデレーションビジュアルプロンプトの学習

Learning Federated Visual Prompt in Null Space for MRI Reconstruction ( http://arxiv.org/abs/2303.16181v2 )

ライセンス: Link先を確認
Chun-Mei Feng, Bangjun Li, Xinxing Xu, Yong Liu, Huazhu Fu, Wangmeng Zuo(参考訳) MRI(Federated Magnetic Resonance Imaging)の再建により、複数の病院が局所的なデータを集約することなく分散的に協力し、患者のプライバシーを保護することができる。 しかし、異なるMRIプロトコルによるデータの均一性、不十分なローカルトレーニングデータ、通信帯域幅の制限により、必然的にグローバルモデルの収束と更新が損なわれる。 本稿では,MRI再建のためのグローバルプロンプトのヌル空間におけるフェデレートされた視覚的プロンプトを学習するための新しいアルゴリズムであるFedPRを提案する。 fedprは新しいフェデレーションパラダイムであり、学習可能なパラメータの少ないプロンプトを学習と通信のみしながら、強力な事前学習モデルを採用し、通信コストを大幅に削減し、限られたローカルデータでの競合パフォーマンスを達成する。 さらに、データの不均一性に起因する破滅的な忘れ事に対処するため、FedPRは、ローカルプロンプトをグローバルプロンプトの近似ヌル空間に投影する効率的なフェデレーション付き視覚プロンプトを更新し、サーバ性能の勾配の干渉を抑制する。 フェデレートMRIの大規模な実験により、FedPRは局所的なトレーニングデータが少ないと通信コストの6%で最先端のFLアルゴリズムを著しく上回っていることがわかった。

Federated Magnetic Resonance Imaging (MRI) reconstruction enables multiple hospitals to collaborate distributedly without aggregating local data, thereby protecting patient privacy. However, the data heterogeneity caused by different MRI protocols, insufficient local training data, and limited communication bandwidth inevitably impair global model convergence and updating. In this paper, we propose a new algorithm, FedPR, to learn federated visual prompts in the null space of global prompt for MRI reconstruction. FedPR is a new federated paradigm that adopts a powerful pre-trained model while only learning and communicating the prompts with few learnable parameters, thereby significantly reducing communication costs and achieving competitive performance on limited local data. Moreover, to deal with catastrophic forgetting caused by data heterogeneity, FedPR also updates efficient federated visual prompts that project the local prompts into an approximate null space of the global prompt, thereby suppressing the interference of gradients on the server performance. Extensive experiments on federated MRI show that FedPR significantly outperforms state-of-the-art FL algorithms with <6% of communication costs when given the limited amount of local training data.
翻訳日:2023-03-31 15:59:38 公開日:2023-03-30
# MDP:拡散経路の操作によるテキストガイド画像編集のための汎用フレームワーク

MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path ( http://arxiv.org/abs/2303.16765v2 )

ライセンス: Link先を確認
Qian Wang, Biao Zhang, Michael Birsak, Peter Wonka(参考訳) 拡散を利用した画像生成は複数の方法で制御できる。 本稿では,現代的な生成拡散ネットワークの方程式を体系的に解析し,適切な操作の設計空間を説明するmdpと呼ばれる枠組みを提案する。 我々は,中間潜伏,条件埋め込み,クロスアテンションマップ,ガイダンス,予測ノイズを含む5つの異なる操作を同定する。 これらの操作の対応するパラメータと操作スケジュールを解析する。 従来の編集手法が私たちのフレームワークにうまく適合していることを示します。 特に,予測ノイズを操作することで,従来よりも高品質な編集を行うことができる新しいタイプの制御方法として,特定の構成を同定した。

Image generation using diffusion can be controlled in multiple ways. In this paper, we systematically analyze the equations of modern generative diffusion networks to propose a framework, called MDP, that explains the design space of suitable manipulations. We identify 5 different manipulations, including intermediate latent, conditional embedding, cross attention maps, guidance, and predicted noise. We analyze the corresponding parameters of these manipulations and the manipulation schedule. We show that some previous editing methods fit nicely into our framework. Particularly, we identified one specific configuration as a new type of control by manipulating the predicted noise, which can perform higher-quality edits than previous work for a variety of local and global edits.
翻訳日:2023-03-31 15:51:12 公開日:2023-03-30
# ベイズ型ニューラルネットワークの後方推定シャープ化による暗黙的視覚バイアス軽減

Implicit Visual Bias Mitigation by Posterior Estimate Sharpening of a Bayesian Neural Network ( http://arxiv.org/abs/2303.16564v2 )

ライセンス: Link先を確認
Rebecca S Stone, Nishant Ravikumar, Andrew J Bulpitt, David C Hogg(参考訳) ディープニューラルネットワークの公平性は、データセットバイアスとスプリアス相関に強く影響され、どちらも現代の機能豊富な複雑なビジュアルデータセットに通常存在する。 タスクの難易度と可変性のため、単一の脱バイアス手法は一般には成功していない。 特に、バイアス変数の明示的な知識を必要としない暗黙的手法は、実世界のアプリケーションにとって特に関係がある。 そこで本研究では,ベイズ型ニューラルネットワークを用いた暗黙的緩和法を提案する。 提案手法は,高い不確実性に寄与しないコア機能にネットワークを集中させることを奨励するものである。 3つのベンチマークデータセットによる実験結果から, ベイジアンネットワークは従来の手法と相容れない性能を示し, さらなる探索にふさわしい可能性が示唆された。

The fairness of a deep neural network is strongly affected by dataset bias and spurious correlations, both of which are usually present in modern feature-rich and complex visual datasets. Due to the difficulty and variability of the task, no single de-biasing method has been universally successful. In particular, implicit methods not requiring explicit knowledge of bias variables are especially relevant for real-world applications. We propose a novel implicit mitigation method using a Bayesian neural network, allowing us to leverage the relationship between epistemic uncertainties and the presence of bias or spurious correlations in a sample. Our proposed posterior estimate sharpening procedure encourages the network to focus on core features that do not contribute to high uncertainties. Experimental results on three benchmark datasets demonstrate that Bayesian networks with sharpened posterior estimates perform comparably to prior existing methods and show potential worthy of further exploration.
翻訳日:2023-03-31 15:48:39 公開日:2023-03-30
# MaMMUT:マルチモーダルタスクのための共同学習のためのシンプルなアーキテクチャ

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks ( http://arxiv.org/abs/2303.16839v2 )

ライセンス: Link先を確認
Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova(参考訳) 言語モデルの開発は、エンコーダデコーダからデコーダのみの設計に移行した。 加えて、一般的な知識では、生成的タスクとコントラスト的タスクという2つの最も一般的なマルチモーダルタスクは、互いに衝突しがちであり、一つのアーキテクチャでは適合しにくく、さらに下流タスクに複雑な適応を必要とする。 マルチモーダルタスクのためのデコーダのみのモデルを用いた新しい学習パラダイムを提案し,これらの異なる視覚言語タスクの協調学習に驚くほど効果的である。 これは、MaMMUTと呼ばれる単純なモデルで実現される。 単一の視覚エンコーダとテキストデコーダで構成されており、テキストデコーダに対する新しい2パスアプローチによって、対照的で生成的な学習を許容することができる。 これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間のモデルの重量共有を最大化する。 さらに、同じアーキテクチャにより、オープン語彙オブジェクト検出やビデオ言語タスクへの簡単な拡張が可能になる。 モデルは多種多様なタスクに取り組み、キャパシティは控えめである。 我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。 VQAとビデオキャプションで非常に競争力のある結果を示している。 アブレーションは我々のアプローチの柔軟性と利点を確認する。

The development of language models have moved from encoder-decoder to decoder-only designs. In addition, the common knowledge has it that the two most popular multimodal tasks, the generative and contrastive tasks, tend to conflict with one another, are hard to accommodate in one architecture, and further need complex adaptations for downstream tasks. We propose a novel paradigm of training with a decoder-only model for multimodal tasks, which is surprisingly effective in jointly learning of these disparate vision-language tasks. This is done with a simple model, called MaMMUT. It consists of a single vision encoder and a text decoder, and is able to accommodate contrastive and generative learning by a novel two-pass approach on the text decoder. We demonstrate that joint learning of these diverse objectives is simple, effective, and maximizes the weight-sharing of the model across these tasks. Furthermore, the same architecture enables straightforward extensions to open-vocabulary object detection and video-language tasks. The model tackles a diverse range of tasks, while being modest in capacity. Our model achieves the state of the art on image-text and text-image retrieval, video question answering and open-vocabulary detection tasks, outperforming much larger and more extensively trained foundational models. It shows very competitive results on VQA and Video Captioning, especially considering its capacity. Ablations confirm the flexibility and advantages of our approach.
翻訳日:2023-03-31 15:39:19 公開日:2023-03-30
# BEVSimDet:多視点3次元物体検出のためのバードアイビューにおけるマルチモーダル蒸留のシミュレーション

BEVSimDet: Simulated Multi-modal Distillation in Bird's-Eye View for Multi-view 3D Object Detection ( http://arxiv.org/abs/2303.16818v2 )

ライセンス: Link先を確認
Haimei Zhao, Qiming Zhang, Shanshan Zhao, Jing Zhang, Dacheng Tao(参考訳) マルチビューカメラベースの3dオブジェクト検出は低コストで人気を集めている。 しかし、カメラデータのみから正確な3D形状を推定することは、モデルの性能に影響を及ぼす。 この問題に対処する1つの有望なアプローチは、LiDARデータから正確な3D幾何学的知識を抽出することである。 しかし、異なるセンサモダリティ間の知識の伝達は、重要なモダリティギャップによって妨げられる。 本稿では,建築設計と知識蒸留の両面からこの課題に取り組み,BEVSimDetという新しいシミュレーション型マルチモーダル3Dオブジェクト検出手法を提案する。 まず,lidarとカメラ融合による教師とシミュレートされたマルチモーダル学習者を含む新しいフレームワークを紹介し,学生は画像のみの入力でマルチモーダル機能をシミュレートする。 有効蒸留を容易にするため, モダル内, クロスモーダル, マルチモーダル蒸留を同時に支援するマルチモーダル蒸留方式を提案する。 bevsimdetはそれらを組み合わせて、3dオブジェクト検出のための優れた機能表現を学習し、費用対効果の高いカメラのみのデプロイを享受できる。 挑戦的なnuScenesベンチマークの実験結果は、最近の代表法よりもBEVSimDetの有効性と優位性を示している。 ソースコードは \href{https://github.com/ViTAE-Transformer/BEVSimDet}{BEVSimDet} でリリースされる。

Multi-view camera-based 3D object detection has gained popularity due to its low cost. But accurately inferring 3D geometry solely from camera data remains challenging, which impacts model performance. One promising approach to address this issue is to distill precise 3D geometry knowledge from LiDAR data. However, transferring knowledge between different sensor modalities is hindered by the significant modality gap. In this paper, we approach this challenge from the perspective of both architecture design and knowledge distillation and present a new simulated multi-modal 3D object detection method named BEVSimDet. We first introduce a novel framework that includes a LiDAR and camera fusion-based teacher and a simulated multi-modal student, where the student simulates multi-modal features with image-only input. To facilitate effective distillation, we propose a simulated multi-modal distillation scheme that supports intra-modal, cross-modal, and multi-modal distillation simultaneously. By combining them together, BEVSimDet can learn better feature representations for 3D object detection while enjoying cost-effective camera-only deployment. Experimental results on the challenging nuScenes benchmark demonstrate the effectiveness and superiority of BEVSimDet over recent representative methods. The source code will be released at \href{https://github.com/ViTAE-Transformer/BEVSimDet}{BEVSimDet}.
翻訳日:2023-03-31 15:38:57 公開日:2023-03-30
# 逆設計した炭化ケイ素量子と非線形フォトニクス

Inverse-designed Silicon Carbide Quantum and Nonlinear Photonics ( http://arxiv.org/abs/2303.17079v1 )

ライセンス: Link先を確認
Joshua Yang, Melissa A. Guidry, Daniil M. Lukin, Kiyoul Yang, Jelena Vu\v{c}kovi\'c(参考訳) 逆設計はフォトニクスの分野に革命をもたらし、古典的な設計と一致しないユニークな機能を持つ複雑な構造やジオメトリの自動開発を可能にした。 しかし、非線形フォトニクスにおける逆設計の使用は限られている。 本研究では,炭化ケイ素ナノフォトニック逆設計ファブリーp\'erotキャビティにおける量子および古典非線形光発生を実証する。 光パラメトリック振動に到達するために、予め特定された異常分散を目標としつつ、超低反射率の損失を達成する。 逆設計による分散制御により、2次位相整合条件を目標とし、2次および3次非線形光発生を実現し、刺激されたパラメトリックプロセスを可視光スペクトルに拡張する。 この非線形光発生のための計算最適化の最初の実現は、特に炭化ケイ素のような高非線形材料と組み合わせた場合、非線形光学の逆設計のパワーを強調している。

Inverse design has revolutionized the field of photonics, enabling automated development of complex structures and geometries with unique functionalities unmatched by classical design. However, the use of inverse design in nonlinear photonics has been limited. In this work, we demonstrate quantum and classical nonlinear light generation in silicon carbide nanophotonic inverse-designed Fabry-P\'erot cavities. We achieve ultra-low reflector losses while targeting a pre-specified anomalous dispersion to reach optical parametric oscillation. By controlling dispersion through inverse design, we target a second-order phase-matching condition to realize second- and third-order nonlinear light generation in our devices, thereby extending stimulated parametric processes into the visible spectrum. This first realization of computational optimization for nonlinear light generation highlights the power of inverse design for nonlinear optics, in particular when combined with highly nonlinear materials such as silicon carbide.
翻訳日:2023-03-31 14:55:15 公開日:2023-03-30
# 部分微分方程式の機械学習

Machine Learning for Partial Differential Equations ( http://arxiv.org/abs/2303.17078v1 )

ライセンス: Link先を確認
Steven L. Brunton and J. Nathan Kutz(参考訳) 偏微分方程式 (Partial differential equation, PDE) は、自然物理法則の最も普遍的で同義的な記述であり、多種多様な現象論と多スケール物理学をコンパクトで象徴的な表現で捉えている。 本総説では,機械学習を応用したPDE研究の今後の展望について述べる。 1) 複雑な自然系および工学系に対する新しい支配的pdesの発見と粗粒度近似 2)PDEを解析しやすくするための効果的な座標系と低次モデルを学習し、 3)解演算子の表現と従来の数値アルゴリズムの改善。 それぞれの分野では、重要な進歩、進行中の課題、さらなる発展の機会を要約します。

Partial differential equations (PDEs) are among the most universal and parsimonious descriptions of natural physical laws, capturing a rich variety of phenomenology and multi-scale physics in a compact and symbolic representation. This review will examine several promising avenues of PDE research that are being advanced by machine learning, including: 1) the discovery of new governing PDEs and coarse-grained approximations for complex natural and engineered systems, 2) learning effective coordinate systems and reduced-order models to make PDEs more amenable to analysis, and 3) representing solution operators and improving traditional numerical algorithms. In each of these fields, we summarize key advances, ongoing challenges, and opportunities for further development.
翻訳日:2023-03-31 14:54:59 公開日:2023-03-30
# DiffCollage:拡散モデルによる大規模コンテンツの並列生成

DiffCollage: Parallel Generation of Large Content with Diffusion Models ( http://arxiv.org/abs/2303.17076v1 )

ライセンス: Link先を確認
Qinsheng Zhang, Jiaming Song, Xun Huang, Yongxin Chen, Ming-Yu Liu(参考訳) 本研究では,大容量コンテンツの断片生成を訓練した拡散モデルを用いて,大容量コンテンツを生成するための合成拡散モデルdiffcollageを提案する。 提案手法は,各因子ノードがコンテンツの一部を表現し,変数ノードが重なり合いを表現した因子グラフ表現に基づいている。 この表現により、各ノード上で定義された拡散モデルから中間出力を集約し、自己回帰生成手順を使わずに任意のサイズと形状のコンテンツを並列に生成することができる。 我々はDiffCollageを無限画像生成、パノラマ画像生成、長期テキスト誘導モーション生成など様々なタスクに適用する。 強力な自己回帰ベースラインと比較した広範な実験結果から,本手法の有効性を確認した。

We present DiffCollage, a compositional diffusion model that can generate large content by leveraging diffusion models trained on generating pieces of the large content. Our approach is based on a factor graph representation where each factor node represents a portion of the content and a variable node represents their overlap. This representation allows us to aggregate intermediate outputs from diffusion models defined on individual nodes to generate content of arbitrary size and shape in parallel without resorting to an autoregressive generation procedure. We apply DiffCollage to various tasks, including infinite image generation, panorama image generation, and long-duration text-guided motion generation. Extensive experimental results with a comparison to strong autoregressive baselines verify the effectiveness of our approach.
翻訳日:2023-03-31 14:54:48 公開日:2023-03-30
# 視点:意識と人工知能に関する理論的コンピュータ科学の視点

Viewpoint: A Theoretical Computer Science Perspective on Consciousness and Artificial General Intelligence ( http://arxiv.org/abs/2303.17075v1 )

ライセンス: Link先を確認
Lenore Blum, Manuel Blum(参考訳) 我々は、意識に対する理論計算機科学(TCS)のアプローチを研究するために、意識チューリングマシン(CTM)を定義した。 このため、単純さと可理解性に対するTCSの要求に応えました。 したがって、CTMは単純な機械である。 これは脳のモデルではないが、その設計は神経科学と心理学から大きな利益を得ている。 CTMは意識のモデルである。 意識を理解するために開発されたが、CTMは、AI(Artificial General Intelligence)の作成のための思考的で斬新なガイドを提供する。 例えば、CTMには膨大な数の強力なプロセッサがあり、専門知識を持つ者もあれば、専門知識を持つ者もいる。 どんな問題にも対処しなければならないが、CTMは、必要な知識、能力、そして問題に取り組む時間を持つこれらのプロセッサを利用するための優れた方法を持っている。

We have defined the Conscious Turing Machine (CTM) for the purpose of investigating a Theoretical Computer Science (TCS) approach to consciousness. For this, we have hewn to the TCS demand for simplicity and understandability. The CTM is consequently and intentionally a simple machine. It is not a model of the brain, though its design has greatly benefited - and continues to benefit - from neuroscience and psychology. The CTM is a model of and for consciousness. Although it is developed to understand consciousness, the CTM offers a thoughtful and novel guide to the creation of an Artificial General Intelligence (AGI). For example, the CTM has an enormous number of powerful processors, some with specialized expertise, others unspecialized but poised to develop an expertise. For whatever problem must be dealt with, the CTM has an excellent way to utilize those processors that have the required knowledge, ability, and time to work on the problem, even if it is not aware of which ones these may be.
翻訳日:2023-03-31 14:54:35 公開日:2023-03-30
# マイクロ電気機械振動子による閉じ込められた幾何学における超流動^3$he-b表面状態の研究

Superfluid $^3$He-B Surface States in a Confined Geometry Probed by a Microelectromechanical Oscillator ( http://arxiv.org/abs/2303.17073v1 )

ライセンス: Link先を確認
W. G. Jiang and C. S. Barquist and K. Gunther and Y. Lee and H. B. Chan(参考訳) 0.73$\mu$mのギャップ構造を持つマイクロエレクトロメカニカル発振器を用いて、超流動な$^3$He-Bでアンドレフ境界状態を探査する。 発振器の表面の特異性は、1.6単層^4$heでプレプレートすることにより増大する。 線形状態においては、減衰係数の温度依存性を様々な圧力で測定し、正規化エネルギーギャップを抽出する。 減衰係数は低圧でのプレプレーティング後に増加するが、これは表面結合状態のエネルギーミニギャップの減少に起因する。 この装置は、各圧力における温度独立臨界速度を測定する非線形状態にも駆動される。 臨界速度は、平均エネルギーギャップの増加に関連しているかもしれない全ての圧力で準備した後、増加することが観察される。 観察された挙動は、表面の単一のパラメータのキャラクタリゼーションを超えた微視的な理論を必要とする。

A microelectromechanical oscillator with a 0.73 $\mu$m gap structure is employed to probe the surface Andreev bound states in superfluid $^3$He-B. The surface specularity of the oscillator is increased by preplating it with 1.6 monolayers of $^4$He. In the linear regime, the temperature dependence of the damping coefficient is measured at various pressures, and the normalized energy gap is extracted. The damping coefficient increases after preplating at lower pressures, which is attributed to the decreased energy minigap of the surface bound states. The device is also driven into the nonlinear regime, where the temperature independent critical velocity at each pressure is measured. The critical velocity is observed to increase after preplating at all pressures, which might be related to the increased average energy gap. The observed behavior warrants a microscopic theory beyond a single parameter characterization of the surface.
翻訳日:2023-03-31 14:54:09 公開日:2023-03-30
# DERA: 対話型解決エージェントによる大規模言語モデル補完の実現

DERA: Enhancing Large Language Model Completions with Dialog-Enabled Resolving Agents ( http://arxiv.org/abs/2303.17071v1 )

ライセンス: Link先を確認
Varun Nair, Elliot Schumacher, Geoffrey Tso, Anitha Kannan(参考訳) 大規模言語モデル(LLM)は多くの自然言語理解タスクに有用なツールとして登場した。 医療などの安全クリティカルなアプリケーションでは、これらのモデルの実用性は、実際に正確で完全な出力を生成する能力によって支配される。 本稿では,対話型解決エージェント(DERA)を提案する。 DERAは、LPMの会話能力の増加、すなわちGPT-4によって実現されたパラダイムである。 モデルがフィードバックを伝達し、反復的に出力を改善するためのシンプルな解釈可能なフォーラムを提供する。 ダイアログは,2つのエージェントタイプ – 情報処理と重要な問題コンポーネントの特定を行う研究者と,研究者の情報の統合と最終的なアウトプットの判断を行う自律性を持った決定者 – の間の議論として捉えています。 臨床に焦点を絞った3つのタスクに対してderaをテストする。 医療会話の要約とケアプラン生成において、DERAは、人間の専門的嗜好評価と定量的指標の両方において、基本GPT-4性能よりも大幅に改善されている。 新しい発見では、medqa question-answering(qa)データセット(jin et 2021, usmle)のオープン拡張版におけるgpt-4のパフォーマンス(70%)がパスレベル(60%)を大きく上回り、deraも同様のパフォーマンスを示している。 MEDQAデータセットはhttps://github.com/curai/curai-research/tree/main/DERAで公開しています。

Large language models (LLMs) have emerged as valuable tools for many natural language understanding tasks. In safety-critical applications such as healthcare, the utility of these models is governed by their ability to generate outputs that are factually accurate and complete. In this work, we present dialog-enabled resolving agents (DERA). DERA is a paradigm made possible by the increased conversational abilities of LLMs, namely GPT-4. It provides a simple, interpretable forum for models to communicate feedback and iteratively improve output. We frame our dialog as a discussion between two agent types - a Researcher, who processes information and identifies crucial problem components, and a Decider, who has the autonomy to integrate the Researcher's information and makes judgments on the final output. We test DERA against three clinically-focused tasks. For medical conversation summarization and care plan generation, DERA shows significant improvement over the base GPT-4 performance in both human expert preference evaluations and quantitative metrics. In a new finding, we also show that GPT-4's performance (70%) on an open-ended version of the MedQA question-answering (QA) dataset (Jin et al. 2021, USMLE) is well above the passing level (60%), with DERA showing similar performance. We release the open-ended MEDQA dataset at https://github.com/curai/curai-research/tree/main/DERA.
翻訳日:2023-03-31 14:53:42 公開日:2023-03-30
# 確率的トリガーアームを用いた文脈組合せ帯域

Contextual Combinatorial Bandits with Probabilistically Triggered Arms ( http://arxiv.org/abs/2303.17110v1 )

ライセンス: Link先を確認
Xutong Liu, Jinhang Zuo, Siwei Wang, John C.S. Lui, Mohammad Hajiesmaili, Adam Wierman, Wei Chen(参考訳) 本研究では,コンテキストカスケードバンドや文脈影響最大化バンドなど,幅広い応用を捉えた様々な平滑性条件下で,確率的トリガアーム(c$^2$mab-t)を用いたコンテクストコンビネートバンドの研究を行った。 トリガリング確率変調 (TPM) 条件の下では、C$^2$-UCB-T アルゴリズムを考案し、$\tilde{O}(d\sqrt{KT})$ regret bound を達成する新しい解析法を提案し、潜在的に指数関数的に大きな因子である $O(1/p_{\min})$ を除去し、$d$ は文脈の次元であり、$p_{\min}$ は任意のアームをトリガできる最小の正の確率であり、バッチサイズ $K$ はラウンド毎にトリガできる最大のアーム数である。 分散変調 (vm) またはトリガー確率および分散変調 (tpvm) 条件の下で, 分散適応アルゴリズム vac$^2$-ucb を提案し, バッチサイズの $k$ とは独立な, 後悔の束縛 $\tilde{o}(d\sqrt{t})$ を導出する。 価値ある副産物として,本手法と分散適応アルゴリズムをcmab-tおよびc$^2$mab〜settingに適用し,既存の結果も改善できることがわかった。 合成および実世界のデータセットのベンチマークアルゴリズムと比較して,アルゴリズムの性能向上を示す実験も含んでいる。

We study contextual combinatorial bandits with probabilistically triggered arms (C$^2$MAB-T) under a variety of smoothness conditions that capture a wide range of applications, such as contextual cascading bandits and contextual influence maximization bandits. Under the triggering probability modulated (TPM) condition, we devise the C$^2$-UCB-T algorithm and propose a novel analysis that achieves an $\tilde{O}(d\sqrt{KT})$ regret bound, removing a potentially exponentially large factor $O(1/p_{\min})$, where $d$ is the dimension of contexts, $p_{\min}$ is the minimum positive probability that any arm can be triggered, and batch-size $K$ is the maximum number of arms that can be triggered per round. Under the variance modulated (VM) or triggering probability and variance modulated (TPVM) conditions, we propose a new variance-adaptive algorithm VAC$^2$-UCB and derive a regret bound $\tilde{O}(d\sqrt{T})$, which is independent of the batch-size $K$. As a valuable by-product, we find our analysis technique and variance-adaptive algorithm can be applied to the CMAB-T and C$^2$MAB~setting, improving existing results there as well. We also include experiments that demonstrate the improved performance of our algorithms compared with benchmark algorithms on synthetic and real-world datasets.
翻訳日:2023-03-31 14:45:53 公開日:2023-03-30
# 正の半定値モデルによる確率微分方程式の効率的なサンプリング

Efficient Sampling of Stochastic Differential Equations with Positive Semi-Definite Models ( http://arxiv.org/abs/2303.17109v1 )

ライセンス: Link先を確認
Anant Raj, Umut \c{S}im\c{s}ekli and Alessandro Rudi(参考訳) 本稿では,ドリフト関数と拡散行列を与えられた確率微分方程式からの効率的なサンプリングの問題を扱う。 提案手法では, 正の半定値-psdモデルである \citep{rudi2021psd} (正の半定値-psdモデル) の確率モデルを用いて, 独立かつ同一に分布する (i.i.d.) サンプルを, 精度で $m^2 d \log(1/\varepsilon)$ のコストで得ることができる。 まず、SDEに関連するフォッカー・プランク方程式(またはその分数変量)を満足するPSDモデルを計算し、エラー$\varepsilon$まで計算し、その結果のPSDモデルからサンプリングする。 Fokker-Planck 解の正則性 (例えば $\beta$-times differentiability と 0 上の幾何条件) を仮定すると、以下のアルゴリズムが得られる。 (a) 予備相において、方程式の解から L2 距離 $\varepsilon$ の PSD モデルを得るが、次元 $m = \varepsilon^{-(d+1)/(\beta-2s)} (\log(1/\varepsilon))^{d+1}$ ここで、0<s\leq1$ はラプラシアンの分数乗力であり、合計計算複雑性は$O(m^{3.5} \log(1/\varepsilon)$ となる。 (b)fokker-planck方程式では、サンプル毎に$o(d \varepsilon^{-2(d+1)/\beta-2} \log(1/\varepsilon)^{2d+3})$というコストで、waserstein-1距離の誤差$\varepsilon$のi.i.d.\サンプルを生成することができる。 これは、sde に付随する確率が幾分正則であれば、すなわち $\beta \geq 4d+2$ であるなら、各サンプルに対して $o(\varepsilon^{-0.88} \log(1/\varepsilon)^{4.5d})$ と $o(\varepsilon^{-1/2}\log(1/\varepsilon)^{2d+2}) が必要であることを意味する。 以上より, 真の解がより滑らかになるにつれて, 次元の呪いを回避できる可能性が示唆された。

This paper deals with the problem of efficient sampling from a stochastic differential equation, given the drift function and the diffusion matrix. The proposed approach leverages a recent model for probabilities \citep{rudi2021psd} (the positive semi-definite -- PSD model) from which it is possible to obtain independent and identically distributed (i.i.d.) samples at precision $\varepsilon$ with a cost that is $m^2 d \log(1/\varepsilon)$ where $m$ is the dimension of the model, $d$ the dimension of the space. The proposed approach consists in: first, computing the PSD model that satisfies the Fokker-Planck equation (or its fractional variant) associated with the SDE, up to error $\varepsilon$, and then sampling from the resulting PSD model. Assuming some regularity of the Fokker-Planck solution (i.e. $\beta$-times differentiability plus some geometric condition on its zeros) We obtain an algorithm that: (a) in the preparatory phase obtains a PSD model with L2 distance $\varepsilon$ from the solution of the equation, with a model of dimension $m = \varepsilon^{-(d+1)/(\beta-2s)} (\log(1/\varepsilon))^{d+1}$ where $0<s\leq1$ is the fractional power to the Laplacian, and total computational complexity of $O(m^{3.5} \log(1/\varepsilon))$ and then (b) for Fokker-Planck equation, it is able to produce i.i.d.\ samples with error $\varepsilon$ in Wasserstein-1 distance, with a cost that is $O(d \varepsilon^{-2(d+1)/\beta-2} \log(1/\varepsilon)^{2d+3})$ per sample. This means that, if the probability associated with the SDE is somewhat regular, i.e. $\beta \geq 4d+2$, then the algorithm requires $O(\varepsilon^{-0.88} \log(1/\varepsilon)^{4.5d})$ in the preparatory phase, and $O(\varepsilon^{-1/2}\log(1/\varepsilon)^{2d+2})$ for each sample. Our results suggest that as the true solution gets smoother, we can circumvent the curse of dimensionality without requiring any sort of convexity.
翻訳日:2023-03-31 14:45:19 公開日:2023-03-30
# BEVFusion4D:Bird's-Eye-View下でのLiDAR-Camera Fusionの学習

BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via Cross-Modality Guidance and Temporal Aggregation ( http://arxiv.org/abs/2303.17099v1 )

ライセンス: Link先を確認
Hongxiang Cai, Zeyuan Zhang, Zhenyu Zhou, Ziyin Li, Wenbo Ding, Jiuhua Zhao(参考訳) LiDARとカメラ情報をBird's-Eye-View (BEV)に統合することは、自動運転における3Dオブジェクト検出にとって重要なトピックとなっている。 既存の手法は主に、LiDARとカメラBEVを生成するために独立したデュアルブランチフレームワークを採用し、適応的なモダリティ融合を実行する。 点雲はより正確なローカライズと幾何情報を提供するので、画像から関連する意味情報を取得する前に信頼できる空間として機能することができる。 そこで我々は,BEV空間におけるカメラ表現を効果的に得るために,LiDAR-Guided View Transformer (LGVT) を設計した。 LGVTは、カメラBEVをプリミティブなセマンティッククエリとして、LiDAR BEVの空間的キューを活用して、複数のカメラビューで画像特徴を抽出する。 さらに,複数の歴史的フレームからBEV特徴を集約することを目的として,提案するTDAモジュールにより,我々のフレームワークを時間領域に拡張する。 これら2つのモジュールを含め、BEVFusion4Dと呼ばれるフレームワークは、nuScenesの検証セットで72.0%のmAPと73.5%のNDS、nuScenesのテストセットで73.3%のmAPと74.7%のNDSを持つ3Dオブジェクト検出の最先端結果を達成する。

Integrating LiDAR and Camera information into Bird's-Eye-View (BEV) has become an essential topic for 3D object detection in autonomous driving. Existing methods mostly adopt an independent dual-branch framework to generate LiDAR and camera BEV, then perform an adaptive modality fusion. Since point clouds provide more accurate localization and geometry information, they could serve as a reliable spatial prior to acquiring relevant semantic information from the images. Therefore, we design a LiDAR-Guided View Transformer (LGVT) to effectively obtain the camera representation in BEV space and thus benefit the whole dual-branch fusion system. LGVT takes camera BEV as the primitive semantic query, repeatedly leveraging the spatial cue of LiDAR BEV for extracting image features across multiple camera views. Moreover, we extend our framework into the temporal domain with our proposed Temporal Deformable Alignment (TDA) module, which aims to aggregate BEV features from multiple historical frames. Including these two modules, our framework dubbed BEVFusion4D achieves state-of-the-art results in 3D object detection, with 72.0% mAP and 73.5% NDS on the nuScenes validation set, and 73.3% mAP and 74.7% NDS on nuScenes test set, respectively.
翻訳日:2023-03-31 14:44:10 公開日:2023-03-30
# ImageNet-E:属性編集によるニューラルネットワークロバストネスのベンチマーク

ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing ( http://arxiv.org/abs/2303.17096v1 )

ライセンス: Link先を確認
Xiaodan Li, Yuefeng Chen, Yao Zhu, Shuhui Wang, Rong Zhang, Hui Xue(参考訳) 近年の研究では、imagenetの精度が高ければ、異なる腐敗に対するロバスト性が向上することが示されている。 そこで,本研究では,新たな分散外乱や摂動モデルに遭遇する可能性のある従来の研究パラダイムに従わず,分散内データのモデルデバッグを行い,モデルが敏感なオブジェクト属性を探索する。 この目的を達成するために、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成し、オブジェクト属性の観点から画像分類器の堅牢性を評価するためのImageNet-E(diting)という厳密なベンチマークを作成する。 ImageNet-Eでは、畳み込みニューラルネットワークと視覚変換器の両方を含む、現在のディープラーニングモデルの性能を評価する。 ほとんどのモデルは属性変更に対して非常に敏感です。 背景の小さな変化は、トップ1の精度で平均9.23\%の低下につながる可能性がある。 また,いくつかのロバストモデルを評価することで,バニラモデルよりも属性変更に対するロバスト性が低くなるモデルも見いだした。 これらの結果から,前処理,アーキテクチャ設計,トレーニング戦略により属性の堅牢性を高める方法を見出した。 この研究がコミュニティにいくつかの洞察を与え、堅牢なコンピュータビジョンの研究のための新たな道を開くことを願っている。 コードとデータセットはhttps://github.com/alibaba/easyrobustで入手できる。

Recent studies have shown that higher accuracy on ImageNet usually leads to better robustness against different corruptions. Therefore, in this paper, instead of following the traditional research paradigm that investigates new out-of-distribution corruptions or perturbations deep models may encounter, we conduct model debugging in in-distribution data to explore which object attributes a model may be sensitive to. To achieve this goal, we create a toolkit for object editing with controls of backgrounds, sizes, positions, and directions, and create a rigorous benchmark named ImageNet-E(diting) for evaluating the image classifier robustness in terms of object attributes. With our ImageNet-E, we evaluate the performance of current deep learning models, including both convolutional neural networks and vision transformers. We find that most models are quite sensitive to attribute changes. A small change in the background can lead to an average of 9.23\% drop on top-1 accuracy. We also evaluate some robust models including both adversarially trained models and other robust trained models and find that some models show worse robustness against attribute changes than vanilla models. Based on these findings, we discover ways to enhance attribute robustness with preprocessing, architecture designs, and training strategies. We hope this work can provide some insights to the community and open up a new avenue for research in robust computer vision. The code and dataset are available at https://github.com/alibaba/easyrobust.
翻訳日:2023-03-31 14:43:39 公開日:2023-03-30
# 安定ビュー合成の強化

Enhanced Stable View Synthesis ( http://arxiv.org/abs/2303.17094v1 )

ライセンス: Link先を確認
Nishant Jain, Suryansh Kumar, Luc Van Gool(参考訳) 本稿では,自由に動くカメラから撮影した画像から新しいビュー合成を強化するアプローチを提案する。 導入したアプローチは,正確な幾何学的足場とカメラポーズの復元が難しい屋外シーンに着目し,最先端の安定ビュー合成(svs)手法による劣る結果をもたらす。 SVSと関連するメソッドは、主に屋外シーンで失敗する (i)幾何的足場回復のための多視点ステレオ(MVS)のオーバーライジング (ii) mvs3次元復元精度はシーンのばらつきに制限され、カメラ配置精度はキーポイント対応選択に敏感であるにもかかわらず、コルマップ計算カメラが最良の推定値と仮定する。 本研究は,複数ビュー幾何学の基礎からインスピレーションを得た新規ビュー合成ソリューションの原理的手法を提案する。 MVSの相補的挙動と単眼深度を活用することで、近地点と遠地点の視野あたりのシーン深度をそれぞれ改善する。 さらに,複数回転平均グラフ最適化による画像ベースのレンダリングにより,カメラのポーズを改良する。 回収されたシーンの深さとカメラの配置は、シーン全体のビュー依存の特徴集約に役立つ。 タンクやテンプルなどの人気のあるベンチマークデータセットに対するアプローチの広範な評価は,先行技術と比較して,ビュー合成結果の大幅な改善を示している。 例えば,本手法は,タンクと寺院のPSNR改善の1.5dBを示す。 FVS、Mip-NeRF 360、DTUなどの他のベンチマークデータセットでテストした場合、同様の統計が観測される。

We introduce an approach to enhance the novel view synthesis from images taken from a freely moving camera. The introduced approach focuses on outdoor scenes where recovering accurate geometric scaffold and camera pose is challenging, leading to inferior results using the state-of-the-art stable view synthesis (SVS) method. SVS and related methods fail for outdoor scenes primarily due to (i) over-relying on the multiview stereo (MVS) for geometric scaffold recovery and (ii) assuming COLMAP computed camera poses as the best possible estimates, despite it being well-studied that MVS 3D reconstruction accuracy is limited to scene disparity and camera-pose accuracy is sensitive to key-point correspondence selection. This work proposes a principled way to enhance novel view synthesis solutions drawing inspiration from the basics of multiple view geometry. By leveraging the complementary behavior of MVS and monocular depth, we arrive at a better scene depth per view for nearby and far points, respectively. Moreover, our approach jointly refines camera poses with image-based rendering via multiple rotation averaging graph optimization. The recovered scene depth and the camera-pose help better view-dependent on-surface feature aggregation of the entire scene. Extensive evaluation of our approach on the popular benchmark dataset, such as Tanks and Temples, shows substantial improvement in view synthesis results compared to the prior art. For instance, our method shows 1.5 dB of PSNR improvement on the Tank and Temples. Similar statistics are observed when tested on other benchmark datasets such as FVS, Mip-NeRF 360, and DTU.
翻訳日:2023-03-31 14:43:14 公開日:2023-03-30
# OpenMix: 誤分類検出のための外部サンプルの探索

OpenMix: Exploring Outlier Samples for Misclassification Detection ( http://arxiv.org/abs/2303.17093v1 )

ライセンス: Link先を確認
Fei Zhu, Zhen Cheng, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) ディープニューラルネットワーク分類器の信頼性の高い信頼度推定は、高スループットアプリケーションにおいて難しいが基本的な要件である。 残念なことに、現代のディープニューラルネットワークは誤った予測を過信することが多い。 本研究では,非ターゲットクラスからのラベルなしサンプルなど,容易に使用可能な外れ値サンプルを活用し,誤分類エラーの検出を支援する。 特に,未知のクラスからout-of-distribution (ood) サンプルを検出するのに強力なoutlier exposureは,誤分類エラーの識別に何の利益も与えないことがわかった。 そこで本研究では,オープンワールド知識を組み込んだ新しい手法であるopenmixを提案する。 OpenMixは様々なシナリオにおいて信頼性を著しく向上させ、既知のクラスからの誤分類サンプルと未知クラスからのOODサンプルの両方を検出する強力な統一されたフレームワークを確立する。 コードはhttps://github.com/Impression2805/OpenMixで公開されている。

Reliable confidence estimation for deep neural classifiers is a challenging yet fundamental requirement in high-stakes applications. Unfortunately, modern deep neural networks are often overconfident for their erroneous predictions. In this work, we exploit the easily available outlier samples, i.e., unlabeled samples coming from non-target classes, for helping detect misclassification errors. Particularly, we find that the well-known Outlier Exposure, which is powerful in detecting out-of-distribution (OOD) samples from unknown classes, does not provide any gain in identifying misclassification errors. Based on these observations, we propose a novel method called OpenMix, which incorporates open-world knowledge by learning to reject uncertain pseudo-samples generated via outlier transformation. OpenMix significantly improves confidence reliability under various scenarios, establishing a strong and unified framework for detecting both misclassified samples from known classes and OOD samples from unknown classes. The code is publicly available at https://github.com/Impression2805/OpenMix.
翻訳日:2023-03-31 14:42:49 公開日:2023-03-30
# 階数m縮退部分空間の量子ポストセレクション測定におけるNo-go結果

No-go result for quantum postselection measurements of rank-m degenerate subspace ( http://arxiv.org/abs/2303.17090v1 )

ライセンス: Link先を確認
Le Bin Ho(参考訳) 本稿では,選択後に観測可能な統合システム機器の条件付期待値が従来の期待値にすぎなかった場合のno-go結果を示す。 このようなno-goの結果は、m が装置部分空間の次元であるジョイントオブザーバブルのランク m 縮退に依存する。 量子測定における誤差と乱れがno-goの結果に従うことを示し、この結果から、ポストセレクション測定では誤差と乱れの不確実性は影響を受けないことが示唆された。

We present a no-go result for postselection measurements where the conditional expectation value of a joint system-device observable under postselection is nothing else than the conventional expectation value. Such a no-go result relies on the rank-m degenerate of the joint observable, where m is the dimension of the device subspace. Remarkable, we show that the error and disturbance in quantum measurements obey the no-go result, which implies that the error-disturbance uncertainty is unaffected under postselection measurements.
翻訳日:2023-03-31 14:42:32 公開日:2023-03-30
# Depth-NeuS:深度情報最適化に基づく多視点再構成のためのニューラルインシシデント表面学習

Depth-NeuS: Neural Implicit Surfaces Learning for Multi-view Reconstruction Based on Depth Information Optimization ( http://arxiv.org/abs/2303.17088v1 )

ライセンス: Link先を確認
Hanqi Jiang, Cheng Zeng, Runnan Chen, Shuai Liang, Yinhe Han, Yichao Gao, Conglin Wang(参考訳) 近年、例えばNeuSのようなニューラルサーフェス表現とレンダリングの手法は、ボリュームレンダリングによるニューラルサーフェス学習がますます普及し、進歩していることを示している。 しかし、これらの手法は依然としていくつかの課題に直面している。 既存の手法では奥行き情報の直接表現が欠如しており、幾何学的特徴によって物体の復元が制限されないため、テクスチャや色彩的特徴を持つ物体の復元が貧弱である。 これは、既存の手法では、深度情報を使わずに表面の正規表現しか使わないためである。 したがって、これらの手法はオブジェクトの詳細な表面特徴をうまくモデル化できない。 この問題に対処するために,多視点再構成のための深度情報最適化に基づくDepth-NeuSと呼ばれるニューラル暗黙曲面学習手法を提案する。 本稿では,SDF回帰を明示的に制約する深度損失を導入し,低テクスチャ領域に最適化するための幾何整合損失を導入する。 Depth-NeuSは複数のシナリオで既存の技術より優れ、複数のシナリオで高品質な表面再構成を実現する。

Recently, methods for neural surface representation and rendering, for example NeuS, have shown that learning neural implicit surfaces through volume rendering is becoming increasingly popular and making good progress. However, these methods still face some challenges. Existing methods lack a direct representation of depth information, which makes object reconstruction unrestricted by geometric features, resulting in poor reconstruction of objects with texture and color features. This is because existing methods only use surface normals to represent implicit surfaces without using depth information. Therefore, these methods cannot model the detailed surface features of objects well. To address this problem, we propose a neural implicit surface learning method called Depth-NeuS based on depth information optimization for multi-view reconstruction. In this paper, we introduce depth loss to explicitly constrain SDF regression and introduce geometric consistency loss to optimize for low-texture areas. Specific experiments show that Depth-NeuS outperforms existing technologies in multiple scenarios and achieves high-quality surface reconstruction in multiple scenarios.
翻訳日:2023-03-31 14:42:22 公開日:2023-03-30
# 2匹の量子の絡み合ったチェシャー猫

Two Quantum Entangled Cheshire Cats ( http://arxiv.org/abs/2303.17081v1 )

ライセンス: Link先を確認
Jie Zhou, Leong-Chuan Kwek and Jing-Ling Chen(参考訳) 量子絡み合いは量子処理の重要な資源である。 量子チェシャー・キャット(Quantum Cheshire Cat)の元々の思考実験では、猫(状態)の物理的性質は量子実体から切り離すことができる。 量子絡み合いと弱い値はそのような思考実験にどのように影響しますか。 ここでは、弱い(値)測定で量子エンタングルメントを利用する新しい思考実験を考案する。 具体的には、2つの絡み合った粒子が物理的および量子的性質を交換できるのか? 私たちはその質問を肯定的に答える。

Quantum entanglement serves as an important resource for quantum processing. In the original thought experiment of the Quantum Cheshire Cat, the physical properties of the cat (state) can be decoupled from its quantum entities. How do quantum entanglement and weak values affect such thought experiment? Here, we conceive a new thought experiment that exploits quantum entanglement with weak (value) measurement. Specifically, we ask: can two entangled particles exchange physical and quantum properties? We answer the question in the affirmative.
翻訳日:2023-03-31 14:42:02 公開日:2023-03-30
# Mole Recruitment:選択バッチサンプリングによる画像分類器のポジティング

Mole Recruitment: Poisoning of Image Classifiers via Selective Batch Sampling ( http://arxiv.org/abs/2303.17080v1 )

ライセンス: Link先を確認
Ethan Wisdom, Tejas Gokhale, Chaowei Xiao, Yezhou Yang(参考訳) 本研究では,画像やラベルを操作せずに機械学習モデルを構築するデータ中毒攻撃を提案する。 これは、トレーニングデータ自体に見出される最も不明瞭な天然サンプルを、"Mole Recruitment"と呼ばれる新たな攻撃形態で単純に活用することで達成される。 私たちはmolesを、他のクラスのサンプルと最もよく似たクラスのトレーニングサンプルと定義し、トレーニングバッチを最適な数のmolesで再構成するだけで、ターゲットクラスのパフォーマンスが大幅に低下する可能性があることを示します。 いくつかの標準画像分類データセットにまたがるオフライン環境でこの新たな攻撃の有効性を示し、連続学習(CL)環境でこの攻撃の現実的生存可能性を示す。 分析の結果,最先端のモデルがモグラ採用の影響を受けやすいことが明らかとなり,それまで検出されていなかった画像分類器の脆弱性が露呈された。

In this work, we present a data poisoning attack that confounds machine learning models without any manipulation of the image or label. This is achieved by simply leveraging the most confounding natural samples found within the training data itself, in a new form of a targeted attack coined "Mole Recruitment." We define moles as the training samples of a class that appear most similar to samples of another class, and show that simply restructuring training batches with an optimal number of moles can lead to significant degradation in the performance of the targeted class. We show the efficacy of this novel attack in an offline setting across several standard image classification datasets, and demonstrate the real-world viability of this attack in a continual learning (CL) setting. Our analysis reveals that state-of-the-art models are susceptible to Mole Recruitment, thereby exposing a previously undetected vulnerability of image classifiers.
翻訳日:2023-03-31 14:41:55 公開日:2023-03-30
# 導波路におけるコヒーレント光子のスピンと軌道角運動量

Spin and Orbital Angular Momentum of Coherent Photons in a Waveguide ( http://arxiv.org/abs/2303.17129v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) 光子のスピン角運動量は光の自由度に対応しており、様々な偏光特性は光の量子力学的性質のマクロ的な表現から来ている。 光の軌道自由度は、軌道角運動量を持つ光の渦を形成するためにも操作され、これも量子化される。 しかし、光子のスピンと軌道角運動量はゲージ不変な方法で全軌道角運動量から分離することはできないと考えられている。 ここで、この問題をレーザー源からのコヒーレント単色線で再検討し、導波路で伝播する。 スピンおよび軌道角運動量のヘリカル成分は古典ポニーティングベクトルとの対応によって得られる。 コヒーレント状態を用いた標準量子場理論の適用により、スピンおよび軌道角運動量作用素のゲージ非依存の式を得た。 導出の過程では、有限断面領域を考慮に入れることが不可欠であり、これは伝播の方向に沿って有限長周期成分を導き、分裂を許容する。 したがって、有限モードプロファイルは分割の正当化に責任を持ち、量子電気力学(qed)の標準理論において平面波展開を用いる限り不可能であった。 以上の結果は、少なくとも導波路および有限モードプロファイルの真空中で伝播するコヒーレント光子の量子力学的自由度は、スピンおよび軌道角運動量は明確に定義されていることを示唆している。

Spin angular momentum of a photon corresponds to a polarisation degree of freedom of lights, and such that various polarisation properties are coming from macroscopic manifestation of quantum-mechanical properties of lights. An orbital degree of freedom of lights is also manipulated to form a vortex of lights with orbital angular momentum, which is also quantised. However, it is considered that spin and orbital angular momentum of a photon cannot be split from the total orbital angular momentum in a gauge-invariant way. Here, we revisit this issue for a coherent monochromatic ray from a laser source, propagating in a waveguide. We obtained the helical components of spin and orbital angular momentum by the correspondence with the classical Ponyting vector. By applying a standard quantum field theory using a coherent state, we obtained the gauge-independent expressions of spin and orbital angular momentum operators. During the derivations, it was essential to take a finite cross-sectional area into account, which leads the finite longitudinal component along the direction of the propagation, which allows the splitting. Therefore, the finite mode profile was responsible to justify the splitting, which was not possible as far as we are using plane-wave expansions in a standard theory of quantum-electrodynamics (QED). Our results suggest spin and orbital angular momentum are well-defined quantum-mechanical freedoms at least for coherent photons propagating in a waveguide and in a vacuum with a finite mode profile.
翻訳日:2023-03-31 14:36:12 公開日:2023-03-30
# メトリック学習のための適応的クロスバッチ正規化

Adaptive Cross Batch Normalization for Metric Learning ( http://arxiv.org/abs/2303.17127v1 )

ライセンス: Link先を確認
Thalaiyasingam Ajanthan, Matt Ma, Anton van den Hengel, Stephen Gould(参考訳) メトリック学習はコンピュータビジョンにおける基本的な問題であり、モデルはランキングの損失を通じて意味的に有用な埋め込み空間を学ぶように訓練される。 伝統的に、ランキング損失の有効性はミニバッチサイズに依存するため、本質的には基礎となるハードウェアのメモリ制約によって制限される。 ミニバッチ間の埋め込みを単純に蓄積することは有用であることが証明されている(Wang et al. [2020] )が、蓄積した埋め込みが最新であることを保証することは同様に重要であることを示す。 特に、学習可能なパラメータが更新されているため、蓄積された埋め込みと現在のトレーニングイテレーションでの埋め込み間の表現的ドリフトを回避する必要がある。 本稿では,分布のずれとして表現ドリフトをモデル化し,モーメントマッチングを用いてそれに取り組む。 その結果、各トレーニングイテレーションで現在の埋め込みの第一モーメントと第二モーメントにマッチするように、ストアド埋め込みを更新する簡単な方法が出来上がります。 SOP、In-Shop、DeepFashion2という3つの人気のある画像検索データセットの実験は、我々のアプローチがすべてのシナリオのパフォーマンスを大幅に改善することを示した。

Metric learning is a fundamental problem in computer vision whereby a model is trained to learn a semantically useful embedding space via ranking losses. Traditionally, the effectiveness of a ranking loss depends on the minibatch size, and is, therefore, inherently limited by the memory constraints of the underlying hardware. While simply accumulating the embeddings across minibatches has proved useful (Wang et al. [2020]), we show that it is equally important to ensure that the accumulated embeddings are up to date. In particular, it is necessary to circumvent the representational drift between the accumulated embeddings and the feature embeddings at the current training iteration as the learnable parameters are being updated. In this paper, we model representational drift as distribution misalignment and tackle it using moment matching. The result is a simple method for updating the stored embeddings to match the first and second moments of the current embeddings at each training iteration. Experiments on three popular image retrieval datasets, namely, SOP, In-Shop, and DeepFashion2, demonstrate that our approach significantly improves the performance in all scenarios.
翻訳日:2023-03-31 14:35:48 公開日:2023-03-30
# AIプログラミングアシスタントのユーザビリティを理解する

Understanding the Usability of AI Programming Assistants ( http://arxiv.org/abs/2303.17125v1 )

ライセンス: Link先を確認
Jenny T. Liang, Chenyang Yang, Brad A. Myers(参考訳) ソフトウェアエンジニアリングコミュニティは先頃、GitHub Copilotなど、AIプログラミングアシスタントの広範な展開を目撃した。 しかし、実際には、開発者は高い頻度でaiプログラミングアシスタントの最初の提案を受け入れない。 これにより、これらのツールのユーザビリティに関する多くのオープンな疑問が残る。 これらのツールを使用して開発者のプラクティスを理解し、彼らが直面する重要なユーザビリティ上の課題を理解するために、多数の開発者を対象に調査を実施し、さまざまな410人の開発者から回答を得た。 質的な分析と定量的分析の混合により、開発者はAIプログラミングアシスタントを使用する動機が最も高いのは、開発者がキーストロークを減らし、プログラミングタスクを素早く終了し、構文をリコールするのを助けるが、潜在的なソリューションをブレインストーミングするためにそれを使うことに共鳴しないためである。 また、開発者がこれらのツールを使用しない最も重要な理由は、これらのツールが特定の機能的あるいは非機能的要件に対処するコードを出力していないことと、開発者がツールを制御して所望の出力を生成するのに苦労しているためである。 私たちの発見は、AIプログラミングアシスタントのクリエーターとユーザの両方にとって、プログラミング中のユーザの気を散らすために、これらのツールとの最小限の認知的取り組みインタラクションを設計するなど、意味があります。

The software engineering community recently has witnessed widespread deployment of AI programming assistants, such as GitHub Copilot. However, in practice, developers do not accept AI programming assistants' initial suggestions at a high frequency. This leaves a number of open questions related to the usability of these tools. To understand developers' practices while using these tools and the important usability challenges they face, we administered a survey to a large population of developers and received responses from a diverse set of 410 developers. Through a mix of qualitative and quantitative analyses, we found that developers are most motivated to use AI programming assistants because they help developers reduce key-strokes, finish programming tasks quickly, and recall syntax, but resonate less with using them to help brainstorm potential solutions. We also found the most important reasons why developers do not use these tools are because these tools do not output code that addresses certain functional or non-functional requirements and because developers have trouble controlling the tool to generate the desired output. Our findings have implications for both creators and users of AI programming assistants, such as designing minimal cognitive effort interactions with these tools to reduce distractions for users while they are programming.
翻訳日:2023-03-31 14:35:28 公開日:2023-03-30
# 模擬画像変換のためのマスク付き適応変換器

Masked and Adaptive Transformer for Exemplar Based Image Translation ( http://arxiv.org/abs/2303.17123v1 )

ライセンス: Link先を確認
Chang Jiang, Fei Gao, Biao Ma, Yuhao Lin, Nannan Wang, Gang Xu(参考訳) 本稿では,画像翻訳のための新しいフレームワークを提案する。 近年の手法では,局所的スタイル制御による画像生成を逐次支配するクロスドメイン意味対応の確立に重点が置かれている。 残念ながら、ドメイン間のセマンティクスマッチングは困難であり、エラーのマッチングは最終的に生成された画像の品質を低下させる。 この課題を克服するために,マッチングの精度を向上させるとともに,画像生成におけるマッチングの役割を低下させる。 前者を実現するために,正確なクロスドメイン対応を学習し,文脈認識機能拡張を行うマスク付き適応トランスフォーマ(mat)を提案する。 後者を実現するために,画像のデコードのために,exemplarの入力とグローバルスタイルコードのソース特徴を補足情報として使用する。 さらに,高品質な画像生成に有用である品質識別型表現を得るための,新しいコントラスト型学習手法を考案した。 実験の結果,MATEBITと呼ばれる本手法は,多様な画像翻訳タスクにおいて,最先端の手法よりも優れた性能を示した。 コードは \url{https://github.com/AiArt-HDU/MATEBIT} で公開されている。

We present a novel framework for exemplar based image translation. Recent advanced methods for this task mainly focus on establishing cross-domain semantic correspondence, which sequentially dominates image generation in the manner of local style control. Unfortunately, cross-domain semantic matching is challenging; and matching errors ultimately degrade the quality of generated images. To overcome this challenge, we improve the accuracy of matching on the one hand, and diminish the role of matching in image generation on the other hand. To achieve the former, we propose a masked and adaptive transformer (MAT) for learning accurate cross-domain correspondence, and executing context-aware feature augmentation. To achieve the latter, we use source features of the input and global style codes of the exemplar, as supplementary information, for decoding an image. Besides, we devise a novel contrastive style learning method, for acquire quality-discriminative style representations, which in turn benefit high-quality image generation. Experimental results show that our method, dubbed MATEBIT, performs considerably better than state-of-the-art methods, in diverse image translation tasks. The codes are available at \url{https://github.com/AiArt-HDU/MATEBIT}.
翻訳日:2023-03-31 14:35:10 公開日:2023-03-30
# TLAG:対話型関係抽出のための情報トリガーとラベル認識知識ガイドモデル

TLAG: An Informative Trigger and Label-Aware Knowledge Guided Model for Dialogue-based Relation Extraction ( http://arxiv.org/abs/2303.17119v1 )

ライセンス: Link先を確認
Hao An, Dongsheng Chen, Weiyuan Xu, Zhihong Zhu, Yuexian Zou(参考訳) 対話に基づく関係抽出(dre)は、対話で言及される議論ペアの関係タイプを予測することを目的としている。 最新のトリガー強化手法は、DREを促進するトリガー予測タスクを提案する。 しかし、これらの手法はトリガー情報を完全に活用できず、関係抽出にノイズをもたらすこともできない。 これらの問題を解決するため,本論文では,トリガとラベル認識の知識をフル活用して関係抽出を導くTLAGを提案する。 まず, トリガ情報を完全に活用する適応型トリガ融合モジュールを設計する。 次に,モデルの性能をさらに高めるためにラベル認識知識を導入する。 DialogREデータセットによる実験結果から,我々のTLAGはベースラインモデルよりも優れており,詳細な分析により本手法の有効性が示された。

Dialogue-based Relation Extraction (DRE) aims to predict the relation type of argument pairs that are mentioned in dialogue. The latest trigger-enhanced methods propose trigger prediction tasks to promote DRE. However, these methods are not able to fully leverage the trigger information and even bring noise to relation extraction. To solve these problems, we propose TLAG, which fully leverages the trigger and label-aware knowledge to guide the relation extraction. First, we design an adaptive trigger fusion module to fully leverage the trigger information. Then, we introduce label-aware knowledge to further promote our model's performance. Experimental results on the DialogRE dataset show that our TLAG outperforms the baseline models, and detailed analyses demonstrate the effectiveness of our approach.
翻訳日:2023-03-31 14:34:49 公開日:2023-03-30
# 不完全多視点部分的マルチラベル分類のための信頼度表現の学習

Learning Reliable Representations for Incomplete Multi-View Partial Multi-Label Classification ( http://arxiv.org/abs/2303.17117v1 )

ライセンス: Link先を確認
Chengliang Liu, Jie Wen, Yong Xu, Liqiang Nie, Min Zhang(参考訳) マルチビュー学習とマルチラベル分類のクロストピックとして,近年,マルチビューマルチラベル分類が徐々に普及している。 多視点コントラスト学習の適用は、このプロセスをさらに促進したが、既存の多視点コントラスト学習法は、いわゆる負のペアを大まかに分離し、結果として、同一のカテゴリまたは類似のサンプルを分離する。 さらに、ビューやラベルの欠如を無視する多視点多ラベル学習手法も数多く存在する。 これらの問題に対処するために,RANKという不完全な多視点部分的マルチラベル分類ネットワークを提案する。 本研究では,ラベル駆動型マルチビューコントラスト学習戦略を提案し,教師付き情報を活用してビュー内の構造を保存し,ビュー間で一貫したアライメントを行う。 さらに,既存の手法に固有のビューレベル重みを突破し,各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。 ラベル相関情報は、最終マルチラベルクロスエントロピー分類損失において完全に活用され、判別能力が効果的に向上する。 最後に、私たちのモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスとラベルを持つデータセットでも動作します。 広範囲な実験により、RANKは既存の最先端手法よりも優れていることが確認された。

As a cross-topic of multi-view learning and multi-label classification, multi-view multi-label classification has gradually gained traction in recent years. The application of multi-view contrastive learning has further facilitated this process, however, the existing multi-view contrastive learning methods crudely separate the so-called negative pair, which largely results in the separation of samples belonging to the same category or similar ones. Besides, plenty of multi-view multi-label learning methods ignore the possible absence of views and labels. To address these issues, in this paper, we propose an incomplete multi-view partial multi-label classification network named RANK. In this network, a label-driven multi-view contrastive learning strategy is proposed to leverage supervised information to preserve the structure within view and perform consistent alignment across views. Furthermore, we break through the view-level weights inherent in existing methods and propose a quality-aware sub-network to dynamically assign quality scores to each view of each sample. The label correlation information is fully utilized in the final multi-label cross-entropy classification loss, effectively improving the discriminative power. Last but not least, our model is not only able to handle complete multi-view multi-label datasets, but also works on datasets with missing instances and labels. Extensive experiments confirm that our RANK outperforms existing state-of-the-art methods.
翻訳日:2023-03-31 14:34:36 公開日:2023-03-30
# フォトニック軌道角運動量の量子可換関係

Quantum Commutation Relationship for Photonic Orbital Angular Momentum ( http://arxiv.org/abs/2303.17116v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) 光子の軌道角運動量(OAM)は、すでに多くのアプリケーションに広く使われている。 しかし、フォトニックoam作用素が標準量子力学的可換関係を満たすかどうかという根本的な疑問があり、これはまた、基本量子自由度としての光学渦の解釈に深刻な懸念を抱いている。 本研究では,円筒座標で定義される正準角運動量作用素を調べ,グレードインデックス(grin)ファイバー内のラゲールゲージ(lg)モードに適用した。 我々はLGモードの通勤関係の有効性を確認し、ラダー作用素がディラック定数(\hbar$)の単位の増分や減算を適切に行うことを発見した。 これらの演算子を用いて、内在的および外在的OAMからの寄与を含む角運動量の大きさの量子力学的期待値を計算した。 以上の結果から,LGモードによって特徴づけられるOAMは,量子自由度が十分に定義されていることが示唆された。

Orbital Angular Momentum (OAM) of photons are already ubiquitously being used for numerous applications. However, there is a fundamental question whether photonic OAM operators satisfy standard quantum mechanical commutation relationship or not; this also poses a serious concern on the interpretation of an optical vortex as a fundamental quantum degree of freedom. Here, we examined canonical angular momentum operators defined in a cylindrical coordinate, and applied them to Laguerre-Gauss (LG) modes in a graded index (GRIN) fibre. We confirmed the validity of commutation relationship for the LG modes and found that ladder operators also work properly with the increment or decrement in units of the Dirac constant ($\hbar$). With those operators, we calculated the quantum-mechanical expectation value of the magnitude of angular momentum, which includes contributions from both intrinsic and extrinsic OAM. The obtained results suggest that OAM characterised by the LG modes exhibits a well-defined quantum degree of freedom.
翻訳日:2023-03-31 14:34:12 公開日:2023-03-30
# 効率的な無線ネットワーク管理における深部生成モデルとその応用 : チュートリアルとケーススタディ

Deep Generative Model and Its Applications in Efficient Wireless Network Management: A Tutorial and Case Study ( http://arxiv.org/abs/2303.17114v1 )

ライセンス: Link先を確認
Yinqiu Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Zehui Xiong, Dong In Kim, and Abbas Jamalipour(参考訳) 拡散モデルとchatgptの驚くべき成功により、ディープジェネレーションモデル(dgms)は2022年から爆発的な成長を遂げている。 コンテンツ生成に限らず、DGMは複雑なパターンを表現し、妥当なサンプルを生成する能力に優れていたため、モノのインターネット、メタバース、デジタルツインでも広く採用されている。 本稿では,無線ネットワーク管理の効率化という重要な課題におけるDGMの応用について検討する。 具体的には、生成AIと3つの代表的DGMについて概説する。 そこで,DGMを利用した無線ネットワーク管理フレームワークを提案し,従来のネットワーク管理手法の問題点,DGMが効率的に対応できる理由,および無線ネットワーク管理にDGMを適用するためのステップ・バイ・ステップのワークフローについて述べる。 さらに,現在最先端のDGMモデルである拡散モデルを用いて,ネットワーク経済学のケーススタディを行い,モバイルAI生成コンテンツ(AIGC)サービスのインセンティブ化に有効な契約を生成する。 最後に,今後の研究に向けた重要なオープン方向性について論じる。

With the phenomenal success of diffusion models and ChatGPT, deep generation models (DGMs) have been experiencing explosive growth from 2022. Not limited to content generation, DGMs are also widely adopted in Internet of Things, Metaverse, and digital twin, due to their outstanding ability to represent complex patterns and generate plausible samples. In this article, we explore the applications of DGMs in a crucial task, i.e., improving the efficiency of wireless network management. Specifically, we firstly overview the generative AI, as well as three representative DGMs. Then, a DGM-empowered framework for wireless network management is proposed, in which we elaborate the issues of the conventional network management approaches, why DGMs can address them efficiently, and the step-by-step workflow for applying DGMs in managing wireless networks. Moreover, we conduct a case study on network economics, using the state-of-the-art DGM model, i.e., diffusion model, to generate effective contracts for incentivizing the mobile AI-Generated Content (AIGC) services. Last but not least, we discuss important open directions for the further research.
翻訳日:2023-03-31 14:33:54 公開日:2023-03-30
# 光子のスピン:偏光の性質

Spin of Photons: Nature of Polarisation ( http://arxiv.org/abs/2303.17112v1 )

ライセンス: Link先を確認
Shinichi Saito(参考訳) poincar\'e球面におけるストークスパラメータ({\bf s}$)は、光子の偏光状態を記述するのに非常に有用な値である。 しかしながら、偏光の性質の基本原理は、量子力学的に光子のスピンを記述する方法に関する具体的な合意がないため、完全には理解されていない。 ここでは、多体コヒーレント状態によって記述された光子の単色コヒーレント線を考察し、ストークスパラメータに基づく古典的記述に関連して、光子のスピン状態を記述するための基本的な基礎を確立しようとした。 我々は、コヒーレント状態のスピノル記述が偏極状態のジョーンズベクトルと等価であることを示し、$SU(2)$群論における回転子に基づくすべての成分のスピン作用素({\bf \hat{S}}$)を得る。 位相シフト器や回転子のような偏波制御装置も、偏波状態の波動関数の位相を変える量子力学的作用素として得られる。 ストークスパラメータは、得られるスピン作用素の量子力学的平均である、${\bf s} = \langle {\bf \hat{s}} \rangle $である。

Stokes parameters (${\bf S}$) in Poincar\'e sphere are very useful values to describe the polarisation state of photons. However, the fundamental principle of the nature of polarisation is not completely understood, yet, because we have no concrete consensus how to describe spin of photons, quantum-mechanically. Here, we have considered a monochromatic coherent ray of photons, described by a many-body coherent state, and tried to establish a fundamental basis to describe the spin state of photons, in connection with a classical description based on Stokes parameters. We show that a spinor description of the coherent state is equivalent to Jones vector for polarisation states, and obtain the spin operators (${\bf \hat{S}}$) of all components based on rotators in a $SU(2)$ group theory. Polarisation controllers such as phase-shifters and rotators are also obtained as quantum-mechanical operators to change the phase of the wavefunction for polarisation states. We show that the Stokes parameters are quantum-mechanical average of the obtained spin operators, ${\bf S} = \langle {\bf \hat{S}} \rangle $.
翻訳日:2023-03-31 14:33:36 公開日:2023-03-30
# 階層的細粒画像偽造検出と局在化

Hierarchical Fine-Grained Image Forgery Detection and Localization ( http://arxiv.org/abs/2303.17111v1 )

ライセンス: Link先を確認
Xiao Guo, Xiaohong Liu, Zhiyuan Ren, Steven Grosz, Iacopo Masi, Xiaoming Liu(参考訳) CNN合成領域と画像編集領域で生成された画像の偽造特性の差が大きいため、画像の偽造検出と局所化(IFDL)が困難である。 この目的のために、IFDL表現学習のための階層的きめ細かい定式化を提案する。 具体的には、複数のラベルが異なるレベルにある操作された画像の偽造属性をまず表現する。 そして、それらの階層的依存関係を用いて、これらのレベルできめ細かい分類を行う。 その結果、アルゴリズムは様々なフォージェリー属性の包括的特徴と固有の階層性の両方を学習し、IFDL表現を改善することができる。 提案するIFDLフレームワークは,マルチブランチ特徴抽出器,ローカライゼーション,分類モジュールの3つのコンポーネントを含む。 特徴抽出器の各ブランチは、画素レベルの偽造領域をローカライゼーションと分類モジュールがそれぞれ分割し、画像レベルの偽造を検出する間、偽造属性を1つのレベルで分類することを学習する。 最後に,我々の研究を容易にするために,階層的なきめ細かいデータセットを構築した。 IFDLと偽属性分類の両方のタスクに対して,7ドルの異なるベンチマークで提案手法の有効性を示す。 ソースコードとデータセットは以下の通りである。 \href{https://github.com/CHELSEA234/HiFi_IFDL}{github.com/CHELSEA234/HiFi-IFDL}。

Differences in forgery attributes of images generated in CNN-synthesized and image-editing domains are large, and such differences make a unified image forgery detection and localization (IFDL) challenging. To this end, we present a hierarchical fine-grained formulation for IFDL representation learning. Specifically, we first represent forgery attributes of a manipulated image with multiple labels at different levels. Then we perform fine-grained classification at these levels using the hierarchical dependency between them. As a result, the algorithm is encouraged to learn both comprehensive features and inherent hierarchical nature of different forgery attributes, thereby improving the IFDL representation. Our proposed IFDL framework contains three components: multi-branch feature extractor, localization and classification modules. Each branch of the feature extractor learns to classify forgery attributes at one level, while localization and classification modules segment the pixel-level forgery region and detect image-level forgery, respectively. Lastly, we construct a hierarchical fine-grained dataset to facilitate our study. We demonstrate the effectiveness of our method on $7$ different benchmarks, for both tasks of IFDL and forgery attribute classification. Our source code and dataset can be found: \href{https://github.com/CHELSEA234/HiFi_IFDL}{github.com/CHELSEA234/HiFi-IFDL}.
翻訳日:2023-03-31 14:33:12 公開日:2023-03-30
# TreePiece: ツリートークン化による構文解析の高速化

TreePiece: Faster Semantic Parsing via Tree Tokenization ( http://arxiv.org/abs/2303.17161v1 )

ライセンス: Link先を確認
Sid Wang, Akshat Shrivastava, Sasha Livshits(参考訳) 自動回帰(AR)エンコーダ-デコーダニューラルネットワークは、自然言語を機械可読構文木に変換するタスクであるSemantic Parsingなど、多くのNLP問題で成功した。 しかし、ARモデルの逐次予測プロセスは遅くなる可能性がある。 セマンティック解析のためにARを高速化するために,解析木をサブツリーにトークン化し,デコードステップ毎に1つのサブツリーを生成するTreePieceという新しいテクニックを導入する。 topv2ベンチマークでは、treepieceは標準arよりも4.6倍高速で、比較速度は同等だが、非自己回帰(nar)よりもかなり高い。

Autoregressive (AR) encoder-decoder neural networks have proved successful in many NLP problems, including Semantic Parsing -- a task that translates natural language to machine-readable parse trees. However, the sequential prediction process of AR models can be slow. To accelerate AR for semantic parsing, we introduce a new technique called TreePiece that tokenizes a parse tree into subtrees and generates one subtree per decoding step. On TopV2 benchmark, TreePiece shows 4.6 times faster decoding speed than standard AR, and comparable speed but significantly higher accuracy compared to Non-Autoregressive (NAR).
翻訳日:2023-03-31 14:27:32 公開日:2023-03-30
# KD-DLGAN:知識蒸留によるデータ限定画像生成

KD-DLGAN: Data Limited Image Generation via Knowledge Distillation ( http://arxiv.org/abs/2303.17158v1 )

ライセンス: Link先を確認
Kaiwen Cui, Yingchen Yu, Fangneng Zhan, Shengcai Liao, Shijian Lu1, Eric Xing(参考訳) generative adversarial networks (gans) は高品質な画像生成モデルを訓練するための大規模トレーニングデータに大きく依存している。 訓練データが少ないため、GAN識別器は過度なオーバーフィッティングに悩まされ、特に世代多様性において直接的に劣化する。 知識蒸留(KD)の最近の進歩にインスパイアされた知識蒸留ベースの生成フレームワークであるKD-DLGANを提案する。 KD-DLGANは2つの革新的な設計で構成されている。 1つ目は、識別器に難しい学習課題を課し、事前訓練されたモデルからより一般化可能な知識を蒸留することにより、識別器過適合を緩和する生成KDである。 2つ目は、事前訓練されたモデル内の多様な画像テキスト相関を蒸留保存することにより、生成の多様性を向上させる相関生成KDである。 複数のベンチマークに対する大規模な実験により、KD-DLGANは訓練データに制限のある優れた画像生成を実現することが示された。 さらに、KD-DLGANは最先端を補完し、一貫性と実質的なパフォーマンス向上を実現している。

Generative Adversarial Networks (GANs) rely heavily on large-scale training data for training high-quality image generation models. With limited training data, the GAN discriminator often suffers from severe overfitting which directly leads to degraded generation especially in generation diversity. Inspired by the recent advances in knowledge distillation (KD), we propose KD-DLGAN, a knowledge-distillation based generation framework that introduces pre-trained vision-language models for training effective data-limited generation models. KD-DLGAN consists of two innovative designs. The first is aggregated generative KD that mitigates the discriminator overfitting by challenging the discriminator with harder learning tasks and distilling more generalizable knowledge from the pre-trained models. The second is correlated generative KD that improves the generation diversity by distilling and preserving the diverse image-text correlation within the pre-trained models. Extensive experiments over multiple benchmarks show that KD-DLGAN achieves superior image generation with limited training data. In addition, KD-DLGAN complements the state-of-the-art with consistent and substantial performance gains.
翻訳日:2023-03-31 14:27:19 公開日:2023-03-30
# MAHALO:観察からオフライン強化学習と模倣学習を統合する

MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning from Observations ( http://arxiv.org/abs/2303.17156v1 )

ライセンス: Link先を確認
Anqi Li, Byron Boots, Ching-An Cheng(参考訳) 我々は、観察からオフライン政策学習(PLfO)と呼ばれる、シーケンシャルな意思決定のための新しいパラダイムについて研究する。 オフラインplfoは、準標準品質のデータセットを使ってポリシーを学ぶことを目指している。 1) トラジェクトリーのサブセットにのみ報酬が付与される。 2) ラベル付き軌道は,動作を含まない。 3)ラベル付き軌道は高品質でない場合がある。 4) 全体データには完全なカバレッジがない可能性がある。 このような不完全性は、現実世界の学習シナリオでよく見られるため、オフラインplfoは、オフライン模倣学習(il)、ilfo、強化学習(rl)など、既存の多くのオフライン学習設定を含んでいる。 本研究は, オフラインPLfOのための Modality-Agnostic Adversarial hypothesis Adaptation for Learning from Observations (MAHALO) という汎用的なアプローチを提案する。 オフラインRLの悲観的概念に基づいて構築されたMAHALOは、データセットの収束が不十分なため不確実性を考慮したパフォーマンスの低いバウンダリを使用してポリシーを最適化する。 我々は,政策最適化において,データ一貫性のある批判と報酬機能を積極的に訓練することにより,学習した方針がデータ不足に対して堅牢であるように強制することにより,この概念を実装した。 理論と実験において,MAHALOは様々なオフラインPLfOタスクにおいて,アルゴリズムの性能を一貫して上回るか,あるいは一致していることを示す。

We study a new paradigm for sequential decision making, called offline Policy Learning from Observation (PLfO). Offline PLfO aims to learn policies using datasets with substandard qualities: 1) only a subset of trajectories is labeled with rewards, 2) labeled trajectories may not contain actions, 3) labeled trajectories may not be of high quality, and 4) the overall data may not have full coverage. Such imperfection is common in real-world learning scenarios, so offline PLfO encompasses many existing offline learning setups, including offline imitation learning (IL), ILfO, and reinforcement learning (RL). In this work, we present a generic approach, called Modality-agnostic Adversarial Hypothesis Adaptation for Learning from Observations (MAHALO), for offline PLfO. Built upon the pessimism concept in offline RL, MAHALO optimizes the policy using a performance lower bound that accounts for uncertainty due to the dataset's insufficient converge. We implement this idea by adversarially training data-consistent critic and reward functions in policy optimization, which forces the learned policy to be robust to the data deficiency. We show that MAHALO consistently outperforms or matches specialized algorithms across a variety of offline PLfO tasks in theory and experiments.
翻訳日:2023-03-31 14:26:59 公開日:2023-03-30
# テキスト・画像拡散モデルのための識別クラストークン

Discriminative Class Tokens for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.17155v1 )

ライセンス: Link先を確認
Idan Schwartz, V\'esteinn Sn{\ae}bjarnarson, Sagie Benaim, Hila Chefer, Ryan Cotterell, Lior Wolf, Serge Belongie(参考訳) 近年のテキスト・画像拡散モデルの進歩により、多様で高品質な画像が生成できるようになった。 しかし、生成された画像はしばしば微妙な細部を描写するものではなく、入力テキストの曖昧さによる誤りの影響を受けやすい。 これらの問題を緩和する一つの方法は、クラスラベルデータセット上で拡散モデルをトレーニングすることである。 これにはマイナス面があり、表現力に制限があります。 (i)教師付きデータセットは、テキストから画像へのモデルを訓練した大規模スクレイピングテキスト画像データセットに比べ、一般的に小さいため、生成された画像の品質や多様性が著しく影響する。 (ii)入力は、生成した画像の制御を制限する自由形式のテキストとは対照的に、ハードコードされたラベルである。 本研究では,事前学習した分類器の識別信号を用いて高い精度を達成しつつ,自由形式のテキストの表現能力を活かした非侵襲的微調整手法を提案する。 これは、テキスト間拡散モデルの単一入力トークンの埋め込みを、その分類器を用いて反復的に修正し、生成された画像を所定のターゲットクラスに向けて操ることで行われる。 本手法は,従来の微調整法と比較して高速で,クラス内画像の収集や雑音耐性分類器の再学習は不要である。 提案手法を広範囲に評価し,生成した画像が次の通りであることを示す。 (i)標準拡散モデルよりも正確で高品質である。 (ii)低リソース環境でのトレーニングデータ強化に使用できる。 (iii)案内分類器の訓練に用いるデータに関する情報を明らかにする。 コードは \url{https://github.com/idansc/discriminative_class_tokens} で入手できる。

Recent advances in text-to-image diffusion models have enabled the generation of diverse and high-quality images. However, generated images often fall short of depicting subtle details and are susceptible to errors due to ambiguity in the input text. One way of alleviating these issues is to train diffusion models on class-labeled datasets. This comes with a downside, doing so limits their expressive power: (i) supervised datasets are generally small compared to large-scale scraped text-image datasets on which text-to-image models are trained, and so the quality and diversity of generated images are severely affected, or (ii) the input is a hard-coded label, as opposed to free-form text, which limits the control over the generated images. In this work, we propose a non-invasive fine-tuning technique that capitalizes on the expressive potential of free-form text while achieving high accuracy through discriminative signals from a pretrained classifier, which guides the generation. This is done by iteratively modifying the embedding of a single input token of a text-to-image diffusion model, using the classifier, by steering generated images toward a given target class. Our method is fast compared to prior fine-tuning methods and does not require a collection of in-class images or retraining of a noise-tolerant classifier. We evaluate our method extensively, showing that the generated images are: (i) more accurate and of higher quality than standard diffusion models, (ii) can be used to augment training data in a low-resource setting, and (iii) reveal information about the data used to train the guiding classifier. The code is available at \url{https://github.com/idansc/discriminative_class_tokens}
翻訳日:2023-03-31 14:26:38 公開日:2023-03-30
# 自己教師型視覚表現学習のための混合オートエンコーダ

Mixed Autoencoder for Self-supervised Visual Representation Learning ( http://arxiv.org/abs/2303.17152v1 )

ライセンス: Link先を確認
Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung(参考訳) Masked Autoencoder (MAE)は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。 しかしながら、maeの効果的なデータ拡張戦略は依然としてオープンな質問であり、最も重要な部分となる対照的な学習の方法とは異なる。 本稿では,MAEの混合促進効果について検討する。 まず, 相互情報(mi)の増加により, ナイーブ混合が縮退するモデル性能を示す。 そこで本研究では,各パッチに対して,同種パッチの認識を明示的に要求するだけでなく,下流の高密度認識性能を向上させるために,オブジェクト認識による事前学習を行うことにより,MI増加を緩和する。 大規模な実験により,提案したMixedAE (MixedAE) が,様々な下流タスクにおけるマスク画像モデリング (MIM) 強化における最先端の転送結果を実現することを示す。 具体的には、imagenet-1k, ade20k, coco 上の +0.3% の精度、 +1.7 miou と +0.9 ap をそれぞれ標準 vit ベースで上回っている。 さらに、MIM法とインスタンス識別を組み合わせた強力なMIM法であるiBOTを超え、トレーニングを2倍に加速する。 私たちの知る限りでは、プレテキストタスク設計の観点からMIMの混合を検討するのはこれが初めてです。 コードは利用可能になる。

Masked Autoencoder (MAE) has demonstrated superior performance on various vision tasks via randomly masking image patches and reconstruction. However, effective data augmentation strategies for MAE still remain open questions, different from those in contrastive learning that serve as the most important part. This paper studies the prevailing mixing augmentation for MAE. We first demonstrate that naive mixing will in contrast degenerate model performance due to the increase of mutual information (MI). To address, we propose homologous recognition, an auxiliary pretext task, not only to alleviate the MI increasement by explicitly requiring each patch to recognize homologous patches, but also to perform object-aware self-supervised pre-training for better downstream dense perception performance. With extensive experiments, we demonstrate that our proposed Mixed Autoencoder (MixedAE) achieves the state-of-the-art transfer results among masked image modeling (MIM) augmentations on different downstream tasks with significant efficiency. Specifically, our MixedAE outperforms MAE by +0.3% accuracy, +1.7 mIoU and +0.9 AP on ImageNet-1K, ADE20K and COCO respectively with a standard ViT-Base. Moreover, MixedAE surpasses iBOT, a strong MIM method combined with instance discrimination, while accelerating training by 2x. To our best knowledge, this is the very first work to consider mixing for MIM from the perspective of pretext task design. Code will be made available.
翻訳日:2023-03-31 14:26:12 公開日:2023-03-30
# NeILF++:幾何学と材料推定のための反射型光場

NeILF++: Inter-Reflectable Light Fields for Geometry and Material Estimation ( http://arxiv.org/abs/2303.17147v1 )

ライセンス: Link先を確認
Jingyang Zhang, Yao Yao, Shiwei Li, Jingbo Liu, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan(参考訳) 多視点画像からの関節形状, 材料, 照明推定のための新しい微分可能レンダリングフレームワークを提案する。 本研究では, 簡易な環境マップや共同位置フラッシュライトを仮定する従来の手法とは対照的に, 静的なシーンの照明を1つのニューラルインシデント光場 (NeILF) と1つのニューラルラジアンス場 (NeRF) として定式化する。 提案手法の鍵となる洞察は,面間の物理的レンダリングと反射による光場への入射と出射の結合であり,画像観察から映像形状,材質,照明を物理的に分離することが可能である。 提案した入射光と反射間フレームワークは、他のNeRFシステムにも容易に適用できる。 本手法は,入射光や表面材料への射出放射を分解するだけでなく,神経表面の再構成細部をさらに改善する表面改質モジュールとして機能することを示す。 本稿では,幾何再構成精度,材料推定精度,新規レンダリングの忠実性の観点から,提案手法が最先端の成果を実現できることを示す。

We present a novel differentiable rendering framework for joint geometry, material, and lighting estimation from multi-view images. In contrast to previous methods which assume a simplified environment map or co-located flashlights, in this work, we formulate the lighting of a static scene as one neural incident light field (NeILF) and one outgoing neural radiance field (NeRF). The key insight of the proposed method is the union of the incident and outgoing light fields through physically-based rendering and inter-reflections between surfaces, making it possible to disentangle the scene geometry, material, and lighting from image observations in a physically-based manner. The proposed incident light and inter-reflection framework can be easily applied to other NeRF systems. We show that our method can not only decompose the outgoing radiance into incident lights and surface materials, but also serve as a surface refinement module that further improves the reconstruction detail of the neural surface. We demonstrate on several datasets that the proposed method is able to achieve state-of-the-art results in terms of geometry reconstruction quality, material estimation accuracy, and the fidelity of novel view rendering.
翻訳日:2023-03-31 14:25:48 公開日:2023-03-30
# DAMO-StreamNet: 自動運転におけるストリーミング知覚の最適化

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving ( http://arxiv.org/abs/2303.17144v1 )

ライセンス: Link先を確認
Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Wangmeng Xiang, Binghui Chen, Bin Luo, Yifeng Geng, Xuansong Xie(参考訳) リアルタイムの知覚(またはストリーミングの知覚)は、既存の研究ではまだ十分に研究されていない自動運転の重要な側面である。 このギャップに対処するため,我々は,yoloシリーズの最近の進歩と空間的および時間的知覚機構の包括的解析を組み合わせた最適化フレームワークであるdamo-streamnetを提案する。 damo-streamnetの主な革新は、(1)変形可能な畳み込みを組み込んだロバストなネック構造、受容野の強化、機能アライメント能力である。 2)短経路意味的特徴と長経路時間的特徴を統合し,動作状態予測精度を向上させる二重分岐構造。 3) 効率的な最適化のためのロジットレベル蒸留法, 意味空間における教師・学生ネットワークのロジットの調整 (4) 現在のフレームでフレーム機能を更新し, 推論中にシームレスなストリーミング知覚を確保するリアルタイム予測機構。 実験の結果,DAMO-StreamNetは既存の最先端手法を超え,37.8%(正規サイズ600,960)と43.3%(大規模サイズ1200,1920)のsAPを達成した。 この研究は、リアルタイム認識のための新しいベンチマークを設定するだけでなく、将来の研究に有用な洞察を提供する。 さらに、DAMO-StreamNetは、ドローンやロボットなど、さまざまな自律システムに適用でき、リアルタイム知覚への道を開くことができる。

Real-time perception, or streaming perception, is a crucial aspect of autonomous driving that has yet to be thoroughly explored in existing research. To address this gap, we present DAMO-StreamNet, an optimized framework that combines recent advances from the YOLO series with a comprehensive analysis of spatial and temporal perception mechanisms, delivering a cutting-edge solution. The key innovations of DAMO-StreamNet are: (1) A robust neck structure incorporating deformable convolution, enhancing the receptive field and feature alignment capabilities. (2) A dual-branch structure that integrates short-path semantic features and long-path temporal features, improving motion state prediction accuracy. (3) Logits-level distillation for efficient optimization, aligning the logits of teacher and student networks in semantic space. (4) A real-time forecasting mechanism that updates support frame features with the current frame, ensuring seamless streaming perception during inference. Our experiments demonstrate that DAMO-StreamNet surpasses existing state-of-the-art methods, achieving 37.8% (normal size (600, 960)) and 43.3% (large size (1200, 1920)) sAP without using extra data. This work not only sets a new benchmark for real-time perception but also provides valuable insights for future research. Additionally, DAMO-StreamNet can be applied to various autonomous systems, such as drones and robots, paving the way for real-time perception.
翻訳日:2023-03-31 14:25:25 公開日:2023-03-30
# ソフトな隣人は、対照的な視覚表現学習のポジティブサポーターである

Soft Neighbors are Positive Supporters in Contrastive Visual Representation Learning ( http://arxiv.org/abs/2303.17142v1 )

ライセンス: Link先を確認
Chongjian Ge, Jiangliu Wang, Zhan Tong, Shoufa Chen, Yibing Song, and Ping Luo(参考訳) コントラスト学習法は、あるインスタンスと他のインスタンスのビューを比較して視覚エンコーダを訓練する。 通常、あるインスタンスから作成されたビューはポジティブに設定され、他のインスタンスからのビューはネガティブに設定される。 この二項インスタンス識別は、自己教師付き学習における特徴表現を改善するために広く研究されている。 本稿では、インスタンス識別フレームワークを再考し、異なるサンプル間の相関を測定するのに不十分なバイナリインスタンスラベルを見つける。 直感的な例では、ランダムな画像インスタンスが与えられた場合、コンテンツの意味が同じ(つまり同じカテゴリに属する)、または部分的に関連している(すなわち類似のカテゴリに属する)ミニバッチに他の画像が存在するかもしれない。 現在のイメージインスタンスと類似したイメージの扱い方は、未解決の問題を残している。 そこで本研究では,他の相関インスタンス(ソフト近傍)を探索することにより,現在の画像をサポートすることを提案する。 まず, 候補近傍集合を慎重に育成し, 関連性の高いインスタンスの探索に活用する。 次に、クロスアテンションモジュールを導入して、現在のものに対する他の相関インスタンスの相関スコア(正性を示す)を予測する。 正性スコアは、相関する各インスタンスからの正の支持を定量的に測定し、プリテキストトレーニングの目的に符号化する。 この目的のために,提案手法はSSLの関連インスタンスを吸収しながら非相関インスタンスの識別に有効である。 画像分類,オブジェクト検出,インスタンスセグメンテーションなどの標準視覚認識ベンチマークにおいて,ソフト近傍のコントラスト学習法(snclr)を評価した。 SNCLRは,VTエンコーダとCNNエンコーダの両方の機能表現を改善するのに有効であることを示す。

Contrastive learning methods train visual encoders by comparing views from one instance to others. Typically, the views created from one instance are set as positive, while views from other instances are negative. This binary instance discrimination is studied extensively to improve feature representations in self-supervised learning. In this paper, we rethink the instance discrimination framework and find the binary instance labeling insufficient to measure correlations between different samples. For an intuitive example, given a random image instance, there may exist other images in a mini-batch whose content meanings are the same (i.e., belonging to the same category) or partially related (i.e., belonging to a similar category). How to treat the images that correlate similarly to the current image instance leaves an unexplored problem. We thus propose to support the current image by exploring other correlated instances (i.e., soft neighbors). We first carefully cultivate a candidate neighbor set, which will be further utilized to explore the highly-correlated instances. A cross-attention module is then introduced to predict the correlation score (denoted as positiveness) of other correlated instances with respect to the current one. The positiveness score quantitatively measures the positive support from each correlated instance, and is encoded into the objective for pretext training. To this end, our proposed method benefits in discriminating uncorrelated instances while absorbing correlated instances for SSL. We evaluate our soft neighbor contrastive learning method (SNCLR) on standard visual recognition benchmarks, including image classification, object detection, and instance segmentation. The state-of-the-art recognition performance shows that SNCLR is effective in improving feature representations from both ViT and CNN encoders.
翻訳日:2023-03-31 14:24:55 公開日:2023-03-30
# 自律運転のためのオンラインカメラと地上の校正

Online Camera-to-ground Calibration for Autonomous Driving ( http://arxiv.org/abs/2303.17137v1 )

ライセンス: Link先を確認
Binbin Li, Xinyu Du, Yao Hu, Hao Yu, Wende Zhang(参考訳) オンラインカメラから地上へのキャリブレーションは、カメラと路面の間の非剛体変換をリアルタイムで生成する。 既存のソリューションは静的キャリブレーションを利用しており、タイヤ圧力の変化、車両の積載量の変化、路面の多様性といった環境変化に悩まされている。 他のオンラインソリューションでは、道路要素の使用や、画像に重なり合ったビュー間の測光一貫性を利用して、道路上の特定のターゲットの連続検出や、キャリブレーションを容易にする複数のカメラによる支援を必要とする。 本研究では,運転中に特定の目標を利用できないオンライン単眼カメラ・地上キャリブレーションソリューションを提案する。 本研究では,車輪オドメトリーによる地盤特徴抽出のための粗視的アプローチを行い,スライディングウィンドウに基づく因子グラフ最適化によるカメラから地上へのキャリブレーションパラメータを推定する。 運転中のカメラから地面への非剛性変換を考慮し,キャリブレーション性能を定量化し,キャリブレーション結果の報告/提示のための基準を提示する。 実世界データを用いた広範囲な実験により,本アルゴリズムが実世界の手法を上回っていることを示す。

Online camera-to-ground calibration is to generate a non-rigid body transformation between the camera and the road surface in a real-time manner. Existing solutions utilize static calibration, suffering from environmental variations such as tire pressure changes, vehicle loading volume variations, and road surface diversity. Other online solutions exploit the usage of road elements or photometric consistency between overlapping views across images, which require continuous detection of specific targets on the road or assistance with multiple cameras to facilitate calibration. In our work, we propose an online monocular camera-to-ground calibration solution that does not utilize any specific targets while driving. We perform a coarse-to-fine approach for ground feature extraction through wheel odometry and estimate the camera-to-ground calibration parameters through a sliding-window-based factor graph optimization. Considering the non-rigid transformation of camera-to-ground while driving, we provide metrics to quantify calibration performance and stopping criteria to report/broadcast our satisfying calibration results. Extensive experiments using real-world data demonstrate that our algorithm is effective and outperforms state-of-the-art techniques.
翻訳日:2023-03-31 14:24:28 公開日:2023-03-30
# C-SFDA: 効率的なソースフリードメイン適応のための自己学習フレームワーク

C-SFDA: A Curriculum Learning Aided Self-Training Framework for Efficient Source Free Domain Adaptation ( http://arxiv.org/abs/2303.17132v1 )

ライセンス: Link先を確認
Nazmul Karim, Niluthpol Chowdhury Mithun, Abhinav Rajvanshi, Han-pang Chiu, Supun Samarasekera, Nazanin Rahnavard(参考訳) unsupervised domain adaptation(uda)アプローチは、ラベル付きソースドメインでトレーニングされたモデルをラベルなしのターゲットドメインに適応させることに重点を置いている。 UDAメソッドは、ソースデータが適応中にアクセス可能であるという強い仮定を持っているが、プライバシの懸念やデバイスのリソース制約のため、多くの現実のシナリオでは実現できないかもしれない。 この点において、ソースフリードメイン適応(SFDA)は、ソースデータへのアクセスが適応中に不要になるため、優れている。 SFDAの最近の最先端(SOTA)法は、主に擬似ラベルによる自己訓練に焦点を当てている。 一 早期の訓練時間の記憶に繋がるうるノイズのある擬似ラベルの必然的発生 二 資源制約のシナリオにおいて重大な負担となるメモリバンクの維持が必要であること。 そこで本研究では,sfdaのためのカリキュラム学習支援自己学習フレームワークであるc-sfdaを提案する。 具体的には,その信頼性に基づいて選択した疑似ラベルの制限量から学習を促進するためのカリキュラム学習方式を提案する。 このシンプルで効果的なステップは、適応の異なる段階におけるラベルノイズの伝搬をうまく防止し、コストのかかるメモリバンクベースのラベルリファインメントを不要にする。 画像認識とセマンティクスセグメンテーション課題の両方に関する広範囲な実験評価を行い,提案手法の有効性を確認した。 C-SFDAは、オンラインテストタイムドメイン適応にも容易に適用でき、従来のSOTAメソッドよりも優れている。

Unsupervised domain adaptation (UDA) approaches focus on adapting models trained on a labeled source domain to an unlabeled target domain. UDA methods have a strong assumption that the source data is accessible during adaptation, which may not be feasible in many real-world scenarios due to privacy concerns and resource constraints of devices. In this regard, source-free domain adaptation (SFDA) excels as access to source data is no longer required during adaptation. Recent state-of-the-art (SOTA) methods on SFDA mostly focus on pseudo-label refinement based self-training which generally suffers from two issues: i) inevitable occurrence of noisy pseudo-labels that could lead to early training time memorization, ii) refinement process requires maintaining a memory bank which creates a significant burden in resource constraint scenarios. To address these concerns, we propose C-SFDA, a curriculum learning aided self-training framework for SFDA that adapts efficiently and reliably to changes across domains based on selective pseudo-labeling. Specifically, we employ a curriculum learning scheme to promote learning from a restricted amount of pseudo labels selected based on their reliabilities. This simple yet effective step successfully prevents label noise propagation during different stages of adaptation and eliminates the need for costly memory-bank based label refinement. Our extensive experimental evaluations on both image recognition and semantic segmentation tasks confirm the effectiveness of our method. C-SFDA is readily applicable to online test-time domain adaptation and also outperforms previous SOTA methods in this task.
翻訳日:2023-03-31 14:24:07 公開日:2023-03-30
# 漸進型手法の線形収束速度:古典的・最近の展開に関する調査

Sublinear Convergence Rates of Extragradient-Type Methods: A Survey on Classical and Recent Developments ( http://arxiv.org/abs/2303.17192v1 )

ライセンス: Link先を確認
Quoc Tran-Dinh(参考訳) g. m. korpelevich が1976年に導入したextragradient (eg) は、鞍点問題の解とその変分不等式や単調包含物などの拡張を近似するためのよく知られた方法である。 長年にわたり、EGの多くの変種が提案され、文献で研究されてきた。 近年,機械学習やロバスト最適化の新たな応用により,これらの手法が普及している。 本研究では, 非線形方程式と包含の解を近似するためのeg法とその変種の最新展開について, 単調性と共単調性の設定に着目して検討する。 アルゴリズムの異なるクラスに対する統一収束解析を提供し、サブ線形ベストイテレートとラストイテレート収束率に重点を置いている。 また、Halpern固定点反復法とNesterov加速法の両方に基づく最近のEGの加速変種についても論じる。 我々のアプローチは、単純な議論と基本的な数学的ツールを使って証明を可能な限り基本的なものにし、幅広い問題をカバーする汎用性を維持します。

The extragradient (EG), introduced by G. M. Korpelevich in 1976, is a well-known method to approximate solutions of saddle-point problems and their extensions such as variational inequalities and monotone inclusions. Over the years, numerous variants of EG have been proposed and studied in the literature. Recently, these methods have gained popularity due to new applications in machine learning and robust optimization. In this work, we survey the latest developments in the EG method and its variants for approximating solutions of nonlinear equations and inclusions, with a focus on the monotonicity and co-hypomonotonicity settings. We provide a unified convergence analysis for different classes of algorithms, with an emphasis on sublinear best-iterate and last-iterate convergence rates. We also discuss recent accelerated variants of EG based on both Halpern fixed-point iteration and Nesterov's accelerated techniques. Our approach uses simple arguments and basic mathematical tools to make the proofs as elementary as possible, while maintaining generality to cover a broad range of problems.
翻訳日:2023-03-31 14:18:16 公開日:2023-03-30
# レイアウト拡散:レイアウト画像生成のための制御可能な拡散モデル

LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation ( http://arxiv.org/abs/2303.17189v1 )

ライセンス: Link先を確認
Guangcong Zheng, Xianpan Zhou, Xuewei Li, Zhongang Qi, Ying Shan, Xi Li(参考訳) 近年,拡散モデルは画像合成において大きな成功を収めている。 しかし、画像が複数のオブジェクトの複雑なシーンを持つレイアウトからイメージへの生成に関して、グローバルレイアウトマップと個々の詳細なオブジェクトの両方を強固に制御する方法は、依然として難しい課題である。 本稿では,従来よりも高い品質と高い制御性が得られる拡散モデルであるlayoutdiffusionを提案する。 画像とレイアウトのマルチモーダルな融合を克服するために,領域情報を含む構造的イメージパッチを構築し,パッチされたイメージを特別なレイアウトに変換することで,通常のレイアウトと統一した形態で融合する。 さらに,複数物体間の関係をモデル化するためにlfm(layout fusion module)とoaca(object-aware cross attention)を提案する。 大規模な実験の結果、LayoutDiffusionは従来のSOTA法よりも46.35%、COCO-stuff法が26.70%、VG法が44.29%、41.82%優れていた。 コードはhttps://github.com/ZGCTroy/LayoutDiffusionで入手できる。

Recently, diffusion models have achieved great success in image synthesis. However, when it comes to the layout-to-image generation where an image often has a complex scene of multiple objects, how to make strong control over both the global layout map and each detailed object remains a challenging task. In this paper, we propose a diffusion model named LayoutDiffusion that can obtain higher generation quality and greater controllability than the previous works. To overcome the difficult multimodal fusion of image and layout, we propose to construct a structural image patch with region information and transform the patched image into a special layout to fuse with the normal layout in a unified form. Moreover, Layout Fusion Module (LFM) and Object-aware Cross Attention (OaCA) are proposed to model the relationship among multiple objects and designed to be object-aware and position-sensitive, allowing for precisely controlling the spatial related information. Extensive experiments show that our LayoutDiffusion outperforms the previous SOTA methods on FID, CAS by relatively 46.35%, 26.70% on COCO-stuff and 44.29%, 41.82% on VG. Code is available at https://github.com/ZGCTroy/LayoutDiffusion.
翻訳日:2023-03-31 14:17:55 公開日:2023-03-30
# 相関位相に対する効率的な変分量子回路構造

Efficient variational quantum circuit structure for correlated topological phases ( http://arxiv.org/abs/2303.17187v1 )

ライセンス: Link先を確認
Rong-Yang Sun, Tomonori Shirakawa, Seiji Yunoki(参考訳) 本稿では,変分量子固有ソルバ(vqe)アルゴリズムに使用される変分量子回路 \textit{ans\"{a}tze} の効率的な回路構造を提案する。 効率的な回路 \textit{Ansatz} は初期化層と変分層という2つの層を含むべきである。 初期化層では、対象位相位相に適合する絡み合い構造を有する固定深さ回路状態が構築される。 その後、回路状態はさらに調整され、パラメータ化された変動層において、ハミルトニアンによって決定される局所相関の詳細をキャプチャする。 この戦略に基づいて, vqe計算により, 共役的位相ハルダン相を分解可能な交代スピン-1/2$ハイゼンベルク鎖で調べるための回路 \textit{ansatz} を設計した。 長い配列の弦の順序、開境界を持つ系の4つの異なる局部的なエッジモードパターンに関連する4つのほぼ退化基底状態、およびエンタングルメントスペクトルの2つの縮退は、数値シミュレーションと実量子コンピュータの両方において1つの深さ変化層しか持たない最適化された浅い回路状態に対して観察される。 さらに、この量子回路 \textit{ansatz} の計算能力(すなわち表現可能性)は、システムのサイズではなく、システムの固有相関長によって決定されるため、スケーラブルなvqe計算が可能であることを示す。

We propose an efficient circuit structure of variational quantum circuit \textit{Ans\"{a}tze} used for the variational quantum eigensolver (VQE) algorithm in calculating gapped topological phases on the currently feasible noisy intermediate-scale quantum computers. An efficient circuit \textit{Ansatz} should include two layers: the initialization layer and the variational layer. In the initialization layer, a fixed depth circuit state with a compatible entanglement structure to the target topological phase is constructed. The circuit state is further adjusted subsequently to capture the details of the local correlations, which is dictated with the Hamiltonian, in the parametrized variational layer. Based on this strategy, we design a circuit \textit{Ansatz} to investigate the symmetry-protected topological Haldane phase in a \textit{non-exactly} solvable alternating spin-$1/2$ Heisenberg chain by VQE calculations. Main characterizations of the Haldane phase, including the long-ranged string order, the four-fold nearly degenerate ground states associated with four different localized edge mode patterns for the system with open boundaries, and the two-fold degeneracy of the entanglement spectrum, are all observed for the optimized shallow circuit state with only one depth variational layer both in numerical simulations and on real quantum computers. We further demonstrate that the computational capacity (i.e., expressibility) of this quantum circuit \textit{Ansatz} is determined not by the system size but only by the intrinsic correlation length of the system, thus implying that the scalable VQE calculation is possible.
翻訳日:2023-03-31 14:17:28 公開日:2023-03-30
# Nordic Pile: 言語モデリングのための1.2TBのNordic Dataset

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling ( http://arxiv.org/abs/2303.17183v1 )

ライセンス: Link先を確認
Joey \"Ohman, Severine Verlinden, Ariel Ekgren, Amaru Cuba Gyllensten, Tim Isbister, Evangelia Gogoulou, Fredrik Carlsson, Magnus Sahlgren(参考訳) 事前学習された大規模言語モデル(LLM)は大量のテキストデータを必要とし、LLMの性能は一般的にデータセットのスケールと品質と相関する。 これは、テキストコーパスの可用性が制限されているノルディック言語のような、より小さな言語向けのLLMを構築することが困難であることを意味する。 北欧語におけるLLMSの開発を容易にするため、北ゲルマン語の主要言語(デンマーク語、アイスランド語、ノルウェー語、スウェーデン語)およびいくつかの高品質な英語データを含む1.2TBのテキストからなる高品質なデータセットをキュレートする。 本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて述べる。

Pre-training Large Language Models (LLMs) require massive amounts of text data, and the performance of the LLMs typically correlates with the scale and quality of the datasets. This means that it may be challenging to build LLMs for smaller languages such as Nordic ones, where the availability of text corpora is limited. In order to facilitate the development of the LLMS in the Nordic languages, we curate a high-quality dataset consisting of 1.2TB of text, in all of the major North Germanic languages (Danish, Icelandic, Norwegian, and Swedish), as well as some high-quality English data. This paper details our considerations and processes for collecting, cleaning, and filtering the dataset.
翻訳日:2023-03-31 14:17:00 公開日:2023-03-30
# 多平面差と非一様座標を用いたステレオ映像の入射視点時間補間

Implicit View-Time Interpolation of Stereo Videos using Multi-Plane Disparities and Non-Uniform Coordinates ( http://arxiv.org/abs/2303.17181v1 )

ライセンス: Link先を確認
Avinash Paliwal, Andrii Tsarov and Nima Khademi Kalantari(参考訳) 本稿では,ステレオビデオのビュータイム補間に対するアプローチを提案する。 具体的には,畳み込みデコーダを用いて入力座標と2次元rgb画像間の補間可能なマッピングを近似するxフィールドを構築する。 我々の主な貢献は、アプリケーションでX-Fieldsを使用する際の問題の原因を分析し、特定し、これらの課題を克服するための新しい手法を提案することである。 具体的には、X-Fieldsは大きなベースラインカメラの差を暗黙的に補うのに苦労している。 そこで,ステレオビューにおける物体の空間距離を減少させるために,多面的差異を提案する。 さらに,ビデオ中の非線形および急な動きのスパイクを処理するための非一様時間座標を提案する。 さらに、X-Fieldよりも単純だが重要な改善をいくつか導入します。 我々は、リアルタイムに近い速度で動作し、メモリとストレージコストを低くしながら、我々のアプローチが最先端よりも優れた結果を生み出すことができることを実証する。

In this paper, we propose an approach for view-time interpolation of stereo videos. Specifically, we build upon X-Fields that approximates an interpolatable mapping between the input coordinates and 2D RGB images using a convolutional decoder. Our main contribution is to analyze and identify the sources of the problems with using X-Fields in our application and propose novel techniques to overcome these challenges. Specifically, we observe that X-Fields struggles to implicitly interpolate the disparities for large baseline cameras. Therefore, we propose multi-plane disparities to reduce the spatial distance of the objects in the stereo views. Moreover, we propose non-uniform time coordinates to handle the non-linear and sudden motion spikes in videos. We additionally introduce several simple, but important, improvements over X-Fields. We demonstrate that our approach is able to produce better results than the state of the art, while running in near real-time rates and having low memory and storage costs.
翻訳日:2023-03-31 14:16:47 公開日:2023-03-30
# どこかから見る:人間中心の顔表現

A View From Somewhere: Human-Centric Face Representations ( http://arxiv.org/abs/2303.17176v1 )

ライセンス: Link先を確認
Jerone T. A. Andrews, Przemyslaw Joniak, Alice Xiang(参考訳) 自己識別された機密属性を含むデータセットはほとんどなく、さらなるバイアスをもたらす属性リスクを推測し、属性の収集は法的リスクを運ぶことができる。 加えて、分類ラベルは人間の表現型多様性の連続的な性質を反映できないため、同一のラベル付き顔との類似性を比較することは困難である。 これらの問題に対処するため、A View From Somewhere (AVFS) という、638,180人の顔類似性判定データセットを提示する。 人間の知覚に合わせた連続した低次元埋め込み空間を学習するためのAVFSの有用性を実証する。 我々の埋め込み空間は、新しい条件付き枠組みの下で誘導され、顔の類似性の正確な予測を可能にするだけでなく、人間の意思決定プロセスで使われる寸法の人間解釈可能な分解や、各次元に異なるアノテータが配置される。 さらに,連続属性の収集,分類,データセット属性の差異の比較を行うための次元の実用性を示す。

Few datasets contain self-identified sensitive attributes, inferring attributes risks introducing additional biases, and collecting attributes can carry legal risks. Besides, categorical labels can fail to reflect the continuous nature of human phenotypic diversity, making it difficult to compare the similarity between same-labeled faces. To address these issues, we present A View From Somewhere (AVFS) -- a dataset of 638,180 human judgments of face similarity. We demonstrate the utility of AVFS for learning a continuous, low-dimensional embedding space aligned with human perception. Our embedding space, induced under a novel conditional framework, not only enables the accurate prediction of face similarity, but also provides a human-interpretable decomposition of the dimensions used in the human-decision making process, and the importance distinct annotators place on each dimension. We additionally show the practicality of the dimensions for collecting continuous attributes, performing classification, and comparing dataset attribute disparities.
翻訳日:2023-03-31 14:16:30 公開日:2023-03-30
# 視覚言語モデルのためのタスク指向マルチモーダル相互傾き

Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models ( http://arxiv.org/abs/2303.17169v1 )

ライセンス: Link先を確認
Sifan Long, Zhen Zhao, Junkun Yuan, Zichang Tan, Jiangjiang Liu, Luping Zhou, Shengsheng Wang, Jingdong Wang(参考訳) プロンプト学習は、大きな事前学習されたビジョン言語モデルを下流タスクに適応させる上で、最も効率的なパラダイムの1つになっている。 CoOpやProDAのような現在の最先端の手法では、特定のタスクごとに適切なプロンプトを学ぶためにソフトプロンプトを採用する傾向がある。 最近のcocoopは、イメージ条件プロンプトによって、ベースから新しい一般化性能をさらに向上させる。 しかし、異なるラベルのプロンプトに同一の画像意味論を直接融合させ、実験で示されたように、異なるクラス間の識別を著しく弱める。 本研究は,まず,ラベル関連画像情報を用いて生成したプロンプトを充実させるクラス認識テキストプロンプト(CTP)を提案する。 CoCoOpとは異なり、CTPは画像セマンティクスを効果的に含み、異なるプロンプトに余分な曖昧さを導入することを避けることができる。 一方、画像表現を完全に保存する代わりに、画像分岐をクラス関連表現に適合させるために、テキスト誘導機能チューニング(TFT)を提案する。 このような拡張テキストとイメージ表現を下流タスクで調整するために、対照的な損失が用いられる。 このように、画像からテキストへのCTPとテキストから画像へのTFTを相互に推進し、下流タスクへのVLMの適応を強化する。 広範囲にわたる実験により,本手法が既存手法を著しく上回ることを示した。 特にCoCoOpと比較して、新しいクラスでは平均4.03%、調和平均ベンチマークでは3.19%の改善が達成されている。

Prompt learning has become one of the most efficient paradigms for adapting large pre-trained vision-language models to downstream tasks. Current state-of-the-art methods, like CoOp and ProDA, tend to adopt soft prompts to learn an appropriate prompt for each specific task. Recent CoCoOp further boosts the base-to-new generalization performance via an image-conditional prompt. However, it directly fuses identical image semantics to prompts of different labels and significantly weakens the discrimination among different classes as shown in our experiments. Motivated by this observation, we first propose a class-aware text prompt (CTP) to enrich generated prompts with label-related image information. Unlike CoCoOp, CTP can effectively involve image semantics and avoid introducing extra ambiguities into different prompts. On the other hand, instead of reserving the complete image representations, we propose text-guided feature tuning (TFT) to make the image branch attend to class-related representation. A contrastive loss is employed to align such augmented text and image representations on downstream tasks. In this way, the image-to-text CTP and text-to-image TFT can be mutually promoted to enhance the adaptation of VLMs for downstream tasks. Extensive experiments demonstrate that our method outperforms the existing methods by a significant margin. Especially, compared to CoCoOp, we achieve an average improvement of 4.03% on new classes and 3.19% on harmonic-mean over eleven classification benchmarks.
翻訳日:2023-03-31 14:16:11 公開日:2023-03-30
# 点雲正規推定のための3次元表面フィッティングにおける近似誤差の再検討

Rethinking the Approximation Error in 3D Surface Fitting for Point Cloud Normal Estimation ( http://arxiv.org/abs/2303.17167v1 )

ライセンス: Link先を確認
Hang Du, Xuejun Yan, Jingjing Wang, Di Xie, Shiliang Pu(参考訳) ポイントクラウド正規推定の既存のアプローチのほとんどは、幾何学的曲面を局所的に適合させ、適合した曲面から正規値を計算することを目的としている。 近年, 学習に基づく手法では, 重み付き最小二乗曲面フィッティング問題を解くために, 点方向の重み付けを予測するルーチンが採用されている。 顕著な進歩にもかかわらず、これらの手法はフィッティング問題の近似誤差を見落とし、より精度の低いフィッティング面となる。 本稿では,まず,表面フィッティング問題における近似誤差の深い解析を行う。 そして、推定表面標準値と正確な表面標準値のギャップを埋めるために、2つの基本設計原則を提示する。 1) 局所パッチの回転には$Z$-direction Transformを適用する。 2) 通常の推定誤差を学習可能な用語としてモデル化する。 この2つの原理をディープニューラルネットワークを用いて実装し、プラグアンドプレイ方式で最先端(SOTA)正規推定手法と統合する。 広範な実験による検証 私たちのアプローチは、ポイントクラウドの正規推定にメリットをもたらし、合成データと実世界のデータセットの両方において最先端のパフォーマンスのフロンティアを押し上げます。

Most existing approaches for point cloud normal estimation aim to locally fit a geometric surface and calculate the normal from the fitted surface. Recently, learning-based methods have adopted a routine of predicting point-wise weights to solve the weighted least-squares surface fitting problem. Despite achieving remarkable progress, these methods overlook the approximation error of the fitting problem, resulting in a less accurate fitted surface. In this paper, we first carry out in-depth analysis of the approximation error in the surface fitting problem. Then, in order to bridge the gap between estimated and precise surface normals, we present two basic design principles: 1) applies the $Z$-direction Transform to rotate local patches for a better surface fitting with a lower approximation error; 2) models the error of the normal estimation as a learnable term. We implement these two principles using deep neural networks, and integrate them with the state-of-the-art (SOTA) normal estimation methods in a plug-and-play manner. Extensive experiments verify our approaches bring benefits to point cloud normal estimation and push the frontier of state-of-the-art performance on both synthetic and real-world datasets.
翻訳日:2023-03-31 14:15:45 公開日:2023-03-30
# マンハッタン世界における魚眼画像復元のための熱マップ回帰による深部単眼カメラの校正

Deep Single Image Camera Calibration by Heatmap Regression to Recover Fisheye Images Under ManhattanWorld AssumptionWithout Ambiguity ( http://arxiv.org/abs/2303.17166v1 )

ライセンス: Link先を確認
Nobuhiko Wakai, Satoshi Sato, Yasunori Ishii, Takayoshi Yamashita(参考訳) 直交世界座標では、立方体建物に沿って横たわるマンハッタンの世界は、様々なコンピュータビジョンタスクに広く有用である。 しかし、マンハッタンの世界は、画像からのパン角の起源が任意であり、パン角の4倍回転対称な曖昧さのため、多くの改善の余地がある。 そこで本研究では,カメラと移動方向に関する道路の方向に基づくパンアングルの起源の定義を提案する。 本稿では,ポーズ推定キーポイントのようなラベル付き画像座標の各方向のあいまいさを取り除くために,熱マップ回帰を用いた学習ベースの校正手法を提案する。 同時に、2分岐ネットワークは回転を回復し、一般的なシーン画像から魚眼歪みを除去する。 画像の消失点の欠如を軽減するため,空間的均一性の最適3次元配置を有する補助的対角点を導入する。 大規模な実験により,本手法は大規模データセットや市販カメラの従来の手法よりも優れていた。

In orthogonal world coordinates, a Manhattan world lying along cuboid buildings is widely useful for various computer vision tasks. However, the Manhattan world has much room for improvement because the origin of pan angles from an image is arbitrary, that is, four-fold rotational symmetric ambiguity of pan angles. To address this problem, we propose a definition for the pan-angle origin based on the directions of the roads with respect to a camera and the direction of travel. We propose a learning-based calibration method that uses heatmap regression to remove the ambiguity by each direction of labeled image coordinates, similar to pose estimation keypoints. Simultaneously, our two-branched network recovers the rotation and removes fisheye distortion from a general scene image. To alleviate the lack of vanishing points in images, we introduce auxiliary diagonal points that have the optimal 3D arrangement of spatial uniformity. Extensive experiments demonstrated that our method outperforms conventional methods on large-scale datasets and with off-the-shelf cameras.
翻訳日:2023-03-31 14:15:24 公開日:2023-03-30
# マトリックス対角化と特異値分解:静的SageMathと動的ChatGPT近似

Matrix diagonalization and singular value decomposition: Static SageMath and dynamic ChatGPT juxtaposed ( http://arxiv.org/abs/2303.17163v1 )

ライセンス: Link先を確認
N. Karjanto(参考訳) 本研究では,大学生の線形代数学習においてしばしば直面する困難について検討し,行列因数分解などのアルゴリズム的思考スキルを必要とするトピックを扱う際に,よく遭遇する誤りや難しさを明らかにした。 特に,(直交)対角化と特異値分解(SVD)に着目した。 sagemathはpythonベースのフリーオープン・ソフトウェア・コンピュータ・代数システム(cas)であり、その出力は自然に静的でありながら、計算プロセスにおいて多くの学生を支援するのに役立つと認識されている。 次に、そのトピックについてチャットボットに問い合わせることにより、動的ChatGPTを探索し、例えば、ある行列から(直交)対角化やSVDを構築することで、その問題を解く。 線形代数における本質的な概念の統合と効果的な実践による計算能力の向上により、これらのトピックの習得が容易になり、誤りを最小限に抑えることができる。 特にStatic SageMathは、計算の確認と面倒な計算の処理に大いに役立ちます。 動的ChatGPTは線形代数の問題を解くには比較的信頼性が低いが、その誤りは批判的思考スキルを改善するための貴重なツールとなる。

We investigated some difficulties that students often face when studying linear algebra at the undergraduate level, and identified some common mistakes and difficulties they often encountered when dealing with topics that require algorithmic thinking skills such as matrix factorization. In particular, we focused on (orthogonal) diagonalization and singular value decomposition (SVD). We also offered the possibility of exploring these topics using SageMath, a Python-based free open software computer algebra system (CAS) that has been identified to be useful for assisting many students in the computational process even though its output is static by nature. We then explored dynamic ChatGPT by inquiring the chatbot about the topic, either by asking to provide an example or to solve a problem, that is by constructing an (orthogonal) diagonalization or SVD from a particular matrix. By consolidating essential concepts in linear algebra and improving computational skills through effective practice, mastering these topics would become easier and mistakes could be minimized. Static SageMath, in particular, is a great aid for calculation confirmation and handling tedious computations. Although dynamic ChatGPT is relatively unreliable for solving problems in linear algebra, the mistakes it produces could become a valuable tool for improving critical thinking skills.
翻訳日:2023-03-31 14:15:06 公開日:2023-03-30
# HARFLOW3D:FPGAデバイス上でのHARのためのレイテンシ指向3D-CNN加速器ツールフロー

HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices ( http://arxiv.org/abs/2303.17218v1 )

ライセンス: Link先を確認
Petros Toupas, Alexander Montgomerie-Corcoran, Christos-Savvas Bouganis, Dimitrios Tzovaras(参考訳) 人間行動認識タスク(HAR)では、3D畳み込みニューラルネットワークが極めて有効であることが証明され、最先端の結果が得られた。 本研究では,そのモデル固有の特性とターゲットFPGAデバイスの特徴を考慮し,そのようなモデルをFPGAにマッピングするための,新たなストリーミングアーキテクチャベースのツールフローを提案する。 HARFLOW3Dツールフローは、ONNX形式の3D CNNとFPGA特性の記述を入力として、計算のレイテンシを最小化する設計を生成する。 ツールフローは、いくつかの部分で構成されています。 一 三次元CNNパーサー 二 性能及び資源モデル 三 生成されたハードウェア上で3Dモデルを実行するためのスケジューリングアルゴリズム 四 3Dモデルに適した資源対応最適化エンジン v)FPGAの合成可能なコードへの自動マッピング。 幅広いモデルやデバイスをサポートするツールフローの能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通じて示されている。 さらに、ツールフローはFPGAにマップされていない3D CNNモデルの高性能な結果をもたらし、この分野におけるFPGAベースのシステムの可能性を示している。 全体として、harflow3dは、最先端のハンドチューニングアプローチと比較して、競争力のあるレイテンシを提供する能力を示しており、既存の作業に比べて最大5$\times$のパフォーマンスを実現している。

For Human Action Recognition tasks (HAR), 3D Convolutional Neural Networks have proven to be highly effective, achieving state-of-the-art results. This study introduces a novel streaming architecture based toolflow for mapping such models onto FPGAs considering the model's inherent characteristics and the features of the targeted FPGA device. The HARFLOW3D toolflow takes as input a 3D CNN in ONNX format and a description of the FPGA characteristics, generating a design that minimizes the latency of the computation. The toolflow is comprised of a number of parts, including i) a 3D CNN parser, ii) a performance and resource model, iii) a scheduling algorithm for executing 3D models on the generated hardware, iv) a resource-aware optimization engine tailored for 3D models, v) an automated mapping to synthesizable code for FPGAs. The ability of the toolflow to support a broad range of models and devices is shown through a number of experiments on various 3D CNN and FPGA system pairs. Furthermore, the toolflow has produced high-performing results for 3D CNN models that have not been mapped to FPGAs before, demonstrating the potential of FPGA-based systems in this space. Overall, HARFLOW3D has demonstrated its ability to deliver competitive latency compared to a range of state-of-the-art hand-tuned approaches being able to achieve up to 5$\times$ better performance compared to some of the existing works.
翻訳日:2023-03-31 14:08:50 公開日:2023-03-30
# 幾何幾何-キーポイント位置認識

Few-shot Geometry-Aware Keypoint Localization ( http://arxiv.org/abs/2303.17216v1 )

ライセンス: Link先を確認
Xingzhe He, Gaurav Bharaj, David Ferman, Helge Rhodin, Pablo Garrido(参考訳) 教師付きキーポイントローカライズ手法は、大きな手作業でラベル付けされた画像データセットに依存している。 しかし、そのような大きなキーポイントラベルの作成には時間とコストがかかり、一貫性のないラベリングのためにしばしばエラーが発生する。 そこで我々はキーポイントのローカライゼーションを,より少ないが一貫した注釈付き画像で学習できるアプローチを望んでいる。 そこで本論文では,オブジェクトカテゴリの異なる領域においても,意味的に一貫性のあるキーポイント定義を局所化することを学ぶ新しい定式化を提案する。 ユーザラベル付き2D画像を入力例として使用し、より大きなラベル付きデータセットを使用して自己スーパービジョンで拡張する。 教師なしの手法とは異なり、少数ショット画像はオブジェクトローカライゼーションのセマンティックな形状制約として機能する。 さらに,鍵点の引き上げに3次元幾何学的制約を導入し,より正確な2次元局所化を実現する。 我々の汎用的な定式化は、セマンティック・コンディショニング・ジェネレーティブ・モデリングの手法を舗装し、人間の顔、目、動物、車、そして前例のない口内(歯)のローカライゼーションタスクを含むいくつかのデータセットにおける、競争的または最先端の精度を達成する。 プロジェクトページ: https://xingzhe.github.io/fewshot3dkp/}{https://xingzhe.github.io/fewshot3dkp/

Supervised keypoint localization methods rely on large manually labeled image datasets, where objects can deform, articulate, or occlude. However, creating such large keypoint labels is time-consuming and costly, and is often error-prone due to inconsistent labeling. Thus, we desire an approach that can learn keypoint localization with fewer yet consistently annotated images. To this end, we present a novel formulation that learns to localize semantically consistent keypoint definitions, even for occluded regions, for varying object categories. We use a few user-labeled 2D images as input examples, which are extended via self-supervision using a larger unlabeled dataset. Unlike unsupervised methods, the few-shot images act as semantic shape constraints for object localization. Furthermore, we introduce 3D geometry-aware constraints to uplift keypoints, achieving more accurate 2D localization. Our general-purpose formulation paves the way for semantically conditioned generative modeling and attains competitive or state-of-the-art accuracy on several datasets, including human faces, eyes, animals, cars, and never-before-seen mouth interior (teeth) localization tasks, not attempted by the previous few-shot methods. Project page: https://xingzhehe.github.io/FewShot3DKP/}{https://xingzhehe.github.io/FewShot3DKP/
翻訳日:2023-03-31 14:08:29 公開日:2023-03-30
# 安定化器近似III:最大カット

Stabilizer Approximation III: Maximum Cut ( http://arxiv.org/abs/2303.17215v1 )

ライセンス: Link先を確認
Chuixiong Wu, Jianan Wang, Fen Zuo(参考訳) 最大カット問題に対して安定化器の定式化を適用し,新しいグリーディな建設ヒューリスティックを得る。 エッジコントラクションと異なるエッジコントラクションアプローチのエレガントな合成であることが分かりました。 理論的近似比は導出できないが、数値的な結果は、約100頂点のグラフに対して、ヒューリスティックは極めて優れた性能を持つことを示している。

We apply the stabilizer formalism to the Maximum Cut problem, and obtain a new greedy construction heuristic. It turns out to be an elegant synthesis of the edge-contraction and differencing edge-contraction approaches. Though we are unable to derive a theoretical approximation ratio, numerical results show that the heuristic has very nice performance for graphs with about 100 vertices.
翻訳日:2023-03-31 14:08:03 公開日:2023-03-30
# SARGAN:表情操作のための空間的注意に基づく残像

SARGAN: Spatial Attention-based Residuals for Facial Expression Manipulation ( http://arxiv.org/abs/2303.17212v1 )

ライセンス: Link先を確認
Arbish Akram and Nazar Khan(参考訳) エンコーダデコーダベースのアーキテクチャは、顔操作のための生成的逆ネットワークの生成に広く使われている。 しかし,現在のアーキテクチャでは,入力画像の色,肌の色やテクスチャといった顔の細部を復元できず,アーティファクトも導入されている。 本稿では,3つの視点から,上記の制約に対処するSARGANという新しい手法を提案する。 まず,空間的注意に基づく残差ブロックをバニラ残差ブロックの代わりに使用し,他の特徴を変更せずに変更すべき表現関連特徴を適切に捉えた。 次に,対称エンコーダデコーダネットワークを用いて顔の特徴を複数スケールで確認した。 第3に,入力面画像を生成するために圧力発生器を解放し,入力画像を直接生成器の端に向けて供給することで,所望の表現を生成する残差接続による完全ネットワークのトレーニングを提案する。 定性的および定量的な実験結果から,提案手法は最先端手法よりも優れた性能を示した。 さらに、既存のモデルはトレーニングのためにはるかに大きなデータセットを必要とするが、そのパフォーマンスは分散イメージで劣化する。 対照的に、SARGANは、人間の写真、肖像画、アバター、彫像などの配布外画像に対して、より小さな表情データセットでトレーニングすることができる。

Encoder-decoder based architecture has been widely used in the generator of generative adversarial networks for facial manipulation. However, we observe that the current architecture fails to recover the input image color, rich facial details such as skin color or texture and introduces artifacts as well. In this paper, we present a novel method named SARGAN that addresses the above-mentioned limitations from three perspectives. First, we employed spatial attention-based residual block instead of vanilla residual blocks to properly capture the expression-related features to be changed while keeping the other features unchanged. Second, we exploited a symmetric encoder-decoder network to attend facial features at multiple scales. Third, we proposed to train the complete network with a residual connection which relieves the generator of pressure to generate the input face image thereby producing the desired expression by directly feeding the input image towards the end of the generator. Both qualitative and quantitative experimental results show that our proposed model performs significantly better than state-of-the-art methods. In addition, existing models require much larger datasets for training but their performance degrades on out-of-distribution images. In contrast, SARGAN can be trained on smaller facial expressions datasets, which generalizes well on out-of-distribution images including human photographs, portraits, avatars and statues.
翻訳日:2023-03-31 14:07:56 公開日:2023-03-30
# 1次元キュービットアレイにおける距離3 9 量子ビット表面符号の測定-無障害耐性論理ゼロ状態符号化

Measurement-free fault-tolerant logical zero-state encoding of the distance-three nine-qubit surface code in a one-dimensional qubit array ( http://arxiv.org/abs/2303.17211v1 )

ライセンス: Link先を確認
Hayato Goto, Yinghao Ho, and Taro Kanao(参考訳) 量子エラー訂正符号で符号化された論理零状態の生成は、フォールトトレラントな量子計算の第一ステップであるが、一般にかなりのリソースオーバーヘッドを必要とする。 このようなオーバーヘッドを軽減するため,距離3,9ビット面符号の符号化手法を提案し,その耐故障性を示す。 この方法は、他のフォールトトレラント符号化法とは異なり、測定を必要としない。 さらに、これは1次元キュービットアレイに適用できる。 これらの事実を観察し,クラウド上の超伝導量子コンピュータを用いた表面符号の論理零状態符号化を実験的に実証した。 この手法をより大きなコードに拡張するために、表面コード自体との結合も検討し、距離9、81キュービットのコードを生成する。 この大規模コードのフォールトトレラントな符号化は,適切なエラー検出によって実現できることを示す。 そこで,提案手法は,低オーバヘッドフォールトトレラント量子計算のための新しい手法を提供する。

Generation of logical zero states encoded with a quantum error-correcting code is the first step for fault-tolerant quantum computation, but requires considerably large resource overheads in general. To reduce such overheads, we propose an efficient encoding method for the distance-three, nine-qubit surface code and show its fault tolerance. This method needs no measurement, unlike other fault-tolerant encoding methods. Moreover, this is applicable to a one-dimensional qubit array. Observing these facts, we experimentally demonstrate the logical zero-state encoding of the surface code using a superconducting quantum computer on the cloud. To extend this method to larger codes, we also investigate the concatenation of the surface code with itself, resulting in a distance-nine, 81-qubit code. We numerically show that fault-tolerant encoding of this large code can be achieved by appropriate error detection. Thus, the proposed encoding method will provide a new way to low-overhead fault-tolerant quantum computation.
翻訳日:2023-03-31 14:07:32 公開日:2023-03-30
# ぼんやりした画像から人間を追跡できる「Blur」

Human from Blur: Human Pose Tracking from Blurry Images ( http://arxiv.org/abs/2303.17209v1 )

ライセンス: Link先を確認
Yiming Zhao, Denys Rozumnyi, Jie Song, Otmar Hilliges, Marc Pollefeys, Martin R. Oswald(参考訳) ほぼぼやけた画像から3次元人間のポーズを推定する手法を提案する。 鍵となるアイデアは、3次元の人間モデル、テクスチャマップ、および人間の動きを記述するポーズの列で前方問題をモデル化することで、画像デブラリングの逆問題に取り組むことである。 そして、そのぼやけた過程を時間画像集約ステップでモデル化する。 微分可能なレンダラを用いることで、画素毎の再投影誤差をバックプロパゲーションし、1つまたは複数の入力画像を説明する最高の人間の動き表現を復元することで、逆問題を解くことができる。 画像再構成損失だけでは不十分であるため,追加の正規化条件を示す。 私たちの知る限りでは、この問題に取り組む最初の方法を紹介します。 提案手法は,サブフレーム精度と非剛性動作の明示的な3次元モデリングをともなう画像デブラリングを1つまたは複数の主要機能に欠くため,不明瞭な入力に対する他の手法を一貫して上回っている。

We propose a method to estimate 3D human poses from substantially blurred images. The key idea is to tackle the inverse problem of image deblurring by modeling the forward problem with a 3D human model, a texture map, and a sequence of poses to describe human motion. The blurring process is then modeled by a temporal image aggregation step. Using a differentiable renderer, we can solve the inverse problem by backpropagating the pixel-wise reprojection error to recover the best human motion representation that explains a single or multiple input images. Since the image reconstruction loss alone is insufficient, we present additional regularization terms. To the best of our knowledge, we present the first method to tackle this problem. Our method consistently outperforms other methods on significantly blurry inputs since they lack one or multiple key functionalities that our method unifies, i.e. image deblurring with sub-frame accuracy and explicit 3D modeling of non-rigid human motion.
翻訳日:2023-03-31 14:07:15 公開日:2023-03-30
# 離散フーリエ変換に基づくカークウッド・ディラック非古典性と不確実性図の特徴付け

Characterizing Kirkwood-Dirac nonclassicality and uncertainty diagram based on discrete Fourier transform ( http://arxiv.org/abs/2303.17203v1 )

ライセンス: Link先を確認
Ying-Hui Yang, Bing-Bing Zhang, Xiao-Li Wang, Shi-Jiao Geng, Pei-Ying Chen(参考訳) 本稿では,離散フーリエ変換(DFT)に基づくカークウッド・ディラック非古典性と不確実性図を$d$次元システムで検討する。 完全不和性基底の不確かさ図形 $\mathcal {A},\mathcal {B}$ は De Bi\`{e}vre [arXiv: 2207.07451] によって特徴づけられる。 基底 $\mathcal {A}$ から基底 $\mathcal {B}$ への遷移行列である DFT 行列の不確実性図式について、上の$(n_{\mathcal {A}}, n_{\mathcal {B}})$-平面と上の$n_{\mathcal {A}}+n_{\mathcal {B}}\geq d+1$ の領域に ``hole" は存在しないことを示す。 このとき、DFT行列に基づく状態のKD非古典性は、サポートの不確実性関係$n_{\mathcal {A}}(\psi)n_{\mathcal {B}}(\psi)\geq d$, where $n_{\mathcal {A}}(\psi)$と$n_{\mathcal {B}}(\psi)$で、それぞれ$\mathcal {A}$と$\mathcal {B}$の基底で非消滅係数の数をカウントすることで、完全に特徴づけることができる。 つまり、状態 $|\psi\rangle$ が KD 非古典的であることと、$d$ が素かどうかに関わらず、$n_{\mathcal {A}}(\psi)n_{\mathcal {B}}(\psi)> d$ が成り立つこと。 それは[phys]の予想に正の答えを与える. Rev. Lett. textbf{127}, 190404 (2021)]

In this paper, we investigate the Kirkwood-Dirac nonclassicality and uncertainty diagram based on discrete Fourier transform (DFT) in a $d$ dimensional system. The uncertainty diagram of complete incompatibility bases $\mathcal {A},\mathcal {B}$ are characterized by De Bi\`{e}vre [arXiv: 2207.07451]. We show that for the uncertainty diagram of the DFT matrix which is a transition matrix from basis $\mathcal {A}$ to basis $\mathcal {B}$, there is no ``hole" in the region of the $(n_{\mathcal {A}}, n_{\mathcal {B}})$-plane above and on the line $n_{\mathcal {A}}+n_{\mathcal {B}}\geq d+1$, whether the bases $\mathcal {A},\mathcal {B}$ are not complete incompatible bases or not. Then we present that the KD nonclassicality of a state based on the DFT matrix can be completely characterized by using the support uncertainty relation $n_{\mathcal {A}}(\psi)n_{\mathcal {B}}(\psi)\geq d$, where $n_{\mathcal {A}}(\psi)$ and $n_{\mathcal {B}}(\psi)$ count the number of nonvanishing coefficients in the basis $\mathcal {A}$ and $\mathcal {B}$ representations, respectively. That is, a state $|\psi\rangle$ is KD nonclassical if and only if $n_{\mathcal {A}}(\psi)n_{\mathcal {B}}(\psi)> d$, whenever $d$ is prime or not. That gives a positive answer to the conjecture in [Phys. Rev. Lett. \textbf{127}, 190404 (2021)].
翻訳日:2023-03-31 14:06:57 公開日:2023-03-30
# 機械理解による子どものビデオの学習品質の定量化

Quantifying the Academic Quality of Children's Videos using Machine Comprehension ( http://arxiv.org/abs/2303.17201v1 )

ライセンス: Link先を確認
Sumeet Kumar, Mallikarjuna T., Ashiqur Khudabukhsh(参考訳) youtube kids (ytk) は、何百万人もの子どもが毎日使っている最も人気のある子供向けアプリケーションの一つである。 しかし、さまざまな研究がプラットフォーム上のビデオに対する懸念を強調している。 youtubeは先日,‘promoting learning’を含む高品質なガイドラインを提案し,ランキングチャネルで使用することを提案している。 しかし、学習の概念は多面的であり、オンラインビデオの文脈で定義・測定することは困難である。 本研究は、学校で教えられていることの学習に焦点を当て、子どものビデオの学術的品質を測定する方法を提案する。 子どものビデオからの質問と回答の新しいデータセットを用いて、まず、学習の可読性(Reading Comprehension, RC)モデルを推定できることを示す。 次に,多種多様な話題に関する中学校教科書質問の大規模データセットを用いて,rcモデルが正しく回答できる児童教科書質問数として上位チャネルの学術的品質を定量化する。 トップ100のチャンネルに投稿された8万本のビデオを分析して、YTKのチャンネルの学術的品質を初めて詳細に分析した。

YouTube Kids (YTK) is one of the most popular kids' applications used by millions of kids daily. However, various studies have highlighted concerns about the videos on the platform, like the over-presence of entertaining and commercial content. YouTube recently proposed high-quality guidelines that include `promoting learning' and proposed to use it in ranking channels. However, the concept of learning is multi-faceted, and it can be difficult to define and measure in the context of online videos. This research focuses on learning in terms of what's taught in schools and proposes a way to measure the academic quality of children's videos. Using a new dataset of questions and answers from children's videos, we first show that a Reading Comprehension (RC) model can estimate academic learning. Then, using a large dataset of middle school textbook questions on diverse topics, we quantify the academic quality of top channels as the number of children's textbook questions that an RC model can correctly answer. By analyzing over 80,000 videos posted on the top 100 channels, we present the first thorough analysis of the academic quality of channels on YTK.
翻訳日:2023-03-31 14:06:05 公開日:2023-03-30
# SynthVSR:Synthetic Supervisionによる視覚音声認識のスケールアップ

SynthVSR: Scaling Up Visual Speech Recognition With Synthetic Supervision ( http://arxiv.org/abs/2303.17200v1 )

ライセンス: Link先を確認
Xubo Liu, Egor Lakomkin, Konstantinos Vougioukas, Pingchuan Ma, Honglie Chen, Ruiming Xie, Morrie Doulaty, Niko Moritz, J\'achym Kol\'a\v{r}, Stavros Petridis, Maja Pantic, Christian Fuegen(参考訳) 最近報告された、視覚音声認識(VSR)における最先端の結果は、しばしば大量のビデオデータに依存するが、公開されている転写されたビデオデータセットのサイズは限られている。 本稿では,VSRに合成視覚データを活用する可能性について,初めて考察する。 本手法は,合成唇運動を用いたVSRシステムの性能を大幅に向上させる。 SynthVSRの背後にある重要なアイデアは、入力音声に条件付き唇の動きを生成する音声駆動の唇アニメーションモデルを活用することである。 音声駆動のリップアニメーションモデルはラベルなしの音声ビジュアルデータセットでトレーニングされ、ラベル付きビデオが利用可能であれば、事前訓練されたvsrモデルにさらに最適化することができる。 多くの転写された音響データと顔画像が利用可能であるので、半教師付きVSRトレーニングのためのリップアニメーションモデルを用いて大規模な合成データを生成することができる。 提案手法を,最大公用VSRベンチマークであるLip Reading Sentences 3 (LRS3)で評価した。 SynthVSR の WER は 43.3% に達し、実際のラベル付きデータは 30 時間しかなく、何千時間ものビデオを使った既成のアプローチよりも優れている。 WERは、最先端の自己監督型AV-HuBERT法と同等のRS3から438時間のラベル付きデータを使用すると、さらに27.9%に削減される。 さらに、大規模な擬似ラベル音声視覚データ合成と組み合わせると、公開されているデータのみを使用して、新しい最先端vsr werが16.9%となり、29倍の非公開機械によるビデオデータ(90,000時間)でトレーニングされた最新の最先端のアプローチを上回っている。 最後に,提案手法における各成分の効果を理解するため,広範なアブレーション研究を行った。

Recently reported state-of-the-art results in visual speech recognition (VSR) often rely on increasingly large amounts of video data, while the publicly available transcribed video datasets are limited in size. In this paper, for the first time, we study the potential of leveraging synthetic visual data for VSR. Our method, termed SynthVSR, substantially improves the performance of VSR systems with synthetic lip movements. The key idea behind SynthVSR is to leverage a speech-driven lip animation model that generates lip movements conditioned on the input speech. The speech-driven lip animation model is trained on an unlabeled audio-visual dataset and could be further optimized towards a pre-trained VSR model when labeled videos are available. As plenty of transcribed acoustic data and face images are available, we are able to generate large-scale synthetic data using the proposed lip animation model for semi-supervised VSR training. We evaluate the performance of our approach on the largest public VSR benchmark - Lip Reading Sentences 3 (LRS3). SynthVSR achieves a WER of 43.3% with only 30 hours of real labeled data, outperforming off-the-shelf approaches using thousands of hours of video. The WER is further reduced to 27.9% when using all 438 hours of labeled data from LRS3, which is on par with the state-of-the-art self-supervised AV-HuBERT method. Furthermore, when combined with large-scale pseudo-labeled audio-visual data SynthVSR yields a new state-of-the-art VSR WER of 16.9% using publicly available data only, surpassing the recent state-of-the-art approaches trained with 29 times more non-public machine-transcribed video data (90,000 hours). Finally, we perform extensive ablation studies to understand the effect of each component in our proposed method.
翻訳日:2023-03-31 14:05:45 公開日:2023-03-30
# 最大公約数とプライベート集合交叉に対するセキュアな多要素量子計算

Secure multiparty quantum computations for greatest common divisor and private set intersection ( http://arxiv.org/abs/2303.17196v1 )

ライセンス: Link先を確認
Muhammad Imran(参考訳) 本稿では,Liu,Yang,LiによるPSU(quantum multiparty private set union)に基づいて,最大共通因子(GCD)を計算するためのセキュアなマルチパーティ量子計算(MPQC)を提案する。 最初のステップとして、Liu と Li による最小共通倍数 (LCM) 計算のための MPQC プロトコルのセキュリティを改善し、標準 (確率) Shor の量子周期フィニングアルゴリズム (QPA) の代わりに、効率的な正確な量子周期フィニングアルゴリズム (EQPA) をサブルーチンとして構築する。 標準QPAの代わりにEQPAを使用することは、繰り返しなしでプロトコルの正確性を保証する。 LCMプロトコルの改良により、計算用LCMに基づくプライベート・セット・ユニオンプロトコルも改善される。 最後に、PSUプロトコルの同じ考え方を用いて、PSI問題をGCD計算問題に変換することにより、量子多元的プライベートセット交差点(PSI)を構築する。 性能解析により,半正直モデルにおける正当性と無条件のセキュリティは,サブルーチンプロトコル(LCMおよびPSUプロトコル)の正当性とセキュリティから直接保証されることが示された。 さらに,提案プロトコルの複雑さは,秘密入力の大きさとパーティ数における多項式であることを示す。

We present a secure multiparty quantum computation (MPQC) for computing greatest common divisor (GCD) based on quantum multiparty private set union (PSU) by Liu, Yang, and Li. As the first step, we improve the security of the MPQC protocol for computing least common multiple (LCM) by Liu and Li by constructing an efficient exact quantum period-finding algorithm (EQPA) as a subroutine instead of the standard (probabilistic) Shor's quantum period-finding algorithm (QPA). The use of EQPA instead of the standard QPA guarantees the correctness of the protocol without repetitions. The improvement of LCM protocol also improves the private set union protocol which is based on computing LCM. Finally, using the same idea of the PSU protocol, we construct a quantum multiparty private set intersection (PSI) by transforming the PSI problem into the problem of computing GCD. Performance analysis shows that the correctness and the unconditional security in the semihonest model are guaranteed directly from the correctness and the security of the subroutine protocols (LCM and PSU protocols). Moreover, we show that the complexity of the proposed protocols is polynomial in the size of the secret inputs and the number of parties.
翻訳日:2023-03-31 14:05:11 公開日:2023-03-30
# 深部CNNを用いた明示的運動推定による勾配エコーMRIの反射運動補正

Retrospective Motion Correction in Gradient Echo MRI by Explicit Motion Estimation Using Deep CNNs ( http://arxiv.org/abs/2303.17239v1 )

ライセンス: Link先を確認
Mathias S. Feinler and Bernadette N. Hahn(参考訳) 磁気共鳴イメージングは、比較的長い取得時間による動き感度の低下による高分解能データ取得を可能にする。 単一の2Dスライスを取得しても、動きは画像をひどく損なう可能性がある。 反射運動補正戦略は、取得時に干渉せず、影響を受けるデータを操作する。 このシナリオに適した方法として、圧縮センシング(CS)、生成敵ネットワーク(GAN)、動き推定がある。 本稿では,深層畳み込みニューロンネットワーク(deep cnn)を用いた運動アーチファクトを,明示的な運動推定により,信頼性が高く検証可能な方法で補正する手法を提案する。 複数の受信コイルが提供する感度符号化(SENSE)の冗長性は、これまで加速、ノイズ低減、剛性運動補償に用いられてきた。 深層cnnを用いて剛体運動補償の概念をより複雑な運動場に一般化できることを示す。 シミュレーションされた合成データセットを用いて, 腹部頭部の運動破壊MRIを用いて, 教師付きネットワークの評価を行った。 我々は,剛性運動補償とGANとの比較を行った。

Magnetic Resonance Imaging allows high resolution data acquisition with the downside of motion sensitivity due to relatively long acquisition times. Even during the acquisition of a single 2D slice, motion can severely corrupt the image. Retrospective motion correction strategies do not interfere during acquisition time but operate on the motion affected data. Known methods suited to this scenario are compressed sensing (CS), generative adversarial networks (GANs), and motion estimation. In this paper we propose a strategy to correct for motion artifacts using Deep Convolutional Neuronal Networks (Deep CNNs) in a reliable and verifiable manner by explicit motion estimation. The sensitivity encoding (SENSE) redundancy that multiple receiver coils provide, has in the past been used for acceleration, noise reduction and rigid motion compensation. We show that using Deep CNNs the concepts of rigid motion compensation can be generalized to more complex motion fields. Using a simulated synthetic data set, our proposed supervised network is evaluated on motion corrupted MRIs of abdomen and head. We compare our results with rigid motion compensation and GANs.
翻訳日:2023-03-31 13:58:49 公開日:2023-03-30
# 連続微調整による実践的自己指導型連続学習

Practical self-supervised continual learning with continual fine-tuning ( http://arxiv.org/abs/2303.17235v1 )

ライセンス: Link先を確認
Chi Ian Tang, Lorena Qendro, Dimitris Spathis, Fahim Kawsar, Cecilia Mascolo, Akhil Mathur(参考訳) 自己教師付き学習(ssl)は、オフライントレーニング時のコンピュータビジョンタスクにおいて顕著なパフォーマンスを示している。 しかし、新しいデータが徐々に導入される連続学習(cl)シナリオでは、モデルがまだ壊滅的な忘れに苦しむ。 モデルをスクラッチからトレーニングして、新たに生成されたデータに適応することは、時間がかかり非効率である。 以前のアプローチでは、すべてのタスクからのラベルが微調整中に利用可能であることを前提として、知識蒸留による自己監督対象の再獲得を推奨していた。 本稿では,SSLプロセスの任意のステップで利用可能なラベルを活用可能な実践的な環境で,自己教師付き連続学習を一般化する。 継続タスクの増加に伴い、事前トレーニングと微調整のフェーズにおいて、柔軟性が向上する。 カイゼンでは, 特徴抽出器と分類器の双方に対する破滅的な忘れを, 慎重に設計した損失関数で緩和する訓練アーキテクチャを導入する。 連続学習の異なる側面を反映した総合的な評価指標を用いて、カイゼンは競合ビジョンベンチマークにおいて従来のSSLモデルよりも大幅に優れており、CIFAR-100の精度は最大16.5%向上していることを示した。 kaizenは、知識の保持と新しいデータからの学習のトレードオフとエンドツーエンドモデルとのバランスをとることができ、継続的学習システムの実践的展開への道を開くことができる。

Self-supervised learning (SSL) has shown remarkable performance in computer vision tasks when trained offline. However, in a Continual Learning (CL) scenario where new data is introduced progressively, models still suffer from catastrophic forgetting. Retraining a model from scratch to adapt to newly generated data is time-consuming and inefficient. Previous approaches suggested re-purposing self-supervised objectives with knowledge distillation to mitigate forgetting across tasks, assuming that labels from all tasks are available during fine-tuning. In this paper, we generalize self-supervised continual learning in a practical setting where available labels can be leveraged in any step of the SSL process. With an increasing number of continual tasks, this offers more flexibility in the pre-training and fine-tuning phases. With Kaizen, we introduce a training architecture that is able to mitigate catastrophic forgetting for both the feature extractor and classifier with a carefully designed loss function. By using a set of comprehensive evaluation metrics reflecting different aspects of continual learning, we demonstrated that Kaizen significantly outperforms previous SSL models in competitive vision benchmarks, with up to 16.5% accuracy improvement on split CIFAR-100. Kaizen is able to balance the trade-off between knowledge retention and learning from new data with an end-to-end model, paving the way for practical deployment of continual learning systems.
翻訳日:2023-03-31 13:58:35 公開日:2023-03-30
# 潜在位置モデルにおけるナダラヤ・ワトソン推定器

The Graphical Nadaraya-Watson Estimator on Latent Position Models ( http://arxiv.org/abs/2303.17229v1 )

ライセンス: Link先を確認
M. Gjorgjevski, N. Keriven, S. Barthelm\'e, Y. De Castro(参考訳) ラベル付きノードのサブセットを持つグラフが与えられた場合、ラベル付きノードがラベル付き隣接ノードの観測平均を予測する平均化推定器の品質に興味があります。 我々は, この文脈において, 濃度特性, 分散限界, リスク境界を厳格に研究する。 推定器自体は非常に単純であり、データ生成プロセスは実用的応用にはあまりにも理想的すぎるが、グラフニューラルネットワークのようなより洗練された手法を理論的に理解するための小さなステップがあると信じている。

Given a graph with a subset of labeled nodes, we are interested in the quality of the averaging estimator which for an unlabeled node predicts the average of the observations of its labeled neighbours. We rigorously study concentration properties, variance bounds and risk bounds in this context. While the estimator itself is very simple and the data generating process is too idealistic for practical applications, we believe that our small steps will contribute towards the theoretical understanding of more sophisticated methods such as Graph Neural Networks.
翻訳日:2023-03-31 13:58:12 公開日:2023-03-30
# ストリーミングビデオモデル

Streaming Video Model ( http://arxiv.org/abs/2303.17228v1 )

ライセンス: Link先を確認
Yucheng Zhao, Chong Luo, Chuanxin Tang, Dongdong Chen, Noel Codella, Zheng-Jun Zha(参考訳) ビデオ理解タスクは伝統的に2つの異なるアーキテクチャでモデル化されてきた。 アクション認識などのシーケンスベースのビデオタスクは、ビデオバックボーンを使用して時空間的特徴を直接抽出する一方、マルチオブジェクトトラッキング(MOT)のようなフレームベースのビデオタスクは、空間的特徴を抽出するために単一の固定イメージバックボーンに依存する。 対照的に,映像理解タスクを,ストリーミングビジョントランスフォーマー(s-vit)と呼ばれる,新たなストリーミングビデオアーキテクチャに統合することを提案する。 S-ViTはまず、フレームベースのビデオタスクを提供するために、メモリ対応の時空間エンコーダを備えたフレームレベル機能を生成する。 次に、フレーム特徴をタスク関連時間デコーダに入力し、シーケンスベースタスクの時空間特徴を得る。 s-vitの効率と有効性は、シーケンスベース動作認識タスクにおける最先端精度と、フレームベースmotタスクにおける従来のアーキテクチャに対する競合優位性によって示される。 ストリーミングビデオモデルの概念とs-vitの実装は、ビデオ理解のための統合ディープラーニングアーキテクチャに向けた確かなステップであると考えています。 コードはhttps://github.com/yuzhms/Streaming-Video-Model.comから入手できる。

Video understanding tasks have traditionally been modeled by two separate architectures, specially tailored for two distinct tasks. Sequence-based video tasks, such as action recognition, use a video backbone to directly extract spatiotemporal features, while frame-based video tasks, such as multiple object tracking (MOT), rely on single fixed-image backbone to extract spatial features. In contrast, we propose to unify video understanding tasks into one novel streaming video architecture, referred to as Streaming Vision Transformer (S-ViT). S-ViT first produces frame-level features with a memory-enabled temporally-aware spatial encoder to serve the frame-based video tasks. Then the frame features are input into a task-related temporal decoder to obtain spatiotemporal features for sequence-based tasks. The efficiency and efficacy of S-ViT is demonstrated by the state-of-the-art accuracy in the sequence-based action recognition task and the competitive advantage over conventional architecture in the frame-based MOT task. We believe that the concept of streaming video model and the implementation of S-ViT are solid steps towards a unified deep learning architecture for video understanding. Code will be available at https://github.com/yuzhms/Streaming-Video-Model.
翻訳日:2023-03-31 13:58:03 公開日:2023-03-30
# FreeSeg:Unified, Universal, Open-Vocabulary Image Segmentation

FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation ( http://arxiv.org/abs/2303.17225v1 )

ライセンス: Link先を確認
Jie Qin, Jie Wu, Pengxiang Yan, Ming Li, Ren Yuxi, Xuefeng Xiao, Yitong Wang, Rui Wang, Shilei Wen, Xin Pan, Xingang Wang(参考訳) 近年、オープン語彙学習がテキストベースの記述の任意のカテゴリのセグメンテーションを実現し、より汎用的なアプリケーションシナリオにセグメンテーションシステムを普及させている。 しかし、既存の手法は特定のセグメンテーションタスクのための特殊なアーキテクチャやパラメータの設計に特化している。 これらのカスタマイズされた設計パラダイムは、様々なセグメンテーションタスク間の断片化を招き、セグメンテーションモデルの均一性を妨げる。 そこで本稿では,Unified, Universal and Open-Vocabulary Image Segmentationを実現するための汎用フレームワークであるFreeSegを提案する。 FreeSegはワンショットトレーニングを通じてオールインワンネットワークを最適化し、推論手順で多様なセグメンテーションタスクをシームレスに処理するために同じアーキテクチャとパラメータを使用する。 さらに、適応型プロンプト学習は、統一モデルにより、タスク認識とカテゴリセンシティブの概念をキャプチャし、マルチタスクおよびさまざまなシナリオにおけるモデルのロバスト性を改善する。 広範囲な実験結果から、freesegは3つのセグメンテーションタスクのパフォーマンスと一般化を新たに確立し、最高のタスク固有のアーキテクチャを大差で上回ることを示した: セグメンテーションの5.5%miou、インスタンスセグメンテーションの17.6%、cocoのunseenクラスのためのpanopticセグメンテーションの20.1%。

Recently, open-vocabulary learning has emerged to accomplish segmentation for arbitrary categories of text-based descriptions, which popularizes the segmentation system to more general-purpose application scenarios. However, existing methods devote to designing specialized architectures or parameters for specific segmentation tasks. These customized design paradigms lead to fragmentation between various segmentation tasks, thus hindering the uniformity of segmentation models. Hence in this paper, we propose FreeSeg, a generic framework to accomplish Unified, Universal and Open-Vocabulary Image Segmentation. FreeSeg optimizes an all-in-one network via one-shot training and employs the same architecture and parameters to handle diverse segmentation tasks seamlessly in the inference procedure. Additionally, adaptive prompt learning facilitates the unified model to capture task-aware and category-sensitive concepts, improving model robustness in multi-task and varied scenarios. Extensive experimental results demonstrate that FreeSeg establishes new state-of-the-art results in performance and generalization on three segmentation tasks, which outperforms the best task-specific architectures by a large margin: 5.5% mIoU on semantic segmentation, 17.6% mAP on instance segmentation, 20.1% PQ on panoptic segmentation for the unseen class on COCO.
翻訳日:2023-03-31 13:57:42 公開日:2023-03-30
# 連続変数を用いた衛星ベースの絡み合い分布と量子テレポーテーション

Satellite-based entanglement distribution and quantum teleportation with continuous variables ( http://arxiv.org/abs/2303.17224v1 )

ライセンス: Link先を確認
Tasio Gonzalez-Raya, Stefano Pirandola, and Mikel Sanz(参考訳) 衛星量子通信の進歩は、転送された情報のセキュリティを高めて、グローバル通信ネットワークを再構築することを目指している。 本稿では, 地上局と衛星間の光状態における連続可変エンタングルメント分布と量子テレポーテーションにおける大気乱流の影響について検討する。 具体的には,ダウンリンクとアップリンクの両シナリオにおいて,散乱,大気減衰,乱流,検出器非効率といった分布の様々な誤差源による絡み合いの劣化について検討した。 これらの分散された絡み合った資源を用いた量子テレポーテーションプロトコルの忠実性は十分ではないため、大気乱流と回折の影響を低減するために、状態生成またはビーム再集中のための中間局を含む。 その結果、LEO領域までのダウンリンク経路でも、中間局の助けを借りてアップリンク経路でも、自由空間の絡み合い分布と量子テレポーテーションが実現可能であることが示された。 最後に,悪天候下でのマイクロ波-光学比較と,地上間および衛星間量子通信における水平経路の研究を行った。

Advances in satellite quantum communications aim at reshaping the global telecommunication network by increasing the security of the transferred information. Here, we study the effects of atmospheric turbulence in continuous-variable entanglement distribution and quantum teleportation in the optical regime between a ground station and a satellite. More specifically, we study the degradation of entanglement due to various error sources in the distribution, namely, diffraction, atmospheric attenuation, turbulence, and detector inefficiency, in both downlink and uplink scenarios. As the fidelity of a quantum teleportation protocol using these distributed entangled resources is not sufficient, we include an intermediate station for either state generation, or beam refocusing, in order to reduce the effects of atmospheric turbulence and diffraction, respectively. The results show the feasibility of free-space entanglement distribution and quantum teleportation in downlink paths up to the LEO region, but also in uplink paths with the help of the intermediate station. Finally, we complete the study with microwave-optical comparison in bad weather situations, and with the study of horizontal paths in ground-to-ground and inter-satellite quantum communication.
翻訳日:2023-03-31 13:57:17 公開日:2023-03-30
# 非定値ゲート秩序を持つ超ハイゼンベルク量子メトロロジー

Experimental super-Heisenberg quantum metrology with indefinite gate order ( http://arxiv.org/abs/2303.17223v1 )

ライセンス: Link先を確認
Peng Yin, Xiaobin Zhao, Yuxiang Yang, Yu Guo, Wen-Hao Zhang, Gong-Chu Li, Yong-Jian Han, Bi-Heng Liu, Jin-Shi Xu, Giulio Chiribella, Geng Chen, Chuan-Feng Li, and Guang-Can Guo(参考訳) 量子メトロロジーの精度は、実験で観測された独立過程の数に反比例する根平均二乗誤差に対応するハイゼンベルク極限(英語版)(heisenberg limit)によって制限されていると広く信じられている。 しかし、これらの提案は、プローブの総エネルギーなど他の関連する資源に関してハイゼンベルク限界に従うことが判明した。 ここでは、2つの代替因数順序の重ね合わせで2つの独立過程の群を探索することにより、ハイゼンベルク極限を超える量子メトロジープロトコルのフォトニック実装を提案する。 各プロセスは位相空間の変位を生成し、このセットアップは2組のn変位に付随する幾何位相を推定することができ、誤差はnと二乗的に落ちる。この結果は、nとは独立な初期エネルギーを持つ単光子プローブのみを必要とする。 本実験は,連続変数系における不定因果秩序の実証を特徴とし,不定因果秩序によって促進される量子メソロジーの設定に関する実験的研究を開放する。

The precision of quantum metrology is widely believed to be restricted by the Heisenberg limit, corresponding to a root mean square error that is inversely proportional to the number of independent processes probed in an experiment, N. In the past, some proposals have challenged this belief, for example using non-linear interactions among the probes. However, these proposals turned out to still obey the Heisenberg limit with respect to other relevant resources, such as the total energy of the probes. Here, we present a photonic implementation of a quantum metrology protocol surpassing the Heisenberg limit by probing two groups of independent processes in a superposition of two alternative causal orders. Each process creates a phase space displacement, and our setup is able to estimate a geometric phase associated to two sets of N displacements with an error that falls quadratically with N. Our results only require a single-photon probe with an initial energy that is independent of N. Using a superposition of causal orders outperforms every setup where the displacements are probed in a definite order. Our experiment features the demonstration of indefinite causal order in a continuous-variable system, and opens up the experimental investigation of quantum metrology setups boosted by indefinite causal order.
翻訳日:2023-03-31 13:56:57 公開日:2023-03-30
# LatentForensics:StyleGAN潜伏空間におけるより軽いディープフェイク検出に向けて

LatentForensics: Towards lighter deepfake detection in the StyleGAN latent space ( http://arxiv.org/abs/2303.17222v1 )

ライセンス: Link先を確認
Matthieu Delmas, Amine Kacete, Stephane Paquelet, Simon Leglaive, Renaud Seguier(参考訳) 偽ビデオの分類はここ数年、難しい課題だった。 ディープフェイク分類器は、ビデオフレームが改ざんされたかどうかを確実に予測できる。 しかしながら、それらのパフォーマンスは、トレーニングに使用されるデータセットと、アナリストの計算能力の両方に結びついている。 本稿では,高品質な顔画像で訓練された最先端生成逆数ネットワーク(GAN)の潜時空間で動作するディープフェイク分類法を提案する。 提案手法は,StyleGANの潜在空間の構造を利用して,軽量な分類モデルを学習する。 標準データセットの実験結果から,提案手法が他の最先端のディープフェイク分類法よりも優れていることが明らかになった。 我々の知る限りでは、この研究はStyleGANの潜伏空間の深い分類への関心を示す最初の研究である。 この潜伏空間の解釈と操作に関する他の最近の研究と組み合わせて、提案手法は顔画像の解釈可能な高レベル特性に基づく堅牢なディープフェイク分類法の開発に役立つと信じている。

The classification of forged videos has been a challenge for the past few years. Deepfake classifiers can now reliably predict whether or not video frames have been tampered with. However, their performance is tied to both the dataset used for training and the analyst's computational power. We propose a deepfake classification method that operates in the latent space of a state-of-the-art generative adversarial network (GAN) trained on high-quality face images. The proposed method leverages the structure of the latent space of StyleGAN to learn a lightweight classification model. Experimental results on a standard dataset reveal that the proposed approach outperforms other state-of-the-art deepfake classification methods. To the best of our knowledge, this is the first study showing the interest of the latent space of StyleGAN for deepfake classification. Combined with other recent studies on the interpretation and manipulation of this latent space, we believe that the proposed approach can help in developing robust deepfake classification methods based on interpretable high-level properties of face images.
翻訳日:2023-03-31 13:56:37 公開日:2023-03-30
# 自動運転車とインテリジェント自動車のマイルストーン:調査

Milestones in Autonomous Driving and Intelligent Vehicles: Survey of Surveys ( http://arxiv.org/abs/2303.17220v1 )

ライセンス: Link先を確認
Long Chen, Yuchen Li, Chao Huang, Bai Li, Yang Xing, Daxin Tian, Li Li, Zhongxu Hu, Xiaoxiang Na, Zixuan Li, Siyu Teng, Chen Lv, Jinjun Wang, Dongpu Cao, Nanning Zheng, Fei-Yue Wang(参考訳) 自動運転(AD)とインテリジェント車(IV)への関心は、利便性、安全性、経済的利益のために急速に成長している。 この分野での研究成果を概観する調査はいくつかあるが, 具体的な課題, 体系的な概要の欠如, 今後の研究方向性は限られている。 本稿では,AD と IV の総合技術に関する調査 (SoS) を提案し,歴史をレビューし,マイルストーンを要約し,展望,倫理,今後の研究方向性を提供する。 我々の知る限り、この記事はADとIVのマイルストーンを持つ最初のSoSであり、他の2つの技術調査とともに、我々の完全な研究作業を構成する。 我々は,本論文が研究者や相続人に新しい多様な洞察をもたらし,過去と未来を橋渡しすることを期待している。

Interest in autonomous driving (AD) and intelligent vehicles (IVs) is growing at a rapid pace due to the convenience, safety, and economic benefits. Although a number of surveys have reviewed research achievements in this field, they are still limited in specific tasks, lack of systematic summary and research directions in the future. Here we propose a Survey of Surveys (SoS) for total technologies of AD and IVs that reviews the history, summarizes the milestones, and provides the perspectives, ethics, and future research directions. To our knowledge, this article is the first SoS with milestones in AD and IVs, which constitutes our complete research work together with two other technical surveys. We anticipate that this article will bring novel and diverse insights to researchers and abecedarians, and serve as a bridge between past and future.
翻訳日:2023-03-31 13:56:19 公開日:2023-03-30
# 非エルミート量子ウォークモデルにおけるエッジバーストの実空間解析

Real space analysis for edge burst in a non-Hermitian quantum walk model ( http://arxiv.org/abs/2303.17219v1 )

ライセンス: Link先を確認
Pengyu Wen, Jinghui Pi, Guilu Long(参考訳) エッジバースト(Edge burst)は、非エルミート量子力学で発見された新しい現象である(W.-T. Xue, et al, Phys. Rev. Lett 2, 128.120401(2022))。 これは、非エルミート量子ウォークのクラスにおける系境界において、多数の粒子損失が発生することを見出している。 本稿では,この格子系における実空間波動関数の進化について検討する。 エッジサイトの波動関数はバルクサイトとは異なることが分かりました。 時間依存摂動理論を導入することで,実空間波動関数の解析的な表現を評価し,近傍の異なる配置から生じるエッジサイトとバルクサイトの間の異なる進化挙動を求める。 エッジ波動関数の主な寄与は、隣接する2つの非縮退部位の遷移に由来する。 さらに、数値対角化により、エッジ波動関数は、比較的大きな虚部を持つ固有モード群によって主に伝播されることを示す。 本研究は,実空間における非エルミート量子力学問題を研究するための解析手法を提供する。

Edge burst is a novel phenomenon in non-Hermitian quantum dynamics discovered by a very recent numerical study [W.-T. Xue, et al, Phys. Rev. Lett 2, 128.120401(2022)]. It finds that a large proportion of particle loss occurs at the system boundary in a class of non-Hermitian quantum walk. In this paper, we investigate the evolution of real-space wavefunction for this lattice system. We find the wavefunction of the edge site is distinct from the bulk sites. By introducing the time-dependent perturbation theory, we evaluate the analytical expression of the real-space wavefunctions and find the different evolution behavior between the edge site and bulk sites originates from their different nearby sites configuration. The main contribution of the edge wavefunction originates from the transition of the two adjacent non-decay sites. Besides, the numerical diagonalization shows the edge wavefunction is mainly propagated by a group of eigen-modes with a relatively large imaginary part. Our work provides an analytical method for studying non-Hermitian quantum dynamical problems in real space.
翻訳日:2023-03-31 13:56:05 公開日:2023-03-30
# 構造付きクープマンオートエンコーダによる多要素逐次歪み

Multifactor Sequential Disentanglement via Structured Koopman Autoencoders ( http://arxiv.org/abs/2303.17264v1 )

ライセンス: Link先を確認
Nimrod Berman, Ilan Naiman, Omri Azencot(参考訳) 複雑なデータを変化の潜在要因に遠ざけることは、表現学習の基本的な課題である。 逐次不整合に関する既存の研究は、主に2つの因子表現、すなわち、データを時間変化と時間不変の要素に分離する。 対照的に、複数の(複数の)意味的不整合成分が生成される多要素不整合を考える。 我々のアプローチの鍵は強い帰納的バイアスであり、基礎となるダイナミクスが潜在空間で線形に表現できると仮定する。 この仮定の下では、最近導入されたクープマンオートエンコーダモデルを利用するのが自然になる。 しかし、クープマンアプローチでは非絡み合い表現は保証されないため、構造的クープマン行列と非絡み合いをもたらす新しいスペクトル損失項を提案する。 全体としては、完全に教師なしで多要素の絡み合いをサポートする、シンプルで簡単な新しい深層モデルを提案する。 本稿では,文字間の個々の静的因子のスワップや,ソースからターゲットへのアンタングル要因のインクリメンタルスワップなど,新たなアンタングリング能力を示す。 さらに,提案手法は,比較対象の非教師付きアプローチよりも大幅に改善され,弱い教師付きおよび自己教師型手法と比較して競争的に性能が向上する,2因子標準のタスクに対して広範囲に評価する。 コードはhttps://github.com/azencot-group/skdで入手できる。

Disentangling complex data to its latent factors of variation is a fundamental task in representation learning. Existing work on sequential disentanglement mostly provides two factor representations, i.e., it separates the data to time-varying and time-invariant factors. In contrast, we consider multifactor disentanglement in which multiple (more than two) semantic disentangled components are generated. Key to our approach is a strong inductive bias where we assume that the underlying dynamics can be represented linearly in the latent space. Under this assumption, it becomes natural to exploit the recently introduced Koopman autoencoder models. However, disentangled representations are not guaranteed in Koopman approaches, and thus we propose a novel spectral loss term which leads to structured Koopman matrices and disentanglement. Overall, we propose a simple and easy to code new deep model that is fully unsupervised and it supports multifactor disentanglement. We showcase new disentangling abilities such as swapping of individual static factors between characters, and an incremental swap of disentangled factors from the source to the target. Moreover, we evaluate our method extensively on two factor standard benchmark tasks where we significantly improve over competing unsupervised approaches, and we perform competitively in comparison to weakly- and self-supervised state-of-the-art approaches. The code is available at https://github.com/azencot-group/SKD.
翻訳日:2023-03-31 13:49:22 公開日:2023-03-30
# ハイブリッドインテリジェンスにおけるオントロジー : 簡潔な文献レビュー

Ontology in Hybrid Intelligence: a concise literature review ( http://arxiv.org/abs/2303.17262v1 )

ライセンス: Link先を確認
Salvatore F. Pileggi(参考訳) ai技術の絶え間ない進化と増殖の文脈において、ハイブリッド・インテリジェンスは人間と人工知能のバランスのとれた共存を示すために人気を集めている。 一方、この概念は、過去20年間に複数の技術を含むインテリジェンスモデルを定義するために広く使われてきた。 この論文は提供することを目指しています (i)その定義にも拘わらず、ハイブリッド・インテリジェンスの広い文脈におけるオントロジーの採用の簡潔で焦点を絞った概要 (II)ハイブリッド知的システムにおける人間と人工知能のギャップを減らすためにオントロジーが果たす役割についての批判的議論。 概念レベルでのオントロジの効果的な利用による典型的なメリットに加えて、分析では、相互運用性、システム工学、説明可能な/透明なシステムを実現するための、より具体的な役割だけでなく、品質と正確性にも重要な貢献が指摘されている。 一方、アプリケーション指向分析は、現在のシステムにおいて重要な役割(ケースの70パーセント以上)を示し、将来のシステムにおいて潜在的に重要な役割を担っている。 しかし、人間と人工知能のバランスの取れた共存を伴う次世代のハイブリッド・インテリジェント環境の確立に関する適切な総合的な議論は、文献に欠落している。 最後に、少なくとも現時点では、自動推論と推論に対する明確なフォーカスが比較的低い。

In a context of constant evolution and proliferation of AI technology, Hybrid Intelligence is gaining popularity to refer a balanced coexistence between human and artificial intelligence. On the other side, the concept has been extensively used in the past two decades to define models of intelligence involving more than one technology. This paper aims to provide (i) a concise and focused overview of the adoption of Ontology in the broad context of Hybrid Intelligence regardless of its definition and (ii) a critical discussion on the possible role of Ontology to reduce the gap between human and artificial intelligence within hybrid intelligent systems. Beside the typical benefits provided by an effective use of ontologies, at a conceptual level, the analysis conducted has pointed out a significant contribution to quality and accuracy, as well as a more specific role to enable extended interoperability, system engineering and explainable/transparent systems. On the other side, an application-oriented analysis has shown a significant role in present systems (70+% of the cases) and, potentially, in future systems. However, a proper holistic discussion on the establishment of the next generation of hybrid-intelligent environments with a balanced co-existence of human and artificial intelligence is fundamentally missed in literature. Last but not the least, there is currently a relatively low explicit focus on automatic reasoning and inference.
翻訳日:2023-03-31 13:48:56 公開日:2023-03-30
# 積分とスケール:スペクトル分離可能な光子対の源

Integrate and scale: A source of spectrally separable photon pairs ( http://arxiv.org/abs/2303.17258v1 )

ライセンス: Link先を確認
Ben M. Burridge, Imad I. Faruque, John G. Rarity, Jorge Barreto(参考訳) 統合フォトニクスはフォールトトレラント量子コンピュータの競争において強力な候補であり、必要な数の量子ビットにスケールできるプラットフォームであると主張している。 これは、統合フォトニクスプラットフォーム上で全周的な高パフォーマンス光子源を使用して、高品質な量子状態を使用する必要がある。 フォトニック分子アーキテクチャとブロードバンド指向結合器を用いて、製造耐性を保護し、信頼性の高い動作を保証する。 その結果、スペクトル純度99.1 \pm 0.1$ %、ペア生成率4.4 \pm 0.1$ mhz mw$^{-2}$、内在源保持効率9.4.0 \pm 2.9$ %を同時に測定した。 また、一致事故率の最大値は1644 \pm 263$である。 我々は、ソースヘラルド効率、純度、明るさの3変量トレードオフにおける桁違いな改善を主張する。 将来の実装では、最先端の伝搬損失を使用して、99$ %の純度とヘラルド効率を達成できる。

Integrated photonics is a powerful contender in the race for a fault-tolerant quantum computer, claiming to be a platform capable of scaling to the necessary number of qubits. This necessitates the use of high-quality quantum states, which we create here using an all-around high-performing photon source on an integrated photonics platform. We use a photonic molecule architecture and broadband directional couplers to protect against fabrication tolerances and ensure reliable operation. As a result, we simultaneously measure a spectral purity of $99.1 \pm 0.1$ %, a pair generation rate of $4.4 \pm 0.1$ MHz mW$^{-2}$, and an intrinsic source heralding efficiency of $94.0 \pm 2.9$ %. We also see a maximum coincidence-to-accidental ratio of $1644 \pm 263$. We claim over an order of magnitude improvement in the trivariate trade-off between source heralding efficiency, purity and brightness. Future implementations of the source could achieve in excess of $99$ % purity and heralding efficiency using state-of-the-art propagation losses.
翻訳日:2023-03-31 13:48:33 公開日:2023-03-30
# デヘイジングネットワークの敵対的攻撃と防御

Adversarial Attack and Defense for Dehazing Networks ( http://arxiv.org/abs/2303.17255v1 )

ライセンス: Link先を確認
Jie Gui, Xiaofeng Cong, Chengwei Peng, Yuan Yan Tang, James Tin-Yau Kwok(参考訳) 単一画像デハジングタスクの研究は広く研究されている。 しかし,我々が知る限り,よく訓練された脱灰モデルのロバスト性に関する総合的な研究は行われていない。 したがって、ネットワークが悪意ある攻撃に抵抗できるという証拠はない。 本稿では,既存のデハジングアルゴリズムのロバスト性を検証するために,一階勾配に基づく攻撃方法群の設計に焦点をあてる。 画像デハージングタスクの一般的な目標を解析することにより,予測,ノイズ,マスク,接地構造,入力攻撃の5つの攻撃手法を提案する。 対応する実験は、異なるスケールの6つのデータセットで実施される。 さらに、悪意ある攻撃による負の効果を低減するために、敵の訓練に基づく防御戦略を採用する。 本稿では,画像デハジング領域に対する新たな課題を定義し,デハジングネットワーク(aadn)に対する逆攻撃と呼ぶことができる。 コードはhttps://github.com/guijiejie/AADN.comで入手できる。

The research on single image dehazing task has been widely explored. However, as far as we know, no comprehensive study has been conducted on the robustness of the well-trained dehazing models. Therefore, there is no evidence that the dehazing networks can resist malicious attacks. In this paper, we focus on designing a group of attack methods based on first order gradient to verify the robustness of the existing dehazing algorithms. By analyzing the general goal of image dehazing task, five attack methods are proposed, which are prediction, noise, mask, ground-truth and input attack. The corresponding experiments are conducted on six datasets with different scales. Further, the defense strategy based on adversarial training is adopted for reducing the negative effects caused by malicious attacks. In summary, this paper defines a new challenging problem for image dehazing area, which can be called as adversarial attack on dehazing networks (AADN). Code is available at https://github.com/guijiejie/AADN.
翻訳日:2023-03-31 13:48:14 公開日:2023-03-30
# 空間可変信号-雑音比を用いたHDRイメージング

HDR Imaging with Spatially Varying Signal-to-Noise Ratios ( http://arxiv.org/abs/2303.17253v1 )

ライセンス: Link先を確認
Yiheng Chi, Xingguang Zhang, Stanley H. Chan(参考訳) 今日のハイダイナミックレンジ(HDR)画像融合アルゴリズムは複数の露光をブレンドできるが、取得は1つの露光内のダイナミックレンジが狭くなるように制御されることが多い。 光子制限状況におけるHDRイメージングでは、ダイナミックレンジは巨大であり、1つの露光におけるノイズは空間的に変化する。 既存の画像復調アルゴリズムとHDR融合アルゴリズムはどちらもこの状況に対処できず、低照度HDRイメージングでは厳しい限界が生じる。 本稿では2つの貢献について述べる。 まず、問題の原因を特定します。 その結果,(1)空間的に変化する信号対雑音比,特に極暗領域による過大ノイズ,(2)露光時の輝度範囲が広いこと,の共存が問題となることがわかった。 この問題はデノイザーの銀行によって処理できるが、複雑さが高いことを示している。 第2に,空間変化高ダイナミックレンジ(sv-hdr)融合ネットワークと呼ばれる,画像のデノベーションとヒューズを同時に行う新しい手法を提案する。 カスタム設計のマルチスケールトランスフレームワークに新しい露光共有ブロックを導入する。 様々な試験条件において,提案したSV-HDRの性能は既存手法よりも優れている。

While today's high dynamic range (HDR) image fusion algorithms are capable of blending multiple exposures, the acquisition is often controlled so that the dynamic range within one exposure is narrow. For HDR imaging in photon-limited situations, the dynamic range can be enormous and the noise within one exposure is spatially varying. Existing image denoising algorithms and HDR fusion algorithms both fail to handle this situation, leading to severe limitations in low-light HDR imaging. This paper presents two contributions. Firstly, we identify the source of the problem. We find that the issue is associated with the co-existence of (1) spatially varying signal-to-noise ratio, especially the excessive noise due to very dark regions, and (2) a wide luminance range within each exposure. We show that while the issue can be handled by a bank of denoisers, the complexity is high. Secondly, we propose a new method called the spatially varying high dynamic range (SV-HDR) fusion network to simultaneously denoise and fuse images. We introduce a new exposure-shared block within our custom-designed multi-scale transformer framework. In a variety of testing conditions, the performance of the proposed SV-HDR is better than the existing methods.
翻訳日:2023-03-31 13:48:01 公開日:2023-03-30
# 社会ボット研究における誤解

Demystifying Misconceptions in Social Bots Research ( http://arxiv.org/abs/2303.17251v1 )

ライセンス: Link先を確認
Stefano Cresci, Roberto Di Pietro, Angelo Spognardi, Maurizio Tesconi, Marinella Petrocchi(参考訳) ソーシャルボットの科学は、最も議論されているオンライン誤情報の1つに対する知識と解決策を求める。 しかし、ソーシャルボットの研究は広く偏り、誇大宣伝された結果、そして曖昧さ、非現実的な期待、そして一見無矛盾な発見の舞台となる誤解に苦しめられている。 このような問題を克服することは、信頼性の高い解決策の確保と、科学的方法の有効性の再確認に有効である。 本稿では,最近の社会ボット研究の結果を改訂し,事実的誤りと方法論的・概念的問題点を強調・修正する。 さらに重要なことに、私たちは共通の誤解を解き、ソーシャルボット研究の議論の基本的なポイントに対処します。 我々の分析は、厳密で偏見がなく、責任ある方法で誤った情報研究を議論する必要性を浮き彫りにしている。 本稿は,社会ボット研究の支持者と反対者の両方が使用する一般的な虚偽の議論を同定し,反論するとともに,この分野の今後の研究のために正しい方法論と正しい方向性を示す。

The science of social bots seeks knowledge and solutions to one of the most debated forms of online misinformation. Yet, social bots research is plagued by widespread biases, hyped results, and misconceptions that set the stage for ambiguities, unrealistic expectations, and seemingly irreconcilable findings. Overcoming such issues is instrumental towards ensuring reliable solutions and reaffirming the validity of the scientific method. In this contribution we revise some recent results in social bots research, highlighting and correcting factual errors as well as methodological and conceptual issues. More importantly, we demystify common misconceptions, addressing fundamental points on how social bots research is discussed. Our analysis surfaces the need to discuss misinformation research in a rigorous, unbiased, and responsible way. This article bolsters such effort by identifying and refuting common fallacious arguments used by both proponents and opponents of social bots research as well as providing indications on the correct methodologies and sound directions for future research in the field.
翻訳日:2023-03-31 13:47:40 公開日:2023-03-30
# 画像データにおける物体検出のためのモデル非依存説明可能な人工知能

Model-agnostic explainable artificial intelligence for object detection in image data ( http://arxiv.org/abs/2303.17249v1 )

ライセンス: Link先を確認
Milad Moradi, Ke Yan, David Colwell, Matthias Samwald, Rhona Asgari(参考訳) 物体検出はコンピュータビジョンの基本的な課題であり、大規模かつ複雑なディープラーニングモデルを開発することで大きく進歩してきた。 しかし、透明性の欠如は、これらのモデルの普及を許さない大きな課題である。 説明可能な人工知能は、ユーザーがaiベースのシステムの振る舞い、決定ロジック、脆弱性を理解するのに役立つ方法を開発する研究分野である。 ブラックボックスの説明は、内部にアクセスせずにAIシステムの決定を説明することを指す。 本稿では,AIを用いた物体検出システムに新たなマスキング手法を採用することにより,マスキングによるブラックボックスオブジェクト検出記述法(BODEM)の設計と実装を行う。 入力画像の複数バージョンを生成するために,局所マスキングと遠隔マスキングを提案する。 ローカルマスクは対象オブジェクト内のピクセルを妨害し、物体検出器がこれらの変化にどう反応するかを理解するために使用され、遠方のマスクは物体の外側のピクセルを乱すことによって検出モデルの判断がどのように影響を受けるかを評価するために使用される。 次に、マスキング前後の検出出力の差を測定することにより、画素の重要性を推定し、サリエンシマップを作成する。 最後に、検出されたオブジェクトに対する入力画像内の重要画素の可視化を行うヒートマップを作成する。 様々なオブジェクト検出データセットとモデルの実験により、BODEMはオブジェクト検出の振る舞いを効果的に説明し、その脆弱性を明らかにすることができることが示された。 これにより、BODEMはブラックボックスソフトウェアテストシナリオにおけるAIベースのオブジェクト検出システムの説明と検証に適している。 さらに,BODEMが生成する局所マスクを用いて物体検出器のさらなる訓練を行い,検出精度とロバスト性を向上させるデータ拡張実験を行った。

Object detection is a fundamental task in computer vision, which has been greatly progressed through developing large and intricate deep learning models. However, the lack of transparency is a big challenge that may not allow the widespread adoption of these models. Explainable artificial intelligence is a field of research where methods are developed to help users understand the behavior, decision logics, and vulnerabilities of AI-based systems. Black-box explanation refers to explaining decisions of an AI system without having access to its internals. In this paper, we design and implement a black-box explanation method named Black-box Object Detection Explanation by Masking (BODEM) through adopting a new masking approach for AI-based object detection systems. We propose local and distant masking to generate multiple versions of an input image. Local masks are used to disturb pixels within a target object to figure out how the object detector reacts to these changes, while distant masks are used to assess how the detection model's decisions are affected by disturbing pixels outside the object. A saliency map is then created by estimating the importance of pixels through measuring the difference between the detection output before and after masking. Finally, a heatmap is created that visualizes how important pixels within the input image are to the detected objects. The experimentations on various object detection datasets and models showed that BODEM can be effectively used to explain the behavior of object detectors and reveal their vulnerabilities. This makes BODEM suitable for explaining and validating AI based object detection systems in black-box software testing scenarios. Furthermore, we conducted data augmentation experiments that showed local masks produced by BODEM can be used for further training the object detectors and improve their detection accuracy and robustness.
翻訳日:2023-03-31 13:47:21 公開日:2023-03-30
# ディープフェイク検出における映像処理操作の影響

Impact of Video Processing Operations in Deepfake Detection ( http://arxiv.org/abs/2303.17247v1 )

ライセンス: Link先を確認
Yuhang Lu and Touradj Ebrahimi(参考訳) ビデオにおけるデジタル顔操作の検出は、公衆信頼のリスクの増加により、大きな注目を集めている。 このような手法の悪用に対抗するため,ディープラーニングに基づくディープフェイク検出手法が開発され,目覚ましい結果が得られた。 しかし、これらの検出器の性能はしばしば実世界の状況を反映しないベンチマークを用いて評価される。 例えば、様々な映像処理操作が検出精度に与える影響は体系的に評価されていない。 このギャップに対処するために,本稿では,多数の実世界の影響要因と典型的なビデオ処理操作をまず分析する。 次に,より系統的な評価手法を提案し,異なる処理操作の影響下で検出器の頑健性を定量的に評価する。 さらに3つの一般的なディープフェイク検出器で実験が行われ、各操作の影響を詳細に分析し、将来の研究を促進するための洞察を与えている。

The detection of digital face manipulation in video has attracted extensive attention due to the increased risk to public trust. To counteract the malicious usage of such techniques, deep learning-based deepfake detection methods have been developed and have shown impressive results. However, the performance of these detectors is often evaluated using benchmarks that hardly reflect real-world situations. For example, the impact of various video processing operations on detection accuracy has not been systematically assessed. To address this gap, this paper first analyzes numerous real-world influencing factors and typical video processing operations. Then, a more systematic assessment methodology is proposed, which allows for a quantitative evaluation of a detector's robustness under the influence of different processing operations. Moreover, substantial experiments have been carried out on three popular deepfake detectors, which give detailed analyses on the impact of each operation and bring insights to foster future research.
翻訳日:2023-03-31 13:46:51 公開日:2023-03-30
# 実用シナリオにおけるマルチビュークラスタリングにおけるノイズビューの副作用の調査と緩和

Investigating and Mitigating the Side Effects of Noisy Views in Multi-view Clustering in Practical Scenarios ( http://arxiv.org/abs/2303.17245v1 )

ライセンス: Link先を確認
Jie Xu, Gang Niu, Xiaolong Wang, Yazhou Ren, Lei Feng, Xiaoshuang Shi, Heng Tao Shen, Xiaofeng Zhu(参考訳) マルチビュークラスタリング(mvc)は、ラベルの監督なしにマルチビューデータのカテゴリ構造を探索することを目的としている。 複数のビューは単一のビューよりも多くの情報を提供するので、既存のMvCメソッドは十分なパフォーマンスを得ることができる。 しかし、実際のシナリオでは、ビューが騒がしい場合、パフォーマンスが著しく低下する可能性がある。 本稿ではまず,まず,ノイズの多い視点の欠点を公式に検討し,その問題に対処するための理論的基盤を持つ深層MvC法(MvCAN)を提案する。 具体的には、複数のビューにまたがる非共有パラメータと一貫性のないクラスタリング予測を可能にし、ノイズの多いビューの副作用を低減するための新しいMvC目標を提案する。 さらに、複数のビューの有用な情報をマイニングするための堅牢な学習目標を生成するために、非パラメトリック反復プロセスが設計されている。 理論的解析により、mvcanはマルチビュー一貫性、相補性、ノイズロバスト性を達成することで機能する。 最後に、公開データセットの実験により、MvCANは最先端の手法よりも優れ、ノイズの多いビューの存在に対して堅牢であることが示された。

Multi-view clustering (MvC) aims at exploring the category structure among multi-view data without label supervision. Multiple views provide more information than single views and thus existing MvC methods can achieve satisfactory performance. However, their performance might seriously degenerate when the views are noisy in practical scenarios. In this paper, we first formally investigate the drawback of noisy views and then propose a theoretically grounded deep MvC method (namely MvCAN) to address this issue. Specifically, we propose a novel MvC objective that enables un-shared parameters and inconsistent clustering predictions across multiple views to reduce the side effects of noisy views. Furthermore, a non-parametric iterative process is designed to generate a robust learning target for mining multiple views' useful information. Theoretical analysis reveals that MvCAN works by achieving the multi-view consistency, complementarity, and noise robustness. Finally, experiments on public datasets demonstrate that MvCAN outperforms state-of-the-art methods and is robust against the existence of noisy views.
翻訳日:2023-03-31 13:46:37 公開日:2023-03-30
# shapley chains: shapleyの値を分類チェインに拡張する

Shapley Chains: Extending Shapley Values to Classifier Chains ( http://arxiv.org/abs/2303.17243v1 )

ライセンス: Link先を確認
C\'elia Wafa Ayad, Thomas Bonnier, Benjamin Bosch and Jesse Read(参考訳) 説明可能な機械学習モデルに注目が集まっているにもかかわらず、マルチアウトプット予測の説明はまだ広く取り組まれていない。 シェープリー値を用いて意思決定に貢献する手法は、局所的な個人的およびグローバルな予測を説明する最も一般的な手法の1つである。 複数出力タスクで各出力を別々に考慮することで、これらのメソッドは完全な機能説明を提供しない。 本稿では, 設計プロセスにラベル相互依存性を含めることで, この問題を克服するシャプリーチェインを提案する。 Shapley Chainsは、これらの特徴スコアの直接的および間接的な影響を分離することにより、分類器チェーンを用いた多出力分類において、Shapley値を特徴重要スコアとして割り当てる。 既存の手法と比較して、このアプローチは、マルチアウトプット分類タスクの予測に、より完全な特徴的貢献を負わせることができる。 これらの出力の所定の連鎖順序に関して、出力の隠された寄与を分配するメカニズムを提供する。 さらに、既存のアプローチで欠落している間接的な機能コントリビューションを明らかにする方法を示す。 shapley chainsは、マルチアウトプットアプリケーションにおける実際の学習要素を強調し、合成および実世界のデータセットの出力相互依存性を通じて情報の流れをより理解するのに役立つ。

In spite of increased attention on explainable machine learning models, explaining multi-output predictions has not yet been extensively addressed. Methods that use Shapley values to attribute feature contributions to the decision making are one of the most popular approaches to explain local individual and global predictions. By considering each output separately in multi-output tasks, these methods fail to provide complete feature explanations. We propose Shapley Chains to overcome this issue by including label interdependencies in the explanation design process. Shapley Chains assign Shapley values as feature importance scores in multi-output classification using classifier chains, by separating the direct and indirect influence of these feature scores. Compared to existing methods, this approach allows to attribute a more complete feature contribution to the predictions of multi-output classification tasks. We provide a mechanism to distribute the hidden contributions of the outputs with respect to a given chaining order of these outputs. Moreover, we show how our approach can reveal indirect feature contributions missed by existing approaches. Shapley Chains help to emphasize the real learning factors in multi-output applications and allows a better understanding of the flow of information through output interdependencies in synthetic and real-world datasets.
翻訳日:2023-03-31 13:46:17 公開日:2023-03-30
# はい、でも。 . ChatGPTは歴史的文書の実体を識別できるか?

Yes but.. Can ChatGPT Identify Entities in Historical Documents? ( http://arxiv.org/abs/2303.17322v1 )

ライセンス: Link先を確認
Carlos-Emiliano Gonz\'alez-Gallardo and Emanuela Boros and Nancy Girdhar and Ahmed Hamdi and Jose G. Moreno and Antoine Doucet(参考訳) 大規模言語モデル(LLM)は数年前から利用されており、現代文書からエンティティを認識する際に最先端のパフォーマンスが得られる。 ここ数ヶ月、会話エージェントのchatgptは、有望な答えを生み出す能力があるため、科学界や大衆に多くの関心を寄せてきた。 本稿では,原資料(例えば,歴史新聞や古典的注釈書)のエンティティ認識・分類(NERC)タスクをゼロショットで探索し,最先端のLMベースシステムと比較することによって,この能力を探求する。 以上の結果から,エンティティアノテーションガイドラインの一貫性,エンティティの複雑さ,コードスイッチング,プロンプトの特異性など,歴史的なテキスト中のエンティティ識別におけるいくつかの欠点が示された。 さらに、予想通り、歴史的アーカイブが一般に(そしてインターネット上で)アクセスできないことも、そのパフォーマンスに影響を与えている。

Large language models (LLMs) have been leveraged for several years now, obtaining state-of-the-art performance in recognizing entities from modern documents. For the last few months, the conversational agent ChatGPT has "prompted" a lot of interest in the scientific community and public due to its capacity of generating plausible-sounding answers. In this paper, we explore this ability by probing it in the named entity recognition and classification (NERC) task in primary sources (e.g., historical newspapers and classical commentaries) in a zero-shot manner and by comparing it with state-of-the-art LM-based systems. Our findings indicate several shortcomings in identifying entities in historical text that range from the consistency of entity annotation guidelines, entity complexity, and code-switching, to the specificity of prompting. Moreover, as expected, the inaccessibility of historical archives to the public (and thus on the Internet) also impacts its performance.
翻訳日:2023-03-31 13:41:03 公開日:2023-03-30
# 訓練データセットサイズとアンサンブル推論戦略が頭頸部自動分節に及ぼす影響

The impact of training dataset size and ensemble inference strategies on head and neck auto-segmentation ( http://arxiv.org/abs/2303.17318v1 )

ライセンス: Link先を確認
Edward G. A. Henderson, Marcel van Herk, Eliana M. Vasquez Osorio(参考訳) コンボリューショナルニューラルネットワーク(CNN)は、放射線治療において臓器とリスクのセグメンテーションを自動化するためにますます使われている。 高度にキュレートされたデータの集合は乏しいため,頭部・頸部自動分離モデルの正確かつ堅牢な訓練に必要なデータ量について検討した。 このために確立された3d cnnは、異なるサイズのデータセット(25-1000スキャン)でスクラッチから訓練され、ctで脳幹、耳下腺、脊髄を分割した。 さらに,これらのモデルの性能向上のために,複数のアンサンブル手法の評価を行った。 セグメンテーションは250スキャンまでのトレーニングセットサイズで改善され、アンサンブル法は全ての臓器のパフォーマンスを大幅に改善した。 アンサンブル法の影響は最小のデータセットで最も顕著であり、大規模なトレーニングデータセットの取得が困難である場合に使用の可能性を示した。

Convolutional neural networks (CNNs) are increasingly being used to automate segmentation of organs-at-risk in radiotherapy. Since large sets of highly curated data are scarce, we investigated how much data is required to train accurate and robust head and neck auto-segmentation models. For this, an established 3D CNN was trained from scratch with different sized datasets (25-1000 scans) to segment the brainstem, parotid glands and spinal cord in CTs. Additionally, we evaluated multiple ensemble techniques to improve the performance of these models. The segmentations improved with training set size up to 250 scans and the ensemble methods significantly improved performance for all organs. The impact of the ensemble methods was most notable in the smallest datasets, demonstrating their potential for use in cases where large training datasets are difficult to obtain.
翻訳日:2023-03-31 13:40:33 公開日:2023-03-30
# イメージプロセッサとしてのマスクオートエンコーダ

Masked Autoencoders as Image Processors ( http://arxiv.org/abs/2303.17316v1 )

ライセンス: Link先を確認
Huiyu Duan, Wei Shen, Xiongkuo Min, Danyang Tu, Long Teng, Jia Wang, Guangtao Zhai(参考訳) トランスフォーマーは、ハイレベルビジョンとローレベルビジョンの両方を含む様々な視覚タスクに対して有意な効果を示した。 近年、機能事前学習のためのマスク付きオートエンコーダ(mae)がトランスフォーマーの可能性をさらに解き放ち、様々な高レベル視覚タスクにおける最先端のパフォーマンス向上につながった。 しかし、低レベル視覚タスクにおけるMAE事前訓練の重要性は十分に検討されていない。 本稿では,マスク付きオートエンコーダが画像処理タスクのためのスケーラブルな自己教師付き学習者であることを示す。 まず,チャネルアテンションとシフトウインドウに基づく自己注意型CSformerの両方を考慮した効率的なトランスフォーマーモデルを提案する。 そこで我々は,画像処理(MAEIP)タスクに有効なMAEアーキテクチャを開発した。 広範な実験結果から,提案するcsformerは,gaussian denoising,real image denoising,single-image motion deblurling,defocus debluring,image derainingなど,様々な画像処理タスクにおいて最先端の性能を実現する。

Transformers have shown significant effectiveness for various vision tasks including both high-level vision and low-level vision. Recently, masked autoencoders (MAE) for feature pre-training have further unleashed the potential of Transformers, leading to state-of-the-art performances on various high-level vision tasks. However, the significance of MAE pre-training on low-level vision tasks has not been sufficiently explored. In this paper, we show that masked autoencoders are also scalable self-supervised learners for image processing tasks. We first present an efficient Transformer model considering both channel attention and shifted-window-based self-attention termed CSformer. Then we develop an effective MAE architecture for image processing (MAEIP) tasks. Extensive experimental results show that with the help of MAEIP pre-training, our proposed CSformer achieves state-of-the-art performance on various image processing tasks, including Gaussian denoising, real image denoising, single-image motion deblurring, defocus deblurring, and image deraining.
翻訳日:2023-03-31 13:40:05 公開日:2023-03-30
# 2つの時間スケールを持つ開量子系に対する断熱除去のハイゼンベルク定式化

Heisenberg formulation of adiabatic elimination for open quantum systems with two time-scales ( http://arxiv.org/abs/2303.17308v1 )

ライセンス: Link先を確認
Fran\c{c}ois-Marie Le R\'egent, Pierre Rouchon(参考訳) ガリーニ、コサコフスキー、スダルシャン、リンドブラッド(英語版)(GKSL)マスター方程式と2つの倍スケールを持つ開量子系を考える: 高速な方程式は、準平衡の線型部分空間へ指数関数的に収束する。 通常、断熱的な除去はschr\"odinger画像で実行される。 本稿では,準平衡部分空間に対する高速減衰ダイナミクスに付随する不変作用素が重要な役割を果たすハイゼンベルク公式を提案する。 幾何学的特異摂動に基づいて、ハイゼンベルクのスローダイナミクスと高速不変線型部分空間の漸近展開が提案されている。 彼らは中心多様体と分岐理論からカーの近似補題を利用する。 2階展開の詳細は、遅い時間スケールでの遅いダイナミクスのトレースと完全な正の保存を2階項まで保証するために示される。 このような展開は数値的に活用できる。

Consider an open quantum system governed by a Gorini, Kossakowski, Sudarshan, Lindblad (GKSL) master equation with two times-scales: a fast one, exponentially converging towards a linear subspace of quasi-equilibria; a slow one resulting from perturbations (small arbitrary decoherence and Hamiltonian dynamics). Usually adiabatic elimination is performed in the Schr\"odinger picture. We propose here an Heisenberg formulation where the invariant operators attached to the fast decay dynamics towards the quasi-equilibria subspace play a key role. Based on geometric singular perturbations, asympotic expansions of the Heisenberg slow dynamics and of the fast invariant linear subspaces are proposed. They exploit Carr's approximation lemma from center-manifold and bifurcation theory. Second-order expansions are detailed and shown to ensure preservation, up to second-order terms, of the trace and complete positivity for the slow dynamics on a slow time-scale. Such expansions can be exploited numerically.
翻訳日:2023-03-31 13:39:30 公開日:2023-03-30
# マニフォールド値軌道のスプラインモデルのための佐々木計量

Sasaki Metric for Spline Models of Manifold-Valued Trajectories ( http://arxiv.org/abs/2303.17299v1 )

ライセンス: Link先を確認
Esfandiar Nava-Yazdani, Felix Ambellan, Martin Hanik, Christoph von Tycowicz(参考訳) 本稿では,本質的かつ計算効率のよいリーマン階層モデルを用いることが可能な,多様体値の測定を行う汎用時空間フレームワークを提案する。 特に回帰を利用して,混合b\' ezier スプラインによるリーマン多様体の離散的軌跡を表現し,佐々木計量によって誘導される自然計量を提案し,軌跡の比較を行い,平均軌跡を群別トレンドとして推定する。 我々は,ハリケーントラックの定性的および定量的実験における最先端手法と比較して,我々の枠組みを評価する。 特に, 線路の強度分類において, スプラインに基づく手法が優れていることを示す。

We propose a generic spatiotemporal framework to analyze manifold-valued measurements, which allows for employing an intrinsic and computationally efficient Riemannian hierarchical model. Particularly, utilizing regression, we represent discrete trajectories in a Riemannian manifold by composite B\' ezier splines, propose a natural metric induced by the Sasaki metric to compare the trajectories, and estimate average trajectories as group-wise trends. We evaluate our framework in comparison to state-of-the-art methods within qualitative and quantitative experiments on hurricane tracks. Notably, our results demonstrate the superiority of spline-based approaches for an intensity classification of the tracks.
翻訳日:2023-03-31 13:39:07 公開日:2023-03-30
# 自律運転におけるバードズ・アイ・ビュー表現による3次元物体検出のロバスト性理解

Understanding the Robustness of 3D Object Detection with Bird's-Eye-View Representations in Autonomous Driving ( http://arxiv.org/abs/2303.17297v1 )

ライセンス: Link先を確認
Zijian Zhu, Yichi Zhang, Hai Chen, Yinpeng Dong, Shu Zhao, Wenbo Ding, Jiachen Zhong and Shibao Zheng(参考訳) 3次元物体検出は、環境を理解するための自律運転において重要な認識課題である。 Bird's-Eye-View (BEV)表現は、一般的なベンチマークでカメラ入力を備えた3D検出器の性能を大幅に改善した。 しかしながら、自律運転システムの安全性と密接に関連している、これらの視覚依存型BEVモデルの堅牢性に関する体系的な理解はいまだに欠けている。 本稿では,様々な代表モデルの自然的・敵対的ロバスト性を広範囲な環境下で評価し,BEVのないモデルと比較して,明示的なBEV特徴の影響を十分に理解する。 古典的な設定に加えて、3d空間に逆のパッチを適用して、時空間的一貫性を保証することで、3d一貫性のあるパッチ攻撃を提案する。 かなりの実験でいくつかの発見が得られました 1)BEVモデルは,表現的空間表現による自然条件や共通汚職の下では,従来手法よりも安定である傾向にある。 2 BEVモデルは、主に冗長なBEVの特徴により、敵の騒音に弱い。 3)カメラ-LiDAR融合モデルはマルチモーダル入力の異なる設定下では優れた性能を示すが,BEV融合モデルはまだ点群と画像群の両方の対向雑音に対して脆弱である。 これらの発見は、BEV検出器の応用における安全性の問題に警告し、より堅牢なモデルの開発を促進する可能性がある。

3D object detection is an essential perception task in autonomous driving to understand the environments. The Bird's-Eye-View (BEV) representations have significantly improved the performance of 3D detectors with camera inputs on popular benchmarks. However, there still lacks a systematic understanding of the robustness of these vision-dependent BEV models, which is closely related to the safety of autonomous driving systems. In this paper, we evaluate the natural and adversarial robustness of various representative models under extensive settings, to fully understand their behaviors influenced by explicit BEV features compared with those without BEV. In addition to the classic settings, we propose a 3D consistent patch attack by applying adversarial patches in the 3D space to guarantee the spatiotemporal consistency, which is more realistic for the scenario of autonomous driving. With substantial experiments, we draw several findings: 1) BEV models tend to be more stable than previous methods under different natural conditions and common corruptions due to the expressive spatial representations; 2) BEV models are more vulnerable to adversarial noises, mainly caused by the redundant BEV features; 3) Camera-LiDAR fusion models have superior performance under different settings with multi-modal inputs, but BEV fusion model is still vulnerable to adversarial noises of both point cloud and image. These findings alert the safety issue in the applications of BEV detectors and could facilitate the development of more robust models.
翻訳日:2023-03-31 13:38:54 公開日:2023-03-30
# JCDNet:時間的行動局所化のための共通・定相ネットワークの統合

JCDNet: Joint of Common and Definite phases Network for Weakly Supervised Temporal Action Localization ( http://arxiv.org/abs/2303.17294v1 )

ライセンス: Link先を確認
Yifu Liu, Xiaoxia Li, Zhiling Luo, Wei Zhou(参考訳) 弱教師付き時間的アクションローカライゼーションは、ビデオレベルの監督のみで、未トリミングビデオ内のアクションインスタンスをローカライズすることを目的としている。 私たちは、異なるアクションが共通のフェーズ、例えばHighJumpとLongJumpのランアップを記録するのを目撃します。 これらの異なるアクションは結合アクションとして定義され、残りの部分は一定の位相であり、例えばHighJumpのバーを飛び越える。 共通相と比較して、定相は既存の研究においてより容易に局所化される。 それらのほとんどがこのタスクを、共通フェーズが背景と混同される傾向があり、コンジョイントアクションのローカライズ完全性に影響する、複数のインスタンス学習パラダイムとして定式化している。 この課題に対処するため,コンジョイント行動の特徴識別性を向上し,共通位相ネットワーク(JCDNet)を提案する。 具体的には,粗定相特徴の指導により分類における共通相の寄与を高めるために,クラス認識型判別モジュールを設計する。 さらに,時間依存のモデル化を通じてロバストな動作性スコアを学習するための時間的注意モジュールを導入し,共通フェーズと背景を区別する。 3つのデータセット(THUMOS14, ActivityNetv1.2, and a conjoint-action subset)に対する大規模な実験は、JCDNetが最先端の手法と競合する性能を達成することを示した。 キーワード:弱教師付き学習、時間的行動局在、結合行動

Weakly-supervised temporal action localization aims to localize action instances in untrimmed videos with only video-level supervision. We witness that different actions record common phases, e.g., the run-up in the HighJump and LongJump. These different actions are defined as conjoint actions, whose rest parts are definite phases, e.g., leaping over the bar in a HighJump. Compared with the common phases, the definite phases are more easily localized in existing researches. Most of them formulate this task as a Multiple Instance Learning paradigm, in which the common phases are tended to be confused with the background, and affect the localization completeness of the conjoint actions. To tackle this challenge, we propose a Joint of Common and Definite phases Network (JCDNet) by improving feature discriminability of the conjoint actions. Specifically, we design a Class-Aware Discriminative module to enhance the contribution of the common phases in classification by the guidance of the coarse definite-phase features. Besides, we introduce a temporal attention module to learn robust action-ness scores via modeling temporal dependencies, distinguishing the common phases from the background. Extensive experiments on three datasets (THUMOS14, ActivityNetv1.2, and a conjoint-action subset) demonstrate that JCDNet achieves competitive performance against the state-of-the-art methods. Keywords: weakly-supervised learning, temporal action localization, conjoint action
翻訳日:2023-03-31 13:38:31 公開日:2023-03-30
# RGBを用いた時間的行動検出のためのクロスモーダル蒸留法

Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection ( http://arxiv.org/abs/2303.17285v1 )

ライセンス: Link先を確認
Pilhyeon Lee, Taeoh Kim, Minho Shim, Dongyoon Wee, Hyeran Byun(参考訳) 時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。 有望な性能にもかかわらず、既存の2ストリームモデルは計算コストの高い光フローに依存するため、推論速度が遅い。 本稿では,移動モーダルの知識を伝達することにより,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。 具体的には, 直接蒸留の代わりに, RGB と運動表現を別々に学習し, アクションローカライゼーションを行う。 デュアルブランチ設計と非対称トレーニングの目的は、rgb情報をそのまま保持しながら効果的な動作知識の伝達を可能にする。 さらに,マルチモーダル相補性をうまく活用するために,局所的注意融合を導入する。 アクションローカライゼーションにおいて重要な特徴の局所的識別性を維持するように設計されている。 ベンチマークの大規模な実験は、RGBベースのアクション検出器の強化における提案手法の有効性を検証する。 特に、我々のフレームワークはバックボーンや検出ヘッドに非依存であり、異なるモデルの組み合わせで一貫した利得をもたらします。

Temporal action detection aims to predict the time intervals and the classes of action instances in the video. Despite the promising performance, existing two-stream models exhibit slow inference speed due to their reliance on computationally expensive optical flow. In this paper, we introduce a decomposed cross-modal distillation framework to build a strong RGB-based detector by transferring knowledge of the motion modality. Specifically, instead of direct distillation, we propose to separately learn RGB and motion representations, which are in turn combined to perform action localization. The dual-branch design and the asymmetric training objectives enable effective motion knowledge transfer while preserving RGB information intact. In addition, we introduce a local attentive fusion to better exploit the multimodal complementarity. It is designed to preserve the local discriminability of the features that is important for action localization. Extensive experiments on the benchmarks verify the effectiveness of the proposed method in enhancing RGB-based action detectors. Notably, our framework is agnostic to backbones and detection heads, bringing consistent gains across different model combinations.
翻訳日:2023-03-31 13:38:05 公開日:2023-03-30
# 人類の人間:成功と失敗の両面で共通感覚に収束するGPTについて

Humans in Humans Out: On GPT Converging Toward Common Sense in both Success and Failure ( http://arxiv.org/abs/2303.17276v1 )

ライセンス: Link先を確認
Philipp Koralus, Vincent Wang-Ma\'scianica(参考訳) 計算スケールの増大と微調整により、GPTのような大規模言語モデル(LLM)の出力品質が劇的に向上した。 GPT-3とGPT-4はともに、大量の人為的なテキストで訓練されているので、そのアウトプットがいかに人間の思考のパターンを反映しているかを、正しくも正しくも問うことができる。 Erotetic Theory of Reason (ETR) は、人間の成功と思考の失敗、命題、定量化、確率論的推論、および意思決定の象徴的な生成モデルを提供する。 本稿では,人間の判断に関する実験的検証データポイントと,etrが予測した外挿データポイントと,正確な推論パターンと誤用とフレーミング効果(etr61ベンチマーク)からなる,etrの最近の本長プレゼンテーションから,gpt-3,gpt-3.5,gpt-4を61の中心的な推論と判断問題で提示した。 etr61には、wasonのcard task、illusory inferences、decoy effect、オポチュニティコストの無視といった古典が含まれている。 GPT-3は、これらの例の59%に対してETR予測出力の証拠を示し、GPT-3.5では77%、GPT-4では75%まで上昇した。 GPT-3では18%, GPT-3.5では33%, GPT-4では34%であった。 このことは、より大きく、より進んだLSMは、関連する思考パターンが人為的なトレーニングデータに固有のものであるため、より人間的な誤りの傾向を増すことを示唆している。 etrによると、同じ基本的なパターンが正常な推論の成功と失敗の両方に関与しているため、"悪い"ケースは"良い"ケースからパラドックス的に学ぶことができる。 さらに、ETRにインスパイアされたプロンプトエンジニアリングがこれらのミスの事例を減らす可能性があるという予備的な証拠を示す。

Increase in computational scale and fine-tuning has seen a dramatic improvement in the quality of outputs of large language models (LLMs) like GPT. Given that both GPT-3 and GPT-4 were trained on large quantities of human-generated text, we might ask to what extent their outputs reflect patterns of human thinking, both for correct and incorrect cases. The Erotetic Theory of Reason (ETR) provides a symbolic generative model of both human success and failure in thinking, across propositional, quantified, and probabilistic reasoning, as well as decision-making. We presented GPT-3, GPT-3.5, and GPT-4 with 61 central inference and judgment problems from a recent book-length presentation of ETR, consisting of experimentally verified data-points on human judgment and extrapolated data-points predicted by ETR, with correct inference patterns as well as fallacies and framing effects (the ETR61 benchmark). ETR61 includes classics like Wason's card task, illusory inferences, the decoy effect, and opportunity-cost neglect, among others. GPT-3 showed evidence of ETR-predicted outputs for 59% of these examples, rising to 77% in GPT-3.5 and 75% in GPT-4. Remarkably, the production of human-like fallacious judgments increased from 18% in GPT-3 to 33% in GPT-3.5 and 34% in GPT-4. This suggests that larger and more advanced LLMs may develop a tendency toward more human-like mistakes, as relevant thought patterns are inherent in human-produced training data. According to ETR, the same fundamental patterns are involved both in successful and unsuccessful ordinary reasoning, so that the "bad" cases could paradoxically be learned from the "good" cases. We further present preliminary evidence that ETR-inspired prompt engineering could reduce instances of these mistakes.
翻訳日:2023-03-31 13:37:52 公開日:2023-03-30
# 古典的な量子非シグナリングボックス

Classical-to-quantum non-signalling boxes ( http://arxiv.org/abs/2303.17268v1 )

ライセンス: Link先を確認
Carolina Moreira Ferrera, Robin Simmons, James Purcell, Daniel Collins and Sandu Popescu(参考訳) ここでは古典的入力-量子出力(C-Q)非シグナリングボックスの概念、古典的入力-古典的出力(C-C)非シグナリングボックスの一般化を紹介する。 このような対象を研究することで、量子力学を超えた量子非局所性と非局所性との関係をよりよく理解できるようになると論じる。 論文で論じられている主な問題は、C-Qボックスが存在するか、またはC-Qボックスが既に知られている物体から構築できるかどうかである。 C-Qボックスの大規模クラスは真のものではないことを示し、解答がまだオープンである一般問題に対処するための様々な戦略を示す。 このアプローチに従う三成分量子絡み合いに関する結果も提示する。

Here we introduce the concept of classical input - quantum output (C-Q) non-signalling boxes, a generalisation of the classical input - classical output (C-C) non-signalling boxes. We argue that studying such objects leads to a better understanding of the relation between quantum nonlocality and non-locality beyond quantum mechanics. The main issue discussed in the paper is whether there exist "genuine" C-Q boxes or all C-Q boxes can be built from objects already known, namely C-C boxes acting on pre-shared entangled quantum particles. We show that large classes of C-Q boxes are non genuine, and present various strategies for addressing the general problem, whose answer is still open. Results concerning tri-partite quantum entanglement that follow from this approach are also presented.
翻訳日:2023-03-31 13:37:16 公開日:2023-03-30
# synbody: 3次元知覚とモデリングのための階層型ヒトモデルを用いた合成データセット

SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling ( http://arxiv.org/abs/2303.17368v1 )

ライセンス: Link先を確認
Zhitao Yang, Zhongang Cai, Haiyi Mei, Shuai Liu, Zhaoxi Chen, Weiye Xiao, Yukun Wei, Zhongfei Qing, Chen Wei, Bo Dai, Wayne Wu, Chen Qian, Dahua Lin, Ziwei Liu, Lei Yang(参考訳) 合成データは、大規模な人間のデータセットへの低コストアクセスを提供するため、3d人間研究の有望な情報源として浮上している。 人間のモデルの多様性とアノテーションの質を向上させるために,3つの魅力的な特徴を持つ新しい合成データセット,Synbodyを導入する。 1) 多様な対象を発生できる服を着たパラメトリックなヒトモデル 2) 自然に複数のタスクをサポートするために高品質な3Dアノテーションを提供する階層型人間表現 3)実世界の作業を容易にするために,現実的なデータを生成するスケーラブルなシステム。 データセットは、正確な3Dアノテーションを備えた1.7Mイメージで構成され、10,000人の人体モデル、1000のアクション、さまざまな視点をカバーしている。 データセットには、人間のメッシュリカバリと人間のニューラルネットワークレンダリングのための2つのサブセットが含まれている。 SynBodyの大規模な実験は、SMPLとSMPL-Xの推定の両方を大幅に強化することを示している。 さらに、階層アノテーションの導入は、人間の神経放射場(NeRF)を調査するための貴重なトレーニングリソースを提供する。

Synthetic data has emerged as a promising source for 3D human research as it offers low-cost access to large-scale human datasets. To advance the diversity and annotation quality of human models, we introduce a new synthetic dataset, Synbody, with three appealing features: 1) a clothed parametric human model that can generate a diverse range of subjects; 2) the layered human representation that naturally offers high-quality 3D annotations to support multiple tasks; 3) a scalable system for producing realistic data to facilitate real-world tasks. The dataset comprises 1.7M images with corresponding accurate 3D annotations, covering 10,000 human body models, 1000 actions, and various viewpoints. The dataset includes two subsets for human mesh recovery as well as human neural rendering. Extensive experiments on SynBody indicate that it substantially enhances both SMPL and SMPL-X estimation. Furthermore, the incorporation of layered annotations offers a valuable training resource for investigating the Human Neural Radiance Fields (NeRF).
翻訳日:2023-03-31 13:30:09 公開日:2023-03-30
# BERTに基づく教師なし文法的誤り訂正フレームワーク

A BERT-based Unsupervised Grammatical Error Correction Framework ( http://arxiv.org/abs/2303.17367v1 )

ライセンス: Link先を確認
Nankai Lin, Hongbin Zhang, Menglan Shen, Yu Wang, Shengyi Jiang, Aimin Yang(参考訳) 文法的誤り訂正(GEC)は自然言語処理技術の課題である。 英語や中国語のような普遍言語に対するこのアプローチでは、より多くの試みがなされているが、大きな注釈付きコーパスがないため、低リソース言語に対する作業は比較的少ない。 低リソース言語では、言語モデルに基づく現在の教師なしGCCがよく機能する。 しかし、事前訓練された言語モデルは、この文脈で検討される。 本研究では,BERT をベースとした非教師付き GEC フレームワークを提案し,GEC をマルチクラス分類タスクとみなす。 このフレームワークには、データフロー構築モジュール、文パープレキシティスコアリングモジュール、エラー検出および修正モジュールの3つのモジュールが含まれている。 本稿では,文の真偽を推定し,タガログGEC研究のためのタガログコーパスを構築するための,擬似パープレクティリティのための新しいスコアリング手法を提案する。 インドネシア語コーパスを構築・オープンソース化したタガログコーパス上での競争性能を向上し,低リソースGECタスクのベースライン手法と相補的であることを示す。

Grammatical error correction (GEC) is a challenging task of natural language processing techniques. While more attempts are being made in this approach for universal languages like English or Chinese, relatively little work has been done for low-resource languages for the lack of large annotated corpora. In low-resource languages, the current unsupervised GEC based on language model scoring performs well. However, the pre-trained language model is still to be explored in this context. This study proposes a BERT-based unsupervised GEC framework, where GEC is viewed as multi-class classification task. The framework contains three modules: data flow construction module, sentence perplexity scoring module, and error detecting and correcting module. We propose a novel scoring method for pseudo-perplexity to evaluate a sentence's probable correctness and construct a Tagalog corpus for Tagalog GEC research. It obtains competitive performance on the Tagalog corpus we construct and open-source Indonesian corpus and it demonstrates that our framework is complementary to baseline method for low-resource GEC task.
翻訳日:2023-03-31 13:29:54 公開日:2023-03-30
# アーキテクチャを考慮したZX多項式合成と最適化への再帰的分割アプローチ

A recursively partitioned approach to architecture-aware ZX Polynomial synthesis and optimization ( http://arxiv.org/abs/2303.17366v1 )

ライセンス: Link先を確認
David Winderl, Qunsheng Huang, Christian B. Mendl(参考訳) zx計算における位相ガジェットからの量子回路の合成は量子回路最適化を促進する。 本研究は,PauliOptの確率的アプローチをヒューリスティックベースサーチに置き換え,ZX多項式から最適化回路を合成するための分割・征服手法を用いて,アーキテクチャを考慮したPauliOpt合成アルゴリズムの代替式を提供する。 本アルゴリズムとpaulioptおよび他の最先端最適化ライブラリとの比較を行った。 高度に構造化された回路の性能は劣っているが、Max-CutのQAOAの定式化のように、アーキテクチャを意識した手法を用いることの利点を浮き彫りにしている。

The synthesis of quantum circuits from phase gadgets in the ZX-calculus facilitates quantum circuit optimization. Our work provides an alternative formulation for the architecture-aware synthesis algorithm of PauliOpt by replacing the stochastic approach of PauliOpt with a heuristic based search and utilizes a divide and conquer method to synthesize an optimized circuit from a ZX polynomial. We provide a comparison of our algorithm with PauliOpt and other state-of-the-art optimization libraries. While we note poorer performance for highly structured circuits, as in the QAOA formulation for Max-Cut, we demonstrate a significant advantage for randomized circuits, which highlights the advantages of utilizing an architecture-aware methodology.
翻訳日:2023-03-31 13:29:36 公開日:2023-03-30
# 対称パディングを持つ可逆畳み込み

Invertible Convolution with Symmetric Paddings ( http://arxiv.org/abs/2303.17361v1 )

ライセンス: Link先を確認
Bo Li(参考訳) 対称パッドド・コンボリューションはDFTを介して解析的に逆転できることを示す。 複数の異なる対称および反対称パディングモードを包括的に解析し、逆変換が可能となる複数のケースが存在することを示す。 実装は \url{https://github.com/prclibo/iconv_dft} で利用可能である。

We show that symmetrically padded convolution can be analytically inverted via DFT. We comprehensively analyze several different symmetric and anti-symmetric padding modes and show that multiple cases exist where the inversion can be achieved. The implementation is available at \url{https://github.com/prclibo/iconv_dft}.
翻訳日:2023-03-31 13:29:22 公開日:2023-03-30
# 非IIDデータを用いたフェデレーション学習のためのDPPベースのクライアント選択

DPP-based Client Selection for Federated Learning with Non-IID Data ( http://arxiv.org/abs/2303.17358v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Chao Xu, Howard H. Yang, Xijun Wang, and Tony Q. S. Quek(参考訳) 本稿では、flのデータ不均一性問題に同時対応しながら、連合学習(fl)の通信ボトルネックに取り組むためのクライアント選択(cs)手法を提案する。 具体的には、まず、flにおけるcsの効果を分析し、各トレーニングラウンドにおけるトレーニングデータセットの多様化を適切に選択することで、flトレーニングを加速できることを示す。 そこで我々は,データプロファイリングと決定点プロセス(DPP)のサンプリング技術を活用し,DPPに基づく参加者選択(FL-DP$^3$S)によるフェデレートラーニング(Federated Learning)と呼ばれるアルゴリズムを開発した。 このアルゴリズムは、データのプライバシを保ちながら、トレーニングの各ラウンドで参加者のデータセットを効果的に多様化する。 提案手法の有効性を検討するため,広範囲な実験を行った。 その結果,本手法は,複数のベースラインよりも通信オーバーヘッドが少なく,より高速な収束率が得られることがわかった。

This paper proposes a client selection (CS) method to tackle the communication bottleneck of federated learning (FL) while concurrently coping with FL's data heterogeneity issue. Specifically, we first analyze the effect of CS in FL and show that FL training can be accelerated by adequately choosing participants to diversify the training dataset in each round of training. Based on this, we leverage data profiling and determinantal point process (DPP) sampling techniques to develop an algorithm termed Federated Learning with DPP-based Participant Selection (FL-DP$^3$S). This algorithm effectively diversifies the participants' datasets in each round of training while preserving their data privacy. We conduct extensive experiments to examine the efficacy of our proposed method. The results show that our scheme attains a faster convergence rate, as well as a smaller communication overhead than several baselines.
翻訳日:2023-03-31 13:29:16 公開日:2023-03-30
# 異常検出と局所化のための変圧器を用いたインクリメンタル自己監督学習

Incremental Self-Supervised Learning Based on Transformer for Anomaly Detection and Localization ( http://arxiv.org/abs/2303.17354v1 )

ライセンス: Link先を確認
Wenping Jin, Fei Guo, Li Zhu(参考訳) 機械学習分野において、画像データ内の異常検出と局所化の研究は、特に工業的欠陥検出のような実践的応用において大きな注目を集めている。 既存の手法は主に畳み込みニューラルネットワーク(cnn)をバックボーンネットワークとしているが、トランスフォーマーバックボーンネットワークに基づく革新的な手法を提案する。 当社のアプローチでは、2段階のインクリメンタル学習戦略を採用しています。 第1段階では、通常の画像のみにMasked Autoencoder(MAE)モデルを訓練する。 その後,第2段階では,劣化した正規画像とその対応する画素ラベルを生成するために,画素レベルのデータ拡張技術を導入する。 このプロセスにより、モデルは破損した領域の修復方法を学び、各ピクセルの状態を分類することができる。 最終的に、モデルは画素再構成誤差行列と画素異常確率行列を生成し、これらを組み合わせて異常領域を効果的に識別する異常スコアリング行列を作成する。 最新のCNN技術と比較すると,MVTec ADデータセットの方が優れた性能を示し,97.6%のAUCを実現している。

In the machine learning domain, research on anomaly detection and localization within image data has garnered significant attention, particularly in practical applications such as industrial defect detection. While existing approaches predominantly rely on Convolutional Neural Networks (CNN) as their backbone network, we propose an innovative method based on the Transformer backbone network. Our approach employs a two-stage incremental learning strategy. In the first stage, we train a Masked Autoencoder (MAE) model exclusively on normal images. Subsequently, in the second stage, we implement pixel-level data augmentation techniques to generate corrupted normal images and their corresponding pixel labels. This process enables the model to learn how to repair corrupted regions and classify the state of each pixel. Ultimately, the model produces a pixel reconstruction error matrix and a pixel anomaly probability matrix, which are combined to create an anomaly scoring matrix that effectively identifies abnormal regions. When compared to several state-of-the-art CNN-based techniques, our method demonstrates superior performance on the MVTec AD dataset, achieving an impressive 97.6% AUC.
翻訳日:2023-03-31 13:29:03 公開日:2023-03-30
# pmatch: 密度幾何マッチングのためのペアマスク画像モデリング

PMatch: Paired Masked Image Modeling for Dense Geometric Matching ( http://arxiv.org/abs/2303.17342v1 )

ライセンス: Link先を確認
Shengjie Zhu, Xiaoming Liu(参考訳) デンス幾何マッチングは、ソースと同一の3D構造に対応する支持画像との高密度画素対応を決定する。 以前の作業では、2フレームの特徴を相関付けるためにトランスフォーマーブロックのエンコーダを使用していた。 しかし、既存のモノクロプリトレーニングタスク、例えば画像分類やマスク画像モデリング(mim)は、クロスフレームモジュールをプリトレーニングできないため、最適性能は低下する。 そこで我々は,MIMを1枚のマスク付き画像の再構成から1枚のマスク付き画像の再構成へと再構成し,トランスフォーマーモジュールの事前訓練を可能にする。 さらに,プレトレーニングにデコーダを組み込んで,アップサンプリング結果を改善する。 さらに, テクスチャレス領域に対して堅牢となるために, 新たなクロスフレームグローバルマッチングモジュール (CFGM) を提案する。 最もテクスチャのない領域は平面面であるため、学習をより規則化するホモグラフィー損失を提案する。 組み合わせることで,幾何マッチングにおけるSoTA(State-of-The-Art)の性能を実現する。 コードとモデルはhttps://github.com/shngjz/pmatch.comで入手できる。

Dense geometric matching determines the dense pixel-wise correspondence between a source and support image corresponding to the same 3D structure. Prior works employ an encoder of transformer blocks to correlate the two-frame features. However, existing monocular pretraining tasks, e.g., image classification, and masked image modeling (MIM), can not pretrain the cross-frame module, yielding less optimal performance. To resolve this, we reformulate the MIM from reconstructing a single masked image to reconstructing a pair of masked images, enabling the pretraining of transformer module. Additionally, we incorporate a decoder into pretraining for improved upsampling results. Further, to be robust to the textureless area, we propose a novel cross-frame global matching module (CFGM). Since the most textureless area is planar surfaces, we propose a homography loss to further regularize its learning. Combined together, we achieve the State-of-The-Art (SoTA) performance on geometric matching. Codes and models are available at https://github.com/ShngJZ/PMatch.
翻訳日:2023-03-31 13:28:46 公開日:2023-03-30
# ローカルリージョン学習モジュールによるポイントクラウド分類

Local region-learning modules for point cloud classification ( http://arxiv.org/abs/2303.17338v1 )

ライセンス: Link先を確認
Kaya Turgut and Helin Dutagaci(参考訳) ローカル領域の形成によるデータ編成は、3dポイントクラウドを階層的に処理するディープラーニングネットワークの不可欠な部分である。 各レベルにおいて、点雲をサンプリングして代表点を抽出し、これらの点を局所領域の中心とする。 特徴集約の特定の層における受容野の位置と大きさを決定するため、局所的な領域の組織は極めて重要である。 本稿では,各中心点に対する適切なシフトを推定するCenter Shift Moduleと,各局所点の半径を変更するRadius Update Moduleの2つのローカル領域学習モジュールを提案する。 モジュールのパラメータは、エンドツーエンドネットワーク内の特定のタスクに関連する損失を最適化することで学習される。 ポイントクラウドにおける3Dポイントの特徴と位置の相互作用をモデル化する様々な方法で,これらのモジュールの代替案を提案する。 いずれのモジュールもpointnet++オブジェクト分類アーキテクチャに独立して統合し,scanobjectnnデータセットの分類精度が大幅に向上したことを実証した。

Data organization via forming local regions is an integral part of deep learning networks that process 3D point clouds in a hierarchical manner. At each level, the point cloud is sampled to extract representative points and these points are used to be centers of local regions. The organization of local regions is of considerable importance since it determines the location and size of the receptive field at a particular layer of feature aggregation. In this paper, we present two local region-learning modules: Center Shift Module to infer the appropriate shift for each center point, and Radius Update Module to alter the radius of each local region. The parameters of the modules are learned through optimizing the loss associated with the particular task within an end-to-end network. We present alternatives for these modules through various ways of modeling the interactions of the features and locations of 3D points in the point cloud. We integrated both modules independently and together to the PointNet++ object classification architecture, and demonstrated that the modules contributed to a significant increase in classification accuracy for the ScanObjectNN data set.
翻訳日:2023-03-31 13:28:30 公開日:2023-03-30
# Haystackのトピック:コヒーレンスを超えたトピックの抽出と評価

Topics in the Haystack: Extracting and Evaluating Topics beyond Coherence ( http://arxiv.org/abs/2303.17324v1 )

ライセンス: Link先を確認
Anton Thielmann, Quentin Seifert, Arik Reuter, Elisabeth Bergherr, Benjamin S\"afken(参考訳) 大きなテキストコーパス中の潜在トピックの抽出と識別は、自然言語処理(nlp)において重要性を増している。 潜在ディリクレ割当(lda)や神経話題モデルに似た確率モデルであっても、ほとんどのモデルは、トピック解釈可能性とトピック抽出の基盤となるアプローチに従う。 本稿では,文と文書の双方についてより深く理解し,データ中の単語の頻度を単に分析する以上の方法を提案する。 これにより,稀な単語やネオロジズムを含む可能性のある潜在トピックや,文書自体に存在しない単語を検出することができる。 さらに,セマンティクス空間における侵入語と類似度尺度に基づく評価指標をいくつか提案する。 本稿では,侵入者の単語の識別と相関係数を示し,単語侵入タスクにおいて人間に近いレベルの結果を得る。 提案手法の競合性能を大規模ベンチマークで検証し,最新のトピックモデリングや文書クラスタリングモデルと比較して優れた結果を得た。

Extracting and identifying latent topics in large text corpora has gained increasing importance in Natural Language Processing (NLP). Most models, whether probabilistic models similar to Latent Dirichlet Allocation (LDA) or neural topic models, follow the same underlying approach of topic interpretability and topic extraction. We propose a method that incorporates a deeper understanding of both sentence and document themes, and goes beyond simply analyzing word frequencies in the data. This allows our model to detect latent topics that may include uncommon words or neologisms, as well as words not present in the documents themselves. Additionally, we propose several new evaluation metrics based on intruder words and similarity measures in the semantic space. We present correlation coefficients with human identification of intruder words and achieve near-human level results at the word-intrusion task. We demonstrate the competitive performance of our method with a large benchmark study, and achieve superior results compared to state-of-the-art topic modeling and document clustering models.
翻訳日:2023-03-31 13:27:51 公開日:2023-03-30
# 言語エンハンストランスエンコーダを用いた医療介入継続時間推定

Medical Intervention Duration Estimation Using Language-enhanced Transformer Encoder with Medical Prompts ( http://arxiv.org/abs/2303.17408v1 )

ライセンス: Link先を確認
Yucheng Ruan, Xiang Lan, Daniel J. Tan, Hairil Rizal Abdullah, Mengling Feng(参考訳) 近年,電子健康記録(EHR)に基づく医療介入期間の推定が臨床意思決定支援の申請において注目されている。 しかし、現在のモデルは構造化データに重点を置いており、非構造化のフリーテキストデータから情報を除外している。 そこで本稿では,医学的プロンプトの助けを借りた事前学習文エンコーダを用いて,関連するすべての臨床データモダリティ(連続的,分類的,二項的,自由テキスト的特徴)を調和言語潜在空間に投影する,言語拡張トランスフォーマーベースのフレームワークを提案する。 提案手法により,セルトランスコーダ内の異なるモーダル情報の統合が可能となり,医療介入の持続時間の推定精度が向上する。 icu推定期間)とアジア(サージカル持続時間予測)の2つの医療データセットを用いた実験結果から,本手法の有効性を実証し,eersにおけるデータ破損に対するロバスト性を示す。

In recent years, estimating the duration of medical intervention based on electronic health records (EHRs) has gained significant attention in the filed of clinical decision support. However, current models largely focus on structured data, leaving out information from the unstructured clinical free-text data. To address this, we present a novel language-enhanced transformer-based framework, which projects all relevant clinical data modalities (continuous, categorical, binary, and free-text features) into a harmonized language latent space using a pre-trained sentence encoder with the help of medical prompts. The proposed method enables the integration of information from different modalities within the cell transformer encoder and leads to more accurate duration estimation for medical intervention. Our experimental results on both US-based (length of stay in ICU estimation) and Asian (surgical duration prediction) medical datasets demonstrate the effectiveness of our proposed framework, which outperforms tailored baseline approaches and exhibits robustness to data corruption in EHRs.
翻訳日:2023-03-31 13:22:05 公開日:2023-03-30
# 超伝導ナノワイヤアレイを用いたGHz検出率と動的光子数分解能

GHz detection rates and dynamic photon-number resolution with superconducting nanowire arrays ( http://arxiv.org/abs/2303.17401v1 )

ライセンス: Link先を確認
Giovanni V. Resta, Lorenzo Stasi, Matthieu Perrenoud, Sylvain El-Khoury, Tiff Brydges, Rob Thew, Hugo Zbinden and F\'elix Bussi\`eres(参考訳) 超伝導ナノワイヤ単光子検出器(SNSPD)は、高い検出効率、低い暗カウント、高速回復時間により、いくつかの量子光学技術の実現を可能にしている。 しかし、線形光量子コンピューティング(LOQC)や準決定論的単一光子源、量子リピータといった技術が広く使われるためには、異なる光子数状態を区別できるより高速な検出器が必要である。 本稿では,14個の独立画素からなるSNSPDアレイを作製し,通信帯域の90%のシステム検出効率(SDE)を実現する。 アレイの各ピクセルを独立に読み取ることで、検出器は1.5GHzの光子を45%のSDEで検出できることを示す。 いくつかのキャビティベースソースで一般的に得られるように、長波長光パルスを含む幅広い光入力に対する異なる光子数統計量の正確な状態再構成を示すために、アレイの動的PNRを利用する。 2光子および3光子密度はそれぞれ74%,57%であり,繊維結合型SNSPDの最先端結果を示す。

Superconducting-nanowire single-photon detectors (SNSPDs) have enabled the realization of several quantum optics technologies thanks to their high detection efficiency, low dark-counts, and fast recovery time. However, the widespread use of technologies such as linear optical quantum computing (LOQC), quasi-deterministic single photon sources and quantum repeaters requires faster detectors that can distinguish between different photon number states. Here, we report the fabrication of an SNSPD array composed of 14 independent pixels, achieving a system detection efficiency (SDE) of 90% in the telecom band. By reading each pixel of the array independently we show that the detector can detect telecom photons at 1.5 GHz with 45% absolute SDE. We exploit the dynamic PNR of the array to demonstrate accurate state reconstruction for different photon-number statistics for a wide range of light inputs, including operation with long-duration light pulses, as commonly obtained with some cavity-based sources. We show 2-photon and 3-photon fidelities of 74% and 57% respectively, which represent state-of-the-art results for fiber-coupled SNSPDs.
翻訳日:2023-03-31 13:21:42 公開日:2023-03-30
# ゼータ計算

The Zeta Calculus ( http://arxiv.org/abs/2303.17399v1 )

ライセンス: Link先を確認
Nicklas Bot\"o, Fabian Forslund(参考訳) 我々は$\lambda$-calculus を一般化した量子プログラミング言語を提案する。 この言語は非線形であり、重複変数は量子データのクローニングではなく、量子ビットの状態を共有することを意味する。 言語には、ZベースとXベースに対応する2つの抽象演算子、$\zeta$と$\xi$があり、各抽象演算子は位相によってパラメータ化され、共有される前に入力に適用される回転を示す。 ZX-計算における言語の意味を与え、その方程式理論の音を証明する。 この言語が量子世界における高次関数のよい表現を提供する方法を示す。

We propose a quantum programming language that generalizes the $\lambda$-calculus. The language is non-linear; duplicated variables denote, not cloning of quantum data, but sharing a qubit's state; that is, producing an entangled pair of qubits whose amplitudes are identical with respect to a chosen basis. The language has two abstraction operators, $\zeta$ and $\xi$, corresponding to the Z- and X-bases; each abstraction operator is also parameterised by a phase, indicating a rotation that is applied to the input before it is shared. We give semantics for the language in the ZX-calculus and prove its equational theory sound. We show how this language can provide a good representation of higher-order functions in the quantum world.
翻訳日:2023-03-31 13:21:22 公開日:2023-03-30
# オフライン強化学習からの微調整:課題,トレードオフ,実践的解決

Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs and Practical Solutions ( http://arxiv.org/abs/2303.17396v1 )

ライセンス: Link先を確認
Yicheng Luo, Jackie Kay, Edward Grefenstette, Marc Peter Deisenroth(参考訳) オフライン強化学習(rl)は、環境とのインタラクションなしにオフラインデータセットから有能なエージェントのトレーニングを可能にする。 このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。 しかし、オフラインのRLトレーニングから得られるエージェントをどのように微調整するか? オフラインのRLアルゴリズムは原則として微調整に使用できるが、実際にはオンラインのパフォーマンスは徐々に改善されている。 対照的に、標準的なオンラインのオフラインアルゴリズムを高速な改善に利用できることを示す。 しかし,この手法は,初期のオンライン学習において,重大なパフォーマンス劣化を招いた政策崩壊に悩まされる可能性がある。 本稿では,政策崩壊の問題とデータ多様性,アルゴリズム選択,オンラインリプレイ分布との関連について検討する。 これらの知見に基づき、オフライン事前学習から安定的でサンプル効率の高いオンライン学習を実現するための保守的なポリシー最適化手法を提案する。

Offline reinforcement learning (RL) allows for the training of competent agents from offline datasets without any interaction with the environment. Online finetuning of such offline models can further improve performance. But how should we ideally finetune agents obtained from offline RL training? While offline RL algorithms can in principle be used for finetuning, in practice, their online performance improves slowly. In contrast, we show that it is possible to use standard online off-policy algorithms for faster improvement. However, we find this approach may suffer from policy collapse, where the policy undergoes severe performance deterioration during initial online learning. We investigate the issue of policy collapse and how it relates to data diversity, algorithm choices and online replay distribution. Based on these insights, we propose a conservative policy optimization procedure that can achieve stable and sample-efficient online learning from offline pretraining.
翻訳日:2023-03-31 13:21:10 公開日:2023-03-30
# WavCaps:マルチモーダル研究のためのチャットGPT支援弱ラベルオーディオキャプションデータセット

WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research ( http://arxiv.org/abs/2303.17395v1 )

ライセンス: Link先を確認
Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi Zhao, Mark D. Plumbley, Yuexian Zou and Wenwu Wang(参考訳) 近年,音声言語(AL)マルチモーダル学習タスクの進歩が注目されている。 しかし、研究者は、サイズが限られている既存のオーディオ言語データセットのコストと時間を要する収集プロセスによって、課題に直面している。 このデータ不足問題に対処するため,約400kの音声クリップとペア字幕を含む,大規模な音声キャプションデータセットであるWavCapsを紹介した。 我々は,Webソースと音声イベント検出データセットから音声クリップとその生記述を抽出した。 しかし、オンライン・ハーヴェスティングされた生の記述は非常にうるさく、自動音声キャプションなどのタスクで直接使うには不向きである。 この問題を解決するために,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成する3段階処理パイプラインを提案する。 wavcapsデータセットの特性の包括的解析を行い、複数の下流の音声言語マルチモーダル学習タスクで評価する。 WavCapsで訓練されたシステムは、従来型のSOTA(State-of-the-art)モデルを上回った。 音声言語マルチモーダル学習の促進と学術研究の強化にchatgptを活用する可能性を示すために提案するwavcapsデータセットに対する願望である。 私たちのデータセットとコードはhttps://github.com/xinhaomei/wavcapsで利用可能です。

The advancement of audio-language (AL) multimodal learning tasks has been significant in recent years. However, researchers face challenges due to the costly and time-consuming collection process of existing audio-language datasets, which are limited in size. To address this data scarcity issue, we introduce WavCaps, the first large-scale weakly-labelled audio captioning dataset, comprising approximately 400k audio clips with paired captions. We sourced audio clips and their raw descriptions from web sources and a sound event detection dataset. However, the online-harvested raw descriptions are highly noisy and unsuitable for direct use in tasks such as automated audio captioning. To overcome this issue, we propose a three-stage processing pipeline for filtering noisy data and generating high-quality captions, where ChatGPT, a large language model, is leveraged to filter and transform raw descriptions automatically. We conduct a comprehensive analysis of the characteristics of WavCaps dataset and evaluate it on multiple downstream audio-language multimodal learning tasks. The systems trained on WavCaps outperform previous state-of-the-art (SOTA) models by a significant margin. Our aspiration is for the WavCaps dataset we have proposed to facilitate research in audio-language multimodal learning and demonstrate the potential of utilizing ChatGPT to enhance academic research. Our dataset and codes are available at https://github.com/XinhaoMei/WavCaps.
翻訳日:2023-03-31 13:20:56 公開日:2023-03-30
# 一般化カテゴリー発見のための動的概念コントラスト学習

Dynamic Conceptional Contrastive Learning for Generalized Category Discovery ( http://arxiv.org/abs/2303.17393v1 )

ライセンス: Link先を確認
Nan Pu, Zhun Zhong and Nicu Sebe(参考訳) 一般化されたカテゴリディスカバリ(gcd)は、最近提案されたオープンワールドの問題である。 主な課題は、ラベルのないデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリからのインスタンスが含まれていることだ。 これは、ラベルなしデータが新規なカテゴリからのみ存在するという前提から、従来の新しいカテゴリ発見(NCD)手法をGCDでは不可能にしている。 GCDの効果的な方法は、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。 しかし、この方法は、同じ概念(クラス、スーパークラス、サブクラスなど)のインスタンス間の基礎的な関係をほとんど無視しているため、表現学習は劣る。 本稿では,基礎となる視覚概念と学習概念表現を交互に推定することにより,クラスタリング精度を効果的に向上できる動的概念コントラスト学習(dccl)フレームワークを提案する。 さらに,一貫した概念学習を実現し,dcclの最適化をさらに促進できる動的概念生成・更新機構の設計を行った。 大規模な実験により、DCCLは6つのジェネリックかつきめ細かな視覚認識データセット、特にきめ細かいデータセットに対して、最先端のパフォーマンスを達成している。 例えば、我々の手法は、CUB-200データセットの新しいクラスで16.2%の競合をはるかに上回っている。 コードはhttps://github.com/TPCD/DCCLで入手できる。

Generalized category discovery (GCD) is a recently proposed open-world problem, which aims to automatically cluster partially labeled data. The main challenge is that the unlabeled data contain instances that are not only from known categories of the labeled data but also from novel categories. This leads traditional novel category discovery (NCD) methods to be incapacitated for GCD, due to their assumption of unlabeled data are only from novel categories. One effective way for GCD is applying self-supervised learning to learn discriminate representation for unlabeled data. However, this manner largely ignores underlying relationships between instances of the same concepts (e.g., class, super-class, and sub-class), which results in inferior representation learning. In this paper, we propose a Dynamic Conceptional Contrastive Learning (DCCL) framework, which can effectively improve clustering accuracy by alternately estimating underlying visual conceptions and learning conceptional representation. In addition, we design a dynamic conception generation and update mechanism, which is able to ensure consistent conception learning and thus further facilitate the optimization of DCCL. Extensive experiments show that DCCL achieves new state-of-the-art performances on six generic and fine-grained visual recognition datasets, especially on fine-grained ones. For example, our method significantly surpasses the best competitor by 16.2% on the new classes for the CUB-200 dataset. Code is available at https://github.com/TPCD/DCCL.
翻訳日:2023-03-31 13:20:32 公開日:2023-03-30
# 競合学習技術を用いた説明可能な侵入検知システム

Explainable Intrusion Detection Systems Using Competitive Learning Techniques ( http://arxiv.org/abs/2303.17387v1 )

ライセンス: Link先を確認
Jesse Ables, Thomas Kirby, Sudip Mittal, Ioana Banicescu, Shahram Rahimi, William Anderson, Maria Seale(参考訳) 人工知能(AI)の最先端技術は、様々なブラックボックス手法を用いて侵入検知を可能にした。 これらのブラックボックスメソッドは一般に、正確なモデルの作成にフォーカスしたエラーベース学習(ebl)技術を使って訓練される。 これらのモデルは高い性能コストを持ち、容易に説明できない。 The white box Competitive Learning (CL) based eXplainable Intrusion Detection System (X-IDS)はこれらの問題に対する潜在的な解決策を提供する。 CLモデルはEBLアプローチとは全く異なる学習パラダイムを利用する。 この異なる学習プロセスにより、CLファミリーのアルゴリズムは本質的に説明可能であり、リソースの集中度は低い。 本稿では,DARPAが推奨する説明可能なシステムに基づくX-IDSアーキテクチャを提案する。 私たちのアーキテクチャでは、自己組織化マップ(som)、成長自己組織マップ(gsom)、成長階層自己組織化マップ(ghsom)といったclアルゴリズムを活用しています。 得られたモデルはデータマイニングされ、統計的および視覚的な説明が作成される。 我々のアーキテクチャはNSL-KDDとCIC-IDS-2017ベンチマークデータセットを用いてテストされ、EBLモデルよりも1% - 3%低い精度で生成する。 しかし、CLモデルはEBLモデルよりもずっと説明しやすい。 さらに、これらのclベースモデルのサイズを大幅に削減できるpruningプロセスも使用しています。 モデルを刈ることで、予測速度を向上できるのです。 最後に、我々は、アーキテクチャによって生成された統計的および視覚的な説明を分析し、ユーザが一連の説明をナビゲートするのに使用できる戦略を与える。 これらの説明は、ユーザがIDS(Intrusion Detection System)を使って信頼を構築するのに役立つ。

The current state of the art systems in Artificial Intelligence (AI) enabled intrusion detection use a variety of black box methods. These black box methods are generally trained using Error Based Learning (EBL) techniques with a focus on creating accurate models. These models have high performative costs and are not easily explainable. A white box Competitive Learning (CL) based eXplainable Intrusion Detection System (X-IDS) offers a potential solution to these problem. CL models utilize an entirely different learning paradigm than EBL approaches. This different learning process makes the CL family of algorithms innately explainable and less resource intensive. In this paper, we create an X-IDS architecture that is based on DARPA's recommendation for explainable systems. In our architecture we leverage CL algorithms like, Self Organizing Maps (SOM), Growing Self Organizing Maps (GSOM), and Growing Hierarchical Self Organizing Map (GHSOM). The resulting models can be data-mined to create statistical and visual explanations. Our architecture is tested using NSL-KDD and CIC-IDS-2017 benchmark datasets, and produces accuracies that are 1% - 3% less than EBL models. However, CL models are much more explainable than EBL models. Additionally, we use a pruning process that is able to significantly reduce the size of these CL based models. By pruning our models, we are able to increase prediction speeds. Lastly, we analyze the statistical and visual explanations generated by our architecture, and we give a strategy that users could use to help navigate the set of explanations. These explanations will help users build trust with an Intrusion Detection System (IDS), and allow users to discover ways to increase the IDS's potency.
翻訳日:2023-03-31 13:20:06 公開日:2023-03-30
# RGB熱セマンティックセマンティックセグメンテーションのための補間ランダムマスキング

Complementary Random Masking for RGB-Thermal Semantic Segmentation ( http://arxiv.org/abs/2303.17386v1 )

ライセンス: Link先を確認
Ukcheol Shin, Kyunghyun Lee, In So Kweon(参考訳) rgb-サーマルセマンティクスセグメンテーションは、悪天候や照明条件において、信頼できるセマンティクスシーン理解を実現する潜在的な解決策の1つである。 しかし,従来の研究は主に,マルチモーダルな入力の性質を考慮せずに,マルチモーダルな融合モジュールの設計に重点を置いている。 したがって、ネットワークは単一のモダリティに過剰依存し易くなり、各モダリティに対する相補的かつ有意義な表現を学ぶことが困難になる。 本稿では, 1)RGB-T画像と相補的ランダムマスキング戦略 2) クリーンとマスキング入力の自己蒸留損失 提案したマスキング戦略は,単一モードにおける過度信頼を防ぐ。 また、1つのモダリティが部分的に利用可能である場合でも、ネットワークにオブジェクトの分割と分類を強制することで、ニューラルネットワークの精度と堅牢性も向上する。 また, 自己蒸留損失は, ネットワークに対して, 相補的かつ有意義な表現を単一モダリティまたは相補的マスク様相から抽出することを促す。 提案手法に基づき、3つのrgb-tセマンティクスセグメンテーションベンチマークにおいて最先端の性能を実現する。 ソースコードはhttps://github.com/ukcheolshin/crm_rgbtsegで入手できます。

RGB-thermal semantic segmentation is one potential solution to achieve reliable semantic scene understanding in adverse weather and lighting conditions. However, the previous studies mostly focus on designing a multi-modal fusion module without consideration of the nature of multi-modality inputs. Therefore, the networks easily become over-reliant on a single modality, making it difficult to learn complementary and meaningful representations for each modality. This paper proposes 1) a complementary random masking strategy of RGB-T images and 2) self-distillation loss between clean and masked input modalities. The proposed masking strategy prevents over-reliance on a single modality. It also improves the accuracy and robustness of the neural network by forcing the network to segment and classify objects even when one modality is partially available. Also, the proposed self-distillation loss encourages the network to extract complementary and meaningful representations from a single modality or complementary masked modalities. Based on the proposed method, we achieve state-of-the-art performance over three RGB-T semantic segmentation benchmarks. Our source code is available at https://github.com/UkcheolShin/CRM_RGBTSeg.
翻訳日:2023-03-31 13:19:37 公開日:2023-03-30
# 任意回転に対するフォールトトレラント非クリフォード状態準備

Fault Tolerant Non-Clifford State Preparation for Arbitrary Rotations ( http://arxiv.org/abs/2303.17380v1 )

ライセンス: Link先を確認
Hyeongrak Choi, Frederic T. Chong, Dirk Englund, Yongshan Ding(参考訳) 量子誤差補正は、ノイズ量子ハードウェア上での実用的な量子コンピューティングに不可欠なコンポーネントである。 しかし、誤り訂正量子ビット上の論理演算は、特に高精度で高忠実な非クリフォード回転ゲートに対して、重要なリソースオーバーヘッドを必要とする。 そこで,本稿では,ゲートテレポーテーションのための資源状態を効率的に作成するためのポストセレクションに基づくアルゴリズムを提案する。 本アルゴリズムは, 符号距離による論理誤差の指数的抑制を実証し, 耐故障性を実現し, 安定化符号に適用する。 アルゴリズムの忠実性と成功確率の解析的導出と数値シミュレーションを提供する。 提案手法を表面コードでベンチマークし, 既存の手法と比較して, 時空オーバーヘッドが100~10,000削減できることを示した。 全体として,本手法は,誤り訂正型および雑音型中間スケール量子コンピュータにおける量子アルゴリズムのリソース要求を削減するための有望な経路を示す。

Quantum error correction is an essential component for practical quantum computing on noisy quantum hardware. However, logical operations on error-corrected qubits require a significant resource overhead, especially for high-precision and high-fidelity non-Clifford rotation gates. To address this issue, we propose a postselection-based algorithm to efficiently prepare resource states for gate teleportation. Our algorithm achieves fault tolerance, demonstrating the exponential suppression of logical errors with code distance, and it applies to any stabilizer codes. We provide analytical derivations and numerical simulations of the fidelity and success probability of the algorithm. We benchmark the method on surface code and show a factor of 100 to 10,000 reduction in space-time overhead compared to existing methods. Overall, our approach presents a promising path to reducing the resource requirement for quantum algorithms on error-corrected and noisy intermediate-scale quantum computers.
翻訳日:2023-03-31 13:19:17 公開日:2023-03-30
# コンピュータビジョンにおけるマルチタスクのための自己回帰デコーダの検討

A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision ( http://arxiv.org/abs/2303.17376v1 )

ライセンス: Link先を確認
Lucas Beyer, Bo Wan, Gagan Madan, Filip Pavetic, Andreas Steiner, Alexander Kolesnikov, Andr\'e Susano Pinto, Emanuele Bugliarello, Xiao Wang, Qihang Yu, Liang-Chieh Chen, Xiaohua Zhai(参考訳) 多くのタスクを実行し、イメージエンコーダ(通常vit)と自己回帰デコーダ(通常トランスフォーマ)で構成されるコンピュータビジョンモデルが最近爆発している。 しかし、この作品のほとんどは単に一つのシステムとその結果を示し、そのようなシステムの設計決定とトレードオフに関する多くの疑問を残している。 本研究では,このような回答を提供することを目標としている。 マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて,分類,キャプション,視覚的質問応答,光学的文字認識などについて詳しく検討する。 本研究では,タスクとデータの混合,トレーニングと正規化ハイパーパラメータ,コンディショニングタイプと特異性,モダリティの組み合わせなどについて実験を行った。 重要なことは、これらをよく調整されたシングルタスクベースラインと比較し、マルチタスクによって生じるコストを強調することである。 鍵となる発見は、凍結したプリトレーニングエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることだ。 私たちはこの設定をデコーダ(LiT-decoder)でロックイメージチューニングと呼ぶ。 デコーダに自然言語で事前訓練された視覚モデルと対話するように教えているように見える。

There has been a recent explosion of computer vision models which perform many tasks and are composed of an image encoder (usually a ViT) and an autoregressive decoder (usually a Transformer). However, most of this work simply presents one system and its results, leaving many questions regarding design decisions and trade-offs of such systems unanswered. In this work, we aim to provide such answers. We take a close look at autoregressive decoders for multi-task learning in multimodal computer vision, including classification, captioning, visual question answering, and optical character recognition. Through extensive systematic experiments, we study the effects of task and data mixture, training and regularization hyperparameters, conditioning type and specificity, modality combination, and more. Importantly, we compare these to well-tuned single-task baselines to highlight the cost incurred by multi-tasking. A key finding is that a small decoder learned on top of a frozen pretrained encoder works surprisingly well. We call this setup locked-image tuning with decoder (LiT-decoder). It can be seen as teaching a decoder to interact with a pretrained vision model via natural language.
翻訳日:2023-03-31 13:19:01 公開日:2023-03-30
# 変分高次元テンソルネットワークの理論

Theory on variational high-dimensional tensor networks ( http://arxiv.org/abs/2303.17452v1 )

ライセンス: Link先を確認
Zidu Liu, Qi Ye, Li-Wei Yu, L.-M. Duan, and Dong-Ling Deng(参考訳) テンソルネットワーク法は量子多体系を研究するための強力なツールである。 本稿では,乱数高次元テンソルネットワーク状態の創発的統計特性と変分テンソルネットワークのトレーサビリティについて検討する。 図式的手法を用いて問題を特殊構造を持つ高次元イジングモデルに対して異なる分割関数の計算にマッピングする。 これらのモデルのクラックの悪名高い難しさに対処するために、我々は ‘puzzle of polyominoes' の解法に基づく組合せ法を開発した。 この方法では,高次元テンソルネットワークモデルが大域的損失関数のバレンプラトー(指数関数的に消失する勾配)に苦しむことを厳密に証明でき,その訓練過程は一般に非効率的である。 一方,局所損失関数では,勾配が系の大きさに依存しないことが証明される(不毛高原は発生しない)が,局所観測可能な領域と微分パラメータを持つ場所との間の距離で指数関数的に崩壊する。 この結果は, 変動型高次元テンソルネットワークの基本特性を厳密な方法で明らかにし, 将来の理論的研究と実用化の道を開いた。

Tensor network methods are powerful tools for studying quantum many-body systems. In this paper, we investigate the emergent statistical properties of random high-dimensional tensor-network states and the trainability of variational tensor networks. We utilize diagrammatic methods and map our problems to the calculations of different partition functions for high-dimensional Ising models with special structures. To address the notorious difficulty in cracking these models, we develop a combinatorial method based on solving the ``puzzle of polyominoes". With this method, we are able to rigorously prove that the high-dimensional tensor network models suffer from barren plateaus (i.e., exponentially vanishing gradients) for global loss functions, rendering their training processes inefficient in general. Whereas, for local loss functions, we prove that the gradient is independent of the system size (thus no barren plateau occurs), but decays exponentially with the distance between the region where the local observable acts and the site that hosts the derivative parameter. Our results uncover in a rigorous fashion some fundamental properties for variational high-dimensional tensor networks, which paves a way for their future theoretical studies and practical applications.
翻訳日:2023-03-31 13:12:27 公開日:2023-03-30
# NN-Copula-CD:異種リモートセンシング画像における変化検出のためのコプラ誘導型解釈型ニューラルネットワーク

NN-Copula-CD: A Copula-Guided Interpretable Neural Network for Change Detection in Heterogeneous Remote Sensing Images ( http://arxiv.org/abs/2303.17448v1 )

ライセンス: Link先を確認
Weiming Li, Xueqian Wang, Gang Li(参考訳) 異種リモートセンシング画像における変化検出(cd)は,実生活の緊急時において実用的で困難な課題である。 過去10年間で、異種CD問題はディープニューラルネットワーク(DNN)の開発から大きな恩恵を受けている。 しかし、データ駆動型DNNは、ほとんどの実用的なCDアプリケーションにおいて、解釈可能性の欠如によってDNNの信頼性と制御性が制限されるブラックボックスのように常に機能する。 確率変数間の相関を測る強力な知識駆動ツールとして、Copula理論はCDに導入されたが、Copula関数を手動で選択することなく、非破壊CDのパフォーマンスに悩まされている。 本稿では,コプラ誘導型解釈可能なニューラルネットワークに基づく知識データ駆動不均質cd法(nn-copula-cd)を提案する。 NN-Copula-CDでは,両時間画像パッチ間の相関関係を学習するために,単純な完全連結ニューラルネットワークを監督する損失としてCopulaの数学的特性を設計し,両時間画像のすべての画像パッチペアの相関係数のバイナリ分類により,変化領域を同定する。 提案するNN-Copula-CDの有効性と解釈性の両方を定量的に検証し,マルチモーダル画像(光, SAR, NIR)を用いた3つのデータセットの詳細な実験を行った。

Change detection (CD) in heterogeneous remote sensing images is a practical and challenging issue for real-life emergencies. In the past decade, the heterogeneous CD problem has significantly benefited from the development of deep neural networks (DNN). However, the data-driven DNNs always perform like a black box where the lack of interpretability limits the trustworthiness and controllability of DNNs in most practical CD applications. As a strong knowledge-driven tool to measure correlation between random variables, Copula theory has been introduced into CD, yet it suffers from non-robust CD performance without manual prior selection for Copula functions. To address the above issues, we propose a knowledge-data-driven heterogeneous CD method (NN-Copula-CD) based on the Copula-guided interpretable neural network. In our NN-Copula-CD, the mathematical characteristics of Copula are designed as the losses to supervise a simple fully connected neural network to learn the correlation between bi-temporal image patches, and then the changed regions are identified via binary classification for the correlation coefficients of all image patch pairs of the bi-temporal images. We conduct in-depth experiments on three datasets with multimodal images (e.g., Optical, SAR, and NIR), where the quantitative results and visualized analysis demonstrate both the effectiveness and interpretability of the proposed NN-Copula-CD.
翻訳日:2023-03-31 13:12:06 公開日:2023-03-30
# 多様性のためにセックスは必要なだけ

All You Need Is Sex for Diversity ( http://arxiv.org/abs/2303.17441v1 )

ライセンス: Link先を確認
Jos\'e Maria Sim\~oes, Nuno Louren\c{c}o, Penousal Machado(参考訳) 早期収束を避ける手段としての遺伝的多様性の維持は、遺伝的プログラミングにおいて不可欠である。 これを達成するためにいくつかのアプローチが提案されており、異質な解の結合から何らかの自己適応的選択機構への結合段階に焦点を当てているものもある。 自然界では、遺伝的多様性は様々な要因の結果として生じるが、生殖性の選択を考えると、種内の多様性の促進に影響を及ぼす可能性がある。 特に、配偶者の選択は、しばしば性別間で異なる選択的な圧力を生じさせ、それによって配偶者間の進化的差異が引き起こされる。 性選択のメカニズムは過去にも遺伝子プログラミングに応用されてきたが、交尾選択に関しての文献は乏しい。 近年,理想行列表現による選好をモデル化する方法が提案され,標準手法と比較して良好な結果が得られた。 これらの交配嗜好は自己適応的な方法で自由に進化し、フィットネス圧力とともに自身の進化的な駆動力を生み出す。 このアプローチの内部メカニズムは、個人が選択する配偶者に影響を与える完全な配偶者の独自の表現を持つため、個人の選択から作用する。 本稿では,この手法をランダムな仲間選択と比較し,個人の嗜好を進化させる利点があるかを評価する。 3つのシンボリック回帰問題と異なる突然変異率を用いて実験を行った。 その結果,従来の手法とランダム・メイト・アプローチ(統計的に有意な差がある)と比較して,自己適応的交配選好はより多様なソリューションを創出することができ,テストされた6つのインスタンスのうち3つにおいて高い成功率を持つことがわかった。

Maintaining genetic diversity as a means to avoid premature convergence is critical in Genetic Programming. Several approaches have been proposed to achieve this, with some focusing on the mating phase from coupling dissimilar solutions to some form of self-adaptive selection mechanism. In nature, genetic diversity can be the consequence of many different factors, but when considering reproduction Sexual Selection can have an impact on promoting variety within a species. Specifically, Mate Choice often results in different selective pressures between sexes, which in turn may trigger evolutionary differences among them. Although some mechanisms of Sexual Selection have been applied to Genetic Programming in the past, the literature is scarce when it comes to mate choice. Recently, a way of modelling mating preferences by ideal mate representations was proposed, achieving good results when compared to a standard approach. These mating preferences evolve freely in a self-adaptive fashion, creating an evolutionary driving force of its own alongside fitness pressure. The inner mechanisms of this approach operate from personal choice, as each individual has its own representation of a perfect mate which affects the mate to be selected. In this paper, we compare this method against a random mate choice to assess whether there are advantages in evolving personal preferences. We conducted experiments using three symbolic regression problems and different mutation rates. The results show that self-adaptive mating preferences are able to create a more diverse set of solutions when compared to the traditional approach and a random mate approach (with statistically significant differences) and have a higher success rate in three of the six instances tested.
翻訳日:2023-03-31 13:11:37 公開日:2023-03-30
# 低温自発パラメトリックダウンコンバージョン源からの退化光子

Degenerate Photons from a Cryogenic Spontaneous Parametric Down-Conversion Source ( http://arxiv.org/abs/2303.17428v1 )

ライセンス: Link先を確認
Nina Amelie Lange, Timon Schapeler, Jan Philipp H\"opker, Maximilian Protte, Tim J. Bartley(参考訳) 低温下でのニオブ酸リチウム中のチタン不拡散導波路の自然パラメトリックダウンコンバージョンによる退化光子対の生成を実証した。 位相マッチングはクライオスタット内部では温度調整できないため、固定されたポーリング周期を作る際に屈折率の正確な経験モデルに依存する。 周期型ポーリングの位相整合特性を設計し, 信号およびアイドラー光子を (1559.3 $\pm$ 0.6) nm で実現し, 香港・ウー・マンデル干渉測定により光子の識別不可能性を特徴づけた。 位相整合を局所的に変化させることができる光屈折と熱電率の影響にもかかわらず、設計波長は1.5nm以内で低温の未分化光子が得られる。 その結果, 準相整合非線形光学過程と超伝導検出器などの他の低温フォトニック量子技術を組み合わせた場合, 極低温非線形過程の十分な理解と制御が得られた。

We demonstrate the generation of degenerate photon pairs from spontaneous parametric down-conversion in titanium in-diffused waveguides in lithium niobate at cryogenic temperatures. Since the phase-matching cannot be temperature tuned inside a cryostat, we rely on a precise empirical model of the refractive indices when fabricating a fixed poling period. We design the phase-matching properties of our periodic poling to enable signal and idler photons at (1559.3 $\pm$ 0.6) nm, and characterize the indistinguishability of our photons by performing a Hong-Ou-Mandel interference measurement. Despite the effects of photorefraction and pyroelectricity, which can locally alter the phase-matching, we achieve cryogenic indistinguishable photons within 1.5 nm to our design wavelength. Our results verify sufficient understanding and control of the cryogenic nonlinear process, which has wider implications when combining quasi-phase-matched nonlinear optical processes with other cryogenic photonic quantum technologies, such as superconducting detectors.
翻訳日:2023-03-31 13:11:10 公開日:2023-03-30
# k=2 Bernstein-Vazirani アルゴリズムの同型化

Homomorphic Encription of the k=2 Bernstein-Vazirani Algorithm ( http://arxiv.org/abs/2303.17426v1 )

ライセンス: Link先を確認
Pablo Fern\'andez, Miguel A. Martin-Delgado(参考訳) 非帰納的ベルンシュタイン・ヴァジランニアルゴリズムは、対応する最良の古典的アルゴリズムに対して超多項的改善を示す最初の量子アルゴリズムである。 ここでは、この問題を第二レベルの再帰に対して解決する回路のクラスを定義する。 この回路のクラスは、問題のキュービット数と線形に成長させることで、オラクルを構成するのに必要なゲートの数$T$を単純化する。 代入量子計算に有用な重要な暗号技術である量子同相暗号(QHE)へのこの方式の適用を見出した。 これにより、リモートサーバは暗号化された量子データ上で量子計算を実行でき、サーバはクライアントのデータについて何も知ることができない。 リーアンは完全なセキュリティを持つQHEスキームを開発し、$\mathcal{F}$-ホモモルフィズム、サーバとクライアント間の相互作用がなく、準コンパクト性は$O(M)$で制限され、Mは回路内のゲートの数$T$である。 これらのスキームは、多項式数のゲート数$T/T^{\dagger}$の回路に適している。 これらのスキームに従い、我々が構築した単純化された回路は、効率的な方法で準同型に評価することができる。

The nonrecursive Bernstein-Vazirani algorithm was the first quantum algorithm to show a superpolynomial improvement over the corresponding best classical algorithm. Here we define a class of circuits that solve a particular case of this problem for second-level recursion. This class of circuits simplifies the number of gates $T$ required to construct the oracle by making it grow linearly with the number of qubits in the problem. We find an application of this scheme to quantum homomorphic encryption (QHE) which is an important cryptographic technology useful for delegated quantum computation. It allows a remote server to perform quantum computations on encrypted quantum data, so that the server cannot know anything about the client's data. Liang developed QHE schemes with perfect security, $\mathcal{F}$-homomorphism, no interaction between server and client, and quasi-compactness bounded by $O(M)$ where M is the number of gates $T$ in the circuit. Precisely these schemes are suitable for circuits with a polynomial number of gates $T/T^{\dagger}$. Following these schemes, the simplified circuits we have constructed can be evaluated homomorphically in an efficient way.
翻訳日:2023-03-31 13:10:51 公開日:2023-03-30
# 遅延によるロバストなマルチエージェントピックアップとデリバリ

Robust Multi-Agent Pickup and Delivery with Delays ( http://arxiv.org/abs/2303.17422v1 )

ライセンス: Link先を確認
Giacomo Lodigiani, Nicola Basilico, Francesco Amigoni(参考訳) MAPD (Multi-Agent Pickup and Delivery) は、エージェントのグループにとって衝突のない経路を計算し、ピックアップの場所から安全に配送できる問題である。 これらの場所は実行時に提供され、MAPDは古典的マルチエージェントパスファインディング(MAPF)とオンラインタスク割り当てを組み合わせたものである。 現在のMAPDのアルゴリズムは、実際のアプリケーションで遭遇する現実的な問題の多くを考慮していない。 本稿では,遅延を伴うmapdの問題について検討し,不完全実行の影響を制限するプランニングパスによるロバスト性を保証する2つの手法を提案する。 特に, 2つのアルゴリズム, k-TP と p-TP を導入し,それぞれ決定論的および確率論的保証を提供するMAPD, Token Passing (TP) を解いた。 実験では,オンラインリプランニングに富んだtpとアルゴリズムを比較した。 k-TPとp-TPはロバストなソリューションを提供し、遅延によるリプランの数を大幅に削減し、ソリューションコストと実行時間はほとんどあるいは全く増加しない。

Multi-Agent Pickup and Delivery (MAPD) is the problem of computing collision-free paths for a group of agents such that they can safely reach delivery locations from pickup ones. These locations are provided at runtime, making MAPD a combination between classical Multi-Agent Path Finding (MAPF) and online task assignment. Current algorithms for MAPD do not consider many of the practical issues encountered in real applications: real agents often do not follow the planned paths perfectly, and may be subject to delays and failures. In this paper, we study the problem of MAPD with delays, and we present two solution approaches that provide robustness guarantees by planning paths that limit the effects of imperfect execution. In particular, we introduce two algorithms, k-TP and p-TP, both based on a decentralized algorithm typically used to solve MAPD, Token Passing (TP), which offer deterministic and probabilistic guarantees, respectively. Experimentally, we compare our algorithms against a version of TP enriched with online replanning. k-TP and p-TP provide robust solutions, significantly reducing the number of replans caused by delays, with little or no increase in solution cost and running time.
翻訳日:2023-03-31 13:10:31 公開日:2023-03-30
# 建築模型のテクスチャ欠陥修復のための意味的画像翻訳

Semantic Image Translation for Repairing the Texture Defects of Building Models ( http://arxiv.org/abs/2303.17418v1 )

ライセンス: Link先を確認
Qisen Shang, Han Hu, Haojia Yu, Bo Xu, Qing Zhu, Libin Wang(参考訳) 都市環境における3次元建築モデルの正確な表現は、テクスチャの閉塞、ぼやけ、詳細の欠如といった、標準的なフォトグラムテクスチャマッピングパイプラインによる緩和が難しい課題によって著しく妨げられている。 現在の画像補完法は、しばしば構造化結果の生成に苦慮し、高度に構造化されたfa\c{c}adeテクスチャの複雑な性質を多様なアーキテクチャスタイルで効果的に扱う。 さらに, 既存の画像合成法は, 現実的なfa\c{c}adeテクスチャ合成を実現するのに不可欠な, 高周波細部保存や人工規則構造保存の困難さに直面する。 これらの課題に対処するために、構造ラベルマップからアーキテクチャスタイルを忠実に反映したfa\c{c}adeテクスチャ画像の合成手法を提案する。 細部や規則構造を保存するために,周波数情報やコーナーマップを利用した正規性を考慮したマルチドメイン手法を提案する。 また、汎用的なスタイル転送を可能にするために、SEANブロックをジェネレータに組み込んでいます。 好ましくない領域を伴わずに, 妥当な構造化画像を生成するため, 画像補完技術を用いて, 画像推定に先立って, セマンティクスによるオクルージョン除去を行う。 また,既存のテクスチャを欠いたfa\c{c}adeの特定のスタイルでテクスチャ画像を合成し,手動のアノテートラベルを用いた。 公開されているfa\c{c}ade画像および3dモデルデータセットにおける実験結果から,本手法は優れた結果をもたらし,欠陥のあるテクスチャに関連する問題を効果的に解決できることが分かる。 コードとデータセットは、さらなる研究と開発のために公開されます。

The accurate representation of 3D building models in urban environments is significantly hindered by challenges such as texture occlusion, blurring, and missing details, which are difficult to mitigate through standard photogrammetric texture mapping pipelines. Current image completion methods often struggle to produce structured results and effectively handle the intricate nature of highly-structured fa\c{c}ade textures with diverse architectural styles. Furthermore, existing image synthesis methods encounter difficulties in preserving high-frequency details and artificial regular structures, which are essential for achieving realistic fa\c{c}ade texture synthesis. To address these challenges, we introduce a novel approach for synthesizing fa\c{c}ade texture images that authentically reflect the architectural style from a structured label map, guided by a ground-truth fa\c{c}ade image. In order to preserve fine details and regular structures, we propose a regularity-aware multi-domain method that capitalizes on frequency information and corner maps. We also incorporate SEAN blocks into our generator to enable versatile style transfer. To generate plausible structured images without undesirable regions, we employ image completion techniques to remove occlusions according to semantics prior to image inference. Our proposed method is also capable of synthesizing texture images with specific styles for fa\c{c}ades that lack pre-existing textures, using manually annotated labels. Experimental results on publicly available fa\c{c}ade image and 3D model datasets demonstrate that our method yields superior results and effectively addresses issues associated with flawed textures. The code and datasets will be made publicly available for further research and development.
翻訳日:2023-03-31 13:10:09 公開日:2023-03-30
# 曲がった時空を伝播する量子光子の重力赤方偏移入門

Introduction to gravitational redshift of quantum photons propagating in curved spacetime ( http://arxiv.org/abs/2303.17412v1 )

ライセンス: Link先を確認
Luis Adri\'an Alan\'is Rodr\'iguez, Andreas Wolfgang Schell and David Edward Bruschi(参考訳) 重力赤方偏移は、曲面時空で伝播する量子光子の文脈で議論される。 リアルな光子をモデル化する簡単な入門が提示され、光子のスペクトルに対する重力の影響は、主に伝播方向に閉じ込められている。 すると、鋭いモータを持つ光子作用素に対する赤方偏移誘起変換はユニタリではなく、有限帯域を持つ現実光子に対してユニタリ変換を構築することができる。 得られたユニタリ変換は多モード混合演算、すなわちヒルベルト空間基底の一般化回転として特徴づけられる。 最後に、これらの結果の応用について、量子通信プロトコルの性能、量子力学およびセンシングに対する効果の活用、および基礎科学のテストの可能性に焦点をあてて論じる。

Gravitational redshift is discussed in the context of quantum photons propagating in a curved spacetime. A brief introduction to modelling realistic photons is first presented and the effect of gravity on the spectrum computed for photons largely confined along the direction of propagation. It is then shown that redshift-induced transformations on photon operators with sharp momenta are not unitary, while a unitary transformation can be constructed for realistic photons with finite bandwidth. The unitary transformation obtained is then characterized as a multimode mixing operation, that is, a generalized rotation of the Hilbert-space basis. Finally, applications of these results are discussed with focus on performance of quantum communication protocols, exploitation of the effects for quantum metrology and sensing, as well as potential for tests of fundamental science.
翻訳日:2023-03-31 13:09:39 公開日:2023-03-30
# 局所的言語マッチングと領域バランスによる意味的セグメンテーションの排除

Removing supervision in semantic segmentation with local-global matching and area balancing ( http://arxiv.org/abs/2303.17410v1 )

ライセンス: Link先を確認
Simone Rossetti (1 and 2), Nico Sam\`a (1), Fiora Pirri (1 and 2) ((1) DeepPlants, (2) Diag Sapienza)(参考訳) セマンティクスセグメンテーションにおける監督の削除はまだ難しい。 現在のアプローチは、多段階アーキテクチャを頼りにしながら、共通のカテゴリパターンを扱うことができる。 我々は,局所的なパッチマッチングを利用した新しいエンドツーエンドモデルを設計し,セマンティックセグメンテーションのためのカテゴリ,優れたローカライゼーション,領域,形状を予測する。 局所的グローバルマッチングは、厳密な形状予測の解に近い領域制約を満たす最適な輸送計画によって強制される。 Weakly Supervised Semantic Segmentationでは画像レベルのラベルのみで,PascalVOC2012 valでは75% mIoU,MS-COCO2014 valでは46%の精度で最先端のセマンティックセグメンテーションを実現している。 画像レベルラベルをドロップし、自己教師付き学習特徴をクラスタリングして擬似マルチレベルラベルを生成し、セマンティックセグメンテーションのための教師なしモデルを得る。 また,PascalVOC2012 val では 43.6% mIoU ,MS-COCO2014 val では 19.4% で,教師なしセマンティックセマンティックセマンティックセマンティックセマンティクスの最先端を達成できた。 コードはhttps://github.com/deepplants/PC2Mで入手できる。

Removing supervision in semantic segmentation is still tricky. Current approaches can deal with common categorical patterns yet resort to multi-stage architectures. We design a novel end-to-end model leveraging local-global patch matching to predict categories, good localization, area and shape of objects for semantic segmentation. The local-global matching is, in turn, compelled by optimal transport plans fulfilling area constraints nearing a solution for exact shape prediction. Our model attains state-of-the-art in Weakly Supervised Semantic Segmentation, only image-level labels, with 75% mIoU on PascalVOC2012 val set and 46% on MS-COCO2014 val set. Dropping the image-level labels and clustering self-supervised learned features to yield pseudo-multi-level labels, we obtain an unsupervised model for semantic segmentation. We also attain state-of-the-art on Unsupervised Semantic Segmentation with 43.6% mIoU on PascalVOC2012 val set and 19.4% on MS-COCO2014 val set. The code is available at https://github.com/deepplants/PC2M.
翻訳日:2023-03-31 13:09:25 公開日:2023-03-30
# 強化学習に基づくレート適応アルゴリズムにおける計算遅延の解析について

On the Analysis of Computational Delays in Reinforcement Learning-based Rate Adaptation Algorithms ( http://arxiv.org/abs/2303.17477v1 )

ライセンス: Link先を確認
Ricardo Trancoso, Ruben Queiros, Helder Fontes, Rui Campos(参考訳) いくつかの研究は、Wi-Fiネットワークにおけるレート適応(RA)問題を解決するために強化学習(RL)アルゴリズムを適用している。 無線リンクの動的な性質は、リンク品質の変化に応答するアルゴリズムを必要とする。 アルゴリズムの実行の遅延はその性能を損なう可能性があるため、ネットワーク性能が低下する可能性がある。 この側面は、芸術の世界では見過ごされている。 本稿では,RLに基づくRAアルゴリズムにおける一般的な計算遅延の解析を行い,これらの計算遅延を低減し,このタイプのアルゴリズムの効率を向上させる手法を提案する。 提案手法を既存のRLに基づくRAアルゴリズムに適用する。 得られた実験結果は,アルゴリズムの実行時間の1桁の削減を示し,リンク品質変化に対する応答性を向上した。

Several research works have applied Reinforcement Learning (RL) algorithms to solve the Rate Adaptation (RA) problem in Wi-Fi networks. The dynamic nature of the radio link requires the algorithms to be responsive to changes in link quality. Delays in the execution of the algorithm may be detrimental to its performance, which in turn may decrease network performance. This aspect has been overlooked in the state of the art. In this paper, we present an analysis of common computational delays in RL-based RA algorithms, and propose a methodology that may be applied to reduce these computational delays and increase the efficiency of this type of algorithms. We apply the proposed methodology to an existing RL-based RA algorithm. The obtained experimental results indicate a reduction of one order of magnitude in the execution time of the algorithm, improving its responsiveness to link quality changes.
翻訳日:2023-03-31 13:02:09 公開日:2023-03-30
# 負サンプリングを超えた効率的な分散表現

Efficient distributed representations beyond negative sampling ( http://arxiv.org/abs/2303.17475v1 )

ライセンス: Link先を確認
Lorenzo Dall'Amico and Enrico Maria Belliardo(参考訳) 本稿では,分散表現を学習するための効率的な手法について述べる。 これはWord2Vecアルゴリズムで導入されたものと類似した目的関数を最小化し、後にいくつかの作品で採用された。 最適化計算のボトルネックは、サンプルサイズと2次にスケーリングする多数の演算を必要とするソフトマックス正規化定数の計算である。 この複雑さは大規模なデータセットには不適であり、負のサンプリングは一般的な回避策であり、サンプルサイズに関して線形時間で分散表現を得ることができる。 しかし、負のサンプリングは損失関数の変更に含まれるため、当初提案されたものと異なる最適化問題を解決する。 我々の貢献は、sotfmax正規化定数を線形時間で推定できることを示し、分散表現を学習するための効率的な最適化戦略を設計できることである。 単語とノードの埋め込みに関連する2つの一般的なアプリケーションで近似をテストします。 その結果, 計算時間が著しく低い負サンプリングに対して, 精度で競合する性能を実証した。

This article describes an efficient method to learn distributed representations, also known as embeddings. This is accomplished minimizing an objective function similar to the one introduced in the Word2Vec algorithm and later adopted in several works. The optimization computational bottleneck is the calculation of the softmax normalization constants for which a number of operations scaling quadratically with the sample size is required. This complexity is unsuited for large datasets and negative sampling is a popular workaround, allowing one to obtain distributed representations in linear time with respect to the sample size. Negative sampling consists, however, in a change of the loss function and hence solves a different optimization problem from the one originally proposed. Our contribution is to show that the sotfmax normalization constants can be estimated in linear time, allowing us to design an efficient optimization strategy to learn distributed representations. We test our approximation on two popular applications related to word and node embeddings. The results evidence competing performance in terms of accuracy with respect to negative sampling with a remarkably lower computational time.
翻訳日:2023-03-31 13:01:56 公開日:2023-03-30
# PoseFormerV2: 効率的でロバストな3次元人物位置推定のための周波数領域探索

PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose Estimation ( http://arxiv.org/abs/2303.17472v1 )

ライセンス: Link先を確認
Qitao Zhao, Ce Zheng, Mengyuan Liu, Pichao Wang, Chen Chen(参考訳) 近年,変圧器を用いた2次元から3次元の昇降姿勢推定手法が成功している。 先駆的な研究として、ポーズフォーマーは、各ビデオフレームにおける人間の関節の空間的関係と、カスケードトランスフォーマー層を持つフレーム間の人間のダイナミクスを捉え、印象的なパフォーマンスを達成している。 しかし、実際のシナリオでは、poseformerとそのフォローアップのパフォーマンスは2つの要因によって制限される。 (a)入力ジョイントシーケンスの長さ (b)2次元関節検出の品質。 既存の手法では、入力シーケンスの全てのフレームに自己アテンションを適用し、フレーム数を増加させて推定精度が向上したときの計算負荷を増大させ、2次元のジョイント検出器の能力の制限によって自然に生じる雑音に対して頑健ではない。 本稿では,周波数領域における長大な骨格配列のコンパクトな表現を活用し,受容野を効率的にスケールアップし,雑音2次元関節検出に対するロバスト性を高めるposeformerv2を提案する。 PoseFormerに最小限の変更を加えることで、提案手法は時間領域と周波数領域の両方の機能を効果的に融合させ、前駆体よりも高速なトレードオフを享受する。 2つのベンチマークデータセット(human3.6mとmpi-inf-3dhp)に関する広範囲な実験により、提案手法がオリジナルのポーズフォーマーや他のトランスフォーマティブベースの変種を大きく上回っていることが示されている。 コードは \url{https://github.com/QitaoZhao/PoseFormerV2} でリリースされる。

Recently, transformer-based methods have gained significant success in sequential 2D-to-3D lifting human pose estimation. As a pioneering work, PoseFormer captures spatial relations of human joints in each video frame and human dynamics across frames with cascaded transformer layers and has achieved impressive performance. However, in real scenarios, the performance of PoseFormer and its follow-ups is limited by two factors: (a) The length of the input joint sequence; (b) The quality of 2D joint detection. Existing methods typically apply self-attention to all frames of the input sequence, causing a huge computational burden when the frame number is increased to obtain advanced estimation accuracy, and they are not robust to noise naturally brought by the limited capability of 2D joint detectors. In this paper, we propose PoseFormerV2, which exploits a compact representation of lengthy skeleton sequences in the frequency domain to efficiently scale up the receptive field and boost robustness to noisy 2D joint detection. With minimum modifications to PoseFormer, the proposed method effectively fuses features both in the time domain and frequency domain, enjoying a better speed-accuracy trade-off than its precursor. Extensive experiments on two benchmark datasets (i.e., Human3.6M and MPI-INF-3DHP) demonstrate that the proposed approach significantly outperforms the original PoseFormer and other transformer-based variants. Code is released at \url{https://github.com/QitaoZhao/PoseFormerV2}.
翻訳日:2023-03-31 13:01:43 公開日:2023-03-30
# 競合するファンデルワールからの量子相とリドベルク原子の双極子-ジポール相互作用

Quantum Phases from Competing van der Waals and Dipole-Dipole Interactions of Rydberg Atoms ( http://arxiv.org/abs/2303.17470v1 )

ライセンス: Link先を確認
Zeki Zeybek, Rick Mukherjee, Peter Schmelcher(参考訳) 競合する短距離と長距離の相互作用は、複雑な量子多体相の形成の際立った要素である。 この点において、Rydberg原子は、その励起多様体が密度密度と交換相互作用の両方を持ち、強度と範囲がかなり異なることを約束している。 一次元系に着目して、ファンデルワールスとリドベルク原子の双極子-双極子相互作用を利用して、一様鎖と二量体モデルの零温度相図を得る。 一様鎖の場合、秩序相とラッティンガー液の境界に影響を与えることができるが、二元化の場合、新しいタイプのボンド次密度波位相が特定され、これら全ては、短距離および長距離相互作用を含む物理学の研究において、rydbergプラットフォームの拡張性を強調している。

Competing short- and long-range interactions represent distinguished ingredients for the formation of complex quantum many-body phases. In this regard, Rydberg atoms are promising as their excited manifold of states have both density-density and exchange interactions whose strength and range can vary considerably. Focusing on one-dimensional systems, we leverage the van der Waals and dipole-dipole interactions of the Rydberg atoms to obtain the zero-temperature phase diagram for a uniform chain and a dimer model. For the uniform chain, we can influence the boundaries between ordered phases and Luttinger liquid while for the dimerized case, a new type of bond-order-density-wave phase is identified, all of which highlights the versatility of the Rydberg platform in studying physics involving short- and long-ranged interactions simultaneously.
翻訳日:2023-03-31 13:01:15 公開日:2023-03-30
# シミュレーションに基づく軌道計画最適化のためのサーロゲートニューラルネットワーク

Surrogate Neural Networks for Efficient Simulation-based Trajectory Planning Optimization ( http://arxiv.org/abs/2303.17468v1 )

ライセンス: Link先を確認
Evelyn Ruff, Rebecca Russell, Matthew Stoeckle, Piero Miotto, and Jonathan P. How(参考訳) 本稿では,ニューラルネットワークによるサロゲートモデルを用いて,参照軌道のシミュレーションに基づく最適化の計算時間を短縮する手法を提案する。 シミュレーションに基づく最適化は、システムの分析形式が存在しない場合に必要であり、シミュレーションの代理モデルを作成するために使用できる入力出力データのみである。 多くの高忠実度シミュレーションと同様に、この軌道計画シミュレーションは非常に非線形で計算コストが高く、反復的に最適化することは困難である。 勾配降下最適化により, 極超音速車両の着陸に最適な基準軌道を求める。 先行文献でサロゲートモデルを作成するために使用される大規模データセットとは対照的に,勾配降下オプティマイザに必要なシミュレーション実行数を最小限に抑えるように設計されている。 我々は,この手法を,試行錯誤による入力のハンドチューニングや,ランダムにパラメータ空間をサンプリングする標準的な手法よりも効率的であることを示した。 シミュレーションに対して知的に選択された入力値により、より高速で精度の高いシミュレーション結果が得られる。 極超音速車両の基準軌道の最適化は, 極端な非線形性から非常に困難であるが, 仮称と比較して74%の精度向上が見いだされ, 数値計算結果から, 将来の軌道設計に要する計算時間が大幅に短縮されたことが判明した。

This paper presents a novel methodology that uses surrogate models in the form of neural networks to reduce the computation time of simulation-based optimization of a reference trajectory. Simulation-based optimization is necessary when there is no analytical form of the system accessible, only input-output data that can be used to create a surrogate model of the simulation. Like many high-fidelity simulations, this trajectory planning simulation is very nonlinear and computationally expensive, making it challenging to optimize iteratively. Through gradient descent optimization, our approach finds the optimal reference trajectory for landing a hypersonic vehicle. In contrast to the large datasets used to create the surrogate models in prior literature, our methodology is specifically designed to minimize the number of simulation executions required by the gradient descent optimizer. We demonstrated this methodology to be more efficient than the standard practice of hand-tuning the inputs through trial-and-error or randomly sampling the input parameter space. Due to the intelligently selected input values to the simulation, our approach yields better simulation outcomes that are achieved more rapidly and to a higher degree of accuracy. Optimizing the hypersonic vehicle's reference trajectory is very challenging due to the simulation's extreme nonlinearity, but even so, this novel approach found a 74% better-performing reference trajectory compared to nominal, and the numerical results clearly show a substantial reduction in computation time for designing future trajectories.
翻訳日:2023-03-31 13:00:58 公開日:2023-03-30
# チャットGPTとヒューマンソシエティの文化的アライメントの評価 : 実証的研究

Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study ( http://arxiv.org/abs/2303.17466v1 )

ライセンス: Link先を確認
Yong Cao, Li Zhou, Seolhwa Lee, Laura Cabello, Min Chen, Daniel Hershcovich(参考訳) ChatGPTの最近のリリースは、対話で人間のような反応を生成できることが広く認識されている。 多様な文化規範と社会規範を組み込んだ多言語コーパスにおける多様な国からの利用者の利用とトレーニングを考えると、文化適応におけるその効果を評価することが重要である。 本稿では,ChatGPTの文化的背景について,人間の文化的差異を定量化するための質問に対する応答を分析して検討する。 以上の結果から,ChatGPTはアメリカの文化と強く結びついているが,他の文化の文脈には適応していないことが示唆された。 さらに,モデルを調査するために異なるプロンプトを用いることにより,モデル応答のばらつきを減少させ,文化的な差異を平滑化させ,アメリカ文化に偏りを与える。 本研究は,ChatGPTの文化的意義に関する貴重な知見を提供し,言語技術における多様性と文化意識の向上の必要性を強調する。

The recent release of ChatGPT has garnered widespread recognition for its exceptional ability to generate human-like responses in dialogue. Given its usage by users from various nations and its training on a vast multilingual corpus that incorporates diverse cultural and societal norms, it is crucial to evaluate its effectiveness in cultural adaptation. In this paper, we investigate the underlying cultural background of ChatGPT by analyzing its responses to questions designed to quantify human cultural differences. Our findings suggest that, when prompted with American context, ChatGPT exhibits a strong alignment with American culture, but it adapts less effectively to other cultural contexts. Furthermore, by using different prompts to probe the model, we show that English prompts reduce the variance in model responses, flattening out cultural differences and biasing them towards American culture. This study provides valuable insights into the cultural implications of ChatGPT and highlights the necessity of greater diversity and cultural awareness in language technologies.
翻訳日:2023-03-31 13:00:34 公開日:2023-03-30
# シミュレーションモデルを信用できますか? ビジネスプロセスシミュレーションモデルの品質測定

Can I Trust My Simulation Model? Measuring the Quality of Business Process Simulation Models ( http://arxiv.org/abs/2303.17463v1 )

ライセンス: Link先を確認
David Chapela-Campa, Ismail Benchekroun, Opher Baron, Marlon Dumas, Dmitry Krass, Arik Senderovich(参考訳) ビジネスプロセスシミュレーション(Business Process Simulation、BPS)は、異なるシナリオ下でのビジネスプロセスのパフォーマンスを分析する手法である。 例えば、BPSでは、1つ以上のリソースが利用できない場合、プロセスのサイクルタイムを見積もることができる。 BPSの開始点は、シミュレーションパラメータ(BPSモデル)を付加したプロセスモデルである。 BPSモデルは、利害関係者や経験的観察から収集された情報に基づいて手動で設計したり、実行データから自動的に検出される。 起源に関係なく、BPSモデルを使用する際の重要な問題は、その品質を評価する方法である。 本稿では,観察されたプロセスの動作を再現する能力として,BPSモデルの品質を評価するための尺度のコレクションを提案する。 我々は、異なる措置が異なるプロセスの観点に取り組むアプローチを提唱する。 提案手法は,BPSモデルに対する修正の影響を明らかにする能力と,BPSモデルの自動発見のための2つのアプローチの相対的強度と弱点を明らかにする能力を評価する。 評価の結果,BPSモデルが観測行動にどの程度近いかだけでなく,不一致の原因を特定する上でも有効であることがわかった。

Business Process Simulation (BPS) is an approach to analyze the performance of business processes under different scenarios. For example, BPS allows us to estimate what would be the cycle time of a process if one or more resources became unavailable. The starting point of BPS is a process model annotated with simulation parameters (a BPS model). BPS models may be manually designed, based on information collected from stakeholders and empirical observations, or automatically discovered from execution data. Regardless of its origin, a key question when using a BPS model is how to assess its quality. In this paper, we propose a collection of measures to evaluate the quality of a BPS model w.r.t. its ability to replicate the observed behavior of the process. We advocate an approach whereby different measures tackle different process perspectives. We evaluate the ability of the proposed measures to discern the impact of modifications to a BPS model, and their ability to uncover the relative strengths and weaknesses of two approaches for automated discovery of BPS models. The evaluation shows that the measures not only capture how close a BPS model is to the observed behavior, but they also help us to identify sources of discrepancies.
翻訳日:2023-03-31 13:00:15 公開日:2023-03-30
# 第二言語としてのヒンディー語:意味的に類似したサンプルを用いた視覚的接地音声の改善

Hindi as a Second Language: Improving Visually Grounded Speech with Semantically Similar Samples ( http://arxiv.org/abs/2303.17517v1 )

ライセンス: Link先を確認
Hyeonggon Ryu, Arda Senocak, In So Kweon, Joon Son Chung(参考訳) 本研究の目的は,多言語的視点から視覚下地音声モデル(vgs)の学習を検討することである。 バイリンガルvgsモデルは通常、両方の言語から同じ数の音声キャプションで訓練される。 しかし、実際には、利用可能なキャプションの言語間には不均衡がある。 本研究における重要な貢献は,低資源言語の性能を向上させるために,多言語視覚下音声モデルにおける高資源言語のパワーを活用することである。 我々は,(1)強い事前学習された高リソース言語エンコーダと(2)意味的に類似したキャプションを用いて,高リソース言語の知識を低リソース言語に蒸留する2つの方法を紹介する。 実験により,これらの2つの手法を組み合わせることで,低リソース言語がモノリンガルおよびバイリンガルの言語間検索タスクの性能を効果的に上回ることを示す。

The objective of this work is to explore the learning of visually grounded speech models (VGS) from multilingual perspective. Bilingual VGS models are generally trained with an equal number of spoken captions from both languages. However, in reality, there can be an imbalance among the languages for the available spoken captions. Our key contribution in this work is to leverage the power of a high-resource language in a bilingual visually grounded speech model to improve the performance of a low-resource language. We introduce two methods to distill the knowledge of high-resource language into low-resource languages: (1) incorporating a strong pre-trained high-resource language encoder and (2) using semantically similar spoken captions. Our experiments show that combining these two approaches effectively enables the low-resource language to surpass the performances of monolingual and bilingual counterparts for cross-modal retrieval tasks.
翻訳日:2023-03-31 12:53:39 公開日:2023-03-30
# 情報制約付き視覚表現を用いた因子領域の学習

Learning in Factored Domains with Information-Constrained Visual Representations ( http://arxiv.org/abs/2303.17508v1 )

ライセンス: Link先を確認
Tyler Malloy, Miao Liu, Matthew D. Riemer, Tim Klinger, Gerald Tesauro, Chris R. Sims(参考訳) 人間は複雑な視覚情報を含むタスクでも素早く学習する。 これは、視覚情報の圧縮表現を効率的に形成し、より良い一般化と堅牢性を可能にするためである。 しかし, 圧縮表現だけでは, 人間の学習速度を説明するには不十分である。 この印象的な効率を再現しようとする強化学習(RL)モデルは、タスクの因子表現を使用することで実現することができる。 これらの情報的に単純化されたタスクの表現は、同様に視覚情報の圧縮表現の使用によって動機付けられたものである。 近年の研究では、生物学的視覚知覚と非絡み合いや圧縮された表現を関連づけている。 これは、人間がどのように視覚情報を効率的に表現し、タスクを学習するのにどのように役立つかという問題を提起する。 本稿では、視覚学習タスクで使用される$\beta$-Variational Auto-Encoderの変形形式に基づくヒューマンファクター表現学習のモデルを提案する。 モデリング結果は、学習の速度と再現の精度の間のモデル潜在次元空間の情報複雑性のトレードオフを示す。

Humans learn quickly even in tasks that contain complex visual information. This is due in part to the efficient formation of compressed representations of visual information, allowing for better generalization and robustness. However, compressed representations alone are insufficient for explaining the high speed of human learning. Reinforcement learning (RL) models that seek to replicate this impressive efficiency may do so through the use of factored representations of tasks. These informationally simplistic representations of tasks are similarly motivated as the use of compressed representations of visual information. Recent studies have connected biological visual perception to disentangled and compressed representations. This raises the question of how humans learn to efficiently represent visual information in a manner useful for learning tasks. In this paper we present a model of human factored representation learning based on an altered form of a $\beta$-Variational Auto-encoder used in a visual learning task. Modelling results demonstrate a trade-off in the informational complexity of model latent dimension spaces, between the speed of learning and the accuracy of reconstructions.
翻訳日:2023-03-31 12:53:21 公開日:2023-03-30
# 拡張性、不完全性、及び多コピー不識別アンサンブル

Unextendibility, uncompletability, and many-copy indistinguishable ensembles ( http://arxiv.org/abs/2303.17507v1 )

ライセンス: Link先を確認
Saronath Halder, Alexander Streltsov(参考訳) 直交量子状態のアンサンブルを考えると、状態は局所的な演算と古典的通信(LOCC)によって完全に区別できないと考えられる。 そのような状態がlocc下では、複数の(有限の)状態の同一のコピーが利用可能であるときに区別できない場合、簡潔に言えば、アンサンブルは多コピーで区別できないと言う。 ここでは、非拡張性、非コンパイル性、そして多くのコピーで区別不可能なアンサンブルとの接続を分析する。 任意の二成分純エンタングル状態の直交補数は、最大濃度の非直交不拡張積基底(nupb)を形成する積状態にまたがる。 この部分空間は、最大濃度のnupbの状態によって束縛され、直交積基底が存在しない最大次元部分空間と1対1の対応を持つ。 そのような nUPB を形成する積状態の明示的な構成を示す。 これらのことから, LOCC 下でのアンサンブルの識別不可能性の証明はより簡単になる。 さらに、多くの多重コピーの区別不能アンサンブルが存在することは明らかであり、構成面では異なるが、locc下では識別不能性のみを考えると、それらの多くは拡張不能な積基底の一般概念を通じて接続される。 その後、異なる多重コピーの区別不能アンサンブルを統一する正の部分的転置非可逆性の概念を導入する。 また,混合性が低下するにつれて局所的な識別性が増大する多成分多コピーアンサンブルのクラスについて報告する。 混合性は通常差別に困難をもたらすため、これは普通ではない。 最後に,この文脈における境界絡み合いの役割について考察する。

Given an ensemble of orthogonal quantum states, we consider that the states cannot be perfectly distinguished by local operations and classical communication (LOCC). If such states remain indistinguishable under LOCC when multiple (finite) identical copies of the states are available, then in brief, we say that the ensemble is many-copy indistinguishable. Here we explore the notions -- unextendibility, uncompletability and analyze their connections to many-copy indistinguishable ensembles. We show that the orthogonal complement of any bipartite pure entangled state is spanned by product states which form a nonorthogonal unextendible product basis (nUPB) of maximum cardinality. This subspace, which is spanned by the states of an nUPB of maximum cardinality, has one to one correspondence with the maximum dimensional subspace where there is no orthonormal product basis. Explicit construction of the product states, forming any such nUPB is shown. Due to these, the proof of indistinguishability of a class of ensembles under LOCC in many-copy scenario becomes simpler. Furthermore, it is now clear that there are several many-copy indistinguishable ensembles, construction-wise they are different but if we consider only indistinguishability property under LOCC, then, many of them are connected through the general notion of unextendible product basis. Thereafter, we introduce the notion of positive partial transpose uncompletability to unify different many-copy indistinguishable ensembles. We also report a class of multipartite many-copy indistinguishable ensembles for which local indistinguishability property increases with decreasing mixedness. This is not usual as mixedness usually introduce difficulty in discrimination. Finally, we discuss the role of bound entanglement in this context.
翻訳日:2023-03-31 12:53:09 公開日:2023-03-30
# 3d線マッピングの再訪

3D Line Mapping Revisited ( http://arxiv.org/abs/2303.17504v1 )

ライセンス: Link先を確認
Shaohui Liu, Yifan Yu, R\'emi Pautrat, Marc Pollefeys, Viktor Larsson(参考訳) スパースキーポイントとは対照的に、少数の行セグメントは、しばしば主構造要素を記述するため、高レベルのシーンレイアウトを簡潔にエンコードすることができる。 厳密な幾何学的手がかりを提供するだけでなく、都市景観や屋内のシーンでも一様である。 明らかな利点にもかかわらず、現在のラインベースの再構築手法は、ポイントベースと比べればはるかに遅れている。 本稿では,多視点画像から3次元ラインマップを堅牢かつ効率的に作成する3次元ラインマッピングライブラリLIMAPを導入することにより,ギャップを埋めることを目的とする。 これは、ライン三角測量の縮退問題を再考し、スコアリングとトラックビルディングを慎重に作り、ライン偶然性、並列性、直交性といった構造的先行性を活用することで達成される。 提案手法は,既存手法とシームレスに統合し,その3dポイントを活用し,ライン再構築をさらに改善する。 さらに、副産物として、直線と点の間の3次元関連グラフを回収/消失点(vps)することができる。 詳細な実験により,limapが既存の3次元線マッピングのアプローチを大きく上回ることを示した。 私たちの堅牢な3Dラインマップは、新たな研究方向も開きます。 視覚的局所化とバンドル調整の2つの応用例を示す。 コードはhttps://github.com/cvg/limapで入手できる。

In contrast to sparse keypoints, a handful of line segments can concisely encode the high-level scene layout, as they often delineate the main structural elements. In addition to offering strong geometric cues, they are also omnipresent in urban landscapes and indoor scenes. Despite their apparent advantages, current line-based reconstruction methods are far behind their point-based counterparts. In this paper we aim to close the gap by introducing LIMAP, a library for 3D line mapping that robustly and efficiently creates 3D line maps from multi-view imagery. This is achieved through revisiting the degeneracy problem of line triangulation, carefully crafted scoring and track building, and exploiting structural priors such as line coincidence, parallelism, and orthogonality. Our code integrates seamlessly with existing point-based Structure-from-Motion methods and can leverage their 3D points to further improve the line reconstruction. Furthermore, as a byproduct, the method is able to recover 3D association graphs between lines and points / vanishing points (VPs). In thorough experiments, we show that LIMAP significantly outperforms existing approaches for 3D line mapping. Our robust 3D line maps also open up new research directions. We show two example applications: visual localization and bundle adjustment, where integrating lines alongside points yields the best results. Code is available at https://github.com/cvg/limap.
翻訳日:2023-03-31 12:52:21 公開日:2023-03-30
# 超伝導回路の半古典力学--カオス力学とフラクタル誘引子

Semiclassical dynamics of a superconducting circuit: chaotic dynamics and fractal attractors ( http://arxiv.org/abs/2303.17492v1 )

ライセンス: Link先を確認
Davide Stirpe, Juuso Manninen and Francesco Massel(参考訳) 本稿では,2つのジョセフソン接合を直列に構成した超伝導回路の電圧バイアスの存在下での半古典力学について検討する。 超伝導相を記述する運動方程式は、振動ピボットを持つ平面ローターの動力学を制御するものと一致し、その結果、重力がない場合にカピツァ振り子の運動と一致することを示す。 さらに, このシステムはカオス特性を持つリッチな動的挙動を示し, その引力のフラクタル性について考察する。

In this article, we study the semiclassical dynamics of a superconducting circuit constituted by two Josephson junctions in series, in the presence of a voltage bias. We show that the equations of motion describing the superconducting phase correspond to those controlling the dynamics of a planar rotor with an oscillating pivot and, consequently, to those of a Kapitza pendulum in the absence of gravity. In addition, we show that the system exhibits a rich dynamical behavior with chaotic properties and provide insight into its attractor's fractal nature.
翻訳日:2023-03-31 12:50:59 公開日:2023-03-30
# 言語モデルはコンピュータのタスクを解決できる

Language Models can Solve Computer Tasks ( http://arxiv.org/abs/2303.17491v1 )

ライセンス: Link先を確認
Geunwoo Kim, Pierre Baldi, Stephen McAleer(参考訳) コンピュータ上で一般的なタスクを実行することができるエージェントは、繰り返しタスクを自動化し、複雑な問題解決を支援することにより、効率と生産性を向上させることができる。 理想的には、そのようなエージェントは自然言語コマンドを通じて、それらに提示される新しいコンピュータタスクを解決できるはずだ。 しかし、この問題に対する従来のアプローチでは、多くの専門家によるデモンストレーションとタスク固有の報酬関数が必要であり、どちらも新しいタスクには実用的ではない。 本研究では,学習済みの大規模言語モデル(LLM)エージェントが,エージェントが再帰的に批判し,その出力(RCI)を改善する単純なプロンプトスキームを用いて,自然言語で案内されたコンピュータタスクを実行できることを示す。 RCIアプローチは、コンピュータタスクの自動化のための既存のLLMメソッドよりも大幅に優れており、MiniWoB++ベンチマークにおける教師付き学習(SL)および強化学習(RL)アプローチを上回る。 RCIは最先端のSL+RL法と競合し、タスクごとのデモは数万ではなく、タスク固有の報酬機能を持たない。 さらに、LLMの推論能力を高めるためのRCIプロンプトの有効性を、自然言語推論タスク群において示し、思考連鎖(CoT)プロンプトよりも優れることを示す。 RCIとCoTの組み合わせは、どちらよりもパフォーマンスが優れています。

Agents capable of carrying out general tasks on a computer can improve efficiency and productivity by automating repetitive tasks and assisting in complex problem-solving. Ideally, such agents should be able to solve new computer tasks presented to them through natural language commands. However, previous approaches to this problem require large amounts of expert demonstrations and task-specific reward functions, both of which are impractical for new tasks. In this work, we show that a pre-trained large language model (LLM) agent can execute computer tasks guided by natural language using a simple prompting scheme where the agent recursively criticizes and improves its output (RCI). The RCI approach significantly outperforms existing LLM methods for automating computer tasks and surpasses supervised learning (SL) and reinforcement learning (RL) approaches on the MiniWoB++ benchmark. RCI is competitive with the state-of-the-art SL+RL method, using only a handful of demonstrations per task rather than tens of thousands, and without a task-specific reward function. Furthermore, we demonstrate RCI prompting's effectiveness in enhancing LLMs' reasoning abilities on a suite of natural language reasoning tasks, outperforming chain of thought (CoT) prompting. We find that RCI combined with CoT performs better than either separately.
翻訳日:2023-03-31 12:50:47 公開日:2023-03-30
# 音声から映像への遅延アライメントによる視覚シーン生成

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment ( http://arxiv.org/abs/2303.17490v1 )

ライセンス: Link先を確認
Kim Sung-Bin, Arda Senocak, Hyunwoo Ha, Andrew Owens, Tae-Hyun Oh(参考訳) 音声は私たちの周りの世界をどう表現しますか。 本稿では,音からシーンの画像を生成する手法を提案する。 本手法は,視覚と音の間に生じる大きなギャップに対処するための課題に対処する。 我々は,各モデルコンポーネントの学習手順をスケジューリングして,情報ギャップに拘わらず,視覚的モダリティを関連付けるモデルの設計を行う。 重要なアイデアは、オーディオを視覚的な潜在空間に合わせるように学習することで、視覚情報でオーディオ機能を強化することだ。 入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。 生成された画像の品質をさらに高めるため,音源定位法を用いて,強いクロスモーダル相関を持つ音声と視覚のペアを選択する。 VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。 また,入力波形や潜在空間に簡単な操作を適用することで,モデルの予測を制御できることも示す。

How does audio describe the world around us? In this paper, we propose a method for generating an image of a scene from sound. Our method addresses the challenges of dealing with the large gaps that often exist between sight and sound. We design a model that works by scheduling the learning procedure of each model component to associate audio-visual modalities despite their information gaps. The key idea is to enrich the audio features with visual information by learning to align audio to visual latent space. We translate the input audio to visual features, then use a pre-trained generator to produce an image. To further improve the quality of our generated images, we use sound source localization to select the audio-visual pairs that have strong cross-modal correlations. We obtain substantially better results on the VEGAS and VGGSound datasets than prior approaches. We also show that we can control our model's predictions by applying simple manipulations to the input waveform, or to the latent space.
翻訳日:2023-03-31 12:50:23 公開日:2023-03-30
# DAE-Talker:拡散オートエンコーダを用いた高忠実度音声駆動音声生成

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder ( http://arxiv.org/abs/2303.17550v1 )

ライセンス: Link先を確認
Chenpng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, Kai Yu, Sheng Zhao, Jiang Bian(参考訳) 最近の研究は音声による音声音声生成に大きな進歩を遂げているが、生成したビデオの品質は実際の録音よりまだ遅れている。 この理由の1つは、人間の知識に基づいて設計され、顔の動きを正確に記述できない、顔のランドマークや3DMM係数のような手作りの中間表現を使用することである。 さらに、これらの手法には、これらの表現を抽出するための外部事前訓練モデルが必要である。 これらの制約に対処するため,拡散オートエンコーダ(DAE)から得られたデータ駆動型潜在表現を利用するDAE-Talkerを提案する。 DAEは、画像を潜伏ベクトルにエンコードする画像エンコーダと、画像から再構成するDDIM画像デコーダとを含む。 我々は,対話型ビデオフレームのdaeを訓練し,その潜在表現をコンフォーメータベースの音声2ラテントモデルの訓練対象として抽出する。 これにより、DAE-Talkerは、テンプレートビデオから所定のヘッドポーズに頼るのではなく、完全なビデオフレームを合成し、音声の内容に合わせて自然な頭部の動きを生成することができる。 また, ポーズ制御性のために, speech2latentにおけるポーズモデリングも導入する。 また,個々のフレームで訓練されたddim画像デコーダを用いて連続的な映像フレームを生成する新しい手法を提案する。 実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。 また,提案手法の有効性を分析し,DAE-Talkerのポーズ制御性を示す。

While recent research has made significant progress in speech-driven talking face generation, the quality of the generated video still lags behind that of real recordings. One reason for this is the use of handcrafted intermediate representations like facial landmarks and 3DMM coefficients, which are designed based on human knowledge and are insufficient to precisely describe facial movements. Additionally, these methods require an external pretrained model for extracting these representations, whose performance sets an upper bound on talking face generation. To address these limitations, we propose a novel method called DAE-Talker that leverages data-driven latent representations obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that encodes an image into a latent vector and a DDIM image decoder that reconstructs the image from it. We train our DAE on talking face video frames and then extract their latent representations as the training target for a Conformer-based speech2latent model. This allows DAE-Talker to synthesize full video frames and produce natural head movements that align with the content of speech, rather than relying on a predetermined head pose from a template video. We also introduce pose modelling in speech2latent for pose controllability. Additionally, we propose a novel method for generating continuous video frames with the DDIM image decoder trained on individual frames, eliminating the need for modelling the joint distribution of consecutive frames directly. Our experiments show that DAE-Talker outperforms existing popular methods in lip-sync, video fidelity, and pose naturalness. We also conduct ablation studies to analyze the effectiveness of the proposed techniques and demonstrate the pose controllability of DAE-Talker.
翻訳日:2023-03-31 12:45:04 公開日:2023-03-30
# 参照フレームの共有がない場合の離反目撃者

Etanglement witnesses in the absence of shared reference frame ( http://arxiv.org/abs/2303.17549v1 )

ライセンス: Link先を確認
Vahid Jannessary, Fatemeh Rezazadeh, Sadegh Raeisi, and Vahid Karimipour(参考訳) 共通の参照フレーム、すなわちアライメント座標系を持つことは、2つのリモートパーティが所有する2つのパーティ状態における絡み合いを目撃する前提の1つである。 この仮定は多くの理由で失敗するかもしれない。 本稿では,共通座標系が存在しない場合の絡み合いを目撃する手法を提案する。 共有された一重項状態において,2つの当事者がどのような種類の証人を念頭に置いていようと,また,どの次元が国家であるにも拘わらず,両者は依然として元の証人と同じ効率で絡み合いを目撃できることを示した。 エンタングルメント・ウィットネス(Entanglement Witnesses)の文脈を超えて、我々の手法は、その資源に不足があるかもしれない実験室における粒子の観測可能量のリモート測定にも役立つ。

Having common reference frames, i.e. aligned coordinate systems, is one of the presumptions in witnessing entanglement in a two-party state possessed by two remote parties. This assumption may fail for many reasons. In this article, we propose a method for witnessing entanglement in the absence of any common coordinate systems. We show that with shared singlet states, no matter what kind of witness the two parties have in mind and no matter what the dimension of the state is, the two remote parties can still witness entanglement with the same efficiency as the original witness. Beyond the context of Entanglement Witnesses, our method works also for remote measurements of observables of particles (entangled or not) in laboratories which may have deficiency in their resources
翻訳日:2023-03-31 12:44:34 公開日:2023-03-30
# 言語モデルではどの意見が反映されるのか?

Whose Opinions Do Language Models Reflect? ( http://arxiv.org/abs/2303.17548v1 )

ライセンス: Link先を確認
Shibani Santurkar, Esin Durmus, Faisal Ladhak, Cinoo Lee, Percy Liang, Tatsunori Hashimoto(参考訳) 言語モデル(lms)は,主観的質問に対するlmsが反映する意見が,ユーザの満足度だけでなく,社会全体の見解形成にも大きな影響を与えている,オープンエンドの文脈でますます利用されている。 本研究では,高品質の世論調査とそれに関連する人的反応を活用することで,lsmが反映する意見を定量的に調査するための枠組みを提示する。 このフレームワークを使用して、中絶から自動化までのトピックに関して、米国60の人口集団とLMの意見の一致を評価するための新しいデータセットであるOpinionsQAを作成する。 さまざまなトピックにおいて、現在のlmsが反映する見解と米国の人口統計グループの間には、かなりの不一致が見られます。 特に、このミスアライメントは、LMを特定の人口集団に向けて明示的に操った後も継続する。 私たちの分析では、人間のフィードバック調整されたlmsの左傾き傾向に関する先行観測を裏付けるだけでなく、現在のlms(65歳以上や未亡人など)にあまり反映されていない表面群についても確認した。 私たちのコードとデータはhttps://github.com/tatsu-lab/opinions_qaで入手できます。

Language models (LMs) are increasingly being used in open-ended contexts, where the opinions reflected by LMs in response to subjective queries can have a profound impact, both on user satisfaction, as well as shaping the views of society at large. In this work, we put forth a quantitative framework to investigate the opinions reflected by LMs -- by leveraging high-quality public opinion polls and their associated human responses. Using this framework, we create OpinionsQA, a new dataset for evaluating the alignment of LM opinions with those of 60 US demographic groups over topics ranging from abortion to automation. Across topics, we find substantial misalignment between the views reflected by current LMs and those of US demographic groups: on par with the Democrat-Republican divide on climate change. Notably, this misalignment persists even after explicitly steering the LMs towards particular demographic groups. Our analysis not only confirms prior observations about the left-leaning tendencies of some human feedback-tuned LMs, but also surfaces groups whose opinions are poorly reflected by current LMs (e.g., 65+ and widowed individuals). Our code and data are available at https://github.com/tatsu-lab/opinions_qa.
翻訳日:2023-03-31 12:44:20 公開日:2023-03-30
# PAIR-Diffusion:Paired Diffusionモデルを用いたオブジェクトレベル画像編集

PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance Paired Diffusion Models ( http://arxiv.org/abs/2303.17546v1 )

ライセンス: Link先を確認
Vidit Goel, Elia Peruzzo, Yifan Jiang, Dejia Xu, Nicu Sebe, Trevor Darrell, Zhangyang Wang, Humphrey Shi(参考訳) 近年,拡散モデルを用いた画像編集が急速に成長している。 以前の作品が画像の制御と編集を可能にする方法はさまざまである。 テキストのようなハイレベルなコンディショニングを使う作品もあれば、低レベルコンディショニングを使う作品もある。 しかし、それらの多くは、画像に存在する異なるオブジェクトの性質、すなわちオブジェクトレベルの画像編集に対するきめ細かい制御を欠いている。 本研究では、画像を複数のオブジェクトの合成として捉え、それぞれを様々な特性で定義する。 これらの特性から, 構造や外観を最も直感的に理解し, 編集に有用であると考える。 画像から明示的に抽出された構造情報と外観情報を用いて学習したPAIR拡散モデルを提案する。 提案モデルでは,オブジェクトとグローバルレベルの両方において,入力画像に参照画像の出現を注入することができる。 さらに、PAIR-Diffusionは、画像の個々のコンポーネントのスタイルを変更せずに構造を編集できる。 lsun データセットとceleba-hq フェースデータセットの手法を広範囲に評価し,オブジェクトレベルでの構造と外観の両方についてきめ細かい制御を行った。 また,任意の実画像のオブジェクトレベルでの編集に安定拡散法を適用した。

Image editing using diffusion models has witnessed extremely fast-paced growth recently. There are various ways in which previous works enable controlling and editing images. Some works use high-level conditioning such as text, while others use low-level conditioning. Nevertheless, most of them lack fine-grained control over the properties of the different objects present in the image, i.e. object-level image editing. In this work, we consider an image as a composition of multiple objects, each defined by various properties. Out of these properties, we identify structure and appearance as the most intuitive to understand and useful for editing purposes. We propose Structure-and-Appearance Paired Diffusion model (PAIR-Diffusion), which is trained using structure and appearance information explicitly extracted from the images. The proposed model enables users to inject a reference image's appearance into the input image at both the object and global levels. Additionally, PAIR-Diffusion allows editing the structure while maintaining the style of individual components of the image unchanged. We extensively evaluate our method on LSUN datasets and the CelebA-HQ face dataset, and we demonstrate fine-grained control over both structure and appearance at the object level. We also applied the method to Stable Diffusion to edit any real image at the object level.
翻訳日:2023-03-31 12:43:58 公開日:2023-03-30
# ESDI:量子インターネットにおける絡み合いスケジューリングと分散

ESDI: Entanglement Scheduling and Distribution in the Quantum Internet ( http://arxiv.org/abs/2303.17540v1 )

ライセンス: Link先を確認
Huayue Gu, Ruozhou Yu, Zhouyu Li, Xiaojian Wang, Fangtong Zhou(参考訳) リモートノード間の量子絡み合い分布は多くの有望な量子アプリケーションにとって鍵となる。 既存のメカニズムは主にエンタングルメントルーティングや単一ノードスケジューリングによるスループットと忠実度の改善に重点を置いている。 本稿では,量子ネットワークトポロジ全体にわたって異なる要求を持つ複数のソース・デスティネーションペア間の絡み合いスケジューリングと分布について検討する。 実用シナリオは2つある。 要求に期限がない場合、通信要求の平均完了時間を最小化する。 期限が指定された場合、期限が満たされた要求数を最大化しようとします。 従来の単一キューシナリオにおける最適スケジューリング規律に触発されて,エンタングルメントスケジューリングと分散のための汎用最適化フレームワークであるesdiを設計し,一般バッファリング量子ネットワークで最適化解を実装するための確率論的プロトコルを開発した。 評価のための離散時間量子ネットワークシミュレータを開発した。 その結果,既存のソリューションと比較してESDIの優れた性能を示した。

Quantum entanglement distribution between remote nodes is key to many promising quantum applications. Existing mechanisms have mainly focused on improving throughput and fidelity via entanglement routing or single-node scheduling. This paper considers entanglement scheduling and distribution among many source-destination pairs with different requests over an entire quantum network topology. Two practical scenarios are considered. When requests do not have deadlines, we seek to minimize the average completion time of the communication requests. If deadlines are specified, we seek to maximize the number of requests whose deadlines are met. Inspired by optimal scheduling disciplines in conventional single-queue scenarios, we design a general optimization framework for entanglement scheduling and distribution called ESDI, and develop a probabilistic protocol to implement the optimized solutions in a general buffered quantum network. We develop a discrete-time quantum network simulator for evaluation. Results show the superior performance of ESDI compared to existing solutions.
翻訳日:2023-03-31 12:43:37 公開日:2023-03-30
# 識別不能な絡み合ったフェルミオン:基礎と今後の課題

Indistinguishable entangled fermions: basics and future challenges ( http://arxiv.org/abs/2303.17539v1 )

ライセンス: Link先を確認
A. P. Majtey, A. Vald\'es-Hern\'andez, and E. Cuestas(参考訳) 同一粒子からなる系における絡み合いの研究は、複合量子系の物理学の基本的な理解と量子情報理論の資源としての量子識別可能性を利用する能力の両方において、大きな意味を持つ興味深い課題を提起している。 理論と実験の素晴らしい進歩は過去数十年の間に行われ、より深い理解とより深い絡み合いの制御に近づいてきた。 しかし、区別不可能な量子系の合成を含む場合、絡み合いの意味とその特徴はいまだに論争を招き、広く受け入れられている定義を欠いている。 本研究の目的は, 親和性・自己完結性のある展示において, フェミオン系に焦点をあてた不明瞭な粒子の絡み合いのコヒーレントな定義の構築に向けたアプローチの背景となる基本的な考え方を紹介することである。 また,同一ファーミオン系における絡み合いを研究するために開発された対応するツールが,個々の部品の完全な情報が得られない識別可能系における相関解析において活用可能かどうかを問う。 さらに,一般化統計の存在下での絡み合いを許容する適切な枠組みを構築するという幅広い問題についても議論する。

The study of entanglement in systems composed of identical particles raises interesting challenges with far-reaching implications in both, our fundamental understanding of the physics of composite quantum systems, and our capability of exploiting quantum indistinguishability as a resource in quantum information theory. Impressive theoretical and experimental advances have been made in the last decades that bring us closer to a deeper comprehension and to a better control of entanglement. Yet, when it involves composites of indistinguishable quantum systems, the very meaning of entanglement, and hence its characterization, still finds controversy and lacks a widely accepted definition. The aim of the present paper is to introduce, within an accessible and self-contained exposition, the basic ideas behind one of the approaches advanced towards the construction of a coherent definition of entanglement in systems of indistinguishable particles, with focus on fermionic systems. We also inquire whether the corresponding tools developed for studying entanglement in identical-fermion systems can be exploited when analysing correlations in distinguishable-party systems, in which the complete information of the individual parts is not available. Further, we open the discussion on the broader problem of constructing a suitable framework that accommodates entanglement in presence of generalized statistics.
翻訳日:2023-03-31 12:43:22 公開日:2023-03-30
# ランダムハミルトニアンによるユニタリ進化の回路複雑性の極端ジャンプ

Extremal jumps of circuit complexity of unitary evolutions generated by random Hamiltonians ( http://arxiv.org/abs/2303.17538v1 )

ライセンス: Link先を確認
Marcin Kotowski, Micha{\l} Oszmaniec, Micha{\l} Horodecki(参考訳) 有限次元ヒルベルト空間におけるランダムに選択された強い相互作用を持つハミルトニアンの時間発展によって生じるユニタリの回路複雑性について検討する。 具体的には、ランダム生成器の2つのアンサンブル、いわゆるガウスユニタリアンサンブル(gue)と、ハールランダムユニタリ変換によって共役される対角ガウス行列のアンサンブルに焦点を当てる。 どちらのシナリオにおいても、$\exp(-it h)$の複雑さは驚くべき振る舞いを示し、高い確率で、自明な(ゼロ)複雑さを持つユニタリからなるアイデンティティの近傍から逃れるために必要となるのと同じ時間スケールで最大許容値に達する。 さらに、上記のアンサンブルから生じる時間進化に由来する量子状態や、対角ガウス・ハミルトニアンのアンサンブルから生成される対角ユニタリについても、同様の挙動を観察する。 これらの結果を確立するためには、上記のアンサンブルの構造的特性(ユニタリ不変性など)と測定手法の集中に大きく依存する。 これにより、以前この文脈で用いられたテクニック、すなわち高次モーメントやフレームポテンシャルよりも、複雑性の時間的進化をより細かく制御できます。

We investigate circuit complexity of unitaries generated by time evolution of randomly chosen strongly interacting Hamiltonians in finite dimensional Hilbert spaces. Specifically, we focus on two ensembles of random generators -- the so called Gaussian Unitary Ensemble (GUE) and the ensemble of diagonal Gaussian matrices conjugated by Haar random unitary transformations. In both scenarios we prove that the complexity of $\exp(-it H)$ exhibits a surprising behaviour -- with high probability it reaches the maximal allowed value on the same time scale as needed to escape the neighborhood of the identity consisting of unitaries with trivial (zero) complexity. We furthermore observe similar behaviour for quantum states originating from time evolutions generated by above ensembles and for diagonal unitaries generated from the ensemble of diagonal Gaussian Hamiltonians. To establish these results we rely heavily on structural properties of the above ensembles (such as unitary invariance) and concentration of measure techniques. This gives us a much finer control over the time evolution of complexity compared to techniques previously employed in this context: high-degree moments and frame potentials.
翻訳日:2023-03-31 12:42:58 公開日:2023-03-30
# クロスモデル対応アンサンブルを用いた非対称顔認識

Asymmetric Face Recognition with Cross Model Compatible Ensembles ( http://arxiv.org/abs/2303.17531v1 )

ライセンス: Link先を確認
Ori Linial, Alon Shoshan, Nadav Bhonker, Elad Hirsch, Lior Zamir, Igor Kviatkovsky, Gerard Medioni(参考訳) 非対称検索設定は、リソース制約付き顔認識に適したソリューションである。 この設定では、ギャラリーのインデックス付けに大規模なモデルを使用し、クエリには軽量モデルを使用する。 このようなシステムの鍵となる原則は、両方のモデルが同じ埋め込み空間を共有することを保証することである。 この領域のほとんどの方法は知識蒸留に基づいている。 有用ではあるが、いくつかの欠点に苦しむ: それらは1つの最良のモデルのパフォーマンスによって上限に達し、簡単な方法でモデルのアンサンブルを使用するように拡張できない。 本稿では, 組込み変換モデルを利用するのではなく, 知識蒸留に依存しないアプローチを提案する。 これにより、n個の独立したトレーニングと多様なギャラリーモデル(例えば、異なるデータセットでトレーニングされたり、異なるアーキテクチャを持つ)と単一のクエリモデルの使用が可能になる。 その結果,クエリの計算予算を低く保ちながら,どのモデルよりも全体的な精度を向上させることができた。 さらに,複数変換埋め込み間の多様性を利用してギャラリー画像の不確実性を推定するギャラリー画像拒絶手法を提案する。

The asymmetrical retrieval setting is a well suited solution for resource constrained face recognition. In this setting a large model is used for indexing the gallery while a lightweight model is used for querying. The key principle in such systems is ensuring that both models share the same embedding space. Most methods in this domain are based on knowledge distillation. While useful, they suffer from several drawbacks: they are upper-bounded by the performance of the single best model found and cannot be extended to use an ensemble of models in a straightforward manner. In this paper we present an approach that does not rely on knowledge distillation, rather it utilizes embedding transformation models. This allows the use of N independently trained and diverse gallery models (e.g., trained on different datasets or having a different architecture) and a single query model. As a result, we improve the overall accuracy beyond that of any single model while maintaining a low computational budget for querying. Additionally, we propose a gallery image rejection method that utilizes the diversity between multiple transformed embeddings to estimate the uncertainty of gallery images.
翻訳日:2023-03-31 12:42:38 公開日:2023-03-30
# 半監督ドメイン適応のための因果的および協調的プロキシ-tasKs lEarning

CAusal and collaborative proxy-tasKs lEarning for Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2303.17526v1 )

ライセンス: Link先を確認
Wenqiao Zhang, Changshuo Liu, Can Cui, Beng Chin Ooi(参考訳) 半教師付きドメイン適応(SSDA)は、ソースドメインデータとラベル付きターゲットサンプルを有効活用することにより、学習者を新しいドメインに適応させる。 実用的かつ未調査の研究課題である。 本稿では,これまで見過ごされてきた2つの視点からSSDA問題を解析し,それに対応する2つの \emph{key subproblems}: \emph{robust domain adaptation (DA) Learning} と \emph{maximal cross-domain data utilization} に分解する。 \textbf{ (i)因果論的観点から、頑健なDAモデルは「概念」(画像ラベルの鍵となる手がかり)をドメイン間の因果関係の曖昧さと区別すべきである。 この目的を達成するために、モデルが因果的介入を通じてサンプルを分類し、改良された一般化保証を与えるために、emph{concept-invariant samples}を生成することを提案する。 (ii) 頑健なDA理論に基づき,リッチソース領域データとラベル付きターゲットサンプルの最大利用を利用して,SSDAをさらに向上することを目指す。 そこで本研究では,2つの相補的半教師付き学習(ssl)分類器を用いて相互に偏りのない知識を交換し,ソースと対象領域のトレーニングデータの可能性を解き放ち,より説得力のある擬似ラベルを生成する協調的偏り学習フレームワークを提案する。 このようなラベルは、クロスドメインな特徴アライメントを促進し、不変の概念学習を正しく改善する。 本研究では,SSDAデータセットの有効性と汎用性の観点から,提案モデルがSOTA法を著しく上回ることを示す。

Semi-supervised domain adaptation (SSDA) adapts a learner to a new domain by effectively utilizing source domain data and a few labeled target samples. It is a practical yet under-investigated research topic. In this paper, we analyze the SSDA problem from two perspectives that have previously been overlooked, and correspondingly decompose it into two \emph{key subproblems}: \emph{robust domain adaptation (DA) learning} and \emph{maximal cross-domain data utilization}. \textbf{(i)} From a causal theoretical view, a robust DA model should distinguish the invariant ``concept'' (key clue to image label) from the nuisance of confounding factors across domains. To achieve this goal, we propose to generate \emph{concept-invariant samples} to enable the model to classify the samples through causal intervention, yielding improved generalization guarantees; \textbf{(ii)} Based on the robust DA theory, we aim to exploit the maximal utilization of rich source domain data and a few labeled target samples to boost SSDA further. Consequently, we propose a collaboratively debiasing learning framework that utilizes two complementary semi-supervised learning (SSL) classifiers to mutually exchange their unbiased knowledge, which helps unleash the potential of source and target domain training data, thereby producing more convincing pseudo-labels. Such obtained labels facilitate cross-domain feature alignment and duly improve the invariant concept learning. In our experimental study, we show that the proposed model significantly outperforms SOTA methods in terms of effectiveness and generalisability on SSDA datasets.
翻訳日:2023-03-31 12:42:22 公開日:2023-03-30
# 長期記憶ネットワークを用いた量子回路の忠実度向上

Quantum Circuit Fidelity Improvement with Long Short-Term Memory Networks ( http://arxiv.org/abs/2303.17523v1 )

ライセンス: Link先を確認
Yikai Mao, Shaswot Shresthamali, Masaaki Kondo(参考訳) 量子コンピューティングは、NISQ(Noisy Intermediate-Scale Quantum)時代に入った。 現在、我々が持っている量子プロセッサは、放射や温度などの環境変数に敏感であり、ノイズが発生する。 NISQプロセッサには多くのアルゴリズムや応用が提案されているが、ノイズのある結果を解釈する際にはまだ不確実性に直面している。 具体的には、出力として選択する量子状態において、どの程度の信頼性があるのか? nisqコンピュータは量子ビットの測定値の確率分布を出力し、分布が意味のある計算を表すのか、ただのランダムノイズであるのかを区別するのは難しいため、この信頼度は重要である。 本稿では,この問題を時系列予測問題として量子回路忠実性予測をフレームすることにより,lstm(long short-term memory)ニューラルネットワークのパワーを活用できる新しい手法を提案する。 トレーニング回路データセットとlstmアーキテクチャを構築するための完全なワークフローが紹介されており、量子回路の忠実度を計算する直感的な方法も含まれている。 トレーニングされたLSTMシステムであるQ-fidは、ハードウェアキャリブレーションデータやゲートエラー率を別途入力することなく、特定のプロセッサ上で動作する量子回路の出力忠実度を予測することができる。 Q-fid の予測は QASMbench NISQ ベンチマークスイートで評価され、平均 RMSE は 0.0515 であり、デフォルトの Qiskit トランスパイルツールのマップマティックよりも 24.7 倍正確である。 利用可能な回路トランスパイルから高忠実度回路レイアウトを見つけるために、q-fidは上位10%のレイアウトの忠実度を平均0.0252、最大32.8倍の精度で予測する。

Quantum computing has entered the Noisy Intermediate-Scale Quantum (NISQ) era. Currently, the quantum processors we have are sensitive to environmental variables like radiation and temperature, thus producing noisy outputs. Although many proposed algorithms and applications exist for NISQ processors, we still face uncertainties when interpreting their noisy results. Specifically, how much confidence do we have in the quantum states we are picking as the output? This confidence is important since a NISQ computer will output a probability distribution of its qubit measurements, and it is sometimes hard to distinguish whether the distribution represents meaningful computation or just random noise. This paper presents a novel approach to attack this problem by framing quantum circuit fidelity prediction as a Time Series Forecasting problem, therefore making it possible to utilize the power of Long Short-Term Memory (LSTM) neural networks. A complete workflow to build the training circuit dataset and LSTM architecture is introduced, including an intuitive method of calculating the quantum circuit fidelity. The trained LSTM system, Q-fid, can predict the output fidelity of a quantum circuit running on a specific processor, without the need for any separate input of hardware calibration data or gate error rates. Evaluated on the QASMbench NISQ benchmark suite, Q-fid's prediction achieves an average RMSE of 0.0515, up to 24.7x more accurate than the default Qiskit transpile tool mapomatic. When used to find the high-fidelity circuit layouts from the available circuit transpilations, Q-fid predicts the fidelity for the top 10% layouts with an average RMSE of 0.0252, up to 32.8x more accurate than mapomatic.
翻訳日:2023-03-31 12:41:47 公開日:2023-03-30
# 忠実かつ抽象的な対話生成のための弾性重み除去

Elastic Weight Removal for Faithful and Abstractive Dialogue Generation ( http://arxiv.org/abs/2303.17574v1 )

ライセンス: Link先を確認
Nico Daheim, Nouha Dziri, Mrinmaya Sachan, Iryna Gurevych, Edoardo M. Ponti(参考訳) 理想的には、対話システムは関連する文書に含まれる知識に忠実な応答を生成するべきである。 しかし、多くのモデルはそれと矛盾したり、検証不能な情報を含む幻覚反応を生成する。 このような望ましくない行動を緩和するため、負の例について「負の専門家」を微調整し、事前訓練されたモデルからパラメータを抽出することが提案されている。 しかし直感的には、一部のパラメータが幻覚を引き起こす他のパラメータよりも責任があるとは考えていない。 そこで我々は,その推定の不確かさを計測するフィッシャー情報行列を用いて,その個人的重要性を評価することを提案する。 我々はこの手法を弾性重量除去 (EWR) と呼ぶ。 CTRL,Quark,DExperts,Noisy Channelといった,忠実度の高い最新技術と比較し,情報検索対話生成のための複数のデータセット上で,Flan-T5の異なる変種をバックボーン言語モデルとして評価した。 大規模な自動評価と人的評価は、EWRが他の指標の観点で小さなコストで体系的に忠実さを増すことを示している。 しかし, 幻覚を抑えることだけが抽出性を高めること, すなわち, 文書のコピーペーストが浅いこと, 望ましくないこと, に気づく。 そこで,第2の貢献として,幻覚と抽出反応を同時に抑えるように拡張できることを示す。 EWRとすべてのベースラインを再現するためのコードを公開しています。

Ideally, dialogue systems should generate responses that are faithful to the knowledge contained in relevant documents. However, many models generate hallucinated responses instead that contradict it or contain unverifiable information. To mitigate such undesirable behaviour, it has been proposed to fine-tune a `negative expert' on negative examples and subtract its parameters from those of a pre-trained model. However, intuitively, this does not take into account that some parameters are more responsible than others in causing hallucinations. Thus, we propose to weigh their individual importance via (an approximation of) the Fisher Information matrix, which measures the uncertainty of their estimate. We call this method Elastic Weight Removal (EWR). We evaluate our method -- using different variants of Flan-T5 as a backbone language model -- on multiple datasets for information-seeking dialogue generation and compare our method with state-of-the-art techniques for faithfulness, such as CTRL, Quark, DExperts, and Noisy Channel reranking. Extensive automatic and human evaluation shows that EWR systematically increases faithfulness at minor costs in terms of other metrics. However, we notice that only discouraging hallucinations may increase extractiveness, i.e. shallow copy-pasting of document spans, which can be undesirable. Hence, as a second main contribution, we show that our method can be extended to simultaneously discourage hallucinations and extractive responses. We publicly release the code for reproducing EWR and all baselines.
翻訳日:2023-03-31 12:35:10 公開日:2023-03-30
# AIを使って自宅でパーキンソン病の重症度を測定する

Using AI to Measure Parkinson's Disease Severity at Home ( http://arxiv.org/abs/2303.17573v1 )

ライセンス: Link先を確認
Md Saiful Islam, Wasifur Rahman, Abdelrahman Abdelkader, Phillip T. Yang, Sangwu Lee, Jamie L. Adams, Ruth B. Schneider, E. Ray Dorsey, Ehsan Hoque(参考訳) 本稿では,パーキンソン病(PD)患者の運動性能を遠隔から評価する人工知能システムを提案する。 参加者はwebカメラの前で運動タスク(つまり指をタップする)を行い、250人のグローバル参加者のデータを運動障害協会(move disorder society)の3人の専門家神経学者によって評価された。 神経学者の評価は信頼性が高く, クラス内相関係数(ICC)は0.88。 我々は,MDS-UPDRSガイドラインに適合し,神経学者の評価と強く相関する客観的な測定値を得るために,コンピュータアルゴリズムを開発した。 我々の機械学習モデルは,MDS-UPDRS認定レーダよりも優れており,平均絶対誤差は0.59であり,レーダのMAEは0.79であった。 しかし、このモデルは専門家神経学者 (0.53 MAE) よりわずかに悪化した。 この方法論は、同様の運動タスクのために複製することができ、pdや他の運動障害を持つ個人を遠隔、客観的、および神経学的ケアへのアクセスが制限された領域で評価することができる。

We present an artificial intelligence system to remotely assess the motor performance of individuals with Parkinson's disease (PD). Participants performed a motor task (i.e., tapping fingers) in front of a webcam, and data from 250 global participants were rated by three expert neurologists following the Movement Disorder Society Unified Parkinson's Disease Rating Scale (MDS-UPDRS). The neurologists' ratings were highly reliable, with an intra-class correlation coefficient (ICC) of 0.88. We developed computer algorithms to obtain objective measurements that align with the MDS-UPDRS guideline and are strongly correlated with the neurologists' ratings. Our machine learning model trained on these measures outperformed an MDS-UPDRS certified rater, with a mean absolute error (MAE) of 0.59 compared to the rater's MAE of 0.79. However, the model performed slightly worse than the expert neurologists (0.53 MAE). The methodology can be replicated for similar motor tasks, providing the possibility of evaluating individuals with PD and other movement disorders remotely, objectively, and in areas with limited access to neurological care.
翻訳日:2023-03-31 12:34:44 公開日:2023-03-30
# 教師なしバックライト画像強調のための反復学習

Iterative Prompt Learning for Unsupervised Backlit Image Enhancement ( http://arxiv.org/abs/2303.17569v1 )

ライセンス: Link先を確認
Zhexin Liang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change Loy(参考訳) 画素レベルの画像強調のためのCLIP(Contrastive Language- Image Pre-Training)の可能性を探ることにより,CLIP-LIT(CLIP-LIT)と略される新しいバックライト画像強調法を提案する。 オープンワールドのCLIPは、バックライト画像と well-lit 画像の区別だけでなく、輝度の異なる異種領域の認識にも役立ち、拡張ネットワークの最適化が容易であることを示す。 高レベルのタスクや画像操作タスクとは異なり、CLIPを拡張タスクに直接適用するのは簡単ではない。 そこで本研究では,クリップ潜在空間におけるプロンプト(負/正のサンプル)と対応する画像(バックリット画像/ウェルリット画像)とのテキスト・イメージの類似性を制約することにより,最初に最初のプロンプトペアを学習するプロンプト学習フレームワークを考案する。 次に,拡張結果と初期プロンプトペアとのテキスト・画像類似性に基づいて拡張ネットワークを訓練する。 初期プロンプトペアの精度をさらに向上させるため,バックライト画像間の分布ギャップを低減し,結果の強化,ランク学習による高輝度画像とを反復的に微調整することで,エンハンスパフォーマンスの向上を図る。 本手法は,視覚的に満足できる結果が得られるまで,プロンプト学習フレームワークとエンハンスメントネットワークの更新を交互に行う。 広範な実験により,本手法は,データ対を必要とせず,視覚品質と一般化能力の観点から最先端の手法よりも優れていることが示された。

We propose a novel unsupervised backlit image enhancement method, abbreviated as CLIP-LIT, by exploring the potential of Contrastive Language-Image Pre-Training (CLIP) for pixel-level image enhancement. We show that the open-world CLIP prior not only aids in distinguishing between backlit and well-lit images, but also in perceiving heterogeneous regions with different luminance, facilitating the optimization of the enhancement network. Unlike high-level and image manipulation tasks, directly applying CLIP to enhancement tasks is non-trivial, owing to the difficulty in finding accurate prompts. To solve this issue, we devise a prompt learning framework that first learns an initial prompt pair by constraining the text-image similarity between the prompt (negative/positive sample) and the corresponding image (backlit image/well-lit image) in the CLIP latent space. Then, we train the enhancement network based on the text-image similarity between the enhanced result and the initial prompt pair. To further improve the accuracy of the initial prompt pair, we iteratively fine-tune the prompt learning framework to reduce the distribution gaps between the backlit images, enhanced results, and well-lit images via rank learning, boosting the enhancement performance. Our method alternates between updating the prompt learning framework and enhancement network until visually pleasing results are achieved. Extensive experiments demonstrate that our method outperforms state-of-the-art methods in terms of visual quality and generalization ability, without requiring any paired data.
翻訳日:2023-03-31 12:34:23 公開日:2023-03-30
# CodeGeeX: HumanEval-Xの多言語評価によるコード生成のための事前学習モデル

CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X ( http://arxiv.org/abs/2303.17568v1 )

ライセンス: Link先を確認
Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang(参考訳) openai codexのような、事前学習された大規模なコード生成モデルは、構文と関数の正しいコードを生成することができ、プログラマのコーディングをより生産的にし、人工知能の追求をより近付けます。 本稿では,コード生成のための13億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。 codegeexは2022年6月現在、23のプログラミング言語の8500億トークンで事前トレーニングされている。 我々はCodeGeeXがHumanEval-Xにおけるコード生成タスクと翻訳タスクの両方において、類似スケールの多言語コードモデルより優れていることを示唆した。 HumanEval(Pythonのみ)をベースに、C++、Java、JavaScript、Goのソリューションを手書きすることで、多言語モデルを評価するHumanEval-Xベンチマークを開発しました。 さらに、CodeGeeXベースのエクステンションをVisual Studio Code、JetBrains、Cloud Studio上に構築し、週に数万のアクティブユーザに対して470億のトークンを生成しています。 ユーザ調査によると、codegeexは83.4%のユーザのコーディング効率を向上させるのに役立ちます。 最後に、CodeGeeXは公開されており、2022年9月にコード、モデルウェイト(850Bトークンのバージョン)、API、拡張、HumanEval-Xをhttps://github.com/THUDM/CodeGeeXでオープンソース化しました。

Large pre-trained code generation models, such as OpenAI Codex, can generate syntax- and function-correct code, making the coding of programmers more productive and our pursuit of artificial general intelligence closer. In this paper, we introduce CodeGeeX, a multilingual model with 13 billion parameters for code generation. CodeGeeX is pre-trained on 850 billion tokens of 23 programming languages as of June 2022. Our extensive experiments suggest that CodeGeeX outperforms multilingual code models of similar scale for both the tasks of code generation and translation on HumanEval-X. Building upon HumanEval (Python only), we develop the HumanEval-X benchmark for evaluating multilingual models by hand-writing the solutions in C++, Java, JavaScript, and Go. In addition, we build CodeGeeX-based extensions on Visual Studio Code, JetBrains, and Cloud Studio, generating 4.7 billion tokens for tens of thousands of active users per week. Our user study demonstrates that CodeGeeX can help to increase coding efficiency for 83.4% of its users. Finally, CodeGeeX is publicly accessible and in Sep. 2022, we open-sourced its code, model weights (the version of 850B tokens), API, extensions, and HumanEval-X at https://github.com/THUDM/CodeGeeX.
翻訳日:2023-03-31 12:33:52 公開日:2023-03-30
# データドリフトレンズによる学習における非侵襲的公正性

Non-Invasive Fairness in Learning through the Lens of Data Drift ( http://arxiv.org/abs/2303.17566v1 )

ライセンス: Link先を確認
Ke Yang and Alexandra Meliou(参考訳) 機械学習(ML)モデルは、多くの現代のデータシステムを動かすために広く使われている。 mlモデルは間違いなく強力なツールですが、不均衡なパフォーマンスと不公平な振る舞いをしばしば示します。 学習アルゴリズムがデータの傾向を識別しようとすると、多数派の傾向を自然に好んでおり、少数民族にとって不公平かつ不公平な結果をもたらすモデルとなっている。 我々の目標は、データや学習アルゴリズムを変更することなく、非侵襲的な介入のみを適用することで、MLモデルの公正性と信頼性を向上させることです。 異なる集団間の傾向のばらつきと、学習されたモデルと少数派の集団間の連続的な傾向は、データドリフトと類似しており、データの一部と訓練されたモデルとの整合性が低いことを示している。 このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的とする。 両手法とも、最近提案されたコンフォーマンス制約のプリミティブであるデータプロファイリングを利用する新しい手法を導入している。 7つの実世界のデータセットに対する実験評価から,diffair と confair の両方が ml モデルの公平性を向上させることが示された。

Machine Learning (ML) models are widely employed to drive many modern data systems. While they are undeniably powerful tools, ML models often demonstrate imbalanced performance and unfair behaviors. The root of this problem often lies in the fact that different subpopulations commonly display divergent trends: as a learning algorithm tries to identify trends in the data, it naturally favors the trends of the majority groups, leading to a model that performs poorly and unfairly for minority populations. Our goal is to improve the fairness and trustworthiness of ML models by applying only non-invasive interventions, i.e., without altering the data or the learning algorithm. We use a simple but key insight: the divergence of trends between different populations, and, consecutively, between a learned model and minority populations, is analogous to data drift, which indicates the poor conformance between parts of the data and the trained model. We explore two strategies (model-splitting and reweighing) to resolve this drift, aiming to improve the overall conformance of models to the underlying data. Both our methods introduce novel ways to employ the recently-proposed data profiling primitive of Conformance Constraints. Our experimental evaluation over 7 real-world datasets shows that both DifFair and ConFair improve the fairness of ML models.
翻訳日:2023-03-31 12:33:24 公開日:2023-03-30
# 文脈認識による忠実度推定

Context Aware Fidelity Estimation ( http://arxiv.org/abs/2303.17565v1 )

ライセンス: Link先を確認
Dripto M. Debroy, Elie Genois, Jonathan A. Gross, Wojciech Mruczkiewicz, Kenny Lee, Sabrina Hong, Zijun Chen, Vadim Smelyanskiy, Zhang Jiang(参考訳) 本稿では、ランダム化ベンチマーク (RB) やクロスエントロピーベンチマーク (XEB) といった既存の手法に対して、いくつかの実用的な利点を提供する量子演算をベンチマークするフレームワークである Context Aware Fidelity Estimation (CAFE) を提案する。 CAFEでは、測定前にターゲット実験からのゲートまたはサブ回路をn回繰り返す。 サブサーキットを用いることで、空間的および時間的回路コンテキストの影響を考慮できる。 非コヒーレント誤差が線形に増加する間、コヒーレント誤差は二次的に蓄積するので、測定された忠実度を n の関数としてフィッティングすることでそれらを分離することができる。 さらに、サブサーキットを動的デカップリングシーケンスでインターリーブし、必要に応じて特定のコヒーレントエラー源をキャラクタリゼーションから削除することができる。 我々はCAFEを用いて,推定ユニタリに対する忠実度を測定し,単一および2ビットのユニタリ特性を実験的に検証した。 数値シミュレーションでは,cafe はインターリーブrb と同程度の忠実度推定を生成できるが,リソースは極めて少ない。 また、単一エンタングリング操作で任意の2量子状態を作成するためのコンパクトな定式化を導入し、CAFEを用いてSycamoreプロセッサ上でCZゲートを並列に研究する具体的な例を示す。

We present Context Aware Fidelity Estimation (CAFE), a framework for benchmarking quantum operations that offers several practical advantages over existing methods such as Randomized Benchmarking (RB) and Cross-Entropy Benchmarking (XEB). In CAFE, a gate or a subcircuit from some target experiment is repeated n times before being measured. By using a subcircuit, we account for effects from spatial and temporal circuit context. Since coherent errors accumulate quadratically while incoherent errors grow linearly, we can separate them by fitting the measured fidelity as a function of n. One can additionally interleave the subcircuit with dynamical decoupling sequences to remove certain coherent error sources from the characterization when desired. We have used CAFE to experimentally validate our single- and two-qubit unitary characterizations by measuring fidelity against estimated unitaries. In numerical simulations, we find CAFE produces fidelity estimates at least as accurate as Interleaved RB while using significantly fewer resources. We also introduce a compact formulation for preparing an arbitrary two-qubit state with a single entangling operation, and use it to present a concrete example using CAFE to study CZ gates in parallel on a Sycamore processor.
翻訳日:2023-03-31 12:33:02 公開日:2023-03-30
# BloombergGPT: 金融のための大規模言語モデル

BloombergGPT: A Large Language Model for Finance ( http://arxiv.org/abs/2303.17564v1 )

ライセンス: Link先を確認
Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, Gideon Mann(参考訳) 金融技術の領域におけるNLPの利用は広範かつ複雑であり、感情分析や名前付きエンティティ認識から質問応答まで幅広い応用がある。 大規模言語モデル(LLM)は様々なタスクに有効であることが示されているが、金融分野に特化したLLMは文献で報告されていない。 本稿では、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを紹介する。 我々は、bloombergの広範なデータソースに基づいて363億のトークンデータセットを構築しています。 我々はBloombergGPTを標準LLMベンチマーク、オープンファイナンシャルベンチマーク、そして我々の意図した使用を最も正確に反映した内部ベンチマークで検証する。 当社の混合データセットトレーニングは、一般的なllmベンチマークのパフォーマンスを犠牲にすることなく、財務タスクの既存モデルをかなりのマージンで上回るモデルにつながります。 さらに、モデリングの選択、トレーニングプロセス、評価方法論を説明します。 次のステップとして、BloombergGPTトレーニングの経験を詳述したトレーニングログ(Chronicles)をリリースする予定です。

The use of NLP in the realm of financial technology is broad and complex, with applications ranging from sentiment analysis and named entity recognition to question answering. Large Language Models (LLMs) have been shown to be effective on a variety of tasks; however, no LLM specialized for the financial domain has been reported in literature. In this work, we present BloombergGPT, a 50 billion parameter language model that is trained on a wide range of financial data. We construct a 363 billion token dataset based on Bloomberg's extensive data sources, perhaps the largest domain-specific dataset yet, augmented with 345 billion tokens from general purpose datasets. We validate BloombergGPT on standard LLM benchmarks, open financial benchmarks, and a suite of internal benchmarks that most accurately reflect our intended usage. Our mixed dataset training leads to a model that outperforms existing models on financial tasks by significant margins without sacrificing performance on general LLM benchmarks. Additionally, we explain our modeling choices, training process, and evaluation methodology. As a next step, we plan to release training logs (Chronicles) detailing our experience in training BloombergGPT.
翻訳日:2023-03-31 12:32:38 公開日:2023-03-30
# よりソフトなクロスモーダルアライメントでCLIPが強化

SoftCLIP: Softer Cross-modal Alignment Makes CLIP Stronger ( http://arxiv.org/abs/2303.17561v1 )

ライセンス: Link先を確認
Yuting Gao, Jinfeng Liu, Zihan Xu, Tong Wu, Wei Liu, Jie Yang, Ke Li, Xing Sun(参考訳) 前年のビエンニアムの間、視覚言語の事前学習はいくつかの下流タスクで注目すべき成功を収めた。 それでも、ペアが完全に排他的な高品質な画像テキストペアを取得することは難しい課題であり、一般的に使用されるデータセットにはノイズが存在する。 この問題に対処するために,厳密な1対1制約を緩和し,細粒なモード内自己相似性から生じる軟化ターゲットを導入することで,軟化した相互アライメントを実現する,新しいアプローチであるSoftCLIPを提案する。 モード内指導は、2つのペアがいくつかの局所的な類似点を持ち、2つのモダリティ間の多対多関係をモデル化できることを示す。 さらに, ソフト化対象分布において正の静止が支配的であるため, 分布中の負を解離させ, クロスモーダル学習における負の関係性をさらに高める。 大規模な実験はSoftCLIPの有効性を示す。 特にImageNetのゼロショット分類タスクでは、CC3M/CC12Mを事前トレーニングデータセットとして使用することで、CLIPベースラインよりも6.8%/7.2%の精度向上を実現している。

During the preceding biennium, vision-language pre-training has achieved noteworthy success on several downstream tasks. Nevertheless, acquiring high-quality image-text pairs, where the pairs are entirely exclusive of each other, remains a challenging task, and noise exists in the commonly used datasets. To address this issue, we propose SoftCLIP, a novel approach that relaxes the strict one-to-one constraint and achieves a soft cross-modal alignment by introducing a softened target, which is generated from the fine-grained intra-modal self-similarity. The intra-modal guidance is indicative to enable two pairs have some local similarities and model many-to-many relationships between the two modalities. Besides, since the positive still dominates in the softened target distribution, we disentangle the negatives in the distribution to further boost the relation alignment with the negatives in the cross-modal learning. Extensive experiments demonstrate the effectiveness of SoftCLIP. In particular, on ImageNet zero-shot classification task, using CC3M/CC12M as pre-training dataset, SoftCLIP brings a top-1 accuracy improvement of 6.8%/7.2% over the CLIP baseline.
翻訳日:2023-03-31 12:32:20 公開日:2023-03-30
# DDP:高密度視覚予測のための拡散モデル

DDP: Diffusion Model for Dense Visual Prediction ( http://arxiv.org/abs/2303.17559v1 )

ライセンス: Link先を確認
Yuanfeng Ji, Zhe Chen, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang Liu, Tong Lu, Zhenguo Li, Ping Luo(参考訳) 本研究では,条件拡散パイプラインに基づく高密度視覚予測のための簡易かつ効率的かつ強力なフレームワークを提案する。 提案手法は,ランダムなガウス分布からノイズを段階的に除去して予測する「ノイズ・ツー・マップ」生成パラダイムに従う。 DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。 タスク固有の設計とアーキテクチャのカスタマイズがなければ、DDPはセマンティックセグメンテーションや深さ推定といった最も密集した予測タスクに簡単に一般化できる。 さらにDDPは,従来の一段階判別法とは対照的に,動的推論や不確実性認識などの魅力的な特性を示す。 3つの代表的なタスクで,6つのベンチマークで上位結果を示し,トリックを伴わずに,ddpは各タスクの最高性能や競争性能を,専門家と比較した。 例えば、セマンティックセグメンテーション (83.9 mIoU on Cityscapes)、BEVマップセグメンテーション (70.6 mIoU on nuScenes)、深さ推定 (0.05 REL on KITTI) などがある。 私たちのアプローチが、堅固なベースラインとなり、将来の研究を促進することを願っています。

We propose a simple, efficient, yet powerful framework for dense visual predictions based on the conditional diffusion pipeline. Our approach follows a "noise-to-map" generative paradigm for prediction by progressively removing noise from a random Gaussian distribution, guided by the image. The method, called DDP, efficiently extends the denoising diffusion process into the modern perception pipeline. Without task-specific design and architecture customization, DDP is easy to generalize to most dense prediction tasks, e.g., semantic segmentation and depth estimation. In addition, DDP shows attractive properties such as dynamic inference and uncertainty awareness, in contrast to previous single-step discriminative methods. We show top results on three representative tasks with six diverse benchmarks, without tricks, DDP achieves state-of-the-art or competitive performance on each task compared to the specialist counterparts. For example, semantic segmentation (83.9 mIoU on Cityscapes), BEV map segmentation (70.6 mIoU on nuScenes), and depth estimation (0.05 REL on KITTI). We hope that our approach will serve as a solid baseline and facilitate future research
翻訳日:2023-03-31 12:31:56 公開日:2023-03-30
# 大規模言語モデルにおける数発記憶の認識・記憶・保持

Recognition, recall, and retention of few-shot memories in large language models ( http://arxiv.org/abs/2303.17557v1 )

ライセンス: Link先を確認
A. Emin Orhan(参考訳) 現代の大規模言語モデル(llm)のトレーニングは、トレーニング期間中にモデルによって、ほとんどのトレーニング例がわずか数回しか見られない体制で行われます。 トレーニング中にほんの数回しか見られないような例や、新しい例による継続的トレーニングの面において、そのメモリはいつまで持続するのでしょうか? 本稿では,LLMを用いた簡単な認識,リコール,保持実験を通じて,これらの課題を考察する。 認識実験では、モデルが見た例と新しい例を区別できるかどうかを問う。リコール実験では、モデルの一部にヒントを得た場合、その例を正しく思い出せるか、保持実験では、モデルが新しい例で継続的に訓練されているため、元の例に対するモデルの記憶を定期的に調査する。 非常に困難な認識実験においても,モデルがほぼ完全な精度を達成できるためには,単一の露光が一般的に十分であることがわかった。 ヒトとの類似実験(shepard, 1967)で報告された認識性能は,小言語モデルでも認識性能が人間の認識性能を上回っていると推定した。 ほぼ完全なリコールを達成するにはより多くの露出が必要だが、ほとんどのモデルでは3回の露出で達成できる。 初期の例のリコールパフォーマンスは、新しい例による最初の10のトレーニングアップデートよりも大幅に低下し、さらに徐々に低下します。 しかし、1Kのアップデート後も、元の例のいくつかは依然として完全にリコールされている。 ヒトの長期記憶保持研究(bahrick, 1984)では、質的に類似した保持パターンが観察されている。 最後に、認識は自然言語文の記憶と記憶よりも干渉に対してはるかに頑健であり、構造のない刺激に対する記憶よりも優れている。

The training of modern large language models (LLMs) takes place in a regime where most training examples are seen only a few times by the model during the course of training. What does a model remember about such examples seen only a few times during training and how long does that memory persist in the face of continuous training with new examples? Here, we investigate these questions through simple recognition, recall, and retention experiments with LLMs. In recognition experiments, we ask if the model can distinguish the seen example from a novel example; in recall experiments, we ask if the model can correctly recall the seen example when cued by a part of it; and in retention experiments, we periodically probe the model's memory for the original examples as the model is trained continuously with new examples. We find that a single exposure is generally sufficient for a model to achieve near perfect accuracy even in very challenging recognition experiments. We estimate that the recognition performance of even small language models easily exceeds human recognition performance reported in similar experiments with humans (Shepard, 1967). Achieving near perfect recall takes more exposures, but most models can do it in just 3 exposures. The flip side of this remarkable capacity for fast learning is that precise memories are quickly overwritten: recall performance for the original examples drops steeply over the first 10 training updates with new examples, followed by a more gradual decline. Even after 100K updates, however, some of the original examples are still recalled near perfectly. A qualitatively similar retention pattern has been observed in human long-term memory retention studies before (Bahrick, 1984). Finally, recognition is much more robust to interference than recall and memory for natural language sentences is generally superior to memory for stimuli without structure.
翻訳日:2023-03-31 12:31:33 公開日:2023-03-30
# MobileInst: モバイル上のビデオインスタンスのセグメンテーション

MobileInst: Video Instance Segmentation on the Mobile ( http://arxiv.org/abs/2303.17594v1 )

ライセンス: Link先を確認
Renhong Zhang, Tianheng Cheng, Shusheng Yang, Haoyi Jiang, Shuai Zhang, Jiancheng Lyu, Xin Li, Xiaowen Ying, Dashan Gao, Wenyu Liu, Xinggang Wang(参考訳) ビデオインスタンスのセグメンテーションを目指す最近のアプローチは有望な成果を上げているが,(1)重計算とメモリコスト,(2)追跡対象の複雑なヒューリスティックスに苦しむモバイルデバイス上での現実的なアプリケーションにこれらのアプローチを採用することは依然として困難である。 そこで我々は,モバイル端末上でビデオインスタンスセグメンテーションを行うための軽量かつモバイルフレンドリーなフレームワークであるmobileinstを提案する。 まずmobileinstでは,マルチレベルセマンティクス機能を抽出するためにmobile vision transformerを採用し,マスクカーネル用のクエリベースのデュアルトランスフォーマインスタンスデコーダと,セマンティクスエンハンスドマスクデコーダを使用して,フレーム毎にインスタンスセグメンテーションを生成する。 次にmobileinstは、シンプルで効果的なカーネル再利用とカーネルアソシエーションを利用して、ビデオインスタンスセグメンテーションのオブジェクトを追跡する。 さらに,カーネルのトラッキング能力を高めるために,時間的クエリパッシングを提案する。 我々はCOCOとYouTube-VISデータセットの実験を行い、MobileInstの優位性を実証し、Qualcomm Snapdragon-778GのモバイルCPUコア上での推論遅延を評価する。 cocoデータセットでは、mobileinstは30.5マスクapと176msをモバイルcpu上で達成し、以前のsomaと比較してレイテンシを50%削減した。 ビデオインスタンスのセグメンテーションでは、YouTube-VIS 2019で35.0 AP、YouTube-VIS 2021で30.1 APを達成した。 コードは現実世界のアプリケーションと将来の研究を促進するために利用できる。

Although recent approaches aiming for video instance segmentation have achieved promising results, it is still difficult to employ those approaches for real-world applications on mobile devices, which mainly suffer from (1) heavy computation and memory cost and (2) complicated heuristics for tracking objects. To address those issues, we present MobileInst, a lightweight and mobile-friendly framework for video instance segmentation on mobile devices. Firstly, MobileInst adopts a mobile vision transformer to extract multi-level semantic features and presents an efficient query-based dual-transformer instance decoder for mask kernels and a semantic-enhanced mask decoder to generate instance segmentation per frame. Secondly, MobileInst exploits simple yet effective kernel reuse and kernel association to track objects for video instance segmentation. Further, we propose temporal query passing to enhance the tracking ability for kernels. We conduct experiments on COCO and YouTube-VIS datasets to demonstrate the superiority of MobileInst and evaluate the inference latency on a mobile CPU core of Qualcomm Snapdragon-778G, without other methods of acceleration. On the COCO dataset, MobileInst achieves 30.5 mask AP and 176 ms on the mobile CPU, which reduces the latency by 50% compared to the previous SOTA. For video instance segmentation, MobileInst achieves 35.0 AP on YouTube-VIS 2019 and 30.1 AP on YouTube-VIS 2021. Code will be available to facilitate real-world applications and future research.
翻訳日:2023-03-31 12:26:02 公開日:2023-03-30
# CT肺血管造影における肺塞栓症検出のための解剖学的二重ホップ学習

Anatomically aware dual-hop learning for pulmonary embolism detection in CT pulmonary angiograms ( http://arxiv.org/abs/2303.17593v1 )

ライセンス: Link先を確認
Florin Condrea, Saikiran Rapaka, Lucian Itu, Puneet Sharma, Jonathan Sperl, A Mohamed Ali, Marius Leordeanu(参考訳) 肺塞栓症(PE)は心臓血管死の主要な原因である。 画像診断はCTPA (Computed tomographic lung angiography) を通し, PE診断における金の基準となっているが, 診断の誤診や診断遅延が著しいため, 重篤な症例では致命的と思われる。 近年の深層学習の力により、幅広い医療画像撮影タスクにおけるパフォーマンスが大幅に向上したが、自動肺塞栓症検出に関する研究は、まだほとんど発表されていない。 本稿では,CTPAの肺塞栓症検出にコンピュータビジョンとディープニューラルネットワークを効果的に組み合わせたディープラーニングベースのアプローチを提案する。 本手法は3つの直交軸に沿った新しい改善を特徴とする。 1)解剖学的構造の自動検出 2)解剖学的な事前訓練 3)pe検出用デュアルホップ深層ニューラルネットワーク。 我々は,公開可能なマルチセンター大規模rsnaデータセットについて最新結果を得る。

Pulmonary Embolisms (PE) represent a leading cause of cardiovascular death. While medical imaging, through computed tomographic pulmonary angiography (CTPA), represents the gold standard for PE diagnosis, it is still susceptible to misdiagnosis or significant diagnosis delays, which may be fatal for critical cases. Despite the recently demonstrated power of deep learning to bring a significant boost in performance in a wide range of medical imaging tasks, there are still very few published researches on automatic pulmonary embolism detection. Herein we introduce a deep learning based approach, which efficiently combines computer vision and deep neural networks for pulmonary embolism detection in CTPA. Our method features novel improvements along three orthogonal axes: 1) automatic detection of anatomical structures; 2) anatomical aware pretraining, and 3) a dual-hop deep neural net for PE detection. We obtain state-of-the-art results on the publicly available multicenter large-scale RSNA dataset.
翻訳日:2023-03-31 12:25:35 公開日:2023-03-30
# ポイントクラウドから人間とロボットのハンドオーバを学ぶ

Learning Human-to-Robot Handovers from Point Clouds ( http://arxiv.org/abs/2303.17592v1 )

ライセンス: Link先を確認
Sammy Christen, Wei Yang, Claudia P\'erez-D'Arpino, Otmar Hilliges, Dieter Fox, Yu-Wei Chao(参考訳) 本稿では,人間とロボットのインタラクションにおいて重要な課題である視覚に基づくロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。 具体化aiの研究は、シミュレーション環境におけるロボットエージェントの訓練において大きな進歩を遂げているが、人間のシミュレーションが困難であるため、人間との対話は依然として困難である。 幸いなことに、最近の研究は、人間とロボットのハンドオーバのための現実的なシミュレーション環境を開発した。 そこで本研究では,動作と把握計画,強化学習,自己監督を併用した2段階の教師学習フレームワークを用いて,人間によるループ学習手法を提案する。 シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。

We propose the first framework to learn control policies for vision-based human-to-robot handovers, a critical task for human-robot interaction. While research in Embodied AI has made significant progress in training robot agents in simulated environments, interacting with humans remains challenging due to the difficulties of simulating humans. Fortunately, recent research has developed realistic simulated environments for human-to-robot handovers. Leveraging this result, we introduce a method that is trained with a human-in-the-loop via a two-stage teacher-student framework that uses motion and grasp planning, reinforcement learning, and self-supervision. We show significant performance gains over baselines on a simulation benchmark, sim-to-sim transfer and sim-to-real transfer.
翻訳日:2023-03-31 12:25:19 公開日:2023-03-30
# Forget-Me-Not: テキスト・画像拡散モデルにおける予測学習

Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.17591v1 )

ライセンス: Link先を確認
Eric Zhang, Kai Wang, Xingqian Xu, Zhangyang Wang, Humphrey Shi(参考訳) かつては学術的な関心事であったディープラーニングモデルの未学習問題は、業界で一般的な問題となっている。 テキストから画像への生成技術の大幅な進歩は、プライバシー、著作権、安全性に関する世界的な議論を促し、多くの無許可の個人id、コンテンツ、芸術作品、潜在的に有害な素材がこれらのモデルによって学習され、後に制御されていないコンテンツの生成と配布に利用された。 この課題に対処するために,我々は,指定したid,オブジェクト,スタイルを30秒以内のテキスト・イメージモデルから安全に削除し,他のコンテンツを生成する能力を損なうことなく,効率良く低コストなソリューションである \textbf{forget-me-not} を提案する。 提案手法と並行して,モデルが一般概念を生成する能力を測定するために,<textbf{Memorization Score (M-Score)} と<textbf{ConceptBench} を導入し,ID,オブジェクト,スタイルの3つの主要なカテゴリに分類した。 M-Score と ConceptBench を用いて、Forget-Me-Not がターゲットとなる概念を効果的に排除し、モデルの性能を他の概念で維持できることを実証する。 さらに、Forget-Me-Notは2つの実用的な拡張を提供している。 a)潜在的に有害またはNSFW内容の除去、及び b) \textbf{concept correct and disentanglement}によるモデル精度、包摂性及び多様性の向上 安定した拡散のための軽量なモデルパッチとしても適用でき、概念操作と便利な分散を可能にする。 この重要な領域における将来の研究を奨励し、安全かつ包括的な生成モデルの開発を促進するため、私たちは、コードとConceptBenchを、 \href{https://github.com/SHI-Labs/Forget-Me-Not}{https://github.com/SHI-Labs/Forget-Me-Not}でオープンソース化します。

The unlearning problem of deep learning models, once primarily an academic concern, has become a prevalent issue in the industry. The significant advances in text-to-image generation techniques have prompted global discussions on privacy, copyright, and safety, as numerous unauthorized personal IDs, content, artistic creations, and potentially harmful materials have been learned by these models and later utilized to generate and distribute uncontrolled content. To address this challenge, we propose \textbf{Forget-Me-Not}, an efficient and low-cost solution designed to safely remove specified IDs, objects, or styles from a well-configured text-to-image model in as little as 30 seconds, without impairing its ability to generate other content. Alongside our method, we introduce the \textbf{Memorization Score (M-Score)} and \textbf{ConceptBench} to measure the models' capacity to generate general concepts, grouped into three primary categories: ID, object, and style. Using M-Score and ConceptBench, we demonstrate that Forget-Me-Not can effectively eliminate targeted concepts while maintaining the model's performance on other concepts. Furthermore, Forget-Me-Not offers two practical extensions: a) removal of potentially harmful or NSFW content, and b) enhancement of model accuracy, inclusion and diversity through \textbf{concept correction and disentanglement}. It can also be adapted as a lightweight model patch for Stable Diffusion, allowing for concept manipulation and convenient distribution. To encourage future research in this critical area and promote the development of safe and inclusive generative models, we will open-source our code and ConceptBench at \href{https://github.com/SHI-Labs/Forget-Me-Not}{https://github.com/SHI-Labs/Forget-Me-Not}.
翻訳日:2023-03-31 12:25:05 公開日:2023-03-30
# 合成データを用いたビジョンと言語モデルによる名詞を超えて

Going Beyond Nouns With Vision & Language Models Using Synthetic Data ( http://arxiv.org/abs/2303.17590v1 )

ライセンス: Link先を確認
Paola Cascante-Bonilla, Khaled Shehada, James Seale Smith, Sivan Doveh, Donghyun Kim, Rameswar Panda, G\"ul Varol, Aude Oliva, Vicente Ordonez, Rogerio Feris, Leonid Karlinsky(参考訳) 大規模な事前学習されたvision & language(vl)モデルは、多くのアプリケーションで顕著なパフォーマンスを示しており、サポート対象クラスの固定セットを(ほぼ任意の)自然言語プロンプトに対するゼロショットのオープンボキャブラリ推論に置き換えることができる。 しかし、最近の研究でこれらのモデルの根本的な弱点が明らかになった。 例えば、非対象語の意味(属性、行動、関係、状態など)のような「名詞を超えて」行く視覚言語概念(vlc)を理解することの難しさや、文中の単語の順序の重要性を理解するといった構成的推論を行うことの難しさなどである。 本研究では,これらのモデルに対して,ゼロショット能力を損なうことなく,純粋に合成データをどの程度活用できるかを検討する。 合成視覚概念(SyViC) - 百万規模の合成データセットとデータ生成コードベースで、VLモデルのVLC理解と合成推論を改善するために、追加の適切なデータを生成する。 また、SyViCを効果的に活用してこれらの改善を実現するための一般的なVL微調整戦略を提案する。 VL-Checklist, Winoground, AROベンチマークの広範な実験と改善により, ゼロショット精度が1%以下で, 合成データによりVLC理解を著しく向上させることができる(AROでは9.9%, VL-Checklistでは4.3%)。

Large-scale pre-trained Vision & Language (VL) models have shown remarkable performance in many applications, enabling replacing a fixed set of supported classes with zero-shot open vocabulary reasoning over (almost arbitrary) natural language prompts. However, recent works have uncovered a fundamental weakness of these models. For example, their difficulty to understand Visual Language Concepts (VLC) that go 'beyond nouns' such as the meaning of non-object words (e.g., attributes, actions, relations, states, etc.), or difficulty in performing compositional reasoning such as understanding the significance of the order of the words in a sentence. In this work, we investigate to which extent purely synthetic data could be leveraged to teach these models to overcome such shortcomings without compromising their zero-shot capabilities. We contribute Synthetic Visual Concepts (SyViC) - a million-scale synthetic dataset and data generation codebase allowing to generate additional suitable data to improve VLC understanding and compositional reasoning of VL models. Additionally, we propose a general VL finetuning strategy for effectively leveraging SyViC towards achieving these improvements. Our extensive experiments and ablations on VL-Checklist, Winoground, and ARO benchmarks demonstrate that it is possible to adapt strong pre-trained VL models with synthetic data significantly enhancing their VLC understanding (e.g. by 9.9% on ARO and 4.3% on VL-Checklist) with under 1% drop in their zero-shot accuracy.
翻訳日:2023-03-31 12:24:25 公開日:2023-03-30
# tidy-psfs: 時間平均動的点スプレッド関数を用いた計算イメージング

TiDy-PSFs: Computational Imaging with Time-Averaged Dynamic Point-Spread-Functions ( http://arxiv.org/abs/2303.17583v1 )

ライセンス: Link先を確認
Sachin Shah, Sakshum Kulshrestha, Christopher A. Metzler(参考訳) ポイント・スプレッド・ファンクション(PSF)技術は、カスタムフェーズマスクを光学系に統合し、付加情報をキャプチャー画像にエンコードする強力な計算イメージング技術である。 ディープラーニングと組み合わせて使用されるこのシステムは、単眼深度推定、視野深度拡大、レンズレスイメージングなどのタスクで最先端のパフォーマンスを提供する。 空間光変調器(slm)技術の最近の進歩に触発されて,新たな情報をエンコードして,時間とともに動的に位相マスクを変更することで優れた性能を実現することができるか,という自然な疑問に答える。 まず, 静的位相マスクが記述するpsfの集合が凸でないこと, 結果として動的位相マスクが生成する時間平均psfが, 基本的により表現豊かであることを証明する。 シミュレーションでは, 時間平均動的(tidy)位相マスクにより, 単眼深度推定精度が大幅に向上し, 視野深度の延長が期待できることを示した。

Point-spread-function (PSF) engineering is a powerful computational imaging techniques wherein a custom phase mask is integrated into an optical system to encode additional information into captured images. Used in combination with deep learning, such systems now offer state-of-the-art performance at monocular depth estimation, extended depth-of-field imaging, lensless imaging, and other tasks. Inspired by recent advances in spatial light modulator (SLM) technology, this paper answers a natural question: Can one encode additional information and achieve superior performance by changing a phase mask dynamically over time? We first prove that the set of PSFs described by static phase masks is non-convex and that, as a result, time-averaged PSFs generated by dynamic phase masks are fundamentally more expressive. We then demonstrate, in simulation, that time-averaged dynamic (TiDy) phase masks can offer substantially improved monocular depth estimation and extended depth-of-field imaging performance.
翻訳日:2023-03-31 12:23:35 公開日:2023-03-30
# HuggingGPT: HuggingFaceにおけるChatGPTとその友人によるAIタスクの解決

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace ( http://arxiv.org/abs/2303.17580v1 )

ライセンス: Link先を確認
Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang(参考訳) 異なるドメインとモダリティで複雑なAIタスクを解決することは、人工知能(AGI)の重要なステップである。 さまざまなドメインやモダリティに対して利用可能な豊富なAIモデルがあるが、複雑なAIタスクは処理できない。 大規模言語モデル(llm)は言語理解、生成、相互作用、推論において例外的な能力を有しており、llmは既存のaiモデルを管理して複雑なaiタスクを解決するためのコントローラとして機能し、言語はこれを力づける汎用的なインターフェースとなることを提唱する。 この哲学に基づいて、HuggingGPTはLLM(例えばChatGPT)を利用して機械学習コミュニティ(例えばHuggingFace)のさまざまなAIモデルを接続し、AIタスクを解決するシステムである。 具体的には、ChatGPTを使用して、ユーザリクエストの受信時にタスク計画を実行し、HuggingFaceで利用可能な関数記述に従ってモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じて応答を要約する。 HuggingFaceにおけるChatGPTの強力な言語能力と豊富なAIモデルを活用することで、HuggingGPTはさまざまなモダリティやドメインにおける多数の高度なAIタスクをカバーし、言語、ビジョン、スピーチ、その他の困難なタスクにおける印象的な結果を達成することができる。

Solving complicated AI tasks with different domains and modalities is a key step toward artificial general intelligence (AGI). While there are abundant AI models available for different domains and modalities, they cannot handle complicated AI tasks. Considering large language models (LLMs) have exhibited exceptional ability in language understanding, generation, interaction, and reasoning, we advocate that LLMs could act as a controller to manage existing AI models to solve complicated AI tasks and language could be a generic interface to empower this. Based on this philosophy, we present HuggingGPT, a system that leverages LLMs (e.g., ChatGPT) to connect various AI models in machine learning communities (e.g., HuggingFace) to solve AI tasks. Specifically, we use ChatGPT to conduct task planning when receiving a user request, select models according to their function descriptions available in HuggingFace, execute each subtask with the selected AI model, and summarize the response according to the execution results. By leveraging the strong language capability of ChatGPT and abundant AI models in HuggingFace, HuggingGPT is able to cover numerous sophisticated AI tasks in different modalities and domains and achieve impressive results in language, vision, speech, and other challenging tasks, which paves a new way towards AGI.
翻訳日:2023-03-31 12:23:16 公開日:2023-03-30
# 部分概念クラスのオンライン学習と曖昧さ

Online Learning and Disambiguations of Partial Concept Classes ( http://arxiv.org/abs/2303.17578v1 )

ライセンス: Link先を確認
Tsun-Ming Cheung and Hamed Hatami and Pooya Hatami and Kaave Hosseini(参考訳) 最近の論文で、alon, hanneke, holzman, and moran (focs '21) は部分的概念のクラスの学習可能性を研究するための統一的な枠組みを導入した。彼らの研究で研究されている中心的な質問の1つは、部分的概念クラスの学習能力が、その「拡張」の学習可能性から常に全体的概念クラスに継承されるかどうかである。 これはpac学習には当てはまらないが、オンライン学習可能性というより強固な概念のために問題をオープンにした。 オンライン学習可能な部分概念のクラスを構築することで、この問題を解決するが、全体概念のクラスへの拡張はオンライン学習可能(PAC学習可能)ではない。

In a recent article, Alon, Hanneke, Holzman, and Moran (FOCS '21) introduced a unifying framework to study the learnability of classes of partial concepts. One of the central questions studied in their work is whether the learnability of a partial concept class is always inherited from the learnability of some ``extension'' of it to a total concept class. They showed this is not the case for PAC learning but left the problem open for the stronger notion of online learnability. We resolve this problem by constructing a class of partial concepts that is online learnable, but no extension of it to a class of total concepts is online learnable (or even PAC learnable).
翻訳日:2023-03-31 12:22:30 公開日:2023-03-30
# AvatarCraft: パラメータ化された形状と詩制御によるテキストをニューラルヒューマンアバターに変換する

AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control ( http://arxiv.org/abs/2303.17606v1 )

ライセンス: Link先を確認
Ruixiang Jiang and Can Wang and Jingbo Zhang and Menglei Chai and Mingming He and Dongdong Chen and Jing Liao(参考訳) ニューラル暗黙のフィールドは、3Dシーンを表現し、高品質なノベルビューを生成するのに強力だが、そのような暗黙の表現を用いて、特定のアイデンティティと芸術的なスタイルでアニメーションできる3D人間のアバターを作成することは、依然として困難である。 提案手法であるAvatarCraftは,1つのテキストプロンプトに基づく神経アバターの形状とテクスチャの学習を誘導するために拡散モデルを用いてこの問題に対処する。 我々は,粗大から細かなマルチバウンディングボックストレーニング戦略,形状規則化,拡散に基づく制約を含む,ニューラルネットワークの暗黙的場の最適化フレームワークを慎重に設計し,高品質な幾何学とテクスチャを作り出す。 さらに、対象の人間のメッシュをテンプレートヒューマンメッシュにマッピングする明示的なワーピングフィールドによって、神経暗黙のフィールドを変形させることで、人間のアバターをアニメーション化します。 これにより、ポーズや形状パラメータを制御して、生成されたアバターのアニメーションやリシェープが簡単になる。 様々なテキスト記述に関する広範囲な実験により、アバタークラフトは人間のアバターを創造し、新しいビュー、ポーズ、形状をレンダリングするのに効果的で堅牢であることが示されている。 私たちのプロジェクトページは以下のとおりです。

Neural implicit fields are powerful for representing 3D scenes and generating high-quality novel views, but it remains challenging to use such implicit representations for creating a 3D human avatar with a specific identity and artistic style that can be easily animated. Our proposed method, AvatarCraft, addresses this challenge by using diffusion models to guide the learning of geometry and texture for a neural avatar based on a single text prompt. We carefully design the optimization framework of neural implicit fields, including a coarse-to-fine multi-bounding box training strategy, shape regularization, and diffusion-based constraints, to produce high-quality geometry and texture. Additionally, we make the human avatar animatable by deforming the neural implicit field with an explicit warping field that maps the target human mesh to a template human mesh, both represented using parametric human models. This simplifies animation and reshaping of the generated avatar by controlling pose and shape parameters. Extensive experiments on various text descriptions show that AvatarCraft is effective and robust in creating human avatars and rendering novel views, poses, and shapes. Our project page is: \url{https://avatar-craft.github.io/}.
翻訳日:2023-03-31 12:15:31 公開日:2023-03-30
# SparseViT:高分解能ビジョン変換器の活性化空間の再検討

SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer ( http://arxiv.org/abs/2303.17605v1 )

ライセンス: Link先を確認
Xuanyao Chen, Zhijian Liu, Haotian Tang, Li Yi, Hang Zhao, Song Han(参考訳) 高解像度の画像により、ニューラルネットワークはよりリッチな視覚表現を学習できる。 しかし、このパフォーマンス向上は計算の複雑さを増大させ、レイテンシに敏感なアプリケーションでの使用を妨げている。 すべてのピクセルが等しいわけではないので、重要でない領域で計算をスキップすることは、計算を減らすための単純で効果的な尺度を提供する。 しかし、高密度畳み込みワークロードの規則性を損なうため、CNNの実際のスピードアップに変換することは困難である。 本稿では、最近のウィンドウベース視覚変換器(ViT)のアクティベーション空間を再検討するSparseViTを紹介する。 ウィンドウアテンションがブロック越しに自然にバッチされるので、ウィンドウアクティベーションプルーニングによる実際のスピードアップが可能になった。 異なる層は、様々な感度と計算コストのために異なるプルーニング比を割り当てるべきである。 本稿では、空間の空間内における最適層幅配置を効率よく見つけるために、空間空間適応を導入し、進化的探索を適用する。 SparseViTは、モノクロ3Dオブジェクト検出、2Dインスタンスセグメンテーション、および2Dセマンティックセグメンテーションにおいて、精度を失うことなく1.5x、1.4x、1.3xのスピードアップを達成する。

High-resolution images enable neural networks to learn richer visual representations. However, this improved performance comes at the cost of growing computational complexity, hindering their usage in latency-sensitive applications. As not all pixels are equal, skipping computations for less-important regions offers a simple and effective measure to reduce the computation. This, however, is hard to be translated into actual speedup for CNNs since it breaks the regularity of the dense convolution workload. In this paper, we introduce SparseViT that revisits activation sparsity for recent window-based vision transformers (ViTs). As window attentions are naturally batched over blocks, actual speedup with window activation pruning becomes possible: i.e., ~50% latency reduction with 60% sparsity. Different layers should be assigned with different pruning ratios due to their diverse sensitivities and computational costs. We introduce sparsity-aware adaptation and apply the evolutionary search to efficiently find the optimal layerwise sparsity configuration within the vast search space. SparseViT achieves speedups of 1.5x, 1.4x, and 1.3x compared to its dense counterpart in monocular 3D object detection, 2D instance segmentation, and 2D semantic segmentation, respectively, with negligible to no loss of accuracy.
翻訳日:2023-03-31 12:15:08 公開日:2023-03-30
# 高速安定拡散のためのトークンマージ

Token Merging for Fast Stable Diffusion ( http://arxiv.org/abs/2303.17604v1 )

ライセンス: Link先を確認
Daniel Bolya, Judy Hoffman(参考訳) 画像生成の展望は、オープン語彙拡散モデルによって永遠に変化してきた。 しかし、コアとなるモデルではトランスフォーマーを使用し、生成が遅くなる。 これらの変換器のスループットを向上させるためのより良い実装が登場したが、それでもモデル全体を評価する。 本稿では,冗長トークンをマージすることで生成画像の自然冗長性を生かして拡散モデルを高速化する。 Token Merging(ToMe)にいくつかの拡散特異的な改善を加えた後、私たちのToMe for Stable Diffusionは、既存のStable Diffusionモデルにおけるトークンの数を最大60%削減できます。 その過程で、画像生成を最大2倍高速化し、メモリ消費を最大5.6倍削減する。 さらに、このスピードアップスタックにはxFormersのような効率的な実装があり、大きな画像では最大5.4倍の速度で品質に最小限の影響を与えている。 コードはhttps://github.com/dbolya/tomesdで入手できる。

The landscape of image generation has been forever changed by open vocabulary diffusion models. However, at their core these models use transformers, which makes generation slow. Better implementations to increase the throughput of these transformers have emerged, but they still evaluate the entire model. In this paper, we instead speed up diffusion models by exploiting natural redundancy in generated images by merging redundant tokens. After making some diffusion-specific improvements to Token Merging (ToMe), our ToMe for Stable Diffusion can reduce the number of tokens in an existing Stable Diffusion model by up to 60% while still producing high quality images without any extra training. In the process, we speed up image generation by up to 2x and reduce memory consumption by up to 5.6x. Furthermore, this speed-up stacks with efficient implementations such as xFormers, minimally impacting quality while being up to 5.4x faster for large images. Code is available at https://github.com/dbolya/tomesd.
翻訳日:2023-03-31 12:14:43 公開日:2023-03-30
# nerf教師付き深層ステレオ

NeRF-Supervised Deep Stereo ( http://arxiv.org/abs/2303.17603v1 )

ライセンス: Link先を確認
Fabio Tosi, Alessio Tonioni, Daniele De Gregorio, Matteo Poggi(参考訳) 我々は,深層ステレオネットワークを無力かつ地味に訓練するための新しい枠組みを提案する。 最先端のニューラルレンダリングソリューションを利用することで、単一のハンドヘルドカメラで収集した画像列からステレオトレーニングデータを生成する。 それらの上,NeRFを教師とするトレーニングを行ない,立体三重項をレンダリングしてオクルージョンと深度マップを代用ラベルとして補償する。 この結果、ステレオネットワークはシャープで詳細な不一致マップを予測できる。 実験の結果、この方法で訓練されたモデルは、挑戦的なミドルベリーデータセット上の既存の自己教師あり手法よりも30-40%改善され、教師付きモデルへのギャップを埋め、ほとんどの場合、ゼロショット一般化でそれを上回っていた。

We introduce a novel framework for training deep stereo networks effortlessly and without any ground-truth. By leveraging state-of-the-art neural rendering solutions, we generate stereo training data from image sequences collected with a single handheld camera. On top of them, a NeRF-supervised training procedure is carried out, from which we exploit rendered stereo triplets to compensate for occlusions and depth maps as proxy labels. This results in stereo networks capable of predicting sharp and detailed disparity maps. Experimental results show that models trained under this regime yield a 30-40% improvement over existing self-supervised methods on the challenging Middlebury dataset, filling the gap to supervised models and, most times, outperforming them at zero-shot generalization.
翻訳日:2023-03-31 12:14:24 公開日:2023-03-30
# Beyond Outearance: 人中心視覚タスクのためのセマンティック制御可能な自己監督型学習フレームワーク

Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks ( http://arxiv.org/abs/2303.17602v1 )

ライセンス: Link先を確認
Weihua Chen, Xianzhe Xu, Jian Jia, Hao luo, Yaohua Wang, Fan Wang, Rong Jin, Xiuyu Sun(参考訳) 人間中心の視覚タスクは、広く応用されているため、研究の注目を集めている。 本稿では,下流の人間中心のタスクを最大限に活用できる巨大なラベルのない人間の画像から,一般的な人間表現を学習することを目的とする。 本稿では,セマンティックcOntrollable seLf-supervIseD lEaRningフレームワークであるSOLIDERと呼ぶ。 従来の自己教師付き学習法とは異なり、人間の画像からの事前知識をSOLIDERで利用して擬似意味ラベルを構築し、学習した表現により多くの意味情報をインポートする。 一方、異なる下流タスクでは、意味情報と外観情報の比率が常に異なることに留意する。 例えば、人間のパースにはよりセマンティックな情報が必要であり、人物の再識別には識別のためにより多くの外観情報が必要である。 したがって、単一の学習表現はすべての要件に適合しない。 この問題を解決するため、soliderはセマンティクスコントローラを備えた条件付きネットワークを導入する。 モデルがトレーニングされた後、ユーザーはコントローラに値を送り、異なる意味情報の比率で表現を生成することができる。 最後に、SOLIDERは、下流の6つの人間中心の視覚タスクで検証される。 芸術の状態を上回り、これらのタスクの新たなベースラインを構築します。 コードはhttps://github.com/tinyvision/soliderでリリースされている。

Human-centric visual tasks have attracted increasing research attention due to their widespread applications. In this paper, we aim to learn a general human representation from massive unlabeled human images which can benefit downstream human-centric tasks to the maximum extent. We call this method SOLIDER, a Semantic cOntrollable seLf-supervIseD lEaRning framework. Unlike the existing self-supervised learning methods, prior knowledge from human images is utilized in SOLIDER to build pseudo semantic labels and import more semantic information into the learned representation. Meanwhile, we note that different downstream tasks always require different ratios of semantic information and appearance information. For example, human parsing requires more semantic information, while person re-identification needs more appearance information for identification purpose. So a single learned representation cannot fit for all requirements. To solve this problem, SOLIDER introduces a conditional network with a semantic controller. After the model is trained, users can send values to the controller to produce representations with different ratios of semantic information, which can fit different needs of downstream tasks. Finally, SOLIDER is verified on six downstream human-centric visual tasks. It outperforms state of the arts and builds new baselines for these tasks. The code is released in https://github.com/tinyvision/SOLIDER.
翻訳日:2023-03-31 12:14:09 公開日:2023-03-30
# 学習が手が届かないとき、リセット:自律視覚強化学習における一般化

When Learning Is Out of Reach, Reset: Generalization in Autonomous Visuomotor Reinforcement Learning ( http://arxiv.org/abs/2303.17600v1 )

ライセンス: Link先を確認
Zichen Zhang, Luca Weihs(参考訳) エージェントの環境が成功や失敗のたびにリセットされるエピソディックトレーニングは、embodied reinforcement learning (rl)エージェントのトレーニングにおけるデファクトスタンダードである。 環境が簡単にリセットできるという基本的な仮定は、現実の世界における人間の努力が一般的に必要であり、シミュレーションにおいて計算コストがかかり、哲学的には、知的エージェントが介入なしに継続的に学習できることを期待するからである。 リセットなしで学習する。 Reset-Free RL (RF-RL) は有望であるが、学習を停止させる可逆遷移(例えば、物体の破壊)の問題に悩まされている。 さらに、RF-RL中に発生する限られた状態の多様性と機器の設定は、RF-RLを研究する作業が、新しい環境に一般化するためのモデルを必要としないことを意味している。 この研究では、視覚エージェントを構築しながら、完全に排除するのではなく、最小限のリセットを目指す。 RF-RL向けに設計されたベンチマークでは,これまで一般化が重視されていなかったため,目標,化粧品のバリエーション,構造変化の一般化を評価するために,新しいStretch Pick-and-Placeベンチマークを提案する。 さらに,パフォーマンスリセット最小化RLエージェントの構築に向けて,可逆遷移を検出するための教師なしメトリクスと,一般化を実現するための単一政治学習機構を提案する。 提案手法は,Stretch-P\&Pおよび他のRF-RLベンチマークにおいて,より少ないリセットで高い成功率を達成するために,事前のエピソード,リセットフリー,リセット最小化アプローチを著しく上回る。 最後に,提案手法は,他の実施タスクの訓練に必要なリセット数を劇的に削減することができること,特にrobothor objectnavでは,99.97\%少ないリセットを用いたエピソディックアプローチよりも高い成功率が得られることを見出した。

Episodic training, where an agent's environment is reset after every success or failure, is the de facto standard when training embodied reinforcement learning (RL) agents. The underlying assumption that the environment can be easily reset is limiting both practically, as resets generally require human effort in the real world and can be computationally expensive in simulation, and philosophically, as we'd expect intelligent agents to be able to continuously learn without intervention. Work in learning without any resets, i.e{.} Reset-Free RL (RF-RL), is promising but is plagued by the problem of irreversible transitions (e.g{.} an object breaking) which halt learning. Moreover, the limited state diversity and instrument setup encountered during RF-RL means that works studying RF-RL largely do not require their models to generalize to new environments. In this work, we instead look to minimize, rather than completely eliminate, resets while building visual agents that can meaningfully generalize. As studying generalization has previously not been a focus of benchmarks designed for RF-RL, we propose a new Stretch Pick-and-Place benchmark designed for evaluating generalizations across goals, cosmetic variations, and structural changes. Moreover, towards building performant reset-minimizing RL agents, we propose unsupervised metrics to detect irreversible transitions and a single-policy training mechanism to enable generalization. Our proposed approach significantly outperforms prior episodic, reset-free, and reset-minimizing approaches achieving higher success rates with fewer resets in Stretch-P\&P and another popular RF-RL benchmark. Finally, we find that our proposed approach can dramatically reduce the number of resets required for training other embodied tasks, in particular for RoboTHOR ObjectNav we obtain higher success rates than episodic approaches using 99.97\% fewer resets.
翻訳日:2023-03-31 12:13:49 公開日:2023-03-30
# オフザシェルフ画像拡散モデルを用いたゼロショット映像編集

Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models ( http://arxiv.org/abs/2303.17599v1 )

ライセンス: Link先を確認
Wen Wang, Kangyang Xie, Zide Liu, Hao Chen, Yue Cao, Xinlong Wang, Chunhua Shen(参考訳) 大規模テキスト・画像拡散モデルは画像生成と編集において前例のない成功を収めた。 しかし、このような成功をビデオ編集に拡張する方法は不明である。 ビデオ編集の初期の試みでは、大量のテキストからビデオへのデータと、訓練のための計算リソースが必要だった。 本研究では,ゼロショット映像編集のための簡易かつ効果的な手法であるvid2vid-zeroを提案する。 私たちのvid2vid-zeroは、既製の画像拡散モデルを活用しています。 提案手法の核心は,テキスト間アライメントのためのヌルテキストインバージョンモジュール,時間的一貫性のためのクロスフレームモデリングモジュール,オリジナルビデオへの忠実性のための空間正規化モジュールである。 トレーニングがなければ、アテンション機構の動的な性質を利用して、テスト時に双方向のテンポラリモデリングを可能にします。 実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。 コードは \url{https://github.com/baaivision/vid2vid-zero} で公開される。

Large-scale text-to-image diffusion models achieve unprecedented success in image generation and editing. However, how to extend such success to video editing is unclear. Recent initial attempts at video editing require significant text-to-video data and computation resources for training, which is often not accessible. In this work, we propose vid2vid-zero, a simple yet effective method for zero-shot video editing. Our vid2vid-zero leverages off-the-shelf image diffusion models, and doesn't require training on any video. At the core of our method is a null-text inversion module for text-to-video alignment, a cross-frame modeling module for temporal consistency, and a spatial regularization module for fidelity to the original video. Without any training, we leverage the dynamic nature of the attention mechanism to enable bi-directional temporal modeling at test time. Experiments and analyses show promising results in editing attributes, subjects, places, etc., in real-world videos. Code will be made available at \url{https://github.com/baaivision/vid2vid-zero}.
翻訳日:2023-03-31 12:13:10 公開日:2023-03-30
# ポーズ誘導拡散モデルによる一貫したビュー合成

Consistent View Synthesis with Pose-Guided Diffusion Models ( http://arxiv.org/abs/2303.17598v1 )

ライセンス: Link先を確認
Hung-Yu Tseng, Qinbo Li, Changil Kim, Suhib Alsisan, Jia-Bin Huang, Johannes Kopf(参考訳) 単一の画像からの新しいビュー合成は、没入型体験を提供する多くの仮想現実アプリケーションにとって重要な問題となっている。 しかし、既存のほとんどの技術は、限られた範囲のカメラモーション内でのみ新規ビューを合成できるか、重要なカメラモーションの下で一貫した高品質な新規ビューを生成することができない。 本研究では,ポーズ誘導拡散モデルを提案し,単一の画像から新しいビューを一貫した長期的なビデオを生成する。 我々は、エピポーラ線を制約として、異なる視点間の関連を促進するアテンション層を設計する。 合成および実世界のデータセットに対する実験結果は、最先端トランスフォーマーとGANベースのアプローチに対する拡散モデルの有効性を示す。

Novel view synthesis from a single image has been a cornerstone problem for many Virtual Reality applications that provide immersive experiences. However, most existing techniques can only synthesize novel views within a limited range of camera motion or fail to generate consistent and high-quality novel views under significant camera movement. In this work, we propose a pose-guided diffusion model to generate a consistent long-term video of novel views from a single image. We design an attention layer that uses epipolar lines as constraints to facilitate the association between different viewpoints. Experimental results on synthetic and real-world datasets demonstrate the effectiveness of the proposed diffusion model against state-of-the-art transformer-based and GAN-based approaches.
翻訳日:2023-03-31 12:12:54 公開日:2023-03-30
# Robo3D: 破壊に対するロバストで信頼性の高い3D認識を目指す

Robo3D: Towards Robust and Reliable 3D Perception against Corruptions ( http://arxiv.org/abs/2303.17597v1 )

ライセンス: Link先を確認
Lingdong Kong and Youquan Liu and Xin Li and Runnan Chen and Wenwei Zhang and Jiawei Ren and Liang Pan and Kai Chen and Ziwei Liu(参考訳) 環境やセンサーからの自然汚染下での3D認識システムの堅牢性は、安全に重要な応用にとって重要な要素である。 既存の大規模3D認識データセットは、しばしば注意深く掃除されたデータを含んでいる。 しかし、そのような構成は、デプロイメント段階での知覚モデルの信頼性を反映することはできない。 本研究では,実環境において発生する自然腐敗に対して,分散シナリオ下で3次元検出器とセグメンタのロバスト性を調べる最初の総合ベンチマークであるrobo3dを提案する。 具体的には,敵対的な気象条件,外乱,内部センサーの故障から生じる8種類の汚職について考察する。 有望な結果は標準ベンチマークで徐々に達成されているが、最先端の3D認識モデルは腐敗に弱いリスクがある。 モデルの性能に重大な影響を及ぼす可能性のあるデータ表現、拡張スキーム、トレーニング戦略の使用に関する重要な観察を行う。 頑健性を高めるために,モデルレジリエンスを高めるための単純な柔軟なボクセル化戦略とともに,密度非感受性トレーニングフレームワークを提案する。 われわれのベンチマークとアプローチが、より堅牢で信頼性の高い3D知覚モデルの設計に将来の研究を刺激することを期待している。 私たちの堅牢性ベンチマークスイートが公開されています。

The robustness of 3D perception systems under natural corruptions from environments and sensors is pivotal for safety-critical applications. Existing large-scale 3D perception datasets often contain data that are meticulously cleaned. Such configurations, however, cannot reflect the reliability of perception models during the deployment stage. In this work, we present Robo3D, the first comprehensive benchmark heading toward probing the robustness of 3D detectors and segmentors under out-of-distribution scenarios against natural corruptions that occur in real-world environments. Specifically, we consider eight corruption types stemming from adversarial weather conditions, external disturbances, and internal sensor failure. We uncover that, although promising results have been progressively achieved on standard benchmarks, state-of-the-art 3D perception models are at risk of being vulnerable to corruptions. We draw key observations on the use of data representations, augmentation schemes, and training strategies, that could severely affect the model's performance. To pursue better robustness, we propose a density-insensitive training framework along with a simple flexible voxelization strategy to enhance the model resiliency. We hope our benchmark and approach could inspire future research in designing more robust and reliable 3D perception models. Our robustness benchmark suite is publicly available.
翻訳日:2023-03-31 12:12:41 公開日:2023-03-30
# Neglected Free Lunch - アノテーション副産物を用いた画像分類器の学習

Neglected Free Lunch -- Learning Image Classifiers Using Annotation Byproducts ( http://arxiv.org/abs/2303.17595v1 )

ライセンス: Link先を確認
Dongyoon Han, Junsuk Choe, Seonghyeok Chun, John Joon Young Chung, Minsuk Chang, Sangdoo Yun, Jean Y. Song, Seong Joon Oh(参考訳) 画像分類器の教師付き学習は、画像と対応するラベル(x,y)のペアを通して人間の知識をパラメトリックモデルに蒸留する。 このシンプルで広く使われている人間の知識の表現は、画像選択後のマウスのトレースやクリックの時系列などのアノテーション手順からの豊富な補助情報を無視していると論じる。 我々の洞察では、このようなアノテーション副産物Zは、モデルが前景の手がかりに集中するように弱め、素早い相関を減らし、ショートカット学習を阻害するおよそ人間の注意を与える。 これを検証するために、ImageNet-ABとCOCO-ABを作成します。 これらはImageNetとCOCOトレーニングセットで、サンプル単位のアノテーション副産物が豊富で、それぞれのオリジナルのアノテーションタスクを複製して収集される。 アノテーション副産物を用いたトレーニングモデルの新たなパラダイムを,アノテーション副産物を用いた学習(luab)と呼んでいる。 y とともに z をレグレッシブする単純なマルチタスクロスにより,学習モデルの一般化性とロバスト性が向上することを示す。 オリジナルの教師付き学習と比較すると、LUABは追加のアノテーションコストを必要としない。 ImageNet-ABとCOCO-ABはhttps://github.com/naver-ai/NeglectedFreeLunchにある。

Supervised learning of image classifiers distills human knowledge into a parametric model through pairs of images and corresponding labels (X,Y). We argue that this simple and widely used representation of human knowledge neglects rich auxiliary information from the annotation procedure, such as the time-series of mouse traces and clicks left after image selection. Our insight is that such annotation byproducts Z provide approximate human attention that weakly guides the model to focus on the foreground cues, reducing spurious correlations and discouraging shortcut learning. To verify this, we create ImageNet-AB and COCO-AB. They are ImageNet and COCO training sets enriched with sample-wise annotation byproducts, collected by replicating the respective original annotation tasks. We refer to the new paradigm of training models with annotation byproducts as learning using annotation byproducts (LUAB). We show that a simple multitask loss for regressing Z together with Y already improves the generalisability and robustness of the learned models. Compared to the original supervised learning, LUAB does not require extra annotation costs. ImageNet-AB and COCO-AB are at https://github.com/naver-ai/NeglectedFreeLunch.
翻訳日:2023-03-31 12:12:23 公開日:2023-03-30