このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230719となっている論文です。

PDF登録状況(公開日: 20230719)

TitleAuthorsAbstract論文公表日・翻訳日
# アクタ系システムの効率的なリニアイライザ性検証

Efficient Linearizability Checking for Actor-based Systems ( http://arxiv.org/abs/2110.06407v2 )

ライセンス: Link先を確認
Mohammed S. Al-Mahfoudh and Ryan Stutsman and Ganesh Gopalakrishnan(参考訳) 分散ソフトウェアに対する近年の需要は、アクタベースのフレームワークの人気を高めた。 しかし、アクターのスタイル化されたメッセージパッシングモデルであっても、正しい分散ソフトウェアを書くことは依然として難しい。 本稿では,分散アクタシステムの特定,合成,テストを行う統合フレームワークDS2における線形化可能性チェックについて述べる。 このアプローチの重要な洞察は、分散アクターシステムのサブコンポーネントが、システムの単純なシーケンシャルモデルに対して検証可能な共通のアルゴリズムやデータ構造(例えば、分散ハッシュテーブルやツリー)を表すことが多いことです。 これにより、開発者は複雑な仕様なしで並列アクターシステムを簡単に検証できる。 ds2はシステムが到達可能な並行スケジュールを自動的に探索し、観測されたシステムの出力を比較して、シーケンシャル実装が生成したものと同等であることを保証する。 本稿では,ds2のリニアイライザビリティチェックについて記述し,本論文の並列レプリケーションアルゴリズムを用いてテストする。 本研究では,アクターシステムにおけるバグ発見において,モデルスケジュール空間運賃を列挙するアルゴリズムについて詳細に検討し,バグ発見に有効なアクターシステムのスケジュール探索アルゴリズムについて述べる。

Recent demand for distributed software had led to a surge in popularity in actor-based frameworks. However, even with the stylized message passing model of actors, writing correct distributed software is still difficult. We present our work on linearizability checking in DS2, an integrated framework for specifying, synthesizing, and testing distributed actor systems. The key insight of our approach is that often subcomponents of distributed actor systems represent common algorithms or data structures (e.g.\ a distributed hash table or tree) that can be validated against a simple sequential model of the system. This makes it easy for developers to validate their concurrent actor systems without complex specifications. DS2 automatically explores the concurrent schedules that system could arrive at, and it compares observed output of the system to ensure it is equivalent to what the sequential implementation could have produced. We describe DS2's linearizability checking and test it on several concurrent replication algorithms from the literature. We explore in detail how different algorithms for enumerating the model schedule space fare in finding bugs in actor systems, and we present our own refinements on algorithms for exploring actor system schedules that we show are effective in finding bugs.
翻訳日:2023-10-24 15:48:28 公開日:2023-07-19
# 公正テスト: 総合的な調査とトレンド分析

Fairness Testing: A Comprehensive Survey and Analysis of Trends ( http://arxiv.org/abs/2207.10223v3 )

ライセンス: Link先を確認
Zhenpeng Chen, Jie M. Zhang, Max Hort, Federica Sarro, Mark Harman(参考訳) 機械学習(ML)ソフトウェアの不公平な振る舞いは、ソフトウェアエンジニアの間で注目と関心が高まっている。 この問題に取り組むために,mlソフトウェアの公平性テストを行うための広範な研究が行われており,この分野における既存研究の包括的調査を行っている。 100の論文を収集し、テストワークフロー(テスト方法)とテストコンポーネント(テスト方法)に基づいてそれらを整理します。 さらに,公平性テストの分野における研究の焦点,傾向,有望な方向性を分析した。 また、フェアネステストのために広く採用されているデータセットやオープンソースツールも特定します。

Unfair behaviors of Machine Learning (ML) software have garnered increasing attention and concern among software engineers. To tackle this issue, extensive research has been dedicated to conducting fairness testing of ML software, and this paper offers a comprehensive survey of existing studies in this field. We collect 100 papers and organize them based on the testing workflow (i.e., how to test) and testing components (i.e., what to test). Furthermore, we analyze the research focus, trends, and promising directions in the realm of fairness testing. We also identify widely-adopted datasets and open-source tools for fairness testing.
翻訳日:2023-10-24 15:17:37 公開日:2023-07-19
# OpenSCENARIOからCommonRoadへの自動交通シナリオ変換

Automatic Traffic Scenario Conversion from OpenSCENARIO to CommonRoad ( http://arxiv.org/abs/2305.10080v2 )

ライセンス: Link先を確認
Yuanfei Lin, Michael Ratzel, Matthias Althoff(参考訳) シナリオは自律運転システムの開発、テスト、検証において重要な要素である。 しかし、オープンソースのシナリオは、しばしば異なる用語を使って定式化される。 これにより、多くのシナリオ表現形式が互いに直接互換性がないため、異なるアプリケーション間での使用を制限する。 この問題に対処するため、我々はOpenSCENARIOフォーマットからCommonRoadフォーマットへの初のオープンソースコンバータを提示する。 コンバータはシミュレーションツールを用いてOpenSCENARIOで定義された動的要素を実行する。 コンバータはcommonroad.in.tum.deで利用可能であり、OpenSCENARIOフォーマットで公開されているシナリオを変換し、CommonRoadツールを使用してそれらを評価することで、その有用性を示す。

Scenarios are a crucial element for developing, testing, and verifying autonomous driving systems. However, open-source scenarios are often formulated using different terminologies. This limits their usage across different applications as many scenario representation formats are not directly compatible with each other. To address this problem, we present the first open-source converter from the OpenSCENARIO format to the CommonRoad format, which are two of the most popular scenario formats used in autonomous driving. Our converter employs a simulation tool to execute the dynamic elements defined by OpenSCENARIO. The converter is available at commonroad.in.tum.de and we demonstrate its usefulness by converting publicly available scenarios in the OpenSCENARIO format and evaluating them using CommonRoad tools.
翻訳日:2023-10-24 08:22:36 公開日:2023-07-19
# テキスト音声による音声検査症例の合成 自動音声認識テストにおける偽アラームの実証的研究

Synthesizing Speech Test Cases with Text-to-Speech? An Empirical Study on the False Alarms in Automated Speech Recognition Testing ( http://arxiv.org/abs/2305.17445v3 )

ライセンス: Link先を確認
Julia Kaiwen Lau, Kelvin Kai Wen Kong, Julian Hao Yong, Per Hoong Tan, Zhou Yang, Zi Qian Yong, Joshua Chern Wey Low, Chun Yong Chong, Mei Kuan Lim, and David Lo(参考訳) 近年,テキスト音声合成システム(TTS, Text-To-Speech)による音声テストケースの自動合成と,多数のASRシステム障害の発見が提案されている。 しかし、人工的なテストケースによって発見された失敗は、人間の音声を転写するASRシステムの実際の性能を反映していない可能性がある。 TTS生成音声と対応する接地真理テキストからなるTSシステムから合成されたテストケースが失敗した場合、我々は、同じテキストを記述した人間の音声をASRシステムに供給する。 人間の音声が正しく転写された場合、誤報の事例を検出する。 本研究では、4つのTSシステムから生成された合成音声と2つの一般的なデータセットから得られた人間の音声を用いて、一般的なASRシステム5種類の誤警報の発生を調査した。 以上の結果から,deepspeechテストでは最小数の偽アラームが同定され,wav2vec2テストでは偽アラームが最多であった。 平均すると、偽アラーム率は5つのasrシステムで21%から34%である。 TTSシステムの中で、Google TTSは最小数の偽アラーム(17%)を生成し、Espeak TTSは4つのTSシステムの中で最も多くの偽アラーム(32%)を生成する。 さらに、潜在的な誤報を警告する誤報推定器を構築し、98.3%の精度、96.4%のリコール、98.5%の精度、97.3%のf1スコアの有望な結果を得る。 本研究では,ATRシステムをテストするための高品質な音声を生成するため,TSシステムの適切な選択に関する知見を提供する。 さらに、偽アラーム推定器は、誤アラームの影響を最小限に抑え、開発者がASRシステムを評価する際に適切なテストインプットを選択するのに役立つ。 この論文で使用されたソースコードはGitHubでhttps://github.com/julianyonghao/FAinASRtest.comで公開されている。

Recent studies have proposed the use of Text-To-Speech (TTS) systems to automatically synthesise speech test cases on a scale and uncover a large number of failures in ASR systems. However, the failures uncovered by synthetic test cases may not reflect the actual performance of an ASR system when it transcribes human audio, which we refer to as false alarms. Given a failed test case synthesised from TTS systems, which consists of TTS-generated audio and the corresponding ground truth text, we feed the human audio stating the same text to an ASR system. If human audio can be correctly transcribed, an instance of a false alarm is detected. In this study, we investigate false alarm occurrences in five popular ASR systems using synthetic audio generated from four TTS systems and human audio obtained from two commonly used datasets. Our results show that the least number of false alarms is identified when testing Deepspeech, and the number of false alarms is the highest when testing Wav2vec2. On average, false alarm rates range from 21% to 34% in all five ASR systems. Among the TTS systems used, Google TTS produces the least number of false alarms (17%), and Espeak TTS produces the highest number of false alarms (32%) among the four TTS systems. Additionally, we build a false alarm estimator that flags potential false alarms, which achieves promising results: a precision of 98.3%, a recall of 96.4%, an accuracy of 98.5%, and an F1 score of 97.3%. Our study provides insight into the appropriate selection of TTS systems to generate high-quality speech to test ASR systems. Additionally, a false alarm estimator can be a way to minimise the impact of false alarms and help developers choose suitable test inputs when evaluating ASR systems. The source code used in this paper is publicly available on GitHub at https://github.com/julianyonghao/FAinASRtest.
翻訳日:2023-10-24 05:16:32 公開日:2023-07-19
# 永続メモリアプリケーションにおけるバグの解析

An Analysis of Bugs In Persistent Memory Application ( http://arxiv.org/abs/2307.10493v1 )

ライセンス: Link先を確認
Jahid Hasan(参考訳) 非揮発性永続メモリ(pm)バグのクラッシュ一貫性の検出と、それらのバグを特定するための新しいツールの開発に関する長年の課題は、ファイルやストレージシステムにおける一貫性のない動作のために、かなり伸びています。 本稿では,NVMレベルのハッシュPMアプリケーションをテストするために,オープンソースの自動バグ検出ツール(AGAMOTTO)を評価した。 さらに、我々の忠実な検証ツールは、PMDKライブラリで65の新しいNVMレベルのハッシュバグを発見し、WITCHERフレームワークが特定できたバグの数(40バグ)を上回っました。 最後に,PM-Aware 探索アルゴリズム上での深層Q学習探索ヒューリスティックアルゴリズムを提案し,探索戦略を効率的に改善する。

Over the years of challenges on detecting the crash consistency of non-volatile persistent memory (PM) bugs and developing new tools to identify those bugs are quite stretching due to its inconsistent behavior on the file or storage systems. In this paper, we evaluated an open-sourced automatic bug detector tool (i.e. AGAMOTTO) to test NVM level hashing PM application to identify performance and correctness PM bugs in the persistent (main) memory. Furthermore, our faithful validation tool able to discovered 65 new NVM level hashing bugs on PMDK library and it outperformed the number of bugs (i.e. 40 bugs) that WITCHER framework was able to identified. Finally, we will propose a Deep-Q Learning search heuristic algorithm over the PM-Aware search algorithm in the state selection process to improve the searching strategy efficiently.
翻訳日:2023-10-23 17:04:02 公開日:2023-07-19
# Collideを語る: 社会経済の混在が言語利用に与える影響

When Dialects Collide: How Socioeconomic Mixing Affects Language Use ( http://arxiv.org/abs/2307.10016v1 )

ライセンス: Link先を確認
Thomas Louf, Jos\'e J. Ramasco, David S\'anchez, M\'arton Karsai(参考訳) 人々の社会経済的背景と標準言語の使用方法は、様々な社会言語学研究で示されているように、独立したものではない。 しかし、これらの相関関係が、異なる社会経済階級の人々の混合に影響される範囲は、量的観点からは比較的未解明のままである。 本研究では,イギリスとウェールズの7千の行政区域において,標準英語からの逸脱を大規模にマッピングするために,ジオタグ付きつぶやきと転送可能な計算手法を活用する。 これらのデータと高分解能所得マップを組み合わせることで、社会経済指標を家庭内利用者に割り当てる。 驚くべきことに、8つの大都市圏にまたがって、より異なる社会経済クラスが混ざり合うほど、標準文法からの離脱頻度と収入の相互依存度が低くなることを示唆する一貫したパターンが発見されている。 さらに,データに見られる観察結果を生成するメカニズムに光を当てる,言語多様性導入のエージェントベースモデルを提案する。

The socioeconomic background of people and how they use standard forms of language are not independent, as demonstrated in various sociolinguistic studies. However, the extent to which these correlations may be influenced by the mixing of people from different socioeconomic classes remains relatively unexplored from a quantitative perspective. In this work we leverage geotagged tweets and transferable computational methods to map deviations from standard English on a large scale, in seven thousand administrative areas of England and Wales. We combine these data with high-resolution income maps to assign a proxy socioeconomic indicator to home-located users. Strikingly, across eight metropolitan areas we find a consistent pattern suggesting that the more different socioeconomic classes mix, the less interdependent the frequency of their departures from standard grammar and their income become. Further, we propose an agent-based model of linguistic variety adoption that sheds light on the mechanisms that produce the observations seen in the data.
翻訳日:2023-10-23 17:03:24 公開日:2023-07-19
# 光投影トモグラフィにおけるメカニカルアーティファクト:分類と自動校正

Mechanical Artifacts in Optical Projection Tomography: Classification and Automatic Calibration ( http://arxiv.org/abs/2309.16677v1 )

ライセンス: Link先を確認
Yan Liu, Jonathan Dong, Thanh-An Pham, Francois Marelli and Michael Unser(参考訳) 光プロジェクショントモグラフィー(OPT)は生体医学研究の強力なツールである。 従来のトモグラフィ再構成アルゴリズムを用いて,高分解能のメソスコピック生体試料の3次元可視化を実現する。 しかし, 各種の人工物は, 実験装置の欠陥により復元画像の品質を低下させる。 これらのアーティファクトの特徴と修正に多くの努力がなされているが、彼らは特定の種類のアーティファクトに焦点を当てている。 この作品には2つの貢献がある。 まず, 角度パラメータと翻訳パラメータの組を用いたイメージングシステムの3次元記述に基づいて, メカニカルアーティファクトのカタログを体系的に文書化する。 そして,歪みのない容積画像に対する最終3次元反復再構成アルゴリズムに入力された未知のシステムパラメータを復元するキャリブレーションアルゴリズムを導入する。 ビーズデータを用いたシミュレーションと蛍光繊維繊維の実験結果から,本アルゴリズムが復元時に誤校正物を除去できることが確認された。

Optical projection tomography (OPT) is a powerful tool for biomedical studies. It achieves 3D visualization of mesoscopic biological samples with high spatial resolution using conventional tomographic-reconstruction algorithms. However, various artifacts degrade the quality of the reconstructed images due to experimental imperfections in the OPT instruments. While many efforts have been made to characterize and correct for these artifacts, they focus on one specific type of artifacts. This work has two contributions. First, we systematically document a catalog of mechanical artifacts based on a 3D description of the imaging system that uses a set of angular and translational parameters. Then, we introduce a calibration algorithm that recovers the unknown system parameters fed into the final 3D iterative reconstruction algorithm for a distortion-free volumetric image. Simulations with beads data and experimental results on a fluorescent textile fiber confirm that our algorithm successfully removes miscalibration artifacts in the reconstruction.
翻訳日:2023-10-23 06:08:56 公開日:2023-07-19
# WiFi CSIに基づく人間活動認識のための自己教師付き学習 : 系統的研究

Self-Supervised Learning for WiFi CSI-Based Human Activity Recognition: A Systematic Study ( http://arxiv.org/abs/2308.02412v1 )

ライセンス: Link先を確認
Ke Xu, Jiangtao Wang, Hongyuan Zhu, Dingchang Zheng(参考訳) 近年、IoT(Internet of Things)の発展に伴い、WiFi CSIベースのHARが学術や産業のコミュニティから注目を集めている。 ディープラーニング技術とCSIベースのHARを統合することで、専門家の知識を必要とせずに最先端のパフォーマンスを実現することができる。 しかし、CSIベースのHARデータのプライバシーと非理解性のため、CSIベースのHARの文脈でディープラーニングモデルを適用する場合、ラベル付きCSIデータの不足は最も顕著な課題である。 一方でSSLは,ラベル付き例に大きく依存することなく,データから有意義な表現を学習するための,有望なアプローチとして浮上している。 したがって、sslアルゴリズムを活用することで、ディープラーニングにおけるデータ不足の課題に対処するために、かなりの努力がなされている。 本稿では,これまで研究されてきたものやまだ検討されていないものなど,SSLアルゴリズムのさまざまなカテゴリが持つ可能性の包括的インベントリと分析を行う。 WiFi CSIベースのHARにおけるSSLアルゴリズムの詳細な調査について述べる。 3つのCSI HARデータセットを用いてSSLアルゴリズムの4つのカテゴリを評価し、それぞれが異なるタスクと環境設定を含む。 現実世界のアプリケーションと関連性を確保するために、特定の要求に合致したパフォーマンスメトリクスを設計します。 さらに、実験の結果、既存の作業のいくつかの制限と盲点が明らかとなり、SSLが現実のWiFiベースのHARアプリケーションに効果的にデプロイされる前に対処する必要がある障壁が明らかになった。 また,本研究は,産業実践者の実践指針として,今後の研究成果に価値ある洞察を与えるものである。

Recently, with the advancement of the Internet of Things (IoT), WiFi CSI-based HAR has gained increasing attention from academic and industry communities. By integrating the deep learning technology with CSI-based HAR, researchers achieve state-of-the-art performance without the need of expert knowledge. However, the scarcity of labeled CSI data remains the most prominent challenge when applying deep learning models in the context of CSI-based HAR due to the privacy and incomprehensibility of CSI-based HAR data. On the other hand, SSL has emerged as a promising approach for learning meaningful representations from data without heavy reliance on labeled examples. Therefore, considerable efforts have been made to address the challenge of insufficient data in deep learning by leveraging SSL algorithms. In this paper, we undertake a comprehensive inventory and analysis of the potential held by different categories of SSL algorithms, including those that have been previously studied and those that have not yet been explored, within the field. We provide an in-depth investigation of SSL algorithms in the context of WiFi CSI-based HAR. We evaluate four categories of SSL algorithms using three publicly available CSI HAR datasets, each encompassing different tasks and environmental settings. To ensure relevance to real-world applications, we design performance metrics that align with specific requirements. Furthermore, our experimental findings uncover several limitations and blind spots in existing work, highlighting the barriers that need to be addressed before SSL can be effectively deployed in real-world WiFi-based HAR applications. Our results also serve as a practical guideline for industry practitioners and provide valuable insights for future research endeavors in this field.
翻訳日:2023-08-14 01:37:53 公開日:2023-07-19
# 奇妙な絡み合い:中性カオン系の実験的・理論的展望

Exploring Strange Entanglement: Experimental and Theoretical Perspectives on Neutral Kaon Systems ( http://arxiv.org/abs/2307.15595v1 )

ライセンス: Link先を確認
Nahid Binandeh Dehaghani, A. Pedro Aguiar, Rafal Wisniewski(参考訳) この章は、中性Kメーソンに関連する性質と現象を詳細に分析する。 カオンとは、奇妙な振る舞いを示す量子システムである。 まず、これらの粒子を理解する上での奇異性と電荷パリティ違反の重要性を検討する。 次に奇妙な振動の概念を導入し、$K^0$と$\bar{K}^0$状態の間の振動を説明する。 関連するメカニズムを明らかにするために、$k_s$の再生を調べる。 議論は準スピン空間へと進み、基礎とその意味を探求する。 カオン対の絡み合った状態 $(K^0,\bar K^0)$ は、最大エンタングルされた中性カオンと非最大エンタングル状態に焦点をあてて検討される。 エンタングルケーオンのデコヒーレンス効果について検討し, 密度行列記述を用いて力学を捉える。 専用デコヒーレンスパラメータを導入し、デコヒーレンスの影響を定量化する。 さらに、フォン・ノイマンのエンタングルメントエントロピー、エンタングルメントの形成、コンカージェンスなどの手段により、エンタングルメントの喪失を調査している。 これらの尺度は、中性カオンの文脈における絡み合いの定量化と特徴づけに関する洞察を与える。 この章は、性質、現象、絡み合いのダイナミクスを包括的に探求することで、ニュートラルカロンに関する最近の研究を指摘し、粒子物理学の進歩に貢献した。

This chapter provides an in-depth analysis of the properties and phenomena associated with neutral K-mesons. Kaons are quantum systems illustrating strange behaviours. We begin by examining the significance of strangeness and charge parity violation in understanding these particles. The concept of strangeness oscillations is then introduced, explaining oscillations between $K^0$ and $\bar{K}^0$ states. The regeneration of $K_S$ is investigated, uncovering the underlying mechanisms involved. The discussion moves on to quasi-spin space, exploring its bases and their implications. The entangled states of kaon pairs $(K^0,\bar K^0)$ are considered, with a focus on maximally entangled neutral kaons and non-maximally entangled states. Decoherence effects on entangled kaons are examined, utilizing the density matrix description to capture the dynamics. A dedicated decoherence parameter is introduced to quantify the impact of decoherence. Furthermore, the chapter investigates the loss of entanglement through measures such as Von Neumann entanglement entropy, entanglement of formation, and concurrence. These measures provide insights into quantifying and characterizing entanglement in the context of neutral kaons. Through this comprehensive exploration of properties, phenomena, and entanglement dynamics, this chapter aims to pointing out recent works on neutral kaons, contributing to advancements in particle physics.
翻訳日:2023-08-06 11:34:49 公開日:2023-07-19
# BCDDO: バイナリ・チャイルド描画開発最適化

BCDDO: Binary Child Drawing Development Optimization ( http://arxiv.org/abs/2308.01270v1 )

ライセンス: Link先を確認
Abubakr S. Issa, Yossra H. Ali, Tarik A. Rashid(参考訳) 本研究では,メタヒューリスティックアルゴリズムのベクトル化をベクトル化最適化の第一段階として提案する。 ベクトル化(Vectorization)は、一度に1つの値で動作するアルゴリズムを、一度に1つの値のコレクションで動作して高速に実行するアルゴリズムに変換するテクニックである。 ベクトル化技術は、複数のイテレーションを1つの操作に置き換えることで、アルゴリズムのパフォーマンスを向上し、アルゴリズムをよりシンプルに実装しやすくする。 ベクタライズ手法を実装してアルゴリズムを最適化することが重要であり、これによりプログラムのパフォーマンスが向上し、長いテスト関数を高速に実行でき、非ベクトル化アルゴリズムでは実装できないテスト関数を実行し、イテレーションや時間の複雑さを低減できる。 ベクトル化に変換して複数の値を一度に操作し、アルゴリズムの速度と効率を高めることは、長い実行時間と複雑なアルゴリズムの解決策である。 本研究の目的は,メタヒューリスティックアルゴリズムの1つにベクトル化手法を用い,ベクトル化アルゴリズムの結果を非ベクトル化アルゴリズムと比較することである。

This study presents the vectorization of metaheuristic algorithms as the first stage of vectorized optimization implementation. Vectorization is a technique for converting an algorithm, which operates on a single value at a time to one that operates on a collection of values at a time to execute rapidly. The vectorization technique also operates by replacing multiple iterations into a single operation, which improves the algorithm's performance in speed and makes the algorithm simpler and easier to be implemented. It is important to optimize the algorithm by implementing the vectorization technique, which improves the program's performance, which requires less time and can run long-running test functions faster, also execute test functions that cannot be implemented in non-vectorized algorithms and reduces iterations and time complexity. Converting to vectorization to operate several values at once and enhance algorithms' speed and efficiency is a solution for long running times and complicated algorithms. The objective of this study is to use the vectorization technique on one of the metaheuristic algorithms and compare the results of the vectorized algorithm with the algorithm which is non-vectorized.
翻訳日:2023-08-06 10:54:56 公開日:2023-07-19
# VAPI:パフォーマンス向上のためのアルゴリズムのベクトル化

VAPI: Vectorization of Algorithm for Performance Improvement ( http://arxiv.org/abs/2308.01269v1 )

ライセンス: Link先を確認
Mahmood Yashar and Tarik A. Rashid(参考訳) 本研究では,メタヒューリスティックアルゴリズムのベクトル化をベクトル化最適化の第一段階として提案する。 ベクトル化(Vectorization)は、一度に1つの値で動作するアルゴリズムを、一度に1つの値のコレクションで動作して高速に実行するアルゴリズムに変換するテクニックである。 ベクトル化技術は、複数のイテレーションを1つの操作に置き換えることで、アルゴリズムのパフォーマンスを向上し、アルゴリズムをよりシンプルに実装しやすくする。 ベクタライズ手法を実装してアルゴリズムを最適化することが重要であり、これによりプログラムのパフォーマンスが向上し、長いテスト関数を高速に実行でき、非ベクトル化アルゴリズムでは実装できないテスト関数を実行し、イテレーションや時間の複雑さを低減できる。 ベクトル化に変換して複数の値を一度に操作し、アルゴリズムの速度と効率を高めることは、長い実行時間と複雑なアルゴリズムの解決策である。 本研究の目的は,メタヒューリスティックアルゴリズムの1つにベクトル化手法を用い,ベクトル化アルゴリズムの結果を非ベクトル化アルゴリズムと比較することである。

This study presents the vectorization of metaheuristic algorithms as the first stage of vectorized optimization implementation. Vectorization is a technique for converting an algorithm, which operates on a single value at a time to one that operates on a collection of values at a time to execute rapidly. The vectorization technique also operates by replacing multiple iterations into a single operation, which improves the algorithm's performance in speed and makes the algorithm simpler and easier to be implemented. It is important to optimize the algorithm by implementing the vectorization technique, which improves the program's performance, which requires less time and can run long-running test functions faster, also execute test functions that cannot be implemented in non-vectorized algorithms and reduces iterations and time complexity. Converting to vectorization to operate several values at once and enhance algorithms' speed and efficiency is a solution for long running times and complicated algorithms. The objective of this study is to use the vectorization technique on one of the metaheuristic algorithms and compare the results of the vectorized algorithm with the algorithm which is non-vectorized.
翻訳日:2023-08-06 10:54:36 公開日:2023-07-19
# 微分プライベート線形最適化における特徴前処理の重要性

The importance of feature preprocessing for differentially private linear optimization ( http://arxiv.org/abs/2307.11106v1 )

ライセンス: Link先を確認
Ziteng Sun, Ananda Theertha Suresh, Aditya Krishna Menon(参考訳) 近年,差分プライバシー(DP)を用いた機械学習モデルの訓練が注目されている。 微分プライベートモデルを訓練するための最も一般的なアルゴリズムの1つは微分プライベート確率勾配降下(dpsgd)とその変種であり、各ステップの勾配はクリップされ、いくつかのノイズと組み合わせられる。 DPSGDは、プライバシの制約の下で、すべてのデータセットに対して適切な最小化子を見つけるのに十分なものなのでしょうか? この質問に答える第一歩として、非プライベートな最適化とは異なり、線形分類の単純な場合であっても、(プライベートな)特徴前処理は微分プライベートな最適化に不可欠であることを示す。 より詳しくは、機能前処理がなければ、DPSGDは全てのサンプルに対して機能の最大基準に比例したプライバシーエラーを発生させる例が存在することを理論的に示す。 次に、DPSGDと特徴前処理を組み合わせたDPSGD-Fというアルゴリズムを提案し、分類タスクでは、特徴の直径が$\max_{x, x' \in D} \|xx'\|_2$に比例してプライバシーエラーが発生することを証明した。 次に,画像分類ベンチマークによるアルゴリズムの実用性を示す。

Training machine learning models with differential privacy (DP) has received increasing interest in recent years. One of the most popular algorithms for training differentially private models is differentially private stochastic gradient descent (DPSGD) and its variants, where at each step gradients are clipped and combined with some noise. Given the increasing usage of DPSGD, we ask the question: is DPSGD alone sufficient to find a good minimizer for every dataset under privacy constraints? As a first step towards answering this question, we show that even for the simple case of linear classification, unlike non-private optimization, (private) feature preprocessing is vital for differentially private optimization. In detail, we first show theoretically that there exists an example where without feature preprocessing, DPSGD incurs a privacy error proportional to the maximum norm of features over all samples. We then propose an algorithm called DPSGD-F, which combines DPSGD with feature preprocessing and prove that for classification tasks, it incurs a privacy error proportional to the diameter of the features $\max_{x, x' \in D} \|x - x'\|_2$. We then demonstrate the practicality of our algorithm on image classification benchmarks.
翻訳日:2023-07-24 14:49:07 公開日:2023-07-19
# AAAゲームにおける強化学習エージェントの展開に関する技術的課題

Technical Challenges of Deploying Reinforcement Learning Agents for Game Testing in AAA Games ( http://arxiv.org/abs/2307.11105v1 )

ライセンス: Link先を確認
Jonas Gillberg, Joakim Bergdahl, Alessandro Sestini, Andrew Eakins, Linus Gisslen(参考訳) 研究からプロダクション、特に大規模で複雑なソフトウェアシステムへの移行は、基本的に難しい問題です。 大規模ゲームでは、開発環境が最終製品と大きく異なる可能性があることが主な理由である。 本稿では,スクリプト化されたボットをベースとした既存の自動ゲームテストソリューションに,実験的な強化学習システムを追加することで,その能力向上を図る。 本稿では,この強化学習システムが,バトルフィールド2042やデッドスペース(2023)を含む一連のAAAゲームにおいて,[1]と似たテストカバレッジ向上を目的としてどのように統合されたかを報告する。 本論文の目的は,ゲーム制作における強化学習の活用と,ゲームに同じ旅をしたい人なら誰でも経験できる最大の時間について紹介することである。 さらに,ゲーム産業がこの技術を採用するのを早めるために,機械学習,特に強化学習がゲーム生産に有効なツールとして有用で必要な研究指針をいくつか提案する。

Going from research to production, especially for large and complex software systems, is fundamentally a hard problem. In large-scale game production, one of the main reasons is that the development environment can be very different from the final product. In this technical paper we describe an effort to add an experimental reinforcement learning system to an existing automated game testing solution based on scripted bots in order to increase its capacity. We report on how this reinforcement learning system was integrated with the aim to increase test coverage similar to [1] in a set of AAA games including Battlefield 2042 and Dead Space (2023). The aim of this technical paper is to show a use-case of leveraging reinforcement learning in game production and cover some of the largest time sinks anyone who wants to make the same journey for their game may encounter. Furthermore, to help the game industry to adopt this technology faster, we propose a few research directions that we believe will be valuable and necessary for making machine learning, and especially reinforcement learning, an effective tool in game production.
翻訳日:2023-07-24 14:48:44 公開日:2023-07-19
# 最も適切な集中度尺度をどうやって選ぶか? 決定木アプローチ

How to choose the most appropriate centrality measure? A decision tree approach ( http://arxiv.org/abs/2003.01052v5 )

ライセンス: Link先を確認
Pavel Chebotarev and Dmitry Gubanov(参考訳) 集中度指標はネットワーク分析に不可欠であるが、400以上の指標の中で、特定の用途に最も適した尺度を選択することは依然として困難である。 既存のアプローチ -- モデルベース、データ駆動、アクシオマティクス -- には制限がある。 これを解決するために,簡単なグラフ上での集中度行動に関する専門家の嗜好を活用するカリング手法を提案する。 これは、一連の候補尺度を作成し、互いに「分離」尺度を作成するために可能な限り小さなグラフのリストを生成し、意思決定木調査を構築し、専門家の反応と一致した尺度を特定することを含む。 この手法を,新しいカーネルベース尺度を含む40の中央値の多種多様な集合に適用し,公理的アプローチと組み合わせる。 注目すべきは、40のすべての測度を分離するのに十分な小さな1-木が13個しかないことだ。 このカリング法は、労働と時間の面で低コストなソリューションを提供し、既存の選別方法を補完し、集中度対策の重要な特質を明らかにする。

Centrality metrics are vital for network analysis, but selecting the most appropriate measures for specific applications remains challenging among the 400+ proposed indices. Existing approaches -- model-based, data-driven, and axiomatic -- have limitations. To address this, we introduce the culling method, leveraging expert preferences regarding centrality behavior on simple graphs. It involves forming a set of candidate measures, generating a list of as small graphs as possible needed to ``separate'' measures from each other, constructing a decision-tree survey, and identifying the measure consistent with expert responses. We apply this method to a diverse set of 40 centralities, including new kernel-based measures, and combine it with the axiomatic approach. Remarkably, only 13 small 1-trees suffice to separate all 40 measures, among which there are pairs of close ones. The culling method offers a low-cost solution in terms of labor and time, complements existing methods for measure selection, and reveals important peculiarities of centrality measures.
翻訳日:2023-07-21 19:34:20 公開日:2023-07-19
# 経時的及び経時的線量応答曲線に対する逐次カーネル埋め込み

Sequential Kernel Embedding for Mediated and Time-Varying Dose Response Curves ( http://arxiv.org/abs/2111.03950v4 )

ライセンス: Link先を確認
Rahul Singh, Liyuan Xu, Arthur Gretton(参考訳) 本稿では,カーネルリッジ回帰に基づく媒介および時間変化量応答曲線に対する簡易な非パラメトリック推定器を提案する。 パールの仲介公式とロビンズのg-形式をカーネルに埋め込むことにより、治療、仲介者、共変量体が一般空間で連続することを可能にし、非線形な処理共起フィードバックを可能にする。 我々の重要な革新は、シーケンシャルカーネル埋め込みと呼ばれる再現カーネルヒルベルト空間技術であり、複雑な因果推定のための単純な推定器を構築するために使用される。 我々の推定値は古典的識別の一般性を維持しつつ、非漸近的一様率も達成している。 多くの共変量を持つ非線形シミュレーションでは,強い性能を示す。 我々は,米国の職域における被曝線量反応曲線と時間変化線量応答曲線を推定し,将来の作業の指標となるようなクリーンなデータを推定する。 我々は, 半パラメトリック効率と弱い収束性を検証することで, 治療効果と偽物分布に効果を及ぼした。

We propose simple nonparametric estimators for mediated and time-varying dose response curves based on kernel ridge regression. By embedding Pearl's mediation formula and Robins' g-formula with kernels, we allow treatments, mediators, and covariates to be continuous in general spaces, and also allow for nonlinear treatment-confounder feedback. Our key innovation is a reproducing kernel Hilbert space technique called sequential kernel embedding, which we use to construct simple estimators for complex causal estimands. Our estimators preserve the generality of classic identification while also achieving nonasymptotic uniform rates. In nonlinear simulations with many covariates, we demonstrate strong performance. We estimate mediated and time-varying dose response curves of the US Job Corps, and clean data that may serve as a benchmark in future work. We extend our results to mediated and time-varying treatment effects and counterfactual distributions, verifying semiparametric efficiency and weak convergence.
翻訳日:2023-07-21 19:28:24 公開日:2023-07-19
# 勧告システムのための深層探査

Deep Exploration for Recommendation Systems ( http://arxiv.org/abs/2109.12509v3 )

ライセンス: Link先を確認
Zheqing Zhu, Benjamin Van Roy(参考訳) 現代のレコメンデーションシステムは、遅れたフィードバックを探索し、学ぶことで恩恵を受けるべきです。 研究は、単一のレコメンデーションに対するユーザの反応から学ぶことに集中する傾向があります。 このような作業は、教師やバンディット学習の手法を活用し、ユーザのその後の行動から学ぶことを禁じている。 過去の研究がその後の行動から学ぶことを目指していたところでは、情報に遅れたフィードバックを導き出す効果的な方法が不足している。 フィードバックの遅れによる効果的な探索は、報酬が不足している場合に特に困難になる。 そこで我々は,レコメンデーションシステムのための深層探査手法を開発した。 特に,推薦を逐次的決定問題として定式化し,単段探索よりも深い探索の利点を示す。 本実験は,高忠実度産業用シミュレータを用いて実施し,既存のアルゴリズムに対する大幅な改善を図る。

Modern recommendation systems ought to benefit by probing for and learning from delayed feedback. Research has tended to focus on learning from a user's response to a single recommendation. Such work, which leverages methods of supervised and bandit learning, forgoes learning from the user's subsequent behavior. Where past work has aimed to learn from subsequent behavior, there has been a lack of effective methods for probing to elicit informative delayed feedback. Effective exploration through probing for delayed feedback becomes particularly challenging when rewards are sparse. To address this, we develop deep exploration methods for recommendation systems. In particular, we formulate recommendation as a sequential decision problem and demonstrate benefits of deep exploration over single-step exploration. Our experiments are carried out with high-fidelity industrial-grade simulators and establish large improvements over existing algorithms.
翻訳日:2023-07-21 19:27:01 公開日:2023-07-19
# airnet: 空気上でのニューラルネットワークの伝送

AirNet: Neural Network Transmission over the Air ( http://arxiv.org/abs/2105.11166v6 )

ライセンス: Link先を確認
Mikolaj Jankowski, Deniz Gunduz, Krystian Mikolajczyk(参考訳) 多くのエッジアプリケーションの最先端性能はディープニューラルネットワーク(DNN)によって達成されている。 多くの場合、これらのDNNは位置や時間に敏感であり、無線チャネルを介して迅速かつ効率的に配信されなければならない。 本稿では,dnnの伝送電力と遅延の制約の下で,無線チャネル上で効率的にdnnを配信することを可能にする,新しいトレーニングおよび伝送方法のファミリであるairnetを提案する。 これは、高い忠実度で回復するのではなく、受信機での精度を最大化することを目的としてdnnを提供することを目的とした、新しい種類のソースチャネル・コーディング問題に対応している。 AirNetでは,送信されたチャネルシンボルへのDNNパラメータの直接マッピングを提案し,チャネル制約を満たすためにネットワークを訓練し,チャネルノイズに対するロバスト性を示す。 AirNetは分離ベースの代替よりも精度が高い。 さらに,ネットワークを帯域幅以下に分割し,堅牢性向上のために拡張することで,airnetの性能をさらに向上させる。 また、ネットワークの重要なレイヤを選択的に拡張することで、エラー保護の不平等の恩恵を受ける。 最後に、異なるチャネル条件をターゲットにしたDNNのスペクトルを同時に訓練し、異なるチャネル条件に対して異なるネットワークをトレーニングする際の非現実的なメモリ要件を解決するアプローチを開発する。

State-of-the-art performance for many edge applications is achieved by deep neural networks (DNNs). Often, these DNNs are location- and time-sensitive, and must be delivered over a wireless channel rapidly and efficiently. In this paper, we introduce AirNet, a family of novel training and transmission methods that allow DNNs to be efficiently delivered over wireless channels under stringent transmit power and latency constraints. This corresponds to a new class of joint source-channel coding problems, aimed at delivering DNNs with the goal of maximizing their accuracy at the receiver, rather than recovering them with high fidelity. In AirNet, we propose the direct mapping of the DNN parameters to transmitted channel symbols, while the network is trained to meet the channel constraints, and exhibit robustness against channel noise. AirNet achieves higher accuracy compared to separation-based alternatives. We further improve the performance of AirNet by pruning the network below the available bandwidth, and expanding it for improved robustness. We also benefit from unequal error protection by selectively expanding important layers of the network. Finally, we develop an approach, which simultaneously trains a spectrum of DNNs, each targeting a different channel condition, resolving the impractical memory requirements of training distinct networks for different channel conditions.
翻訳日:2023-07-21 19:25:05 公開日:2023-07-19
# QPAC学習フレームワークにおける可変量子ニューラルネットワーク

Tunable Quantum Neural Networks in the QPAC-Learning Framework ( http://arxiv.org/abs/2205.01514v3 )

ライセンス: Link先を確認
Viet Pham Ngoc, David Tuckey, Herbert Wiklicky(参考訳) 本稿では,量子確率近似(QPAC)学習フレームワークにおけるチューナブル量子ニューラルネットワークの性能について検討する。 チューナブルニューラルネットワークは、マルチコントロールされた$\mathbf{X}$ゲートからなる量子回路である。 制御のセットをチューニングすることで、これらの回路はブール関数を近似することができる。 このアーキテクチャは、オラクルが生成した重ね合わせを処理できるため、QPAC学習フレームワークでの使用に特に適している。 ターゲット概念を近似できるようにネットワークをチューニングするために,振幅増幅に基づくアルゴリズムを考案し,実装した。 数値的な結果は,パリティ関数を効率的に学習できることを示している。 この場合、サンプルの複雑さは$\Omega\left(\frac{d}{\epsilon} + \log\left(\frac{1}{\epsilon}\right)\frac{1}{\delta^2}\right)$である。

In this paper, we investigate the performances of tunable quantum neural networks in the Quantum Probably Approximately Correct (QPAC) learning framework. Tunable neural networks are quantum circuits made of multi-controlled $\mathbf{X}$ gates. By tuning the set of controls these circuits are able to approximate any Boolean functions. This architecture is particularly suited to be used in the QPAC-learning framework as it can handle the superposition produced by the oracle. In order to tune the network so that it can approximate a target concept, we have devised and implemented an algorithm based on amplitude amplification. The numerical results show that this approach can efficiently learn parity functions. In which case, the sample complexity is in $\Omega\left(\frac{d}{\epsilon} + \log\left(\frac{1}{\epsilon}\right)\frac{1}{\delta^2}\right)$.
翻訳日:2023-07-21 19:17:54 公開日:2023-07-19
# 多光子絡み合い状態近似のためのピンチング演算子

Pinching operators for approximating multiphoton entangled states ( http://arxiv.org/abs/2112.07546v2 )

ライセンス: Link先を確認
Skylar R. Turner and Brian R. La Cour(参考訳) 我々は、スキューズ作用素の理論をガウス作用素と高次非ガウス作用素に拡張するピンチ作用素を導入し、ピンチ真空状態とランク$n$のピンチテンソルを用いて、n$-フォトンの絡み合った状態に近似する。 単純な再帰関係はボゴリューボフ変換の生成と消滅演算子を生成するために導出され、これはピンチ状態を非線形変換された複素ガウス確率変数の統計的に等価な集合として表現するために用いられる。 この表現を用いて、ピンチ状態の低次近似と、GHZ(Greenberger-Horne-Zeilinger)やW状態のような絡み合った多光子フォック状態を比較する。 非ガウス測度を表すために,ポストセレクションとしきい値検出モデルを用いて,実験により得られた多光子絡み合った状態に匹敵する忠実な状態を生成することができることがわかった。 特に、5光子 GHZ 状態に対して 5.27 \pm 0.01$ のメルミン統計値を得る。

We introduce the pinching operator, which extends the theory of squeezing operators to cubic and higher order non-Gaussian operators, and use it to approximate $n$-photon entangled states using a pinched vacuum state and pinching tensor of rank $n$. A simple recursion relation is derived for generating the Bogoliubov transformed creation and annihilation operators, which may be used to express the pinched state as a statistically equivalent set of nonlinearly transformed complex Gaussian random variables. Using this representation, we compare low-order approximations of the pinched state to entangled multiphoton Fock states, such as Greenberger-Horne-Zeilinger (GHZ) and W states. Using post-selection and a threshold detector model to represent non-Gaussian measurements, we find that this model is capable of producing states with a fidelity comparable to that of experimentally prepared multiphoton entangled states. In particular, we obtain a Mermin statistic of $5.27 \pm 0.01$ for a five-photon GHZ state, violating the noncontexuality threshold by 127 standard deviations.
翻訳日:2023-07-21 19:16:46 公開日:2023-07-19
# ニューラルネットワークを用いたランダムユーティリティ選択モデルの表現

Representing Random Utility Choice Models with Neural Networks ( http://arxiv.org/abs/2207.12877v2 )

ライセンス: Link先を確認
Ali Aouad, Antoine D\'esir(参考訳) ディープラーニングの成功に動機づけられ、ランダムユーティリティ最大化(rum)フレームワークにインスパイアされた、rumnetsと呼ばれるニューラルネットワークベースの離散的選択モデルクラスを提案する。 このモデルはサンプル平均近似を用いてエージェントのランダムユーティリティ関数を定式化する。 ランダムなユーティリティの最大化から導かれるモデルは任意の選択確率を持ち、RUMnetにより任意に近似できる。 逆に、任意の RUMnet は RUM の原理と一致する。 我々は、選択データに適合するRUMnetの一般化誤差の上限を導出し、データセットとアーキテクチャの臨界パラメータに依存する新しい未知のデータの選択を予測する能力に関する理論的洞察を得る。 ニューラルネットワークのオープンソースライブラリを活用することで、RUMnetは2つの実世界のデータセットの予測精度の観点から、いくつかの選択肢モデリングや機械学習手法と競合することがわかった。

Motivated by the successes of deep learning, we propose a class of neural network-based discrete choice models, called RUMnets, inspired by the random utility maximization (RUM) framework. This model formulates the agents' random utility function using a sample average approximation. We show that RUMnets sharply approximate the class of RUM discrete choice models: any model derived from random utility maximization has choice probabilities that can be approximated arbitrarily closely by a RUMnet. Reciprocally, any RUMnet is consistent with the RUM principle. We derive an upper bound on the generalization error of RUMnets fitted on choice data, and gain theoretical insights on their ability to predict choices on new, unseen data depending on critical parameters of the dataset and architecture. By leveraging open-source libraries for neural networks, we find that RUMnets are competitive against several choice modeling and machine learning methods in terms of predictive accuracy on two real-world datasets.
翻訳日:2023-07-21 19:08:03 公開日:2023-07-19
# 効果的かつ効率的なゼロショット距離検索のための学習とハッシュによるドメイン適応注入

Injecting Domain Adaptation with Learning-to-hash for Effective and Efficient Zero-shot Dense Retrieval ( http://arxiv.org/abs/2205.11498v2 )

ライセンス: Link先を確認
Nandan Thakur, Nils Reimers, Jimmy Lin(参考訳) デンス検索は語彙的ギャップを克服し,アドホック情報検索(IR)において大きな成功を収めた。 その成功にもかかわらず、密集したレトリバーは実用的なユースケースにまたがって機能するのに高価である。 数百万のドキュメントから検索する必要のあるユースケースでは、高密度インデックスはばらばらになり、インデックスを格納するために高いメモリ使用量を必要とする。 最近では、例えばBPRやJPQのようなLTH(Learning-to-hash)技術がバイナリ文書ベクトルを生成して、高密度インデックスを効率的に保存するためのメモリ要求を低減している。 LTHテクニックを教師し、ランキングロスを使用してレトリバーを微調整する。 PCAやPQのような従来のアウト・オブ・ザ・ボックスのベクトル圧縮技術よりも優れている。 以前の研究で欠けているのは、既存の技術はドメイン内、すなわちMS MARCOのような単一のデータセットでのみ評価されていることである。 本研究では,TAS-B高密度レシーバの下流ゼロショット取得精度を向上させるためのLTHおよびベクトル圧縮技術の評価を行った。 その結果,先行研究と異なり,naiveが適用した場合のlth戦略は平均で14% ndcg@10 の非ショット tas-b 高密度レトリバーを過小評価できることがわかった。 この制限を解決するため、本研究では、既存のLTH技術を用いてドメイン適応を注入する容易かつ効果的な方法を提案する。 我々は、よく知られた教師なしドメイン適応技術であるGenQとGPLを実験した。 我々のドメイン適応インジェクション技術は、平均11.5%と8.2%のnDCG@10でTAS-BモデルのBPRおよびJPQモデルの下流ゼロショット検索効率を向上し、32$\times$メモリ効率と14$\times$と2$\times$メモリ効率をそれぞれBEIR上のCPU検索レイテンシで向上させることができる。 私たちのコード、モデル、データはすべて、https://github.com/thakur-nandan/incomeで公開されています。

Dense retrieval overcome the lexical gap and has shown great success in ad-hoc information retrieval (IR). Despite their success, dense retrievers are expensive to serve across practical use cases. For use cases requiring to search from millions of documents, the dense index becomes bulky and requires high memory usage for storing the index. More recently, learning-to-hash (LTH) techniques, for e.g., BPR and JPQ, produce binary document vectors, thereby reducing the memory requirement to efficiently store the dense index. LTH techniques are supervised and finetune the retriever using a ranking loss. They outperform their counterparts, i.e., traditional out-of-the-box vector compression techniques such as PCA or PQ. A missing piece from prior work is that existing techniques have been evaluated only in-domain, i.e., on a single dataset such as MS MARCO. In our work, we evaluate LTH and vector compression techniques for improving the downstream zero-shot retrieval accuracy of the TAS-B dense retriever while maintaining efficiency at inference. Our results demonstrate that, unlike prior work, LTH strategies when applied naively can underperform the zero-shot TAS-B dense retriever on average by up to 14% nDCG@10 on the BEIR benchmark. To solve this limitation, in our work, we propose an easy yet effective solution of injecting domain adaptation with existing supervised LTH techniques. We experiment with two well-known unsupervised domain adaptation techniques: GenQ and GPL. Our domain adaptation injection technique can improve the downstream zero-shot retrieval effectiveness for both BPR and JPQ variants of the TAS-B model by on average 11.5% and 8.2% nDCG@10 while both maintaining 32$\times$ memory efficiency and 14$\times$ and 2$\times$ speedup respectively in CPU retrieval latency on BEIR. All our code, models, and data are publicly available at https://github.com/thakur-nandan/income.
翻訳日:2023-07-21 19:05:20 公開日:2023-07-19
# フェデレーションバックドア攻撃に対する防御のための不変アグリゲータ

Invariant Aggregator for Defending against Federated Backdoor Attacks ( http://arxiv.org/abs/2210.01834v2 )

ライセンス: Link先を確認
Xiaoyang Wang, Dimitrios Dimitriadis, Sanmi Koyejo, Shruti Tople(参考訳) プライベートデータを直接共有することなく、複数のクライアント間で高可用性モデルをトレーニングできるため、フェデレーション学習が人気を集めている。 マイナス面として、フェデレーション設定は、悪意のあるクライアントの存在下で、様々な敵の攻撃に対して、モデルを脆弱にする。 モデルの実用性を低下させようとする攻撃に対する理論的かつ実証的な成功にもかかわらず、バックドアサンプルのモデルの精度を高めるバックドア攻撃に対する防御は、他のサンプルの実用性を損なうことなく、依然として困難である。 そこで本研究では,resnet (he et al., 2015) のようなよく設計されたニューラルネットワークではよく見られる,フラットなロスランドスケープ上のバックドア攻撃に対するフェデレーション学習の脆弱性を分析した。 フラットな損失の状況において、悪意のあるクライアントにバックドアのサンプルを提供するという誤解を招く学習モデルは、悪意のあるクライアントと良心的なクライアントの更新の間に大きな違いを必要としないため、既存の防御は不十分である。 これとは対照的に, 差分数によらず, 悪意のあるクライアントに好まれる勾配要素を選択的にマスキングすることで, 一般に有用であるような, 集約された更新を不変方向へリダイレクトする不変アグリゲータを提案する。 理論的には, 提案手法は, フラットランドとシャープランドの両方に対するバックドア攻撃を確実に軽減すると考えられる。 異なるモダリティと異なる数のクライアントを持つ3つのデータセットに対する実証的な結果は、我々のアプローチがモデルユーティリティーに無視できないコストで幅広いバックドア攻撃を緩和することを示している。

Federated learning is gaining popularity as it enables training high-utility models across several clients without directly sharing their private data. As a downside, the federated setting makes the model vulnerable to various adversarial attacks in the presence of malicious clients. Despite the theoretical and empirical success in defending against attacks that aim to degrade models' utility, defense against backdoor attacks that increase model accuracy on backdoor samples exclusively without hurting the utility on other samples remains challenging. To this end, we first analyze the vulnerability of federated learning to backdoor attacks over a flat loss landscape which is common for well-designed neural networks such as Resnet [He et al., 2015] but is often overlooked by previous works. Over a flat loss landscape, misleading federated learning models to exclusively benefit malicious clients with backdoor samples do not require a significant difference between malicious and benign client-wise updates, making existing defenses insufficient. In contrast, we propose an invariant aggregator that redirects the aggregated update to invariant directions that are generally useful via selectively masking out the gradient elements that favor few and possibly malicious clients regardless of the difference magnitude. Theoretical results suggest that our approach provably mitigates backdoor attacks over both flat and sharp loss landscapes. Empirical results on three datasets with different modalities and varying numbers of clients further demonstrate that our approach mitigates a broad class of backdoor attacks with a negligible cost on the model utility.
翻訳日:2023-07-21 18:58:51 公開日:2023-07-19
# SAFARI:解釈可能性のロバスト性の評価

SAFARI: Versatile and Efficient Evaluations for Robustness of Interpretability ( http://arxiv.org/abs/2208.09418v3 )

ライセンス: Link先を確認
Wei Huang, Xingyu Zhao, Gaojie Jin, Xiaowei Huang(参考訳) ディープラーニングの解釈可能性(DL)は、信頼できるAIの障壁である。 説明可能なAI(XAI)コミュニティによる多大な努力にもかかわらず、説明には堅牢性がない。 したがって、XAI法を考えると、DL解釈可能性の堅牢性を評価することが不可欠である。 本稿では,最先端技術が総じて対処できないいくつかの課題を明らかにする。 一 既存の指標が包括的でないこと。 二 XAI技術は、非常に異質である。 三 誤解は、通常まれな出来事である。 これらの課題に取り組むため,本研究では,最悪の場合の解釈の不一致について,ブラックボックス評価手法を2つ紹介する。 遺伝的アルゴリズム (GA) は, 効率の悪いケース評価のために, 制約付き最適化を解くために用いられる。 希少事象の確率を推定するサブセットシミュレーション(ss)は、全体のロバスト性を評価するために使用される。 実験により, 提案手法の精度, 感度, 効率が最先端技術よりも優れていることが示された。 最後に,ロバストなxai手法のランク付けと,分類と解釈のロバスト性を改善するためのトレーニングスキームの選択という2つの応用例を示す。

Interpretability of Deep Learning (DL) is a barrier to trustworthy AI. Despite great efforts made by the Explainable AI (XAI) community, explanations lack robustness -- indistinguishable input perturbations may lead to different XAI results. Thus, it is vital to assess how robust DL interpretability is, given an XAI method. In this paper, we identify several challenges that the state-of-the-art is unable to cope with collectively: i) existing metrics are not comprehensive; ii) XAI techniques are highly heterogeneous; iii) misinterpretations are normally rare events. To tackle these challenges, we introduce two black-box evaluation methods, concerning the worst-case interpretation discrepancy and a probabilistic notion of how robust in general, respectively. Genetic Algorithm (GA) with bespoke fitness function is used to solve constrained optimisation for efficient worst-case evaluation. Subset Simulation (SS), dedicated to estimate rare event probabilities, is used for evaluating overall robustness. Experiments show that the accuracy, sensitivity, and efficiency of our methods outperform the state-of-the-arts. Finally, we demonstrate two applications of our methods: ranking robust XAI methods and selecting training schemes to improve both classification and interpretation robustness.
翻訳日:2023-07-21 18:56:32 公開日:2023-07-19
# パラメトリック関数近似による大域的最適化

Global Optimization with Parametric Function Approximation ( http://arxiv.org/abs/2211.09100v3 )

ライセンス: Link先を確認
Chong Liu, Yu-Xiang Wang(参考訳) 我々は,高パラメータチューニングやディープラーニング,新しい材料設計など,さまざまな応用に有用な,ノイズの多いゼロ次オラクルによる大域的最適化の問題を考察する。 既存の研究は、次元の呪いに苦しむガウス過程や他の非パラメトリック族に依存している。 本稿では,パラメトリックな関数群(例えばニューラルネットワーク)を利用する新しいアルゴリズムGO-UCBを提案する。 実現可能な仮定や、その他の微妙な幾何学的条件の下で、GO-UCB は \~O$(\sqrt{T})$ の累積的後悔を達成する。 GO-UCBの中核は、楽観的な探索を可能にする勾配に基づくパラメータに関する慎重に設計された不確実性セットである。 合成および実世界の実験は、GO-UCBがベイズ最適化のアプローチよりもうまく機能することを示した。

We consider the problem of global optimization with noisy zeroth order oracles - a well-motivated problem useful for various applications ranging from hyper-parameter tuning for deep learning to new material design. Existing work relies on Gaussian processes or other non-parametric family, which suffers from the curse of dimensionality. In this paper, we propose a new algorithm GO-UCB that leverages a parametric family of functions (e.g., neural networks) instead. Under a realizable assumption and a few other mild geometric conditions, we show that GO-UCB achieves a cumulative regret of \~O$(\sqrt{T})$ where $T$ is the time horizon. At the core of GO-UCB is a carefully designed uncertainty set over parameters based on gradients that allows optimistic exploration. Synthetic and real-world experiments illustrate GO-UCB works better than popular Bayesian optimization approaches, even if the model is misspecified.
翻訳日:2023-07-21 18:48:01 公開日:2023-07-19
# pyRDDLGym:RDDLからGym環境へ

pyRDDLGym: From RDDL to Gym Environments ( http://arxiv.org/abs/2211.05939v4 )

ライセンス: Link先を確認
Ayal Taitler, Michael Gimelfarb, Jihwan Jeong, Sriram Gopalakrishnan, Martin Mladenov, Xiaotian Liu, Scott Sanner(参考訳) 提案するpyRDDLGymは, RDDL宣言記述からOpenAI Gym環境の自動生成のためのPythonフレームワークである。 rddlにおける変数の離散時間ステップ進化は、ジムステップスキームに自然に適合する条件付き確率関数によって記述される。 さらに、RDDLは持ち上げられた記述であるため、複数のエンティティと異なる構成をサポートする環境の修正とスケールアップは、面倒なプロセスではなく、簡単になる。 我々は,pyRDDLGymがRDDLの独特な表現力により,ベンチマークの容易かつ迅速な開発を可能にすることで,強化学習コミュニティの新たな風として機能することを期待する。 rddl記述におけるモデルへの明示的なアクセスを提供することで、pyrddlgymはモデルの知識を活用しながら相互作用から学ぶためのハイブリッドアプローチの研究を促進できる。 本稿では、pyRDDLGymの設計と組込み例と、フレームワークに組み込まれたRDDL言語への追加について述べる。

We present pyRDDLGym, a Python framework for auto-generation of OpenAI Gym environments from RDDL declerative description. The discrete time step evolution of variables in RDDL is described by conditional probability functions, which fits naturally into the Gym step scheme. Furthermore, since RDDL is a lifted description, the modification and scaling up of environments to support multiple entities and different configurations becomes trivial rather than a tedious process prone to errors. We hope that pyRDDLGym will serve as a new wind in the reinforcement learning community by enabling easy and rapid development of benchmarks due to the unique expressive power of RDDL. By providing explicit access to the model in the RDDL description, pyRDDLGym can also facilitate research on hybrid approaches for learning from interaction while leveraging model knowledge. We present the design and built-in examples of pyRDDLGym, and the additions made to the RDDL language that were incorporated into the framework.
翻訳日:2023-07-21 18:47:44 公開日:2023-07-19
# MS-DCANet:多目的COVID-19医療画像のための新しいセグメンテーションネットワーク

MS-DCANet: A Novel Segmentation Network For Multi-Modality COVID-19 Medical Images ( http://arxiv.org/abs/2210.12361v4 )

ライセンス: Link先を確認
Xiaoyu Pan, Huazheng Zhu, Jinglong Du, Guangtao Hu, Baoru Han, Yuanyuan Jia(参考訳) 新型コロナウイルス(COVID-19)パンデミックは公衆衛生の負担を増し、人間に深刻な災害をもたらした。 境界がぼやけており、コントラストが低く、異なる感染部位がある新型コロナウイルスの医療画像の特異性について、より複雑にすることで精度が向上している研究者もいる。 また、病変の複雑さも見落としており、セグメント化部位と背景、エッジ輪郭とグローバルなコンテキストとの関係を捉えるのを妨げている。 しかし、計算複雑性、パラメータ、推論速度の増大は、実験室からクリニックへのモデル転送には好ましくない。 完全なセグメンテーションネットワークは、上記の3つの要因を完全にバランスさせる必要がある。 そこで本稿では,MS-DCANetという対称自動セグメンテーションフレームワークを提案する。 Tokenized MLP blockは,局地的かつグローバルな特徴を条件付きで融合させて,より連続的な境界と空間的位置決め機能を実現する,シフトウインドウ機構を用いた新しいアテンションスキームである。 不規則な病変の輪郭をよりよく理解する。 MS-DCANetはまた、いくつかのデュアルチャネルブロックとRes-ASPPブロックを使用して、小さなターゲットを認識する能力を改善する。 マルチモードのCOVID-19タスクでは、MS-DCANetは他のベースラインと比較して最先端のパフォーマンスを達成した。 正確さと複雑さをトレードオフできるのです。 提案モデルの強力な一般化能力を証明するため,他の課題(ISIC 2018とBAA)に適用し,良好な結果を得た。

The Coronavirus Disease 2019 (COVID-19) pandemic has increased the public health burden and brought profound disaster to humans. For the particularity of the COVID-19 medical images with blurred boundaries, low contrast and different infection sites, some researchers have improved the accuracy by adding more complexity. Also, they overlook the complexity of lesions, which hinder their ability to capture the relationship between segmentation sites and the background, as well as the edge contours and global context. However, increasing the computational complexity, parameters and inference speed is unfavorable for model transfer from laboratory to clinic. A perfect segmentation network needs to balance the above three factors completely. To solve the above issues, this paper propose a symmetric automatic segmentation framework named MS-DCANet. We introduce Tokenized MLP block, a novel attention scheme that use a shift-window mechanism to conditionally fuse local and global features to get more continuous boundaries and spatial positioning capabilities. It has greater understanding of irregular lesions contours. MS-DCANet also uses several Dual Channel blocks and a Res-ASPP block to improve the ability to recognize small targets. On multi-modality COVID-19 tasks, MS-DCANet achieved state-of-the-art performance compared with other baselines. It can well trade off the accuracy and complexity. To prove the strong generalization ability of our proposed model, we apply it to other tasks (ISIC 2018 and BAA) and achieve satisfactory results.
翻訳日:2023-07-21 18:46:49 公開日:2023-07-19
# 説明可能なデータ駆動最適化: コンテキストから決定へ、そして再び戻る

Explainable Data-Driven Optimization: From Context to Decision and Back Again ( http://arxiv.org/abs/2301.10074v2 )

ライセンス: Link先を確認
Alexandre Forel, Axel Parmentier, Thibaut Vidal(参考訳) データ駆動最適化は、文脈情報と機械学習アルゴリズムを使用して、不確かなパラメータを持つ決定問題の解を見つける。 分類設定における機械学習モデルの解釈に多くの作業が費やされているが、学習アルゴリズムを含む決定パイプラインの説明は未解決である。 この解釈可能性の欠如は、推奨される決定を理解したり信頼したりすることができない場合があり、データ駆動ソリューションの採用を妨げる可能性がある。 データ駆動問題に対する解決策を説明するのに適した、反実的説明手法を導入することで、このギャップを埋める。 本稿では,2種類の説明法を導入し,ランダム林と隣接予測器の最も近い説明法を提案する。 在庫管理やルーティングといった運用管理の重要な問題を説明することで,このアプローチを実証する。

Data-driven optimization uses contextual information and machine learning algorithms to find solutions to decision problems with uncertain parameters. While a vast body of work is dedicated to interpreting machine learning models in the classification setting, explaining decision pipelines involving learning algorithms remains unaddressed. This lack of interpretability can block the adoption of data-driven solutions as practitioners may not understand or trust the recommended decisions. We bridge this gap by introducing a counterfactual explanation methodology tailored to explain solutions to data-driven problems. We introduce two classes of explanations and develop methods to find nearest explanations of random forest and nearest-neighbor predictors. We demonstrate our approach by explaining key problems in operations management such as inventory management and routing.
翻訳日:2023-07-21 18:38:58 公開日:2023-07-19
# 非励起ブラックホール熱力学における一般不確かさ原理の影響

Generalized Uncertainty Principle Impact on Nonextensive Black Hole Thermodynamics ( http://arxiv.org/abs/2301.00609v2 )

ライセンス: Link先を確認
Ilim Cimidiker, Mariusz P. Dabrowski, Hussain Gohar(参考訳) 一般不確実性原理(GUP)がブラックホールに適用される非励起熱力学および各非励起エントロピーに関連する異なる温度での放射の空間性に及ぼす影響について検討した。 我々はR\enyi, Tsallis-Cirto, Kaniadakis, Sharma Mittal, and Barrow entropies, temperature, and Heat Capacitiesについて検討し、それぞれの場合において、GUP補正により、温度とエントロピーは有限値であり、ブラックホールの最終状態は蒸発過程の最後に残余であり、各温度における質量のないボソンの放射の空間性がブラックホールの質量に依存することを示す。 また, GUPは, 蒸発中常に一定であるホーキング温度の空間パラメータと比較して, 各ケースの空間分布値を減少させることがわかった。

The effect of the generalized uncertainty principle (GUP) on nonextensive thermodynamics applied to black holes, as well as the sparsity of the radiation at different temperatures associated with each nonextensive entropy, is investigated. We examine the R\'enyi, Tsallis-Cirto, Kaniadakis, Sharma Mittal, and Barrow entropies, temperatures, and heat capacities and show that, in each case, due to GUP corrections, the temperature and entropy have finite values, implying that the final state of the black hole is a remnant at the end of the evaporation process and that the sparsity of the radiation for massless bosons at each temperature depends on the mass of the black hole. We also find that GUP reduces the value of the sparsity profile for each case as compared to the sparsity parameter at Hawking temperature, which is always constant throughout the evaporation.
翻訳日:2023-07-21 18:37:58 公開日:2023-07-19
# 実現可能性を超えたノンレグレット線形バンディット

No-Regret Linear Bandits beyond Realizability ( http://arxiv.org/abs/2302.13252v2 )

ライセンス: Link先を確認
Chong Liu, Ming Yin, Yu-Xiang Wang(参考訳) 報酬関数が線形でない場合の線形帯域について検討する。 既存の仕事は、最良線形近似の超ノルム誤差を測定する一様不特定化パラメータ$\epsilon$に依存している。 これにより、$\epsilon > 0$ となると、避けられない線形後悔となる。 ここでは、各入力においてx$の近似誤差のみを必要とし、x$の準最適差に比例する、より自然なミス種別モデルを記述する。 最適化問題に対して、近最適領域はより重要であり、準最適領域におけるより大きな近似誤差を許容できるという直感を捉える。 驚くほど驚くべきことに、古典的なLinUCBアルゴリズムは、実現可能なケースのために設計されており、このようなギャップ調整ミスセグメンテーションに対して自動的に堅牢である。 最もよく知られた後悔は、time horizon $t$でほぼ線形である問題に対して、ほぼ最適の$\sqrt{t}$ regretが得られる。 技術的には、我々の証明は、後悔そのものによる不特定性による後悔の一部を束縛する、新しい自己拘束的議論に依存している。

We study linear bandits when the underlying reward function is not linear. Existing work relies on a uniform misspecification parameter $\epsilon$ that measures the sup-norm error of the best linear approximation. This results in an unavoidable linear regret whenever $\epsilon > 0$. We describe a more natural model of misspecification which only requires the approximation error at each input $x$ to be proportional to the suboptimality gap at $x$. It captures the intuition that, for optimization problems, near-optimal regions should matter more and we can tolerate larger approximation errors in suboptimal regions. Quite surprisingly, we show that the classical LinUCB algorithm -- designed for the realizable case -- is automatically robust against such gap-adjusted misspecification. It achieves a near-optimal $\sqrt{T}$ regret for problems that the best-known regret is almost linear in time horizon $T$. Technically, our proof relies on a novel self-bounding argument that bounds the part of the regret due to misspecification by the regret itself.
翻訳日:2023-07-21 18:28:13 公開日:2023-07-19
# 2値サブモジュラー・バリュエーションを持つエージェント間で良い項目と良い項目を分ける

Dividing Good and Better Items Among Agents with Bivalued Submodular Valuations ( http://arxiv.org/abs/2302.03087v3 )

ライセンス: Link先を確認
Cyrus Cousins, Vignesh Viswanathan and Yair Zick(参考訳) 各商品は、a$または$b$(a < b$)の限界利得を提供し、商品は、限界利得を減少させている。 これは2つのよく研究された評価クラスの自然な一般化であり、二値加法評価と二値部分モジュラー評価である。 本稿では,最近導入されたYankee Swap機構に基づいて,最大ナッシュ福祉(MNW)やレキシミン,および$p$平均福祉など,様々なソリューション概念を計算できる簡単な逐次アルゴリズムフレームワークを提案する。 この結果は、$a$ が$b$ を割らない場合に mnw と leximin の割り当ての計算不能性に関する既存の結果によって補完される。 MNWとレキシミンの割り当ては、$a$が$b$を割り切るとき、各エージェントがそれぞれ$\frac25$と$\frac{a}{b+2a}$の最大シェアを保証することを示す。 また、レキシミンとMNWの割り当てが1つの善(EF1)まで自由にできる保証はないことを示した。 二値加法評価と二値部分モジュラー評価のより単純なクラスでは、MNWアロケーションはどんな良いもの(EFX)にもうらやましいことが知られているので、これは驚くべきことである。

We study the problem of fairly allocating a set of indivisible goods among agents with {\em bivalued submodular valuations} -- each good provides a marginal gain of either $a$ or $b$ ($a < b$) and goods have decreasing marginal gains. This is a natural generalization of two well-studied valuation classes -- bivalued additive valuations and binary submodular valuations. We present a simple sequential algorithmic framework, based on the recently introduced Yankee Swap mechanism, that can be adapted to compute a variety of solution concepts, including max Nash welfare (MNW), leximin and $p$-mean welfare maximizing allocations when $a$ divides $b$. This result is complemented by an existing result on the computational intractability of MNW and leximin allocations when $a$ does not divide $b$. We show that MNW and leximin allocations guarantee each agent at least $\frac25$ and $\frac{a}{b+2a}$ of their maximin share, respectively, when $a$ divides $b$. We also show that neither the leximin nor the MNW allocation is guaranteed to be envy free up to one good (EF1). This is surprising since for the simpler classes of bivalued additive valuations and binary submodular valuations, MNW allocations are known to be envy free up to any good (EFX).
翻訳日:2023-07-21 18:26:39 公開日:2023-07-19
# 深層強化学習を用いた実行ベースコード生成

Execution-based Code Generation using Deep Reinforcement Learning ( http://arxiv.org/abs/2301.13816v4 )

ライセンス: Link先を確認
Parshin Shojaee, Aneesh Jain, Sindhu Tipirneni and Chandan K. Reddy(参考訳) ソフトウェア工学プロセスを自動化する手段として、大規模コードコーパスで事前訓練されたプログラミング言語(PL)モデルの利用は、コード補完、コード翻訳、プログラム合成など、様々なコード生成タスクの合理化において大きな可能性を証明している。 しかし、現在のアプローチは、主にテキスト生成から借用した教師付き微調整目標に依存しており、コードのユニークなシーケンスレベルの特性を無視している。 そこで本研究では,プリトレーニングされたplモデルと,広く使用されている深層強化学習手法であるppo(proximal policy optimization)を組み合わせた新しいコード生成フレームワークであるppocoderを提案する。 PPOCoderは、コード実行と構造アライメントからの非微分可能なフィードバックを利用することで、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。 3つのコード生成タスクに関する大規模な実験は、SOTA法と比較して提案手法の有効性を示し、異なるPL間でのコンパイル成功率と機能的正当性を著しく改善した。

The utilization of programming language (PL) models, pre-trained on large-scale code corpora, as a means of automating software engineering processes has demonstrated considerable potential in streamlining various code generation tasks such as code completion, code translation, and program synthesis. However, current approaches mainly rely on supervised fine-tuning objectives borrowed from text generation, neglecting unique sequence-level characteristics of code, including but not limited to compilability as well as syntactic and functional correctness. To address this limitation, we propose PPOCoder, a new framework for code generation that synergistically combines pre-trained PL models with Proximal Policy Optimization (PPO) which is a widely used deep reinforcement learning technique. By utilizing non-differentiable feedback from code execution and structure alignment, PPOCoder seamlessly integrates external code-specific knowledge into the model optimization process. It's important to note that PPOCoder is a task-agnostic and model-agnostic framework that can be used across different code generation tasks and PLs. Extensive experiments on three code generation tasks demonstrate the effectiveness of our proposed approach compared to SOTA methods, achieving significant improvements in compilation success rates and functional correctness across different PLs.
翻訳日:2023-07-21 18:25:42 公開日:2023-07-19
# 連続予測2サンプルと独立試験

Sequential Predictive Two-Sample and Independence Testing ( http://arxiv.org/abs/2305.00143v2 )

ライセンス: Link先を確認
Aleksandr Podkopaev, Aaditya Ramdas(参考訳) 逐次非パラメトリック2サンプルと独立テストの問題点について検討する。 シーケンシャルテストはオンラインでデータを処理し、観測データを使用してヌル仮説を停止または拒否するか、より多くのデータを収集するかを決定する。 我々は賭けによる(非パラメトリックな)テストの原理に基づいており、ギャンブラーは将来の観測に賭け、その富はヌル仮説に対する証拠を測定する。 最近開発されたカーネルベースのベッティング戦略は、単純な分布でよく機能するが、画像のような高次元または構造化データに適したカーネルを選択することは、しばしば簡単ではない。 この欠点に対処するために、我々は次の事実に依存する予測ベースの賭け戦略を設計する。 (a) インスタンスが引き出されるもの,又は b) インスタンスがジョイント分布またはマージン分布の積から引き出されるか(後者は外部ランダム化によって生成される)、それぞれ2つのサンプルまたは独立ヌルに対する証拠を提供する。 構造化された設定下でのカーネルベースのアプローチよりもテストが優れていることを実証的に示す。 我々のテストは、独立で同一の分散データ以外に適用でき、データ分布が時間とともにドリフトしても有効で強力なままです。

We study the problems of sequential nonparametric two-sample and independence testing. Sequential tests process data online and allow using observed data to decide whether to stop and reject the null hypothesis or to collect more data, while maintaining type I error control. We build upon the principle of (nonparametric) testing by betting, where a gambler places bets on future observations and their wealth measures evidence against the null hypothesis. While recently developed kernel-based betting strategies often work well on simple distributions, selecting a suitable kernel for high-dimensional or structured data, such as images, is often nontrivial. To address this drawback, we design prediction-based betting strategies that rely on the following fact: if a sequentially updated predictor starts to consistently determine (a) which distribution an instance is drawn from, or (b) whether an instance is drawn from the joint distribution or the product of the marginal distributions (the latter produced by external randomization), it provides evidence against the two-sample or independence nulls respectively. We empirically demonstrate the superiority of our tests over kernel-based approaches under structured settings. Our tests can be applied beyond the case of independent and identically distributed data, remaining valid and powerful even when the data distribution drifts over time.
翻訳日:2023-07-21 18:07:26 公開日:2023-07-19
# 自動運転車の車線変更意図認識と車両状態予測

Lane Change Intention Recognition and Vehicle Status Prediction for Autonomous Vehicles ( http://arxiv.org/abs/2304.13732v2 )

ライセンス: Link先を確認
Renteng Yuan, Mohamed Abdel-Aty, Xin Gu, Ou Zheng, Qiaojun Xiang(参考訳) 人間の運転する車両の車線変更(LC)プロセスの正確な検出と予測は、自動運転車が周囲の環境をよりよく理解し、潜在的な安全リスクを認識し、交通安全を改善するのに役立つ。 本稿では,まず,LCの意図を認識するための注意機構(TCN-ATM)モデルを用いた時間畳み込みネットワークを開発する。 出力変数間の本質的な関係を考慮すると、マルチタスク学習(MTL)フレームワークを使用して複数のLC車両ステータスインジケータを同時に予測する。 さらに,LC意図認識・駆動状態予測(LC-IR-SP)のための統合モデリングフレームワークを開発した。 その結果,注意機構をTCNモデルに組み込んだ場合,LC意図の分類精度は96.14%から98.20%に向上した。 LC車両のステータス予測問題では,MLLフレームワークに基づいて3つのマルチタスク学習モデルを構築した。 その結果, MTL-LSTM モデルは MTL-TCN および MTL-TCN-ATM モデルよりも優れていた。 MTL-LSTMモデルは、対応するシングルタスクモデルと比較して、MAEでは26.04%、RMSEでは25.19%の平均的な減少を示している。

Accurately detecting and predicting lane change (LC)processes of human-driven vehicles can help autonomous vehicles better understand their surrounding environment, recognize potential safety hazards, and improve traffic safety. This paper focuses on LC processes, first developing a temporal convolutional network with an attention mechanism (TCN-ATM) model to recognize LC intention. Considering the intrinsic relationship among output variables, the Multi-task Learning (MTL)framework is employed to simultaneously predict multiple LC vehicle status indicators. Furthermore, a unified modeling framework for LC intention recognition and driving status prediction (LC-IR-SP) is developed. The results indicate that the classification accuracy of LC intention was improved from 96.14% to 98.20% when incorporating the attention mechanism into the TCN model. For LC vehicle status prediction issues, three multi-tasking learning models are constructed based on MTL framework. The results indicate that the MTL-LSTM model outperforms the MTL-TCN and MTL-TCN-ATM models. Compared to the corresponding single-task model, the MTL-LSTM model demonstrates an average decrease of 26.04% in MAE and 25.19% in RMSE.
翻訳日:2023-07-21 18:07:04 公開日:2023-07-19
# AIの公正性と社会への長期的影響

Fairness in AI and Its Long-Term Implications on Society ( http://arxiv.org/abs/2304.09826v2 )

ライセンス: Link先を確認
Ondrej Bohdal, Timothy Hospedales, Philip H.S. Torr, Fazl Barez(参考訳) 人工知能(AI)の様々な環境での展開が成功し、個人や社会に多くの肯定的な結果をもたらした。 しかし、aiシステムは偏りのある予測のために人口の一部を傷つけることも示されている。 AI公正性は、AI決定が特定のグループに対して差別的でないことを保証するために、そのようなバイアスを緩和することに焦点を当てている。 AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化を招き、社会的ストレス要因として機能する可能性があるかを分析します。 より具体的には、偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらす可能性について論じる。 問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。 aiの公平性を改善するための現在の戦略を検証し、現実の展開の観点からその限界を評価し、社会の崩壊を引き起こすことなくaiの利益を確実に享受するための今後の道を探る。

Successful deployment of artificial intelligence (AI) in various settings has led to numerous positive outcomes for individuals and society. However, AI systems have also been shown to harm parts of the population due to biased predictions. AI fairness focuses on mitigating such biases to ensure AI decision making is not discriminatory towards certain groups. We take a closer look at AI fairness and analyze how lack of AI fairness can lead to deepening of biases over time and act as a social stressor. More specifically, we discuss how biased models can lead to more negative real-world outcomes for certain groups, which may then become more prevalent by deploying new AI models trained on increasingly biased data, resulting in a feedback loop. If the issues persist, they could be reinforced by interactions with other risks and have severe implications on society in the form of social unrest. We examine current strategies for improving AI fairness, assess their limitations in terms of real-world deployment, and explore potential paths forward to ensure we reap AI's benefits without causing society's collapse.
翻訳日:2023-07-21 18:06:32 公開日:2023-07-19
# 天文望遠鏡のための点拡散関数モデリング--弱い重力レンズ研究を中心に

Point spread function modelling for astronomical telescopes: a review focused on weak gravitational lensing studies ( http://arxiv.org/abs/2306.07996v2 )

ライセンス: Link先を確認
Tobias Liaudat and Jean-Luc Starck and Martin Kilbinger and Pierre-Antoine Frugier(参考訳) ポイントスプレッド関数(PSF)の正確なモデリングは、望遠鏡や大気による歪みやぼやけの補正を可能にするため、天文学的な観測において最も重要である。 PSFモデリングは天体の性質を正確に測定するために重要である。 この数十年で、望遠鏡や機器のパワーと複雑さが着実に向上しました。 ユークリッドやLSSTのような今後の銀河探査では、前例のない量のデータと質が観測される。 これらの新しい施設と調査のためにPSFをモデル化するには、常に厳格なエラー要求に対応する新しいモデリング技術が必要である。 このレビューの目的は3つある。 まず,より物理的に動機づけられたpsfモデリングに必要な光学的背景を紹介するとともに,今後の展開のために再利用可能な観測モデルを提案する。 第2に,視・検出器レベルの貢献者と雰囲気を含むpsfのさまざまな物理的貢献者の概要について述べる。 概観は、モデル化された効果をよりよく理解するのに役立つと期待している。 第3に、地上及び宇宙望遠鏡のパラメトリックおよび非パラメトリックファミリーとpsfモデリングの異なる方法について、その利点と限界について論じる。 その後、PSFモデルの検証手法に対処し、弱レンズ化研究に関連するいくつかの指標を詳細に論じる。 最後に,天文望遠鏡のpsfモデリングにおける課題と今後の方向性について考察する。

The accurate modelling of the Point Spread Function (PSF) is of paramount importance in astronomical observations, as it allows for the correction of distortions and blurring caused by the telescope and atmosphere. PSF modelling is crucial for accurately measuring celestial objects' properties. The last decades brought us a steady increase in the power and complexity of astronomical telescopes and instruments. Upcoming galaxy surveys like Euclid and LSST will observe an unprecedented amount and quality of data. Modelling the PSF for these new facilities and surveys requires novel modelling techniques that can cope with the ever-tightening error requirements. The purpose of this review is three-fold. First, we introduce the optical background required for a more physically-motivated PSF modelling and propose an observational model that can be reused for future developments. Second, we provide an overview of the different physical contributors of the PSF, including the optic- and detector-level contributors and the atmosphere. We expect that the overview will help better understand the modelled effects. Third, we discuss the different methods for PSF modelling from the parametric and non-parametric families for ground- and space-based telescopes, with their advantages and limitations. Validation methods for PSF models are then addressed, with several metrics related to weak lensing studies discussed in detail. Finally, we explore current challenges and future directions in PSF modelling for astronomical telescopes.
翻訳日:2023-07-21 17:49:02 公開日:2023-07-19
# 引抜きが科学キャリアに及ぼす影響を特徴づける

Characterizing the effect of retractions on scientific careers ( http://arxiv.org/abs/2306.06710v2 )

ライセンス: Link先を確認
Shahan Ali Memon, Kinga Makovi, Bedoor AlShebli(参考訳) 論文の妥当性や著者の整合性に疑問が呈される場合、学術論文の削除は品質管理の基本的なツールである。 撤回は記録から論文を排除するものではないが、撤回された著者とそのキャリアは広範囲に及ぼし、潜在的な侵略の可視的かつ恒久的なシグナルとなる。 先行研究では引用数や共著者の引用に対する撤回の悪影響が強調されているが、これらを超える広範な影響は十分に検討されていない。 Retraction Watchは、リトラクションに関する最も広範なデータセットで、科学出版物とその引用ネットワークの包括的なデータセットであるMicrosoft Academic Graphと、オンラインの科学成果への注意をモニタリングするAltmetricにリンクする。 私たちの調査は 1)引用の後に科学出版を退社する可能性、及び 2)撤回後も出版を続ける著者間のコラボレーションネットワークの進化。 我々の経験的分析により、特に経験の少ない著者は、特にその撤回が広く注目を集める場合には、撤回の余波に科学出版を残さざるを得ない傾向があることが判明した。 また、出版活動に積極的であり続ける作家が、類似しない作家に比べて多くの協力関係を築いていることも明らかにした。 それでも、出版経験が10年足らずで引き抜かれた作家は、年長者、生産性が低く、影響の少ない共著者を保ち、上級共著者を減らした。 学術界の整合性を維持する上での撤回の役割は欠かせないものの,本研究の成果は,早期の著作者に課される不均衡な影響を浮き彫りにした。

Retracting academic papers is a fundamental tool of quality control when the validity of papers or the integrity of authors is questioned post-publication. While retractions do not eliminate papers from the record, they have far-reaching consequences for retracted authors and their careers, serving as a visible and permanent signal of potential transgressions. Previous studies have highlighted the adverse effects of retractions on citation counts and coauthors' citations; however, the broader impacts beyond these have not been fully explored. We address this gap leveraging Retraction Watch, the most extensive data set on retractions and link it to Microsoft Academic Graph, a comprehensive data set of scientific publications and their citation networks, and Altmetric that monitors online attention to scientific output. Our investigation focuses on: 1) the likelihood of authors exiting scientific publishing following a retraction, and 2) the evolution of collaboration networks among authors who continue publishing after a retraction. Our empirical analysis reveals that retracted authors, particularly those with less experience, tend to leave scientific publishing in the aftermath of retraction, particularly if their retractions attract widespread attention. We also uncover that retracted authors who remain active in publishing maintain and establish more collaborations compared to their similar non-retracted counterparts. Nevertheless, retracted authors with less than a decade of publishing experience retain less senior, less productive and less impactful coauthors, and gain less senior coauthors post-retraction. Taken together, notwithstanding the indispensable role of retractions in upholding the integrity of the academic community, our findings shed light on the disproportionate impact that retractions impose on early-career authors.
翻訳日:2023-07-21 17:48:41 公開日:2023-07-19
# 不変因果集合被覆機

Invariant Causal Set Covering Machines ( http://arxiv.org/abs/2306.04777v2 )

ライセンス: Link先を確認
Thibaud Godon, Baptiste Bauvin, Pascal Germain, Jacques Corbeil, Alexandre Drouin(参考訳) 決定木のような規則に基づくモデルは、その解釈可能な性質から実践者にアピールする。 しかし、そのようなモデルを生成する学習アルゴリズムは、しばしば散発的な関連に弱いため、因果関係のある洞察を抽出することは保証されていない。 本研究では, 因果予測文学のアイデアに基づいて, 因果関係を確実に回避する二値規則の結合/分離のための古典的集合被覆マシンアルゴリズムの拡張である不変因果集合被覆マシンを提案する。 本手法が多項式時間に興味のある変数の因果親を同定できることを理論的および実証的に証明する。

Rule-based models, such as decision trees, appeal to practitioners due to their interpretable nature. However, the learning algorithms that produce such models are often vulnerable to spurious associations and thus, they are not guaranteed to extract causally-relevant insights. In this work, we build on ideas from the invariant causal prediction literature to propose Invariant Causal Set Covering Machines, an extension of the classical Set Covering Machine algorithm for conjunctions/disjunctions of binary-valued rules that provably avoids spurious associations. We demonstrate both theoretically and empirically that our method can identify the causal parents of a variable of interest in polynomial time.
翻訳日:2023-07-21 17:46:54 公開日:2023-07-19
# 公平な分類のための修正下表現と断面バイアス

Correcting Underrepresentation and Intersectional Bias for Fair Classification ( http://arxiv.org/abs/2306.11112v2 )

ライセンス: Link先を確認
Alexander Williams Tolbert and Emily Diana(参考訳) 偏見バイアスによって劣化したデータから学習することの問題点を考察し, 正の例を, 一定数のセンシティブなグループに対して異なる未知のレートでフィルタする。 非偏りの少ないデータを用いて,交叉グループのメンバシップが各交叉率を計算不能に学習する場合でも,グループ毎のドロップアウトパラメータを効率的に推定できることを示す。 このグループ毎のドロップアウト率の推定を用いて、バイアスのあるサンプルでの経験的誤差のみを観測しても、真の分布上の任意の仮説の損失を近似できる再重み付けスキームを構築する。 最後に、この学習および再重み付けプロセスをカプセル化するアルゴリズムを提案し、高い確率で、真の分布に対する仮説のリスクの推定が真のリスクに任意に近づくことを、PACスタイルの強い保証を提供する。

We consider the problem of learning from data corrupted by underrepresentation bias, where positive examples are filtered from the data at different, unknown rates for a fixed number of sensitive groups. We show that with a small amount of unbiased data, we can efficiently estimate the group-wise drop-out parameters, even in settings where intersectional group membership makes learning each intersectional rate computationally infeasible. Using this estimate for the group-wise drop-out rate, we construct a re-weighting scheme that allows us to approximate the loss of any hypothesis on the true distribution, even if we only observe the empirical error on a biased sample. Finally, we present an algorithm encapsulating this learning and re-weighting process, and we provide strong PAC-style guarantees that, with high probability, our estimate of the risk of the hypothesis over the true distribution will be arbitrarily close to the true risk.
翻訳日:2023-07-21 17:37:22 公開日:2023-07-19
# 技術によるハーム・リスク・脆弱性の学際的マップの作成--課題・曖昧さ・機会

Co-creating a Transdisciplinary Map of Technology-mediated Harms, Risks and Vulnerabilities: Challenges, Ambivalences and Opportunities ( http://arxiv.org/abs/2307.02332v2 )

ライセンス: Link先を確認
Andr\'es Dom\'inguez Hern\'andez, Kopo M. Ramokapane, Partha Das Chowdhury, Ola Michalec, Emily Johnstone, Emily Godwin, Alicia G Cork, Awais Rashid(参考訳) オンラインの害」という言葉は、インターネットとデジタル技術全般の使用に関連する倫理的・社会的問題に対処する政治的意欲の高まりから近年出現している。 オンラインの危害を取り囲む広い景観は、多くの規律的、セクタ的、組織的な努力を集め、無数の挑戦と国境を越える機会を生んでいる。 本稿では,オンライン・ハーネス・アジェンダによってアニメーションされた大規模研究イニシアチブの中で,学際的知識基盤を共同構築する旅から教訓を得る。 筆者らはまず, 知識基盤のマッピング, 分類, 構築の意義を考察し, オンライン・ハザードと隣接するテーマが, これまでの文献でどのように理論化され, 分類されてきたかを概観した。 オンラインの害の地図を共同作成した経験に基づいて、マップとマッピングのプロセスは3つの相互構成関数を実行し、メソッド、媒体、挑発として同時に振る舞う、と主張する。 我々は、合意を保証していないにもかかわらず、オープンエンドのマッピングアプローチが、倫理的および政治的に傷ついた研究領域における生産的な議論と協力を促進する方法から教訓を得る。 最終的には、知識基盤の多時期性、社会生活、政治的感性について、CSCW研究を表面化し、関与するよう呼びかける。

The phrase "online harms" has emerged in recent years out of a growing political willingness to address the ethical and social issues associated with the use of the Internet and digital technology at large. The broad landscape that surrounds online harms gathers a multitude of disciplinary, sectoral and organizational efforts while raising myriad challenges and opportunities for the crossing entrenched boundaries. In this paper we draw lessons from a journey of co-creating a transdisciplinary knowledge infrastructure within a large research initiative animated by the online harms agenda. We begin with a reflection of the implications of mapping, taxonomizing and constructing knowledge infrastructures and a brief review of how online harm and adjacent themes have been theorized and classified in the literature to date. Grounded on our own experience of co-creating a map of online harms, we then argue that the map -- and the process of mapping -- perform three mutually constitutive functions, acting simultaneously as method, medium and provocation. We draw lessons from how an open-ended approach to mapping, despite not guaranteeing consensus, can foster productive debate and collaboration in ethically and politically fraught areas of research. We end with a call for CSCW research to surface and engage with the multiple temporalities, social lives and political sensibilities of knowledge infrastructures.
翻訳日:2023-07-21 17:29:50 公開日:2023-07-19
# 合理的かつインターベンブルで高速なエンティティベース関連モデルによるEコマース検索におけるテキストマッチングの改善

Improving Text Matching in E-Commerce Search with A Rationalizable, Intervenable and Fast Entity-Based Relevance Model ( http://arxiv.org/abs/2307.00370v2 )

ライセンス: Link先を確認
Jiong Cai, Yong Jiang, Yue Zhang, Chengyue Jiang, Ke Yu, Jianhui Ji, Rong Xiao, Haihong Tang, Tao Wang, Zhongqiang Huang, Pengjun Xie, Fei Huang, Kewei Tu(参考訳) 大量のアイテムのリポジトリからユーザクエリの意図したアイテムを発見することは,eコマース検索システムの主要な目標のひとつだ。 関連性予測は性能向上に役立つため,検索システムにとって不可欠である。 オンラインで関連モデルを提供する場合、モデルは高速で正確な推論を行う必要がある。 現在、ビエンコーダやクロスエンコーダなどの広く使われているモデルは、それぞれ精度や推論速度に制限がある。 本研究では,Entity-Based Relevance Model (EBRM) と呼ばれる新しいモデルを提案する。 項目に含まれるエンティティを識別し、QI関連問題を複数のQE関連問題に分解し、その結果を集約し、ソフトロジックの定式化を用いてQI予測を作成する。 この分解により、高速なオンライン推論のためのキャッシュQE予測だけでなく、高精度にクロスエンコーダQE関連モジュールを使用できる。 ソフトロジックを利用すると、予測手順は解釈可能で解釈可能である。 また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。 提案手法はeコマースウェブサイトのラベル付きデータに基づいて評価する。 実験結果から,計算効率の向上が期待できることがわかった。

Discovering the intended items of user queries from a massive repository of items is one of the main goals of an e-commerce search system. Relevance prediction is essential to the search system since it helps improve performance. When online serving a relevance model, the model is required to perform fast and accurate inference. Currently, the widely used models such as Bi-encoder and Cross-encoder have their limitations in accuracy or inference speed respectively. In this work, we propose a novel model called the Entity-Based Relevance Model (EBRM). We identify the entities contained in an item and decompose the QI (query-item) relevance problem into multiple QE (query-entity) relevance problems; we then aggregate their results to form the QI prediction using a soft logic formulation. The decomposition allows us to use a Cross-encoder QE relevance module for high accuracy as well as cache QE predictions for fast online inference. Utilizing soft logic makes the prediction procedure interpretable and intervenable. We also show that pretraining the QE module with auto-generated QE data from user logs can further improve the overall performance. The proposed method is evaluated on labeled data from e-commerce websites. Empirical results show that it achieves promising improvements with computation efficiency.
翻訳日:2023-07-21 17:27:28 公開日:2023-07-19
# ChatGPT for Robotics:デザイン原則とモデル能力

ChatGPT for Robotics: Design Principles and Model Abilities ( http://arxiv.org/abs/2306.17582v2 )

ライセンス: Link先を確認
Sai Vemprala, Rogerio Bonatti, Arthur Bucker, Ashish Kapoor(参考訳) 本稿では, OpenAI の ChatGPT を用いたロボット工学応用に関する実験的検討を行った。 提案手法は,プロンプトエンジニアリングのための設計原則と,chatgptが異なるロボティクスタスク,シミュレータ,フォームファクタに適応する高レベル機能ライブラリの作成を組み合わせた戦略を概説する。 我々は,様々なロボットタスクの実行に向けて,異なるプロンプトエンジニアリング手法とダイアログ戦略の有効性に焦点をあてる。 本稿では,ChatGPTによる自由形式のダイアログの利用,XMLタグのパース,コード合成,タスク固有のプロンプト関数の利用,対話によるクローズドループ推論などについて検討する。 本研究は, 基本的な論理, 幾何学的, 数学的推論から, 航空ナビゲーション, 操作, 具体化エージェントなどの複雑な領域まで, ロボット工学領域の様々なタスクを包含する。 chatgptは、ユーザーが主に自然言語による指示によって対話できると同時に、これらのタスクのいくつかを解決するのに効果的であることを示す。 これらの研究に加えて、オープンソースの研究ツールであるPromptCraftを導入し、研究者がロボット工学アプリケーションのための適切なプロンプトスキームの例を、共同でアップロードして投票できるプラットフォームと、ChatGPTを統合したロボットシミュレータをサンプルとして提供し、ユーザがロボット工学にChatGPTを使い始めるのを容易にする。

This paper presents an experimental study regarding the use of OpenAI's ChatGPT for robotics applications. We outline a strategy that combines design principles for prompt engineering and the creation of a high-level function library which allows ChatGPT to adapt to different robotics tasks, simulators, and form factors. We focus our evaluations on the effectiveness of different prompt engineering techniques and dialog strategies towards the execution of various types of robotics tasks. We explore ChatGPT's ability to use free-form dialog, parse XML tags, and to synthesize code, in addition to the use of task-specific prompting functions and closed-loop reasoning through dialogues. Our study encompasses a range of tasks within the robotics domain, from basic logical, geometrical, and mathematical reasoning all the way to complex domains such as aerial navigation, manipulation, and embodied agents. We show that ChatGPT can be effective at solving several of such tasks, while allowing users to interact with it primarily via natural language instructions. In addition to these studies, we introduce an open-sourced research tool called PromptCraft, which contains a platform where researchers can collaboratively upload and vote on examples of good prompting schemes for robotics applications, as well as a sample robotics simulator with ChatGPT integration, making it easier for users to get started with using ChatGPT for robotics.
翻訳日:2023-07-21 17:27:11 公開日:2023-07-19
# エコーチャンバー効果の定量化 : 埋め込み距離に基づくアプローチ

Quantifying the Echo Chamber Effect: An Embedding Distance-based Approach ( http://arxiv.org/abs/2307.04668v2 )

ライセンス: Link先を確認
Faisal Alatawi and Paras Sheth and Huan Liu(参考訳) ソーシャルメディアプラットフォームが台頭し、エコーチャンバーの形成が促進された。これはユーザーが既存の信念を補強する視点に主に遭遇するオンライン空間である。 この現象は、コミュニティ間の情報の拡散を著しく妨げ、社会的な分極を引き起こす。 そのため,エコーチャンバーの定量化手法の開発が重要である。 本稿では,埋め込み空間におけるユーザ間の距離を測定することで,ユーザコミュニティの凝集と分離を評価する新しい指標であるEcho Chamber Score(ECS)を提案する。 既存のアプローチとは対照的に、ECSはユーザーイデオロギーのラベルなしで機能し、相互作用グラフの構造について仮定することができない。 ユーザ間の距離測定を容易にするために,ユーザ投稿とインタラクショングラフを利用して,そのイデオロギー的類似性を反映した自己教師付きグラフオートエンコーダに基づくユーザ埋め込みモデルであるEchoGAEを提案する。 ECSの有効性を評価するために、私たちは4つのトピックからなるTwitterデータセットを使用します。 本研究は、エコーチャンバーの定量化とオンライン談話のダイナミックスに光を流すツールとしてのECSの有効性を示す。

The rise of social media platforms has facilitated the formation of echo chambers, which are online spaces where users predominantly encounter viewpoints that reinforce their existing beliefs while excluding dissenting perspectives. This phenomenon significantly hinders information dissemination across communities and fuels societal polarization. Therefore, it is crucial to develop methods for quantifying echo chambers. In this paper, we present the Echo Chamber Score (ECS), a novel metric that assesses the cohesion and separation of user communities by measuring distances between users in the embedding space. In contrast to existing approaches, ECS is able to function without labels for user ideologies and makes no assumptions about the structure of the interaction graph. To facilitate measuring distances between users, we propose EchoGAE, a self-supervised graph autoencoder-based user embedding model that leverages users' posts and the interaction graph to embed them in a manner that reflects their ideological similarity. To assess the effectiveness of ECS, we use a Twitter dataset consisting of four topics - two polarizing and two non-polarizing. Our results showcase ECS's effectiveness as a tool for quantifying echo chambers and shedding light on the dynamics of online discourse.
翻訳日:2023-07-21 17:19:38 公開日:2023-07-19
# 高次元特徴を持つ集合表現に適した多項式幅

Polynomial Width is Sufficient for Set Representation with High-dimensional Features ( http://arxiv.org/abs/2307.04001v2 )

ライセンス: Link先を確認
Peihao Wang, Shenghao Yang, Shu Li, Zhangyang Wang, Pan Li(参考訳) 入力順序に敏感なニューラルネットワークの帰納的バイアスをモデル化するために、ディープラーニングでは集合表現がユビキタスになってきた。 deepsetsは、最も広く使われているニューラルネットワークアーキテクチャである。 各集合要素を次元$L$で潜在空間に埋め込み、次に総集合埋め込みを得るために総和プーリングを行い、最終的に全体集合埋め込みを出力にマッピングする。 本研究では,次元$L$がDeepSetsの表現力に与える影響について検討する。 以前の分析では、1次元の特徴として過度に単純化された高次元特徴や、分析的アクティベーションに制限されていたため、実用的利用から逸脱するか、設定サイズ$N$と特徴次元$D$で指数関数的に成長する$L$が得られた。 十分な表現力を達成する$l$の最小値を調べるために、2つの集合要素埋め込み層を示す。 (a)線形+電力活性化(lp)及び (b)線形+指数的活性化(LE) L$がpoly$(N, D)$であることは、両方の埋め込み層を用いた集合表現に十分であることを示す。 また、LP埋め込み層に対して$L$の低いバウンダリも提供します。 さらに、この結果を置換同変集合関数と複素体に拡張する。

Set representation has become ubiquitous in deep learning for modeling the inductive bias of neural networks that are insensitive to the input order. DeepSets is the most widely used neural network architecture for set representation. It involves embedding each set element into a latent space with dimension $L$, followed by a sum pooling to obtain a whole-set embedding, and finally mapping the whole-set embedding to the output. In this work, we investigate the impact of the dimension $L$ on the expressive power of DeepSets. Previous analyses either oversimplified high-dimensional features to be one-dimensional features or were limited to analytic activations, thereby diverging from practical use or resulting in $L$ that grows exponentially with the set size $N$ and feature dimension $D$. To investigate the minimal value of $L$ that achieves sufficient expressive power, we present two set-element embedding layers: (a) linear + power activation (LP) and (b) linear + exponential activations (LE). We demonstrate that $L$ being poly$(N, D)$ is sufficient for set representation using both embedding layers. We also provide a lower bound of $L$ for the LP embedding layer. Furthermore, we extend our results to permutation-equivariant set functions and the complex field.
翻訳日:2023-07-21 17:18:31 公開日:2023-07-19
# ChatGPTは良いが、Bing Chatはベトナムの学生にとってより良い

ChatGPT is Good but Bing Chat is Better for Vietnamese Students ( http://arxiv.org/abs/2307.08272v2 )

ライセンス: Link先を確認
Xuan-Quy Dao, Ngoc-Bich Le(参考訳) 本研究では,ベトナムの学生のニーズに応えた2つのSOTA大言語モデル,すなわちChatGPTとMicrosoft Bing Chat(BingChat)の有効性を検討した。 ChatGPTは複数の分野において熟練度を示すが、Bing Chatはより有利な選択肢として現れる。 我々は、数学、文学、英語、物理学、化学、生物学、歴史、地理、市民教育を含む様々な分野における彼らの学術的成果の比較分析を行う。 以上の結果から, BingChatはChatGPTよりも優れた性能を示し, 文献を除けばChatGPTが優れた性能を示したことが示唆された。 加えて、BingChatはGPT-3.5をベースにしたChatGPTとは対照的に、より高度なGPT-4技術を使用している。 これにより、BingChatは理解し、推論し、創造的で情報的なテキストを生成することができる。 さらに、BingChatがベトナムでアクセス可能であり、応答内のハイパーリンクと引用の統合は、その優位性を強化するのに役立つ。 分析では,ChatGPTは賞賛に値する品質を示すが,BingChatはベトナムの学生に対してより謝罪されたソリューションを提供する。

This study examines the efficacy of two SOTA large language models (LLMs), namely ChatGPT and Microsoft Bing Chat (BingChat), in catering to the needs of Vietnamese students. Although ChatGPT exhibits proficiency in multiple disciplines, Bing Chat emerges as the more advantageous option. We conduct a comparative analysis of their academic achievements in various disciplines, encompassing mathematics, literature, English language, physics, chemistry, biology, history, geography, and civic education. The results of our study suggest that BingChat demonstrates superior performance compared to ChatGPT across a wide range of subjects, with the exception of literature, where ChatGPT exhibits better performance. Additionally, BingChat utilizes the more advanced GPT-4 technology in contrast to ChatGPT, which is built upon GPT-3.5. This allows BingChat to improve to comprehension, reasoning and generation of creative and informative text. Moreover, the fact that BingChat is accessible in Vietnam and its integration of hyperlinks and citations within responses serve to reinforce its superiority. In our analysis, it is evident that while ChatGPT exhibits praiseworthy qualities, BingChat presents a more apdated solutions for Vietnamese students.
翻訳日:2023-07-21 17:09:26 公開日:2023-07-19
# 可変トランスモンを用いた長距離デュアルレール消去量子ビットの実証

Demonstrating a long-coherence dual-rail erasure qubit using tunable transmons ( http://arxiv.org/abs/2307.08737v2 )

ライセンス: Link先を確認
Harry Levine, Arbel Haim, Jimmy S.C. Hung, Nasser Alidoust, Mahmoud Kalaee, Laura DeLorenzo, E. Alex Wollack, Patricio Arrangoiz Arriola, Amirhossein Khalajhedayati, Rohan Sanil, Yotam Vaknin, Aleksander Kubica, Aashish A. Clerk, David Hover, Fernando Brand\~ao, Alex Retzker, and Oskar Painter(参考訳) 消去量子ビットによる量子誤差補正は、消去誤差のしきい値が好ましいため、標準誤差補正よりも大きな利点を約束する。 この利点を実現するには、ほとんど全てのエラーが消去エラーであるキュービットと、そのキュービットを軽視することなく消去エラーをチェックする能力が必要である。 共振結合された一対のトランスモンからなる「デュアルレールキュービット」は、高いコヒーレントな消去キュービットを形成し、そこでは消去誤差率が$T_1$で与えられるが、残差が強く抑制され、キュービット部分空間内でミリ秒スケールのコヒーレンスをもたらすことを実験的に実証した。 単一キュービットゲートは、主に消去誤差によって制限されており、消去確率は$p_\text{erasure} = 2.19(2)\times 10^{-3}$ であり、残差は$\sim 40$ 以下である。 さらに、チェック毎に$<0.1\%$ dephasingエラーを導入しながら、消去エラーの中間回路検出を示す。 最後に、トランスモンノイズの抑制により、広帯域の可変動作域における高コヒーレンスを保ち、周波数衝突を回避する能力の向上が期待できることを示す。 この研究は、ハードウェア効率の量子誤り訂正のための魅力的なビルディングブロックとして、トランスモンベースのデュアルレールキュービットを確立する。

Quantum error correction with erasure qubits promises significant advantages over standard error correction due to favorable thresholds for erasure errors. To realize this advantage in practice requires a qubit for which nearly all errors are such erasure errors, and the ability to check for erasure errors without dephasing the qubit. We experimentally demonstrate that a "dual-rail qubit" consisting of a pair of resonantly-coupled transmons can form a highly coherent erasure qubit, where the erasure error rate is given by the transmon $T_1$ but for which residual dephasing is strongly suppressed, leading to millisecond-scale coherence within the qubit subspace. We show that single-qubit gates are limited primarily by erasure errors, with erasure probability $p_\text{erasure} = 2.19(2)\times 10^{-3}$ per gate while the residual errors are $\sim 40$ times lower. We further demonstrate mid-circuit detection of erasure errors while introducing $< 0.1\%$ dephasing error per check. Finally, we show that the suppression of transmon noise allows this dual-rail qubit to preserve high coherence over a broad tunable operating range, offering an improved capacity to avoid frequency collisions. This work establishes transmon-based dual-rail qubits as an attractive building block for hardware-efficient quantum error correction.
翻訳日:2023-07-21 16:58:05 公開日:2023-07-19
# 絶対主義ai

Absolutist AI ( http://arxiv.org/abs/2307.10315v1 )

ライセンス: Link先を確認
Mitchell Barrington(参考訳) この論文は、絶対的な制約のあるAIシステムのトレーニング -- それらが生み出す可能性のある価値の量に関係なく、特定の行為を禁じる -- は、原則として多くのAI安全問題をかなり前進させるかもしれない、と論じる。 まず、ミスアライメントの最悪の結果を避けるためのガードレールを提供する。 第二に、AIは人間をより高い福祉水準の生物に置き換えるなど、非常に価値のある結果のために大惨事を引き起こすのを防ぐことができる。 第三に、システムはより厳格になり、クリエイターは、目的の機能を変更したり、シャットダウンしたりといった、修正的な介入を行うことができる。 そして第4に、特に危険な行為を探索することを禁じることで、システムがより安全に環境を探索するのに役立つ。 絶対制約を決定論的に定式化し、文献の既存モデルを改善し、このモデルを用いて絶対制約の訓練と行動に関するいくつかの結果を証明する。 絶対主義者のAIは期待値を最大化しないが、不合理に振る舞うことは許されず、(コヒーレンスな議論とは対照的に)期待値の最大値になる環境圧力に直面することはない。

This paper argues that training AI systems with absolute constraints -- which forbid certain acts irrespective of the amount of value they might produce -- may make considerable progress on many AI safety problems in principle. First, it provides a guardrail for avoiding the very worst outcomes of misalignment. Second, it could prevent AIs from causing catastrophes for the sake of very valuable consequences, such as replacing humans with a much larger number of beings living at a higher welfare level. Third, it makes systems more corrigible, allowing creators to make corrective interventions in them, such as altering their objective functions or shutting them down. And fourth, it helps systems explore their environment more safely by prohibiting them from exploring especially dangerous acts. I offer a decision-theoretic formalization of an absolute constraints, improving on existing models in the literature, and use this model to prove some results about the training and behavior of absolutist AIs. I conclude by showing that, although absolutist AIs will not maximize expected value, they will not be susceptible to behave irrationally, and they will not (contra coherence arguments) face environmental pressure to become expected-value maximizers.
翻訳日:2023-07-21 16:20:47 公開日:2023-07-19
# 歌詞に基づくバングラ歌の気分分類

Mood Classification of Bangla Songs Based on Lyrics ( http://arxiv.org/abs/2307.10314v1 )

ライセンス: Link先を確認
Maliha Mahajebin, Mohammad Rifat Ahmmad Rashid, Nafees Mansoor(参考訳) 音楽は様々な感情を呼び起こすことができ、技術の進歩により、人々はよりアクセスしやすくなってきた。 異なる人間の感情を描くバングラ音楽には十分な研究がない。 本稿の著者は、バングラの歌を分析し、歌詞に基づいて気分を分類することを目的としている。 そこで本研究では, 4000曲のバングラの歌詞, ジャンルのデータセットを作成し, 自然言語処理とベルトアルゴリズムを用いてデータを解析した。 4000曲のうち、1513曲が悲しい気分、1362曲がロマンチックな気分、866曲が幸福、残り239曲がリラクゼーションに分類されている。 歌詞を組み込むことで、著者たちは歌を幸福、悲しみ、ロマンチック、リラックスの4つの気分に分類した。 この研究は、楽曲のムードの多クラス分類を可能にするため、音楽が人々の感情によりリラティブルになるために重要である。 この記事は、歌の歌詞から派生した4つの気分の自動結果を示す。

Music can evoke various emotions, and with the advancement of technology, it has become more accessible to people. Bangla music, which portrays different human emotions, lacks sufficient research. The authors of this article aim to analyze Bangla songs and classify their moods based on the lyrics. To achieve this, this research has compiled a dataset of 4000 Bangla song lyrics, genres, and used Natural Language Processing and the Bert Algorithm to analyze the data. Among the 4000 songs, 1513 songs are represented for the sad mood, 1362 for the romantic mood, 886 for happiness, and the rest 239 are classified as relaxation. By embedding the lyrics of the songs, the authors have classified the songs into four moods: Happy, Sad, Romantic, and Relaxed. This research is crucial as it enables a multi-class classification of songs' moods, making the music more relatable to people's emotions. The article presents the automated result of the four moods accurately derived from the song lyrics.
翻訳日:2023-07-21 16:20:24 公開日:2023-07-19
# MLモデルを超えて: テキスト・ツー・イメージ開発に安全エンジニアリングフレームワークを適用する

Beyond the ML Model: Applying Safety Engineering Frameworks to Text-to-Image Development ( http://arxiv.org/abs/2307.10312v1 )

ライセンス: Link先を確認
Shalaleh Rismani, Renee Shelby, Andrew Smart, Renelito Delos Santos, AJung Moon, Negar Rostamzadeh(参考訳) 新興機械学習(ML)モデルとその応用における潜在的な社会的・倫理的リスクの特定は依然として困難である。 本研究では,機械学習製品開発パイプラインの3段階において,テキストから画像へのモデルを含むケーススタディとして,データ処理,t2iモデルと他のモデルとの統合,使用について,確立された2つの安全工学フレームワーク(fmea,stpa)を適用した。 分析の結果,社会的・倫理的リスクを明示的に検討しない安全枠組みが,社会的・倫理的リスクをもたらす失敗や危険を明らかにすることができることを示した。 製品内のさまざまなMLモデル間、ML製品とユーザ間、開発チーム間、など)とプロセス(MLサービス/製品を使用するためのトレーニングデータやワークフローの準備)を分析して、幅広い障害や危険(機能的、社会的、倫理的)を発見しました。 本研究は,特にMLモデルに関する情報が最小限である場合に,社会的・倫理的リスクを検討する上で,MLモデルを超えて調査することの価値と重要性を明らかにするものである。

Identifying potential social and ethical risks in emerging machine learning (ML) models and their applications remains challenging. In this work, we applied two well-established safety engineering frameworks (FMEA, STPA) to a case study involving text-to-image models at three stages of the ML product development pipeline: data processing, integration of a T2I model with other models, and use. Results of our analysis demonstrate the safety frameworks - both of which are not designed explicitly examine social and ethical risks - can uncover failure and hazards that pose social and ethical risks. We discovered a broad range of failures and hazards (i.e., functional, social, and ethical) by analyzing interactions (i.e., between different ML models in the product, between the ML product and user, and between development teams) and processes (i.e., preparation of training data or workflows for using an ML service/product). Our findings underscore the value and importance of examining beyond an ML model in examining social and ethical risks, especially when we have minimal information about an ML model.
翻訳日:2023-07-21 16:20:09 公開日:2023-07-19
# polyffusion:内部および外部制御を用いた多音素スコア生成のための拡散モデル

Polyffusion: A Diffusion Model for Polyphonic Score Generation with Internal and External Controls ( http://arxiv.org/abs/2307.10304v1 )

ライセンス: Link先を確認
Lejun Min, Junyan Jiang, Gus Xia, Jingwei Zhao(参考訳) 本研究では,多声楽曲を画像的ピアノロール表現として表現する拡散モデルであるpolyffusionを提案する。 このモデルは内部制御と外部制御という2つのパラダイムで制御可能な音楽生成を可能にする。 内部制御(internal control)とは、ユーザーが音楽の一部を事前に定義し、モデルに残りの部分を埋め込む過程をいう。 外部制御条件 コード、テクスチャ、その他の特徴など、外部に関係のない情報を持つモデルは、クロスアテンション機構を介してモデルを制御する。 内部および外部制御を用いることで、ポリフレーションは、伴奏のメロディ生成、伴奏のメロディ生成、任意の楽曲セグメントのインペイント、和音やテクスチャのアレンジメントなど、幅広い音楽生成タスクを統一することを示す。 実験結果から,既存のトランスフォーマーやサンプリングベースラインよりも優れた性能を示し,外部条件として事前学習したアンタングル表現を用いることで,より効果的に制御できることがわかった。

We propose Polyffusion, a diffusion model that generates polyphonic music scores by regarding music as image-like piano roll representations. The model is capable of controllable music generation with two paradigms: internal control and external control. Internal control refers to the process in which users pre-define a part of the music and then let the model infill the rest, similar to the task of masked music generation (or music inpainting). External control conditions the model with external yet related information, such as chord, texture, or other features, via the cross-attention mechanism. We show that by using internal and external controls, Polyffusion unifies a wide range of music creation tasks, including melody generation given accompaniment, accompaniment generation given melody, arbitrary music segment inpainting, and music arrangement given chords or textures. Experimental results show that our model significantly outperforms existing Transformer and sampling-based baselines, and using pre-trained disentangled representations as external conditions yields more effective controls.
翻訳日:2023-07-21 16:19:27 公開日:2023-07-19
# 大規模言語モデルを用いたハードウェアアクセラレーションのためのコード検出

Code Detection for Hardware Acceleration Using Large Language Models ( http://arxiv.org/abs/2307.10348v1 )

ライセンス: Link先を確認
Pablo Antonio Mart\'inez and Gregorio Bernab\'e and Jos\'e Manuel Garc\'ia(参考訳) 大規模言語モデル(llm)は多くのタスクに大規模に適用され、しばしば最先端のアプローチを超えている。 コード生成の有効性は広く研究されている(AlphaCodeなど)が、コード検出の可能性はまだ明らかではない。 本研究は,LLMを用いたコード検出の最初の解析である。 本稿では,C/C++で実装された行列乗算,畳み込み,高速フーリエ変換などの重要なカーネルについて検討する。 コード検出のための予備的かつ素直なプロンプトと,新しいプロンプト戦略を提案する。 その結果、従来のプロンプトは精度は高いが精度が低く(それぞれ68.8%、22.3%、および79.2%)、偽陽性が多いことが判明した。 提案手法は偽陽性を著しく低減し, 総合的精度(91.1%, 97.9%, 99.7%)が良好である。 これらの結果は、既存の最先端のコード検出手法にかなりの課題をもたらす。

Large language models (LLMs) have been massively applied to many tasks, often surpassing state-of-the-art approaches. While their effectiveness in code generation has been extensively studied (e.g., AlphaCode), their potential for code detection remains unexplored. This work presents the first analysis of code detection using LLMs. Our study examines essential kernels, including matrix multiplication, convolution, and fast-fourier transform, implemented in C/C++. We propose both a preliminary, naive prompt and a novel prompting strategy for code detection. Results reveal that conventional prompting achieves great precision but poor accuracy (68.8%, 22.3%, and 79.2% for GEMM, convolution, and FFT, respectively) due to a high number of false positives. Our novel prompting strategy substantially reduces false positives, resulting in excellent overall accuracy (91.1%, 97.9%, and 99.7%, respectively). These results pose a considerable challenge to existing state-of-the-art code detection methods.
翻訳日:2023-07-21 16:09:34 公開日:2023-07-19
# ProtiGeno : タンパク質言語モデルを用いたプロカリアティックショート遺伝子ファインダー

ProtiGeno: a prokaryotic short gene finder using protein language models ( http://arxiv.org/abs/2307.10343v1 )

ライセンス: Link先を確認
Tony Tu, Gautham Krishna, Amirali Aghazadeh(参考訳) プロカリオティック遺伝子予測は、生物の生物学とその機能を理解する上で重要な役割を担っている。 現在の遺伝子発見者は長い遺伝子の発見に非常に敏感であるが、その感度は短い遺伝子の発見において顕著に低下する(180 nts)。 犯人は、短いオープンリーディングフレーム(ORF)の識別特徴を特定するために、アノテーション付き遺伝子データが不十分である。 我々はProtiGenoと呼ばれる深層学習に基づく手法を開発し、何百万もの進化したタンパク質で訓練されたタンパク質言語モデルを用いて、短いプロカリアティック遺伝子を特にターゲットとした。 4,288個のプロカリーゼゲノムの系統的大規模実験において、ProtiGenoは、現在の最先端遺伝子ファインダーよりも高精度で短いコーディングおよび非コーディング遺伝子を予測する。 予測された短い遺伝子の3次元構造を可視化することにより,プロティゲノの予測的特徴と限界について考察する。 データ、コード、モデルはhttps://github.com/tonytu16/protigenoで入手できる。

Prokaryotic gene prediction plays an important role in understanding the biology of organisms and their function with applications in medicine and biotechnology. Although the current gene finders are highly sensitive in finding long genes, their sensitivity decreases noticeably in finding shorter genes (<180 nts). The culprit is insufficient annotated gene data to identify distinguishing features in short open reading frames (ORFs). We develop a deep learning-based method called ProtiGeno, specifically targeting short prokaryotic genes using a protein language model trained on millions of evolved proteins. In systematic large-scale experiments on 4,288 prokaryotic genomes, we demonstrate that ProtiGeno predicts short coding and noncoding genes with higher accuracy and recall than the current state-of-the-art gene finders. We discuss the predictive features of ProtiGeno and possible limitations by visualizing the three-dimensional structure of the predicted short genes. Data, codes, and models are available at https://github.com/tonytu16/protigeno.
翻訳日:2023-07-21 16:09:16 公開日:2023-07-19
# AIフィルタによる歪み画像からの視聴者影響の軽減:ユーザスタディ

Mitigating Viewer Impact from Disturbing Imagery using AI Filters: A User-Study ( http://arxiv.org/abs/2307.10334v1 )

ライセンス: Link先を確認
Ioannis Sarridis, Jochen Spangenberg, Olga Papadopoulou and Symeon Papadopoulos(参考訳) 邪魔な画像への露出は、個人、特に仕事の一部としてそのようなコンテンツに遭遇する専門家に大きな影響を与える可能性がある。 本稿では,107人の参加者,主にジャーナリストと人権調査員が参加し,人工知能(AI)に基づく画像フィルタによる,乱れたコンテンツを見ることの感情的影響を軽減できる可能性を探る。 従来型(ぼやけ,部分ぼやけ)とai型(描画,彩色,絵画)の5つの異なるフィルタスタイルをテストし,感情的苦痛を軽減しつつ画像情報伝達の観点からその効果を測定した。 画像の解釈性(97.19%)を維持しつつ、ネガティブな感情(-30.38%)を減らすための有望なソリューションを提供する。 多くのプロフェッショナルが最終的に元のイメージを検査する必要があるにもかかわらず、参加者は、AIフィルタを元のイメージを見る前に最初の準備段階として使用するなど、AIフィルタをワークフローに統合するための潜在的戦略を提案した。 全体として,本論文は,潜在的に乱れたイメージに日常的に関与するプロのための,より倫理的に考慮された効果的な視覚環境の開発に寄与する。

Exposure to disturbing imagery can significantly impact individuals, especially professionals who encounter such content as part of their work. This paper presents a user study, involving 107 participants, predominantly journalists and human rights investigators, that explores the capability of Artificial Intelligence (AI)-based image filters to potentially mitigate the emotional impact of viewing such disturbing content. We tested five different filter styles, both traditional (Blurring and Partial Blurring) and AI-based (Drawing, Colored Drawing, and Painting), and measured their effectiveness in terms of conveying image information while reducing emotional distress. Our findings suggest that the AI-based Drawing style filter demonstrates the best performance, offering a promising solution for reducing negative feelings (-30.38%) while preserving the interpretability of the image (97.19%). Despite the requirement for many professionals to eventually inspect the original images, participants suggested potential strategies for integrating AI filters into their workflow, such as using AI filters as an initial, preparatory step before viewing the original image. Overall, this paper contributes to the development of a more ethically considerate and effective visual environment for professionals routinely engaging with potentially disturbing imagery.
翻訳日:2023-07-21 16:08:58 公開日:2023-07-19
# 瞬時保存則を用いた時間依存ハミルトン量子力学の適応的ロータライズ

Adaptive Trotterization for time-dependent Hamiltonian quantum dynamics using instantaneous conservation laws ( http://arxiv.org/abs/2307.10327v1 )

ライセンス: Link先を確認
Hongzheng Zhao, Marin Bukov, Markus Heyl and Roderich Moessner(参考訳) デジタル量子シミュレーションは、時間発展を初等量子ゲートに離散化するためにロータライズに依存する。 ゲート欠陥が顕著な現在の量子プロセッサでは、より微細な時間ステップの精度の向上と、より大きな回路深さによるエラー率の増大の間には、重大なトレードオフがある。 本稿では,時間依存型ハミルトニアンの時間依存性に対処する適応的トロタライゼーションアルゴリズムを提案する。このアルゴリズムでは,2点(近傍)間の時間進化における誤差を推定する,瞬時的な「保存」量の概念を提案する。 これらは時間に依存しないハミルトニアンの場合の標準保存則に還元され、最初に適応的ロータライズスキームを開発した。 時間依存量子スピンチェーンのアルゴリズムを検証し、従来のトロッターアルゴリズムを制御誤差で一定のステップサイズで上回ることができることを示した。

Digital quantum simulation relies on Trotterization to discretize time evolution into elementary quantum gates. On current quantum processors with notable gate imperfections, there is a critical tradeoff between improved accuracy for finer timesteps, and increased error rate on account of the larger circuit depth. We present an adaptive Trotterization algorithm to cope with time-dependent Hamiltonians, where we propose a concept of instantaneous "conserved" quantities to estimate errors in the time evolution between two (nearby) points in time; these allow us to bound the errors accumulated over the full simulation period. They reduce to standard conservation laws in the case of time-independent Hamiltonians, for which we first developed an adaptive Trotterization scheme. We validate the algorithm for a time-dependent quantum spin chain, demonstrating that it can outperform the conventional Trotter algorithm with a fixed step size at a controlled error.
翻訳日:2023-07-21 16:08:38 公開日:2023-07-19
# 物理駆動型変分量子固有解法への計測に基づく量子計算の適用性

Applicability of Measurement-based Quantum Computation towards Physically-driven Variational Quantum Eigensolver ( http://arxiv.org/abs/2307.10324v1 )

ライセンス: Link先を確認
Zheng Qin, Xiufan Li, Yang Zhou, Shikun Zhang, Rui Li, Chunxiao Du, Zhisong Xiao(参考訳) 近年、変分量子アルゴリズムは有望な量子計算法と考えられており、主流のアルゴリズムは従来の量子回路方式に基づいている。 しかし、測定ベースの量子計算(MBQC)方式では、複数の量子ビットの回転操作は、一定数の単一量子ビットの測定しか必要とせず、資源コストと忠実性の両方において潜在的に有利である。 ハミルトン変分アンザッツ(HVA)の構造はこの性質とよく一致している。 本稿では,量子多体システムシミュレーションタスクのための効率的な測定ベース量子アルゴリズムを提案し,そのことを測定ベースハミルトン変分アンサッツ (MBHVA) と呼ぶ。 次に、2つの量子多体系モデルによる有効性、効率、利点を示す。 数値実験により、MBHVAは、特に大規模マルチキュービット回転操作の存在下での量子回路の構築と比較して、リソースオーバーヘッドを低減することが期待される。 さらに、量子多体システム問題における測定ベースのハードウェア効率アンサッツ(MBHEA)と比較すると、MBHVAは優れた性能を示す。 MBQCスキームは,資源効率と誤差低減の両面から,回路ベーススキームよりも量子シミュレーションに適している可能性が示唆された。

Recently variational quantum algorithms have been considered promising quantum computation methods, where the mainstream algorithms are based on the conventional quantum circuit scheme. However, in the Measurement-Based Quantum Computation (MBQC) scheme, multi-qubit rotation operations are implemented with a straightforward approach that only requires a constant number of single-qubit measurements, providing potential advantages in both resource cost and fidelity. The structure of Hamiltonian Variational Ansatz (HVA) aligns well with this characteristic. In this paper, we propose an efficient measurement-based quantum algorithm for quantum many-body system simulation tasks, alluded to as Measurement-Based Hamiltonian Variational Ansatz (MBHVA). We then demonstrate its effectiveness, efficiency, and advantages with two quantum many-body system models. Numerical experiments show that MBHVA is expected to reduce resource overhead compared to the construction of quantum circuits especially in the presence of large-scale multi-qubit rotation operations. Furthermore, when compared to measurement-based Hardware Efficient Ansatz (MBHEA) on quantum many-body system problems, MBHVA also demonstrates superior performance. We conclude that the MBQC scheme is potentially better suited for quantum simulation than the circuit-based scheme in terms of both resource efficiency and error mitigation.
翻訳日:2023-07-21 16:08:22 公開日:2023-07-19
# IncDSI: 更新可能なドキュメント検索

IncDSI: Incrementally Updatable Document Retrieval ( http://arxiv.org/abs/2307.10323v1 )

ライセンス: Link先を確認
Varsha Kishore, Chao Wan, Justin Lovelace, Yoav Artzi, Kilian Q. Weinberger(参考訳) Differentiable Search Indexは、最近提案されたドキュメント検索のパラダイムであり、ニューラルネットワークのパラメータ内でドキュメントのコーパスに関する情報をエンコードし、クエリを対応するドキュメントに直接マッピングする。 これらのモデルは、多くのベンチマークで文書検索の最先端のパフォーマンスを達成した。 モデルがトレーニングされた後に新しいドキュメントを追加することは容易ではない。 データセット全体(あるいはその一部)でモデルを再トレーニングすることなく、ドキュメントをリアルタイムに(ドキュメントあたり約20~50ms)追加する方法であるincdsiを提案する。 代わりに、制約付き最適化問題としてドキュメントの追加を定式化し、ネットワークパラメータの変更を最小限に抑える。 命令は桁違いに高速だが,本手法はデータセット全体のモデルの再トレーニングと競合し,新たな情報をリアルタイムで更新可能な文書検索システムの開発を可能にする。 IncDSIのコードはhttps://github.com/varshakishore/IncDSIで利用可能です。

Differentiable Search Index is a recently proposed paradigm for document retrieval, that encodes information about a corpus of documents within the parameters of a neural network and directly maps queries to corresponding documents. These models have achieved state-of-the-art performances for document retrieval across many benchmarks. These kinds of models have a significant limitation: it is not easy to add new documents after a model is trained. We propose IncDSI, a method to add documents in real time (about 20-50ms per document), without retraining the model on the entire dataset (or even parts thereof). Instead we formulate the addition of documents as a constrained optimization problem that makes minimal changes to the network parameters. Although orders of magnitude faster, our approach is competitive with re-training the model on the whole dataset and enables the development of document retrieval systems that can be updated with new information in real-time. Our code for IncDSI is available at https://github.com/varshakishore/IncDSI.
翻訳日:2023-07-21 16:08:02 公開日:2023-07-19
# 機械学習駆動研究における再現性

Reproducibility in Machine Learning-Driven Research ( http://arxiv.org/abs/2307.10320v1 )

ライセンス: Link先を確認
Harald Semmelrock and Simone Kopeinik and Dieter Theiler and Tony Ross-Hellauer and Dominik Kowald(参考訳) 研究は再現性危機に直面しており、多くの研究の結果や発見は再現が困難あるいは不可能である。 機械学習(ML)と人工知能(AI)の研究においても、これは同じである。 多くの場合、これは未発表のデータや/またはソースコードによるものであり、MLトレーニング条件に対する感度によるものである。 MLプラットフォームの使用などの研究コミュニティでは,この問題に対処するさまざまなソリューションが議論されているが,MLによる研究における再現性のレベルはそれほど大きくない。 そこで本研究では,ml駆動研究における再現性に関する文献を3つの目的から検討する。 一 各種研究分野におけるML再現性の現状を反映する。 (ii)mlを適用したこれらの研究分野に存在する再現可能性の問題と障壁を特定する (iii)ml再現性をサポートするツール、プラクティス、介入といった潜在的なドライバを特定する。 これにより、ML再現性をサポートするさまざまなソリューションの実現可能性に関する決定に貢献することを期待します。

Research is facing a reproducibility crisis, in which the results and findings of many studies are difficult or even impossible to reproduce. This is also the case in machine learning (ML) and artificial intelligence (AI) research. Often, this is the case due to unpublished data and/or source-code, and due to sensitivity to ML training conditions. Although different solutions to address this issue are discussed in the research community such as using ML platforms, the level of reproducibility in ML-driven research is not increasing substantially. Therefore, in this mini survey, we review the literature on reproducibility in ML-driven research with three main aims: (i) reflect on the current situation of ML reproducibility in various research fields, (ii) identify reproducibility issues and barriers that exist in these research fields applying ML, and (iii) identify potential drivers such as tools, practices, and interventions that support ML reproducibility. With this, we hope to contribute to decisions on the viability of different solutions for supporting ML reproducibility.
翻訳日:2023-07-21 16:07:47 公開日:2023-07-19
# tree-based vertical federated learningにおけるラベル漏洩の除去

Eliminating Label Leakage in Tree-Based Vertical Federated Learning ( http://arxiv.org/abs/2307.10318v1 )

ライセンス: Link先を確認
Hideaki Takahashi, Jingjing Liu, Yang Liu(参考訳) 垂直連合学習(VFL)は、プライベートデータを共有せずに機械学習モデルをトレーニングするための共通ユーザセットの分離した特徴を持つ複数のパーティを可能にする。 木に基づくモデルは、その解釈可能性と効率性のためにVFLで普及している。 しかし,木系VFLの脆弱性は十分に調査されていない。 本研究では,まず,各ノード(インスタンス空間)に割り当てられたレコードIDの集合を利用して,プライベートなトレーニングラベルを推論する新しいラベル推論攻撃ID2Graphを提案する。 ID2Graph攻撃は、トレーニングサンプルからグラフ構造を生成し、グラフからコミュニティを抽出し、コミュニティ情報を使用してローカルデータセットをクラスタ化する。 実例空間からのラベルリーク対策として, 相互情報正規化に着目し, ラベルリークを防止する効果的な防御機構ID-LMIDを提案する。 ID2Graph攻撃はランダムフォレストやXGBoostのような木に基づくモデルに重大なリスクをもたらす。 これらのベンチマークのさらなる評価は、ID-LMIDがラベルの漏洩を効果的に軽減することを示している。

Vertical federated learning (VFL) enables multiple parties with disjoint features of a common user set to train a machine learning model without sharing their private data. Tree-based models have become prevalent in VFL due to their interpretability and efficiency. However, the vulnerability of tree-based VFL has not been sufficiently investigated. In this study, we first introduce a novel label inference attack, ID2Graph, which utilizes the sets of record-IDs assigned to each node (i.e., instance space) to deduce private training labels. The ID2Graph attack generates a graph structure from training samples, extracts communities from the graph, and clusters the local dataset using community information. To counteract label leakage from the instance space, we propose an effective defense mechanism, ID-LMID, which prevents label leakage by focusing on mutual information regularization. Comprehensive experiments conducted on various datasets reveal that the ID2Graph attack presents significant risks to tree-based models such as Random Forest and XGBoost. Further evaluations on these benchmarks demonstrate that ID-LMID effectively mitigates label leakage in such instances.
翻訳日:2023-07-21 16:07:34 公開日:2023-07-19
# FedBug:フェデレーションラーニングのためのボトムアップな段階的凍結フレームワーク

FedBug: A Bottom-Up Gradual Unfreezing Framework for Federated Learning ( http://arxiv.org/abs/2307.10317v1 )

ライセンス: Link先を確認
Chia-Hsiang Kao, Yu-Chiang Frank Wang(参考訳) federated learning(fl)は、データプライバシを損なうことなく、複数のクライアントが共有モデルにコントリビュートできる、コラボレーティブなトレーニングフレームワークを提供する。 ローカルデータセットの異種性のため、更新されたクライアントモデルは、クライアントドリフト問題として知られる、相互に過剰に適合し、分岐する可能性がある。 本稿では,FedBug (Federated Learning with Bottom-Up Gradual Unfreezing)を提案する。 fedbugは、クライアント間のアライメントの参照ポイントとして、グローバルラウンド毎にサーバが配布するクライアントモデルパラメータを適応的に活用する。 具体的には、クライアント側では、FedBugはモデル全体を凍結してから始まり、徐々にレイヤを、入力層から出力層へと凍結させます。 このボトムアップアプローチにより、モデルは新しく解凍した層を訓練してデータを潜在空間に投影することができる。 我々はFedBugを新しいパラメータ化FLセットアップで理論的に解析し、FedAvgよりも優れた収束率を示す。 さまざまなデータセット、トレーニング条件、ネットワークアーキテクチャにまたがる包括的な実験を通じて、FedBugの有効性を検証する。 提案するコントリビューションには,新たなFLフレームワーク,理論解析,実証検証などが含まれ,FedBugの幅広い可能性と適用性を示す。

Federated Learning (FL) offers a collaborative training framework, allowing multiple clients to contribute to a shared model without compromising data privacy. Due to the heterogeneous nature of local datasets, updated client models may overfit and diverge from one another, commonly known as the problem of client drift. In this paper, we propose FedBug (Federated Learning with Bottom-Up Gradual Unfreezing), a novel FL framework designed to effectively mitigate client drift. FedBug adaptively leverages the client model parameters, distributed by the server at each global round, as the reference points for cross-client alignment. Specifically, on the client side, FedBug begins by freezing the entire model, then gradually unfreezes the layers, from the input layer to the output layer. This bottom-up approach allows models to train the newly thawed layers to project data into a latent space, wherein the separating hyperplanes remain consistent across all clients. We theoretically analyze FedBug in a novel over-parameterization FL setup, revealing its superior convergence rate compared to FedAvg. Through comprehensive experiments, spanning various datasets, training conditions, and network architectures, we validate the efficacy of FedBug. Our contributions encompass a novel FL framework, theoretical analysis, and empirical validation, demonstrating the wide potential and applicability of FedBug.
翻訳日:2023-07-21 16:07:14 公開日:2023-07-19
# CPCM: 弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションのためのコンテキストポイントクラウドモデリング

CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2307.10316v1 )

ライセンス: Link先を確認
Lizhao Liu, Zhuangwei Zhuang, Shangxin Huang, Xunlong Xiao, Tianhang Xiang, Cen Chen, Jingdong Wang and Mingkui Tan(参考訳) 疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセマンティックセマンティクス(例えば、0.1%未満のポイントがラベル付けされている)の課題は、高額なアノテーションのコスト削減を目的としている。 残念なことに、非常に少ないアノテートポイントでは、セマンティックセグメンテーションのようなシーン理解のためにコンテキスト情報とオブジェクト情報を抽出することは極めて困難である。 画像および映像表現学習におけるマスクドモデリング(例えば、MAE)の動機付けにより、マスクドモデリングの力を利用して、疎注釈の点から文脈情報を学ぶ。 しかし、3Dポイントのクラウドに直接MAEを適用すると、アノテーションの少ないものがうまくいかないかもしれない。 まず、3Dポイントの雲から情報的視覚的コンテキストを効果的に隠蔽するのは簡単ではない。 第二に、コンテキストモデリングのためのスパースアノテーションを完全に活用する方法は、未解決の問題である。 本稿では,地域別マスキング(region-wise masking, regionmask)戦略とcmt(contextual masked training)手法の2つの部分からなる,単純かつ効果的な文脈的ポイントクラウドモデリング(cpcm)手法を提案する。 特に、リージョンマスクは幾何学空間において連続的に点雲をマスクし、後続の文脈学習のための有意義なマスク予測タスクを構築する。 cmtは教師付きセグメンテーションの学習と教師なしマスク付きコンテキスト予測を区別し、非常に制限されたラベル付きポイントとマス・ラベル付きポイントを効果的に学習する。 広くテストされているScanNet V2とS3DISベンチマークの大規模な実験は、CPCMが最先端技術よりも優れていることを示している。

We study the task of weakly-supervised point cloud semantic segmentation with sparse annotations (e.g., less than 0.1% points are labeled), aiming to reduce the expensive cost of dense annotations. Unfortunately, with extremely sparse annotated points, it is very difficult to extract both contextual and object information for scene understanding such as semantic segmentation. Motivated by masked modeling (e.g., MAE) in image and video representation learning, we seek to endow the power of masked modeling to learn contextual information from sparsely-annotated points. However, directly applying MAE to 3D point clouds with sparse annotations may fail to work. First, it is nontrivial to effectively mask out the informative visual context from 3D point clouds. Second, how to fully exploit the sparse annotations for context modeling remains an open question. In this paper, we propose a simple yet effective Contextual Point Cloud Modeling (CPCM) method that consists of two parts: a region-wise masking (RegionMask) strategy and a contextual masked training (CMT) method. Specifically, RegionMask masks the point cloud continuously in geometric space to construct a meaningful masked prediction task for subsequent context learning. CMT disentangles the learning of supervised segmentation and unsupervised masked context prediction for effectively learning the very limited labeled points and mass unlabeled points, respectively. Extensive experiments on the widely-tested ScanNet V2 and S3DIS benchmarks demonstrate the superiority of CPCM over the state-of-the-art.
翻訳日:2023-07-21 16:06:49 公開日:2023-07-19
# POV-Surgery: Egocentric Hand and Tool Pose Estimationの外科的活動におけるデータセット

POV-Surgery: A Dataset for Egocentric Hand and Tool Pose Estimation During Surgical Activities ( http://arxiv.org/abs/2307.10387v1 )

ライセンス: Link先を確認
Rui Wang, Sophokles Ktistakis, Siwei Zhang, Mirko Meboldt, and Quentin Lohmeyer(参考訳) 複合現実感(mr)の手術的使用は,手術ナビゲーションシステム,スキルアセスメント,ロボット支援手術などの領域で注目を集めている。 このような用途では,手・外科器具のポーズ推定が基本課題であり,近年,コンピュータビジョン分野において広く研究されている。 しかし、この分野の発展は、特に血まみれの手袋や反射金属工具が従来の方法で手や物体の3Dポーズアノテーションを得るのを困難にしている外科領域において、データセットの欠如によって妨げられている。 そこで本研究では, 異なる外科用グローブと3つの整形外科用器具(scalpel, friem, diskplacer)を用いたポーズ推定に焦点をあてた, 大規模・合成・エゴセントリックデータセット pov-surgery を提案する。 我々のデータセットは53のシーケンスと88,329のフレームで構成され、アクティビティアノテーションを備えた高解像度RGB-Dビデオストリーム、手動ポーズのための正確な3Dおよび2Dアノテーション、2Dハンドオブジェクトセグメンテーションマスクを備えている。 我々はPOV-SurgeryのSOTA法を微調整し,手術用手袋と工具を用いた実生活症例に適用する際の一般化可能性について広範な評価を行った。 コードとデータセットは batfacewayne.github.io/POV_Surgery_io/ で公開されている。

The surgical usage of Mixed Reality (MR) has received growing attention in areas such as surgical navigation systems, skill assessment, and robot-assisted surgeries. For such applications, pose estimation for hand and surgical instruments from an egocentric perspective is a fundamental task and has been studied extensively in the computer vision field in recent years. However, the development of this field has been impeded by a lack of datasets, especially in the surgical field, where bloody gloves and reflective metallic tools make it hard to obtain 3D pose annotations for hands and objects using conventional methods. To address this issue, we propose POV-Surgery, a large-scale, synthetic, egocentric dataset focusing on pose estimation for hands with different surgical gloves and three orthopedic surgical instruments, namely scalpel, friem, and diskplacer. Our dataset consists of 53 sequences and 88,329 frames, featuring high-resolution RGB-D video streams with activity annotations, accurate 3D and 2D annotations for hand-object pose, and 2D hand-object segmentation masks. We fine-tune the current SOTA methods on POV-Surgery and further show the generalizability when applying to real-life cases with surgical gloves and tools by extensive evaluations. The code and the dataset are publicly available at batfacewayne.github.io/POV_Surgery_io/.
翻訳日:2023-07-21 16:01:32 公開日:2023-07-19
# 2モードガウス状態のスクイーズポテンシャルと絡み合いポテンシャルの同値性について

On the equivalence between squeezing and entanglement potential for two-mode Gaussian states ( http://arxiv.org/abs/2307.10386v1 )

ライセンス: Link先を確認
Bohan Li, Aritra Das, Spyros Tserkis, Prineha Narang, Ping Koy Lam, Syed M. Assad(参考訳) 連続変数状態によるパッシブ変換の下で達成可能なエンタングルメントの最大量は、エンタングルメントポテンシャルと呼ばれる。 最近の研究は、絡み合いポテンシャルが形成の簡単な関数によって上界であることが示されており、2モードガウス状態のある種のクラスはこの境界を実際に飽和させることができるが、一般の場合の飽和性は未解決の問題である。 本研究では,2モードガウス状態がすべてこのクラスに受動的に変換可能であること,すなわちすべての2モードガウス状態に対して,エンタングル化ポテンシャルは形成のスクイーズと等価であることを示す。 パッシブ変換のための明示的なアルゴリズムを提供し,連続変数系の2つの特性量子特性の資源理論を統一することを目的として,クレームの広範な数値的検証を行う。

The maximum amount of entanglement achievable under passive transformations by continuous-variable states is called the entanglement potential. Recent work has demonstrated that the entanglement potential is upper-bounded by a simple function of the squeezing of formation, and that certain classes of two-mode Gaussian states can indeed saturate this bound, though saturability in the general case remains an open problem. In this study, we introduce a larger class of states that we prove saturates the bound, and we conjecture that all two-mode Gaussian states can be passively transformed into this class, meaning that for all two-mode Gaussian states, entanglement potential is equivalent to squeezing of formation. We provide an explicit algorithm for the passive transformations and perform extensive numerical testing of our claim, which seeks to unite the resource theories of two characteristic quantum properties of continuous-variable systems.
翻訳日:2023-07-21 16:01:05 公開日:2023-07-19
# 量子Big-M$問題を軽減する

Alleviating the quantum Big-$M$ problem ( http://arxiv.org/abs/2307.10379v1 )

ライセンス: Link先を確認
Edoardo Alessandroni, Sergi Ramos, Ingo Roth, Emiliano Traversi, Leandro Aolita(参考訳) 実用的な量子最適化への大きな障害は、二分最適化(qubo)としての制約付き問題の再構成である。 既存のqubo翻訳者はペナルイゼーション用語の重量をかなり過大評価している。 この問題は古典的最適化において「大きな$m$」問題と呼ばれ、物理的エネルギースケールに影響を与えるため、量子ソルバにとってさらに厄介な問題となる。 我々は量子ビッグ-M$問題の理論を発展させる。 最適な$M$を見つけることはNPハードであり、ハミルトニアンスペクトルギャップ$\Delta$で関連する上限を確立し、$\Delta=\mathcal{O}(M^{-1})$という直観を定式化する。 最も重要なことは、SDP緩和に基づく実践的なQUBO変換アルゴリズムを提供することである。 数値ベンチマークでは、従来の手法よりも優れた性能を示している。 特に、最大24キュービットのポートフォリオ最適化(PO)インスタンスの場合、我々のアルゴリズムは、M$$$\Delta$)のオーダーを桁違いに小さくする(より大きい)。 さらに,IonQ デバイス上での近似断熱アルゴリズムを用いて 6-qubit PO インスタンスを実験的に解く。 そこで我々は,正しい解の確率と平均解の質の両方において顕著な利点を見出した。 我々の発見は、現在および短期量子だけでなく、量子に着想を得た解法にも関係している。

A major obstacle towards practical quantum optimizations is the reformulation of constrained problems as a quadratic unconstrained binary optimization (QUBO). Existing QUBO translators significantly over-estimate the weight $M$ of the penalization terms. This issue, known as the "Big-$M$" problem in classical optimization, becomes even more daunting for quantum solvers, since it affects the physical energy scale. We develop a theory of the quantum big-$M$ problem. We observe that finding the optimal $M$ is NP-hard and establish relevant upper bounds on the Hamiltonian spectral gap $\Delta$, formalizing the intuition that $\Delta=\mathcal{O}(M^{-1})$. Most importantly, we deliver a practical QUBO-reformulation algorithm based on the SDP relaxation. Numerical benchmarks show an impressive out-performance over previous methods. In particular, for portfolio optimization (PO) instances of up to 24 qubits, our algorithm gives values of $M$ ($\Delta$) orders of magnitude smaller (greater). Additionally, we experimentally solve 6-qubit PO instances with an approximately adiabatic algorithm on an IonQ device. There, we observe a remarkable advantage both in the probability of right solution and in the average solution quality. Our findings are relevant not only to current and near-term quantum but also quantum-inspired solvers.
翻訳日:2023-07-21 16:00:50 公開日:2023-07-19
# TokenFlow: 一貫性のあるビデオ編集機能

TokenFlow: Consistent Diffusion Features for Consistent Video Editing ( http://arxiv.org/abs/2307.10373v1 )

ライセンス: Link先を確認
Michal Geyer and Omer Bar-Tal and Shai Bagon and Tali Dekel(参考訳) 生成的AI革命は、最近ビデオにまで拡大した。 それでも、現在の最先端のビデオモデルは、生成したコンテンツの視覚的品質とユーザコントロールの観点から、画像モデルに遅れを取っている。 本稿では,テキストから画像への拡散モデルのパワーをテキスト駆動ビデオ編集のタスクに活用するフレームワークを提案する。 具体的には、ソースビデオとターゲットテキストプロンプトを与えられた場合、入力ビデオの空間レイアウトと動きを維持しながら、対象テキストに準拠した高品質な映像を生成する。 本手法は, 拡散特徴空間の一貫性を強制することにより, 編集映像の一貫性が得られることを示す。 モデルで容易に利用できるフレーム間対応に基づいて拡散特徴を明示的に伝播することにより、これを実現できる。 したがって,本フレームワークはトレーニングや微調整を一切必要とせず,市販のテキスト画像編集手法と併用できる。 実世界の様々なビデオで最先端の編集結果を示す。 Webページ: https://diffusion-tokenflow.github.io/

The generative AI revolution has recently expanded to videos. Nevertheless, current state-of-the-art video models are still lagging behind image models in terms of visual quality and user control over the generated content. In this work, we present a framework that harnesses the power of a text-to-image diffusion model for the task of text-driven video editing. Specifically, given a source video and a target text-prompt, our method generates a high-quality video that adheres to the target text, while preserving the spatial layout and motion of the input video. Our method is based on a key observation that consistency in the edited video can be obtained by enforcing consistency in the diffusion feature space. We achieve this by explicitly propagating diffusion features based on inter-frame correspondences, readily available in the model. Thus, our framework does not require any training or fine-tuning, and can work in conjunction with any off-the-shelf text-to-image editing method. We demonstrate state-of-the-art editing results on a variety of real-world videos. Webpage: https://diffusion-tokenflow.github.io/
翻訳日:2023-07-21 16:00:28 公開日:2023-07-19
# エコー検証によるコヒーレント非断熱遷移の仮想緩和

Virtual mitigation of coherent non-adiabatic transitions by echo verification ( http://arxiv.org/abs/2307.10358v1 )

ライセンス: Link先を確認
Benjamin F. Schiffer, Dyon van Vreumingen, Jordi Tura, Stefano Polla(参考訳) 地上空間からの遷移は量子断熱アルゴリズムの性能を制限するが、ハードウェアの不完全性は回路深さに厳しい制限を課す。 非断熱遷移とハードウェアノイズから生じるコヒーレントエラーと不整脈エラーの両方を緩和する断熱エコー検証プロトコルを提案する。 準解剖学的に前方および後方に進化することで、任意の観測可能なエコーによる測定が可能になる。 ハードウェアノイズの軽減に加えて,本手法では正時ダイナミクスのみを用いる。 重要な点として、標準断熱剤と比較して可観測性の推定バイアスが減少し、二次改善が達成される。

Transitions out of the ground space limit the performance of quantum adiabatic algorithms, while hardware imperfections impose stringent limitations on the circuit depth. We propose an adiabatic echo verification protocol which mitigates both coherent and incoherent errors, arising from non-adiabatic transitions and hardware noise, respectively. Quasi-adiabatically evolving forward and backwards allows for an echo-verified measurement of any observable. In addition to mitigating hardware noise, our method uses positive-time dynamics only. Crucially, the estimator bias of the observable is reduced when compared to standard adiabatic preparation, achieving up to a quadratic improvement.
翻訳日:2023-07-21 16:00:13 公開日:2023-07-19
# 強レンズ探索ニューラルネットワークの選択関数

Selection functions of strong lens finding neural networks ( http://arxiv.org/abs/2307.10355v1 )

ライセンス: Link先を確認
A. Herle, C. M. O'Riordan and S. Vegetti(参考訳) 同様のアーキテクチャによるレンズ探索のタスクのために訓練された畳み込みニューラルネットワークと、文献でよく見られるようなトレーニングデータにはバイアスド分類器がある。 レンズ発見ニューラルネットワークの選択関数を理解することは、これからの広い視野調査で見つかる強力な重力レンズシステムの大規模なサンプルの可能性を十分に理解するための鍵となるだろう。 我々は、銀河ギャラクシーと銀河クエーサーのレンズ探索ニューラルネットワークのトレーニングに使用される3つのトレーニングデータセットを使用する。 ネットワークは、より大きなアインシュタイン半径を持つシステムと、より集中したソース光分布を持つより大きなソースを選択する。 8$\sigma$ から 12$\sigma$ に引き上げると、アインシュタイン radii $\theta_\mathrm{e}$$\ge$ 1.04 arcsec from $\theta_\mathrm{e}$ $\ge$ 0.879 arcsec, source radii $r_s$ $\ge$ 0.194 arcsec from $r_s$$$\ge$ 0.178 arcsec and source s\'ersic indices $n_{\mathrm{sc}}^{\mathrm{s}}$ $\ge$ 2.62 from $n_{\mathrm{sc}}^{\mathrm{s}}$ $\ge$ 2.55 となる。 レンズ付きクエーサーを見つけるように訓練されたモデルは、レンズ付き銀河を見つけるために訓練されたものよりも高いレンズ楕円性を好む。 選択関数は質量プロファイルのパワーローの傾きとは独立であるため、この量の測定には影響しない。 レンズファインダ選択関数は、レンズ交差断面積を補強するので、我々の発見は、全ての銀河ギャラクシーおよび銀河クエーサーのレンズ探索ニューラルネットワークの一般的な結果であると期待できる。

Convolution Neural Networks trained for the task of lens finding with similar architecture and training data as is commonly found in the literature are biased classifiers. An understanding of the selection function of lens finding neural networks will be key to fully realising the potential of the large samples of strong gravitational lens systems that will be found in upcoming wide-field surveys. We use three training datasets, representative of those used to train galaxy-galaxy and galaxy-quasar lens finding neural networks. The networks preferentially select systems with larger Einstein radii and larger sources with more concentrated source-light distributions. Increasing the detection significance threshold to 12$\sigma$ from 8$\sigma$ results in 50 per cent of the selected strong lens systems having Einstein radii $\theta_\mathrm{E}$ $\ge$ 1.04 arcsec from $\theta_\mathrm{E}$ $\ge$ 0.879 arcsec, source radii $R_S$ $\ge$ 0.194 arcsec from $R_S$ $\ge$ 0.178 arcsec and source S\'ersic indices $n_{\mathrm{Sc}}^{\mathrm{S}}$ $\ge$ 2.62 from $n_{\mathrm{Sc}}^{\mathrm{S}}$ $\ge$ 2.55. The model trained to find lensed quasars shows a stronger preference for higher lens ellipticities than those trained to find lensed galaxies. The selection function is independent of the slope of the power-law of the mass profiles, hence measurements of this quantity will be unaffected. The lens finder selection function reinforces that of the lensing cross-section, and thus we expect our findings to be a general result for all galaxy-galaxy and galaxy-quasar lens finding neural networks.
翻訳日:2023-07-21 16:00:02 公開日:2023-07-19
# 動的自己同型符号からの量子計算

Quantum computation from dynamic automorphism codes ( http://arxiv.org/abs/2307.10353v1 )

ライセンス: Link先を確認
Margarita Davydova, Nathanan Tantivasadakarn, Shankar Balasubramanian, David Aasen(参考訳) 本稿では,論理情報を同時エンコードし,誤り訂正を可能にし,論理ゲートを適用可能な,低重の測定列からなる量子計算の新しいモデルを提案する。 これらの測定シーケンスは、動的自己同型(DA)符号と呼ばれるフロケ符号を一般化する量子誤り訂正符号の新しいクラスを構成する。 我々は,2次元カラーコードの72個の自己同型を全て実現可能な,短い測定シーケンスから構築したDAカラーコードという明示的な例を構築した。 N$の三角形パッチのスタック上で、DAカラーコードは$N$論理量子ビットをエンコードし、2ビットおよびより稀に3ビットのパウリ測定で完全な論理クリフォード群を実装することができる。 また、3次元DAカラーコードを導入し、適応的な2量子ビット測定により非クリフォード論理ゲートを実現することにより、DA符号を用いた普遍量子計算への第一歩を踏み出す。

We propose a new model of quantum computation comprised of low-weight measurement sequences that simultaneously encode logical information, enable error correction, and apply logical gates. These measurement sequences constitute a new class of quantum error-correcting codes generalizing Floquet codes, which we call dynamic automorphism (DA) codes. We construct an explicit example, the DA color code, which is assembled from short measurement sequences that can realize all 72 automorphisms of the 2D color code. On a stack of $N$ triangular patches, the DA color code encodes $N$ logical qubits and can implement the full logical Clifford group by a sequence of two- and, more rarely, three-qubit Pauli measurements. We also make the first step towards universal quantum computation with DA codes by introducing a 3D DA color code and showing that a non-Clifford logical gate can be realized by adaptive two-qubit measurements.
翻訳日:2023-07-21 15:59:00 公開日:2023-07-19
# 離散スライスしたワッサースタイン損失の特性

Properties of Discrete Sliced Wasserstein Losses ( http://arxiv.org/abs/2307.10352v1 )

ライセンス: Link先を確認
Eloi Tanguy, R\'emi Flamary and Julie Delon(参考訳) Sliced Wasserstein (SW) 距離は、確率測度を比較するために、Wasserstein 距離の代替として人気がある。 分散確率測度間の損失関数として働くswを最小化するために、いくつかのパラメータを最適化するのが一般的である。 これらの最適化問題はすべて、スライスされたワッサーシュタインエネルギーを最小化する同じサブプロブレムを持つ。 本稿では、$\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, すなわち、サポート $Y \in \mathbb{R}^{n \times d} の関数として同じ量の点を持つ2つの一様離散測度の間のSW距離について検討する。 このエネルギーの正則性と最適化特性、およびモンテカルロ近似$\mathcal{E}_p$($p$サンプルのみを用いてSWの期待を見積もる)について検討し、$\mathcal{E}_p$の臨界点と$\mathcal{E}_p$の臨界点に対する収束結果、およびほぼ一様収束を示す。 最後に、ある意味では、Stochastic Gradient Descent method minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge to (Clarke) critical points of these energy。

The Sliced Wasserstein (SW) distance has become a popular alternative to the Wasserstein distance for comparing probability measures. Widespread applications include image processing, domain adaptation and generative modelling, where it is common to optimise some parameters in order to minimise SW, which serves as a loss function between discrete probability measures (since measures admitting densities are numerically unattainable). All these optimisation problems bear the same sub-problem, which is minimising the Sliced Wasserstein energy. In this paper we study the properties of $\mathcal{E}: Y \longmapsto \mathrm{SW}_2^2(\gamma_Y, \gamma_Z)$, i.e. the SW distance between two uniform discrete measures with the same amount of points as a function of the support $Y \in \mathbb{R}^{n \times d}$ of one of the measures. We investigate the regularity and optimisation properties of this energy, as well as its Monte-Carlo approximation $\mathcal{E}_p$ (estimating the expectation in SW using only $p$ samples) and show convergence results on the critical points of $\mathcal{E}_p$ to those of $\mathcal{E}$, as well as an almost-sure uniform convergence. Finally, we show that in a certain sense, Stochastic Gradient Descent methods minimising $\mathcal{E}$ and $\mathcal{E}_p$ converge towards (Clarke) critical points of these energies.
翻訳日:2023-07-21 15:58:43 公開日:2023-07-19
# 画像キャプションによるマルチモーダルデータセットの改善

Improving Multimodal Datasets with Image Captioning ( http://arxiv.org/abs/2307.10350v1 )

ライセンス: Link先を確認
Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt(参考訳) 大規模なWebデータセットは、CLIPやFlamingoといった大規模なビジョン言語モデルの成功に重要な役割を果たしている。 しかし、生のWebデータはノイズが多く、ノイズを減らすための既存のフィルタリング手法は、しばしばデータの多様性を犠牲にしている。 本研究は,キャプション品質を主要なノイズ源として位置づけ,生成キャプションが非記述テキストによる web 階層データポイントの有用性をいかに高めるかを検討する。 生のキャプションと生成したキャプションの異なる混合戦略を探求することで,128万のイメージテキストペアの候補プールを与えられた場合,datacompベンチマークで提案する最良のフィルタリング手法を,imagenetで2%,38タスクで平均で4%上回った。 FlickrとMS-COCOの検索も2倍改善しています。 次に、合成キャプションをテキスト管理の効果的な源とするものを分析する。 異なる画像キャプションモデルを用いた実験では、標準画像キャプションベンチマーク(例えば、NoCaps CIDEr)におけるモデルの性能が、マルチモーダルトレーニングのためのキャプションの有用性の信頼性を示す指標ではないことも示している。 最後に,DataComp の大規模キャプション (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界,およびトレーニングデータ量の増加に伴う画像キュレーションの重要性について考察した。

Massive web datasets play a key role in the success of large vision-language models like CLIP and Flamingo. However, the raw web data is noisy, and existing filtering methods to reduce noise often come at the expense of data diversity. Our work focuses on caption quality as one major source of noise, and studies how generated captions can increase the utility of web-scraped datapoints with nondescript text. Through exploring different mixing strategies for raw and generated captions, we outperform the best filtering method proposed by the DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a candidate pool of 128M image-text pairs. Our best approach is also 2x better at Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an effective source of text supervision. In experimenting with different image captioning models, we also demonstrate that the performance of a model on standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable indicator of the utility of the captions it generates for multimodal training. Finally, our experiments with using generated captions at DataComp's large scale (1.28B image-text pairs) offer insights into the limitations of synthetic text, as well as the importance of image curation with increasing training data quantity.
翻訳日:2023-07-21 15:58:14 公開日:2023-07-19
# Twits, Toxic Tweets, Tribal Tendencies: Twitter上の政治偏極ポストのトレンド

Twits, Toxic Tweets, and Tribal Tendencies: Trends in Politically Polarized Posts on Twitter ( http://arxiv.org/abs/2307.10349v1 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric(参考訳) ソーシャルメディアプラットフォームは、政治的分極の悪化と大衆の対話の悪化によってしばしば非難される。 多くの主張では、過党派のユーザーは、政治的見解にこだわる悪質なコンテンツを投稿し、批判的で有害な会話を呼び起こした。 しかし、オンライン毒性の増加とネガティブな相互作用に実際に寄与する要因は何か? 本研究では,政治的イデオロギーが個人のユーザレベルでも,Twitter上でもトピックレベルでも毒性に寄与する役割について考察する。 そのために、DeBERTaベースの毒性検知器をトレーニングし、オープンソースにして、Civil Commentsテストデータセット上でGoogle Jigsaw Persective Toxicity検出器よりも優れた、対照的な目標を達成しました。 そして、55,415人のTwitterユーザーから1億8700万のツイートを収集し、政治イデオロギーやアカウント年齢などのアカウントレベルの特徴が、各ユーザーが有害コンテンツを投稿する頻度を予測する。 線形回帰を実行すると、ビューの多様性と、ユーザが関与する他のアカウントの毒性が、自身の毒性により顕著な影響を及ぼすことがわかった。 つまり、有害なコメントは、より幅広い政治的見解に携わるユーザーと相関している。 大規模言語モデルMPNetとDP-Meansクラスタリングアルゴリズムを用いてこれらのアカウントが投稿した有害コンテンツに関するトピック分析を行い、6,592件のトピックに類似した振る舞いを見出した。

Social media platforms are often blamed for exacerbating political polarization and worsening public dialogue. Many claim hyperpartisan users post pernicious content, slanted to their political views, inciting contentious and toxic conversations. However, what factors, actually contribute to increased online toxicity and negative interactions? In this work, we explore the role that political ideology plays in contributing to toxicity both on an individual user level and a topic level on Twitter. To do this, we train and open-source a DeBERTa-based toxicity detector with a contrastive objective that outperforms the Google Jigsaw Persective Toxicity detector on the Civil Comments test dataset. Then, after collecting 187 million tweets from 55,415 Twitter users, we determine how several account-level characteristics, including political ideology and account age, predict how often each user posts toxic content. Running a linear regression, we find that the diversity of views and the toxicity of the other accounts with which that user engages has a more marked effect on their own toxicity. Namely, toxic comments are correlated with users who engage with a wider array of political views. Performing topic analysis on the toxic content posted by these accounts using the large language model MPNet and a version of the DP-Means clustering algorithm, we find similar behavior across 6,592 individual topics, with conversations on each topic becoming more toxic as a wider diversity of users become involved.
翻訳日:2023-07-21 15:57:49 公開日:2023-07-19
# 薬局GPT:AI薬剤師

PharmacyGPT: The AI Pharmacist ( http://arxiv.org/abs/2307.10432v1 )

ライセンス: Link先を確認
Zhengliang Liu, Zihao Wu, Mengxuan Hu, Bokai Zhao, Lin Zhao, Tianyi Zhang, Haixing Dai, Xianyan Chen, Ye Shen, Sheng Li, Brian Murray, Tianming Liu, Andrea Sikora(参考訳) 本研究では, chatgpt や gpt-4 などの大規模言語モデル (llm) が臨床薬剤師の役割を模倣する能力を評価するための新しい枠組みである pharmacygpt を紹介する。 本手法は, 患者クラスターの生成, 医薬品計画の定式化, 患者結果の予測にLLMの利用を包含する。 我々はノースカロライナ大学チャペルヒル病院(UNC)で集中治療室(ICU)から取得した実データを用いて調査を行った。 今回の分析は、臨床薬局におけるllmの応用可能性と限界について、患者ケアと将来のai駆動医療ソリューション開発の両方に有意義な洞察を与えてくれる。 薬局GPTの性能を評価することにより、医療環境における人工知能の統合に関する継続的な議論に寄与し、最終的にはこれらの技術の責任と有効利用を促進することを目指している。

In this study, we introduce PharmacyGPT, a novel framework to assess the capabilities of large language models (LLMs) such as ChatGPT and GPT-4 in emulating the role of clinical pharmacists. Our methodology encompasses the utilization of LLMs to generate comprehensible patient clusters, formulate medication plans, and forecast patient outcomes. We conduct our investigation using real data acquired from the intensive care unit (ICU) at the University of North Carolina Chapel Hill (UNC) Hospital. Our analysis offers valuable insights into the potential applications and limitations of LLMs in the field of clinical pharmacy, with implications for both patient care and the development of future AI-driven healthcare solutions. By evaluating the performance of PharmacyGPT, we aim to contribute to the ongoing discourse surrounding the integration of artificial intelligence in healthcare settings, ultimately promoting the responsible and efficacious use of such technologies.
翻訳日:2023-07-21 15:50:46 公開日:2023-07-19
# DP-TBART:個人差分データ生成のための変圧器を用いた自己回帰モデル

DP-TBART: A Transformer-based Autoregressive Model for Differentially Private Tabular Data Generation ( http://arxiv.org/abs/2307.10430v1 )

ライセンス: Link先を確認
Rodrigo Castellon, Achintya Gopal, Brian Bloniarz, David Rosenberg(参考訳) 差分プライバシーを保持する合成表データの生成は、重要性を増す問題である。 従来の辺縁ベースの手法は目覚ましい結果を得たが、最近の研究によると、ディープラーニングベースのアプローチは遅れがちである。 本研究では、差分プライバシを維持し、幅広いデータセット上の限界ベースの手法と競合する性能を達成し、特定の設定において最先端の手法よりも優れたパフォーマンスを実現するトランスフォーマベースの自己回帰モデルであるDP-TBARTを提案する。 また、限界に基づくアプローチの限界を理解するための理論的枠組みを提供し、深層学習に基づくアプローチが最も貢献する場を提供する。 これらの結果から, 深層学習に基づく手法は, 差動的にプライベートな合成表データの生成において, 限界ベースの手法の代替として有効なものと考えるべきである。

The generation of synthetic tabular data that preserves differential privacy is a problem of growing importance. While traditional marginal-based methods have achieved impressive results, recent work has shown that deep learning-based approaches tend to lag behind. In this work, we present Differentially-Private TaBular AutoRegressive Transformer (DP-TBART), a transformer-based autoregressive model that maintains differential privacy and achieves performance competitive with marginal-based methods on a wide variety of datasets, capable of even outperforming state-of-the-art methods in certain settings. We also provide a theoretical framework for understanding the limitations of marginal-based approaches and where deep learning-based approaches stand to contribute most. These results suggest that deep learning-based techniques should be considered as a viable alternative to marginal-based methods in the generation of differentially private synthetic tabular data.
翻訳日:2023-07-21 15:50:21 公開日:2023-07-19
# PreDiff: 潜在拡散モデルによる降水開始

PreDiff: Precipitation Nowcasting with Latent Diffusion Models ( http://arxiv.org/abs/2307.10422v1 )

ライセンス: Link先を確認
Zhihan Gao, Xingjian Shi, Boran Han, Hao Wang, Xiaoyong Jin, Danielle Maddix, Yi Zhu, Mu Li, Yuyang Wang(参考訳) 地球系の予測は伝統的に計算コストが高く、重要な分野の専門知識を必要とする複雑な物理モデルに依存してきた。 過去10年間で、時空間観測データの増加は、深層学習技術を用いたデータ駆動予測モデルを可能にした。 これらのモデルは、多様な地球系の予測タスクを約束するが、不確実性を扱うか、ドメイン固有の事前知識を無視するかのいずれかに苦慮している。 これらの制約に対処するため,確率的時空間予測のための2段階パイプラインを提案する。 1)確率予測が可能な条件付き潜在拡散モデルprediffを開発した。 2)予測をドメイン固有の物理的制約に合わせるための明示的な知識制御機構を導入する。 これにより、各消音段で課された制約からの逸脱を推定し、それに応じて遷移分布を調整できる。 カオス的な振る舞いを持つ合成データセットであるN-body MNISTと、実際の降水量予測データセットであるSEVIRの2つのデータセットに関する実証的研究を行った。 具体的には、N体MNISTにおけるエネルギーの保存則と、SEVIRにおける降水強度を予想する。 実験は、不確実性処理、ドメイン固有の事前知識の導入、高い運用効率を示す予測生成におけるprediffの有効性を実証する。

Earth system forecasting has traditionally relied on complex physical models that are computationally expensive and require significant domain expertise. In the past decade, the unprecedented increase in spatiotemporal Earth observation data has enabled data-driven forecasting models using deep learning techniques. These models have shown promise for diverse Earth system forecasting tasks but either struggle with handling uncertainty or neglect domain-specific prior knowledge, resulting in averaging possible futures to blurred forecasts or generating physically implausible predictions. To address these limitations, we propose a two-stage pipeline for probabilistic spatiotemporal forecasting: 1) We develop PreDiff, a conditional latent diffusion model capable of probabilistic forecasts. 2) We incorporate an explicit knowledge control mechanism to align forecasts with domain-specific physical constraints. This is achieved by estimating the deviation from imposed constraints at each denoising step and adjusting the transition distribution accordingly. We conduct empirical studies on two datasets: N-body MNIST, a synthetic dataset with chaotic behavior, and SEVIR, a real-world precipitation nowcasting dataset. Specifically, we impose the law of conservation of energy in N-body MNIST and anticipated precipitation intensity in SEVIR. Experiments demonstrate the effectiveness of PreDiff in handling uncertainty, incorporating domain-specific prior knowledge, and generating forecasts that exhibit high operational utility.
翻訳日:2023-07-21 15:49:51 公開日:2023-07-19
# GOOSEアルゴリズム - 実世界のエンジニアリング課題を克服する強力な最適化ツール

GOOSE Algorithm: A Powerful Optimization Tool for Real-World Engineering Challenges and Beyond ( http://arxiv.org/abs/2307.10420v1 )

ライセンス: Link先を確認
Rebwar Khalid Hamad, Tarik A. Rashid(参考訳) 本研究では,ガチョウの休養行動と採餌行動に基づく新しいメタヒューリスティックアルゴリズムとして,GOOSEアルゴリズムを提案する。 ガチョウは片足で立ち、群れの中で他の個人の保護と保護のためにバランスを保つ。 GOOSEアルゴリズムは、よく知られた19のベンチマークテスト関数をベンチマークし、遺伝的アルゴリズム(GA)、粒子群最適化(PSO)、トンボアルゴリズム(DA)、フィットネス依存最適化(FDO)との比較によって検証する。 さらに,提案アルゴリズムは10種類の最新のベンチマーク関数で検証され,この結果が,トンボアルゴリズム,クジラ最適化アルゴリズム(WOA),サルプ群アルゴリズム(SSA)といった最近の3つのアルゴリズムと比較された。 さらに,5つの古典的ベンチマーク関数を用いてグースアルゴリズムをテストし,適合度依存オプティマイザ(fdo),foxオプティマイザ,バタフライ最適化アルゴリズム(boa),クジラ最適化アルゴリズム,ドラゴンフライアルゴリズム,チンプ最適化アルゴリズム(choa)の6つのアルゴリズムを用いて評価した。 その結果,本研究で活用した他のアルゴリズムと比較して,提案アルゴリズムの優れた性能が検証された。 この技術は、溶接ビーム設計とエコノミック・ロード・ディスパッチ問題、3つの有名な現実世界のエンジニアリング課題、そして神経系における病理IgGフラクションの最適化に使用される。 エンジニアリングケーススタディの結果は、提案手法が現実世界で発生する問題をいかに最適化できるかを示している。

This study proposes the GOOSE algorithm as a novel metaheuristic algorithm based on the goose's behavior during rest and foraging. The goose stands on one leg and keeps his balance to guard and protect other individuals in the flock. The GOOSE algorithm is benchmarked on 19 well-known benchmark test functions, and the results are verified by a comparative study with genetic algorithm (GA), particle swarm optimization (PSO), dragonfly algorithm (DA), and fitness dependent optimizer (FDO). In addition, the proposed algorithm is tested on 10 modern benchmark functions, and the gained results are compared with three recent algorithms, such as the dragonfly algorithm, whale optimization algorithm (WOA), and salp swarm algorithm (SSA). Moreover, the GOOSE algorithm is tested on 5 classical benchmark functions, and the obtained results are evaluated with six algorithms, such as fitness dependent optimizer (FDO), FOX optimizer, butterfly optimization algorithm (BOA), whale optimization algorithm, dragonfly algorithm, and chimp optimization algorithm (ChOA). The achieved findings attest to the proposed algorithm's superior performance compared to the other algorithms that were utilized in the current study. The technique is then used to optimize Welded beam design and Economic Load Dispatch Problem, three renowned real-world engineering challenges, and the Pathological IgG Fraction in the Nervous System. The outcomes of the engineering case studies illustrate how well the suggested approach can optimize issues that arise in the real-world.
翻訳日:2023-07-21 15:49:19 公開日:2023-07-19
# 遺伝的アルゴリズムによるエッジセット削減によるグラフ分割問題の解法

Edge-set reduction to efficiently solve the graph partitioning problem with the genetic algorithm ( http://arxiv.org/abs/2307.10410v1 )

ライセンス: Link先を確認
Ali Chaouche and Menouar Boulif(参考訳) グラフ分割問題(GPP)は最適化において最も困難なモデルの一つである。 NPの硬さのため、研究者らは遺伝的アルゴリズム(GA)のような近似手法への関心を向けた。 エッジベースのgaはgppの解決に有望な結果を示している。 しかし、大きな密度のインスタンスの場合、符号化表現のサイズは巨大になり、GAの効率に影響を及ぼす。 本稿では,GPPエッジセットを小さくすることで,染色体サイズがエッジベースGAに与える影響について検討する。 我々は,ga性能を異なるレベルの低減度で検討し,得られた結果を報告する。

The graph partitioning problem (GPP) is among the most challenging models in optimization. Because of its NP-hardness, the researchers directed their interest towards approximate methods such as the genetic algorithms (GA). The edge-based GA has shown promising results when solving GPP. However, for big dense instances, the size of the encoding representation becomes too huge and affects GA's efficiency. In this paper, we investigate the impact of modifying the size of the chromosomes on the edge based GA by reducing the GPP edge set. We study the GA performance with different levels of reductions, and we report the obtained results.
翻訳日:2023-07-21 15:48:50 公開日:2023-07-19
# 視覚質問応答による自律運転行動の説明

Explaining Autonomous Driving Actions with Visual Question Answering ( http://arxiv.org/abs/2307.10408v1 )

ライセンス: Link先を確認
Shahin Atakishiyev, Mohammad Salameh, Housam Babiker, Randy Goebel(参考訳) 自動運転車のエンドツーエンド学習能力は、ディープラーニングとコンピュータビジョンアルゴリズムの急速な進歩により、過去10年間で大きなマイルストーンを達成している。 しかし、自律運転技術は、人工知能(AI)、道路事故、確立された規制原則の安全に不可欠な応用であるため、自動運転車のインテリジェントな行動選択の説明可能性の必要性が求められる。 自律運転における意思決定の解釈を容易にするために,質問応答に基づく因果推論による運転行動の説明を行う視覚質問応答(VQA)フレームワークを提案する。 そこで,我々はまず,強化学習(RL)を用いてシミュレーション環境で運転映像を収集し,このログデータから連続フレームを抽出し,選択した5つのアクションカテゴリを均一に抽出する。 さらに,各シナリオで選択されたアクションの正当化として,質問応答ペアを用いて抽出したフレームを手動で注釈付けする。 最後に,VQA予測された運転シーンの動作に対する正当性を評価する。 実証的な結果は、VQAメカニズムが、自動運転車のリアルタイム決定を解釈し、全体の運転安全性を高めるのに役立つことを示唆している。

The end-to-end learning ability of self-driving vehicles has achieved significant milestones over the last decade owing to rapid advances in deep learning and computer vision algorithms. However, as autonomous driving technology is a safety-critical application of artificial intelligence (AI), road accidents and established regulatory principles necessitate the need for the explainability of intelligent action choices for self-driving vehicles. To facilitate interpretability of decision-making in autonomous driving, we present a Visual Question Answering (VQA) framework, which explains driving actions with question-answering-based causal reasoning. To do so, we first collect driving videos in a simulation environment using reinforcement learning (RL) and extract consecutive frames from this log data uniformly for five selected action categories. Further, we manually annotate the extracted frames using question-answer pairs as justifications for the actions chosen in each scenario. Finally, we evaluate the correctness of the VQA-predicted answers for actions on unseen driving scenes. The empirical results suggest that the VQA mechanism can provide support to interpret real-time decisions of autonomous vehicles and help enhance overall driving safety.
翻訳日:2023-07-21 15:48:42 公開日:2023-07-19
# PIP-Netによる医用画像分類の解釈と修正

Interpreting and Correcting Medical Image Classification with PIP-Net ( http://arxiv.org/abs/2307.10404v1 )

ライセンス: Link先を確認
Meike Nauta, Johannes H. Hegeman, Jeroen Geerdink, J\"org Schl\"otterer, Maurice van Keulen, Christin Seifert(参考訳) パートプロトタイプモデルは、説明可能な画像分類器であり、ブラックボックスAIに代わる有望な選択肢である。 本稿では,リアルタイム医用画像データの自動診断支援における解釈可能な機械学習,特にPIP-Netの適用可能性について検討する。 PIP-Netは人間の理解可能な原型画像部品を学習し,その精度と皮膚癌診断の解釈性を評価する。 PIP-Netの意思決定プロセスは,画像レベルのクラスラベルのみを提供しながら,医学的分類基準に従っていることがわかった。 PIP-Netによるプロトタイプの教師なし事前トレーニングのため、望ましくないテキストやラベリングエラーなどのデータ品質問題を容易に識別できる。 さらに,PIP-Netの推論を直接無効にすることで,人間が手動で修正できることを初めて示す。 我々は,その解釈可能性と高度なモデルデバッグの可能性から,part-prototypeモデルが医療応用に有望であると結論づける。

Part-prototype models are explainable-by-design image classifiers, and a promising alternative to black box AI. This paper explores the applicability and potential of interpretable machine learning, in particular PIP-Net, for automated diagnosis support on real-world medical imaging data. PIP-Net learns human-understandable prototypical image parts and we evaluate its accuracy and interpretability for fracture detection and skin cancer diagnosis. We find that PIP-Net's decision making process is in line with medical classification standards, while only provided with image-level class labels. Because of PIP-Net's unsupervised pretraining of prototypes, data quality problems such as undesired text in an X-ray or labelling errors can be easily identified. Additionally, we are the first to show that humans can manually correct the reasoning of PIP-Net by directly disabling undesired prototypes. We conclude that part-prototype models are promising for medical applications due to their interpretability and potential for advanced model debugging.
翻訳日:2023-07-21 15:47:59 公開日:2023-07-19
# 六方晶窒化ホウ素の欠陥放出と積層配列との非常に強い結合

Exceptionally strong coupling of defect emission in hexagonal boron nitride to stacking sequences ( http://arxiv.org/abs/2307.10401v1 )

ライセンス: Link先を確認
Song Li, Anton Pershin, Pei Li and Adam Gali(参考訳) ファンデルワールス構造は、材料界面を調整し、フォトニック機能を統合するユニークな機会である。 ねじれ角と積み重ね列を正確に操作することで、層状ファンデルワールス構造の電子的および光学的特性をエレガントに調整し、機能化することができる。 これらの材料の中で、2次元の六方晶窒化ホウ素(hBN)は、その顕著な光学特性と広いバンドギャップが際立っており、室温での固体単光子放射体として有望である。 これまでの研究では、幅広い波長にわたるhBNにおける明るい単一光子放射が観測された。 本研究では,重畳配列や多型を慎重に制御することにより,スペクトル形状や明るさを調節するファンデルワールス技術の応用を公表する。 解析の結果,huang-rhys因子は,欠陥とその周辺格子との相互作用の指標として,異なる積み重ねの欠陥に対して最大3.3の因子を持つことが明らかとなった。 われわれはこれらの変動の背後にあるメカニズムに関する洞察を提供し、欠陥発生の合理的かつ正確な制御を達成するために必要な設計原則に光を当てる。 この研究は欠陥同定の強化と、ファンデルワールス材料を用いた高効率単一光子源と量子ビットのエンジニアリングの促進に寄与する。

Van der Waals structures present a unique opportunity for tailoring material interfaces and integrating photonic functionalities. By precisely manipulating the twist angle and stacking sequences, it is possible to elegantly tune and functionalize the electronic and optical properties of layered van der Waals structures. Among these materials, two-dimensional hexagonal boron nitride (hBN) stands out for its remarkable optical properties and wide band gap, making it a promising host for solid state single photon emitters at room temperature. Previous investigations have demonstrated the observation of bright single photon emission in hBN across a wide range of wavelengths. In this study, we unveil an application of van der Waals technology in modulating their spectral shapes and brightness by carefully controlling the stacking sequences and polytypes. Our theoretical analysis reveals remarkably large variations in the Huang-Rhys factors-an indicator of the interaction between a defect and its surrounding lattice-reaching up to a factor of 3.3 for the same defect in different stackings. We provide insights into the underlying mechanism behind these variations, shedding light on the design principles necessary to achieve rational and precise control of defect emission. This work paves the way for enhancing defect identification and facilitating the engineering of highly efficient single photon sources and qubits using van der Waals materials.
翻訳日:2023-07-21 15:47:40 公開日:2023-07-19
# 事前学習型言語モデルの一般化の改善

Improving Pre-trained Language Models' Generalization ( http://arxiv.org/abs/2307.10457v1 )

ライセンス: Link先を確認
Somayeh Ghanbarzadeh, Hamid Palangi, Yan Huang, Radames Cruz Moreno, and Hamed Khanpour(参考訳) 最先端の事前学習言語モデル(PLM)の再利用可能性はしばしば、その一般化問題によって制限され、トレーニングデータセットと異なる例であるOOD(Out-of-Distribution)/unseenの例で評価すると、その性能が劇的に低下する。 この制限はplmsがスプリアス相関に依存しており、頻繁な例型ではうまく機能するが、一般的な例ではうまく機能しない。 この問題に対処するため,我々は Masked Language Modeling (MLM) トレーニング目標を微調整プロセスに統合して PLM の一般化を向上する Mask-tuning というトレーニング手法を提案する。 総合的な実験により、Mask-tuningは現在の最先端技術を超え、PLMのOODデータセットへの一般化を促進しながら、分散データセットのパフォーマンスを改善している。 この結果から,マスクチューニングにより,見えないデータ上でのPLMの再利用性が向上し,現実のアプリケーションにおいてより実用的で効果的であることが示唆された。

The reusability of state-of-the-art Pre-trained Language Models (PLMs) is often limited by their generalization problem, where their performance drastically decreases when evaluated on examples that differ from the training dataset, known as Out-of-Distribution (OOD)/unseen examples. This limitation arises from PLMs' reliance on spurious correlations, which work well for frequent example types but not for general examples. To address this issue, we propose a training approach called Mask-tuning, which integrates Masked Language Modeling (MLM) training objectives into the fine-tuning process to enhance PLMs' generalization. Comprehensive experiments demonstrate that Mask-tuning surpasses current state-of-the-art techniques and enhances PLMs' generalization on OOD datasets while improving their performance on in-distribution datasets. The findings suggest that Mask-tuning improves the reusability of PLMs on unseen data, making them more practical and effective for real-world applications.
翻訳日:2023-07-21 15:41:25 公開日:2023-07-19
# 機械学習を用いた指向型パーコレーション授業システムにおける臨界点の決定

Determination of the critical points for systems of directed percolation class using machine learning ( http://arxiv.org/abs/2307.10456v1 )

ライセンス: Link先を確認
M. Ali Saif and Bassam M. Mughalles(参考訳) 近年、機械学習アルゴリズムは平衡相転移の研究に顕著に用いられているが、非平衡相転移においてこの手法を用いた研究はほとんど行われていない。 本研究では,畳み込みニューラルネットワーク(CNN)アルゴリズムを用いた教師付き学習と,ノイズを伴うアプリケーションの密度に基づく空間クラスタリングによる教師なし学習を用いて,2つのモデルにおける非平衡相転移を研究する。 我々はCNNとDBSCANを用いて、有向結合パーコレーション(ボンドDP)モデルとドマニ・キンゼルセルオートマトン(DK)モデルに対する臨界点を決定する。 どちらのモデルも非平衡相転移が有向パーコレーション(DP)普遍性クラスに属することが証明されている。 教師あり学習の場合,モンテカルロシミュレーションから生成した有向結合パーコレーションの画像を用いてCNNを訓練する。 トレーニングされたCNNを使って、2つのモデルのフェーズ移行をスタブ化しています。 教師なし学習の場合、モンテカルロシミュレーションの生データを用いてDBSCANを訓練する。 この場合、モデルまたは格子サイズを変更するたびにdbscanを再トレーニングします。 両アルゴリズムの結果から,格子サイズの非常に小さな値であっても,マシンは両モデルの臨界点を正確に予測できることがわかった。 最後に、CNNやDBSCANを用いた結合DPモデルにおける臨界点の値は、ドメイン逆ニューラルネットワーク(DANN)アルゴリズムを用いた転送学習で得られたものと全く同じ値である。

Recently, machine learning algorithms have been used remarkably to study the equilibrium phase transitions, however there are only a few works have been done using this technique in the nonequilibrium phase transitions. In this work, we use the supervised learning with the convolutional neural network (CNN) algorithm and unsupervised learning with the density-based spatial clustering of applications with noise (DBSCAN) algorithm to study the nonequilibrium phase transition in two models. We use CNN and DBSCAN in order to determine the critical points for directed bond percolation (bond DP) model and Domany-Kinzel cellular automaton (DK) model. Both models have been proven to have a nonequilibrium phase transition belongs to the directed percolation (DP) universality class. In the case of supervised learning we train CNN using the images which are generated from Monte Carlo simulations of directed bond percolation. We use that trained CNN in studding the phase transition for the two models. In the case of unsupervised learning, we train DBSCAN using the raw data of Monte Carlo simulations. In this case, we retrain DBSCAN at each time we change the model or lattice size. Our results from both algorithms show that, even for a very small values of lattice size, machine can predict the critical points accurately for both models. Finally, we mention to that, the value of the critical point we find here for bond DP model using CNN or DBSCAN is exactly the same value that has been found using transfer learning with a domain adversarial neural network (DANN) algorithm.
翻訳日:2023-07-21 15:41:06 公開日:2023-07-19
# 世界規模の生物多様性評価への一歩:BIOSCAN-1M昆虫データセット

A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect Dataset ( http://arxiv.org/abs/2307.10455v1 )

ライセンス: Link先を確認
Zahra Gharaee, ZeMing Gong, Nicholas Pellegrino, Iuliia Zarubiieva, Joakim Bruslund Haurum, Scott C. Lowe, Jaclyn T.A. McKeown, Chris C.Y. Ho, Joschka McLeod, Yi-Yun C Wei, Jireh Agda, Sujeevan Ratnasingham, Dirk Steinke, Angel X. Chang, Graham W. Taylor, Paul Fieguth(参考訳) そこで本研究では,昆虫の生物多様性のカタログ化を目的として,昆虫画像の大規模データセットBIOSCAN-Insect Datasetを提案する。 各レコードは、専門家によって分類され、種分類のための遺伝子ベースのプロキシである生のヌクレオチドバーコード配列や割り当てられたバーコードインデックス番号を含む関連する遺伝情報も持っている。 本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルのトレーニングを主目的とする,百万画像データセットを提案する。 データセット固有の生物学的性質に基づいて、特徴的な長い尾を持つクラスバランス分布を示す。 さらに分類学的なラベリングは階層的な分類スキームであり、低いレベルで非常にきめ細かい分類問題を引き起こす。 機械学習コミュニティにおける生物多様性研究への関心の高まりに加え、画像に基づく分類器の作成の進展は、すべてのBIOSCAN研究の最終的な目標である、グローバルな生物多様性に関する総合的な調査の基盤を築き上げることになる。 本稿では,データセットを紹介し,ベースライン分類器の実装と解析を通じて分類タスクを検討する。

In an effort to catalog insect biodiversity, we propose a new large dataset of hand-labelled insect images, the BIOSCAN-Insect Dataset. Each record is taxonomically classified by an expert, and also has associated genetic information including raw nucleotide barcode sequences and assigned barcode index numbers, which are genetically-based proxies for species classification. This paper presents a curated million-image dataset, primarily to train computer-vision models capable of providing image-based taxonomic assessment, however, the dataset also presents compelling characteristics, the study of which would be of interest to the broader machine learning community. Driven by the biological nature inherent to the dataset, a characteristic long-tailed class-imbalance distribution is exhibited. Furthermore, taxonomic labelling is a hierarchical classification scheme, presenting a highly fine-grained classification problem at lower levels. Beyond spurring interest in biodiversity research within the machine learning community, progress on creating an image-based taxonomic classifier will also further the ultimate goal of all BIOSCAN research: to lay the foundation for a comprehensive survey of global biodiversity. This paper introduces the dataset and explores the classification task through the implementation and analysis of a baseline classifier.
翻訳日:2023-07-21 15:40:40 公開日:2023-07-19
# 読み理解モデルのための相対位置ラベルを用いたヘテロジニアスグラフとエンティティ認識自己照合の統合

Integrating a Heterogeneous Graph with Entity-aware Self-attention using Relative Position Labels for Reading Comprehension Model ( http://arxiv.org/abs/2307.10443v1 )

ライセンス: Link先を確認
Shima Foolad and Kourosh Kiani(参考訳) 機械読解タスクにおけるトランスフォーマーモデルによる顕著な進歩にもかかわらず、入力シーケンスに明示的な知識がないため、複雑な推論タスクを扱う際の制限に直面している。 本稿では,この制約を克服するための新しい注意パターンを提案する。グラフ強調自己着脱機構を用いて,不均一グラフから導出される推論知識をトランスフォーマアーキテクチャに統合する。 提案する注目パターンは, 単語トークンに対するグローバルな注意, 未接続のトークンとは対照的に, グラフ内のトークンに対して強い関心を示すエンティティトークンに対するグラフの注意, 各エンティティトークンとワードトークンの関係のタイプを考慮した3つの重要な要素から構成される。 この結果、関係が存在する場合、両者の間に最適な注意が向けられる。 このパターンは特別な相対的な位置ラベルと結合されており、LUKEのエンティティ対応の自己認識機構と統合することができる。 実験結果から,我々のモデルは,コモンセンス推論に着目したReCoRDデータセット上で,最先端のLUKE-GraphとベースラインのLUKEモデルの両方より優れていることがわかった。

Despite the significant progress made by transformer models in machine reading comprehension tasks, they still face limitations in handling complex reasoning tasks due to the absence of explicit knowledge in the input sequence. This paper proposes a novel attention pattern to overcome this limitation, which integrates reasoning knowledge derived from a heterogeneous graph into the transformer architecture using a graph-enhanced self-attention mechanism. The proposed attention pattern comprises three key elements: global-local attention for word tokens, graph attention for entity tokens that exhibit strong attention towards tokens connected in the graph as opposed to those unconnected, and the consideration of the type of relationship between each entity token and word token. This results in optimized attention between the two if a relationship exists. The pattern is coupled with special relative position labels, allowing it to integrate with LUKE's entity-aware self-attention mechanism. The experimental findings corroborate that our model outperforms both the cutting-edge LUKE-Graph and the baseline LUKE model on the ReCoRD dataset that focuses on commonsense reasoning.
翻訳日:2023-07-21 15:40:17 公開日:2023-07-19
# Thrust: 外部知識で大規模言語モデルを適応的に推進する

Thrust: Adaptively Propels Large Language Models with External Knowledge ( http://arxiv.org/abs/2307.10442v1 )

ライセンス: Link先を確認
Xinran Zhao, Hongming Zhang, Xiaoman Pan, Wenlin Yao, Dong Yu, Jianshu Chen(参考訳) 大規模事前学習言語モデル(PTLM)はモデルパラメータの豊富な知識を符号化するが、PTLMの固有の知識は不透明あるいは静的であり、外部の知識を必要とする。 しかし、既存の情報検索技術はコストがかかり、うるさい知識や誤解を招くこともある。 これらの課題に対処するため、ケースレベル適応型外部知識推進(IAPEK)を提案し、必要なときにのみ検索を行う。 この目的を達成するために,PTLMは,少数のインスタンスの表現分布を利用する新しい計量であるThrustを用いて,インスタンスを解くのに十分な知識を持っているかを測定する。 広範な実験により、推力はPTLMモデルのインスタンスレベルの知識性の優れた測定であることが示された。 また,評価対象タスクの88%において,スラストスコアを検索指標として,外部知識のナイーブな利用よりも有意に高いコスト効率を実現することができ,平均性能が26%向上した。 このような発見は、計算の待ち時間やコストによる知識探索予算が制限された知識強化LMの現実的な実践に光を当てた。

Although large-scale pre-trained language models (PTLMs) are shown to encode rich knowledge in their model parameters, the inherent knowledge in PTLMs can be opaque or static, making external knowledge necessary. However, the existing information retrieval techniques could be costly and may even introduce noisy and sometimes misleading knowledge. To address these challenges, we propose the instance-level adaptive propulsion of external knowledge (IAPEK), where we only conduct the retrieval when necessary. To achieve this goal, we propose measuring whether a PTLM contains enough knowledge to solve an instance with a novel metric, Thrust, which leverages the representation distribution of a small number of seen instances. Extensive experiments demonstrate that thrust is a good measurement of PTLM models' instance-level knowledgeability. Moreover, we can achieve significantly higher cost-efficiency with the Thrust score as the retrieval indicator than the naive usage of external knowledge on 88% of the evaluated tasks with 26% average performance improvement. Such findings shed light on the real-world practice of knowledge-enhanced LMs with a limited knowledge-seeking budget due to computation latency or costs.
翻訳日:2023-07-21 15:39:55 公開日:2023-07-19
# ラベルなしデータを用いた信頼度推定

Confidence Estimation Using Unlabeled Data ( http://arxiv.org/abs/2307.10440v1 )

ライセンス: Link先を確認
Chen Li, Xiaoling Hu, Chao Chen(参考訳) 過信はディープニューラルネットワークの一般的な問題であり、実際のアプリケーションへのデプロイを制限する。 信頼度を評価するために、既存の手法は、主に完全な教師付きシナリオにフォーカスし、トレーニングラベルに依存している。 本稿では,ほとんどのトレーニングラベルが利用できない場合に,半教師付き設定に対する最初の信頼度推定法を提案する。 限られたトレーニングラベルであっても、トレーニングプロセスを通じて予測一貫性を検査することで、ラベルのないサンプルのモデルの信頼性を合理的に近似することができる。 トレーニング一貫性を代理関数として使用し、信頼度推定のための一貫性ランキング損失を提案する。 画像分類とセグメンテーションの両方のタスクにおいて,本手法は信頼度推定における最先端性能を実現する。 さらに、下流のアクティブな学習課題を通じて提案手法の利点を示す。 コードはhttps://github.com/TopoXLab/consistency- rank-lossで入手できる。

Overconfidence is a common issue for deep neural networks, limiting their deployment in real-world applications. To better estimate confidence, existing methods mostly focus on fully-supervised scenarios and rely on training labels. In this paper, we propose the first confidence estimation method for a semi-supervised setting, when most training labels are unavailable. We stipulate that even with limited training labels, we can still reasonably approximate the confidence of model on unlabeled samples by inspecting the prediction consistency through the training process. We use training consistency as a surrogate function and propose a consistency ranking loss for confidence estimation. On both image classification and segmentation tasks, our method achieves state-of-the-art performances in confidence estimation. Furthermore, we show the benefit of the proposed method through a downstream active learning task. The code is available at https://github.com/TopoXLab/consistency-ranking-loss
翻訳日:2023-07-21 15:39:37 公開日:2023-07-19
# グラフニューラルネットワークによる分子特性予測の不確かさの定量化

Uncertainty Quantification for Molecular Property Predictions with Graph Neural Architecture Search ( http://arxiv.org/abs/2307.10438v1 )

ライセンス: Link先を確認
Shengli Jiang, Shiyi Qin, Reid C. Van Lehn, Prasanna Balaprakash, Victor M. Zavala(参考訳) グラフニューラルネットワーク(gnns)は,分子特性予測のためのデータ駆動型手法として注目されている。 しかし、典型的なGNNモデルの鍵となる制限は、予測の不確実性を定量化できないことである。 この機能は、下流タスクにおけるモデルの信頼性の高い使用とデプロイを保証するために重要です。 そこで我々は,分子特性予測のための自動不確実性定量化(UQ)手法であるAutoGNNUQを紹介する。 AutoGNNUQはアーキテクチャ検索を利用して高性能なGNNのアンサンブルを生成し、予測の不確実性の推定を可能にする。 このアプローチでは分散分解を分離データ(アレータリック)とモデル不確実性(エピステミック)に採用し,その低減に有用な洞察を提供する。 計算実験において、AutoGNNUQは、複数のベンチマークデータセット上での予測精度とUQ性能の両方の観点から、既存のUQ手法よりも優れていることを示した。 さらに,t-sne可視化を用いて分子の特徴と不確かさの相関関係を探索し,データセット改善のための洞察を提供する。 AutoGNNUQは、正確な不確実性定量化が意思決定に不可欠である薬物発見や材料科学などの領域で広く適用可能である。

Graph Neural Networks (GNNs) have emerged as a prominent class of data-driven methods for molecular property prediction. However, a key limitation of typical GNN models is their inability to quantify uncertainties in the predictions. This capability is crucial for ensuring the trustworthy use and deployment of models in downstream tasks. To that end, we introduce AutoGNNUQ, an automated uncertainty quantification (UQ) approach for molecular property prediction. AutoGNNUQ leverages architecture search to generate an ensemble of high-performing GNNs, enabling the estimation of predictive uncertainties. Our approach employs variance decomposition to separate data (aleatoric) and model (epistemic) uncertainties, providing valuable insights for reducing them. In our computational experiments, we demonstrate that AutoGNNUQ outperforms existing UQ methods in terms of both prediction accuracy and UQ performance on multiple benchmark datasets. Additionally, we utilize t-SNE visualization to explore correlations between molecular features and uncertainty, offering insight for dataset improvement. AutoGNNUQ has broad applicability in domains such as drug discovery and materials science, where accurate uncertainty quantification is crucial for decision-making.
翻訳日:2023-07-21 15:39:26 公開日:2023-07-19
# 限定データを用いたカーフォローモデル校正と検証に対するベイズ計画法

A Bayesian Programming Approach to Car-following Model Calibration and Validation using Limited Data ( http://arxiv.org/abs/2307.10437v1 )

ライセンス: Link先を確認
Franklin Abodo(参考訳) 交通シミュレーションソフトウェアは、道路変更の設計と評価に交通研究者や技術者が使用している。 これらのシミュレータは、流れや渋滞といったマクロな測定を導出できる、微視的な運転行動のモデルによって駆動される。 多くのモデルは、考えられる交通シナリオと道路構成のサブセット用に設計されているが、他のモデルはアプリケーションに対して明示的な制約を持たない。 ワークゾーン(WZ)は、これまでのモデルが現実的な運転行動を再現していないシナリオのひとつです。 これにより、WZを設計する際の安全性やその他のメトリクスの最適化が困難になる。 連邦高速道路管理局はusdot volpe centerに、wzs内外の運転行動を正確に捉えて再現できる微視的なシミュレーターで使用できるカーフォロー(cf)モデルの開発を依頼した。 ボルペはまた、モデルキャリブレーションに使用するwzsで走行する車両からテレマティクスデータを収集する自然主義的な運転研究も行った。 モデル開発中、Volpeの研究者たちはモデルの校正の難しさを観察し、モデルに欠陥があるか、データを使ってモデルを校正する手順があるのかを疑問視した。 本論文では,データ解析とパラメータ推定にベイズ法を用いて,可能であればこれらの疑問を探索し,対処する。 まず、私はベイジアン推論を使ってデータセットのサイズの十分さを測定します。 第2に,ボルペ研究者が行った遺伝的アルゴリズムに基づく校正とベイズ校正の手順と結果を比較した。 第3に,cf の階層的モデリングのメリットについて検討する。 最後に、確立されたCFモデルであるWiedemann 99を用いて、最初の3つのフェーズで学んだことを、Volpeモデルの確率論的モデリングに適用する。 予測精度の見積として情報基準を用いて検証を行う。

Traffic simulation software is used by transportation researchers and engineers to design and evaluate changes to roadways. These simulators are driven by models of microscopic driver behavior from which macroscopic measures like flow and congestion can be derived. Many models are designed for a subset of possible traffic scenarios and roadway configurations, while others have no explicit constraints on their application. Work zones (WZs) are one scenario for which no model to date has reproduced realistic driving behavior. This makes it difficult to optimize for safety and other metrics when designing a WZ. The Federal Highway Administration commissioned the USDOT Volpe Center to develop a car-following (CF) model for use in microscopic simulators that can capture and reproduce driver behavior accurately within and outside of WZs. Volpe also performed a naturalistic driving study to collect telematics data from vehicles driven on roads with WZs for use in model calibration. During model development, Volpe researchers observed difficulties in calibrating their model, leaving them to question whether there existed flaws in their model, in the data, or in the procedure used to calibrate the model using the data. In this thesis, I use Bayesian methods for data analysis and parameter estimation to explore and, where possible, address these questions. First, I use Bayesian inference to measure the sufficiency of the size of the data set. Second, I compare the procedure and results of the genetic algorithm based calibration performed by the Volpe researchers with those of Bayesian calibration. Third, I explore the benefits of modeling CF hierarchically. Finally, I apply what was learned in the first three phases using an established CF model, Wiedemann 99, to the probabilistic modeling of the Volpe model. Validation is performed using information criteria as an estimate of predictive accuracy.
翻訳日:2023-07-21 15:39:07 公開日:2023-07-19
# マトリクスアンサンブルカルマンフィルタを用いた多腕ニューラルネットワークによるニューラルネットワークの近似

A Matrix Ensemble Kalman Filter-based Multi-arm Neural Network to Adequately Approximate Deep Neural Networks ( http://arxiv.org/abs/2307.10436v1 )

ライセンス: Link先を確認
Ved Piyush, Yuchen Yan, Yuzhen Zhou, Yanbin Yin, Souparno Ghosh(参考訳) Deep Learners (DL)は、複雑な高次元データ処理を必要とする多くの分野において応用される最先端の予測メカニズムである。 従来の DL はバックプロパゲーションによる勾配降下により訓練されるが,KF に基づく勾配計算を必要としない手法が開発された。 サンプルサイズが小さすぎてマルチアームDLを訓練できない場合, DLを模倣できるKFベースのDL近似器のマルチアーム拡張を提案する。 提案した Matrix Ensemble Kalman Filter-based multi-arm ANN (MEnKF-ANN) もまた、トレーニングサンプルが不等サイズ機能セットを持つ場合に関係する明示的なモデル積み重ねを行う。 提案手法は,Long Short-term Memory (LSTM) ネットワークを近似し,これらのLSTMから得られた予測に不確実性を付与する。 本研究では,多糖利用loci(puls)とそのコード遺伝子からなるゲノム配列を有するマイクロバイオーム試料によって,炭水化物基質の消化・利用を分類する訓練を受けたlstmネットワークを menkf-ann が「適切に」近似できることを実証する。

Deep Learners (DLs) are the state-of-art predictive mechanism with applications in many fields requiring complex high dimensional data processing. Although conventional DLs get trained via gradient descent with back-propagation, Kalman Filter (KF)-based techniques that do not need gradient computation have been developed to approximate DLs. We propose a multi-arm extension of a KF-based DL approximator that can mimic DL when the sample size is too small to train a multi-arm DL. The proposed Matrix Ensemble Kalman Filter-based multi-arm ANN (MEnKF-ANN) also performs explicit model stacking that becomes relevant when the training sample has an unequal-size feature set. Our proposed technique can approximate Long Short-term Memory (LSTM) Networks and attach uncertainty to the predictions obtained from these LSTMs with desirable coverage. We demonstrate how MEnKF-ANN can "adequately" approximate an LSTM network trained to classify what carbohydrate substrates are digested and utilized by a microbiome sample whose genomic sequences consist of polysaccharide utilization loci (PULs) and their encoded genes.
翻訳日:2023-07-21 15:38:36 公開日:2023-07-19
# 会員シップと選好クエリから正式な仕様を学ぶ

Learning Formal Specifications from Membership and Preference Queries ( http://arxiv.org/abs/2307.10434v1 )

ライセンス: Link先を確認
Ameesh Shah, Marcell Vazquez-Chanlatte, Sebastian Junges, Sanjit A. Seshia(参考訳) アクティブラーニング(active learning)は、automattaのような形式的仕様を学ぶためのよく研究されたアプローチである。 本研究では,メンバシップラベルとペアワイズ選択の組み合わせを戦略的に要求する新たなフレームワークを提案することで,アクティブ仕様学習を拡張した。 ペア指向の選好とメンバシップラベルの組み合わせによって、アクティブな仕様学習へのより柔軟なアプローチが可能になる。 フレームワークを2つの異なるドメインでインスタンス化し、アプローチの汎用性を実証します。 その結果,両方のモダリティから学ぶことで,メンバシップや選好を通じて,堅牢かつ便利に仕様を識別できることが示唆された。

Active learning is a well-studied approach to learning formal specifications, such as automata. In this work, we extend active specification learning by proposing a novel framework that strategically requests a combination of membership labels and pair-wise preferences, a popular alternative to membership labels. The combination of pair-wise preferences and membership labels allows for a more flexible approach to active specification learning, which previously relied on membership labels only. We instantiate our framework in two different domains, demonstrating the generality of our approach. Our results suggest that learning from both modalities allows us to robustly and conveniently identify specifications via membership and preferences.
翻訳日:2023-07-21 15:38:12 公開日:2023-07-19
# SPRINT:ゼロショットニューラルスパース検索の評価とデミスティファイションのための統一ツールキット

SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot Neural Sparse Retrieval ( http://arxiv.org/abs/2307.10488v1 )

ライセンス: Link先を確認
Nandan Thakur, Kexin Wang, Iryna Gurevych, Jimmy Lin(参考訳) 従来のスパース検索システムは、BM25のような文書を検索するための語彙表現に頼っていた。 BERTのような事前訓練されたトランスフォーマーモデルの開始により、ニューラルスパース検索は、検索における新しいパラダイムへと導いた。 成功にもかかわらず、統一された共通環境で動作するさまざまなスパースレトリバーをサポートするソフトウェアは限られている。 これにより、実践者が異なるスパースモデルを比較し、現実的な評価結果を得るのを妨げる。 もう一つの欠点は、以前の研究の大部分がドメイン内検索のスパース検索モデル、すなわち単一のデータセットであるMS MARCOを評価することである。 しかし、実用的な検索システムにおいて重要な要件は、ドメイン外、すなわちゼロショット検索タスクを十分に一般化できるモデルが必要である。 本研究では,PyseriniとLuceneをベースとした統一PythonツールキットであるSPRINTを提供し,ニューラルスパース検索のための共通インターフェースをサポートする。 現在、ツールキットには、uniCOIL、DeepImpact、SPARTA、TILDEv2、SPLADEv2の5つのビルトインモデルが含まれている。 用語重み付けメソッドを定義することで、カスタマイズされたモデルを簡単に追加できる。 我々のツールキットを用いて、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。 以上の結果から,SPLADEv2は全神経スパースレトリーバーのうち,BEIRの0.470 nDCG@10の平均スコアを達成できた。 本研究では、パフォーマンス向上の背景にある理由をさらに明らかにする。 我々は、SPLADEv2が、元のクエリやドキュメント以外のほとんどのトークンでスパース表現を生成しており、そのパフォーマンス向上には欠かせないこと、すなわち、他のスパース表現の制限があることを示します。 SPRINTツールキット、モデル、データについては、https://github.com/thakur-nandan/sprintで公開しています。

Traditionally, sparse retrieval systems relied on lexical representations to retrieve documents, such as BM25, dominated information retrieval tasks. With the onset of pre-trained transformer models such as BERT, neural sparse retrieval has led to a new paradigm within retrieval. Despite the success, there has been limited software supporting different sparse retrievers running in a unified, common environment. This hinders practitioners from fairly comparing different sparse models and obtaining realistic evaluation results. Another missing piece is, that a majority of prior work evaluates sparse retrieval models on in-domain retrieval, i.e. on a single dataset: MS MARCO. However, a key requirement in practical retrieval systems requires models that can generalize well to unseen out-of-domain, i.e. zero-shot retrieval tasks. In this work, we provide SPRINT, a unified Python toolkit based on Pyserini and Lucene, supporting a common interface for evaluating neural sparse retrieval. The toolkit currently includes five built-in models: uniCOIL, DeepImpact, SPARTA, TILDEv2 and SPLADEv2. Users can also easily add customized models by defining their term weighting method. Using our toolkit, we establish strong and reproducible zero-shot sparse retrieval baselines across the well-acknowledged benchmark, BEIR. Our results demonstrate that SPLADEv2 achieves the best average score of 0.470 nDCG@10 on BEIR amongst all neural sparse retrievers. In this work, we further uncover the reasons behind its performance gain. We show that SPLADEv2 produces sparse representations with a majority of tokens outside of the original query and document which is often crucial for its performance gains, i.e. a limitation among its other sparse counterparts. We provide our SPRINT toolkit, models, and data used in our experiments publicly here at https://github.com/thakur-nandan/sprint.
翻訳日:2023-07-21 15:30:25 公開日:2023-07-19
# クリーンアノテーションによるオブジェクト検出に対するバックドア攻撃

Backdoor Attack against Object Detection with Clean Annotation ( http://arxiv.org/abs/2307.10487v1 )

ライセンス: Link先を確認
Yize Cheng, Wenbin Hu, Minhao Cheng(参考訳) ディープニューラルネットワーク(DNN)は、オブジェクト検出タスクにおいて前例のない成功を収めている。 しかし、DNNはバックドア攻撃など、複数の種類の攻撃に対して脆弱であることも判明した。 攻撃を通じて、攻撃者はdnnに隠れたバックドアを埋め込むことができ、モデルが正常なデータサンプル上で振る舞うが、事前に定義されたトリガーが発生すると、攻撃者が特定した判断を行う。 画像分類において多くのバックドア攻撃が実験されているが、対象検出タスクに対するバックドア攻撃は適切に調査されていない。 オブジェクト検出は、自律運転のような複数のセキュリティに敏感なアプリケーションにおいて重要なモジュールとして採用されているため、オブジェクト検出に対するバックドア攻撃はさらに深刻な脅威を引き起こす可能性がある。 深層学習に基づく物体検出装置の特性に着想を得て, 対象検出に対して, 対象の消失攻撃やオブジェクト生成攻撃に特に焦点をあてることなく, 対象検出に有効なバックドア攻撃法を提案する。 PASCAL VOC07+12 と MSCOCO の2つのベンチマークオブジェクト検出データセットに対する攻撃の有効性を実証し,92% 以上の攻撃成功率と 5% の毒素検出率を達成した。

Deep neural networks (DNNs) have shown unprecedented success in object detection tasks. However, it was also discovered that DNNs are vulnerable to multiple kinds of attacks, including Backdoor Attacks. Through the attack, the attacker manages to embed a hidden backdoor into the DNN such that the model behaves normally on benign data samples, but makes attacker-specified judgments given the occurrence of a predefined trigger. Although numerous backdoor attacks have been experimented on image classification, backdoor attacks on object detection tasks have not been properly investigated and explored. As object detection has been adopted as an important module in multiple security-sensitive applications such as autonomous driving, backdoor attacks on object detection could pose even more severe threats. Inspired by the inherent property of deep learning-based object detectors, we propose a simple yet effective backdoor attack method against object detection without modifying the ground truth annotations, specifically focusing on the object disappearance attack and object generation attack. Extensive experiments and ablation studies prove the effectiveness of our attack on two benchmark object detection datasets, PASCAL VOC07+12 and MSCOCO, on which we achieve an attack success rate of more than 92% with a poison rate of only 5%.
翻訳日:2023-07-21 15:29:54 公開日:2023-07-19
# FinGPT:金融大規模言語モデルのためのインターネットスケールデータの民主化

FinGPT: Democratizing Internet-scale Data for Financial Large Language Models ( http://arxiv.org/abs/2307.10485v1 )

ライセンス: Link先を確認
Xiao-Yang Liu, Guoxuan Wang, Daochen Zha(参考訳) 大規模言語モデル(llm)は、金融産業に革命をもたらす可能性がある、人間に似たテキストの理解と生成に顕著な能力を示している。 しかし、既存のllmは金融分野ではしばしば不足しており、主な原因は一般的なテキストデータと金融テキストデータとの相違にある。 残念なことに、利用可能なファイナンシャルテキストデータセットは限られており(小さなサイズですが)、最初のファイナンシャルllm(finllm)であるbloomberggptがクローズソースされています(トレーニングログのみがリリースされています)。 本研究の目的は,多種多様なデータソース,低信号-雑音比,高時間有効性によるオープンな課題であるLCMのインターネット規模財務データの民主化である。 この課題に対処するために、インターネット上の34以上の多様なソースからリアルタイムの財務データの収集とキュレーションを自動化し、研究者や実践者がFinLLMを開発するためのアクセス可能で透明なリソースを提供する、オープンソースでデータ中心のフレームワークである『FinGPT』を紹介した。 さらに,市場からのフィードバックを利用してFinLLMを微調整するための簡易かつ効果的な戦略を提案し,これをRLSP(Reinforcement Learning with Stock Prices)と呼ぶ。 また,Low-rank Adaptation (LoRA, QLoRA) メソッドを用いて,オープンソース汎用LLMから独自のFinLLMを低コストでカスタマイズすることができる。 最後に,ロボットアドバイザ,アルゴリズム取引のための感情分析,ローコード開発など,いくつかのFinGPTアプリケーションを紹介した。 FinGPTはFinLLMを民主化し、イノベーションを刺激し、オープンファイナンスにおける新たな機会を開放することを目指している。 コードはhttps://github.com/AI4Finance-Foundation/FinGPTとhttps://github.com/AI4Finance-Foundation/FinNLPで入手できる。

Large language models (LLMs) have demonstrated remarkable proficiency in understanding and generating human-like texts, which may potentially revolutionize the finance industry. However, existing LLMs often fall short in the financial field, which is mainly attributed to the disparities between general text data and financial text data. Unfortunately, there is only a limited number of financial text datasets available (quite small size), and BloombergGPT, the first financial LLM (FinLLM), is close-sourced (only the training logs were released). In light of this, we aim to democratize Internet-scale financial data for LLMs, which is an open challenge due to diverse data sources, low signal-to-noise ratio, and high time-validity. To address the challenges, we introduce an open-sourced and data-centric framework, \textit{Financial Generative Pre-trained Transformer (FinGPT)}, that automates the collection and curation of real-time financial data from >34 diverse sources on the Internet, providing researchers and practitioners with accessible and transparent resources to develop their FinLLMs. Additionally, we propose a simple yet effective strategy for fine-tuning FinLLM using the inherent feedback from the market, dubbed Reinforcement Learning with Stock Prices (RLSP). We also adopt the Low-rank Adaptation (LoRA, QLoRA) method that enables users to customize their own FinLLMs from open-source general-purpose LLMs at a low cost. Finally, we showcase several FinGPT applications, including robo-advisor, sentiment analysis for algorithmic trading, and low-code development. FinGPT aims to democratize FinLLMs, stimulate innovation, and unlock new opportunities in open finance. The codes are available at https://github.com/AI4Finance-Foundation/FinGPT and https://github.com/AI4Finance-Foundation/FinNLP
翻訳日:2023-07-21 15:29:29 公開日:2023-07-19
# Data LeakageとUnlearning for Lawから何が学べるか?

What can we learn from Data Leakage and Unlearning for Law? ( http://arxiv.org/abs/2307.10476v1 )

ライセンス: Link先を確認
Jaydeep Borkar(参考訳) 大きな言語モデル(LLM)は、トレーニングデータ(電子メールや電話番号などの個人識別可能な情報(PII)を含む)を記憶し、推論中にそれをリークするため、プライバシー上の懸念がある。 企業は、LLMをそのドメインにカスタマイズされたデータに基づいてトレーニングすることができる。 忘れられる権利(right to be forget)”のようなプライバシー法に従うために、抽出に最も脆弱なユーザのデータポイントを削除することができる。 最も脆弱なポイントが削除されると、新たなポイントセットが抽出に脆弱になることが分かりました。 これまでのところ、微調整モデルに対する記憶の理解にはほとんど注意が払われていない。 また,本研究では,微調整モデルがトレーニングデータを漏洩するだけでなく,事前学習期間中に記憶された事前学習データ(およびPII)を漏洩させることを示す。 未学習と微調整モデルによる事前学習データの漏洩により、新たなデータポイントが抽出に脆弱になることは、LLMを使用してサービスを提供する企業にとって、重大なプライバシーと法的懸念を引き起こす可能性がある。 この取り組みが、これらの問題に取り組むためのポリシーの必要性について、AIと法律コミュニティ内で学際的な議論を始めることを願っています。

Large Language Models (LLMs) have a privacy concern because they memorize training data (including personally identifiable information (PII) like emails and phone numbers) and leak it during inference. A company can train an LLM on its domain-customized data which can potentially also include their users' PII. In order to comply with privacy laws such as the "right to be forgotten", the data points of users that are most vulnerable to extraction could be deleted. We find that once the most vulnerable points are deleted, a new set of points become vulnerable to extraction. So far, little attention has been given to understanding memorization for fine-tuned models. In this work, we also show that not only do fine-tuned models leak their training data but they also leak the pre-training data (and PII) memorized during the pre-training phase. The property of new data points becoming vulnerable to extraction after unlearning and leakage of pre-training data through fine-tuned models can pose significant privacy and legal concerns for companies that use LLMs to offer services. We hope this work will start an interdisciplinary discussion within AI and law communities regarding the need for policies to tackle these issues.
翻訳日:2023-07-21 15:28:53 公開日:2023-07-19
# Factify 2の発見:マルチモーダルフェイクニュース検出

Findings of Factify 2: Multimodal Fake News Detection ( http://arxiv.org/abs/2307.10475v1 )

ライセンス: Link先を確認
S Suryavardan, Shreyash Mishra, Megha Chakraborty, Parth Patwa, Anku Rani, Aman Chadha, Aishwarya Reganti, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal, Srijan Kumar(参考訳) ここ数年でソーシャルメディアの利用が急増し、フェイクニュースも急速に広まりつつある。 フェイクニュースの有害な影響は、偽情報の検出を自動化し、その正確性を検証する研究の必要性を強調している。 本稿では,AAAI'23におけるDeFactify 2ワークショップの一環として,マルチモーダルな事実検証と風刺ニュースデータセットを提供するFactify 2共有タスクの結果を示す。 このデータでは,マルチモーダル関係に基づく5つのクラスに分けて,ソーシャルメディアの主張をテキストと画像の両方で支援文書と組み合わせることで,タスクに対する比較に基づくアプローチが求められている。 このタスクの第2イテレーションでは、60人以上の参加者と9つの最終テストセットの提出がありました。 最高のパフォーマンスは、テキストにDeBERTa、画像にSwinv2とCLIPを使うことである。 全5クラスの平均得点は81.82%であった。

With social media usage growing exponentially in the past few years, fake news has also become extremely prevalent. The detrimental impact of fake news emphasizes the need for research focused on automating the detection of false information and verifying its accuracy. In this work, we present the outcome of the Factify 2 shared task, which provides a multi-modal fact verification and satire news dataset, as part of the DeFactify 2 workshop at AAAI'23. The data calls for a comparison based approach to the task by pairing social media claims with supporting documents, with both text and image, divided into 5 classes based on multi-modal relations. In the second iteration of this task we had over 60 participants and 9 final test-set submissions. The best performances came from the use of DeBERTa for text and Swinv2 and CLIP for image. The highest F1 score averaged for all five classes was 81.82%.
翻訳日:2023-07-21 15:28:36 公開日:2023-07-19
# プロンプティングによる社会バイアスの同定は可能か?

Can Instruction Fine-Tuned Language Models Identify Social Bias through Prompting? ( http://arxiv.org/abs/2307.10472v1 )

ライセンス: Link先を確認
Omkar Dige, Jacob-Junqi Tian, David Emerson, Faiza Khan Khattak(参考訳) 言語モデルアプリケーションの幅と深さが急速に拡大するにつれて、これらのモデルの学習または継承された社会的バイアスを測定し緩和するための効率的なフレームワークを構築することがますます重要である。 本稿では,ゼロショットプロンプト(chain-of-thought (cot) プロンプトを含む)によってバイアスを識別する指導微調整言語モデルの能力を評価する。 LLaMAと2つの命令を微調整したバージョンで、Alpaca 7Bは56.7%の精度でバイアス識別タスクに最適である。 LLMのサイズとデータの多様性のスケールアップが、さらなるパフォーマンス向上につながることも示しています。 これは、バイアス緩和フレームワークの最初のコンポーネントを提示するワークインプログレッシブです。 結果が得られ次第、この作業の更新を続けます。

As the breadth and depth of language model applications continue to expand rapidly, it is increasingly important to build efficient frameworks for measuring and mitigating the learned or inherited social biases of these models. In this paper, we present our work on evaluating instruction fine-tuned language models' ability to identify bias through zero-shot prompting, including Chain-of-Thought (CoT) prompts. Across LLaMA and its two instruction fine-tuned versions, Alpaca 7B performs best on the bias identification task with an accuracy of 56.7%. We also demonstrate that scaling up LLM size and data diversity could lead to further performance gain. This is a work-in-progress presenting the first component of our bias mitigation framework. We will keep updating this work as we get more results.
翻訳日:2023-07-21 15:28:20 公開日:2023-07-19
# 特許の可視化タイプと展望の分類

Classification of Visualization Types and Perspectives in Patents ( http://arxiv.org/abs/2307.10471v1 )

ライセンス: Link先を確認
Junaid Ahmed Ghauri, Eric M\"uller-Budack, Ralph Ewerth(参考訳) 毎年、特許出願が急速に伸びているため、特許の探索と検索を容易にする情報とマルチメディア検索アプローチが最も重要である。 異なる種類の可視化(グラフ、技術的な図面など)と視点(サイドビュー、パースペクティブなど)は、特許におけるイノベーションの詳細を視覚化するために使用される。 これらの画像の分類はより効率的な探索を可能にし、さらなる解析を可能にする。 今のところ、画像タイプの分類のためのデータセットは、特許のための重要な視覚化タイプを見逃している。 さらに、関連する研究は、トランスフォーマーを含む最近のディープラーニングアプローチを利用しない。 本稿では,特許画像における可視化型と視点の分類に最先端のディープラーニング手法を適用する。 特許のイメージタイプ分類のためのCLEF-IPデータセットを10クラスに拡張し,手動の地上真実アノテーションを提供する。 さらに,画像パースペクティブに対して弱ラベルデータを提供するデータセットから階層クラスの集合を導出する。 実験の結果,提案手法の有効性が示された。 ソースコード、モデル、データセットは公開される予定だ。

Due to the swift growth of patent applications each year, information and multimedia retrieval approaches that facilitate patent exploration and retrieval are of utmost importance. Different types of visualizations (e.g., graphs, technical drawings) and perspectives (e.g., side view, perspective) are used to visualize details of innovations in patents. The classification of these images enables a more efficient search and allows for further analysis. So far, datasets for image type classification miss some important visualization types for patents. Furthermore, related work does not make use of recent deep learning approaches including transformers. In this paper, we adopt state-of-the-art deep learning methods for the classification of visualization types and perspectives in patent images. We extend the CLEF-IP dataset for image type classification in patents to ten classes and provide manual ground truth annotations. In addition, we derive a set of hierarchical classes from a dataset that provides weakly-labeled data for image perspectives. Experimental results have demonstrated the feasibility of the proposed approaches. Source code, models, and dataset will be made publicly available.
翻訳日:2023-07-21 15:28:07 公開日:2023-07-19
# データサイエンスの公理:データサイエンスの性質、価値、リスク

A data science axiology: the nature, value, and risks of data science ( http://arxiv.org/abs/2307.10460v1 )

ライセンス: Link先を確認
Michael L. Brodie(参考訳) データサイエンスは科学ではない。 未知のスコープ、スケール、複雑さ、知識発見の力を持つ研究パラダイムであり、そうでなければ不可能であり、人間の推論を超えることができる。 AIアームレースのあらゆる分野において、すでに何万ものアプリケーションに広く展開されている私たちの世界は、現実的にも深くも変化しています。 本稿では,データ科学の公理,その目的,性質,重要性,リスク,および問題解決の価値について,その顕著な,決定的な特徴を探求し,評価する。 データ科学が初期段階にあるため、この初期の投機的公理学は、データ科学を理解して定義し、その潜在的な利益、リスク、そしてオープンな研究課題を認識することを目的としている。 AIベースのデータサイエンスは本質的に、科学の確実性よりも現実的な不確実性に関するものです。 データサイエンスは、知識発見を超えて、世界を理解する新しい方法に私たちを導いてくれるでしょう。

Data science is not a science. It is a research paradigm with an unfathomed scope, scale, complexity, and power for knowledge discovery that is not otherwise possible and can be beyond human reasoning. It is changing our world practically and profoundly already widely deployed in tens of thousands of applications in every discipline in an AI Arms Race that, due to its inscrutability, can lead to unfathomed risks. This paper presents an axiology of data science, its purpose, nature, importance, risks, and value for problem solving, by exploring and evaluating its remarkable, definitive features. As data science is in its infancy, this initial, speculative axiology is intended to aid in understanding and defining data science to recognize its potential benefits, risks, and open research challenges. AI based data science is inherently about uncertainty that may be more realistic than our preference for the certainty of science. Data science will have impacts far beyond knowledge discovery and will take us into new ways of understanding the world.
翻訳日:2023-07-21 15:27:54 公開日:2023-07-19
# 出力ハード制約付きニューラルネットワークの実装のための新しい計算簡単なアプローチ

A New Computationally Simple Approach for Implementing Neural Networks with Output Hard Constraints ( http://arxiv.org/abs/2307.10459v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) ニューラルネットワークの出力値に厳密な凸制約を課す新しい計算方法を提案する。 この手法の背景にある重要な考え方は、ネットワークの隠れパラメータのベクトルを、制約セットによって定義された実行可能なセット内にあることが保証される点にマッピングすることである。 マッピングは、出力の制約のある追加のニューラルネットワーク層によって実装される。 提案手法は,出力ベクトルだけでなく,入力による共同制約にも制約が課される場合に,単純に拡張される。 出力に制約を課すプロジェクションアプローチは,提案手法の枠組みで簡単に実装できる。 線形および二次的な制約、等式制約、動的制約、境界の形での制約を含む、様々なタイプの制約を、提案手法に組み込む方法を示す。 この手法の重要な特徴は計算の単純さである。 線形および二次的な制約によるニューラルネットワーク層の前方通過の複雑さはそれぞれ O(n*m) と O(n^2*m) であり、n は変数の数、m は制約の数である。 数値実験により最適化と分類問題の解法が示される。 メソッドを実装するコードは公開されています。

A new computationally simple method of imposing hard convex constraints on the neural network output values is proposed. The key idea behind the method is to map a vector of hidden parameters of the network to a point that is guaranteed to be inside the feasible set defined by a set of constraints. The mapping is implemented by the additional neural network layer with constraints for output. The proposed method is simply extended to the case when constraints are imposed not only on the output vectors, but also on joint constraints depending on inputs. The projection approach to imposing constraints on outputs can simply be implemented in the framework of the proposed method. It is shown how to incorporate different types of constraints into the proposed method, including linear and quadratic constraints, equality constraints, and dynamic constraints, constraints in the form of boundaries. An important feature of the method is its computational simplicity. Complexities of the forward pass of the proposed neural network layer by linear and quadratic constraints are O(n*m) and O(n^2*m), respectively, where n is the number of variables, m is the number of constraints. Numerical experiments illustrate the method by solving optimization and classification problems. The code implementing the method is publicly available.
翻訳日:2023-07-21 15:27:36 公開日:2023-07-19
# EU AI法を遵守する

Complying with the EU AI Act ( http://arxiv.org/abs/2307.10458v1 )

ライセンス: Link先を確認
Jacintha Walters, Diptish Dey, Debarati Bhaumik, Sophie Horsman(参考訳) EU AI法は、AIシステムに関するEUの法律である。 本稿では,AI法のいくつかのカテゴリについて述べる。 この分類に基づいて定量的データの作成による洞察を提供するツールとして,アンケートを開発した。 データの分析は、異なるコンプライアンスカテゴリの組織にとって、さまざまな課題を示しています。 サイズやセクターなどの組織特性の影響について検討し,コンプライアンスへの影響を検討する。 論文はまた、アプリケーションとしてai actの内容の両方について、回答者の間でどの質問が広まっているかという質的なデータを共有する。 論文は、AIAへのコンプライアンスの観点から改善の余地がまだ残っていることを述べ、これらの組織を支援するソリューションを検討する関連プロジェクトを参照することで締めくくっている。

The EU AI Act is the proposed EU legislation concerning AI systems. This paper identifies several categories of the AI Act. Based on this categorization, a questionnaire is developed that serves as a tool to offer insights by creating quantitative data. Analysis of the data shows various challenges for organizations in different compliance categories. The influence of organization characteristics, such as size and sector, is examined to determine the impact on compliance. The paper will also share qualitative data on which questions were prevalent among respondents, both on the content of the AI Act as the application. The paper concludes by stating that there is still room for improvement in terms of compliance with the AIA and refers to a related project that examines a solution to help these organizations.
翻訳日:2023-07-21 15:27:16 公開日:2023-07-19
# 深層学習技術を用いた眼疾患の分類

Eye Disease Classification Using Deep Learning Techniques ( http://arxiv.org/abs/2307.10501v1 )

ライセンス: Link先を確認
Tareq Babaqi, Manar Jaradat, Ayse Erdem Yildirim, Saif H. Al-Nimer, and Daehan Won(参考訳) 目は視覚機能に不可欠な感覚器官である。 特定の眼疾患が視力の喪失を引き起こす可能性があるため、早期に眼疾患を診断し治療することが不可欠である。 共通の眼疾患を特定し、点眼を行うことで、眼科医は患者を視力の喪失や盲目から保護することができる。 本研究では,糖尿病網膜症,白内障,緑内障などの疾患を鑑別するために,畳み込みニューラルネットワーク(CNN)と転写学習を用いた。 移動学習を多クラス分類に用いた場合,従来のCNNでは84%の精度で高い精度が得られた。

Eye is the essential sense organ for vision function. Due to the fact that certain eye disorders might result in vision loss, it is essential to diagnose and treat eye diseases early on. By identifying common eye illnesses and performing an eye check, eye care providers can safeguard patients against vision loss or blindness. Convolutional neural networks (CNN) and transfer learning were employed in this study to discriminate between a normal eye and one with diabetic retinopathy, cataract, or glaucoma disease. Using transfer learning for multi-class classification, high accuracy was achieved at 94% while the traditional CNN achieved 84% rate.
翻訳日:2023-07-21 15:20:11 公開日:2023-07-19
# 人間と物体の相互作用検出のためのoccluded外挿によるマイニング条件部意味論

Mining Conditional Part Semantics with Occluded Extrapolation for Human-Object Interaction Detection ( http://arxiv.org/abs/2307.10499v1 )

ライセンス: Link先を確認
Guangzhi Wang, Yangyang Guo, Mohan Kankanhalli(参考訳) ヒューマン・オブジェクト間インタラクション検出は、人間中心のシーン理解において重要な側面であり、様々な領域で重要な応用がある。 この分野の最近の進歩にもかかわらず、微妙で詳細な相互作用の認識は依然として困難である。 既存の手法では、難易度を和らげるために人間関係の手がかりを使おうとするが、外部のアノテーションや知識に重きを置き、現実のシナリオで実用性を制限する。 本稿では,この問題を解決するための新しい部分意味ネットワーク(psn)を提案する。 PSNのコアは条件付き部分注意(Conditional Part Attention, CPA)メカニズムであり、人間の特徴をキーと値として取り、オブジェクト特徴をクロスアテンションメカニズムでの計算のクエリとして使用する。 このようにして、我々のモデルは、関係するオブジェクトに条件付けされた最も情報性の高い人間の部分に自動的に焦点を当てることを学び、相互作用認識のためのより意味的に意味のある特徴を生成する。 さらに,Occluded Part Extrapolation (OPE) 戦略を提案する。 V-COCOデータセットやHICO-DETデータセットに対して,外部データや追加アノテーションを使わずに,従来手法よりも常に優れています。 追加のアブレーション研究により,提案手法の各成分の有効性が検証された。

Human-Object Interaction Detection is a crucial aspect of human-centric scene understanding, with important applications in various domains. Despite recent progress in this field, recognizing subtle and detailed interactions remains challenging. Existing methods try to use human-related clues to alleviate the difficulty, but rely heavily on external annotations or knowledge, limiting their practical applicability in real-world scenarios. In this work, we propose a novel Part Semantic Network (PSN) to solve this problem. The core of PSN is a Conditional Part Attention (CPA) mechanism, where human features are taken as keys and values, and the object feature is used as query for the computation in a cross-attention mechanism. In this way, our model learns to automatically focus on the most informative human parts conditioned on the involved object, generating more semantically meaningful features for interaction recognition. Additionally, we propose an Occluded Part Extrapolation (OPE) strategy to facilitate interaction recognition under occluded scenarios, which teaches the model to extrapolate detailed features from partially occluded ones. Our method consistently outperforms prior approaches on the V-COCO and HICO-DET datasets, without external data or extra annotations. Additional ablation studies validate the effectiveness of each component of our proposed method.
翻訳日:2023-07-21 15:19:58 公開日:2023-07-19
# 特殊モデルに対する競争学習アプローチ--異なる機能的レジームをもつ複雑な物理システムに対する解法

A Competitive Learning Approach for Specialized Models: A Solution for Complex Physical Systems with Distinct Functional Regimes ( http://arxiv.org/abs/2307.10496v1 )

ライセンス: Link先を確認
Okezzi F. Ukorigho and Opeoluwa Owoyele(参考訳) 科学と工学の複雑なシステムは、しばしば異なる体制にまたがって変化する振る舞いを示す。 従来のグローバルモデルは、この複雑な振る舞いの完全な範囲を捉えるのに苦労し、システムを正確に表現する能力を制限する。 そこで本研究では,物理システムのデータ駆動モデルを得るための新しい競争学習手法を提案する。 提案手法の背後にある主要なアイデアは、データ上で同時にトレーニングされる一連のモデルに対して動的損失関数を採用することである。 各モデルは、トレーニング中の各観察を競い合い、データセット内で異なる機能的レジームを識別できるようにする。 学習手法の有効性を示すために,グラデーションに基づく学習最適化を用いた様々な回帰手法と組み合わせた。 提案手法は, モデル探索と関数近似を含む様々な問題に対して検証され, 機能的状態の同定, 真の支配方程式の発見, テスト誤差の低減を実現した。

Complex systems in science and engineering sometimes exhibit behavior that changes across different regimes. Traditional global models struggle to capture the full range of this complex behavior, limiting their ability to accurately represent the system. In response to this challenge, we propose a novel competitive learning approach for obtaining data-driven models of physical systems. The primary idea behind the proposed approach is to employ dynamic loss functions for a set of models that are trained concurrently on the data. Each model competes for each observation during training, allowing for the identification of distinct functional regimes within the dataset. To demonstrate the effectiveness of the learning approach, we coupled it with various regression methods that employ gradient-based optimizers for training. The proposed approach was tested on various problems involving model discovery and function approximation, demonstrating its ability to successfully identify functional regimes, discover true governing equations, and reduce test errors.
翻訳日:2023-07-21 15:19:33 公開日:2023-07-19
# 新しいバッチアクティブ学習手法と合成開口レーダデータセットへの応用

Novel Batch Active Learning Approach and Its Application to Synthetic Aperture Radar Datasets ( http://arxiv.org/abs/2307.10495v1 )

ライセンス: Link先を確認
James Chapman, Bohan Chen, Zheng Tan, Jeff Calder, Kevin Miller, Andrea L. Bertozzi(参考訳) アクティブラーニングは、下位の分類器のパフォーマンスを最大限に改善することを目的として、ラベルなしのデータポイントを限定的に選択することで、機械学習メソッドのパフォーマンスを向上させる。 近年、合成開口レーダ(SAR)データarXiv:2204.00005のシーケンシャルな能動学習が実施されている。 各イテレーションにおいて、逐次アクティブラーニングはサイズのクエリセットを選択し、バッチアクティブラーニングは複数のデータポイントのクエリセットを選択する。 バッチアクティブラーニング手法は高い効率を示すが,逐次アクティブラーニング手法と比較してモデルの精度を維持することが課題である。 コアセット生成のためのdijkstra's annulus core-set (dac) とバッチサンプリングのためのlocalmaxという,バッチアクティブラーニングのための新しい2部アプローチを開発した。 dacとlocalmaxを組み合わせたバッチアクティブラーニングプロセスは、シーケンシャルなアクティブラーニングとほぼ同じ精度を実現しているが、バッチサイズに比例する効率が高い。 アプリケーションとして、FUSAR-ShipとOpenSARShipデータセットを分類するために、転送学習機能埋め込み、グラフ学習、DAC、LocalMaxに基づいてパイプラインを構築する。 我々のパイプラインは最先端のCNNベースの手法よりも優れています。

Active learning improves the performance of machine learning methods by judiciously selecting a limited number of unlabeled data points to query for labels, with the aim of maximally improving the underlying classifier's performance. Recent gains have been made using sequential active learning for synthetic aperture radar (SAR) data arXiv:2204.00005. In each iteration, sequential active learning selects a query set of size one while batch active learning selects a query set of multiple datapoints. While batch active learning methods exhibit greater efficiency, the challenge lies in maintaining model accuracy relative to sequential active learning methods. We developed a novel, two-part approach for batch active learning: Dijkstra's Annulus Core-Set (DAC) for core-set generation and LocalMax for batch sampling. The batch active learning process that combines DAC and LocalMax achieves nearly identical accuracy as sequential active learning but is more efficient, proportional to the batch size. As an application, a pipeline is built based on transfer learning feature embedding, graph learning, DAC, and LocalMax to classify the FUSAR-Ship and OpenSARShip datasets. Our pipeline outperforms the state-of-the-art CNN-based methods.
翻訳日:2023-07-21 15:19:17 公開日:2023-07-19
# ブロックチェーンベースのフェデレート学習: データ共有のインセンティブと不正行為のペナルティ化

Blockchain-Based Federated Learning: Incentivizing Data Sharing and Penalizing Dishonest Behavior ( http://arxiv.org/abs/2307.10492v1 )

ライセンス: Link先を確認
Amir Jaberzadeh, Ajay Kumar Shrestha, Faijan Ahamad Khan, Mohammed Afaan Shaikh, Bhargav Dave and Jason Geng(参考訳) コラボレーションとイノベーションのためのデータ共有の重要性が増すにつれ、データが安全で信頼性の高い方法で管理され、共有されることがますます重要になっている。 データガバナンスはデータ管理の一般的なアプローチだが、データサイロ、データの一貫性、プライバシ、セキュリティ、アクセス制御といった多くの課題に直面している。 これらの課題に対処するため,本論文では,惑星間ファイルシステム,ブロックチェーン,スマートコントラクトを用いた連合学習におけるデータ信頼の統合により,インセンティブやアクセス制御機構,不正行為に対する罰を与えるとともに,安全かつ相互に有益なデータ共有を容易にする包括的フレームワークを提案する。 実験の結果,提案モデルは,データ共有プロセスの安全性と公平性を確保しつつ,フェデレーション学習モデルの精度向上に有効であることが示された。 また,ブロックチェーン技術を用いて,MNISTデータセット上でCNNモデルをトレーニングした分散フェデレーション学習プラットフォームを提案する。 このプラットフォームでは、複数のワーカーがデータのプライバシとセキュリティを維持しながらモデルを同時にトレーニングすることができる。 分散アーキテクチャとブロックチェーン技術の使用により、労働者間の効率的なコミュニケーションと調整が可能になる。 このプラットフォームは、分散機械学習を促進し、さまざまなドメインにおけるプライバシ保護コラボレーションをサポートする可能性がある。

With the increasing importance of data sharing for collaboration and innovation, it is becoming more important to ensure that data is managed and shared in a secure and trustworthy manner. Data governance is a common approach to managing data, but it faces many challenges such as data silos, data consistency, privacy, security, and access control. To address these challenges, this paper proposes a comprehensive framework that integrates data trust in federated learning with InterPlanetary File System, blockchain, and smart contracts to facilitate secure and mutually beneficial data sharing while providing incentives, access control mechanisms, and penalizing any dishonest behavior. The experimental results demonstrate that the proposed model is effective in improving the accuracy of federated learning models while ensuring the security and fairness of the data-sharing process. The research paper also presents a decentralized federated learning platform that successfully trained a CNN model on the MNIST dataset using blockchain technology. The platform enables multiple workers to train the model simultaneously while maintaining data privacy and security. The decentralized architecture and use of blockchain technology allow for efficient communication and coordination between workers. This platform has the potential to facilitate decentralized machine learning and support privacy-preserving collaboration in various domains.
翻訳日:2023-07-21 15:18:53 公開日:2023-07-19
# 時間変動幾何ディスカウントを用いたマルコフ決定過程

Markov Decision Processes with Time-Varying Geometric Discounting ( http://arxiv.org/abs/2307.10491v1 )

ライセンス: Link先を確認
Jiarui Gan, Annika Hennes, Rupak Majumdar, Debmalya Mandal, Goran Radanovic(参考訳) マルコフ決定過程(MDP)の標準モデルは、通常、一定の割引係数に基づいて幾何割引を考える。 この標準モデリングアプローチは多くのエレガントな結果をもたらしたが、最近の研究は特定のアプリケーションで時間変動ディスカウントをモデリングする必要があることを示している。 本稿では,時間的割引係数を持つ無限水平MDPのモデルについて検討する。 ゲーム理論的な視点 - 各ステップは独自の(固定された)ディスカウント係数を持つ独立した意思決定者として扱われる -- をとり、結果のゲームにおけるサブゲーム完全均衡(spe)と関連するアルゴリズム問題について検討する。 本稿では,SPE の存在の具体的証明と,SPE 計算における EXPTIME-hardness の実証を行う。 また、$\epsilon$-SPEという近似的な概念に目を向けると、$\epsilon$-SPEはより穏やかな仮定の下で存在することを示す。 時変割引係数の収束特性の関数として、時間複雑性の上限となる$\epsilon$-SPEを計算するアルゴリズムが提供される。

Canonical models of Markov decision processes (MDPs) usually consider geometric discounting based on a constant discount factor. While this standard modeling approach has led to many elegant results, some recent studies indicate the necessity of modeling time-varying discounting in certain applications. This paper studies a model of infinite-horizon MDPs with time-varying discount factors. We take a game-theoretic perspective -- whereby each time step is treated as an independent decision maker with their own (fixed) discount factor -- and we study the subgame perfect equilibrium (SPE) of the resulting game as well as the related algorithmic problems. We present a constructive proof of the existence of an SPE and demonstrate the EXPTIME-hardness of computing an SPE. We also turn to the approximate notion of $\epsilon$-SPE and show that an $\epsilon$-SPE exists under milder assumptions. An algorithm is presented to compute an $\epsilon$-SPE, of which an upper bound of the time complexity, as a function of the convergence property of the time-varying discount factor, is provided.
翻訳日:2023-07-21 15:18:29 公開日:2023-07-19
# (ab)マルチモーダルllmにおける間接インジェクションのための画像と音の利用

(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs ( http://arxiv.org/abs/2307.10490v1 )

ライセンス: Link先を確認
Eugene Bagdasaryan, Tsung-Yin Hsieh, Ben Nassi, Vitaly Shmatikov(参考訳) マルチモーダルLLMにおける間接的プロンプトおよびインジェクションインジェクションに画像と音をどのように利用できるかを示す。 攻撃者は、プロンプトに対応する敵対的摂動を生成し、画像または音声記録にブレンドする。 ユーザが摂動画像またはオーディオに関する(修正されていない、良心的な)モデルを尋ねると、摂動はモデルを操り、攻撃長文を出力し、/またはその後のダイアログを攻撃者の指示に従うようにする。 この攻撃をLLaVaとPandaGPTをターゲットにした概念実証例で説明する。

We demonstrate how images and sounds can be used for indirect prompt and instruction injection in multi-modal LLMs. An attacker generates an adversarial perturbation corresponding to the prompt and blends it into an image or audio recording. When the user asks the (unmodified, benign) model about the perturbed image or audio, the perturbation steers the model to output the attacker-chosen text and/or make the subsequent dialog follow the attacker's instruction. We illustrate this attack with several proof-of-concept examples targeting LLaVa and PandaGPT.
翻訳日:2023-07-21 15:18:12 公開日:2023-07-19
# RAR: リージョン対応のポイントクラウド登録

RAR: Region-Aware Point Cloud Registration ( http://arxiv.org/abs/2110.03544v2 )

ライセンス: Link先を確認
Yu Hao, Yi Fang(参考訳) 本稿では,ポイントクラウドの登録に関する研究課題を考察し,対象とするポイントセットを最適に整えるための厳格な変換を求める。 ディープニューラルネットワークを用いたロバストなポイントクラウド登録モデルの学習は、強力なパラダイムとして登場し、一対のポイントセットに対するグローバル幾何変換の予測に有望なパフォーマンスを提供する。 既存のメソッドは、まずエンコーダを利用して潜在形状埋め込みをレグレッションし、その後、結合ベースのコンディショニングによって形状条件付き変換にデコードする。 しかし、3次元形状の異なる領域は幾何学的構造が異なるため、形状条件の領域ではなく領域条件の変換がより合理的である。 本稿では、自己教師型学習方式におけるペアワイズ点集合の変換を予測するために、RAR(Rar)と表記されるShaunderline{R}egion-\underline{A}ware point cloud \underline{R}egistrationを提案する。 具体的には、ニューラルネットワークによってパラメータ化された暗黙のニューラルネットワーク領域表現で形成される新しい領域対応デコーダ(RAD)モジュールを開発する。 暗黙的ニューラル領域表現は、領域ラベルを必要とせず、自己教師付き3次元形状再構成損失で学習される。 これにより、地域対応デコーダ(RAD)モジュールは、地域対応トランスフォーメーション(RAT)モジュールと地域対応トランスフォーメーション(RAW)モジュールのトレーニングをガイドし、各領域のトランスフォーメーションと重みをそれぞれ予測する。 ソース点からターゲット点への大域的幾何学変換は、領域認識変換の重み付き融合によって形成される。 我々の実験は、最先端のアプローチと比較して、RARが様々なベンチマークデータセット(ModelNet40など)よりも優れた登録性能を達成することを示した。

This paper concerns the research problem of point cloud registration to find the rigid transformation to optimally align the source point set with the target one. Learning robust point cloud registration models with deep neural networks has emerged as a powerful paradigm, offering promising performance in predicting the global geometric transformation for a pair of point sets. Existing methods firstly leverage an encoder to regress a latent shape embedding, which is then decoded into a shape-conditioned transformation via concatenation-based conditioning. However, different regions of a 3D shape vary in their geometric structures which makes it more sense that we have a region-conditioned transformation instead of the shape-conditioned one. In this paper we present a \underline{R}egion-\underline{A}ware point cloud \underline{R}egistration, denoted as RAR, to predict transformation for pairwise point sets in the self-supervised learning fashion. More specifically, we develop a novel region-aware decoder (RAD) module that is formed with an implicit neural region representation parameterized by neural networks. The implicit neural region representation is learned with a self-supervised 3D shape reconstruction loss without the need for region labels. Consequently, the region-aware decoder (RAD) module guides the training of the region-aware transformation (RAT) module and region-aware weight (RAW) module, which predict the transforms and weights for different regions respectively. The global geometric transformation from source point set to target one is then formed by the weighted fusion of region-aware transforms. Compared to the state-of-the-art approaches, our experiments show that our RAR achieves superior registration performance over various benchmark datasets (e.g. ModelNet40).
翻訳日:2023-07-20 18:44:09 公開日:2023-07-19
# 公平にアロケートする計画:レスレスバンド設定における確率的公正性

Planning to Fairly Allocate: Probabilistic Fairness in the Restless Bandit Setting ( http://arxiv.org/abs/2106.07677v4 )

ライセンス: Link先を確認
Christine Herlihy, Aviva Prins, Aravind Srinivasan, and John P. Dickerson(参考訳) restless や breakpsing bandit は、患者間の健康介入の割り当てなど、アームがアクション依存の移行確率を持つ設定において、予算に制約されたリソース割り当てをモデル化するためによく使用される。 しかし、この計画問題に対する最先端のホイットル・インデックスに基づくアプローチは、武器間の公平性を考慮していないか、それを保証せずに公平性にインセンティブを与えるかのどちらかである。 そこで我々は,確率論的に公正な政策であるProbFairを導入する。これは,予想される全報酬を最大化し,予算制約を満たすとともに,各タイミングで引き出される確率の厳密な低い境界を確保できる。 提案アルゴリズムは,患者に対するCPAP(Continuous positive airway pressure)治療への介入と,より広範な合成遷移行列を用いた実世界の応用で評価する。 ProbFairは有効性を保ち、公正性を保証する。

Restless and collapsing bandits are often used to model budget-constrained resource allocation in settings where arms have action-dependent transition probabilities, such as the allocation of health interventions among patients. However, state-of-the-art Whittle-index-based approaches to this planning problem either do not consider fairness among arms, or incentivize fairness without guaranteeing it. We thus introduce ProbFair, a probabilistically fair policy that maximizes total expected reward and satisfies the budget constraint while ensuring a strictly positive lower bound on the probability of being pulled at each timestep. We evaluate our algorithm on a real-world application, where interventions support continuous positive airway pressure (CPAP) therapy adherence among patients, as well as on a broader class of synthetic transition matrices. We find that ProbFair preserves utility while providing fairness guarantees.
翻訳日:2023-07-20 18:43:03 公開日:2023-07-19
# 医用画像解析における深層学習一般化のための複雑性尺度の評価

Evaluation of Complexity Measures for Deep Learning Generalization in Medical Image Analysis ( http://arxiv.org/abs/2103.03328v3 )

ライセンス: Link先を確認
Aleksandar Vakanski, Min Xian(参考訳) 医用画像解析のためのディープラーニングモデルの一般化性能は、データ取得、デバイス設定、患者集団のための異なるデバイスで収集された画像に対して低下することが多い。 新しい画像に対する一般化能力の理解が深層学習における臨床医の信頼性に不可欠である。 近年,一般化限界と複雑性尺度の確立に向けた研究が盛んに行われているが,予測と実際の一般化性能との間には大きな差があることが多い。 同様に、関連する大規模な実証研究は、主に汎用画像データセットによる検証に基づいている。 本稿では,乳房超音波画像における25種類の複雑性尺度と教師付き深層学習分類器の一般化能力の相関について検討する。 その結果,PAC-Bayes平坦度とパスノルムに基づく尺度は,モデルとデータの組み合わせに対して最も一貫した説明をもたらすことがわかった。 また,乳房画像に対するマルチタスク分類とセグメンテーション手法の利用について検討し,これらの学習手法が暗黙の正規化として機能し,一般化の促進に寄与することを示す。

The generalization performance of deep learning models for medical image analysis often decreases on images collected with different devices for data acquisition, device settings, or patient population. A better understanding of the generalization capacity on new images is crucial for clinicians' trustworthiness in deep learning. Although significant research efforts have been recently directed toward establishing generalization bounds and complexity measures, still, there is often a significant discrepancy between the predicted and actual generalization performance. As well, related large empirical studies have been primarily based on validation with general-purpose image datasets. This paper presents an empirical study that investigates the correlation between 25 complexity measures and the generalization abilities of supervised deep learning classifiers for breast ultrasound images. The results indicate that PAC-Bayes flatness-based and path norm-based measures produce the most consistent explanation for the combination of models and data. We also investigate the use of multi-task classification and segmentation approach for breast images, and report that such learning approach acts as an implicit regularizer and is conducive toward improved generalization.
翻訳日:2023-07-20 18:42:18 公開日:2023-07-19
# 2段階トレーニング戦略による共同解体・脱騒音効果

Joint Demosaicking and Denoising Benefits from a Two-stage Training Strategy ( http://arxiv.org/abs/2009.06205v3 )

ライセンス: Link先を確認
Yu Guo, Qiyu Jin, Gabriele Facciolo, Tieyong Zeng, Jean-Michel Morel(参考訳) カラー画像生成パイプラインの最初の2つのステップは、画像デモサイクリングとデノイジングである。 古典的な処理シーケンスは長い間、まずデノイジングを適用し、次にデモサイクリングからなる。 この順序で操作を適用すると、過剰なスムースとチェッカーボード効果につながる。 しかし、画像が分解されると、ノイズの統計的特性が劇的に変化し、従来のデノナイジングモデルでは処理が困難になるため、この順序を変えることは困難であった。 本稿では,この問題をハイブリッド機械学習手法を用いて解決する。 従来のカラーフィルタアレー (cfa) 処理パイプラインをまずデモサイクリングを行い,次にデノージングを行う。 提案手法は,従来の手法と残留畳み込みニューラルネットワーク(cnn)を組み合わせることで,ノイズのない画像から学習を行う。 この第1段階は、すべての既知の情報を保持し、忠実な最終結果を得るための重要なポイントである。 その後、ノイズのないフルカラー画像を復元する第2のCNNを通過させる。 このパイプライン順序は、チェッカーボード効果を完全に回避し、詳細な画像詳細を復元する。 CNNは、共同で復調するエンドツーエンドを解決するためにトレーニングすることができるが、この2段階のトレーニングはより良く、失敗しにくくなっている。 視覚的品質の両面で、芸術の状態を定量的に改善するために実験的に示される。

Image demosaicking and denoising are the first two key steps of the color image production pipeline. The classical processing sequence has for a long time consisted of applying denoising first, and then demosaicking. Applying the operations in this order leads to oversmoothing and checkerboard effects. Yet, it was difficult to change this order, because once the image is demosaicked, the statistical properties of the noise are dramatically changed and hard to handle by traditional denoising models. In this paper, we address this problem by a hybrid machine learning method. We invert the traditional color filter array (CFA) processing pipeline by first demosaicking and then denoising. Our demosaicking algorithm, trained on noiseless images, combines a traditional method and a residual convolutional neural network (CNN). This first stage retains all known information, which is the key point to obtain faithful final results. The noisy demosaicked image is then passed through a second CNN restoring a noiseless full-color image. This pipeline order completely avoids checkerboard effects and restores fine image detail. Although CNNs can be trained to solve jointly demosaicking-denoising end-to-end, we find that this two-stage training performs better and is less prone to failure. It is shown experimentally to improve on the state of the art, both quantitatively and in terms of visual quality.
翻訳日:2023-07-20 18:42:01 公開日:2023-07-19
# mixpath:ワンショットニューラルネットワーク検索のための統一アプローチ

MixPath: A Unified Approach for One-shot Neural Architecture Search ( http://arxiv.org/abs/2001.05887v4 )

ライセンス: Link先を確認
Xiangxiang Chu, Shun Lu, Xudong Li, Bo Zhang(参考訳) 複数の畳み込みカーネルのブレンディングは、ニューラルアーキテクチャ設計において有利であることが証明されている。 しかし、現在の2段階のニューラルアーキテクチャ探索法は主にシングルパス探索空間に限られている。 マルチパス構造の効率的なモデル探索は依然として難しい課題である。 本稿では,候補アーキテクチャを正確に評価するために,ワンショットマルチパススーパーネットをトレーニングする動機付けを行う。 具体的には、研究対象の探索空間において、複数の経路から合計された特徴ベクトルは1つの経路から得られる特徴ベクトルのほぼ多重であることを示す。 このような格差は、スーパーネットのトレーニングとそのランキング能力に支障をきたす。 そこで我々は,異なる特徴統計を正規化するためのシャドウバッチ正規化(SBN)と呼ばれる新しいメカニズムを提案する。 大規模な実験により、SBNは最適化を安定化し、ランキング性能を向上させることができることが証明された。 当社の統一マルチパスワンショットアプローチをmixpathと呼び、imagenetで最先端の結果を得る一連のモデルを生成します。

Blending multiple convolutional kernels is proved advantageous in neural architecture design. However, current two-stage neural architecture search methods are mainly limited to single-path search spaces. How to efficiently search models of multi-path structures remains a difficult problem. In this paper, we are motivated to train a one-shot multi-path supernet to accurately evaluate the candidate architectures. Specifically, we discover that in the studied search spaces, feature vectors summed from multiple paths are nearly multiples of those from a single path. Such disparity perturbs the supernet training and its ranking ability. Therefore, we propose a novel mechanism called Shadow Batch Normalization (SBN) to regularize the disparate feature statistics. Extensive experiments prove that SBNs are capable of stabilizing the optimization and improving ranking performance. We call our unified multi-path one-shot approach as MixPath, which generates a series of models that achieve state-of-the-art results on ImageNet.
翻訳日:2023-07-20 18:41:40 公開日:2023-07-19
# 古典量子チャネル上の隠密通信

Covert Communication over Classical-Quantum Channels ( http://arxiv.org/abs/1601.06826v6 )

ライセンス: Link先を確認
Michael S. Bullock, Azadeh Sheikholeslami, Mehrdad Tahmasbi, Robert C. Macdonald, Saikat Guha, Boulat A. Bash(参考訳) 固定有限サイズの入力アルファベットを持つ一般メモリレス古典量子チャネルにおける秘密通信について検討する。 l_{\rm srl}\sqrt{n}+o(\sqrt{n})$ covert bits (ただしそれ以上ではない) は、classic-quantum channel の $n$ で確実に送信され、ここで $l_{\rm srl}>0$ はcovert capacity と呼ばれるチャネル依存定数である。 また、秘密性を保証するには、送信前に通信側が共有する$j_{\rm srl}\sqrt{n}+o(\sqrt{n})$bitsシークレットが必要であり、$j_{\rm srl}\geq0$ はチャネル依存定数である。 我々は、n$チャンネルのすべての使用で任意のジョイント(アンタングリング)測定を行う量子強力な逆境を仮定する。 我々は、$L_{\rm SRL}$と$J_{\rm SRL}$のシングルレター式を決定し、$J_{\rm SRL}=0$の条件を確立する(つまり、事前共有された秘密は必要ない)。 最後に,SRLによって秘密通信が制御されないシナリオを評価する。

We investigate covert communication over general memoryless classical-quantum channels with fixed finite-size input alphabets. We show that the square root law (SRL) governs covert communication in this setting when product of $n$ input states is used: $L_{\rm SRL}\sqrt{n}+o(\sqrt{n})$ covert bits (but no more) can be reliably transmitted in $n$ uses of classical-quantum channel, where $L_{\rm SRL}>0$ is a channel-dependent constant that we call covert capacity. We also show that ensuring covertness requires $J_{\rm SRL}\sqrt{n}+o(\sqrt{n})$ bits secret shared by the communicating parties prior to transmission, where $J_{\rm SRL}\geq0$ is a channel-dependent constant. We assume a quantum-powerful adversary that can perform an arbitrary joint (entangling) measurement on all $n$ channel uses. We determine the single-letter expressions for $L_{\rm SRL}$ and $J_{\rm SRL}$, and establish conditions when $J_{\rm SRL}=0$ (i.e., no pre-shared secret is needed). Finally, we evaluate the scenarios where covert communication is not governed by the SRL.
翻訳日:2023-07-20 18:41:06 公開日:2023-07-19
# スーパービジョントランス

Super Vision Transformer ( http://arxiv.org/abs/2205.11397v5 )

ライセンス: Link先を確認
Mingbao Lin, Mengzhao Chen, Yuxin Zhang, Chunhua Shen, Rongrong Ji, Liujuan Cao(参考訳) トークン数において2次的に増加する視覚変換器(ViT)の計算コストを削減しようとする。 本稿では,一度に1つのViTモデルのみを訓練する新しい訓練パラダイムを提案するが,様々な計算コストで画像認識性能を向上させることができる。 ここで、訓練されたvitモデルはsuper vision transformer(supervit)と呼ばれ、複数のサイズの入ってくるパッチを解決し、複数の保持率(トークンの保持率)を持つ情報トークンを保存し、利用可能なハードウェアリソースが時折変化することを考慮し、推論のための優れたハードウェア効率を達成する能力を備えている。 ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。 例えば、DeiT-Sの2倍FLOPを減少させ、Top-1の精度を0.2%、1.5倍の精度で0.7%向上させる。 また、我々のSuperViTは、効率的な視覚変換器に関する既存の研究を著しく上回っている。 例えば、同じ量のFLOPを消費する場合、SuperViTはDeiT-Sをバックボーンとして使用する場合、最近のSOTA(State-of-the-art) EViTを1.1%上回る。 この作業のプロジェクトはhttps://github.com/lmbxmu/supervit.comで公開されている。

We attempt to reduce the computational costs in vision transformers (ViTs), which increase quadratically in the token number. We present a novel training paradigm that trains only one ViT model at a time, but is capable of providing improved image recognition performance with various computational costs. Here, the trained ViT model, termed super vision transformer (SuperViT), is empowered with the versatile ability to solve incoming patches of multiple sizes as well as preserve informative tokens with multiple keeping rates (the ratio of keeping tokens) to achieve good hardware efficiency for inference, given that the available hardware resources often change from time to time. Experimental results on ImageNet demonstrate that our SuperViT can considerably reduce the computational costs of ViT models with even performance increase. For example, we reduce 2x FLOPs of DeiT-S while increasing the Top-1 accuracy by 0.2% and 0.7% for 1.5x reduction. Also, our SuperViT significantly outperforms existing studies on efficient vision transformers. For example, when consuming the same amount of FLOPs, our SuperViT surpasses the recent state-of-the-art (SOTA) EViT by 1.1% when using DeiT-S as their backbones. The project of this work is made publicly available at https://github.com/lmbxmu/SuperViT.
翻訳日:2023-07-20 18:34:24 公開日:2023-07-19
# グラフニューラルネットワークによるおそらくハードな代表選択の処理

Tackling Provably Hard Representative Selection via Graph Neural Networks ( http://arxiv.org/abs/2205.10403v2 )

ライセンス: Link先を確認
Mehran Kazemi, Anton Tsitsulin, Hossein Esfandiari, MohammadHossein Bateni, Deepak Ramachandran, Bryan Perozzi, Vahab Mirrokni(参考訳) 代表選択(Representive Selection, RS)は、データセットの代表であるデータセットから、例の小さなサブセットを見つける問題である。 本稿では,帰属グラフのrsを調査し,選択した代表者に対してトレーニングされたモデルの精度を最適化する代表ノードの探索に焦点をあてる。 理論的には、(グラフ構造が存在しない場合)新しい硬さ結果のforrsを確立させるには、任意の妥当な係数内で多項式時間で近似することが困難であり、これは広く使われているサーロゲート関数の最適解とモデルの実際の精度との間に有意なギャップがあることを意味する。 次に,データポイント間のグラフ構造が利用可能である,あるいは構築可能な設定について検討し,適切なモデリング手法により,そのような構造が存在することにより,ハードRS(学習用)問題を効果的に解けるものにすることができることを示す。 そこで我々は,グラフニューラルネットワークに基づく表現学習型rsモデルrs-gnnを開発した。 実験的に, RS-GNNは, 8つのベンチマークで確立されたベースラインよりも大幅に改善されていることを示すことにより, 事前に定義されたグラフ構造とノード特徴の類似性に起因するグラフ問題に対するRS-GNNの有効性を実証した。

Representative Selection (RS) is the problem of finding a small subset of exemplars from a dataset that is representative of the dataset. In this paper, we study RS for attributed graphs, and focus on finding representative nodes that optimize the accuracy of a model trained on the selected representatives. Theoretically, we establish a new hardness result forRS (in the absence of a graph structure) by proving that a particular, highly practical variant of it (RS for Learning) is hard to approximate in polynomial time within any reasonable factor, which implies a significant potential gap between the optimum solution of widely-used surrogate functions and the actual accuracy of the model. We then study the setting where a (homophilous) graph structure is available, or can be constructed, between the data points.We show that with an appropriate modeling approach, the presence of such a structure can turn a hard RS (for learning) problem into one that can be effectively solved. To this end, we develop RS-GNN, a representation learning-based RS model based on Graph Neural Networks. Empirically, we demonstrate the effectiveness of RS-GNN on problems with predefined graph structures as well as problems with graphs induced from node feature similarities, by showing that RS-GNN achieves significant improvements over established baselines on a suite of eight benchmarks.
翻訳日:2023-07-20 18:33:59 公開日:2023-07-19
# 責任あるAI実践者であることの意味:役割とスキルのオントロジー

What does it mean to be a responsible AI practitioner: An ontology of roles and skills ( http://arxiv.org/abs/2205.03946v2 )

ライセンス: Link先を確認
Shalaleh Rismani, AJung Moon(参考訳) さまざまなアプリケーションドメインにわたるAIシステムの規制の必要性が高まる中、業界には新たな職業が出現している。 いわゆる責任あるAI実践者またはAI倫理主義者は一般的に、AIシステムの倫理的かつ安全な設計のためのベストプラクティスを解釈し、運用することを任務としている。 しかし、これらの役割の生まれつきの性質から、将来の雇用主やAI倫理家にとって、これらの役割が果たす特定の機能と、機能に果たすために必要なスキルは明確ではない。 これらを明確にしなければ、私たちは、有意義な学習目標を持つ未来のAI倫理主義者を訓練することはできない。 本研究は、AI実践者が業界で何をするか、仕事でどのようなスキルを身につけているのかを検討する。 我々は,各役割に果たすスキルや能力とともに,既存の役割のオントロジーを提案する。 このオントロジーは,2年間(2020-2022年)の職歴調査を行い,現在その役割を担っている14名を対象に,専門家インタビューを行った。 私たちのオントロジーは、責任あるAIチームを構築したいビジネスリーダーに貢献し、AI倫理カリキュラムが優先順位付けできる能力セットを教育者に提供します。

With the growing need to regulate AI systems across a wide variety of application domains, a new set of occupations has emerged in the industry. The so-called responsible AI practitioners or AI ethicists are generally tasked with interpreting and operationalizing best practices for ethical and safe design of AI systems. Due to the nascent nature of these roles, however, it is unclear to future employers and aspiring AI ethicists what specific function these roles serve and what skills are necessary to serve the functions. Without clarity on these, we cannot train future AI ethicists with meaningful learning objectives. In this work, we examine what responsible AI practitioners do in the industry and what skills they employ on the job. We propose an ontology of existing roles alongside skills and competencies that serve each role. We created this ontology by examining the job postings for such roles over a two-year period (2020-2022) and conducting expert interviews with fourteen individuals who currently hold such a role in the industry. Our ontology contributes to business leaders looking to build responsible AI teams and provides educators with a set of competencies that an AI ethics curriculum can prioritize.
翻訳日:2023-07-20 18:33:35 公開日:2023-07-19
# Hilbert Simplex Geometryにおける非線形埋め込み

Non-linear Embeddings in Hilbert Simplex Geometry ( http://arxiv.org/abs/2203.11434v2 )

ライセンス: Link先を確認
Frank Nielsen and Ke Sun(参考訳) 機械学習とコンピュータビジョンの重要なテクニックは、さらに下流処理のために離散重み付きグラフを連続空間に埋め込むことである。 双曲幾何学に離散階層構造を埋め込むことは、任意の低歪みを持つ重み付き木をその幾何学に埋め込むことが示され、非常に成功した。 双曲幾何学の共通モデルに基づく双曲埋め込みの様々な最適化手法が研究されている。 本稿では、変分ポリトープノルムを備えたベクトル空間に等尺な標準単純集合に対してヒルベルト幾何学を考える。 グラフの距離行列の埋め込みによるヒルベルト単純幾何学の表現力について検討する。 以上の結果から,ヒルベルトの単純幾何幾何学はポアンカーの双曲球やユークリッド幾何学のような代替幾何学と競合し,高速かつ数値的に頑健であることを示す。

A key technique of machine learning and computer vision is to embed discrete weighted graphs into continuous spaces for further downstream processing. Embedding discrete hierarchical structures in hyperbolic geometry has proven very successful since it was shown that any weighted tree can be embedded in that geometry with arbitrary low distortion. Various optimization methods for hyperbolic embeddings based on common models of hyperbolic geometry have been studied. In this paper, we consider Hilbert geometry for the standard simplex which is isometric to a vector space equipped with the variation polytope norm. We study the representation power of this Hilbert simplex geometry by embedding distance matrices of graphs. Our findings demonstrate that Hilbert simplex geometry is competitive to alternative geometries such as the Poincar\'e hyperbolic ball or the Euclidean geometry for embedding tasks while being fast and numerically robust.
翻訳日:2023-07-20 18:33:14 公開日:2023-07-19
# POMDPにおける自然アクター臨界の有限時間解析

Finite-Time Analysis of Natural Actor-Critic for POMDPs ( http://arxiv.org/abs/2202.09753v3 )

ライセンス: Link先を確認
Semih Cayci, Niao He, R. Srikant(参考訳) 制御器が制御されたマルコフ連鎖のノイズのみを観測できるような、大きく、あるいは数え切れないほど無限な状態空間を持つ部分観測マルコフ決定過程(POMDP)の強化学習問題を考察する。 ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法とポリシー評価のための多段階時間差分学習アルゴリズムを考える。 我々の知る限りでは、関数近似の下で部分的に観測されたシステムに対するアクター-批判法の非漸近的大域収束を初めて確立する。 特に, MDP で発生する関数近似や統計的誤差に加えて, 有限状態制御器の使用による誤差を明示的に特徴づける。 この追加誤差は、PMDPの伝統的な信念状態と有限状態コントローラを使用する場合の隠れ状態の後部分布との間の全変動距離の観点から記述される。 さらに,より大きなブロックサイズを用いることで,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。

We consider the reinforcement learning problem for partially observed Markov decision processes (POMDPs) with large or even countably infinite state spaces, where the controller has access to only noisy observations of the underlying controlled Markov chain. We consider a natural actor-critic method that employs a finite internal memory for policy parameterization, and a multi-step temporal difference learning algorithm for policy evaluation. We establish, to the best of our knowledge, the first non-asymptotic global convergence of actor-critic methods for partially observed systems under function approximation. In particular, in addition to the function approximation and statistical errors that also arise in MDPs, we explicitly characterize the error due to the use of finite-state controllers. This additional error is stated in terms of the total variation distance between the traditional belief state in POMDPs and the posterior distribution of the hidden state when using a finite-state controller. Further, we show that this error can be made small in the case of sliding-block controllers by using larger block sizes.
翻訳日:2023-07-20 18:32:59 公開日:2023-07-19
# 非視覚マーカーを用いた持続的動物識別

Persistent Animal Identification Leveraging Non-Visual Markers ( http://arxiv.org/abs/2112.06809v8 )

ライセンス: Link先を確認
Michael P. J. Camilleri and Li Zhang and Rasneer S. Bains and Andrew Zisserman and Christopher K. I. Williams(参考訳) 本研究の目的は, 生物学的研究における自動行動認識の先駆けとして, 乱雑なホームケージ環境における各マウスの識別と識別を提供することである。 これは非常に難しい問題です。 (i)各マウスの視覚的特徴の区別の欠如 (ii)一定の閉塞を伴うシーンの閉じた領域は、標準的な視覚追跡アプローチが使用不可能となる。 しかし、各マウスの位置の粗い推定は独自のRFIDインプラントから可能であるため、(弱)追跡情報と身元に関する粗い情報とを最適に組み合わせることが可能である。 目的を達成するために、私たちは以下の重要な貢献をします。 (a)代入問題としてのオブジェクト識別問題の定式化(整数線形計画法を用いて解決) b)トラックレットとRFIDデータの親和性に関する新しい確率モデル。 後者は、粗い局所化が与えられた物体検出の原則的確率的処理を提供するため、モデルの重要な部分である。 本手法は, 動物識別の精度を77%向上し, 動物が隠れているときの急激な検出を拒否できる。

Our objective is to locate and provide a unique identifier for each mouse in a cluttered home-cage environment through time, as a precursor to automated behaviour recognition for biological research. This is a very challenging problem due to (i) the lack of distinguishing visual features for each mouse, and (ii) the close confines of the scene with constant occlusion, making standard visual tracking approaches unusable. However, a coarse estimate of each mouse's location is available from a unique RFID implant, so there is the potential to optimally combine information from (weak) tracking with coarse information on identity. To achieve our objective, we make the following key contributions: (a) the formulation of the object identification problem as an assignment problem (solved using Integer Linear Programming), and (b) a novel probabilistic model of the affinity between tracklets and RFID data. The latter is a crucial part of the model, as it provides a principled probabilistic treatment of object detections given coarse localisation. Our approach achieves 77% accuracy on this animal identification problem, and is able to reject spurious detections when the animals are hidden.
翻訳日:2023-07-20 18:32:42 公開日:2023-07-19
# 量子計算フロッケエネルギースペクトル

Quantum computing Floquet energy spectra ( http://arxiv.org/abs/2112.04276v3 )

ライセンス: Link先を確認
Benedikt Fauseweh, Jian-Xin Zhu(参考訳) 量子システムは、時間周期の外部フィールドを使用して動的に制御できるため、将来性のある技術応用を備えたフロケット工学の概念が導かれる。 フロケットエネルギースペクトルの計算は、基底状態特性や単一時間依存軌道の計算よりも難しく、ヒルベルト空間次元と指数関数的にスケールする。 特に低周波数限界の強い相関系では、トランケーションに基づく古典的アプローチが故障する。 本稿では,Floquetモードとエネルギースペクトルを決定するための2つの量子アルゴリズムを提案する。 時間領域と周波数領域におけるフロッケモードの定義特性とパラメトリズド量子回路の表現性を組み合わせて古典的アプローチの限界を克服する。 我々はアルゴリズムをベンチマークし、短期量子ハードウェアに関連する重要な特性を解析する。

Quantum systems can be dynamically controlled using time-periodic external fields, leading to the concept of Floquet engineering, with promising technological applications. Computing Floquet energy spectra is harder than only computing ground state properties or single time-dependent trajectories, and scales exponentially with the Hilbert space dimension. Especially for strongly correlated systems in the low frequency limit, classical approaches based on truncation break down. Here, we present two quantum algorithms to determine effective Floquet modes and energy spectra. We combine the defining properties of Floquet modes in time and frequency domains with the expressiveness of parametrized quantum circuits to overcome the limitations of classical approaches. We benchmark our algorithms and provide an analysis of the key properties relevant for near-term quantum hardware.
翻訳日:2023-07-20 18:32:24 公開日:2023-07-19
# 高精度物体検出のための境界分布推定

Boundary Distribution Estimation for Precise Object Detection ( http://arxiv.org/abs/2111.01396v2 )

ライセンス: Link先を確認
Peng Zhi, Haoran Zhou, Hang Huang, Rui Zhao, Rui Zhou and Qingguo Zhou(参考訳) 最先端のオブジェクト検出の分野では、オブジェクトのローカライゼーションのタスクは通常、境界ボックス回帰を強調する専用のサブネットによって行われる。 このサブネットは伝統的に、ボックスの中心位置とスケーリング係数を後退させることで、オブジェクトの位置を予測する。 このアプローチが広く採用されているにもかかわらず、ローカライゼーションの結果はしばしば欠陥に悩まされ、不満足な検出性能がもたらされる。 本稿では,従来の手法の欠点を理論的解析と実験的検証を通じて解決し,高精度物体検出のための革新的な解法を提案する。 対象の中心と大きさにのみ焦点をあてるのではなく、対象の境界における推定分布に基づいてボックスエッジを精製することにより、境界ボックスの局所化の精度を高める。 実験により提案手法の可能性と一般化性を示す。

In the field of state-of-the-art object detection, the task of object localization is typically accomplished through a dedicated subnet that emphasizes bounding box regression. This subnet traditionally predicts the object's position by regressing the box's center position and scaling factors. Despite the widespread adoption of this approach, we have observed that the localization results often suffer from defects, leading to unsatisfactory detector performance. In this paper, we address the shortcomings of previous methods through theoretical analysis and experimental verification and present an innovative solution for precise object detection. Instead of solely focusing on the object's center and size, our approach enhances the accuracy of bounding box localization by refining the box edges based on the estimated distribution at the object's boundary. Experimental results demonstrate the potential and generalizability of our proposed method.
翻訳日:2023-07-20 18:32:12 公開日:2023-07-19
# データ拡張はハイパーパラメータである:チェリーピックによる教師なし異常検出のためのセルフスーパービジョンは成功の錯覚を生み出す

Data Augmentation is a Hyperparameter: Cherry-picked Self-Supervision for Unsupervised Anomaly Detection is Creating the Illusion of Success ( http://arxiv.org/abs/2208.07734v6 )

ライセンス: Link先を確認
Jaemin Yoo, Tiancheng Zhao, and Leman Akoglu(参考訳) 自己教師付き学習(SSL)は、手動ラベリングの大幅なコストを回避し、現実の問題に対する監督的な信号を作成するための有望な代替手段として登場した。 SSLは、ラベル付き異常が稀で、しばしば存在しない、異常検出(AD)のような教師なしのタスクには特に魅力的である。 画像データに対するsslベースの広告(ssad)には、拡張機能の大規模なカタログが使われており、最近の研究では、拡張のタイプが精度に大きな影響を与えていると報告されている。 この研究の動機は、画像ベースのssadをより大きなレンズの下に置き、ssadにおけるデータ拡張の役割を調べることだ。 3つの異なる検出器モデルと420のADタスクに関する広範な実験を通じて、データの増大と異常発生機構の整合がSSADの成功の鍵であり、その欠如によりSSLが精度を損なう可能性があるという包括的な数値的および視覚的証拠を提供する。 我々の知る限りでは、SSADにおけるデータ拡張の役割に関する最初のメタ分析である。

Self-supervised learning (SSL) has emerged as a promising alternative to create supervisory signals to real-world problems, avoiding the extensive cost of manual labeling. SSL is particularly attractive for unsupervised tasks such as anomaly detection (AD), where labeled anomalies are rare or often nonexistent. A large catalog of augmentation functions has been used for SSL-based AD (SSAD) on image data, and recent works have reported that the type of augmentation has a significant impact on accuracy. Motivated by those, this work sets out to put image-based SSAD under a larger lens and investigate the role of data augmentation in SSAD. Through extensive experiments on 3 different detector models and across 420 AD tasks, we provide comprehensive numerical and visual evidences that the alignment between data augmentation and anomaly-generating mechanism is the key to the success of SSAD, and in the lack thereof, SSL may even impair accuracy. To the best of our knowledge, this is the first meta-analysis on the role of data augmentation in SSAD.
翻訳日:2023-07-20 18:23:44 公開日:2023-07-19
# キャビティ誘起多体局在

Cavity induced many-body localization ( http://arxiv.org/abs/2208.06898v2 )

ライセンス: Link先を確認
Rong-Chun Ge, Saeed Rahmanian Koshkaki, Michael H. Kolodrubetz(参考訳) 本稿では, 空洞量子力学の強い結合における多体局在化の実現可能性について検討する。 単一モードの空洞に座るスピンレス電子ハバード鎖で作業することで、電子と光子の大域的な結合(一般にフェルミオン励起の非局在化が期待される)が、ローカライゼーションの出現に有利であることを示す。 これは、強い結合における電子-光子相互作用を正しく説明する新しい高周波展開と、単一粒子と多体状態の数値計算によって支えられている。 エネルギー依存を探索し、光子数への局所化の符号を$n\sim2$まで小さくすることで、光子数の強い量子揺らぎに耐える証拠が発見された。

In this manuscript, we explore the feasibility of achieving many-body localization in the context of cavity quantum electrodynamics at strong coupling. Working with a spinless electronic Hubbard chain sitting coupled to a single-mode cavity, we show that the global coupling between electrons and photons -- which generally would be expected to delocalize the fermionic excitations -- can instead favor the appearance of localization. This is supported by a novel high-frequency expansion that correctly accounts for electron-photon interaction at strong coupling, as well as numerical calculations in both single particle and many-bod regimes. We find evidence that many-body localization may survive strong quantum fluctuations of the photon number by exploring energy dependence, seeing signatures of localization down to photon numbers as small as $n\sim2$.
翻訳日:2023-07-20 18:23:22 公開日:2023-07-19
# 信頼できるレコメンデーションシステム

Trustworthy Recommender Systems ( http://arxiv.org/abs/2208.06265v2 )

ライセンス: Link先を確認
Shoujin Wang, Xiuzhen Zhang, Yan Wang, Huan Liu, Francesco Ricci(参考訳) recommender systems(rss)は、ユーザーが大きなカタログから興味のあるアイテムを効果的に取り出すのを支援する。 長い間、研究者や実践者は正確なrssの開発に注力してきた。 近年、rssに対する脅威が増加しており、攻撃、システム、ユーザー生成ノイズ、システムバイアスが原因となっている。 その結果,rs精度への厳密な注力が制限され,信頼性など他の重要な要因も検討する必要があることが明らかとなった。 エンドユーザーにとって、信頼できるRS(TRS)は正確であるだけでなく、透明で偏りがなく公正であり、ノイズや攻撃に対して堅牢であるべきである。 これらの観測は、精度指向のRSからRSへのRSの研究のパラダイムシフトにつながった。 しかし、研究者はtrssのこの新奇で急速な発展分野における文学の体系的な概要と議論を欠いている。 そこで本稿では,trssの動機と基本的な概念,trss構築における課題の提示,この分野の今後の方向性に関する展望など,trssの概要について述べる。 TRSの構築を支援するための新しい概念的枠組みも提供する。

Recommender systems (RSs) aim to help users to effectively retrieve items of their interests from a large catalogue. For a quite long period of time, researchers and practitioners have been focusing on developing accurate RSs. Recent years have witnessed an increasing number of threats to RSs, coming from attacks, system and user generated noise, system bias. As a result, it has become clear that a strict focus on RS accuracy is limited and the research must consider other important factors, e.g., trustworthiness. For end users, a trustworthy RS (TRS) should not only be accurate, but also transparent, unbiased and fair as well as robust to noise or attacks. These observations actually led to a paradigm shift of the research on RSs: from accuracy-oriented RSs to TRSs. However, researchers lack a systematic overview and discussion of the literature in this novel and fast developing field of TRSs. To this end, in this paper, we provide an overview of TRSs, including a discussion of the motivation and basic concepts of TRSs, a presentation of the challenges in building TRSs, and a perspective on the future directions in this area. We also provide a novel conceptual framework to support the construction of TRSs.
翻訳日:2023-07-20 18:23:06 公開日:2023-07-19
# 量子古典ハイブリッド系とその準自由変換

Quantum-Classical Hybrid Systems and their Quasifree Transformations ( http://arxiv.org/abs/2208.05020v3 )

ライセンス: Link先を確認
Lars Dammeier, Reinhard F. Werner(参考訳) 量子および古典自由度が結合され、同じ基底上で扱われる連続変数系について研究する。 したがって、入力やチャネルへの出力を含む全てのシステムは、量子古典ハイブリッドである。 これにより、測定や古典パラメータへの依存を含む様々な量子演算を統一的に扱うことができる。 基本変数はスカラー変換子を持つ標準演算子によって与えられる。 一部の変数は他の変数と交換でき、従って古典的なサブシステムを生成する。 位相空間変換の中間条件か、ハイゼンベルク図において、ワイル作用素はワイル作用素の倍数に写像されるという条件によって同等に特徴づけられる「準自由」演算のクラスを体系的に研究する。 これには、よく知られたガウス演算、二次ハミルトニアンによる進化、および「線形ボソニックチャネル」が含まれるが、より一般的なノイズを許容する。 例えば、全ての状態は準自由である。 我々は,準自由準備,測定,反復観測,クローン,テレポーテーション,高密度符号化,古典的極限の設定,および不可逆力学のいくつかの側面の解析と,不確実性,誤り,乱れの厳密なトレードオフをスケッチする。 観測可能な状態と状態の空間は、我々が考慮するすべての非自明なシステムに対して無限次元であるが、これに関連する技術を一様かつ決定的な方法で扱い、使いやすく、完全に厳密な計算を提供する。

We study continuous variable systems, in which quantum and classical degrees of freedom are combined and treated on the same footing. Thus all systems, including the inputs or outputs to a channel, may be quantum-classical hybrids. This allows a unified treatment of a large variety of quantum operations involving measurements or dependence on classical parameters. The basic variables are given by canonical operators with scalar commutators. Some variables may commute with all others and hence generate a classical subsystem. We systematically study the class of "quasifree" operations, which are characterized equivalently either by an intertwining condition for phase-space translations or by the requirement that, in the Heisenberg picture, Weyl operators are mapped to multiples of Weyl operators. This includes the well-known Gaussian operations, evolutions with quadratic Hamiltonians, and "linear Bosonic channels", but allows for much more general kinds of noise. For example, all states are quasifree. We sketch the analysis of quasifree preparation, measurement, repeated observation, cloning, teleportation, dense coding, the setup for the classical limit, and some aspects of irreversible dynamics, together with the precise salient tradeoffs of uncertainty, error, and disturbance. Although the spaces of observables and states are infinite dimensional for every non-trivial system that we consider, we treat the technicalities related to this in a uniform and conclusive way, providing a calculus that is both easy to use and fully rigorous.
翻訳日:2023-07-20 18:22:49 公開日:2023-07-19
# 量子速度制限による断熱量子アルゴリズムの下位境界

Lower bounds for adiabatic quantum algorithms by quantum speed limits ( http://arxiv.org/abs/2207.01604v4 )

ライセンス: Link先を確認
Jyong-Hao Chen(参考訳) 本稿では,広範囲の断熱量子アルゴリズムのランタイム上での下位境界を推定するための簡単なフレームワークを提案する。 中心公式は、初期状態に関する最終ハミルトン多様体の分散を計算することで構成される。 特定のキーストーン回路に基づく量子アルゴリズムの断熱バージョンを調べた後、この手法を未決定の高速化を伴う断熱量子アルゴリズムに適用する。 特に,確率グラフにおけるk-クリケを見つけるための断熱アルゴリズムの下限を解析的に求める。 さらに、ハミルトニアンの特定のクラスに対して、我々のフレームワークとスペクトルギャップ分析に基づく従来のアプローチとの等価性を証明することは容易である。

We introduce a simple framework for estimating lower bounds on the runtime of a broad class of adiabatic quantum algorithms. The central formula consists of calculating the variance of the final Hamiltonian with respect to the initial state. After examining adiabatic versions of certain keystone circuit-based quantum algorithms, this technique is applied to adiabatic quantum algorithms with undetermined speedup. In particular, we analytically obtain lower bounds on adiabatic algorithms for finding k-clique in random graphs. Additionally, for a particular class of Hamiltonian, it is straightforward to prove the equivalence between our framework and the conventional approach based on spectral gap analysis.
翻訳日:2023-07-20 18:22:21 公開日:2023-07-19
# ビデオのための自己監督型学習: 調査

Self-Supervised Learning for Videos: A Survey ( http://arxiv.org/abs/2207.00419v3 )

ライセンス: Link先を確認
Madeline C. Schiappa and Yogesh S. Rawat and Mubarak Shah(参考訳) さまざまな領域におけるディープラーニングの顕著な成功は、大規模な注釈付きデータセットの可用性に依存している。 しかし、アノテーションの取得は高価で多大な労力を要するため、ビデオでは特に難しい。 さらに、人為的なアノテーションの使用は、バイアス学習と貧弱なドメインの一般化と堅牢性を持つモデルにつながる。 代わりに、自己教師付き学習は、アノテーションを必要とせず、画像領域とビデオ領域の両方で約束を示す表現学習の方法を提供する。 画像領域と異なり、時間次元による映像表現の学習はより困難であり、動きやその他の環境力学をもたらす。 これはまた、ビデオおよびマルチモーダル領域における自己教師型学習を促進するビデオ排他的アイデアの機会を提供する。 本稿では,ビデオ領域に着目した自己教師付き学習における既存のアプローチについて概観する。 これらの方法を学習目標に基づいて4つのカテゴリにまとめる。 1)プレテキストタスク。 2)生成学習 3)対照的な学習,そして 4) クロスモーダル合意。 さらに,一般的なデータセット,ダウンストリーム評価タスク,既存の作業の限界に対する洞察,この分野の今後の方向性についても紹介する。

The remarkable success of deep learning in various domains relies on the availability of large-scale annotated datasets. However, obtaining annotations is expensive and requires great effort, which is especially challenging for videos. Moreover, the use of human-generated annotations leads to models with biased learning and poor domain generalization and robustness. As an alternative, self-supervised learning provides a way for representation learning which does not require annotations and has shown promise in both image and video domains. Different from the image domain, learning video representations are more challenging due to the temporal dimension, bringing in motion and other environmental dynamics. This also provides opportunities for video-exclusive ideas that advance self-supervised learning in the video and multimodal domain. In this survey, we provide a review of existing approaches on self-supervised learning focusing on the video domain. We summarize these methods into four different categories based on their learning objectives: 1) pretext tasks, 2) generative learning, 3) contrastive learning, and 4) cross-modal agreement. We further introduce the commonly used datasets, downstream evaluation tasks, insights into the limitations of existing works, and the potential future directions in this area.
翻訳日:2023-07-20 18:22:10 公開日:2023-07-19
# 動的に見積もった行動コストによる計画

Planning with Dynamically Estimated Action Costs ( http://arxiv.org/abs/2206.04166v3 )

ライセンス: Link先を確認
Eyal Weiss and Gal A. Kaminka(参考訳) 実際のAI計画アプリケーションには、アクションコストに関する情報が不可欠だ。 宣言的アクションモデルのみに頼るのではなく、近年のアプローチでは、計画段階で適用されるデータから学ぶブラックボックスの外部アクションコスト推定器も使用されている。 しかし、これらは計算量的に高価であり、不確定な値を生み出す。 本稿では,行動コストに対する複数の推定器間の選択を可能にする行動コストを用いた決定論的計画の一般化を提案する。 これにより、よりリッチでより現実的な問題表現が可能になります。 重要なことは、プランナーが計画の正確性に縛られ、信頼性が向上すると同時に、不要な計算負担を軽減できることである。 本稿では,そのような計画問題の解法を一般化した探索アルゴリズムと,追加のアルゴリズム拡張を導入する。 理論的な保証に加えて、広範な実験により、代替よりも実行時の大幅な削減が示されている。

Information about action costs is critical for real-world AI planning applications. Rather than rely solely on declarative action models, recent approaches also use black-box external action cost estimators, often learned from data, that are applied during the planning phase. These, however, can be computationally expensive, and produce uncertain values. In this paper we suggest a generalization of deterministic planning with action costs that allows selecting between multiple estimators for action cost, to balance computation time against bounded estimation uncertainty. This enables a much richer -- and correspondingly more realistic -- problem representation. Importantly, it allows planners to bound plan accuracy, thereby increasing reliability, while reducing unnecessary computational burden, which is critical for scaling to large problems. We introduce a search algorithm, generalizing $A^*$, that solves such planning problems, and additional algorithmic extensions. In addition to theoretical guarantees, extensive experiments show considerable savings in runtime compared to alternatives.
翻訳日:2023-07-20 18:21:32 公開日:2023-07-19
# 交互に最適化されたグラフニューラルネットワーク

Alternately Optimized Graph Neural Networks ( http://arxiv.org/abs/2206.03638v4 )

ライセンス: Link先を確認
Haoyu Han, Xiaorui Liu, Haitao Mao, MohamadAli Torkamani, Feng Shi, Victor Lee, Jiliang Tang(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の半教師付きノード分類タスクを大幅に進歩させた。 既存のGNNの大半はエンドツーエンドでトレーニングされており、これは双方向最適化問題に対処すると見なすことができる。 このプロセスは、しばしば計算やメモリ使用において非効率である。 本稿では,グラフ上の半教師あり学習のための新しい最適化フレームワークを提案する。 提案手法は交互最適化アルゴリズムにより便利に解けるので,効率は大幅に向上する。 大規模な実験により,提案手法は最先端のベースラインで同等あるいは優れた性能を達成できる一方で,計算効率とメモリ効率が著しく向上することを示した。

Graph Neural Networks (GNNs) have greatly advanced the semi-supervised node classification task on graphs. The majority of existing GNNs are trained in an end-to-end manner that can be viewed as tackling a bi-level optimization problem. This process is often inefficient in computation and memory usage. In this work, we propose a new optimization framework for semi-supervised learning on graphs. The proposed framework can be conveniently solved by the alternating optimization algorithms, resulting in significantly improved efficiency. Extensive experiments demonstrate that the proposed method can achieve comparable or better performance with state-of-the-art baselines while it has significantly better computation and memory efficiency.
翻訳日:2023-07-20 18:21:18 公開日:2023-07-19
# メタラーニングパラメータ化スキル

Meta-Learning Parameterized Skills ( http://arxiv.org/abs/2206.03597v4 )

ライセンス: Link先を確認
Haotian Fu, Shangqun Yu, Saket Tiwari, Michael Littman, George Konidaris(参考訳) 本稿では,移動可能なパラメータ化スキルを学習し,長期タスクにおける効率的な学習を支援する新しいアクション空間に合成することを目的とした,新しいパラメータ化スキル学習アルゴリズムを提案する。 本稿では,メタRLと軌跡中心の平滑化項を組み合わせてパラメータ化スキルの集合を学習することを提案する。 我々のエージェントは、これらの学習スキルを使用して、時間的に拡張されたパラメータ化されたアクションマルコフ決定プロセスをモデル化する3段階の階層的なフレームワークを構築することができる。 本研究では,提案アルゴリズムによってエージェントが難易度の高い長期作業(障害物コースとロボット操作)を解くことができることを示す。

We propose a novel parameterized skill-learning algorithm that aims to learn transferable parameterized skills and synthesize them into a new action space that supports efficient learning in long-horizon tasks. We propose to leverage off-policy Meta-RL combined with a trajectory-centric smoothness term to learn a set of parameterized skills. Our agent can use these learned skills to construct a three-level hierarchical framework that models a Temporally-extended Parameterized Action Markov Decision Process. We empirically demonstrate that the proposed algorithms enable an agent to solve a set of difficult long-horizon (obstacle-course and robot manipulation) tasks.
翻訳日:2023-07-20 18:21:10 公開日:2023-07-19
# MotionBERT:人間の動きの表現を学習する統一的な視点

MotionBERT: A Unified Perspective on Learning Human Motion Representations ( http://arxiv.org/abs/2210.06551v3 )

ライセンス: Link先を確認
Wentao Zhu, Xiaoxuan Ma, Zhaoyang Liu, Libin Liu, Wayne Wu, Yizhou Wang(参考訳) 本稿では,大規模・異種データ資源から人間の動作表現を学習し,人間中心のビデオ課題に取り組むための統一的な視点を提案する。 具体的には,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,動きエンコーダを訓練する事前学習ステージを提案する。 この方法で得られた運動表現は、人の動きに関する幾何学的、運動学的、物理的知識を取り入れており、容易に複数の下流タスクに転送できる。 動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。 骨格関節の長距離時空間的関係を包括的かつ適応的に捉え、スクラッチから訓練された場合の最低3次元ポーズ推定誤差を例示する。 さらに,提案手法は,学習した動作表現の汎用性を示す単純な回帰ヘッド(1-2層)で事前学習した動きエンコーダを微調整することで,3つの下流タスクの最先端性能を実現する。 コードとモデルはhttps://motionbert.github.io/で入手できる。

We present a unified perspective on tackling various human-centric video tasks by learning human motion representations from large-scale and heterogeneous data resources. Specifically, we propose a pretraining stage in which a motion encoder is trained to recover the underlying 3D motion from noisy partial 2D observations. The motion representations acquired in this way incorporate geometric, kinematic, and physical knowledge about human motion, which can be easily transferred to multiple downstream tasks. We implement the motion encoder with a Dual-stream Spatio-temporal Transformer (DSTformer) neural network. It could capture long-range spatio-temporal relationships among the skeletal joints comprehensively and adaptively, exemplified by the lowest 3D pose estimation error so far when trained from scratch. Furthermore, our proposed framework achieves state-of-the-art performance on all three downstream tasks by simply finetuning the pretrained motion encoder with a simple regression head (1-2 layers), which demonstrates the versatility of the learned motion representations. Code and models are available at https://motionbert.github.io/
翻訳日:2023-07-20 18:14:52 公開日:2023-07-19
# alpha-divergence variational inferenceは重み付きオートエンコーダの重要性を満たしている:方法論と漸近論

Alpha-divergence Variational Inference Meets Importance Weighted Auto-Encoders: Methodology and Asymptotics ( http://arxiv.org/abs/2210.06226v2 )

ライセンス: Link先を確認
Kam\'elia Daudel, Joe Benton, Yuyang Shi, Arnaud Doucet(参考訳) 変分R'enyi(VR)バウンダリを含むいくつかのアルゴリズムが提案され、ターゲット後部分布と変分分布の間のアルファ偏差を最小化する。 有望な実証結果にもかかわらず、これらのアルゴリズムは偏りのある確率勾配降下手順に頼り、理論的保証を欠いている。 本稿では,IWAE(Importance Weighted Auto-Encoder)バウンダリの一般化であるVR-IWAEバウンダリを形式化し,研究する。 本稿は,VR-IWAE境界がいくつかの望ましい特性を享受し,特に再パラメータ化ケースにおけるVR境界と同じ確率勾配降下手順を導出することを示した。 次に,VR-IWAE境界と標準IWAE境界の相補的理論的解析を行う。 これらの分析は、これらの限界の利点や欠如に光を当てた。 最後に、おもちゃや実データに関する理論的な主張を説明します。

Several algorithms involving the Variational R\'enyi (VR) bound have been proposed to minimize an alpha-divergence between a target posterior distribution and a variational distribution. Despite promising empirical results, those algorithms resort to biased stochastic gradient descent procedures and thus lack theoretical guarantees. In this paper, we formalize and study the VR-IWAE bound, a generalization of the Importance Weighted Auto-Encoder (IWAE) bound. We show that the VR-IWAE bound enjoys several desirable properties and notably leads to the same stochastic gradient descent procedure as the VR bound in the reparameterized case, but this time by relying on unbiased gradient estimators. We then provide two complementary theoretical analyses of the VR-IWAE bound and thus of the standard IWAE bound. Those analyses shed light on the benefits or lack thereof of these bounds. Lastly, we illustrate our theoretical claims over toy and real-data examples.
翻訳日:2023-07-20 18:14:33 公開日:2023-07-19
# 例外的絡み合い現象:非古典性と非古典性

Exceptional entanglement phenomena: non-Hermiticity meeting non-classicality ( http://arxiv.org/abs/2210.04494v3 )

ライセンス: Link先を確認
Peirong Han, Fan Wu, Xinjie Huang, Huaizhi Wu, Chang-Ling Zou, Wei Yi, Mengzhen Zhang, Hekang Li, Kai Xu, Dongning Zheng, Heng Fan, Jianming Wen, Zhenbiao Yang, Shibiao Zheng(参考訳) 量子力学ハミルトニアンの非エルミタン(NH)拡張は物理学における最も重要な進歩の1つである。 過去20年間、多くの NH 現象が明らかにされ実証されてきたが、これらは全て量子系と古典系の両方に現れる。 NHシグネチャは、古典物理学から根本的に離れているのか? この問題の解決策は、真のNH量子力学の探索には不可欠であるが、今のところは触れられていない。 ここでは、NH相互作用量子系の例外点(EP)で発生する、異なる特異な絡み合い現象を明らかにすることで、この基本的な問題を解決する。 回路量子力学アーキテクチャを用いて、自然散布型光マターシステムを用いて、純粋に量子力学的なNH効果を実証する。 本研究は,ep対応の絡み合い挙動を表わし,真に量子力学的なnh物理の研究の基礎となった。

Non-Hermitian (NH) extension of quantum-mechanical Hamiltonians represents one of the most significant advancements in physics. During the past two decades, numerous captivating NH phenomena have been revealed and demonstrated, but all of which can appear in both quantum and classical systems. This leads to the fundamental question: What NH signature presents a radical departure from classical physics? The solution of this problem is indispensable for exploring genuine NH quantum mechanics, but remains untouched upon so far. Here we resolve this basic issue by unveiling distinct exceptional entanglement phenomena, exemplified by an entanglement transition, occurring at the exceptional point (EP) of NH interacting quantum systems. We illustrate and demonstrate such purely quantum-mechanical NH effects with a naturally-dissipative light-matter system, engineered in a circuit quantum electrodynamics architecture. Our results lay the foundation for studies of genuinely quantum-mechanical NH physics, signified by EP-enabled entanglement behaviors.
翻訳日:2023-07-20 18:14:14 公開日:2023-07-19
# value summation:mpcモデルに基づく強化学習のための新しいスコアリング関数

Value Summation: A Novel Scoring Function for MPC-based Model-based Reinforcement Learning ( http://arxiv.org/abs/2209.08169v2 )

ライセンス: Link先を確認
Mehran Raisi, Amirhossein Noohian, Luc Mccutcheon, Saber Fallah(参考訳) 本稿では,MPCを用いた強化学習手法の計画モジュールのための新たなスコアリング機能を提案する。 提案手法は,値の割引和を用いた既存のMPCベースのMBRL法の学習効率を向上させる。 本手法は,政策学習の指針として最適軌道を利用するとともに,実世界および拡張オンボードデータに基づく状態行動値関数を更新する。 提案手法の学習効率は,選択したMuJoCo Gym環境と,Cassieロボットの模擬モデルを用いたロコモーションスキルの学習において評価される。 提案手法は,学習効率と平均報酬率の点で,現在最先端のアルゴリズムよりも優れていることを示す。

This paper proposes a novel scoring function for the planning module of MPC-based reinforcement learning methods to address the inherent bias of using the reward function to score trajectories. The proposed method enhances the learning efficiency of existing MPC-based MBRL methods using the discounted sum of values. The method utilizes optimal trajectories to guide policy learning and updates its state-action value function based on real-world and augmented onboard data. The learning efficiency of the proposed method is evaluated in selected MuJoCo Gym environments as well as in learning locomotion skills for a simulated model of the Cassie robot. The results demonstrate that the proposed method outperforms the current state-of-the-art algorithms in terms of learning efficiency and average reward return.
翻訳日:2023-07-20 18:12:58 公開日:2023-07-19
# 量子talagrand, kkl, friedgutの定理と量子ブール関数の学習可能性

Quantum Talagrand, KKL and Friedgut's theorems and the learnability of quantum Boolean functions ( http://arxiv.org/abs/2209.07279v2 )

ライセンス: Link先を確認
Cambyse Rouz\'e, Melchior Wirth, Haonan Zhang(参考訳) ブール関数の影響の分析から、KKL Theorem、FriedgutのJunta Theorem、幾何学的影響に対するTalagrandの分散不等式など、関連する3つの結果を拡張する。 以上の結果は,最近研究したハイパーコントラクティビティと勾配推定の併用によるものである。 これらのジェネリックツールはまた、これらの結果の一般化を、連続変数量子システムのような量子情報理論に関連する無限次元の例を含む量子超キューブの場合を超えて、一般のフォン・ノイマン代数的設定で導出することができる。 最後に、等尺型不等式の非可換拡張、量子回路の複雑性の低下、および量子可観測体の学習可能性に関する結果の意味について述べる。

We extend three related results from the analysis of influences of Boolean functions to the quantum setting, namely the KKL Theorem, Friedgut's Junta Theorem and Talagrand's variance inequality for geometric influences. Our results are derived by a joint use of recently studied hypercontractivity and gradient estimates. These generic tools also allow us to derive generalizations of these results in a general von Neumann algebraic setting beyond the case of the quantum hypercube, including examples in infinite dimensions relevant to quantum information theory such as continuous variables quantum systems. Finally, we comment on the implications of our results as regards to noncommutative extensions of isoperimetric type inequalities, quantum circuit complexity lower bounds and the learnability of quantum observables.
翻訳日:2023-07-20 18:12:46 公開日:2023-07-19
# スケルトンに基づく行動認識のための階層的分解型グラフ畳み込みネットワーク

Hierarchically Decomposed Graph Convolutional Networks for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2208.10741v3 )

ライセンス: Link先を確認
Jungho Lee, Minhyeok Lee, Dogyoon Lee, Sangyoun Lee(参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識の最も一般的な手法であり、優れた性能を達成している。 意味的に意味のあるエッジを持つ隣接行列の生成は特にこのタスクにおいて重要であるが、そのようなエッジを抽出することは難しい問題である。 そこで本研究では,階層的に分解されたグラフ畳み込みネットワーク(HD-GCN)アーキテクチャを提案する。 提案したHD-GCNは、すべての関節ノードを効率的に複数の集合に分解し、主要な構造的隣接端と遠縁端を抽出し、それらのエッジを含むHD-Graphを人間の骨格の同じ意味空間に構築する。 さらに,注意誘導階層集約(a-ha)モジュールを導入し,hd-graphの階層的エッジ集合を強調する。 さらに,6方向アンサンブル法を適用し,関節と骨のストリームのみをモーションストリームなしで利用する。 提案モデルを評価し,4つの大規模データセットにおいて最先端のパフォーマンスを実現する。 最後に,本モデルの有効性を様々な比較実験で実証する。

Graph convolutional networks (GCNs) are the most commonly used methods for skeleton-based action recognition and have achieved remarkable performance. Generating adjacency matrices with semantically meaningful edges is particularly important for this task, but extracting such edges is challenging problem. To solve this, we propose a hierarchically decomposed graph convolutional network (HD-GCN) architecture with a novel hierarchically decomposed graph (HD-Graph). The proposed HD-GCN effectively decomposes every joint node into several sets to extract major structurally adjacent and distant edges, and uses them to construct an HD-Graph containing those edges in the same semantic spaces of a human skeleton. In addition, we introduce an attention-guided hierarchy aggregation (A-HA) module to highlight the dominant hierarchical edge sets of the HD-Graph. Furthermore, we apply a new six-way ensemble method, which uses only joint and bone stream without any motion stream. The proposed model is evaluated and achieves state-of-the-art performance on four large, popular datasets. Finally, we demonstrate the effectiveness of our model with various comparative experiments.
翻訳日:2023-07-20 18:12:29 公開日:2023-07-19
# リプキン-メシュコフ-グリックモデルにおける拡散複雑性の時間発展

Time evolution of spread complexity in quenched Lipkin-Meshkov-Glick model ( http://arxiv.org/abs/2208.10520v2 )

ライセンス: Link先を確認
Mir Afrasiar, Jaydeep Kumar Basak, Bidyut Dey, Kunal Pal, Kuntal Pal(参考訳) 我々は,Lipkin-Meshkov-Glick(LMG)モデルにおける急激な量子クエンチ後の時間発展状態の拡散複雑性を,システムが臨界点に向かってクエンチされたときの量子相転移のプローブとして利用する。 クリロフ基底の有効元数の増大を研究することにより、これらは事前割り当てされたカットオフ以上の拡散複雑性に寄与し、LMGモデルの2つの相がいかに区別できるかを示す。 また,非臨界および臨界クエンチ後の拡散エントロピーの時間発展についても検討した。 拡散エントロピーに寄与する和は, 破壊相と比較して, LMGモデルの対称相にゆっくりと収束することを示した。 臨界クエンチの場合、拡散エントロピーは後期に対数的に発散する。

We use the spread complexity of a time evolved state after a sudden quantum quench in the Lipkin-Meshkov-Glick (LMG) model prepared in the ground state as a probe of quantum phase transition when the system is quenched towards the critical point. By studying the growth of the effective number of elements of the Krylov basis, those contribute to the spread complexity more than a preassigned cut off, we show how the two phases of the LMG model can be distinguished. We also explore the time evolution of spread entropy after both non-critical and critical quenches. We show that the sum contributing to the spread entropy converges slowly in the symmetric phase of the LMG model compared to that of the broken phase. For a critical quench, the spread entropy diverges logarithmically at late times.
翻訳日:2023-07-20 18:12:10 公開日:2023-07-19
# インコンテキスト学習者はデモから推論概念を学習できるか?

Can In-context Learners Learn a Reasoning Concept from Demonstrations? ( http://arxiv.org/abs/2212.01692v4 )

ライセンス: Link先を確認
Michal \v{S}tef\'anik and Marek Kadl\v{c}\'ik(参考訳) 言語モデルは、少数の入出力デモから新しいタスクを学ぶための創発的な能力を示す。 しかし、近年の研究では、インコンテキスト学習者は、入力から新しい関連を学習するのではなく、ラベルの感情のような事前学習された知識に大きく依存している。 文脈内デモンストレーションのランダムな選択を用いた無作為な少数ショット評価は、ランダムに選択されたデモの多くは、タスクの入出力分布を露呈する以上の予測に有意な関係を示さないため、モデルのバイアスに依存しない。 そこで,本研究では,モデルメモリに依存しないコンテキスト内学習能力を評価するために,提案した概念をサンプルと共有するデモを選択する概念共有数ショット学習手法を提案する。 このような概念のセットを、利用可能な説明から抽出し、わずかなデモでこれらの概念を提示することで、モデルがどの程度の利益を得られるかを測定する。 近年のインコンテキスト学習者の多くは、モデルのサイズに関わらず、実証された概念の恩恵を受けられない。 しかし、T0モデルは8つの評価シナリオのうち7つの概念共有デモの恩恵を受け、展示された概念に対してより敏感である。

Language models exhibit an emergent ability to learn a new task from a small number of input-output demonstrations. However, recent work shows that in-context learners largely rely on their pre-trained knowledge, such as the sentiment of the labels, instead of learning new associations from the input. We argue that the commonly-used few-shot evaluation using a random selection of in-context demonstrations can not disentangle models' reliance on such biases, as most of the randomly-selected demonstrations do not present relations informative for prediction beyond exposing the task's input-output distribution. Therefore, to evaluate models' in-context learning ability independent of models' memory, we introduce a Concept-sharing few-shot learning method choosing the demonstrations that share an underlying concept with the predicted sample. We extract a set of such concepts from available human explanations and measure how much models can benefit from presenting these concepts in few-shot demonstrations. We find that most of the recent in-context learners can not consistently benefit from the demonstrated concepts, irrespective of the model size. However, we note that T0 models are more sensitive to exhibited concepts, benefiting from concept-sharing demonstrations in 7 out of 8 evaluation scenarios.
翻訳日:2023-07-20 18:05:09 公開日:2023-07-19
# 指数関数的に成長する普遍量子回路の族

An exponentially-growing family of universal quantum circuits ( http://arxiv.org/abs/2212.00736v2 )

ライセンス: Link先を確認
Mo Kordzanganeh, Pavel Sekatski, Markus Pflitsch, Alexey Melnikov(参考訳) 量子機械学習は関心が高まりつつあるが、理論上はハードウェア固有の制限がある。 特に、勾配の消失(不毛高原)の問題により、量子ビット数の高い回路ではトレーニングが不可能となり、データサイエンティストが問題解決に使用できる量子ビットの数に制限が課される。 独立に、アングル埋め込みされた教師付き量子ニューラルネットワークは、エンコーディングの深さとエンコーディングが適用される並列量子ビットの数という2つの要因に直接依存する次数を持つ切断されたフーリエ級数を生成することを示した。 フーリエ級数の次数はモデル表現性を制限する。 この研究は、シーケンシャルおよび並列な指数量子機械学習アーキテクチャであるフーリエ次数が指数関数的に増加する2つの新しいアーキテクチャを導入している。 これは、エンコーディング時に利用可能なヒルベルト空間を効率的に使用し、量子エンコーディングの表現性を高めることによって行われる。 したがって、指数的成長は低ビットの極限に留まり、バレンプラトーを避けるために非常に表現性の高い回路を作ることができる。 実際、並列指数型アーキテクチャは1次元のテスト問題において、最終的な平均2乗誤差値を44.7%まで削減することで、既存の線形アーキテクチャよりも優れていることを示した。 さらに, 閉じ込められたイオン量子処理装置において, この手法の実現可能性を示した。

Quantum machine learning has become an area of growing interest but has certain theoretical and hardware-specific limitations. Notably, the problem of vanishing gradients, or barren plateaus, renders the training impossible for circuits with high qubit counts, imposing a limit on the number of qubits that data scientists can use for solving problems. Independently, angle-embedded supervised quantum neural networks were shown to produce truncated Fourier series with a degree directly dependent on two factors: the depth of the encoding and the number of parallel qubits the encoding applied to. The degree of the Fourier series limits the model expressivity. This work introduces two new architectures whose Fourier degrees grow exponentially: the sequential and parallel exponential quantum machine learning architectures. This is done by efficiently using the available Hilbert space when encoding, increasing the expressivity of the quantum encoding. Therefore, the exponential growth allows staying at the low-qubit limit to create highly expressive circuits avoiding barren plateaus. Practically, parallel exponential architecture was shown to outperform the existing linear architectures by reducing their final mean square error value by up to 44.7% in a one-dimensional test problem. Furthermore, the feasibility of this technique was also shown on a trapped ion quantum processing unit.
翻訳日:2023-07-20 18:04:47 公開日:2023-07-19
# 損失チャネルネットワークにおける効率的なディック状態生成

Efficient Dicke state generation in a network of lossy channels ( http://arxiv.org/abs/2211.15138v3 )

ライセンス: Link先を確認
Wojciech Roga, Rikizo Ikuta, Tomoyuki Horikiri, Masahiro Takeoka(参考訳) マルチパート光ネットワークにおける絡み合いの発生を解析する。 我々は、ツインフィールド戦略をマルチパーティケースに一般化し、我々のプロトコルがスターネットワーク上でW状態とDicke状態の分散に有利な速度損失スケーリングを持つことを示す。 正確な理論式と定量的性能分析を行う。 また,多くの実験実験の典型的な構成である資源としてガウス状態を用いた同一のプロトコルの解析を行う。

We analyze the generation of entanglement in a multipartite optical network. We generalize the twin-field strategy to the multipartie case and show that our protocol has advantageous rate-loss scalings of distributing W states and Dicke states over the star networks. We give precise theoretical formulas and quantitative performance analyses. Also analysis of the same protocol using Gaussian states as resources, which is a typical setup of many experimental tests, is provided.
翻訳日:2023-07-20 18:04:24 公開日:2023-07-19
# バイオインスパイアネットワークにおける量子状態のルーティング

Routing a quantum state in a bio-inspired network ( http://arxiv.org/abs/2211.14176v2 )

ライセンス: Link先を確認
Elham Faraji, Alireza Nourmandipour, Stefano Mancini, Marco Pettini, Roberto Franzosi(参考訳) 我々は、$\alpha$-helix構造に似たスピンネットワークを検討し、このバイオインスパイアされたネットワーク上の量子情報転送を研究する。 私たちが使用しているモデルは、基本バージョンで音素環境のないダヴィドフモデルです。 本研究では,あるノードから別のノードへの量子状態移動の確率に上限を与えるネットワークにおける完全状態移動(PST)を解析的および数値的に検討する。 ネットワーク上の異なる境界条件に対するPSTについて検討し、特定のノードと適切なスピンスピン結合で到達可能であることを示す。

We consider a spin network resembling an $\alpha$-helix structure and study quantum information transfer over this bio-inspired network. The model we use is the Davydov model in its elementary version without a phononic environment. We investigate analytically and numerically the perfect state transfer (PST) in such a network which provides an upper bound on the probability of quantum states transfer from one node to another. We study PST for different boundary conditions on the network and show it is reachable between certain nodes and with suitable spin-spin couplings.
翻訳日:2023-07-20 18:04:16 公開日:2023-07-19
# 受動摂動機能増強による顔認識における対向攻撃の伝達性の向上

Improving the Transferability of Adversarial Attacks on Face Recognition with Beneficial Perturbation Feature Augmentation ( http://arxiv.org/abs/2210.16117v4 )

ライセンス: Link先を確認
Fengfan Zhou, Hefei Ling, Yuxuan Shi, Jiazhong Chen, Zongyi Li, Ping Li(参考訳) 顔認識(FR)モデルは、良質な顔画像に知覚不能な摂動を加えることで、敵対的な例によって容易に騙される。 敵対的な顔の例の存在は、社会の安全に大きな脅威をもたらす。 より持続可能なデジタル国家を構築するために,本稿では,既存のfrモデルの盲点を明らかにするために,敵の顔例の転送性を向上させる。 ハードサンプルの生成は、訓練作業におけるモデルの一般化を改善する効果を示したが、このアイデアを活用して対向顔例の伝達性を向上させる効果は未解明のままである。 そこで本研究では,ハードサンプルの特性と,トレーニングタスクと対向攻撃タスクとの対称性に基づいて,対向攻撃タスクのハードサンプルと同じような効果を持つハードモデルの概念を提案する。 硬式モデルの概念を生かしたBPFA(Beeficial Perturbation Feature Augmentation Attack)と呼ばれる新たな攻撃手法を提案する。 特にバックプロパゲーションでは、bpfaは事前選択された特徴マップの勾配を記録し、入力画像の勾配を使って逆の例を作成する。 次の転送では、bpfaは記録された勾配を利用して対応する特徴マップに有益な摂動を追加し、損失を増加させる。 大規模な実験により、BPFAはFRに対する敵の攻撃の伝達可能性を大幅に向上させることが示された。

Face recognition (FR) models can be easily fooled by adversarial examples, which are crafted by adding imperceptible perturbations on benign face images. The existence of adversarial face examples poses a great threat to the security of society. In order to build a more sustainable digital nation, in this paper, we improve the transferability of adversarial face examples to expose more blind spots of existing FR models. Though generating hard samples has shown its effectiveness in improving the generalization of models in training tasks, the effectiveness of utilizing this idea to improve the transferability of adversarial face examples remains unexplored. To this end, based on the property of hard samples and the symmetry between training tasks and adversarial attack tasks, we propose the concept of hard models, which have similar effects as hard samples for adversarial attack tasks. Utilizing the concept of hard models, we propose a novel attack method called Beneficial Perturbation Feature Augmentation Attack (BPFA), which reduces the overfitting of adversarial examples to surrogate FR models by constantly generating new hard models to craft the adversarial examples. Specifically, in the backpropagation, BPFA records the gradients on pre-selected feature maps and uses the gradient on the input image to craft the adversarial example. In the next forward propagation, BPFA leverages the recorded gradients to add beneficial perturbations on their corresponding feature maps to increase the loss. Extensive experiments demonstrate that BPFA can significantly boost the transferability of adversarial attacks on FR.
翻訳日:2023-07-20 18:03:36 公開日:2023-07-19
# テキスト分類における不確実性近似のためのsoftmaxの再検討

Revisiting Softmax for Uncertainty Approximation in Text Classification ( http://arxiv.org/abs/2210.14037v2 )

ライセンス: Link先を確認
Andreas Nugaard Holm, Dustin Wright, Isabelle Augenstein(参考訳) テキスト分類における不確かさ近似は、ドメイン適応と解釈可能性において重要な領域である。 最も広く使われている不確実性近似の方法の1つはモンテカルロ(mc)ドロップアウト(英語版)である。 より安価な選択肢は、モデルの不確実性を推定するために、ドロップアウトなしで単一の前方通過に基づいてソフトマックスを単純に使うことである。 しかし、以前の研究はこれらの予測が過信される傾向があることを示している。 本稿では,2つの基礎となるニューラルネットワークアーキテクチャを持つ5つのデータセット上で,これらの手法の徹底的な実験的検討を行い,両者のトレードオフを明らかにする。 softmaxと効率的なmc dropoutの両方を不確実性近似と下流のテキスト分類性能で比較し、ランタイム(コスト)とパフォーマンス(メリット)を比較した。 mcドロップアウトは最良不確実性近似を生成するが、単純なソフトマックスを使うことは競争につながり、場合によっては計算コストがはるかに低いテキスト分類のより良い不確実性推定につながることが判明し、計算資源が懸念される場合にsoftmaxが十分不確実性推定となることを示唆する。

Uncertainty approximation in text classification is an important area with applications in domain adaptation and interpretability. One of the most widely used uncertainty approximation methods is Monte Carlo (MC) Dropout, which is computationally expensive as it requires multiple forward passes through the model. A cheaper alternative is to simply use the softmax based on a single forward pass without dropout to estimate model uncertainty. However, prior work has indicated that these predictions tend to be overconfident. In this paper, we perform a thorough empirical analysis of these methods on five datasets with two base neural architectures in order to identify the trade-offs between the two. We compare both softmax and an efficient version of MC Dropout on their uncertainty approximations and downstream text classification performance, while weighing their runtime (cost) against performance (benefit). We find that, while MC dropout produces the best uncertainty approximations, using a simple softmax leads to competitive and in some cases better uncertainty estimation for text classification at a much lower computational cost, suggesting that softmax can in fact be a sufficient uncertainty estimate when computational resources are a concern.
翻訳日:2023-07-20 18:03:10 公開日:2023-07-19
# SurCo:Learning Linearは、組合せ非線形最適化の問題に対処する

SurCo: Learning Linear Surrogates For Combinatorial Nonlinear Optimization Problems ( http://arxiv.org/abs/2210.12547v2 )

ライセンス: Link先を確認
Aaron Ferber, Taoan Huang, Daochen Zha, Martin Schubert, Benoit Steiner, Bistra Dilkina, Yuandong Tian(参考訳) 非線形コスト関数と組合せ制約の最適化問題は、多くの実世界のアプリケーションに現れるが、線形の計算よりも効率的に解くことは困難である。 このギャップを埋めるために、既存の$\underline{\text{co}}$mbinatorialソルバで使用できる線形$\underline{\text{sur}}$rogateコストを学習する$\textbf{surco}$を提案する。 線形サロゲート解法を微分することで、勾配法と線形組合せ最適化の構造を組み合わせることで、非線形損失を伴う終末のサロゲートコストを学習する。 我々は、個々の非線形問題に対して$\texttt{surco}-\texttt{zero}$、問題分布に対して$\texttt{surco}-\texttt{prior}$、分散と問題固有の情報を組み合わせる$\texttt{surco}-\texttt{hybrid}$という3つの変種を提案する。 理論的直観が$\texttt{SurCo}$を動機付け、それを経験的に評価する。 実験によると、$\texttt{SurCo}$は、組込みテーブルシャーディング、逆フォトニックデザイン、非線形経路計画のような実世界の最適化問題において、最先端のドメインエキスパートアプローチよりも高速な解を見つける。

Optimization problems with nonlinear cost functions and combinatorial constraints appear in many real-world applications but remain challenging to solve efficiently compared to their linear counterparts. To bridge this gap, we propose $\textbf{SurCo}$ that learns linear $\underline{\text{Sur}}$rogate costs which can be used in existing $\underline{\text{Co}}$mbinatorial solvers to output good solutions to the original nonlinear combinatorial optimization problem. The surrogate costs are learned end-to-end with nonlinear loss by differentiating through the linear surrogate solver, combining the flexibility of gradient-based methods with the structure of linear combinatorial optimization. We propose three $\texttt{SurCo}$ variants: $\texttt{SurCo}-\texttt{zero}$ for individual nonlinear problems, $\texttt{SurCo}-\texttt{prior}$ for problem distributions, and $\texttt{SurCo}-\texttt{hybrid}$ to combine both distribution and problem-specific information. We give theoretical intuition motivating $\texttt{SurCo}$, and evaluate it empirically. Experiments show that $\texttt{SurCo}$ finds better solutions faster than state-of-the-art and domain expert approaches in real-world optimization problems such as embedding table sharding, inverse photonic design, and nonlinear route planning.
翻訳日:2023-07-20 18:02:48 公開日:2023-07-19
# 双極性単分子エレクトロルミネッセンスとエレクトロフルオロクロミズム

Bipolar single-molecule electroluminescence and electrofluorochromism ( http://arxiv.org/abs/2210.11118v2 )

ライセンス: Link先を確認
Tzu-Chao Hung, Roberto Robles, Brian Kiraly, Julian H. Strik, Bram A. Rutten, Alexander A. Khajetoorians, Nicolas Lorente and Daniel Wegner(参考訳) 走査型トンネル顕微鏡(STM)と分光法(STS)とSTM誘起発光(STML)を組み合わせることで、単一分子レベルでの光電子励起と緩和経路の基本的なメカニズムを理解することが最近始まった。 本稿では,Ag(111)上の極薄NaCl膜上に吸着した個々の亜鉛フタロシアニン(ZnPc)分子のカチオンおよびアニオン蛍光をSTMLを用いて検討する。 それらは先端サンプルバイアスの極性に依存し、STSで特定された特定の分子軌道の開始エネルギーと相関する閾値電圧に現れる。 また、蛍光は単一の電子トンネル過程によって引き起こされることも判明した。 密度汎関数計算の結果と比較し,帯電とエレクトロルミネッセンス機構を記述するための代替多体画像を提案する。 本研究は,両極性エレクトロクロミズムの電圧選択性,および有機EL素子におけるエミッタ分子の過渡帯電状態の役割に関する基本的な知見について述べる。

Understanding the fundamental mechanisms of optoelectronic excitation and relaxation pathways on the single-molecule level has only recently been started by combining scanning tunneling microscopy (STM) and spectroscopy (STS) with STM-induced luminescence (STML). In this paper, we investigate cationic and anionic fluorescence of individual zinc phthalocyanine (ZnPc) molecules adsorbed on ultrathin NaCl films on Ag(111) by using STML. They depend on the tip-sample bias polarity and appear at threshold voltages that are correlated with the onset energies of particular molecular orbitals, as identified by STS. We also find that the fluorescence is caused by a single electron tunneling process. Comparing with results from density functional theory calculations, we propose an alternative many-body picture to describe the charging and electroluminescence mechanism. Our study provides aspects toward well-defined voltage selectivity of bipolar electrofluorochromism, as well as fundamental insights regarding the role of transiently charged states of emitter molecules within OLED devices.
翻訳日:2023-07-20 18:02:08 公開日:2023-07-19
# サブ・スタンダードとマル・プラクティス:不規則・偏極・毒性相互作用における誤情報の役割

Sub-Standards and Mal-Practices: Misinformation's Role in Insular, Polarized, and Toxic Interactions ( http://arxiv.org/abs/2301.11486v2 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric(参考訳) 信頼できないソースからのニュースに対して、ユーザやコミュニティはどのように反応するのか? これらのソースからのニュースはどのようにオンライン会話を変えるのか? 本研究は,ソーシャルメディアプラットフォームReddit上での政治的悪質と毒性を喚起する上での誤情報の役割について考察する。 Google Jigsaw Perspective APIを使用して、有害性、ヘイトスピーチ、その他の形態の悪質を識別すると、偽情報を広めることで知られるウェブサイトの記事に対するRedditのコメントは、真正なニュース記事に対するコメントよりも71.4%が有毒である可能性が高い。 インキビティの具体例を特定し、指数関数的ランダムグラフモデルを活用することで、誤った情報に反応すると、redditのユーザーは異なる政治的信念を持つユーザーに有害になる可能性が高いことを示します。 最後に、ゼロインフレーションされた負二項回帰を利用して、サブレディットの毒性が増大するにつれて、利用者は誤情報に関連する投稿についてコメントする傾向にある。

How do users and communities respond to news from unreliable sources? How does news from these sources change online conversations? In this work, we examine the role of misinformation in sparking political incivility and toxicity on the social media platform Reddit. Utilizing the Google Jigsaw Perspective API to identify toxicity, hate speech, and other forms of incivility, we find that Reddit comments posted in response to articles on websites known to spread misinformation are 71.4% more likely to be toxic than comments responding to authentic news articles. Identifying specific instances of incivility and utilizing an exponential random graph model, we then show that when reacting to a misinformation story, Reddit users are more likely to be toxic to users of different political beliefs. Finally, utilizing a zero-inflated negative binomial regression, we identify that as the toxicity of subreddits increases, users are more likely to comment on misinformation-related submissions.
翻訳日:2023-07-20 17:56:20 公開日:2023-07-19
# JT重力の代数と状態

Algebras and States in JT Gravity ( http://arxiv.org/abs/2301.07257v3 )

ライセンス: Link先を確認
Geoff Penington and Edward Witten(参考訳) 正準量子化されたJT重力における境界可観測物の代数を、物質の有無で解析する。 物質がなければ、この代数は可換であり、ADMハミルトニアンによって生成される。 バルク量子場理論と結合した後、それは自明な中心を持つタイプ II$_\infty$ の非常に非可換代数となる。 その結果、境界代数上の密度行列とエントロピーは、それぞれ再スケーリングまたはシフトに対して一意的に定義される。 この代数的エントロピーの定義はユークリッド経路積分を用いて計算される通常の複製トリック定義と一致することを示す。 特定の質量のブラックホールへの$\mathcal{O}(1)$のゆらぎに焦点を当てた以前の議論とは異なり、このタイプII$_\infty$代数は全ての温度やエネルギーで状態を記述する。 我々はまた、時空ワームホールの役割も考慮している。 境界代数と可換なワームホールに関連する作用素を定義することができるが、これは命令的方法で失敗する。 この理論の規制版では、ワームホールとトポロジーの変化を摂動的に組み込むことができる。 ベイビー宇宙状態を含むバルクヒルベルト空間 $\mathcal{h}_\mathrm{bulk}$ は、境界オブザーバからアクセス可能な状態の空間 $\mathcal{h}_\mathrm{bdry}$ よりもはるかに大きい。 しかし、境界観測者にとって、$\mathcal{H}_\mathrm{bulk}$上の全ての純状態または混合状態は、$\mathcal{H}_\mathrm{bdry}$の純状態と同値である。

We analyze the algebra of boundary observables in canonically quantised JT gravity with or without matter. In the absence of matter, this algebra is commutative, generated by the ADM Hamiltonian. After coupling to a bulk quantum field theory, it becomes a highly noncommutative algebra of Type II$_\infty$ with a trivial center. As a result, density matrices and entropies on the boundary algebra are uniquely defined up to, respectively, a rescaling or shift. We show that this algebraic definition of entropy agrees with the usual replica trick definition computed using Euclidean path integrals. Unlike in previous arguments that focused on $\mathcal{O}(1)$ fluctuations to a black hole of specified mass, this Type II$_\infty$ algebra describes states at all temperatures or energies. We also consider the role of spacetime wormholes. One can try to define operators associated with wormholes that commute with the boundary algebra, but this fails in an instructive way. In a regulated version of the theory, wormholes and topology change can be incorporated perturbatively. The bulk Hilbert space $\mathcal{H}_\mathrm{bulk}$ that includes baby universe states is then much bigger than the space of states $\mathcal{H}_\mathrm{bdry}$ accessible to a boundary observer. However, to a boundary observer, every pure or mixed state on $\mathcal{H}_\mathrm{bulk}$ is equivalent to some pure state in $\mathcal{H}_\mathrm{bdry}$.
翻訳日:2023-07-20 17:56:01 公開日:2023-07-19
# 再帰的MWPM復号による表面符号の性能向上

Performance enhancement of surface codes via recursive MWPM decoding ( http://arxiv.org/abs/2212.11632v4 )

ライセンス: Link先を確認
Antonio deMarti iOlius, Josu Etxezarreta Martinez, Patricio Fuentes and Pedro M. Crespo(参考訳) 最小重み完全マッチング(MWPM decoder)は、量子曲面符号の標準的な復号法である。 しかし、バイアスまたは非同一の量子ノイズを受けると、性能が著しく低下する。 本研究では,従来のMWPMデコーダを改良し,与えられた曲面符号の構成量子ビットのバイアス,非均一性,および$X$,$Y$および$Z$の関係を考察する。 再帰的MWPMデコーダ(recursive MWPM decoder)と呼ぶ我々の修正手法は、偏極雑音下での確率閾値$p_{th}$の18 %$の改善が得られる。 また、偏りのあるノイズや、最先端の量子プロセッサで実施した測定結果から導かれた独立な非同定分散(ni.d.)誤差モデルを考えると、性能が大幅に向上する。 事実 i.ni.d.の対象となると ノイズ、再帰的なMWPMデコーダは従来のMWPM戦略よりも105.5\%の性能向上をもたらし、場合によってはよく知られた脱分極チャネルよりも性能を上回っている。

The minimum weight perfect matching (MWPM) decoder is the standard decoding strategy for quantum surface codes. However, it suffers a harsh decrease in performance when subjected to biased or non-identical quantum noise. In this work, we modify the conventional MWPM decoder so that it considers the biases, the non-uniformities and the relationship between $X$, $Y$ and $Z$ errors of the constituent qubits of a given surface code. Our modified approach, which we refer to as the recursive MWPM decoder, obtains an $18\%$ improvement in the probability threshold $p_{th}$ under depolarizing noise. We also obtain significant performance improvements when considering biased noise and independent non-identically distributed (i.ni.d.) error models derived from measurements performed on state-of-the-art quantum processors. In fact, when subjected to i.ni.d. noise, the recursive MWPM decoder yields a performance improvement of $105.5\%$ over the conventional MWPM strategy and, in some cases, it even surpasses the performance obtained over the well-known depolarizing channel.
翻訳日:2023-07-20 17:55:22 公開日:2023-07-19
# 量子リピータ:量子ネットワークから量子インターネットへ

Quantum repeaters: From quantum networks to the quantum internet ( http://arxiv.org/abs/2212.10820v2 )

ライセンス: Link先を確認
Koji Azuma, Sophia E. Economou, David Elkouss, Paul Hilaire, Liang Jiang, Hoi-Kwong Lo, Ilan Tzitrin(参考訳) 量子インターネットは、量子情報処理の聖杯であり、幅広い量子技術とプロトコルを世界規模で展開することができる。 しかし、量子インターネットが現実になる前には、多くの課題が存在する。 おそらく最も重要なのは、量子情報の長距離伝送において重要な構成要素である量子リピータの実現である。 古典的なリピータ、拡張器、ブースターのアナログとして、量子リピータは量子ネットワークを構成する量子チャネルの損失とノイズを克服する働きをする。 本稿では,量子リピータの概念的フレームワークとアーキテクチャ,およびその実現に向けた実験的進歩について述べる。 また、ポイントツーポイント量子通信によって設定される通信レートの限界を克服するための様々な短期的提案についても論じる。 最後に、量子リピータが量子インターネットの設計と実装という幅広い課題にどのように適合するかを概観する。

A quantum internet is the holy grail of quantum information processing, enabling the deployment of a broad range of quantum technologies and protocols on a global scale. However, numerous challenges exist before the quantum internet can become a reality. Perhaps the most crucial of these is the realization of a quantum repeater, an essential component in the long-distance transmission of quantum information. As the analog of a classical repeater, extender, or booster, the quantum repeater works to overcome loss and noise in the quantum channels comprising a quantum network. Here, we review the conceptual frameworks and architectures for quantum repeaters, as well as the experimental progress towards their realization. We also discuss the various near-term proposals to overcome the limits to the communication rates set by point-to-point quantum communication. Finally, we overview how quantum repeaters fit within the broader challenge of designing and implementing a quantum internet.
翻訳日:2023-07-20 17:55:00 公開日:2023-07-19
# Lego-MT:多言語機械翻訳のための分離可能なモデルを学ぶ

Lego-MT: Learning Detachable Models for Massively Multilingual Machine Translation ( http://arxiv.org/abs/2212.10551v3 )

ライセンス: Link先を確認
Fei Yuan, Yinquan Lu, WenHao Zhu, Lingpeng Kong, Lei Li, Yu Qiao, Jingjing Xu(参考訳) 多言語ニューラルマシン翻訳(MNMT)は、多くの言語方向の統一モデルを構築することを目的としている。 MNMTの既存のモノリシックモデルは、言語間のパラメータ干渉と大規模モデルの非効率的な推論という2つの課題に直面する。 本稿では,従来のマルチウェイ構造を再検討し,各言語(あるいは言語群)をプラグ・アンド・プレイのトレーニングと推論をサポートする個々のブランチに割り当てることで,分離可能なモデルを開発する。 統一空間における全ての言語に対する学習表現の必要性に対処するために,我々は,効果的な分離可能なモデルであるLego-MTを構築した,新しい効率的なトレーニングレシピを提案する。 公平な比較のために,OPUSからデータを収集し,433言語と1.3B並列データを対象とした翻訳ベンチマークを構築した。 実験の結果、1.2BパラメータのLego-MTでは平均3.2spBLEUが得られた。 さらに12BパラメータでM2M-100を上回ります。 提案されたトレーニングレシピは、従来のマルチウェイトレーニングメソッドよりも28.2$\times$のスピードアップを提供する。 詳細はhttps://github.com/cone-mt/lego-mt}を参照。 }

Multilingual neural machine translation (MNMT) aims to build a unified model for many language directions. Existing monolithic models for MNMT encounter two challenges: parameter interference among languages and inefficient inference for large models. In this paper, we revisit the classic multi-way structures and develop a detachable model by assigning each language (or group of languages) to an individual branch that supports plug-and-play training and inference. To address the needs of learning representations for all languages in a unified space, we propose a novel efficient training recipe, upon which we build an effective detachable model, Lego-MT. For a fair comparison, we collect data from OPUS and build a translation benchmark covering 433 languages and 1.3B parallel data. Experiments show that Lego-MT with 1.2B parameters brings an average gain of 3.2 spBLEU. It even outperforms M2M-100 with 12B parameters. The proposed training recipe brings a 28.2$\times$ speedup over the conventional multi-way training method.\footnote{ \url{https://github.com/CONE-MT/Lego-MT}.}
翻訳日:2023-07-20 17:54:45 公開日:2023-07-19
# シークエンシャルカーネル化独立試験

Sequential Kernelized Independence Testing ( http://arxiv.org/abs/2212.07383v3 )

ライセンス: Link先を確認
Aleksandr Podkopaev, Patrick Bl\"obaum, Shiva Prasad Kasiviswanathan, Aaditya Ramdas(参考訳) 独立性テストは古典的な統計問題であり、データを集める前にサンプルサイズを修正する際にバッチ設定で広く研究されている。 しかし、実践者は事前にサンプルサイズを設定するのではなく、手前の問題の複雑さに適応する手順を好むことが多い。 理想的には、そのような手続きは (a) 簡単なタスク(後に難しいタスク)を早めに停止することで、利用可能なリソースをより活用し、 b) 偽警報率を制御しつつ, データを継続的に監視し, 新たなデータ収集後の統計的証拠を効率的に活用する。 古典的なバッチテストはストリーミングデータ用に調整されていない。 データピーキング後の正当な推論には、低消費電力となる複数のテストの修正が必要である。 ベッティングによるテストの原則に従って,このような欠点を克服する逐次的カーネル化独立テストを設計する。 我々は、カーネル化された依存度尺度、例えばヒルベルト・シュミット独立基準にインスパイアされた賭けを用いて、我々の幅広い枠組みを例示する。 私たちのテストは、非i.d.の時間変化設定でも有効です。 シミュレーションデータと実データの両方において,我々のアプローチのパワーを実証する。

Independence testing is a classical statistical problem that has been extensively studied in the batch setting when one fixes the sample size before collecting data. However, practitioners often prefer procedures that adapt to the complexity of a problem at hand instead of setting sample size in advance. Ideally, such procedures should (a) stop earlier on easy tasks (and later on harder tasks), hence making better use of available resources, and (b) continuously monitor the data and efficiently incorporate statistical evidence after collecting new data, while controlling the false alarm rate. Classical batch tests are not tailored for streaming data: valid inference after data peeking requires correcting for multiple testing which results in low power. Following the principle of testing by betting, we design sequential kernelized independence tests that overcome such shortcomings. We exemplify our broad framework using bets inspired by kernelized dependence measures, e.g., the Hilbert-Schmidt independence criterion. Our test is also valid under non-i.i.d., time-varying settings. We demonstrate the power of our approaches on both simulated and real data.
翻訳日:2023-07-20 17:54:27 公開日:2023-07-19
# API-Miner: API-to-API仕様推奨エンジン

API-Miner: an API-to-API Specification Recommendation Engine ( http://arxiv.org/abs/2212.07253v2 )

ライセンス: Link先を確認
Sae Young Moon, Gregor Kerr, Fran Silavong, Sean Moran(参考訳) 大規模なプロジェクトのための新しいAPIを設計する場合、開発者はコードベースが持続的に成長できるように、スマートな設計選択をする必要がある。 新しいAPIコンポーネントが適切に設計されていることを保証するため、開発者は既存のAPIコンポーネントから学ぶことができる。 しかし、API設計を比較するための標準化された方法がないため、この学習プロセスは時間がかかり、困難である。 このギャップに対処するため、私たちの知る限り、API-to-API仕様推奨エンジンの1つとして、API-Minerを開発しました。 API-MinerはOpenAPI(Web APIを記述するために広く採用されている言語)で記述された関連する仕様コンポーネントを検索する。 API-minerは,(1)OpenAPI仕様からキー情報を処理および抽出する新しい手法,(2)高度に技術的に最適化された特徴抽出技術,(3)クエリ仕様が与えられた関連性および高品質なOpenAPI仕様コンポーネントを検索するために複数の信号を組み合わせた新しいログ線形確率モデルなど,いくつかの重要なコントリビューションを提示する。 定量的および質的タスクの両方においてapi-minerを評価し,総計91.7%のrecall@1と56.2%のf1を達成し,re recall@1では15.4%,f1では3.2%のベースライン性能を上回った。 API-Minerによって、開発者はAPI開発サイクルの初期段階で、パブリックまたは内部データベースから関連するOpenAPI仕様コンポーネントを取得できるようになる。 開発者が開発プロセスを加速し、コードの保守性と品質を促進するようにデザインされたapiを提供するためのガイダンスを提供する。 コードはgithubのhttps://github.com/jpmorganchase/api-minerで入手できる。

When designing a new API for a large project, developers need to make smart design choices so that their code base can grow sustainably. To ensure that new API components are well designed, developers can learn from existing API components. However, the lack of standardized methods for comparing API designs makes this learning process time-consuming and difficult. To address this gap we developed API-Miner, to the best of our knowledge, one of the first API-to-API specification recommendation engines. API-Miner retrieves relevant specification components written in OpenAPI (a widely adopted language used to describe web APIs). API-miner presents several significant contributions, including: (1) novel methods of processing and extracting key information from OpenAPI specifications, (2) innovative feature extraction techniques that are optimized for the highly technical API specification domain, and (3) a novel log-linear probabilistic model that combines multiple signals to retrieve relevant and high quality OpenAPI specification components given a query specification. We evaluate API-Miner in both quantitative and qualitative tasks and achieve an overall of 91.7% recall@1 and 56.2% F1, which surpasses baseline performance by 15.4% in recall@1 and 3.2% in F1. Overall, API-Miner will allow developers to retrieve relevant OpenAPI specification components from a public or internal database in the early stages of the API development cycle, so that they can learn from existing established examples and potentially identify redundancies in their work. It provides the guidance developers need to accelerate development process and contribute thoughtfully designed APIs that promote code maintainability and quality. Code is available on GitHub at https://github.com/jpmorganchase/api-miner.
翻訳日:2023-07-20 17:54:07 公開日:2023-07-19
# スケルトンに基づく行動認識における時空間依存性の活用

Leveraging Spatio-Temporal Dependency for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2212.04761v2 )

ライセンス: Link先を確認
Jungho Lee, Minhyeok Lee, Suhwan Cho, Sungmin Woo, Sungjun Jang, and Sangyoun Lee(参考訳) スケルトンに基づく行動認識は、人体の骨格筋のコンパクトな表現のためにかなりの注目を集めている。 近年,グラフ畳み込みネットワーク (gcns) と畳み込みニューラルネットワーク (cnns) を用いて,空間的特徴と時間的特徴をそれぞれ抽出する手法が注目されている。 ヒト骨格の空間的および時間的依存関係は別々に検討されているが、時空間依存性はまれである。 本稿では,ヒト骨格の時空間依存性を効果的に活用するための時空間曲線ネットワーク(stc-net)を提案する。 提案するネットワークは2つの新しい要素からなる。 1)時空間曲線(STC)モジュール及び 2) グラフ畳み込み (DK-GC) のための拡張カーネル。 stcモジュールは、隣接する各フレーム間の有意義なノード接続を特定し、識別されたノード接続に基づいて時空間曲線を生成し、適応時空間カバレッジを提供することにより、受容フィールドを動的に調整する。 さらに, グラフの隣接行列に拡張カーネルを適用することにより, 余分なパラメータを伴わずに大きな受容場が得られるような長距離依存を考慮したDK-GCを提案する。 STC-Netはこれらの2つのモジュールを組み合わせて、4つのスケルトンに基づく行動認識ベンチマークで最先端のパフォーマンスを実現する。

Skeleton-based action recognition has attracted considerable attention due to its compact representation of the human body's skeletal sructure. Many recent methods have achieved remarkable performance using graph convolutional networks (GCNs) and convolutional neural networks (CNNs), which extract spatial and temporal features, respectively. Although spatial and temporal dependencies in the human skeleton have been explored separately, spatio-temporal dependency is rarely considered. In this paper, we propose the Spatio-Temporal Curve Network (STC-Net) to effectively leverage the spatio-temporal dependency of the human skeleton. Our proposed network consists of two novel elements: 1) The Spatio-Temporal Curve (STC) module; and 2) Dilated Kernels for Graph Convolution (DK-GC). The STC module dynamically adjusts the receptive field by identifying meaningful node connections between every adjacent frame and generating spatio-temporal curves based on the identified node connections, providing an adaptive spatio-temporal coverage. In addition, we propose DK-GC to consider long-range dependencies, which results in a large receptive field without any additional parameters by applying an extended kernel to the given adjacency matrices of the graph. Our STC-Net combines these two modules and achieves state-of-the-art performance on four skeleton-based action recognition benchmarks.
翻訳日:2023-07-20 17:53:16 公開日:2023-07-19
# ホモダイン測定, ノイズ, スクイージングによる量子同期の強化

Enhancing quantum synchronization through homodyne measurement, noise and squeezing ( http://arxiv.org/abs/2302.13465v2 )

ライセンス: Link先を確認
Yuan Shen, Hong Yi Soh, Weijun Fan, Leong-Chuan Kwek(参考訳) 量子同期は量子非線形力学において中心的なトピックである。 この分野の急速な発展にもかかわらず、効率的に同期を促進させる方法の研究はごくわずかである。 ホモモジン測定は、この課題に成功する候補の1つとして現れるが、好ましくは半古典的状態にある。 本研究では,高調波駆動量子スチュアート・ランダウ振動子の位相同期に着目し,ホモダイン測定によるエンハンスメントが量子レジームに持続することを示す。 興味深いことに、発振器と駆動が共振し、単一光子減衰速度が小さい場合に最適な2光子減衰速度が存在する。 また、単一光子減衰速度が十分に大きい場合、ノイズによる量子同期の強化も報告する。 これらの結果とは別に、特に半古典的状態において、スキーズするハミルトニアンを加えることで、さらに同期が促進されることが分かる。 さらに、スクイージングの添加により、最適な2光子励起速度がシフトし収束する。

Quantum synchronization has been a central topic in quantum nonlinear dynamics. Despite rapid development in this field, very few have studied how to efficiently boost synchronization. Homodyne measurement emerges as one of the successful candidates for this task, but preferably in the semi-classical regime. In our work, we focus on the phase synchronization of a harmonic-driven quantum Stuart-Landau oscillator, and show that the enhancement induced by homodyne measurement persists into the quantum regime. Interestingly, optimal two-photon damping rates exist when the oscillator and driving are at resonance and with a small single-photon damping rate. We also report noise-induced enhancement in quantum synchronization when the single-photon damping rate is sufficiently large. Apart from these results, we discover that adding a squeezing Hamiltonian can further boost synchronization, especially in the semi-classical regime. Furthermore, the addition of squeezing causes the optimal two-photon pumping rates to shift and converge.
翻訳日:2023-07-20 17:45:48 公開日:2023-07-19
# 長距離系におけるヒルベルト空間のフラグメンテーション

Hilbert space fragmentation in a long-range system ( http://arxiv.org/abs/2302.11680v2 )

ライセンス: Link先を確認
Gianluca Francica, Luca Dell'Anna(参考訳) 一般化フレドキンスピン鎖を記述するスピン1/2多体ハミルトニアンを考慮したヒルベルト空間のフラグメンテーションと多体スカー状態における相互作用範囲の役割について検討した。 ヒルベルト空間の傷跡状態と弱い断片化は、ほぼあらゆる範囲のカップリングに対して生存することを示している。 最後に、ヒルベルト空間のそのような構造が、磁化の局所的持続的振動または非一様定常プロファイルによって特徴づけられる特定の初期状態によって引き起こされる平衡外ダイナミクスに与える影響について検討する。

We study the role of the interaction range on the Hilbert space fragmentation and many-body scar states considering a spin-1/2 many-body Hamiltonian describing a generalized Fredkin spin chain. We show that both scar states and weak fragmentation of the Hilbert space survive for almost any range of the coupling. Finally we investigate the effects of such structures of the Hilbert space on the out-of-equilibrium dynamics, triggered by certain initial states, characterized by either local persistent oscillations or non-uniform stationary profile of the magnetization.
翻訳日:2023-07-20 17:45:30 公開日:2023-07-19
# AlpaServe:Deep Learning Servingのためのモデル並列処理を用いた統計的多重化

AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving ( http://arxiv.org/abs/2302.11665v2 )

ライセンス: Link先を確認
Zhuohan Li, Lianmin Zheng, Yinmin Zhong, Vincent Liu, Ying Sheng, Xin Jin, Yanping Huang, Zhifeng Chen, Hao Zhang, Joseph E. Gonzalez, Ion Stoica(参考訳) モデル並列性は、従来、単一のデバイスのメモリ制限を超えて単一の大きなディープラーニングモデルをスケールする方法と見なされている。 本論文では,1つのモデルが1つのデバイスに収まる場合であっても,複数のモデルを提供する場合,複数のデバイスの統計多重化にモデル並列性を付加することができることを示す。 我々の研究は、モデル並列化によって導入されたオーバーヘッドと、バーストのあるワークロードの存在下でのサービスレイテンシを低減するために統計的多重化を利用する機会との根本的なトレードオフを明らかにします。 我々は,新たなトレードオフ空間を探求し,分散クラスタ全体にわたる大規模ディープラーニングモデルのコレクションを配置および並列化する効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。 運用ワークロードの評価結果によると、AlpaServeはリクエストを最大10倍高いレートで処理でき、また、99%以上のリクエストでレイテンシ制約内に留まることができる。

Model parallelism is conventionally viewed as a method to scale a single large deep learning model beyond the memory limits of a single device. In this paper, we demonstrate that model parallelism can be additionally used for the statistical multiplexing of multiple devices when serving multiple models, even when a single model can fit into a single device. Our work reveals a fundamental trade-off between the overhead introduced by model parallelism and the opportunity to exploit statistical multiplexing to reduce serving latency in the presence of bursty workloads. We explore the new trade-off space and present a novel serving system, AlpaServe, that determines an efficient strategy for placing and parallelizing collections of large deep learning models across a distributed cluster. Evaluation results on production workloads show that AlpaServe can process requests at up to 10x higher rates or 6x more burstiness while staying within latency constraints for more than 99% of requests.
翻訳日:2023-07-20 17:45:20 公開日:2023-07-19
# 説明可能なAIにおけるメタ評価問題:MetaQuantusを用いた信頼度推定器の同定

The Meta-Evaluation Problem in Explainable AI: Identifying Reliable Estimators with MetaQuantus ( http://arxiv.org/abs/2302.07265v2 )

ライセンス: Link先を確認
Anna Hedstr\"om, Philine Bommer, Kristoffer K. Wickstr{\o}m, Wojciech Samek, Sebastian Lapuschkin, Marina M.-C. H\"ohne(参考訳) 説明可能なAI(XAI)分野における未解決課題の1つは、基底真理説明ラベルがない場合に、説明方法の品質を最も確実に見積もる方法を決定することである。 説明方法の同一性を測定することを目的とした競合する評価方法(すなわち「品質評価者」)によって生じる評価結果が、しばしば相反するランキングを示すため、この問題を解決することは極めて重要である。 このような意見の相違は、実践者が解釈することが困難なため、最も優れた説明方法を選択する能力が複雑になる可能性がある。 我々は,XAIにおける品質評価のメタ評価を通じてこの問題に対処し,「評価方法の評価プロセス」と定義する。 提案手法であるmetaquantusは,ノイズに対するレジリエンスとランダム性に対する反応性の2つの相補的性能特性を解析し,基底真理ラベルの必要性を回避した。 我々は,品質推定器の選択やハイパーパラメータ最適化など,XAIにおける様々なオープンな質問を対象とする一連の実験を通じて,フレームワークの有効性を実証する。 私たちの研究はオープンソースライセンス(https://github.com/annahedstroem/metaquantus)でリリースされ、xai-および機械学習(ml)実践者の開発ツールとして、所定の説明可能性コンテキストで新しく構築された品質推定器を検証およびベンチマークします。 そこで本研究では,信頼度の高い評価方法を見極めるための明確かつ理論的に根拠のあるガイダンスをコミュニティに提供し,再現性を高める。

One of the unsolved challenges in the field of Explainable AI (XAI) is determining how to most reliably estimate the quality of an explanation method in the absence of ground truth explanation labels. Resolving this issue is of utmost importance as the evaluation outcomes generated by competing evaluation methods (or ''quality estimators''), which aim at measuring the same property of an explanation method, frequently present conflicting rankings. Such disagreements can be challenging for practitioners to interpret, thereby complicating their ability to select the best-performing explanation method. We address this problem through a meta-evaluation of different quality estimators in XAI, which we define as ''the process of evaluating the evaluation method''. Our novel framework, MetaQuantus, analyses two complementary performance characteristics of a quality estimator: its resilience to noise and reactivity to randomness, thus circumventing the need for ground truth labels. We demonstrate the effectiveness of our framework through a series of experiments, targeting various open questions in XAI such as the selection and hyperparameter optimisation of quality estimators. Our work is released under an open-source license (https://github.com/annahedstroem/MetaQuantus) to serve as a development tool for XAI- and Machine Learning (ML) practitioners to verify and benchmark newly constructed quality estimators in a given explainability context. With this work, we provide the community with clear and theoretically-grounded guidance for identifying reliable evaluation methods, thus facilitating reproducibility in the field.
翻訳日:2023-07-20 17:45:03 公開日:2023-07-19
# ConCerNet: 自動保存法発見と信頼できる動的システム予測のためのコントラスト学習ベースのフレームワーク

ConCerNet: A Contrastive Learning Based Framework for Automated Conservation Law Discovery and Trustworthy Dynamical System Prediction ( http://arxiv.org/abs/2302.05783v4 )

ライセンス: Link先を確認
Wang Zhang, Tsui-Wei Weng, Subhro Das, Alexandre Megretski, Luca Daniel, Lam M. Nguyen(参考訳) ディープ・ニューラル・ネットワーク(dnn)は力学系をモデル化する能力が非常に高いが、保存則などの物理学上の制約に従わない。 本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。 ConCerNetは2つのステップから構成される。 一 軌跡観察に沿ったシステム不変量(すなわち保存特性)を自動的に把握するための対照的な学習方法 (ii)学習力学モデルが学習不変量を保存することを保証するための神経投射層。 理論的には、学習した潜在表現と未知系の不変関数との関数関係を証明している。 実験の結果,提案手法は座標誤差と保存量の両方において,ベースラインニューラルネットワークよりも高い性能を示すことがわかった。 ニューラルネットワークに基づくパラメータ化と事前知識に依存しないので、オートエンコーダを利用することで、我々の手法は複雑で大規模に動的に拡張できる。

Deep neural networks (DNN) have shown great capacity of modeling a dynamical system; nevertheless, they usually do not obey physics constraints such as conservation laws. This paper proposes a new learning framework named ConCerNet to improve the trustworthiness of the DNN based dynamics modeling to endow the invariant properties. ConCerNet consists of two steps: (i) a contrastive learning method to automatically capture the system invariants (i.e. conservation properties) along the trajectory observations; (ii) a neural projection layer to guarantee that the learned dynamics models preserve the learned invariants. We theoretically prove the functional relationship between the learned latent representation and the unknown system invariant function. Experiments show that our method consistently outperforms the baseline neural networks in both coordinate error and conservation metrics by a large margin. With neural network based parameterization and no dependence on prior knowledge, our method can be extended to complex and large-scale dynamics by leveraging an autoencoder.
翻訳日:2023-07-20 17:44:33 公開日:2023-07-19
# 代替モデルのベイジアン化による逆例の伝達性向上

Making Substitute Models More Bayesian Can Enhance Transferability of Adversarial Examples ( http://arxiv.org/abs/2302.05086v3 )

ライセンス: Link先を確認
Qizhang Li, Yiwen Guo, Wangmeng Zuo, Hao Chen(参考訳) ディープニューラルネットワーク(DNN)にまたがる敵の例の転送可能性は多くのブラックボックス攻撃の欠如である。 代用モデルの入力の多様性を増大させることで、転送可能性の向上に多くの努力が注がれている。 本稿では,代用モデルの多様性を選択し,望ましい転送性を実現するためにベイズモデルを攻撃することを提唱する。 ベイズ方程式の定式化から導かれ,DNNパラメータよりも多くの既成ガウス後部近似と組み合わせることができるファインタニングの原理的戦略を開発した。 本手法の有効性を検証するために,共通ベンチマークデータセットを用いて広範な実験を行い,近年の最先端技術(imagenetにおける攻撃成功率の絶対値の約19%)を上回っており,これらの手法と組み合わせることで,さらなる性能向上が期待できることを示した。 私たちのコード:https://github.com/qizhangli/MoreBayesian- attack。

The transferability of adversarial examples across deep neural networks (DNNs) is the crux of many black-box attacks. Many prior efforts have been devoted to improving the transferability via increasing the diversity in inputs of some substitute models. In this paper, by contrast, we opt for the diversity in substitute models and advocate to attack a Bayesian model for achieving desirable transferability. Deriving from the Bayesian formulation, we develop a principled strategy for possible finetuning, which can be combined with many off-the-shelf Gaussian posterior approximations over DNN parameters. Extensive experiments have been conducted to verify the effectiveness of our method, on common benchmark datasets, and the results demonstrate that our method outperforms recent state-of-the-arts by large margins (roughly 19% absolute increase in average attack success rate on ImageNet), and, by combining with these recent methods, further performance gain can be obtained. Our code: https://github.com/qizhangli/MoreBayesian-attack.
翻訳日:2023-07-20 17:44:18 公開日:2023-07-19
# 複雑構造構築のための階層的レベルジェネレータの構成

Hierarchically Composing Level Generators for the Creation of Complex Structures ( http://arxiv.org/abs/2302.01561v2 )

ライセンス: Link先を確認
Michael Beukman, Manuel Fokam, Marcel Kruger, Guy Axelrod, Muhammad Nasir, Branden Ingram, Benjamin Rosman, Steven James(参考訳) プロシージャコンテンツ生成(PCG)は成長する分野であり、ビデオゲーム業界に多くの応用があり、手作業による作成コストのごく一部でより良いゲームを作成するのに大いに役立つ。 しかし、pcgの作業の多くは、複雑な設定のために最適化可能な客観的関数を設計することが難しいため、単純なゲームで比較的単純なレベルを生成することに集中している。 これはPCGの適用性をより複雑で現代的なタイトルに制限し、業界における採用を妨げる。 本研究の目的は, 簡単な低レベルジェネレータを再帰的に構成し, 大規模かつ複雑な生成を行う構成レベル生成手法を導入することである。 このアプローチは、容易に最適化可能な目的と、低レベルのコンポーネントを参照することで、解釈可能な方法で複雑な構造を設計する能力を可能にする。 提案手法は,複数のタスクにおいて設計者の機能要件をより正確に満たし,非構成ベースラインよりも優れていることを示す。 最後に、簡単なベースジェネレータを用いて生成された、巨大で複雑な、しかしまだ一貫性のある構造を描写した質的なショーケース(Minecraft)を提供する。

Procedural content generation (PCG) is a growing field, with numerous applications in the video game industry and great potential to help create better games at a fraction of the cost of manual creation. However, much of the work in PCG is focused on generating relatively straightforward levels in simple games, as it is challenging to design an optimisable objective function for complex settings. This limits the applicability of PCG to more complex and modern titles, hindering its adoption in industry. Our work aims to address this limitation by introducing a compositional level generation method that recursively composes simple low-level generators to construct large and complex creations. This approach allows for easily-optimisable objectives and the ability to design a complex structure in an interpretable way by referencing lower-level components. We empirically demonstrate that our method outperforms a non-compositional baseline by more accurately satisfying a designer's functional requirements in several tasks. Finally, we provide a qualitative showcase (in Minecraft) illustrating the large and complex, but still coherent, structures that were generated using simple base generators.
翻訳日:2023-07-20 17:43:39 公開日:2023-07-19
# 近藤qed:光に強く結合した2重不純物アンダーソン模型における近藤効果と光子トラップ

Kondo QED: The Kondo effect and photon trapping in a two-impurity Anderson model ultra-strongly coupled to light ( http://arxiv.org/abs/2302.01044v2 )

ライセンス: Link先を確認
Po-Chen Kuo, Neill Lambert, Mauro Cirio, Yi-Te Huang, Franco Nori, Yueh-Nan Chen(参考訳) 近藤効果は強い相関の量子多体物理学の最も研究された例の1つである。 光と物質の間の超強結合は、最近になって詳細に研究され(そして実験的にアクセス可能になった)、強い相関を持つ物理学の別のタイプである。 本稿では,2つの不純物アンダーソンモデルと1つのモード共振器を超強結合した2つの現象を組み合わせた「近藤QED」システムについて検討する。 抽象モデルとして提示されているが、将来のハイブリッドキャビティqedシステムと関係がある。 動きの階層方程式を用いて, 空洞光子と電子状態(不純物)の超強結合は近藤雲の多体相関の破壊による電子近藤共鳴を顕著に抑制することを示した。 我々は,不純物・キャビティサブシステムのエントロピーと相互情報を計算することにより,近藤雲から空洞への相関関係を観測する。 さらに、弱い鉛結合限界とゼロバイアスでは、モデルは不純物-キャビティ相互作用における逆回転項から生じる基底状態光子蓄積効果を示す。 興味深いことに、強い鉛結合限界において、この蓄積は、リードへのハイブリダイゼーションを増加させる際に開く新しい遷移経路によって、'kondo-enhanced'となる。 これは仮想状態から実光子を生成するための新しいメカニズムを示唆する。 さらに,外部ボソニック連続体との相互作用の結果,空洞共鳴の拡充によりコンド効果の抑制が安定であることが示唆された。 本研究は,光と物質の超強結合を用いた近藤qed効果と光子蓄積効果の同時制御への道を開くものである。

The Kondo effect is one of the most studied examples of strongly correlated quantum many-body physics. Another type of strongly correlated physics that has only recently been explored in detail (and become experimentally accessible) is that of ultrastrong coupling between light and matter. Here, we study a system which we denote as "Kondo QED") that combines both phenomena, consisting of a two-impurity Anderson model ultra-strongly coupled to a single-mode cavity. While presented as an abstract model, it is relevant for a range of future hybrid cavity-QED systems. Using the hierarchical equations of motion approach we show that the ultrastrong coupling of cavity photons to the electronic states (impurity) noticeably suppresses the electronic Kondo resonance due to the destruction of many-body correlations of the Kondo cloud. We observe this transfer of correlations from the Kondo cloud to the cavity by computing the entropy and mutual information of the impurity-cavity subsystems. In addition, in the weak lead-coupling limit and at zero-bias, the model exhibits a ground-state photon accumulation effect originating entirely from counter-rotating terms in the impurity-cavity interaction. Interestingly, in the strong lead-coupling limit, this accumulation is ``Kondo-enhanced'' by new transition paths opening when increasing the hybridization to the leads. This suggests a new mechanism for the generation of real photons from virtual states. We further show that the suppression of the Kondo effect is stable under broadening of the cavity resonance as a consequence of the interaction to an external bosonic continuum. Our findings pave the way for the simultaneous control of both the Kondo QED effect and a photon accumulation effect using the ultrastrong coupling of light and matter.
翻訳日:2023-07-20 17:43:20 公開日:2023-07-19
# ThoughtSource: 大規模言語モデル推論のための中心的なハブ

ThoughtSource: A central hub for large language model reasoning data ( http://arxiv.org/abs/2301.11596v3 )

ライセンス: Link先を確認
Simon Ott, Konstantin Hebenstreit, Valentin Li\'evin, Christoffer Egeberg Hother, Milad Moradi, Maximilian Mayrhauser, Robert Praas, Ole Winther, Matthias Samwald(参考訳) GPT-4のような大規模言語モデル(LLM)は、最近、幅広いタスクで印象的な結果を示した。 LLMは依然として制限されているが、複雑な推論でしばしば失敗し、推論プロセスは不透明であり、事実を「幻覚させる」傾向があるため、その根底にあるバイアスには懸念がある。 モデルが推論ステップを自然言語として言語化する手法は、近年、これらの問題に対処する方法として提案されている。 ここでは、思考の連鎖(CoT)推論のためのメタデータおよびソフトウェアライブラリであるThoughtSourceを紹介します。 ThoughtSourceの目標は、CoTの質的理解を促進し、経験的評価を可能にし、トレーニングデータを提供することによって、将来の人工知能システムを改善することである。 ThoughtSourceの最初のリリースでは、6つの科学的/医学的、3つの一般ドメイン、5つの数学語質問応答データセットを統合している。

Large language models (LLMs) such as GPT-4 have recently demonstrated impressive results across a wide range of tasks. LLMs are still limited, however, in that they frequently fail at complex reasoning, their reasoning processes are opaque, they are prone to 'hallucinate' facts, and there are concerns about their underlying biases. Letting models verbalize reasoning steps as natural language, a technique known as chain-of-thought prompting, has recently been proposed as a way to address some of these issues. Here we present ThoughtSource, a meta-dataset and software library for chain-of-thought (CoT) reasoning. The goal of ThoughtSource is to improve future artificial intelligence systems by facilitating qualitative understanding of CoTs, enabling empirical evaluations, and providing training data. This first release of ThoughtSource integrates six scientific/medical, three general-domain and five math word question answering datasets.
翻訳日:2023-07-20 17:42:49 公開日:2023-07-19
# 文脈付き大規模言語モデルによる法的文書の理解

Understand Legal Documents with Contextualized Large Language Models ( http://arxiv.org/abs/2303.12135v4 )

ライセンス: Link先を確認
Xin Jin, Yuchen Wang(参考訳) インドなど、人口の多い国における未解決の訴訟の成長は大きな問題となっている。 法律文書の処理・理解に有効な手法を開発することは,この問題の解決に極めて有用である。 本稿では,SemEval-2023タスク6における法文理解システムについて述べる(Modi et al., 2023)。 具体的には、まず、文内と文間の両方の包括的文脈情報を考察し、修辞的役割(サブタスクA)を予測する法-BERT-HSLNモデルを開発し、法-コンテキスト化およびエンティティ認識の法-LUKEモデルを訓練し、法的実体(サブタスクB)を認識する。 私たちの設計モデルはベースラインよりも正確であること,例えばサブタスクBでは15.0%,タスクリーダボードでは0.834マイクロF1スコア,サブタスクAでは27チーム中5位など,優れたパフォーマンスを実現しています。

The growth of pending legal cases in populous countries, such as India, has become a major issue. Developing effective techniques to process and understand legal documents is extremely useful in resolving this problem. In this paper, we present our systems for SemEval-2023 Task 6: understanding legal texts (Modi et al., 2023). Specifically, we first develop the Legal-BERT-HSLN model that considers the comprehensive context information in both intra- and inter-sentence levels to predict rhetorical roles (subtask A) and then train a Legal-LUKE model, which is legal-contextualized and entity-aware, to recognize legal entities (subtask B). Our evaluations demonstrate that our designed models are more accurate than baselines, e.g., with an up to 15.0% better F1 score in subtask B. We achieved notable performance in the task leaderboard, e.g., 0.834 micro F1 score, and ranked No.5 out of 27 teams in subtask A.
翻訳日:2023-07-20 17:37:25 公開日:2023-07-19
# 仮説テストによる量子チャネルの回復可能性

Recoverability of quantum channels via hypothesis testing ( http://arxiv.org/abs/2303.11707v2 )

ライセンス: Link先を確認
Anna Jen\v{c}ov\'a(参考訳) 量子チャネルは、入力状態の集合に対して十分であり、この集合上で反転できるなら十分である。 近似バージョンでは、入力状態はチャネル下の相対エントロピーの減少によって境界付けられた誤差内で回復することができる。 arXiv:2208.12194における相対エントロピーの新たな積分表現を用いて、仮説テスト問題における最適成功確率の保存による十分な量子チャネルのキャラクタリゼーションと回復可能性の簡易な証明を、等価に$L_1$-距離の保存により提示する。

A quantum channel is sufficient with respect to a set of input states if it can be reversed on this set. In the approximate version, the input states can be recovered within an error bounded by the decrease of the relative entropy under the channel. Using a new integral representation of the relative entropy in arXiv:2208.12194, we present an easy proof of a characterization of sufficient quantum channels and recoverability by preservation of optimal success probabilities in hypothesis testing problems, equivalently, by preservation of $L_1$-distance.
翻訳日:2023-07-20 17:37:05 公開日:2023-07-19
# Sionna RT:ラジオ伝搬モデリングのための微分可能なレイトレーシング

Sionna RT: Differentiable Ray Tracing for Radio Propagation Modeling ( http://arxiv.org/abs/2303.11103v2 )

ライセンス: Link先を確認
Jakob Hoydis, Fay\c{c}al A\"it Aoudia, Sebastian Cammerer, Merlin Nimier-David, Nikolaus Binder, Guillermo Marcus, Alexander Keller(参考訳) Sionnaは、TensorFlowに基づいたリンクレベルのシミュレーションのための、GPUアクセラレーションされたオープンソースライブラリである。 リリースv0.14以降、電波伝搬のシミュレーションのために微分可能なレイトレーサ(rt)を統合する。 このユニークな特徴は、多くのシステムおよび環境パラメータ、例えば、材料特性、アンテナパターン、アレイジオメトリ、および送信機および受信機方位および位置に関する、チャネルインパルス応答およびその他の関連量の勾配の計算を可能にする。 本稿では,sionna rtの構成要素を概説し,無線教材の学習や勾配降下による送信方向の最適化といった応用例を示す。 古典的レイトレーシングは、再構成可能なインテリジェントサーフェス、統合されたセンシングと通信、ユーザのローカライゼーションといった6G研究トピックにとって重要なツールである一方、差別化可能なレイトレーシングは、デジタルツインなど、多くの斬新でエキサイティングな研究方向性の鍵となる。

Sionna is a GPU-accelerated open-source library for link-level simulations based on TensorFlow. Since release v0.14 it integrates a differentiable ray tracer (RT) for the simulation of radio wave propagation. This unique feature allows for the computation of gradients of the channel impulse response and other related quantities with respect to many system and environment parameters, such as material properties, antenna patterns, array geometries, as well as transmitter and receiver orientations and positions. In this paper, we outline the key components of Sionna RT and showcase example applications such as learning radio materials and optimizing transmitter orientations by gradient descent. While classic ray tracing is a crucial tool for 6G research topics like reconfigurable intelligent surfaces, integrated sensing and communications, as well as user localization, differentiable ray tracing is a key enabler for many novel and exciting research directions, for example, digital twins.
翻訳日:2023-07-20 17:36:55 公開日:2023-07-19
# deep convolutional neural network based artifact reductionによるsparse-view ctによる出血自動検出の改善

Improving Automated Hemorrhage Detection in Sparse-view Computed Tomography via Deep Convolutional Neural Network based Artifact Reduction ( http://arxiv.org/abs/2303.09340v2 )

ライセンス: Link先を確認
Johannes Thalhammer, Manuel Schultheiss, Tina Dorosti, Tobias Lasser, Franz Pfeiffer, Daniela Pfeiffer, Florian Schaff(参考訳) 目的:スパース・ビュー・コンピュート・トモグラフィー(CT)は,画像品質を犠牲にして取得したビューの総数を減らし,疾患検出能力に影響を及ぼす効果のある方法である。 スパース・ビュー脳CTにおける深層学習に基づくアーティファクトの低減とその自動出血検出への影響について検討する。 方法: パブリックデータセットから得られた3000例のスパース・ビュー頭蓋骨CTで, 各種サブサンプリングで再建したアーティファクト削減のためのU-Netを訓練した。 さらに, 自動出血検出のために17,545例のCTデータから畳み込みニューラルネットワークを訓練した。 95%信頼区間(cis)とdelong testに対応する受信者特性曲線(auc-rocs)の領域と混乱行列を用いた分類性能の評価を行った。 u-netの性能は,total variation (tv) に基づく解析手法と比較した。 結果: u-netは未処理画像やテレビ処理画像と比較して画像品質や出血診断の自動化に優れていた。 U-Net後処理では、ビューの数は4096ビュー(AUC-ROC: 0.974; 95% CI: 0.972-0.976)から512ビュー(0.973; 0.971-0.975)に減少し、出血検出の最小値(P<.001)と256ビュー(0.967; 0.964-0.969)に減少する。 結論: u-net によるアーティファクトの削減は sparse-view 頭蓋ct の出血検出を大幅に改善することが示唆された。 本研究は,放射線線量を最小限に抑えつつ,最適な画像品質と診断精度に適切な後処理が不可欠であることを示す。

Purpose: Sparse-view computed tomography (CT) is an effective way to reduce dose by lowering the total number of views acquired, albeit at the expense of image quality, which, in turn, can impact the ability to detect diseases. We explore deep learning-based artifact reduction in sparse-view cranial CT scans and its impact on automated hemorrhage detection. Methods: We trained a U-Net for artefact reduction on simulated sparse-view cranial CT scans from 3000 patients obtained from a public dataset and reconstructed with varying levels of sub-sampling. Additionally, we trained a convolutional neural network on fully sampled CT data from 17,545 patients for automated hemorrhage detection. We evaluated the classification performance using the area under the receiver operator characteristic curves (AUC-ROCs) with corresponding 95% confidence intervals (CIs) and the DeLong test, along with confusion matrices. The performance of the U-Net was compared to an analytical approach based on total variation (TV). Results: The U-Net performed superior compared to unprocessed and TV-processed images with respect to image quality and automated hemorrhage diagnosis. With U-Net post-processing, the number of views can be reduced from 4096 (AUC-ROC: 0.974; 95% CI: 0.972-0.976) views to 512 views (0.973; 0.971-0.975) with minimal decrease in hemorrhage detection (P<.001) and to 256 views (0.967; 0.964-0.969) with a slight performance decrease (P<.001). Conclusion: The results suggest that U-Net based artifact reduction substantially enhances automated hemorrhage detection in sparse-view cranial CTs. Our findings highlight that appropriate post-processing is crucial for optimal image quality and diagnostic accuracy while minimizing radiation dose.
翻訳日:2023-07-20 17:36:36 公開日:2023-07-19
# MELON:SOにおける画像が未表示のNeRF(3)

MELON: NeRF with Unposed Images in SO(3) ( http://arxiv.org/abs/2303.08096v2 )

ライセンス: Link先を確認
Axel Levy, Mark Matthews, Matan Sela, Gordon Wetzstein, Dmitry Lagun(参考訳) ニューラル・ラディアンス・フィールドは、いくつかの画像から写実的な画質で新規なビュー合成とシーン再構築を可能にするが、既知の正確なカメラポーズを必要とする。 従来のポーズ推定アルゴリズムは、滑らかまたは自己類似のシーンでは失敗するが、不適切なビューから逆レンダリングを行うには、カメラの向きを粗い初期化する必要がある。 ポーズ推定の主な難しさは、ある変換の下ではほとんど不変であり、カメラパラメータに関してレンダリングされたビュー間の光度距離を非凸にすることである。 カメラ空間における局所最小値の分布に一致する同値関係を用いて、この空間を商集合に還元し、ポーズ推定がより凸問題となる。 ニューラルネットワークを用いてポーズ推定を正則化することにより,提案手法であるmelonが,最先端の精度で画像からニューラルネットワークの放射場を再構築し,逆のアプローチに比べて10倍のビューを要できることを実証した。

Neural radiance fields enable novel-view synthesis and scene reconstruction with photorealistic quality from a few images, but require known and accurate camera poses. Conventional pose estimation algorithms fail on smooth or self-similar scenes, while methods performing inverse rendering from unposed views require a rough initialization of the camera orientations. The main difficulty of pose estimation lies in real-life objects being almost invariant under certain transformations, making the photometric distance between rendered views non-convex with respect to the camera parameters. Using an equivalence relation that matches the distribution of local minima in camera space, we reduce this space to its quotient set, in which pose estimation becomes a more convex problem. Using a neural-network to regularize pose estimation, we demonstrate that our method - MELON - can reconstruct a neural radiance field from unposed images with state-of-the-art accuracy while requiring ten times fewer views than adversarial approaches.
翻訳日:2023-07-20 17:35:53 公開日:2023-07-19
# 解釈可能な画像分類のためのスキーマ推論

Schema Inference for Interpretable Image Classification ( http://arxiv.org/abs/2303.06635v2 )

ライセンス: Link先を確認
Haofei Zhang, Mengqi Xue, Xiaokang Liu, Kaixuan Chen, Jie Song, Mingli Song(参考訳) 本稿では,事前深層ニューラルネットワーク(dnn)フォワーディングスキームを再構築することにより,説明可能な予測を推論することを学ぶ,スキーマ推論(schema inference)と呼ばれる新しい推論パラダイムについて検討する。 従来のモデル推論パイプラインを、画像の抽出された視覚概念と予め計算されたシーン印象を関連付けるグラフマッチングポリシーに再構成し、印象マッチングによる人間の推論機構を例示する。 この目的のために、我々は、入力インスタンスの視覚的意味論と対象カテゴリの学習された抽象的想像をトポロジカルな関係グラフとしてモデル化する、提案するスキーマ推論概念の専用インスタンスとして、schemanetと呼ばれる精巧なアーキテクチャを考案する。 一方,視覚セマンティクスの構成的貢献をグローバルに捉え,活用するために,豊富なインタラクション情報を含むリレーショナルグラフを確立するために,schemanet の universal feat2graph スキームも導入する。 いくつかのベンチマークにおける理論解析と実験結果の両方が、提案するスキーマ推論が促進性能を達成し、一方、予測に繋がる帰納的過程を明確に示していることを示している。 私たちのコードはhttps://github.com/zhfeing/SchemaNet-PyTorch.comから入手可能です。

In this paper, we study a novel inference paradigm, termed as schema inference, that learns to deductively infer the explainable predictions by rebuilding the prior deep neural network (DNN) forwarding scheme, guided by the prevalent philosophical cognitive concept of schema. We strive to reformulate the conventional model inference pipeline into a graph matching policy that associates the extracted visual concepts of an image with the pre-computed scene impression, by analogy with human reasoning mechanism via impression matching. To this end, we devise an elaborated architecture, termed as SchemaNet, as a dedicated instantiation of the proposed schema inference concept, that models both the visual semantics of input instances and the learned abstract imaginations of target categories as topological relational graphs. Meanwhile, to capture and leverage the compositional contributions of visual semantics in a global view, we also introduce a universal Feat2Graph scheme in SchemaNet to establish the relational graphs that contain abundant interaction information. Both the theoretical analysis and the experimental results on several benchmarks demonstrate that the proposed schema inference achieves encouraging performance and meanwhile yields a clear picture of the deductive process leading to the predictions. Our code is available at https://github.com/zhfeing/SchemaNet-PyTorch.
翻訳日:2023-07-20 17:35:33 公開日:2023-07-19
# ランダム特徴伝播によるグラフ位置符号化

Graph Positional Encoding via Random Feature Propagation ( http://arxiv.org/abs/2303.02918v3 )

ライセンス: Link先を確認
Moshe Eliasof, Fabrizio Frasca, Beatrice Bevilacqua, Eran Treister, Gal Chechik, Haggai Maron(参考訳) gnnを強化するために、ノード機能拡張スキームの2つの主要なファミリーが検討されている:ランダム特徴とスペクトル位置符号化である。 しかし、この2つの拡張スキームの関係については、まだ明確には分かっていない。 本稿では,上述の2つのアプローチ間のリンクを描画し,両者を改良した位置符号化方式を提案する。 新たな手法はRandom Feature Propagation (RFP) と呼ばれ、パワーイテレーション法とその一般化にインスパイアされている。 ランダムノードの特徴から始まり、伝播行列の優性固有ベクトルを計算するための反復アルゴリズムのいくつかの中間ステップを結合する。 特に、これらの伝播ステップは、事前定義または学習が可能なグラフ依存の伝搬演算子に基づいている。 RFPの理論的および経験的メリットについて検討する。 まず,ランダムな特徴を用いたり,初期伝播ステップを組み込んだり,複数のランダム初期化を用いたりするための理論的正当性を示す。 そして、RFPが複数のノード分類およびグラフ分類ベンチマークにおいてスペクトルPEとランダムの特徴の両方を著しく上回ることを示す。

Two main families of node feature augmentation schemes have been explored for enhancing GNNs: random features and spectral positional encoding. Surprisingly, however, there is still no clear understanding of the relation between these two augmentation schemes. Here we propose a novel family of positional encoding schemes which draws a link between the above two approaches and improves over both. The new approach, named Random Feature Propagation (RFP), is inspired by the power iteration method and its generalizations. It concatenates several intermediate steps of an iterative algorithm for computing the dominant eigenvectors of a propagation matrix, starting from random node features. Notably, these propagation steps are based on graph-dependent propagation operators that can be either predefined or learned. We explore the theoretical and empirical benefits of RFP. First, we provide theoretical justifications for using random features, for incorporating early propagation steps, and for using multiple random initializations. Then, we empirically demonstrate that RFP significantly outperforms both spectral PE and random features in multiple node classification and graph classification benchmarks.
翻訳日:2023-07-20 17:35:09 公開日:2023-07-19
# SimuQ: アナログコンパイルによる量子シミュレーションのためのドメイン特化言語

SimuQ: A Domain-Specific Language For Quantum Simulation With Analog Compilation ( http://arxiv.org/abs/2303.02775v2 )

ライセンス: Link先を確認
Yuxiang Peng, Jacob Young, Pengyu Liu, Xiaodi Wu(参考訳) 量子系の進化をシミュレートし、量子現象を探究する量子ハミルトンシミュレーションは、量子コンピューティングの最も有望な応用の1つである。 最近の実験結果から、ハミルトニアン指向アナログ量子シミュレーションは、ノイズ中間スケール量子(NISQ)マシン時代の回路指向デジタル量子シミュレーションよりも有利であることが示唆された。 しかし、アナログ量子シミュレータのプログラミングはハードウェアとソフトウェアの統一インターフェースが欠如しているため、はるかに困難である。 本稿では,異種アナログ量子シミュレータへのパルスレベルのコンパイルをサポートする量子ハミルトンシミュレーションのための最初のドメイン固有言語simuqを設計し,実装する。 具体的には、SimuQでは、フロントエンドユーザーがターゲットの量子システムをハミルトンモデリング言語で指定し、アナログ量子シミュレータのハミルトンレベルのプログラマビリティは、抽象アナログ命令セット(AAIS)と呼ばれる新しい抽象化によって指定され、ハードウェアプロバイダによってAIS仕様言語でプログラムされる。 ソルバベースのコンパイルにより、simuqは実デバイスで実行可能なパルススケジュールを生成し、超伝導(ibm)、中性原子(quera)、閉じ込められたイオン(ionq)量子デバイスで実証される所望の量子システムの進化をシミュレートする。 さらに,SimuQのコンパイラを上記のアナログ量子シミュレータで評価するために,ネイティブ操作やインタラクションベースゲートを持つデバイスのハミルトンレベルプログラマビリティを公開するという利点を実証し,量子シミュレーションの小さなベンチマークを確立する。

Quantum Hamiltonian simulation, which simulates the evolution of quantum systems and probes quantum phenomena, is one of the most promising applications of quantum computing. Recent experimental results suggest that Hamiltonian-oriented analog quantum simulation would be advantageous over circuit-oriented digital quantum simulation in the Noisy Intermediate-Scale Quantum (NISQ) machine era. However, programming analog quantum simulators is much more challenging due to the lack of a unified interface between hardware and software. In this paper, we design and implement SimuQ, the first domain-specific language for quantum Hamiltonian simulation that supports pulse-level compilation to heterogeneous analog quantum simulators. Specifically, in SimuQ, front-end users specify the target quantum system with Hamiltonian Modeling Language, and the Hamiltonian-level programmability of analog quantum simulators is specified through a new abstraction called the abstract analog instruction set (AAIS) and programmed in AAIS Specification Language by hardware providers. Through a solver-based compilation, SimuQ generates executable pulse schedules for real devices to simulate the evolution of desired quantum systems, which is demonstrated on superconducting (IBM), neutral-atom (QuEra), and trapped-ion (IonQ) quantum devices. Moreover, we demonstrate the advantages of exposing the Hamiltonian-level programmability of devices with native operations or interaction-based gates and establish a small benchmark of quantum simulation to evaluate SimuQ's compiler with the above analog quantum simulators.
翻訳日:2023-07-20 17:34:52 公開日:2023-07-19
# 極大漏洩による雑音・反復アルゴリズムの一般化誤差境界

Generalization Error Bounds for Noisy, Iterative Algorithms via Maximal Leakage ( http://arxiv.org/abs/2302.14518v2 )

ライセンス: Link先を確認
Ibrahim Issa, Amedeo Roberto Esposito, Michael Gastpar(参考訳) 我々は,反復型,雑音型学習アルゴリズムの一般化行動を分析するために,情報理論の枠組みを採用する。 このクラスは、アルゴリズムが本質的にランダム化されており、SGLD(Stochastic Gradient Langevin Dynamics)のような一般的なアルゴリズムを含むため、情報理論のメトリクスの下での研究に特に適している。 ここでは、解析が簡単であるため、最大リーク(同様に、オーダー無限性のシブソン相互情報)計量を用い、これは、大きな一般化誤差を持つ確率とその期待値に関する両方の境界を暗示する。 更新関数(例えば勾配)が$l_2$-normで有界であり、付加ノイズが等方性ガウス雑音である場合、半閉形式の最大漏洩の上限が得られる。 さらに,更新関数の仮定が雑音の最適選択(最大漏洩を最小化する意味で)にどのように影響するかを示す。 最後に、他の興味のあるシナリオに対して、誘発される極大漏洩の明示的な上限を計算する。

We adopt an information-theoretic framework to analyze the generalization behavior of the class of iterative, noisy learning algorithms. This class is particularly suitable for study under information-theoretic metrics as the algorithms are inherently randomized, and it includes commonly used algorithms such as Stochastic Gradient Langevin Dynamics (SGLD). Herein, we use the maximal leakage (equivalently, the Sibson mutual information of order infinity) metric, as it is simple to analyze, and it implies both bounds on the probability of having a large generalization error and on its expected value. We show that, if the update function (e.g., gradient) is bounded in $L_2$-norm and the additive noise is isotropic Gaussian noise, then one can obtain an upper-bound on maximal leakage in semi-closed form. Furthermore, we demonstrate how the assumptions on the update function affect the optimal (in the sense of minimizing the induced maximal leakage) choice of the noise. Finally, we compute explicit tight upper bounds on the induced maximal leakage for other scenarios of interest.
翻訳日:2023-07-20 17:34:25 公開日:2023-07-19
# 概要と詳細:構文的にガイドされた粗いコード生成

Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation ( http://arxiv.org/abs/2305.00909v4 )

ライセンス: Link先を確認
Wenqing Zheng, S P Sharan, Ajay Kumar Jaiswal, Kevin Wang, Yihan Xi, Dejia Xu, Zhangyang Wang(参考訳) 複雑なアルゴリズムでは、人間のプログラマによる実装は通常、粗い制御フローの概要から始まり、反復的な拡張が続き、最終的に階層内の注意深く生成された構文構造と変数が生成される。 しかし、最先端の大規模言語モデルは「アウトライン・then-detail」という構造化思考過程を反映する中間的なウォームアップを伴わず、単一のパスでコードを生成する。 近年のchain-of-thought プロンプトの成功に触発されて,python コードを段階的に生成するプログラム合成言語モデル chaincoder を提案する。 まず、ソースコードを抽象構文木解析によりレイアウトフレームコンポーネントとアクセサリコンポーネントに分解し、階層表現を構築する。 次に、予測対象をマルチパス対象に再構成し、各パスがサブシーケンスを生成し、階層構造に連結する。 最後に、自然言語記述と構文的に整合したI/Oデータサンプルを共同符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。 大規模な評価では、ChainCoderは最先端技術よりも優れており、我々の進歩的な生成が推論手順を緩和し、言語モデルに高品質なソリューションを生成することを実証している。 私たちのコードは、https://github.com/VITA-Group/ChainCoder.comで利用可能です。

For a complicated algorithm, its implementation by a human programmer usually starts with outlining a rough control flow followed by iterative enrichments, eventually yielding carefully generated syntactic structures and variables in a hierarchy. However, state-of-the-art large language models generate codes in a single pass, without intermediate warm-ups to reflect the structured thought process of "outline-then-detail". Inspired by the recent success of chain-of-thought prompting, we propose ChainCoder, a program synthesis language model that generates Python code progressively, i.e. from coarse to fine in multiple passes. We first decompose source code into layout frame components and accessory components via abstract syntax tree parsing to construct a hierarchical representation. We then reform our prediction target into a multi-pass objective, each pass generates a subsequence, which is concatenated in the hierarchy. Finally, a tailored transformer architecture is leveraged to jointly encode the natural language descriptions and syntactically aligned I/O data samples. Extensive evaluations show that ChainCoder outperforms state-of-the-arts, demonstrating that our progressive generation eases the reasoning procedure and guides the language model to generate higher-quality solutions. Our codes are available at: https://github.com/VITA-Group/ChainCoder.
翻訳日:2023-07-20 17:26:18 公開日:2023-07-19
# ゼロショット設定時の要求情報検索におけるChatGPTの実証評価

Empirical Evaluation of ChatGPT on Requirements Information Retrieval Under Zero-Shot Setting ( http://arxiv.org/abs/2304.12562v2 )

ライセンス: Link先を確認
Jianzhang Zhang, Yiyang Chen, Nan Niu, Yinglin Wang, Chuang Liu(参考訳) 近年,NLP関連のタスクを生成型大規模言語モデル(LLM)で実行できることが,様々な例で示されている。 ChatGPTは間違いなく最も代表的なモデルだ。 我々は,要求情報検索(ir)タスクにおけるchatgptの性能を実証的に評価し,より効果的な要件検索手法や生成的llmに基づくツールの設計や開発への洞察を得る。 2つの一般的なIRタスクと2つの共通アーティファクトの4つの組み合わせを考慮した評価フレームワークを設計する。 ゼロショット設定では、ChatGPTが要求情報(高いリコール)を検索できる有望な能力と、より具体的な要求情報(低い精度)を検索できる限られた能力を示す。 ゼロショット設定下での要求IRに対するChatGPTの評価は、LCMに基づくより効果的な要求IRメソッドやツールの設計や開発のための予備的な証拠となる。

Recently, various illustrative examples have shown the impressive ability of generative large language models (LLMs) to perform NLP related tasks. ChatGPT undoubtedly is the most representative model. We empirically evaluate ChatGPT's performance on requirements information retrieval (IR) tasks to derive insights into designing or developing more effective requirements retrieval methods or tools based on generative LLMs. We design an evaluation framework considering four different combinations of two popular IR tasks and two common artifact types. Under zero-shot setting, evaluation results reveal ChatGPT's promising ability to retrieve requirements relevant information (high recall) and limited ability to retrieve more specific requirements information (low precision). Our evaluation of ChatGPT on requirements IR under zero-shot setting provides preliminary evidence for designing or developing more effective requirements IR methods or tools based on LLMs.
翻訳日:2023-07-20 17:25:54 公開日:2023-07-19
# 教師なし動作セグメンテーションにおける三重項損失の活用

Leveraging triplet loss for unsupervised action segmentation ( http://arxiv.org/abs/2304.06403v2 )

ライセンス: Link先を確認
E. Bueno-Benito, B. Tura, M. Dimiccoli(参考訳) 本稿では,単一入力ビデオ自体からアクションセグメンテーションタスクに適したアクション表現を,トレーニングデータを必要とせずに学習する,完全教師なしのフレームワークを提案する。 提案手法は,三重項の損失が類似度分布に作用する浅層ネットワークに根ざした深層学習手法であり,時間的および意味的な先行を効果的にモデル化し,新しい表現空間における行動を発見するための三重項選択戦略である。 このような状況下では,既存の教師なしアプローチと比較して,学習した行動表現の時間的境界を高い品質で回復することに成功した。 提案手法は,アクションセグメンテーションタスクに広く使用される2つのベンチマークデータセット上で評価され,学習した表現に汎用クラスタリングアルゴリズムを適用して競合性能を実現する。

In this paper, we propose a novel fully unsupervised framework that learns action representations suitable for the action segmentation task from the single input video itself, without requiring any training data. Our method is a deep metric learning approach rooted in a shallow network with a triplet loss operating on similarity distributions and a novel triplet selection strategy that effectively models temporal and semantic priors to discover actions in the new representational space. Under these circumstances, we successfully recover temporal boundaries in the learned action representations with higher quality compared with existing unsupervised approaches. The proposed method is evaluated on two widely used benchmark datasets for the action segmentation task and it achieves competitive performance by applying a generic clustering algorithm on the learned representations.
翻訳日:2023-07-20 17:25:38 公開日:2023-07-19
# MONETデータセット: 農村シナリオで記録されたマルチモーダルドローン熱データセット

The MONET dataset: Multimodal drone thermal dataset recorded in rural scenarios ( http://arxiv.org/abs/2304.05417v2 )

ライセンス: Link先を確認
Luigi Riz, Andrea Caraffa, Matteo Bortolon, Mohamed Lamine Mekhalfi, Davide Boscaini, Andr\'e Moura, Jos\'e Antunes, Andr\'e Dias, Hugo Silva, Andreas Leonidou, Christos Constantinides, Christos Keleshis, Dante Abate, Fabio Poiesi(参考訳) ドローンに搭載されたサーマルカメラを用いて、農村部を飛行し、人間と車両の活動を記録した新しいマルチモーダルデータセットであるmonetを提案する。 我々はMONETを捉え、大規模に変動し、異なる視点から記録される対象の物体の局所化と行動理解の問題を調べた。 ターゲット活動は2つの異なる土地で行われ、それぞれが独特の風景構造と散らかった背景を持つ。 MONETは162Kの注釈付きバウンディングボックスを備えた約53Kイメージで構成されている。 各画像は、姿勢、速度、高度、GPS座標に関する情報を含むドローンメタデータとタイムスタンプで一致している。 MONETは、従来の熱ドローンのデータセットとは異なる。それはマルチモーダルデータであり、人と車の両方のターゲットを含むサーマルカメラと、軌跡情報とメタデータを含む田舎のシーンをキャプチャする。 両サイト間の移動学習におけるデータセットの難易度を評価し,9つのオブジェクト検出アルゴリズムを評価し,このタイプのデータに関連するオープンな課題を同定した。 プロジェクトページ: https://github.com/fabiopoiesi/monet_dataset。

We present MONET, a new multimodal dataset captured using a thermal camera mounted on a drone that flew over rural areas, and recorded human and vehicle activities. We captured MONET to study the problem of object localisation and behaviour understanding of targets undergoing large-scale variations and being recorded from different and moving viewpoints. Target activities occur in two different land sites, each with unique scene structures and cluttered backgrounds. MONET consists of approximately 53K images featuring 162K manually annotated bounding boxes. Each image is timestamp-aligned with drone metadata that includes information about attitudes, speed, altitude, and GPS coordinates. MONET is different from previous thermal drone datasets because it features multimodal data, including rural scenes captured with thermal cameras containing both person and vehicle targets, along with trajectory information and metadata. We assessed the difficulty of the dataset in terms of transfer learning between the two sites and evaluated nine object detection algorithms to identify the open challenges associated with this type of data. Project page: https://github.com/fabiopoiesi/monet_dataset.
翻訳日:2023-07-20 17:25:23 公開日:2023-07-19
# 個人情報学におけるバイアスの解明

Uncovering Bias in Personal Informatics ( http://arxiv.org/abs/2303.15592v2 )

ライセンス: Link先を確認
Sofia Yfantidou, Pavlos Sermpezis, Athena Vakali, Ricardo Baeza-Yates(参考訳) スマートフォンとウェアラブルを駆使した個人情報システム(PI)は、ユーザと健康情報の間の障壁を壊す有意義で行動可能な洞察を提供することによって、より健康的なライフスタイルをリードすることができる。 現在、こうしたシステムは何十億ものユーザーが身体活動や睡眠だけでなく、バイタルサインや女性の健康状態などを監視するために使われている。 広く使われているにもかかわらず、繊細なpiデータの処理にはバイアスがあり、実用的かつ倫理的な影響が伴う可能性がある。 本稿では,piシステムにおけるバイアスの包括的経験的および分析的研究として,生データおよび機械学習ライフサイクル全体におけるバイアスについて述べる。 これまでで最も詳細なフレームワークを使用して、さまざまなバイアス源を探索し、データ生成とモデル学習と実装ストリームの両方にバイアスが存在することを見つけました。 以上の結果から,糖尿病,関節症,高血圧症などの健康上の問題のあるユーザと,データバイアスが学習モデルによって伝播あるいは増幅される女性であり,交叉バイアスも観察できることがわかった。

Personal informatics (PI) systems, powered by smartphones and wearables, enable people to lead healthier lifestyles by providing meaningful and actionable insights that break down barriers between users and their health information. Today, such systems are used by billions of users for monitoring not only physical activity and sleep but also vital signs and women's and heart health, among others. Despite their widespread usage, the processing of sensitive PI data may suffer from biases, which may entail practical and ethical implications. In this work, we present the first comprehensive empirical and analytical study of bias in PI systems, including biases in raw data and in the entire machine learning life cycle. We use the most detailed framework to date for exploring the different sources of bias and find that biases exist both in the data generation and the model learning and implementation streams. According to our results, the most affected minority groups are users with health issues, such as diabetes, joint issues, and hypertension, and female users, whose data biases are propagated or even amplified by learning models, while intersectional biases can also be observed.
翻訳日:2023-07-20 17:24:53 公開日:2023-07-19
# Beyond Accuracy: モバイルおよびウェアラブルコンピューティングにおける機械学習の公正性の批判的レビュー

Beyond Accuracy: A Critical Review of Fairness in Machine Learning for Mobile and Wearable Computing ( http://arxiv.org/abs/2303.15585v2 )

ライセンス: Link先を確認
Sofia Yfantidou, Marios Constantinides, Dimitris Spathis, Athena Vakali, Daniele Quercia, Fahim Kawsar(参考訳) モバイルとウェアラブルコンピューティングの分野は、機械学習を革命的に統合している。 デバイスは病気を診断し、心臓の異常を予測し、人間の認知の可能性を解き放つことができる。 しかし、これらの予測の基盤となるアルゴリズムは、繊細な属性(例えば、性別、人種)に対するバイアスに影響を受けず、差別的な結果をもたらす。 この研究の目的は、モバイルおよびウェアラブルコンピューティングコミュニティが、データセットやモデルに関する情報を表面化し、最終的にはバイアスに対処する方法をどの程度採用したかを探ることである。 2018-2022年のACM Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT)ジャーナルに掲載された論文の体系的なレビューは、アルゴリズム的公正性に関する進展はあるものの、まだ成長の余地が十分にあることを示している。 論文のごく一部(5%)が現代のフェアネスレポートに準拠しているのに対し,圧倒的多数は精度や誤差の指標に重点を置いている。 ACM MobiCom, MobiSys, SenSys, IEEE Pervasive, IEEE Transactions on Mobile Computing, IEEE Transactions on Mobile Computing など, 同様の分野の会場でこれらの結果を一般化し, 主要な成果とは何の差も見つからなかった。 これらの知見を踏まえて,本研究は,正確性だけでなく公正性も追求するモバイルおよびウェアラブル技術の設計・開発のための実践的ガイドラインを提供する。

The field of mobile and wearable computing is undergoing a revolutionary integration of machine learning. Devices can now diagnose diseases, predict heart irregularities, and unlock the full potential of human cognition. However, the underlying algorithms powering these predictions are not immune to biases with respect to sensitive attributes (e.g., gender, race), leading to discriminatory outcomes. The goal of this work is to explore the extent to which the mobile and wearable computing community has adopted ways of reporting information about datasets and models to surface and, eventually, counter biases. Our systematic review of papers published in the Proceedings of the ACM Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT) journal from 2018-2022 indicates that, while there has been progress made on algorithmic fairness, there is still ample room for growth. Our findings show that only a small portion (5%) of published papers adheres to modern fairness reporting, while the overwhelming majority thereof focuses on accuracy or error metrics. To generalize these results across venues of similar scope, we analyzed recent proceedings of ACM MobiCom, MobiSys, and SenSys, IEEE Pervasive, and IEEE Transactions on Mobile Computing Computing, and found no deviation from our primary result. In light of these findings, our work provides practical guidelines for the design and development of mobile and wearable technologies that not only strive for accuracy but also fairness.
翻訳日:2023-07-20 17:24:35 公開日:2023-07-19
# chatgptはテキスト注釈タスクでクラウドワーカーを上回る

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks ( http://arxiv.org/abs/2303.15056v2 )

ライセンス: Link先を確認
Fabrizio Gilardi, Meysam Alizadeh, Ma\"el Kubli(参考訳) 多くのnlpアプリケーションは様々なタスク、特に分類器の訓練や教師なしモデルの性能評価のために手動のデータアノテーションを必要とする。 作業の規模や複雑さによっては、mturkのようなプラットフォーム上のクラウドワーカーや、研究アシスタントのような訓練された注釈家によって作業が行われる。 2,382ツイートのサンプルを使って、chatgptは、関連性、スタンス、トピック、フレーム検出など、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れています。 特に、ChatGPTのゼロショット精度は5つのタスクのうち4つのタスクでクラウドワーカーよりも高く、ChatGPTのインターコーダ契約は、すべてのタスクでクラウドワーカーとトレーニングアノテータの両方よりも高い。 さらに、ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。 これらの結果は,大規模言語モデルがテキスト分類の効率を大幅に向上させる可能性を示している。

Many NLP applications require manual data annotations for a variety of tasks, notably to train classifiers or evaluate the performance of unsupervised models. Depending on the size and degree of complexity, the tasks may be conducted by crowd-workers on platforms such as MTurk as well as trained annotators, such as research assistants. Using a sample of 2,382 tweets, we demonstrate that ChatGPT outperforms crowd-workers for several annotation tasks, including relevance, stance, topics, and frames detection. Specifically, the zero-shot accuracy of ChatGPT exceeds that of crowd-workers for four out of five tasks, while ChatGPT's intercoder agreement exceeds that of both crowd-workers and trained annotators for all tasks. Moreover, the per-annotation cost of ChatGPT is less than $0.003 -- about twenty times cheaper than MTurk. These results show the potential of large language models to drastically increase the efficiency of text classification.
翻訳日:2023-07-20 17:24:06 公開日:2023-07-19
# オープン量子系におけるスペクトル形状因子の普遍的性質

Universal Properties of the Spectral Form Factor in Open Quantum Systems ( http://arxiv.org/abs/2303.14352v2 )

ライセンス: Link先を確認
Yi-Neng Zhou, Tian-Gang Zhou and Pengfei Zhang(参考訳) スペクトル形成因子(SFF)は、その時間変化によって異なるエネルギースケールで固有値統計学を探索することができる。 閉量子カオス系では、sffはハミルトニアンのスペクトル剛性を反映した普遍的ディップランプ・プラトー挙動を示す。 本研究では,オープン量子系におけるSFFの普遍的性質について検討する。 オープンシステムではSFFは指数関数的に崩壊し,その後,ある中間時間スケールで線形に増加し,最終的に飽和プラトー値に低下することがわかった。 1) 初期崩壊指数とリンドブラッド作用素の普遍関係を導出し, (2) 長期的台地値と定常状態の数を導出する。 また,普遍行動の有効場理論の視点についても述べる。 sachdev-ye-kitaev (syk) モデル、ランダム行列論 (rmt)、ボース・ハバード模型を数値シミュレーションして理論予測を検証する。

The spectral form factor (SFF) can probe the eigenvalue statistic at different energy scales as its time variable varies. In closed quantum chaotic systems, the SFF exhibits a universal dip-ramp-plateau behavior, which reflects the spectrum rigidity of the Hamiltonian. In this work, we explore the universal properties of SFF in open quantum systems. We find that in open systems the SFF first decays exponentially, followed by a linear increase at some intermediate time scale, and finally decreases to a saturated plateau value. We derive universal relations between (1) the early-time decay exponent and Lindblad operators; (2) the long-time plateau value and the number of steady states. We also explain the effective field theory perspective of universal behaviors. We verify our theoretical predictions by numerically simulating the Sachdev-Ye-Kitaev (SYK) model, random matrix theory (RMT), and the Bose-Hubbard model.
翻訳日:2023-07-20 17:23:45 公開日:2023-07-19
# ist-net: 暗黙空間変換を用いた事前自由カテゴリレベルのポーズ推定

IST-Net: Prior-free Category-level Pose Estimation with Implicit Space Transformation ( http://arxiv.org/abs/2303.13479v2 )

ライセンス: Link先を確認
Jianhui Liu, Yukang Chen, Xiaoqing Ye, Xiaojuan Qi(参考訳) カテゴリーレベルの6Dポーズ推定は、特定のカテゴリから見えないオブジェクトのポーズとサイズを予測することを目的としている。 カテゴリ固有の3D事前(すなわち3Dテンプレート)を与えられたオブジェクトインスタンスに明示的に適応する事前変形のおかげで、事前ベースの手法は大きな成功を収め、主要な研究ストリームとなった。 しかし、カテゴリー固有の先行データを取得するには、大量の3Dモデルを集める必要がある。 これは、事前手法を効果的にするために、事前が必要かどうかを調査する動機となる。 我々の実証研究は、3Dの先行技術自体がハイパフォーマンスの功績ではないことを示している。 これは、世界空間の3dモデル(正準空間とも呼ばれる)によって監視されるカメラと世界座標を調整するものである。 これらの観測に触発されて、カメラ空間の機能を世界空間に変換し、3D先行を頼らずに暗黙的に対応を構築するための、単純な事前自由な暗黙空間変換ネットワーク、IST-Netを導入する。 さらに,カメラと世界空間のエンハンサーを設計し,それぞれにポーズ感性情報と幾何学的制約を付加する。 単純なことだが、IST-NetはREAL275ベンチマークで最高の推論速度で、最先端のパフォーマンスベースの事前設計を実現している。 私たちのコードとモデルはhttps://github.com/cvmi-lab/ist-netで利用可能です。

Category-level 6D pose estimation aims to predict the poses and sizes of unseen objects from a specific category. Thanks to prior deformation, which explicitly adapts a category-specific 3D prior (i.e., a 3D template) to a given object instance, prior-based methods attained great success and have become a major research stream. However, obtaining category-specific priors requires collecting a large amount of 3D models, which is labor-consuming and often not accessible in practice. This motivates us to investigate whether priors are necessary to make prior-based methods effective. Our empirical study shows that the 3D prior itself is not the credit to the high performance. The keypoint actually is the explicit deformation process, which aligns camera and world coordinates supervised by world-space 3D models (also called canonical space). Inspired by these observations, we introduce a simple prior-free implicit space transformation network, namely IST-Net, to transform camera-space features to world-space counterparts and build correspondence between them in an implicit manner without relying on 3D priors. Besides, we design camera- and world-space enhancers to enrich the features with pose-sensitive information and geometrical constraints, respectively. Albeit simple, IST-Net achieves state-of-the-art performance based-on prior-free design, with top inference speed on the REAL275 benchmark. Our code and models are available at https://github.com/CVMI-Lab/IST-Net.
翻訳日:2023-07-20 17:23:28 公開日:2023-07-19
# 超音波損傷検出における偽陽性抑制のための負の時間文脈のマイニング

Mining Negative Temporal Contexts For False Positive Suppression In Real-Time Ultrasound Lesion Detection ( http://arxiv.org/abs/2305.18060v2 )

ライセンス: Link先を確認
Haojun Yu, Youcheng Li, QuanLin Wu, Ziwei Zhao, Dengbo Chen, Dong Wang, Liwei Wang(参考訳) 超音波スキャンの過程では、リアルタイムの病変検出が正確ながん診断に役立つ。 しかし、この本質的な課題は依然として挑戦的で未熟である。 一般的なリアルタイム物体検出モデルは、超音波ビデオに適用した場合に明らかな偽陽性(FPs)を誤って報告することができる。 重要な問題のひとつは、以前のフレームで負の症状を使わなかったことであり、これはNTC(負の時間的文脈)と表される。 この問題に対処するために,ntcを含む以前のフレームから逆光流の指導によりコンテキストを抽出することを提案する。 抽出した文脈を集約することにより、NTCを利用してFPを抑えることができる。 得られたモデルをUltraDetと呼びます。 提案するUltraDetは,従来の最先端技術よりも大幅に向上し,リアルタイム推論速度を実現する。 CVA-BUSデータセットのコード、チェックポイント、および高品質なラベルをhttps://github.com/HaojunYu1998/UltraDet.comでリリースします。

During ultrasonic scanning processes, real-time lesion detection can assist radiologists in accurate cancer diagnosis. However, this essential task remains challenging and underexplored. General-purpose real-time object detection models can mistakenly report obvious false positives (FPs) when applied to ultrasound videos, potentially misleading junior radiologists. One key issue is their failure to utilize negative symptoms in previous frames, denoted as negative temporal contexts (NTC). To address this issue, we propose to extract contexts from previous frames, including NTC, with the guidance of inverse optical flow. By aggregating extracted contexts, we endow the model with the ability to suppress FPs by leveraging NTC. We call the resulting model UltraDet. The proposed UltraDet demonstrates significant improvement over previous state-of-the-arts and achieves real-time inference speed. We release the code, checkpoints, and high-quality labels of the CVA-BUS dataset in https://github.com/HaojunYu1998/UltraDet.
翻訳日:2023-07-20 17:17:49 公開日:2023-07-19
# 知識追跡における終端因果発見の概念モデル

A Conceptual Model for End-to-End Causal Discovery in Knowledge Tracing ( http://arxiv.org/abs/2305.16165v2 )

ライセンス: Link先を確認
Nischal Ashok Kumar, Wanyong Feng, Jaewook Lee, Hunter McNichols, Aritra Ghosh, Andrew Lan(参考訳) 本稿では,知識追跡における因果発見(因果発見)の問題を解決するための予備的なステップ,すなわち実世界の学生の反応データから異なるスキル間の因果関係を見出す。 この問題は、広範囲なA/Bテストなしに異なるスキル間の因果関係を理解するのに役立つ可能性があるため、教育者がより優れたカリキュラムを設計するのに役立つ可能性がある。 具体的には、改良された知識追跡モデルにおける概念的解、新しい因果ゲート再帰単位(GRU)モジュールを提案する。 一 技能間の因果順序付けのための学習可能な順列行列 二 スキル間の因果構造のための任意に学習可能な下三角行列 また、モデルパラメータをエンドツーエンドで微分可能な方法で学習する方法についても詳しく説明します。 私たちのソリューションは、教育における学習経路の因果的洞察に関するneurips 2022チャレンジのタスク3の上位エントリに含まれています。 基礎的真理因果構造が公表されていないため,現地での詳細な評価が不可能となるため,課題の公開リーダボード上で評価した予備実験について詳述する。

In this paper, we take a preliminary step towards solving the problem of causal discovery in knowledge tracing, i.e., finding the underlying causal relationship among different skills from real-world student response data. This problem is important since it can potentially help us understand the causal relationship between different skills without extensive A/B testing, which can potentially help educators to design better curricula according to skill prerequisite information. Specifically, we propose a conceptual solution, a novel causal gated recurrent unit (GRU) module in a modified deep knowledge tracing model, which uses i) a learnable permutation matrix for causal ordering among skills and ii) an optionally learnable lower-triangular matrix for causal structure among skills. We also detail how to learn the model parameters in an end-to-end, differentiable way. Our solution placed among the top entries in Task 3 of the NeurIPS 2022 Challenge on Causal Insights for Learning Paths in Education. We detail preliminary experiments as evaluated on the challenge's public leaderboard since the ground truth causal structure has not been publicly released, making detailed local evaluation impossible.
翻訳日:2023-07-20 17:17:34 公開日:2023-07-19
# 情報損失・混合・創発型III$_1$因子

Information loss, mixing and emergent type III$_1$ factors ( http://arxiv.org/abs/2305.16028v4 )

ライセンス: Link先を確認
Keiichiro Furuya, Nima Lashkari, Mudassir Moosa, Shoy Ouseph(参考訳) ブラックホール情報損失問題の顕在化は、大規模な反ド・ジッターブラックホールにおけるプローブ作用素の2点関数が時間内に崩壊するのに対して、境界CFTでは、ほぼ周期的な時間関数であることが期待されている。 二点関数(時間的クラスター化)の崩壊は、量子重力における可観測代数、状態、および力学の性質にとって重要な手がかりである。 時間内にクラスタ化する演算子を"混合"と呼び、混合に必要な十分な条件を探索します。 情報損失問題は、I型代数では混合作用素が存在しないという主張の特別な場合である。 熱場二重(kms状態)において、混合作用素が(乗法の下で)代数を形成するならば、結果として得られる代数はフォン・ノイマン型iii$_1$因子でなければならない。 言い換えると、すべての非保存作用素が拡散する物理的に直感的な要件は非常に強く、可観測代数をiii$_1$因子と呼ばれるエキゾチックな代数に固定する。 より一般に、一般量子系の任意の平衡状態 (von Neumann algebra) に対して、モジュラフローの下で混合する作用素の集合が代数を形成するとき、III$_1$ von Neumann factor であることを示す。 一般化自由体の理論(GFF)において、GFFクラスタの時間における2点函数がすべての作用素が混合され、代数がタイプIII$_1$因子であることが示される。 例えば、$\mathscr{N=4}$ SYM において、ホーキング・ページ相転移より上、単一のトレース作用素のクラスタリングは、代数がIII$_1$因子の型であることを示し、最近ルーテウスとリューの予想を定めている。 時間帯域に関連する GFF の C$^*$-algebra と von Neumann の部分代数を明示的に構成し、より一般的には HKLL 再構成写像を用いてバルク時空の開集合を構成する。

A manifestation of the black hole information loss problem is that the two-point function of probe operators in a large Anti-de Sitter black hole decays in time, whereas, on the boundary CFT, it is expected to be an almost periodic function of time. We point out that the decay of the two-point function (clustering in time) holds important clues to the nature of observable algebras, states, and dynamics in quantum gravity. We call operators that cluster in time "mixing" and explore the necessary and sufficient conditions for mixing. The information loss problem is a special case of the statement that in type I algebras, there exists no mixing operators. We prove that, in a thermofield double (KMS state), if mixing operators form an algebra (close under multiplication) the resulting algebra must be a von Neumann type III$_1$ factor. In other words, the physically intuitive requirement that all non-conserved operators should diffuse is so strong that it fixes the observable algebra to be an exotic algebra called a type III$_1$ factor. More generally, for an arbitrary out-of-equilibrium state of a general quantum system (von Neumann algebra), we show that if the set of operators that mix under modular flow forms an algebra it is a type III$_1$ von Neumann factor. In a theory of Generalized Free Fields (GFF), we show that if the two-point function of GFF clusters in time all operators are mixing, and the algebra is a type III$_1$ factor. For instance, in $\mathscr{N=4}$ SYM, above the Hawking-Page phase transition, clustering of the single trace operators implies that the algebra is a type III$_1$ factor, settling a recent conjecture of Leutheusser and Liu. We explicitly construct the C$^*$-algebra and von Neumann subalgebras of GFF associated with time bands and more generally, open sets of the bulk spacetime using the HKLL reconstruction map.
翻訳日:2023-07-20 17:17:18 公開日:2023-07-19
# 量子コンピュータ上の決定点およびファフィアン点過程のサンプリングについて

On sampling determinantal and Pfaffian point processes on a quantum computer ( http://arxiv.org/abs/2305.15851v2 )

ライセンス: Link先を確認
R\'emi Bardenet, Micha\"el Fanuel, Alexandre Feller(参考訳) DPPは1970年代の量子光学のモデルとしてマッキによって導入された。 それ以来、統計学や計算機科学のモデルやサブサンプリングツールとして広く使われている。 ほとんどのアプリケーションはDPPからのサンプリングを必要とし、その量子起源を考えると、量子コンピュータ上のDPPのサンプリングは古典的なものよりも簡単かどうか疑問に思う。 ここでは、有限状態空間上の DPP に焦点を当て、${1,\dots,N\}$ の部分集合上の分布は、$N\times N$ Hermitian 核行列によってパラメタ化される。 バニラサンプリング(バニラサンプリング、英: vanilla sampling)は、古典的コンピュータ上の各コスト$\mathcal{o}(n^3)$ と$\mathcal{o}(nr^2)$ の2ステップからなる。 現在の論文の第一部は、フェルミオン系の量子シミュレーションの最先端がなぜ既に量子DPPサンプリングアルゴリズムを生み出しているのかを説明するものである。 次に、既存の量子回路を修正し、実際のカーネル仕様から始まる完全なDPPサンプリングパイプラインへの挿入について議論する。 結論として、$P$(古典)並列プロセッサでは、プリプロセッシングコストを$P$に分割し、所定のDPPをサンプリングする$\mathcal{O}(Nr)$ゲートを持つ量子回路を構築することができ、深さはターゲットマシン上のqubit-communication制約によって$$\mathcal{O}(N)$から$\mathcal{O}(r\log N)$に変化する。 また、超伝導体のシミュレーションに関する既存の研究を、DPPを一般化し、機械学習者のツールボックスに自然に追加するファフィアン点過程に結びつける。 最後に、回路は古典的なシミュレータと5ビットマシンで実証的に検証される。

DPPs were introduced by Macchi as a model in quantum optics the 1970s. Since then, they have been widely used as models and subsampling tools in statistics and computer science. Most applications require sampling from a DPP, and given their quantum origin, it is natural to wonder whether sampling a DPP on a quantum computer is easier than on a classical one. We focus here on DPPs over a finite state space, which are distributions over the subsets of $\{1,\dots,N\}$ parametrized by an $N\times N$ Hermitian kernel matrix. Vanilla sampling consists in two steps, of respective costs $\mathcal{O}(N^3)$ and $\mathcal{O}(Nr^2)$ operations on a classical computer, where $r$ is the rank of the kernel matrix. A large first part of the current paper consists in explaining why the state-of-the-art in quantum simulation of fermionic systems already yields quantum DPP sampling algorithms. We then modify existing quantum circuits, and discuss their insertion in a full DPP sampling pipeline that starts from practical kernel specifications. The bottom line is that, with $P$ (classical) parallel processors, we can divide the preprocessing cost by $P$ and build a quantum circuit with $\mathcal{O}(Nr)$ gates that sample a given DPP, with depth varying from $\mathcal{O}(N)$ to $\mathcal{O}(r\log N)$ depending on qubit-communication constraints on the target machine. We also connect existing work on the simulation of superconductors to Pfaffian point processes, which generalize DPPs and would be a natural addition to the machine learner's toolbox. Finally, the circuits are empirically validated on a classical simulator and on 5-qubit machines.
翻訳日:2023-07-20 17:16:39 公開日:2023-07-19
# 決定論的政策探索を用いたオフポリケージアワードアクター批判

Off-Policy Average Reward Actor-Critic with Deterministic Policy Search ( http://arxiv.org/abs/2305.12239v2 )

ライセンス: Link先を確認
Naman Saxena, Subhojyoti Khastigir, Shishir Kolathaya, Shalabh Bhatnagar(参考訳) 平均報酬基準は、強化学習文献の多くの既存の著作が割引報酬基準を考えるため、比較的研究されていない。 近年では、政治上の平均的報酬・犯罪的アルゴリズムを示す作品はほとんどないが、政治以外の平均的な報酬・犯罪的報酬は比較的少ない。 本研究は, 平均報酬性能基準に対する実効性および非実効性決定論的政策勾配定理について述べる。 また,これらの定理を用いて,ARO-DDPG(Average Reward Off-Policy Deep Deterministic Policy Gradient)アルゴリズムを提案する。 まず, ODE を用いた漸近収束解析を行った。 その後,線形関数近似子を用いた確率的近似スキームの有限時間解析を行い,サンプル複雑性が$\omega(\epsilon^{-2.5})$の1つとして$\epsilon$-optimal stationary policyを得る。 提案したARO-DDPGアルゴリズムの平均報酬性能を比較し,MuJoCo環境上での最先端平均報酬評価アルゴリズムと比較した。

The average reward criterion is relatively less studied as most existing works in the Reinforcement Learning literature consider the discounted reward criterion. There are few recent works that present on-policy average reward actor-critic algorithms, but average reward off-policy actor-critic is relatively less explored. In this work, we present both on-policy and off-policy deterministic policy gradient theorems for the average reward performance criterion. Using these theorems, we also present an Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) Algorithm. We first show asymptotic convergence analysis using the ODE-based method. Subsequently, we provide a finite time analysis of the resulting stochastic approximation scheme with linear function approximator and obtain an $\epsilon$-optimal stationary policy with a sample complexity of $\Omega(\epsilon^{-2.5})$. We compare the average reward performance of our proposed ARO-DDPG algorithm and observe better empirical performance compared to state-of-the-art on-policy average reward actor-critic algorithms over MuJoCo-based environments.
翻訳日:2023-07-20 17:16:02 公開日:2023-07-19
# AdaMSS:PET/CT画像からの生存予測のための適応型多モードセグメンテーション・サバイバル学習

AdaMSS: Adaptive Multi-Modality Segmentation-to-Survival Learning for Survival Outcome Prediction from PET/CT Images ( http://arxiv.org/abs/2305.09946v2 )

ライセンス: Link先を確認
Mingyuan Meng, Bingxin Gu, Michael Fulham, Shaoli Song, Dagan Feng, Lei Bi, and Jinman Kim(参考訳) 生存予測はがん管理の主要な懸念事項である。 深層学習に基づく深層生存モデルが医療画像からエンドツーエンド生存予測を行うために広く採用されている。 近年の深層生存モデルは,Multi-Task Learning (MTL)を通して腫瘍関連情報を抽出するために,生存予測と共同で腫瘍セグメンテーションを行い,有望な性能を達成した。 しかし,これらの深部生存モデルでは腫瘍外予後の探索が困難である。 さらに、既存のディープサバイバルモデルは、マルチモダリティイメージを効果的に活用できない。 経験的に設計された融合戦略は、タスク固有の手動設計ネットワークを介して多目的情報を融合するために一般的に採用され、異なるシナリオへの適応性を制限する。 本研究では,PET/CT画像からの生存予測のための適応多モード分割生存モデル(AdaMSS)を提案する。 mtlを採用する代わりに,我々は,腫瘍の分節化と生存予測を2段階連続的に訓練する新しいsegmentation-to-survival learning (ssl)戦略を提案する。 この戦略により、AdaMSSは第1段階の腫瘍領域に集中し、第2段階の他の予後関連領域を含むように徐々に焦点を拡大できる。 また,訓練中のトレーニングデータに基づく融合戦略の適応的最適化を実現するマルチモダリティ情報を融合するデータ駆動戦略を提案する。 SSLとデータ駆動型フュージョン戦略により、AdaMSSは、異なるトレーニング段階におけるフォーカス領域とフュージョン戦略を自己適応できる適応モデルとして設計されています。 2つの大きな臨床データセットによる大規模な実験により、我々のAdaMSSは最先端の生存予測法より優れていることが示された。

Survival prediction is a major concern for cancer management. Deep survival models based on deep learning have been widely adopted to perform end-to-end survival prediction from medical images. Recent deep survival models achieved promising performance by jointly performing tumor segmentation with survival prediction, where the models were guided to extract tumor-related information through Multi-Task Learning (MTL). However, these deep survival models have difficulties in exploring out-of-tumor prognostic information. In addition, existing deep survival models are unable to effectively leverage multi-modality images. Empirically-designed fusion strategies were commonly adopted to fuse multi-modality information via task-specific manually-designed networks, thus limiting the adaptability to different scenarios. In this study, we propose an Adaptive Multi-modality Segmentation-to-Survival model (AdaMSS) for survival prediction from PET/CT images. Instead of adopting MTL, we propose a novel Segmentation-to-Survival Learning (SSL) strategy, where our AdaMSS is trained for tumor segmentation and survival prediction sequentially in two stages. This strategy enables the AdaMSS to focus on tumor regions in the first stage and gradually expand its focus to include other prognosis-related regions in the second stage. We also propose a data-driven strategy to fuse multi-modality information, which realizes adaptive optimization of fusion strategies based on training data during training. With the SSL and data-driven fusion strategies, our AdaMSS is designed as an adaptive model that can self-adapt its focus regions and fusion strategy for different training stages. Extensive experiments with two large clinical datasets show that our AdaMSS outperforms state-of-the-art survival prediction methods.
翻訳日:2023-07-20 17:15:37 公開日:2023-07-19
# 量子ビットに線形結合した有限スピン浴の長時間緩和

Long-time relaxation of a finite spin bath linearly coupled to a qubit ( http://arxiv.org/abs/2305.08692v2 )

ライセンス: Link先を確認
Jukka P. Pekola, Bayan Karimi, Marco Cattaneo, Sabrina Maniscalco(参考訳) 我々は、回転波近似における相互作用ハミルトニアンと、N$スピンの有限浴(二階系、TLS)に線形に結合した量子ビットの長時間緩和について論じる。 我々は、クォービットバス結合が弱いこと、スピン周波数の範囲が十分に広く、全てのスピンが基底状態で初期化されることを前提として、レギュラー$N\gg 1$に焦点を当てる。 モデルは完全に統合可能であるにもかかわらず、有効なシステムの緩和について興味深い2つの観察を行う。 まず、予想されるように、量子ビットはゼロ温度状態に向かって指数関数的に緩和する。 第二に、互いに結合している場合でも、浴室スピンは熱分布に向かってリラックスせず、最初の励起量子ビットの周波数でピークとなるローレンツ分布を形成する。 この挙動は、TLS周波数を連続体として扱うために$N\gg 1$という特性を利用する解析近似によって捉えられ、数値シミュレーションにより確認される。

We discuss the long-time relaxation of a qubit linearly coupled to a finite bath of $N$ spins (two-level systems, TLSs), with the interaction Hamiltonian in rotating wave approximation. We focus on the regime $N\gg 1$, assuming that the qubit-bath coupling is weak, that the range of spin frequencies is sufficiently broad, and that all the spins are initialized in the ground state. Despite the model being perfectly integrable, we make two interesting observations about the effective system relaxation. First, as one would expect, the qubit relaxes exponentially towards its zero-temperature state at a well characterized rate. Second, the bath spins, even when mutually coupled, do not relax towards a thermal distribution, but rather form a Lorentzian distribution peaked at the frequency of the initially excited qubit. This behavior is captured by an analytical approximation that makes use of the property $N\gg 1$ to treat the TLS frequencies as a continuum and is confirmed by our numerical simulations.
翻訳日:2023-07-20 17:14:48 公開日:2023-07-19
# network-giant: harmonic hessian consensusによる完全分散ニュートン型最適化

Network-GIANT: Fully distributed Newton-type optimization via harmonic Hessian consensus ( http://arxiv.org/abs/2305.07898v2 )

ライセンス: Link先を確認
Alessio Maritan, Ganesh Sharma, Luca Schenato, Subhrakanti Dey(参考訳) 本稿では,局所最適化と近隣ノード間の情報交換による局所的目的(経験的損失)関数の和を最小化する分散マルチエージェント学習の課題について考察する。 本稿では,集中型パラメータサーバに依存する連合学習アルゴリズムである giant に基づく,ニュートン型完全分散最適化アルゴリズム network-giant を提案する。 ネットワークジャイアントアルゴリズムは、各ノードにおける勾配追跡とニュートン型反復アルゴリズムの組み合わせによって設計され、局所勾配とニュートン更新のコンセンサスに基づく平均化を行う。 提案アルゴリズムは,強い凸関数と滑らかな損失関数を仮定して,ネットワーク上の厳密解に対する半グローバルおよび指数収束を保証する。 本稿では,ネットワークダインやニュートン・ラフソンコンセンサスなどの最先端分散学習アルゴリズムよりも,ネットワークジャイアントの収束性能が優れていることを示す実証的証拠を提供する。

This paper considers the problem of distributed multi-agent learning, where the global aim is to minimize a sum of local objective (empirical loss) functions through local optimization and information exchange between neighbouring nodes. We introduce a Newton-type fully distributed optimization algorithm, Network-GIANT, which is based on GIANT, a Federated learning algorithm that relies on a centralized parameter server. The Network-GIANT algorithm is designed via a combination of gradient-tracking and a Newton-type iterative algorithm at each node with consensus based averaging of local gradient and Newton updates. We prove that our algorithm guarantees semi-global and exponential convergence to the exact solution over the network assuming strongly convex and smooth loss functions. We provide empirical evidence of the superior convergence performance of Network-GIANT over other state-of-art distributed learning algorithms such as Network-DANE and Newton-Raphson Consensus.
翻訳日:2023-07-20 17:14:31 公開日:2023-07-19
# 背景情報によるクラスアクティベーションの不確かさの低減

Reduction of Class Activation Uncertainty with Background Information ( http://arxiv.org/abs/2305.03238v3 )

ライセンス: Link先を確認
H M Dipu Kabir(参考訳) マルチタスク学習は、一般化を改善したハイパフォーマンスニューラルネットワークをトレーニングするための一般的なアプローチである。 本稿では,計算能力の低い研究者や組織に対して,マルチタスク学習よりも低い計算速度で一般化を実現するためのバックグラウンドクラスを提案する。 また,背景画像の選択手法を提案し,今後の改善について検討する。 提案手法を複数のデータセットに適用し,より少ない計算量で一般化した。 また,学習モデルのクラスアクティベーションマッピング(cams)についても検討し,提案するモデルトレーニング手法を用いて,いくつかのクラス分類問題において,より大きな視点を見る傾向を観察した。 提案するバックグラウンドクラスでtransformerを適用すると,stl-10,caltech-101,cinic-10のデータセットで最先端(sota)性能が得られる。 GitHub Repositoryの‘CAM’フォルダには,次のようなスクリプトが提供されている。

Multitask learning is a popular approach to training high-performing neural networks with improved generalization. In this paper, we propose a background class to achieve improved generalization at a lower computation compared to multitask learning to help researchers and organizations with limited computation power. We also present a methodology for selecting background images and discuss potential future improvements. We apply our approach to several datasets and achieved improved generalization with much lower computation. We also investigate class activation mappings (CAMs) of the trained model and observed the tendency towards looking at a bigger picture in a few class classification problems with the proposed model training methodology. Applying transformer with the proposed background class, we receive state-of-the-art (SOTA) performance on STL-10, Caltech-101, and CINIC-10 datasets. Example scripts are available in the `CAM' folder of the following GitHub Repository: github.com/dipuk0506/UQ
翻訳日:2023-07-20 17:14:16 公開日:2023-07-19
# rlパーセプトロン:高次元における政策学習の一般化ダイナミクス

The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions ( http://arxiv.org/abs/2306.10404v4 )

ライセンス: Link先を確認
Nishil Patel, Sebastian Lee, Stefano Sarao Mannelli, Sebastian Goldt, Adrew Saxe(参考訳) 強化学習 (Reinforcement Learning, RL) アルゴリズムは、様々な領域において変形を証明している。 現実世界のドメインに取り組むために、これらのシステムはニューラルネットワークを使ってピクセルや他の高次元センサー入力から直接ポリシーを学ぶ。 対照的に、RLの多くの理論は離散状態空間や最悪のケース解析に焦点を合わせており、高次元環境における政策学習のダイナミクスに関する根本的な疑問が残っている。 本稿では、様々な学習プロトコルをキャプチャし、その典型的ダイナミクスを閉形式常微分方程式(odes)の集合として導出する、rlの可解な高次元モデルを提案する。 学習速度と課題難易度に対する最適スケジュール(rlにおけるトレーニング中のアニーリングスキームやカリキュラムに類似)を導出し、このモデルが低報酬下での遅延学習を含むリッチな振る舞いを示すこと、報酬ベースラインに依存する様々な学習レジーム、報酬の厳格性によって駆動される速度・正確性トレードオフを示す。 Procgen ゲーム "Bossfight" や Arcade Learning Environment ゲーム "Pong" の変種に関する実験も、実際にそのような速度精度のトレードオフを示している。 これらの結果は、高次元RLにおける理論と実践の間のギャップを埋めるための一歩となる。

Reinforcement learning (RL) algorithms have proven transformative in a range of domains. To tackle real-world domains, these systems often use neural networks to learn policies directly from pixels or other high-dimensional sensory input. By contrast, much theory of RL has focused on discrete state spaces or worst-case analysis, and fundamental questions remain about the dynamics of policy learning in high-dimensional settings. Here, we propose a solvable high-dimensional model of RL that can capture a variety of learning protocols, and derive its typical dynamics as a set of closed-form ordinary differential equations (ODEs). We derive optimal schedules for the learning rates and task difficulty - analogous to annealing schemes and curricula during training in RL - and show that the model exhibits rich behaviour, including delayed learning under sparse rewards; a variety of learning regimes depending on reward baselines; and a speed-accuracy trade-off driven by reward stringency. Experiments on variants of the Procgen game "Bossfight" and Arcade Learning Environment game "Pong" also show such a speed-accuracy trade-off in practice. Together, these results take a step towards closing the gap between theory and practice in high-dimensional RL.
翻訳日:2023-07-20 17:06:42 公開日:2023-07-19
# iSLAM: インペラティブSLAM

iSLAM: Imperative SLAM ( http://arxiv.org/abs/2306.07894v3 )

ライセンス: Link先を確認
Taimeng Fu, Shaoshu Su, Chen Wang(参考訳) 同時ローカライゼーションとマッピング(SLAM)は、ロボットナビゲーションにおける重要な課題の1つである。 近年の進歩は, 教師あり学習に基づく手法が, 従来の最適化手法が評価ドリフトの最小化に重要な役割を担っていることを示唆している。 本稿では,このような疎結合なパラダイムが準最適性能にのみ寄与し,結果としてシステム能力と一般化ポテンシャルを削減できることを見出した。 この問題を解決するために,我々は,フロントエンドとバックエンドの相互修正を促進し,外部の監督を必要とせずに性能を向上させるための,新しい自己教師付き学習フレームワークimperative slam(islam)を提案した。 具体的には,二元最適化問題としてslamシステムを定式化し,両成分を双方向に連結する。 その結果、フロントエンドモデルは、バックエンドから残差をバックプロパゲーションすることで、ポーズグラフ最適化によって得られるグローバル幾何学的知識を学習することができる。 これにより、システム全体の一般化能力が大幅に向上し、精度が45%まで向上する。 我々の知る限り、iSLAMは、フロントエンドとバックエンドが相互に相互に相互に自己管理的な方法で学習できることを示す最初のSLAMシステムです。

Simultaneous localization and mapping (SLAM) stands as one of the critical challenges in robot navigation. Recent advancements suggest that methods based on supervised learning deliver impressive performance in front-end odometry, while traditional optimization-based methods still play a vital role in the back-end for minimizing estimation drift. In this paper, we found that such decoupled paradigm can lead to only sub-optimal performance, consequently curtailing system capabilities and generalization potential. To solve this problem, we proposed a novel self-supervised learning framework, imperative SLAM (iSLAM), which fosters reciprocal correction between the front-end and back-end, thus enhancing performance without necessitating any external supervision. Specifically, we formulate a SLAM system as a bi-level optimization problem so that the two components are bidirectionally connected. As a result, the front-end model is able to learn global geometric knowledge obtained through pose graph optimization by back-propagating the residuals from the back-end. This significantly improves the generalization ability of the entire system and thus achieves the accuracy improvement up to 45%. To the best of our knowledge, iSLAM is the first SLAM system showing that the front-end and back-end can learn jointly and mutually contribute to each other in a self-supervised manner.
翻訳日:2023-07-20 17:05:31 公開日:2023-07-19
# GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition ( http://arxiv.org/abs/2306.07848v5 )

ライセンス: Link先を確認
Yu Pan, Lei Ma(参考訳) コントラスト学習に基づくクロスモダリティ事前学習手法は,近年,多様な分野において顕著な成功を収めている。 本稿では,音声感情認識のための性分析型コントラスト言語-audio pretraining (clap) 手法であるgemo-clapを提案する。 具体的には、まず感情CLAPモデル(Emo-CLAP)を構築し、様々な自己教師付き事前学習モデルを利用する。 第二に、音声感情モデリングにおける性別属性の重要性を考慮すると、ソフトラベルに基づくGEmo-CLAP(SL-GEmo-CLAP)とマルチタスク学習に基づくGEmo-CLAP(ML-GEmo-CLAP)がさらに提案され、音声信号の感情情報と性別情報を統合し、より合理的な目的を形成する。 IEMOCAPの大規模実験により,提案した2つのGEmo-CLAPモデルは,異なる事前学習モデルのベースラインであるEmo-CLAPより一貫して優れており,また,最近の最先端手法と比較しても最高の認識性能が得られた。 注目すべきは、WavLMベースのML-GEMO-CLAPが80.16\%、WARが82.06\%の最高のUARを取得することである。

Contrastive learning based cross-modality pretraining methods have recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio pretraining (CLAP) method for speech emotion recognition. Specifically, a novel emotion CLAP model (Emo-CLAP) is first built, utilizing various self-supervised pre-trained models. Second, considering the importance of gender attribute in speech emotion modeling, the soft label based GEmo-CLAP (SL-GEmo-CLAP) and multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) are further proposed to integrate the emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments on IEMOCAP show that our proposed two GEmo-CLAP models consistently outperform the baseline Emo-CLAP with different pre-trained models, while also achieving the best recognition performance compared with recent state-of-the-art methods. Noticeably, the proposed WavLM-based ML-GEmo-CLAP obtains the best UAR of 80.16\% and WAR of 82.06\%.
翻訳日:2023-07-20 17:05:08 公開日:2023-07-19
# 死人:画像とテキストのモデルに対するグレイボックスの敵攻撃

I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models ( http://arxiv.org/abs/2306.07591v3 )

ライセンス: Link先を確認
Raz Lapid, Moshe Sipper(参考訳) 現代の画像からテキストへのシステムは、画像の特徴を抽出するための画像エンコーダと、キャプションを生成するのに使われるトランスフォーマベースのデコーダという2つの主要なコンポーネントからなるエンコーダ-デコーダフレームワークを採用するのが一般的である。 ニューラルネットワークの逆摂動に対するロバスト性の分析から着想を得て,画像からテキストへのモデルの逆例を作成するための新しいグレイボックスアルゴリズムを提案する。 クラスラベルの有限集合を持つ画像分類タスクとは異なり、画像からテキストへのタスクで視覚的に類似した逆の例を見つけることは、キャプションシステムによって事実上無限のキャプションの空間を可能にするため、大きな課題となる。 本稿では,非ターゲティングとターゲティングの両方において,画像対テキストに対するグレイボックス攻撃を提案する。 本稿では,画像エンコーダ成分のみを用いる最適化問題として,言語モデルに依存しない逆摂動を探索するプロセスを定式化する。 また,Hugging Faceの最もよく使われている画像とテキストのモデルであるViT-GPT2モデルとFlickr30kデータセットを用いた実験により,この攻撃により,ターゲットのないキャプションとターゲットのキャプションの両方で,視覚的に類似したサンプルを生成することができた。 私たちの攻撃はグレーボックス方式で実行されており、デコーダモジュールに関する知識は必要ない。 また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。

Modern image-to-text systems typically adopt the encoder-decoder framework, which comprises two main components: an image encoder, responsible for extracting image features, and a transformer-based decoder, used for generating captions. Taking inspiration from the analysis of neural networks' robustness against adversarial perturbations, we propose a novel gray-box algorithm for creating adversarial examples in image-to-text models. Unlike image classification tasks that have a finite set of class labels, finding visually similar adversarial examples in an image-to-text task poses greater challenges because the captioning system allows for a virtually infinite space of possible captions. In this paper, we present a gray-box adversarial attack on image-to-text, both untargeted and targeted. We formulate the process of discovering adversarial perturbations as an optimization problem that uses only the image-encoder component, meaning the proposed attack is language-model agnostic. Through experiments conducted on the ViT-GPT2 model, which is the most-used image-to-text model in Hugging Face, and the Flickr30k dataset, we demonstrate that our proposed attack successfully generates visually similar adversarial examples, both with untargeted and targeted captions. Notably, our attack operates in a gray-box manner, requiring no knowledge about the decoder module. We also show that our attacks fool the popular open-source platform Hugging Face.
翻訳日:2023-07-20 17:04:44 公開日:2023-07-19
# qudit量子力学のフレーム表現

Frame representations of qudit quantum mechanics ( http://arxiv.org/abs/2305.19287v4 )

ライセンス: Link先を確認
Nicolae Cotfas(参考訳) すべての線型作用素 A:H -- > H の空間 L(H) は複素ヒルベルト空間であり、すべての自己随伴作用素 A:H -- > H の空間 A(H) は実ヒルベルト空間である。 キューディット量子力学の通常の離散位相空間の定式化は、ある直交基底を用いて L(H) と A(H) の記述に基づいている。 オルタナティブな定式化は直交基底の代わりにタイトフレームを用いて得られることを示し,qubit と qutrit に関するいくつかの例を示す。

A qudit is a quantum system described by a d-dimensional complex Hilbert space H. The space L(H) of all the linear operators A:H -- > H is a complex Hilbert space, and the space A(H) of all the self-adjoint operators A:H -- > H is a real Hilbert space. The usual discrete phase-space formulation of qudit quantum mechanics is based on the description of L(H) and A(H) by using certain orthogonal bases. We show that some alternative formulations can be obtained by using tight frames instead of orthogonal bases, and present some examples concerning the qubit and qutrit.
翻訳日:2023-07-20 17:03:39 公開日:2023-07-19
# コンパクトな動き表現に基づく拡散モデルによる教師なし映像異常検出

Unsupervised Video Anomaly Detection with Diffusion Models Conditioned on Compact Motion Representations ( http://arxiv.org/abs/2307.01533v2 )

ライセンス: Link先を確認
Anil Osman Tur and Nicola Dall'Asen and Cigdem Beyan and Elisa Ricci(参考訳) 本稿では,ビデオ内の各フレームを,ラベルにアクセスすることなく正常または異常に分類する,教師なしビデオ異常検出(VAD)問題に対処することを目的とする。 これを実現するために,提案手法では,入力データが事前学習されたネットワークから抽出された時空間的特徴である条件付き拡散モデルを用い,その条件は映像セグメントを要約したコンパクトな動作表現から抽出された特徴である。 本手法は,データ駆動しきい値を用い,高い再構成誤差を異常事象の指標として捉える。 本研究は,vadに対するコンパクトな運動表現を用いた最初の研究であり,2つの大規模vadベンチマークを用いた実験により,拡散モデルに関連する情報を提供し,その結果,先行技術におけるvad性能を向上させることを実証した。 重要な点として,本手法は,各データセットの一般化性能が向上し,最先端手法とベースライン手法の両方に優れていた。 私たちのメソッドのコードはhttps://github.com/AnilOsmanTur/conditioned_video_anomaly_diffusionで利用可能です。

This paper aims to address the unsupervised video anomaly detection (VAD) problem, which involves classifying each frame in a video as normal or abnormal, without any access to labels. To accomplish this, the proposed method employs conditional diffusion models, where the input data is the spatiotemporal features extracted from a pre-trained network, and the condition is the features extracted from compact motion representations that summarize a given video segment in terms of its motion and appearance. Our method utilizes a data-driven threshold and considers a high reconstruction error as an indicator of anomalous events. This study is the first to utilize compact motion representations for VAD and the experiments conducted on two large-scale VAD benchmarks demonstrate that they supply relevant information to the diffusion model, and consequently improve VAD performances w.r.t the prior art. Importantly, our method exhibits better generalization performance across different datasets, notably outperforming both the state-of-the-art and baseline methods. The code of our method is available at https://github.com/AnilOsmanTur/conditioned_video_anomaly_diffusion
翻訳日:2023-07-20 16:57:35 公開日:2023-07-19
# 時間整合ヒトアニメーションのための双方向時間拡散モデル

Bidirectional Temporal Diffusion Model for Temporally Consistent Human Animation ( http://arxiv.org/abs/2307.00574v2 )

ライセンス: Link先を確認
Tserendorj Adiya, Sanghun Kim, Jung Eun Lee, Jae Shin Yoon and Hwasup Lim(参考訳) 本稿では,映像,映像,無作為な雑音から時間的コヒーレントな人間のアニメーションを生成する手法を提案する。 この問題は、過去のフレームを後退させて将来のフレームをデコードする自動回帰生成のモデリングとして定式化されている。 しかし、このような一方向生成は時間とともに動きが漂う傾向が高く、外観歪みのような重要な人工物を持つ非現実的な人間のアニメーションを生成する。 双方向の時間的モデリングは,人間の顔の運動のあいまいさをほとんど抑制することにより,生成ネットワーク上で時間的コヒーレンスを強制する。 ニューラルネットワークは、中間結果を連続フレーム間で双方向に条件付けした時相ガウス雑音を復調することにより、人の画像を生成することを学習する。 実験では,実時間的コヒーレンスを持つ既存一方向アプローチと比較して強い性能を示す。

We introduce a method to generate temporally coherent human animation from a single image, a video, or a random noise. This problem has been formulated as modeling of an auto-regressive generation, i.e., to regress past frames to decode future frames. However, such unidirectional generation is highly prone to motion drifting over time, generating unrealistic human animation with significant artifacts such as appearance distortion. We claim that bidirectional temporal modeling enforces temporal coherence on a generative network by largely suppressing the motion ambiguity of human appearance. To prove our claim, we design a novel human animation framework using a denoising diffusion model: a neural network learns to generate the image of a person by denoising temporal Gaussian noises whose intermediate results are cross-conditioned bidirectionally between consecutive frames. In the experiments, our method demonstrates strong performance compared to existing unidirectional approaches with realistic temporal coherence
翻訳日:2023-07-20 16:57:06 公開日:2023-07-19
# 自由度3次元超音波再構成のためのオンライン自己整合型マルチIMU

Multi-IMU with Online Self-Consistency for Freehand 3D Ultrasound Reconstruction ( http://arxiv.org/abs/2306.16197v3 )

ライセンス: Link先を確認
Mingyuan Luo, Xin Yang, Zhongnuo Yan, Junyu Li, Yuanji Zhang, Jiongquan Chen, Xindi Hu, Jikuan Qian, Jun Cheng, Dong Ni(参考訳) 超音波(US)イメージングは臨床診断において一般的なツールであり、安全性、再現性、リアルタイム能力を提供する。 Freehand 3D USは、複雑さを増すことなくスキャンされた領域をより深く理解する技術である。 しかし,標高変位と累積誤差の推定は依然として困難であり,画像のみを用いて相対位置を推定することは困難である。 複雑さを増すことなく再建性能を向上させるために,外部軽量センサの追加が提案されている。 本稿では,複数慣性測定ユニット (imus) を用いた新しいオンライン自己抵抗ネットワーク (oscnet) を提案する。 OSCNetは、複数のIMU情報を融合し、各IMUデータから得られた再構成結果の違いを減らすために、モーダルレベルの自己管理戦略を利用する。 さらに,スキャンシーケンスとそのサブシーケンス間の予測結果の階層的一貫性を改善するために,シーケンスレベルの自己一貫性戦略を提案する。 複数のスキャン戦術を用いた大規模腕と頸動脈データセットの実験では,oscnetが従来の手法を上回っており,最先端の再構築性能を実現している。

Ultrasound (US) imaging is a popular tool in clinical diagnosis, offering safety, repeatability, and real-time capabilities. Freehand 3D US is a technique that provides a deeper understanding of scanned regions without increasing complexity. However, estimating elevation displacement and accumulation error remains challenging, making it difficult to infer the relative position using images alone. The addition of external lightweight sensors has been proposed to enhance reconstruction performance without adding complexity, which has been shown to be beneficial. We propose a novel online self-consistency network (OSCNet) using multiple inertial measurement units (IMUs) to improve reconstruction performance. OSCNet utilizes a modal-level self-supervised strategy to fuse multiple IMU information and reduce differences between reconstruction results obtained from each IMU data. Additionally, a sequence-level self-consistency strategy is proposed to improve the hierarchical consistency of prediction results among the scanning sequence and its sub-sequences. Experiments on large-scale arm and carotid datasets with multiple scanning tactics demonstrate that our OSCNet outperforms previous methods, achieving state-of-the-art reconstruction performance.
翻訳日:2023-07-20 16:56:37 公開日:2023-07-19
# 擬似プログラミングにおける$O(\sqrt{n})$から$O(\log(n))$へ

From $O(\sqrt{n})$ to $O(\log(n))$ in Quadratic Programming ( http://arxiv.org/abs/2306.15079v3 )

ライセンス: Link先を確認
Liang Wu(参考訳) 暗雲」は数十年間、数値最適化理論、すなわち、最適化アルゴリズム $o(\log(n))$ の反復複雑性が存在するかどうかにかかっている。 この論文は,新たな最適化アルゴリズムと厳密な理論証明を用いて答える。 ボックス制約付き二次プログラミング(Box-QP)から始まり、多くの実用的な最適化問題はBox-QPに該当する。 一般的な滑らかな二次計画法(QP)、非滑らかなラッソ、サポートベクターマシン(または回帰)は双対性理論によりBox-QPとして再構成できる。 特に "direct" メソッドのように振る舞う$o(\log(n))$ 反復複雑性 qp アルゴリズムを提示するのは初めてである: 必要なイテレーション数は、正確な値 $\left\lceil\log\left(\frac{3.125n}{\epsilon}\right)/\log(1.5625)\right\rceil$ で決定論的である。 この大きなブレークスルーによって、$o(\sqrt{n})$から$o(\log(n))$の最適化アルゴリズムへの移行が可能になります。

A "dark cloud" hangs over numerical optimization theory for decades, namely, whether an optimization algorithm $O(\log(n))$ iteration complexity exists. "Yes", this paper answers, with a new optimization algorithm and strict theory proof. It starts with box-constrained quadratic programming (Box-QP), and many practical optimization problems fall into Box-QP. General smooth quadratic programming (QP), nonsmooth Lasso, and support vector machine (or regression) can be reformulated as Box-QP via duality theory. It is the first time to present an $O(\log(n))$ iteration complexity QP algorithm, in particular, which behaves like a "direct" method: the required number of iterations is deterministic with exact value $\left\lceil\log\left(\frac{3.125n}{\epsilon}\right)/\log(1.5625)\right\rceil$. This significant breakthrough enables us to transition from the $O(\sqrt{n})$ to the $O(\log(n))$ optimization algorithm, whose amazing scalability is particularly relevant in today's era of big data and artificial intelligence.
翻訳日:2023-07-20 16:56:18 公開日:2023-07-19
# $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ Time-dependent quantum Hamiltonian; ファインマンの不協和規則に基づく自己整合分解法

Time evolution operator for a $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ time-dependent quantum Hamiltonian; a self-consistent resolution method based on Feynman's disentangling rules ( http://arxiv.org/abs/2306.14231v3 )

ライセンス: Link先を確認
Nibaldo-Edmundo Alvarez-Moraga(参考訳) 本稿では、ハミルトニアンが複素数 $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ algebra の元である2つの相互作用する量子振動子の時間発展作用素を、ファインマン時間順序演算子法を用いて解析する。 この方法は条件を常に生成し、そのような演算子に対する明示的な不整合式を正式に見つけるために使われる。 このようにして、全ての問題は複素リッカティ型微分方程式を解くために減少することが示される。 この微分方程式のいくつかの閉解が発見され、時間順序進化作用素に対する具体的な解が与えられる。 最後に、等方性2次元量子発振器に関連付けられたコヒーレント状態の時間進化を時間依存ハミルトニアン系で解析する。

In this article the time evolution operator of two interacting quantum oscillators, whose Hamiltonian is an element of the complex $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ algebra, is analyzed using the Feynman time ordering operator techniques. This method is consistently used to generate the conditions and to formally find explicit disentangled expressions for such operator. In this way, it is shown that all the problem reduces to solve a complex Riccati-type differential equation. Some closed solutions to this differential equation are found and then concrete disentangling expressions for the time-ordered evolution operator are given. Finally, the time evolution of the coherent states linked to the isotropic 2D quantum oscillator are analyzed under alternative time-independent an time-dependent Hamiltonian systems.
翻訳日:2023-07-20 16:55:41 公開日:2023-07-19
# h$_2$o: 大きな言語モデルの効率的な生成推論のための重いoracle

H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models ( http://arxiv.org/abs/2306.14048v2 )

ライセンス: Link先を確認
Zhenyu Zhang, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng, Ruisi Cai, Zhao Song, Yuandong Tian, Christopher R\'e, Clark Barrett, Zhangyang Wang, Beidi Chen(参考訳) 大規模な言語モデル(llm)は、最近の印象的な成果にもかかわらず、特に、対話システムやストーリーライティングなど、長期コンテンツ生成を含むアプリケーションにおいて、デプロイにコストがかかる。 多くの場合、KVキャッシュと呼ばれる大量の過渡状態情報は、モデルパラメータに加えてGPUメモリに格納され、シーケンス長とバッチサイズに線形にスケーリングされる。 本稿では,KVキャッシュの実装において,メモリフットプリントを大幅に削減する新しい手法を提案する。 我々のアプローチは、少数のトークンが注目度を計算する際に価値の大半に貢献するという注目すべき観察に基づいています。 これらのトークンをヘビーヒッター (H$_2$) と呼ぶ。 包括的な調査を通じて (i)h$_2$の出現は自然であり、テキスト中のトークンの頻繁な共起と強い相関がある。 (ii) 除去すると性能が著しく低下する。 これらの知見に基づき、我々は、最近およびh$_2$トークンのバランスを動的に保持するkvキャッシュ退避ポリシーであるヘビーヒットオラクル(h$_2$o)を提案する。 我々はKVキャッシュ消去を動的部分モジュラー問題として定式化し、将来的な作業のガイドとなる新しい消去アルゴリズムの理論的保証を(軽微な仮定の下で)証明する。 我々は,OPT,LLaMA,GPT-NeoXを用いて,幅広いタスクでアルゴリズムの精度を検証する。 OPT-6.7B と OPT-30B で、最大 29$\times$, 29$\times$, 3$\times$ の3つの主要な推論システム、DeepSpeed Zero-Inference, Hugging Face Accelerate, FlexGen のスループットを改善しました。 同じバッチサイズで、H2Oはレイテンシを最大1.9$\times$まで削減できる。 コードはhttps://github.com/fminference/h2oで入手できる。

Large Language Models (LLMs), despite their recent impressive accomplishments, are notably cost-prohibitive to deploy, particularly for applications involving long-content generation, such as dialogue systems and story writing. Often, a large amount of transient state information, referred to as the KV cache, is stored in GPU memory in addition to model parameters, scaling linearly with the sequence length and batch size. In this paper, we introduce a novel approach for implementing the KV cache which significantly reduces its memory footprint. Our approach is based on the noteworthy observation that a small portion of tokens contributes most of the value when computing attention scores. We call these tokens Heavy Hitters (H$_2$). Through a comprehensive investigation, we find that (i) the emergence of H$_2$ is natural and strongly correlates with the frequent co-occurrence of tokens in the text, and (ii) removing them results in significant performance degradation. Based on these insights, we propose Heavy Hitter Oracle (H$_2$O), a KV cache eviction policy that dynamically retains a balance of recent and H$_2$ tokens. We formulate the KV cache eviction as a dynamic submodular problem and prove (under mild assumptions) a theoretical guarantee for our novel eviction algorithm which could help guide future work. We validate the accuracy of our algorithm with OPT, LLaMA, and GPT-NeoX across a wide range of tasks. Our implementation of H$_2$O with 20% heavy hitters improves the throughput over three leading inference systems DeepSpeed Zero-Inference, Hugging Face Accelerate, and FlexGen by up to 29$\times$, 29$\times$, and 3$\times$ on OPT-6.7B and OPT-30B. With the same batch size, H2O can reduce the latency by up to 1.9$\times$. The code is available at https://github.com/FMInference/H2O.
翻訳日:2023-07-20 16:55:17 公開日:2023-07-19
# グラデーションベースアトリビューションのpreまたはpost-softmaxスコアは、何がベストか?

Pre or Post-Softmax Scores in Gradient-based Attribution Methods, What is Best? ( http://arxiv.org/abs/2306.13197v2 )

ライセンス: Link先を確認
Miguel Lerma and Mirtha Lucas(参考訳) 分類器として働くニューラルネットワークに対する勾配に基づく帰属法は、ネットワークスコアの勾配を用いる。 本稿では,事前ソフトマックススコアの勾配とポストソフトマックススコアとの実用的差異と,それらの長所と短所について論じる。

Gradient based attribution methods for neural networks working as classifiers use gradients of network scores. Here we discuss the practical differences between using gradients of pre-softmax scores versus post-softmax scores, and their respective advantages and disadvantages.
翻訳日:2023-07-20 16:54:42 公開日:2023-07-19
# CREPE: CLIPによる学習可能なプロンプトは、視覚的関係予測を改善する

CREPE: Learnable Prompting With CLIP Improves Visual Relationship Prediction ( http://arxiv.org/abs/2307.04838v2 )

ライセンス: Link先を確認
Rakshith Subramanyam, T. S. Jayram, Rushil Anirudh and Jayaraman J. Thiagarajan(参考訳) 本稿では,視覚的特徴を視覚的特徴から言語的関係に解釈する,視覚的オブジェクト関係の予測における視覚言語モデル(VLM)の可能性について検討する。 現在の最先端の手法では、この課題に対処するために言語キューと視覚的特徴を利用する複雑なグラフィカルモデルを使用している。 CLIP埋め込みの強い言語は、より単純なアプローチのためにこれらのグラフィカルモデル舗装を単純化できると仮定する。 我々はUVTransE関係予測フレームワークを採用し、シーンから主題、オブジェクト、ユニオンボックスへの翻訳埋め込みとして関係を学習する。 本稿では,UVTransEフレームワーク内でのCLIPに基づく主題,オブジェクト,およびユニオンボックス表現の設計を体系的に検討し,CREPE (CLIP Representation Enhanced Predicate Estimation) を提案する。 CREPEは3つのバウンディングボックスすべてにテキストベースの表現を使用し、ユニオンボックスのテキストプロンプトを自動的に推論する新しい対照的なトレーニング戦略を導入する。 本手法は,前述語推定法であるmr@5 27.79,mr@20 31.95を視覚ゲノムベンチマークで達成し,最新のmr@20での性能向上を15.3 %達成した。 この研究は、オブジェクト関係予測におけるCLIPの有効性を実証し、この挑戦領域におけるVLMのさらなる研究を奨励する。

In this paper, we explore the potential of Vision-Language Models (VLMs), specifically CLIP, in predicting visual object relationships, which involves interpreting visual features from images into language-based relations. Current state-of-the-art methods use complex graphical models that utilize language cues and visual features to address this challenge. We hypothesize that the strong language priors in CLIP embeddings can simplify these graphical models paving for a simpler approach. We adopt the UVTransE relation prediction framework, which learns the relation as a translational embedding with subject, object, and union box embeddings from a scene. We systematically explore the design of CLIP-based subject, object, and union-box representations within the UVTransE framework and propose CREPE (CLIP Representation Enhanced Predicate Estimation). CREPE utilizes text-based representations for all three bounding boxes and introduces a novel contrastive training strategy to automatically infer the text prompt for union-box. Our approach achieves state-of-the-art performance in predicate estimation, mR@5 27.79, and mR@20 31.95 on the Visual Genome benchmark, achieving a 15.3\% gain in performance over recent state-of-the-art at mR@20. This work demonstrates CLIP's effectiveness in object relation prediction and encourages further research on VLMs in this challenging domain.
翻訳日:2023-07-20 16:46:58 公開日:2023-07-19
# 適応型集団グラフ学習を用いたマルチモーダル脳年齢推定

Multimodal brain age estimation using interpretable adaptive population-graph learning ( http://arxiv.org/abs/2307.04639v2 )

ライセンス: Link先を確認
Kyriaki-Margarita Bintsi, Vasileios Baltatzis, Rolandos Alexandros Potamias, Alexander Hammers, Daniel Rueckert(参考訳) アルツハイマー病などの神経変性疾患の文脈において貴重な情報を提供できるため、脳年齢の推定は臨床的に重要である。 人口グラフは、被検体のマルチモーダルイメージング情報と人口間の関係を含むが、グラフ畳み込みネットワーク(GCN)と共に文献に使われ、様々な医療画像タスクに有用であることが証明されている。 人口グラフは通常静的であり、非画像情報を用いて手動で構築される。 しかし、グラフの構成は自明な作業ではなく、本質的にグラフ構造に非常に敏感なGCNの性能に大きな影響を与える可能性がある。 本研究では,下流タスクに最適化された人口グラフ構造を学習するフレームワークを提案する。 注意機構は、重みを一連の撮像特徴と非撮像特徴(表現型)に割り当て、エッジ抽出に使用する。 結果のグラフはGCNのトレーニングに使用される。 パイプライン全体はエンドツーエンドでトレーニングすることができる。 さらに、グラフ構築において最も重要な注意重みを可視化することにより、グラフの解釈可能性を高める。 我々は,多種多様な神経画像および非画像表現型を提供する英国バイオバンクを用いて,脳年齢の回帰と分類の手法を評価する。 提案手法は, 競合する静的グラフアプローチや他の最先端適応手法よりも優れている。 さらに、アサインされた注意スコアは、脳年齢推定に有用な画像と非画像表現型の両方が存在し、関連する文献と一致していることを示す。

Brain age estimation is clinically important as it can provide valuable information in the context of neurodegenerative diseases such as Alzheimer's. Population graphs, which include multimodal imaging information of the subjects along with the relationships among the population, have been used in literature along with Graph Convolutional Networks (GCNs) and have proved beneficial for a variety of medical imaging tasks. A population graph is usually static and constructed manually using non-imaging information. However, graph construction is not a trivial task and might significantly affect the performance of the GCN, which is inherently very sensitive to the graph structure. In this work, we propose a framework that learns a population graph structure optimized for the downstream task. An attention mechanism assigns weights to a set of imaging and non-imaging features (phenotypes), which are then used for edge extraction. The resulting graph is used to train the GCN. The entire pipeline can be trained end-to-end. Additionally, by visualizing the attention weights that were the most important for the graph construction, we increase the interpretability of the graph. We use the UK Biobank, which provides a large variety of neuroimaging and non-imaging phenotypes, to evaluate our method on brain age regression and classification. The proposed method outperforms competing static graph approaches and other state-of-the-art adaptive methods. We further show that the assigned attention scores indicate that there are both imaging and non-imaging phenotypes that are informative for brain age estimation and are in agreement with the relevant literature.
翻訳日:2023-07-20 16:46:32 公開日:2023-07-19
# Solvent: タンパク質のフォールディングのためのフレームワーク

Solvent: A Framework for Protein Folding ( http://arxiv.org/abs/2307.04603v3 )

ライセンス: Link先を確認
Jaemyung Lee, Kyeongtak Han, Jaehoon Kim, Hasun Yu, Youhan Lee(参考訳) ai研究を行うには一貫性と信頼性が不可欠である。 オブジェクト検出のような多くの有名な研究分野は、堅固なベンチマークフレームワークで比較、検証されている。 AlphaFold2の後、タンパク質の折り畳みタスクは新しい段階に入り、AlphaFold2の構成要素に基づいて多くの方法が提案されている。 タンパク質折り畳みにおける統一的な研究フレームワークの重要性は、様々なアプローチを一貫して比較するための実装とベンチマークを含んでいる。 これを実現するために、Solventは、既製のインターフェイスのように最先端のモデルの重要なコンポーネントをサポートするタンパク質折り畳みフレームワークである。Solventは、統一コードベースに実装された異なるモデルを含み、同じデータセット上で定義されたモデルのトレーニングと評価をサポートする。 我々は、よく知られたアルゴリズムとそのコンポーネントをベンチマークし、タンパク質構造モデリング分野に関する有益な洞察を与える実験を提供する。 我々はSolventが提案したモデルの信頼性と一貫性を高め、速度とコストの両面で効率を向上し、タンパク質の折り畳みモデル研究の加速を期待する。 コードはhttps://github.com/kakaobrain/solventで入手できる。

Consistency and reliability are crucial for conducting AI research. Many famous research fields, such as object detection, have been compared and validated with solid benchmark frameworks. After AlphaFold2, the protein folding task has entered a new phase, and many methods are proposed based on the component of AlphaFold2. The importance of a unified research framework in protein folding contains implementations and benchmarks to consistently and fairly compare various approaches. To achieve this, we present Solvent, an protein folding framework that supports significant components of state-of-th-arts models in the manner of off-the-shelf interface Solvent contains different models implemented in a unified codebase and supports training and evaluation for defined models on the same dataset. We benchmark well-known algorithms and their components and provide experiments that give helpful insights into the protein structure modeling field. We hope that Solvent will increase the reliability and consistency of proposed models and gives efficiency in both speed and costs, resulting in acceleration on protein folding modeling research. The code is available at https://github.com/kakaobrain/solvent, and the project will continue to be developed.
翻訳日:2023-07-20 16:46:10 公開日:2023-07-19
# 感度インフォーム多項式カオス展開と深部生成ネットワークを用いた地質コンプレックスによるベイズ旅行時間トモグラフィの効率化

Efficient Bayesian travel-time tomography with geologically-complex priors using sensitivity-informed polynomial chaos expansion and deep generative networks ( http://arxiv.org/abs/2307.04228v2 )

ライセンス: Link先を確認
Giovanni Angelo Meles, Macarena Amaya, Shiran Levy, Stefano Marelli, Niklas Linde(参考訳) モンテカルロ・マルコフ・チェーン (mcmc) 法は、事前分布の正確なキャラクタリゼーションと確率の効率的な評価という2つの基本的な課題に直面する。 トモグラフィーに関するベイズ研究の文脈では、主成分分析(PCA)は、計算集約的な全物理前方解法を置き換えるために多項式カオス展開(PCE)に基づく正確な代理モデルの実装を可能にすると同時に、事前分布の直接的な定義を容易にする。 PCAが、より深い生成モデル(VAE)のような、事前の配布方法を簡単に定義する手段を提供していないシナリオに直面する場合、実行可能なオプションとして使用できる。 しかしながら、VAEの潜伏パラメータとフォワードモデリングの出力との間の複雑な非線形関係を捉えることができるサロゲートを正確に生成することは、注目すべき課題である。 実際、PCEモデルは、入力-出力関係が比較的低次多変量多項式によって効果的に近似できる場合に高い精度を提供するが、この条件は通常、深層生成モデルから派生した潜時変数を利用する際には未成熟である。 本研究では,prio表現の観点からのvaeの優れた再構成性能と,ベイズ地中レーダ(gpr)トモグラフィの文脈におけるpca-pceサロゲートモデル精度を組み合わせた手法を提案する。 MCMCプロセス内では、VOEのパラメトリゼーションが事前探索とサンプル提案に利用される。 同時に、VAEサンプルのグローバルまたはローカルに定義された主成分を検査対象とするPCEを用いてモデリングを行う。

Monte Carlo Markov Chain (MCMC) methods commonly confront two fundamental challenges: the accurate characterization of the prior distribution and the efficient evaluation of the likelihood. In the context of Bayesian studies on tomography, principal component analysis (PCA) can in some cases facilitate the straightforward definition of the prior distribution, while simultaneously enabling the implementation of accurate surrogate models based on polynomial chaos expansion (PCE) to replace computationally intensive full-physics forward solvers. When faced with scenarios where PCA does not offer a direct means of easily defining the prior distribution alternative methods like deep generative models (e.g., variational autoencoders (VAEs)), can be employed as viable options. However, accurately producing a surrogate capable of capturing the intricate non-linear relationship between the latent parameters of a VAE and the outputs of forward modeling presents a notable challenge. Indeed, while PCE models provide high accuracy when the input-output relationship can be effectively approximated by relatively low-degree multivariate polynomials, this condition is typically unmet when utilizing latent variables derived from deep generative models. In this contribution, we present a strategy that combines the excellent reconstruction performances of VAE in terms of prio representation with the accuracy of PCA-PCE surrogate modeling in the context of Bayesian ground penetrating radar (GPR) travel-time tomography. Within the MCMC process, the parametrization of the VAE is leveraged for prior exploration and sample proposal. Concurrently, modeling is conducted using PCE, which operates on either globally or locally defined principal components of the VAE samples under examination.
翻訳日:2023-07-20 16:45:52 公開日:2023-07-19
# BOF-UCB:非定常文脈帯域に対するベイズ最適化周波数アルゴリズム

BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary Contextual Bandits ( http://arxiv.org/abs/2307.03587v2 )

ライセンス: Link先を確認
Nicklas Werge, Abdullah Akg\"ul, Melih Kandemir(参考訳) 非定常環境における確率的文脈線形帯域化のための新しいベイズ・最適周波数境界(BOF-UCB)アルゴリズムを提案する。 このベイジアンと頻繁な原理のユニークな組み合わせは、動的設定における適応性と性能を高める。 bof-ucbアルゴリズムは、未知回帰パラメータの後方分布を推定するためにシーケンシャルベイズ更新を利用し、その後、後方分布に対する期待報酬を最大化することにより、上位信頼境界(ucb)を計算するために頻繁なアプローチを用いる。 我々はBOF-UCBの性能の理論的保証を提供し、強化学習環境における合成データセットや古典的制御タスクの探索と活用のバランスをとる上での有効性を示す。 以上の結果から,BOF-UCBは既存の手法よりも優れており,非定常環境における逐次意思決定に有望なソリューションであることがわかった。

We propose a novel Bayesian-Optimistic Frequentist Upper Confidence Bound (BOF-UCB) algorithm for stochastic contextual linear bandits in non-stationary environments. This unique combination of Bayesian and frequentist principles enhances adaptability and performance in dynamic settings. The BOF-UCB algorithm utilizes sequential Bayesian updates to infer the posterior distribution of the unknown regression parameter, and subsequently employs a frequentist approach to compute the Upper Confidence Bound (UCB) by maximizing the expected reward over the posterior distribution. We provide theoretical guarantees of BOF-UCB's performance and demonstrate its effectiveness in balancing exploration and exploitation on synthetic datasets and classical control tasks in a reinforcement learning setting. Our results show that BOF-UCB outperforms existing methods, making it a promising solution for sequential decision-making in non-stationary environments.
翻訳日:2023-07-20 16:45:21 公開日:2023-07-19
# アウト・オブ・ディストリビューション・ジェネリザビリティを持つ大規模視覚言語モデルの蒸留

Distilling Large Vision-Language Model with Out-of-Distribution Generalizability ( http://arxiv.org/abs/2307.03135v2 )

ライセンス: Link先を確認
Xuanlin Li, Yunhao Fang, Minghua Liu, Zhan Ling, Zhuowen Tu, Hao Su(参考訳) 大きなビジョン言語モデルは優れた性能を達成しているが、そのサイズと計算要件により、リソースに制約のあるデバイスや時間に敏感なタスクへのデプロイは現実的ではない。 モデル蒸留は、より大きなモデルの性能を維持する、より小さくより高速なモデルを作成するプロセスであり、ソリューションに向けた有望な方向である。 本稿では,大規模教師の視覚モデルから軽度学生モデルへの視覚表現の蒸留について,小規模または中規模データセットを用いて検討する。 本研究は,従来モデル蒸留の文献では見過ごされてきた課題であるオープン・ボキャブラリー・アウト・オブ・ディストリビューション(ood)の一般化に焦点を当てたものである。 1) 教師の視覚表現空間を模倣し, 教師との視覚・言語連携を慎重に促進すること, (2) 教師の言語表現を情報的かつ細かな意味的属性で豊かにすることで, 異なるラベルを効果的に区別することである。 我々は,いくつかの指標を提案し,その手法を検討するために広範囲な実験を行う。 その結果,オープン・ボカブラリー・アウト・オブ・ディストリビューション分類におけるゼロショットと少数ショットの学生成績が有意に改善し,提案手法の有効性が示された。 コード: https://github.com/xuanlinli17/large_vlm_distillation_ood

Large vision-language models have achieved outstanding performance, but their size and computational requirements make their deployment on resource-constrained devices and time-sensitive tasks impractical. Model distillation, the process of creating smaller, faster models that maintain the performance of larger models, is a promising direction towards the solution. This paper investigates the distillation of visual representations in large teacher vision-language models into lightweight student models using a small- or mid-scale dataset. Notably, this study focuses on open-vocabulary out-of-distribution (OOD) generalization, a challenging problem that has been overlooked in previous model distillation literature. We propose two principles from vision and language modality perspectives to enhance student's OOD generalization: (1) by better imitating teacher's visual representation space, and carefully promoting better coherence in vision-language alignment with the teacher; (2) by enriching the teacher's language representations with informative and finegrained semantic attributes to effectively distinguish between different labels. We propose several metrics and conduct extensive experiments to investigate their techniques. The results demonstrate significant improvements in zero-shot and few-shot student performance on open-vocabulary out-of-distribution classification, highlighting the effectiveness of our proposed approaches. Code released at https://github.com/xuanlinli17/large_vlm_distillation_ood
翻訳日:2023-07-20 16:45:06 公開日:2023-07-19
# LongNet: トランスフォーマーを10万トークンにスケールアップ

LongNet: Scaling Transformers to 1,000,000,000 Tokens ( http://arxiv.org/abs/2307.02486v2 )

ライセンス: Link先を確認
Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Nanning Zheng, Furu Wei(参考訳) 拡張シーケンス長は、大規模言語モデルの時代において重要な需要となっている。 しかし、既存の手法は計算複雑性やモデル表現性に苦しむため、最大列長は制限される。 この問題に対処するため,より短いシーケンスでの性能を犠牲にすることなく,シーケンス長を10億以上のトークンにスケールできるトランスフォーマーのlongnetを導入する。 具体的には,距離が大きくなるにつれて指数関数的に注意場を拡大する拡張注意を提案する。 LongNetには大きな利点があります。 1) 線形計算複雑性とシーケンス内の任意の2つのトークン間の対数依存性を有する。 2) 非常に長いシーケンスの分散トレーナーとして利用することができる。 3) 拡張された注意は標準的な注意の代替であり、既存のTransformerベースの最適化とシームレスに統合することができる。 実験の結果,LongNetは長周期モデリングと汎用言語タスクの両方で高い性能を示すことがわかった。 我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。

Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering the maximum sequence length restricted. To address this issue, we introduce LongNet, a Transformer variant that can scale sequence length to more than 1 billion tokens, without sacrificing the performance on shorter sequences. Specifically, we propose dilated attention, which expands the attentive field exponentially as the distance grows. LongNet has significant advantages: 1) it has a linear computation complexity and a logarithm dependency between any two tokens in a sequence; 2) it can be served as a distributed trainer for extremely long sequences; 3) its dilated attention is a drop-in replacement for standard attention, which can be seamlessly integrated with the existing Transformer-based optimization. Experiments results demonstrate that LongNet yields strong performance on both long-sequence modeling and general language tasks. Our work opens up new possibilities for modeling very long sequences, e.g., treating a whole corpus or even the entire Internet as a sequence.
翻訳日:2023-07-20 16:44:38 公開日:2023-07-19
# 3次元シミュレーションアンサンブルにおける統計依存性のインタラクティブ可視化のためのニューラルフィールド

Neural Fields for Interactive Visualization of Statistical Dependencies in 3D Simulation Ensembles ( http://arxiv.org/abs/2307.02203v3 )

ライセンス: Link先を確認
Fatemeh Farokhmanesh, Kevin H\"ohlein, Christoph Neuhauser, and R\"udiger Westermann(参考訳) 大規模な3次元シミュレーションアンサンブルにおいて,物理変数の値間の統計的依存関係をコンパクトに表現し,効率的に再構築することのできる,最初のニューラルネットワークを提案する。 線形依存を超えて、我々は相互情報を非線形依存の尺度とみなす。 我々は,複数の物理変数を250 x 352 x 20シミュレーショングリッドに格納した,1000人からなる大天気予報アンサンブルを用いて,学習と再構築を実証する。 計算集約型統計推定器を実行時に回避することにより、主要な依存構造を再構築するためのメモリと計算要求を著しく低減することを示した。 これにより、etimatorをgpuによる直接ボリュームレンダラに組み込み、選択したドメインポイントに対するすべての相互依存関係をインタラクティブに可視化することができる。

We present the first neural network that has learned to compactly represent and can efficiently reconstruct the statistical dependencies between the values of physical variables at different spatial locations in large 3D simulation ensembles. Going beyond linear dependencies, we consider mutual information as a measure of non-linear dependence. We demonstrate learning and reconstruction with a large weather forecast ensemble comprising 1000 members, each storing multiple physical variables at a 250 x 352 x 20 simulation grid. By circumventing compute-intensive statistical estimators at runtime, we demonstrate significantly reduced memory and computation requirements for reconstructing the major dependence structures. This enables embedding the estimator into a GPU-accelerated direct volume renderer and interactively visualizing all mutual dependencies for a selected domain point.
翻訳日:2023-07-20 16:44:18 公開日:2023-07-19
# 一方向局所演算と古典的通信における $\bbC^3\otimes \bbC^n$ 3次元部分空間の区別可能な基底の存在

The existence of distinguishable bases of $\bbC^3\otimes \bbC^n$ three-dimensional subspaces under one-way local operations and classical communication ( http://arxiv.org/abs/2307.01980v2 )

ライセンス: Link先を確認
Zhiwei Song, Lin Chen and Dragomir Z. Djokovic(参考訳) 我々は、$\bbC^3\otimes \bbC^n$のすべての3次元部分空間が、一方的な局所演算と古典的通信(LOCC)の下で区別可能な基底を持つことを示した。 これは [J. Phys. A, 40, 7937, 2007] で提案された開問題を解く。 結果を拡張して、一方向LOCCの下で$\bbC^3\otimes \bbC^{12}$の4次元局所微分可能部分空間を構築する。 また、3次元環境を有する各チャネルの環境支援古典容量は、少なくとも$\log_2 3$であり、任意のクトリットチャネルの環境支援古典容量は$\log_2 3$であることを示した。 さらに、各2量子状態は、局所的な絡み合うチャネルによって量子古典境界付近の一般化された古典状態に変換することができる。

We show that every three-dimensional subspace of $\bbC^3\otimes \bbC^n$ has a distinguishable basis under one-way local operations and classical communication (LOCC). This solves an open problem proposed in [J. Phys. A, 40, 7937, 2007]. We extend our result to construct a four-dimensional locally indistinguishable subspace of $\bbC^3\otimes \bbC^{12}$ under one-way LOCC. We also show that the environment-assisted classical capacity of every channel with a three-dimensional environment is at least $\log_2 3$, and the environment-assisting classical capacity of any qutrit channel is $\log_2 3$. Further, every two-qutrit state can be converted into a generalized classical state near the quantum-classical boundary by a local entanglement-breaking channel.
翻訳日:2023-07-20 16:44:07 公開日:2023-07-19
# SwinGNN:グラフ生成のための拡散モデルにおける置換不変性の再考

SwinGNN: Rethinking Permutation Invariance in Diffusion Models for Graph Generation ( http://arxiv.org/abs/2307.01646v2 )

ライセンス: Link先を確認
Qi Yan, Zhengyang Liang, Yang Song, Renjie Liao, Lele Wang(参考訳) 置換同変ネットワークに基づく拡散モデルは、グラフデータの置換不変分布を学習することができる。 しかし、それらの非不変モデルと比較すると、これらの不変モデルはより大きな学習課題に直面することが判明した。 1)有効目標分布は、より多くのモードを示す。 2) 最適な一段階分音スコアは, ガウス混合成分の得点関数である。 そこで本研究では,swintransformersにインスパイアされた移動ウィンドウベースの自己アテンションを利用した,効率的なエッジツーエッジ2-wlメッセージパッシングネットワークを用いた非不変拡散モデルである$\textit{swingnn}$を提案する。 さらに, 系統的アブレーションにより, グラフ生成のサンプル品質を著しく向上させるいくつかの批判的訓練およびサンプリング手法を同定した。 最後に、単純な後処理のトリックである$\textit{i.e.}$を導入し、生成したグラフをランダムに置換し、任意のグラフ生成モデルを置換不変のグラフに変換する。 合成および実世界のタンパク質および分子データセットに関する大規模な実験は、我々のSwinGNNが最先端のパフォーマンスを達成することを示す。 私たちのコードはhttps://github.com/qiyan98/SwinGNNで公開されています。

Diffusion models based on permutation-equivariant networks can learn permutation-invariant distributions for graph data. However, in comparison to their non-invariant counterparts, we have found that these invariant models encounter greater learning challenges since 1) their effective target distributions exhibit more modes; 2) their optimal one-step denoising scores are the score functions of Gaussian mixtures with more components. Motivated by this analysis, we propose a non-invariant diffusion model, called $\textit{SwinGNN}$, which employs an efficient edge-to-edge 2-WL message passing network and utilizes shifted window based self-attention inspired by SwinTransformers. Further, through systematic ablations, we identify several critical training and sampling techniques that significantly improve the sample quality of graph generation. At last, we introduce a simple post-processing trick, $\textit{i.e.}$, randomly permuting the generated graphs, which provably converts any graph generative model to a permutation-invariant one. Extensive experiments on synthetic and real-world protein and molecule datasets show that our SwinGNN achieves state-of-the-art performances. Our code is released at https://github.com/qiyan98/SwinGNN.
翻訳日:2023-07-20 16:43:49 公開日:2023-07-19
# IntelliGraphs:知識グラフ生成のベンチマークのためのデータセット

IntelliGraphs: Datasets for Benchmarking Knowledge Graph Generation ( http://arxiv.org/abs/2307.06698v2 )

ライセンス: Link先を確認
Thiviyan Thanapalasingam, Emile van Krieken, Peter Bloem, Paul Groth(参考訳) 知識グラフ埋め込み(KGE)モデルは、エンティティとリレーションの連続的な表現を学ぶために使用される。 文献における重要な課題は、エンティティ間のリンク不足を予測することである。 しかし、知識グラフはリンクの集合だけでなく、その構造の基礎となる意味論も持っている。 セマンティックスは、クエリ応答や推論など、いくつかの下流タスクにおいて重要である。 本稿では,モデルが確率的かつ意味的に有効な部分グラフを生成するための部分グラフ推論タスクを提案する。 我々は5つの新しい知識グラフデータセットセットであるIntelliGraphsを提案する。 IntelliGraphsデータセットには、サブグラフ推論を評価するための論理ルールで表現されたセマンティックスを含むサブグラフが含まれている。 また,合成データセットを生成するデータセット生成装置を提案する。 従来のkgsに基づく3つのモデルを含む4つの新しいベースラインモデルを設計した。 我々は,それらの表現性を評価し,これらのモデルが意味を捉えられないことを示す。 このベンチマークは、セマンティック理解を強調する機械学習モデルの開発を促進するだろうと考えています。

Knowledge Graph Embedding (KGE) models are used to learn continuous representations of entities and relations. A key task in the literature is predicting missing links between entities. However, Knowledge Graphs are not just sets of links but also have semantics underlying their structure. Semantics is crucial in several downstream tasks, such as query answering or reasoning. We introduce the subgraph inference task, where a model has to generate likely and semantically valid subgraphs. We propose IntelliGraphs, a set of five new Knowledge Graph datasets. The IntelliGraphs datasets contain subgraphs with semantics expressed in logical rules for evaluating subgraph inference. We also present the dataset generator that produced the synthetic datasets. We designed four novel baseline models, which include three models based on traditional KGEs. We evaluate their expressiveness and show that these models cannot capture the semantics. We believe this benchmark will encourage the development of machine learning models that emphasize semantic understanding.
翻訳日:2023-07-20 16:36:29 公開日:2023-07-19
# yolic: エッジデバイス上でのオブジェクトのローカライズと分類の効率的な方法

YOLIC: An Efficient Method for Object Localization and Classification on Edge Devices ( http://arxiv.org/abs/2307.06689v2 )

ライセンス: Link先を確認
Kai Su, Qiangfu Zhao, Yoichi Tomioka, Yong Liu(参考訳) Tiny AIの領域では、エッジデバイス上でオブジェクトのローカライズと分類を行う効率的な方法である"You Only Look at Interested Cells"(YOLIC)を紹介する。 YOLICはセマンティックセグメンテーションとオブジェクト検出の長所をシームレスにブレンドし、優れた計算効率と精度を提供する。 個々のピクセルではなく分類にCells of Interestを採用することで、YOLICは関連する情報をカプセル化し、計算負荷を低減し、粗いオブジェクト形状推論を可能にする。 重要なことに、YoLICは潜在的なオブジェクトの位置、サイズ、形状に関する情報を提供する所定のセル構成に重きを置いているため、バウンディングボックスの回帰は不要である。 シングルラベル分類制限の問題に対処するため,複数ラベル分類アプローチを各セルに適用し,重なり合うオブジェクトや近接するオブジェクトを効果的に認識する。 本稿では,複数のデータセットに対する広範な実験を行い,最新のYOLOアルゴリズムに匹敵する検出性能が,Raspberry Pi 4B CPU上で30fpsを超える速度で達成されていることを示す。 データセット、セルデザイナー、画像アノテーションツール、ソースコードなど、この研究に関連するすべてのリソースは、プロジェクトのwebサイトhttps://kai3316.github.io/yolic.github.ioで公開されている。

In the realm of Tiny AI, we introduce "You Only Look at Interested Cells" (YOLIC), an efficient method for object localization and classification on edge devices. Seamlessly blending the strengths of semantic segmentation and object detection, YOLIC offers superior computational efficiency and precision. By adopting Cells of Interest for classification instead of individual pixels, YOLIC encapsulates relevant information, reduces computational load, and enables rough object shape inference. Importantly, the need for bounding box regression is obviated, as YOLIC capitalizes on the predetermined cell configuration that provides information about potential object location, size, and shape. To tackle the issue of single-label classification limitations, a multi-label classification approach is applied to each cell, effectively recognizing overlapping or closely situated objects. This paper presents extensive experiments on multiple datasets, demonstrating that YOLIC achieves detection performance comparable to the state-of-the-art YOLO algorithms while surpassing in speed, exceeding 30fps on a Raspberry Pi 4B CPU. All resources related to this study, including datasets, cell designer, image annotation tool, and source code, have been made publicly available on our project website at https://kai3316.github.io/yolic.github.io
翻訳日:2023-07-20 16:36:19 公開日:2023-07-19
# 弱教師付き視聴覚イベント定位のための時間的ラベル再構成法

Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization ( http://arxiv.org/abs/2307.06385v2 )

ライセンス: Link先を確認
Kalyan Ramakrishnan(参考訳) オーディオ・ビジュアル・イベント・ローカライゼーション (AVEL) は、ビデオで同時に見えるイベントや可聴なイベントを時間的に局所化し、分類するタスクである。 本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用する,弱教師付き環境でAVELを解決する。 私たちのアイデアは、トレーニングデータのラベルをビデオレベルよりも細かい時間分解能で推定し、これらのラベルでモデルを再トレーニングするためにベースモデルを使用することです。 すなわち、トレーニングビデオにおけるフレームの各 \emph{slice} のラベルのサブセットを決定する。 (i)スライスの外側のフレームを、ビデオレベルのラベルに重複しない2番目のビデオのフレームに置き換える。 (2)この合成ビデオをベースモデルに入力して、問題のスライスのみのラベルを抽出する。 合成ビデオのアウト・オブ・ディストリビューション性に対処するため,我々は,より信頼性の高いイベントラベルの予測を所望するベースモデルの補助的目的を提案する。 私たちの3段階パイプラインは、アーキテクチャ上の変更のない既存のAVELメソッドよりも優れており、関連する弱教師付きタスクのパフォーマンスも向上しています。

Audio-Visual Event Localization (AVEL) is the task of temporally localizing and classifying \emph{audio-visual events}, i.e., events simultaneously visible and audible in a video. In this paper, we solve AVEL in a weakly-supervised setting, where only video-level event labels (their presence/absence, but not their locations in time) are available as supervision for training. Our idea is to use a base model to estimate labels on the training data at a finer temporal resolution than at the video level and re-train the model with these labels. I.e., we determine the subset of labels for each \emph{slice} of frames in a training video by (i) replacing the frames outside the slice with those from a second video having no overlap in video-level labels, and (ii) feeding this synthetic video into the base model to extract labels for just the slice in question. To handle the out-of-distribution nature of our synthetic videos, we propose an auxiliary objective for the base model that induces more reliable predictions of the localized event labels as desired. Our three-stage pipeline outperforms several existing AVEL methods with no architectural changes and improves performance on a related weakly-supervised task as well.
翻訳日:2023-07-20 16:35:53 公開日:2023-07-19
# 条件付きエントロピースクイージングは正規化エントロピー不確実性関係のステアリングを示すか?

Does conditional entropy squeezing indicate normalized entropic uncertainty relation steering? ( http://arxiv.org/abs/2307.05412v2 )

ライセンス: Link先を確認
A-S. F. Obada, M. Y. Abd-Rabbou and Saeed Haddadi(参考訳) 2量子ビット系の一方向正規化エントロピー不確かさ関係(neur)ステアリングを条件エントロピー平均スクイージングを用いて評価する新しい手法を提案する。 条件付きエントロピースクイージングと神経ステアリングの数学的表現を導出して提示する。 2つの測度間の関係をよりよく理解するために、2量子状態の集合上で比較分析を行う。 以上の結果から,両尺度は最大絡み合った状態に適用した場合に完全類似性を示す一方で,一部絡み合った状態に対して,小さな偏差で同等の挙動を示すことが明らかとなった。 さらに、この2つの測度は加速度、ノイズチャネル、スワッピングなどの量子過程によって比例的に影響を受けることが観察された。 その結果,条件付きエントロピースクイーズの平均値がNEURステアリングの有効な指標であることが判明した。

A novel approach is introduced to assess one-way Normalized Entropic Uncertainty Relations (NEUR)-steering in a two-qubit system by utilizing an average of conditional entropy squeezing. The mathematical expressions of conditional entropy squeezing and NEUR-steering are derived and presented. To gain a better understanding of the relationship between the two measures, a comparative analysis is conducted on a set of two-qubit states. Our results reveal that the two measures exhibit complete similarity when applied to a maximally entangled state, while they display comparable behavior with minor deviations for partially entangled states. Additionally, it is observed that the two measures are proportionally affected by some quantum processes such as acceleration, noisy channels, and swapping. As a result, the average of conditional entropy squeezing proves to be an effective indicator of NEUR-steering.
翻訳日:2023-07-20 16:35:32 公開日:2023-07-19
# CValues: 安全から責任まで,中国の大規模言語モデルの価値を測定する

CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility ( http://arxiv.org/abs/2307.09705v1 )

ライセンス: Link先を確認
Guohai Xu, Jiayi Liu, Ming Yan, Haotian Xu, Jinghui Si, Zhuoran Zhou, Peng Yi, Xing Gao, Jitao Sang, Rong Zhang, Ji Zhang, Chao Peng, Fei Huang, Jingren Zhou(参考訳) 大規模言語モデル(llm)の急速な進化に伴い、リスクや社会的影響をもたらすのではないかという懸念が高まっている。 そのため、人的価値アライメントの評価の重要性が高まっている。 従来の研究は主に、特定の知識と推論能力に基づいてLLMのパフォーマンスを評価することに焦点を当て、特に中国の文脈において、人的価値との整合性を無視している。 本稿では,安全性と責任基準の両面からLCMのアライメント能力を測定するため,中国初の人的価値評価ベンチマークであるCValuesを提案する。 その結果、専門家による10のシナリオにまたがる敵対的安全プロンプトと8つのドメインから引き起こされた責任プロンプトを手作業で収集した。 中国語llmの包括的価値評価を行うため、信頼性の高い比較のためのヒューマン評価を行うだけでなく、自動評価のためのマルチチョイスプロンプトを構築する。 以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。 また, 自動評価と人的評価は, 異なる側面における人的価値アライメントを評価する上で重要である。 ベンチマークとコードはmodelscopeとgithubで入手できる。

With the rapid evolution of large language models (LLMs), there is a growing concern that they may pose risks or have negative social impacts. Therefore, evaluation of human values alignment is becoming increasingly important. Previous work mainly focuses on assessing the performance of LLMs on certain knowledge and reasoning abilities, while neglecting the alignment to human values, especially in a Chinese context. In this paper, we present CValues, the first Chinese human values evaluation benchmark to measure the alignment ability of LLMs in terms of both safety and responsibility criteria. As a result, we have manually collected adversarial safety prompts across 10 scenarios and induced responsibility prompts from 8 domains by professional experts. To provide a comprehensive values evaluation of Chinese LLMs, we not only conduct human evaluation for reliable comparison, but also construct multi-choice prompts for automatic evaluation. Our findings suggest that while most Chinese LLMs perform well in terms of safety, there is considerable room for improvement in terms of responsibility. Moreover, both the automatic and human evaluation are important for assessing the human values alignment in different aspects. The benchmark and code is available on ModelScope and Github.
翻訳日:2023-07-20 15:47:25 公開日:2023-07-19
# LLMの効率的なガイド生成

Efficient Guided Generation for LLMs ( http://arxiv.org/abs/2307.09702v1 )

ライセンス: Link先を確認
Brandon T. Willard and R\'emi Louf(参考訳) 本稿では,正規表現と文脈自由文法を用いた言語モデルテキスト生成のための効率的な手法について述べる。 我々のアプローチはトークンシーケンス生成プロセスにほとんどオーバーヘッドを課さず、ガイド生成を実際に実現可能にする。 実装はオープンソースのPythonライブラリOutlinesで提供されている。

In this article we describe an efficient approach to guiding language model text generation with regular expressions and context-free grammars. Our approach adds little to no overhead to the token sequence generation process, and makes guided generation feasible in practice. An implementation is provided in the open source Python library Outlines.
翻訳日:2023-07-20 15:47:06 公開日:2023-07-19
# Efficency Pentathlon: 効率評価のための標準化されたアリーナ

Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation ( http://arxiv.org/abs/2307.09701v1 )

ライセンス: Link先を確認
Hao Peng, Qingqing Cao, Jesse Dodge, Matthew E. Peters, Jared Fernandez, Tom Sherborne, Kyle Lo, Sam Skjonsberg, Emma Strubell, Darrell Plessas, Iz Beltagy, Evan Pete Walsh, Noah A. Smith, Hannaneh Hajishirzi(参考訳) 現代の自然言語処理(NLP)システムの計算要求の増加は、深刻な環境問題に対処しつつ、最先端の研究への参入障壁を高めている。 しかし、モデル評価と比較の実践的な課題によって、モデル効率の進歩が妨げられている。 例えば、ハードウェアは異なる機関間で異なるアクセシビリティレベルのために制御することが難しい。 さらに、フロップのようなメトリクスの改善は、しばしば実世界のアプリケーションの進捗に変換できない。 モデル効率の総合的および現実的な評価のためのベンチマークであるPentathlonを紹介する。 Pentathlonはモデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。 厳格に制御されたハードウェアプラットフォームを提供し、現実世界のアプリケーションシナリオを反映するように設計されている。 レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。 Pentathlonには、あらゆるコードベースにシームレスに統合され、評価を可能にするソフトウェアライブラリも付属している。 標準化された集中型評価プラットフォームであるPentathlonは、作業負荷を大幅に削減し、公正かつ再現可能な効率比較を可能にする。 当初は自然言語処理(NLP)モデルに重点を置いていたが、Pentathlonは他の分野への柔軟な拡張を可能にするように設計されている。 我々は,Pentathlonが効率的なモデル構築におけるアルゴリズムの革新を刺激し,次世代のNLPモデルの開発における社会的・環境的影響の認識を高めることを期待する。

Rising computational demands of modern natural language processing (NLP) systems have increased the barrier to entry for cutting-edge research while posing serious environmental concerns. Yet, progress on model efficiency has been impeded by practical challenges in model evaluation and comparison. For example, hardware is challenging to control due to disparate levels of accessibility across different institutions. Moreover, improvements in metrics such as FLOPs often fail to translate to progress in real-world applications. In response, we introduce Pentathlon, a benchmark for holistic and realistic evaluation of model efficiency. Pentathlon focuses on inference, which accounts for a majority of the compute in a model's lifecycle. It offers a strictly-controlled hardware platform, and is designed to mirror real-world applications scenarios. It incorporates a suite of metrics that target different aspects of efficiency, including latency, throughput, memory overhead, and energy consumption. Pentathlon also comes with a software library that can be seamlessly integrated into any codebase and enable evaluation. As a standardized and centralized evaluation platform, Pentathlon can drastically reduce the workload to make fair and reproducible efficiency comparisons. While initially focused on natural language processing (NLP) models, Pentathlon is designed to allow flexible extension to other fields. We envision Pentathlon will stimulate algorithmic innovations in building efficient models, and foster an increased awareness of the social and environmental implications in the development of future-generation NLP models.
翻訳日:2023-07-20 15:47:01 公開日:2023-07-19
# 異種処理効果推定のためのr-learningと逆分散重み付けの関連

The Connection Between R-Learning and Inverse-Variance Weighting for Estimation of Heterogeneous Treatment Effects ( http://arxiv.org/abs/2307.09700v1 )

ライセンス: Link先を確認
Aaron Fisher(参考訳) 私たちのモチベーションは、広く普及しているR-Learnerのパフォーマンスを明るくすることにあります。 条件平均処理効果(CATE)を推定する他の多くの方法と同様に、R-Learningは重み付き擬似アウトカム回帰(POR)として表現できる。 従来のPOR手法との比較は、擬似アウトカム変換の選択に注意を払っている。 しかし、我々はパフォーマンスの主要な要因が重みの選択であると主張する。 具体的には、R-LearningはPORの逆分散重み付け形式を暗黙的に実行する。 これらの重みは回帰を安定化し、バイアス項の簡易化を可能にする。

Our motivation is to shed light the performance of the widely popular "R-Learner." Like many other methods for estimating conditional average treatment effects (CATEs), R-Learning can be expressed as a weighted pseudo-outcome regression (POR). Previous comparisons of POR techniques have paid careful attention to the choice of pseudo-outcome transformation. However, we argue that the dominant driver of performance is actually the choice of weights. Specifically, we argue that R-Learning implicitly performs an inverse-variance weighted form of POR. These weights stabilize the regression and allow for convenient simplifications of bias terms.
翻訳日:2023-07-20 15:46:39 公開日:2023-07-19
# より深い画像登録に向けて

Towards Saner Deep Image Registration ( http://arxiv.org/abs/2307.09696v1 )

ライセンス: Link先を確認
Bin Duan and Ming Zhong and Yan Yan(参考訳) 近年のコンピューティングハードウェアの進歩とディープラーニングアーキテクチャの急激な普及により、学習に基づくディープラーニングの登録方法は、メトリックのパフォーマンスと推論時間の観点から、従来のものを上回っている。 しかし、これらの手法はDiceのようなパフォーマンス測定の改善に重点を置いており、特に医用画像の登録に等しく望ましいモデル行動にはあまり注意を払わない。 本稿では, 衛生検査顕微鏡を用いて, 一般的な学習に基づく深層登録のための行動について検討する。 既存のほとんどの登録は、過度に最適化された画像類似性により、逆一貫性が低く、同一のペアの非識別に悩まされている。 これらの挙動を正すため、深層モデルに2つの正則性チェックを課し、逆一貫性エラーを低減し、同時に判別能力を高める新しい正則化ベースの正則性強化法を提案する。 さらに, 画像の正当性チェック手法に関する理論的保証のセットを導出し, 理論的結果と, 性能を犠牲にすることなくモデルの正当性向上に有効性を示す実験結果を得た。 私たちのコードとモデルは、 \url{https://github.com/tuffr5/Saner-deep-registration}で利用可能です。

With recent advances in computing hardware and surges of deep-learning architectures, learning-based deep image registration methods have surpassed their traditional counterparts, in terms of metric performance and inference time. However, these methods focus on improving performance measurements such as Dice, resulting in less attention given to model behaviors that are equally desirable for registrations, especially for medical imaging. This paper investigates these behaviors for popular learning-based deep registrations under a sanity-checking microscope. We find that most existing registrations suffer from low inverse consistency and nondiscrimination of identical pairs due to overly optimized image similarities. To rectify these behaviors, we propose a novel regularization-based sanity-enforcer method that imposes two sanity checks on the deep model to reduce its inverse consistency errors and increase its discriminative power simultaneously. Moreover, we derive a set of theoretical guarantees for our sanity-checked image registration method, with experimental results supporting our theoretical findings and their effectiveness in increasing the sanity of models without sacrificing any performance. Our code and models are available at \url{https://github.com/tuffr5/Saner-deep-registration}.
翻訳日:2023-07-20 15:46:28 公開日:2023-07-19
# 物理量子アニールのない量子アニールについて

On Quantum Annealing Without a Physical Quantum Annealer ( http://arxiv.org/abs/2307.09695v1 )

ライセンス: Link先を確認
Ameya Bhave, Ajinkya Borle(参考訳) 量子アニーリング(quantum annealing)は、組合せ最適化問題を解決するための新しいメタヒューリスティックである。 しかし、ハードウェアベースの物理量子アニールは主に単一のベンダーに限られている。 代替として、量子アニールプロセス(分散量子アニールまたはDiQA)を識別し、ゲートモデル量子コンピュータで使用することができる。 そこで本研究では,同様のステップのシミュレーションアニーリングに対するdiqaのベンチマークを行った。 そこで我々は,従来のアニーリング手順を(相対的に)低深さのdiqa回路を用いて高速化できるハイブリッド量子古典ヒューリスティック,quantum accelerated simulated annealing(qasa)を提案し,評価する。 これは (i)完全回路の深さのほんの一部で部分焼鈍スキームを実行すること (ii)回路から結果をサンプリングし、ギブス分布に適合させ、 (iii)ギブス分布の逆温度と最良試料を用いてシミュレートアニーリング(sa)を初期化すること。 シミュレーションの結果,QASAはSAと相容れない性能を示したが,段差は小さくなった。 我々の研究の有望な成果により、固定パラメータ量子最適化の分野における将来的な研究への関心が生まれることを期待している。

Quantum annealing is an emerging metaheuristic used for solving combinatorial optimisation problems. However, hardware based physical quantum annealers are primarily limited to a single vendor. As an alternative, we can discretise the quantum annealing process (discretised quantum annealing or DiQA) and use it on gate-model quantum computers. In this work, we first benchmark DiQA against simulated annealing for a similar number of steps. We then propose and evaluate a hybrid quantum classical heuristic: Quantum Accelerated Simulated Annealing (QASA), where the traditional classical annealing procedure can be sped up with the use of (relatively) low depth DiQA circuits. This is done by (i) running a partial annealing scheme with a fraction of the depth of the complete circuit (ii) sampling the results from the circuit and fitting a Gibbs distribution on it and (iii) Using the inverse temperature of the Gibbs distribution and the best sample to initialise simulated annealing (SA). Our simulation results show QASA performing comparably to SA but for a reduced amount of steps. With the promising results of our work, we hope to generate interest for potential future work in the area of fixed-parameter quantum optimisation.
翻訳日:2023-07-20 15:46:08 公開日:2023-07-19
# GlobalMapper: 任意形状の都市レイアウト生成

GlobalMapper: Arbitrary-Shaped Urban Layout Generation ( http://arxiv.org/abs/2307.09693v1 )

ライセンス: Link先を確認
Liu He, Daniel Aliaga(参考訳) 都市建築レイアウトのモデル化と設計は、コンピュータビジョン、コンピュータグラフィックス、都市アプリケーションに大きな関心を持っている。 建物のレイアウトは、道路網によって定義される都市ブロック内の建物のセットで構成されています。 建物配置は, 様々な形状の建物の複数列からなる離散構造であり, 任意の都市ブロック形状を標準形状にマッピングするスケルトン化に寄与すると考えられる。 そこで我々は,グラフアテンションネットワークを用いたレイアウト生成のための完全自動手法を提案する。 本手法は任意の道路網を与えられた都市レイアウトを現実的に生成し,事前学習に基づく条件付き生成を可能にする。 本研究は,28都市を対象にしたレイアウト生成により,従来のレイアウト生成ネットワークに比べて優れた性能を示し,任意の都市ブロックや建物形状のバリエーションを提示する。

Modeling and designing urban building layouts is of significant interest in computer vision, computer graphics, and urban applications. A building layout consists of a set of buildings in city blocks defined by a network of roads. We observe that building layouts are discrete structures, consisting of multiple rows of buildings of various shapes, and are amenable to skeletonization for mapping arbitrary city block shapes to a canonical form. Hence, we propose a fully automatic approach to building layout generation using graph attention networks. Our method generates realistic urban layouts given arbitrary road networks, and enables conditional generation based on learned priors. Our results, including user study, demonstrate superior performance as compared to prior layout generation networks, support arbitrary city block and varying building shapes as demonstrated by generating layouts for 28 large cities.
翻訳日:2023-07-20 15:45:49 公開日:2023-07-19
# STRAPPER:自己学習とピア正規化による優先型強化学習

STRAPPER: Preference-based Reinforcement Learning via Self-training Augmentation and Peer Regularization ( http://arxiv.org/abs/2307.09692v1 )

ライセンス: Link先を確認
Yachen Kang, Li He, Jinxin Liu, Zifeng Zhuang, Donglin Wang(参考訳) 優先に基づく強化学習(PbRL)は、複雑な報酬関数の学習を約束する。 しかし、このようなヒューマン・イン・ザ・ループの定式化は、セグメントペアに優先ラベルを割り当てるためにかなりの人間の努力を必要とし、大規模な応用を妨げる。 最近のアプローチでは、ラベルのないセグメントを再利用しようと試みており、セグメントの分布を暗黙的に解明し、それによって人間の努力を軽減している。 さらに, 整合性正規化は, 半教師付き学習の性能を向上させると考えられる。 しかし、一般的な分類タスクとは異なり、PbRLでは類似性トラップとして定義したユニークな現象を排除している。 直感的には、人間は類似したセグメントペアに対して対数的に反対の傾向を持つことができるが、そのような類似性はPbRLにおける一貫性の規則化を阻害する可能性がある。 このような一貫性正規化は、類似性トラップの存在により、セグメントペア間のモデルの予測の一貫性を不適切に向上させ、pbrlにおける拡張分布が元の分布と一致しないため、報酬学習の信頼性を低下させる。 このような課題を克服するために,提案するピア正規化とともに自己学習手法を提案する。 実験により,提案手法は,異なる半教師付き選択肢とピア正規化を用いて,様々なロコモーションやロボット操作の動作を十分に学習できることを実証する。

Preference-based reinforcement learning (PbRL) promises to learn a complex reward function with binary human preference. However, such human-in-the-loop formulation requires considerable human effort to assign preference labels to segment pairs, hindering its large-scale applications. Recent approache has tried to reuse unlabeled segments, which implicitly elucidates the distribution of segments and thereby alleviates the human effort. And consistency regularization is further considered to improve the performance of semi-supervised learning. However, we notice that, unlike general classification tasks, in PbRL there exits a unique phenomenon that we defined as similarity trap in this paper. Intuitively, human can have diametrically opposite preferredness for similar segment pairs, but such similarity may trap consistency regularization fail in PbRL. Due to the existence of similarity trap, such consistency regularization improperly enhances the consistency possiblity of the model's predictions between segment pairs, and thus reduces the confidence in reward learning, since the augmented distribution does not match with the original one in PbRL. To overcome such issue, we present a self-training method along with our proposed peer regularization, which penalizes the reward model memorizing uninformative labels and acquires confident predictions. Empirically, we demonstrate that our approach is capable of learning well a variety of locomotion and robotic manipulation behaviors using different semi-supervised alternatives and peer regularization.
翻訳日:2023-07-20 15:45:35 公開日:2023-07-19
# 協調型MECシステムにおける共同サービスキャッシング・通信・資源配分:DRLに基づく二段階的アプローチ

Joint Service Caching, Communication and Computing Resource Allocation in Collaborative MEC Systems: A DRL-based Two-timescale Approach ( http://arxiv.org/abs/2307.09691v1 )

ライセンス: Link先を確認
Qianqian Liu and Haixia Zhang and Xin Zhang and Dongfeng Yuan(参考訳) 端末の厳格なQuality of Service (QoS) 要件を満たすため、マルチアクセスエッジコンピューティング (MEC) システムには、限られた多次元リソースが要求されている。 そこで本研究では,エッジサーバ間のリソース共有を容易にする協調型mecフレームワークを提案し,サービスキャッシング,協調オフフォアディング,計算および通信リソース割り当ての協調最適化により,長期qosを最大化し,キャッシュ切り替えコストを削減することを目的としている。 サービスキャッシングと他のリソース割り当ての2つのタイムスケール機能と一時的なリカレント関係は、この問題をさらに困難にします。 そこで本研究では,DGL-DDPGと呼ばれるDGL-DDPGという,DRLに基づく2次元時間スケールスキームを提案し,その手法として,短期遺伝的アルゴリズム(GA)と長期記憶ネットワークに基づくDeep Deterministic Policy gradient(LSTM-DDPG)を提案する。 そこで我々は,改良GAによって生成された小規模資源配分決定を状態として,集中型LSTM-DDPGエージェントに入力し,大規模なサービスキャッシュ決定を生成するマルコフ決定プロセス(MDP)として最適化問題を再構築する。 シミュレーションの結果,提案アルゴリズムは,平均QoSおよびキャッシュ切替コストの観点から,ベースラインアルゴリズムよりも優れていた。

Meeting the strict Quality of Service (QoS) requirements of terminals has imposed a signiffcant challenge on Multiaccess Edge Computing (MEC) systems, due to the limited multidimensional resources. To address this challenge, we propose a collaborative MEC framework that facilitates resource sharing between the edge servers, and with the aim to maximize the long-term QoS and reduce the cache switching cost through joint optimization of service caching, collaborative offfoading, and computation and communication resource allocation. The dual timescale feature and temporal recurrence relationship between service caching and other resource allocation make solving the problem even more challenging. To solve it, we propose a deep reinforcement learning (DRL)-based dual timescale scheme, called DGL-DDPG, which is composed of a short-term genetic algorithm (GA) and a long short-term memory network-based deep deterministic policy gradient (LSTM-DDPG). In doing so, we reformulate the optimization problem as a Markov decision process (MDP) where the small-timescale resource allocation decisions generated by an improved GA are taken as the states and input into a centralized LSTM-DDPG agent to generate the service caching decision for the large-timescale. Simulation results demonstrate that our proposed algorithm outperforms the baseline algorithms in terms of the average QoS and cache switching cost.
翻訳日:2023-07-20 15:45:07 公開日:2023-07-19
# Amazon-M2:レコメンデーションとテキスト生成のための多言語マルチローカルショッピングセッションデータセット

Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for Recommendation and Text Generation ( http://arxiv.org/abs/2307.09688v1 )

ライセンス: Link先を確認
Wei Jin, Haitao Mao, Zheng Li, Haoming Jiang, Chen Luo, Hongzhi Wen, Haoyu Han, Hanqing Lu, Zhengyang Wang, Ruirui Li, Zhen Li, Monica Xiao Cheng, Rahul Goutam, Haiyang Zhang, Karthik Subbian, Suhang Wang, Yizhou Sun, Jiliang Tang, Bing Yin, Xianfeng Tang(参考訳) 顧客ショッピングの意図をモデル化することは、ユーザー体験やエンゲージメントに直接影響を与えるため、eコマースにとって重要なタスクです。 したがって、パーソナライズドレコメンデーションの提供には、顧客の好みを正確に理解することが不可欠である。 顧客セッションデータを利用して次のインタラクションを予測するセッションベースのレコメンデーションが人気を集めている。 しかし、既存のセッションデータセットにはアイテム属性、ユーザの多様性、データセットスケールの制限がある。 その結果、ユーザー行動や嗜好のスペクトルを包括的に捉えることはできない。 このギャップを埋めるために、Amazon Multilingual Multi-locale Shopping Session Dataset、すなわちAmazon-M2を紹介します。 6つの異なる地域からの数百万のユーザセッションで構成された最初の多言語データセットで、製品の主要言語は英語、ドイツ語、日本語、フランス語、イタリア語、スペイン語である。 注目すべきは、データセットがパーソナライズとユーザの好みの理解を強化するのに役立つことだ。 データセットの可能性をテストするために,(1)次製品推薦,(2)ドメインシフトを伴う次製品推薦,(3)次製品タイトル生成という3つのタスクを導入する。 上記のタスクで、提案するデータセットに様々なアルゴリズムをベンチマークし、さらなる研究と実践のための新たな洞察を導きます。 さらに、提案されたデータセットとタスクに基づいて、kdd cup 2023でコンペを主催し、何千ものユーザと応募者を魅了しました。 勝利したソリューションと関連するワークショップは、当社のwebサイトhttps://kddcup23.github.io/で閲覧できます。

Modeling customer shopping intentions is a crucial task for e-commerce, as it directly impacts user experience and engagement. Thus, accurately understanding customer preferences is essential for providing personalized recommendations. Session-based recommendation, which utilizes customer session data to predict their next interaction, has become increasingly popular. However, existing session datasets have limitations in terms of item attributes, user diversity, and dataset scale. As a result, they cannot comprehensively capture the spectrum of user behaviors and preferences. To bridge this gap, we present the Amazon Multilingual Multi-locale Shopping Session Dataset, namely Amazon-M2. It is the first multilingual dataset consisting of millions of user sessions from six different locales, where the major languages of products are English, German, Japanese, French, Italian, and Spanish. Remarkably, the dataset can help us enhance personalization and understanding of user preferences, which can benefit various existing tasks as well as enable new tasks. To test the potential of the dataset, we introduce three tasks in this work: (1) next-product recommendation, (2) next-product recommendation with domain shifts, and (3) next-product title generation. With the above tasks, we benchmark a range of algorithms on our proposed dataset, drawing new insights for further research and practice. In addition, based on the proposed dataset and tasks, we hosted a competition in the KDD CUP 2023 and have attracted thousands of users and submissions. The winning solutions and the associated workshop can be accessed at our website https://kddcup23.github.io/.
翻訳日:2023-07-20 15:44:40 公開日:2023-07-19
# データセット凝縮のための分散マッチングの改善

Improved Distribution Matching for Dataset Condensation ( http://arxiv.org/abs/2307.09742v1 )

ライセンス: Link先を確認
Ganlong Zhao, Guanbin Li, Yipeng Qin, Yizhou Yu(参考訳) データセット凝縮(dataset condensation)は、パフォーマンスのよいモデルをトレーニングする能力を維持しながら、大きなデータセットを小さなデータセットに集約することを目的としている。 しかし、従来のデータセット凝縮法は最適化指向であり、モデル最適化中に勾配やパラメータマッチングを行い、小さなデータセットやモデルでも計算集約的である。 本稿では,より効率的かつ有望な分布マッチングに基づく新しいデータセット凝縮法を提案する。 具体的には,非平衡な特徴数と非平衡な埋め込み(距離計算)の2つの重要な欠点を特定し,これらを3つの新しい手法(分割と拡張強化,効率的なモデルサンプリング,クラス認識分布正規化)で解決する。 提案手法は,従来の最適化指向手法をはるかに少ない計算資源で上回り,データ凝縮を大規模データセットやモデルに拡大する。 広範な実験により本手法の有効性が実証された。 コードはhttps://github.com/uitrbn/idmで入手できる。

Dataset Condensation aims to condense a large dataset into a smaller one while maintaining its ability to train a well-performing model, thus reducing the storage cost and training effort in deep learning applications. However, conventional dataset condensation methods are optimization-oriented and condense the dataset by performing gradient or parameter matching during model optimization, which is computationally intensive even on small datasets and models. In this paper, we propose a novel dataset condensation method based on distribution matching, which is more efficient and promising. Specifically, we identify two important shortcomings of naive distribution matching (i.e., imbalanced feature numbers and unvalidated embeddings for distance computation) and address them with three novel techniques (i.e., partitioning and expansion augmentation, efficient and enriched model sampling, and class-aware distribution regularization). Our simple yet effective method outperforms most previous optimization-oriented methods with much fewer computational resources, thereby scaling data condensation to larger datasets and models. Extensive experiments demonstrate the effectiveness of our method. Codes are available at https://github.com/uitrbn/IDM
翻訳日:2023-07-20 15:39:17 公開日:2023-07-19
# ClickSeg: クリックレベル弱アノテーションによる3Dインスタンスセグメンテーション

ClickSeg: 3D Instance Segmentation with Click-Level Weak Annotations ( http://arxiv.org/abs/2307.09732v1 )

ライセンス: Link先を確認
Leyao Liu, Tao Kong, Minzhao Zhu, Jiashuo Fan, Lu Fang(参考訳) 3次元のインスタンスセグメンテーション法は、訓練のために完全に注釈付けされた高密度ラベルを必要とすることが多い。 本稿では,新しいクリックレベルの弱教師付き3dインスタンスセグメンテーション法clicksegを提案する。 このような問題は、これまでほとんど解決されなかった非常に限定的なラベルのため、非常に困難である。 まず,モデル自体によるラベルなしデータの擬似ラベルを生成するベースライン弱教師付きトレーニング手法を開発する。 クリックレベルのアノテーション設定の特性を活用するために,新たなトレーニングフレームワークを提案する。 モデル推論、すなわち平均シフトクラスタリングを直接使用して擬似ラベルを生成する代わりに、固定初期シードを持つk-meansを使用するように提案する。 新しい類似度メトリクスはクラスタリングのためにさらに設計されている。 ScanNetV2とS3DISデータセットの実験では、提案されたClickSegは、大きなマージン(ScanNetV2の+9.4% mAPなど)による、これまでで最も弱い教師付きインスタンスセグメンテーション結果を上回っている。 0.02%の監視信号だけで、ClickSegは完全な監督対象の精度の90%を$\sim$90%を達成する。 一方、同じアノテーション設定を使用する弱い教師付きメソッド間で、最先端のセマンティクスセグメンテーション結果も実現している。

3D instance segmentation methods often require fully-annotated dense labels for training, which are costly to obtain. In this paper, we present ClickSeg, a novel click-level weakly supervised 3D instance segmentation method that requires one point per instance annotation merely. Such a problem is very challenging due to the extremely limited labels, which has rarely been solved before. We first develop a baseline weakly-supervised training method, which generates pseudo labels for unlabeled data by the model itself. To utilize the property of click-level annotation setting, we further propose a new training framework. Instead of directly using the model inference way, i.e., mean-shift clustering, to generate the pseudo labels, we propose to use k-means with fixed initial seeds: the annotated points. New similarity metrics are further designed for clustering. Experiments on ScanNetV2 and S3DIS datasets show that the proposed ClickSeg surpasses the previous best weakly supervised instance segmentation result by a large margin (e.g., +9.4% mAP on ScanNetV2). Using 0.02% supervision signals merely, ClickSeg achieves $\sim$90% of the accuracy of the fully-supervised counterpart. Meanwhile, it also achieves state-of-the-art semantic segmentation results among weakly supervised methods that use the same annotation settings.
翻訳日:2023-07-20 15:38:57 公開日:2023-07-19
# NTIRE 2023 映像強調チャレンジの品質評価

NTIRE 2023 Quality Assessment of Video Enhancement Challenge ( http://arxiv.org/abs/2307.09729v1 )

ライセンス: Link先を確認
Xiaohong Liu, Xiongkuo Min, Wei Sun, Yulun Zhang, Kai Zhang, Radu Timofte, Guangtao Zhai, Yixuan Gao, Yuqin Cao, Tengchuan Kou, Yunlong Dong, Ziheng Jia, Yilin Li, Wei Wu, Shuming Hu, Sibin Deng, Pengxiang Xiao, Ying Chen, Kai Li, Kai Zhao, Kun Yuan, Ming Sun, Heng Cong, Hao Wang, Lingzhi Fu, Yusheng Zhang, Rongyu Zhang, Hang Shi, Qihang Xu, Longan Xiao, Zhiliang Ma, Mirko Agarla, Luigi Celona, Claudio Rota, Raimondo Schettini, Zhiwei Huang, Yanan Li, Xiaotao Wang, Lei Lei, Hongye Liu, Wei Hong, Ironhead Chuang, Allen Lin, Drake Guan, Iris Chen, Kae Lou, Willy Huang, Yachun Tasi, Yvonne Kao, Haotian Fan, Fangyuan Kong, Shiqi Zhou, Hao Liu, Yu Lai, Shanshan Chen, Wenqi Wang, Haoning Wu, Chaofeng Chen, Chunzheng Zhu, Zekun Guo, Shiling Zhao, Haibing Yin, Hongkui Wang, Hanene Brachemi Meftah, Sid Ahmed Fezza, Wassim Hamidouche, Olivier D\'eforges, Tengfei Shi, Azadeh Mansouri, Hossein Motamednia, Amir Hossein Bakhtiari, Ahmad Mahmoudi Aznaveh(参考訳) 本稿では,cvpr 2023における画像復元・強調ワークショップ(ntire)の新たな潮流に合わせて,ntire 2023の品質評価を行う。 この課題は、ビデオ処理分野における大きな課題、すなわち、強化されたビデオに対するビデオ品質評価(VQA)に取り組むことである。 この課題はVQA Dataset for Perceptual Video Enhancement (VDPVE)を使用しており、600本のビデオ、明るさ、コントラストの強化、310本のビデオ、デシェイクされたビデオ、301本を含む、合計1211本の強化されたビデオがある。 このチャレンジには合計167人の登録参加者がいる。 61の参加チームが開発期間中に予測結果を提出し、合計3168件が提出された。 最終テスト期間中に37の参加チームから合計176の応募が提出された。 最後に、19の参加チームがモデルとファクトシートを提出し、使用する方法の詳細を説明した。 いくつかの手法はベースライン法よりも優れた結果が得られ、勝利法は優れた予測性能を示した。

This paper reports on the NTIRE 2023 Quality Assessment of Video Enhancement Challenge, which will be held in conjunction with the New Trends in Image Restoration and Enhancement Workshop (NTIRE) at CVPR 2023. This challenge is to address a major challenge in the field of video processing, namely, video quality assessment (VQA) for enhanced videos. The challenge uses the VQA Dataset for Perceptual Video Enhancement (VDPVE), which has a total of 1211 enhanced videos, including 600 videos with color, brightness, and contrast enhancements, 310 videos with deblurring, and 301 deshaked videos. The challenge has a total of 167 registered participants. 61 participating teams submitted their prediction results during the development phase, with a total of 3168 submissions. A total of 176 submissions were submitted by 37 participating teams during the final testing phase. Finally, 19 participating teams submitted their models and fact sheets, and detailed the methods they used. Some methods have achieved better results than baseline methods, and the winning methods have demonstrated superior prediction performance.
翻訳日:2023-07-20 15:38:29 公開日:2023-07-19
# リアルタイム画像レイニングのための不確実性駆動多スケール機能融合ネットワーク

Uncertainty-Driven Multi-Scale Feature Fusion Network for Real-time Image Deraining ( http://arxiv.org/abs/2307.09728v1 )

ライセンス: Link先を確認
Ming Tong, Xuefeng Yan, Yongzhen Wang(参考訳) 視覚に基づく計測システムは、撮影画像の雨害による雨天の悪化によってしばしば影響を受けるが、既存の撮像装置はこの問題にリアルタイムで対処するのに苦労している。 ほとんどの取り組みは、画像デザイニングにディープネットワークを活用し、進歩したが、その大きなパラメータサイズは、リソース制約されたデバイスへのデプロイメントを妨げる。 さらに、これらのデータ駆動モデルはしばしば、その固有のてんかんの不確実性を考慮せずに決定論的結果を生成する。 適切に調整された不確実性は、予測エラーを緩和し、リスクを軽減し、ユーザビリティを向上させる測定装置を支援する。 そこで我々は,ペア画像間の確率マッピング分布を学習し,不確実性を推定する不確実性駆動型マルチスケール特徴フュージョンネットワーク(UMFFNet)を提案する。 具体的には,不確実性情報を活用した不確実性特徴融合ブロック (uffb) を導入し,取得した特徴を動的に拡張し,雨乱れによりぼやけた領域に着目し,予測誤差を低減した。 さらに,UMFFNetの性能をさらに向上するため,複数のスケールから特徴情報を融合させ,効率的な協調雨水除去を行う。 広範な実験により、UMFFNetは、最先端の画像デライニング手法を超越して、パラメータが少なく、大幅なパフォーマンス向上を実現している。

Visual-based measurement systems are frequently affected by rainy weather due to the degradation caused by rain streaks in captured images, and existing imaging devices struggle to address this issue in real-time. While most efforts leverage deep networks for image deraining and have made progress, their large parameter sizes hinder deployment on resource-constrained devices. Additionally, these data-driven models often produce deterministic results, without considering their inherent epistemic uncertainty, which can lead to undesired reconstruction errors. Well-calibrated uncertainty can help alleviate prediction errors and assist measurement devices in mitigating risks and improving usability. Therefore, we propose an Uncertainty-Driven Multi-Scale Feature Fusion Network (UMFFNet) that learns the probability mapping distribution between paired images to estimate uncertainty. Specifically, we introduce an uncertainty feature fusion block (UFFB) that utilizes uncertainty information to dynamically enhance acquired features and focus on blurry regions obscured by rain streaks, reducing prediction errors. In addition, to further boost the performance of UMFFNet, we fused feature information from multiple scales to guide the network for efficient collaborative rain removal. Extensive experiments demonstrate that UMFFNet achieves significant performance improvements with few parameters, surpassing state-of-the-art image deraining methods.
翻訳日:2023-07-20 15:38:09 公開日:2023-07-19
# SAMConvex:自己監督型解剖学的埋め込みと相関ピラミッドを用いたCTレジストレーションの高速離散最適化

SAMConvex: Fast Discrete Optimization for CT Registration using Self-supervised Anatomical Embedding and Correlation Pyramid ( http://arxiv.org/abs/2307.09727v1 )

ライセンス: Link先を確認
Zi Li and Lin Tian and Tony C. W. Mok and Xiaoyu Bai and Puyang Wang and Jia Ge and Jingren Zhou and Le Lu and Xianghua Ye and Ke Yan and Dakai Jin(参考訳) 特徴空間で計算されたコストボリュームによる変位ベクトル場の推定は、画像登録において大きな成功を収めているが、過剰な計算負荷を被っている。 さらに,既存の特徴記述子はグローバルな意味情報を表現できない局所的特徴のみを抽出する。 この課題に対処するために, SAMConvexを提案する。これは, 局所情報とグローバル情報の両方をキャプチャする自己教師付解剖学的埋込み(SAM)特徴抽出器に基づく変形場を得るための, 分離凸最適化手順を含む高速で粗い離散的なCT登録法である。 具体的には、SAMConvexは、SAM特徴に基づいてボクセルごとの特徴を抽出し、6次元相関ボリュームを構築し、粗大なスキームで相関ボリュームのルックアップを行い、フローフィールドを反復的に更新する。 SAMConvexは、2つの患者間登録データセット(Abdomen CTとHeadNeck CT)と1つの患者間登録データセット(Lung CT)において、最先端の学習ベース手法と最適化ベースの手法より優れている。 さらに、最適化ベースのメソッドとして、samconvexは1対のイメージに対して$\sim2$s(インスタンス最適化で$\sim5s$)だけを取る。

Estimating displacement vector field via a cost volume computed in the feature space has shown great success in image registration, but it suffers excessive computation burdens. Moreover, existing feature descriptors only extract local features incapable of representing the global semantic information, which is especially important for solving large transformations. To address the discussed issues, we propose SAMConvex, a fast coarse-to-fine discrete optimization method for CT registration that includes a decoupled convex optimization procedure to obtain deformation fields based on a self-supervised anatomical embedding (SAM) feature extractor that captures both local and global information. To be specific, SAMConvex extracts per-voxel features and builds 6D correlation volumes based on SAM features, and iteratively updates a flow field by performing lookups on the correlation volumes with a coarse-to-fine scheme. SAMConvex outperforms the state-of-the-art learning-based methods and optimization-based methods over two inter-patient registration datasets (Abdomen CT and HeadNeck CT) and one intra-patient registration dataset (Lung CT). Moreover, as an optimization-based method, SAMConvex only takes $\sim2$s ($\sim5s$ with instance optimization) for one paired images.
翻訳日:2023-07-20 15:37:45 公開日:2023-07-19
# AesPA-Net:美的パターン認識型転送ネットワーク

AesPA-Net: Aesthetic Pattern-Aware Style Transfer Networks ( http://arxiv.org/abs/2307.09724v1 )

ライセンス: Link先を確認
Kibeom Hong, Seogkyu Jeon, Junsoo Lee, Namhyuk Ahn, Kunhee Kim, Pilhyeon Lee, Daesik Kim, Youngjung Uh, Hyeran Byun(参考訳) 対象のスタイルを芸術的に表現するために、近年の研究では、スタイル画像の局所パッチをコンテンツ画像の対応するパッチにマッピングする能力により、注意機構を活用している。 しかし、任意の内容とアートワークのセマンティックな対応が低いため、アテンションモジュールはスタイルイメージから特定のローカルパッチを乱用し、不調和で明らかな反復的なアーティファクトをもたらす。 この制限を克服し,芸術的なスタイルの伝達を困難にするため,注意機構の強化とスタイルを整理するパターンのリズムの獲得に重点を置いている。 本稿では,スタイル画像におけるパターンの反復を定量化する新しい指標であるパターン反復可能性について述べる。 このパターン再現性に基づき,局所的およびグローバル的表現のスイートスポットを探索する美的パターン認識型転送ネットワーク(aespa-net)を提案する。 さらに,注意機構が正確で意味のある意味的対応を学習することを奨励する,新たな自己監督タスクを提案する。 最後に,局所パターンの精巧なリズムを伝達するためにパッチワイズスタイルロスを導入する。 定量的に定量的な評価を行い,人間の知覚に適合するパターン再現性の信頼性を検証し,提案手法の優れていることを示す。

To deliver the artistic expression of the target style, recent studies exploit the attention mechanism owing to its ability to map the local patches of the style image to the corresponding patches of the content image. However, because of the low semantic correspondence between arbitrary content and artworks, the attention module repeatedly abuses specific local patches from the style image, resulting in disharmonious and evident repetitive artifacts. To overcome this limitation and accomplish impeccable artistic style transfer, we focus on enhancing the attention mechanism and capturing the rhythm of patterns that organize the style. In this paper, we introduce a novel metric, namely pattern repeatability, that quantifies the repetition of patterns in the style image. Based on the pattern repeatability, we propose Aesthetic Pattern-Aware style transfer Networks (AesPA-Net) that discover the sweet spot of local and global style expressions. In addition, we propose a novel self-supervisory task to encourage the attention mechanism to learn precise and meaningful semantic correspondence. Lastly, we introduce the patch-wise style loss to transfer the elaborate rhythm of local patterns. Through qualitative and quantitative evaluations, we verify the reliability of the proposed pattern repeatability that aligns with human perception, and demonstrate the superiority of the proposed framework.
翻訳日:2023-07-20 15:37:18 公開日:2023-07-19
# エンティティリンクのためのマルチグリッドマルチモーダルインタラクションネットワーク

Multi-Grained Multimodal Interaction Network for Entity Linking ( http://arxiv.org/abs/2307.09721v1 )

ライセンス: Link先を確認
Pengfei Luo, Tong Xu, Shiwei Wu, Chen Zhu, Linli Xu, Enhong Chen(参考訳) マルチモーダルな知識グラフへの曖昧な言及を解決することを目的としたマルチモーダルエンティティリンク(MEL)タスクが近年注目を集めている。 しかし、複数のモダリティ間の相補的な効果を探求するために大きな努力がなされているが、省略されたテクストコンテキストと暗黙の視覚的表示の包括的表現を完全に吸収できない可能性がある。 さらに悪いことに、必然的な騒がしいデータは、学習プロセス中に異なるモダリティの不一致を引き起こし、パフォーマンスが著しく低下する可能性がある。 本稿では,MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $\textbf{(MIMIC)}$ frameworkを提案する。 具体的には、言及と実体の統一入力は、まずテキスト/ビジュアルエンコーダによって別々にエンコードされ、グローバルな記述的特徴と局所的な詳細な特徴を抽出する。 そこで,各言及対の類似度マッチングスコアを導出するために,3つのインタラクションユニットを用いて,エンティティと参照の特徴間のモーダル間相互作用とモーダル間融合を包括的に探索する。 特に、tglu(text-based global-local interaction unit)、vdlu(vision-based dual interaction unit)、cmfu(cross-modal fusion-based interaction unit)の3つのモジュールは、省略されたテキストと暗黙の視覚的手がかりにあるきめ細かい表現をキャプチャして統合するように設計されている。 その後,不整合やモデル劣化を避けるために,コントラスト学習による単位整合目的関数を導入する。 3つの公開ベンチマークデータセットによる実験結果から,我々のソリューションは様々な最先端のベースラインよりも優れており,アブレーションによる検証により設計モジュールの有効性が検証された。

Multimodal entity linking (MEL) task, which aims at resolving ambiguous mentions to a multimodal knowledge graph, has attracted wide attention in recent years. Though large efforts have been made to explore the complementary effect among multiple modalities, however, they may fail to fully absorb the comprehensive expression of abbreviated textual context and implicit visual indication. Even worse, the inevitable noisy data may cause inconsistency of different modalities during the learning process, which severely degenerates the performance. To address the above issues, in this paper, we propose a novel Multi-GraIned Multimodal InteraCtion Network $\textbf{(MIMIC)}$ framework for solving the MEL task. Specifically, the unified inputs of mentions and entities are first encoded by textual/visual encoders separately, to extract global descriptive features and local detailed features. Then, to derive the similarity matching score for each mention-entity pair, we device three interaction units to comprehensively explore the intra-modal interaction and inter-modal fusion among features of entities and mentions. In particular, three modules, namely the Text-based Global-Local interaction Unit (TGLU), Vision-based DuaL interaction Unit (VDLU) and Cross-Modal Fusion-based interaction Unit (CMFU) are designed to capture and integrate the fine-grained representation lying in abbreviated text and implicit visual cues. Afterwards, we introduce a unit-consistency objective function via contrastive learning to avoid inconsistency and model degradation. Experimental results on three public benchmark datasets demonstrate that our solution outperforms various state-of-the-art baselines, and ablation studies verify the effectiveness of designed modules.
翻訳日:2023-07-20 15:36:56 公開日:2023-07-19
# マルチラベル画像分類のためのsemantic-aware dual contrastive learning

Semantic-Aware Dual Contrastive Learning for Multi-label Image Classification ( http://arxiv.org/abs/2307.09715v1 )

ライセンス: Link先を確認
Leilei Ma, Dengdi Sun, Lei Wang, Haifang Zhao and Bin Luo(参考訳) 画像のセマンティクスを効果的に抽出し、対応するラベルを複数のオブジェクトや属性に割り当てることは、複雑なシーンの内容とラベル依存の混乱のために困難である。 最近の研究はグラフとのラベル関係のモデル化とクラスアクティベーションマップ(CAM)を用いたオブジェクト領域の理解に焦点を当てている。 しかし、これらの手法は、特定の意味的特徴間の複雑なカテゴリー内およびカテゴリー間関係を無視し、CAMはノイズの多い情報を生成する傾向にある。 そこで本研究では,サンプルからサンプルへのコントラスト学習 (sscl) とプロトタイプからサンプルへのコントラスト学習 (pscl) を併用した,新しいセマンティクス・アウェア・デュアルコントラスト学習フレームワークを提案する。 具体的には,セマンティクス・アウェア表現学習を用いて,カテゴリー関連局所識別特徴の抽出とカテゴリプロトタイプの構築を行う。 そして、ssclに基づいて、同一カテゴリのラベルレベルの視覚的表現を集約し、異なるカテゴリに属する特徴を分離する。 一方, 正のサンプルとカテゴリのプロトタイプとの距離を狭め, 負のサンプルを対応するカテゴリのプロトタイプから遠ざける新しいpsclモジュールを構築した。 そして、上記3つの部品の合同訓練により、画像内容に関する識別ラベルレベル特徴を正確に取得する。 5つの挑戦的な大規模公開データセットの実験により,提案手法が有効であり,最先端の手法よりも優れていることを示す。 コードと補足資料はhttps://github.com/yu-gi-oh-leilei/SADCLで公開されている。

Extracting image semantics effectively and assigning corresponding labels to multiple objects or attributes for natural images is challenging due to the complex scene contents and confusing label dependencies. Recent works have focused on modeling label relationships with graph and understanding object regions using class activation maps (CAM). However, these methods ignore the complex intra- and inter-category relationships among specific semantic features, and CAM is prone to generate noisy information. To this end, we propose a novel semantic-aware dual contrastive learning framework that incorporates sample-to-sample contrastive learning (SSCL) as well as prototype-to-sample contrastive learning (PSCL). Specifically, we leverage semantic-aware representation learning to extract category-related local discriminative features and construct category prototypes. Then based on SSCL, label-level visual representations of the same category are aggregated together, and features belonging to distinct categories are separated. Meanwhile, we construct a novel PSCL module to narrow the distance between positive samples and category prototypes and push negative samples away from the corresponding category prototypes. Finally, the discriminative label-level features related to the image content are accurately captured by the joint training of the above three parts. Experiments on five challenging large-scale public datasets demonstrate that our proposed method is effective and outperforms the state-of-the-art methods. Code and supplementary materials are released on https://github.com/yu-gi-oh-leilei/SADCL.
翻訳日:2023-07-20 15:36:20 公開日:2023-07-19
# 自律移動制御のための小隊知能--ディープラーニングレシピの実現

Two Tales of Platoon Intelligence for Autonomous Mobility Control: Enabling Deep Learning Recipes ( http://arxiv.org/abs/2307.09711v1 )

ライセンス: Link先を確認
Soohyun Park, Haemin Lee, Chanyoung Park, Soyi Jung, Minseok Choi, Joongheon Kim(参考訳) 本稿では,自律移動制御の課題と,自律走行車および無人機の効率的な資源管理,すなわち,ディープラーニングに基づく最近の成果について述べる。 (i)マルチエージェント強化学習(marl)、及び (二)ニューラル・マーソン競売。 代表的に、最も人気のあるMARLアルゴリズムの1つである通信ネットワーク(CommNet)が導入された。複数のエージェントが単一のニューラルネットワークですべてのエージェントの状態とアクションをトレーニングすることで、共有目標に対して分散的にアクションを実行できる。 さらに、ニューラルマイヤーソンオークションは、複数のエージェント間の信頼性を保証するとともに、高度にダイナミックなシステムの最適収益を達成する。 そこで我々は,MARLとニューラルマイソンオークションに基づく自律移動制御に関する最近の研究を調査した。 さらに,MARLとニューラルマイソンのオークションの統合は,効率的で信頼性の高い自律型モビリティサービスにとって重要であることを強調した。

This paper presents the deep learning-based recent achievements to resolve the problem of autonomous mobility control and efficient resource management of autonomous vehicles and UAVs, i.e., (i) multi-agent reinforcement learning (MARL), and (ii) neural Myerson auction. Representatively, communication network (CommNet), which is one of the most popular MARL algorithms, is introduced to enable multiple agents to take actions in a distributed manner for their shared goals by training all agents' states and actions in a single neural network. Moreover, the neural Myerson auction guarantees trustfulness among multiple agents as well as achieves the optimal revenue of highly dynamic systems. Therefore, we survey the recent studies on autonomous mobility control based on MARL and neural Myerson auction. Furthermore, we emphasize that integration of MARL and neural Myerson auction is expected to be critical for efficient and trustful autonomous mobility services.
翻訳日:2023-07-20 15:35:55 公開日:2023-07-19
# RaTE:ギャップを埋めることによる再現可能な自動分類評価

RaTE: a Reproducible automatic Taxonomy Evaluation by Filling the Gap ( http://arxiv.org/abs/2307.09706v1 )

ライセンス: Link先を確認
Tianjian Gao and Phillipe Langlais(参考訳) 分類学は重要な知識表現であるが、自動分類学構築(ATC)に関するほとんどの研究は、提案されたアルゴリズムを手動で評価することで評価する。 我々は,自動分類評価(ate)は分類構築と同じくらい重要であると主張する。 本稿では,大規模な事前学習型言語モデルに依存するラベルなしの自動分類法であるRaTEを提案する。 評価手順を3つの最先端ATCアルゴリズムに適用し,Yelpドメインから7つの分類体系を構築した。 1)RaTEは人間の判断とよく相関する。 2)分類を人為的に劣化させるとRaTEスコアが低下する。

Taxonomies are an essential knowledge representation, yet most studies on automatic taxonomy construction (ATC) resort to manual evaluation to score proposed algorithms. We argue that automatic taxonomy evaluation (ATE) is just as important as taxonomy construction. We propose RaTE, an automatic label-free taxonomy scoring procedure, which relies on a large pre-trained language model. We apply our evaluation procedure to three state-of-the-art ATC algorithms with which we built seven taxonomies from the Yelp domain, and show that 1) RaTE correlates well with human judgments and 2) artificially degrading a taxonomy leads to decreasing RaTE score.
翻訳日:2023-07-20 15:35:37 公開日:2023-07-19
# 確率的フィルタリングとパターン認識を用いた反応拡散複素ネットワークにおけるPODモデル削減手法の強化

Reinforcing POD based model reduction techniques in reaction-diffusion complex networks using stochastic filtering and pattern recognition ( http://arxiv.org/abs/2307.09762v1 )

ライセンス: Link先を確認
Abhishek Ajayakumar, Soumyendu Raha(参考訳) 複雑なネットワークは多くの実世界のシステムをモデル化するために使われる。 しかし、これらのシステムの次元性は解析を難しくする可能性がある。 このような場合、PODのような次元減少技術を用いることができる。 しかし、これらのモデルは入力データの摂動に影響を受けやすい。 本稿では,パターン認識(PR)と確率的フィルタリング理論を組み合わせたアルゴリズムフレームワークを提案する。 その結果,提案手法は摂動入力下での代理モデルの精度を向上させることができることがわかった。 ディープニューラルネットワーク(DNN)は敵の攻撃を受けやすい。 しかし、最近の研究では、神経常微分方程式(ODE)が特定の応用において堅牢性を示すことが明らかになっている。 我々は,ニューラルネットワークによるアプローチを基準として,アルゴリズムフレームワークをベンチマークする。

Complex networks are used to model many real-world systems. However, the dimensionality of these systems can make them challenging to analyze. Dimensionality reduction techniques like POD can be used in such cases. However, these models are susceptible to perturbations in the input data. We propose an algorithmic framework that combines techniques from pattern recognition (PR) and stochastic filtering theory to enhance the output of such models. The results of our study show that our method can improve the accuracy of the surrogate model under perturbed inputs. Deep Neural Networks (DNNs) are susceptible to adversarial attacks. However, recent research has revealed that neural Ordinary Differential Equations (ODEs) exhibit robustness in specific applications. We benchmark our algorithmic framework with a Neural ODE-based approach as a reference.
翻訳日:2023-07-20 15:27:33 公開日:2023-07-19
# スペクトルバイアスゼロによる極端学習マシンの構築

Constructing Extreme Learning Machines with zero Spectral Bias ( http://arxiv.org/abs/2307.09759v1 )

ライセンス: Link先を確認
Kaumudi Joshi, Vukka Snigdha, Arya Kumar Bhattacharya(参考訳) フィードフォワード人工ニューラルネットワーク(ann)で学習される関数の高周波数成分が、低周波数よりもよりゆっくりと収束するのを見るスペクトルバイアスの現象は、ann全体でユビキタスに観察される。 これは、物理情報ニューラルネットワーク(PINN)のように、高頻度の分解が不可欠な分野において、技術的な課題を生み出している。 スペクトルバイアス (SB) の理論的基礎を提供する反復的解法プロセスを妨げる極端学習機械 (ELM) は原則的に同じことをしないべきである。 この作業は、この仮定の信頼性を検証し、それが正しくないことを示しています。 しかし、EMMの構造は、ANNにおいてSBを緩和することが示されているフーリエ・フィーチャー・エンベディングの変種の実装に自然に対応できる。 この手法はSBを完全に排除するために実装・検証されており、高い周波数の分解能が不可欠であるPINNのような実用上の問題に対してELMを適用可能である。

The phenomena of Spectral Bias, where the higher frequency components of a function being learnt in a feedforward Artificial Neural Network (ANN) are seen to converge more slowly than the lower frequencies, is observed ubiquitously across ANNs. This has created technology challenges in fields where resolution of higher frequencies is crucial, like in Physics Informed Neural Networks (PINNs). Extreme Learning Machines (ELMs) that obviate an iterative solution process which provides the theoretical basis of Spectral Bias (SB), should in principle be free of the same. This work verifies the reliability of this assumption, and shows that it is incorrect. However, the structure of ELMs makes them naturally amenable to implementation of variants of Fourier Feature Embeddings, which have been shown to mitigate SB in ANNs. This approach is implemented and verified to completely eliminate SB, thus bringing into feasibility the application of ELMs for practical problems like PINNs where resolution of higher frequencies is essential.
翻訳日:2023-07-20 15:27:23 公開日:2023-07-19
# 胸部x線レポート生成における縦断データと意味的類似性

Longitudinal Data and a Semantic Similarity Reward for Chest X-Ray Report Generation ( http://arxiv.org/abs/2307.09758v1 )

ライセンス: Link先を確認
Aaron Nicolson, Jason Dowling, and Bevan Koopman(参考訳) 胸部X線(CXR)レポート生成は,CXR解釈の効率向上に期待できる手法である。 しかし、それを実現するには診断精度の大幅な向上が必要である。 そこで本稿では, 縦断データを考慮した放射線技師のワークフローとよりインラインなフレームワークを提案する。 ここで、デコーダは、プロンプトを介して、被写体の前回のイメージング研究のレポートにさらに条件付けされる。 また,報告間の類似性を計算するcxr-bertに基づく強化学習に対する新たな報酬を提案する。 mimic-cxrデータセットで実験を行う。 その結果、縦断データはcxrレポート生成を改善した。 また、CXR-BERTはRadGraphに基づく現在の最先端の報酬に代わる有望な選択肢であることも示されている。 本研究は, 縦断的CXRレポート生成が診断精度を大幅に向上させることを示す。 私たちのHugging Faceモデルは、https://huggingface.co/aehrc/cxrmateで利用可能です。

Chest X-Ray (CXR) report generation is a promising approach to improving the efficiency of CXR interpretation. However, a significant increase in diagnostic accuracy is required before that can be realised. Motivated by this, we propose a framework that is more inline with a radiologist's workflow by considering longitudinal data. Here, the decoder is additionally conditioned on the report from the subject's previous imaging study via a prompt. We also propose a new reward for reinforcement learning based on CXR-BERT, which computes the similarity between reports. We conduct experiments on the MIMIC-CXR dataset. The results indicate that longitudinal data improves CXR report generation. CXR-BERT is also shown to be a promising alternative to the current state-of-the-art reward based on RadGraph. This investigation indicates that longitudinal CXR report generation can offer a substantial increase in diagnostic accuracy. Our Hugging Face model is available at: https://huggingface.co/aehrc/cxrmate and code is available at: https://github.com/aehrc/cxrmate.
翻訳日:2023-07-20 15:27:04 公開日:2023-07-19
# 弱教師付き物体定位のための生成的プロンプトモデル

Generative Prompt Model for Weakly Supervised Object Localization ( http://arxiv.org/abs/2307.09756v1 )

ライセンス: Link先を確認
Yuzhong Zhao, Qixiang Ye, Weijia Wu, Chunhua Shen, Fang Wan(参考訳) 画像カテゴリラベルからオブジェクトローカライゼーションモデルを学習する場合,WSOL (Weakly supervised Object Localization) は依然として困難である。 アクティベーションモデルを識別的に訓練する従来の方法は、代表的だが識別対象部品を無視する。 そこで本研究では,WSOLを条件付き画像復調法として定式化することにより,識別対象の少ない部分を局所化する生成パイプラインを初めて定義する生成プロンプトモデル(GenPromp)を提案する。 トレーニング中、GenPrompは画像カテゴリラベルを学習可能なプロンプト埋め込みに変換し、生成モデルに入力イメージを条件付きで復元し、代表埋め込みを学習する。 推論中、EnPrompは代表埋め込みと(既成のビジョン言語モデルからクエリされる)識別埋め込みを、代表と識別能力の両方に組み合わせる。 複合埋め込みは最終的にマルチスケールの高品質アテンションマップを生成するために使用され、完全なオブジェクトの範囲のローカライズが容易になる。 CUB-200-2011 と ILSVRC の実験では、GenPromp がそれぞれ5.2% と5.6% (Top-1 Loc) で最高の識別モデルより優れており、WSOL の安定なベースラインを生成モデルで設定している。 コードはhttps://github.com/callsys/GenPrompで入手できる。

Weakly supervised object localization (WSOL) remains challenging when learning object localization models from image category labels. Conventional methods that discriminatively train activation models ignore representative yet less discriminative object parts. In this study, we propose a generative prompt model (GenPromp), defining the first generative pipeline to localize less discriminative object parts by formulating WSOL as a conditional image denoising procedure. During training, GenPromp converts image category labels to learnable prompt embeddings which are fed to a generative model to conditionally recover the input image with noise and learn representative embeddings. During inference, enPromp combines the representative embeddings with discriminative embeddings (queried from an off-the-shelf vision-language model) for both representative and discriminative capacity. The combined embeddings are finally used to generate multi-scale high-quality attention maps, which facilitate localizing full object extent. Experiments on CUB-200-2011 and ILSVRC show that GenPromp respectively outperforms the best discriminative models by 5.2% and 5.6% (Top-1 Loc), setting a solid baseline for WSOL with the generative model. Code is available at https://github.com/callsys/GenPromp.
翻訳日:2023-07-20 15:26:47 公開日:2023-07-19
# 空間エンゲージ:コントラストに基づく半監督セマンティックセマンティックセグメンテーションのための協調宇宙スーパービジョン

Space Engage: Collaborative Space Supervision for Contrastive-based Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2307.09755v1 )

ライセンス: Link先を確認
Changqi Wang, Haoyu Xie, Yuhui Yuan, Chong Fu, Xiangyu Yue(参考訳) Semi-Supervised Semantic Segmentation (S4) は、ラベル付き画像に制限のあるセグメンテーションモデルをトレーニングすることを目的としている。 表現の堅牢性を改善するために、強力な手法は潜在空間(つまり表現空間)にピクセルワイドのコントラスト学習アプローチを導入し、それら表現をプロトタイプに完全に教師付きで集約する。 しかし、従来のコントラストベースのS4メソッドは、ラベルなしトレーニング中にロジット空間におけるモデルの出力(ログ)の監督にのみ依存する。 対照的に、ロジット空間と表現空間の両方の出力を利用して協調的に監督を行う。 2つの空間の監督は2つの役割を果たす。 1) 表現の助けを借りて,不正な意味情報に対する過度な適合のリスクを低減する。 2) 2つの空間間の知識交換を強化する。 さらに,従来の手法と異なり,表現とプロトタイプの類似性を新たな指標として活用し,パフォーマンスの低い表現を学習し,より効率的なコントラスト学習プロセスを実現する。 2つの公開ベンチマークの結果から,本手法と最先端手法の競合性能が示された。

Semi-Supervised Semantic Segmentation (S4) aims to train a segmentation model with limited labeled images and a substantial volume of unlabeled images. To improve the robustness of representations, powerful methods introduce a pixel-wise contrastive learning approach in latent space (i.e., representation space) that aggregates the representations to their prototypes in a fully supervised manner. However, previous contrastive-based S4 methods merely rely on the supervision from the model's output (logits) in logit space during unlabeled training. In contrast, we utilize the outputs in both logit space and representation space to obtain supervision in a collaborative way. The supervision from two spaces plays two roles: 1) reduces the risk of over-fitting to incorrect semantic information in logits with the help of representations; 2) enhances the knowledge exchange between the two spaces. Furthermore, unlike previous approaches, we use the similarity between representations and prototypes as a new indicator to tilt training those under-performing representations and achieve a more efficient contrastive learning process. Results on two public benchmarks demonstrate the competitive performance of our method compared with state-of-the-art methods.
翻訳日:2023-07-20 15:26:22 公開日:2023-07-19
# Unmaking AI Imagemaking: 批判的調査のための方法論ツールキット

Unmaking AI Imagemaking: A Methodological Toolkit for Critical Investigation ( http://arxiv.org/abs/2307.09753v1 )

ライセンス: Link先を確認
Luke Munn, Liam Magee, Vanicka Arora(参考訳) AI画像モデルは急速に進化し、多くの業界で美的生産を阻害している。 しかし、その基盤となるアーカイブ、画像再生の論理、持続的バイアスの理解は依然として限られている。 どのような方法やアプローチが、これらのブラックボックスを開くのか? 本稿では,AI画像モデルを解析し,安定拡散に適用するための3つの手法を提案する。 エコシステムの開放は、モデルの生産を取り巻く価値、構造、インセンティブを分析します。 データを解析して、モデルが引き起こす画像とテキストを、付随する特殊性やバイアスで生成する。 アウトプットを外すと、モデルの生成結果を分析し、プロンプト、リフレクション、イテレーションを通じてそのロジックを明らかにする。 それぞれの調査モードは、イメージモデルが捉え、"理解"し、世界を再現する特定の方法を強調する。 このアクセシブルなフレームワークは、生成的AIイメージモデルを批判的に調査する作業をサポートし、より社会的、政治的に直感的に世界への影響を分析するための道を開く。

AI image models are rapidly evolving, disrupting aesthetic production in many industries. However, understanding of their underlying archives, their logic of image reproduction, and their persistent biases remains limited. What kind of methods and approaches could open up these black boxes? In this paper, we provide three methodological approaches for investigating AI image models and apply them to Stable Diffusion as a case study. Unmaking the ecosystem analyzes the values, structures, and incentives surrounding the model's production. Unmaking the data analyzes the images and text the model draws upon, with their attendant particularities and biases. Unmaking the output analyzes the model's generative results, revealing its logics through prompting, reflection, and iteration. Each mode of inquiry highlights particular ways in which the image model captures, "understands," and recreates the world. This accessible framework supports the work of critically investigating generative AI image models and paves the way for more socially and politically attuned analyses of their impacts in the world.
翻訳日:2023-07-20 15:26:03 公開日:2023-07-19
# 情報検索と大規模言語モデル:中国のIRコミュニティによる戦略的報告

Information Retrieval Meets Large Language Models: A Strategic Report from Chinese IR Community ( http://arxiv.org/abs/2307.09751v1 )

ライセンス: Link先を確認
Qingyao Ai, Ting Bai, Zhao Cao, Yi Chang, Jiawei Chen, Zhumin Chen, Zhiyong Cheng, Shoubin Dong, Zhicheng Dou, Fuli Feng, Shen Gao, Jiafeng Guo, Xiangnan He, Yanyan Lan, Chenliang Li, Yiqun Liu, Ziyu Lyu, Weizhi Ma, Jun Ma, Zhaochun Ren, Pengjie Ren, Zhiqiang Wang, Mingwen Wang, Jirong Wen, Le Wu, Xin Xin, Jun Xu, Dawei Yin, Peng Zhang, Fan Zhang, Weinan Zhang, Min Zhang and Xiaofei Zhu(参考訳) 情報検索研究分野(ir)は大きく発展し、様々なユーザ情報のニーズを満たすために従来の検索を超えて拡大してきた。 近年、Large Language Models (LLM) は、テキスト理解、生成、知識推論において例外的な能力を示し、IR研究のエキサイティングな道を開いた。 LLMは、生成的検索を容易にするだけでなく、ユーザ理解、モデル評価、ユーザシステム間のインタラクションのための改善されたソリューションも提供する。 さらに重要なことは、IRモデル、LLM、および人間間の相乗的関係は、情報探索のためにより強力な新しい技術パラダイムを形成することである。 IRモデルはリアルタイムで関連する情報を提供し、LLMは内部知識を提供し、人間は情報サービスの信頼性に対する需要者や評価者の中心的な役割を果たす。 それでも、計算コスト、信頼性の懸念、ドメイン固有の制限、倫理上の考慮など、大きな課題が存在する。 LLMがIR研究に与える影響を徹底的に議論するため、中国のIRコミュニティは2023年4月に戦略的ワークショップを開催し、貴重な洞察を得た。 本稿では,irのコアバリューの再検討,llmsとirの相互強化,新しいir技術パラダイムの提案,オープンチャレンジなど,ワークショップの結果の概要を紹介する。

The research field of Information Retrieval (IR) has evolved significantly, expanding beyond traditional search to meet diverse user information needs. Recently, Large Language Models (LLMs) have demonstrated exceptional capabilities in text understanding, generation, and knowledge inference, opening up exciting avenues for IR research. LLMs not only facilitate generative retrieval but also offer improved solutions for user understanding, model evaluation, and user-system interactions. More importantly, the synergistic relationship among IR models, LLMs, and humans forms a new technical paradigm that is more powerful for information seeking. IR models provide real-time and relevant information, LLMs contribute internal knowledge, and humans play a central role of demanders and evaluators to the reliability of information services. Nevertheless, significant challenges exist, including computational costs, credibility concerns, domain-specific limitations, and ethical considerations. To thoroughly discuss the transformative impact of LLMs on IR research, the Chinese IR community conducted a strategic workshop in April 2023, yielding valuable insights. This paper provides a summary of the workshop's outcomes, including the rethinking of IR's core values, the mutual enhancement of LLMs and IR, the proposal of a novel IR technical paradigm, and open challenges.
翻訳日:2023-07-20 15:25:46 公開日:2023-07-19
# 明示的位置強調によるロバストシーン画像の高分解能化に向けて

Towards Robust Scene Text Image Super-resolution via Explicit Location Enhancement ( http://arxiv.org/abs/2307.09749v1 )

ライセンス: Link先を確認
Hang Guo, Tao Dai, Guanghao Meng, Shu-Tao Xia(参考訳) 下流のテキスト認識精度を高めながら画質を向上させるscene text image super- resolution (stisr)が最近大きな成功を収めている。 しかし、既存のほとんどの手法は前景(文字領域)と背景(非文字領域)を同じプロセスで処理し、複雑な背景から乱れを無視し、性能を制限している。 そこで本稿では,文字領域を明示的にモデル化し,高レベルのテキスト固有ガイダンスを高解像度に作成する手法であるLEMMAを提案する。 キャラクタの位置を効果的にモデル化するために,アテンションマップ列に基づいてキャラクタ領域の特徴を抽出する位置拡張モジュールを提案する。 また,マルチモーダルアライメントモジュールを提案することにより,双方向のビジュアル・セマンティクスアライメントを行い,高品質の事前ガイダンスを生成し,提案する適応型融合モジュールを用いて,超解像分枝に適応的に組み込む。 テキストズームと4つのシーンテキスト認識ベンチマークの実験は、他の最先端手法よりも優れた方法を示している。 コードはhttps://github.com/csguoh/LEMMAで入手できる。

Scene text image super-resolution (STISR), aiming to improve image quality while boosting downstream scene text recognition accuracy, has recently achieved great success. However, most existing methods treat the foreground (character regions) and background (non-character regions) equally in the forward process, and neglect the disturbance from the complex background, thus limiting the performance. To address these issues, in this paper, we propose a novel method LEMMA that explicitly models character regions to produce high-level text-specific guidance for super-resolution. To model the location of characters effectively, we propose the location enhancement module to extract character region features based on the attention map sequence. Besides, we propose the multi-modal alignment module to perform bidirectional visual-semantic alignment to generate high-quality prior guidance, which is then incorporated into the super-resolution branch in an adaptive manner using the proposed adaptive fusion module. Experiments on TextZoom and four scene text recognition benchmarks demonstrate the superiority of our method over other state-of-the-art methods. Code is available at https://github.com/csguoh/LEMMA.
翻訳日:2023-07-20 15:25:26 公開日:2023-07-19
# スネーククレフ2023の解決策

Watch out Venomous Snake Species: A Solution to SnakeCLEF2023 ( http://arxiv.org/abs/2307.09748v1 )

ライセンス: Link先を確認
Feiran Hu, Peng Wang, Yangyang Li, Chenlong Duan, Zijian Zhu, Fei Wang, Faen Zhang, Yong Li, Xiu-Shen Wei(参考訳) SnakeCLEF2023コンペティションは、画像の解析とメタデータによるヘビ種識別のための高度なアルゴリズムの開発を目的としている。 本稿では,画像とメタデータの両方を活用する手法を提案する。 現代のcnnモデルと強いデータ拡張は、画像のより良い表現を学ぶために利用される。 長期分布の課題を解消するため,本手法ではシーソー損失を利用した。 また,事後処理段階におけるCLIPから抽出したメタデータ特徴を用いて,事前確率を計算するための光モデルも設計する。 さらに, モデルが不確かである例に毒種ラベルを割り当てることで, 毒種をより重要視する。 提案手法は,f1 とその他の個人リーダーボードの指標を組み合わせた最終指標の91.31%のスコアを,参加者の中で第1位である。 コードはhttps://github.com/xiaoxsparraw/CLEF2023で公開されている。

The SnakeCLEF2023 competition aims to the development of advanced algorithms for snake species identification through the analysis of images and accompanying metadata. This paper presents a method leveraging utilization of both images and metadata. Modern CNN models and strong data augmentation are utilized to learn better representation of images. To relieve the challenge of long-tailed distribution, seesaw loss is utilized in our method. We also design a light model to calculate prior probabilities using metadata features extracted from CLIP in post processing stage. Besides, we attach more importance to venomous species by assigning venomous species labels to some examples that model is uncertain about. Our method achieves 91.31% score of the final metric combined of F1 and other metrics on private leaderboard, which is the 1st place among the participators. The code is available at https://github.com/xiaoxsparraw/CLEF2023.
翻訳日:2023-07-20 15:25:06 公開日:2023-07-19
# 言語学習チャットボットにおける会話品質の向上:ASR誤り訂正のためのGPT4の評価

Enhancing conversational quality in language learning chatbots: An evaluation of GPT4 for ASR error correction ( http://arxiv.org/abs/2307.09744v1 )

ライセンス: Link先を確認
Long Mai and Julie Carson-Berndsen(参考訳) 自然言語処理(NLP)技術の教育応用への統合は、特に言語学習領域において有望な結果を示している。 近年,多くのオープンドメインチャットボットが話し相手として使われ,学習者の言語能力向上に役立っている。 しかし、重要な課題の1つは、会話の流れを中断し、学習者に失望をもたらす非ネイティブ/非流動音声を認識する際の単語誤り率(WER)が高いことである。 本稿では,会話環境における ASR 誤り訂正における GPT4 の利用について検討する。 WERに加えて,会話の質に及ぼす誤り訂正モデルの影響を評価するために,意味的テキスト類似度(STS)と次の応答感度(NRS)メトリクスを用いることを提案する。 gpt4によって修正された転写は、werの増加にもかかわらず、より高い会話品質をもたらすことが判明した。 GPT4はまた、ドメイン内のトレーニングデータを必要とせずに、標準的なエラー訂正方法より優れている。

The integration of natural language processing (NLP) technologies into educational applications has shown promising results, particularly in the language learning domain. Recently, many spoken open-domain chatbots have been used as speaking partners, helping language learners improve their language skills. However, one of the significant challenges is the high word-error-rate (WER) when recognizing non-native/non-fluent speech, which interrupts conversation flow and leads to disappointment for learners. This paper explores the use of GPT4 for ASR error correction in conversational settings. In addition to WER, we propose to use semantic textual similarity (STS) and next response sensibility (NRS) metrics to evaluate the impact of error correction models on the quality of the conversation. We find that transcriptions corrected by GPT4 lead to higher conversation quality, despite an increase in WER. GPT4 also outperforms standard error correction methods without the need for in-domain training data.
翻訳日:2023-07-20 15:24:53 公開日:2023-07-19
# ZeroQuant-FP:浮動小数点フォーマットを用いたLLM後のW4A8量子化

ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats ( http://arxiv.org/abs/2307.09782v1 )

ライセンス: Link先を確認
Xiaoxia Wu and Zhewei Yao and Yuxiong He(参考訳) 大規模言語モデル(LLM)の複雑な領域では、計算効率とモデル品質の維持のバランスを崩すことは、非常に難しい課題である。 均一量子化の本質的な限界をナビゲートし、特に外れ値を扱う場合、NVIDIAのH100ハードウェアのローンチによって動機づけられたこの研究は、浮動小数点量子化(FP)の生存可能性、特にFP8とFP4に焦点をあてる。 我々の総合的な調査によると、LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルでより顕著になる。 重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。 重みとアクティベーションの差に起因する精度アライメントのオーバーヘッドを軽減するため、標準のw4a8モデルと比較して性能に悪影響を及ぼす2つの重み量子化のスケーリング制約を提案する。 さらに、低ランク補償(LoRC)戦略を統合することで量子化手法を強化し、特に小型モデルにおいて改善をもたらす。 本研究は, LLMにおけるFP量子化の可能性を強調し, 資源制限環境における高効率展開の道を開くものである。

In the complex domain of large language models (LLMs), striking a balance between computational efficiency and maintaining model quality is a formidable challenge. Navigating the inherent limitations of uniform quantization, particularly when dealing with outliers, and motivated by the launch of NVIDIA's H100 hardware, this study delves into the viability of floating-point (FP) quantization, particularly focusing on FP8 and FP4, as a potential solution. Our comprehensive investigation reveals that for LLMs, FP8 activation consistently outshines its integer (INT8) equivalent, with the performance edge becoming more noticeable in models possessing parameters beyond one billion. For weight quantization, our findings indicate that FP4 exhibits comparable, if not superior, performance to INT4, simplifying deployment on FP-supported hardware like H100. To mitigate the overhead from precision alignment caused by the disparity between weights and activations, we propose two scaling constraints for weight quantization that negligibly impact the performance compared to the standard W4A8 model. We additionally enhance our quantization methods by integrating the Low Rank Compensation (LoRC) strategy, yielding improvements especially in smaller models. The results of our investigation emphasize the immense potential of FP quantization for LLMs, paving the way for high-efficiency deployment in resource-limited settings.
翻訳日:2023-07-20 15:19:56 公開日:2023-07-19
# Text2Layer:潜在拡散モデルを用いた階層画像生成

Text2Layer: Layered Image Generation using Latent Diffusion Model ( http://arxiv.org/abs/2307.09781v1 )

ライセンス: Link先を確認
Xinyang Zhang, Wentian Zhao, Xin Lu, Jeff Chien(参考訳) レイヤー合成は、アマチュアとプロの両方で最も人気のある画像編集ワークフローの1つである。 拡散モデルの成功に触発されて、層状画像生成の観点から合成する層を探索する。 画像を生成する代わりに,背景,前景,レイヤマスク,合成画像を同時に生成することを提案する。 階層化画像生成を実現するために,階層化画像の再構成と潜在表現に基づく拡散モデルのトレーニングが可能なオートエンコーダを訓練する。 提案した問題の1つの利点は、高品質な画像出力に加えて、より良い合成ワークフローを実現することである。 もう1つの利点は、イメージセグメンテーションの別々のステップによって生成されるマスクと比較して、高品質なレイヤーマスクを作成することである。 実験の結果,提案手法は高品質な階層化画像を生成することができ,今後の作業のためのベンチマークを行うことができることがわかった。

Layer compositing is one of the most popular image editing workflows among both amateurs and professionals. Motivated by the success of diffusion models, we explore layer compositing from a layered image generation perspective. Instead of generating an image, we propose to generate background, foreground, layer mask, and the composed image simultaneously. To achieve layered image generation, we train an autoencoder that is able to reconstruct layered images and train diffusion models on the latent representation. One benefit of the proposed problem is to enable better compositing workflows in addition to the high-quality image output. Another benefit is producing higher-quality layer masks compared to masks produced by a separate step of image segmentation. Experimental results show that the proposed method is able to generate high-quality layered images and initiates a benchmark for future work.
翻訳日:2023-07-20 15:19:26 公開日:2023-07-19
# icecreamによるシングルフィーチャーの重要性

Beyond Single-Feature Importance with ICECREAM ( http://arxiv.org/abs/2307.09779v1 )

ライセンス: Link先を確認
Michael Oesterle, Patrick Bl\"obaum, Atalanti A. Mastakouri, Elke Kirschbaum(参考訳) 機械学習モデルの特定の出力に対して、どの機能セットが責任を負っていたのか? クラウドコンピューティングアプリケーションの障害の原因となるコンポーネントは何か? これらの質問は、CoalitionベースのCommon and Rare Events in Any Model(ICECREAM)の説明を識別することで、この研究で私たちが取り組んでいる2つの質問の例です。 具体的には,変数の連立が対象変数の分布に与える影響に関する情報理論的定量的尺度を提案する。 これにより、個々の要因にのみ貢献を割り当て、それらの重要性をランク付けできる、確立された説明可能性や因果貢献分析法とは対照的に、特定の結果を得るためにどの要因が不可欠かを特定することができる。 合成および実世界のデータを用いた実験では、ICECREAMは説明可能性や根本原因分析の最先端手法よりも優れており、両方のタスクにおいて顕著な精度が達成されている。

Which set of features was responsible for a certain output of a machine learning model? Which components caused the failure of a cloud computing application? These are just two examples of questions we are addressing in this work by Identifying Coalition-based Explanations for Common and Rare Events in Any Model (ICECREAM). Specifically, we propose an information-theoretic quantitative measure for the influence of a coalition of variables on the distribution of a target variable. This allows us to identify which set of factors is essential to obtain a certain outcome, as opposed to well-established explainability and causal contribution analysis methods which can assign contributions only to individual factors and rank them by their importance. In experiments with synthetic and real-world data, we show that ICECREAM outperforms state-of-the-art methods for explainability and root cause analysis, and achieves impressive accuracy in both tasks.
翻訳日:2023-07-20 15:19:12 公開日:2023-07-19
# マインクラフトのレッドストーン型都市づくり

Generating Redstone Style Cities in Minecraft ( http://arxiv.org/abs/2307.09777v1 )

ライセンス: Link先を確認
Shuo Huang, Chengpeng Hu, Julian Togelius, Jialin Liu(参考訳) Minecraftで手続き的に都市を生成することで、プレイヤーはより多様なシナリオを提供し、他のデジタル世界や現実世界の都市の設計を理解し改善することができる。 本稿では,2023年版Minecraft収量生成コンペティションのエントリーとして提出された都市ジェネレータについて述べる。 生成手順は、植生浄化、地形再構成、建築レイアウト生成、道路計画、街灯配置、壁建設の6つの主要なステップから構成されている。 ヒューリスティックなアルゴリズム、進化するレイアウトアルゴリズム、ランダムなアルゴリズムを含む3つのアルゴリズムを適用して、建物レイアウトを生成し、異なるレッドストーンスタイルの建物をどこに配置するかを決定し、ランダムな地図上に都市を生成することでテストする。 実験の結果、ヒューリスティックに基づくアルゴリズムはフラットマップの許容可能なレイアウトをより早く見つけることができ、一方、進化するレイアウトアルゴリズムは頑丈なマップのレイアウトを進化させるのに優れていることがわかった。 コンペティション評価基準を用いて,コンペティション2022版において,ジェネレータと優れたコンペティションを比較検討した。

Procedurally generating cities in Minecraft provides players more diverse scenarios and could help understand and improve the design of cities in other digital worlds and the real world. This paper presents a city generator that was submitted as an entry to the 2023 Edition of Minecraft Settlement Generation Competition for Minecraft. The generation procedure is composed of six main steps, namely vegetation clearing, terrain reshaping, building layout generation, route planning, streetlight placement, and wall construction. Three algorithms, including a heuristic-based algorithm, an evolving layout algorithm, and a random one are applied to generate the building layout, thus determining where to place different redstone style buildings, and tested by generating cities on random maps in limited time. Experimental results show that the heuristic-based algorithm is capable of finding an acceptable building layout faster for flat maps, while the evolving layout algorithm performs better in evolving layout for rugged maps. A user study is conducted to compare our generator with outstanding entries of the competition's 2022 edition using the competition's evaluation criteria and shows that our generator performs well in the adaptation and functionality criteria
翻訳日:2023-07-20 15:18:58 公開日:2023-07-19
# NISQデバイス上での深層学習を可能にする空間時間変動量子回路

A Novel Spatial-Temporal Variational Quantum Circuit to Enable Deep Learning on NISQ Devices ( http://arxiv.org/abs/2307.09771v1 )

ライセンス: Link先を確認
Jinyang Li, Zhepeng Wang, Zhirui Hu, Prasanna Date, Ang Li, Weiwen Jiang(参考訳) 量子コンピューティングは、重畳と絡み合いによる高次元の超並列計算能力を備えた機械学習に有望なアプローチを示す。 その可能性にもかかわらず、変分量子回路(VQC)のような既存の量子学習アルゴリズムは、より複雑なデータセット、特に線形分離不能なデータセットを扱う際の課題に直面している。 さらに、それはデプロイ可能性の問題に遭遇し、実際の量子デバイスにデプロイした後、学習モデルが劇的な精度低下に陥ります。 これらの制約を克服するために,量子学習における非線形性を統合し,学習モデルの雑音に対する堅牢性を改善するための新しい時空間設計,ST-VQCを提案する。 具体的には、st-vqcは、新しいブロックベースエンコーディング量子サブサーキットと層状計算量子サブサーキットを結合して、時間的ディープラーニングを可能にすることで、空間的特徴を抽出することができる。 さらに、SWAPフリーな物理回路設計は堅牢性を向上させるために考案された。 これらの設計は、多くのハイパーパラメータをもたらす。 設計部品ごとに設計空間を体系的に解析した後、ST-VQC量子回路を生成するための自動最適化フレームワークを提案する。 提案したST-VQCは、2つのIBM量子プロセッサ、27量子ビットのibm_cairoと7量子ビットのibmq_limaで評価され、その効果が評価されている。 バイナリ分類のための標準データセットの評価結果から、ST-VQCは実際の量子コンピュータ上の既存のVQCと比較して30%以上の精度向上を達成できることが示された。 さらに、非線形合成データセットでは、ST-VQCは線形分類器を27.9%上回り、古典計算を用いた線形分類器は既存のVQCを15.58%上回る。

Quantum computing presents a promising approach for machine learning with its capability for extremely parallel computation in high-dimension through superposition and entanglement. Despite its potential, existing quantum learning algorithms, such as Variational Quantum Circuits(VQCs), face challenges in handling more complex datasets, particularly those that are not linearly separable. What's more, it encounters the deployability issue, making the learning models suffer a drastic accuracy drop after deploying them to the actual quantum devices. To overcome these limitations, this paper proposes a novel spatial-temporal design, namely ST-VQC, to integrate non-linearity in quantum learning and improve the robustness of the learning model to noise. Specifically, ST-VQC can extract spatial features via a novel block-based encoding quantum sub-circuit coupled with a layer-wise computation quantum sub-circuit to enable temporal-wise deep learning. Additionally, a SWAP-Free physical circuit design is devised to improve robustness. These designs bring a number of hyperparameters. After a systematic analysis of the design space for each design component, an automated optimization framework is proposed to generate the ST-VQC quantum circuit. The proposed ST-VQC has been evaluated on two IBM quantum processors, ibm_cairo with 27 qubits and ibmq_lima with 7 qubits to assess its effectiveness. The results of the evaluation on the standard dataset for binary classification show that ST-VQC can achieve over 30% accuracy improvement compared with existing VQCs on actual quantum computers. Moreover, on a non-linear synthetic dataset, the ST-VQC outperforms a linear classifier by 27.9%, while the linear classifier using classical computing outperforms the existing VQC by 15.58%.
翻訳日:2023-07-20 15:18:33 公開日:2023-07-19
# ニューラルネットワークによる効果的な接続性推定:合成脳波データによる証拠

Perturbing a Neural Network to Infer Effective Connectivity: Evidence from Synthetic EEG Data ( http://arxiv.org/abs/2307.09770v1 )

ライセンス: Link先を確認
Peizhen Yang, Xinke Shen, Zongsheng Li, Zixiang Luo, Kexin Lou, Quanying Liu(参考訳) 効果的な接続として知られる脳の異なる領域間の因果関係の同定は、脳の情報処理と認知機能に関する重要な洞察をもたらす。 eeg(electroencephalogram)信号は脳内の複雑な動態と脳間相互作用を示す。 しかし、複数の脳領域間の非線形因果相互作用を特徴付ける手法は比較的未発達である。 本研究では,訓練されたニューラルネットワークを摂動させることで,効果的な接続性を予測するためのデータ駆動型フレームワークを提案する。 具体的には、ニューラルネットワーク(CNN、バニラRNN、GRU、LSTM、Transformer)をトレーニングし、過去のデータに基づいて将来の脳波信号を予測し、ネットワークの入力を摂動させ、摂動した脳波チャネルと他のチャネルとの効果的な接続(EC)を得る。 ECは、1つのノードを他のノードに摂動させることによる因果的影響を反映している。 実測可能なJansen-Ritモデルにより生成した合成脳波を用いて実験を行った。 cnnとtransformerは、3チャンネルおよび90チャンネルの合成脳波データにおいて、古典的なグランジャー因果法よりも優れた性能を得た。 我々の研究は、人工ニューラルネットワークの摂動の可能性を示し、将来のシステムダイナミクスを予測し、基礎となる因果構造を明らかにすることを学習した。

Identifying causal relationships among distinct brain areas, known as effective connectivity, holds key insights into the brain's information processing and cognitive functions. Electroencephalogram (EEG) signals exhibit intricate dynamics and inter-areal interactions within the brain. However, methods for characterizing nonlinear causal interactions among multiple brain regions remain relatively underdeveloped. In this study, we proposed a data-driven framework to infer effective connectivity by perturbing the trained neural networks. Specifically, we trained neural networks (i.e., CNN, vanilla RNN, GRU, LSTM, and Transformer) to predict future EEG signals according to historical data and perturbed the networks' input to obtain effective connectivity (EC) between the perturbed EEG channel and the rest of the channels. The EC reflects the causal impact of perturbing one node on others. The performance was tested on the synthetic EEG generated by a biological-plausible Jansen-Rit model. CNN and Transformer obtained the best performance on both 3-channel and 90-channel synthetic EEG data, outperforming the classical Granger causality method. Our work demonstrated the potential of perturbing an artificial neural network, learned to predict future system dynamics, to uncover the underlying causal structure.
翻訳日:2023-07-20 15:18:01 公開日:2023-07-19
# プロトタイプ・アンコレード特徴アライメントとコントラスト学習による医用画像セグメンテーションのためのソースフリー領域適応

Source-Free Domain Adaptation for Medical Image Segmentation via Prototype-Anchored Feature Alignment and Contrastive Learning ( http://arxiv.org/abs/2307.09769v1 )

ライセンス: Link先を確認
Qinji Yu, Nan Xi, Junsong Yuan, Ziyu Zhou, Kang Dang, Xiaowei Ding(参考訳) 非教師なしドメイン適応(UDA)は、ラベル付きソースドメインから未ラベルのターゲットドメインに学習した知識を転送する能力に対する関心が高まっている。 しかし、典型的なUDAメソッドは、ソースデータとターゲットドメインデータの両方に同時アクセスする必要がある。 そこで本研究では,医療画像セグメンテーションのための2段階のソースフリードメイン適応(sfda)フレームワークを提案する。 具体的には,まず,事前学習した画素別分類器の重みを原点のプロトタイプとして活用し,原点の情報を保存した。 次に,目標機能とクラスプロトタイプを整合させるための双方向トランスポートについて,その期待コストを最小化することで紹介する。 それに加えて、よりコンパクトな目標特徴分布のために、信頼できない予測でこれらの画素を利用するために、対照的な学習段階がさらに考案される。 クロスモダリティ・メディカルセグメンテーション・タスクにおける広範囲な実験は、最先端のFDAアプローチやUDA手法と比較して、大きなドメイン不一致設定における我々の方法の優位性を実証している。 コードはhttps://github.com/CSCYQJ/MICCAI23-ProtoContra-SFDAで入手できる。

Unsupervised domain adaptation (UDA) has increasingly gained interests for its capacity to transfer the knowledge learned from a labeled source domain to an unlabeled target domain. However, typical UDA methods require concurrent access to both the source and target domain data, which largely limits its application in medical scenarios where source data is often unavailable due to privacy concern. To tackle the source data-absent problem, we present a novel two-stage source-free domain adaptation (SFDA) framework for medical image segmentation, where only a well-trained source segmentation model and unlabeled target data are available during domain adaptation. Specifically, in the prototype-anchored feature alignment stage, we first utilize the weights of the pre-trained pixel-wise classifier as source prototypes, which preserve the information of source features. Then, we introduce the bi-directional transport to align the target features with class prototypes by minimizing its expected cost. On top of that, a contrastive learning stage is further devised to utilize those pixels with unreliable predictions for a more compact target feature distribution. Extensive experiments on a cross-modality medical segmentation task demonstrate the superiority of our method in large domain discrepancy settings compared with the state-of-the-art SFDA approaches and even some UDA methods. Code is available at https://github.com/CSCYQJ/MICCAI23-ProtoContra-SFDA.
翻訳日:2023-07-20 15:17:40 公開日:2023-07-19
# フレームレットGCNの適応力に及ぼす曲率の影響

How Curvature Enhance the Adaptation Power of Framelet GCNs ( http://arxiv.org/abs/2307.09768v1 )

ライセンス: Link先を確認
Dai Shi, Yi Guo, Zhiqi Shao, Junbin Gao(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データのモデリングにおいて強力に実証されている。 しかし、GNNを様々なグラフ分類や予測タスクに適用する成功例は多いが、GNNの学習性能を高めるためにグラフ幾何学情報が十分に活用されているかどうかはまだよく分かっていない。 本稿では,離散グラフリッチ曲率によるGNNの拡張手法を提案する。 具体的には、グラフの端辺で定義されるリッチ曲率は、その近傍に基づいてあるノードから別のノードへ情報の伝達がいかに困難であるかを測定する。 グラフ設定におけるリッチ曲率の幾何学的類似に触発され、慎重に設計された変換関数$\zeta$で曲率情報を挿入することで、オーバー・スムーシングなどのGNNにおける既知の計算問題を緩和できることを示す。 さらに,超正のリッチ曲率 ($\kappa_{i,j} \approx 1$) を持つエッジは,ヘテロフィリーグラフへのモデルの適応性を高めるためにドロップすることが望ましいことを確認し,グラフエッジドロップアルゴリズムを提案する。 包括的実験により,gnnモデルがホモフィアグラフとヘテロフィアグラフデータセットの両方の最先端ベースラインよりも優れており,gnnにグラフ幾何情報を取り込む効果が示された。

Graph neural network (GNN) has been demonstrated powerful in modeling graph-structured data. However, despite many successful cases of applying GNNs to various graph classification and prediction tasks, whether the graph geometrical information has been fully exploited to enhance the learning performance of GNNs is not yet well understood. This paper introduces a new approach to enhance GNN by discrete graph Ricci curvature. Specifically, the graph Ricci curvature defined on the edges of a graph measures how difficult the information transits on one edge from one node to another based on their neighborhoods. Motivated by the geometric analogy of Ricci curvature in the graph setting, we prove that by inserting the curvature information with different carefully designed transformation function $\zeta$, several known computational issues in GNN such as over-smoothing can be alleviated in our proposed model. Furthermore, we verified that edges with very positive Ricci curvature (i.e., $\kappa_{i,j} \approx 1$) are preferred to be dropped to enhance model's adaption to heterophily graph and one curvature based graph edge drop algorithm is proposed. Comprehensive experiments show that our curvature-based GNN model outperforms the state-of-the-art baselines in both homophily and heterophily graph datasets, indicating the effectiveness of involving graph geometric information in GNNs.
翻訳日:2023-07-20 15:17:04 公開日:2023-07-19
# Sig-Splines:時系列生成モデルの普遍近似と凸校正

Sig-Splines: universal approximation and convex calibration of time series generative models ( http://arxiv.org/abs/2307.09767v1 )

ライセンス: Link先を確認
Magnus Wiese, Phillip Murray, Ralf Korn(参考訳) 多変量離散時間時系列データのための新しい生成モデルを提案する。 ニューラルスプラインフローの構築からインスピレーションを得たアルゴリズムでは、線形変換とシグネチャ変換を従来のニューラルネットワークのシームレスな置換として組み込む。 このアプローチにより、ニューラルネットワークに固有の普遍性だけでなく、モデルのパラメータに凸性を導入することが可能になります。

We propose a novel generative model for multivariate discrete-time time series data. Drawing inspiration from the construction of neural spline flows, our algorithm incorporates linear transformations and the signature transform as a seamless substitution for traditional neural networks. This approach enables us to achieve not only the universality property inherent in neural networks but also introduces convexity in the model's parameters.
翻訳日:2023-07-20 15:16:25 公開日:2023-07-19
# 周波数バイアスを用いたロバストモデルの構築に向けて

Towards Building More Robust Models with Frequency Bias ( http://arxiv.org/abs/2307.09763v1 )

ライセンス: Link先を確認
Qingwen Bu, Dong Huang, Heming Cui(参考訳) 敵のサンプルに対するディープニューラルネットワークの脆弱性は、さまざまな分野での成功にもかかわらず、幅広い応用において大きな障害となっている。 近年,高ロバスト性を実現するために低周波情報の重要性が強調されている研究もある。 この周波数特性を活用する試みがいくつか行われているが、いずれも入力画像に直接ローパスフィルタを適用すると、識別情報の不可逆的損失と、異なる周波数特徴を持つデータセットへの一般化が不十分になるという問題に直面している。 本稿では、中間特徴表現の低周波成分と高周波成分を適応的に再構成し、ロバスト学習における周波数利用を向上する、周波数優先制御モジュールと呼ばれるプラグアンドプレイモジュールを提案する。 実証研究により,提案するモジュールは,任意の敵のトレーニングフレームワークに容易に組み込むことができ,異なるアーキテクチャやデータセットにわたるモデルのロバスト性がさらに向上することが示された。 さらに、ロバストモデルの周波数バイアスが敵のトレーニングプロセスとその最終的なロバスト性にどのように影響するかを調べる実験を行い、興味深い洞察を明らかにした。

The vulnerability of deep neural networks to adversarial samples has been a major impediment to their broad applications, despite their success in various fields. Recently, some works suggested that adversarially-trained models emphasize the importance of low-frequency information to achieve higher robustness. While several attempts have been made to leverage this frequency characteristic, they have all faced the issue that applying low-pass filters directly to input images leads to irreversible loss of discriminative information and poor generalizability to datasets with distinct frequency features. This paper presents a plug-and-play module called the Frequency Preference Control Module that adaptively reconfigures the low- and high-frequency components of intermediate feature representations, providing better utilization of frequency in robust learning. Empirical studies show that our proposed module can be easily incorporated into any adversarial training framework, further improving model robustness across different architectures and datasets. Additionally, experiments were conducted to examine how the frequency bias of robust models impacts the adversarial training process and its final robustness, revealing interesting insights.
翻訳日:2023-07-20 15:16:13 公開日:2023-07-19
# コヒーレントアグリゲーションによる確率予測

Probabilistic Forecasting with Coherent Aggregation ( http://arxiv.org/abs/2307.09797v1 )

ライセンス: Link先を確認
Geoffrey N\'egiar and Ruijun Ma and O. Nangba Meetei and Mengfei Cao and Michael W. Mahoney(参考訳) 階層的な情報を尊重しながら正確な確率予測を得ることは、エネルギー管理、サプライチェーン計画、資源配分など多くのアプリケーションにおいて重要な運用上の課題である。 特に多変量予測の基本的な課題は、予測が階層構造に関して一貫性を持つ必要があることである。 本稿では,因子モデル構造を利用して構築によるコヒーレントな予測を生成する新しいモデルを提案する。 これは単純な(交換可能性の)観測の結果である: 階層内の {textit{}base-level series の置換は、それらの集合を変えない。 我々のモデルは、畳み込みニューラルネットワークを用いて、因子、その負荷、ベースレベルの分布のパラメータを生成し、モデルのパラメータに関して区別できるサンプルを生成し、従って、連続的ランク付け確率スコアや量子的損失を含む任意のサンプルベースの損失関数に対して最適化することができる。 因子と基底レベルの分布に対して任意の連続分布を選択することができる。 提案手法は,コヒーレントアグリゲーションを強制しながら,エンドツーエンドに最適化できる2つの手法と比較した。 3つの階層的予測データセットに対して11.8-41.4\%$の間です。 また,モデルにおけるパラメータの影響を,ベースレベルの分布と因子数に関して分析する。

Obtaining accurate probabilistic forecasts while respecting hierarchical information is an important operational challenge in many applications, perhaps most obviously in energy management, supply chain planning, and resource allocation. The basic challenge, especially for multivariate forecasting, is that forecasts are often required to be coherent with respect to the hierarchical structure. In this paper, we propose a new model which leverages a factor model structure to produce coherent forecasts by construction. This is a consequence of a simple (exchangeability) observation: permuting \textit{}base-level series in the hierarchy does not change their aggregates. Our model uses a convolutional neural network to produce parameters for the factors, their loadings and base-level distributions; it produces samples which can be differentiated with respect to the model's parameters; and it can therefore optimize for any sample-based loss function, including the Continuous Ranked Probability Score and quantile losses. We can choose arbitrary continuous distributions for the factor and the base-level distributions. We compare our method to two previous methods which can be optimized end-to-end, while enforcing coherent aggregation. Our model achieves significant improvements: between $11.8-41.4\%$ on three hierarchical forecasting datasets. We also analyze the influence of parameters in our model with respect to base-level distribution and number of factors.
翻訳日:2023-07-20 15:07:49 公開日:2023-07-19
# メタ学習による早期予測

Forecasting Early with Meta Learning ( http://arxiv.org/abs/2307.09796v1 )

ライセンス: Link先を確認
Shayan Jawed, Kiran Madhusudhanan, Vijaya Krishna Yalavarthi and Lars Schmidt-Thieme(参考訳) 時系列の初期の観察期間では、モデルを学習するのに利用可能な歴史的な観測はわずかである。 しかし、既存のデータセットの事前セットが利用可能である場合、メタ学習の方法が適用できる。 本稿では,追加データセットからのサンプルを活用し,対象データセットの補助タスクとして,敵対的学習を通じて時系列の強化を学習するメタ学習手法を考案する。 我々のモデル(FEML)は、異なるデータセットから異なる長さ入力の特徴を学習する共有畳み込みバックボーンを備えており、異なる出力長を予測するためのデータセット固有のヘッドを備えている。 FEMLはデータセット間でメタラーニングが可能であり、また、ターゲットデータセットの補助サンプルとして逆生成サンプルを学習することにより、単一タスクラーニングよりも予測性能を向上し、ジョイントラーニング、マルチタスクラーニング、古典的な予測ベースラインから様々なソリューションを適用できることを示す。

In the early observation period of a time series, there might be only a few historic observations available to learn a model. However, in cases where an existing prior set of datasets is available, Meta learning methods can be applicable. In this paper, we devise a Meta learning method that exploits samples from additional datasets and learns to augment time series through adversarial learning as an auxiliary task for the target dataset. Our model (FEML), is equipped with a shared Convolutional backbone that learns features for varying length inputs from different datasets and has dataset specific heads to forecast for different output lengths. We show that FEML can meta learn across datasets and by additionally learning on adversarial generated samples as auxiliary samples for the target dataset, it can improve the forecasting performance compared to single task learning, and various solutions adapted from Joint learning, Multi-task learning and classic forecasting baselines.
翻訳日:2023-07-20 15:07:27 公開日:2023-07-19
# 西から東へ:誰が他人の音楽をよりよく理解できるのか?

From West to East: Who can understand the music of the others better? ( http://arxiv.org/abs/2307.09795v1 )

ライセンス: Link先を確認
Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos(参考訳) MIRの最近の進歩は、様々な下流タスクに埋め込みを使用可能な、いくつかのベンチマークディープラーニングモデルにつながっている。 同時に、これらのモデルの大半は西洋のポップ/ロック音楽と関連するスタイルで訓練されている。 このことは、これらのモデルが異なる音楽文化やスタイルの表現を学ぶのに使えるのか、あるいは異なる文化やスタイルのデータに基づいてトレーニングされた類似の音楽オーディオ埋め込みモデルを構築することができるのか、という研究結果につながる。 この目的のために,データと異なる音楽文化の類似性についての洞察を得るために,転送学習手法を活用する。 2つの西洋音楽データセット、東地中海文化からの伝統的な/フォークのデータセット、インド芸術音楽に属する2つのデータセットを使用します。 CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。 実験結果から,音楽文化ごとに最適な音源データセットが異なり,すべての領域で伝達学習によって競争性能が向上することが示された。 実装とトレーニングされたモデルはどちらもパブリックリポジトリで提供される。

Recent developments in MIR have led to several benchmark deep learning models whose embeddings can be used for a variety of downstream tasks. At the same time, the vast majority of these models have been trained on Western pop/rock music and related styles. This leads to research questions on whether these models can be used to learn representations for different music cultures and styles, or whether we can build similar music audio embedding models trained on data from different cultures or styles. To that end, we leverage transfer learning methods to derive insights about the similarities between the different music cultures to which the data belongs to. We use two Western music datasets, two traditional/folk datasets coming from eastern Mediterranean cultures, and two datasets belonging to Indian art music. Three deep audio embedding models are trained and transferred across domains, including two CNN-based and a Transformer-based architecture, to perform auto-tagging for each target domain dataset. Experimental results show that competitive performance is achieved in all domains via transfer learning, while the best source dataset varies for each music culture. The implementation and the trained models are both provided in a public repository.
翻訳日:2023-07-20 15:07:11 公開日:2023-07-19
# DiffDP:拡散モデルによる放射線治療線量予測

DiffDP: Radiotherapy Dose Prediction via a Diffusion Model ( http://arxiv.org/abs/2307.09794v1 )

ライセンス: Link先を確認
Zhenghao Feng, Lu Wen, Peng Wang, Binyu Yan, Xi Wu, Jiliu Zhou, Yan Wang(参考訳) 現在、深層学習(DL)は放射線治療計画における線量分布の自動予測を達成し、その効率と品質を高めている。 しかし, 従来の手法では, L_1 や L_2 の損失と後続平均計算の相違が問題となっている。 この制限を緩和するために,がん患者の放射線線量分布を予測する拡散線量予測(DiffDP)モデルを革新的に導入する。 具体的には、DiffDPモデルはフォワードプロセスとリバースプロセスを含む。 前処理では、DiffDPは小さなノイズを加えることで線量分布マップをガウスノイズに徐々に変換し、ノイズ予測器を訓練し、各時間ステップに付加されるノイズを予測する。 逆処理では、訓練された雑音予測器で複数のステップで元のガウス雑音からノイズを除去し、最終的に予測された線量分布マップを出力する。 予測の精度を確保するため,患者解剖画像から解剖情報を抽出する構造エンコーダを設計し,ノイズ予測器がいくつかの重要な臓器,すなわち計画対象体積と危険臓器内の線量制約を認識できるようにする。 130例の直腸癌患者による社内データセットの広範囲にわたる実験

Currently, deep learning (DL) has achieved the automatic prediction of dose distribution in radiotherapy planning, enhancing its efficiency and quality. However, existing methods suffer from the over-smoothing problem for their commonly used L_1 or L_2 loss with posterior average calculations. To alleviate this limitation, we innovatively introduce a diffusion-based dose prediction (DiffDP) model for predicting the radiotherapy dose distribution of cancer patients. Specifically, the DiffDP model contains a forward process and a reverse process. In the forward process, DiffDP gradually transforms dose distribution maps into Gaussian noise by adding small noise and trains a noise predictor to predict the noise added in each timestep. In the reverse process, it removes the noise from the original Gaussian noise in multiple steps with the well-trained noise predictor and finally outputs the predicted dose distribution map. To ensure the accuracy of the prediction, we further design a structure encoder to extract anatomical information from patient anatomy images and enable the noise predictor to be aware of the dose constraints within several essential organs, i.e., the planning target volume and organs at risk. Extensive experiments on an in-house dataset with 130 rectum cancer patients demonstrate the s
翻訳日:2023-07-20 15:06:51 公開日:2023-07-19
# LLMの起源について:15,821大言語モデルのための進化木とグラフ

On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models ( http://arxiv.org/abs/2307.09793v1 )

ライセンス: Link先を確認
Sarah Gao, Andrew Kean Gao(参考訳) 2022年後半以降、Large Language Models (LLM) はChatGPT や Bard といった LLM が数百万のユーザを獲得して、非常に注目されている。 毎週何百もの新しいLLMが発表され、その多くが機械学習モデルとデータセットのリポジトリであるHugging Faceに預けられている。 現在までに1万6000近いテキスト生成モデルがサイトにアップロードされている。 LLMの膨大な流入を考えると、どのLLMバックボーン、設定、トレーニング方法、家族が人気かトレンドかを知ることは興味深い。 しかし、LLMの包括的なインデックスは存在しない。 我々はHugging Face LLMの比較的体系的な命名法を利用して階層的クラスタリングを行い、n-gramと項周波数逆文書周波数を用いてLLM間のコミュニティを特定する。 提案手法はLLMの分類に成功し,LLMを意味のあるサブグループに正確にクラスタリングする。 我々は15,821 LLMのコンステレーションをナビゲートし探索するための公開ウェブアプリケーションを提案する。 コンステレーションは、デンドログラム、グラフ、ワードクラウド、散乱プロットなど、様々な視覚化を急速に生成する。 constellation.sites.stanford.edu/ は以下のリンクで利用可能である。

Since late 2022, Large Language Models (LLMs) have become very prominent with LLMs like ChatGPT and Bard receiving millions of users. Hundreds of new LLMs are announced each week, many of which are deposited to Hugging Face, a repository of machine learning models and datasets. To date, nearly 16,000 Text Generation models have been uploaded to the site. Given the huge influx of LLMs, it is of interest to know which LLM backbones, settings, training methods, and families are popular or trending. However, there is no comprehensive index of LLMs available. We take advantage of the relatively systematic nomenclature of Hugging Face LLMs to perform hierarchical clustering and identify communities amongst LLMs using n-grams and term frequency-inverse document frequency. Our methods successfully identify families of LLMs and accurately cluster LLMs into meaningful subgroups. We present a public web application to navigate and explore Constellation, our atlas of 15,821 LLMs. Constellation rapidly generates a variety of visualizations, namely dendrograms, graphs, word clouds, and scatter plots. Constellation is available at the following link: https://constellation.sites.stanford.edu/.
翻訳日:2023-07-20 15:06:30 公開日:2023-07-19
# 再帰的指導次元計算の硬さに関する一考察

A Note on Hardness of Computing Recursive Teaching Dimension ( http://arxiv.org/abs/2307.09792v1 )

ライセンス: Link先を確認
Pasin Manurangsi(参考訳) 本稿では,概念クラスに対する再帰的教育次元(RTD)の計算には,指数時間仮説(ETH)を仮定して,$n^{\Omega(\log n)}$-timeが必要であることを示す。 これは問題に対するブルートフォースアルゴリズムの実行時間$n^{O(\log n)}$と一致する。

In this short note, we show that the problem of computing the recursive teaching dimension (RTD) for a concept class (given explicitly as input) requires $n^{\Omega(\log n)}$-time, assuming the exponential time hypothesis (ETH). This matches the running time $n^{O(\log n)}$ of the brute-force algorithm for the problem.
翻訳日:2023-07-20 15:06:11 公開日:2023-07-19
# 量子光学に基づく画像間の類似度測定アルゴリズム

Quantum Optics based Algorithm for Measuring the Similarity between Images ( http://arxiv.org/abs/2307.09789v1 )

ライセンス: Link先を確認
Vivek Mehta, Sonali Jana, and Utpal Roy(参考訳) 本稿では,画像表現のための基本量子資源としてコヒーレント状態を用いる量子光学の定式化に基づくアルゴリズムについて報告する。 画像解像度に関して線形に構成光学素子を配置したアーキテクチャを提供する。 得られた位相分布多モードコヒーレント状態を画像検索方式に入力し、類似度測定に適したレーザ強度パラメータを同定する。 類似度測定プロトコルにおける量子重ね合わせの原理を用いることで、複数の入力画像のエンコードが可能となる。 本稿では,連続するノイズ層を付加することにより,画像の客観的品質評価を行い,プロトコルの実現可能性を示す。 結果は、期待される結果とうまく一致します。 メトリックの画像歪み・感度分析は、モデルのさらなるメリットを確立する。 我々の量子アルゴリズムは、教師付き機械学習タスクにも適用可能である。

We report an algorithm, based on quantum optics formulation, where a coherent state is used as the elementary quantum resource for the image representation. We provide an architecture with constituent optical elements in linear order with respect to the image resolution. The obtained phase-distributed multimode coherent state is fed into an image retrieval scheme and we identify the appropriate laser intensity parameter for similarity measurement. The use of the principle of quantum superposition in the similarity measurement protocol enables us to encode multiple input images. We demonstrate the viability of the protocol through an objective quality assessment of images by adding consecutive layers of noises. The results are in good agreement with the expected outcome. The image distortion-sensitivity analysis of the metric establishes the further merit of the model. Our quantum algorithm has wider applicability also in supervised machine learning tasks.
翻訳日:2023-07-20 15:06:03 公開日:2023-07-19
# 遠方点雲登録のための密度不変特性

Density-invariant Features for Distant Point Cloud Registration ( http://arxiv.org/abs/2307.09788v1 )

ライセンス: Link先を確認
Quan Liu, Hongzi Zhu, Yunsong Zhou, Hongyang Li, Shan Chang, Minyi Guo(参考訳) 遠隔地ライダー点雲の登録は、協調走行車の3dビジョンを拡張する上で重要であるが、重複面積が小さいことと観測点密度の差が大きいため、課題である。 本稿では, 遠方のライダー点雲を登録するために, 密度不変な幾何学的特徴を抽出するグループワイズコントラスト学習(gcl)スキームを提案する。 我々は、密度不変特徴抽出器を訓練するために、コントラスト正値が独立かつ同一分布(i.i.d.)であるべきという理論的解析と実験を通した。 本稿では,同一空間的位置(正の群と呼ばれる)における複数の点群の特徴を類似させる,単純かつ効果的な訓練手法を提案し,一対の点群がi.i.d.原理に適合するように導入するサンプリングバイアスを回避する。 結果として得られる完全畳み込み特徴抽出器は最先端の手法よりも強力で密度不変であり、KITTIとnuScenesベンチマークにおける遠隔シナリオの登録リコールをそれぞれ40.9%、26.9%改善した。 コードはオープンソース化される。

Registration of distant outdoor LiDAR point clouds is crucial to extending the 3D vision of collaborative autonomous vehicles, and yet is challenging due to small overlapping area and a huge disparity between observed point densities. In this paper, we propose Group-wise Contrastive Learning (GCL) scheme to extract density-invariant geometric features to register distant outdoor LiDAR point clouds. We mark through theoretical analysis and experiments that, contrastive positives should be independent and identically distributed (i.i.d.), in order to train densityinvariant feature extractors. We propose upon the conclusion a simple yet effective training scheme to force the feature of multiple point clouds in the same spatial location (referred to as positive groups) to be similar, which naturally avoids the sampling bias introduced by a pair of point clouds to conform with the i.i.d. principle. The resulting fully-convolutional feature extractor is more powerful and density-invariant than state-of-the-art methods, improving the registration recall of distant scenarios on KITTI and nuScenes benchmarks by 40.9% and 26.9%, respectively. The code will be open-sourced.
翻訳日:2023-07-20 15:05:54 公開日:2023-07-19
# DVPT:医療画像解析のための大規模訓練済みモデルの動的視覚プロンプトチューニング

DVPT: Dynamic Visual Prompt Tuning of Large Pre-trained Models for Medical Image Analysis ( http://arxiv.org/abs/2307.09787v1 )

ライセンス: Link先を確認
Along He, Kai Wang, Zhihong Wang, Tao Li, and Huazhu Fu(参考訳) 制限されたラベル付きデータは、医療領域でスクラッチからモデルをトレーニングすることが難しく、重要なパラダイムは事前トレーニングと微調整である。 訓練済みの大きなモデルは、下流の医療タスクに適応できる豊富な表現を含んでいる。 しかしながら、既存の手法では、事前訓練されたモデルのすべてのパラメータまたはタスク固有のレイヤーをチューニングし、医療画像の入力のバリエーションを無視する。 本研究では,医用画像解析のためのパラメータ効率細調整(PEFT)について検討し,動的視覚的プロンプトチューニング手法DVPTを提案する。 トレーニング可能なパラメータがいくつかある大きなモデルから、下流タスクに有益な知識を抽出することができる。 まず、凍結した特徴を軽量なボトルネック層で変換して、下流の医療タスクのドメイン固有の分布を学習し、次に動的クエリとしていくつかの学習可能な視覚的プロンプトを使用して、変換された特徴との相互注意を行い、各サンプルに適したサンプル固有の知識を取得しようとする。 最後に、機能はオリジナルの機能次元に投影され、凍結した機能で集約される。 このDVPTモジュールは、異なるTransformer層間で共有することができ、さらにトレーニング可能なパラメータを減らすことができる。 dvptを検証するために,医療分類および分節化タスクにおいて,さまざまな事前訓練モデルを用いた広範囲な実験を行った。 このようなPEFT法は、トレーニング済みのモデルを医療領域に効率的に適応させるだけでなく、部分ラベル付きデータによるデータ効率をもたらす。 例えば、0.5\%余分なトレーニング可能なパラメータでは、我々の手法は最先端のPEFT法よりも優れているだけでなく、医療分類タスクにおいて2.20\% Kappaスコアを超越している。 最大60\%のラベル付きデータと、ViT-B/16の99\%のストレージコストを節約できる。

Limited labeled data makes it hard to train models from scratch in medical domain, and an important paradigm is pre-training and then fine-tuning. Large pre-trained models contain rich representations, which can be adapted to downstream medical tasks. However, existing methods either tune all the parameters or the task-specific layers of the pre-trained models, ignoring the input variations of medical images, and thus they are not efficient or effective. In this work, we aim to study parameter-efficient fine-tuning (PEFT) for medical image analysis, and propose a dynamic visual prompt tuning method, named DVPT. It can extract knowledge beneficial to downstream tasks from large models with a few trainable parameters. Firstly, the frozen features are transformed by an lightweight bottleneck layer to learn the domain-specific distribution of downstream medical tasks, and then a few learnable visual prompts are used as dynamic queries and then conduct cross-attention with the transformed features, attempting to acquire sample-specific knowledge that are suitable for each sample. Finally, the features are projected to original feature dimension and aggregated with the frozen features. This DVPT module can be shared between different Transformer layers, further reducing the trainable parameters. To validate DVPT, we conduct extensive experiments with different pre-trained models on medical classification and segmentation tasks. We find such PEFT method can not only efficiently adapt the pre-trained models to the medical domain, but also brings data efficiency with partial labeled data. For example, with 0.5\% extra trainable parameters, our method not only outperforms state-of-the-art PEFT methods, even surpasses the full fine-tuning by more than 2.20\% Kappa score on medical classification task. It can saves up to 60\% labeled data and 99\% storage cost of ViT-B/16.
翻訳日:2023-07-20 15:05:32 公開日:2023-07-19
# 量子アニールを用いた制限ボルツマンマシンのオンライン校正法

Online calibration scheme for training restricted Boltzmann machines with quantum annealing ( http://arxiv.org/abs/2307.09785v1 )

ライセンス: Link先を確認
Takeru Goto and Masayuki Ohzeki(参考訳) 制限ボルツマン機械(rbm)を訓練するために, d波量子アニーラーの内部パラメータを校正して近似サンプルを得る手法を提案する。 経験的に、量子アニールラーからのサンプルはボルツマン分布に従っており、RBM訓練に適している。 しかし、補償なしで適切なサンプルを得るのは難しい。 既存の研究はしばしば補償のために逆温度などの内部パラメータを推定する。 提案手法では, RBM トレーニングのサンプルを用いて内部パラメータを推定し, 同時にモデルを訓練する。 さらに, 逆温度以外のパラメータも考慮し, 試料品質の向上に寄与することを示す。 得られたサンプルのKullback-Leibler分散を古典的なギブズサンプリングと比較することにより,提案手法の性能を評価する。 提案手法は,ギブスサンプリングと同等の性能を示すことを示す。 さらに,RBMの標準トレーニングアルゴリズムとして知られるContrastive Divergenceアルゴリズムよりも,提案手法によるトレーニング結果が優れている。

We propose a scheme for calibrating the D-Wave quantum annealer's internal parameters to obtain well-approximated samples to train a restricted Boltzmann machine (RBM). Empirically, samples from the quantum annealer obey the Boltzmann distribution, making them suitable for RBM training. However, it is hard to obtain appropriate samples without compensation. Existing research often estimates internal parameters, such as the inverse temperature, for compensation. Our scheme utilizes samples for RBM training to estimate the internal parameters, enabling it to train a model simultaneously. Furthermore, we consider additional parameters beyond inverse temperature and demonstrate that they contribute to improving sample quality. We evaluate the performance of our scheme by comparing the Kullback-Leibler divergence of the obtained samples with classical Gibbs sampling. Our results indicate that our proposed scheme demonstrates performance on par with Gibbs sampling. In addition, the training results with our estimation scheme are better than those of the Contrastive Divergence algorithm, known as a standard training algorithm for RBM.
翻訳日:2023-07-20 15:05:00 公開日:2023-07-19
# マルチモーダル学習による疾患の予測

Multi-modal Learning based Prediction for Disease ( http://arxiv.org/abs/2307.09823v1 )

ライセンス: Link先を確認
Yaran Chen and Xueyu Chen and Yu Han and Haoran Li and Dongbin Zhao and Jingzhong Li and Xu Wang(参考訳) 非アルコール性脂肪肝疾患(NAFLD)は慢性肝疾患の最も一般的な原因であり、進行性線維症や肝硬変を防ぐために正確に予測できる。 一方、NAFLD診断のための金の基準である肝生検は、侵襲的で高価であり、エラーをサンプリングする傾向がある。 したがって、非侵襲的な研究は非常に有望であるが、総合的な研究データやマルチモーダルデータのインテリジェントな方法が欠如しているため、まだ幼年期にある。 本稿では,包括的臨床データセット(FLDData)とマルチモーダル学習に基づくNAFLD予測手法(DeepFLD)を組み合わせたNAFLD診断システム(DeepFLDDiag)を提案する。 このデータセットには、6000人以上の被験者の身体検査、実験室および画像研究、広範囲なアンケート、部分的な参加者の顔面画像が含まれており、臨床研究に包括的かつ価値のあるものである。 このデータセットから,NAFLD予測に最も寄与する臨床メタデータを定量的に分析し,選択する。 さらに、メタデータと顔画像を含むマルチモーダル入力を使用してNAFLDを予測するように設計されたディープニューラルネットワークモデルであるDeepFLDは、メタデータのみを使用するアプローチよりも優れている。 他の見えないデータセットでも満足度のパフォーマンスが検証される。 deepfldは、メタデータではなく入力として顔画像のみを使用することで、より堅牢でより簡単な非侵襲的なnafld診断への道を開くことができる。

Non alcoholic fatty liver disease (NAFLD) is the most common cause of chronic liver disease, which can be predicted accurately to prevent advanced fibrosis and cirrhosis. While, a liver biopsy, the gold standard for NAFLD diagnosis, is invasive, expensive, and prone to sampling errors. Therefore, non-invasive studies are extremely promising, yet they are still in their infancy due to the lack of comprehensive research data and intelligent methods for multi-modal data. This paper proposes a NAFLD diagnosis system (DeepFLDDiag) combining a comprehensive clinical dataset (FLDData) and a multi-modal learning based NAFLD prediction method (DeepFLD). The dataset includes over 6000 participants physical examinations, laboratory and imaging studies, extensive questionnaires, and facial images of partial participants, which is comprehensive and valuable for clinical studies. From the dataset, we quantitatively analyze and select clinical metadata that most contribute to NAFLD prediction. Furthermore, the proposed DeepFLD, a deep neural network model designed to predict NAFLD using multi-modal input, including metadata and facial images, outperforms the approach that only uses metadata. Satisfactory performance is also verified on other unseen datasets. Inspiringly, DeepFLD can achieve competitive results using only facial images as input rather than metadata, paving the way for a more robust and simpler non-invasive NAFLD diagnosis.
翻訳日:2023-07-20 14:59:47 公開日:2023-07-19
# 合成画像のオープンセットアーキテクチャ属性に対するシームズによる検証システム

A Siamese-based Verification System for Open-set Architecture Attribution of Synthetic Images ( http://arxiv.org/abs/2307.09822v1 )

ライセンス: Link先を確認
Lydia Abady, Jun Wang, Benedetta Tondi, Mauro Barni(参考訳) 合成画像属性のための様々な手法が開発されているが、そのほとんどはトレーニングセットに含まれるモデルやアーキテクチャによって生成された画像のみを属性とすることができ、未知のアーキテクチャでは動作せず、現実のシナリオにおける適用性を妨げている。 本稿では,合成画像から生成したアーキテクチャへのオープンセット帰属問題に対処するために,シャムネットワークを利用する検証フレームワークを提案する。 私たちは2つの異なる設定を考えます。 最初の設定では、2つの画像が同じ生成アーキテクチャで作成されたか否かを判定する。 第2設定では、システムは、クレームアーキテクチャによって生成された1つまたは複数の参照画像を利用して、合成画像を生成するために使用されるアーキテクチャに関するクレームを検証する。 提案システムの主な強みは、クローズドシナリオとオープンセットシナリオの両方で動作可能であり、入力画像(クエリ画像と参照画像の両方)が、トレーニング中に考慮されたアーキテクチャに属することができることである。 gan,拡散モデル,トランスフォーマなどの様々な生成アーキテクチャを包含する実験評価では,合成顔画像生成に着目し,クローズド設定とオープンセット設定の両方において優れた性能と強力な一般化性能を確認した。

Despite the wide variety of methods developed for synthetic image attribution, most of them can only attribute images generated by models or architectures included in the training set and do not work with unknown architectures, hindering their applicability in real-world scenarios. In this paper, we propose a verification framework that relies on a Siamese Network to address the problem of open-set attribution of synthetic images to the architecture that generated them. We consider two different settings. In the first setting, the system determines whether two images have been produced by the same generative architecture or not. In the second setting, the system verifies a claim about the architecture used to generate a synthetic image, utilizing one or multiple reference images generated by the claimed architecture. The main strength of the proposed system is its ability to operate in both closed and open-set scenarios so that the input images, either the query and reference images, can belong to the architectures considered during training or not. Experimental evaluations encompassing various generative architectures such as GANs, diffusion models, and transformers, focusing on synthetic face image generation, confirm the excellent performance of our method in both closed and open-set settings, as well as its strong generalization capabilities.
翻訳日:2023-07-20 14:59:22 公開日:2023-07-19
# 階層的意味知覚リスナヘッドビデオ生成:ハイパフォーマンスパイプライン

Hierarchical Semantic Perceptual Listener Head Video Generation: A High-performance Pipeline ( http://arxiv.org/abs/2307.09821v1 )

ライセンス: Link先を確認
Zhigang Chang, Weitai Hu, Qing Yang, Shibao Zheng(参考訳) Dyadic Speaker-listener 相互作用では、リスナーの頭部反応と話者の頭部の動きは、重要な非言語的意味表現を構成する。 リスナーヘッド生成タスクは、スピーカの音声とリスナーの参照画像に基づいて、応答性のあるリスナーのヘッドビデオを合成することを目的としている。 トーキングヘッド生成と比較して,話者の音声や視覚情報からの相関手がかりを捉えることがより困難である。 vicoのベースラインスキームに従って,オーディオエンコーダモジュールの階層的意味抽出能力を高め,デコーダ部分,レンダラ,後処理モジュールを改善することにより,高性能なソリューションを提案する。 私たちのソリューションは、ヘッドジェネレーションを聴くための公式のリーダーボードで第一位を獲得します。 本稿は、ACM Multimedia 2023 conferenceにおけるViCo@2023 Conversational Head Generation Challengeのテクニカルレポートである。

In dyadic speaker-listener interactions, the listener's head reactions along with the speaker's head movements, constitute an important non-verbal semantic expression together. The listener Head generation task aims to synthesize responsive listener's head videos based on audios of the speaker and reference images of the listener. Compared to the Talking-head generation, it is more challenging to capture the correlation clues from the speaker's audio and visual information. Following the ViCo baseline scheme, we propose a high-performance solution by enhancing the hierarchical semantic extraction capability of the audio encoder module and improving the decoder part, renderer and post-processing modules. Our solution gets the first place on the official leaderboard for the track of listening head generation. This paper is a technical report of ViCo@2023 Conversational Head Generation Challenge in ACM Multimedia 2023 conference.
翻訳日:2023-07-20 14:58:57 公開日:2023-07-19
# ダイナミックMRイメージングのための深絞り収縮網

Deep unrolling Shrinkage Network for Dynamic MR imaging ( http://arxiv.org/abs/2307.09818v1 )

ライセンス: Link先を確認
Yinghao Zhang, Xiaodi Li, Weihang Li, Yue Hu(参考訳) sparsity priorを利用するディープアンロールネットワークは、動的磁気共鳴(mr)イメージングで大きな成功を収めている。 畳み込みニューラルネットワーク(cnn)は、通常、変換された領域を抽出し、その後、ソフトしきい値(st)演算子をcnn変換データに適用してスパーシティ優先を強制する。 しかし、ST演算子は、通常、CNN変換データの全チャネルで同じことを制約される。 本稿では,各チャネルの閾値を学習するソフトしきい値付きチャネルアテンション(ast)と呼ばれる新しい演算子を提案する。 特に,変換された$l_1$ノルム動的mr再構成モデルを最適化するために,乗算器の交互方向法(admm)を展開することにより,新しいディープアンロール型縮小ネットワーク(dus-net)を提案する。 オープンアクセス動的シネMRデータセットの実験結果から,提案したDUS-Netは最先端の手法よりも優れていた。 ソースコードは \url{https://github.com/yhao-z/dus-net} で入手できる。

Deep unrolling networks that utilize sparsity priors have achieved great success in dynamic magnetic resonance (MR) imaging. The convolutional neural network (CNN) is usually utilized to extract the transformed domain, and then the soft thresholding (ST) operator is applied to the CNN-transformed data to enforce the sparsity priors. However, the ST operator is usually constrained to be the same across all channels of the CNN-transformed data. In this paper, we propose a novel operator, called soft thresholding with channel attention (AST), that learns the threshold for each channel. In particular, we put forward a novel deep unrolling shrinkage network (DUS-Net) by unrolling the alternating direction method of multipliers (ADMM) for optimizing the transformed $l_1$ norm dynamic MR reconstruction model. Experimental results on an open-access dynamic cine MR dataset demonstrate that the proposed DUS-Net outperforms the state-of-the-art methods. The source code is available at \url{https://github.com/yhao-z/DUS-Net}.
翻訳日:2023-07-20 14:58:41 公開日:2023-07-19
# スパース正規化最適輸送による多様体学習

Manifold Learning with Sparse Regularised Optimal Transport ( http://arxiv.org/abs/2307.09816v1 )

ライセンス: Link先を確認
Stephen Zhang and Gilles Mordant and Tetsuya Matsumoto and Geoffrey Schiebinger(参考訳) マニフォールド学習は現代の統計学とデータ科学の中心的な課題である。 多くのデータセット(セル、文書、画像、分子)は、高次元の環境空間に埋め込まれた点雲として表現できるが、データに固有の自由度は通常、周囲の次元の数よりもはるかに少ない。 データを埋め込んだ潜在多様体を検出するタスクは、下流分析の幅広いファミリーにとって必須条件である。 実世界のデータセットはノイズの観測とサンプリングの対象であり、基礎となる多様体に関する情報を蒸留することは大きな課題である。 本稿では,2次正則化を用いて最適輸送の対称版を利用する多様体学習法を提案し,双確率カーネル正規化の一般化と解釈できる疎適応親和性行列を構成する。 得られたカーネルは連続的な極限においてLaplace型演算子と整合性を示し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果をシミュレーションで示す。 我々は、この離散データに対する最適輸送を計算するための高効率な計算手法を特定し、一連の例において競合する手法より優れていることを示す。

Manifold learning is a central task in modern statistics and data science. Many datasets (cells, documents, images, molecules) can be represented as point clouds embedded in a high dimensional ambient space, however the degrees of freedom intrinsic to the data are usually far fewer than the number of ambient dimensions. The task of detecting a latent manifold along which the data are embedded is a prerequisite for a wide family of downstream analyses. Real-world datasets are subject to noisy observations and sampling, so that distilling information about the underlying manifold is a major challenge. We propose a method for manifold learning that utilises a symmetric version of optimal transport with a quadratic regularisation that constructs a sparse and adaptive affinity matrix, that can be interpreted as a generalisation of the bistochastic kernel normalisation. We prove that the resulting kernel is consistent with a Laplace-type operator in the continuous limit, establish robustness to heteroskedastic noise and exhibit these results in simulations. We identify a highly efficient computational scheme for computing this optimal transport for discrete data and demonstrate that it outperforms competing methods in a set of examples.
翻訳日:2023-07-20 14:58:20 公開日:2023-07-19
# ldp: 言語駆動型デュアルピクセル画像デフォーカスデブラリングネットワーク

LDP: Language-driven Dual-Pixel Image Defocus Deblurring Network ( http://arxiv.org/abs/2307.09815v1 )

ライセンス: Link先を確認
Hao Yang, Liyuan Pan, Yan Yang, Miaomiao Liu,(参考訳) 両画素(DP)ペアから鮮明な画像と不透明度に依存したぼやけを復元することは難しい課題である。 既存のぼやけた地図に基づくデブラリング手法は有望な結果を示している。 本稿では,我々の知識を最大限に活用し,対照言語画像事前学習フレームワーク(clip)を導入した最初のフレームワークを提案する。 この目的のために,まずテキストプロンプトを慎重に設計し,クリップがdpペアからぼやけに関連した幾何学的事前知識を理解できるようにする。 そこで我々は,CLIPが単眼画像上で事前学習されるような微調整をせずに,ステレオDPペアをCLIPに入力する方式を提案する。 推定されたぼかしマップを考えると、ぼかし優先注意ブロック、ぼかし強調損失、ぼかし認識損失を導入し、全フォーカス画像の復元を行う。 本手法は広範な実験で最先端の性能を実現する。

Recovering sharp images from dual-pixel (DP) pairs with disparity-dependent blur is a challenging task.~Existing blur map-based deblurring methods have demonstrated promising results. In this paper, we propose, to the best of our knowledge, the first framework to introduce the contrastive language-image pre-training framework (CLIP) to achieve accurate blur map estimation from DP pairs unsupervisedly. To this end, we first carefully design text prompts to enable CLIP to understand blur-related geometric prior knowledge from the DP pair. Then, we propose a format to input stereo DP pair to the CLIP without any fine-tuning, where the CLIP is pre-trained on monocular images. Given the estimated blur map, we introduce a blur-prior attention block, a blur-weighting loss and a blur-aware loss to recover the all-in-focus image. Our method achieves state-of-the-art performance in extensive experiments.
翻訳日:2023-07-20 14:58:00 公開日:2023-07-19
# daprompt: 決定論的仮定プロンプト学習による事象因果性同定

DAPrompt: Deterministic Assumption Prompt Learning for Event Causality Identification ( http://arxiv.org/abs/2307.09813v1 )

ライセンス: Link先を確認
Wei Xiang and Chuanhong Zhan and Bang Wang(参考訳) 事象因果同定(ECI)は、2つの事象の言及の間に因果関係があるかどうかを決定することを目的としている。 従来のプロンプト学習は、最初に答え語を予測し、それを最終決定にマップするプロンプトテンプレートを設計する。 従来のプロンプトとは異なり、解答語を予測することは、ECIタスクに必要な前提条件ではない。 代わりに、まず2つの事象間の因果関係の存在を決定論的仮定し、その合理性を評価して仮定を受け入れるか拒否するかする。 設計の動機は、事前学習された言語モデルに埋め込まれた百科事典のような知識を最大限活用することにある。 そこで本研究では,eciタスクのための決定論的仮定プロンプト学習モデルdapromptを提案する。 特に、2つのマスクを含む入力イベントペアと結合した単純な決定論的仮定テンプレートを予測イベントのトークンとして設計する。 我々は、予測事象の確率を用いて、最終事象因果決定の仮定合理性を評価する。 EventStoryLine corpusとCausal-TimeBank corpusの実験は、最先端のアルゴリズムに対する大幅なパフォーマンス改善の観点から、私たちの設計目標を検証する。

Event Causality Identification (ECI) aims at determining whether there is a causal relation between two event mentions. Conventional prompt learning designs a prompt template to first predict an answer word and then maps it to the final decision. Unlike conventional prompts, we argue that predicting an answer word may not be a necessary prerequisite for the ECI task. Instead, we can first make a deterministic assumption on the existence of causal relation between two events and then evaluate its rationality to either accept or reject the assumption. The design motivation is to try the most utilization of the encyclopedia-like knowledge embedded in a pre-trained language model. In light of such considerations, we propose a deterministic assumption prompt learning model, called DAPrompt, for the ECI task. In particular, we design a simple deterministic assumption template concatenating with the input event pair, which includes two masks as predicted events' tokens. We use the probabilities of predicted events to evaluate the assumption rationality for the final event causality decision. Experiments on the EventStoryLine corpus and Causal-TimeBank corpus validate our design objective in terms of significant performance improvements over the state-of-the-art algorithms.
翻訳日:2023-07-20 14:57:44 公開日:2023-07-19
# GenKL: Web画像におけるラベルの曖昧さとラベルの非整合性を解決するための反復的フレームワーク

GenKL: An Iterative Framework for Resolving Label Ambiguity and Label Non-conformity in Web Images Via a New Generalized KL Divergence ( http://arxiv.org/abs/2307.09810v1 )

ライセンス: Link先を確認
Xia Huang, Kai Fong Ernest Chong(参考訳) オンラインでキュレートされたWebイメージデータセットには、本質的に不明瞭なin-distribution(ID)インスタンスとout-of-distribution(OOD)インスタンスが含まれています。 NCインスタンスの負の効果を緩和するための最近の多くのアプローチにおいて、核となる暗黙の仮定は、NCインスタンスはエントロピーの最大化によって発見できるということである。 エントロピー」が適切に定義されるためには、ソフトマックス出力層を持つ訓練モデルに関して、インスタンスの出力予測ベクトルを多項確率変数のパラメータベクトルとして解釈する。 したがって、エントロピーの最大化は、NCインスタンスが「ほぼ」均一に分布する予測を持つという理想的な仮定に基づいている。 しかし、現実世界のWeb画像データセットには、予測が均一に分散されるには程遠いNCインスタンスが多数存在する。 エントロピーの最大化の限界に対処するため、より多くのNCインスタンスを特定できる$(\alpha, \beta)$- Generalized KL divergence, $\mathcal{D}_{\text{KL}}^{\alpha, \beta}(p\|q)$を提案する。 理論的な特性として、$\mathcal{d}_{\text{kl}}^{\alpha, \beta}(p\|q)$ が証明されており、また、$\mathcal{d}_{\text{kl}}^{\alpha, \beta}(p\|q)$ が nc インスタンス識別タスクのすべてのベースラインを上回ることを経験的に示す。 また、$(\alpha,\beta)$-generalized kl divergenceに基づいて、relabel ncインスタンスを識別し、relabelsする新しい反復学習フレームワークgenklも導入します。 Clothing1M, Food101/Food101N, mini WebVision 1.0の3つのWebイメージデータセットで評価すると,それぞれ8.34\%$,8.73\%$,78.99\%$/92.54\%$ (top-1/top-5)という,新しい最先端の分類精度を達成した。

Web image datasets curated online inherently contain ambiguous in-distribution (ID) instances and out-of-distribution (OOD) instances, which we collectively call non-conforming (NC) instances. In many recent approaches for mitigating the negative effects of NC instances, the core implicit assumption is that the NC instances can be found via entropy maximization. For "entropy" to be well-defined, we are interpreting the output prediction vector of an instance as the parameter vector of a multinomial random variable, with respect to some trained model with a softmax output layer. Hence, entropy maximization is based on the idealized assumption that NC instances have predictions that are "almost" uniformly distributed. However, in real-world web image datasets, there are numerous NC instances whose predictions are far from being uniformly distributed. To tackle the limitation of entropy maximization, we propose $(\alpha, \beta)$-generalized KL divergence, $\mathcal{D}_{\text{KL}}^{\alpha, \beta}(p\|q)$, which can be used to identify significantly more NC instances. Theoretical properties of $\mathcal{D}_{\text{KL}}^{\alpha, \beta}(p\|q)$ are proven, and we also show empirically that a simple use of $\mathcal{D}_{\text{KL}}^{\alpha, \beta}(p\|q)$ outperforms all baselines on the NC instance identification task. Building upon $(\alpha,\beta)$-generalized KL divergence, we also introduce a new iterative training framework, GenKL, that identifies and relabels NC instances. When evaluated on three web image datasets, Clothing1M, Food101/Food101N, and mini WebVision 1.0, we achieved new state-of-the-art classification accuracies: $81.34\%$, $85.73\%$ and $78.99\%$/$92.54\%$ (top-1/top-5), respectively.
翻訳日:2023-07-20 14:57:22 公開日:2023-07-19
# ダウンサンプリングASAPを修正! AliasingおよびSpectral Artifact Free Poolingを通じてネイティブに堅牢になる

Fix your downsampling ASAP! Be natively more robust via Aliasing and Spectral Artifact free Pooling ( http://arxiv.org/abs/2307.09804v1 )

ライセンス: Link先を確認
Julia Grabinski, Janis Keuper and Margret Keuper(参考訳) 畳み込みニューラルネットワークは、画像の一連の畳み込み、正規化、非線形性、および潜在的に強力なセマンティック埋め込みへのダウンサンプリング操作を符号化する。 しかし、以前の研究では、サンプリング中のわずかなミスでさえエイリアスの原因となり、ネットワークの堅牢性の欠如に直接起因していることが示されていた。 このような問題に対処し、よりシンプルで高速な対人訓練を容易にするため、[12]は理論上、エイリアスフリーなダウンサンプリング手法であるFCCプーリングを提案している。 本研究では、信号処理のレンズを通してさらなる解析を行い、周波数領域のエイリアシングに対処する現在のプーリング法は、まだスペクトルリークアーティファクトの傾向にあることを示す。 そこで我々は,アリアシングとスペクトルアーチファクトフリープールを提案する。 FLCプーリングにいくつかの変更を加えるだけで、ASAPをダウンサンプリング法として使用したネットワークは、FLCプーリングが欠落していた一般的な汚職に対して、より高度なネイティブロバスト性を示す。 ASAPはまた、高い解像度と低解像度のデータに対する敵攻撃に対するネイティブな堅牢性を高めると同時に、同様のクリーンな精度を維持したり、ベースラインを上回ります。

Convolutional neural networks encode images through a sequence of convolutions, normalizations and non-linearities as well as downsampling operations into potentially strong semantic embeddings. Yet, previous work showed that even slight mistakes during sampling, leading to aliasing, can be directly attributed to the networks' lack in robustness. To address such issues and facilitate simpler and faster adversarial training, [12] recently proposed FLC pooling, a method for provably alias-free downsampling - in theory. In this work, we conduct a further analysis through the lens of signal processing and find that such current pooling methods, which address aliasing in the frequency domain, are still prone to spectral leakage artifacts. Hence, we propose aliasing and spectral artifact-free pooling, short ASAP. While only introducing a few modifications to FLC pooling, networks using ASAP as downsampling method exhibit higher native robustness against common corruptions, a property that FLC pooling was missing. ASAP also increases native robustness against adversarial attacks on high and low resolution data while maintaining similar clean accuracy or even outperforming the baseline.
翻訳日:2023-07-20 14:56:34 公開日:2023-07-19
# 分散フレームワークに基づくグラフフェデレーション学習

Graph Federated Learning Based on the Decentralized Framework ( http://arxiv.org/abs/2307.09801v1 )

ライセンス: Link先を確認
Peilin Liu, Yanni Tang, Mingyue Zhang, and Wu Chen(参考訳) グラフ学習は多くのシナリオで幅広いアプリケーションを抱えており、データプライバシをより必要としています。 フェデレーション学習(federated learning)は、個々のデバイスやデータセンタのデータを活用して、モデルの正確性と一般化を改善しながら、ユーザのデータのプライバシを保護する、新たな分散機械学習アプローチである。 グラフフェデレーション学習は主に古典的なフェデレーション学習フレームワーク、すなわちクライアントサーバーフレームワークに基づいている。 しかし、クライアントサーバーフレームワークは、中央サーバの単一障害点やネットワークトポロジのスケーラビリティの低下といった問題に直面している。 まず,グラフフェデレーション学習のための分散フレームワークを紹介する。 次に、ノード間のデータの類似性に基づいてノード間の信頼度を決定し、次いで、信頼度に基づく線形重み付けにより勾配情報を集約する。 最後に,提案手法の有効性を検証するため,FedAvg,Fedprox,GCFL,GCFL+と比較した。 実験により,提案手法が他の手法より優れていることが示された。

Graph learning has a wide range of applications in many scenarios, which require more need for data privacy. Federated learning is an emerging distributed machine learning approach that leverages data from individual devices or data centers to improve the accuracy and generalization of the model, while also protecting the privacy of user data. Graph-federated learning is mainly based on the classical federated learning framework i.e., the Client-Server framework. However, the Client-Server framework faces problems such as a single point of failure of the central server and poor scalability of network topology. First, we introduce the decentralized framework to graph-federated learning. Second, determine the confidence among nodes based on the similarity of data among nodes, subsequently, the gradient information is then aggregated by linear weighting based on confidence. Finally, the proposed method is compared with FedAvg, Fedprox, GCFL, and GCFL+ to verify the effectiveness of the proposed method. Experiments demonstrate that the proposed method outperforms other methods.
翻訳日:2023-07-20 14:56:11 公開日:2023-07-19
# cryo-forum : cryo-em画像解析における不確実性尺度を用いた方向回復の枠組み

Cryo-forum: A framework for orientation recovery with uncertainty measure with the application in cryo-EM image analysis ( http://arxiv.org/abs/2307.09847v1 )

ライセンス: Link先を確認
Szu-Chi Chung(参考訳) 単一粒子低温電子顕微鏡(cryo-EM)では、2次元投影画像の配向パラメータの効率的な決定は重要な課題であるが、3次元構造の再構築には不可欠である。 このタスクは、Cryo-EMデータセットに存在する高ノイズレベルによって複雑で、しばしばアウトリーチを含み、いくつかの時間を要する2Dクリーニングプロセスを必要とする。 近年、深層学習に基づくソリューションが登場し、方向推定という従来の努力的なタスクに対して、より合理化されたアプローチを提供している。 これらの解はしばしば償却推論を用い、各画像のパラメータを個別に見積もる必要がなくなる。 しかし、これらの手法は、しばしば外れ値の存在を見落とし、ネットワーク内で使われるコンポーネントに適切に集中することができない。 本稿では,10次元特徴ベクトルを用いて方向を表現し,予測方向を単位四元数として導出し,不確実な距離で補足する擬似制約擬似プログラムを提案する。 さらに,方向の対距離を考慮した一意な損失関数を提案し,提案手法の精度を向上する。 最後に,エンコーダネットワークの構築に関する設計選択を総合的に評価する。 数値解析により,2次元cryo-em画像からの向きをエンドツーエンドで効果的に復元できることが示される。 重要なことに、不確実性定量化が組み込まれれば、データセットを3dレベルで直接クリーンアップすることができる。 最後に,提案手法をCryo-forumというユーザフレンドリーなソフトウェアスイートにパッケージ化する。

In single-particle cryo-electron microscopy (cryo-EM), the efficient determination of orientation parameters for 2D projection images poses a significant challenge yet is crucial for reconstructing 3D structures. This task is complicated by the high noise levels present in the cryo-EM datasets, which often include outliers, necessitating several time-consuming 2D clean-up processes. Recently, solutions based on deep learning have emerged, offering a more streamlined approach to the traditionally laborious task of orientation estimation. These solutions often employ amortized inference, eliminating the need to estimate parameters individually for each image. However, these methods frequently overlook the presence of outliers and may not adequately concentrate on the components used within the network. This paper introduces a novel approach that uses a 10-dimensional feature vector to represent the orientation and applies a Quadratically-Constrained Quadratic Program to derive the predicted orientation as a unit quaternion, supplemented by an uncertainty metric. Furthermore, we propose a unique loss function that considers the pairwise distances between orientations, thereby enhancing the accuracy of our method. Finally, we also comprehensively evaluate the design choices involved in constructing the encoder network, a topic that has not received sufficient attention in the literature. Our numerical analysis demonstrates that our methodology effectively recovers orientations from 2D cryo-EM images in an end-to-end manner. Importantly, the inclusion of uncertainty quantification allows for direct clean-up of the dataset at the 3D level. Lastly, we package our proposed methods into a user-friendly software suite named cryo-forum, designed for easy accessibility by the developers.
翻訳日:2023-07-20 14:48:35 公開日:2023-07-19
# 圧縮マグノンモードの強化バイパルタイト絡みとガウス量子ステアリング

Enhanced bipartite entanglement and Gaussian quantum steering of squeezed magnon modes ( http://arxiv.org/abs/2307.09846v1 )

ライセンス: Link先を確認
Shaik Ahmed, M. Amazioug, Jia-Xin Peng and S. K. Singh(参考訳) 両キャビティが2モードの真空マイクロ波場によって駆動される二重キャビティマグノン系において、2つの圧縮マグノンモードを絡み合う方式を理論的に検討した。 各キャビティは、光学パラメトリックアンプと、最大バイアス磁場近傍に配置されたマクロイットリウム鉄ガーネット(yig)球を含むので、関連するマグノンモードの励起と対応するキャビティモードとのカップリングにつながる。 強いマグノン・マグノン絡み合いを達成するための最適パラメータレジームを求め,キャビティ・マグノンカップリングと減衰パラメータのミスマッチに対するこのスキームの有効性について検討した。 提案システムにおけるガウス量子ステアリングを含む絡み合い伝達効率についても検討した。

We theoretically investigate a scheme to entangle two squeezed magnon modes in a double cavitymagnon system, where both cavities are driven by a two-mode squeezed vacuum microwave field. Each cavity contains an optical parametric amplifier as well as a macroscopic yttrium iron garnet (YIG) sphere placed near the maximum bias magnetic fields such that this leads to the excitation of the relevant magnon mode and its coupling with the corresponding cavity mode. We have obtained optimal parameter regimes for achieving the strong magnon-magnon entanglement and also studied the effectiveness of this scheme towards the mismatch of both the cavity-magnon couplings and decay parameters. We have also explored the entanglement transfer efficiency including Gaussian quantum steering in our proposed system
翻訳日:2023-07-20 14:48:06 公開日:2023-07-19
# 信用指数オプションヘッジのための強化学習

Reinforcement Learning for Credit Index Option Hedging ( http://arxiv.org/abs/2307.09844v1 )

ライセンス: Link先を確認
Francesco Mandelli, Marco Pinciroli, Michele Trapletti, Edoardo Vittori(参考訳) 本稿では,強化学習を用いたクレジットインデックスオプションの最適ヘッジ戦略の探索に焦点をあてる。 実践的なアプローチでは、離散時間、トランザクションコスト、実際の市場データに対するポリシーのテストなど、リアリズムに重点を置いています。 技術アルゴリズムであるトラスト領域ボラティリティ最適化(TRVO)アルゴリズムを適用し,得られたヘッジ戦略が,実践者のブラック・アンド・ショールズデルタ・ヘッジよりも優れていることを示す。

In this paper, we focus on finding the optimal hedging strategy of a credit index option using reinforcement learning. We take a practical approach, where the focus is on realism i.e. discrete time, transaction costs; even testing our policy on real market data. We apply a state of the art algorithm, the Trust Region Volatility Optimization (TRVO) algorithm and show that the derived hedging strategy outperforms the practitioner's Black & Scholes delta hedge.
翻訳日:2023-07-20 14:47:50 公開日:2023-07-19
# 圧縮型画像走査顕微鏡

Compressive Image Scanning Microscope ( http://arxiv.org/abs/2307.09841v1 )

ライセンス: Link先を確認
Ajay Gunalan, Marco Castello, Simonluca Piazza, Shunlei Li, Alberto Diaspro, Leonardo S. Mattos, Paolo Bianchini(参考訳) 本研究では,レーザー顕微鏡(LSM),特に画像走査顕微鏡(ISM)において,単一光子アバランシェダイオード(SPAD)アレイ検出器を用いて圧縮センシングを実現する新しい手法を提案する。 提案手法は,LSMに圧縮センシングを適用する際の2つの重要な限界,すなわちサンプリング行列の計算時間と再構成画像の品質に対処する。 データ取得時に行と列をスキップする固定サンプリング戦略を採用し、スキャンされたポイントの数を4倍に削減し、異なるサンプリング行列を計算する必要をなくした。 本研究では,SPADアレイによって生成された並列画像を利用して,標準的な圧縮共焦点LSM画像と比較して,再構成圧縮ISM画像の品質を向上させる。 以上の結果から,データ取得時間を短縮した高品質画像作成における提案手法の有効性と,フォトブラッシングの低減効果が示唆された。

We present a novel approach to implement compressive sensing in laser scanning microscopes (LSM), specifically in image scanning microscopy (ISM), using a single-photon avalanche diode (SPAD) array detector. Our method addresses two significant limitations in applying compressive sensing to LSM: the time to compute the sampling matrix and the quality of reconstructed images. We employ a fixed sampling strategy, skipping alternate rows and columns during data acquisition, which reduces the number of points scanned by a factor of four and eliminates the need to compute different sampling matrices. By exploiting the parallel images generated by the SPAD array, we improve the quality of the reconstructed compressive-ISM images compared to standard compressive confocal LSM images. Our results demonstrate the effectiveness of our approach in producing higher-quality images with reduced data acquisition time and potential benefits in reducing photobleaching.
翻訳日:2023-07-20 14:47:41 公開日:2023-07-19
# $\ell_{1,\infty}$ Ball 上の準線形時間射影 : スパースオートエンコーダへの応用

Near-Linear Time Projection onto the $\ell_{1,\infty}$ Ball; Application to Sparse Autoencoders ( http://arxiv.org/abs/2307.09836v1 )

ライセンス: Link先を確認
Guillaume Perez and Laurent Condat and Michel Barlaud(参考訳) 大規模なニューラルネットワークのトレーニングをスピードアップするためには、スパシティを探すことが重要なのです。 $\ell_{1,2}$ と $\ell_{1,\infty}$ の投射は、ニューラルネットワーク全体のコストを軽減し、削減するための最も効率的な技術の一つである。 本稿では,$\ell_{1,\infty}$標準球に対する新しい射影アルゴリズムを提案する。 このアルゴリズムの最悪の時間は、$\mathcal{O}\big(nm+J\log(nm)\big)$ for a matrix in $\mathbb{R}^{n\times m}$である。 J$ は、空間が高ければ 0 になり、空間が低ければ $nm$ になるような用語である。 その実装は簡単であり、有限時間で正確な解に収束することが保証される。 さらに,重みの特徴選択と疎度を強制するオートエンコーダを訓練しながら,$\ell_{1,\infty}$ボールプロジェクションを導入することを提案する。 エンコーダでは、データのごく一部(<2\%$)しか関係しない、生物学における我々の応用により、主に特徴選択を行うためにスパーシフィケーションが現れる。 また,本手法が最高速であることは,生物学的ケースにおいても,一般の場合においても明らかである。

Looking for sparsity is nowadays crucial to speed up the training of large-scale neural networks. Projections onto the $\ell_{1,2}$ and $\ell_{1,\infty}$ are among the most efficient techniques to sparsify and reduce the overall cost of neural networks. In this paper, we introduce a new projection algorithm for the $\ell_{1,\infty}$ norm ball. The worst-case time complexity of this algorithm is $\mathcal{O}\big(nm+J\log(nm)\big)$ for a matrix in $\mathbb{R}^{n\times m}$. $J$ is a term that tends to 0 when the sparsity is high, and to $nm$ when the sparsity is low. Its implementation is easy and it is guaranteed to converge to the exact solution in a finite time. Moreover, we propose to incorporate the $\ell_{1,\infty}$ ball projection while training an autoencoder to enforce feature selection and sparsity of the weights. Sparsification appears in the encoder to primarily do feature selection due to our application in biology, where only a very small part ($<2\%$) of the data is relevant. We show that both in the biological case and in the general case of sparsity that our method is the fastest.
翻訳日:2023-07-20 14:47:26 公開日:2023-07-19
# リプシッツ演算子の深部演算子ネットワーク近似率

Deep Operator Network Approximation Rates for Lipschitz Operators ( http://arxiv.org/abs/2307.09835v1 )

ライセンス: Link先を確認
Christoph Schwab, Andreas Stein and Jakob Zech(参考訳) リプシッツ (Lipschitz) の連続写像 $\mathcal G:\mathcal X\to\mathcal Y$ を (部分集合) 分離可能なヒルベルト空間 $\mathcal X$, $\mathcal Y$ の間でエミュレートする神経深部演算子ネットワーク (DON) のクラスに対する普遍性と表現率境界を確立する。 DON アーキテクチャは線形エンコーダ $\mathcal E$ とデコーダ $\mathcal D$ を (biorthogonal) Riesz bases of $\mathcal X$, $\mathcal Y$, and a approximator network of a infinite-dimensional, parametric coordinate map that are Lipschitz continuous on the sequence space $\ell^2(\mathbb N)$. Herrmann, Schwab and Zech: Neural and Spectral operator surrogates: construction and expression rate bounds, SAM Report, 2022], [Marcati and Schwab: Exponential Convergence of Deep Operator Networks for Elliptic partial Differential Equations, SAM Report, 2022] と異なり、例えば $\mathcal G$ を正則にするためには、現在の式率は $\mathcal G$ の半連続性を必要とする。 Key in the proof of the present expression rate bounds is the use of either super-expressive activations (e.g. [Yarotski: Elementary superexpressive activations, Int. Conf. on ML, 2021], [Shen, Yang and Zhang: Neural network approximation: Three hidden layers are enough, Neural Networks, 2021], and the references there) which are inspired by the Kolmogorov superposition theorem, or of nonstandard NN architectures with standard (ReLU) activations as recently proposed in [Zhang, Shen and Yang: Neural Network Architecture Beyond Width and Depth, Adv. in Neural Inf. Proc. Sys., 2022]. 我々はエミュレーションのための近似レート境界を用いて抽象的な結果を示す。 a)パラメトリック楕円変分不等式に対する解演算子、及び b) ヒルベルト・シュミット作用素のリプシッツ写像

We establish universality and expression rate bounds for a class of neural Deep Operator Networks (DON) emulating Lipschitz (or H\"older) continuous maps $\mathcal G:\mathcal X\to\mathcal Y$ between (subsets of) separable Hilbert spaces $\mathcal X$, $\mathcal Y$. The DON architecture considered uses linear encoders $\mathcal E$ and decoders $\mathcal D$ via (biorthogonal) Riesz bases of $\mathcal X$, $\mathcal Y$, and an approximator network of an infinite-dimensional, parametric coordinate map that is Lipschitz continuous on the sequence space $\ell^2(\mathbb N)$. Unlike previous works ([Herrmann, Schwab and Zech: Neural and Spectral operator surrogates: construction and expression rate bounds, SAM Report, 2022], [Marcati and Schwab: Exponential Convergence of Deep Operator Networks for Elliptic Partial Differential Equations, SAM Report, 2022]), which required for example $\mathcal G$ to be holomorphic, the present expression rate results require mere Lipschitz (or H\"older) continuity of $\mathcal G$. Key in the proof of the present expression rate bounds is the use of either super-expressive activations (e.g. [Yarotski: Elementary superexpressive activations, Int. Conf. on ML, 2021], [Shen, Yang and Zhang: Neural network approximation: Three hidden layers are enough, Neural Networks, 2021], and the references there) which are inspired by the Kolmogorov superposition theorem, or of nonstandard NN architectures with standard (ReLU) activations as recently proposed in [Zhang, Shen and Yang: Neural Network Architecture Beyond Width and Depth, Adv. in Neural Inf. Proc. Sys., 2022]. We illustrate the abstract results by approximation rate bounds for emulation of a) solution operators for parametric elliptic variational inequalities, and b) Lipschitz maps of Hilbert-Schmidt operators.
翻訳日:2023-07-20 14:47:02 公開日:2023-07-19
# 交通の軌跡予測のための高速かつ地図のないモデル

A Fast and Map-Free Model for Trajectory Prediction in Traffics ( http://arxiv.org/abs/2307.09831v1 )

ライセンス: Link先を確認
Junhong Xiang, Jingmin Zhang and Zhixiong Nan(参考訳) 既存の方法の2つの欠点に対処する。 (i)ほぼすべてのモデルがhdマップに依存しているが、地図情報は実際のトラフィックシーンで常に利用可能ではなく、hdマップ構築は高価で時間がかかる。 (ii)既存のモデルは、計算効率を犠牲にして予測精度の向上に重点を置いているが、実際の様々なアプリケーションでは効率が重要であり、交通地図に依存しない効率的な軌道予測モデルを提案する。 本モデルの中核となる考え方は,一エージェントの空間-時間情報の符号化と,複数エージェントの空間-時間間相互作用の探索である。 この2つの段階における注意機構、LSTM、グラフ畳み込みネットワーク、時間変換器を総合的に活用することにより、我々のモデルは全てのエージェントのリッチな動的および相互作用情報を学習することができる。 提案モデルでは,既存のマップフリー手法と比較して高い性能を達成し,Argoverseデータセット上のほとんどのマップベース最先端手法を超越する。 さらに,本モデルでは,ベースライン法よりも高速な推論速度を示す。

To handle the two shortcomings of existing methods, (i)nearly all models rely on high-definition (HD) maps, yet the map information is not always available in real traffic scenes and HD map-building is expensive and time-consuming and (ii) existing models usually focus on improving prediction accuracy at the expense of reducing computing efficiency, yet the efficiency is crucial for various real applications, this paper proposes an efficient trajectory prediction model that is not dependent on traffic maps. The core idea of our model is encoding single-agent's spatial-temporal information in the first stage and exploring multi-agents' spatial-temporal interactions in the second stage. By comprehensively utilizing attention mechanism, LSTM, graph convolution network and temporal transformer in the two stages, our model is able to learn rich dynamic and interaction information of all agents. Our model achieves the highest performance when comparing with existing map-free methods and also exceeds most map-based state-of-the-art methods on the Argoverse dataset. In addition, our model also exhibits a faster inference speed than the baseline methods.
翻訳日:2023-07-20 14:46:14 公開日:2023-07-19
# ニューラルネットワークは画像分類で何を学ぶか? 周波数ショートカットの視点から

What do neural networks learn in image classification? A frequency shortcut perspective ( http://arxiv.org/abs/2307.09829v1 )

ライセンス: Link先を確認
Shunxin Wang, Raymond Veldhuis, Christoph Brune, Nicola Strisciuglio(参考訳) 周波数分析は、ニューラルネットワーク(NN)における表現学習のメカニズムを理解するのに有用である。 この領域のほとんどの研究は、回帰タスクのためのnnsの学習ダイナミクスに焦点を当てているが、分類は少ない。 本研究は,後者を実験的に検討し,周波数ショートカットの理解を深める。 まず、異なる周波数帯域に偏りを持つように設計された合成データセットの実験を行う。 この結果から,NNは分類の簡単な解を見つける傾向があり,訓練中に最初に学習するものは,低頻度または高頻度の周波数特性に依存することがわかった。 次に,この現象を自然画像上で確認する。 クラスワイズ周波数特性を測定するための指標と周波数ショートカットの同定方法を提案する。 その結果, 周波数ショートカットはテクスチャベースあるいは形状ベースであり, 目的を最も単純化する方法によって異なることがわかった。 第3に,out-of-distribution (ood) テストセットにおける周波数ショートカットの転送可能性を検証する。 以上の結果から,周波数ショートカットはデータセット間で転送可能であり,モデルキャパシティとデータ拡張によって完全に回避できないことが示唆された。 今後の研究は、頻度ショートカット学習を緩和する効果的なトレーニングスキームに着目することを推奨する。

Frequency analysis is useful for understanding the mechanisms of representation learning in neural networks (NNs). Most research in this area focuses on the learning dynamics of NNs for regression tasks, while little for classification. This study empirically investigates the latter and expands the understanding of frequency shortcuts. First, we perform experiments on synthetic datasets, designed to have a bias in different frequency bands. Our results demonstrate that NNs tend to find simple solutions for classification, and what they learn first during training depends on the most distinctive frequency characteristics, which can be either low- or high-frequencies. Second, we confirm this phenomenon on natural images. We propose a metric to measure class-wise frequency characteristics and a method to identify frequency shortcuts. The results show that frequency shortcuts can be texture-based or shape-based, depending on what best simplifies the objective. Third, we validate the transferability of frequency shortcuts on out-of-distribution (OOD) test sets. Our results suggest that frequency shortcuts can be transferred across datasets and cannot be fully avoided by larger model capacity and data augmentation. We recommend that future research should focus on effective training schemes mitigating frequency shortcut learning.
翻訳日:2023-07-20 14:45:54 公開日:2023-07-19
# 頑健な室内物体認識のためのオンライン連続学習

Online Continual Learning for Robust Indoor Object Recognition ( http://arxiv.org/abs/2307.09827v1 )

ライセンス: Link先を確認
Umberto Michieli, Mete Ozay(参考訳) ホームロボットに搭載された視覚システムは、環境の変化の中で見えないクラスと対話する必要がある。 ロボットには限られた計算資源、ラベル付きデータ、ストレージ能力がある。 モデルは過去の知識を忘れずに、データとパラメータ効率のよい方法で適応すべきである。 ロボットエージェントが、数枚のモデルパラメータだけを更新する非反復的なデータストリームから学習する。 さらに、これらのモデルでは、オブジェクトが異なるポーズ(例えば、水平または垂直)と環境(例えば、昼や夜)に現れる、テスト時に変動条件を経験する。 CLエージェントのロバスト性を改善するため,RobOCLeを提案する。 1) サンプルの埋め込み特徴から高次統計モーメントを演算する豊富な特徴空間を構築する。 2) 拡張特徴空間上のサンプルの高次統計値の類似性を計算し,それらのクラスラベルを予測する。 各種ケースにおいて,CLモデルのトレーニング/テスト強化に対する堅牢性を評価する。 異なるモーメントにより、RobOCLeは変形の異なる特性を捉えることができ、推論速度を低下させることなく高いロバスト性が得られることを示す。

Vision systems mounted on home robots need to interact with unseen classes in changing environments. Robots have limited computational resources, labelled data and storage capability. These requirements pose some unique challenges: models should adapt without forgetting past knowledge in a data- and parameter-efficient way. We characterize the problem as few-shot (FS) online continual learning (OCL), where robotic agents learn from a non-repeated stream of few-shot data updating only a few model parameters. Additionally, such models experience variable conditions at test time, where objects may appear in different poses (e.g., horizontal or vertical) and environments (e.g., day or night). To improve robustness of CL agents, we propose RobOCLe, which; 1) constructs an enriched feature space computing high order statistical moments from the embedded features of samples; and 2) computes similarity between high order statistics of the samples on the enriched feature space, and predicts their class labels. We evaluate robustness of CL models to train/test augmentations in various cases. We show that different moments allow RobOCLe to capture different properties of deformations, providing higher robustness with no decrease of inference speed.
翻訳日:2023-07-20 14:45:35 公開日:2023-07-19
# 量子コンピュータ上の固有エネルギーギャップの直接計算のための投影量子位相差推定アルゴリズム

Projective Quantum Phase Difference Estimation Algorithm for the Direct Computation of Eigenenergy Gaps on a Quantum Computer ( http://arxiv.org/abs/2307.09825v1 )

ライセンス: Link先を確認
Kenji Sugisaki(参考訳) 量子コンピュータは量子位相差推定(QPDE)アルゴリズムを用いて、2つの電子状態のエネルギーギャップを計算することができる。 ベイズ予想に基づくQPDEの実装はこれまでに報告されているが、このアプローチは射影的ではなく、計算されたエネルギーギャップの品質は使用中の入力波動関数に依存する。 ここで、逆量子フーリエ変換に基づくqpdeを、n_a$ of ancillary qubitsで報告し、単発射影計測に基づいて固有エネルギーの差を計算することができる。 概念実証実験として,水素分子の一重項エネルギーギャップとハロゲン置換メチレン(chf,chcl,cf$_2$,cfcl,ccl$_2$)およびホルムアルデヒド(hcho)の垂直励起エネルギーに関する数値実験を行った。

Quantum computers are capable of calculating the energy gap of two electronic states by using the quantum phase difference estimation (QPDE) algorithm. The Bayesian inference based implementations for the QPDE have been reported so far, but this approach is not projective, and the quality of the calculated energy gap depends on the input wave functions being used. Here, we report the inverse quantum Fourier transformation based QPDE with $N_a$ of ancillary qubits, which allows us to compute the difference of eigenenergies based on the single-shot projective measurement. As a proof-of-concept demonstrations, we report numerical experiments for the singlet--triplet energy gap of hydrogen molecule and the vertical excitation energies of halogen-substituted methylenes (CHF, CHCl, CF$_2$, CFCl and CCl$_2$) and formaldehyde (HCHO).
翻訳日:2023-07-20 14:45:17 公開日:2023-07-19
# A3D:エッジアシストドローンの適応的、正確、自律的なナビゲーション

A3D: Adaptive, Accurate, and Autonomous Navigation for Edge-Assisted Drones ( http://arxiv.org/abs/2307.09880v1 )

ライセンス: Link先を確認
Liekang Zeng, Haowei Chen, Daipeng Feng, Xiaoxi Zhang, Xu Chen(参考訳) 正確なナビゲーションは、自律ドローンの飛行安全性と効率を確保するために最重要事項である。 最近の研究は、視覚的な知覚に際し、ドローンのナビゲーションを強化するためにDeep Neural Networksを使い始めている。 しかし、既存のソリューションは、オンボードリソースが制限されているドローン上でDNN推論タスクを実行するか、大規模なネットワーク遅延を引き起こす可能性のある外部サーバに計算をオフロードする。 画像送信の構成とともにオフロード決定を共同で最適化し、それらをオンザフライで適応させる作業は、ほとんどない。 本稿では,タスク実行位置,入力解像度,画像圧縮率を動的に調整し,低推論レイテンシ,高い予測精度,長距離飛行距離を実現するためのエッジサーバ支援ドローンナビゲーションフレームワークa3dを提案する。 具体的には、まず、ドローンナビゲーションのための最先端の畳み込みニューラルネットワークを拡張し、上記の目標を効果的に捉えるための最適化目標として、quality of navigationと呼ばれる新しいメトリクスを定義します。 次に、ドローン側で深層強化学習に基づくニューラルスケジューラを設計し、そこでは、情報エンコーダが状態特徴を再形成し、学習能力を向上させる。 同時にマルチドローンサービスを支援するため,ネットワーク対応リソース割り当てアルゴリズムを開発し,ドローンの要求に応じてコンテナ化されたリソースをプロビジョニングできるエッジサーバ設計を拡張した。 最後に,概念実証プロトタイプを現実的なデバイスで実装し,実世界のキャンパスシーンでの性能を検証するとともに,airsimを徹底的に評価するためのシミュレーション環境を構築した。 広範な実験の結果、a3dはエンドツーエンドのレイテンシを28.06%削減し、飛行距離を最大27.28%延長できることがわかった。

Accurate navigation is of paramount importance to ensure flight safety and efficiency for autonomous drones. Recent research starts to use Deep Neural Networks to enhance drone navigation given their remarkable predictive capability for visual perception. However, existing solutions either run DNN inference tasks on drones in situ, impeded by the limited onboard resource, or offload the computation to external servers which may incur large network latency. Few works consider jointly optimizing the offloading decisions along with image transmission configurations and adapting them on the fly. In this paper, we propose A3D, an edge server assisted drone navigation framework that can dynamically adjust task execution location, input resolution, and image compression ratio in order to achieve low inference latency, high prediction accuracy, and long flight distances. Specifically, we first augment state-of-the-art convolutional neural networks for drone navigation and define a novel metric called Quality of Navigation as our optimization objective which can effectively capture the above goals. We then design a deep reinforcement learning based neural scheduler at the drone side for which an information encoder is devised to reshape the state features and thus improve its learning ability. To further support simultaneous multi-drone serving, we extend the edge server design by developing a network-aware resource allocation algorithm, which allows provisioning containerized resources aligned with drones' demand. We finally implement a proof-of-concept prototype with realistic devices and validate its performance in a real-world campus scene, as well as a simulation environment for thorough evaluation upon AirSim. Extensive experimental results show that A3D can reduce end-to-end latency by 28.06% and extend the flight distance by up to 27.28% compared with non-adaptive solutions.
翻訳日:2023-07-20 14:39:36 公開日:2023-07-19
# ポインティングのユーザモデルに対するamortized experimental designとパラメータ推定

Amortised Experimental Design and Parameter Estimation for User Models of Pointing ( http://arxiv.org/abs/2307.09878v1 )

ライセンス: Link先を確認
Antti Keurulainen, Isak Westerlund, Oskar Keurulainen, Andrew Howes(参考訳) ユーザモデルはインタラクション設計において重要な役割を担い、インタラクション設計の選択の自動化をサポートする。 そのためには,モデルパラメータをユーザデータから推定する必要がある。 大量のユーザデータが必要な場合もありますが、最近の研究では、データを収集し、パラメータを可能な限り効率的に推論するように、実験を設計する方法が示されています。 本稿では,シミュレーション参加者による実験設計選択の方針を訓練することにより,実験設計の計算コストを低下させる手法の変種について検討する。 提案手法は, モデル空間から採取したシリカ内エージェントと相互作用し, 大量の人体データではなく合成データを用いてパラメータ推定に最も有用なデータを提供する実験を学習する。 このアプローチは、3つの段階的に複雑なポインティングモデルで示される。

User models play an important role in interaction design, supporting automation of interaction design choices. In order to do so, model parameters must be estimated from user data. While very large amounts of user data are sometimes required, recent research has shown how experiments can be designed so as to gather data and infer parameters as efficiently as possible, thereby minimising the data requirement. In the current article, we investigate a variant of these methods that amortises the computational cost of designing experiments by training a policy for choosing experimental designs with simulated participants. Our solution learns which experiments provide the most useful data for parameter estimation by interacting with in-silico agents sampled from the model space thereby using synthetic data rather than vast amounts of human data. The approach is demonstrated for three progressively complex models of pointing.
翻訳日:2023-07-20 14:39:07 公開日:2023-07-19
# 双曲型非アベリア半金属

Hyperbolic non-Abelian semimetal ( http://arxiv.org/abs/2307.09876v1 )

ライセンス: Link先を確認
Tarun Tummuru, Anffany Chen, Patrick M. Lenggenhager, Titus Neupert, Joseph Maciejko, Tom\'a\v{s} Bzdu\v{s}ek(参考訳) 位相的に保護された半金属バンド交差の概念を負の曲線空間における双曲格子へと拡張する。 それらの異なる翻訳群構造のため、そのような格子は非可換ブロッホ状態をサポートし、従来のブロッホ状態とは異なり、格子変換の下で行列値ブロッホ因子を取得する。 多様な数値的手法と解析的手法を組み合わせることで,低エネルギー状態密度の四次スケーリングを解明し,相互空間におけるコディメンション5のノルダル多様体を照らし出す。 ノダル多様体は非ゼロの第2チャーン数によって位相的に保護され、第1チャーン数によるワイルノードの特性を思い起こさせる。

We extend the notion of topologically protected semi-metallic band crossings to hyperbolic lattices in negatively curved space. Due to their distinct translation group structure, such lattices support non-Abelian Bloch states which, unlike conventional Bloch states, acquire a matrix-valued Bloch factor under lattice translations. Combining diverse numerical and analytical approaches, we uncover a quartic scaling in the density of states at low energies, and illuminate a nodal manifold of codimension five in the reciprocal space. The nodal manifold is topologically protected by a non-zero second Chern number, reminiscent of the characterization of Weyl nodes by the first Chern number.
翻訳日:2023-07-20 14:38:54 公開日:2023-07-19
# 都市インフラ相互依存ネットワークにおける脆弱ノードの検出

Detecting Vulnerable Nodes in Urban Infrastructure Interdependent Network ( http://arxiv.org/abs/2307.09866v1 )

ライセンス: Link先を確認
Jinzhu Mao, Liu Cao, Chen Gao, Huandong Wang, Hangyu Fan, Depeng Jin, Yong Li(参考訳) 都市インフラの脆弱性の理解と特徴付けは、都市の定期走行に不可欠な技術施設であり、ネットワークの形で自然に存在することを指すものであり、私たちにとって大きな価値があります。 潜在的なアプリケーションには、脆弱な設備の保護や堅牢なトポロジの設計などが含まれる。 異なるトポロジー特性とインフラストラクチャーの脆弱性とそれらの複雑な進化メカニズムとの間に強い相関関係があるため、ヒューリスティック解析や機械支援解析はそのようなシナリオに対処するのに不足している。 本稿では,相互依存型ネットワークを異種グラフとしてモデル化し,都市システムの脆弱性を正確に評価するために,実世界のデータに基づいてトレーニング可能な強化学習付きグラフニューラルネットワークに基づくシステムを提案する。 本システムでは,異種グラフの理解と解析に深層学習手法を活用し,カスケード障害のリスクを把握し,都市の脆弱なインフラを発見する。 様々な要求による広範囲な実験は、システムの表現力だけでなく、特定のコンポーネントの能力や必要性も示しています。

Understanding and characterizing the vulnerability of urban infrastructures, which refers to the engineering facilities essential for the regular running of cities and that exist naturally in the form of networks, is of great value to us. Potential applications include protecting fragile facilities and designing robust topologies, etc. Due to the strong correlation between different topological characteristics and infrastructure vulnerability and their complicated evolution mechanisms, some heuristic and machine-assisted analysis fall short in addressing such a scenario. In this paper, we model the interdependent network as a heterogeneous graph and propose a system based on graph neural network with reinforcement learning, which can be trained on real-world data, to characterize the vulnerability of the city system accurately. The presented system leverages deep learning techniques to understand and analyze the heterogeneous graph, which enables us to capture the risk of cascade failure and discover vulnerable infrastructures of cities. Extensive experiments with various requests demonstrate not only the expressive power of our system but also transferring ability and necessity of the specific components.
翻訳日:2023-07-20 14:38:42 公開日:2023-07-19
# 構造力学のためのデータ駆動モデル定義への集団インフォームドアプローチに向けて

Towards a population-informed approach to the definition of data-driven models for structural dynamics ( http://arxiv.org/abs/2307.09862v1 )

ライセンス: Link先を確認
G. Tsialiamanis, N. Dervilis, D.J. Wagg, K. Worden(参考訳) 機械学習は様々な領域の多くの現象がモデル化される方法に影響を与えており、その1つが構造力学である。 しかし、機械学習アルゴリズムは問題固有のため、データ不足時に効率よく動作しないことが多い。 このような問題に対処するため、物理に基づくアプローチと機械学習アルゴリズムの組み合わせが開発された。 このような手法は有効であるが、解析者の基礎となる物理学の理解も必要である。 現在の研究は、基礎となる物理が類似する現象群からそのような関係を学ぶモデルの使用を動機付けることを目的としている。 このようなモデルの開発は、物理モデル、特に有限要素モデルがどのように機能するかによって動機づけられている。 このようなモデルは、伝達可能、説明可能、信頼できる属性と見なされ、機械学習モデルに自明に課されたり、達成されたりしない。 このため、機械学習のアプローチは、業界からの信頼が低く、検証されたモデルを形成するのがより困難であると考えられることが多い。 このようなデータ駆動モデルを実現するために、ここで人口ベーススキームに従い、メタ学習領域から2つの異なる機械学習アルゴリズムを用いる。 2つのアルゴリズムはモデルに依存しないメタラーニング(MAML)アルゴリズムと条件付きニューラルプロセス(CNP)モデルである。 このアルゴリズムは、従来の機械学習アルゴリズムよりも、関心の量を近似するのが目的のようだ。 さらに、トレーニング集団で利用可能な構造の関数としての性能に関して、従来の機械学習アルゴリズム(ニューラルネットワークやガウス過程など)と同様の振る舞いを示す。

Machine learning has affected the way in which many phenomena for various domains are modelled, one of these domains being that of structural dynamics. However, because machine-learning algorithms are problem-specific, they often fail to perform efficiently in cases of data scarcity. To deal with such issues, combination of physics-based approaches and machine learning algorithms have been developed. Although such methods are effective, they also require the analyser's understanding of the underlying physics of the problem. The current work is aimed at motivating the use of models which learn such relationships from a population of phenomena, whose underlying physics are similar. The development of such models is motivated by the way that physics-based models, and more specifically finite element models, work. Such models are considered transferrable, explainable and trustworthy, attributes which are not trivially imposed or achieved for machine-learning models. For this reason, machine-learning approaches are less trusted by industry and often considered more difficult to form validated models. To achieve such data-driven models, a population-based scheme is followed here and two different machine-learning algorithms from the meta-learning domain are used. The two algorithms are the model-agnostic meta-learning (MAML) algorithm and the conditional neural processes (CNP) model. The algorithms seem to perform as intended and outperform a traditional machine-learning algorithm at approximating the quantities of interest. Moreover, they exhibit behaviour similar to traditional machine learning algorithms (e.g. neural networks or Gaussian processes), concerning their performance as a function of the available structures in the training population.
翻訳日:2023-07-20 14:38:24 公開日:2023-07-19
# BSDM:ハイパースペクトル異常検出のためのバックグラウンド抑圧拡散モデル

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection ( http://arxiv.org/abs/2307.09861v1 )

ライセンス: Link先を確認
Jitao Ma, Weiying Xie, Yunsong Li, Leyuan Fang(参考訳) ハイパースペクトル異常検出(HAD)は、地球観測や深宇宙探査に広く用いられている。 HADの大きな課題は、入力ハイパースペクトル画像(HSI)の複雑な背景であり、その結果、背景に異常が混同される。 一方,HSIに対するラベル付きサンプルの欠如は,既存のHAD手法の一般化を損なう。 本稿では,ラベル付きサンプルを使わずに,新たな一般化可能なバックグラウンド学習問題の研究を初めて開始する。 本稿では,潜在背景分布を学習し,複雑な背景を抑制するために異なるデータセットに一般化する,hadのための新しい解bsdm(background suppression diffusion model)を提案する。 1)HSIの複雑な背景に対して、擬似背景雑音を設計し、拡散モデル(DM)を用いて潜在的な背景分布を学習する。 2) 一般化可能性問題に対して, bsdm を異なる領域のデータセットに適用できるように, 統計的オフセット加群を適用した。 (3)背景抑圧を実現するため,元のHSIをノイズとして除去するデノナイジングネットワークに供給することで,DMの推論プロセスを革新的に改善する。 我々の研究は、手動でラベル付けされたデータを必要とすることなく、HADの性能を向上させる新しいバックグラウンド抑圧手法を練り上げた。 複数の実HSIデータセット上での4つのHAD手法の評価と一般化実験により,提案手法の3つの特性が示された。 コードはhttps://github.com/majitao-xd/BSDM-HADで公開されている。

Hyperspectral anomaly detection (HAD) is widely used in Earth observation and deep space exploration. A major challenge for HAD is the complex background of the input hyperspectral images (HSIs), resulting in anomalies confused in the background. On the other hand, the lack of labeled samples for HSIs leads to poor generalization of existing HAD methods. This paper starts the first attempt to study a new and generalizable background learning problem without labeled samples. We present a novel solution BSDM (background suppression diffusion model) for HAD, which can simultaneously learn latent background distributions and generalize to different datasets for suppressing complex background. It is featured in three aspects: (1) For the complex background of HSIs, we design pseudo background noise and learn the potential background distribution in it with a diffusion model (DM). (2) For the generalizability problem, we apply a statistical offset module so that the BSDM adapts to datasets of different domains without labeling samples. (3) For achieving background suppression, we innovatively improve the inference process of DM by feeding the original HSIs into the denoising network, which removes the background as noise. Our work paves a new background suppression way for HAD that can improve HAD performance without the prerequisite of manually labeled data. Assessments and generalization experiments of four HAD methods on several real HSI datasets demonstrate the above three unique properties of the proposed method. The code is available at https://github.com/majitao-xd/BSDM-HAD.
翻訳日:2023-07-20 14:38:00 公開日:2023-07-19
# 個別校正によるグラフの信頼性の高い希少カテゴリー分析に向けて

Towards Reliable Rare Category Analysis on Graphs via Individual Calibration ( http://arxiv.org/abs/2307.09858v1 )

ライセンス: Link先を確認
Longfeng Wu, Bowen Lei, Dongkuan Xu, Dawei Zhou(参考訳) 多くの現実世界のネットワークにはレアカテゴリがあり、金融詐欺検出、ネットワーク侵入検出、まれな疾患診断など、様々な高リスクアプリケーションにおいて重要な役割を担っている。 希少なカテゴリ分析(れいカテゴリ分析、英: Rare category analysis、RCA)とは、高度に不均衡なデータ分布におけるマイノリティクラスの振る舞いを検出し、特徴づけ、理解するタスクである。 RCAに関する既存の研究の大部分は予測性能の改善に重点を置いているが、これまでのいくつかの基本的な研究課題はほとんど注目されておらず、調査されていない。 学習過程における不確実性を定量化し、信頼できるレアカテゴリー分析を可能にするにはどうすればいいのか? これらの疑問に答えるために、既存のRCA手法の誤校正を調査することから始める。 実験の結果,最先端のrca法は主にマイノリティクラス予測において過密であり,多数クラス予測では過密であることが判明した。 そこで本研究では,RCAのユニークな課題を緩和し,信頼性の高いレアカテゴリー分析を可能にする,新たな個別校正フレームワークCALIRAREを提案する。 特にrcaにおける不確かさを定量化するために,不確実性の高い重複するサポート領域をモデル化するノードレベルの不確実性定量化アルゴリズムを開発し,ミスカバリ計算におけるマイノリティクラスのララリティに対処するため,分布に基づくキャリブレーションメトリックをインスタンスレベルに一般化し,期待される個別キャリブレーションエラー(eice)と呼ばれるグラフ上の最初の個別キャリブレーション計測を提案する。 提案するフレームワークの意義を示す希少なカテゴリ評価やモデル校正タスクを含む,実世界のデータセットに対する広範な実験評価を行った。

Rare categories abound in a number of real-world networks and play a pivotal role in a variety of high-stakes applications, including financial fraud detection, network intrusion detection, and rare disease diagnosis. Rare category analysis (RCA) refers to the task of detecting, characterizing, and comprehending the behaviors of minority classes in a highly-imbalanced data distribution. While the vast majority of existing work on RCA has focused on improving the prediction performance, a few fundamental research questions heretofore have received little attention and are less explored: How confident or uncertain is a prediction model in rare category analysis? How can we quantify the uncertainty in the learning process and enable reliable rare category analysis? To answer these questions, we start by investigating miscalibration in existing RCA methods. Empirical results reveal that state-of-the-art RCA methods are mainly over-confident in predicting minority classes and under-confident in predicting majority classes. Motivated by the observation, we propose a novel individual calibration framework, named CALIRARE, for alleviating the unique challenges of RCA, thus enabling reliable rare category analysis. In particular, to quantify the uncertainties in RCA, we develop a node-level uncertainty quantification algorithm to model the overlapping support regions with high uncertainty; to handle the rarity of minority classes in miscalibration calculation, we generalize the distribution-based calibration metric to the instance level and propose the first individual calibration measurement on graphs named Expected Individual Calibration Error (EICE). We perform extensive experimental evaluations on real-world datasets, including rare category characterization and model calibration tasks, which demonstrate the significance of our proposed framework.
翻訳日:2023-07-20 14:37:36 公開日:2023-07-19
# 空間・チャネルを考慮したマルチストリームアーキテクチャによるブラインド画像品質評価

Blind Image Quality Assessment Using Multi-Stream Architecture with Spatial and Channel Attention ( http://arxiv.org/abs/2307.09857v1 )

ライセンス: Link先を確認
Hassan Khalid, Nisar Ahmed(参考訳) BIQA(Blind Image Quality Assessment)は、画像を自動的に評価する重要な研究分野である。 しかし,画像の内容や歪みが変化するため,画像品質評価は依然として難しい課題である。 ほとんどのアルゴリズムは重要な関心領域を強調せずに品質を生成する。 これを解決するために,マルチストリーム空間およびチャネルアテンションに基づくアルゴリズムを提案する。 このアルゴリズムは、2つの異なるバックボーンのハイブリッド特徴を組み合わせて、人間の知覚的評価に高い相関関係を持つより正確な予測を生成し、その後、空間的およびチャネル的注意を伴って、関心領域に高い重みを与える。 4つのレガシ画像品質評価データセットを用いて,提案手法の有効性を検証する。 提案手法の有効性を示すために, 認証および合成歪み画像データベースを用いて, 知覚的前景情報に特に焦点をあてた優れた一般化特性を示す。

BIQA (Blind Image Quality Assessment) is an important field of study that evaluates images automatically. Although significant progress has been made, blind image quality assessment remains a difficult task since images vary in content and distortions. Most algorithms generate quality without emphasizing the important region of interest. In order to solve this, a multi-stream spatial and channel attention-based algorithm is being proposed. This algorithm generates more accurate predictions with a high correlation to human perceptual assessment by combining hybrid features from two different backbones, followed by spatial and channel attention to provide high weights to the region of interest. Four legacy image quality assessment datasets are used to validate the effectiveness of our proposed approach. Authentic and synthetic distortion image databases are used to demonstrate the effectiveness of the proposed method, and we show that it has excellent generalization properties with a particular focus on the perceptual foreground information.
翻訳日:2023-07-20 14:37:02 公開日:2023-07-19
# 歩行認識のための階層的時空間表現学習

Hierarchical Spatio-Temporal Representation Learning for Gait Recognition ( http://arxiv.org/abs/2307.09856v1 )

ライセンス: Link先を確認
Lei Wang, Bo Liu, Fangfang Liang, Bincheng Wang(参考訳) 歩行認識は、独特な歩行スタイルで個人を識別する生体計測技術であり、制約のない環境に適したものであり、幅広い用途がある。 現在の手法は身体の部分に基づく表現の活用に重点を置いているが、局所的な動きパターン間の階層的依存関係を無視することが多い。 本稿では,階層型時空間表現学習(HSTL)フレームワークを提案する。 我々のフレームワークは階層的なクラスタリング分析から始まり、体全体から局所的な詳細まで多層体構造を復元する。 次に、適応型領域ベースモーション抽出器(ARME)を用いて、領域に依存しない動作特徴を学習する。 提案されたhstlはトップダウン方式で複数のアームを積み重ね、各アームは階層の特定の分割レベルに対応する。 適応時空間プーリング(ASTP)モジュールは、階層的な特徴マッピングを実行するために、様々な詳細レベルで歩行特徴をキャプチャするために使用される。 最後に、マルチスケールの時間ダウンサンプリングにより、歩行シーケンスの冗長な情報を低減するためにフレームレベル時間アグリゲーション(FTA)モジュールを用いる。 CASIA-B, OUMVLP, GREW, Gait3Dデータセットの大規模な実験により, モデル精度と複雑性のバランスを保ちながら, 我々の手法が最先端の手法よりも優れていることが示された。

Gait recognition is a biometric technique that identifies individuals by their unique walking styles, which is suitable for unconstrained environments and has a wide range of applications. While current methods focus on exploiting body part-based representations, they often neglect the hierarchical dependencies between local motion patterns. In this paper, we propose a hierarchical spatio-temporal representation learning (HSTL) framework for extracting gait features from coarse to fine. Our framework starts with a hierarchical clustering analysis to recover multi-level body structures from the whole body to local details. Next, an adaptive region-based motion extractor (ARME) is designed to learn region-independent motion features. The proposed HSTL then stacks multiple ARMEs in a top-down manner, with each ARME corresponding to a specific partition level of the hierarchy. An adaptive spatio-temporal pooling (ASTP) module is used to capture gait features at different levels of detail to perform hierarchical feature mapping. Finally, a frame-level temporal aggregation (FTA) module is employed to reduce redundant information in gait sequences through multi-scale temporal downsampling. Extensive experiments on CASIA-B, OUMVLP, GREW, and Gait3D datasets demonstrate that our method outperforms the state-of-the-art while maintaining a reasonable balance between model accuracy and complexity.
翻訳日:2023-07-20 14:36:48 公開日:2023-07-19
# 合成ゲージ場制御下での非エルミート光機械的冷却とスクイーズ

Non-Hermitian optomechanical cooling and squeezing under synthetic gauge field control ( http://arxiv.org/abs/2307.09851v1 )

ライセンス: Link先を確認
Beyza S\"utl\"uo\u{g}lu Ege and Ceyhun Bulutay(参考訳) 最近の実験的ブレークスルーにより、理論上は光学共振器と2つのメカニカル共振器からなる非エルミート三元結合系における光機械的冷却とスクイーズを探求した。 閉輪相互作用は、合成$U(1)$ゲージ場を構成する大域位相によって具現化される。 合成場による機械共振器の冷却の現実的なパラメータセットについて説明する。 光発振器と機械式発振器の高減衰定数に根ざした光加熱と機械式冷却係数の大きな違いが観察された。 また、キャビティ励起レーザに振幅変調を印加して機械的スクイーズを実現する。 時間積分法(time-integrator method)と定常・変調特性のフロッケ法(florquet technique)という相補的な数値的手法が用いられる。 後者はジェームズの有効ハミルトニアン法によってさらに支持され、これはスクイーズにおける上側バンド変調の役割を明確に示している。 我々は,2つの機械共振器と閉ループ位相反転器を同時交換した場合の対称性,すなわち,両機械共振器の目標冷却やスクイーズを可能にする対称性を同定する。 また,冷却・スクイージングの促進に際し,例外点に接近する複雑な役割について詳述した。

Motivated by the very recent experimental breakthroughs, we theoretically explore optomechanical cooling and squeezing in a non-Hermitian ternary coupled system composed of an optical cavity and two mechanical resonators. A closed-contour interaction is formed embodied by a global phase that constitutes a synthetic $U(1)$ gauge field. We illustrate over a realistic parameter set the cooling of either mechanical resonator by the synthetic field. A stark disparity between the optical heating versus mechanical cooling factors is observed which is rooted in the high damping constant ratio of the optical and mechanical oscillators. Additionally, an amplitude modulation is imposed over the cavity-pumping laser to attain mechanical squeezing. A set of complementary numerical approaches are employed: the time-integrator method for the instantaneous behavior, and the Floquet technique for the steady-state or modulated characteristics. The latter is further supported by the James' effective Hamiltonian method which explicitly reveals the role of upper-sideband modulation in squeezing. We identify the symmetry, namely, the invariance of the system under simultaneous swapping of the two mechanical resonators together with closed-loop phase reversal, which enables targeted cooling or squeezing of either mechanical resonator. We also elaborate on the intricate role of proximity to the exceptional points on the enhancement of cooling and squeezing.
翻訳日:2023-07-20 14:36:25 公開日:2023-07-19
# 非自己回帰的TSSにおける話者埋め込み選択の効果に関する分析

An analysis on the effects of speaker embedding choice in non auto-regressive TTS ( http://arxiv.org/abs/2307.09898v1 )

ライセンス: Link先を確認
Adriana Stan and Johannah O'Mahony(参考訳) 本稿では,非自己回帰分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込み集合に存在する情報をどのように利用するかを理解するための最初の試みを提案する。 共同学習を行い,事前学習モデルから初期化することで,対象話者の識別精度が向上するかどうかを解析した。 別の分析では、異なる埋め込みセットが、話者のアイデンティティと表現学習の観点から、ネットワークのコア音声抽象化(すなわちゼロ条件付き)にどのように影響するかを調査した。 提案手法は, 組込みや学習戦略によらず, 様々な話者の同一性を扱うことができ, 音声の出力品質にはほとんど目立たない変化があり, 合成システムのコア構造における話者の漏洩は, これまでに採用されている標準訓練手順では避けられないことを示す。

In this paper we introduce a first attempt on understanding how a non-autoregressive factorised multi-speaker speech synthesis architecture exploits the information present in different speaker embedding sets. We analyse if jointly learning the representations, and initialising them from pretrained models determine any quality improvements for target speaker identities. In a separate analysis, we investigate how the different sets of embeddings impact the network's core speech abstraction (i.e. zero conditioned) in terms of speaker identity and representation learning. We show that, regardless of the used set of embeddings and learning strategy, the network can handle various speaker identities equally well, with barely noticeable variations in speech output quality, and that speaker leakage within the core structure of the synthesis system is inevitable in the standard training procedures adopted thus far.
翻訳日:2023-07-20 14:28:36 公開日:2023-07-19
# 分類のための繰り返し観測

Repeated Observations for Classification ( http://arxiv.org/abs/2307.09896v1 )

ライセンス: Link先を確認
H\"useyin Af\c{s}er, L\'aszl\'o Gy\"orfi, and Harro Walk(参考訳) 繰り返し観察することで問題を非パラメトリックに分類する。 $\bX$ を$d$次元特徴ベクトルとし、$Y$ を $\{1,\dots ,M\}$ の値を取るラベルを表す。 大規模なサンプルサイズが$n$で比較的低次元が$d$である通常のセットアップとは対照的に、単一特徴ベクトルを観測する代わりに、$t$繰り返し特徴ベクトルを$\bV_1,\dots ,\bV_t $とする。 いくつかの単純な分類規則は、条件付き誤差確率が指数収束率が$t\to\infty$であるように示される。 分析では, 名目密度によるロバスト検出, プロトタイプ分類, 線形変換, 線形分類, スケーリングなどのモデルについて検討した。

We study the problem nonparametric classification with repeated observations. Let $\bX$ be the $d$ dimensional feature vector and let $Y$ denote the label taking values in $\{1,\dots ,M\}$. In contrast to usual setup with large sample size $n$ and relatively low dimension $d$, this paper deals with the situation, when instead of observing a single feature vector $\bX$ we are given $t$ repeated feature vectors $\bV_1,\dots ,\bV_t $. Some simple classification rules are presented such that the conditional error probabilities have exponential convergence rate of convergence as $t\to\infty$. In the analysis, we investigate particular models like robust detection by nominal densities, prototype classification, linear transformation, linear classification, scaling.
翻訳日:2023-07-20 14:28:20 公開日:2023-07-19
# 抽象画像からの学習--ミニマリスト符号化における排除の重要性について

Learning from Abstract Images: on the Importance of Occlusion in a Minimalist Encoding of Human Poses ( http://arxiv.org/abs/2307.09893v1 )

ライセンス: Link先を確認
Saad Manzur, Wayne Hayes(参考訳) 既存の2dから3dのポーズ昇降ネットワークは、データセット間のベンチマークで性能が低下する。 2dキーポイントを「スティックフィッティング」四肢で結合した使用は、promiseを中間段階として示したが、スティックフィギュアは、イメージに固有の閉塞情報を考慮しない。 本稿では,関節位置を暗黙的に符号化しながら,咬合情報を保存する不透明な3D手足を用いた新しい表現を提案する。 重要なことは、正確な3次元のキーポイントと部分マップのないデータでトレーニングを行う場合、この表現は、できるだけ多くの合成的な視点から、抽象的な合成画像の訓練を可能にする。 結果は、関節位置よりも手足角によって定義されるポーズである:$\unicode{x2013}$ なぜなら、ポーズは実世界では、カメラとは独立に$\unicode{x2013}$であるからである。 その結果、同じデータセットベンチマークで改善されるだけでなく、クロスデータセットベンチマークで"量子飛躍"となる。

Existing 2D-to-3D pose lifting networks suffer from poor performance in cross-dataset benchmarks. Although the use of 2D keypoints joined by "stick-figure" limbs has shown promise as an intermediate step, stick-figures do not account for occlusion information that is often inherent in an image. In this paper, we propose a novel representation using opaque 3D limbs that preserves occlusion information while implicitly encoding joint locations. Crucially, when training on data with accurate three-dimensional keypoints and without part-maps, this representation allows training on abstract synthetic images, with occlusion, from as many synthetic viewpoints as desired. The result is a pose defined by limb angles rather than joint positions $\unicode{x2013}$ because poses are, in the real world, independent of cameras $\unicode{x2013}$ allowing us to predict poses that are completely independent of camera viewpoint. The result provides not only an improvement in same-dataset benchmarks, but a "quantum leap" in cross-dataset benchmarks.
翻訳日:2023-07-20 14:28:04 公開日:2023-07-19
# 3deformer: イメージ誘導メッシュ変形のための共通フレームワーク

3Deformer: A Common Framework for Image-Guided Mesh Deformation ( http://arxiv.org/abs/2307.09892v1 )

ライセンス: Link先を確認
Hao Su, Xuefeng Liu, Jianwei Niu, Ji Wan, Xinghao Wu(参考訳) インタラクティブな3次元形状編集のための汎用フレームワークである3Deformerを提案する。 セマンティック素材を備えたソース3Dメッシュとユーザ特定セマンティックイメージとが与えられた3Deformerは、ソーストポロジを可能な限り固く保ちながら、セマンティックイメージの形状ガイダンスに従ってソースメッシュを正確に編集することができる。 最近の3d形状編集の研究は、主に3d形状を予測するためにニューラルネットワークを学習することに焦点を当てている。 これらの研究と異なり、我々の3deformerは非トレーニングで共通のフレームワークであり、容易に利用可能なセマンティックイメージの監督しか必要とせず、データセットによって無制限にさまざまなオブジェクトを編集できる。 3deformerでは、ソースメッシュは、セマンティクスイメージとメッシュ素材の対応に従って、微分可能なレンダラ技術を用いて変形する。 しかし、単純な2次元画像で複雑な3次元形状を導くことは、変形精度、表面の滑らかさ、幾何剛性、および編集メッシュのグローバル同期を保証するという余分な課題を引き起こす。 これらの課題に対処するため,グローバルな形状と局所的な形状のバランスをとる階層的最適化アーキテクチャを提案し,精度,滑らかさ,剛性などの特性を改善するための様々な戦略と損失を提案する。 大規模な実験により、我々の3Dformerは印象的な結果をもたらし、最先端のレベルに到達できることがわかった。

We propose 3Deformer, a general-purpose framework for interactive 3D shape editing. Given a source 3D mesh with semantic materials, and a user-specified semantic image, 3Deformer can accurately edit the source mesh following the shape guidance of the semantic image, while preserving the source topology as rigid as possible. Recent studies of 3D shape editing mostly focus on learning neural networks to predict 3D shapes, which requires high-cost 3D training datasets and is limited to handling objects involved in the datasets. Unlike these studies, our 3Deformer is a non-training and common framework, which only requires supervision of readily-available semantic images, and is compatible with editing various objects unlimited by datasets. In 3Deformer, the source mesh is deformed utilizing the differentiable renderer technique, according to the correspondences between semantic images and mesh materials. However, guiding complex 3D shapes with a simple 2D image incurs extra challenges, that is, the deform accuracy, surface smoothness, geometric rigidity, and global synchronization of the edited mesh should be guaranteed. To address these challenges, we propose a hierarchical optimization architecture to balance the global and local shape features, and propose further various strategies and losses to improve properties of accuracy, smoothness, rigidity, and so on. Extensive experiments show that our 3Deformer is able to produce impressive results and reaches the state-of-the-art level.
翻訳日:2023-07-20 14:27:45 公開日:2023-07-19
# アイテム応答理論の償却設計最適化

Amortised Design Optimization for Item Response Theory ( http://arxiv.org/abs/2307.09891v1 )

ライセンス: Link先を確認
Antti Keurulainen, Isak Westerlund, Oskar Keurulainen, Andrew Howes(参考訳) 項目応答理論 (IRT) は、教育と心理学における人間からの反応を評価する方法としてよく知られている。 教育において、irtは学生の反応からテスト項目の能力や特性を推測するために用いられる。 学生とのインタラクションは高価であり、学生の能力を評価するために効率的に情報を集める方法を求めている。 最適実験設計(OED)に基づく手法は計算コストがかかり、対話型アプリケーションには適用できない。 そこで本研究では,irtに償却実験設計を組み入れることを提案する。 ここでは、Deep Reinforcement Learning (DRL)エージェントを合成データでトレーニングすることにより、計算コストを事前計算フェーズに移行する。 エージェントは、学生の分布を最適に知らせるテスト項目を選択し、実験結果に応じて償却推論を行うように訓練される。 エージェントはデータからパラメータを推定し、実験と結果の履歴を考慮し、リアルタイムに近い次のテスト項目を学生に提案する。

Item Response Theory (IRT) is a well known method for assessing responses from humans in education and psychology. In education, IRT is used to infer student abilities and characteristics of test items from student responses. Interactions with students are expensive, calling for methods that efficiently gather information for inferring student abilities. Methods based on Optimal Experimental Design (OED) are computationally costly, making them inapplicable for interactive applications. In response, we propose incorporating amortised experimental design into IRT. Here, the computational cost is shifted to a precomputing phase by training a Deep Reinforcement Learning (DRL) agent with synthetic data. The agent is trained to select optimally informative test items for the distribution of students, and to conduct amortised inference conditioned on the experiment outcomes. During deployment the agent estimates parameters from data, and suggests the next test item for the student, in close to real-time, by taking into account the history of experiments and outcomes.
翻訳日:2023-07-20 14:27:18 公開日:2023-07-19
# 超高速全電子ユニバーサルナノビット

Ultra-Fast All-Electrical Universal Nano-Qubits ( http://arxiv.org/abs/2307.09890v1 )

ライセンス: Link先を確認
David T. S. Perkins, Aires Ferreira(参考訳) 本稿では, 純電気的手法を用いて, 酸化有限グラフェンナノリボン(GNR)系における実空間局在化スピン量子ビットの生成, 制御, 読み出し方法を提案する。 提案するナノ量子ビットは,磁気基板上に配置されたGNRにおけるクーロンの相互作用と相対論的スピン依存相互作用を通じて生じる一重項トリップ状態から形成される。 GNRヘテロ構造に垂直な電場の適用により、近接結合、すなわち量子クエンチが突然変化し、Bloch球上の任意の点にナノキュービットを決定論的に回転させることができる。 これらのスピン量子ビットは、最適な可視性と周波数が10ghzを超えるラビ振動を受けると予測する。 超高速全電法によるグラフェン系量子コンピューティングの実現に向けた新たな道を開く。

We propose how to create, control, and read-out real-space localized spin qubits in proximitized finite graphene nanoribbon (GNR) systems using purely electrical methods. Our proposed nano-qubits are formed of in-gap singlet-triplet states that emerge through the interplay of Coulomb and relativistic spin-dependent interactions in GNRs placed on a magnetic substrate. Application of an electric field perpendicular to the GNR heterostructure leads to a sudden change in the proximity couplings, i.e. a quantum quench, which enables us to deterministically rotate the nano-qubit to any arbitrary point on the Bloch sphere. We predict these spin qubits to undergo Rabi oscillations with optimal visibility and frequencies in excess of 10 GHz. Our findings open up a new avenue for the realization of graphene-based quantum computing with ultra-fast all-electrical methods.
翻訳日:2023-07-20 14:27:01 公開日:2023-07-19
# VQA検証のための強化学習アプローチ:糖尿病黄斑浮腫評価への応用

A reinforcement learning approach for VQA validation: an application to diabetic macular edema grading ( http://arxiv.org/abs/2307.09886v1 )

ライセンス: Link先を確認
Tatiana Fountoukidou and Raphael Sznitman(参考訳) 機械学習モデルの最近の進歩は、医療画像解析における自動化手法の性能を大きく向上させた。 しかし、これらのモデルの内部機能はほとんど隠れており、臨床実践への統合を妨げている。 説明可能性と信頼は現代の方法の重要な側面と見なされ、後者は臨床コミュニティで広く利用されている。 そのため、機械学習モデルの検証は重要な側面であるが、ほとんどのメソッドは限定的な方法でのみ検証される。 本研究では,vqa(high powerful visual question answering)アルゴリズムに対して,よりリッチでより適切な検証手法を提供することに着目する。 画像に関する任意の質問に答えるこれらの手法の性能をよりよく理解するために、この研究は自動視覚チューリングテスト(VTT)に焦点を当てている。 すなわち,VQAアルゴリズムの推論動作を明らかにすることを目的とした自動適応質問手法を提案する。 具体的には、以前に質問された質問の歴史を観察する強化学習(RL)エージェントを導入し、それを用いて次の質問を選択する。 我々は,糖尿病性黄斑浮腫(DME)のグレーディングに関する質問に自動的に答えるアルゴリズムの評価の文脈において,我々のアプローチを実証する。 実験により,このような薬剤は臨床医と類似した行動を示し,重要な臨床概念に関連する質問を行う。

Recent advances in machine learning models have greatly increased the performance of automated methods in medical image analysis. However, the internal functioning of such models is largely hidden, which hinders their integration in clinical practice. Explainability and trust are viewed as important aspects of modern methods, for the latter's widespread use in clinical communities. As such, validation of machine learning models represents an important aspect and yet, most methods are only validated in a limited way. In this work, we focus on providing a richer and more appropriate validation approach for highly powerful Visual Question Answering (VQA) algorithms. To better understand the performance of these methods, which answer arbitrary questions related to images, this work focuses on an automatic visual Turing test (VTT). That is, we propose an automatic adaptive questioning method, that aims to expose the reasoning behavior of a VQA algorithm. Specifically, we introduce a reinforcement learning (RL) agent that observes the history of previously asked questions, and uses it to select the next question to pose. We demonstrate our approach in the context of evaluating algorithms that automatically answer questions related to diabetic macular edema (DME) grading. The experiments show that such an agent has similar behavior to a clinician, whereby asking questions that are relevant to key clinical concepts.
翻訳日:2023-07-20 14:26:47 公開日:2023-07-19
# 受験者は、言語テストにおけるAIの使用の意味を理解する

Test-takers have a say: understanding the implications of the use of AI in language tests ( http://arxiv.org/abs/2307.09885v1 )

ライセンス: Link先を確認
Dawen Zhang, Thong Hoang, Shidong Pan, Yongquan Hu, Zhenchang Xing, Mark Staples, Xiwei Xu, Qinghua Lu, Aaron Quigley(参考訳) 言語テストは、聞く、話す、読む、書くといった観点で言語を使用する人の能力を測定する。 このようなテストは、教育機関、専門家認定機関、それにそれらを使って言語能力を評価する政府といった団体とともに、学術、専門分野、移民分野において不可欠な役割を担っている。 人工知能(AI)と自然言語処理の分野の最近の進歩により、言語テストプロバイダは、言語テストにおけるAIの適用可能性を探究し、言語教育と学習を取り巻く変革的な活動パターンへと繋がった。 しかし、AIの信頼性に関する懸念から、AIを言語テストに統合することの意味を理解することが不可欠である。 この知識はステークホルダーに十分な情報提供の意思決定を可能にするため、コミュニティの幸福とテストの完全性を保護する。 言語テストにおけるAI利用の懸念と影響を理解するため、英語の受験者を対象にインタビューと調査を行った。 私たちの知る限りでは、これはテストテイカーの観点から、言語テストにおけるai採用の意義を特定することを目的とした最初の実証研究です。 本研究は,テストテイカー知覚と行動パターンを明らかにする。 具体的には、AI統合が公正さ、一貫性、可用性の知覚を高める可能性があると認識する。 逆に、信頼性と相互作用性に関する不信を招き、その後、テストテイカーの行動や幸福に影響を与えるかもしれない。 これらの洞察は、潜在的な社会的な影響をより深く理解し、言語テストにおけるaiの使用に関するインフォームドな意思決定を支援する。

Language tests measure a person's ability to use a language in terms of listening, speaking, reading, or writing. Such tests play an integral role in academic, professional, and immigration domains, with entities such as educational institutions, professional accreditation bodies, and governments using them to assess candidate language proficiency. Recent advances in Artificial Intelligence (AI) and the discipline of Natural Language Processing have prompted language test providers to explore AI's potential applicability within language testing, leading to transformative activity patterns surrounding language instruction and learning. However, with concerns over AI's trustworthiness, it is imperative to understand the implications of integrating AI into language testing. This knowledge will enable stakeholders to make well-informed decisions, thus safeguarding community well-being and testing integrity. To understand the concerns and effects of AI usage in language tests, we conducted interviews and surveys with English test-takers. To the best of our knowledge, this is the first empirical study aimed at identifying the implications of AI adoption in language tests from a test-taker perspective. Our study reveals test-taker perceptions and behavioral patterns. Specifically, we identify that AI integration may enhance perceptions of fairness, consistency, and availability. Conversely, it might incite mistrust regarding reliability and interactivity aspects, subsequently influencing the behaviors and well-being of test-takers. These insights provide a better understanding of potential societal implications and assist stakeholders in making informed decisions concerning AI usage in language testing.
翻訳日:2023-07-20 14:26:25 公開日:2023-07-19
# VAEの対称平衡学習

Symmetric Equilibrium Learning of VAEs ( http://arxiv.org/abs/2307.09883v1 )

ライセンス: Link先を確認
Boris Flach and Dmitrij Schlesinger and Alexander Shekhovtsov(参考訳) 我々は変分オートエンコーダ(vae)をデコーダとエンコーダのペアとして捉え、データ空間内の分布を潜在空間内の分布にマップし、その逆も行う。 VAEの標準的な学習手法、すなわちエビデンスローバウンド(ELBO)の最大化は、その点において明らかな非対称性を持つ。 さらに、閉じた形式のa-priori 潜在分布も必要である。 これにより、一般的な半教師付き学習や複雑な生成モデルなど、より複雑なシナリオにおけるVAEの適用性が制限される。 本研究では,これらの制約を緩和し,データと潜伏分布の両方がサンプリングによってのみアクセス可能な状況下でのVAEの学習を可能にするナッシュ均衡学習手法を提案する。 このアプローチの柔軟性とシンプルさにより、幅広い学習シナリオとダウンストリームタスクに応用することができる。 本手法で学習したモデルは,ELBO学習と同等であり,標準的なVAE学習ではアクセスできないタスクに適用可能であることを示す。

We view variational autoencoders (VAE) as decoder-encoder pairs, which map distributions in the data space to distributions in the latent space and vice versa. The standard learning approach for VAEs, i.e. maximisation of the evidence lower bound (ELBO), has an obvious asymmetry in that respect. Moreover, it requires a closed form a-priori latent distribution. This limits the applicability of VAEs in more complex scenarios, such as general semi-supervised learning and employing complex generative models as priors. We propose a Nash equilibrium learning approach that relaxes these restrictions and allows learning VAEs in situations where both the data and the latent distributions are accessible only by sampling. The flexibility and simplicity of this approach allows its application to a wide range of learning scenarios and downstream tasks. We show experimentally that the models learned by this method are comparable to those obtained by ELBO learning and demonstrate its applicability for tasks that are not accessible by standard VAE learning.
翻訳日:2023-07-20 14:25:58 公開日:2023-07-19
# 片道流による対向的確率推定

Adversarial Likelihood Estimation with One-way Flows ( http://arxiv.org/abs/2307.09882v1 )

ライセンス: Link先を確認
Omri Ben-Dov, Pravir Singh Gupta, Victoria Abrevaya, Michael J. Black, Partha Ghosh(参考訳) generative adversarial network (gans) は高品質なサンプルを生成できるが、サンプル周辺の確率密度の推定はできない。 しかしながら、エネルギーに基づく設定において、ログの類似度を最大化することは、判別器が非正規化された密度(しばしばエネルギーと呼ばれる)を提供する敵の枠組みにつながる可能性がある。 我々は、この視点をさらに発展させ、重要サンプリングを取り入れ、 1)wasserstein ganは分割関数の偏り推定を行い、代わりに偏りのない推定器を使用することを提案する。 2) 可能性に最適化する場合は, 生成エントロピーを最大化する必要がある。 これは、より良いモードカバレッジを提供すると仮定される。 従来の研究と異なり、生成したサンプルの密度を明示的に計算する。 これは分割関数の偏りのない推定器の設計とジェネレータエントロピー項の計算の鍵となる。 ジェネレータ密度は、一方向フローネットワークと呼ばれる新しいタイプのフローネットワークによって得られるが、従順な逆関数を必要としないため、アーキテクチャの面では制約が小さい。 実験結果から, より高速に収束し, 類似したアーキテクチャでGANに匹敵するサンプル品質が得られ, 一般的に使用されるデータセットの過度な適合を回避し, トレーニングデータのスムーズな低次元潜在表現を生成することができた。

Generative Adversarial Networks (GANs) can produce high-quality samples, but do not provide an estimate of the probability density around the samples. However, it has been noted that maximizing the log-likelihood within an energy-based setting can lead to an adversarial framework where the discriminator provides unnormalized density (often called energy). We further develop this perspective, incorporate importance sampling, and show that 1) Wasserstein GAN performs a biased estimate of the partition function, and we propose instead to use an unbiased estimator; 2) when optimizing for likelihood, one must maximize generator entropy. This is hypothesized to provide a better mode coverage. Different from previous works, we explicitly compute the density of the generated samples. This is the key enabler to designing an unbiased estimator of the partition function and computation of the generator entropy term. The generator density is obtained via a new type of flow network, called one-way flow network, that is less constrained in terms of architecture, as it does not require to have a tractable inverse function. Our experimental results show that we converge faster, produce comparable sample quality to GANs with similar architecture, successfully avoid over-fitting to commonly used datasets and produce smooth low-dimensional latent representations of the training data.
翻訳日:2023-07-20 14:25:41 公開日:2023-07-19
# 大規模言語モデルはビジネスプロセス管理タスクを達成できる

Large Language Models can accomplish Business Process Management Tasks ( http://arxiv.org/abs/2307.09923v1 )

ライセンス: Link先を確認
Michael Grohs, Luka Abb, Nourhan Elsayed, and Jana-Rebecca Rehse(参考訳) ビジネスプロセス管理(BPM)は、組織活動とその成果を改善することを目的としています。 これを実現するためには、構造化されていない文書を含む様々な情報源の情報を考慮することがしばしば必要となる。 そこで研究者らは自然言語処理技術を用いてテキスト文書から情報を抽出するBPM固有のソリューションを開発した。 これらの解はそれぞれのタスクに特有であり、汎用機器として複数のプロセス関連の問題を解決することはできない。 しかし,近年のLarge Language Models (LLM) の顕著な推論能力の出現により,複数のアプリケーションを持つ汎用機器が実現可能になった。 本稿では,テキスト記述から命令型プロセスモデルをマイニングし,テキスト記述から宣言型プロセスモデルをマイニングし,ロボットプロセス自動化のためのテキスト記述からプロセスタスクの適合性を評価する。 広範な構成や迅速なエンジニアリングがなければ、LLMは既存のソリューションと同等かそれ以上に機能し、将来のBPM研究と実用的な利用について論じることを示します。

Business Process Management (BPM) aims to improve organizational activities and their outcomes by managing the underlying processes. To achieve this, it is often necessary to consider information from various sources, including unstructured textual documents. Therefore, researchers have developed several BPM-specific solutions that extract information from textual documents using Natural Language Processing techniques. These solutions are specific to their respective tasks and cannot accomplish multiple process-related problems as a general-purpose instrument. However, in light of the recent emergence of Large Language Models (LLMs) with remarkable reasoning capabilities, such a general-purpose instrument with multiple applications now appears attainable. In this paper, we illustrate how LLMs can accomplish text-related BPM tasks by applying a specific LLM to three exemplary tasks: mining imperative process models from textual descriptions, mining declarative process models from textual descriptions, and assessing the suitability of process tasks from textual descriptions for robotic process automation. We show that, without extensive configuration or prompt engineering, LLMs perform comparably to or better than existing solutions and discuss implications for future BPM research as well as practical usage.
翻訳日:2023-07-20 14:19:52 公開日:2023-07-19
# TimeTuner: 時系列予測の時間表現と非現実的説明

TimeTuner: Diagnosing Time Representations for Time-Series Forecasting with Counterfactual Explanations ( http://arxiv.org/abs/2307.09916v1 )

ライセンス: Link先を確認
Jianing Hao, Qing Shi, Yilin Ye, and Wei Zeng(参考訳) ディープラーニング(DL)アプローチは、複雑なDLモデルを設計するための多くの取り組みとともに、時系列予測にますます使われています。 近年の研究では、dlの成功は効果的なデータ表現に起因しており、機能工学と表現学習の分野を育んでいることが示されている。 しかし、機能学習の自動化アプローチは通常、事前知識の導入、変数間の相互作用の特定、モデルの信頼性を保証するための評価指標の選択に限られる。 これらの制約を改善するために,本論文では,モデル行動が局所的相関,定常性,時系列表現の粒度とどのように関連しているかをアナリストが理解するための新しいビジュアル分析フレームワークであるTimeTunerを提案する。 まず, 時系列表現と多変量特徴, モデル予測の関係を関連づけるために, 反事実的説明を利用する。 次に,分割型相関行列と分岐二変量ストライプを含む複数の協調ビューを設計し,ユーザが変換選択プロセスに踏み込み,特徴空間をナビゲートし,モデル性能を推論するためのインタラクションセットを提供する。 平滑化とサンプリングの2つの変換方法でタイムチューナーをインスタンス化し,実世界の太陽黒点と多変量大気汚染物質の時系列予測への適用性を示す。 ドメインエキスパートからのフィードバックは、我々のシステムが時系列表現を特徴づけ、機能エンジニアリングプロセスを導くのに役立つことを示している。

Deep learning (DL) approaches are being increasingly used for time-series forecasting, with many efforts devoted to designing complex DL models. Recent studies have shown that the DL success is often attributed to effective data representations, fostering the fields of feature engineering and representation learning. However, automated approaches for feature learning are typically limited with respect to incorporating prior knowledge, identifying interactions among variables, and choosing evaluation metrics to ensure that the models are reliable. To improve on these limitations, this paper contributes a novel visual analytics framework, namely TimeTuner, designed to help analysts understand how model behaviors are associated with localized correlations, stationarity, and granularity of time-series representations. The system mainly consists of the following two-stage technique: We first leverage counterfactual explanations to connect the relationships among time-series representations, multivariate features and model predictions. Next, we design multiple coordinated views including a partition-based correlation matrix and juxtaposed bivariate stripes, and provide a set of interactions that allow users to step into the transformation selection process, navigate through the feature space, and reason the model performance. We instantiate TimeTuner with two transformation methods of smoothing and sampling, and demonstrate its applicability on real-world time-series forecasting of univariate sunspots and multivariate air pollutants. Feedback from domain experts indicates that our system can help characterize time-series representations and guide the feature engineering processes.
翻訳日:2023-07-20 14:19:31 公開日:2023-07-19
# クロスリンガル画像キャプションのための組込み不均質注意トランス

Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning ( http://arxiv.org/abs/2307.09915v1 )

ライセンス: Link先を確認
Zijie Song, Zhenzhen Hu, and Richang Hong(参考訳) 言語横断画像キャプションは、マルチメディア分析における言語横断とモーダル横断の両方の課題に直面している。 このタスクの重要な問題は、画像と異なる言語間のグローバルおよびローカルマッチングをモデル化することである。 トランスフォーマーアーキテクチャに基づく既存のクロスモーダル埋め込み手法は、画像領域と単言語単語の局所マッチングを監督する。 クロスモーダルタスクとクロスランガルタスクの異種性のため、異種ネットワークを用いて、画像と異なる言語間のドメイン間関係と局所的対応を確立する。 本稿では,言語間画像キャプションのためのクロスドメインをブリッジする推論パスを構築し,トランスフォーマに統合する組込み異種注意変換器(EHAT)を提案する。 提案するehatは,マスク付き異種交叉 (mhca), 異種注意推論ネットワーク (harn) およびヘテロジニアスコアテンション (hca) から構成される。 harnはコアネットワークであり、モデルであり、視覚境界ボックス表現機能によって固定されたクロスドメイン関係を推論し、2つの言語を接続し、異種マップを学ぶ。 MHCAとHCAは、特別なヘテロジニアスな注意を通してエンコーダのクロスドメイン統合を実装し、単一のモデルで2つの言語キャプションを生成する。 MSCOCOデータセットを用いて英語と中国語を生成する。 実験の結果,本手法は先進的な単言語法よりも優れていることがわかった。

Cross-lingual image captioning is confronted with both cross-lingual and cross-modal challenges for multimedia analysis. The crucial issue in this task is to model the global and local matching between the image and different languages. Existing cross-modal embedding methods based on Transformer architecture oversight the local matching between the image region and monolingual words, not to mention in the face of a variety of differentiated languages. Due to the heterogeneous property of the cross-modal and cross-lingual task, we utilize the heterogeneous network to establish cross-domain relationships and the local correspondences between the image and different languages. In this paper, we propose an Embedded Heterogeneous Attention Transformer (EHAT) to build reasoning paths bridging cross-domain for cross-lingual image captioning and integrate into transformer. The proposed EHAT consists of a Masked Heterogeneous Cross-attention (MHCA), Heterogeneous Attention Reasoning Network (HARN) and Heterogeneous Co-attention (HCA). HARN as the core network, models and infers cross-domain relationship anchored by vision bounding box representation features to connect two languages word features and learn the heterogeneous maps. MHCA and HCA implement cross-domain integration in the encoder through the special heterogeneous attention and enable single model to generate two language captioning. We test on MSCOCO dataset to generate English and Chinese, which are most widely used and have obvious difference between their language families. Our experiments show that our method even achieve better than advanced monolingual methods.
翻訳日:2023-07-20 14:19:05 公開日:2023-07-19
# エントロピーの量子をテストする

Testing the Quantum of Entropy ( http://arxiv.org/abs/2307.09914v1 )

ライセンス: Link先を確認
Uwe Hohm and Christoph Schiller(参考訳) マクロおよび単一粒子系のエントロピー限界に関する実験的および理論的結果について概説した。 ボルツマン定数 k によって与えられるエントロピーの量子について語ることができるときと、より低いエントロピー極限 $s \geq k \ln 2$ について明らかにされる。 熱力学の第3法則とエントロピーの添加性との概念的緊張が解決される。 ブラックホールエントロピーも調査されている。 エントロピー値の消滅に関するさらなる主張は、可観測性の要件と矛盾することが示され、これは初めて議論されたように、$S \geq k \ln 2$ を意味する。 ボルツマン定数を含む不確実性関係と、エントロピーの量子の存在から熱力学を導出する可能性により、自然に有効なエントロピー極限の原理について話すことができる。

Experimental and theoretical results about entropy limits for macroscopic and single-particle systems are reviewed. It is clarified when it is possible to speak about a quantum of entropy, given by the Boltzmann constant k, and about a lower entropy limit $S \geq k \ln 2$. Conceptual tensions with the third law of thermodynamics and the additivity of entropy are resolved. Black hole entropy is also surveyed. Further claims for vanishing entropy values are shown to contradict the requirement of observability, which, as possibly argued for the first time, also implies $S \geq k \ln 2$. The uncertainty relations involving the Boltzmann constant and the possibility of deriving thermodynamics from the existence of a quantum of entropy enable one to speak about a principle of the entropy limit that is valid across nature.
翻訳日:2023-07-20 14:18:34 公開日:2023-07-19
# 記述-論理特徴を持つ命題動的論理の非正規拡張の探索

Exploring Non-Regular Extensions of Propositional Dynamic Logic with Description-Logics Features ( http://arxiv.org/abs/2307.09913v1 )

ライセンス: Link先を確認
Bartosz Bednarczyk(参考訳) ALCを拡張した記述論理において、非正規経路表現が満足度チェックとクエリの決定可能性に与える影響について検討する。 関心のある主な対象はalcregとalcvplで、それぞれ、正規言語とvisible-pushdown言語を使ったwithpath式の拡張です。 第一の ALCreg は、フィッシャーとラドナーのよく知られた命題動的論理の記法的変種である。 第2のALCvplは2007年にLoding and Serreによって導入され調査された。 ALCvpl は ALCreg の多くの既知の決定不能な非正規拡張を一般化する。 我々は一連の決定不能な結果を提供する。 まず, ALCvpl における概念満足度問題に対する決定性は, 一見無作為な自己演算子を加えると失われることを示す。 第2に,alcvplの概念充足可能性問題に対する不確定性を確立する。 興味深いことに、我々の決定不能な証明は、固定されたロール名 r と s に対して、r#s# := { r^n s^n | n in n } の1つの非正規言語のみに依存している。 最後に,従来のデータベース設定とは対照的に,すでに ALC-TBoxes の場合において,r#s# の非正則原子を含むクエリに対するクエリエンタテインメントの不確定性を確立する。

We investigate the impact of non-regular path expressions on the decidability of satisfiability checking and querying in description logics extending ALC. Our primary objects of interest are ALCreg and ALCvpl, the extensions of with path expressions employing, respectively, regular and visibly-pushdown languages. The first one, ALCreg, is a notational variant of the well-known Propositional Dynamic Logic of Fischer and Ladner. The second one, ALCvpl, was introduced and investigated by Loding and Serre in 2007. The logic ALCvpl generalises many known decidable non-regular extensions of ALCreg. We provide a series of undecidability results. First, we show that decidability of the concept satisfiability problem for ALCvpl is lost upon adding the seemingly innocent Self operator. Second, we establish undecidability for the concept satisfiability problem for ALCvpl extended with nominals. Interestingly, our undecidability proof relies only on one single non-regular (visibly-pushdown) language, namely on r#s# := { r^n s^n | n in N } for fixed role names r and s. Finally, in contrast to the classical database setting, we establish undecidability of query entailment for queries involving non-regular atoms from r#s#, already in the case of ALC-TBoxes.
翻訳日:2023-07-20 14:18:19 公開日:2023-07-19
# 時間均質力学系学習のための深部投射ネットワーク

Deep projection networks for learning time-homogeneous dynamical systems ( http://arxiv.org/abs/2307.09912v1 )

ライセンス: Link先を確認
Vladimir R. Kostic, Pietro Novelli, Riccardo Grazzi, Karim Lounici, Massimiliano Pontil(参考訳) 離散的かつ連続的な時間均質な力学系の一般的なクラスを考察し、観測データから状態の有意義な表現を学習する問題を考察する。 これはシステムのフォワード転送演算子を学習するタスクに役立ち、将来の状態や観測可能性を予測するのに使うことができる。 表現は通常、ニューラルネットワークによってパラメトリ化され、射影演算子と関連付けられ、正準相関解析(cca)に類似した目的関数を最適化することで学習される。 しかし、CCAとは異なり、我々の目的は行列の逆転を避けるため、一般により安定しており、挑戦的なシナリオに適用できる。 我々の目的はCCAの厳密な緩和であり、2つの正規化スキームを提案し、1つは表現の成分の直交性を奨励し、もう1つはチャップマン・コルモゴロフの方程式を利用することによってさらに強化する。 本手法は離散力学系への挑戦に応用し,従来の手法よりも改善点を議論し,連続力学系にも適用する。

We consider the general class of time-homogeneous dynamical systems, both discrete and continuous, and study the problem of learning a meaningful representation of the state from observed data. This is instrumental for the task of learning a forward transfer operator of the system, that in turn can be used for forecasting future states or observables. The representation, typically parametrized via a neural network, is associated with a projection operator and is learned by optimizing an objective function akin to that of canonical correlation analysis (CCA). However, unlike CCA, our objective avoids matrix inversions and therefore is generally more stable and applicable to challenging scenarios. Our objective is a tight relaxation of CCA and we further enhance it by proposing two regularization schemes, one encouraging the orthogonality of the components of the representation while the other exploiting Chapman-Kolmogorov's equation. We apply our method to challenging discrete dynamical systems, discussing improvements over previous methods, as well as to continuous dynamical systems.
翻訳日:2023-07-20 14:17:53 公開日:2023-07-19
# Chit-ChatまたはDeep Talk: プロセスマイニングのためのプロンプトエンジニアリング

Chit-Chat or Deep Talk: Prompt Engineering for Process Mining ( http://arxiv.org/abs/2307.09909v1 )

ライセンス: Link先を確認
Urszula Jessen, Michal Sroka, Dirk Fahland(参考訳) 本研究では,Large Language Models (LLMs) のプロセスマイニングにおける会話エージェント強化への応用について検討し,その複雑さと多様なスキル要件に対処することを目的とした。 LLMは会話プロセスマイニングの新たな機会を提供する一方で、効率的なアウトプットを生成することは依然としてハードルである。 本稿では,自然言語処理(nlp)に関する先行研究から得られた,既存ソリューションの問題点の多くを修正した革新的なアプローチを提案する。 llmsを活用したフレームワークは、公開質問やデータセットの実験で示されているように、アクセシビリティとエージェントのパフォーマンスの両方を改善します。 本研究は,LLMのプロセスマイニングにおける役割を探究し,LCMメモリの向上,リアルタイムユーザテストの実現,多様なデータセットの検証などを提案する。

This research investigates the application of Large Language Models (LLMs) to augment conversational agents in process mining, aiming to tackle its inherent complexity and diverse skill requirements. While LLM advancements present novel opportunities for conversational process mining, generating efficient outputs is still a hurdle. We propose an innovative approach that amend many issues in existing solutions, informed by prior research on Natural Language Processing (NLP) for conversational agents. Leveraging LLMs, our framework improves both accessibility and agent performance, as demonstrated by experiments on public question and data sets. Our research sets the stage for future explorations into LLMs' role in process mining and concludes with propositions for enhancing LLM memory, implementing real-time user testing, and examining diverse data sets.
翻訳日:2023-07-20 14:17:35 公開日:2023-07-19
# 音声ヘッドビデオ生成のための暗黙のアイデンティティ表現条件付きメモリ補償ネットワーク

Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head video Generation ( http://arxiv.org/abs/2307.09906v1 )

ライセンス: Link先を確認
Fa-Ting Hong and Dan Xu(参考訳) トーキングヘッドビデオ生成は、人物の身元を画像内に保持しつつ、ターゲット駆動ビデオから派生した動き情報を用いて、静止画像中の人間の顔に動的ポーズと表情をアニメーションすることを目的としている。 しかし、運転映像における劇的かつ複雑な動きは、隠蔽された領域や微妙な表現のバリエーションに対して十分な外観情報を提供できないため、不明瞭な生成を引き起こす。 この問題に対処するために,我々はグローバルな顔表現空間を学習し,MCNetと呼ばれる新しい暗黙のアイデンティティ表現条件付きメモリ補償ネットワークを設計することを提案する。 具体的には、ネットワークモジュールを考案し、すべてのトレーニングサンプルから、統一的な空間的顔メタメモリバンクを学習し、より豊かな顔構造と外観を前もって提供し、その生成のための歪んだ顔特徴を補うことができる。 さらに,ソース画像の離散的キーポイントから学習した暗黙的アイデンティティ表現に基づく効果的なクエリ機構を提案する。 これにより、メモリバンクからより相関性の高い情報を検索し、補償を行うことができる。 大規模な実験により、MCNetは代表的および補完的な顔記憶を学習でき、VoxCeleb1およびCelebVデータセットにおける従来の最先端の音声ヘッド生成方法よりも明らかに優れていることが示された。 https://github.com/harlanhong/iccv2023-mcnet}{project} を参照。

Talking head video generation aims to animate a human face in a still image with dynamic poses and expressions using motion information derived from a target-driving video, while maintaining the person's identity in the source image. However, dramatic and complex motions in the driving video cause ambiguous generation, because the still source image cannot provide sufficient appearance information for occluded regions or delicate expression variations, which produces severe artifacts and significantly degrades the generation quality. To tackle this problem, we propose to learn a global facial representation space, and design a novel implicit identity representation conditioned memory compensation network, coined as MCNet, for high-fidelity talking head generation.~Specifically, we devise a network module to learn a unified spatial facial meta-memory bank from all training samples, which can provide rich facial structure and appearance priors to compensate warped source facial features for the generation. Furthermore, we propose an effective query mechanism based on implicit identity representations learned from the discrete keypoints of the source image. It can greatly facilitate the retrieval of more correlated information from the memory bank for the compensation. Extensive experiments demonstrate that MCNet can learn representative and complementary facial memory, and can clearly outperform previous state-of-the-art talking head generation methods on VoxCeleb1 and CelebV datasets. Please check our \href{https://github.com/harlanhong/ICCV2023-MCNET}{Project}.
翻訳日:2023-07-20 14:17:19 公開日:2023-07-19
# PyTAG:卓上ゲームにおける強化学習の課題と機会

PyTAG: Challenges and Opportunities for Reinforcement Learning in Tabletop Games ( http://arxiv.org/abs/2307.09905v1 )

ライセンス: Link先を確認
Martin Balla, George E.M. Long, Dominik Jeurissen, James Goodman, Raluca D. Gaina, Diego Perez-Liebana(参考訳) 近年,ゲームai研究は強化学習(rl)を用いた重要なブレークスルーを遂げている。 それにもかかわらず、現代のテーブルトップゲーム向けのRLは、ビデオゲームと比較して様々な難題を経験してもほとんど注目を集めていない。 このギャップを埋めるために、Tabletop Gamesフレームワーク(TAG)と対話するためのPython APIであるPyTAGを紹介します。 TAGには、AIエージェントのための共通のAPIを備えた、20以上のモダンなテーブルトップゲームのセットが含まれている。 本稿では,これらのゲームにおけるrlエージェントのトレーニング手法と,ゲームサブセット上での近位ポリシー最適化アルゴリズムのトレーニング後のベースライン結果を紹介する。 最後に、PyTAGによるRL研究において、現代のテーブルトップゲームが提供するユニークな課題について論じる。

In recent years, Game AI research has made important breakthroughs using Reinforcement Learning (RL). Despite this, RL for modern tabletop games has gained little to no attention, even when they offer a range of unique challenges compared to video games. To bridge this gap, we introduce PyTAG, a Python API for interacting with the Tabletop Games framework (TAG). TAG contains a growing set of more than 20 modern tabletop games, with a common API for AI agents. We present techniques for training RL agents in these games and introduce baseline results after training Proximal Policy Optimisation algorithms on a subset of games. Finally, we discuss the unique challenges complex modern tabletop games provide, now open to RL research through PyTAG.
翻訳日:2023-07-20 14:16:52 公開日:2023-07-19
# 表面電子に基づく非断熱型ホロノミック量子ゲート

Nonadiabatic holonomic quantum gate based on the surface electron ( http://arxiv.org/abs/2307.09900v1 )

ライセンス: Link先を確認
Jun Wang, Hai-Bo Wang, Qing Ai(参考訳) 非線形ホロノミック量子計算は、内蔵ノイズとデコヒーレンスに対して堅牢である。 本研究では, 量子計算のための有望な2次元プラットフォームである表面電子系において, cnot非断熱ホロノミック量子ゲートを実現するためのスキームを理論的に提案する。 ホロノミックゲートは、ライドバーグ準位とスピン状態と外部不均一磁場の補助を組み合わせた3段階構造によって実現される。 時間依存駆動場のラビ周波数の積分が時間に対して$\pi$と等しいとき、非断熱的なホロノミック進化が実現できる。 したがって、Rydberg状態とスピン状態に符号化された制御NOTゲートは、状態選択駆動場を介して実践される。 出力状態の忠実度は、実験的に達成可能なパラメータで 0.99 を超える。

The nonadiabatic holonomic quantum computation is robust against the built-in noise and decoherence. In this work, we theoretically propose a scheme to realize the CNOT nonadiabatic holonomic quantum gate in a surface electron system, which is a promising two-dimensional platform for quantum computation. The holonomic gate is realized by a three-level structure that combines the Rydberg levels and spin states with the assistance of an external inhomogeneous magnetic field. When the integral of the Rabi frequency of the time-dependent driving fields with respect to time equals $\pi$, the nonadiabatic holonomic evolution can be realized. Thus, the controlled-NOT gate encoded on the Rydberg states and spin states is put into practice via state-selective driving fields. The fidelity of the output state exceeds 0.99 with experimentally achievable parameters.
翻訳日:2023-07-20 14:16:39 公開日:2023-07-19
# U-CE: セマンティックセグメンテーションのための不確かさを意識したクロスエントロピー

U-CE: Uncertainty-aware Cross-Entropy for Semantic Segmentation ( http://arxiv.org/abs/2307.09947v1 )

ライセンス: Link先を確認
Steven Landgraf, Markus Hillemann, Kira Wursthorn, Markus Ulrich(参考訳) ディープニューラルネットワークは、さまざまなタスクにおいて例外的なパフォーマンスを示しているが、堅牢性、信頼性、信頼性の欠如は、自動運転のような安全クリティカルなアプリケーションへの展開に困難をもたらす。 この観点から、モデルの予測に固有の不確実性を定量化することは、これらの欠点に対処するための有望な取り組みである。 本研究では,よく知られたクロスエントロピー損失(CE)の画素重み付けにより,動的予測の不確かさをトレーニングプロセスに組み込んだ,不確かさを意識したクロスエントロピー損失(U-CE)を提案する。 大規模実験により,snet-18 と resnet-101 の2つの共通バックボーンアーキテクチャを用いて,cityscapes と acdc という2つのベンチマークデータセット上で,正規ce トレーニングよりも u-ce が優れていることを示す。 U-CEでは、セグメンテーション性能を向上するだけでなく、トレーニング後に意味のある不確実性を提供するモデルをトレーニングする。 その結果、より堅牢で信頼性の高いセグメンテーションモデルの開発に寄与し、最終的に安全クリティカルなアプリケーションなどにおける最先端の進歩に寄与する。

Deep neural networks have shown exceptional performance in various tasks, but their lack of robustness, reliability, and tendency to be overconfident pose challenges for their deployment in safety-critical applications like autonomous driving. In this regard, quantifying the uncertainty inherent to a model's prediction is a promising endeavour to address these shortcomings. In this work, we present a novel Uncertainty-aware Cross-Entropy loss (U-CE) that incorporates dynamic predictive uncertainties into the training process by pixel-wise weighting of the well-known cross-entropy loss (CE). Through extensive experimentation, we demonstrate the superiority of U-CE over regular CE training on two benchmark datasets, Cityscapes and ACDC, using two common backbone architectures, ResNet-18 and ResNet-101. With U-CE, we manage to train models that not only improve their segmentation performance but also provide meaningful uncertainties after training. Consequently, we contribute to the development of more robust and reliable segmentation models, ultimately advancing the state-of-the-art in safety-critical applications and beyond.
翻訳日:2023-07-20 14:08:57 公開日:2023-07-19
# ProtoCaps: 高速かつ非イテレーティブなカプセルネットワークルーティング手法

ProtoCaps: A Fast and Non-Iterative Capsule Network Routing Method ( http://arxiv.org/abs/2307.09944v1 )

ライセンス: Link先を確認
Miles Everett, Mingjun Zhong and Georgios Leontidis(参考訳) カプセルネットワークは、畳み込みニューラルネットワーク(cnns)と比較して比較的少ないパラメータで頑健なパフォーマンスで知られている、ディープラーニングアーキテクチャの強力なクラスとして登場している。 しかしながら、その本来の効率性は、カプセル層間の接続を確立する、遅い反復的なルーティング機構によって覆われ、スケールできない計算上の問題を引き起こすことが多い。 本稿では,トレーニング可能なプロトタイプクラスタリングにインスパイアされた,新しい非定型ルーティング機構を提案する。 この革新的なアプローチは計算の複雑さを和らげることを目的としているが、性能の有効性は向上しない。 さらに,共有カプセルサブスペースを活用し,各下位カプセルを上位カプセルに投影する必要をなくし,トレーニング時のメモリ要求量を大幅に削減した。 提案手法は,現在最良である非定性カプセルネットワークやImagewoofデータセットに対するテストよりも優れた結果を示し,反復的アプローチで効率的に処理するには計算負荷が大きすぎる。 提案手法がカプセルネットワークの運用効率と性能を向上させることの可能性を実証し,より複雑な計算シナリオに応用する方法について検討した。

Capsule Networks have emerged as a powerful class of deep learning architectures, known for robust performance with relatively few parameters compared to Convolutional Neural Networks (CNNs). However, their inherent efficiency is often overshadowed by their slow, iterative routing mechanisms which establish connections between Capsule layers, posing computational challenges resulting in an inability to scale. In this paper, we introduce a novel, non-iterative routing mechanism, inspired by trainable prototype clustering. This innovative approach aims to mitigate computational complexity, while retaining, if not enhancing, performance efficacy. Furthermore, we harness a shared Capsule subspace, negating the need to project each lower-level Capsule to each higher-level Capsule, thereby significantly reducing memory requisites during training. Our approach demonstrates superior results compared to the current best non-iterative Capsule Network and tests on the Imagewoof dataset, which is too computationally demanding to handle efficiently by iterative approaches. Our findings underscore the potential of our proposed methodology in enhancing the operational efficiency and performance of Capsule Networks, paving the way for their application in increasingly complex computational scenarios.
翻訳日:2023-07-20 14:08:34 公開日:2023-07-19
# 入院バンド : 遅延を伴わない長期的最適化

Impatient Bandits: Optimizing for the Long-Term Without Delay ( http://arxiv.org/abs/2307.09943v1 )

ライセンス: Link先を確認
Thomas McDonald, Lucas Maystre, Mounia Lalmas, Daniel Russo, Kamil Ciosek(参考訳) リコメンダシステムは、オンラインプラットフォームのユビキタスな機能である。 利用者の長期的満足度向上に特化している。 本稿では,遅延報酬を伴うマルチアームバンディット問題として定式化したコンテンツ探索課題について検討する。 我々は、学習信号の選択に明らかなトレードオフがあることを観察した。 完全な報酬が利用可能になるのを待つのに数週間かかり、学習の開始率を損なう可能性がある一方で、短期的なプロキシの報酬を測定することは、実際の長期的な目標を不完全に反映する。 この課題を2つのステップで解決する。 まず,これまでに得られた情報をすべて組み込んだ遅延報酬の予測モデルを開発する。 完全な観測と部分的な(短命または中期的な)結果がベイズフィルタを通して組み合わせられ、確率論的信念が得られる。 第二に、この新たな予測モデルを利用する帯域幅アルゴリズムを考案する。 このアルゴリズムは、探索とエクスプロイトを慎重にバランスさせて、長期的成功に対応するコンテンツを素早く特定する。 このアプローチをポッドキャストのレコメンデーション問題に適用し,ユーザが2ヶ月以上繰り返し関与している番組を識別する。 短期プロキシを最適化するアプローチや、長期的な結果が完全に実現されるのを待つアプローチと比較して、我々のアプローチがはるかに優れたパフォーマンスをもたらすことを実証的に検証する。

Recommender systems are a ubiquitous feature of online platforms. Increasingly, they are explicitly tasked with increasing users' long-term satisfaction. In this context, we study a content exploration task, which we formalize as a multi-armed bandit problem with delayed rewards. We observe that there is an apparent trade-off in choosing the learning signal: Waiting for the full reward to become available might take several weeks, hurting the rate at which learning happens, whereas measuring short-term proxy rewards reflects the actual long-term goal only imperfectly. We address this challenge in two steps. First, we develop a predictive model of delayed rewards that incorporates all information obtained to date. Full observations as well as partial (short or medium-term) outcomes are combined through a Bayesian filter to obtain a probabilistic belief. Second, we devise a bandit algorithm that takes advantage of this new predictive model. The algorithm quickly learns to identify content aligned with long-term success by carefully balancing exploration and exploitation. We apply our approach to a podcast recommendation problem, where we seek to identify shows that users engage with repeatedly over two months. We empirically validate that our approach results in substantially better performance compared to approaches that either optimize for short-term proxies, or wait for the long-term outcome to be fully realized.
翻訳日:2023-07-20 14:08:13 公開日:2023-07-19
# TREement:パーソナライズされた動的ツリーベースメモリネットワークによる解釈可能な患者行動マッチング

TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic Tree-Based Memory Network ( http://arxiv.org/abs/2307.09942v1 )

ライセンス: Link先を確認
Brandon Theodorou, Cao Xiao, and Jimeng Sun(参考訳) 臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。 近年,長期患者電子健康記録(ehr)データと臨床試験の適性基準に基づいて,患者と臨床試験を自動マッチングすることで,患者採用のスピードアップを図る機械学習モデルが提案されている。 しかし、それらは他の治験に拡張できない治験固有の専門家ルールに依存するか、解釈可能性の欠如によりモデル結果の採用が困難となるブラックボックスモデルと非常に一般的なレベルでマッチングを行うかのどちらかである。 正確かつ解釈可能な患者治験マッチングを提供するため,treementと呼ばれるパーソナライズされた動的ツリーベースメモリネットワークモデルを提案する。 階層的な臨床オントロジーを用いて、シーケンシャルなehrデータから学習したパーソナライズされた患者表現を拡張し、適性基準から学習した注意深いビーム検索クエリを使用して、パフォーマンスと解釈性を改善するための粒度レベルのアライメントを提供する。 実世界のデータセット上での既存モデルに対するトリーメントを評価し、基準レベルのマッチングにおける誤差低減の観点から、ツリーメントが最高のベースラインを7%上回り、試行レベルのマッチング能力で最新結果を達成できることを実証した。 さらに,モデル結果の採用が容易になるよう,ツリーメンテーションが優れた解釈性を提供できることを示した。

Clinical trials are critical for drug development but often suffer from expensive and inefficient patient recruitment. In recent years, machine learning models have been proposed for speeding up patient recruitment via automatically matching patients with clinical trials based on longitudinal patient electronic health records (EHR) data and eligibility criteria of clinical trials. However, they either depend on trial-specific expert rules that cannot expand to other trials or perform matching at a very general level with a black-box model where the lack of interpretability makes the model results difficult to be adopted. To provide accurate and interpretable patient trial matching, we introduce a personalized dynamic tree-based memory network model named TREEMENT. It utilizes hierarchical clinical ontologies to expand the personalized patient representation learned from sequential EHR data, and then uses an attentional beam-search query learned from eligibility criteria embedding to offer a granular level of alignment for improved performance and interpretability. We evaluated TREEMENT against existing models on real-world datasets and demonstrated that TREEMENT outperforms the best baseline by 7% in terms of error reduction in criteria-level matching and achieves state-of-the-art results in its trial-level matching ability. Furthermore, we also show TREEMENT can offer good interpretability to make the model results easier for adoption.
翻訳日:2023-07-20 14:07:52 公開日:2023-07-19
# AGAR: 変形可能な物体の点雲の適応運動予測のための注意グラフRNN

AGAR: Attention Graph-RNN for Adaptative Motion Prediction of Point Clouds of Deformable Objects ( http://arxiv.org/abs/2307.09936v1 )

ライセンス: Link先を確認
Pedro Gomes, Silvia Rossi, Laura Toni(参考訳) 本稿では,人体運動などの変形可能な3次元物体の難題における点雲列の運動予測に焦点を当てた。 まず,このような表現における変形可能な形状や複雑な動きが生み出す課題について,最先端のモデルの技術的限界を理解するという究極の目標から検討する。 この理解から,変形可能な3dオブジェクトのポイントクラウド予測のための改良されたアーキテクチャを提案する。 具体的には,変形可能な形状を扱うために,点雲の空間構造を学習し,活用するグラフベースの手法を提案する。 次に,学習した特徴を点雲の動きに応じて適応的に組み合わせることのできるモジュールを提案する。 提案する適応モジュールは,各点に対する局所運動と大域運動の組み合わせを制御し,変形可能な3次元物体の複雑な動きをより効果的にモデル化する。 提案手法は,MNIST移動桁,Mixamo人体運動,JPEG,CWIPC-SXR実世界動体を用いて検討した。 シミュレーションの結果, 複雑な動きをモデル化し, 点雲形状を保存できるため, 現在のベースライン法を上回った。 さらに,MSRAction3Dデータセット上で動作認識のためのフレームワークをテストし,最先端の手法と同等の結果を得ることにより,動的特徴学習のためのフレームワークの一般化可能性を示す。

This paper focuses on motion prediction for point cloud sequences in the challenging case of deformable 3D objects, such as human body motion. First, we investigate the challenges caused by deformable shapes and complex motions present in this type of representation, with the ultimate goal of understanding the technical limitations of state-of-the-art models. From this understanding, we propose an improved architecture for point cloud prediction of deformable 3D objects. Specifically, to handle deformable shapes, we propose a graph-based approach that learns and exploits the spatial structure of point clouds to extract more representative features. Then we propose a module able to combine the learned features in an adaptative manner according to the point cloud movements. The proposed adaptative module controls the composition of local and global motions for each point, enabling the network to model complex motions in deformable 3D objects more effectively. We tested the proposed method on the following datasets: MNIST moving digits, the Mixamo human bodies motions, JPEG and CWIPC-SXR real-world dynamic bodies. Simulation results demonstrate that our method outperforms the current baseline methods given its improved ability to model complex movements as well as preserve point cloud shape. Furthermore, we demonstrate the generalizability of the proposed framework for dynamic feature learning, by testing the framework for action recognition on the MSRAction3D dataset and achieving results on-par with state-of-the-art methods
翻訳日:2023-07-20 14:07:27 公開日:2023-07-19
# 光誘起非定常超伝導の動的オンセット -湯川・サハデフ・イ・キタエフ研究-

Dynamical Onset of Light-Induced Unconventional Superconductivity -- a Yukawa-Sachdev-Ye-Kitaev study ( http://arxiv.org/abs/2307.09935v1 )

ライセンス: Link先を確認
Lukas Grunwald, Giacomo Passetti, Dante M. Kennes(参考訳) 真に可解な湯川sachdev-ye-kitaev模型における超伝導の動的開始について検討する。 非フェルミ液体の常態から生じる非伝統的な超伝導相をホストし、強相関系における超伝導のおもちゃモデルを提供する。 ハミルトンパラメータのドレッシングと光誘起超伝導の理論的メカニズムから導かれる動的プロトコルを解析し, 過冷却および相互作用クエンチによる正確な緩和について検討した。 BCS理論とは対照的に、超伝導相転移における相互作用クエンチの後に超伝導が出現することは不可能であるが、過冷却状態の動的緩和が超伝導を普遍的に導くことが分かる。 強い相関にもかかわらず、新しい秩序パラメータのダイナミクスは、顕微鏡から全てのパラメータを決定する粗いギンツブルク-ランダウ理論によってよく捉えられる。

We investigate the dynamical onset of superconductivity in the exactly solvable Yukawa-Sachdev-Ye-Kitaev model. It hosts an unconventional superconducting phase that emerges out of a non-Fermi liquid normal state, providing a toy model for superconductivity in a strongly correlated system. Analyzing dynamical protocols motivated by theoretical mechanisms proposed for light-induced superconductivity, that is light-induced cooling and the dressing of Hamiltonian parameters, we investigate the exact relaxation resulting out of undercooling and interaction quenches. While, in contrast to BCS theory, it is not possible for superconductivity to emerge following interaction quenches across the superconducting phase transition, we find that the dynamical relaxation of undercooled states universally leads to superconductivity. Despite the strong correlations, the emerging order parameter dynamics are well captured by a coarse grained Ginzburg-Landau theory for which we determine all parameters from microscopics.
翻訳日:2023-07-20 14:07:03 公開日:2023-07-19
# Spuriosityは分類器を殺さなかった:不変量予測を使って不純物特徴を識別する

Spuriosity Didn't Kill the Classifier: Using Invariant Predictions to Harness Spurious Features ( http://arxiv.org/abs/2307.09933v1 )

ライセンス: Link先を確認
Cian Eastwood, Shashank Singh, Andrei Liviu Nicolicioiu, Marin Vlastelica, Julius von K\"ugelgen, Bernhard Sch\"olkopf(参考訳) アウトオブディストリビューションデータの障害を回避するために、近年の研究では、ドメイン間でラベルが変化した場合に、安定した、あるいは不変な関係を持つ特徴を抽出しようと試みている。 しかしながら、不安定な機能には、テストドメインで正しく使用すればパフォーマンスが向上する可能性のあるラベルに関する補完的な情報があることが多い。 当社の主な貢献は、ラベルなしでテストドメインでこれらの不安定な機能の使い方を学べることを示しています。 特に,安定な特徴に基づく擬似ラベルが,安定かつ不安定な特徴が条件付き独立であることから,それを行うための十分なガイダンスを提供することを示す。 この理論的な洞察に基づいて,我々は次のアルゴリズムであるstable feature boosting (sfb)を提案する。 一 安定かつ条件に依存しない不安定な特徴を区別する予測器の学習 (ii)安定特徴予測を用いて、テスト領域における不安定特徴予測を適応させる。 理論的には、SFBはテストドメインラベルなしで漸近的に最適な予測器を学習できることを示す。 実データおよび合成データに対するSFBの有効性を実証的に示す。

To avoid failures on out-of-distribution data, recent works have sought to extract features that have a stable or invariant relationship with the label across domains, discarding the "spurious" or unstable features whose relationship with the label changes across domains. However, unstable features often carry complementary information about the label that could boost performance if used correctly in the test domain. Our main contribution is to show that it is possible to learn how to use these unstable features in the test domain without labels. In particular, we prove that pseudo-labels based on stable features provide sufficient guidance for doing so, provided that stable and unstable features are conditionally independent given the label. Based on this theoretical insight, we propose Stable Feature Boosting (SFB), an algorithm for: (i) learning a predictor that separates stable and conditionally-independent unstable features; and (ii) using the stable-feature predictions to adapt the unstable-feature predictions in the test domain. Theoretically, we prove that SFB can learn an asymptotically-optimal predictor without test-domain labels. Empirically, we demonstrate the effectiveness of SFB on real and synthetic data.
翻訳日:2023-07-20 14:06:48 公開日:2023-07-19
# disa: universal multimodal registration に対する微分可能類似性近似

DISA: DIfferentiable Similarity Approximation for Universal Multimodal Registration ( http://arxiv.org/abs/2307.09931v1 )

ライセンス: Link先を確認
Matteo Ronchetti, Wolfgang Wein, Nassir Navab, Oliver Zettinig, Raphael Prevost(参考訳) マルチモーダル画像登録は、多数の画像誘導手順において難しいが必須のステップである。 ほとんどの登録アルゴリズムは、画像モダリティ間の解剖学的構造の外観の相違に対処するために、複雑でしばしば微分不能な類似度メトリクスの計算に依存している。 最近の機械学習ベースのアプローチは、特定の解剖学とモダリティの組み合わせに限られており、新しい設定に一般化しない。 高速に変形可能なグローバル登録を可能にする表現型クロスモーダルディスクリプタを作成するための汎用フレームワークを提案する。 我々は、登録データなしで本質的に識別可能な小さな畳み込みニューラルネットワーク(CNN)の特徴空間において、既存のメトリクスをドット積で近似することで、これを実現する。 本手法は,局所的なパッチベースの指標よりも数桁高速で,類似度測定を提案手法に置き換えることで臨床現場で直接適用することができる。 3つの異なるデータセットの実験により、我々のアプローチはトレーニングデータを超えてはるかに一般化され、特殊な再トレーニングを必要とせず、目に見えない解剖学とモダリティペアでも広い捕獲範囲が得られます。 トレーニングコードとデータを公開しています。

Multimodal image registration is a challenging but essential step for numerous image-guided procedures. Most registration algorithms rely on the computation of complex, frequently non-differentiable similarity metrics to deal with the appearance discrepancy of anatomical structures between imaging modalities. Recent Machine Learning based approaches are limited to specific anatomy-modality combinations and do not generalize to new settings. We propose a generic framework for creating expressive cross-modal descriptors that enable fast deformable global registration. We achieve this by approximating existing metrics with a dot-product in the feature space of a small convolutional neural network (CNN) which is inherently differentiable can be trained without registered data. Our method is several orders of magnitude faster than local patch-based metrics and can be directly applied in clinical settings by replacing the similarity measure with the proposed one. Experiments on three different datasets demonstrate that our approach generalizes well beyond the training data, yielding a broad capture range even on unseen anatomies and modality pairs, without the need for specialized retraining. We make our training code and data publicly available.
翻訳日:2023-07-20 14:06:30 公開日:2023-07-19
# 単眼深度推定のための不確かさ度の測定とモデル化

Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation ( http://arxiv.org/abs/2307.09929v1 )

ライセンス: Link先を確認
Mochu Xiang, Jing Zhang, Nick Barnes, Yuchao Dai(参考訳) 実世界の単眼深度推定(mde)モデルの展開には,訓練モデルの信頼性を効果的に測定・モデル化することが不可欠である。 しかし,本質的不適性と順序性に敏感なmdeは,学習モデルの不確かさを推定する上で大きな課題となっている。 一方、現在の不確実性モデリング手法を利用するとメモリ消費が増大し、通常は時間がかかる。 一方,モデル精度に基づく不確実性の測定は,不確実性信頼性と予測精度が十分に分離されていない場合にも問題となる。 本稿では,深部確率体積とその拡張に由来する固有確率分布の観点からmdeモデルの不確かさをモデル化し,より包括的メトリクスを用いてより公平に評価する。 新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、モジュールや複数の推論を必要とせず、最先端の信頼性で不確実性を推定でき、アンサンブルやサンプリング手法と組み合わせることでさらに改善できる。 本手法の有効性を示す一連の実験を行った。

Effectively measuring and modeling the reliability of a trained model is essential to the real-world deployment of monocular depth estimation (MDE) models. However, the intrinsic ill-posedness and ordinal-sensitive nature of MDE pose major challenges to the estimation of uncertainty degree of the trained models. On the one hand, utilizing current uncertainty modeling methods may increase memory consumption and are usually time-consuming. On the other hand, measuring the uncertainty based on model accuracy can also be problematic, where uncertainty reliability and prediction accuracy are not well decoupled. In this paper, we propose to model the uncertainty of MDE models from the perspective of the inherent probability distributions originating from the depth probability volume and its extensions, and to assess it more fairly with more comprehensive metrics. By simply introducing additional training regularization terms, our model, with surprisingly simple formations and without requiring extra modules or multiple inferences, can provide uncertainty estimations with state-of-the-art reliability, and can be further improved when combined with ensemble or sampling methods. A series of experiments demonstrate the effectiveness of our methods.
翻訳日:2023-07-20 14:06:09 公開日:2023-07-19
# 連続オブザーバ間のEPRステアリングの共有

Sharing EPR steering between sequential pairs of observers ( http://arxiv.org/abs/2307.09928v1 )

ライセンス: Link先を確認
Qiao-Qiao Lv, Jin-Min Liang, Zhi-Xi Wang, Shao-Ming Fei(参考訳) 量子相関のリサイクルは理論的にも実験的にも広く注目を集めている。 従来の研究では、軽度な測定戦略の下では、非局所性の双方向共有は不可能であり、2ビットの絡み合った状態は、連続的および独立的な観測者による幾度かの絡み合いを目撃することができる。 しかし、EPRステアリングの双方向共有についてはあまり知られていない。 本稿では、連続した観測者のペア間のEPRステアリング共有について検討する。 我々は、初期共有状態が絡み合った2ビット純状態である限り、連続Alice-BobペアがEPRステアリングを共有することができることを示す。 この主張は、混合絡み合った状態の特定のクラスにも当てはまる。

The recycling of quantum correlations has attracted widespread attention both theoretically and experimentally. Previous works show that bilateral sharing of nonlocality is impossible under mild measurement strategy and 2-qubit entangled state can be used to witness entanglement arbitrary many times by sequential and independent pairs of observers. However, less is known about the bilateral sharing of EPR steering yet. Here, we aim at investigating the EPR steering sharing between sequential pairs of observers. We show that an unbounded number of sequential Alice-Bob pairs can share the EPR steering as long as the initially shared state is an entangled two-qubit pure state. The claim is also true for particular class of mixed entangled states.
翻訳日:2023-07-20 14:05:49 公開日:2023-07-19
# TinyTrain: Extreme Edgeでのディープニューラルネットワークトレーニング

TinyTrain: Deep Neural Network Training at the Extreme Edge ( http://arxiv.org/abs/2307.09988v1 )

ライセンス: Link先を確認
Young D. Kwon, Rui Li, Stylianos I. Venieris, Jagmohan Chauhan, Nicholas D. Lane, and Cecilia Mascolo(参考訳) デバイス上でのトレーニングは、ユーザのパーソナライズとプライバシに不可欠だ。 IoTデバイスとマイクロコントローラユニット(MCU)の普及により、メモリと計算リソースの制約やラベル付きユーザデータの可用性の制限により、このタスクはより困難になる。 それにもかかわらず、先行研究はデータの不足問題を無視し、過度に長い訓練時間(例えば数時間)を必要とするか、実質的な精度の損失を誘発する($10\%)。 モデルの一部を選択的に更新し,データ不足を明示的に対処することにより,トレーニング時間を劇的に短縮するオンデバイストレーニングアプローチであるtinytrainを提案する。 tinytrainはタスク適応型スパース更新方式を導入し、ターゲットデバイスのユーザデータ、メモリ、計算能力を同時にキャプチャするマルチ目的の基準に基づいて、レイヤ/チャネルを動的に選択する。 tinytrainは、ネットワーク全体のバニラ微調整を3.6-5.0\%精度で上回り、バックパスメモリと計算コストをそれぞれ2,286$\times$と7.68$\times$で削減する。 広く使われている実世界のエッジデバイスをターゲットに、tinytrainは9.5$\times$高速で3.5$\times$ ステータス-quoアプローチよりもエネルギー効率の良いトレーニングを実現し、2.8$\times$ メモリフットプリントはsomaアプローチよりも小さく、mcu級プラットフォームの1mbメモリエンベロープに留まっている。

On-device training is essential for user personalisation and privacy. With the pervasiveness of IoT devices and microcontroller units (MCU), this task becomes more challenging due to the constrained memory and compute resources, and the limited availability of labelled user data. Nonetheless, prior works neglect the data scarcity issue, require excessively long training time (e.g. a few hours), or induce substantial accuracy loss ($\geq$10\%). We propose TinyTrain, an on-device training approach that drastically reduces training time by selectively updating parts of the model and explicitly coping with data scarcity. TinyTrain introduces a task-adaptive sparse-update method that dynamically selects the layer/channel based on a multi-objective criterion that jointly captures user data, the memory, and the compute capabilities of the target device, leading to high accuracy on unseen tasks with reduced computation and memory footprint. TinyTrain outperforms vanilla fine-tuning of the entire network by 3.6-5.0\% in accuracy, while reducing the backward-pass memory and computation cost by up to 2,286$\times$ and 7.68$\times$, respectively. Targeting broadly used real-world edge devices, TinyTrain achieves 9.5$\times$ faster and 3.5$\times$ more energy-efficient training over status-quo approaches, and 2.8$\times$ smaller memory footprint than SOTA approaches, while remaining within the 1 MB memory envelope of MCU-grade platforms.
翻訳日:2023-07-20 14:01:32 公開日:2023-07-19
# 媒質中のジェットの進化の量子シミュレーション

Quantum simulation of jet evolution in a medium ( http://arxiv.org/abs/2307.09987v1 )

ライセンス: Link先を確認
Wenyang Qian(参考訳) ジェットは超相対論的重イオン衝突で生成するクォークグルーオンプラズマと、深い非弾性散乱実験で探究された冷たい核物質の主要なプローブの1つである。 しかし、近年の重要な発展にもかかわらず、媒体内のQCDジェットのリアルタイム進化に関する記述は、まだ完成には程遠い。 これまでの研究では、qcd物質のジェット進化をシミュレートし、現在の計算における固有の技術的困難を克服するための、有望な代替理論実験室として量子技術を検討した。 ここでは, グルーオン生成を考慮した単一粒子から複数粒子フォック空間へのこれまでの研究を拡張した。 光フロントハミルトニアンの定式化に基づいて、確率的な色背景の存在下での多粒子ジェットプローブの進化を追跡するデジタル量子回路を構築する。 量子シミュレーションアルゴリズムを用いて, 運動量拡大とグルーオン生成の両方において, 媒質によるジェット進化の変化を示す。

Jets provide one of the primary probes of the quark-gluon plasma produced in ultrarelativistic heavy ion collisions and the cold nuclear matter explored in deep inelastic scattering experiments. However, despite important developments in the last years, a description of the real-time evolution of QCD jets inside a medium is still far from complete. In our previous work, we have explored quantum technologies as a promising alternative theoretical laboratory to simulate jet evolution in QCD matter, to overcome inherent technical difficulties in present calculations. Here, we extend our previous investigation from the single particle to the multiple particle Fock spaces, taking into account gluon production. Based on the light-front Hamiltonian formalism, we construct a digital quantum circuit that tracks the evolution of a multi-particle jet probe in the presence of a stochastic color background. Using the quantum simulation algorithm, we show the medium-induced modification to the jet evolution in both the momentum broadening and gluon production.
翻訳日:2023-07-20 14:00:57 公開日:2023-07-19
# YouTube上のRabbit-Holesのモデリング

Modeling Rabbit-Holes on YouTube ( http://arxiv.org/abs/2307.09986v1 )

ライセンス: Link先を確認
Erwan Le Merrer, Gilles Tredan, Ali Yesilkanat(参考訳) 多くの議論がソーシャルメディアにいわゆるウサギホール(RH)現象の存在を提唱し、ユーザへの高度なパーソナライズに関心を持っている。 この現象は、ユーザーを狭く専門的なフィードに閉じ込める超パーソナライズされたレコメンデーションの崩壊として、ゆるやかに理解されている。 しかし、定量的研究はしばしばパーソナライゼーションを無視し、限られた規模であり、この崩壊を追跡するために手動のタグ付けに依存している。 これは再現可能な観察に基づく現象の正確な理解を妨げ、プラットフォームの継続的な監査を妨げている。 本稿では,まず,レコメンデーションに基づく自動プレイウォークを通じて,大規模データ収集を可能にするユーザ側ボット中心のアプローチを提案する。 次に、これらのRHの出現を説明する単純な理論を提案する。 この理論は複雑で惑星全体の現象を単純化する視点であるが、解析的にモデル化することができ、RHの一般的かつ厳密な定義を提供するという、いくつかの利点がある。 それらを相互行為と定義し 一 個人化とユーザインタラクション 二 特定のビデオカテゴリの魅力の強さにより、ユーザーは、新規ユーザープロフィールのメインストリームのレコメンデーションをすぐに切り離すことができる。 これらのコンセプトは、YouTubeで1600万以上のパーソナライズされたレコメンデーションを集めた後、見つかったRHをハイライトすることで説明します。 最後の検証ステップは、我々の自動識別されたRHと、以前の研究成果から手動識別されたRHを比較します。 これらの結果は,レコメンデーションシステムにおけるRH効果の大規模かつ自動監査の道を開いた。

Numerous discussions have advocated the presence of a so called rabbit-hole (RH) phenomenon on social media, interested in advanced personalization to their users. This phenomenon is loosely understood as a collapse of mainstream recommendations, in favor of ultra personalized ones that lock users into narrow and specialized feeds. Yet quantitative studies are often ignoring personalization, are of limited scale, and rely on manual tagging to track this collapse. This precludes a precise understanding of the phenomenon based on reproducible observations, and thus the continuous audits of platforms. In this paper, we first tackle the scale issue by proposing a user-sided bot-centric approach that enables large scale data collection, through autoplay walks on recommendations. We then propose a simple theory that explains the appearance of these RHs. While this theory is a simplifying viewpoint on a complex and planet-wide phenomenon, it carries multiple advantages: it can be analytically modeled, and provides a general yet rigorous definition of RHs. We define them as an interplay between i) user interaction with personalization and ii) the attraction strength of certain video categories, which cause users to quickly step apart of mainstream recommendations made to fresh user profiles. We illustrate these concepts by highlighting some RHs found after collecting more than 16 million personalized recommendations on YouTube. A final validation step compares our automatically-identified RHs against manually-identified RHs from a previous research work. Together, those results pave the way for large scale and automated audits of the RH effect in recommendation systems.
翻訳日:2023-07-20 14:00:40 公開日:2023-07-19
# 私たちのモデルはMovieLensの優れたパフォーマンスを実現します。

Our Model Achieves Excellent Performance on MovieLens: What Does it Mean? ( http://arxiv.org/abs/2307.09985v1 )

ライセンス: Link先を確認
Yu-chen Fan, Yitong Ji, Jie Zhang, Aixin Sun(参考訳) 典型的なrecsys(benchmark dataset for recommender system)の評価は、時間内にプラットフォーム上で生成されたユーザとテーマのインタラクションで構成されている。 インタラクション生成メカニズムは、ユーザがアイテム(例えば、購入、レート)と相互作用する理由と、特定のインタラクションが発生した時のコンテキストを部分的に説明します。 本研究では,MovieLensデータセットの精巧な分析を行い,提案アルゴリズムの評価にデータセットを使用することによる潜在的影響を説明する。 分析からいくつかの主な知見を得た。 まず、ユーザがmovielensプラットフォームと対話する場合、異なる段階でのユーザインタラクションには大きな違いがあります。 初期のインタラクションは主に、その後のインタラクションに影響を与えるユーザポートレートを定義する。 第二に、ユーザーのインタラクションは、プラットフォームの内部レコメンデーションアルゴリズム(s)によって推奨される候補映画の影響を強く受けている。 ユーザの最後の数少ないインタラクションに近く発生するインタラクションの削除は、ユーザの好みを学習する際の困難を増し、レコメンデーションの精度を低下させる。 第3に、ユーザインタラクションの順序を変更することで、シーケンシャルアルゴリズムがプログレッシブインタラクションプロセスをキャプチャすることがより困難になる。 そこで,本研究では,映画レンズシステムで使用されるインタラクション生成機構と,実世界の典型的なレコメンデーションシナリオとの相違について検討する。 要約すると、MovieLensデータセット上で優れたレコメンデーション精度を達成するモデルは、少なくとも2種類の違いに対して、実際に優れたパフォーマンスを示すことができないかもしれない。 (i)ユーザ・コンテンツ間インタラクション生成のコンテキストの違い、 (ii)アイテムコレクションに関するユーザ知識の違い。

A typical benchmark dataset for recommender system (RecSys) evaluation consists of user-item interactions generated on a platform within a time period. The interaction generation mechanism partially explains why a user interacts with (e.g.,like, purchase, rate) an item, and the context of when a particular interaction happened. In this study, we conduct a meticulous analysis on the MovieLens dataset and explain the potential impact on using the dataset for evaluating recommendation algorithms. We make a few main findings from our analysis. First, there are significant differences in user interactions at the different stages when a user interacts with the MovieLens platform. The early interactions largely define the user portrait which affect the subsequent interactions. Second, user interactions are highly affected by the candidate movies that are recommended by the platform's internal recommendation algorithm(s). Removal of interactions that happen nearer to the last few interactions of a user leads to increasing difficulty in learning user preference, thus deteriorating recommendation accuracy. Third, changing the order of user interactions makes it more difficult for sequential algorithms to capture the progressive interaction process. Based on these findings, we further discuss the discrepancy between the interaction generation mechanism that is employed by the MovieLens system and that of typical real world recommendation scenarios. In summary, models that achieve excellent recommendation accuracy on the MovieLens dataset may not demonstrate superior performance in practice for at least two kinds of differences: (i) the differences in the contexts of user-item interaction generation, and (ii) the differences in user knowledge about the item collections.
翻訳日:2023-07-20 13:59:53 公開日:2023-07-19
# 運動平均化による遅延視覚定位

Lazy Visual Localization via Motion Averaging ( http://arxiv.org/abs/2307.09981v1 )

ライセンス: Link先を確認
Siyan Dong, Shaohui Liu, Hengkai Guo, Baoquan Chen, Marc Pollefeys(参考訳) 視覚(再)局所化は、コンピュータビジョンとロボティクスの様々な応用に不可欠である。 その目標は、提案されたデータベースイメージのセットに基づいて、クエリイメージ毎に6自由度(DoF)カメラのポーズを推定することである。 現在、すべての主要なソリューションは構造ベースであり、データベースから構造から3次元距離マップを明示的に構築するか、3次元情報をシーン座標回帰モデルで暗黙的に符号化する。 対照的に、3dでシーンを再構築することなく、視覚的なローカライゼーションは明らかな利点となる。 データベースの事前処理時間を短縮し、ストレージ要件を解放し、不完全な再構築などの影響を受けないようにすることで、デプロイをより便利にする。 本報告では,データベースからシーンを再構築することなく,高い位置推定精度を達成できることを実証する。 これを達成する鍵は、データベースとクエリのペアを平均的に調整した動作にある。 実験の結果,視覚局所化提案であるlazylocは,最先端の構造ベース手法と同等の性能を実現していることがわかった。 さらに,マルチクエリのコローカライゼーションやカメラリグといった複雑な構成に容易に拡張可能なLazyLocの汎用性についても紹介する。

Visual (re)localization is critical for various applications in computer vision and robotics. Its goal is to estimate the 6 degrees of freedom (DoF) camera pose for each query image, based on a set of posed database images. Currently, all leading solutions are structure-based that either explicitly construct 3D metric maps from the database with structure-from-motion, or implicitly encode the 3D information with scene coordinate regression models. On the contrary, visual localization without reconstructing the scene in 3D offers clear benefits. It makes deployment more convenient by reducing database pre-processing time, releasing storage requirements, and remaining unaffected by imperfect reconstruction, etc. In this technical report, we demonstrate that it is possible to achieve high localization accuracy without reconstructing the scene from the database. The key to achieving this owes to a tailored motion averaging over database-query pairs. Experiments show that our visual localization proposal, LazyLoc, achieves comparable performance against state-of-the-art structure-based methods. Furthermore, we showcase the versatility of LazyLoc, which can be easily extended to handle complex configurations such as multi-query co-localization and camera rigs.
翻訳日:2023-07-20 13:59:03 公開日:2023-07-19
# ウクライナから世界へ:LinkedInのデータを使ってウクライナからのプロのマイグレーションを監視する

From Ukraine to the World: Using LinkedIn Data to Monitor Professional Migration from Ukraine ( http://arxiv.org/abs/2307.09979v1 )

ライセンス: Link先を確認
Margherita Bert\`e, Daniela Paolotti, Kyriaki Kalimeri(参考訳) 熟練したプロのウクライナからの強制移住は、2014年のウクライナ紛争と2022年のロシア侵攻によって引き起こされた。 ここでは、世界銀行と国連難民機関によるlinkedinの推計と難民公式データを利用して、ホスト国の意思決定プロセスを推進する主要な要因が何であるかを理解する。 我々は,ポーランドとドイツに主に惹かれ,教育を受けた人々の活動が進行中かつエスカレートしていることを明らかにし,これらの移動フローを形成する上で,既存のネットワークが果たす重要な役割を強調する。 主な発見は、高度に教育されたウクライナ難民の推計と国連難民統計との強い相関関係であり、移住先を決定する上でウクライナと以前の関係が重要であることを示している。 我々は,複数線形回帰モデルとSHAP法を訓練し,支援ネットワークの存在が目的地国を選択する上で最も重要な要因であるが,距離はそれほど重要でないことを示す。 我々の主な発見は、ウクライナの高度に熟練した労働者の移住パターンと、出身国とホスト国の両方への影響が、既存のネットワークやコミュニティに大きく影響されていることを示している。 この洞察は、この才能の喪失によって生じる経済的課題に対処し、ウクライナと受取国の両方にとってそのような移住の利益を最大化するための戦略を導くことができる。

Highly skilled professionals' forced migration from Ukraine was triggered by the conflict in Ukraine in 2014 and amplified by the Russian invasion in 2022. Here, we utilize LinkedIn estimates and official refugee data from the World Bank and the United Nations Refugee Agency, to understand which are the main pull factors that drive the decision-making process of the host country. We identify an ongoing and escalating exodus of educated individuals, largely drawn to Poland and Germany, and underscore the crucial role of pre-existing networks in shaping these migration flows. Key findings include a strong correlation between LinkedIn's estimates of highly educated Ukrainian displaced people and official UN refugee statistics, pointing to the significance of prior relationships with Ukraine in determining migration destinations. We train a series of multilinear regression models and the SHAP method revealing that the existence of a support network is the most critical factor in choosing a destination country, while distance is less important. Our main findings show that the migration patterns of Ukraine's highly skilled workforce, and their impact on both the origin and host countries, are largely influenced by preexisting networks and communities. This insight can inform strategies to tackle the economic challenges posed by this loss of talent and maximize the benefits of such migration for both Ukraine and the receiving nations.
翻訳日:2023-07-20 13:58:22 公開日:2023-07-19
# 階層型IoTネットワーク上でのコスト効果フェデレーション学習のための学習者参照

Learner Referral for Cost-Effective Federated Learning Over Hierarchical IoT Networks ( http://arxiv.org/abs/2307.09977v1 )

ライセンス: Link先を確認
Yulan Gao, Ziqiang Ye, Yue Xiao, and Wei Xiang(参考訳) リソース制約のあるクライアントのローカルなトレーニングパラメータによるデータプライバシ問題に対処するフェデレートラーニング(FL)のパラダイムが注目されている。 それでも、FLサーバのカバレッジ内のすべてのクライアントがFLネットワークに登録されていない場合、FLは適用されない。 本稿では,このギャップを埋めるために,連立学習者紹介支援連合クライアント選択(LRef-FedCS)と通信資源スケジューリング,ローカルモデル精度最適化(LMAO)手法を提案する。 これらの方法は、最悪の場合の参加者によるコストを最小限に抑え、階層型モノのインターネット(HieIoT)ネットワークにおけるFLの長期的な公正性を確保するために設計されている。 Lyapunov最適化技術を用いて、元の問題をステップワイド共同最適化問題(JOP)に再構成する。 その後、混合整数の非凸 JOP に取り組むために、それぞれ一元的にLRef-FedCS と LMAO を扱い、自己適応的グローバル・ベスト・ハーモニー・サーチ (SGHS) アルゴリズムを用いる。 拡張性を向上させるため,提案手法は,マッチングゲームに基づく分散LRef-FedCSアプローチにより,上述した集中型手法を置き換える。 mnist/cifar-10データセットの数値シミュレーションと実験結果から,提案手法が高精度追求とコスト削減のバランスを両立できることを示す。

The paradigm of federated learning (FL) to address data privacy concerns by locally training parameters on resource-constrained clients in a distributed manner has garnered significant attention. Nonetheless, FL is not applicable when not all clients within the coverage of the FL server are registered with the FL network. To bridge this gap, this paper proposes joint learner referral aided federated client selection (LRef-FedCS), along with communications and computing resource scheduling, and local model accuracy optimization (LMAO) methods. These methods are designed to minimize the cost incurred by the worst-case participant and ensure the long-term fairness of FL in hierarchical Internet of Things (HieIoT) networks. Utilizing the Lyapunov optimization technique, we reformulate the original problem into a stepwise joint optimization problem (JOP). Subsequently, to tackle the mixed-integer non-convex JOP, we separatively and iteratively address LRef-FedCS and LMAO through the centralized method and self-adaptive global best harmony search (SGHS) algorithm, respectively. To enhance scalability, we further propose a distributed LRef-FedCS approach based on a matching game to replace the centralized method described above. Numerical simulations and experimental results on the MNIST/CIFAR-10 datasets demonstrate that our proposed LRef-FedCS approach could achieve a good balance between pursuing high global accuracy and reducing cost.
翻訳日:2023-07-20 13:57:58 公開日:2023-07-19
# グリーンAIベースのソフトウェアシステムに向けて:アーキテクチャ中心アプローチ(GAISSA)

Towards green AI-based software systems: an architecture-centric approach (GAISSA) ( http://arxiv.org/abs/2307.09964v1 )

ライセンス: Link先を確認
Silverio Mart\'inez-Fern\'andez, Xavier Franch, Francisco Dur\'an(参考訳) 現在、AIベースのシステムは優れた成果を上げており、異なる領域の人間よりも優れています。 しかし、AIモデルを訓練し、そこから推論するプロセスは高い計算資源を必要とするため、現在のエネルギー効率の社会的要求には大きな課題が生じる。 この課題に対処するため,本研究プロジェクト報告では,gaissaプロジェクトの主なビジョン,目標,期待される成果について述べる。 GAISSAプロジェクトは、グリーンAIベースのシステムのモデリングと開発のために、データサイエンティストとソフトウェアエンジニアがツールでサポートするアーキテクチャ中心の方法を提供することを目的としている。 プロジェクトはまだ初期段階であるが,GAISSA目標達成の可能性を示す現在の研究成果について述べる。

Nowadays, AI-based systems have achieved outstanding results and have outperformed humans in different domains. However, the processes of training AI models and inferring from them require high computational resources, which pose a significant challenge in the current energy efficiency societal demand. To cope with this challenge, this research project paper describes the main vision, goals, and expected outcomes of the GAISSA project. The GAISSA project aims at providing data scientists and software engineers tool-supported, architecture-centric methods for the modelling and development of green AI-based systems. Although the project is in an initial stage, we describe the current research results, which illustrate the potential to achieve GAISSA objectives.
翻訳日:2023-07-20 13:57:29 公開日:2023-07-19
# GUIDO: 自然言語テキストからの発見と順序付けのためのハイブリッドアプローチ

GUIDO: A Hybrid Approach to Guideline Discovery & Ordering from Natural Language Texts ( http://arxiv.org/abs/2307.09959v1 )

ライセンス: Link先を確認
Nils Freyer, Dustin Thewes, Matthias Meinecke(参考訳) ワークフローネットをテキスト記述から抽出することで、ガイドラインを簡素化したり、ビジネスプロセスやアルゴリズムなどの形式プロセスのテキスト記述を形式化することが可能になる。 しかし、プロセスを手作業で抽出する作業は、ドメインの専門知識と努力を必要とする。 自動プロセスモデル抽出は望ましいが,形式化されたプロセスモデルによる注釈付けは高価である。 したがって、機械学習に基づく抽出アプローチはごくわずかである。 ルールベースのアプローチはドメインの特異性をうまく動作させ、テキスト記述において関連性のある情報と無関係な情報を区別することは滅多にない。 本稿では,プロセスモデル抽出タスクに対するハイブリッドアプローチであるguidoについて述べる。まず,bertベースの文分類器を用いて,プロセスモデルとの関連性に関する文を分類し,次に依存関係解析を用いて,関連する文からプロセスモデルを抽出する。 提案したアプローチは、純粋なルールベースのアプローチよりもはるかに優れた結果が得られる。 GUIDOは平均的な行動類似度スコアが0.93$に達する。 それでも、純粋に機械学習ベースのアプローチと比較して、アノテーションのコストは低いままだ。

Extracting workflow nets from textual descriptions can be used to simplify guidelines or formalize textual descriptions of formal processes like business processes and algorithms. The task of manually extracting processes, however, requires domain expertise and effort. While automatic process model extraction is desirable, annotating texts with formalized process models is expensive. Therefore, there are only a few machine-learning-based extraction approaches. Rule-based approaches, in turn, require domain specificity to work well and can rarely distinguish relevant and irrelevant information in textual descriptions. In this paper, we present GUIDO, a hybrid approach to the process model extraction task that first, classifies sentences regarding their relevance to the process model, using a BERT-based sentence classifier, and second, extracts a process model from the sentences classified as relevant, using dependency parsing. The presented approach achieves significantly better results than a pure rule-based approach. GUIDO achieves an average behavioral similarity score of $0.93$. Still, in comparison to purely machine-learning-based approaches, the annotation costs stay low.
翻訳日:2023-07-20 13:57:18 公開日:2023-07-19
# XSkill: クロスボディスキルの発見

XSkill: Cross Embodiment Skill Discovery ( http://arxiv.org/abs/2307.09955v1 )

ライセンス: Link先を確認
Mengda Xu, Zhenjia Xu, Cheng Chi, Manuela Veloso, Shuran Song(参考訳) human demonstration videoは、ロボット学習のための広く利用可能なデータソースであり、望ましい行動を表現する直感的なユーザーインターフェースである。 しかし,非構造的ビデオから再利用可能なロボット操作スキルを直接抽出することは,大きな具体的差異と未観測動作パラメータにより困難である。 この具体的ギャップを埋めるため,本稿では,模倣学習フレームワークであるxskillを紹介する。 1)人間とロボットの操作ビデオからスキルプロトタイプと呼ばれるクロスエンボディメント表現を見つける。 2)条件拡散ポリシを用いたロボット行動へのスキル表現の転送,そして最後に 3)人間のプロンプトビデオで特定された未認識のタスクを達成するための学習スキルを構成する。 シミュレーションと実世界の環境における実験により, 未知のタスクのスキル伝達と構成が促進され, より汎用的でスケーラブルな模倣学習フレームワークが実現された。 XSkillのパフォーマンスは、匿名のWebサイト(https://xskillcorl.github.io)からよく理解されている。

Human demonstration videos are a widely available data source for robot learning and an intuitive user interface for expressing desired behavior. However, directly extracting reusable robot manipulation skills from unstructured human videos is challenging due to the big embodiment difference and unobserved action parameters. To bridge this embodiment gap, this paper introduces XSkill, an imitation learning framework that 1) discovers a cross-embodiment representation called skill prototypes purely from unlabeled human and robot manipulation videos, 2) transfers the skill representation to robot actions using conditional diffusion policy, and finally, 3) composes the learned skill to accomplish unseen tasks specified by a human prompt video. Our experiments in simulation and real-world environments show that the discovered skill prototypes facilitate both skill transfer and composition for unseen tasks, resulting in a more general and scalable imitation learning framework. The performance of XSkill is best understood from the anonymous website: https://xskillcorl.github.io.
翻訳日:2023-07-20 13:57:01 公開日:2023-07-19
# コンピュータサイエンス学習における信念,マインドセット,不安,自己効力感の関連性:中学生の自尊心を捉えるための道具

Connecting Beliefs, Mindsets, Anxiety, and Self-Efficacy in Computer Science Learning: An Instrument for Capturing Secondary School Students' Self-Beliefs ( http://arxiv.org/abs/2307.10010v1 )

ライセンス: Link先を確認
Luis Morales-Navarro, Michael T. Giang, Deborah A. Fields, Yasmin B. Kafai(参考訳) 背景と背景: プログラミングが創造的でプロジェクトベースの学習や、コンピュータに対する生徒の自尊心にかかわる領域において、学生のCSエンゲージメントと学習を測定するための手段は少ない。 目的: CS Interests and Beliefs Inventory (CSIBI)は,初等中等生がプロジェクト(特に物理コンピューティング)を設計して学ぶための楽器である。 インベントリには、問題解決能力の信念、デザインの魅力、CSの価値、創造的表現、そしてプログラミングの考え方や成果と共に、文脈固有のCS能力に関する信念に関するサブスケールが含まれている。 本稿では,自尊心の仲介者としてのマインドセットの役割と,他のK-12プロジェクトベースの学習環境へのCSIBIの適用について説明する。 方法: 歴史的背景(性別, 民族, 社会経済的地位)を多く含んだ第303学年CS中等生に楽器を投与した。 確認因子分析を用いて,32項目の9因子構造を評価し,構造方程式モデルを用いて,思考の仮説モデルを調停者として検証した。 結果: CSIBIの9因子構造を確認し, 因子間に有意な正の相関が認められた。 構造モデルの結果,問題解決能力の信念とCSの創造的表現がプログラミング成長のマインドセットを促進させ,学生のプログラミング自己概念を育むことを示した。 意味: CSにおける中等生の自尊心を測定するための道具として, 設計による学習の文脈に着目し, K-12 CS測定ツールのギャップを埋める手段を検証した。 CSIBIは、コンピュータ教育コンテキストを設計することで、他の学習に容易に適応できる。

Background and Context: Few instruments exist to measure students' CS engagement and learning especially in areas where coding happens with creative, project-based learning and in regard to students' self-beliefs about computing. Objective: We introduce the CS Interests and Beliefs Inventory (CSIBI), an instrument designed for novice secondary students learning by designing projects (particularly with physical computing). The inventory contains subscales on beliefs on problem solving competency, fascination in design, value of CS, creative expression, and beliefs about context-specific CS abilities alongside programming mindsets and outcomes. We explain the creation of the instrument and attend to the role of mindsets as mediators of self-beliefs and how CSIBI may be adapted to other K-12 project-based learning settings. Method: We administered the instrument to 303 novice CS secondary students who largely came from historically marginalized backgrounds (gender, ethnicity, and socioeconomic status). We assessed the nine-factor structure for the 32-item instrument using confirmatory factor analysis and tested the hypothesized model of mindsets as mediators with structural equation modeling. Findings: We confirmed the nine factor structure of CSIBI and found significant positive correlations across factors. The structural model results showed that problem solving competency beliefs and CS creative expression promoted programming growth mindset, which subsequently fostered students' programming self-concept. Implications: We validated an instrument to measure secondary students' self-beliefs in CS that fills several gaps in K-12 CS measurement tools by focusing on contexts of learning by designing. CSIBI can be easily adapted to other learning by designing computing education contexts.
翻訳日:2023-07-20 13:49:31 公開日:2023-07-19
# moda:2重注意でオーディオ駆動のポートレートアニメーションをマッピングする

MODA: Mapping-Once Audio-driven Portrait Animation with Dual Attentions ( http://arxiv.org/abs/2307.10008v1 )

ライセンス: Link先を確認
Yunfei Liu, Lijian Lin, Fei Yu, Changyin Zhou, Yu Li(参考訳) オーディオ駆動のポートレートアニメーションは、与えられたオーディオによって条件付けられたポートレートビデオの合成を目的としている。 高精細でマルチモーダルなビデオポートレートのアニメーションには様々な応用がある。 これまで、異なるモーションモードをキャプチャし、異なるモデルを訓練したり、所定のビデオから信号をサンプリングすることで高忠実なポートレートビデオを生成する試みがあった。 しかし、リップシンクと他の動き(例えば頭部のポーズや眼の点滅など)との相関学習の欠如は、通常不自然な結果をもたらす。 本稿では,多人数・多様・高忠実なトーキング・ポートレート生成のための統一システムを提案する。 本手法は3段階,すなわち3段階を含む。 1) デュアルアテンション(MODA)を用いたマッピング・オースネットワークは,所定の音声から音声表現を生成する。 MODAでは,正確な口の動きと多彩なモダリティを符号化するデュアルアテンションモジュールを設計する。 2)顔合成ネットワークは、濃密で詳細な顔ランドマークを生成し、 3)テンポラリガイドレンダラーは安定したビデオを合成する。 広範に評価した結果,提案手法は従来手法よりも自然でリアルな映像像を生成することがわかった。

Audio-driven portrait animation aims to synthesize portrait videos that are conditioned by given audio. Animating high-fidelity and multimodal video portraits has a variety of applications. Previous methods have attempted to capture different motion modes and generate high-fidelity portrait videos by training different models or sampling signals from given videos. However, lacking correlation learning between lip-sync and other movements (e.g., head pose/eye blinking) usually leads to unnatural results. In this paper, we propose a unified system for multi-person, diverse, and high-fidelity talking portrait generation. Our method contains three stages, i.e., 1) Mapping-Once network with Dual Attentions (MODA) generates talking representation from given audio. In MODA, we design a dual-attention module to encode accurate mouth movements and diverse modalities. 2) Facial composer network generates dense and detailed face landmarks, and 3) temporal-guided renderer syntheses stable videos. Extensive evaluations demonstrate that the proposed system produces more natural and realistic video portraits compared to previous methods.
翻訳日:2023-07-20 13:49:00 公開日:2023-07-19
# 6Gネットワークビジネス支援システム

6G Network Business Support System ( http://arxiv.org/abs/2307.10004v1 )

ライセンス: Link先を確認
Ye Ouyang, Yaqin Zhang, Peng Wang, Yunxin Liu, Wen Qiao, Jun Zhu, Yang Liu, Feng Zhang, Shuling Wang, Xidong Wang(参考訳) 6G is the next-generation intelligent and integrated digital information infrastructure, characterized by ubiquitous interconnection, native intelligence, multi-dimensional perception, global coverage, green and low-carbon, native network security, etc. 6G will realize the transition from serving people and people-things communication to supporting the efficient connection of intelligent agents, and comprehensively leading the digital, intelligent and green transformation of the economy and the society. モバイル通信ネットワークのコアサポートシステムとして、6G BSSは、次世代のインターネットとITの開発によってもたらされた新しいビジネスモデルと統合し、"ネットワーク中心"から"ビジネスとサービス中心"と"顧客中心"にアップグレードする必要がある。 6G OSSとBSSシステムは、供給と需要の両側でデジタルインテリジェンスのサポート機能を接続することで、顧客の運用効率と利益を向上させるために統合を強化する必要がある。 本稿では,6G BSSシステムの全体的なビジョン,潜在的キー技術,機能アーキテクチャについて概説する。 また、5Gから6GまでのBSSシステムの進化的なロードマップと技術展望を示す。

6G is the next-generation intelligent and integrated digital information infrastructure, characterized by ubiquitous interconnection, native intelligence, multi-dimensional perception, global coverage, green and low-carbon, native network security, etc. 6G will realize the transition from serving people and people-things communication to supporting the efficient connection of intelligent agents, and comprehensively leading the digital, intelligent and green transformation of the economy and the society. As the core support system for mobile communication network, 6 6G BSS need to integrate with new business models brought about by the development of the next-generation Internet and IT, upgrade from "network-centric" to "business and service centric" and "customer-centric". 6G OSS and BSS systems need to strengthen their integration to improve the operational efficiency and benefits of customers by connecting the digital intelligence support capabilities on both sides of supply and demand. This paper provides a detailed introduction to the overall vision, potential key technologies, and functional architecture of 6G BSS systems. It also presents an evolutionary roadmap and technological prospects for the BSS systems from 5G to 6G.
翻訳日:2023-07-20 13:48:45 公開日:2023-07-19
# TbExplain: 統計的予測補正を用いたシーン分類モデルのテキストベース説明法

TbExplain: A Text-based Explanation Method for Scene Classification Models with the Statistical Prediction Correction ( http://arxiv.org/abs/2307.10003v1 )

ライセンス: Link先を確認
Amirhossein Aminimehr, Pouya Khani, Amirali Molaei, Amirmohammad Kazemeini, Erik Cambria(参考訳) 説明可能な人工知能(XAI)の分野は、ブラックボックス機械学習モデルの解釈可能性を改善することを目的としている。 入力特徴量の重要性に基づいたヒートマップの構築は,これらのモデルの基本機能を説明するための一般的な手法である。 ヒートマップはほとんど人間には理解できるが、欠陥がないわけではない。 例えば、専門家でないユーザーはヒートマップ(モデルの予測に関連するピクセルが異なる強度や色でハイライトされるロジック)の論理を十分に理解していないかもしれない。 さらに、モデル予測に関連する入力画像のオブジェクトと領域は、ヒートマップによって完全に区別されないことが多い。 本稿では,XAI技術と事前学習対象検出器を用いたTbExplainというフレームワークを提案し,シーン分類モデルのテキストによる説明を行う。 さらに、tbexplainでは、初期予測が信頼できない場合、入力画像内のオブジェクトの統計に基づいて予測を訂正し、テキスト的に説明するための新しい手法が組み込まれている。 テキストに基づく説明の信頼性と妥当性を評価するため,質的実験を行い,これらの説明が十分に信頼できることを示す。 さらに,シーン分類データセットを用いたTbExplainの定量的,定性的な実験により,ResNet変種に対する分類精度の向上が示された。

The field of Explainable Artificial Intelligence (XAI) aims to improve the interpretability of black-box machine learning models. Building a heatmap based on the importance value of input features is a popular method for explaining the underlying functions of such models in producing their predictions. Heatmaps are almost understandable to humans, yet they are not without flaws. Non-expert users, for example, may not fully understand the logic of heatmaps (the logic in which relevant pixels to the model's prediction are highlighted with different intensities or colors). Additionally, objects and regions of the input image that are relevant to the model prediction are frequently not entirely differentiated by heatmaps. In this paper, we propose a framework called TbExplain that employs XAI techniques and a pre-trained object detector to present text-based explanations of scene classification models. Moreover, TbExplain incorporates a novel method to correct predictions and textually explain them based on the statistics of objects in the input image when the initial prediction is unreliable. To assess the trustworthiness and validity of the text-based explanations, we conducted a qualitative experiment, and the findings indicated that these explanations are sufficiently reliable. Furthermore, our quantitative and qualitative experiments on TbExplain with scene classification datasets reveal an improvement in classification accuracy over ResNet variants.
翻訳日:2023-07-20 13:48:29 公開日:2023-07-19
# 最大:フーリエ領域における神経暗黙関数による無限大フィルタの学習

As large as it gets: Learning infinitely large Filters via Neural Implicit Functions in the Fourier Domain ( http://arxiv.org/abs/2307.10001v1 )

ライセンス: Link先を確認
Julia Grabinski, Janis Keuper and Margret Keuper(参考訳) 視覚アプリケーションにおける、よりコンテキスト認識型ニューラルネットワークのための、より大きな受容フィールドの使用への最近のトレンドに動機づけられ、これらの受容フィールドが実際にどのくらい大きい必要があるかを調べることを目的としています。 このような研究を促進するためには、いくつかの課題に取り組む必要がある。 (i)トレーニングや推論中にメモリ消費を増加させることなく、モデルが大きなフィルタ(潜在的には入力データと同じ大きさ)を学習するための効果的な方法を提供する必要がある。 (ii)フィルタサイズの研究は、ネットワーク幅や学習可能なパラメータの数といった他の効果から切り離さなければならない。 (iii) 使用される畳み込み操作は,従来の畳み込みニューラルネットワーク(CNN)の畳み込みを置き換え,現在のフレームワークで効率的な実装を可能にするプラグイン・アンド・プレイモジュールであるべきである。 このようなモデルを容易にするために,フィルタ重みの空間的,周波数的表現をニューラルネットワークの暗黙的関数として学習し,無限大のフィルタであっても数個の学習可能な重みでパラメータ化できることを提案する。 結果として生じるニューラル暗黙周波数CNNは、大きな画像分類ベンチマークの最先端と同等の結果を得る最初のモデルであり、周波数領域のみで畳み込みを実行し、任意のCNNアーキテクチャで使用できる。 学習した受容領域の広範囲な分析を可能にします。 興味深いことに、提案するネットワークは非常に大きな畳み込みカーネルを学習できるが、学習されたフィルタは、空間領域において、よく局在化され、比較的小さな畳み込みカーネルに変換される。

Motivated by the recent trend towards the usage of larger receptive fields for more context-aware neural networks in vision applications, we aim to investigate how large these receptive fields really need to be. To facilitate such study, several challenges need to be addressed, most importantly: (i) We need to provide an effective way for models to learn large filters (potentially as large as the input data) without increasing their memory consumption during training or inference, (ii) the study of filter sizes has to be decoupled from other effects such as the network width or number of learnable parameters, and (iii) the employed convolution operation should be a plug-and-play module that can replace any conventional convolution in a Convolutional Neural Network (CNN) and allow for an efficient implementation in current frameworks. To facilitate such models, we propose to learn not spatial but frequency representations of filter weights as neural implicit functions, such that even infinitely large filters can be parameterized by only a few learnable weights. The resulting neural implicit frequency CNNs are the first models to achieve results on par with the state-of-the-art on large image classification benchmarks while executing convolutions solely in the frequency domain and can be employed within any CNN architecture. They allow us to provide an extensive analysis of the learned receptive fields. Interestingly, our analysis shows that, although the proposed networks could learn very large convolution kernels, the learned filters practically translate into well-localized and relatively small convolution kernels in the spatial domain.
翻訳日:2023-07-20 13:48:11 公開日:2023-07-19
# 大規模言語モデルを用いた数学的導出の生成

Generating Mathematical Derivations with Large Language Models ( http://arxiv.org/abs/2307.09998v1 )

ライセンス: Link先を確認
Jordan Meadows, Marco Valentino, Andre Freitas(参考訳) 大規模言語モデル(llms)を用いた専門分野における数学的結果の導出は、モデルの限界を識別し、潜在的に数学的発見を支援する新たな研究方向である。 本稿では,記号エンジンを用いて大規模方程式の導出を行い,目的方程式を前提から導出する際の LLM の機能について検討する。 具体的には,事前学習戦略の頑健さと一般化を特殊化モデルと比較するため,GPTの文脈内学習とT5モデルの微調整を行う。 実験結果から,flan-t5-large (matht5) はgptモデルに絶対的性能で勝っていることがわかった。 しかし、詳細な分析により、微調整されたモデルは、見当たらない記号を含む摂動や(より少ない範囲で)方程式構造の変化に対してより敏感であることが明らかになった。 さらに、1.7kの方程式と200以上の導出を解析し、不正確で無関係で冗長な方程式を含むような一般的な推論誤差と導出ステップをスキップする傾向を強調する。 最後に, 摂動に対する感度などの一般的な特性を捉える一方で, 微粒な推論誤差やモデル間の本質的な相違を明らかにすることに失敗する証拠を, 数学的導出を評価するための既存の指標の適合性について検討する。 全体として、この研究は、合成データのトレーニングモデルがより大きなアーキテクチャを超える数学的能力を向上させることを実証している。

The derivation of mathematical results in specialised fields using Large Language Models (LLMs) is an emerging research direction that can help identify models' limitations, and potentially support mathematical discovery. In this paper, we leverage a symbolic engine to generate derivations of equations at scale, and investigate the capabilities of LLMs when deriving goal equations from premises. Specifically, we employ in-context learning for GPT and fine-tune a range of T5 models to compare the robustness and generalisation of pre-training strategies to specialised models. Empirical results show that fine-tuned FLAN-T5-large (MathT5) outperforms GPT models on all static and out-of-distribution test sets in terms of absolute performance. However, an in-depth analysis reveals that the fine-tuned models are more sensitive to perturbations involving unseen symbols and (to a lesser extent) changes to equation structure. In addition, we analyse 1.7K equations and over 200 derivations to highlight common reasoning errors such as the inclusion of incorrect, irrelevant, and redundant equations, along with the tendency to skip derivation steps. Finally, we explore the suitability of existing metrics for evaluating mathematical derivations finding evidence that, while they capture general properties such as sensitivity to perturbations, they fail to highlight fine-grained reasoning errors and essential differences between models. Overall, this work demonstrates that training models on synthetic data can improve their mathematical capabilities beyond larger architectures.
翻訳日:2023-07-20 13:47:43 公開日:2023-07-19
# TUNeS:ビデオによる外科的位相認識のための自己注意型一時的U-Net

TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition ( http://arxiv.org/abs/2307.09997v1 )

ライセンス: Link先を確認
Isabel Funke, Dominik Rivoir, Stefanie Krell and Stefanie Speidel(参考訳) 未来の手術室における文脈認識型コンピュータ支援を実現するためには,医療チームによる手術段階の自動理解が必要である。 外科的位相認識のための主要な情報源はビデオであり、ビデオストリームから有意義な特徴を抽出し、視覚的特徴列の時間情報を効果的にモデル化する。 時間的モデリングでは、長距離依存関係をキャプチャできるため、注意機構が人気を集めている。 本稿では,既存の手術相認識のための時間モデルにおける注意設計の選択肢を考察し,局所的注意や注意重みの正規化に頼らない新しいアプローチを提案する。 さらに,標準CNNである特徴抽出器と,所望の長時間ビデオセグメント上でのLSTMとを時間的コンテキストでトレーニングすることを提案する。 実験では,より長い時間的文脈で訓練された特徴抽出器上で,すべての時間モデルの性能が向上した。 これらのコンテキスト化された機能に加えて、TUNeSはCholec80の最先端の結果を達成する。

To enable context-aware computer assistance in the operating room of the future, cognitive systems need to understand automatically which surgical phase is being performed by the medical team. The primary source of information for surgical phase recognition is typically video, which presents two challenges: extracting meaningful features from the video stream and effectively modeling temporal information in the sequence of visual features. For temporal modeling, attention mechanisms have gained popularity due to their ability to capture long-range dependencies. In this paper, we explore design choices for attention in existing temporal models for surgical phase recognition and propose a novel approach that does not resort to local attention or regularization of attention weights: TUNeS is an efficient and simple temporal model that incorporates self-attention at the coarsest stage of a U-Net-like structure. In addition, we propose to train the feature extractor, a standard CNN, together with an LSTM on preferably long video segments, i.e., with long temporal context. In our experiments, all temporal models performed better on top of feature extractors that were trained with longer temporal context. On top of these contextualized features, TUNeS achieves state-of-the-art results on Cholec80.
翻訳日:2023-07-20 13:47:18 公開日:2023-07-19
# 相互共振型量子ビットアーキテクチャにおける量子クロストークの緩和

Mitigation of quantum crosstalk in cross-resonance based qubit architectures ( http://arxiv.org/abs/2307.09995v1 )

ライセンス: Link先を確認
Peng Zhao(参考訳) 固定周波数トランスモン量子ビットと固定結合を利用するクロス共鳴(CR)ゲートアーキテクチャは量子コンピューティングの主要な候補である。 それでも、量子ビット周波数やカップリングのような量子ビットパラメータのチューニングがなければ、ゲート操作は常時オンカップリングから生じる量子クロストークの存在によって制限される。 システムサイズを増加させると、製造の不確実性に起因する周波数衝突を考えるとさらに深刻になる可能性がある。 本稿では,量子クロストークと周波数衝突の両方をパッシブに緩和するcrゲートベースのトランスモンアーキテクチャを提案する。 典型的なパラメータを仮定すると、高速かつ高忠実なCRゲートをサポートするために、XY結合を維持しながらZZクロストークを抑えることができる。 このアーキテクチャは、高速で高忠実なCRゲートが可能な動作領域を拡張して、既存の文献を超越することを可能にし、周波数衝突問題を緩和する。 実用性を検討するため,マルチビット格子におけるCRゲート性能を解析し,エラーの原因を特定するための直感的なモデルを提案する。 周波数設定における最先端の精度について,ゲートへの影響をさらに検討する。 ZZクロストークと周波数衝突は近隣の量子ビットに対して大きく緩和できるが、近隣の量子ビット以外の相互作用は新たな周波数衝突をもたらす。 強度は典型的にはサブmhzレベルであるため、量子ビットを選択的にシフトする弱いオフ共振ドライブを追加することで衝突を緩和できる。 この研究は、固定周波数量子ビットと固定結合に基づく大規模量子プロセッサの量子クロストークの抑制とゲートフィダリティの改善に有用である。

The Cross-resonance (CR) gate architecture that exploits fixed-frequency transmon qubits and fixed couplings is a leading candidate for quantum computing. Nonetheless, without the tunability of qubit parameters such as qubit frequencies and couplings, gate operations can be limited by the presence of quantum crosstalk arising from the always-on couplings. When increasing system sizes, this can become even more serious considering frequency collisions caused by fabrication uncertainties. Here, we introduce a CR gate-based transmon architecture with passive mitigation of both quantum crosstalk and frequency collisions. Assuming typical parameters, we show that ZZ crosstalk can be suppressed while maintaining XY couplings to support fast, high-fidelity CR gates. The architecture also allows one to go beyond the existing literature by extending the operating regions in which fast, high-fidelity CR gates are possible, thus alleviating the frequency-collision issue. To examine the practicality, we analyze the CR gate performance in multiqubit lattices and provide an intuitive model for identifying and mitigating the dominant source of error. For the state-of-the-art precision in setting frequencies, we further investigate its impact on the gates. We find that ZZ crosstalk and frequency collisions can be largely mitigated for neighboring qubits, while interactions beyond near neighbor qubits can introduce new frequency collisions. As the strength is typically at the sub-MHz level, adding weak off-resonant drives to selectively shift qubits can mitigate the collisions. This work could be useful for suppressing quantum crosstalk and improving gate fidelities in large-scale quantum processors based on fixed-frequency qubits and fixed couplings.
翻訳日:2023-07-20 13:46:58 公開日:2023-07-19
# 刈り取りニューラルネットワークにおける絡み合いの影響

Impact of Disentanglement on Pruning Neural Networks ( http://arxiv.org/abs/2307.09994v1 )

ライセンス: Link先を確認
Carl Shneider, Peyman Rostami, Anis Kacem, Nilotpal Sinha, Abd El Rahman Shabayek, Djamila Aouada(参考訳) エッジデバイスにディープラーニングニューラルネットワークをデプロイし、実際の世界でタスク固有の目的を達成するためには、メモリフットプリント、消費電力、レイテンシを削減する必要がある。 これは効率的なモデル圧縮によって実現できる。 可変オートエンコーダ(VAE)ネットワークが生成する非有角遅延表現は、主にタスク固有の情報を保持し、手元にあるタスクに対して無駄な情報を破棄するため、モデル圧縮を実現するための有望なアプローチである。 我々は,β-vaeフレームワークとプルーニングの標準基準を組み合わせることで,分類作業のプルーニングプロセスにおいてネットワークが不連続表現を学習させる影響について検討する。 特に,mnist と cifar10 のデータセットについて実験を行い,絡み合いの課題を調べ,今後の課題への道を提案する。

Deploying deep learning neural networks on edge devices, to accomplish task specific objectives in the real-world, requires a reduction in their memory footprint, power consumption, and latency. This can be realized via efficient model compression. Disentangled latent representations produced by variational autoencoder (VAE) networks are a promising approach for achieving model compression because they mainly retain task-specific information, discarding useless information for the task at hand. We make use of the Beta-VAE framework combined with a standard criterion for pruning to investigate the impact of forcing the network to learn disentangled representations on the pruning process for the task of classification. In particular, we perform experiments on MNIST and CIFAR10 datasets, examine disentanglement challenges, and propose a path forward for future works.
翻訳日:2023-07-20 13:46:33 公開日:2023-07-19
# UniMatch: 多目的マーチャントマーケティングのための統一ユーザ項目マッチングフレームワーク

UniMatch: A Unified User-Item Matching Framework for the Multi-purpose Merchant Marketing ( http://arxiv.org/abs/2307.09989v1 )

ライセンス: Link先を確認
Qifang Zhao, Tianyu Li, Meng Du, Yu Jiang, Qinghui Sun, Zhongyao Wang, Hong Liu, Huan Xu(参考訳) プライベートドメインマーケティングをクラウドサービスで行う場合、商店は通常、複数のマーケティング目的のために異なる機械学習モデルを購入する必要があり、非常に高いコストがかかる。 1つのモデルでアイテムレコメンデーションとユーザターゲティングを同時に行うための統合されたユーザイテムマッチングフレームワークを提案する。 本稿は,ユーザ-イテム相互作用行列と多項分布をモデル化することで,上記の並列モデリングが実現可能であることを実証的に証明し,その実装のための双方向バイアス補正NCE損失を提案する。 提案する損失関数は,条件付き確率 $p(i|u)$ または $p(u|i)$ の代わりに,バッチ内負サンプリングによるユーザとアイテムのバイアスを補正することによって,ユーザとアイテムの合同確率 $p(u,i)$ を学習するようにモデルを誘導する。 さらに、当社のフレームワークはモデルに依存しない、異なるモデルアーキテクチャの柔軟な適応を可能にする。 広範な実験によって、我々のフレームワークは最先端の手法に比べて大幅にパフォーマンスが向上し、計算リソースや日々のメンテナンスにかかるコストが大幅に削減されたことが示されました。

When doing private domain marketing with cloud services, the merchants usually have to purchase different machine learning models for the multiple marketing purposes, leading to a very high cost. We present a unified user-item matching framework to simultaneously conduct item recommendation and user targeting with just one model. We empirically demonstrate that the above concurrent modeling is viable via modeling the user-item interaction matrix with the multinomial distribution, and propose a bidirectional bias-corrected NCE loss for the implementation. The proposed loss function guides the model to learn the user-item joint probability $p(u,i)$ instead of the conditional probability $p(i|u)$ or $p(u|i)$ through correcting both the users and items' biases caused by the in-batch negative sampling. In addition, our framework is model-agnostic enabling a flexible adaptation of different model architectures. Extensive experiments demonstrate that our framework results in significant performance gains in comparison with the state-of-the-art methods, with greatly reduced cost on computing resources and daily maintenance.
翻訳日:2023-07-20 13:46:17 公開日:2023-07-19
# 視覚言語オブジェクトトラッキングにもっと注意を向ける

Divert More Attention to Vision-Language Object Tracking ( http://arxiv.org/abs/2307.10046v1 )

ライセンス: Link先を確認
Mingzhe Guo, Zhipeng Zhang, Liping Jing, Haibin Ling, Heng Fan(参考訳) マルチモーダル視覚言語(VL)学習は、新興の大規模基盤モデルにより、ジェネリックインテリジェンスへの傾向を著しく押し上げている。 しかしながら、基本的な視覚問題として、トラッキングは、近年繁栄しているVL学習のボーナスを驚くほど少なくする。 理由は2つある: 大規模視覚言語アノテーション付きビデオの欠如と、現在の作品の非効率的な視覚言語対話学習である。 これらの迷惑は、追跡のためにより効果的なビジョン言語表現を設計する動機となり、一方で、モデル学習のための言語アノテーションを備えた大きなデータベースを構築します。 本稿では,まず,人気のある6つのトラッキングベンチマークで動画をデコレートする汎用属性アノテーション戦略を提案し,23,000以上のビデオを含む大規模視覚言語追跡データベースに寄与する。 次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。 VL表現をさらに改善するため、異なるモダリティを整列させるためにコントラスト損失を導入する。 提案手法の有効性を徹底的に証明するために,提案手法をCNNベースのSiamCAR,TransformerベースのOSTrack,ハイブリッド構造TransTの3つの追跡手法に統合した。 実験は、6つのベンチマークで全てのベースラインが大幅に改善できることを示しています。 実験結果に加えて,理論上,その合理性を示すためのアプローチを解析した。 VL表現の可能性を明らかにすることで、コミュニティはVL追跡により多くの注意を向け、多様化したマルチモーダルメッセージによる将来のトラッキングの可能性を広げることを期待します。

Multimodal vision-language (VL) learning has noticeably pushed the tendency toward generic intelligence owing to emerging large foundation models. However, tracking, as a fundamental vision problem, surprisingly enjoys less bonus from recent flourishing VL learning. We argue that the reasons are two-fold: the lack of large-scale vision-language annotated videos and ineffective vision-language interaction learning of current works. These nuisances motivate us to design more effective vision-language representation for tracking, meanwhile constructing a large database with language annotation for model learning. Particularly, in this paper, we first propose a general attribute annotation strategy to decorate videos in six popular tracking benchmarks, which contributes a large-scale vision-language tracking database with more than 23,000 videos. We then introduce a novel framework to improve tracking by learning a unified-adaptive VL representation, where the cores are the proposed asymmetric architecture search and modality mixer (ModaMixer). To further improve VL representation, we introduce a contrastive loss to align different modalities. To thoroughly evidence the effectiveness of our method, we integrate the proposed framework on three tracking methods with different designs, i.e., the CNN-based SiamCAR, the Transformer-based OSTrack, and the hybrid structure TransT. The experiments demonstrate that our framework can significantly improve all baselines on six benchmarks. Besides empirical results, we theoretically analyze our approach to show its rationality. By revealing the potential of VL representation, we expect the community to divert more attention to VL tracking and hope to open more possibilities for future tracking with diversified multimodal messages.
翻訳日:2023-07-20 13:40:33 公開日:2023-07-19
# 量子シミュレータにおける関連情報のデータ駆動検出

Data-driven discovery of relevant information in quantum simulators ( http://arxiv.org/abs/2307.10040v1 )

ライセンス: Link先を確認
R. Verdel, V. Vitale, R. K. Panda, E. D. Donkor, A. Rodriguez, S. Lannig, Y. Deller, H. Strobel, M. K. Oberthaler, M. Dalmonte(参考訳) 量子シミュレータは強い相関を持つ量子物質を調べる強力な手段を提供する。 しかし,このようなシステムにおける測定結果の解釈には大きな課題が伴う。 本稿では,スピノルボース・アインシュタイン凝縮実験における量子クエンチの場合の合成量子物質の情報抽出に関する理論的枠組みについて述べる。 情報コンテンツの異なる尺度を提供する非パラメトリックな教師なし学習ツールを用いて,支配的自由度を識別するためのシステム非依存的アプローチを示す。 これにより、実効場理論と同様に、作用素の関連性に応じてランク付けすることができる。 対応する効果的な記述を特徴付けるために、データセットの固有次元をダイナミクスの複雑さの尺度として検討する。 これは、研究システムにおける時間依存的普遍行動の出現と相関するデータ構造を単純化することを明らかにする。 我々の仮定自由アプローチは、すぐに様々な実験プラットフォームに適用できる。

Quantum simulators offer powerful means to investigate strongly correlated quantum matter. However, interpreting measurement outcomes in such systems poses significant challenges. Here, we present a theoretical framework for information extraction in synthetic quantum matter, illustrated for the case of a quantum quench in a spinor Bose-Einstein condensate experiment. Employing non-parametric unsupervised learning tools that provide different measures of information content, we demonstrate a system-agnostic approach to identify dominant degrees of freedom. This enables us to rank operators according to their relevance, akin to effective field theory. To characterize the corresponding effective description, we then explore the intrinsic dimension of data sets as a measure of the complexity of the dynamics. This reveals a simplification of the data structure, which correlates with the emergence of time-dependent universal behavior in the studied system. Our assumption-free approach can be immediately applied in a variety of experimental platforms.
翻訳日:2023-07-20 13:40:07 公開日:2023-07-19
# 不均衡な医用画像認識のための病変領域へのクラスアテンション

Class Attention to Regions of Lesion for Imbalanced Medical Image Recognition ( http://arxiv.org/abs/2307.10036v1 )

ライセンス: Link先を確認
Jia-Xin Zhuang, Jiabin Cai, Jianguo Zhang, Wei-shi Zheng and Ruixuan Wang(参考訳) 医用画像の自動分類はインテリジェント診断システムにおいて重要な要素である。 しかし、ほとんどの医療画像データセットには、一般的な疾患のサンプルが豊富に含まれており、まれなものだけが含まれており、大きな階級的不均衡につながっている。 現在,不均衡なトレーニングデータから効果的に学習することは,知的診断においてオープンな問題である。 本稿では, 単純で効果的なフレームワークである「textbf{C}lass \textbf{A}ttention to \textbf{RE}gions of the lesion (CARE) を提案し, 「textbf{C}onvolutional \textbf{N}eural \textbf{N}etworks (CNNs) のトレーニングプロセスに注意を埋め込んでデータ不均衡の問題に対処する。 提案したアテンションモジュールは、CNNがまれな疾患の病変領域に適応するのに役立つため、CNNがそれらの特徴をより効果的に学習するのに役立つ。 さらに、この注目モジュールはトレーニング段階でのみ動作し、元のネットワークのアーキテクチャを変更しないため、既存のCNNアーキテクチャと直接結合することができる。 CAREフレームワークは、まれな疾患の病変領域を表すために境界ボックスを必要とする。 手動のアノテーションの必要性を軽減するため,従来のサリエンシ手法や事前訓練されたセグメンテーションモデルをボックス生成に適用することにより,CAREの変種をさらに発展させた。 結果から,自動バウンディングボックス生成によるCARE変種は,従来のCAREフレームワークに比較して,‘textit{manual} バウンディングボックスアノテーションと同等であることがわかった。 不均衡な皮膚画像データセットと肺炎データセットに関する一連の実験により、本手法は稀な疾患の病変領域に効果的に集中し、稀な疾患の分類性能を著しく向上することを示す。

Automated medical image classification is the key component in intelligent diagnosis systems. However, most medical image datasets contain plenty of samples of common diseases and just a handful of rare ones, leading to major class imbalances. Currently, it is an open problem in intelligent diagnosis to effectively learn from imbalanced training data. In this paper, we propose a simple yet effective framework, named \textbf{C}lass \textbf{A}ttention to \textbf{RE}gions of the lesion (CARE), to handle data imbalance issues by embedding attention into the training process of \textbf{C}onvolutional \textbf{N}eural \textbf{N}etworks (CNNs). The proposed attention module helps CNNs attend to lesion regions of rare diseases, therefore helping CNNs to learn their characteristics more effectively. In addition, this attention module works only during the training phase and does not change the architecture of the original network, so it can be directly combined with any existing CNN architecture. The CARE framework needs bounding boxes to represent the lesion regions of rare diseases. To alleviate the need for manual annotation, we further developed variants of CARE by leveraging the traditional saliency methods or a pretrained segmentation model for bounding box generation. Results show that the CARE variants with automated bounding box generation are comparable to the original CARE framework with \textit{manual} bounding box annotations. A series of experiments on an imbalanced skin image dataset and a pneumonia dataset indicates that our method can effectively help the network focus on the lesion regions of rare diseases and remarkably improves the classification performance of rare diseases.
翻訳日:2023-07-20 13:39:52 公開日:2023-07-19
# MiniZincプログラムのQUBOへの自動変換

Automatic Conversion of MiniZinc Programs to QUBO ( http://arxiv.org/abs/2307.10032v1 )

ライセンス: Link先を確認
Armin Wolf and Cristian Grozea(参考訳) 様々な最適化問題に対する二項最適化モデルを得るため、物理的量子コンピュータ(例えば dwave annealers)で解くために、今日では、すべての問題変数を二項変数としてリモデリングし、対象関数と制約をこれら新しい変数に1つの二次多項式に絞り込む必要がある、長く退屈なプロセスである。 本稿では,MiniZincからQUBOへの自動変換器をベースとして,制約最適化と制約満足度問題を大幅に処理し,それらを等価なQUBOに変換し,プロセス全体を効果的に最適化する。

Obtaining Quadratic Unconstrained Binary Optimisation models for various optimisation problems, in order to solve those on physical quantum computers (such as the the DWave annealers) is nowadays a lengthy and tedious process that requires one to remodel all problem variables as binary variables and squeeze the target function and the constraints into a single quadratic polynomial into these new variables. We report here on the basis of our automatic converter from MiniZinc to QUBO, which is able to process a large set of constraint optimisation and constraint satisfaction problems and turn them into equivalent QUBOs, effectively optimising the whole process.
翻訳日:2023-07-20 13:39:17 公開日:2023-07-19
# コンテキストの信頼性: 異なる機能が異なるコンテキストで重要なとき

Contextual Reliability: When Different Features Matter in Different Contexts ( http://arxiv.org/abs/2307.10026v1 )

ライセンス: Link先を確認
Gaurav Ghosal, Amrith Setlur, Daniel S. Brown, Anca D. Dragan, and Aditi Raghunathan(参考訳) 深いニューラルネットワークは、しばしば急激な相関に頼って破滅的に失敗する。 ほとんどの先行研究は、鮮明な二分法を刺激的で信頼性のある特徴に仮定するが、これはしばしば非現実的である。 例えば、自動運転車が周囲の車のスピードを単純にコピーするのを望まない場合、ほとんどの場合、隣の車がそうすれば、車は赤信号で走ることを望んでいません。 しかし、横断歩道で観察不能な歩行者に関する貴重な情報を提供できるため、単に次の車線速度にばらつきを課すことはできない。 したがって、時々(常に)信頼できる機能を普遍的に無視することは、非破壊的なパフォーマンスにつながる可能性がある。 我々は、使用する"右"機能がコンテキストによって異なる可能性があるという事実を考慮し、コンテキスト信頼性と呼ばれる新しい設定を定式化する。 まず、特定のコンテキストで使用する関連する機能を識別し、その後、これらの機能のみに依存するようにモデルをトレーニングする。 我々の研究は理論的・実証的に既存の手法よりもENPの利点を実証し、文脈的信頼性のための新しいベンチマークを提供する。

Deep neural networks often fail catastrophically by relying on spurious correlations. Most prior work assumes a clear dichotomy into spurious and reliable features; however, this is often unrealistic. For example, most of the time we do not want an autonomous car to simply copy the speed of surrounding cars -- we don't want our car to run a red light if a neighboring car does so. However, we cannot simply enforce invariance to next-lane speed, since it could provide valuable information about an unobservable pedestrian at a crosswalk. Thus, universally ignoring features that are sometimes (but not always) reliable can lead to non-robust performance. We formalize a new setting called contextual reliability which accounts for the fact that the "right" features to use may vary depending on the context. We propose and analyze a two-stage framework called Explicit Non-spurious feature Prediction (ENP) which first identifies the relevant features to use for a given context, then trains a model to rely exclusively on these features. Our work theoretically and empirically demonstrates the advantages of ENP over existing methods and provides new benchmarks for contextual reliability.
翻訳日:2023-07-20 13:39:04 公開日:2023-07-19
# マルチグリンド・トピック分析法を用いた出生性提案に関する実証的研究

An Empirical Study on Fertility Proposals Using Multi-Grined Topic Analysis Methods ( http://arxiv.org/abs/2307.10025v1 )

ライセンス: Link先を確認
Yulin Zhou(参考訳) 出生率の問題は人口安全保障と密接に関連しており、60年ぶりに中国の人口がマイナス成長傾向の中で初めて、出生率政策の変化が地域社会にとって大きな関心事となっている。 2023 ``two sessions" proposal ``suggests that the country in the form of legislation, the birth of the registration of the cancellation of the marriage restriction" This topic was once a hot topic on the Internet, and ``unbundling" the relationship between birth registration and marriage has become the focus of social debate. In this paper, we adopt co-occurrence semantic analysis, topic analysis and sentiment analysis to conduct multi-granularity semantic analysis of microblog comments. It is found that the discussion on the proposal of ``removing marriage restrictions from birth registration" involves the individual, society and the state at three dimensions, and is detailed into social issues such as personal behaviour, social ethics and law, and national policy, with people's sentiment inclined to be negative in most of the topics. これに基づき、政府の意思決定の参考となる8つの提案がなされ、政治問題に関する世論調査のための参考方法が確立された。

Fertility issues are closely related to population security, in 60 years China's population for the first time in a negative growth trend, the change of fertility policy is of great concern to the community. 2023 ``two sessions" proposal ``suggests that the country in the form of legislation, the birth of the registration of the cancellation of the marriage restriction" This topic was once a hot topic on the Internet, and ``unbundling" the relationship between birth registration and marriage has become the focus of social debate. In this paper, we adopt co-occurrence semantic analysis, topic analysis and sentiment analysis to conduct multi-granularity semantic analysis of microblog comments. It is found that the discussion on the proposal of ``removing marriage restrictions from birth registration" involves the individual, society and the state at three dimensions, and is detailed into social issues such as personal behaviour, social ethics and law, and national policy, with people's sentiment inclined to be negative in most of the topics. Based on this, eight proposals were made to provide a reference for governmental decision making and to form a reference method for researching public opinion on political issues.
翻訳日:2023-07-20 13:38:45 公開日:2023-07-19
# Europepolls: 欧州連合と英国のための国レベルの意見ポーリングデータのデータセット

Europepolls: A Dataset of Country-Level Opinion Polling Data for the European Union and the UK ( http://arxiv.org/abs/2307.10022v1 )

ライセンス: Link先を確認
Konstantinos Pitas(参考訳) 欧州連合と英国における国レベルの歴史的世論調査データの公開データセットを提案する。 このデータセットは欧州連合(EU)の世論調査データのギャップを埋めることを目的としている。 既存のデータセットは過去5年間に限られており、研究の機会は限られている。 同時に、いくつかの大きなプロプライエタリデータセットが存在するが、視覚的に事前処理された時系列フォーマットでのみ利用可能である。 最後に、個々の国のための他の大きなデータセットが存在するかもしれないが、言語障壁のためアクセスできない可能性がある。 データはwikipediaから収集され、pandasライブラリを使って事前処理された。 raw とプリプロセスデータの両方が .net に含まれている。 csvフォーマット。 LLMやディープラーニング全般の最近の進歩を踏まえると、この大規模なデータセットは、研究者がマルチモーダルデータ(ニュース記事、経済指標、ソーシャルメディア)と投票行動の間の複雑な相互作用を明らかにすることができることを願っています。 生データ、前処理されたデータ、前処理スクリプトはgithubで入手できる。

I propose an open dataset of country-level historical opinion polling data for the European Union and the UK. The dataset aims to fill a gap in available opinion polling data for the European Union. Some existing datasets are restricted to the past five years, limiting research opportunities. At the same time, some larger proprietary datasets exist but are available only in a visual preprocessed time series format. Finally, while other large datasets for individual countries might exist, these could be inaccessible due to language barriers. The data was gathered from Wikipedia, and preprocessed using the pandas library. Both the raw and the preprocessed data are in the .csv format. I hope that given the recent advances in LLMs and deep learning in general, this large dataset will enable researchers to uncover complex interactions between multimodal data (news articles, economic indicators, social media) and voting behavior. The raw data, the preprocessed data, and the preprocessing scripts are available on GitHub.
翻訳日:2023-07-20 13:38:29 公開日:2023-07-19
# シリコン中のエルビウムイオンのミリ秒電子スピンコヒーレンス時間

Millisecond electron spin coherence time for erbium ions in silicon ( http://arxiv.org/abs/2307.10021v1 )

ライセンス: Link先を確認
Ian R. Berkman, Alexey Lyasota, Gabriele G. de Boo, John G. Bartholomew, Shao Q. Lim, Brett C. Johnson, Jeffrey C. McCallum, Bin-Bin Xu, Shouyi Xie, Nikolay V. Abrosimov, Hans-Joachim Pohl, Rose L. Ahlefeldt, Matthew J. Sellars, Chunming Yin, Sven Rogge(参考訳) テレコム互換の光遷移を通じてアクセス可能なシリコンのスピンは、確立されたシリコンナノファブリケーション産業を活用する量子情報処理のための汎用的なプラットフォームである。 これらの応用の鍵は光およびスピン遷移における長いコヒーレンス時間であり、フォトニックおよびスピン量子ビットを対向させる堅牢なシステムを提供する。 本稿では, 核スピンフリーシリコン結晶(<0.01% 29Si)内での光検出により, 長い光スピンコヒーレンス時間と電子スピンコヒーレンス時間を計測したEr3+サイトについて報告する。 両サイトについて,2つのサイトを調査し,0.1GHzの光不均一線幅と70kHz以下の均一線幅を求める。 光検出磁気共鳴を用いて両部位の電子スピンコヒーレンス時間を測定し、約11mTでハーンエコー崩壊定数0.8msと1.2msを観測する。これらのEr3+:Siの光学的およびスピン特性は、幅広い量子情報処理用途にシリコンの光アクセス性スピンを使用するための重要なマイルストーンである。

Spins in silicon that are accessible via a telecom-compatible optical transition are a versatile platform for quantum information processing that can leverage the well-established silicon nanofabrication industry. Key to these applications are long coherence times on the optical and spin transitions to provide a robust system for interfacing photonic and spin qubits. Here, we report telecom-compatible Er3+ sites with long optical and electron spin coherence times, measured within a nuclear spin-free silicon crystal (<0.01% 29Si) using optical detection. We investigate two sites and find 0.1 GHz optical inhomogeneous linewidths and homogeneous linewidths below 70 kHz for both sites. We measure the electron spin coherence time of both sites using optically detected magnetic resonance and observe Hahn echo decay constants of 0.8 ms and 1.2 ms at around 11 mT. These optical and spin properties of Er3+:Si are an important milestone towards using optically accessible spins in silicon for a broad range of quantum information processing applications.
翻訳日:2023-07-20 13:38:15 公開日:2023-07-19
# Rob\^oCIn 小人数リーグ拡張チーム説明書

Rob\^oCIn Small Size League Extended Team Description Paper for RoboCup 2023 ( http://arxiv.org/abs/2307.10018v1 )

ライセンス: Link先を確認
Aline Lima de Oliveira, Cau\^e Addae da Silva Gomes, Cec\'ilia Virginia Santos da Silva, Charles Matheus de Sousa Alves, Danilo Andrade Martins de Souza, Driele Pires Ferreira Ara\'ujo Xavier, Edgleyson Pereira da Silva, Felipe Bezerra Martins, Lucas Henrique Cavalcanti Santos, Lucas Dias Maciel, Matheus Paix\~ao Gumercindo dos Santos, Matheus Lafayette Vasconcelos, Matheus Vin\'icius Teotonio do Nascimento Andrade, Jo\~ao Guilherme Oliveira Carvalho de Melo, Jo\~ao Pedro Souza Pereira de Moura, Jos\'e Ronald da Silva, Jos\'e Victor Silva Cruz, Pedro Henrique Santana de Morais, Pedro Paulo Salman de Oliveira, Riei Joaquim Matos Rodrigues, Roberto Costa Fernandes, Ryan Vinicius Santos Morais, Tamara Mayara Ramos Teobaldo, Washington Igor dos Santos Silva, Edna Natividade Silva Barros(参考訳) Rob\^oCInは、2019年からRoboCup Small Size Leagueに参加しており、2022年に初めて世界タイトルを獲得した(ディビジョンB)。 本稿では,フランス・ボルドーのRoboCup 2023において,SSL(Small Size League)ディビジョンBを防衛するための改良について述べる。 本稿は,過去1年間に開発した学術研究の一部を共有することを目的としている。 われわれのチームは、SSLに関する2つの記事を公開した。第25回RoboCup International Symposiumと第19回IEEE Latin American Robotics Symposium (LARS 2022)である。 昨年は、過去のコードベースからUnifiedへの移行を継続的に行っています。 実装された新しいアーキテクチャと、ソフトウェアとAIリファクタリングのいくつかのポイントについて説明します。 さらに,機械部品を機械システムに統合するプロセス,昨年のビジョン・ブラックアウト・チャレンジに参加するための我々の開発,そして今年に向けて準備しているものについても論じる。

Rob\^oCIn has participated in RoboCup Small Size League since 2019, won its first world title in 2022 (Division B), and is currently a three-times Latin-American champion. This paper presents our improvements to defend the Small Size League (SSL) division B title in RoboCup 2023 in Bordeaux, France. This paper aims to share some of the academic research that our team developed over the past year. Our team has successfully published 2 articles related to SSL at two high-impact conferences: the 25th RoboCup International Symposium and the 19th IEEE Latin American Robotics Symposium (LARS 2022). Over the last year, we have been continuously migrating from our past codebase to Unification. We will describe the new architecture implemented and some points of software and AI refactoring. In addition, we discuss the process of integrating machined components into the mechanical system, our development for participating in the vision blackout challenge last year and what we are preparing for this year.
翻訳日:2023-07-20 13:37:55 公開日:2023-07-19
# 公平な顔認証に向けて--人口バイアスの深い分析

Towards Fair Face Verification: An In-depth Analysis of Demographic Biases ( http://arxiv.org/abs/2307.10011v1 )

ライセンス: Link先を確認
Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, Christos Diou(参考訳) 近年、深層学習に基づく人物識別・検証システムは精度が著しく向上しているが、広く普及しているクラウドベースのソリューションを含むシステムでは、人種、年齢、性別に重大な偏りがあることが判明している。 本稿では,これらの要因の交叉性に特に重点を置いた詳細な分析を行う。 インターセクションバイアス(Intersectional bias)とは、人種、年齢、性別の異なる組み合わせにおけるパフォーマンスの格差を指す。 さらに、主要な評価基準として、ほとんどの最先端のアプローチが精度に依存していることは、しばしばパフォーマンスにおける顕著な人口格差を隠蔽している。 この決定的な制限に対処するため、我々は定量的分析に5つの追加の指標を組み込んでおり、その中には異なる影響と不適切な扱いの指標が含まれており、これは関連する公正なアプローチによって無視される。 Racial Faces in-the-Wild(RFW)ベンチマークの結果は、人種を超えて広がる顔認識システムにおける広汎なバイアスを示し、異なる人口統計学的要因が著しく異なる結果をもたらすことを示している。 特に、アフリカ人はコーカサスよりも11.25%低い正正の率(TPR)を示しており、正確度は3.51%である。 さらに、60歳以上のアフリカ人女性のような複数の保護されたグループの交差点は、コーカサスの最高水準と比べて、+39.89%の異なる虐待率を示している。 本論文は,これらのバイアスとその影響を解明し,より公平で公平な顔認証システムの開発に向けたさらなる研究を促進することを目的としている。

Deep learning-based person identification and verification systems have remarkably improved in terms of accuracy in recent years; however, such systems, including widely popular cloud-based solutions, have been found to exhibit significant biases related to race, age, and gender, a problem that requires in-depth exploration and solutions. This paper presents an in-depth analysis, with a particular emphasis on the intersectionality of these demographic factors. Intersectional bias refers to the performance discrepancies w.r.t. the different combinations of race, age, and gender groups, an area relatively unexplored in current literature. Furthermore, the reliance of most state-of-the-art approaches on accuracy as the principal evaluation metric often masks significant demographic disparities in performance. To counter this crucial limitation, we incorporate five additional metrics in our quantitative analysis, including disparate impact and mistreatment metrics, which are typically ignored by the relevant fairness-aware approaches. Results on the Racial Faces in-the-Wild (RFW) benchmark indicate pervasive biases in face recognition systems, extending beyond race, with different demographic factors yielding significantly disparate outcomes. In particular, Africans demonstrate an 11.25% lower True Positive Rate (TPR) compared to Caucasians, while only a 3.51% accuracy drop is observed. Even more concerning, the intersections of multiple protected groups, such as African females over 60 years old, demonstrate a +39.89% disparate mistreatment rate compared to the highest Caucasians rate. By shedding light on these biases and their implications, this paper aims to stimulate further research towards developing fairer, more equitable face recognition and verification systems.
翻訳日:2023-07-20 13:37:37 公開日:2023-07-19
# Qudit ZH-Calculus: Generalized Toffoli+Hadamard and Universality

The Qudit ZH-Calculus: Generalised Toffoli+Hadamard and Universality ( http://arxiv.org/abs/2307.10095v1 )

ライセンス: Link先を確認
Patrick Roy and John van de Wetering and Lia Yeh(参考訳) 我々は、qudit ZH-calculusを導入し、位相自由キュービット規則をキューディットに一般化する方法を示す。 素次元 $d$ に対して、位相フリーのqudit ZH-計算は環 $\mathbb{Z}[e^{2\pi i/d}]$ 上の行列に対して普遍であることを示す。 量子ビットでは、位相自由zh-ダイアグラムと、量子回路の計算に普遍的な断片である toffoli+hadamard 回路の間に強い関係がある。 この接続をquditsに一般化し、2量子の$|0\rangle$- controlled $x$ gate を用いて任意の奇数なqudit次元の古典可逆qudit論理回路を構成できることを見いだす。 我々の構成は対数項まで漸近的に最適であることを示す。 キュービットに対する Toffoli+Hadamard の普遍性を証明したShi による20年後には、$|0\rangle$- controlled $X$ と Hadamard ゲートの回路は任意の奇素数 $d$ に対してキューディット量子コンピューティングに対してほぼ普遍的であることが証明され、さらに位相自由な ZH-ダイアグラムは、ポストセレクションを許容するそのような回路と正確に一致する。

We introduce the qudit ZH-calculus and show how to generalise the phase-free qubit rules to qudits. We prove that for prime dimensions $d$, the phase-free qudit ZH-calculus is universal for matrices over the ring $\mathbb{Z}[e^{2\pi i/d}]$. For qubits, there is a strong connection between phase-free ZH-diagrams and Toffoli+Hadamard circuits, a computationally universal fragment of quantum circuits. We generalise this connection to qudits, by finding that the two-qudit $|0\rangle$-controlled $X$ gate can be used to construct all classical reversible qudit logic circuits in any odd qudit dimension, which for qubits requires the three-qubit Toffoli gate. We prove that our construction is asymptotically optimal up to a logarithmic term. Twenty years after the celebrated result by Shi proving universality of Toffoli+Hadamard for qubits, we prove that circuits of $|0\rangle$-controlled $X$ and Hadamard gates are approximately universal for qudit quantum computing for any odd prime $d$, and moreover that phase-free ZH-diagrams correspond precisely to such circuits allowing postselections.
翻訳日:2023-07-20 13:29:56 公開日:2023-07-19
# Make-A-Volume:クロスモーダル3次元脳MRI合成のための潜時拡散モデル

Make-A-Volume: Leveraging Latent Diffusion Models for Cross-Modality 3D Brain MRI Synthesis ( http://arxiv.org/abs/2307.10094v1 )

ライセンス: Link先を確認
Lingting Zhu, Zeyue Xue, Zhenchao Jin, Xian Liu, Jingzhen He, Ziwei Liu, Lequan Yu(参考訳) クロスモダリティ医療画像合成は重要なトピックであり、医療画像分野における多くの応用を促進する可能性がある。 最近のディープラーニングに基づく生成モデルの成功にもかかわらず、現在の医用画像合成手法は生成的逆ネットワークに依存しており、悪名高いモード崩壊と不安定なトレーニングに苦しめられている。 さらに、2Dバックボーン駆動のアプローチはボリュームの不整合をもたらすが、3Dバックボーンは膨大なメモリコストとトレーニング困難のために困難で実用的ではない。 本稿では,2次元バックボーンを活用し,ボリュームデータ合成の新しいパラダイムを提案するとともに,クロスモダリティ3次元医用画像合成のための拡散型フレームワークmake-a-volumeを提案する。 クロスモダリティスライスワイズマッピングを学習するために,潜時拡散モデルを用いて低次元潜時空間を学習し,高い計算効率を実現する。 3次元画像合成を可能にし、体積不整合を緩和するために、さらに2次元スライスマッピングモデルに一連の体積層を挿入し、それらを対の3dデータで微調整する。 このパラダイムは、2次元画像拡散モデルを少し多くのパラメータと計算量でボリュームバージョンに拡張し、汎用的なクロスモダリティ3次元医用画像合成の原理解を提供する。 我々は,Make-A-Volumeフレームワークが社内のSWI-MRA脳MRIデータセットと公開T1-T2脳MRIデータセットに対して有効であることを示す。 実験の結果,本フレームワークはボリューム一貫性により優れた合成結果が得られることがわかった。

Cross-modality medical image synthesis is a critical topic and has the potential to facilitate numerous applications in the medical imaging field. Despite recent successes in deep-learning-based generative models, most current medical image synthesis methods rely on generative adversarial networks and suffer from notorious mode collapse and unstable training. Moreover, the 2D backbone-driven approaches would easily result in volumetric inconsistency, while 3D backbones are challenging and impractical due to the tremendous memory cost and training difficulty. In this paper, we introduce a new paradigm for volumetric medical data synthesis by leveraging 2D backbones and present a diffusion-based framework, Make-A-Volume, for cross-modality 3D medical image synthesis. To learn the cross-modality slice-wise mapping, we employ a latent diffusion model and learn a low-dimensional latent space, resulting in high computational efficiency. To enable the 3D image synthesis and mitigate volumetric inconsistency, we further insert a series of volumetric layers in the 2D slice-mapping model and fine-tune them with paired 3D data. This paradigm extends the 2D image diffusion model to a volumetric version with a slightly increasing number of parameters and computation, offering a principled solution for generic cross-modality 3D medical image synthesis. We showcase the effectiveness of our Make-A-Volume framework on an in-house SWI-MRA brain MRI dataset and a public T1-T2 brain MRI dataset. Experimental results demonstrate that our framework achieves superior synthesis results with volumetric consistency.
翻訳日:2023-07-20 13:29:25 公開日:2023-07-19
# gromov-wasserstein距離における不変性の再検討と事前導入

Revisiting invariances and introducing priors in Gromov-Wasserstein distances ( http://arxiv.org/abs/2307.10093v1 )

ライセンス: Link先を確認
Pinar Demetci, Quang Huy Tran, Ievgen Redko, Ritambhara Singh(参考訳) gromov-wasserstein距離は、距離空間をまたいだ測度と等尺変換との不変性を比較する能力から、機械学習において多くの応用を見出した。 しかし、ある応用においては、この不変性は柔軟すぎるため、望ましくない。 さらにGromov-Wasserstein距離は、入力データセットのペアのサンプル類似性のみを考慮し、生の特徴表現を無視する。 我々は Augmented Gromov-Wasserstein と呼ばれる新しい最適輸送ベース距離を提案し、変換に対する剛性のレベルをある程度制御できる。 機能アライメントも組み込まれており、入力データの事前知識をうまく活用し、パフォーマンスが向上しています。 提案手法について理論的考察を行う。 次に,単セルマルチオミックアライメントタスクと,機械学習における伝達学習シナリオの有用性を示す。

Gromov-Wasserstein distance has found many applications in machine learning due to its ability to compare measures across metric spaces and its invariance to isometric transformations. However, in certain applications, this invariance property can be too flexible, thus undesirable. Moreover, the Gromov-Wasserstein distance solely considers pairwise sample similarities in input datasets, disregarding the raw feature representations. We propose a new optimal transport-based distance, called Augmented Gromov-Wasserstein, that allows for some control over the level of rigidity to transformations. It also incorporates feature alignments, enabling us to better leverage prior knowledge on the input data for improved performance. We present theoretical insights into the proposed metric. We then demonstrate its usefulness for single-cell multi-omic alignment tasks and a transfer learning scenario in machine learning.
翻訳日:2023-07-20 13:28:58 公開日:2023-07-19
# Android in the Wild - Androidデバイスコントロールのための大規模データセット

Android in the Wild: A Large-Scale Dataset for Android Device Control ( http://arxiv.org/abs/2307.10088v1 )

ライセンス: Link先を確認
Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap(参考訳) ユーザインタフェースを直接制御することで、人間の自然言語命令を解釈し、デジタルデバイス上で実行するデバイス制御システムへの関心が高まっている。 本稿では,デバイス制御研究のためのデータセットであるandroid in the wild (aitw)について述べる。 データセットには、画面やアクションを含むデバイスインタラクションの人間によるデモと、対応する自然言語命令が含まれている。 30kのユニークな命令と4種類のandroid(v10-13)、画面解像度の異なる8種類のデバイス(pixel 2 xlからpixel 6)で構成される。 言語と視覚的コンテキストの意味的理解を必要とするマルチステップタスクが含まれている。 ユーザインターフェースを通じて利用可能なアクションは、視覚的な外観から推測されなければなりません。 そして、単純なUI要素ベースのアクションの代わりに、アクション空間は正確なジェスチャー(カルーセルウィジェットを操作する水平スクロールなど)で構成される。 我々は、新しいタスク記述、新しいアプリケーション、または新しいプラットフォームバージョンの存在下で、システムがいかにうまく機能するかという、デバイス制御システムの堅牢性分析を促進するために、データセットを編成する。 2つのエージェントを開発し、データセット全体のパフォーマンスを報告する。 データセットはhttps://github.com/google-research/google-research/tree/master/android_in_the_wildで利用可能である。

There is a growing interest in device-control systems that can interpret human natural language instructions and execute them on a digital device by directly controlling its user interface. We present a dataset for device-control research, Android in the Wild (AITW), which is orders of magnitude larger than current datasets. The dataset contains human demonstrations of device interactions, including the screens and actions, and corresponding natural language instructions. It consists of 715k episodes spanning 30k unique instructions, four versions of Android (v10-13),and eight device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It contains multi-step tasks that require semantic understanding of language and visual context. This dataset poses a new challenge: actions available through the user interface must be inferred from their visual appearance. And, instead of simple UI element-based actions, the action space consists of precise gestures (e.g., horizontal scrolls to operate carousel widgets). We organize our dataset to encourage robustness analysis of device-control systems, i.e., how well a system performs in the presence of new task descriptions, new applications, or new platform versions. We develop two agents and report performance across the dataset. The dataset is available at https://github.com/google-research/google-research/tree/master/android_in_the_wild.
翻訳日:2023-07-20 13:28:43 公開日:2023-07-19
# 道路セグメントの推奨維持のための意思決定枠組み

A decision making framework for recommended maintenance of road segments ( http://arxiv.org/abs/2307.10085v1 )

ライセンス: Link先を確認
Haoyu Sun, Yan Yan(参考訳) グローバルな道路交通の急速な発展に伴い、世界中の国が道路網の建設を完了した。 しかし、それに続く課題は既存の道路の整備にある。 国が道路整備計画に限られた予算を割り当てること、道路管理部門が科学的にインフォームドされた整備決定を行うのが困難であることはよく知られている。 そのため、様々な人工知能の意思決定技術を統合して、過去の保守データを徹底的に調査し、道路整備の科学的意思決定の文脈に適応させることが緊急問題となっている。 この統合の目的は、道路管理部門により多くの科学的ツールと意思決定の証拠を提供することである。 本稿では,主に以下の4つの課題に対処する枠組みを提案する。 1)各種経路の舗装性能の予測 2 維持経路の優先順位の決定 3 過去の保守効果の評価及び総合的技術・管理指標の検討に基づく保守決定を行うこと。 4) 保守効果及び推奨保守効果に基づいて、保守区間の優先順位を決定すること。 これら4つの問題に対処することにより、限られた資金と歴史的な保守管理経験を考慮して、最適な保守計画とメンテナンスセクションのインテリジェントな意思決定を可能にする。

With the rapid development of global road transportation, countries worldwide have completed the construction of road networks. However, the ensuing challenge lies in the maintenance of existing roads. It is well-known that countries allocate limited budgets to road maintenance projects, and road management departments face difficulties in making scientifically informed maintenance decisions. Therefore, integrating various artificial intelligence decision-making techniques to thoroughly explore historical maintenance data and adapt them to the context of road maintenance scientific decision-making has become an urgent issue. This integration aims to provide road management departments with more scientific tools and evidence for decision-making. The framework proposed in this paper primarily addresses the following four issues: 1) predicting the pavement performance of various routes, 2) determining the prioritization of maintenance routes, 3) making maintenance decisions based on the evaluation of the effects of past maintenance, and considering comprehensive technical and management indicators, and 4) determining the prioritization of maintenance sections based on the maintenance effectiveness and recommended maintenance effectiveness. By tackling these four problems, the framework enables intelligent decision-making for the optimal maintenance plan and maintenance sections, taking into account limited funding and historical maintenance management experience.
翻訳日:2023-07-20 13:28:22 公開日:2023-07-19
# 確率的主成分分析のための双対定式化

A Dual Formulation for Probabilistic Principal Component Analysis ( http://arxiv.org/abs/2307.10078v1 )

ライセンス: Link先を確認
Henri De Plaen, Johan A. K. Suykens(参考訳) 本稿では、ヒルベルト空間における確率的主成分分析を特徴付け、その最適解が双対空間における表現をどのように認めるかを示す。 これにより、カーネルメソッド生成フレームワークの開発が可能になります。 さらに,カーネル主成分分析を包含し,おもちゃや実際のデータセット上での動作を例示する。

In this paper, we characterize Probabilistic Principal Component Analysis in Hilbert spaces and demonstrate how the optimal solution admits a representation in dual space. This allows us to develop a generative framework for kernel methods. Furthermore, we show how it englobes Kernel Principal Component Analysis and illustrate its working on a toy and a real dataset.
翻訳日:2023-07-20 13:28:06 公開日:2023-07-19
# 確率的クラスタリングにおけるエントロピー正規化

Entropy regularization in probabilistic clustering ( http://arxiv.org/abs/2307.10065v1 )

ライセンス: Link先を確認
Beatrice Franzolini and Giovanni Rebaudo(参考訳) ベイズ非パラメトリック混合モデルはクラスター観測に広く用いられている。 しかし、このアプローチの大きな欠点の1つは、推定されたパーティションが、少数の支配的クラスタと多数の人口の少ないクラスタで、しばしば不均衡なクラスタの周波数を示すことである。 この機能は、関連する多くの観測やクラスターを無視しない限り、しばしば解釈できない結果に翻訳される。 後続分布をペナル化確率と解釈し, 分割推定におけるコスト関数の直接的な帰結として不均衡を説明できることを示す。 そこで本研究では,クラスタリング構成のベイズ推定器を提案する。 提案手法は,スパースクラスタの数を減らし,解釈可能性を高める後処理手法と等価である。 この手順はベイズ推定のエントロピー正則化の形を取る。 代替戦略に関して計算上便利であるが、理論上は、点推定に用いられるベイズ損失関数の補正として正当化され、使用する特定のモデルに関係なく、任意のクラスターの後方分布に適用することができる。

Bayesian nonparametric mixture models are widely used to cluster observations. However, one major drawback of the approach is that the estimated partition often presents unbalanced clusters' frequencies with only a few dominating clusters and a large number of sparsely-populated ones. This feature translates into results that are often uninterpretable unless we accept to ignore a relevant number of observations and clusters. Interpreting the posterior distribution as penalized likelihood, we show how the unbalance can be explained as a direct consequence of the cost functions involved in estimating the partition. In light of our findings, we propose a novel Bayesian estimator of the clustering configuration. The proposed estimator is equivalent to a post-processing procedure that reduces the number of sparsely-populated clusters and enhances interpretability. The procedure takes the form of entropy-regularization of the Bayesian estimate. While being computationally convenient with respect to alternative strategies, it is also theoretically justified as a correction to the Bayesian loss function used for point estimation and, as such, can be applied to any posterior distribution of clusters, regardless of the specific model used.
翻訳日:2023-07-20 13:27:59 公開日:2023-07-19
# ソースサンプルを伴わない領域適応逆摂動を用いた深部視覚モデルの教師なし精度推定

Unsupervised Accuracy Estimation of Deep Visual Models using Domain-Adaptive Adversarial Perturbation without Source Samples ( http://arxiv.org/abs/2307.10062v1 )

ライセンス: Link先を確認
JoonHo Lee, Jae Oh Woo, Hankyu Moon and Kwonho Lee(参考訳) 深いビジュアルモデルのデプロイは、ソースとターゲットのディストリビューションの相違によるパフォーマンス低下につながる可能性がある。 いくつかのアプローチでは、ターゲットドメインの精度を推定するためにラベル付きソースデータを活用するが、ラベル付きソースデータへのアクセスは、データ機密性や提供装置のリソース制限のため、しばしば禁止的に困難である。 本研究は,ソースデータにアクセスせずにラベルのない対象データのモデル精度を推定する新しいフレームワークを提案する。 本研究では,疑似ラベルを用いた精度推定の実現可能性について検討し,ソースフリードメイン適応アルゴリズムの最近の進歩に発展させる。 提案手法は,ソース仮説とターゲットの擬似ラベル関数との相違率を,ソース仮説に適応して測定する。 対象モデルの入力に対して適応的対向摂動を用いることにより、高い理想的合同仮説リスクによって生じる誤った擬似ラベルの影響を緩和する。 提案するソースフリーフレームワークは,分散シフトの困難なシナリオに効果的に対処し,トレーニングにソースデータやラベルを必要とする既存の手法より優れている。

Deploying deep visual models can lead to performance drops due to the discrepancies between source and target distributions. Several approaches leverage labeled source data to estimate target domain accuracy, but accessing labeled source data is often prohibitively difficult due to data confidentiality or resource limitations on serving devices. Our work proposes a new framework to estimate model accuracy on unlabeled target data without access to source data. We investigate the feasibility of using pseudo-labels for accuracy estimation and evolve this idea into adopting recent advances in source-free domain adaptation algorithms. Our approach measures the disagreement rate between the source hypothesis and the target pseudo-labeling function, adapted from the source hypothesis. We mitigate the impact of erroneous pseudo-labels that may arise due to a high ideal joint hypothesis risk by employing adaptive adversarial perturbation on the input of the target model. Our proposed source-free framework effectively addresses the challenging distribution shift scenarios and outperforms existing methods requiring source data and labels for training.
翻訳日:2023-07-20 13:27:41 公開日:2023-07-19
# 大規模渦シミュレーションのための高精度深層学習サブグリッドスケールモデル

Accurate deep learning sub-grid scale models for large eddy simulations ( http://arxiv.org/abs/2307.10060v1 )

ライセンス: Link先を確認
Rikhi Bose and Arunabha M. Roy(参考訳) 大型渦流シミュレーション(LES)のために開発されたサブグリッドスケール(SGS)乱流モデルについて述べる。 彼らの開発には物理インフォームド・ロバストで効率的なDeep Learning (DL)アルゴリズムの定式化が必要であり、これは最先端の分析手法とは異なり、入力と出力の間の高次複素非線形関係を生成できる。 2つの摩擦レイノルズ数 $re_\tau\approx 395$ と 590 における正準チャネルフローの直接シミュレーションによるデータの明示的なフィルタリングは、トレーニングとテストの正確なデータを提供した。 2組のモデルは異なるネットワークアーキテクチャを使用する。 アーキテクチャの1つはテンソル基底ニューラルネットワーク(tbnn)を使用し、一般有効粘性仮説の単純化された解析モデル形式を埋め込み、ガリレオ、回転、反射不変性を取り込んでいる。 もう一つのアーキテクチャは比較的単純なネットワークであり、ガリレオ不変性のみを組み込むことができる。 しかし、このより単純なアーキテクチャは、整合性基底テンソルとSGS応力のクロスコンポーネント間の関係を確立し、情報を抽出する能力により、より優れた特徴抽出能力を有する。 どちらのモデルも、異なるフィルタ幅と異なるレイノルズ数で生成された特徴データセットのSGS応力を予測するために使用される。 より単純なモデルの優れた機能学習能力により、統計性能指標において不変な組込みモデルよりも優れていることが示されている。 事前テストでは、どちらのモデルも同様のレベルの散逸と後方散乱を提供する。 テスト結果に基づいて、両方のモデルのセットを実際のLESの後部で使用する必要がある。

We present two families of sub-grid scale (SGS) turbulence models developed for large-eddy simulation (LES) purposes. Their development required the formulation of physics-informed robust and efficient Deep Learning (DL) algorithms which, unlike state-of-the-art analytical modeling techniques can produce high-order complex non-linear relations between inputs and outputs. Explicit filtering of data from direct simulations of the canonical channel flow at two friction Reynolds numbers $Re_\tau\approx 395$ and 590 provided accurate data for training and testing. The two sets of models use different network architectures. One of the architectures uses tensor basis neural networks (TBNN) and embeds the simplified analytical model form of the general effective-viscosity hypothesis, thus incorporating the Galilean, rotational and reflectional invariances. The other architecture is that of a relatively simple network, that is able to incorporate the Galilean invariance only. However, this simpler architecture has better feature extraction capacity owing to its ability to establish relations between and extract information from cross-components of the integrity basis tensors and the SGS stresses. Both sets of models are used to predict the SGS stresses for feature datasets generated with different filter widths, and at different Reynolds numbers. It is shown that due to the simpler model's better feature learning capabilities, it outperforms the invariance embedded model in statistical performance metrics. In a priori tests, both sets of models provide similar levels of dissipation and backscatter. Based on the test results, both sets of models should be usable in a posteriori actual LESs.
翻訳日:2023-07-20 13:27:20 公開日:2023-07-19
# 非滑らかな非凸最適化における確率的下位手法の収束保証

Convergence Guarantees for Stochastic Subgradient Methods in Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2307.10053v1 )

ライセンス: Link先を確認
Nachuan Xiao, Xiaoyin Hu, Kim-Chuan Toh(参考訳) 本稿では, 確率勾配降下法(sgd)法とその変種, 特に非運動活性化関数を用いたニューラルネットワークの学習において, 収束特性について検討する。 運動量項と変数をそれぞれ更新するためのステップ化に異なる時間スケールを割り当てる新しいフレームワークを開発した。 軽度条件下では, 単一時間スケールと2時間スケールのいずれにおいても, 提案するフレームワークのグローバルな収束が証明される。 提案手法は, ヘビーボールSGD, SignSGD, Lion, 正規化SGD, クリッピングSGDなど, 広く知られたSGD型手法を含む。 さらに、目的関数が有限サム定式化を採用すると、提案フレームワークに基づくこれらのSGD型手法の収束特性が証明される。 特に、これらのSGD型手法は、ランダムに選択されたステップサイズと初期点を持つ目的関数のクラーク定常点を求める。 予備数値実験により,sgd型解析法の高効率化が実証された。

In this paper, we investigate the convergence properties of the stochastic gradient descent (SGD) method and its variants, especially in training neural networks built from nonsmooth activation functions. We develop a novel framework that assigns different timescales to stepsizes for updating the momentum terms and variables, respectively. Under mild conditions, we prove the global convergence of our proposed framework in both single-timescale and two-timescale cases. We show that our proposed framework encompasses a wide range of well-known SGD-type methods, including heavy-ball SGD, SignSGD, Lion, normalized SGD and clipped SGD. Furthermore, when the objective function adopts a finite-sum formulation, we prove the convergence properties for these SGD-type methods based on our proposed framework. In particular, we prove that these SGD-type methods find the Clarke stationary points of the objective function with randomly chosen stepsizes and initial points under mild assumptions. Preliminary numerical experiments demonstrate the high efficiency of our analyzed SGD-type methods.
翻訳日:2023-07-20 13:26:53 公開日:2023-07-19
# 準加法的円錐のホログラフィックと量子力学的極線の間のギャップ

A gap between holographic and quantum mechanical extreme rays of the subadditivity cone ( http://arxiv.org/abs/2307.10137v1 )

ライセンス: Link先を確認
Temple He, Veronika E. Hubeny, Massimiliano Rota(参考訳) 明示的な構成により、6つ以上の当事者に対して、ホログラフィック状態ではなく量子状態によって実現できる部分加法的円錐の極端線が存在することを示す。 これは、arXiv:2204.00075で最初に定式化された予想に対する反例であり、普遍的な量子力学的制限を超えた様々なサブシステム間の独立パターンを制限する深いホログラフィック制約の存在を示唆している。

We show via explicit construction that for six or more parties, there exist extreme rays of the subadditivity cone that can be realized by quantum states, but not by holographic states. This is a counterexample to a conjecture first formulated in arXiv:2204.00075, and implies the existence of deep holographic constraints that restrict the allowed patterns of independence among various subsystems beyond the universal quantum mechanical restrictions.
翻訳日:2023-07-20 13:21:12 公開日:2023-07-19
# 重力誘起波動関数崩壊の確率的リッチ流れダイナミクス

Stochastic Ricci Flow dynamics of the gravitationally induced wave-function collapse ( http://arxiv.org/abs/2307.10136v1 )

ライセンス: Link先を確認
Matteo Lulli, Antonino Marciano and Kristian Piscicchia(参考訳) 一般相対性理論における信号の伝播の有限性と量子力学における波動関数の崩壊を両立させるため、リッチ流の確率的バージョンを考察し、物質の存在における非相対論的限界を考察する。 したがって、量子気体の波動関数に対するDi\'osi-Penrose崩壊モデルが導かれる。 この手法は、ガスの温度や宇宙定数などの現象論的モデルに関する追加のパラメータを伴い、崩壊の原因となる確率的重力ノイズと関連づけられる。

In order to reconcile the wave-function collapse in quantum mechanics with the finiteness of signals' propagation in general relativity, we delve into a stochastic version of the Ricci flow and study its non-relativistic limit in presence of matter. We hence derive the Di\'osi-Penrose collapse model for the wave-function of a quantum gas. The procedure entails additional parameters with respect to phenomenological models hitherto accounted for, including the temperature of the gas and the cosmological constant, in turn related to the stochastic gravitational noise responsible for the collapse.
翻訳日:2023-07-20 13:21:03 公開日:2023-07-19
# 精度を向上した改良型NeuMIP

An Improved NeuMIP with Better Accuracy ( http://arxiv.org/abs/2307.10135v1 )

ライセンス: Link先を確認
Bowen Xue, Shuang Zhao, Henrik Wann Jensen, Zahra Montazeri(参考訳) ニューラルリフレクタンスモデルは、様々なスケールで多くの現実世界の物質が空間的に変化する外観を正確に再現することができる。 しかし、既存の手法では光沢のある材料を扱うのが困難である。 この問題に対処するために,我々は,既存の手法と比較して,鏡面のハイライトだけでなく細部の詳細も保存する新しいニューラルフレクタンスモデルを導入する。 この目的のために、入力データをNeRFにインスパイアされた周波数空間に符号化することで、ニューラルネットワークの性能を向上させる。 さらに,グラデーションに基づく損失について紹介し,学習段階の進行に適応した複数の段階に適用する。 最後に,インセプションモジュールを用いたデコーダネットワークへのオプション拡張により,より正確かつ費用のかかる性能を実現する。 本手法の有効性を, 様々な合成例と実例を用いて示す。

Neural reflectance models are capable of accurately reproducing the spatially-varying appearance of many real-world materials at different scales. However, existing methods have difficulties handling highly glossy materials. To address this problem, we introduce a new neural reflectance model which, compared with existing methods, better preserves not only specular highlights but also fine-grained details. To this end, we enhance the neural network performance by encoding input data to frequency space, inspired by NeRF, to better preserve the details. Furthermore, we introduce a gradient-based loss and employ it in multiple stages, adaptive to the progress of the learning phase. Lastly, we utilize an optional extension to the decoder network using the Inception module for more accurate yet costly performance. We demonstrate the effectiveness of our method using a variety of synthetic and real examples.
翻訳日:2023-07-20 13:20:52 公開日:2023-07-19
# 1次元フェルミガス中の不純物の相関除去による温度測定

Thermometry by correlated dephasing of impurities in a 1D Fermi gas ( http://arxiv.org/abs/2307.10132v1 )

ライセンス: Link先を確認
Sindre Brattegard and Mark T. Mitchison(参考訳) 我々は,超低温フェルミオン原子の共有環境に埋め込まれた2つの静的不純物量子ビットの純粋退化ダイナミクスを理論的に検討する。 我々の目標は、不純物間の浴媒介相互作用が非平衡量子温度計としての性能にどのように影響するかを理解することである。 関数決定式を用いて動的に解くことにより,ruderman-kittel-kasuya-yosida型の遅延相互作用により不純物が相関することを示した。 さらに, これらの相関関係は, 2量子ビット温度計の感度を2つの独立した不純物よりも高め, メトロロジー的な利点をもたらすことを実証する。 この増強は、低温と不純物と気体の間の弱い衝突結合の限界において最も顕著である。 この精度の利点は標準ラムゼイ干渉計を用いて利用でき、相関した初期状態を作成したり、不純物を個別に操作したり測定したりする必要もない。 また, 温度推定を行う際の相関を無視する影響を定量的に評価し, 不純物の簡易モデルから許容可能な精度を得ることができた。 以上の結果から, フェルミガス中の不純物の高次非平衡物理が示され, 超低温での温度推定の精度向上に寄与する可能性が示唆された。

We theoretically investigate the pure dephasing dynamics of two static impurity qubits embedded within a common environment of ultracold fermionic atoms, which are confined to one spatial dimension. Our goal is to understand how bath-mediated interactions between impurities affect their performance as nonequilibrium quantum thermometers. By solving the dynamics exactly using a functional determinant approach, we show that the impurities become correlated via retarded interactions of the Ruderman-Kittel-Kasuya-Yosida type. Moreover, we demonstrate that these correlations can provide a metrological advantage, enhancing the sensitivity of the two-qubit thermometer beyond that of two independent impurities. This enhancement is most prominent in the limit of low temperature and weak collisional coupling between the impurities and the gas. We show that this precision advantage can be exploited using standard Ramsey interferometry, with no need to prepare correlated initial states nor to individually manipulate or measure the impurities. We also quantitatively assess the impact of ignoring these correlations when constructing a temperature estimate, finding that acceptable precision can still be achieved from a simplified model of independent impurities. Our results demonstrate the rich nonequilibrium physics of impurities dephasing in a common Fermi gas, and may help to provide better temperature estimates at ultralow temperatures.
翻訳日:2023-07-20 13:20:38 公開日:2023-07-19
# general vs. long-tailed age estimation: an approach to kill two birds with one stone

General vs. Long-Tailed Age Estimation: An Approach to Kill Two Birds with One Stone ( http://arxiv.org/abs/2307.10129v1 )

ライセンス: Link先を確認
Zenghao Bao, Zichang Tan, Jun Li, Jun Wan, Xibo Ma, Zhen Lei(参考訳) 顔の年齢推定は、様々なアプリケーションシナリオで多くの注目を集めています。 既存の研究の多くは、各サンプルを等しく扱い、データセット全体の平均推定誤差を減らし、一般年齢推定(General Age Estimation)とまとめることができる。 しかしながら、データセットに広く見られるロングテール分布のため、すべてのサンプルを等しく扱うことは、必然的にモデルがヘッドクラス(通常、大多数のサンプルを持つ大人)に偏る。 これに基づいて、いくつかの研究は、各クラスが尾のクラス(少数のサンプルを含む)のパフォーマンスを改善するために等しく扱われるべきであることを示唆している。 しかし、ロングテール年齢推定は、通常、パフォーマンス上のトレードオフ、すなわち、ヘッドクラスを犠牲にしてテールクラスの改善を達成する。 本稿の目的は,両タスクでうまく機能する統一フレームワークをデザインし,一つの石で2羽の鳥を殺傷させることである。 この目的のために, GLAE という, シンプルで効果的で柔軟な訓練パラダイムを提案する。 私たちのGLAEはMorph IIを驚くほど改善し、それぞれ1.14年と1.27年で最低のMAEとCMAEに達した。 前回のベストメソッドと比較して、MAEは前例のない改善であり、MAEは1歳近くである。 CACD、MIVIA、Chalearn LAP 2015など、他の年齢ベンチマークデータセットに対する大規模な実験は、GLAEが最先端のアプローチを大幅に上回っていることを示している。

Facial age estimation has received a lot of attention for its diverse application scenarios. Most existing studies treat each sample equally and aim to reduce the average estimation error for the entire dataset, which can be summarized as General Age Estimation. However, due to the long-tailed distribution prevalent in the dataset, treating all samples equally will inevitably bias the model toward the head classes (usually the adult with a majority of samples). Driven by this, some works suggest that each class should be treated equally to improve performance in tail classes (with a minority of samples), which can be summarized as Long-tailed Age Estimation. However, Long-tailed Age Estimation usually faces a performance trade-off, i.e., achieving improvement in tail classes by sacrificing the head classes. In this paper, our goal is to design a unified framework to perform well on both tasks, killing two birds with one stone. To this end, we propose a simple, effective, and flexible training paradigm named GLAE, which is two-fold. Our GLAE provides a surprising improvement on Morph II, reaching the lowest MAE and CMAE of 1.14 and 1.27 years, respectively. Compared to the previous best method, MAE dropped by up to 34%, which is an unprecedented improvement, and for the first time, MAE is close to 1 year old. Extensive experiments on other age benchmark datasets, including CACD, MIVIA, and Chalearn LAP 2015, also indicate that GLAE outperforms the state-of-the-art approaches significantly.
翻訳日:2023-07-20 13:20:14 公開日:2023-07-19
# 画像分割の2つのアプローチ

Two Approaches to Supervised Image Segmentation ( http://arxiv.org/abs/2307.10123v1 )

ライセンス: Link先を確認
Alexandre Benatti, Luciano da F. Costa(参考訳) 人間によってほとんど努力がかからないが、2Dグレースケールまたはカラー画像をその構成領域(例えば、背景、物体または物体の一部)で分割することは、関連する次元的縮小(3Dから2D)、ノイズ、反射、陰影、およびオクルージョンの結果として、科学と技術における最大の課題の1つである。 過去数十年の間に、多くの興味深いアプローチが提案されてきたが、主に近年のディープラーニングの発展に伴い、より効果的で一般的な解が得られ、現在ではこの種の操作の基本的な比較基準を構成している。 近年, 空間的精度, 安定性, 堅牢性を両立させながら, 最小の計算資源(ハードウェア, トレーニング, 認識時間)を必要とする性能を向上する手法が開発されている。 後者の手法の興味深い特徴は、選択性と感度の強化と、教師付き画像分割に対する多重セットアプローチがベースとなる一致類似性指数によって許容されるデータの摂動や外れ値に対するロバスト性の向上である。 ディープラーニングとマルチセットのアプローチについて説明した後、本研究では、それぞれの興味深い特徴をそれぞれのデータとパラメータの設定に適用することを目的として、2つの比較実験を展開する。 ディープラーニングアプローチは、画像セグメンテーションを実行する可能性を認めたが、代替のマルチセット手法は、計算資源をほとんど必要とせずに精度を高めることができた。

Though performed almost effortlessly by humans, segmenting 2D gray-scale or color images in terms of their constituent regions of interest (e.g.~background, objects or portions of objects) constitutes one of the greatest challenges in science and technology as a consequence of the involved dimensionality reduction(3D to 2D), noise, reflections, shades, and occlusions, among many other possible effects. While a large number of interesting approaches have been respectively suggested along the last decades, it was mainly with the more recent development of deep learning that more effective and general solutions have been obtained, currently constituting the basic comparison reference for this type of operation. Also developed recently, a multiset-based methodology has been described that is capable of encouraging performance that combines spatial accuracy, stability, and robustness while requiring minimal computational resources (hardware and/or training and recognition time). The interesting features of the latter methodology mostly follow from the enhanced selectivity and sensitivity, as well as good robustness to data perturbations and outliers, allowed by the coincidence similarity index on which the multiset approach to supervised image segmentation is based. After describing the deep learning and multiset approaches, the present work develops two comparison experiments between them which are primarily aimed at illustrating their respective main interesting features when applied to the adopted specific type of data and parameter configurations. While the deep learning approach confirmed its potential for performing image segmentation, the alternative multiset methodology allowed for encouraging accuracy while requiring little computational resources.
翻訳日:2023-07-20 13:19:42 公開日:2023-07-19
# ベイズヒストグラムを用いたwasserstein距離下でのメモリ効率とミニマックス分布推定

Memory Efficient And Minimax Distribution Estimation Under Wasserstein Distance Using Bayesian Histograms ( http://arxiv.org/abs/2307.10099v1 )

ライセンス: Link先を確認
Peter Matthew Jacobs, Lekha Patel, Anirban Bhattacharya, Debdeep Pati(参考訳) 本研究では,wasserstein $w_v, 1 \leq v < \infty$ distance における[0,1]^d$ の分布推定のためのベイズヒストグラムについて検討した。 新たに、$d < 2v$ の場合、ヒストグラムは特別な \textit{Memory efficiency} 特性を持ち、サンプルサイズ $n$ を参照して、$n^{d/2v}$ bins がミニマックスレート最適性を得るために必要であることを示す。 この結果は、後方平均ヒストグラムおよび後方収縮に関して、ボレル確率測度のクラスといくつかの滑らかな密度のクラスの下に成立する。 達成されたメモリフットプリントは、既存のminimax最適手順をn$の多項式係数で克服する。例えば、ボレル確率測度クラスのminimax推定器である経験的測度と比較した場合、フットプリントの$n^{1 - d/2v}$因子減少である。 さらに、後方の平均ヒストグラムと後方ヒストグラムの両方を構築することは、n$で超線形に行うことができる。 w_1,w_2$ メトリクスの人気と $d < 2v$ ケースによるカバレッジのため、結果は $(d=1,v =1,2), (d=2,v=2), (d=3,v=2)$ の設定に最も実用的に興味を持ち、これらのいくつかの例で理論を実証するシミュレーションを提供する。

We study Bayesian histograms for distribution estimation on $[0,1]^d$ under the Wasserstein $W_v, 1 \leq v < \infty$ distance in the i.i.d sampling regime. We newly show that when $d < 2v$, histograms possess a special \textit{memory efficiency} property, whereby in reference to the sample size $n$, order $n^{d/2v}$ bins are needed to obtain minimax rate optimality. This result holds for the posterior mean histogram and with respect to posterior contraction: under the class of Borel probability measures and some classes of smooth densities. The attained memory footprint overcomes existing minimax optimal procedures by a polynomial factor in $n$; for example an $n^{1 - d/2v}$ factor reduction in the footprint when compared to the empirical measure, a minimax estimator in the Borel probability measure class. Additionally constructing both the posterior mean histogram and the posterior itself can be done super--linearly in $n$. Due to the popularity of the $W_1,W_2$ metrics and the coverage provided by the $d < 2v$ case, our results are of most practical interest in the $(d=1,v =1,2), (d=2,v=2), (d=3,v=2)$ settings and we provide simulations demonstrating the theory in several of these instances.
翻訳日:2023-07-20 13:18:55 公開日:2023-07-19
# 変圧器のマスク微調整における勾配スパーシフィケーション

Gradient Sparsification For Masked Fine-Tuning of Transformers ( http://arxiv.org/abs/2307.10098v1 )

ライセンス: Link先を確認
James O' Neill and Sourav Dutta(参考訳) 調整済みの自己教師型言語モデルが下流タスクへの変換学習に広く採用されている。 微調整は、事前訓練されたネットワークの勾配を凍結し、新たに追加された分類層の勾配のみを更新するか、または全てのパラメータの勾配を更新することによって達成できる。 緩やかな凍結は、トレーニング中に層全体の勾配を徐々に解凍することで両者のトレードオフをもたらす。 これは、一般化性能でストレージとトレーニングスピードをトレードオフする効果的な戦略であった。 しかし、微調整性能を改善する段階的凍結のばらばらな変種と比較して、トレーニングを通して徐々に凍結層が最適かどうかは不明である。 本稿では,事前訓練された言語モデルを規則化し,全体的な微調整性能を改善するために,確率的に勾配をマスクする手法を提案する。 後方通過時の勾配を隠蔽し,勾配雑音として機能する勾配スカラー化法であるGradDropとその変種について紹介する。 GradDropは緩やかで、徐々に凍結する。 XLMR-Largeを用いたマルチリンガルXGLUEベンチマークの大規模な実験により、GradDropは中間的事前学習のために追加の翻訳データを使用し、標準の微調整および段階的凍結を上回る手法と競合することが示された。 分析後、GradDropは、未ソースの言語など、トレーニングされていない言語でパフォーマンスを改善する方法を示している。

Fine-tuning pretrained self-supervised language models is widely adopted for transfer learning to downstream tasks. Fine-tuning can be achieved by freezing gradients of the pretrained network and only updating gradients of a newly added classification layer, or by performing gradient updates on all parameters. Gradual unfreezing makes a trade-off between the two by gradually unfreezing gradients of whole layers during training. This has been an effective strategy to trade-off between storage and training speed with generalization performance. However, it is not clear whether gradually unfreezing layers throughout training is optimal, compared to sparse variants of gradual unfreezing which may improve fine-tuning performance. In this paper, we propose to stochastically mask gradients to regularize pretrained language models for improving overall fine-tuned performance. We introduce GradDrop and variants thereof, a class of gradient sparsification methods that mask gradients during the backward pass, acting as gradient noise. GradDrop is sparse and stochastic unlike gradual freezing. Extensive experiments on the multilingual XGLUE benchmark with XLMR-Large show that GradDrop is competitive against methods that use additional translated data for intermediate pretraining and outperforms standard fine-tuning and gradual unfreezing. A post-analysis shows how GradDrop improves performance with languages it was not trained on, such as under-resourced languages.
翻訳日:2023-07-20 13:18:24 公開日:2023-07-19
# 境界改良型プロトタイプ生成:半教師付き意味セグメンテーションのための汎用エンド・ツー・エンドパラダイム

Boundary-Refined Prototype Generation: A General End-to-End Paradigm for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2307.10097v1 )

ライセンス: Link先を確認
Junhao Dong, Zhu Meng, Delong Liu, Zhicheng Zhao and Fei Su(参考訳) 原型に基づく分類は機械学習の古典的手法であり,近年,半教師付きセマンティックセマンティックセグメンテーションにおいて顕著な成功を収めている。 しかし、現在のアプローチでは、プロトタイプの初期化プロセスをメインのトレーニングフレームワークから分離している。 さらに,プロトタイプ生成におけるk-meansアルゴリズムの直接的利用は,クラス内分散が豊富であると考えられるが,分類タスクの最適解にはなり得ない。 これらの問題に対処するため,本研究では,トレーニングフレームワーク全体に組み込まれた境界修正プロトタイプ生成(BRPG)手法を提案する。 具体的には,クラス境界に近いプロトタイプを生成することを目的とした,信頼性しきい値に基づいて,高信頼と低信頼の機能を分離したアプローチサンプルとクラスタを収集する。 さらに,分散した特徴分布を持つカテゴリに対して,適応型プロトタイプ最適化手法を導入する。 PASCAL VOC 2012とCityscapesデータセットに関する大規模な実験は、提案手法の優位性とスケーラビリティを示し、現在の最先端のアプローチよりも優れている。 コードはxxxxxxxxxxxxで利用可能である。

Prototype-based classification is a classical method in machine learning, and recently it has achieved remarkable success in semi-supervised semantic segmentation. However, the current approach isolates the prototype initialization process from the main training framework, which appears to be unnecessary. Furthermore, while the direct use of K-Means algorithm for prototype generation has considered rich intra-class variance, it may not be the optimal solution for the classification task. To tackle these problems, we propose a novel boundary-refined prototype generation (BRPG) method, which is incorporated into the whole training framework. Specifically, our approach samples and clusters high- and low-confidence features separately based on a confidence threshold, aiming to generate prototypes closer to the class boundaries. Moreover, an adaptive prototype optimization strategy is introduced to make prototype augmentation for categories with scattered feature distributions. Extensive experiments on the PASCAL VOC 2012 and Cityscapes datasets demonstrate the superiority and scalability of the proposed method, outperforming the current state-of-the-art approaches. The code is available at xxxxxxxxxxxxxx.
翻訳日:2023-07-20 13:17:59 公開日:2023-07-19
# バックドア攻撃の再考

Rethinking Backdoor Attacks ( http://arxiv.org/abs/2307.10163v1 )

ライセンス: Link先を確認
Alaa Khaddaj, Guillaume Leclerc, Aleksandar Makelov, Kristian Georgiev, Hadi Salman, Andrew Ilyas, Aleksander Madry(参考訳) バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。 このような攻撃に対する防御には、通常、これらの挿入された例をトレーニングセットの外れ値として見ることと、それらを検出および削除するためにロバスト統計からのテクニックを使用する。 本研究では,バックドア攻撃問題に対する異なるアプローチを提案する。 具体的には、トレーニングデータ分布に関する構造情報がなければ、バックドア攻撃はデータ中の自然に発生する特徴と区別できず、一般的な意味では「検出」できないことを示す。 そして、この観察に導かれ、バックドア攻撃に対する既存の防御を再考し、それらが行う(しばしば遅れた)仮定を特徴付ける。 最後に、バックドア攻撃に関する別の視点を探り、これらの攻撃がトレーニングデータの最も強力な特徴に対応すると仮定する。 この前提の下で(形式的には)、バックドア攻撃を検出するための新しいプリミティブを開発します。 我々のプリミティブは、理論的な保証を伴い、実際に有効である検出アルゴリズムを自然に生み出す。

In a backdoor attack, an adversary inserts maliciously constructed backdoor examples into a training set to make the resulting model vulnerable to manipulation. Defending against such attacks typically involves viewing these inserted examples as outliers in the training set and using techniques from robust statistics to detect and remove them. In this work, we present a different approach to the backdoor attack problem. Specifically, we show that without structural information about the training data distribution, backdoor attacks are indistinguishable from naturally-occurring features in the data--and thus impossible to "detect" in a general sense. Then, guided by this observation, we revisit existing defenses against backdoor attacks and characterize the (often latent) assumptions they make and on which they depend. Finally, we explore an alternative perspective on backdoor attacks: one that assumes these attacks correspond to the strongest feature in the training data. Under this assumption (which we make formal) we develop a new primitive for detecting backdoor attacks. Our primitive naturally gives rise to a detection algorithm that comes with theoretical guarantees and is effective in practice.
翻訳日:2023-07-20 13:11:06 公開日:2023-07-19
# ガイド付きメタ強化学習によるロバスト運転政策学習

Robust Driving Policy Learning with Guided Meta Reinforcement Learning ( http://arxiv.org/abs/2307.10160v1 )

ライセンス: Link先を確認
Kanghoon Lee, Jiachen Li, David Isele, Jinkyoo Park, Kikuo Fujimura, Mykel J. Kochenderfer(参考訳) ディープ強化学習(DRL)は、対話的な交通シナリオにおける自律ナビゲーションの有望な結果を示しているが、既存の作業は通常、トレーニング環境におけるソーシャルカーを制御する固定的な行動ポリシーを採用する。 これにより、学習された運転方針が環境に過度に適合し、異なる目に見えない行動を持つ車両とうまく相互作用することが困難になる可能性がある。 本研究では,社会自動車の多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。 社会的車両の相互作用に基づく報酬関数をランダムにすることで、多様な目標を生成し、特定の目的を達成するポリシーを導くことによって、メタポリシーを効率的に訓練することができる。 さらに,社会車両が学習したメタポリシーによって制御される環境を用いて,ego車両の運転方針の堅牢性を高めるための訓練戦略を提案する。 本手法は,未制御のT-インターセクションシナリオにおいて,アウト・オブ・ディストリビューション (OOD) の社会的エージェントの行動に適応するエゴ駆動政策をうまく学習する。

Although deep reinforcement learning (DRL) has shown promising results for autonomous navigation in interactive traffic scenarios, existing work typically adopts a fixed behavior policy to control social vehicles in the training environment. This may cause the learned driving policy to overfit the environment, making it difficult to interact well with vehicles with different, unseen behaviors. In this work, we introduce an efficient method to train diverse driving policies for social vehicles as a single meta-policy. By randomizing the interaction-based reward functions of social vehicles, we can generate diverse objectives and efficiently train the meta-policy through guiding policies that achieve specific objectives. We further propose a training strategy to enhance the robustness of the ego vehicle's driving policy using the environment where social vehicles are controlled by the learned meta-policy. Our method successfully learns an ego driving policy that generalizes well to unseen situations with out-of-distribution (OOD) social agents' behaviors in a challenging uncontrolled T-intersection scenario.
翻訳日:2023-07-20 13:10:48 公開日:2023-07-19
# FABRIC:反復フィードバックを用いた拡散モデルのパーソナライズ

FABRIC: Personalizing Diffusion Models with Iterative Feedback ( http://arxiv.org/abs/2307.10159v1 )

ライセンス: Link先を確認
Dimitri von R\"utte, Elisabetta Fedele, Jonathan Thomm, Lukas Wolf(参考訳) 視覚コンテンツ生成が機械学習によってますます推進される時代において、人間のフィードバックを生成モデルに統合することは、ユーザエクスペリエンスと出力品質を高める重要な機会となる。 本研究では,拡散に基づくテキスト対画像モデルの生成過程に反復的人間フィードバックを組み込むための戦略を検討する。 FABRICは,広範に普及している拡散モデルに適用可能な学習自由アプローチであり,最も広く使用されているアーキテクチャにおける自己認識層を利用して,フィードバック画像の集合に拡散過程を条件付ける。 提案手法を厳密に評価するために,人間のフィードバックを統合した生成的視覚モデルの性能を定量化するロバストなメカニズムを提供する総合的な評価手法を提案する。 本研究では,複数ラウンドの反復的フィードバックに対して,任意のユーザの好みを暗黙的に最適化することで,生成結果が改良されることを示す。 これらの発見の潜在的な応用は、パーソナライズされたコンテンツ作成やカスタマイズといった分野にまで及んでいる。

In an era where visual content generation is increasingly driven by machine learning, the integration of human feedback into generative models presents significant opportunities for enhancing user experience and output quality. This study explores strategies for incorporating iterative human feedback into the generative process of diffusion-based text-to-image models. We propose FABRIC, a training-free approach applicable to a wide range of popular diffusion models, which exploits the self-attention layer present in the most widely used architectures to condition the diffusion process on a set of feedback images. To ensure a rigorous assessment of our approach, we introduce a comprehensive evaluation methodology, offering a robust mechanism to quantify the performance of generative visual models that integrate human feedback. We show that generation results improve over multiple rounds of iterative feedback through exhaustive analysis, implicitly optimizing arbitrary user preferences. The potential applications of these findings extend to fields such as personalized content creation and customization.
翻訳日:2023-07-20 13:10:10 公開日:2023-07-19
# ペナルティ化およびしきい値化推定におけるパターン回復とその形状

Pattern Recovery in Penalized and Thresholded Estimation and its Geometry ( http://arxiv.org/abs/2307.10158v1 )

ライセンス: Link先を確認
Piotr Graczyk, Ulrike Schneider, Tomasz Skalski, Patrick Tardivel(参考訳) ペナルティ項が実数値多面体ゲージによって与えられるペナルティ化推定の枠組みについて考察し,lasso(および一般化lassoなどの多くの変種を含む),slide,osos,pacsなどの手法について考察する。 これらの推定子は、未知のパラメータベクトルの異なる構造や 'パターン' を明らかにすることができる。 我々は,部分微分に基づくパターンの一般概念を定義し,その複雑性を測るアプローチを定式化する。 パターン回復のためには,正の確率で検出すべき特定のパターン,いわゆるアクセシビリティ条件を最小限に設定する。 また,本手法を用いて,より強いノイズレス回復条件を導入する。 LASSOの場合,1/2$以上の確率でパターン復元を行うためには非表現性条件が必要であることがよく知られており,ノイズのない回復が全く同じ役割を果たすことを示し,それによってLASSOの不表現性条件を広範囲のペナル化推定器に拡張・統一する。 我々は、閾値付きペナル化推定器に切り替えると、ノイズレス回復条件が緩和され、しきい値付きLASSOの概念が拡張されることを示し、そのパターンの信号が十分に大きいことを条件として、閾値付きペナル化推定によるパターン回復が確実であることを示す。 論文全体を通して、我々の発見が幾何学的レンズを通してどのように解釈できるかを実証する。

We consider the framework of penalized estimation where the penalty term is given by a real-valued polyhedral gauge, which encompasses methods such as LASSO (and many variants thereof such as the generalized LASSO), SLOPE, OSCAR, PACS and others. Each of these estimators can uncover a different structure or ``pattern'' of the unknown parameter vector. We define a general notion of patterns based on subdifferentials and formalize an approach to measure their complexity. For pattern recovery, we provide a minimal condition for a particular pattern to be detected by the procedure with positive probability, the so-called accessibility condition. Using our approach, we also introduce the stronger noiseless recovery condition. For the LASSO, it is well known that the irrepresentability condition is necessary for pattern recovery with probability larger than $1/2$ and we show that the noiseless recovery plays exactly the same role, thereby extending and unifying the irrepresentability condition of the LASSO to a broad class of penalized estimators. We show that the noiseless recovery condition can be relaxed when turning to thresholded penalized estimators, extending the idea of the thresholded LASSO: we prove that the accessibility condition is already sufficient (and necessary) for sure pattern recovery by thresholded penalized estimation provided that the signal of the pattern is large enough. Throughout the article, we demonstrate how our findings can be interpreted through a geometrical lens.
翻訳日:2023-07-20 13:09:41 公開日:2023-07-19
# visemeを活用した視覚表現と唇読取の改善

Leveraging Visemes for Better Visual Speech Representation and Lip Reading ( http://arxiv.org/abs/2307.10157v1 )

ライセンス: Link先を確認
Javad Peymanfard, Vahid Saeedi, Mohammad Reza Mohammadi, Hossein Zeinali, Nasser Mozayani(参考訳) リップリーディングは、音声認識、人間とコンピュータのインタラクション、セキュリティシステムにおいて、多くの潜在的な応用がある課題である。 しかし,既存の唇読解システムでは,ビデオ機能に制限があるため,精度が低い場合が多い。 本稿では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。 我々は,大規模ペルシャ語コーパスであるArman-AVデータセットを用いて,単語レベルと文レベルの唇読解,音声視覚音声認識など,様々な課題に対するアプローチを評価する。 実験結果から,我々のビセメベースアプローチは,これらの課題すべてにおいて,最先端の手法よりも一貫して優れていることがわかった。 提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。

Lip reading is a challenging task that has many potential applications in speech recognition, human-computer interaction, and security systems. However, existing lip reading systems often suffer from low accuracy due to the limitations of video features. In this paper, we propose a novel approach that leverages visemes, which are groups of phonetically similar lip shapes, to extract more discriminative and robust video features for lip reading. We evaluate our approach on various tasks, including word-level and sentence-level lip reading, and audiovisual speech recognition using the Arman-AV dataset, a largescale Persian corpus. Our experimental results show that our viseme based approach consistently outperforms the state-of-theart methods in all these tasks. The proposed method reduces the lip-reading word error rate (WER) by 9.1% relative to the best previous method.
翻訳日:2023-07-20 13:08:58 公開日:2023-07-19
# 変圧器外挿探究

Exploring Transformer Extrapolation ( http://arxiv.org/abs/2307.10156v1 )

ライセンス: Link先を確認
Zhen Qin, Yiran Zhong, Hui Deng(参考訳) 長尺外挿は、トレーニングで使用されるものよりも長いシーケンスでトランスフォーマーをテストできるため、近年注目されている。 従来の研究によれば、この特性はRPE(Relative Positional Encodings)として慎重に設計されている。 これらの方法は様々なコーパスでよく機能するが、長さ外挿条件はまだ検討されていない。 本稿では, 数学的および経験的解析により, 長さ外挿が可能なRPEの種類を決定することを試みる。 変換器は RPE の指数収束に対応する級数さえあれば、この性質を持つことは確実である。 2つのプラクティスは条件から導き出され、様々なコーパスの言語モデリングタスクで検討されている。 条件からのボーナスとして、rpesの受容場を測定するための新しい理論受容場(trf)を、トレーニングステップを踏まずに導出する。 Wikitext-103, Books, Github, WikiBookのデータセットを用いて, 発見された条件の生存可能性を示す実験を行った。 また、TRFとERF(Empirical Receptive Field)を異なるモデルで比較し、上記のデータセット上で一貫して一致する傾向を示す。 コードはhttps://github.com/opennlplab/rpeで入手できる。

Length extrapolation has attracted considerable attention recently since it allows transformers to be tested on longer sequences than those used in training. Previous research has shown that this property can be attained by using carefully designed Relative Positional Encodings (RPEs). While these methods perform well on a variety of corpora, the conditions for length extrapolation have yet to be investigated. This paper attempts to determine what types of RPEs allow for length extrapolation through a thorough mathematical and empirical analysis. We discover that a transformer is certain to possess this property as long as the series that corresponds to the RPE's exponential converges. Two practices are derived from the conditions and examined in language modeling tasks on a variety of corpora. As a bonus from the conditions, we derive a new Theoretical Receptive Field (TRF) to measure the receptive field of RPEs without taking any training steps. Extensive experiments are conducted on the Wikitext-103, Books, Github, and WikiBook datasets to demonstrate the viability of our discovered conditions. We also compare TRF to Empirical Receptive Field (ERF) across different models, showing consistently matched trends on the aforementioned datasets. The code is available at https://github.com/OpenNLPLab/Rpe.
翻訳日:2023-07-20 13:08:43 公開日:2023-07-19
# グラフ上の曲率に基づくクラスタリング

Curvature-based Clustering on Graphs ( http://arxiv.org/abs/2307.10155v1 )

ライセンス: Link先を確認
Yu Tian, Zachary Lubberts, Melanie Weber(参考訳) 教師なしノードクラスタリング(またはコミュニティ検出)は古典的なグラフ学習タスクである。 本稿では,グラフの幾何学を利用して,クラスタやコミュニティを形成する密結合部分構造を同定するアルゴリズムについて検討する。 本手法では離散リッチ曲率とその付随する幾何学的流れを実装し,グラフのエッジ重みを進化させ,そのコミュニティ構造を明らかにする。 いくつかの離散曲率の概念を考察し、その結果のアルゴリズムの有用性を解析する。 従来の文献とは対照的に,各ノードが正確に1つのコミュニティに属する単一メンバシップコミュニティ検出だけでなく,コミュニティが重複する可能性がある混合メンバシップコミュニティ検出も研究している。 後者については、線グラフ上でコミュニティ検出を行うこと、すなわちグラフの双対性は有益であると主張する。 曲率に基づくクラスタリングアルゴリズムの有効性に関する理論的および実証的な証拠を提供する。 さらに, グラフの曲率とその双対の関係について, 提案する混合メンバのコミュニティ検出手法の効率的な実装を可能にし, 曲率に基づくネットワーク解析に独立した関心を持つ可能性がある。

Unsupervised node clustering (or community detection) is a classical graph learning task. In this paper, we study algorithms, which exploit the geometry of the graph to identify densely connected substructures, which form clusters or communities. Our method implements discrete Ricci curvatures and their associated geometric flows, under which the edge weights of the graph evolve to reveal its community structure. We consider several discrete curvature notions and analyze the utility of the resulting algorithms. In contrast to prior literature, we study not only single-membership community detection, where each node belongs to exactly one community, but also mixed-membership community detection, where communities may overlap. For the latter, we argue that it is beneficial to perform community detection on the line graph, i.e., the graph's dual. We provide both theoretical and empirical evidence for the utility of our curvature-based clustering algorithms. In addition, we give several results on the relationship between the curvature of a graph and that of its dual, which enable the efficient implementation of our proposed mixed-membership community detection approach and which may be of independent interest for curvature-based network analysis.
翻訳日:2023-07-20 13:08:24 公開日:2023-07-19
# ノイズデバイスにおけるQAOA性能:古典的最適化とアンザッツ深さの影響

QAOA Performance in Noisy Devices: The Effect of Classical Optimizers and Ansatz Depth ( http://arxiv.org/abs/2307.10149v1 )

ライセンス: Link先を確認
Aidan Pellow-Jarman, Shane McFarthing, Ilya Sinayskiy, Anban Pillay, Francesco Petruccione(参考訳) 量子近似最適化アルゴリズム (Quantum Approximate Optimization Algorithm, QAOA) は、組合わせ最適化問題に対する近似解を提供する、Near-term Intermediate-Scale Quantum Computer (NISQ) のための変分量子アルゴリズムである。 QAOAは量子アンサッツと古典オプティマイザからなる量子古典ループを使用して、量子デバイス上で計算されるコスト関数を最小化する。 本稿では,古典的オプティマイザに対する現実的な雑音の影響について検討し,ノイズの存在下での量子近似最適化アルゴリズム(QAOA)の最適回路深さを決定する。 状態ベクトルシミュレーションにおける古典的最適化器の性能に有意な差はないが,Adam と AMSGrad の最適化器はショットノイズの存在下では最適であることがわかった。 真のノイズの条件下では、SPSAオプティマイザはADAMやAMSGradとともにトップパフォーマーとして登場します。 この研究は、QAOA回路の最大6層まで、約5キュービットの最小頂点被覆問題に対する解の質が上昇し、その後減少し始めたことも明らかにした。 この分析から,qaoa内の層数の増加は,ノイズの多いデバイスではうまく動作しない可能性が示唆された。

The Quantum Approximate Optimization Algorithm (QAOA) is a variational quantum algorithm for Near-term Intermediate-Scale Quantum computers (NISQ) providing approximate solutions for combinatorial optimisation problems. The QAOA utilizes a quantum-classical loop, consisting of a quantum ansatz and a classical optimizer, to minimize some cost function computed on the quantum device. This paper presents an investigation into the impact of realistic noise on the classical optimizer and the determination of optimal circuit depth for the Quantum Approximate Optimization Algorithm (QAOA) in the presence of noise. We find that, while there is no significant difference in the performance of classical optimizers in a state vector simulation, the Adam and AMSGrad optimizers perform best in the presence of shot noise. Under the conditions of real noise, the SPSA optimizer, along with ADAM and AMSGrad, emerge as the top performers. The study also reveals that the quality of solutions to some 5 qubit minimum vertex cover problems increases for up to around six layers in the QAOA circuit, after which it begins to decline. This analysis shows that increasing the number of layers in the QAOA in an attempt to increase accuracy may not work well in a noisy device.
翻訳日:2023-07-20 13:08:06 公開日:2023-07-19
# 量子エラー訂正のためのハードウェア接続要件を緩和するTangling schedules

Tangling schedules eases hardware connectivity requirements for quantum error correction ( http://arxiv.org/abs/2307.10147v1 )

ライセンス: Link先を確認
Gyorgy P. Geher, Ophelia Crawford, Earl T. Campbell(参考訳) 量子コンピュータは、計算問題の解法を変える可能性がある。 量子ビットのノイズが多いため、計算中に生じる物理的エラーを訂正する必要性が生じる。 表面コードは、高いしきい値を示し、既に存在するデバイスの一種である正方形グリッド接続を持つハードウェアに論理量子状態を格納できるようなエラー訂正の有望な候補である。 しかし、論理量子計算には、不規則で非局所的な安定化器の測定が必要であり、ハードウェアの接続性を変更することなくその方法が現在分かっていない。 ここでは、フォールトトレラント量子計算の経路におけるこのギャップを埋めて、これを実現する方法を提案する。 本稿では,遠方キュービット間の可観測性の測定を可能にするタングルドシンドローム抽出回路を提案する。 提案手法の適用例として,ハードウェア自体を物理的に修正することなく,前述の不規則な非局所スタビリザを測定する方法を示す。 本稿では,平面符号を用いた一般格子手術を可能にする具体的スキームを提案する。 したがって、タングリングは正方形グリッド接続アーキテクチャ上で表面コードを使用してフォールトトレラントな論理量子計算を可能にする。

Quantum computers have the potential to change the way we solve computational problems. Due to the noisy nature of qubits, the need arises to correct physical errors occurring during computation. The surface code is a promising candidate for such error correction that shows high threshold and which can store a logical quantum state on hardware with square-grid connectivity, a type of device that already exists. However, for logical quantum computation, the measurement of some irregular, non-local stabilisers is required, and it is not currently known how to do this without modifying the connectivity of the hardware. Here, we present a method to achieve this, closing this gap on the path to fault-tolerant quantum computation. We introduce a method of tangled syndrome extraction circuits, which enables measurement of observables between distant qubits. As an application of our tangling technique, we show how to measure the aforementioned irregular non-local stabilisers, without physically modifying the hardware itself. We present a concrete scheme that enables general lattice surgery with the planar code. Therefore, tangling enables fault-tolerant logical quantum computation using the surface code on square-grid connectivity architectures.
翻訳日:2023-07-20 13:07:42 公開日:2023-07-19
# ヒューマノイドロコモーション学習のためのベンチマークポテンシャルに基づく報酬

Benchmarking Potential Based Rewards for Learning Humanoid Locomotion ( http://arxiv.org/abs/2307.10142v1 )

ライセンス: Link先を確認
Se Hwan Jeon, Steve Heim, Charles Khazoom, Sangbae Kim(参考訳) 効果的な強化学習(RL)パイプラインを開発する上での大きな課題は、しばしば報酬関数の設計とチューニングである。 うまく設計されたシェーピング報酬は、学習を著しく高速化する可能性がある。 しかし、仮に定式化された報酬は、望ましい行動と矛盾し、適切に調整しなければ過度に適合したり、過酷なパフォーマンスをもたらす。 理論上は、pbr(英: broad class of potential based reward shaping)は、最適方針に影響を与えることなく学習プロセスを導くのに役立つ。 いくつかの研究は、学習収束を加速するためにポテンシャルに基づく報酬形成の利用を探求しているが、その多くはグリッドワールドや低次元システムに限られており、ロボット工学におけるRLは主に標準的な報酬形成の形式に依存している。 本稿では,ヒューマノイドロボットのpbrによる形状形成の標準形式について検討する。 この高次元システムでは、PBRSは収束速度の限界的な利点しか持たない。 しかしながら、pbrs報酬項は、典型的な報酬形成アプローチよりもスケーリングにかなり頑健であり、チューニングが容易である。

The main challenge in developing effective reinforcement learning (RL) pipelines is often the design and tuning the reward functions. Well-designed shaping reward can lead to significantly faster learning. Naively formulated rewards, however, can conflict with the desired behavior and result in overfitting or even erratic performance if not properly tuned. In theory, the broad class of potential based reward shaping (PBRS) can help guide the learning process without affecting the optimal policy. Although several studies have explored the use of potential based reward shaping to accelerate learning convergence, most have been limited to grid-worlds and low-dimensional systems, and RL in robotics has predominantly relied on standard forms of reward shaping. In this paper, we benchmark standard forms of shaping with PBRS for a humanoid robot. We find that in this high-dimensional system, PBRS has only marginal benefits in convergence speed. However, the PBRS reward terms are significantly more robust to scaling than typical reward shaping approaches, and thus easier to tune.
翻訳日:2023-07-20 13:07:26 公開日:2023-07-19
# 量子スピンガラスの絡み合いとレプリカ対称性の破れ

Entanglement and replica symmetry breaking in a driven-dissipative quantum spin glass ( http://arxiv.org/abs/2307.10176v1 )

ライセンス: Link先を確認
Brendan P. Marsh, Ronen M. Kroeze, Surya Ganguli, Sarang Gopalakrishnan, Jonathan Keeling, and Benjamin L. Lev(参考訳) 本稿では,共焦点共焦点共振器QEDシステムの量子力学シミュレーションについて述べる。 我々は、最大15個のスピン1/2粒子からなる完全連結でフラストレーションのあるスピンネットワークにおけるレプリカ対称性の破れの出現において、絡み合いが重要な役割を担っていることを観察する。 系がヘップ-リーブ-ディッケ超ラジカル遷移によって励起されると、ガラス状のエネルギーの風景が現われる。 個々の軌道が絡み合った状態を含む量子力学は、半古典的軌道よりも低いエネルギーの定常的なスピン配置に達する。 キャビティ放出はスピン配置の連続確率的進化のモニタリングを可能にし、この計画からのバックアクションは状態が分裂したイジング状態と複製対称性に絡み合った。 同じスピンネットワークの多体量子軌道シミュレーションはレプリカを構成する。 スピンガラス秩序の出現は、磁化の欠如とレプリカ間の非自明なスピン重なり密度分布の存在によってそれ自体が現れる。 さらに、これらの重なりは、パリシ rsb 解 ansatz のシェリントン-カークパトリック模型と一致して、初期の超計量次数を示す。 しかし、非熱パリスオーダーのパラメータ分布は、この量子光学スピングラスの駆動散逸性を強調している。 この実用可能なシステムは、量子効果がスピングラスの物理をいかに強化するかを調べるためのテストベッドとして機能するかもしれない。

We describe simulations of the quantum dynamics of a confocal cavity QED system that realizes an intrinsically driven-dissipative spin glass. We observe that entanglement plays an important role in the emergence of replica symmetry breaking in a fully connected, frustrated spin network of up to fifteen spin-1/2 particles. A glassy energy landscape emerges as the system is pumped through a Hepp-Lieb-Dicke superradiant transition. We find that the quantum dynamics, whose individual trajectories involve entangled states, reach steady-state spin configurations of lower energy than that of semiclassical trajectories. Cavity emission allows monitoring of the continuous stochastic evolution of spin configurations, while backaction from this projects entangled states into states of broken Ising and replica symmetry. Each many-body quantum trajectory simulation of the same spin network constitutes a replica. The emergence of spin glass order manifests itself through the simultaneous absence of magnetization and the presence of nontrivial spin overlap density distributions among replicas. Moreover, these overlaps reveal incipient ultrametric order, in line with the Parisi RSB solution ansatz for the Sherrington-Kirkpatrick model. A nonthermal Parisi order parameter distribution, however, highlights the driven-dissipative nature of this quantum optical spin glass. This practicable system could serve as a testbed for exploring how quantum effects enrich the physics of spin glasses.
翻訳日:2023-07-20 13:01:43 公開日:2023-07-19
# DNAレンダリング:高忠実性人間中心レンダリングのための横型ニューラルアクターリポジトリ

DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering ( http://arxiv.org/abs/2307.10173v1 )

ライセンス: Link先を確認
Wei Cheng, Ruixiang Chen, Wanqi Yin, Siming Fan, Keyu Chen, Honglin He, Huiwen Luo, Zhongang Cai, Jingbo Wang, Yang Gao, Zhengming Yu, Zhengyu Lin, Daxuan Ren, Lei Yang, Ziwei Liu, Chen Change Loy, Chen Qian, Wayne Wu, Dahua Lin, Bo Dai, Kwan-Yee Lin(参考訳) リアルな人間中心のレンダリングはコンピュータビジョンとコンピュータグラフィックスの両方において重要な役割を果たす。 アルゴリズムの面ではここ数年急速に進歩してきたが、既存の人間中心のレンダリングデータセットとベンチマークは、レンダリング効果に不可欠な多様性の面では貧弱である。 研究者は通常、現在のデータセット上の小さなレンダリング問題の探索と評価を制限されるが、現実世界のアプリケーションは、さまざまなシナリオで堅牢なメソッドを必要とする。 本研究では、ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。 dnaレンダリングにはいくつかの属性がある。 まず、私たちのデータセットは1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームを含む。 第二に、2D/3Dの人体キーポイント、前景マスク、SMPLXモデル、布/アクセトリー材料、マルチビューイメージ、ビデオなど。 これらの資産は、下流レンダリングタスクにおける現在の手法の精度を高める。 第3に,60個の同期カメラと最大解像度4096 x 3000,15fpsの速度,スタンカメラキャリブレーションステップを備え,タスクトレーニングと評価のための高品質な資源を確保する,プロのマルチビューシステムを構築した。 データセットとともに,新しいビュー合成,新しいポーズアニメーション合成,新しいアイデンティティレンダリング手法の既存の進歩を評価するための複数のタスクを含む,大規模かつ定量的なベンチマークをフルスケールで提供する。 本論文では,DNAレンダリングの取り組みを,人中心レンダリングへの新たな観察,課題,今後の方向性を明らかにするものとして記述する。 データセット、コード、ベンチマークはhttps://dna-rendering.github.io/で公開される。

Realistic human-centric rendering plays a key role in both computer vision and computer graphics. Rapid progress has been made in the algorithm aspect over the years, yet existing human-centric rendering datasets and benchmarks are rather impoverished in terms of diversity, which are crucial for rendering effect. Researchers are usually constrained to explore and evaluate a small set of rendering problems on current datasets, while real-world applications require methods to be robust across different scenarios. In this work, we present DNA-Rendering, a large-scale, high-fidelity repository of human performance data for neural actor rendering. DNA-Rendering presents several alluring attributes. First, our dataset contains over 1500 human subjects, 5000 motion sequences, and 67.5M frames' data volume. Second, we provide rich assets for each subject -- 2D/3D human body keypoints, foreground masks, SMPLX models, cloth/accessory materials, multi-view images, and videos. These assets boost the current method's accuracy on downstream rendering tasks. Third, we construct a professional multi-view system to capture data, which contains 60 synchronous cameras with max 4096 x 3000 resolution, 15 fps speed, and stern camera calibration steps, ensuring high-quality resources for task training and evaluation. Along with the dataset, we provide a large-scale and quantitative benchmark in full-scale, with multiple tasks to evaluate the existing progress of novel view synthesis, novel pose animation synthesis, and novel identity rendering methods. In this manuscript, we describe our DNA-Rendering effort as a revealing of new observations, challenges, and future directions to human-centric rendering. The dataset, code, and benchmarks will be publicly available at https://dna-rendering.github.io/
翻訳日:2023-07-20 13:00:53 公開日:2023-07-19
# DialogStudio: 会話型AIのための最もリッチで最も多様な統一データセットコレクションを目指して

DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI ( http://arxiv.org/abs/2307.10172v1 )

ライセンス: Link先を確認
Jianguo Zhang and Kun Qian and Zhiwei Liu and Shelby Heinecke and Rui Meng and Ye Liu and Zhou Yu and Silvio Savarese and Caiming Xiong(参考訳) 会話AIの進歩にもかかわらず、言語モデルは多様な会話タスクを扱うための課題に直面し、既存の対話データセットコレクションは多様性と包括性を欠いていることが多い。 これらの問題に対処するために,対話データセットの最大かつ最も多様なコレクションであるDialogStudioを紹介し,元の情報を保存しながら一貫したフォーマットで統一する。 本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。 DialogStudioの実用性をさらに向上するため、各データセットのライセンスを特定し、選択した対話のためのドメイン対応プロンプトを設計し、命令対応の微調整を容易にする。 さらに、データセット収集を用いて会話型AIモデルを構築し、ゼロショットおよび少数ショット学習シナリオにおける実験により、DialogStudioの優位性を実証した。 透明性を改善し、データセットやタスクベースの研究、言語モデルの事前トレーニングをサポートするため、すべてのデータセット、ライセンス、コード、dialogstudioに関連するモデルがhttps://github.com/salesforce/dialogstudioで公開されている。

Despite advancements in conversational AI, language models encounter challenges to handle diverse conversational tasks, and existing dialogue dataset collections often lack diversity and comprehensiveness. To tackle these issues, we introduce DialogStudio: the largest and most diverse collection of dialogue datasets, unified under a consistent format while preserving their original information. Our collection encompasses data from open-domain dialogues, task-oriented dialogues, natural language understanding, conversational recommendation, dialogue summarization, and knowledge-grounded dialogues, making it an incredibly rich and diverse resource for dialogue research and model training. To further enhance the utility of DialogStudio, we identify the licenses for each dataset and design domain-aware prompts for selected dialogues to facilitate instruction-aware fine-tuning. Furthermore, we develop conversational AI models using the dataset collection, and our experiments in both zero-shot and few-shot learning scenarios demonstrate the superiority of DialogStudio. To improve transparency and support dataset and task-based research, as well as language model pre-training, all datasets, licenses, codes, and models associated with DialogStudio are made publicly accessible at https://github.com/salesforce/DialogStudio
翻訳日:2023-07-20 13:00:24 公開日:2023-07-19
# LightPath:軽量でスケーラブルなパス表現学習

LightPath: Lightweight and Scalable Path Representation Learning ( http://arxiv.org/abs/2307.10171v1 )

ライセンス: Link先を確認
Sean Bin Yang, Jilin Hu, Chenjuan Guo, Bin Yang and Christian S. Jensen(参考訳) 移動経路はインテリジェント交通やスマートシティの用途で広く利用されている。 このようなアプリケーションを実現するために、経路表現学習は、経路ランキングや旅行コスト推定といった下流の様々なタスクに使用する場合、効率よく正確な操作を可能にする経路のコンパクトな表現を提供することを目的としている。 多くの場合、経路表現学習が軽量でスケーラブルであることは魅力的であり、資源制限のある環境やグリーンコンピューティングの制約下では、必須である。 しかし,既存の経路表現学習研究は精度を重視し,資源消費とスケーラビリティに最も注意を払っている。 本研究では,リソース消費量を削減し,精度に影響を与えずにスケーラビリティを実現することを目的とした,軽量でスケーラブルな経路表現学習フレームワークlightpathを提案する。 より具体的には、我々はまず、パス長に関して優れたスケーラビリティを実現するためのスパースオートエンコーダを提案する。 次に,より堅牢なスパースパスエンコーダの高速トレーニングを可能にする関係推論フレームワークを提案する。 また,より小型化とスパースパスエンコーダの性能向上を図るため,グローバルな知識蒸留も提案する。 最後に,提案フレームワークの効率,スケーラビリティ,有効性に関する洞察を提供するため,実世界の2つのデータセットに関する広範な実験を報告する。

Movement paths are used widely in intelligent transportation and smart city applications. To serve such applications, path representation learning aims to provide compact representations of paths that enable efficient and accurate operations when used for different downstream tasks such as path ranking and travel cost estimation. In many cases, it is attractive that the path representation learning is lightweight and scalable; in resource-limited environments and under green computing limitations, it is essential. Yet, existing path representation learning studies focus on accuracy and pay at most secondary attention to resource consumption and scalability. We propose a lightweight and scalable path representation learning framework, termed LightPath, that aims to reduce resource consumption and achieve scalability without affecting accuracy, thus enabling broader applicability. More specifically, we first propose a sparse auto-encoder that ensures that the framework achieves good scalability with respect to path length. Next, we propose a relational reasoning framework to enable faster training of more robust sparse path encoders. We also propose global-local knowledge distillation to further reduce the size and improve the performance of sparse path encoders. Finally, we report extensive experiments on two real-world datasets to offer insight into the efficiency, scalability, and effectiveness of the proposed framework.
翻訳日:2023-07-20 12:59:58 公開日:2023-07-19
# 大規模言語モデルの挑戦と応用

Challenges and Applications of Large Language Models ( http://arxiv.org/abs/2307.10169v1 )

ライセンス: Link先を確認
Jean Kaddour, Joshua Harris, Maximilian Mozes, Herbie Bradley, Roberta Raileanu, Robert McHardy(参考訳) 大規模言語モデル(llm)は、数年以内に、マシンラーニングの談話に存在せず、ユビキタスなものへと移行した。 この分野の速いペースのため、残りの課題を特定することは困難であり、既に実りある応用分野である。 本稿では,ML研究者が現場の状態をより早く理解し,生産的になるよう,オープンな問題とアプリケーション成功の体系的なセットを確立することを目的とする。

Large Language Models (LLMs) went from non-existent to ubiquitous in the machine learning discourse within a few years. Due to the fast pace of the field, it is difficult to identify the remaining challenges and already fruitful application areas. In this paper, we aim to establish a systematic set of open problems and application successes so that ML researchers can comprehend the field's current state more quickly and become productive.
翻訳日:2023-07-20 12:59:38 公開日:2023-07-19
# 人間計算アルゴリズムの労働者としてのLLM LLMによるクラウドソーシングパイプラインのレプリケーション

LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs ( http://arxiv.org/abs/2307.10168v1 )

ライセンス: Link先を確認
Tongshuang Wu, Haiyi Zhu, Maya Albayrak, Alexis Axon, Amanda Bertsch, Wenxing Deng, Ziqi Ding, Bill Guo, Sireesh Gururaja, Tzu-Sheng Kuo, Jenny T. Liang, Ryan Liu, Ihita Mandal, Jeremiah Milbauer, Xiaolin Ni, Namrata Padmanabhan, Subhashini Ramkumar, Alexis Sudjianto, Jordan Taylor, Ying-Jui Tseng, Patricia Vaidos, Zhijin Wu, Wei Wu, Chenyang Yang(参考訳) LLMは、以前は人間の能力専用と考えられていたクラウドソーシングタスクにおいて、人間のような行動の複製を約束している。 しかし、現在の取り組みは主に単純な原子タスクに焦点を当てている。 LLMがより複雑なクラウドソーシングパイプラインを複製できるかどうかを検討する。 これらの「ヒューマン・コンピュテーション・アルゴリズム」において、現代のLLMはクラウドワーカーの能力の一部をシミュレートできるが、成功のレベルは変動しており、サブタスクに必要な特定のスキル、サブタスクを実行するための最適な相互作用のモダリティによって影響される。 我々は,指示に対する人間とllmの感性の違いを考察し,llmに対するヒューマンセーフガードの実現の重要性を強調し,人間とllmを相補的なスキルセットで訓練する可能性について論じる。 重要なのは、クラウドソーシングパイプラインの複製が、(1)異なるタスクにおけるllmの相対的な強み(サブタスクでのパフォーマンスをクロス比較することによって)と(2)複雑なタスクにおけるllmsの潜在能力を調査するための価値のあるプラットフォームであることを示すことである。

LLMs have shown promise in replicating human-like behavior in crowdsourcing tasks that were previously thought to be exclusive to human abilities. However, current efforts focus mainly on simple atomic tasks. We explore whether LLMs can replicate more complex crowdsourcing pipelines. We find that modern LLMs can simulate some of crowdworkers' abilities in these "human computation algorithms," but the level of success is variable and influenced by requesters' understanding of LLM capabilities, the specific skills required for sub-tasks, and the optimal interaction modality for performing these sub-tasks. We reflect on human and LLMs' different sensitivities to instructions, stress the importance of enabling human-facing safeguards for LLMs, and discuss the potential of training humans and LLMs with complementary skill sets. Crucially, we show that replicating crowdsourcing pipelines offers a valuable platform to investigate (1) the relative strengths of LLMs on different tasks (by cross-comparing their performances on sub-tasks) and (2) LLMs' potential in complex tasks, where they can complete part of the tasks while leaving others to humans.
翻訳日:2023-07-20 12:59:30 公開日:2023-07-19
# VITS : 文脈的包帯に対する変分推論トムソンサンプリング

VITS : Variational Inference Thomson Sampling for contextual bandits ( http://arxiv.org/abs/2307.10167v1 )

ライセンス: Link先を確認
Pierre Clavier, Tom Huix, Alain Durmus(参考訳) 本稿では,コンテキストバンディットに対するトンプソンサンプリング(ts)アルゴリズムの変種を紹介し,解析する。 それぞれのラウンドにおいて、伝統的なtsは現在の後方分布からのサンプルを必要とするが、通常は難解である。 この問題を回避するため、近似推論技術を用い、後部に近い分布のサンプルを提供する。 しかし、現在の近似手法は低い推定(ラプラス近似)または計算に高価である(MCMC法、アンサンブルサンプリング...)。 本稿では,ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。 このスキームは、サンプリングが容易で計算効率が良い強力な後続近似を提供し、tsにとって理想的な選択である。 さらに,vits は従来の ts と同じ次元とラウンド数で,線形文脈的バンディットに対して同じ順序の線形後悔値が得られることを示した。 最後に,合成データと実世界データの両方におけるvitの有効性を実験的に示す。

In this paper, we introduce and analyze a variant of the Thompson sampling (TS) algorithm for contextual bandits. At each round, traditional TS requires samples from the current posterior distribution, which is usually intractable. To circumvent this issue, approximate inference techniques can be used and provide samples with distribution close to the posteriors. However, current approximate techniques yield to either poor estimation (Laplace approximation) or can be computationally expensive (MCMC methods, Ensemble sampling...). In this paper, we propose a new algorithm, Varational Inference Thompson sampling VITS, based on Gaussian Variational Inference. This scheme provides powerful posterior approximations which are easy to sample from, and is computationally efficient, making it an ideal choice for TS. In addition, we show that VITS achieves a sub-linear regret bound of the same order in the dimension and number of round as traditional TS for linear contextual bandit. Finally, we demonstrate experimentally the effectiveness of VITS on both synthetic and real world datasets.
翻訳日:2023-07-20 12:59:10 公開日:2023-07-19
# 構造画像合成のための自己注意型逆潜時オートエンコーダ

Adversarial Latent Autoencoder with Self-Attention for Structural Image Synthesis ( http://arxiv.org/abs/2307.10166v1 )

ライセンス: Link先を確認
Jiajie Fan, Laure Vuaille, Hao Wang, Thomas B\"ack(参考訳) DGM(Deep Generative Models)によって駆動されるジェネレーティブエンジニアリング設計アプローチは、産業工学プロセスを促進するために提案されている。 このようなプロセスでは、設計はディテールのレベルに応じて、ブループリント、エンジニアリング図面、CADモデルなどのイメージの形式で行われることが多い。 DGMは自然画像の合成、例えば動物、人間の顔、風景の表示に成功している。 しかし,産業デザイン画像は,コンボリューションに基づくdgm生成が難しい構造パターンと長距離依存性を有するという点で,自然シーンと根本的に異なる。 さらに、dgm駆動生成プロセスは、予測不能なサンプルを出力するランダムなノイズ入力に基づいてトリガーされるため、効率的な産業設計の探索はできない。 そこで我々は,複雑な設計部品から実現可能な設計画像を生成する新しいモデルであるsa-alaeを提案する。 SA-ALAEでは、ユーザーは既存のデザインの新しいバリエーションを探索できるだけでなく、潜在空間で操作することで生成プロセスを制御できる。 SA-ALAEのポテンシャルは、実際の自動車設計タスクでエンジニアリングの青写真を生成することによって示される。

Generative Engineering Design approaches driven by Deep Generative Models (DGM) have been proposed to facilitate industrial engineering processes. In such processes, designs often come in the form of images, such as blueprints, engineering drawings, and CAD models depending on the level of detail. DGMs have been successfully employed for synthesis of natural images, e.g., displaying animals, human faces and landscapes. However, industrial design images are fundamentally different from natural scenes in that they contain rich structural patterns and long-range dependencies, which are challenging for convolution-based DGMs to generate. Moreover, DGM-driven generation process is typically triggered based on random noisy inputs, which outputs unpredictable samples and thus cannot perform an efficient industrial design exploration. We tackle these challenges by proposing a novel model Self-Attention Adversarial Latent Autoencoder (SA-ALAE), which allows generating feasible design images of complex engineering parts. With SA-ALAE, users can not only explore novel variants of an existing design, but also control the generation process by operating in latent space. The potential of SA-ALAE is shown by generating engineering blueprints in a real automotive design task.
翻訳日:2023-07-20 12:58:53 公開日:2023-07-19
# 屋内空間における車両位置のドローンナビゲーションとライセンス場所検出

Drone navigation and license place detection for vehicle location in indoor spaces ( http://arxiv.org/abs/2307.10165v1 )

ライセンス: Link先を確認
Moa Arvidsson, Sithichot Sawirot, Cristofer Englund, Fernando Alonso-Fernandez, Martin Torstensson, Boris Duran(参考訳) 毎年何百万もの車両が輸送され、船やボートに密閉されている。 火災などの関連する安全問題のリスクを軽減するためには、車両の位置を知ることが不可欠である。 この研究の目的は、駐車中の車両の列を移動し、ナンバープレートを検出するナノドローンに基づくソリューションを作ることだ。 壁追跡アルゴリズムと、ライセンスプレートを検出するために訓練されたCNNによって実現しています。 すべての計算はドローン上でリアルタイムで行われ、位置と検出された画像を送るだけで、プレートの位置がついた2Dマップが作成できる。 私たちのソリューションは、8つのテストケース(数列のプレート、異なるドローン速度、あるいは低光度)にまたがるすべてのプレートを、複数のドローンの旅の計測結果を集約することで読み取ることができます。

Millions of vehicles are transported every year, tightly parked in vessels or boats. To reduce the risks of associated safety issues like fires, knowing the location of vehicles is essential, since different vehicles may need different mitigation measures, e.g. electric cars. This work is aimed at creating a solution based on a nano-drone that navigates across rows of parked vehicles and detects their license plates. We do so via a wall-following algorithm, and a CNN trained to detect license plates. All computations are done in real-time on the drone, which just sends position and detected images that allow the creation of a 2D map with the position of the plates. Our solution is capable of reading all plates across eight test cases (with several rows of plates, different drone speeds, or low light) by aggregation of measurements across several drone journeys.
翻訳日:2023-07-20 12:58:32 公開日:2023-07-19
# 9-bメモリセルを組み込んだ137.5TOPS/W SRAMコンピュートインメモリマクロとAIエッジ応用のための信号マージン向上技術

A 137.5 TOPS/W SRAM Compute-in-Memory Macro with 9-b Memory Cell-Embedded ADCs and Signal Margin Enhancement Techniques for AI Edge Applications ( http://arxiv.org/abs/2307.05944v3 )

ライセンス: Link先を確認
Xiaomeng Wang, Fengshi Tian, Xizi Chen, Jiakun Zheng, Xuejiao Liu, Fengbin Tu, Jie Yang, Mohamad Sawan, Kwang-Ting Cheng, Chi-Ying Tsui(参考訳) 本稿では、4x4ビットMAC演算を行い、9ビット符号付き出力を出力できる高精度SRAMベースのCIMマクロを提案する。 SRAMセルの固有の放電枝を用いて、2ビット線キャパシタに時間変調MACおよび9ビットADC読み出し動作を適用する。 同じ原理がMACとA-to-Dの変換にも使われ、高い線形性を確保し、多くのアナログMAC蓄積をサポートする。 メモリセル埋め込みADCは、別々のADCの使用を排除し、エネルギーと面積効率を高める。 さらに,CIMの計算精度を向上させるために,MAC折り畳み方式とブーストクリッピング方式の2つの信号マージン向上手法を提案する。

In this paper, we propose a high-precision SRAM-based CIM macro that can perform 4x4-bit MAC operations and yield 9-bit signed output. The inherent discharge branches of SRAM cells are utilized to apply time-modulated MAC and 9-bit ADC readout operations on two bit-line capacitors. The same principle is used for both MAC and A-to-D conversion ensuring high linearity and thus supporting large number of analog MAC accumulations. The memory cell-embedded ADC eliminates the use of separate ADCs and enhances energy and area efficiency. Additionally, two signal margin enhancement techniques, namely the MAC-folding and boosted-clipping schemes, are proposed to further improve the CIM computation accuracy.
翻訳日:2023-07-20 11:14:00 公開日:2023-07-19
# スポーツにおける多目的追跡のための反復的スケールアップIoUとディープ・フィーチャーズ・アソシエーション

Iterative Scale-Up ExpansionIoU and Deep Features Association for Multi-Object Tracking in Sports ( http://arxiv.org/abs/2306.13074v3 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Cheng-Yen Yang, Jiacheng Sun, Jenq-Neng Hwang, Chung-I Huang(参考訳) マルチオブジェクトトラッキングアルゴリズムは、近年のオブジェクト検出の発展により、大幅に進歩している。 しかし、既存のほとんどの手法は、比較的単純で規則的な動きパターンを示す歩行者や車両の追跡に重点を置いている。 その結果、マルチスロットトラッキングのような不規則または非線形な動きを伴うターゲットの追跡に対処するアルゴリズムが不足している。 さらに、一般的な追跡アルゴリズムは、物体の動きがカルマンフィルタの線形運動仮定と矛盾する場合に物体を追跡するのに失敗する物体の運動モデリングにカルマンフィルタに依存することが多い。 そこで我々は,多対象追跡のためのIterative Scale-Up ExpansionIoUとDeep Featuresという,オンラインかつ堅牢な多対象追跡手法を提案する。 従来の手法とは異なり、カルマンフィルタの使用を放棄し、反復スケールアップ拡張IoUの利用を提案する。 このアプローチは、追加のトレーニングデータを必要としたり、より堅牢な検出器を採用することなく、他の外観に基づく手法と比較して計算コストを低く抑えながら、優れたトラッキング性能を実現する。 提案手法は不規則な運動物体の追跡において顕著な効果を示し, HOTAの76.9%のスコアを得た。 さまざまなスポーツシナリオをカバーするSportsMOTデータセット上で、最先端のトラッキングアルゴリズムをすべて上回る。

Multi-object tracking algorithms have made significant advancements due to the recent developments in object detection. However, most existing methods primarily focus on tracking pedestrians or vehicles, which exhibit relatively simple and regular motion patterns. Consequently, there is a scarcity of algorithms that address the tracking of targets with irregular or non-linear motion, such as multi-athlete tracking. Furthermore, popular tracking algorithms often rely on the Kalman filter for object motion modeling, which fails to track objects when their motion contradicts the linear motion assumption of the Kalman filter. Due to this reason, we proposed a novel online and robust multi-object tracking approach, named Iterative Scale-Up ExpansionIoU and Deep Features for multi-object tracking. Unlike conventional methods, we abandon the use of the Kalman filter and propose utilizing the iterative scale-up expansion IoU. This approach achieves superior tracking performance without requiring additional training data or adopting a more robust detector, all while maintaining a lower computational cost compared to other appearance-based methods. Our proposed method demonstrates remarkable effectiveness in tracking irregular motion objects, achieving a score of 76.9% in HOTA. It outperforms all state-of-the-art tracking algorithms on the SportsMOT dataset, covering various kinds of sport scenarios.
翻訳日:2023-07-20 11:13:45 公開日:2023-07-19
# レニアの新たな複雑さを捉え

Capturing Emerging Complexity in Lenia ( http://arxiv.org/abs/2305.09378v4 )

ライセンス: Link先を確認
Sanyam Jain, Aarati Shrestha and Stefano Nichele(参考訳) この研究プロジェクトは、デジタル生物の生態系をシミュレートする人工生命プラットフォームLeniaを調査する。 レニアの生態系は、移動し、消費し、成長し、再生できる単純な人工生物から成り立っている。 このプラットフォームは、様々な能力と行動を持つ多様な生物を生み出すためのスケーラブルで柔軟な環境を提供するため、人工生命と進化を研究するためのツールとして重要である。 レニアの複雑さを測定することは、まだ発見されていないレニアの行動を改善することを目的として、ルールの長期的な複雑な出現行動を測定するための指標を特定する研究の重要な側面である。 遺伝的アルゴリズムは、近辺やカーネルを遺伝子型として使用し、レニアの残りのパラメータを例えば成長関数のように固定し、個体群ごとに異なる行動を生成し、その結果生じる行動の複雑さを決定するために適合値を測定する。 まず,フレーム間のばらつきが高まるようなフィットネス機能として,時間とともに変化を利用する。 第2に,フレームの復元損失リストの変動が報われる自動エンコーダベースの適合性を用いる。 第3に、再構成フレームの画素密度のより高い変動が報われるような複合フィットネスを行う。 3つの実験はすべてpixel alive thresholdとフレームで調整されている。 最後に、500世代毎に各フィットネスの9つの実験を行った後、さらなる進化のスコープがあるような全ての実験から構成を選択し、2500世代にわたって実行します。 結果は、核の質量中心は、特定のピクセル集合と、核がガウス分布を達成しようとする境界とともに増加することを示している。

This research project investigates Lenia, an artificial life platform that simulates ecosystems of digital creatures. Lenia's ecosystem consists of simple, artificial organisms that can move, consume, grow, and reproduce. The platform is important as a tool for studying artificial life and evolution, as it provides a scalable and flexible environment for creating a diverse range of organisms with varying abilities and behaviors. Measuring complexity in Lenia is a key aspect of the study, which identifies the metrics for measuring long-term complex emerging behavior of rules, with the aim of evolving better Lenia behaviors which are yet not discovered. The Genetic Algorithm uses neighborhoods or kernels as genotype while keeping the rest of the parameters of Lenia as fixed, for example growth function, to produce different behaviors respective to the population and then measures fitness value to decide the complexity of the resulting behavior. First, we use Variation over Time as a fitness function where higher variance between the frames are rewarded. Second, we use Auto-encoder based fitness where variation of the list of reconstruction loss for the frames is rewarded. Third, we perform combined fitness where higher variation of the pixel density of reconstructed frames is rewarded. All three experiments are tweaked with pixel alive threshold and frames used. Finally, after performing nine experiments of each fitness for 500 generations, we pick configurations from all experiments such that there is a scope of further evolution, and run it for 2500 generations. Results show that the kernel's center of mass increases with a specific set of pixels and together with borders the kernel try to achieve a Gaussian distribution.
翻訳日:2023-07-20 11:13:20 公開日:2023-07-19
# cb-hvtnet : 病理組織像におけるリンパ球評価のためのチャネルブーストハイブリッド視覚トランスフォーマーネットワーク

CB-HVTNet: A channel-boosted hybrid vision transformer network for lymphocyte assessment in histopathological images ( http://arxiv.org/abs/2305.09211v3 )

ライセンス: Link先を確認
Momina Liaqat Ali, Zunaira Rauf, Asifullah Khan, Anabia Sohail, Rafi Ullah, Jeonghwan Gwak(参考訳) トランスフォーマーは、長距離依存を学習する能力のため、グローバルな視点学習のための畳み込みニューラルネットワーク(CNN)の欠点を克服している。 そのため、医学診断などの視力関連タスクに研究者の焦点が当てられている。 しかし,そのマルチヘッドアテンションモジュールは,医用画像では不十分なグローバルレベルの特徴表現のみをキャプチャする。 この問題を解決するために、トランスファーラーニングを用いてチャネルを再生し、トランスフォーマーとCNNの両方を用いてリンパ球の組織像を解析するCB HVT(Channel Boosted Hybrid Vision Transformer)を提案する。 提案するcb hvtは、チャネル生成モジュール、チャネルエクスプロイトレーションモジュール、チャネルマージモジュール、リージョンアウェアモジュール、およびリンパ球を効果的に同定するための検出およびセグメンテーションヘッドを含む5つのモジュールから構成されている。 チャネル生成モジュールは、移動学習によるチャネル増強というアイデアを用いて、異なる補助学習者から多様なチャネルを抽出する。 CB HVTでは、これらのチャネルを最初に連結し、チャネル利用モジュールの注意機構を用いてランク付けする。 次に、融合ブロックをチャネルマージモジュールに使用して、多様なブーストされたチャネルを段階的かつ体系的にマージし、ネットワークの学習表現を改善する。 CB HVTはまた、その領域認識モジュールとヘッドに提案ネットワークを使用して、重複する領域やアーティファクトであってもオブジェクトを効果的に識別する。 今回提案したCB HVTを,病理組織像におけるリンパ球評価のための2つの公開データセットで評価した。 以上の結果から,CB HVTは術式検出モデルの他の状態よりも優れており,病理医のツールとしての価値が示された。

Transformers, due to their ability to learn long range dependencies, have overcome the shortcomings of convolutional neural networks (CNNs) for global perspective learning. Therefore, they have gained the focus of researchers for several vision related tasks including medical diagnosis. However, their multi-head attention module only captures global level feature representations, which is insufficient for medical images. To address this issue, we propose a Channel Boosted Hybrid Vision Transformer (CB HVT) that uses transfer learning to generate boosted channels and employs both transformers and CNNs to analyse lymphocytes in histopathological images. The proposed CB HVT comprises five modules, including a channel generation module, channel exploitation module, channel merging module, region-aware module, and a detection and segmentation head, which work together to effectively identify lymphocytes. The channel generation module uses the idea of channel boosting through transfer learning to extract diverse channels from different auxiliary learners. In the CB HVT, these boosted channels are first concatenated and ranked using an attention mechanism in the channel exploitation module. A fusion block is then utilized in the channel merging module for a gradual and systematic merging of the diverse boosted channels to improve the network's learning representations. The CB HVT also employs a proposal network in its region aware module and a head to effectively identify objects, even in overlapping regions and with artifacts. We evaluated the proposed CB HVT on two publicly available datasets for lymphocyte assessment in histopathological images. The results show that CB HVT outperformed other state of the art detection models, and has good generalization ability, demonstrating its value as a tool for pathologists.
翻訳日:2023-07-20 11:12:56 公開日:2023-07-19
# 類似性 Min-Max: ゼロショットデイナイトドメイン適応

Similarity Min-Max: Zero-Shot Day-Night Domain Adaptation ( http://arxiv.org/abs/2307.08779v2 )

ライセンス: Link先を確認
Rundong Luo, Wenjing Wang, Wenhan Yang, Jiaying Liu(参考訳) 低照度条件は人間の視覚経験を妨げるだけでなく、下流の視覚タスクにおけるモデルの性能を低下させる。 既存の作業は昼夜のドメイン適応において著しく進歩するが、それらはタスク固有の夜間データセットから派生したドメイン知識に大きく依存する。 本稿では、夜間データに依存しないゼロショットの昼夜領域適応という、境界適用性を伴うより複雑なシナリオに挑戦する。 画像レベルの翻訳やモデルレベルの適応を強調する以前のゼロショット適応アプローチとは異なり、これらを統一されたフレームワークで考慮した類似性min-maxパラダイムを提案する。 画像レベルでは、最小限の機能の類似性に向かって画像を暗くして、ドメインギャップを拡大します。 そして、モデルレベルでは、暗い画像と通常の光との特徴の類似性を最大化し、より良いモデル適応を行う。 私たちの知る限りでは、この研究は両方の側面を共同で最適化する先駆的な取り組みであり、結果としてモデルの一般化性が大幅に向上します。 提案手法は,分類,意味セグメンテーション,視覚位置認識,映像行動認識など,様々な夜間視覚タスクにおいて有効性と幅広い適用性を示す。 コードと事前トレーニングされたモデルは、https://red-fairy.github.io/zeroshotdaynightda-webpage/で入手できる。

Low-light conditions not only hamper human visual experience but also degrade the model's performance on downstream vision tasks. While existing works make remarkable progress on day-night domain adaptation, they rely heavily on domain knowledge derived from the task-specific nighttime dataset. This paper challenges a more complicated scenario with border applicability, i.e., zero-shot day-night domain adaptation, which eliminates reliance on any nighttime data. Unlike prior zero-shot adaptation approaches emphasizing either image-level translation or model-level adaptation, we propose a similarity min-max paradigm that considers them under a unified framework. On the image level, we darken images towards minimum feature similarity to enlarge the domain gap. Then on the model level, we maximize the feature similarity between the darkened images and their normal-light counterparts for better model adaptation. To the best of our knowledge, this work represents the pioneering effort in jointly optimizing both aspects, resulting in a significant improvement of model generalizability. Extensive experiments demonstrate our method's effectiveness and broad applicability on various nighttime vision tasks, including classification, semantic segmentation, visual place recognition, and video action recognition. Code and pre-trained models are available at https://red-fairy.github.io/ZeroShotDayNightDA-Webpage/.
翻訳日:2023-07-20 11:11:05 公開日:2023-07-19
# シーンテキスト認識の再考:データの視点から

Revisiting Scene Text Recognition: A Data Perspective ( http://arxiv.org/abs/2307.08723v2 )

ライセンス: Link先を確認
Qing Jiang, Jiapeng Wang, Dezhi Peng, Chongyu Liu, Lianwen Jin(参考訳) 本稿では,シーンテキスト認識(STR)をデータ指向の観点から再評価することを目的とする。 まずSTRでよく使われる6つのベンチマークを再検討し、パフォーマンス飽和の傾向を観察し、13の代表的なモデルのアンサンブルによってベンチマーク画像の2.91%しか正確に認識できない。 これらの結果は印象的であり、STRが解決される可能性が示唆されているが、これは主に共通のベンチマークの難易度が低いためであり、STRが直面している根本的な問題を隠蔽しているためである。 この目的のために,400万のラベル付き画像と1000万のラベルなし画像からなるUnion14Mという大規模な実STRデータセットを統合し,より複雑な実世界のシナリオにおけるSTRモデルの性能を評価する。 我々の実験では、13モデルは400万枚のラベル付き画像で平均66.53%の精度しか達成できないことが示されており、STRは現実世界で多くの課題に直面している。 13モデルの誤りパターンを解析することにより、STRのオープンな7つの課題を特定し、8つの異なるサブセットからなるチャレンジ駆動ベンチマークを開発し、この分野のさらなる進歩を促進する。 私たちの調査は、strが解決され、データを活用することが有望なソリューションであることを示している。 そこで本研究では,自己教師付き事前学習による1000万枚の未ラベル画像の利用により,実世界のシナリオにおけるSTRモデルのロバスト性が大きく向上し,最先端の性能が向上することを見出した。

This paper aims to re-assess scene text recognition (STR) from a data-oriented perspective. We begin by revisiting the six commonly used benchmarks in STR and observe a trend of performance saturation, whereby only 2.91% of the benchmark images cannot be accurately recognized by an ensemble of 13 representative models. While these results are impressive and suggest that STR could be considered solved, however, we argue that this is primarily due to the less challenging nature of the common benchmarks, thus concealing the underlying issues that STR faces. To this end, we consolidate a large-scale real STR dataset, namely Union14M, which comprises 4 million labeled images and 10 million unlabeled images, to assess the performance of STR models in more complex real-world scenarios. Our experiments demonstrate that the 13 models can only achieve an average accuracy of 66.53% on the 4 million labeled images, indicating that STR still faces numerous challenges in the real world. By analyzing the error patterns of the 13 models, we identify seven open challenges in STR and develop a challenge-driven benchmark consisting of eight distinct subsets to facilitate further progress in the field. Our exploration demonstrates that STR is far from being solved and leveraging data may be a promising solution. In this regard, we find that utilizing the 10 million unlabeled images through self-supervised pre-training can significantly improve the robustness of STR model in real-world scenarios and leads to state-of-the-art performance.
翻訳日:2023-07-20 11:10:43 公開日:2023-07-19
# Retentive Network: 大規模言語モデルのためのトランスフォーマーの継承者

Retentive Network: A Successor to Transformer for Large Language Models ( http://arxiv.org/abs/2307.08621v2 )

ライセンス: Link先を確認
Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei(参考訳) 本研究では,大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。 理論上は再発と注意の関係を導出する。 次に,並列,リカレント,チャンク回りリカレントという3つの計算パラダイムをサポートするシーケンスモデリングのための保持機構を提案する。 具体的には、並列表現は並列性を訓練することができる。 リカレント表現は、低コストの$O(1)$推論を可能にし、パフォーマンスを犠牲にすることなく、デコードスループット、レイテンシ、GPUメモリを改善する。 チャンクワイズ・リカレント表現は、各チャンクを並列に符号化し、チャンクを反復的に要約する、線形複雑性を伴う効率的なロングシーケンスモデリングを容易にする。 言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストデプロイメント、効率的な推論を実現している。 RetNetは大きな言語モデルのためのTransformerの強力な後継となる。 コードはhttps://aka.ms/retnet.comから入手できる。

In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance. We theoretically derive the connection between recurrence and attention. Then we propose the retention mechanism for sequence modeling, which supports three computation paradigms, i.e., parallel, recurrent, and chunkwise recurrent. Specifically, the parallel representation allows for training parallelism. The recurrent representation enables low-cost $O(1)$ inference, which improves decoding throughput, latency, and GPU memory without sacrificing performance. The chunkwise recurrent representation facilitates efficient long-sequence modeling with linear complexity, where each chunk is encoded parallelly while recurrently summarizing the chunks. Experimental results on language modeling show that RetNet achieves favorable scaling results, parallel training, low-cost deployment, and efficient inference. The intriguing properties make RetNet a strong successor to Transformer for large language models. Code will be available at https://aka.ms/retnet.
翻訳日:2023-07-20 11:10:17 公開日:2023-07-19
# M-FLAG:凍結言語モデルと潜時空間幾何最適化による医用ビジョンランゲージ事前訓練

M-FLAG: Medical Vision-Language Pre-training with Frozen Language Models and Latent Space Geometry Optimization ( http://arxiv.org/abs/2307.08347v2 )

ライセンス: Link先を確認
Che Liu, Sibo Cheng, Chen Chen, Mengyun Qiao, Weitong Zhang, Anand Shah, Wenjia Bai, Rossella Arcucci(参考訳) 医用視覚言語モデルでは、医用画像と臨床用テキストのコラーニングと統合が可能である。 しかし、これらのモデルは訓練が簡単ではなく、潜在表現空間は複雑である。 本稿では,医療ビジョン言語モデルの事前学習と正規化のための新しい手法を提案する。 提案手法は, 凍結型言語モデルとラテントspAce Geometry Optimization (M-FLAG) を用いた医用視覚言語事前訓練と呼ばれ, 凍結型言語モデルを用いて安定性と効率を訓練し, 遅延空間幾何を調和させる新しい直交損失を導入した。 医用画像分類,セグメンテーション,物体検出の3つの下流タスクにおいて,事前学習モデルの可能性を示す。 5つの公開データセットにわたる大規模な実験により、M-FLAGは既存の医療ビジョン言語による事前学習アプローチを著しく上回り、パラメータの数を78\%削減することを示した。 特に、m-flag は rsna データセットの 1\% を使いながらセグメンテーションタスクにおいて、100\% のデータを使用して微調整された imagenet の事前トレーニングモデルよりも優れた性能を達成している。

Medical vision-language models enable co-learning and integrating features from medical imaging and clinical text. However, these models are not easy to train and the latent representation space can be complex. Here we propose a novel way for pre-training and regularising medical vision-language models. The proposed method, named Medical vision-language pre-training with Frozen language models and Latent spAce Geometry optimization (M-FLAG), leverages a frozen language model for training stability and efficiency and introduces a novel orthogonality loss to harmonize the latent space geometry. We demonstrate the potential of the pre-trained model on three downstream tasks: medical image classification, segmentation, and object detection. Extensive experiments across five public datasets demonstrate that M-FLAG significantly outperforms existing medical vision-language pre-training approaches and reduces the number of parameters by 78\%. Notably, M-FLAG achieves outstanding performance on the segmentation task while using only 1\% of the RSNA dataset, even outperforming ImageNet pre-trained models that have been fine-tuned using 100\% of the data.
翻訳日:2023-07-20 11:09:59 公開日:2023-07-19
# ジオメトリ誘導クロスビュートランスによる3次元地対衛星カメラ位置推定精度の向上

Boosting 3-DoF Ground-to-Satellite Camera Localization Accuracy via Geometry-Guided Cross-View Transformer ( http://arxiv.org/abs/2307.08015v2 )

ライセンス: Link先を確認
Yujiao Shi, Fei Wu, Ankit Vora, Akhil Perincherry, and Hongdong Li(参考訳) 画像検索に基づくクロスビューローカライズ手法は、データベース衛星画像のサンプリング密度が限られているため、非常に粗いカメラポーズ推定につながることが多い。 本稿では,地上画像とマッチング・検索衛星画像との相対的な回転と変換を推定することにより,地上カメラの位置と方向の精度を向上させる手法を提案する。 本手法では,従来の形状と学習可能なクロスビュートランスを併用した形状誘導クロスビュートランスを設計,地上観測をオーバヘッドビューにマッピングする。 合成したオーバヘッドビューと観測された衛星特徴マップから,強いグローバル情報埋め込み能力を持つニューラルポーズオプティマイザを構築し,それらの相対回転を推定する。 それらの回転を整列した後、不確実性誘導された空間相関関係を開発し、相対変換を決定できる車両位置の確率マップを生成する。 実験の結果,本手法は最先端技術よりも優れていた。 特に、クロスビューkittiデータセットにおける車両横ポーズを1m以内に制限する可能性は35.54\%$から76.44\%$に改善され、そのgt値の1^{\circ}$以内に制限される可能性は19.64\%$から99.10\%$に改善された。

Image retrieval-based cross-view localization methods often lead to very coarse camera pose estimation, due to the limited sampling density of the database satellite images. In this paper, we propose a method to increase the accuracy of a ground camera's location and orientation by estimating the relative rotation and translation between the ground-level image and its matched/retrieved satellite image. Our approach designs a geometry-guided cross-view transformer that combines the benefits of conventional geometry and learnable cross-view transformers to map the ground-view observations to an overhead view. Given the synthesized overhead view and observed satellite feature maps, we construct a neural pose optimizer with strong global information embedding ability to estimate the relative rotation between them. After aligning their rotations, we develop an uncertainty-guided spatial correlation to generate a probability map of the vehicle locations, from which the relative translation can be determined. Experimental results demonstrate that our method significantly outperforms the state-of-the-art. Notably, the likelihood of restricting the vehicle lateral pose to be within 1m of its Ground Truth (GT) value on the cross-view KITTI dataset has been improved from $35.54\%$ to $76.44\%$, and the likelihood of restricting the vehicle orientation to be within $1^{\circ}$ of its GT value has been improved from $19.64\%$ to $99.10\%$.
翻訳日:2023-07-20 11:09:28 公開日:2023-07-19
# スキップ接続を伴わない顔スワップ用強化アンタングル

Reinforced Disentanglement for Face Swapping without Skip Connection ( http://arxiv.org/abs/2307.07928v2 )

ライセンス: Link先を確認
Xiaohang Ren, Xingyu Chen, Pengfei Yao, Heung-Yeung Shum, Baoyuan Wang(参考訳) SOTAのフェイススワップモデルでは、ターゲットのアイデンティティ(形状)がリークされたり、ターゲットの非アイデンティティ属性(背景、毛髪)が最終結果に完全に保存されないという問題がまだ残っている。 We show that this insufficient disentanglement is caused by two flawed designs that were commonly adopted in prior models: (1) counting on only one compressed encoder to represent both the semantic-level non-identity facial attributes(i.e., pose) and the pixel-level non-facial region details, which is contradictory to satisfy at the same time; (2) highly relying on long skip-connections between the encoder and the final generator, leaking a certain amount of target face identity into the result. そこで我々は,2つのターゲットエンコーダを用いて,顔領域の画素レベルの非顔領域属性と意味的非顔領域属性をそれぞれキャプチャする「WSCスワップ」という新しい顔スワップフレームワークを提案する。 対象エンコーダの絡み合い学習をさらに強化するために,逆訓練(gan)によるid消去損失と,[11]のような先行3dmmモデルによる非id化保存損失の両方を用いる。 faceforensics++ と celeba-hq の両方の広範な実験により、我々の結果は、以前完全に無視されたアイデンティティ一貫性を測定するための新しいメトリックを含む、リッチなメトリクスセットの以前の成果を大きく上回っていることが分かりました。

The SOTA face swap models still suffer the problem of either target identity (i.e., shape) being leaked or the target non-identity attributes (i.e., background, hair) failing to be fully preserved in the final results. We show that this insufficient disentanglement is caused by two flawed designs that were commonly adopted in prior models: (1) counting on only one compressed encoder to represent both the semantic-level non-identity facial attributes(i.e., pose) and the pixel-level non-facial region details, which is contradictory to satisfy at the same time; (2) highly relying on long skip-connections between the encoder and the final generator, leaking a certain amount of target face identity into the result. To fix them, we introduce a new face swap framework called 'WSC-swap' that gets rid of skip connections and uses two target encoders to respectively capture the pixel-level non-facial region attributes and the semantic non-identity attributes in the face region. To further reinforce the disentanglement learning for the target encoder, we employ both identity removal loss via adversarial training (i.e., GAN) and the non-identity preservation loss via prior 3DMM models like [11]. Extensive experiments on both FaceForensics++ and CelebA-HQ show that our results significantly outperform previous works on a rich set of metrics, including one novel metric for measuring identity consistency that was completely neglected before.
翻訳日:2023-07-20 11:08:37 公開日:2023-07-19
# なぜ小さなロバストさが役に立つのか? 代理訓練による対向移動可能性の理解

Why Does Little Robustness Help? Understanding Adversarial Transferability From Surrogate Training ( http://arxiv.org/abs/2307.07873v2 )

ライセンス: Link先を確認
Yechao Zhang, Shengshan Hu, Leo Yu Zhang, Junyu Shi, Minghui Li, Xiaogeng Liu, Wei Wan, Hai Jin(参考訳) DNNの逆例(AE)は転送可能であることが示されている: ホワイトボックスサロゲートモデルをうまく騙すAEは、異なるアーキテクチャで他のブラックボックスモデルを騙すこともできる。 多くの実験的な研究は、高度に伝達可能なAEを生成するためのガイダンスを提供してきたが、これらの発見の多くは説明に欠け、矛盾するアドバイスに至る。 本稿では,敵対的伝達可能性の理解に向けてさらなる一歩を踏み出し,サロゲート的な側面に焦点をあてる。 弱い摂動サンプルで逆向きに訓練されたモデルがより良い代理となるという、興味深い小さな堅牢性現象から始まり、モデルの滑らかさと勾配類似性という2つの主要な要因のトレードオフが原因と考えられる。 研究は, 移動可能性との相関性ではなく, 共同効果に焦点をあてた。 一連の理論的および経験的分析を通して、逆行訓練におけるデータ分布シフトが勾配類似性の低下を説明すると推測する。 これらの知見に基づいて,データ拡張と勾配正規化が伝達可能性に与える影響を考察し,そのトレードオフが様々なトレーニングメカニズムに一般的に存在していることを確認する。 最後に,入力勾配正則化とシャープネス認識最小化(sam)の組み合わせなど,モデルの滑らかさと勾配の類似性を同時に最適化するトランスファー性を高めるために,より優れたサロゲートを構築するための一般的な経路を提案する。 要約すると、我々は、一方を無視しながら一方を最適化するのではなく、他方を効果的に移動攻撃する2つの要因の統一的な影響に注意を向け、代理モデルを操作する重要な役割を強調している。

Adversarial examples (AEs) for DNNs have been shown to be transferable: AEs that successfully fool white-box surrogate models can also deceive other black-box models with different architectures. Although a bunch of empirical studies have provided guidance on generating highly transferable AEs, many of these findings lack explanations and even lead to inconsistent advice. In this paper, we take a further step towards understanding adversarial transferability, with a particular focus on surrogate aspects. Starting from the intriguing little robustness phenomenon, where models adversarially trained with mildly perturbed adversarial samples can serve as better surrogates, we attribute it to a trade-off between two predominant factors: model smoothness and gradient similarity. Our investigations focus on their joint effects, rather than their separate correlations with transferability. Through a series of theoretical and empirical analyses, we conjecture that the data distribution shift in adversarial training explains the degradation of gradient similarity. Building on these insights, we explore the impacts of data augmentation and gradient regularization on transferability and identify that the trade-off generally exists in the various training mechanisms, thus building a comprehensive blueprint for the regulation mechanism behind transferability. Finally, we provide a general route for constructing better surrogates to boost transferability which optimizes both model smoothness and gradient similarity simultaneously, e.g., the combination of input gradient regularization and sharpness-aware minimization (SAM), validated by extensive experiments. In summary, we call for attention to the united impacts of these two factors for launching effective transfer attacks, rather than optimizing one while ignoring the other, and emphasize the crucial role of manipulating surrogate models.
翻訳日:2023-07-20 11:08:09 公開日:2023-07-19
# 物理的世界におけるクロスモーダル攻撃に対する統一逆境パッチ

Unified Adversarial Patch for Cross-modal Attacks in the Physical World ( http://arxiv.org/abs/2307.07859v2 )

ライセンス: Link先を確認
Xingxing Wei, Yao Huang, Yitong Sun, Jie Yu(参考訳) 近年,DNNをベースとした物体検出装置の物理的攻撃が報告されている。 セキュリティを確保するために、多くのシナリオが目に見えるセンサーと赤外線センサーで同時に展開されるため、これらのシングルモーダルな物理的攻撃の失敗に繋がる。 このような状況下での潜在的なリスクを示すため、単一パッチで同時に可視・赤外線物体検出装置を騙すような、異種間物理的な攻撃を行うための統合逆襲パッチを提案する。 可視・赤外線センサーの異なる撮像機構を考えると、本研究は、変化時に異なるモードで捉えられる敵パッチの形状をモデル化することに焦点を当てている。 そこで我々は, コンパクトで滑らかな形状を実現するために, 境界限定形状最適化を新たに設計し, 物理的世界で容易に実装できる。 さらに、最適化過程における可視検出器と赤外線検出器の不正度をバランスさせるため、複数モードセンサの予測スコアを反復的に減少させるために、対向パッチを誘導するスコア認識反復評価法を提案する。 我々はついに、この手法を1段検出器YOLOv3と2段検出器Faster RCNNに対してテストした。 その結果,アタック成功率 (asr) は73.33%,アタック成功率は69.17%であった。 さらに重要なことは、視界と赤外線センサーがさまざまな角度、距離、姿勢、シーンで物体を撃ったとき、物理的な世界の効果的な攻撃を検証することである。

Recently, physical adversarial attacks have been presented to evade DNNs-based object detectors. To ensure the security, many scenarios are simultaneously deployed with visible sensors and infrared sensors, leading to the failures of these single-modal physical attacks. To show the potential risks under such scenes, we propose a unified adversarial patch to perform cross-modal physical attacks, i.e., fooling visible and infrared object detectors at the same time via a single patch. Considering different imaging mechanisms of visible and infrared sensors, our work focuses on modeling the shapes of adversarial patches, which can be captured in different modalities when they change. To this end, we design a novel boundary-limited shape optimization to achieve the compact and smooth shapes, and thus they can be easily implemented in the physical world. In addition, to balance the fooling degree between visible detector and infrared detector during the optimization process, we propose a score-aware iterative evaluation, which can guide the adversarial patch to iteratively reduce the predicted scores of the multi-modal sensors. We finally test our method against the one-stage detector: YOLOv3 and the two-stage detector: Faster RCNN. Results show that our unified patch achieves an Attack Success Rate (ASR) of 73.33% and 69.17%, respectively. More importantly, we verify the effective attacks in the physical world when visible and infrared sensors shoot the objects under various settings like different angles, distances, postures, and scenes.
翻訳日:2023-07-20 11:07:38 公開日:2023-07-19
# TinyTracker: 視線推定のための超高速かつ超低消費電力エッジビジョンインセンサー

TinyTracker: Ultra-Fast and Ultra-Low-Power Edge Vision In-Sensor for Gaze Estimation ( http://arxiv.org/abs/2307.07813v3 )

ライセンス: Link先を確認
Pietro Bonazzi, Thomas Ruegg, Sizhen Bian, Yawei Li, Michele Magno(参考訳) インテリジェントエッジビジョンタスクは、エッジプラットフォームに課される計算負荷が通常重いため、電力とレイテンシの効率を確保するという重要な課題に直面する。この作業は、Sonyによる最初の"センサー内のAI"ビジョンプラットフォームであるIMX500を活用して、超高速で超低消費電力のエッジビジョンアプリケーションを実現する。 imx500を評価し、google coral dev microやsony spresenseといった他のエッジプラットフォームと比較し、視線の推定をケーススタディとして検討した。 本研究では,エッジビジョンシステムの性能を最大化するために設計された2次元視線推定のための高効率,完全量子化モデルであるtinytrackerを提案する。 tinytracker は itracker [1] と比較して41倍のサイズ削減 (600kb) を達成し、視線推定精度(全量子化時最大 0.16 cm)を損なうことはない。 TinyTrackerのSony IMX500ビジョンセンサーへの展開により、エンドツーエンドのレイテンシは約19ミリ秒になる。 カメラは17.9ミリ秒で読み出し、処理し、加速器に送信する。 ネットワークの推論時間は 0.86ms で、センサから結果を取得するのに 0.24 ms を追加する。 エンド・ツー・エンドのシステム全体のエネルギー消費は4.9 mJであり、推論は0.06 mJである。 エンドツーエンドの調査では、IMX500はCoralMicro(19ms vs 34.4ms)より1.7倍高速で、電力効率は7倍(4.9mJ VS 34.2mJ)である。

Intelligent edge vision tasks encounter the critical challenge of ensuring power and latency efficiency due to the typically heavy computational load they impose on edge platforms.This work leverages one of the first "AI in sensor" vision platforms, IMX500 by Sony, to achieve ultra-fast and ultra-low-power end-to-end edge vision applications. We evaluate the IMX500 and compare it to other edge platforms, such as the Google Coral Dev Micro and Sony Spresense, by exploring gaze estimation as a case study. We propose TinyTracker, a highly efficient, fully quantized model for 2D gaze estimation designed to maximize the performance of the edge vision systems considered in this study. TinyTracker achieves a 41x size reduction (600Kb) compared to iTracker [1] without significant loss in gaze estimation accuracy (maximum of 0.16 cm when fully quantized). TinyTracker's deployment on the Sony IMX500 vision sensor results in end-to-end latency of around 19ms. The camera takes around 17.9ms to read, process and transmit the pixels to the accelerator. The inference time of the network is 0.86ms with an additional 0.24 ms for retrieving the results from the sensor. The overall energy consumption of the end-to-end system is 4.9 mJ, including 0.06 mJ for inference. The end-to-end study shows that IMX500 is 1.7x faster than CoralMicro (19ms vs 34.4ms) and 7x more power efficient (4.9mJ VS 34.2mJ)
翻訳日:2023-07-20 11:07:12 公開日:2023-07-19
# 回路解析は解釈可能性尺度か? チンチラにおける複数選択能力の証拠

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla ( http://arxiv.org/abs/2307.09458v2 )

ライセンス: Link先を確認
Tom Lieberum, Matthew Rahtz, J\'anos Kram\'ar, Neel Nanda, Geoffrey Irving, Rohin Shah, Vladimir Mikulik(参考訳) \emph{Circuit analysis} は言語モデルの内部メカニズムを理解するための有望な手法である。 しかし、既存の分析は芸術の状況から遠く離れた小さなモデルで行われている。 そこで本研究では,70Bチンチラモデルにおける回路解析のケーススタディを提案し,回路解析のスケーラビリティを検証した。 特に,複数選択質問応答について検討し,正解 \emph{label} の知識を与えられた正解 \emph{text} を特定するチンチラの能力について検討する。 従来のロジット属性,アテンションパターンの可視化,アクティベーションパッチといった手法は,自然にチンチラにスケールし,少数の'アウトプットノード'(アテンションヘッドとMPP)を識別・分類できることがわかった。 さらに,特徴のセマンティクスを理解することを目的とした注意ヘッドの「正しい文字」カテゴリーについて,混合結果を用いて検討する。 通常の複数項目問合せでは,複数項目問合せに対する回答ラベルを操作した場合,頭部の問合せ,キー,値のサブスペースは性能を損なうことなく著しく圧縮し,問合せとキーのサブスペースが少なくともある程度の「列挙」機能において「n番目の項目」を表すことを示す。 しかし、この説明を用いて、ランダム化された回答ラベルを含むより一般的な分布における頭部の振る舞いを理解すると、それは部分的な説明にすぎないことが分かり、複数の選択質問応答における「正しい手紙」ヘッドの操作について学ぶべきことが増えることを示唆する。

\emph{Circuit analysis} is a promising technique for understanding the internal mechanisms of language models. However, existing analyses are done in small models far from the state of the art. To address this, we present a case study of circuit analysis in the 70B Chinchilla model, aiming to test the scalability of circuit analysis. In particular, we study multiple-choice question answering, and investigate Chinchilla's capability to identify the correct answer \emph{label} given knowledge of the correct answer \emph{text}. We find that the existing techniques of logit attribution, attention pattern visualization, and activation patching naturally scale to Chinchilla, allowing us to identify and categorize a small set of `output nodes' (attention heads and MLPs). We further study the `correct letter' category of attention heads aiming to understand the semantics of their features, with mixed results. For normal multiple-choice question answers, we significantly compress the query, key and value subspaces of the head without loss of performance when operating on the answer labels for multiple-choice questions, and we show that the query and key subspaces represent an `Nth item in an enumeration' feature to at least some extent. However, when we attempt to use this explanation to understand the heads' behaviour on a more general distribution including randomized answer labels, we find that it is only a partial explanation, suggesting there is more to learn about the operation of `correct letter' heads on multiple choice question answering.
翻訳日:2023-07-20 10:59:24 公開日:2023-07-19
# SRGANモデルの比較解析

A comparative analysis of SRGAN models ( http://arxiv.org/abs/2307.09456v2 )

ライセンス: Link先を確認
Fatemeh Rezapoor Nikroo, Ajinkya Deshmukh, Anantha Sharma, Adrian Tam, Kaarthik Kumar, Cleo Norris, Aditya Dangi(参考訳) 本研究では,パイプラインを用いて劣化する実画像のベンチマークデータセットを用いて,複数の最先端SRGAN(Super Resolution Generative Adversarial Network, ESRGAN, Real-ESRGAN, EDSR)モデルの性能を評価する。 その結果,視覚品質を維持しつつ入力画像の解像度を著しく向上させるモデルがみられ,tesseract ocrエンジンを用いて評価した。 EDSR-BASEモデルは,最小の計算オーバーヘッドを伴って,定量的指標と主観的視覚的品質評価の両方の観点から,残りの候補モデルよりも優れている。 具体的には、EDSRは、高いピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)の画像を生成し、Tesseract OCRエンジンで高品質なOCR結果を返す。 これらの結果から,EDSRは単一画像の超解像に対する堅牢かつ効果的なアプローチであり,高品質な視覚的忠実度が重要かつ最適化された計算手法に特に適している可能性が示唆された。

In this study, we evaluate the performance of multiple state-of-the-art SRGAN (Super Resolution Generative Adversarial Network) models, ESRGAN, Real-ESRGAN and EDSR, on a benchmark dataset of real-world images which undergo degradation using a pipeline. Our results show that some models seem to significantly increase the resolution of the input images while preserving their visual quality, this is assessed using Tesseract OCR engine. We observe that EDSR-BASE model from huggingface outperforms the remaining candidate models in terms of both quantitative metrics and subjective visual quality assessments with least compute overhead. Specifically, EDSR generates images with higher peak signal-to-noise ratio (PSNR) and structural similarity index (SSIM) values and are seen to return high quality OCR results with Tesseract OCR engine. These findings suggest that EDSR is a robust and effective approach for single-image super-resolution and may be particularly well-suited for applications where high-quality visual fidelity is critical and optimized compute.
翻訳日:2023-07-20 10:58:55 公開日:2023-07-19
# 予習変圧器を用いた外分布検出のための擬似外乱露光

Pseudo Outlier Exposure for Out-of-Distribution Detection using Pretrained Transformers ( http://arxiv.org/abs/2307.09455v2 )

ライセンス: Link先を確認
Jaeyoung Kim, Kyuheon Jung, Dongbin Na, Sion Jang, Eunbin Park, Sungchul Choi(参考訳) 現実世界の言語アプリケーションでは、out-of-distribution(ood)サンプルの検出は、ユーザに警告したり、そのような信頼できないサンプルを拒否するのに役立つ。 しかし、現代の過剰パラメータ言語モデルは、しばしば、in-distribution (id) と ood のサンプルの両方に対して自信過剰な予測を生成する。 特に、言語モデルは、これらのOODサンプルがID多様体の近くにあるため、IDサンプルに類似した意味表現を持つOODサンプルに悩まされる。 テストOODサンプルを検出するために、IDと多様な外れ値サンプルでリジェクションネットワークをトレーニングすることができるが、補助的なOODデータセットを明示的に収集することは、データ収集にさらなる負担をもたらす。 本稿では,idクラスに関連するトークンを順次マスキングすることにより,サブロゲートなoodデータセットを構築するための,簡易かつ効果的な手法であるpseudo outlier exposure (poe)を提案する。 POE が導入したシュロゲート OOD サンプルは ID データに類似した表現を示しており,拒否ネットワークのトレーニングに最も有効である。 本手法は外部OODデータを一切必要とせず,既製のトランスフォーマーで容易に実装できる。 最先端アルゴリズムとの包括的な比較は、いくつかのテキスト分類ベンチマークにおけるPOEの競争力を示している。

For real-world language applications, detecting an out-of-distribution (OOD) sample is helpful to alert users or reject such unreliable samples. However, modern over-parameterized language models often produce overconfident predictions for both in-distribution (ID) and OOD samples. In particular, language models suffer from OOD samples with a similar semantic representation to ID samples since these OOD samples lie near the ID manifold. A rejection network can be trained with ID and diverse outlier samples to detect test OOD samples, but explicitly collecting auxiliary OOD datasets brings an additional burden for data collection. In this paper, we propose a simple but effective method called Pseudo Outlier Exposure (POE) that constructs a surrogate OOD dataset by sequentially masking tokens related to ID classes. The surrogate OOD sample introduced by POE shows a similar representation to ID data, which is most effective in training a rejection network. Our method does not require any external OOD data and can be easily implemented within off-the-shelf Transformers. A comprehensive comparison with state-of-the-art algorithms demonstrates POE's competitiveness on several text classification benchmarks.
翻訳日:2023-07-20 10:58:30 公開日:2023-07-19
# バイス! 画像生成評価における人間の認知行動の模倣

Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation ( http://arxiv.org/abs/2307.09416v2 )

ライセンス: Link先を確認
Federico Betti, Jacopo Staiano, Lorenzo Baraldi, Lorenzo Baraldi, Rita Cucchiara, Nicu Sebe(参考訳) 画像生成の研究は、特にテキスト入力に基づいて高品質な視覚コンテンツを生成できるビジョンランゲージモデルの導入により、近年大きな進歩を遂げている。 世代品質とリアリズムの進歩にもかかわらず、生成したコンテンツの品質と要求の順守を定量的に測定する方法論的な枠組みはまだ定義されておらず、今のところ、品質満足度と異なる生成方法の比較のために人間による評価のみが採用されている。 本稿では,人間の認知行動に触発されたプロセスを用いて,生成/編集画像と対応するプロンプト/インストラクションとの一貫性を評価する新しい視覚概念評価手法(vice)を提案する。 ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。 本手法は,視覚概念を概説し,画像固有の検証質問を定式化し,Q&Aシステムを用いて画像を調査し,組み合わせた結果を評価する。 画像評価過程における人間を模倣するこの勇敢な新たな仮説は、その予備評価段階にあるが、画像生成や画像ターゲット編集タスクがますます洗練されていくにつれ、大きな影響を与える可能性のある新しい形式の自動評価への道を開くことができる。

Research in Image Generation has recently made significant progress, particularly boosted by the introduction of Vision-Language models which are able to produce high-quality visual content based on textual inputs. Despite ongoing advancements in terms of generation quality and realism, no methodical frameworks have been defined yet to quantitatively measure the quality of the generated content and the adherence with the prompted requests: so far, only human-based evaluations have been adopted for quality satisfaction and for comparing different generative methods. We introduce a novel automated method for Visual Concept Evaluation (ViCE), i.e. to assess consistency between a generated/edited image and the corresponding prompt/instructions, with a process inspired by the human cognitive behaviour. ViCE combines the strengths of Large Language Models (LLMs) and Visual Question Answering (VQA) into a unified pipeline, aiming to replicate the human cognitive process in quality assessment. This method outlines visual concepts, formulates image-specific verification questions, utilizes the Q&A system to investigate the image, and scores the combined outcome. Although this brave new hypothesis of mimicking humans in the image evaluation process is in its preliminary assessment stage, results are promising and open the door to a new form of automatic evaluation which could have significant impact as the image generation or the image target editing tasks become more and more sophisticated.
翻訳日:2023-07-20 10:58:12 公開日:2023-07-19
# ディスタングル(disentangle then Parse:Night-time Semantic Segmentation with Illumination Disentanglement)

Disentangle then Parse:Night-time Semantic Segmentation with Illumination Disentanglement ( http://arxiv.org/abs/2307.09362v2 )

ライセンス: Link先を確認
Zhixiang Wei, Lin Chen, Tao Tu, Huaian Chen, Pengyang Ling, Yi Jin(参考訳) 従来のセマンティックセグメンテーション手法は昼間の場面で開発されているが、夜間のシーンでは照明条件が不十分で複雑な場合が多い。 本研究では,この課題に対処するために,新しい夜間セマンティックセマンティックセマンティクスパラダイム,すなわちディスアンタングル(disentangle then parse,DTP)を提案する。 DTPは、夜間画像を光不変反射率と光特異的照明成分に明示的に分離し、適応融合に基づいて意味を認識する。 具体的には,提案するdtpは2つのキーコンポーネントからなる。 1) 従来の作業のように光の絡み合う特徴を処理する代わりに,我々のセマンティック・オリエント・ディスタングルメント(SOD)フレームワークは,反射成分の抽出を照明の影響を受けずに可能としており,ネットワークは様々な複雑な照明条件をカバーしたセマンティクスを一貫して認識することができる。 2)照明成分がいくつかの意味的に混乱した領域の手がかりとなりうるという観測に基づいて、さらに、意味論と照明の相関を明示的に学習する照明認識解析器(iaparser)を導入し、照明特徴を集約し、より正確な予測を行う。 夜間セグメンテーションタスクにおける多種多様な設定による大規模な実験により、DTPは最先端の手法を著しく上回っていることが示された。 さらに、追加パラメータが無視できるため、dtpは夜間セグメンテーションの既存の昼間メソッドの恩恵を受けるために直接使用できる。

Most prior semantic segmentation methods have been developed for day-time scenes, while typically underperforming in night-time scenes due to insufficient and complicated lighting conditions. In this work, we tackle this challenge by proposing a novel night-time semantic segmentation paradigm, i.e., disentangle then parse (DTP). DTP explicitly disentangles night-time images into light-invariant reflectance and light-specific illumination components and then recognizes semantics based on their adaptive fusion. Concretely, the proposed DTP comprises two key components: 1) Instead of processing lighting-entangled features as in prior works, our Semantic-Oriented Disentanglement (SOD) framework enables the extraction of reflectance component without being impeded by lighting, allowing the network to consistently recognize the semantics under cover of varying and complicated lighting conditions. 2) Based on the observation that the illumination component can serve as a cue for some semantically confused regions, we further introduce an Illumination-Aware Parser (IAParser) to explicitly learn the correlation between semantics and lighting, and aggregate the illumination features to yield more precise predictions. Extensive experiments on the night-time segmentation task with various settings demonstrate that DTP significantly outperforms state-of-the-art methods. Furthermore, with negligible additional parameters, DTP can be directly used to benefit existing day-time methods for night-time segmentation.
翻訳日:2023-07-20 10:57:49 公開日:2023-07-19
# Llama 2: オープンファウンデーションとファインチューニングされたチャットモデル

Llama 2: Open Foundation and Fine-Tuned Chat Models ( http://arxiv.org/abs/2307.09288v2 )

ライセンス: Link先を確認
Hugo Touvron and Louis Martin and Kevin Stone and Peter Albert and Amjad Almahairi and Yasmine Babaei and Nikolay Bashlykov and Soumya Batra and Prajjwal Bhargava and Shruti Bhosale and Dan Bikel and Lukas Blecher and Cristian Canton Ferrer and Moya Chen and Guillem Cucurull and David Esiobu and Jude Fernandes and Jeremy Fu and Wenyin Fu and Brian Fuller and Cynthia Gao and Vedanuj Goswami and Naman Goyal and Anthony Hartshorn and Saghar Hosseini and Rui Hou and Hakan Inan and Marcin Kardas and Viktor Kerkez and Madian Khabsa and Isabel Kloumann and Artem Korenev and Punit Singh Koura and Marie-Anne Lachaux and Thibaut Lavril and Jenya Lee and Diana Liskovich and Yinghai Lu and Yuning Mao and Xavier Martinet and Todor Mihaylov and Pushkar Mishra and Igor Molybog and Yixin Nie and Andrew Poulton and Jeremy Reizenstein and Rashi Rungta and Kalyan Saladi and Alan Schelten and Ruan Silva and Eric Michael Smith and Ranjan Subramanian and Xiaoqing Ellen Tan and Binh Tang and Ross Taylor and Adina Williams and Jian Xiang Kuan and Puxin Xu and Zheng Yan and Iliyan Zarov and Yuchen Zhang and Angela Fan and Melanie Kambadur and Sharan Narang and Aurelien Rodriguez and Robert Stojnic and Sergey Edunov and Thomas Scialom(参考訳) 本研究では,70億から70億のパラメータを対象とした事前学習および微調整された大規模言語モデル(llm)のコレクションであるllama 2を開発し,リリースする。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。 私たちのモデルは、テストしたほとんどのベンチマークにおいて、オープンソースのチャットモデルよりも優れています。 我々は,llama 2-chatの微調整と安全性の向上に関する我々のアプローチを詳細に説明し,コミュニティによる作業の構築とllmの責任ある開発への貢献を可能にする。

In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs) ranging in scale from 7 billion to 70 billion parameters. Our fine-tuned LLMs, called Llama 2-Chat, are optimized for dialogue use cases. Our models outperform open-source chat models on most benchmarks we tested, and based on our human evaluations for helpfulness and safety, may be a suitable substitute for closed-source models. We provide a detailed description of our approach to fine-tuning and safety improvements of Llama 2-Chat in order to enable the community to build on our work and contribute to the responsible development of LLMs.
翻訳日:2023-07-20 10:57:19 公開日:2023-07-19
# 二項分類のための分類エンコーダのベンチマーク

A benchmark of categorical encoders for binary classification ( http://arxiv.org/abs/2307.09191v2 )

ライセンス: Link先を確認
Federico Matteucci, Vadim Arzamasov, Klemens Boehm(参考訳) 分類エンコーダは、幅広い機械学習モデルに欠かせない分類的特徴を数値表現に変換する。 既存のエンコーダベンチマークでは,(1)エンコーダ,(2)実験因子,(3)データセットの選択が限定されているため,一般化性に欠ける。 さらに、さまざまな集約戦略を採用することで矛盾が生じる。 本論文は,これまで最も包括的なカテゴリエンコーダのベンチマークであり,多種多様な家族のエンコーダ構成32種,実験因子36種,データセット50種について広範な評価を行った。 この研究では、データセットの選択、実験的な要因、集約戦略がベンチマークの結論に深く影響していることが示されている。

Categorical encoders transform categorical features into numerical representations that are indispensable for a wide range of machine learning models. Existing encoder benchmark studies lack generalizability because of their limited choice of (1) encoders, (2) experimental factors, and (3) datasets. Additionally, inconsistencies arise from the adoption of varying aggregation strategies. This paper is the most comprehensive benchmark of categorical encoders to date, including an extensive evaluation of 32 configurations of encoders from diverse families, with 36 combinations of experimental factors, and on 50 datasets. The study shows the profound influence of dataset selection, experimental factors, and aggregation strategies on the benchmark's conclusions -- aspects disregarded in previous encoder benchmarks.
翻訳日:2023-07-20 10:57:07 公開日:2023-07-19
# OPHAvatars:ワンショット写真リアリスティックヘッドアバター

OPHAvatars: One-shot Photo-realistic Head Avatars ( http://arxiv.org/abs/2307.09153v2 )

ライセンス: Link先を確認
Shaoxu Li(参考訳) そこで本研究では,写真に写実的なデジタルアバターを1つのポートレートから合成する方法を提案する。 ポートレートが与えられた場合、駆動キーポイント機能を用いて粗い音声ヘッドビデオを合成する。 そして, この粗い映像を用いて, 粗い発話頭部アバターと, 変形する神経放射野を合成する。 粗いアバターのレンダリング画像を用いて,低品質の画像をブラインド顔復元モデルで更新する。 画像の更新により,高画質でアバターを再訓練する。 複数回繰り返して、この手法はフォトリアリスティックな3dニューラルヘッドアバターを合成することができる。 本手法のモチベーションは,image2video法によって引き起こされる不自然な歪みを除去できる,変形可能な神経放射場である。 本手法は, 各種被験者の定量的, 定性的な研究において, 最先端の手法よりも優れる。

We propose a method for synthesizing photo-realistic digital avatars from only one portrait as the reference. Given a portrait, our method synthesizes a coarse talking head video using driving keypoints features. And with the coarse video, our method synthesizes a coarse talking head avatar with a deforming neural radiance field. With rendered images of the coarse avatar, our method updates the low-quality images with a blind face restoration model. With updated images, we retrain the avatar for higher quality. After several iterations, our method can synthesize a photo-realistic animatable 3D neural head avatar. The motivation of our method is deformable neural radiance field can eliminate the unnatural distortion caused by the image2video method. Our method outperforms state-of-the-art methods in quantitative and qualitative studies on various subjects.
翻訳日:2023-07-20 10:56:55 公開日:2023-07-19
# LA-Net:ラベル雑音下での表情認識のためのランドマーク認識学習

LA-Net: Landmark-Aware Learning for Reliable Facial Expression Recognition under Label Noise ( http://arxiv.org/abs/2307.09023v2 )

ライセンス: Link先を確認
Zhiyu Wu, Jinshi Cui(参考訳) 表情認識(FER)は、表現のあいまいさのため難しい課題である。 派生したノイズラベルは、実世界のシナリオのパフォーマンスを著しく損なう。 この問題に対処するため,我々は2つの視点からラベルノイズの影響を軽減するために顔のランドマークを利用した新しいferモデルであるlandmark-aware net~(la-net)を提案する。 まず、LA-Netは、表現空間の不確実性を抑えるためにランドマーク情報を使用し、各サンプルのラベル分布を近傍集約により構築し、訓練監督の質を向上させる。 第二に、設計した表現ランドマークの対照的な損失を用いて、ランドマーク情報を表現表現に組み込む。 強調表現特徴抽出器はラベルノイズの影響を受けにくい。 本手法は,任意の深層ニューラルネットワークと統合することで,余分な推論コストを発生させることなく,よりよい指導を行うことができる。 我々は,組込みデータセットと合成ノイズデータセットの両方について広範な実験を行い,LA-Netが最先端の性能を達成することを示す。

Facial expression recognition (FER) remains a challenging task due to the ambiguity of expressions. The derived noisy labels significantly harm the performance in real-world scenarios. To address this issue, we present a new FER model named Landmark-Aware Net~(LA-Net), which leverages facial landmarks to mitigate the impact of label noise from two perspectives. Firstly, LA-Net uses landmark information to suppress the uncertainty in expression space and constructs the label distribution of each sample by neighborhood aggregation, which in turn improves the quality of training supervision. Secondly, the model incorporates landmark information into expression representations using the devised expression-landmark contrastive loss. The enhanced expression feature extractor can be less susceptible to label noise. Our method can be integrated with any deep neural network for better training supervision without introducing extra inference costs. We conduct extensive experiments on both in-the-wild datasets and synthetic noisy datasets and demonstrate that LA-Net achieves state-of-the-art performance.
翻訳日:2023-07-20 10:56:45 公開日:2023-07-19
# 自己指導型学習における投影ヘッドのスパース性に向けて

Towards the Sparseness of Projection Head in Self-Supervised Learning ( http://arxiv.org/abs/2307.08913v2 )

ライセンス: Link先を確認
Zeen Song, Xingzhe Su, Jingyao Wang, Wenwen Qiang, Changwen Zheng, Fuchun Sun(参考訳) 近年,ラベルのないデータから価値ある表現を抽出する手段として,自己教師あり学習(SSL)が登場している。 SSLメソッドの成功の1つは、ネガティブな例を分割しながら、ポジティブな例をより近づけることを目的とした、対照的な学習である。 現在のコントラスト学習手法の多くは、パラメータ化された投影ヘッドを用いる。 実験分析と理論的研究を組み合わせることで,投影ヘッドの内部機構と次元崩壊現象との関係について考察する。 その結果,投影ヘッドは投影された部分空間においてコントラスト損失を発生させることにより表現の質を高めることが示された。 そこで本稿では,ミニバッチのコントラスト損失を最小化する場合には,特徴のサブセットのみが必要であるという仮定を提案する。 SparseHeadはプロジェクションヘッドの空間性を効果的に制限し、自己教師付き学習(SSL)アプローチとシームレスに統合できる正規化用語である。 実験の結果,sparseheadの有効性が検証され,既存のコントラスト法の性能向上効果が示された。

In recent years, self-supervised learning (SSL) has emerged as a promising approach for extracting valuable representations from unlabeled data. One successful SSL method is contrastive learning, which aims to bring positive examples closer while pushing negative examples apart. Many current contrastive learning approaches utilize a parameterized projection head. Through a combination of empirical analysis and theoretical investigation, we provide insights into the internal mechanisms of the projection head and its relationship with the phenomenon of dimensional collapse. Our findings demonstrate that the projection head enhances the quality of representations by performing contrastive loss in a projected subspace. Therefore, we propose an assumption that only a subset of features is necessary when minimizing the contrastive loss of a mini-batch of data. Theoretical analysis further suggests that a sparse projection head can enhance generalization, leading us to introduce SparseHead - a regularization term that effectively constrains the sparsity of the projection head, and can be seamlessly integrated with any self-supervised learning (SSL) approaches. Our experimental results validate the effectiveness of SparseHead, demonstrating its ability to improve the performance of existing contrastive methods.
翻訳日:2023-07-20 10:56:28 公開日:2023-07-19