このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230605となっている論文です。

PDF登録状況(公開日: 20230605)

TitleAuthorsAbstract論文公表日・翻訳日
# 開発者視点によるAIの倫理 : 基礎理論文献レビュー

Ethics in AI through the Developer's View: A Grounded Theory Literature Review ( http://arxiv.org/abs/2206.09514v2 )

ライセンス: Link先を確認
Aastha Pant, Rashina Hoda, Chakkrit Tantithamthavorn, Burak Turhan(参考訳) 倫理という用語は人工知能(AI)ベースのソフトウェアシステムの開発において広く使われ、探求され、議論されている。 近年、AI開発における倫理的問題のプロファイルが高まり、私たちの日常生活におけるAI技術の普及に対する世間の懸念が高まっている。 しかし、これらのシステムを開発した人々の見解と経験について、私たちは何を知っているだろうか? 我々は、AI開発者のAI倫理に関する見解を含む38の主要な実証研究の根拠付き理論文献レビュー(GTLR)を行い、開発者意識、認識、ニーズ、挑戦、アプローチの5つのカテゴリを導き出した。 これらは、包含された研究の証拠とともに説明する複数のコードや概念によって支えられている。 我々は、AIの倫理の異なる側面を特定し理解する上で、AI開発者を支援するために、開発者の視点からAIにおける倫理の分類を提示する。 分類学は、AIにおける倫理に関して、AI開発者が関心を持つ重要な側面のランドスケープビューを提供する。 私たちはまた、AIにおける倫理をよりよく検討し実装するための取り組みを支援するために、開発者、マネージャ、組織のための将来の研究研究とレコメンデーションの議題を共有しています。

The term ethics is widely used, explored, and debated in the context of developing Artificial Intelligence (AI) based software systems. In recent years, numerous incidents have raised the profile of ethical issues in AI development and led to public concerns about the proliferation of AI technology in our everyday lives. But what do we know about the views and experiences of those who develop these systems: the AI developers? We conducted a grounded theory literature review (GTLR) of 38 primary empirical studies that included AI developers' views on ethics in AI and analysed them to derive five categories - developer awareness, perception, need, challenge, and approach. These are underpinned by multiple codes and concepts that we explain with evidence from the included studies. We present a taxonomy of ethics in AI from developers' viewpoints to assist AI developers in identifying and understanding the different aspects of AI ethics. The taxonomy provides a landscape view of the key aspects that concern AI developers when it comes to ethics in AI. We also share an agenda for future research studies and recommendations for developers, managers, and organisations to help in their efforts to better consider and implement ethics in AI.
翻訳日:2023-10-24 15:27:41 公開日:2023-06-05
# LmPa:大規模言語モデルとプログラム解析の相乗効果によるデコンパイルの改善

LmPa: Improving Decompilation by Synergy of Large Language Model and Program Analysis ( http://arxiv.org/abs/2306.02546v1 )

ライセンス: Link先を確認
Xiangzhe Xu, Zhuo Zhang, Shiwei Feng, Yapeng Ye, Zian Su, Nan Jiang, Siyuan Cheng, Lin Tan, Xiangyu Zhang(参考訳) Decompilationはバイナリ実行ファイルのソースコード形式を復元することを目的としている。 マルウェア分析、脆弱性検出、コードの再利用など、セキュリティとソフトウェアエンジニアリングに多くの応用がある。 逆コンパイルにおける顕著な課題は、変数名を復元することである。 大規模言語モデル(LLM)とプログラム解析の相乗効果を利用する新しい手法を提案する。 言語モデルはリッチなマルチモーダル知識をエンコードするが、入力サイズが限られているため、名前回復のための十分なグローバルコンテキストを提供できない。 我々は,タスクを多くのLLMクエリに分割し,プログラム解析を用いてクエリ結果の関連付けと伝達を行うことを提案する。 その結果, 回収した名前の75%はユーザによってよく評価され, 技術は最先端技術よりも16.5%, 精度は20.23%向上した。

Decompilation aims to recover the source code form of a binary executable. It has many applications in security and software engineering such as malware analysis, vulnerability detection and code reuse. A prominent challenge in decompilation is to recover variable names. We propose a novel method that leverages the synergy of large language model (LLM) and program analysis. Language models encode rich multi-modal knowledge, but its limited input size prevents providing sufficient global context for name recovery. We propose to divide the task to many LLM queries and use program analysis to correlate and propagate the query results, which in turn improves the performance of LLM by providing additional contextual information. Our results show that 75% of the recovered names are considered good by users and our technique outperforms the state-of-the-art technique by 16.5% and 20.23% in precision and recall, respectively.
翻訳日:2023-10-24 04:36:30 公開日:2023-06-05
# 深層学習ライブラリのセキュリティ知識に基づくファジング

Security Knowledge-Guided Fuzzing of Deep Learning Libraries ( http://arxiv.org/abs/2306.03269v1 )

ライセンス: Link先を確認
Nima Shiri Harzevili, Hung Viet Pham, Song Wang(参考訳) この文献には多くのDeep Learning(DL)ファジィザが提案されている。 しかし、その多くはユーザが使用するハイレベルなapiのみに重点を置いているため、ライブラリ開発者がテストせずに使用するapiが多数含まれている。 さらに、一般入力生成規則を用いてランダム値生成や境界入力生成などの不正入力を生成し、DL固有の不正入力を生成するのに効果がない。 このギャップを埋めるため、我々はまず、最も人気のあるdlライブラリであるpytorchとtensorflowの447の履歴セキュリティ脆弱性の根本原因分析に関する経験的研究を行い、それらの悪意のある入力を特徴付け、理解する。 その結果、悪意のある入力の構築に関する18のルールを分類し、DLライブラリのテストに有効な不正入力を生成することができると考えている。 我々は、実世界のディープラーニングのセキュリティ脆弱性から抽出した不正な入力生成ルールを利用してdlライブラリをテストする新しいfuzzer、orionの設計と実装をさらに進めます。 具体的には、orionはまずapiドキュメント、ソースコード、開発者テスト、github上の公開リポジトリなど、さまざまなソースからapi呼び出しコードを収集する。 次に、Orionはこれらのコードスニペットを使用して、パラメータの型、形、値などの各APIの実行情報を動的にトレースする。 次に、不正な入力生成ルールと動的実行情報を組み合わせて、DLライブラリをテストする入力を生成する。 TensorFlowとPyTorchに関する我々の評価は、Orionが143のバグを報告し、68がこれまで不明であることを示している。 68の新しいバグの中で、開発者が報告した後、58が修正または確認され、左が確認を待っている。 最先端のDLファザ(FreeFuzzとDocTer)と比較して、Orionはそれぞれ21%と34%のバグを検出する。

There have been many Deep Learning (DL) fuzzers proposed in the literature. However, most of them only focused on high-level APIs that are used by users, which results in a large number of APIs used by library developers being untested. Additionally, they use general input generation rules to generate malformed inputs such as random value generation and boundary-input generation, which are ineffective to generate DL-specific malformed inputs. To fill this gap, we first conduct an empirical study regarding root cause analysis on 447 history security vulnerabilities of two of the most popular DL libraries, i.e., PyTorch and TensorFlow, for characterizing and understanding their malicious inputs. As a result, we categorize 18 rules regarding the construction of malicious inputs, which we believe can be used to generate effective malformed inputs for testing DL libraries. We further design and implement Orion, a new fuzzer that tests DL libraries by utilizing our malformed input generation rules mined from real-world deep learning security vulnerabilities. Specifically, Orion first collects API invocation code from various sources such as API documentation, source code, developer tests, and publicly available repositories on GitHub. Then Orion instruments these code snippets to dynamically trace execution information for each API such as parameters' types, shapes, and values. Then, Orion combines the malformed input generation rules and the dynamic execution information to create inputs to test DL libraries. Our evaluation on TensorFlow and PyTorch shows that Orion reports 143 bugs and 68 of which are previously unknown. Among the 68 new bugs, 58 have been fixed or confirmed by developers after we report them and the left are awaiting confirmation. Compared to the state-of-the-art DL fuzzers (i.e., FreeFuzz and DocTer), Orion detects 21% and 34% more bugs respectively.
翻訳日:2023-10-24 04:23:56 公開日:2023-06-05
# バイオメディカル研究のために設計されたソフトウェア影響の評価:意味のあるものを測定するか?

Evaluation of software impact designed for biomedical research: Are we measuring what's meaningful? ( http://arxiv.org/abs/2306.03255v1 )

ライセンス: Link先を確認
Awan Afiaz (1 and 2), Andrey Ivanov (3), John Chamberlin (4), David Hanauer (5), Candace Savonen (2), Mary J Goldman (6), Martin Morgan (7), Michael Reich (8), Alexander Getka (9), Aaron Holmes (10 and 11 and 12 and 13), Sarthak Pati (9), Dan Knight (10 and 11 and 12 and 13), Paul C. Boutros (10 and 11 and 12 and 13), Spyridon Bakas (9), J. Gregory Caporaso (14), Guilherme Del Fiol (15), Harry Hochheiser (16), Brian Haas (17), Patrick D. Schloss (18), James A. Eddy (19), Jake Albrecht (19), Andrey Fedorov (20), Levi Waldron (21), Ava M. Hoffman (2), Richard L. Bradshaw (15), Jeffrey T. Leek (2) and Carrie Wright (2) ((1) Department of Biostatistics, University of Washington, Seattle, WA, (2) Biostatistics Program, Public Health Sciences Division, Fred Hutchinson Cancer Center, Seattle, WA, (3) Department of Pharmacology and Chemical Biology, Emory University School of Medicine, Emory University, Atlanta, GA, (4) Department of Biomedical Informatics, University of Utah, Salt Lake City, UT, (5) Department of Learning Health Sciences, University of Michigan Medical School, Ann Arbor, MI, (6) University of California Santa Cruz, Santa Cruz, CA, (7) Roswell Park Comprehensive Cancer Center, Buffalo, NY, (8) University of California, San Diego, La Jolla, CA, (9) University of Pennsylvania, Philadelphia, PA, (10) Jonsson Comprehensive Cancer Center, University of California, Los Angeles, CA, (11) Institute for Precision Health, University of California, Los Angeles, CA, (12) Department of Human Genetics, University of California, Los Angeles, CA, (13) Department of Urology, University of California, Los Angeles, CA, (14) Pathogen and Microbiome Institute, Northern Arizona University, Flagstaff, AZ, (15) Department of Biomedical Informatics, University of Utah, Salt Lake City, UT, (16) Department of Biomedical Informatics, University of Pittsburgh, Pittsburgh, PA, (17) Methods Development Laboratory, Broad Institute, Cambridge, MA, (18) Department of Microbiology and Immunology, University of Michigan, Ann Arbor, MI, (19) Sage Bionetworks, Seattle, WA, (20) Department of Radiology, Brigham and Women's Hospital, Harvard Medical School, Boston, MA, (21) Department of Epidemiology and Biostatistics, City University of New York Graduate School of Public Health and Health Policy, New York, NY)(参考訳) ソフトウェアは生物学と医学の発展に不可欠である。 使用状況と影響メトリクスの分析は、開発者がユーザとコミュニティのエンゲージメントを判断し、追加資金を正当化し、さらなる使用を奨励し、予期しないユースケースを特定し、改善領域を定義するのに役立つ。 しかし、これらの分析にまつわる課題には、歪んだり誤解を招くメトリクス、倫理的・セキュリティ上の懸念などが含まれる。 生物学的ソフトウェアのスペクトルにまたがる影響を捉えることにかかわるニュアンスにもっと注意が必要である。 さらに、一部のツールは少数のユーザにとって特に有益かもしれないが、典型的な使用基準を持っていない場合もある。 より一般的なガイドラインと、より特定のタイプのソフトウェアのための戦略を提案する。 我々は、コミュニティがどのようにソフトウェアの影響を計測または評価するかに関する顕著な問題に注目する。 ソフトウェア評価の現在の実践についてより深く理解するために,国立がん研究所(NCI)が資金提供したITCR(Informatics Technology for Cancer Research)プログラムの参加者を対象に調査を行った。 また、このような評価をサポートするインフラの実施頻度と、それがソフトウェアの使用状況を説明する論文の掲載率に与える影響を評価するため、コミュニティ内のソフトウェアについても検討した。 開発者はソフトウェアの利用分析の有用性を認識しているが、そのような分析に費やす時間や資金を見つけるのに苦労している。 また、ソーシャルメディアの存在、より詳細なドキュメント、ソフトウェアヘルスメトリクスの存在、開発者との接触方法の明確化といったインフラストラクチャが、利用率の上昇と関係していることも分かりました。 私たちの発見は、科学ソフトウェア開発者がソフトウェアの評価を最大限に活用するのに役立ちます。

Software is vital for the advancement of biology and medicine. Analysis of usage and impact metrics can help developers determine user and community engagement, justify additional funding, encourage additional use, identify unanticipated use cases, and help define improvement areas. However, there are challenges associated with these analyses including distorted or misleading metrics, as well as ethical and security concerns. More attention to the nuances involved in capturing impact across the spectrum of biological software is needed. Furthermore, some tools may be especially beneficial to a small audience, yet may not have compelling typical usage metrics. We propose more general guidelines, as well as strategies for more specific types of software. We highlight outstanding issues regarding how communities measure or evaluate software impact. To get a deeper understanding of current practices for software evaluations, we performed a survey of participants in the Informatics Technology for Cancer Research (ITCR) program funded by the National Cancer Institute (NCI). We also investigated software among this community and others to assess how often infrastructure that supports such evaluations is implemented and how this impacts rates of papers describing usage of the software. We find that developers recognize the utility of analyzing software usage, but struggle to find the time or funding for such analyses. We also find that infrastructure such as social media presence, more in-depth documentation, the presence of software health metrics, and clear information on how to contact developers seem to be associated with increased usage rates. Our findings can help scientific software developers make the most out of evaluations of their software.
翻訳日:2023-10-24 04:23:24 公開日:2023-06-05
# CONCORD: ソースコードのためのクローン対応コントラスト学習

CONCORD: Clone-aware Contrastive Learning for Source Code ( http://arxiv.org/abs/2306.03234v1 )

ライセンス: Link先を確認
Yangruibo Ding, Saikat Chakraborty, Luca Buratti, Saurabh Pujar, Alessandro Morari, Gail Kaiser, Baishakhi Ray(参考訳) ソースコードを分析するためのディープラーニング(dl)モデルは、過去数年間で大きな期待を示してきた。 最近では、クローンやバグ検出など、多くのダウンストリームSEタスクで価値のあるジェネリックコード表現を学ぶために、自己教師付き事前トレーニングが注目を集めている。 以前の作業は、さまざまなコード抽象化(トークン、AST、グラフなど)から学べることができましたが、開発者が汎用的な表現学習を日々どのようにコーディングするかは、必要不可欠です。 一方で、人間の開発者は、スクラッチから関数を実装するのではなく、現在のコードベースやオンラインリソース(Stack Overflow Webサイトなど)から既存のコードスニペットを参照する反復的なプログラムを書く傾向がある。 対照的に、間違ったクローンは悪意のあるプログラム動作を引き起こす可能性がある。 そこで我々は,開発者のコーディング動作を事前学習スキームに組み込むプロキシとして,コードクローンとそのデバイトを組み込むことを提案する。 特に,良性クローンを表現空間に近づける自己教師付き,対照的な学習戦略であるconcordを提案する。 我々は,concordのクローン認識によるコントラスト学習は,ダウンストリームseタスクの性能向上とともに,高価な事前学習リソースの必要性を劇的に低減することを示した。 また,conCORDが既存のトレーニング済みモデルを改善して,意味的に等価なプログラムを識別し,バグを非バグコードと区別する上で,よりよい表現を学習できることを実証的に実証した。

Deep Learning (DL) models to analyze source code have shown immense promise during the past few years. More recently, self-supervised pre-training has gained traction for learning generic code representations valuable for many downstream SE tasks, such as clone and bug detection. While previous work successfully learned from different code abstractions (e.g., token, AST, graph), we argue that it is also essential to factor in how developers code day-to-day for general-purpose representation learning. On the one hand, human developers tend to write repetitive programs referencing existing code snippets from the current codebase or online resources (e.g., Stack Overflow website) rather than implementing functions from scratch; such behaviors result in a vast number of code clones. In contrast, a deviant clone by mistake might trigger malicious program behaviors. Thus, as a proxy to incorporate developers' coding behavior into the pre-training scheme, we propose to include code clones and their deviants. In particular, we propose CONCORD, a self-supervised, contrastive learning strategy to place benign clones closer in the representation space while moving deviants further apart. We show that CONCORD's clone-aware contrastive learning drastically reduces the need for expensive pre-training resources while improving the performance of downstream SE tasks. We also empirically demonstrate that CONCORD can improve existing pre-trained models to learn better representations that consequently become more efficient in both identifying semantically equivalent programs and differentiating buggy from non-buggy code.
翻訳日:2023-10-24 04:22:56 公開日:2023-06-05
# 持続可能な適応型セキュリティ

Sustainable Adaptive Security ( http://arxiv.org/abs/2306.04481v1 )

ライセンス: Link先を確認
Liliana Pasquale, Kushal Ramkumar, Wanling Cai, John McCarthy, Gavin Doherty, and Bashar Nuseibeh(参考訳) 私たちの生活に浸透するソフトウェアシステムでは、そのようなシステムは設計によって安全であり、これらのシステムの使用とその後の進化を通じて、そのようなセキュリティが耐えられることを期待する権利があります。 資産を危害から継続的に保護するために、適応型セキュリティシステムが提案されているが、設計時の変更による脅威を軽減できるだけである。 本稿では,新たに発見された脅威を緩和する能力を備えた適応型セキュリティシステムを拡張することにより,持続的保護を反映した持続的適応型セキュリティ(sas)の概念を提案する。 この目的を達成するために、SASシステムは、自動化(例えば、セキュリティ脅威の発見と緩和)と人間の介入(例えば、脅威発見と緩和の間の不確実性を解決する)を組み合わせることで設計されるべきである。 本稿では、スマートホームの例を用いて、持続可能な適応セキュリティを満たすシステムのMAPEループ(監視、分析、計画、実行)のアクティビティをいかに構築できるかを示す。 我々は,異常検出とアブダプティブ推論を併用することで,新たな脅威の発見と,セキュリティ要件とコントロールの進化を導くことができることを示唆する。 また,MAPEループの動作の実行に人間が関与できる状況を実証し,人的介入の要求について議論する。

With software systems permeating our lives, we are entitled to expect that such systems are secure by design, and that such security endures throughout the use of these systems and their subsequent evolution. Although adaptive security systems have been proposed to continuously protect assets from harm, they can only mitigate threats arising from changes foreseen at design time. In this paper, we propose the notion of Sustainable Adaptive Security (SAS) which reflects such enduring protection by augmenting adaptive security systems with the capability of mitigating newly discovered threats. To achieve this objective, a SAS system should be designed by combining automation (e.g., to discover and mitigate security threats) and human intervention (e.g., to resolve uncertainties during threat discovery and mitigation). In this paper, we use a smart home example to showcase how we can engineer the activities of the MAPE (Monitor, Analysis, Planning, and Execution) loop of systems satisfying sustainable adaptive security. We suggest that using anomaly detection together with abductive reasoning can help discover new threats and guide the evolution of security requirements and controls. We also exemplify situations when humans can be involved in the execution of the activities of the MAPE loop and discuss the requirements to engineer human interventions.
翻訳日:2023-10-24 04:15:49 公開日:2023-06-05
# Smooth periodic Gaussian CopulaによるPVフリートモデリング

PV Fleet Modeling via Smooth Periodic Gaussian Copula ( http://arxiv.org/abs/2307.00004v1 )

ライセンス: Link先を確認
Mehmet G. Ogut, Bennet Meyers, Stephen P. Boyd(参考訳) 本稿では,太陽光発電(PV)システムから発電を共同でモデル化する手法を提案する。 ベクトル時系列データを独立かつ同一分布の標準正規変数に可逆的にマッピングする関数を求めるホワイトボックス法を提案する。 提案手法は,データに滑らかで周期的なコプラ変換をフィッティングする新しい手法に基づいて,電力出力分布の日内変動,異なるpvシステム間の依存性,時間間の依存関係など,データの多くの側面をキャプチャする。 解釈可能なステップで構成され、多くのシステムにスケーラブルである。 システムと時間にまたがって出力されるPV艦隊の合同確率モデルは、合成データを生成し、欠落したデータをインプットし、異常検出を行い、予測することができる。 本稿では,本手法を説明し,その応用例を示す。

We present a method for jointly modeling power generation from a fleet of photovoltaic (PV) systems. We propose a white-box method that finds a function that invertibly maps vector time-series data to independent and identically distributed standard normal variables. The proposed method, based on a novel approach for fitting a smooth, periodic copula transform to data, captures many aspects of the data such as diurnal variation in the distribution of power output, dependencies among different PV systems, and dependencies across time. It consists of interpretable steps and is scalable to many systems. The resulting joint probability model of PV fleet output across systems and time can be used to generate synthetic data, impute missing data, perform anomaly detection, and make forecasts. In this paper, we explain the method and demonstrate these applications.
翻訳日:2023-07-09 14:01:47 公開日:2023-06-05
# 北エフスピン液体二層膜からのトポロジカル量子ダイマー:エノン縮合遷移

Topological Quantum Dimers Emerging from Kitaev Spin Liquid Bilayer: Anyon Condensation Transition ( http://arxiv.org/abs/2301.05721v2 )

ライセンス: Link先を確認
Kyusung Hwang(参考訳) 本稿では, トポロジカルエノン凝縮遷移の機構を照らす二層スピンモデルを提案する。 本モデルでは, 連続遷移により結合する2つの相, 北エフスピン二層状態と共鳴価結合(RVB)状態を有する。 任意のオン凝縮によって遷移が起こり、rvb状態のハードコアダイマー制約が順序パラメータの役割を担っていることを示す。 本モデル研究は、エノン凝縮遷移の直感的な図示を提供し、キタエフ二層からのrvb状態の出現を保存できる汎用三配位格子に適用できる。

We present a bilayer spin model that illuminates the mechanism of topological anyon condensation transition. Our model harbors two distinct topological phases, Kitaev spin liquid bilayer state and resonating valence bond (RVB) state connected by a continuous transition. We show that the transition occurs by anyon condensation, and the hardcore dimer constraint of the RVB state plays a role of the order parameter. This model study offers an intuitive picture for anyon condensation transition, and is broadly applicable to generic tri-coordinated lattices preserving the emergence of the RVB state from the Kitaev bilayer.
翻訳日:2023-07-02 14:00:17 公開日:2023-06-05
# 合成次元

Synthetic Dimensions ( http://arxiv.org/abs/2306.13658v1 )

ライセンス: Link先を確認
Kaden R. A. Hazzard and Bryce Gadway(参考訳) 原子や分子の内部状態をカップリングして、実空間での動きを模倣することで、新しい幾何学が創られる

Novel geometries can be created by coupling internal states of atoms or molecules to mimic movement in real-space
翻訳日:2023-07-02 13:44:35 公開日:2023-06-05
# クリックスルー率予測のためのグラフに基づく長期・短期金利モデル

Graph Based Long-Term And Short-Term Interest Model for Click-Through Rate Prediction ( http://arxiv.org/abs/2306.10028v1 )

ライセンス: Link先を確認
Huinan Sun, Guangliang Yu, Pengye Zhang, Bo Zhang, Xingxing Wang, Dong Wang(参考訳) クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としている。 このようなシステムでは、リッチなユーザ行動(長期的および短期的)が、ユーザの関心を捉える上で大きな価値があることが証明されている。 業界とアカデミーは、このトピックに多くの注意を払っており、長期および短期のユーザー行動データを用いたモデリングに対する異なるアプローチを提案している。 しかし、未解決の問題もいくつかある。 より具体的には,(1)長期行動から情報を抽出するルールとトラルテーションに基づく手法は情報損失を生じやすく,(2)短期行動から情報を抽出するシナリオによらず,単一のフィードバック行動は情報混乱とノイズを引き起こす。 このギャップを埋めるために、GLSMと呼ばれるグラフベースの長期短期利害モデルを提案する。 長期ユーザ行動のキャプチャのための多目的グラフ構造、短期情報モデリングのための多シナリオ異種シーケンスモデル、長期および短期行動からの融合情報に対する適応的融合機構から構成される。 GLSMは実世界のデータセットに関する総合的な実験を行い、オフラインメトリクスのSOTAスコアを達成した。 同時に、glsmアルゴリズムが産業アプリケーションにデプロイされ、4.9%のctrと4.3%のgmvリフトをもたらしました。

Click-through rate (CTR) prediction aims to predict the probability that the user will click an item, which has been one of the key tasks in online recommender and advertising systems. In such systems, rich user behavior (viz. long- and short-term) has been proved to be of great value in capturing user interests. Both industry and academy have paid much attention to this topic and propose different approaches to modeling with long-term and short-term user behavior data. But there are still some unresolved issues. More specially, (1) rule and truncation based methods to extract information from long-term behavior are easy to cause information loss, and (2) single feedback behavior regardless of scenario to extract information from short-term behavior lead to information confusion and noise. To fill this gap, we propose a Graph based Long-term and Short-term interest Model, termed GLSM. It consists of a multi-interest graph structure for capturing long-term user behavior, a multi-scenario heterogeneous sequence model for modeling short-term information, then an adaptive fusion mechanism to fused information from long-term and short-term behaviors. Comprehensive experiments on real-world datasets, GLSM achieved SOTA score on offline metrics. At the same time, the GLSM algorithm has been deployed in our industrial application, bringing 4.9% CTR and 4.3% GMV lift, which is significant to the business.
翻訳日:2023-06-26 01:48:48 公開日:2023-06-05
# 埋め込みアライメントによるクエリエンコーダ蒸留は、高密度検索のオンライン効率を高めるための強力なベースライン手法である

Query Encoder Distillation via Embedding Alignment is a Strong Baseline Method to Boost Dense Retriever Online Efficiency ( http://arxiv.org/abs/2306.11550v1 )

ライセンス: Link先を確認
Yuxuan Wang, Hong Lyu(参考訳) 情報検索コミュニティは、デュアルエンコーダ(de)密閉通路検索システムの効率向上に多大な進歩を遂げ、レイテンシに敏感な設定に適している。 しかし,提案手法の多くは複雑すぎるか資源集約的であるため,実践者がそれを採用することや経験的成果の出所を特定することが困難である。 そこで本研究では,非対称なアーキテクチャを活かしたDEレトリバーの効率向上のためのベースライン手法として,自明に簡単なレシピを提案する。 その結果,2層式であるbertベースのクエリエンコーダであっても,教師なし蒸留と適切な学生初期化により,beirベンチマークのde性能の92.5%を維持できることがわかった。 私たちの調査結果は、メソッドの複雑さとパフォーマンス改善の間のトレードオフを再評価することをコミュニティに促すことを願っています。

The information retrieval community has made significant progress in improving the efficiency of Dual Encoder (DE) dense passage retrieval systems, making them suitable for latency-sensitive settings. However, many proposed procedures are often too complex or resource-intensive, which makes it difficult for practitioners to adopt them or identify sources of empirical gains. Therefore, in this work, we propose a trivially simple recipe to serve as a baseline method for boosting the efficiency of DE retrievers leveraging an asymmetric architecture. Our results demonstrate that even a 2-layer, BERT-based query encoder can still retain 92.5% of the full DE performance on the BEIR benchmark via unsupervised distillation and proper student initialization. We hope that our findings will encourage the community to re-evaluate the trade-offs between method complexity and performance improvements.
翻訳日:2023-06-26 01:19:43 公開日:2023-06-05
# LexGPT0.1:Pile of Lawによる事前訓練GPT-Jモデル

LexGPT 0.1: pre-trained GPT-J models with Pile of Law ( http://arxiv.org/abs/2306.05431v1 )

ライセンス: Link先を確認
Jieh-Sheng Lee(参考訳) 本研究の目的は法領域に特化した生成言語モデルの構築である。 この写本は、GPT-Jモデルに基づくLexGPTモデルの開発と、Pile of Lawで事前訓練を行っている。 この写本で構築された基礎モデルは、人間のフィードバックによる強化学習によるさらなるトレーニングなど、法域における将来の応用の発展に向けた最初のステップである。 この写本のもう一つの目的は、法律専門家が『No Code』アプローチで言語モデルを利用するのを支援することである。 特殊なデータでモデルを微調整し、ソースコードを変更することなく、法務専門家は最小限の労力と技術的知識で下流タスク用のカスタム言語モデルを作成することができる。 この原稿の下流のタスクは、LexGPTモデルを分類子にすることであるが、パフォーマンスは最先端の結果よりも顕著に低い。 モデルやソースコードを変更することなく、ダウンストリームタスクのパフォーマンスを向上する方法は、将来の調査のための研究トピックである。

This research aims to build generative language models specialized for the legal domain. The manuscript presents the development of LexGPT models based on GPT-J models and pre-trained with Pile of Law. The foundation model built in this manuscript is the initial step for the development of future applications in the legal domain, such as further training with reinforcement learning from human feedback. Another objective of this manuscript is to assist legal professionals in utilizing language models through the ``No Code'' approach. By fine-tuning models with specialized data and without modifying any source code, legal professionals can create custom language models for downstream tasks with minimum effort and technical knowledge. The downstream task in this manuscript is to turn a LexGPT model into a classifier, although the performance is notably lower than the state-of-the-art result. How to enhance downstream task performance without modifying the model or its source code is a research topic for future exploration.
翻訳日:2023-06-18 13:16:37 公開日:2023-06-05
# ゼロショット画像分類を改善するビジュアルグラウンド記述

Visually-Grounded Descriptions Improve Zero-Shot Image Classification ( http://arxiv.org/abs/2306.06077v1 )

ライセンス: Link先を確認
Michael Ogezi, Bradley Hauer, Grzegorz Kondrak(参考訳) CLIPのような言語ビジョンモデルはゼロショットイメージ分類(ZSIC)のようなゼロショットビジョンタスクにおいて大きな進歩を遂げている。 しかし、特定の表現力のあるクラス記述を生成することは大きな課題である。 既存のアプローチは粒度とラベルの曖昧さの問題に悩まされている。 これらの課題に対処するため,視覚的なクラス記述を生成するために,現代言語モデルと意味的知識ベースを活用した新しい手法であるV-GLOSS: Visual Glossesを提案する。 我々は、ImageNetやSTL-10を含むベンチマークZSICデータセット上で、最先端の結果を達成し、V-GLOSSの有効性を実証する。 さらに,V-GLOSSが生成したクラス記述を持つ銀のデータセットを導入し,視覚タスクにその有用性を示す。 コードとデータセットを利用可能にします。

Language-vision models like CLIP have made significant progress in zero-shot vision tasks, such as zero-shot image classification (ZSIC). However, generating specific and expressive class descriptions remains a major challenge. Existing approaches suffer from granularity and label ambiguity issues. To tackle these challenges, we propose V-GLOSS: Visual Glosses, a novel method leveraging modern language models and semantic knowledge bases to produce visually-grounded class descriptions. We demonstrate V-GLOSS's effectiveness by achieving state-of-the-art results on benchmark ZSIC datasets including ImageNet and STL-10. In addition, we introduce a silver dataset with class descriptions generated by V-GLOSS, and show its usefulness for vision tasks. We make available our code and dataset.
翻訳日:2023-06-18 13:01:10 公開日:2023-06-05
# DeepStay:Weak Supervisionを用いた位置軌跡からの静止領域抽出

DeepStay: Stay Region Extraction from Location Trajectories using Weak Supervision ( http://arxiv.org/abs/2306.06068v1 )

ライセンス: Link先を確認
Christian L\"owens, Daniela Thyssens, Emma Andersson, Christina Jenkins, Lars Schmidt-Thieme(参考訳) 現在、モバイルデバイスはユーザーの位置や位置を常に追跡することができ、家、職場、店舗などの個人的関心点(pois)を推測することができる。 poisを抽出する一般的な方法は、ユーザがかなりの時間を費やしている時空間領域(srs)を最初に特定することである。 SR抽出に対する一般的なアプローチは、一般的なパブリックデータセットがラベル付けされていないため、教師なしまたは小規模のプライベートデータセットで評価される。 これらの手法の多くは手作りの特徴やしきい値に依存しており、ハイパーパラメータ最適化以外には学ばない。 そこで本研究では,位置軌跡を学習し,位置領域を推定するDeepStayという,弱い自己制御型トランスフォーマーモデルを提案する。 私たちの知る限りでは、これはディープラーニングに基づいた最初のアプローチであり、ラベル付きデータセットで評価される最初のアプローチです。 我々のSR抽出法は最先端の手法より優れている。 また,GPSトラジェクトリからの移動モード検出のタスクにおいて,同じアーキテクチャを用いて限定的な実験を行い,最先端技術よりも高いスコアを得た。 私たちのコードはhttps://github.com/christianll9/deepstayで利用可能です。

Nowadays, mobile devices enable constant tracking of the user's position and location trajectories can be used to infer personal points of interest (POIs) like homes, workplaces, or stores. A common way to extract POIs is to first identify spatio-temporal regions where a user spends a significant amount of time, known as stay regions (SRs). Common approaches to SR extraction are evaluated either solely unsupervised or on a small-scale private dataset, as popular public datasets are unlabeled. Most of these methods rely on hand-crafted features or thresholds and do not learn beyond hyperparameter optimization. Therefore, we propose a weakly and self-supervised transformer-based model called DeepStay, which is trained on location trajectories to predict stay regions. To the best of our knowledge, this is the first approach based on deep learning and the first approach that is evaluated on a public, labeled dataset. Our SR extraction method outperforms state-of-the-art methods. In addition, we conducted a limited experiment on the task of transportation mode detection from GPS trajectories using the same architecture and achieved significantly higher scores than the state-of-the-art. Our code is available at https://github.com/christianll9/deepstay.
翻訳日:2023-06-18 12:59:03 公開日:2023-06-05
# uavフォトグラメトリーと機械学習による河川水面上昇の推定

Estimation of River Water Surface Elevation Using UAV Photogrammetry and Machine Learning ( http://arxiv.org/abs/2306.06118v1 )

ライセンス: Link先を確認
Rados{\l}aw Szostak, Marcin Pietro\'n, Przemys{\l}aw Wachniew, Miros{\l}aw Zimnoch, Pawe{\l} \'Cwi\k{a}ka{\l}a(参考訳) 無人航空機(uav)写真測量は、地形の直交写真やデジタル表面モデル(dsms)の作成を可能にする。 しかし、この手法でマッピングされた水域のdsmは、水面の歪みを示し、水面高度(wse)を正確に測定するためのフォトグラムデータの使用を妨げている。 まず, 畳み込みニューラルネットワーク(CNN)をフォトグラムDSMと正光度からWSE推定器として用いる新しい手法を提案する。 第2に, 前向き指数重み付き移動平均を用いて外周をフィルタリングすることで, 既知の「水辺」法を改良した。 これら2つの手法のさらなる改善は、連鎖に対するWSE値の線形回帰を行うことによって達成された。 解は予測の不確実性を推定する。 これは、このタスクにDLを使用した最初のアプローチである。 新たな機械学習データセットが作成された。 冬と夏は小さな低地の川で採集された。 322のサンプルで構成され、それぞれが河川と隣接する土地の10×10メートルの領域に対応している。 各データセットサンプルは、入力として正光およびDSM配列を含み、出力として1つの接地トラックWSE値を含む。 データセットは、UAVを使ってWSEを決定する最先端の方法と比較する他の研究者によって収集されたデータで補われた。 dl溶液の結果はk-foldクロスバリデーション法により検証された。 これにより、モデルが以前見つからなかったデータで実行する能力が詳細に検討された。 WSE RMSEは各k-foldクロスバリデーションサブセットごとに異なり、1.7cmから17.2cmまでである。 改良された「水辺」法のrmse結果は、従来の「水辺」法で達成されたrmse結果の少なくとも6倍低い。 新しい手法によって得られた結果は、既存の手法を圧倒的に上回っている。

Unmanned aerial vehicle (UAV) photogrammetry allows for the creation of orthophotos and digital surface models (DSMs) of a terrain. However, DSMs of water bodies mapped with this technique reveal water surface distortions, preventing the use of photogrammetric data for accurate determination of water surface elevation (WSE). Firstly, we propose a new solution in which a convolutional neural network (CNN) is used as a WSE estimator from photogrammetric DSMs and orthophotos. Second, we improved the previously known "water-edge" method by filtering the outliers using a forward-backwards exponential weighted moving average. Further improvement in these two methods was achieved by performing a linear regression of the WSE values against chainage. The solutions estimate the uncertainty of the predictions. This is the first approach in which DL was used for this task. A brand new machine learning data set has been created. It was collected on a small lowland river in winter and summer conditions. It consists of 322 samples, each corresponding to a 10 by 10 meter area of the river channel and adjacent land. Each data set sample contains orthophoto and DSM arrays as input, along with a single ground-truth WSE value as output. The data set was supplemented with data collected by other researchers that compared the state-of-the-art methods for determining WSE using an UAV. The results of the DL solution were verified using k-fold cross-validation method. This provided an in-depth examination of the model's ability to perform on previously unseen data. The WSE RMSEs differ for each k-fold cross-validation subset and range from 1.7 cm up to 17.2 cm. The RMSE results of the improved "water-edge" method are at least six times lower than the RMSE results achieved by the conventional "water-edge" method. The results obtained by new methods are predominantly outperforming existing ones.
翻訳日:2023-06-18 12:53:13 公開日:2023-06-05
# 画像認識モデルロバスト性評価のための差分テストフレームワーク

A Differential Testing Framework to Evaluate Image Recognition Model Robustness ( http://arxiv.org/abs/2306.06208v1 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan(参考訳) 画像認識タスクは一般的にディープラーニングを使用し、膨大な処理能力を必要とするため、高速でタイムリーな処理にはGPUやTPUなどのハードウェアアクセラレータに依存する。 リアルタイム画像認識タスクの失敗は、モデル展開中にハードウェアアクセラレーターのサブ最適マッピングによって起こり、タイミングの不確実性と誤動作を引き起こす可能性がある。 ハードウェアアクセラレータのマッピングは、ディープラーニングフレームワークやコンパイラ、デバイスライブラリといった、計算環境と呼ばれる複数のソフトウェアコンポーネントを通じて行われます。 自律運転や医用画像などの安全クリティカルなアプリケーションにおける画像認識タスクの利用の増加により、ディープラーニングフレームワークやコンパイラ最適化、ハードウェアデバイスなどのパラメータがモデル性能や正確性に与える影響がよく理解されていないため、計算環境の変化に対する彼らの堅牢性を評価することが不可欠である。 本稿では,多くの計算環境パラメータに対して,ディープラーニングモデルの生成,実行,差分解析,テストを可能にする差分テストフレームワークを提案する。 本研究では,imagenetデータセットを用いた3つの人気のある画像認識モデルのロバスト性解析を行い,ディープラーニングフレームワークの変更,コンパイラ最適化,ハードウェアデバイスへの影響を評価する。 異なる設定における誤分類や推論時間の違いによる影響を報告する。 合計で、ディープラーニングフレームワーク全体で最大72%のアウトプットラベルの差異を観測し、コンパイラの最適化を適用する場合、推論時間に関して予想外のパフォーマンス低下を最大82%観察した。 また,本フレームワークにおける解析ツールを用いて,観測された相違の原因を理解するために,故障解析を行う。

Image recognition tasks typically use deep learning and require enormous processing power, thus relying on hardware accelerators like GPUs and TPUs for fast, timely processing. Failure in real-time image recognition tasks can occur due to sub-optimal mapping on hardware accelerators during model deployment, which may lead to timing uncertainty and erroneous behavior. Mapping on hardware accelerators is done through multiple software components like deep learning frameworks, compilers, device libraries, that we refer to as the computational environment. Owing to the increased use of image recognition tasks in safety-critical applications like autonomous driving and medical imaging, it is imperative to assess their robustness to changes in the computational environment, as the impact of parameters like deep learning frameworks, compiler optimizations, and hardware devices on model performance and correctness is not well understood. In this paper we present a differential testing framework, which allows deep learning model variant generation, execution, differential analysis and testing for a number of computational environment parameters. Using our framework, we conduct an empirical study of robustness analysis of three popular image recognition models using the ImageNet dataset, assessing the impact of changing deep learning frameworks, compiler optimizations, and hardware devices. We report the impact in terms of misclassifications and inference time differences across different settings. In total, we observed up to 72% output label differences across deep learning frameworks, and up to 82% unexpected performance degradation in terms of inference time, when applying compiler optimizations. Using the analysis tools in our framework, we also perform fault analysis to understand the reasons for the observed differences.
翻訳日:2023-06-18 12:41:00 公開日:2023-06-05
# 二重確率グラフに基づく非自己回帰反応予測

Doubly Stochastic Graph-based Non-autoregressive Reaction Prediction ( http://arxiv.org/abs/2306.06119v1 )

ライセンス: Link先を確認
Ziqiao Meng, Peilin Zhao, Yang Yu, Irwin King(参考訳) 有機反応予測は創薬において重要な課題である。 近年、電子の再分配をモデル化することで非自己回帰反応予測が達成され、最先端のTop-1精度が得られ、並列サンプリングが可能となった。 しかし、現在の非自己回帰デコーダは電子再分配モデリングの2つの本質的な規則を同時に満たさない。 この化学反応の物理的制約違反は、モデル性能を損なう。 本研究では,両制約に従う電子再分配予測を得るために,2つの二重確率自己アテンションマッピングを組み合わせた新しいフレームワークを提案する。 我々はさらに,拡張制約を伴う汎用マルチヘッドアテンション機構へのソリューションをさらに拡張する。 これを実現するために、シンクホーンのアルゴリズムを反復的に自己注意マッピングを更新し、電子再分配モデリングに付加的な情報的先行として二重保守的制約を課す。 理論的には、現在のデコーダ機構ではできない2つのルールを同時に満たすことができる。 実験結果から,本手法は非自己回帰モデルの予測性能を常に改善し,計算コストが増大しないことを示す。

Organic reaction prediction is a critical task in drug discovery. Recently, researchers have achieved non-autoregressive reaction prediction by modeling the redistribution of electrons, resulting in state-of-the-art top-1 accuracy, and enabling parallel sampling. However, the current non-autoregressive decoder does not satisfy two essential rules of electron redistribution modeling simultaneously: the electron-counting rule and the symmetry rule. This violation of the physical constraints of chemical reactions impairs model performance. In this work, we propose a new framework called that combines two doubly stochastic self-attention mappings to obtain electron redistribution predictions that follow both constraints. We further extend our solution to a general multi-head attention mechanism with augmented constraints. To achieve this, we apply Sinkhorn's algorithm to iteratively update self-attention mappings, which imposes doubly conservative constraints as additional informative priors on electron redistribution modeling. We theoretically demonstrate that our can simultaneously satisfy both rules, which the current decoder mechanism cannot do. Empirical results show that our approach consistently improves the predictive performance of non-autoregressive models and does not bring an unbearable additional computational cost.
翻訳日:2023-06-18 12:39:15 公開日:2023-06-05
# グラフリワイリングによる有害コンテンツへの露出の低減

Reducing Exposure to Harmful Content via Graph Rewiring ( http://arxiv.org/abs/2306.07930v1 )

ライセンス: Link先を確認
Corinna Coupette, Stefan Neumann, and Aristides Gionis(参考訳) 今日消費されるメディアコンテンツのほとんどは、様々なソースからの入力を集約するデジタルプラットフォームによって提供され、情報へのアクセスはレコメンデーションアルゴリズムによって仲介される。 この文脈における主要な課題の1つは、有害と考えられるコンテンツを扱うことである。 競合する利害関係者間のバランスを取るために、有害なコンテンツを完全にブロックするのではなく、アルゴリズム的な推奨によって引き起こされるようなコンテンツへの露出を最小化するアプローチがある。 そこで,メディアアイテムやレコメンデーションを有向グラフとしてモデル化し,エッジリワイリングによる有害コンテンツへの露出を減らす問題を考察する。 ランダムウォークを吸収することでこの問題を定式化し,加法誤差の範囲内で近似することがnpハードかつnpハードであることを証明し,現実的な仮定の下では (1-1/e) 近似を与える。 そこで我々は,有害なコンテンツへの露出を,推奨品質の制約なく抑制できる高速グリージーアルゴリズムであるGamineを紹介した。 数十万のエッジを持つYouTubeグラフ上で100のリライトを実行することで、Gamineは最初の露出を50%削減し、そのレコメンデーションがオリジナルのレコメンデーションよりも5%低いことを保証する。 ビデオレコメンデーションおよびニュースフィードアプリケーションからの合成データおよび実世界のデータに関する広範な実験を通じて、実際にGamineの有効性、堅牢性、効率性を確認する。

Most media content consumed today is provided by digital platforms that aggregate input from diverse sources, where access to information is mediated by recommendation algorithms. One principal challenge in this context is dealing with content that is considered harmful. Striking a balance between competing stakeholder interests, rather than block harmful content altogether, one approach is to minimize the exposure to such content that is induced specifically by algorithmic recommendations. Hence, modeling media items and recommendations as a directed graph, we study the problem of reducing the exposure to harmful content via edge rewiring. We formalize this problem using absorbing random walks, and prove that it is NP-hard and NP-hard to approximate to within an additive error, while under realistic assumptions, the greedy method yields a (1-1/e)-approximation. Thus, we introduce Gamine, a fast greedy algorithm that can reduce the exposure to harmful content with or without quality constraints on recommendations. By performing just 100 rewirings on YouTube graphs with several hundred thousand edges, Gamine reduces the initial exposure by 50%, while ensuring that its recommendations are at most 5% less relevant than the original recommendations. Through extensive experiments on synthetic data and real-world data from video recommendation and news feed applications, we confirm the effectiveness, robustness, and efficiency of Gamine in practice.
翻訳日:2023-06-18 12:31:44 公開日:2023-06-05
# CRONOS:Wi-Fi CSIを用いたデバイスフリーNLoS人間プレゼンス検出のためのカラー化とコントラスト学習

CRONOS: Colorization and Contrastive Learning for Device-Free NLoS Human Presence Detection using Wi-Fi CSI ( http://arxiv.org/abs/2211.10354v3 )

ライセンス: Link先を確認
Li-Hsiang Shen, Chia-Che Hsieh, An-Hung Hsiao, Kai-Ten Feng(参考訳) 近年、広く普及するスマートサービスやアプリケーションに対する需要は急速に増加している。 センサーやカメラによるデバイスなしの人間検出は広く採用されているが、プライバシーの問題や、動きのない人の誤検知が伴っている。 これらの欠点に対処するため、商用Wi-Fiデバイスから取得したチャネル状態情報(CSI)は、正確な検出のための豊富な信号機能を提供する。 しかしながら、既存のシステムは、非視線(NLoS)の下での不正確な分類と、部屋の隅に立っているときのような固定的なシナリオに悩まされている。 そこで本研究では,動的再帰プロット(rps)とカラーコードcsi比(csi比)を生成するcronos(colorization and contrastive learning enhanced nlos human presence detection)というシステムを提案する。 また、教師付きコントラスト学習を取り入れて実質的な表現を抽出し、コンサルテーション損失を定式化し、動的ケースと定常ケースの代表的な距離を区別する。 さらに,rssとカラーコードcsi比のどちらを利用するかを決定するために,自己切り替え型静的特徴拡張分類器(s3fec)を提案する。 包括的実験の結果,cronosは,機械学習や非学習ベースの手法を応用した既存のシステムよりも優れており,またオープン文学における非csiベースの機能よりも優れていることがわかった。 CRONOSは、空白、移動性、視線(LoS)、NLoSシナリオにおける人間の存在検出精度が最も高い。

In recent years, the demand for pervasive smart services and applications has increased rapidly. Device-free human detection through sensors or cameras has been widely adopted, but it comes with privacy issues as well as misdetection for motionless people. To address these drawbacks, channel state information (CSI) captured from commercialized Wi-Fi devices provides rich signal features for accurate detection. However, existing systems suffer from inaccurate classification under a non-line-of-sight (NLoS) and stationary scenario, such as when a person is standing still in a room corner. In this work, we propose a system called CRONOS (Colorization and Contrastive Learning Enhanced NLoS Human Presence Detection), which generates dynamic recurrence plots (RPs) and color-coded CSI ratios to distinguish mobile and stationary people from vacancy in a room, respectively. We also incorporate supervised contrastive learning to retrieve substantial representations, where consultation loss is formulated to differentiate the representative distances between dynamic and stationary cases. Furthermore, we propose a self-switched static feature enhanced classifier (S3FEC) to determine the utilization of either RPs or color-coded CSI ratios. Our comprehensive experimental results show that CRONOS outperforms existing systems that either apply machine learning or non-learning based methods, as well as non-CSI based features in open literature. CRONOS achieves the highest human presence detection accuracy in vacancy, mobility, line-of-sight (LoS), and NLoS scenarios.
翻訳日:2023-06-09 20:08:43 公開日:2023-06-05
# 局所適応CPの訓練について

On training locally adaptive CP ( http://arxiv.org/abs/2306.04648v1 )

ライセンス: Link先を確認
Nicolo Colombo(参考訳) 共形予測(cp)間隔を局所的に適応させる問題に対処する。 既存の手法のほとんどは、キャリブレーションセットの分割や再重み付けによる区間のオブジェクト条件妥当性の近似に重点を置いている。 私たちの戦略は新しく概念的に異なる。 キャリブレーションデータを再重み付けする代わりに、変数のトレーニング可能な変更($A \to \phi_X(A)$)によって適合度尺度を再定義します。 ある条件の下で、$\phi_X$ が$A$ の単調であれば、変換は余分に有効であり、$X$依存のサイズを持つことが保証される予測区間を生成する。 インターバル効率を最大化するために$\phi_X$をパラメータ化してトレーニングする方法を説明する。 他のCP対応学習法とは対照的に、目的関数は滑らかであり、近似なしで標準勾配法で最小化できる。

We address the problem of making Conformal Prediction (CP) intervals locally adaptive. Most existing methods focus on approximating the object-conditional validity of the intervals by partitioning or re-weighting the calibration set. Our strategy is new and conceptually different. Instead of re-weighting the calibration data, we redefine the conformity measure through a trainable change of variables, $A \to \phi_X(A)$, that depends explicitly on the object attributes, $X$. Under certain conditions and if $\phi_X$ is monotonic in $A$ for any $X$, the transformations produce prediction intervals that are guaranteed to be marginally valid and have $X$-dependent sizes. We describe how to parameterize and train $\phi_X$ to maximize the interval efficiency. Contrary to other CP-aware training methods, the objective function is smooth and can be minimized through standard gradient methods without approximations.
翻訳日:2023-06-09 18:33:00 公開日:2023-06-05
# Compressed Sensing:離散最適化アプローチ

Compressed Sensing: A Discrete Optimization Approach ( http://arxiv.org/abs/2306.04647v1 )

ライセンス: Link先を確認
Dimitris Bertsimas and Nicholas Johnson(参考訳) 圧縮センシング(CS: Compressed Sensing)問題について検討した。これは,線形測定の集合をある程度の数値耐性まで満足する最もスパースなベクトルを求める問題である。 csは、信号処理、データ圧縮、画像再構成などのアプリケーションで発生する統計、運用研究、機械学習における中心的な問題である。 我々は,混合整数二階コーンプログラムとして再構成したcsの$\ell_2$正規化式を導入する。 この問題の2次円錐緩和を導出し、正規化パラメータの穏やかな条件下では、結果として得られる緩和は、よく研究された基礎追従問題と等価であることを示す。 本稿では,2次コーン緩和を強化し,2次コーン緩和を利用した独自の分岐結合アルゴリズムを開発し,CSのインスタンスを最適性を証明する。 数値的な結果から,本手法は,合成データに対する art ベンチマーク手法によって得られた解よりも平均 6.22\% 少ない解を数分で生成できることがわかった。 実世界のECGデータでは、与えられた$\ell_2$リコンストラクションエラーに対して、我々のアプローチはベンチマークメソッドよりも平均9.95\%$スパースなソリューションを生成し、一方、所定の空間レベルでは平均10.77\%$リコンストラクションエラーを数分で生成する。

We study the Compressed Sensing (CS) problem, which is the problem of finding the most sparse vector that satisfies a set of linear measurements up to some numerical tolerance. CS is a central problem in Statistics, Operations Research and Machine Learning which arises in applications such as signal processing, data compression and image reconstruction. We introduce an $\ell_2$ regularized formulation of CS which we reformulate as a mixed integer second order cone program. We derive a second order cone relaxation of this problem and show that under mild conditions on the regularization parameter, the resulting relaxation is equivalent to the well studied basis pursuit denoising problem. We present a semidefinite relaxation that strengthens the second order cone relaxation and develop a custom branch-and-bound algorithm that leverages our second order cone relaxation to solve instances of CS to certifiable optimality. Our numerical results show that our approach produces solutions that are on average $6.22\%$ more sparse than solutions returned by state of the art benchmark methods on synthetic data in minutes. On real world ECG data, for a given $\ell_2$ reconstruction error our approach produces solutions that are on average $9.95\%$ more sparse than benchmark methods, while for a given sparsity level our approach produces solutions that have on average $10.77\%$ lower reconstruction error than benchmark methods in minutes.
翻訳日:2023-06-09 18:32:39 公開日:2023-06-05
# 最高裁判所における口頭弁論の計算分析

A Computational Analysis of Oral Argument in the Supreme Court ( http://arxiv.org/abs/2306.05373v1 )

ライセンス: Link先を確認
Gregory M. Dickinson(参考訳) 最高裁判所の意思決定過程における最も公的な要素として、口頭弁論は大衆メディアで大きな注目を集めている。 しかし、政治学者や法学者は、その役割に関する最も基本的な疑問さえ議論し続けているため、機関としての口頭弁論の基本的な機能や運営は、いまだによく分かっていない。 口頭弁論の過去の研究は、各支持者に質問された質問数、判事の指名された大統領党、上訴事件のイデオロギー的含意など、口頭弁論の離散的で定量的な属性に焦点を当てる傾向があった。 このような研究は口頭弁論と司法決定に関する広範な一般化を可能にしている: 裁判官はイデオロギー的な選好に従って投票する傾向があり、党の立場に懐疑的である場合、より多くの質問をする傾向にある。 しかし、彼らは口頭弁論で実際に起きていることについてほとんど何も教えてくれない ― 司法と擁護者の間の対話が組織の中心である。 本条は, 機械学習技術を用いて, 口頭弁論の表面的特徴や, 口頭弁論以外の要因に基づいて, 口頭弁論自体の実際の内容である口頭弁論そのものに該当する場合には, 口頭弁論の実態に基づいて, 初めて, 裁判決定の予測モデルを構築したことを記す。 結果として得られたモデルは、裁判官の個別の質問スタイル、各人がどのように懐疑的な表現をするか、そしてどの判事の質問が口頭弁論の対話の最も中心となっているかなど、長い間実証研究に抵抗してきた口頭弁論の側面に重要な窓を提供する。

As the most public component of the Supreme Court's decision-making process, oral argument receives an out-sized share of attention in the popular media. Despite its prominence, however, the basic function and operation of oral argument as an institution remains poorly understood, as political scientists and legal scholars continue to debate even the most fundamental questions about its role. Past study of oral argument has tended to focus on discrete, quantifiable attributes of oral argument, such as the number of questions asked to each advocate, the party of the Justices' appointing president, or the ideological implications of the case on appeal. Such studies allow broad generalizations about oral argument and judicial decision making: Justices tend to vote in accordance with their ideological preferences, and they tend to ask more questions when they are skeptical of a party's position. But they tell us little about the actual goings on at oral argument -- the running dialog between Justice and advocate that is the heart of the institution. This Article fills that void, using machine learning techniques to, for the first time, construct predictive models of judicial decision making based not on oral argument's superficial features or on factors external to oral argument, such as where the case falls on a liberal-conservative spectrum, but on the actual content of the oral argument itself -- the Justices' questions to each side. The resultant models offer an important new window into aspects of oral argument that have long resisted empirical study, including the Justices' individual questioning styles, how each expresses skepticism, and which of the Justices' questions are most central to oral argument dialog.
翻訳日:2023-06-09 13:06:56 公開日:2023-06-05
# ソーシャルメディアと医療におけるaiの運命に向けて:体系的レビュー

Towards FATE in AI for Social Media and Healthcare: A Systematic Review ( http://arxiv.org/abs/2306.05372v1 )

ライセンス: Link先を確認
Aditya Singhal, Hasnaat Tanveer, Vijay Mago(参考訳) 人工知能(AI)システムがより普及するにつれて、その設計の公正性を保証することがますます重要になる。 この調査は、ソーシャルメディアと医療のサブドメインに焦点を当て、AIの文脈における公正性、説明責任、透明性、倫理(FATE)の概念を調査します。 我々は、AIにおけるFATEに関する既存の研究を探求し、現在のソリューションの利点と限界を強調し、将来の研究方向性を提供する。 ソーシャルメディアプラットフォーム上では,統計的および交差点フェアネスが医療の公平性を支えること,そしてAIの透明性は説明責任に不可欠であることがわかった。 シミュレーションやデータ分析、自動化システムといったソリューションは広く利用されているが、その有効性は異なり、最新の研究を最新に保つことが重要である。

As artificial intelligence (AI) systems become more prevalent, ensuring fairness in their design becomes increasingly important. This survey focuses on the subdomains of social media and healthcare, examining the concepts of fairness, accountability, transparency, and ethics (FATE) within the context of AI. We explore existing research on FATE in AI, highlighting the benefits and limitations of current solutions, and provide future research directions. We found that statistical and intersectional fairness can support fairness in healthcare on social media platforms, and transparency in AI is essential for accountability. While solutions like simulation, data analytics, and automated systems are widely used, their effectiveness can vary, and keeping up-to-date with the latest research is crucial.
翻訳日:2023-06-09 13:06:23 公開日:2023-06-05
# 無限次元量子盗聴チャネルを用いたセマンティックセキュリティ

Semantic Security with Infinite Dimensional Quantum Eavesdropping Channel ( http://arxiv.org/abs/2205.07663v2 )

ライセンス: Link先を確認
Matthias Frey and Igor Bjelakovi\'c and Janis N\"otzel and S{\l}awomir Sta\'nczak(参考訳) 本稿では, 盗聴器が無限次元ヒルベルト空間上の伝送信号の量子バージョンにアクセスでき, 当事者が古典的なチャネルや古典的な入力, 量子出力(cq)チャネルを介して通信する, ワイヤタップチャネルの直接符号化定理の証明法を提案する。 送信機入力は、平均エネルギー制約の場合に特化した付加コスト制約を受けることができる。 この方法はブロック長の増加とともに指数関数的に減衰する誤差を生じる。 さらに、古典的な暗号と物理層セキュリティにおいて確立された概念であるセマンティックセキュリティの量子バージョンを保証する。 したがって、指数誤差の減衰を証明しない既存の作品や、セキュリティの弱い概念を補完する。 この証明法の主な部分はチャネル解決可能性に関する直接のコーディング結果であり、標準のランダムコードブックがcqチャネルのチャネル解決可能性の問題を解かない2倍の指数関数的に小さい確率しか存在しないことを述べる。 セマンティクスセキュリティは強力な操作的意味を持っているため、盗聴者は送信された信号について有意な情報を集めるためにその量子観測を使用することができない。 また,セマンティクスセキュリティと,他の確立した秘密概念との関係についても論じる。

We propose a new proof method for direct coding theorems for wiretap channels where the eavesdropper has access to a quantum version of the transmitted signal on an infinite-dimensional Hilbert space and the legitimate parties communicate through a classical channel or a classical input, quantum output (cq) channel. The transmitter input can be subject to an additive cost constraint, which specializes to the case of an average energy constraint. This method yields errors that decay exponentially with increasing block lengths. Moreover, it provides a guarantee of a quantum version of semantic security, which is an established concept in classical cryptography and physical layer security. Therefore, it complements existing works which either do not prove the exponential error decay or use weaker notions of security. The main part of this proof method is a direct coding result on channel resolvability which states that there is only a doubly exponentially small probability that a standard random codebook does not solve the channel resolvability problem for the cq channel. Semantic security has strong operational implications meaning essentially that the eavesdropper cannot use its quantum observation to gather any meaningful information about the transmitted signal. We also discuss the connections between semantic security and various other established notions of secrecy.
翻訳日:2023-06-08 20:32:59 公開日:2023-06-05
# 直交ニューラルネットワークによる因果メカニズムの学習

Learning Causal Mechanisms through Orthogonal Neural Networks ( http://arxiv.org/abs/2306.03938v1 )

ライセンス: Link先を確認
Peyman Sheikholharam Mashhadi, Slawomir Nowaczyk(参考訳) 人間の知能の基本的な特徴は、低レベルの感覚データから高レベルの抽象化を推測する能力である。 このような推論の重要なコンポーネントは、モジュール化された生成メカニズムを見つける能力である。 統計的学習やパターン認識を不連続な要因を見つけるために多くの努力をしたが、この領域では人間の知性はいまだに一致していない。 本稿では,完全教師なしの方法で,歪んだデータポイントから独立したメカニズム群を逆転させる学習問題について検討する。 我々は、既存の機械学習ソリューションの重要な弱点は、モジュール間の多様化の欠如にあると仮定し、実験結果でこの主張を正当化する。 この人間と機械の知能の重大な相違に対処することは、パターン認識システムにとって重要な課題である。 そこで本稿では,ラベルのないデータから独立したメカニズムの集合を発見し,それらを逆転させる手法を提案する。 多くの専門家が、敵対的な設定で個々のデータポイントを競い合う:(知られていない)生成メカニズムを最も反転させるものは勝者である。 専門家アーキテクチャに直交層を導入することで、出力の多様性が増し、分離性が大幅に向上することを示した。 さらに、専門家間でデータポイントを移動させ、複数のメカニズムを主張できないようにする手法を提案する。 実験により,これらの手法により,より可読な変換の発見とモジュール化が可能となり,また,より高速に収束できることを示す。

A fundamental feature of human intelligence is the ability to infer high-level abstractions from low-level sensory data. An essential component of such inference is the ability to discover modularized generative mechanisms. Despite many efforts to use statistical learning and pattern recognition for finding disentangled factors, arguably human intelligence remains unmatched in this area. In this paper, we investigate a problem of learning, in a fully unsupervised manner, the inverse of a set of independent mechanisms from distorted data points. We postulate, and justify this claim with experimental results, that an important weakness of existing machine learning solutions lies in the insufficiency of cross-module diversification. Addressing this crucial discrepancy between human and machine intelligence is an important challenge for pattern recognition systems. To this end, our work proposes an unsupervised method that discovers and disentangles a set of independent mechanisms from unlabeled data, and learns how to invert them. A number of experts compete against each other for individual data points in an adversarial setting: one that best inverses the (unknown) generative mechanism is the winner. We demonstrate that introducing an orthogonalization layer into the expert architectures enforces additional diversity in the outputs, leading to significantly better separability. Moreover, we propose a procedure for relocating data points between experts to further prevent any one from claiming multiple mechanisms. We experimentally illustrate that these techniques allow discovery and modularization of much less pronounced transformations, in addition to considerably faster convergence.
翻訳日:2023-06-08 17:36:35 公開日:2023-06-05
# 生体から人工までのニューラルネットワークとその逆

Neural Networks from Biological to Artificial and Vice Versa ( http://arxiv.org/abs/2306.04449v1 )

ライセンス: Link先を確認
Abdullatif Baba(参考訳) 本稿では,深層学習を用いて神経の健康とアルゴリズムモデルにおける神経学的解析の解釈の難しさについて検討する。 この論文の重要な貢献は、死んだニューロンが人工ニューラルネットワーク(ANN)の性能に与える影響を調査することである。 そこで我々は,異なるトレーニングアルゴリズムとアクティベーション関数を用いて,近隣ニューロンに対するトレーニングプロセスの正確な影響と,それらの場合のANNの全体的な性能を明らかにする。 本研究の目的は, 生物学的領域における発見の潜在的適用性を評価することであり, 期待される結果は, 神経疾患に対する効果的な治療戦略の開発に重要な影響を及ぼす可能性がある。 過去の社会的および家族的経験から得られた視覚的および音響的データを含む連続的なトレーニングフェーズが、この目標を達成するために提案されている。 最後に,Adamオプティマイザと脳の学習過程の概念的類似性について,両システムの特異点を掘り下げ,基本的差異を認めながら検討する。

In this paper, we examine how deep learning can be utilized to investigate neural health and the difficulties in interpreting neurological analyses within algorithmic models. The key contribution of this paper is the investigation of the impact of a dead neuron on the performance of artificial neural networks (ANNs). Therefore, we conduct several tests using different training algorithms and activation functions to identify the precise influence of the training process on neighboring neurons and the overall performance of the ANN in such cases. The aim is to assess the potential application of the findings in the biological domain, the expected results may have significant implications for the development of effective treatment strategies for neurological disorders. Successive training phases that incorporate visual and acoustic data derived from past social and familial experiences could be suggested to achieve this goal. Finally, we explore the conceptual analogy between the Adam optimizer and the learning process of the brain by delving into the specifics of both systems while acknowledging their fundamental differences.
翻訳日:2023-06-08 14:12:49 公開日:2023-06-05
# 通信規制法第230条に基づくより狭い免疫の解釈枠組み

An Interpretive Framework for Narrower Immunity Under Section 230 of the Communications Decency Act ( http://arxiv.org/abs/2306.04461v1 )

ライセンス: Link先を確認
Gregory M. Dickinson(参考訳) 通信規制法第230条を解釈する裁判所のほとんど全てが、その曖昧な言葉による免疫規定を広く解釈し、攻撃的コンテンツの作者でない限り、インターネットの仲介者を不法な責任から保護している。 この広義の解釈は法令の基本目標に影響を及ぼすが、いくつかの深刻なテキスト上の困難を無視し、過酷な行為の直接の参加者にも免疫を与えることで、保護を過度に広げている。 この分析は、230条のテキストと歴史を、インターネット以前の悪質な負債の名誉剥奪の2つのドクトリンに照らし合わせるもので、第230条の免責規定は広くはあったが、従来の悪質な負債の概念を完全に否定する意図はなかったと結論づけている。 過激な責任の基盤は残っており、その継続的な有効性は、裁判所が第230条の適用で直面したテキストパズルを説明し、その規定を狭めるために少数の裁判所が押し付けている。

Almost all courts to interpret Section 230 of the Communications Decency Act have construed its ambiguously worded immunity provision broadly, shielding Internet intermediaries from tort liability so long as they are not the literal authors of offensive content. Although this broad interpretation effects the basic goals of the statute, it ignores several serious textual difficulties and mistakenly extends protection too far by immunizing even direct participants in tortuous conduct. This analysis, which examines the text and history of Section 230 in light of two strains of pre-Internet vicarious liability defamation doctrine, concludes that the immunity provision of Section 230, though broad, was not intended to abrogate entirely traditional common law notions of vicarious liability. Some bases of vicarious liability remain, and their continuing validity both explains the textual puzzles courts have faced in applying Section 230 and undergirds the push by a small minority of courts to narrow the section's immunity provision.
翻訳日:2023-06-08 14:00:29 公開日:2023-06-05
# 自然言語処理の不確実性:出所、量化および応用

Uncertainty in Natural Language Processing: Sources, Quantification, and Applications ( http://arxiv.org/abs/2306.04459v1 )

ライセンス: Link先を確認
Mengting Hu, Zhen Zhang, Shiwan Zhao, Minlie Huang and Bingzhe Wu(参考訳) 人工知能のメインの分野として、自然言語処理(NLP)はディープニューラルネットワークを通じて大きな成功を収めている。 多くのNLPタスクが統一された方法で対処され、同じパラダイムを共有することで様々なタスクが互いに関連付けられている。 しかし、ニューラルネットワークはブラックボックスであり、確率計算に依存している。 ミスは避けられない。 したがって、ニューラルネットワークの信頼性と信頼性(つまり不確実性)を推定することは、モデルのリスクを低減し、より良い決定を下す上で重要な研究方向となる。 そこで本研究では,NLP分野における不確実性関連研究の総合的なレビューを行う。 データとパラダイムの特徴を考慮すると、まず自然言語における不確実性の源を入力、システム、出力の3つのタイプに分類する。 次に,不確実性定量化手法とその主な応用を体系的に検討する。 最後に,近年の動向を踏まえ,nlpにおける不確実性推定の課題を議論し,今後の方向性について検討する。 不確実性評価に関する調査はいくつかあるが、我々の研究はNLPの観点から初めて不確実性を評価するものである。

As a main field of artificial intelligence, natural language processing (NLP) has achieved remarkable success via deep neural networks. Plenty of NLP tasks have been addressed in a unified manner, with various tasks being associated with each other through sharing the same paradigm. However, neural networks are black boxes and rely on probability computation. Making mistakes is inevitable. Therefore, estimating the reliability and trustworthiness (in other words, uncertainty) of neural networks becomes a key research direction, which plays a crucial role in reducing models' risks and making better decisions. Therefore, in this survey, we provide a comprehensive review of uncertainty-relevant works in the NLP field. Considering the data and paradigms characteristics, we first categorize the sources of uncertainty in natural language into three types, including input, system, and output. Then, we systemically review uncertainty quantification approaches and the main applications. Finally, we discuss the challenges of uncertainty estimation in NLP and discuss potential future directions, taking into account recent trends in the field. Though there have been a few surveys about uncertainty estimation, our work is the first to review uncertainty from the NLP perspective.
翻訳日:2023-06-08 13:59:43 公開日:2023-06-05
# ビジネス変革の推進: ソフトウェア製品管理における生成aiのポジティブな影響と倫理的考察 - 体系的文献レビュー

Empowering Business Transformation: The Positive Impact and Ethical Considerations of Generative AI in Software Product Management -- A Systematic Literature Review ( http://arxiv.org/abs/2306.04605v1 )

ライセンス: Link先を確認
Nishant A. Parikh(参考訳) 生成型人工知能(gai:generative artificial intelligence)は近年、ソフトウェア製品管理に大きな影響を与え、優れた進歩を遂げている。 2016年から2023年までの関連する記事に基づいて、この体系的な文献評価は、この領域における生成AIの潜在的な応用、利益、および制約を明らかにする。 この研究は、テクノロジーがアイデアの生成、市場調査、顧客洞察、製品要求工学、製品開発を手助けできることを示しています。 自動コード生成、顧客からのフィードバック分析などを通じて、開発時間とコストの削減に役立つ。 しかし、技術の正確性、信頼性、倫理的考慮は継続している。 最終的に、生成AIの実践的応用は、ソフトウェア製品管理活動を大幅に改善し、リソースのより効率的な使用、製品結果の改善、エンドユーザエクスペリエンスの向上につながる。

Generative Artificial Intelligence (GAI) has made outstanding strides in recent years, with a good-sized impact on software product management. Drawing on pertinent articles from 2016 to 2023, this systematic literature evaluation reveals generative AI's potential applications, benefits, and constraints in this area. The study shows that technology can assist in idea generation, market research, customer insights, product requirements engineering, and product development. It can help reduce development time and costs through automatic code generation, customer feedback analysis, and more. However, the technology's accuracy, reliability, and ethical consideration persist. Ultimately, generative AI's practical application can significantly improve software product management activities, leading to more efficient use of resources, better product outcomes, and improved end-user experiences.
翻訳日:2023-06-08 13:13:42 公開日:2023-06-05
# モノトンGANを用いた条件サンプリング:生成モデルから自由推論へ

Conditional Sampling with Monotone GANs: from Generative Models to Likelihood-Free Inference ( http://arxiv.org/abs/2006.06755v3 )

ライセンス: Link先を確認
Ricardo Baptista, Bamdad Hosseini, Nikola B. Kovachki, Youssef Marzouk(参考訳) ブロック三角トランスポートマップを用いた確率測定の条件付きサンプリングのための新しいフレームワークを提案する。 我々は,バナッハ空間におけるブロック三角輸送の理論的基礎を構築し,条件付きサンプリングを実現するための一般的な条件を確立し,モノトンブロック三角写像と最適輸送の間の接続を描画する。 この理論に基づいて, 単調生成逆数ネットワーク (M-GAN) と呼ばれる計算手法を導入し, 適切なブロック三角形写像を学習する。 我々のアルゴリズムは、基礎となるジョイント確率測定のサンプルのみを使用し、したがって確率のない。 m-ganを用いた数値実験では、合成例における条件付測度の正確なサンプリング、通常の偏微分方程式を含むベイズ逆問題、およびペイント中の確率的イメージが示されている。

We present a novel framework for conditional sampling of probability measures, using block triangular transport maps. We develop the theoretical foundations of block triangular transport in a Banach space setting, establishing general conditions under which conditional sampling can be achieved and drawing connections between monotone block triangular maps and optimal transport. Based on this theory, we then introduce a computational approach, called monotone generative adversarial networks (M-GANs), to learn suitable block triangular maps. Our algorithm uses only samples from the underlying joint probability measure and is hence likelihood-free. Numerical experiments with M-GAN demonstrate accurate sampling of conditional measures in synthetic examples, Bayesian inverse problems involving ordinary and partial differential equations, and probabilistic image in-painting.
翻訳日:2023-06-08 00:27:55 公開日:2023-06-05
# 信頼性のある機械学習における対称的損失視点

A Symmetric Loss Perspective of Reliable Machine Learning ( http://arxiv.org/abs/2101.01366v2 )

ライセンス: Link先を確認
Nontawat Charoenphakdee, Jongyeong Lee, Masashi Sugiyama(参考訳) 二分分類における経験的リスクを最小化する場合、ゼロワン損失を代理損失に置き換え、学習目標を最適化可能にするのが一般的である。 二元分類におけるよく知られた代理損失の例としては、ロジスティック損失、ヒンジ損失、およびsgmoid損失がある。 代理損失の選択は、訓練された分類器の性能に大きな影響を与えることが知られており、慎重に選択すべきである。 近年,ある種の対称的条件(例えば対称的損失)を満たす代理的損失は,劣化ラベルから学習に有用であることが示されている。 本稿では,対称損失とその応用について概観する。 まず, 平衡誤差率 (BER) の最小化と受信動作特性曲線 (AUC) の最大化の下での領域において, 破損したラベルから対称損失が頑健に分類できることを示す。 そこで本研究では,関連キーワードや未ラベル文書からのみ学習したいという問題に対して,AUCの頑健な最大化手法が自然言語処理にどのように役立つかを実証する。 最後に、信頼度の高い機械学習における対称損失の潜在的な応用や、対称条件の恩恵を受ける非対称損失の設計など、今後の方向性について論じる。

When minimizing the empirical risk in binary classification, it is a common practice to replace the zero-one loss with a surrogate loss to make the learning objective feasible to optimize. Examples of well-known surrogate losses for binary classification include the logistic loss, hinge loss, and sigmoid loss. It is known that the choice of a surrogate loss can highly influence the performance of the trained classifier and therefore it should be carefully chosen. Recently, surrogate losses that satisfy a certain symmetric condition (aka., symmetric losses) have demonstrated their usefulness in learning from corrupted labels. In this article, we provide an overview of symmetric losses and their applications. First, we review how a symmetric loss can yield robust classification from corrupted labels in balanced error rate (BER) minimization and area under the receiver operating characteristic curve (AUC) maximization. Then, we demonstrate how the robust AUC maximization method can benefit natural language processing in the problem where we want to learn only from relevant keywords and unlabeled documents. Finally, we conclude this article by discussing future directions, including potential applications of symmetric losses for reliable machine learning and the design of non-symmetric losses that can benefit from the symmetric condition.
翻訳日:2023-06-08 00:21:17 公開日:2023-06-05
# インターネットトラフィック分類のための軽量で効率的で説明可能な畳み込みニューラルネットワーク

A Lightweight, Efficient and Explainable-by-Design Convolutional Neural Network for Internet Traffic Classification ( http://arxiv.org/abs/2202.05535v4 )

ライセンス: Link先を確認
Kevin Fauvel, Fuxing Chen, Dario Rossi(参考訳) トラフィック分類、すなわちネットワーク内を流れるアプリケーションの種類を特定することは、多数のアクティビティ(例えば侵入検出、ルーティング)にとって戦略的タスクである。 この課題は、現在のディープラーニングアプローチでは対処できないいくつかの重要な課題に直面します。 現在のアプローチの設計は、ネットワークハードウェア(例えばルータ)がしばしば限られた計算リソースで実行されるという事実を考慮していない。 さらに、規制機関が強調した忠実な説明性の必要性も満たさない。 最後に、これらのトラフィック分類器は、現実世界の設定におけるアプリケーションの多様性を反映しない小さなデータセットで評価される。 そこで本稿では,インターネットトラフィック分類のための新しい軽量・効率的・eXPlainable-by-designed convolutional Neural Network (LEXNet)を提案する。 商用グレードのデータセットに基づいて、LEXNetは、前述の追加機能を提供しながら、最先端のニューラルネットワークと同じ精度を維持することに成功した。 さらに,検出されたアプリケーションプロトタイプをエンドユーザーへ通信することに由来する提案手法の説明可能性の特徴を述べるとともに,ポストホック法との比較により,LEXNetの説明の忠実さを強調した。

Traffic classification, i.e. the identification of the type of applications flowing in a network, is a strategic task for numerous activities (e.g., intrusion detection, routing). This task faces some critical challenges that current deep learning approaches do not address. The design of current approaches do not take into consideration the fact that networking hardware (e.g., routers) often runs with limited computational resources. Further, they do not meet the need for faithful explainability highlighted by regulatory bodies. Finally, these traffic classifiers are evaluated on small datasets which fail to reflect the diversity of applications in real-world settings. Therefore, this paper introduces a new Lightweight, Efficient and eXplainable-by-design convolutional neural network (LEXNet) for Internet traffic classification, which relies on a new residual block (for lightweight and efficiency purposes) and prototype layer (for explainability). Based on a commercial-grade dataset, our evaluation shows that LEXNet succeeds to maintain the same accuracy as the best performing state-of-the-art neural network, while providing the additional features previously mentioned. Moreover, we illustrate the explainability feature of our approach, which stems from the communication of detected application prototypes to the end-user, and we highlight the faithfulness of LEXNet explanations through a comparison with post hoc methods.
翻訳日:2023-06-08 00:11:52 公開日:2023-06-05
# 最適化1軸ツイストと回転による極端スピンスクイーズ

Extreme Spin Squeezing via Optimized One-Axis Twisting and Rotations ( http://arxiv.org/abs/2201.01744v2 )

ライセンス: Link先を確認
Sebastian C. Carrasco, Michael H. Goerz, Zeyang Li, Simone Colombo, Vladan Vuletic, and Vladimir S. Malinovsky(参考訳) 本稿ではラムゼー干渉計の最適圧縮状態を生成するための新しいスキームを提案する。 このスキームは1軸のツイストパルスと回転の交互列で構成され、どちらも実験的に実装が簡単である。 結果として得られる状態は、ハイゼンベルク限界に比例するメトロロジーゲインを示す。 また,一軸ねじれを実装したパルスの振幅に制約を課す場合や,光子散乱による現実的な損失を考慮した場合においても,ハイゼンベルクスケーリングが維持されることを示す。

We propose a novel scheme for the generation of optimal squeezed states for Ramsey interferometry. The scheme consists of an alternating series of one-axis twisting pulses and rotations, both of which are straightforward to implement experimentally. The resulting states show a metrological gain proportional to the Heisenberg limit. We demonstrate that the Heisenberg scaling is maintained even when placing constraints on the amplitude of the pulses implementing the one-axis twisting and when taking into account realistic losses due to photon scattering.
翻訳日:2023-06-08 00:10:17 公開日:2023-06-05
# 大規模言語モデルのリポジトリレベルプロンプト生成

Repository-Level Prompt Generation for Large Language Models of Code ( http://arxiv.org/abs/2206.12839v3 )

ライセンス: Link先を確認
Disha Shrivastava, Hugo Larochelle, Daniel Tarlow(参考訳) コードの大規模言語モデル(LLM)の成功とコードアシスタント(GitHub Copilotで使用されるコーデックスなど)の使用により、迅速な設計プロセスにドメイン固有の知識を導入する技術が重要になる。 本研究では,提案手法を用いて実例固有のプロンプトを生成するRepo-Level Prompt Generatorというフレームワークを提案する。 プロンプトの提案はレポジトリ全体からコンテキストを取り、レポジトリの構造と関連するファイル(例えば、インポート、親クラスファイル)からのコンテキストの両方を組み込む。 我々の手法はLLMの重量に一切アクセスする必要がなく、LCMへのブラックボックスアクセスしか持たない場合に適用できる。 我々は,Google Codeアーカイブから取得したコードリポジトリを用いて,単行コード自動補完のタスクについて実験を行った。 提案書から構築したオラクルは,Codexよりも36%高い相対的な改善を実現し,これらの提案の質を示している。 さらに,プロンプト提案を予測するためにモデルをトレーニングすると,codexや他のベースラインよりも大幅なパフォーマンス向上が期待できることを示す。 私たちは、コード、データ、トレーニング済みのチェックポイントを次のようにリリースします。

With the success of large language models (LLMs) of code and their use as code assistants (e.g. Codex used in GitHub Copilot), techniques for introducing domain-specific knowledge in the prompt design process become important. In this work, we propose a framework called Repo-Level Prompt Generator that learns to generate example-specific prompts using prompt proposals. The prompt proposals take context from the entire repository, thereby incorporating both the structure of the repository and the context from other relevant files (e.g. imports, parent class files). Our technique doesn't require any access to the weights of the LLM, making it applicable in cases where we only have black-box access to the LLM. We conduct experiments on the task of single-line code-autocompletion using code repositories taken from Google Code archives. We demonstrate that an oracle constructed from our prompt proposals gives a remarkably high relative improvement of 36% over Codex, showing the quality of these proposals. Further, we show that when we train a model to predict a prompt proposal, we can achieve significant performance gains over Codex and other baselines. We release our code, data, and trained checkpoints at: \url{https://github.com/shrivastavadisha/repo_level_prompt_generation}.
翻訳日:2023-06-07 23:52:42 公開日:2023-06-05
# 再合成予測のための2段階グラフ生成モデルとして$\mathsf{g^2retro}$

$\mathsf{G^2Retro}$ as a Two-Step Graph Generative Models for Retrosynthesis Prediction ( http://arxiv.org/abs/2206.04882v3 )

ライセンス: Link先を確認
Ziqi Chen, Oluwatosin R. Ayinde, James R. Fuchs, Huan Sun, Xia Ning(参考訳) 再合成は、標的分子が潜在的反応物質に変換され、合成経路を同定する過程である。 近年,合成経路の設計を高速化する計算手法が開発されている。 本稿では,一段階のレトロシンセシス予測のための生成フレームワーク $\mathsf{g^2retro}$ を開発した。 $\mathsf{G^2Retro}$は合成反応の逆論理を模倣する。 まずターゲット分子(生成物)の反応中心を予測し、生成物を組み立てるために必要な合成物を特定し、これらの合成物を反応物に変換する。 $\mathsf{g^2retro}$は総合的な反応中心型を定義し、製品の分子グラフから学び、潜在的な反応中心を予測する。 反応物への合成を完遂するために、$\mathsf{g^2retro}$ は関連する全ての合成物構造と生成物構造を考え、最適な完了経路を同定し、そのため、合成物に順次小さな部分構造を付加する。 ここで、$\mathsf{g^2retro}$は、最先端のメソッドよりも、ベンチマークデータセットで与えられた製品に対する反応物質をより正確に予測できることを示す。

Retrosynthesis is a procedure where a target molecule is transformed into potential reactants and thus the synthesis routes can be identified. Recently, computational approaches have been developed to accelerate the design of synthesis routes. In this paper, we develop a generative framework $\mathsf{G^2Retro}$ for one-step retrosynthesis prediction. $\mathsf{G^2Retro}$ imitates the reversed logic of synthetic reactions. It first predicts the reaction centers in the target molecules (products), identifies the synthons needed to assemble the products, and transforms these synthons into reactants. $\mathsf{G^2Retro}$ defines a comprehensive set of reaction center types, and learns from the molecular graphs of the products to predict potential reaction centers. To complete synthons into reactants, $\mathsf{G^2Retro}$ considers all the involved synthon structures and the product structures to identify the optimal completion paths, and accordingly attaches small substructures sequentially to the synthons. Here we show that $\mathsf{G^2Retro}$ is able to better predict the reactants for given products in the benchmark dataset than the state-of-the-art methods.
翻訳日:2023-06-07 23:50:16 公開日:2023-06-05
# LHCにおけるトップクォークの量子不協和と操舵

Quantum discord and steering in top quarks at the LHC ( http://arxiv.org/abs/2209.03969v2 )

ライセンス: Link先を確認
Yoav Afik and Juan Ram\'on Mu\~noz de Nova(参考訳) 近年、トップクォークは高エネルギースケールで量子情報を研究するための有望なシステムであることが示されている。 現在の研究では、主に絡み合い、ベル非局所性、量子トモグラフィなどの話題について議論している。 ここでは、トップクォークにおける量子相関の全体像を、量子ディスコルドとステアリングの研究によって提示する。 両方の現象がlhcに存在することが判明した。 特に、分離可能な量子状態における量子不一致は、高い統計的重要性で検出される。 興味深いことに、測定プロセスの特異性により、量子ディスコルドは元の定義に従って測定することができ、ステアリング楕円体は実験的に再構築できる。 絡み合いとは対照的に、量子ディスコードとステアリングの非対称性は標準模型を超えてcp$違反物理学を目撃することができる。

Top quarks have been recently shown to be a promising system to study quantum information at the highest-energy scale available. The current lines of research mostly discuss topics such as entanglement, Bell nonlocality or quantum tomography. Here, we provide the full picture of quantum correlations in top quarks by studying also quantum discord and steering. We find that both phenomena are present at the LHC. In particular, quantum discord in a separable quantum state is expected to be detected with high-statistical significance. Interestingly, due to the singular nature of the measurement process, quantum discord can be measured following its original definition, and the steering ellipsoid can be experimentally reconstructed, both highly-demanding measurements in conventional setups. In contrast to entanglement, the asymmetric nature of quantum discord and steering can provide witnesses of $CP$-violating physics beyond the Standard Model.
翻訳日:2023-06-07 22:06:04 公開日:2023-06-05
# ノイズ誘導復号による量子誤差補正

Quantum Error Correction via Noise Guessing Decoding ( http://arxiv.org/abs/2208.02744v2 )

ライセンス: Link先を確認
Diogo Cruz, Francisco A. Monteiro, Bruno C. Coutinho(参考訳) 量子誤り訂正符号(QECC)は、量子通信と量子計算の両方において中心的な役割を果たす。 スタビライザ符号のような実用的な量子誤り訂正符号は、一般に特定の用途に適合するように構成され、厳格な符号長と符号レートを示す。 本稿では,コードレートが十分高い場合の任意のコード長に対して,有限ブロック長規則の最大性能を達成できるQECCの構築と復号化が可能であることを示す。 最近提案されたGRAND (guessing random additive noise decoding) と呼ばれる古典的符号の復号化戦略は、有限ブロック長規則の最大値付近で実行される古典的ランダム線形符号 (RLC) を効率的に復号する扉を開いた。 ノイズ統計を用いて、grandは、単純なコードメンバーシップテストが存在する限り、古典的なコードのためのノイズ中心の効率的なユニバーサルデコーダである。 これらの条件は特に量子システムに適しているため、この論文はこれらの概念を量子ランダム線形符号 (qrlcs) に拡張している。 本稿では,QRLCと新たに提案した量子GRANDを組み合わせることで,変化する条件に適応可能なQECCを復号化可能であることを示す。 本論文は、QRLCの漸近的性能に到達するために必要な符号化回路のゲート数を最小化することから始まり、その後、適応的なコードメンバーシップテストを構築するだけでなく、シンドロームデコーディングを効率的に実装するために、量子ノイズ統計を利用する量子GRANDアルゴリズムを提案する。

Quantum error correction codes (QECCs) play a central role in both quantum communications and quantum computation. Practical quantum error correction codes, such as stabilizer codes, are generally structured to suit a specific use, and present rigid code lengths and code rates. This paper shows that it is possible to both construct and decode QECCs that can attain the maximum performance of the finite blocklength regime, for any chosen code length when the code rate is sufficiently high. A recently proposed strategy for decoding classical codes called GRAND (guessing random additive noise decoding) opened doors to efficiently decode classical random linear codes (RLCs) performing near the maximum rate of the finite blocklength regime. By using noise statistics, GRAND is a noise-centric efficient universal decoder for classical codes, provided that a simple code membership test exists. These conditions are particularly suitable for quantum systems, and therefore the paper extends these concepts to quantum random linear codes (QRLCs), which were known to be possible to construct but whose decoding was not yet feasible. By combining QRLCs and a newly proposed quantum GRAND, this paper shows that it is possible to decode QECCs that are easy to adapt to changing conditions. The paper starts by assessing the minimum number of gates in the coding circuit needed to reach the QRLCs' asymptotic performance, and subsequently proposes a quantum GRAND algorithm that makes use of quantum noise statistics, not only to build an adaptive code membership test, but also to efficiently implement syndrome decoding.
翻訳日:2023-06-07 22:04:09 公開日:2023-06-05
# 個別治療効果推定のための伝達学習

Transfer Learning for Individual Treatment Effect Estimation ( http://arxiv.org/abs/2210.00380v3 )

ライセンス: Link先を確認
Ahmed Aloui, Juncheng Dong, Cat P. Le, Vahid Tarokh(参考訳) 本研究は、個別処理効果推定(ITE)タスク間で因果知識を伝達する問題を考察する。 そこで我々は,ite知識の伝達可能性について理論的に評価し,効率的な伝達のための実践的枠組みを提案する。 対象タスクの ite エラーに対して下限を導入することで,ite の知識伝達が偽情報がないために困難であることを実証する。 それにもかかわらず,目標課題の非事実的損失と ite 誤りに対する一般化を定め,ite の知識伝達の可能性を示す。 次に, ite知識伝達のための新しい因果推論タスク親和性尺度(cita)を用いたフレームワークを提案する。 具体的には、CITAを用いて、ターゲットタスクに最も近いソースタスクを見つけ、ITTの知識伝達に利用する。 提案手法の有効性を実証した実証研究が提供される。 ITEの知識伝達は,ITE推定に必要なデータ量を大幅に削減できる(最大95%)。

This work considers the problem of transferring causal knowledge between tasks for Individual Treatment Effect (ITE) estimation. To this end, we theoretically assess the feasibility of transferring ITE knowledge and present a practical framework for efficient transfer. A lower bound is introduced on the ITE error of the target task to demonstrate that ITE knowledge transfer is challenging due to the absence of counterfactual information. Nevertheless, we establish generalization upper bounds on the counterfactual loss and ITE error of the target task, demonstrating the feasibility of ITE knowledge transfer. Subsequently, we introduce a framework with a new Causal Inference Task Affinity (CITA) measure for ITE knowledge transfer. Specifically, we use CITA to find the closest source task to the target task and utilize it for ITE knowledge transfer. Empirical studies are provided, demonstrating the efficacy of the proposed method. We observe that ITE knowledge transfer can significantly (up to 95%) reduce the amount of data required for ITE estimation.
翻訳日:2023-06-07 21:55:44 公開日:2023-06-05
# 量子位相解析によるエンコードデータのマッピングの理解

Understanding the Mapping of Encode Data Through An Implementation of Quantum Topological Analysis ( http://arxiv.org/abs/2209.10596v4 )

ライセンス: Link先を確認
Andrew Vlasic and Anh Pham(参考訳) 量子機械学習の潜在的な利点は、量子回路を用いて古典データを高次元複素ヒルベルト空間に符号化する能力にある。 近年の研究では、特定のパラメータ化された回路構造が他のものよりも表現力が高いため、古典データを表現する場合、全ての符号化方法が同じではないことが示されている。 本研究では,複素ヒルベルト空間に埋め込まれたデータのトポロジーを調べることにより,符号化技術の差異を可視化できることを示す。 可視化のテクニックは、境界作用素の単純な対角化を用いて永続ベッチ数と永続ホモロジーグラフを計算するハイブリッド量子ベースの位相解析である。 NISQフレームワーク内でのベッチ数の計算量を増やすために,単純なハイブリッドアルゴリズムを提案する。 合成データ集合の照明例と、角度符号化、振幅符号化、およびiqp符号化の方法を通して、符号化方法と元のデータとの位相的差異を明らかにする。 その結果,クラスタリングや分類などの下流分析に強く影響を与えるため,異なる量子機械学習モデルにおいて,符号化手法を慎重に検討する必要があることが示唆された。

A potential advantage of quantum machine learning stems from the ability of encoding classical data into high dimensional complex Hilbert space using quantum circuits. Recent studies exhibit that not all encoding methods are the same when representing classical data since certain parameterized circuit structures are more expressive than the others. In this study, we show the difference in encoding techniques can be visualized by investigating the topology of the data embedded in complex Hilbert space. The technique for visualization is a hybrid quantum based topological analysis which uses simple diagonalization of the boundary operators to compute the persistent Betti numbers and the persistent homology graph. To augment the computation of Betti numbers within a NISQ framework, we suggest a simple hybrid algorithm. Through a illuminating example of a synthetic data set and the methods of angle encoding, amplitude encoding, and IQP encoding, we reveal topological differences with the encoding methods, as well as the original data. Consequently, our results suggest the encoding method needs to be considered carefully within different quantum machine learning models since it can strongly affect downstream analysis like clustering or classification.
翻訳日:2023-06-07 21:53:21 公開日:2023-06-05
# 質問応答のための構造化知識基盤

Structured Knowledge Grounding for Question Answering ( http://arxiv.org/abs/2209.08284v3 )

ライセンス: Link先を確認
Yujie Lu, Siqi Ouyang, Kairui Zhou(参考訳) 言語モデル(lm) 基礎的質問応答(qa)タスクは、固有の関係推論能力を通じてナレッジベースで実現できるか? LMのみを使用する以前のモデルは、多くのQAタスクでいくつかの成功を収めてきたが、より最近の手法には、論理駆動の暗黙の知識でLMを補完する知識グラフ(KG)が含まれる。 しかしながら、KGsのような構造化データから効果的に情報を抽出することで、LMがオープンな質問を継続する権限を与え、現在のモデルは知識を抽出するためにグラフ技術に依存している。 本稿では,知識に基づく質問応答のための言語と知識を,柔軟性,範囲の広さ,構造化推論との組み合わせにのみ活用することを提案する。 具体的には,従来のGNN技術よりも包括性を表現した動的ホップを用いて,関連するコンテキストを検索する知識構築手法を考案する。 そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。 広汎な実験により,我々のモデルはCommensenseQAベンチマークの最先端性能を常に実証し,知識ベースにしっかりとQAを基盤としてのみLMを活用する可能性を示している。

Can language models (LM) ground question-answering (QA) tasks in the knowledge base via inherent relational reasoning ability? While previous models that use only LMs have seen some success on many QA tasks, more recent methods include knowledge graphs (KG) to complement LMs with their more logic-driven implicit knowledge. However, effectively extracting information from structured data, like KGs, empowers LMs to remain an open question, and current models rely on graph techniques to extract knowledge. In this paper, we propose to solely leverage the LMs to combine the language and knowledge for knowledge based question-answering with flexibility, breadth of coverage and structured reasoning. Specifically, we devise a knowledge construction method that retrieves the relevant context with a dynamic hop, which expresses more comprehensivenes than traditional GNN-based techniques. And we devise a deep fusion mechanism to further bridge the information exchanging bottleneck between the language and the knowledge. Extensive experiments show that our model consistently demonstrates its state-of-the-art performance over CommensenseQA benchmark, showcasing the possibility to leverage LMs solely to robustly ground QA into the knowledge base.
翻訳日:2023-06-07 21:53:03 公開日:2023-06-05
# less is more: 言語モデル圧縮のためのタスクアウェア層別蒸留

Less is More: Task-aware Layer-wise Distillation for Language Model Compression ( http://arxiv.org/abs/2210.01351v3 )

ライセンス: Link先を確認
Chen Liang, Simiao Zuo, Qingru Zhang, Pengcheng He, Weizhu Chen, Tuo Zhao(参考訳) 層ワイド蒸留は、大きなモデル(すなわち教師モデル)を小さなモデル(すなわち学生モデル)に圧縮する強力なツールである。 生徒は、中間層ごとに教師の隠れた表現を模倣して、教師からの知識を蒸留する。 しかし, 層間蒸留は困難である。 生徒は教師よりもモデル能力が小さいため、しばしば不適合である。 さらに、教師の隠れた表現には、生徒が必ずしも対象タスクの学習に必要としない冗長な情報が含まれている。 これらの課題に対処するために,新しいタスク対応ライEr-wise Distillation (TED)を提案する。 tedは、各層で生徒と教師の隠れた表現を調整するタスク対応フィルタを設計している。 フィルタは、隠れた表現からターゲットタスクに有用な知識を選択する。 そのため、TEDは2つのモデルの知識ギャップを減らし、学生が目的のタスクに適合するのに役立つ。 TEDを連続的な事前学習と微調整の2つのシナリオで評価した。 TEDは、両方のシナリオで既存の蒸留法よりも顕著で一貫した改善を示している。 コードはhttps://github.com/cliang1453/task-aware-distillationで入手できる。

Layer-wise distillation is a powerful tool to compress large models (i.e. teacher models) into small ones (i.e., student models). The student distills knowledge from the teacher by mimicking the hidden representations of the teacher at every intermediate layer. However, layer-wise distillation is difficult. Since the student has a smaller model capacity than the teacher, it is often under-fitted. Furthermore, the hidden representations of the teacher contain redundant information that the student does not necessarily need for the target task's learning. To address these challenges, we propose a novel Task-aware layEr-wise Distillation (TED). TED designs task-aware filters to align the hidden representations of the student and the teacher at each layer. The filters select the knowledge that is useful for the target task from the hidden representations. As such, TED reduces the knowledge gap between the two models and helps the student to fit better on the target task. We evaluate TED in two scenarios: continual pre-training and fine-tuning. TED demonstrates significant and consistent improvements over existing distillation methods in both scenarios. Code is available at https://github.com/cliang1453/task-aware-distillation.
翻訳日:2023-06-07 21:43:44 公開日:2023-06-05
# 野生における発生顔:安定拡散, ミッドジャーニーおよびDALL-E 2の定量的比較

Generated Faces in the Wild: Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2 ( http://arxiv.org/abs/2210.00586v2 )

ライセンス: Link先を確認
Ali Borji(参考訳) 画像合成の分野では、ここ数年で大きな進歩を遂げています。 最近のモデルは驚くべき品質で画像を生成することができる。 顔などの興味深いカテゴリにおけるこれらのモデルのきめ細かい評価はいまだに欠けている。 ここでは, 安定拡散, ミッドジャーニー, DALL-E2 の3つの人気システムを, 野生の光現実的顔を生成する能力について定量的に比較する。 FIDスコアによると、安定拡散は他のシステムよりも優れた顔を生成する。 また,GFWと呼ばれる野生の顔のデータセットも導入し,総顔数は15,076面である。 さらに,本研究が生成モデルの評価と改善のフォローアップ研究を促進することを願っている。 データとコードは、それぞれデータとコードで利用可能である。

The field of image synthesis has made great strides in the last couple of years. Recent models are capable of generating images with astonishing quality. Fine-grained evaluation of these models on some interesting categories such as faces is still missing. Here, we conduct a quantitative comparison of three popular systems including Stable Diffusion, Midjourney, and DALL-E 2 in their ability to generate photorealistic faces in the wild. We find that Stable Diffusion generates better faces than the other systems, according to the FID score. We also introduce a dataset of generated faces in the wild dubbed GFW, including a total of 15,076 faces. Furthermore, we hope that our study spurs follow-up research in assessing the generative models and improving them. Data and code are available at data and code, respectively.
翻訳日:2023-06-07 21:43:07 公開日:2023-06-05
# アウト・オブ・ディストリビューション一般化のための最適化選択に関する実証的研究

Empirical Study on Optimizer Selection for Out-of-Distribution Generalization ( http://arxiv.org/abs/2211.08583v3 )

ライセンス: Link先を確認
Hiroki Naganuma, Kartik Ahuja, Shiro Takagi, Tetsuya Motokawa, Rio Yokota, Kohta Ishikawa, Ikuro Sato, Ioannis Mitliagkas(参考訳) 現代のディープラーニングシステムは、テストデータ分布がトレーニングデータ分布とわずかに異なる場合、うまく一般化しない。 この脆弱性に対処するために多くの有望な研究がなされているが、オプティマイザの役割とその分散一般化性能に関する体系的な研究は行われていない。 本研究では,経験的リスク最小化と不変リスク最小化の下での分布シフトの異なるクラスに対する一般的な一階最適化器の性能について検討する。 本稿では,異なるタイプのシフトを研究するためのテストベッドとして,DomainBed,WILDS,バックグラウンドチャレンジを用いた画像とテキストの分類に対処する。 我々は,幅広いハイパーパラメータを探索し,20,000モデル以上の分類精度(分布内および分布外)を検証した。 私たちは以下の結果にたどり着き、実践者に役立つと期待しています。 i)適応オプティマイザ(例えばAdam)は、非適応オプティマイザ(例えば、SGD、運動量SGD)よりも分配性能が劣る。 特に,分布内性能に有意な差はみられなかったが,分布外性能に有意差が認められた。 二 分配内性能及び分配外性能は、データセットに応じて、リニアリターン、リターンの増大、リターンの低下の3つのタイプの振舞いを示す。 例えば、Adamを用いた自然言語データのトレーニングでは、分布内性能の微調整は分布外一般化性能に大きく寄与しない。

Modern deep learning systems do not generalize well when the test data distribution is slightly different to the training data distribution. While much promising work has been accomplished to address this fragility, a systematic study of the role of optimizers and their out-of-distribution generalization performance has not been undertaken. In this study, we examine the performance of popular first-order optimizers for different classes of distributional shift under empirical risk minimization and invariant risk minimization. We address this question for image and text classification using DomainBed, WILDS, and Backgrounds Challenge as testbeds for studying different types of shifts -- namely correlation and diversity shift. We search over a wide range of hyperparameters and examine classification accuracy (in-distribution and out-of-distribution) for over 20,000 models. We arrive at the following findings, which we expect to be helpful for practitioners: i) adaptive optimizers (e.g., Adam) perform worse than non-adaptive optimizers (e.g., SGD, momentum SGD) on out-of-distribution performance. In particular, even though there is no significant difference in in-distribution performance, we show a measurable difference in out-of-distribution performance. ii) in-distribution performance and out-of-distribution performance exhibit three types of behavior depending on the dataset -- linear returns, increasing returns, and diminishing returns. For example, in the training of natural language data using Adam, fine-tuning the performance of in-distribution performance does not significantly contribute to the out-of-distribution generalization performance.
翻訳日:2023-06-07 21:36:12 公開日:2023-06-05
# バイアスリーク保護属性のクエリは可能か? Smooth Sensitivityでプライバシーを達成

Can Querying for Bias Leak Protected Attributes? Achieving Privacy With Smooth Sensitivity ( http://arxiv.org/abs/2211.02139v2 )

ライセンス: Link先を確認
Faisal Hamman, Jiahao Chen, Sanghamitra Dutta(参考訳) 既存の規制は、モデル開発者が保護された属性(性別、人種など)にアクセスすることを禁止しており、しばしば保護されたグループを知らずに、人口に対する公平な評価をもたらす。 このようなシナリオでは、モデル開発者(保護された属性にアクセスできないモデルをトレーニングする)とコンプライアンスチーム(監査目的でデータセット全体にアクセスする可能性がある)を分離することが多い。 しかし、モデル開発者は、コンプライアンスチームにグループフェアネスメトリクスを問い合わせることで、バイアスのためにモデルをテストすることが許されるかもしれない。 本稿では,まず,統計的パリティや等化オッズといった公平度メトリクスのクエリが,個々の保護属性をモデル開発者に漏らす可能性があることを実証する。 テストデータセット内の対象個人の保護された属性を1つのクエリから識別できる戦略は常に存在することを実証する。 特に,圧縮センシング技術(n:テストデータセットのサイズ,Nk:最小グループのサイズ)を用いて,O(Nk \log(n /Nk))クエリから全個人の保護属性を再構成できることが示されている。 我々の結果は、アルゴリズムの公正性に関して興味深い議論を巻き起こしている: 公正度メトリクスのクエリは、規制の遵守を保証する中立的なソリューションと見なすべきだろうか? あるいは、モデル開発者が特定の個人の保護された属性を識別するのに十分なクエリ数であれば、規制やプライバシの侵害になるのでしょうか? また,この違反に対処するため,ノイズをバイアスクエリのスムーズな感度に調整し,Laplace機構のようなナイーブな手法よりも優れたノイズを識別する新しい手法であるAttribute-Concealを提案する。 また、成人データセットと合成データに関する実験結果も含む。

Existing regulations prohibit model developers from accessing protected attributes (gender, race, etc.), often resulting in fairness assessments on populations without knowing their protected groups. In such scenarios, institutions often adopt a separation between the model developers (who train models with no access to the protected attributes) and a compliance team (who may have access to the entire dataset for auditing purposes). However, the model developers might be allowed to test their models for bias by querying the compliance team for group fairness metrics. In this paper, we first demonstrate that simply querying for fairness metrics, such as statistical parity and equalized odds can leak the protected attributes of individuals to the model developers. We demonstrate that there always exist strategies by which the model developers can identify the protected attribute of a targeted individual in the test dataset from just a single query. In particular, we show that one can reconstruct the protected attributes of all the individuals from O(Nk \log( n /Nk)) queries when Nk<<n using techniques from compressed sensing (n: size of the test dataset, Nk: size of smallest group). Our results pose an interesting debate in algorithmic fairness: should querying for fairness metrics be viewed as a neutral-valued solution to ensure compliance with regulations? Or, does it constitute a violation of regulations and privacy if the number of queries answered is enough for the model developers to identify the protected attributes of specific individuals? To address this supposed violation, we also propose Attribute-Conceal, a novel technique that achieves differential privacy by calibrating noise to the smooth sensitivity of our bias query, outperforming naive techniques such as the Laplace mechanism. We also include experimental results on the Adult dataset and synthetic data.
翻訳日:2023-06-07 21:34:58 公開日:2023-06-05
# 不規則なマルチモーダル電子健康記録モデルによる医療予測の改善

Improving Medical Predictions by Irregular Multimodal Electronic Health Records Modeling ( http://arxiv.org/abs/2210.12156v2 )

ライセンス: Link先を確認
Xinlu Zhang, Shiyang Li, Zhiyu Chen, Xifeng Yan, Linda Petzold(参考訳) 集中治療室(icus)の患者の健康状態は、不規則な時間間隔で、数値的な時系列と長い臨床記録からなる電子健康記録(ehrs)によって監視される。 あらゆるモダリティにおいてそのような不規則性に対処し、医療予測を改善するために多モーダル表現に不規則性を統合することは難しい問題である。 本手法は,(1)手作りのインプット埋め込みを学習補間埋め込みにゲーティング機構を介して動的に組み込んだ不規則な時系列をモデル化し,(2)多変量不規則な時系列として一連の臨床メモをキャストし,時間的注意機構を介して不規則に対処する。 さらに,マルチモーダル融合における不規則性と,時間的ステップ間の間欠的注意機構を統合する。 私たちの知る限りでは、医療予測を改善するためにマルチモーダリティの不規則性を徹底的にモデル化する最初の作業です。 2つの医療予測タスクのための提案手法は,各単一モードおよびマルチモーダル融合シナリオにおいて,常に最先端(SOTA)ベースラインを上回っている。 具体的には,f1の6.5\%,3.6\%,4.3\%の相対的改善を時系列,臨床ノート,マルチモーダル融合で観察した。 これらの結果は,マルチモーダルEHRにおける手法の有効性と不規則性を考慮したことの重要性を示す。

Health conditions among patients in intensive care units (ICUs) are monitored via electronic health records (EHRs), composed of numerical time series and lengthy clinical note sequences, both taken at irregular time intervals. Dealing with such irregularity in every modality, and integrating irregularity into multimodal representations to improve medical predictions, is a challenging problem. Our method first addresses irregularity in each single modality by (1) modeling irregular time series by dynamically incorporating hand-crafted imputation embeddings into learned interpolation embeddings via a gating mechanism, and (2) casting a series of clinical note representations as multivariate irregular time series and tackling irregularity via a time attention mechanism. We further integrate irregularity in multimodal fusion with an interleaved attention mechanism across temporal steps. To the best of our knowledge, this is the first work to thoroughly model irregularity in multimodalities for improving medical predictions. Our proposed methods for two medical prediction tasks consistently outperforms state-of-the-art (SOTA) baselines in each single modality and multimodal fusion scenarios. Specifically, we observe relative improvements of 6.5\%, 3.6\%, and 4.3\% in F1 for time series, clinical notes, and multimodal fusion, respectively. These results demonstrate the effectiveness of our methods and the importance of considering irregularity in multimodal EHRs.
翻訳日:2023-06-07 21:34:10 公開日:2023-06-05
# SmoothQuant:大規模言語モデルの高精度かつ効率的なポストトレーニング量子化

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models ( http://arxiv.org/abs/2211.10438v5 )

ライセンス: Link先を確認
Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, Song Han(参考訳) 大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約である。 量子化はメモリを減らし、推論を加速する。 しかし、既存の手法では精度とハードウェアの効率を同時に維持できない。 llmsの8ビットウェイト、8ビットアクティベーション(w8a8)量子化を実現するため,ptqソリューションであるsmoothquantを提案する。 SmoothQuantは、活性化中に重みが量子化しやすいという事実に基づいて、数学的に等価な変換で、活性化から重みへの量子化の難しさをオフラインで移動させることにより、アクティベーションアウトリーを滑らかにする。 SmoothQuantは、OPT、BLOOM、GLM、MT-NLG、LLaMAファミリーを含むLLMのすべての行列乗法におけるウェイトとアクティベーションの両方のINT8量子化を可能にする。 llmでは最大1.56倍の高速化と2倍のメモリ削減が実現できた。 SmoothQuantは、単一のノード内で530B LLMを提供する。 私たちの仕事は、ハードウェアコストを削減し、LLMを民主化するターンキーソリューションを提供します。 コードはhttps://github.com/mit-han-lab/smoothquantで入手できる。

Large language models (LLMs) show excellent performance but are compute- and memory-intensive. Quantization can reduce memory and accelerate inference. However, existing methods cannot maintain accuracy and hardware efficiency at the same time. We propose SmoothQuant, a training-free, accuracy-preserving, and general-purpose post-training quantization (PTQ) solution to enable 8-bit weight, 8-bit activation (W8A8) quantization for LLMs. Based on the fact that weights are easy to quantize while activations are not, SmoothQuant smooths the activation outliers by offline migrating the quantization difficulty from activations to weights with a mathematically equivalent transformation. SmoothQuant enables an INT8 quantization of both weights and activations for all the matrix multiplications in LLMs, including OPT, BLOOM, GLM, MT-NLG, and LLaMA family. We demonstrate up to 1.56x speedup and 2x memory reduction for LLMs with negligible loss in accuracy. SmoothQuant enables serving 530B LLM within a single node. Our work offers a turn-key solution that reduces hardware costs and democratizes LLMs. Code is available at https://github.com/mit-han-lab/smoothquant.
翻訳日:2023-06-07 21:24:25 公開日:2023-06-05
# DISCO: 大規模言語モデルによる対物蒸留

DISCO: Distilling Counterfactuals with Large Language Models ( http://arxiv.org/abs/2212.10534v3 )

ライセンス: Link先を確認
Zeming Chen and Qiyue Gao and Antoine Bosselut and Ashish Sabharwal and Kyle Richardson(参考訳) 反証的に拡張されたデータでトレーニングされたモデルは、タスクの因果構造の表現を学習し、堅牢な一般化を可能にする。 しかし、高品質な偽データはほとんどのタスクで不足しており、大規模に生成するのは容易ではない。 クラウドソースされた場合、そのようなデータは一般的に規模や多様性に制限されるが、教師付き手法で生成された場合、新しいカウンターファクト次元に拡張する計算コストがかかる。 そこで本研究では,高品質な偽データの自動生成手法であるdisco (distilled counterfactual data) を提案する。 DISCOエンジニアは、大きな汎用言語モデルでフレーズ摂動を生成するよう促す。 そして、タスク固有の教師モデルがこれらの世代をフィルタリングし、高品質なカウンターファクトデータを蒸留する。 タスク非依存では、パイプラインを自然言語推論(NLI)タスクに適用し、NLIストレステスト(NLI stress test)のような挑戦的な評価において、disCO生成した偽物によりトレーニングされた比較的小さな学生モデルの方がより堅牢(6%絶対)であり、データ強化なしでトレーニングされたモデルと比較して分散(2%)を一般化する。 さらに、ディスコ拡張モデルは、3つの評価セットで反事実ペア間で10%一貫性があり、ディスコ拡張によりモデルがより確実に因果表現を学習できることを示している。 私たちのリポジトリは、https://github.com/eric11eca/discoで利用可能です。

Models trained with counterfactually augmented data learn representations of the causal structure of tasks, enabling robust generalization. However, high-quality counterfactual data is scarce for most tasks and not easily generated at scale. When crowdsourced, such data is typically limited in scale and diversity; when generated using supervised methods, it is computationally expensive to extend to new counterfactual dimensions. In this work, we introduce DISCO (DIStilled COunterfactual Data), a new method for automatically generating high quality counterfactual data at scale. DISCO engineers prompts to generate phrasal perturbations with a large general language model. Then, a task-specific teacher model filters these generations to distill high-quality counterfactual data. While task-agnostic, we apply our pipeline to the task of natural language inference (NLI) and find that on challenging evaluations such as the NLI stress test, comparatively smaller student models trained with DISCO generated counterfactuals are more robust (6% absolute) and generalize better across distributions (2%) compared to models trained without data augmentation. Furthermore, DISCO augmented models are 10% more consistent between counterfactual pairs on three evaluation sets, demonstrating that DISCO augmentation enables models to more reliably learn causal representations. Our repository is available at: https://github.com/eric11eca/disco
翻訳日:2023-06-07 21:15:46 公開日:2023-06-05
# QuantArt: 高視力に向けた画像スタイル転送の量子化

QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity ( http://arxiv.org/abs/2212.10431v2 )

ライセンス: Link先を確認
Siyu Huang, Jie An, Donglai Wei, Jiebo Luo, Hanspeter Pfister(参考訳) 既存のスタイル転送アルゴリズムのメカニズムは、ハイブリッド損失関数を最小化し、生成した画像をコンテンツとスタイルの両方において高い類似点へ押し上げることである。 しかし、このようなアプローチは視覚の忠実さを保証できない。つまり、生成されたアートワークは実際の作品と区別できない。 本稿では,高精細度スタイリングのためのQuantArtと呼ばれる新しいスタイル転送フレームワークを提案する。 QuantArtは、生成したアートワークの潜在表現を、ベクトル量子化による実際のアートワーク分布のセントロイドにプッシュする。 量子化および連続的な潜在表現を融合させることで、QuantArtはコンテンツ保存、スタイルの類似性、視覚的忠実度の観点から生成されたアートワークを柔軟に制御できる。 様々なスタイル転送設定の実験により、我々のQuantArtフレームワークは既存のスタイル転送方式に比べて、視覚的忠実度が著しく高いことが示されている。

The mechanism of existing style transfer algorithms is by minimizing a hybrid loss function to push the generated image toward high similarities in both content and style. However, this type of approach cannot guarantee visual fidelity, i.e., the generated artworks should be indistinguishable from real ones. In this paper, we devise a new style transfer framework called QuantArt for high visual-fidelity stylization. QuantArt pushes the latent representation of the generated artwork toward the centroids of the real artwork distribution with vector quantization. By fusing the quantized and continuous latent representations, QuantArt allows flexible control over the generated artworks in terms of content preservation, style similarity, and visual fidelity. Experiments on various style transfer settings show that our QuantArt framework achieves significantly higher visual fidelity compared with the existing style transfer methods.
翻訳日:2023-06-07 21:15:21 公開日:2023-06-05
# 量子ジャジンスキー等式の設定における射影仮説

Projection hypothesis in the setting for the quantum Jarzynski equality ( http://arxiv.org/abs/2212.07785v4 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) 射影量子計測は現代の量子力学において理論的に受け入れられた過程である。 しかし、その射影仮説は実験的に確立された経験則と見なされている。 本稿では,観測可能な全集合が制限された射影量子計測における射影仮説のハミルトニアン過程の実現に関する先行結果と,イベント読み取りに必要な作業(つまり,射影量子計測における情報的過程)に関する先行結果を組み合わせる。 次に、これら2つの相互独立な量子計測理論結果を同時に試験するための量子熱力学スキームを提案する。

Projective quantum measurement is a theoretically accepted process in modern quantum mechanics. However, its projection hypothesis is widely regarded as an experimentally established empirical law. In this paper, we combine a previous result regarding the realization of a Hamiltonian process of the projection hypothesis in projective quantum measurement, where the complete set of the observables is restricted, and a previous result regarding the work required for an event reading (i.e., the informatical process in projective quantum measurement). Then, a quantum thermodynamic scheme is proposed for experimentally testing these two mutually independent theoretical results of projective quantum measurement simultaneously.
翻訳日:2023-06-07 21:13:48 公開日:2023-06-05
# 累積回帰の下でのフェデレーション学習のための通信効率の良い適応アルゴリズム

A Communication-Efficient Adaptive Algorithm for Federated Learning under Cumulative Regret ( http://arxiv.org/abs/2301.08869v2 )

ライセンス: Link先を確認
Sudeep Salgia, Qing Zhao, Tamir Gabay, Kobi Cohen(参考訳) 中央サーバを介して接続されたM$のクライアントを持つ分散環境でのオンライン確率最適化の問題点を考察する。 学習地平線全体を通して送信されるビットの総数で測定される通信コストを低くして,順序最適累積後悔を実現する分散オンライン学習アルゴリズムを開発した。 これは、学習効率に対する単純な後悔のオフライン尺度に焦点を当てた既存の研究とは対照的である。 通信コストの全体論的な尺度は、各通信ラウンドの通信周波数とビット数を扱う一般的なアプローチからも離れている。

We consider the problem of online stochastic optimization in a distributed setting with $M$ clients connected through a central server. We develop a distributed online learning algorithm that achieves order-optimal cumulative regret with low communication cost measured in the total number of bits transmitted over the entire learning horizon. This is in contrast to existing studies which focus on the offline measure of simple regret for learning efficiency. The holistic measure for communication cost also departs from the prevailing approach that \emph{separately} tackles the communication frequency and the number of bits in each communication round.
翻訳日:2023-06-07 21:06:34 公開日:2023-06-05
# キラル幾何学における光子輸送による創発的スピン軌道結合

Emergent spin-orbit coupling through photon transport in chiral geometries ( http://arxiv.org/abs/2301.07231v3 )

ライセンス: Link先を確認
Jonah S. Peter, Stefan Ostermann, Susanne F. Yelin(参考訳) キラリティ(英: Chirality)は、ミラー対称性の欠如を表す幾何学的性質である。 キラル系は自然界においてユビキタスであり、複雑な生体分子からトポロジカル物質までのシステムで観測される非相互相互作用と関連している。 本稿では,双極子結合原子や分子のキラル配置が,時間反転対称性を破ることなくヘリカルフォトニック励起の一方向輸送を促進することを実証する。 このようなヘリシティ依存性のフォトニック輸送は、キラルセットアップによって誘導される創発的スピン軌道結合に由来することが示され、結果として非自明なトポロジー特性が生じる。 また,集団散逸が動力学に与える影響を考察し,多体コヒーレンスがヘリシティ依存光子放出を引き起こすことを見出した。 以上の結果から, キラリティ, トポロジー, 光子ヘリシティの密接な関係が示され, 自然界の分子光力学に寄与し, 短期量子シミュレーターで調べることができる。

Chirality, or handedness, is a geometrical property denoting a lack of mirror symmetry. Chiral systems are ubiquitous in nature and are associated with the non-reciprocal interactions observed in systems ranging from complex biomolecules to topological materials. Here, we demonstrate that chiral arrangements of dipole-coupled atoms or molecules can facilitate the unidirectional transport of helical photonic excitations without breaking time-reversal symmetry. We show that such helicity dependent photonic transport stems from an emergent spin-orbit coupling induced by the chiral setup, which in turn, results in nontrivial topological properties. We also examine the effects of collective dissipation on the dynamics and find that many-body coherences lead to helicity dependent photon emission: an effect we call helical superradiance. Our results demonstrate an intimate connection between chirality, topology, and photon helicity that may contribute to molecular photodynamics in nature and could be probed with near-term quantum simulators.
翻訳日:2023-06-07 21:05:58 公開日:2023-06-05
# NarrowBERT: タスク付き言語モデルの事前トレーニングと推論の高速化

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference ( http://arxiv.org/abs/2301.04761v2 )

ライセンス: Link先を確認
Haoxin Li, Phillip Keung, Daniel Cheng, Jungo Kasai, Noah A. Smith(参考訳) 大規模言語モデル事前学習は、自然言語処理における自己教師型学習の非常に成功した形態であるが、モデルと事前学習コーパスが時間とともに大きくなるにつれて、実行コストが増大する。 我々は,マスク言語モデルの事前学習のスループットを$2\times$ 以上向上させるトランスフォーマティブエンコーダである narrowbert を提案する。 NarrowBERTは、トランスフォーマーモデルにおいて、通常のトランスフォーマーエンコーダのように全てのトークンではなく、事前トレーニング中に各文のマスク付きトークンに対してのみ、自己アテンションクエリとフィードフォワード層が動作するようにスペーサーする。 また, mnli などの文符号化タスクの性能低下を最小限に抑えることで, 推定時のスループットを最大$3.5\times$ で向上させることを示した。 最後に,IMDBおよびAmazonレビューにおけるNarrowBERTの性能とCoNLL NERタスクについて検討し,標準BERT性能と同等であることを示す。

Large-scale language model pretraining is a very successful form of self-supervised learning in natural language processing, but it is increasingly expensive to perform as the models and pretraining corpora have become larger over time. We propose NarrowBERT, a modified transformer encoder that increases the throughput for masked language model pretraining by more than $2\times$. NarrowBERT sparsifies the transformer model such that the self-attention queries and feedforward layers only operate on the masked tokens of each sentence during pretraining, rather than all of the tokens as with the usual transformer encoder. We also show that NarrowBERT increases the throughput at inference time by as much as $3.5\times$ with minimal (or no) performance degradation on sentence encoding tasks like MNLI. Finally, we examine the performance of NarrowBERT on the IMDB and Amazon reviews classification and CoNLL NER tasks and show that it is also comparable to standard BERT performance.
翻訳日:2023-06-07 21:05:07 公開日:2023-06-05
# サイバー物理システムにおけるオンラインエラー検出のための深層強化学習

Deep Reinforcement Learning for Online Error Detection in Cyber-Physical Systems ( http://arxiv.org/abs/2302.01567v3 )

ライセンス: Link先を確認
Seyyedamirhossein Saeidi and Forouzan Fallah and Saeed Samieezafarghandi and Hamed Farbeh(参考訳) 信頼性はサイバー物理システム(CPS)の主要な設計基準の一つである。 これはCPSにいくつかの重要な応用があり、その失敗は破滅的であるからである。 したがって、CPSにおいて強いエラー検出と補正機構を用いることは避けられない。 CPSはセンサー、ネットワーク、マイクロコントローラを含む様々なユニットで構成されている。 これらのユニットは、いつでも故障状態にあり、発生した故障が誤った出力をもたらす可能性がある。 故障によりCPSのユニットが故障し、最終的にクラッシュする可能性がある。 従来のフォールトトレラントなアプローチには冗長時間、ハードウェア、情報、ソフトウェアなどがある。 しかし、これらのアプローチは低いエラーカバレッジ以外に大きなオーバーヘッドを課すため、適用性が制限される。 さらに、これらのアプローチでは、エラーの発生と検出の間の間隔が長すぎる。 本稿では,深層強化学習(drl)に基づいて,高い精度で誤りを検出できるだけでなく,非常に低い推論時間でエラー検出が可能な新しい誤り検出手法を提案する。 提案手法は,正規データから異なる種類のエラーを分類し,システムが故障するかどうかを予測できる。 評価結果から,提案手法の精度は2倍以上に向上し,推算時間も他の手法に比べて5倍以上に向上したことが示された。

Reliability is one of the major design criteria in Cyber-Physical Systems (CPSs). This is because of the existence of some critical applications in CPSs and their failure is catastrophic. Therefore, employing strong error detection and correction mechanisms in CPSs is inevitable. CPSs are composed of a variety of units, including sensors, networks, and microcontrollers. Each of these units is probable to be in a faulty state at any time and the occurred fault can result in erroneous output. The fault may cause the units of CPS to malfunction and eventually crash. Traditional fault-tolerant approaches include redundancy time, hardware, information, and/or software. However, these approaches impose significant overheads besides their low error coverage, which limits their applicability. In addition, the interval between error occurrence and detection is too long in these approaches. In this paper, based on Deep Reinforcement Learning (DRL), a new error detection approach is proposed that not only detects errors with high accuracy but also can perform error detection at the moment due to very low inference time. The proposed approach can categorize different types of errors from normal data and predict whether the system will fail. The evaluation results illustrate that the proposed approach has improved more than 2x in terms of accuracy and more than 5x in terms of inference time compared to other approaches.
翻訳日:2023-06-07 20:57:05 公開日:2023-06-05
# 局所グローバル蒸留による不均一データのフェデレーション仮想学習

Federated Virtual Learning on Heterogeneous Data with Local-global Distillation ( http://arxiv.org/abs/2303.02278v2 )

ライセンス: Link先を確認
Chun-Yin Huang, Ruinan Jin, Can Zhao, Daguang Xu, and Xiaoxiao Li(参考訳) 分散学習モデルにおけるフェデレーション学習(fl)のトレンドにもかかわらず、ヘテロジニアスデータでのトレーニングでは、パフォーマンス低下の影響を受けやすい。 加えて、FLの不可避性は同期、効率、プライバシといった課題に直面します。 近年,ローカルプライベートデータセットでトレーニングされたモデルのパフォーマンスを維持する,より小さな合成データセットを作成することにより,flの効率とスケーラビリティを向上させるためにデータセット蒸留が研究されている。 蒸留したローカルデータセットを使用することで,flの異種性問題の拡大が期待できる。 そこで本研究では,ローカル・グローバル蒸留(fedlgd)を用いたヘテロジニアス・データのフェデレート・バーチャル・ラーニング(federated virtual learning)という新しい手法を提案する。 具体的には、同期とクラス不均衡を扱うために、クライアントが同じバランスの取れたローカルな仮想データを持つように反復的分布マッチングを提案し、ドメインシフトを調和させるために、フェデレートしたグラデーションマッチングを使用してクライアントと共有されるグローバルな仮想データを抽出する。 我々は、異なるソースからの異種データを含むベンチマークデータセットと実世界のデータセットの両方を実験し、さらに、異種データとクラス不均衡データを持つ多数のクライアントを含むflシナリオまでスケールする。 提案手法は, 蒸留仮想データ量が極めて少ない様々な条件下で, 最先端の異種FLアルゴリズムより優れる。

Despite Federated Learning (FL)'s trend for learning machine learning models in a distributed manner, it is susceptible to performance drops when training on heterogeneous data. In addition, FL inevitability faces the challenges of synchronization, efficiency, and privacy. Recently, dataset distillation has been explored in order to improve the efficiency and scalability of FL by creating a smaller, synthetic dataset that retains the performance of a model trained on the local private datasets. We discover that using distilled local datasets can amplify the heterogeneity issue in FL. To address this, we propose a new method, called Federated Virtual Learning on Heterogeneous Data with Local-Global Distillation (FedLGD), which trains FL using a smaller synthetic dataset (referred as virtual data) created through a combination of local and global dataset distillation. Specifically, to handle synchronization and class imbalance, we propose iterative distribution matching to allow clients to have the same amount of balanced local virtual data; to harmonize the domain shifts, we use federated gradient matching to distill global virtual data that are shared with clients without hindering data privacy to rectify heterogeneous local training via enforcing local-global feature similarity. We experiment on both benchmark and real-world datasets that contain heterogeneous data from different sources, and further scale up to an FL scenario that contains large number of clients with heterogeneous and class imbalance data. Our method outperforms state-of-the-art heterogeneous FL algorithms under various settings with a very limited amount of distilled virtual data.
翻訳日:2023-06-07 20:36:19 公開日:2023-06-05
# 抵抗ネットワークの正規化

Normalizing Resistor Networks ( http://arxiv.org/abs/2303.11839v2 )

ライセンス: Link先を確認
Robin Cockett, Amolak Ratan Kalra, Priyaa Varshinee Srinivasan(参考訳) 本稿では、一般星からメッシュ変換を用いた正の分割リグ上の抵抗回路の書き換えシステムについて述べる。 量子力学におけるグラフ状態の局所補完を連想させる星間メッシュ変換は、電気工学においてよく知られている。 本稿では、これらの変換を抵抗回路のカテゴリ上の合流・終了リライトシステムとして構成する方法を示す。 スターからメッシュへの変換は無限のアイデンティティの族であり、明らかな(しかし一見するとオープンである)疑問は、これらのアイデンティティに有限の表現が存在するかどうかである。

This article describes a rewriting system for resistor circuits over any positive division rig using general star to mesh transformations. Star to mesh transformations, which are reminiscent of local complementation for graph states in qudit stabilizer quantum mechanics, are well-known in electrical engineering. Here we show how these transformations can be organized into a confluent and terminating rewriting system on the category of resistor circuits. The star to mesh transformations are an infinite family of identities: an obvious -- yet seemingly open -- question concerns whether there is a finite presentation for these identities.
翻訳日:2023-06-07 20:27:18 公開日:2023-06-05
# ケルディッシュ展開による雑音駆動量子系に対する完全正の写像

Completely Positive Map for Noisy Driven Quantum Systems Derived by Keldysh Expansion ( http://arxiv.org/abs/2303.11491v2 )

ライセンス: Link先を確認
Ziwen Huang, Yunwei Lu, Anna Grassellino, Alexander Romanenko, Jens Koch, Shaojiang Zhu(参考訳) 量子プロセッサにおけるデコヒーレンス誤差の正確なモデリングは、ゲートフィダリティの解析と改善に不可欠である。 リンドブラッドの力学図の精度を高めるために、いくつかの一般化が提案され、より単純でより体系的なフレームワークの探索が続いている。 本稿では,ケルディシュ形式に基づくデコヒーレンスモデルを提案する。 この定式化により、非周期駆動と相関量子ノイズをモデルに含めることができる。 適用範囲の広さに加えて,本手法は数値的に単純であり,CPTPマップを生成する。 これらの機能により、keldyshマップを量子最適制御技術に統合することができます。 この戦略は、量子ビット状態移動とゲート演算における相関量子ノイズを緩和するパルスを生成する。

Accurate modeling of decoherence errors in quantum processors is crucial for analyzing and improving gate fidelities. To increase the accuracy beyond that of the Lindblad dynamical map, several generalizations have been proposed, and the exploration of simpler and more systematic frameworks is still ongoing. In this paper, we introduce a decoherence model based on the Keldysh formalism. This formalism allows us to include non-periodic drives and correlated quantum noise in our model. In addition to its wide range of application, our method is also numerically simple, and yields a CPTP map. These features allow us to integrate the Keldysh map with quantum-optimal-control techniques. We demonstrate that this strategy generates pulses that mitigate correlated quantum noise in qubit state-transfer and gate operations.
翻訳日:2023-06-07 20:27:08 公開日:2023-06-05
# 個々のFe-トリアゾールスピンクロスオーバーナノロッドの窒素空孔磁気測定

Nitrogen-vacancy magnetometry of individual Fe-triazole spin crossover nanorods ( http://arxiv.org/abs/2303.09636v4 )

ライセンス: Link先を確認
Suvechhya Lamichhane, Kayleigh A McElveen, Adam Erickson, Ilja Fescenko, Shuo Sun, Rupak Timalsina, Yinsheng Guo, Sy-Hwang Liou, Rebecca Y. Lai, Abdelghani Laraoui(参考訳) [Fe(Htrz)2(trz)](BF4)(Fe-トリアゾール)スピンクロスオーバー分子は、高スピン(HS)状態と低スピン(LS)状態の間の熱的、電気的、光学的スイッチングを示し、分子スピントロニクスの候補となる。 LSおよびHS遷移は、Fe(II)の電子配置に由来するものであり、それぞれ反磁性および常磁性であると考えられている。 fe(ii) ls状態は基底状態において6対の電子を持ち、磁場と相互作用せず、反磁性挙動が観察される。 fe-トリアゾール化合物のバルク磁気特性は標準磁気測定法によって広く研究されているが、個々のレベルの特性は失われている。 ナノ粒子クラスターのFe-トリアゾールLS状態と20nmから1000nmの個々のナノロッドの磁気特性を調べるために,窒素空孔(NV)を用いた磁気測定を行った。 走査型電子顕微鏡(SEM)とラマン分光法(Raman spectroscopy)は、ナノ粒子/ナノロドのサイズを決定し、それぞれのスピン状態を確認する。 ナノ粒子/ナノロッドが生成する磁場パターンは、印加磁場(最大350mT)の関数としてNV磁気顕微鏡により撮像され、SEMおよびRamanと相関する。 ナノロッドのほとんどの場合、LS状態はわずかに常磁性であり、表面酸化および/またはナノロッドエッジに沿ったFe(III)の存在から生じる可能性がある。 Fe-トリアゾールLS状態ナノ粒子クラスターのNV測定により、反磁性と常磁性の両方の挙動が明らかになった。 我々は,スピンクロスオーバー分子と分子磁石の磁気特性を研究するために,NV量子センサの可能性を強調した。

[Fe(Htrz)2(trz)](BF4) (Fe-triazole) spin crossover molecules show thermal, electrical, and optical switching between high spin (HS) and low spin (LS) states, making them promising candidates for molecular spintronics. The LS and HS transitions originate from the electronic configurations of Fe(II), and are considered to be diamagnetic and paramagnetic respectively. The Fe(II) LS state has six paired electrons in the ground states with no interaction with the magnetic field and a diamagnetic behavior is usually observed. While the bulk magnetic properties of Fe-triazole compounds are widely studied by standard magnetometry techniques their properties at the individual level are missing. Here we use nitrogen vacancy (NV) based magnetometry to study the magnetic properties of the Fe-triazole LS state of nanoparticle clusters and individual nanorods of size varying from 20 to 1000 nm. Scanning electron microscopy (SEM) and Raman spectroscopy are performed to determine the size of the nanoparticles/nanorods and to confirm their respective spin state. The magnetic field patterns produced by the nanoparticles/nanorods are imaged by NV magnetic microscopy as a function of applied magnetic field (up to 350 mT) and correlated with SEM and Raman. We found that in most of the nanorods the LS state is slightly paramagnetic, possibly originating from the surface oxidation and/or the greater Fe(III) presence along the nanorod edges. NV measurements on the Fe-triazole LS state nanoparticle clusters revealed both diamagnetic and paramagnetic behavior. Our results highlight the potential of NV quantum sensors to study the magnetic properties of spin crossover molecules and molecular magnets.
翻訳日:2023-06-07 20:26:17 公開日:2023-06-05
# モデルのスパーシフィケーションは機械学習を単純化する

Model Sparsification Can Simplify Machine Unlearning ( http://arxiv.org/abs/2304.04934v4 )

ライセンス: Link先を確認
Jinghan Jia, Jiancheng Liu, Parikshit Ram, Yuguang Yao, Gaowen Liu, Yang Liu, Pranay Sharma, Sijia Liu(参考訳) 最近のデータ規制要件に応えて、マシンアンラーニング(MU)は、特定のモデルから特定のサンプルの影響を取り除く重要なプロセスとして登場した。 正確なアンラーニングは、残りのデータセットを使った完全なモデルのリトレーニングによって達成できるが、関連する計算コストは、効率的で近似的なアンラーニング技術の開発につながった。 我々の研究は、データ中心のMUアプローチを超えて、新しいモデルベース視点、すなわちウェイトプルーニングによるモデルスペーシフィケーションを導入し、正確なアンラーニングと近似アンラーニングのギャップを減らすことができる。 モデルスパーシリティは、近似的アンラーナーのマルチ基準アンラーニング性能を高め、近似ギャップを閉じながら効率を保ち続けることを理論と実践の両方で示している。 これは新しいMUパラダイムにつながり、まずはPrune、次にはUnlearnと呼ばれ、未学習のプロセスにスパースモデルを注入する。 この知見に基づいて,スパルシティ正規化を利用したスパルシリティ対応学習手法を開発し,近似学習の学習プロセスを強化する。 広範な実験により、我々の提案は様々な未学習シナリオにおいて一貫してmに利益をもたらすことが示された。 77%の未学習の有効性向上(最も単純な未学習手法の1つ)が、スパーシティーを意識した未学習の使用において注目されている。 さらに,バックドア攻撃に対する防御や移動学習の強化など,機械学習の他の課題に対処する上で,提案手法の実践的影響を示す。 コードはhttps://github.com/OPTML-Group/Unlearn-Sparseで入手できる。

In response to recent data regulation requirements, machine unlearning (MU) has emerged as a critical process to remove the influence of specific examples from a given model. Although exact unlearning can be achieved through complete model retraining using the remaining dataset, the associated computational costs have driven the development of efficient, approximate unlearning techniques. Moving beyond data-centric MU approaches, our study introduces a novel model-based perspective: model sparsification via weight pruning, which is capable of reducing the gap between exact unlearning and approximate unlearning. We show in both theory and practice that model sparsity can boost the multi-criteria unlearning performance of an approximate unlearner, closing the approximation gap, while continuing to be efficient. This leads to a new MU paradigm, termed prune first, then unlearn, which infuses a sparse model prior into the unlearning process. Building on this insight, we also develop a sparsity-aware unlearning method that utilizes sparsity regularization to enhance the training process of approximate unlearning. Extensive experiments show that our proposals consistently benefit MU in various unlearning scenarios. A notable highlight is the 77% unlearning efficacy gain of fine-tuning (one of the simplest unlearning methods) when using sparsity-aware unlearning. Furthermore, we demonstrate the practical impact of our proposed MU methods in addressing other machine learning challenges, such as defending against backdoor attacks and enhancing transfer learning. Codes are available at https://github.com/OPTML-Group/Unlearn-Sparse.
翻訳日:2023-06-07 20:17:13 公開日:2023-06-05
# imagecaptioner$^2$:画像キャプションバイアス増幅評価のための画像キャプション

ImageCaptioner$^2$: Image Captioner for Image Captioning Bias Amplification Assessment ( http://arxiv.org/abs/2304.04874v2 )

ライセンス: Link先を確認
Eslam Mohamed Bakr, Pengzhan Sun, Li Erran Li, Mohamed Elhoseiny(参考訳) ほとんどの事前学習された学習システムは、典型的にはデータやモデル、あるいはその両方から生じるバイアスに苦しむことが知られている。 バイアスとそのソースの測定と定量化は難しい課題であり、画像キャプションで広く研究されている。 この方向の大きな努力にもかかわらず、既存のメトリクスは視覚信号を含める際に一貫性が欠如していることが観察された。 本稿では,画像キャプションのための新しいバイアス評価指標である$ImageCaptioner^2$を紹介する。 モデルやデータの絶対バイアスを測定する代わりに、$imagecaptioner^2$はモデルw.r.tによって導入されたバイアスにもっと注意を払う。 生成されたキャプションのみに基づいて画像キャプションアルゴリズムを評価する既存の方法とは異なり、$ImageCaptioner^2$はバイアスを測定しながらイメージを組み込む。 さらに,生成したキャプションのバイアスを,言語分類器の代わりにプロンプトベースの画像キャプションとして測定するための定式化を設計する。 最後に、$imagecaptioner^2$メトリックを、11の異なる画像キャプションアーキテクチャ、すなわち、ms-cocoキャプションデータセット、artemis v1、artemis v2の3つの異なるデータセット、すなわち性別、人種、感情の3つの異なる保護属性に適用します。 そこで我々は,バイアスメトリクスのための新しい人間評価パラダイムであるanonymousbenchを提案することで,$imagecaptioner^2$メトリックの有効性を検証する。 私たちの測定基準は、最近のバイアスメトリックよりも大きな優位性を示しており、人間のアライメントの観点からは、それぞれ相関スコアが80%、licが54%である。 コードはhttps://eslambakr.github.io/imagecaptioner2.github.io/で入手できる。

Most pre-trained learning systems are known to suffer from bias, which typically emerges from the data, the model, or both. Measuring and quantifying bias and its sources is a challenging task and has been extensively studied in image captioning. Despite the significant effort in this direction, we observed that existing metrics lack consistency in the inclusion of the visual signal. In this paper, we introduce a new bias assessment metric, dubbed $ImageCaptioner^2$, for image captioning. Instead of measuring the absolute bias in the model or the data, $ImageCaptioner^2$ pay more attention to the bias introduced by the model w.r.t the data bias, termed bias amplification. Unlike the existing methods, which only evaluate the image captioning algorithms based on the generated captions only, $ImageCaptioner^2$ incorporates the image while measuring the bias. In addition, we design a formulation for measuring the bias of generated captions as prompt-based image captioning instead of using language classifiers. Finally, we apply our $ImageCaptioner^2$ metric across 11 different image captioning architectures on three different datasets, i.e., MS-COCO caption dataset, Artemis V1, and Artemis V2, and on three different protected attributes, i.e., gender, race, and emotions. Consequently, we verify the effectiveness of our $ImageCaptioner^2$ metric by proposing AnonymousBench, which is a novel human evaluation paradigm for bias metrics. Our metric shows significant superiority over the recent bias metric; LIC, in terms of human alignment, where the correlation scores are 80% and 54% for our metric and LIC, respectively. The code is available at https://eslambakr.github.io/imagecaptioner2.github.io/.
翻訳日:2023-06-07 20:16:47 公開日:2023-06-05
# icdar 2023 シールタイトルの読みに関するコンペティション

ICDAR 2023 Competition on Reading the Seal Title ( http://arxiv.org/abs/2304.11966v2 )

ライセンス: Link先を確認
Wenwen Yu, Mingyu Liu, Mingrui Chen, Ning Lu, Yinlong Wen, Yuliang Liu, Dimosthenis Karatzas, Xiang Bai(参考訳) アザラシのタイトルテキストを読むことは、アザラシの形状、湾曲したテキスト、背景雑音、重複したテキストなどによって難しい課題である。 しかし、この重要な要素は、公的・財政的なシナリオでよく見られ、OCR技術の分野では注目に値するものではない。 この分野での研究を促進するために,シールタイトル検出(Task1)とエンド・ツー・エンドシールタイトル認識(Task2)の2つのタスクを含むシールタイトル(ReST)の読解に関するICDAR 2023コンペティションを組織した。 1万の実際のシールデータのデータセットを構築し、最も一般的なシールクラスをカバーし、すべてのシールタイトルテキストにテキストポリゴンとテキストコンテンツのラベルを付けました。 大会は2022年12月30日に開かれ、2023年3月20日に閉幕した。 このコンペには、第1タスクへの28の応募と第2タスクへの25の応募を含む、学界や産業界から53人の参加者が集まった。 本報告では,組織,課題,成果を含む競争の概要について述べる。 データセットとタスクを説明し,提案と評価結果を要約する。 その結果,字幕読解の分野では大きな進展がみられ,この競争がocr技術の重要な分野におけるさらなる研究開発に拍車をかけることを期待している。

Reading seal title text is a challenging task due to the variable shapes of seals, curved text, background noise, and overlapped text. However, this important element is commonly found in official and financial scenarios, and has not received the attention it deserves in the field of OCR technology. To promote research in this area, we organized ICDAR 2023 competition on reading the seal title (ReST), which included two tasks: seal title text detection (Task 1) and end-to-end seal title recognition (Task 2). We constructed a dataset of 10,000 real seal data, covering the most common classes of seals, and labeled all seal title texts with text polygons and text contents. The competition opened on 30th December, 2022 and closed on 20th March, 2023. The competition attracted 53 participants from academia and industry including 28 submissions for Task 1 and 25 submissions for Task 2, which demonstrated significant interest in this challenging task. In this report, we present an overview of the competition, including the organization, challenges, and results. We describe the dataset and tasks, and summarize the submissions and evaluation results. The results show that significant progress has been made in the field of seal title text reading, and we hope that this competition will inspire further research and development in this important area of OCR technology.
翻訳日:2023-06-07 20:07:33 公開日:2023-06-05
# 大規模言語モデルの同時反復抑制とコンテンツモデレーション

Joint Repetition Suppression and Content Moderation of Large Language Models ( http://arxiv.org/abs/2304.10611v2 )

ライセンス: Link先を確認
Minghui Zhang, Alex Sokolov, Weixin Cai, Si-Qing Chen(参考訳) 自然言語生成(NLG)はNLPで最も影響力のある分野の1つであり、近年は大きな言語モデル(LLM)によってもたらされた進化を目撃している。 補助アプリケーションを書くための重要な手段として、入力で提供される不快コンテンツの複製や拡張が一般的である。 低リソースのデータレシエーションでは、繰り返し出力につながることもある。 通常、攻撃的コンテンツや繰り返しはn-gramレベルブロックリスト、トップk、核サンプリングを含むポストホック法によって軽減される。 本稿では,トークンとシーケンスレベルの不一致による反復抑圧を適用し,不一致訓練目標の枠組みをさらに探究し,モデルに悪質な単語や句の生成を最初から避ける能力を持たせる。 最後に,LLM出力の繰り返しと内容品質の制御において,提案手法が例外的に有効であることを示す。

Natural language generation (NLG) is one of the most impactful fields in NLP, and recent years have witnessed its evolution brought about by large language models (LLMs). As the key instrument for writing assistance applications, they are generally prone to replicating or extending offensive content provided in the input. In low-resource data regime, they can also lead to repetitive outputs. Usually, offensive content and repetitions are mitigated with post-hoc methods, including n-gram level blocklists, top-k and nucleus sampling. In this paper, we apply non-exact repetition suppression using token and sequence level unlikelihood loss, and further explore the framework of unlikelihood training objective in order to jointly endow the model with abilities to avoid generating offensive words and phrases from the beginning. Finally, with comprehensive experiments, we demonstrate that our proposed methods work exceptionally in controlling the repetition and content quality of LLM outputs.
翻訳日:2023-06-07 20:06:49 公開日:2023-06-05
# Semantic Embedded Deep Neural Network: マルチラベル画像分類性能向上のためのジェネリックアプローチ

Semantic Embedded Deep Neural Network: A Generic Approach to Boost Multi-Label Image Classification Performance ( http://arxiv.org/abs/2305.05228v4 )

ライセンス: Link先を確認
Xin Shen, Xiaonan Zhao, Rui Luo(参考訳) きめ細かいマルチラベル分類モデルは、ファッション属性の検出からブランド認識まで、ビジュアルベースのラベル予測など、eコマースに広く応用されている。 実世界におけるこれらの分類タスクの満足な性能を達成するための課題の一つは、関心領域に焦点を絞って特定の領域に予測する無関係な画素を含む視覚的背景信号である。 本稿では,複数ラベル予測のためのモデル性能向上のための局所化ガイダンスを活用すべく,チャネル毎の注意に基づくモデルを取り入れた空間認識意味的特徴を応用した,汎用的意味埋め込み型深層ニューラルネットワークを提案する。 我々は,avg.relative improvement (avg.relative improvement) を全ラベルのaucスコアで15.27%向上させた。 コア実験とアブレーション研究は、Instagramのファッションアパレルの画像で実行されるマルチラベルファッション属性の分類を含む。 モデルのパフォーマンスを,我々のアプローチ,ベースラインアプローチ,セマンティック機能を活用する3つの代替アプローチと比較した。 結果は我々のアプローチに好成績を示した。

Fine-grained multi-label classification models have broad applications in e-commerce, such as visual based label predictions ranging from fashion attribute detection to brand recognition. One challenge to achieve satisfactory performance for those classification tasks in real world is the wild visual background signal that contains irrelevant pixels which confuses model to focus onto the region of interest and make prediction upon the specific region. In this paper, we introduce a generic semantic-embedding deep neural network to apply the spatial awareness semantic feature incorporating a channel-wise attention based model to leverage the localization guidance to boost model performance for multi-label prediction. We observed an Avg.relative improvement of 15.27% in terms of AUC score across all labels compared to the baseline approach. Core experiment and ablation studies involve multi-label fashion attribute classification performed on Instagram fashion apparels' image. We compared the model performances among our approach, baseline approach, and 3 alternative approaches to leverage semantic features. Results show favorable performance for our approach.
翻訳日:2023-06-07 19:57:59 公開日:2023-06-05
# ChipGPT: 自然言語のハードウェア設計からどこまで離れているのか

ChipGPT: How far are we from natural language hardware design ( http://arxiv.org/abs/2305.14019v2 )

ライセンス: Link先を確認
Kaiyan Chang(参考訳) ChatGPTのような大規模言語モデル(LLM)は前例のないマシンインテリジェンスを示しており、ハードウェアエンジニアが自然言語インタラクションによる高効率論理設計を実現するのに優れた性能を示している。 LLMが支援するハードウェア設計プロセスの可能性を推定するために、LLMを探索して自然言語仕様からハードウェア論理設計を生成する自動設計環境の実証を試みる。 よりアクセシブルで効率的なチップ開発フローを実現するために,LLMをベースとしたスケーラブルな4段階ゼロコード論理設計フレームワークを提案する。 最初、デモのChipGPTはLSMのプロンプトを生成して始まり、最初のVerilogプログラムを生成する。 第二に、出力マネージャは最終設計空間に収集する前にこれらのプログラムを修正・最適化する。 最終的にChipGPTはこの領域を探索し、ターゲットのメトリクスの下で最適な設計を選択する。 この評価は、LLMがいくつかの仕様のために自然言語で記述された正確で完全なハードウェアロジック設計を生成できるかどうかにいくつかの光を当てている。 この結果,ChipGPTはプログラム性,制御性を改善し,従来の作業環境やネイティブLLMよりも広い設計最適化空間を示すことがわかった。

As large language models (LLMs) like ChatGPT exhibited unprecedented machine intelligence, it also shows great performance in assisting hardware engineers to realize higher-efficiency logic design via natural language interaction. To estimate the potential of the hardware design process assisted by LLMs, this work attempts to demonstrate an automated design environment that explores LLMs to generate hardware logic designs from natural language specifications. To realize a more accessible and efficient chip development flow, we present a scalable four-stage zero-code logic design framework based on LLMs without retraining or finetuning. At first, the demo, ChipGPT, begins by generating prompts for the LLM, which then produces initial Verilog programs. Second, an output manager corrects and optimizes these programs before collecting them into the final design space. Eventually, ChipGPT will search through this space to select the optimal design under the target metrics. The evaluation sheds some light on whether LLMs can generate correct and complete hardware logic designs described by natural language for some specifications. It is shown that ChipGPT improves programmability, and controllability, and shows broader design optimization space compared to prior work and native LLMs alone.
翻訳日:2023-06-07 19:37:59 公開日:2023-06-05
# 量子論における線形性とユニタリティーの起源について

On the Origin of Linearity and Unitarity in Quantum Theory ( http://arxiv.org/abs/2305.20063v2 )

ライセンス: Link先を確認
Matt Wilson, Nick Ormrod(参考訳) 量子論の変換を物理的に動機づけられた仮定を用いて再構成する。 この仮定では、変換は局所的に適用されるべきであり、純量子論から線型ユニタリ写像を復元し、混合量子論から完全に正のトレース保存写像を復元する。 特に、純粋な場合において、ヒルベルト空間上の重ね合わせ規則に関する線型性は(連続性仮定なしで)仮定するよりもむしろ導かれる。

We reconstruct the transformations of quantum theory using a physically motivated postulate. This postulate states that transformations should be locally applicable, and recovers the linear unitary maps from pure quantum theory, as well as the completely positive, trace-preserving maps from mixed quantum theory. Notably, in the pure case, linearity with respect to the superposition rule on Hilbert spaces is derived rather than assumed (and without any continuity assumptions).
翻訳日:2023-06-07 19:28:41 公開日:2023-06-05
# InDL:ビジュアルイリュージョンに基づくインダイアグラム論理解釈のための新しいデータセットとベンチマーク

InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation based on Visual Illusion ( http://arxiv.org/abs/2305.17716v4 )

ライセンス: Link先を確認
Haobo Yang, Wenyu Wang, Ze Cao, Zhekai Duan, Xuchen Liu(参考訳) 本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。 視覚錯視の興味深い領域を活用して、これらのモデルを厳格にテストし、ベンチマークするために設計されたユニークなデータセットInDLを構築します。 ディープラーニングはコンピュータビジョンや自然言語処理といった領域で顕著な進歩をみせた。 しかしながら、モデルは、決定過程を曖昧にする固有の「ブラックボックス」特性のために、論理的推論を必要とするタスクに悩まされることが多い。 私たちの研究は、知覚と論理の複雑な相互作用である視覚錯覚の扱いに焦点を当てることで、これらのモデルをよりよく理解するための新しいレンズを提示します。 6つの古典的な幾何学的錯覚を用いて,人間と機械の視覚知覚の比較枠組みを構築した。 この方法論は、モデルをランク付けし、潜在的な弱点を解明し、モデル改善のための実行可能な洞察を提供する。 実験により,本手法の有効性を検証し,その論理解釈能力に基づくモデルランキングの有効性を示す。 再現可能な研究へのコミットメントの一環として、ソースコードとデータセットはhttps://github.com/rabbit-magic-wh/InDLで公開されます。

This paper introduces a novel approach to evaluating deep learning models' capacity for in-diagram logic interpretation. Leveraging the intriguing realm of visual illusions, we establish a unique dataset, InDL, designed to rigorously test and benchmark these models. Deep learning has witnessed remarkable progress in domains such as computer vision and natural language processing. However, models often stumble in tasks requiring logical reasoning due to their inherent 'black box' characteristics, which obscure the decision-making process. Our work presents a new lens to understand these models better by focusing on their handling of visual illusions -- a complex interplay of perception and logic. We utilize six classic geometric optical illusions to create a comparative framework between human and machine visual perception. This methodology offers a quantifiable measure to rank models, elucidating potential weaknesses and providing actionable insights for model improvements. Our experimental results affirm the efficacy of our benchmarking strategy, demonstrating its ability to effectively rank models based on their logic interpretation ability. As part of our commitment to reproducible research, the source code and datasets will be made publicly available at https://github.com/rabbit-magic-wh/InDL
翻訳日:2023-06-07 19:27:47 公開日:2023-06-05
# Calibrated Stackelberg Games: Calibrated Agentsに対する最適なコミットを学ぶ

Calibrated Stackelberg Games: Learning Optimal Commitments Against Calibrated Agents ( http://arxiv.org/abs/2306.02704v1 )

ライセンス: Link先を確認
Nika Haghtalab, Chara Podimata, Kunhe Yang(参考訳) 本稿では,標準的なStackelberg Games (SGs) フレームワーク,Calibrated Stackelberg Games (CSGs) の一般化を紹介する。 CSGでは、プリンシパルが(標準SGとは対照的に)エージェントと繰り返し対話し、プリンシパルのアクションに直接アクセスするのではなく、それに関するキャリブレーションされた予測に対応する。 csgは強力なモデリングツールであり、エージェントが戦略的な設定で対話するためにアドホックなアルゴリズムと高度に特定されたアルゴリズムを使用することを前提としない。 また, csgs と並行して, 逆列に対する任意の時間キャリブレーション保証を提供する適応キャリブレーション(adaptive calibration)という, より強固な概念を導入する。 適応キャリブレーションアルゴリズムを得るための一般的なアプローチを提案し、それを有限CSGに特化する。 本研究の主な技術的結果として,CSGでは,ゲームにおける最適スタックルバーグ値に収束するユーティリティが有限かつ連続的に実現可能であること,高次ユーティリティが達成できないこと,などが示されている。 以上の結果から,stackelbergセキュリティゲームにおける学習設定と,キャリブレーションエージェントに対する戦略分類という2つの顕著な応用が得られた。

In this paper, we introduce a generalization of the standard Stackelberg Games (SGs) framework: Calibrated Stackelberg Games (CSGs). In CSGs, a principal repeatedly interacts with an agent who (contrary to standard SGs) does not have direct access to the principal's action but instead best-responds to calibrated forecasts about it. CSG is a powerful modeling tool that goes beyond assuming that agents use ad hoc and highly specified algorithms for interacting in strategic settings and thus more robustly addresses real-life applications that SGs were originally intended to capture. Along with CSGs, we also introduce a stronger notion of calibration, termed adaptive calibration, that provides fine-grained any-time calibration guarantees against adversarial sequences. We give a general approach for obtaining adaptive calibration algorithms and specialize them for finite CSGs. In our main technical result, we show that in CSGs, the principal can achieve utility that converges to the optimum Stackelberg value of the game both in finite and continuous settings, and that no higher utility is achievable. Two prominent and immediate applications of our results are the settings of learning in Stackelberg Security Games and strategic classification, both against calibrated agents.
翻訳日:2023-06-07 19:19:55 公開日:2023-06-05
# クラウドからの学習のためのアノテータおよびインスタンス依存遷移行列の転送

Transferring Annotator- and Instance-dependent Transition Matrix for Learning from Crowds ( http://arxiv.org/abs/2306.03116v1 )

ライセンス: Link先を確認
Shikun Li, Xiaobo Xia, Jiankang Deng, Shiming Ge, Tongliang Liu(参考訳) 群衆から学んだことは、トレーニングデータのアノテーションはクラウドソーシングサービスによって得られるということだ。 複数のアノテーションはそれぞれのアノテーションの小さな部分を完了し、アノテーションに依存するエラーのラベル付けが頻繁に発生する。 雑音遷移行列によるラベルノイズ生成過程のモデル化は、ラベルノイズに対処するためのパワーツールである。 実世界のクラウドソーシングシナリオでは、ノイズ遷移行列はアノテーションとインスタンスに依存します。 しかしながら、アノテーションとインスタンス依存遷移行列(AIDTM)の複雑さが高いため、各アノテーションはインスタンスのごく一部しかラベル付けしないため、AIDTMのモデリングは非常に困難である。 先行研究は、遷移行列がインスタンスに依存しない、あるいは単純なパラメトリックな方法で仮定することで問題を単純化し、モデリングの一般性を失う。 これを受けて、我々はより現実的な問題をターゲットに、現実的な一般AIDTMを推定する。 モデリングの一般性を失うことなく、深いニューラルネットワークでAIDTMをパラメータ化する。 モデリングの課題を軽減するため、全てのアノテータが類似のアノテータとノイズパターンを共有し、 \textit{knowledge transfer} を介してAIDTMを推定する。 したがって、まずすべてのアノテータによるノイズパターンの混合をモデル化し、それから個々のアノテータにこのモデリングを転送する。 さらに、ノイズパターンの混合から個人への変換が、非常に異なるノイズ世代を持つ2つのアノテータ間の摂動を引き起こす可能性があることを考慮し、同定された隣り合うアノテータ間の知識伝達を用いてモデリングを校正する。 実世界のクラウドソーシングデータに対する提案手法の優位性を実証する実験を行った。 ソースコードがリリースされる。

Learning from crowds describes that the annotations of training data are obtained with crowd-sourcing services. Multiple annotators each complete their own small part of the annotations, where labeling mistakes that depend on annotators occur frequently. Modeling the label-noise generation process by the noise transition matrix is a power tool to tackle the label noise. In real-world crowd-sourcing scenarios, noise transition matrices are both annotator- and instance-dependent. However, due to the high complexity of annotator- and instance-dependent transition matrices (AIDTM), \textit{annotation sparsity}, which means each annotator only labels a little part of instances, makes modeling AIDTM very challenging. Prior works simplify the problem by assuming the transition matrix is instance-independent or using simple parametric way, while lose modeling generality. Motivated by this, we target a more realistic problem, estimating general AIDTM in practice. Without losing modeling generality, we parameterize AIDTM with deep neural networks. To alleviate the modeling challenge, we suppose every annotator shares its noise pattern with similar annotators, and estimate AIDTM via \textit{knowledge transfer}. We hence first model the mixture of noise patterns by all annotators, and then transfer this modeling to individual annotators. Furthermore, considering that the transfer from the mixture of noise patterns to individuals may cause two annotators with highly different noise generations to perturb each other, we employ the knowledge transfer between identified neighboring annotators to calibrate the modeling. Experiments confirm the superiority of the proposed approach on synthetic and real-world crowd-sourcing data. Source codes will be released.
翻訳日:2023-06-07 19:11:42 公開日:2023-06-05
# AutoExp: 自動運転車の人間活動を評価するための多分野・マルチセンサーフレームワーク

AutoExp: A multidisciplinary, multi-sensor framework to evaluate human activities in self-driving cars ( http://arxiv.org/abs/2306.03115v1 )

ライセンス: Link先を確認
Carlos Crispim-Junior, Romain Guesdon, Christophe Jallais, Florent Laroche, Stephanie Souche-Le Corvec, Laure Tougne Rodet(参考訳) 自動運転車の採用が私たちの生活に革命をもたらすことは確かだ。 最初の車両はすでに、実験的なロボットタクシーサービスの一環として、世界中の一部の都市に存在している。 しかし、既存のほとんどの研究は、そのような車両の航法部分に焦点を当てている。 現在、このような技術が現実の状況で採用される際の人的要素を評価するための方法、データセット、研究を見逃している。 本稿では,多学際的アプローチ(人間と社会科学に関連するコンピュータビジョン,特に非自動運転関連活動)を用いて,自律運転者の活動を研究するための実験的な枠組みを提案する。 このフレームワークは実験シナリオとデータ取得モジュールで構成されている。 まず、最寄りの現実の状況における車両の使用状況に関する実世界データを取得し、次に、コンピュータビジョンアルゴリズムの開発と評価を促進するために、インカビンの人間活動を含むデータセットを作成する。 取得モジュールは、車両の前部座席(intel rgb-dとgoproカメラ)の複数のビューを記録し、実験の前後における、このタイプの車両に対する内部状態と参加者の態度に関する調査データも記録している。 SAEレベル4のSDCの受け入れを検討するために,30人の参加者(1時間毎)による実世界実験の実現により提案手法を評価した。

The adoption of self-driving cars will certainly revolutionize our lives, even though they may take more time to become fully autonomous than initially predicted. The first vehicles are already present in certain cities of the world, as part of experimental robot-taxi services. However, most existing studies focus on the navigation part of such vehicles. We currently miss methods, datasets, and studies to assess the in-cabin human component of the adoption of such technology in real-world conditions. This paper proposes an experimental framework to study the activities of occupants of self-driving cars using a multidisciplinary approach (computer vision associated with human and social sciences), particularly non-driving related activities. The framework is composed of an experimentation scenario, and a data acquisition module. We seek firstly to capture real-world data about the usage of the vehicle in the nearest possible, real-world conditions, and secondly to create a dataset containing in-cabin human activities to foster the development and evaluation of computer vision algorithms. The acquisition module records multiple views of the front seats of the vehicle (Intel RGB-D and GoPro cameras); in addition to survey data about the internal states and attitudes of participants towards this type of vehicle before, during, and after the experimentation. We evaluated the proposed framework with the realization of real-world experimentation with 30 participants (1 hour each) to study the acceptance of SDCs of SAE level 4.
翻訳日:2023-06-07 19:11:12 公開日:2023-06-05
# 生成モデルを用いた情動神経生理学的信号の合成

Synthesizing Affective Neurophysiological Signals Using Generative Models: A Review Paper ( http://arxiv.org/abs/2306.03112v1 )

ライセンス: Link先を確認
Alireza F. Nia, Vanessa Tang, Gonzalo Maso Talou, Mark Billinghurst(参考訳) 機械への感情知性の統合は、人間とコンピュータのインタラクションを進める上で重要なステップである。 これにより、信頼できるエンドツーエンドの感情認識システムの開発が要求される。 しかし、公的な感情的データセットの不足が課題となっている。 本稿では,神経生理学的信号,特に脳波(EEG)および機能近赤外分光(fNIRS)において,この問題に対処するための生成モデルの利用を強調した。 現場で使用される異なる生成モデルの包括的分析を行い,それらの入力定式化,展開戦略,合成データの品質評価手法について検討した。 このレビューは総合的な概要として機能し、感情認識システムにおける生成モデルの適用における利点、課題、将来的な方向性に関する洞察を提供する。 本稿では,神経生理学的データ拡張の進展を促進することを目的として,より効率的で信頼性の高い感情認識システムの開発を支援する。

The integration of emotional intelligence in machines is an important step in advancing human-computer interaction. This demands the development of reliable end-to-end emotion recognition systems. However, the scarcity of public affective datasets presents a challenge. In this literature review, we emphasize the use of generative models to address this issue in neurophysiological signals, particularly Electroencephalogram (EEG) and Functional Near-Infrared Spectroscopy (fNIRS). We provide a comprehensive analysis of different generative models used in the field, examining their input formulation, deployment strategies, and methodologies for evaluating the quality of synthesized data. This review serves as a comprehensive overview, offering insights into the advantages, challenges, and promising future directions in the application of generative models in emotion recognition systems. Through this review, we aim to facilitate the progression of neurophysiological data augmentation, thereby supporting the development of more efficient and reliable emotion recognition systems.
翻訳日:2023-06-07 19:10:49 公開日:2023-06-05
# 生体配列のオフライン設計のためのスコアコンディション発電機のブートストラップトレーニング

Bootstrapped Training of Score-Conditioned Generator for Offline Design of Biological Sequences ( http://arxiv.org/abs/2306.03111v1 )

ライセンス: Link先を確認
Minsu Kim, Federico Berto, Sungsoo Ahn, Jinkyoo Park(参考訳) 本研究では,オフラインデータセットでのみ評価されるブラックボックススコア関数を最大化するために,タンパク質,dna,rnaなどの生物配列を最適化する問題を検討する。 本稿では,スコア条件付きジェネレータ(bootgen)アルゴリズムのブートストラップトレーニングを提案する。 アルゴリズムは2段階のプロセスを繰り返します。 第1段階では, アルゴリズムは, 高得点に基づくシーケンス生成の精度を高めるために, ランクに基づく重み付き生物配列生成装置を訓練する。 次のステージはブートストレッピングで、プロキシスコア関数によってラベル付けされた自己生成データでトレーニングデータセットを拡張する。 我々のキーとなるアイデアは、スコアベースの生成をプロキシスコア関数と整合させることで、プロキシスコア関数の知識をジェネレータに抽出する。 トレーニング後、複数のブートストラップされたジェネレータとプロキシからサンプルを収集し、多様なデザインを作ります。 大規模実験により,本手法は生物の逐次設計タスクにおける競争基準よりも優れていた。 再現可能なソースコードは、 \href{https://github.com/kaist-silab/bootgen}{https://github.com/kaist-silab/bootgen}。

We study the problem of optimizing biological sequences, e.g., proteins, DNA, and RNA, to maximize a black-box score function that is only evaluated in an offline dataset. We propose a novel solution, bootstrapped training of score-conditioned generator (BootGen) algorithm. Our algorithm repeats a two-stage process. In the first stage, our algorithm trains the biological sequence generator with rank-based weights to enhance the accuracy of sequence generation based on high scores. The subsequent stage involves bootstrapping, which augments the training dataset with self-generated data labeled by a proxy score function. Our key idea is to align the score-based generation with a proxy score function, which distills the knowledge of the proxy score function to the generator. After training, we aggregate samples from multiple bootstrapped generators and proxies to produce a diverse design. Extensive experiments show that our method outperforms competitive baselines on biological sequential design tasks. We provide reproducible source code: \href{https://github.com/kaist-silab/bootgen}{https://github.com/kaist-silab/bootgen}.
翻訳日:2023-06-07 19:10:36 公開日:2023-06-05
# SwinRDM:高分解能・高品質気象予報に向けた拡散モデルとSwinRNNの統合

SwinRDM: Integrate SwinRNN with Diffusion Model towards High-Resolution and High-Quality Weather Forecasting ( http://arxiv.org/abs/2306.03110v1 )

ライセンス: Link先を確認
Lei Chen, Fei Du, Yuan Hu, Fan Wang, Zhibin Wang(参考訳) 近年,データ駆動の中距離気象予報が注目されている。 しかし,現在,高解像度での予測精度は不十分である。 本研究では,高分解能で高品質な気象予報を追求し,swainrnnの改良版と拡散モデルを統合するデータ駆動型swainrdmを開発した。 SwinRDMは0.25度の解像度で予測を行い、500 hPa(Z500), 850 hPa(T850), 2m温度(T2M), 総降水量(TP)などの代表変数を最大5日間のリードタイムで、最先端のNWPモデルであるIFS(Integrated Forecast System)に優れた予測精度を達成している。 本稿では,計算メモリと予測精度のトレードオフを考慮した2段階の予測手法を提案する。 将来の大気の繰り返し予測はまず1.40625度で行い、拡散に基づく超解像モデルを利用して高空間分解能とより微細な大気の詳細を復元する。 SwinRDMはデータ駆動モデルのパフォーマンスとポテンシャルを推し進めて、運用アプリケーションに大きく貢献する。

Data-driven medium-range weather forecasting has attracted much attention in recent years. However, the forecasting accuracy at high resolution is unsatisfactory currently. Pursuing high-resolution and high-quality weather forecasting, we develop a data-driven model SwinRDM which integrates an improved version of SwinRNN with a diffusion model. SwinRDM performs predictions at 0.25-degree resolution and achieves superior forecasting accuracy to IFS (Integrated Forecast System), the state-of-the-art operational NWP model, on representative atmospheric variables including 500 hPa geopotential (Z500), 850 hPa temperature (T850), 2-m temperature (T2M), and total precipitation (TP), at lead times of up to 5 days. We propose to leverage a two-step strategy to achieve high-resolution predictions at 0.25-degree considering the trade-off between computation memory and forecasting accuracy. Recurrent predictions for future atmospheric fields are firstly performed at 1.40625-degree resolution, and then a diffusion-based super-resolution model is leveraged to recover the high spatial resolution and finer-scale atmospheric details. SwinRDM pushes forward the performance and potential of data-driven models for a large margin towards operational applications.
翻訳日:2023-06-07 19:10:19 公開日:2023-06-05
# データコスト対応トレーニングを用いた機械学習力場

Machine Learning Force Fields with Data Cost Aware Training ( http://arxiv.org/abs/2306.03109v1 )

ライセンス: Link先を確認
Alexander Bukharin, Tianyi Liu, Shengjie Wang, Simiao Zuo, Weihao Gao, Wen Yan, Tuo Zhao(参考訳) 機械学習力場(MLFF)は分子動力学(MD)シミュレーションを加速するために提案されている。 最もデータ効率のよいMLFFであっても、化学精度に達するには、高価な量子力学アルゴリズムによって生成される数百フレームの力とエネルギーのラベルが必要であり、基礎関数の数に比例して$O(n^3)$から$O(n^7)$にスケールすることができる。 この問題を解決するために,安価な不正確なデータと高価な正確なデータの組み合わせを利用してMLFFのデータコストを下げる多段階計算フレームワーク-ASTEROIDを提案する。 ASTEROIDの背後にある動機は、不正確なデータが大きなバイアスを伴っても、基礎となる力場の洗練された構造を捉えるのに役立つことである。 そこで,我々はまず,MLFFモデルを大量の不正確なトレーニングデータに基づいて訓練し,バイアス認識損失関数を用いて,モデルがこのデータのテハポテンシャルバイアス過多を防止する。 得られたモデルを少量の正確なトレーニングデータを用いて微調整し、不正確なトレーニングデータから得られた知識を保存し、モデルの精度を大幅に向上させる。 さらに,不正確なトレーニングデータがラベル付けされていない設定に対して,スコアマッチングに基づくASTEROIDの変種を提案する。 MDデータセットと下流タスクに関する大規模な実験は、ASTEROIDの有効性を検証する。 私たちのコードとデータはhttps://github.com/abukharin3/asteroidで入手できます。

Machine learning force fields (MLFF) have been proposed to accelerate molecular dynamics (MD) simulation, which finds widespread applications in chemistry and biomedical research. Even for the most data-efficient MLFFs, reaching chemical accuracy can require hundreds of frames of force and energy labels generated by expensive quantum mechanical algorithms, which may scale as $O(n^3)$ to $O(n^7)$, with $n$ proportional to the number of basis functions. To address this issue, we propose a multi-stage computational framework -- ASTEROID, which lowers the data cost of MLFFs by leveraging a combination of cheap inaccurate data and expensive accurate data. The motivation behind ASTEROID is that inaccurate data, though incurring large bias, can help capture the sophisticated structures of the underlying force field. Therefore, we first train a MLFF model on a large amount of inaccurate training data, employing a bias-aware loss function to prevent the model from overfitting tahe potential bias of this data. We then fine-tune the obtained model using a small amount of accurate training data, which preserves the knowledge learned from the inaccurate training data while significantly improving the model's accuracy. Moreover, we propose a variant of ASTEROID based on score matching for the setting where the inaccurate training data are unlabeled. Extensive experiments on MD datasets and downstream tasks validate the efficacy of ASTEROID. Our code and data are available at https://github.com/abukharin3/asteroid.
翻訳日:2023-06-07 19:09:55 公開日:2023-06-05
# 関連性を考慮したコントラスト事前学習による教師なし高密度検索

Unsupervised Dense Retrieval with Relevance-Aware Contrastive Pre-Training ( http://arxiv.org/abs/2306.03166v1 )

ライセンス: Link先を確認
Yibin Lei, Liang Ding, Yu Cao, Changtong Zan, Andrew Yates, Dacheng Tao(参考訳) デンスレトリバーは素晴らしいパフォーマンスを達成したが、豊富なトレーニングデータに対する彼らの要求はアプリケーションシナリオを制限する。 ラベルなしデータから擬陽性例を構成するコントラスト事前学習は、この問題を解く大きな可能性を示している。 しかし、データ拡張による擬陽性例は無関係である。 そこで本研究では,関連性を考慮したコントラスト学習を提案する。 中間学習モデル自体を不完全なオラクルとして、正のペアの関連性を推定し、推定された関連性に応じて異なるペアの対照的な損失を適応的に評価する。 提案手法は,BEIRおよびオープンドメインQA検索ベンチマークにおいて,SOTAアン教師付きコントリバーモデルを継続的に改善する。 さらに,本手法は,目標コーパスの事前訓練後にBM25に勝るだけでなく,優れた数発学習者として機能することを示す。 私たちのコードはhttps://github.com/Yibin-Lei/ReContriever.comで公開されています。

Dense retrievers have achieved impressive performance, but their demand for abundant training data limits their application scenarios. Contrastive pre-training, which constructs pseudo-positive examples from unlabeled data, has shown great potential to solve this problem. However, the pseudo-positive examples crafted by data augmentations can be irrelevant. To this end, we propose relevance-aware contrastive learning. It takes the intermediate-trained model itself as an imperfect oracle to estimate the relevance of positive pairs and adaptively weighs the contrastive loss of different pairs according to the estimated relevance. Our method consistently improves the SOTA unsupervised Contriever model on the BEIR and open-domain QA retrieval benchmarks. Further exploration shows that our method can not only beat BM25 after further pre-training on the target corpus but also serves as a good few-shot learner. Our code is publicly available at https://github.com/Yibin-Lei/ReContriever.
翻訳日:2023-06-07 19:01:32 公開日:2023-06-05
# クラウドと大陸をまたいだディープラーニングモデルをどうやってトレーニングできるのか? 実験的検討

How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study ( http://arxiv.org/abs/2306.03163v1 )

ライセンス: Link先を確認
Alexander Isenko, Ruben Mayer, Hans-Arno Jacobsen(参考訳) クラウドや専用ハードウェア上でのディープラーニングモデルのトレーニングは費用がかかる。 よりコスト効率のよい選択肢は、オンデマンドリソースに代わる安価だが短命なスポットインスタンスを提供するハイパースケールクラウドである。 スポットインスタンスの可用性は、日時、大陸、クラウドプロバイダによって変化する可能性があるため、世界中にリソースを分散するコスト効率が向上する可能性がある。 それでも、地理的に分散したデータ並列スポットディープラーニングトレーニングが、集中型トレーニングよりもコスト効率の高い代替手段になるかどうかは、調査されていない。 ディープラーニングモデルは、さまざまなデータセンタやクラウドプロバイダにまたがるスポットVMのグローバル市場において、コスト効率のよいトレーニングが可能か? CVおよびNLPモデルの代表モデルに対して,異なるゾーン,大陸,雲におけるトレーニングのコストとスループットの影響を広範囲に評価した。 現在のトレーニングオプションをさらに拡大するために、オンプレミスハードウェアにクラウドリソースを追加してトレーニングスループットを向上させることで、ハイブリッドクラウドシナリオのスケーラビリティ可能性を比較する。 最後に、スポットインスタンスの価格を活用することで、複数の安価なVMでモデルをトレーニングし、より中央集権的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を駆使する、新たなコスト効率の方法が実現できることを示します。

Training deep learning models in the cloud or on dedicated hardware is expensive. A more cost-efficient option are hyperscale clouds offering spot instances, a cheap but ephemeral alternative to on-demand resources. As spot instance availability can change depending on the time of day, continent, and cloud provider, it could be more cost-efficient to distribute resources over the world. Still, it has not been investigated whether geo-distributed, data-parallel spot deep learning training could be a more cost-efficient alternative to centralized training. This paper aims to answer the question: Can deep learning models be cost-efficiently trained on a global market of spot VMs spanning different data centers and cloud providers? To provide guidance, we extensively evaluate the cost and throughput implications of training in different zones, continents, and clouds for representative CV and NLP models. To expand the current training options further, we compare the scalability potential for hybrid-cloud scenarios by adding cloud resources to on-premise hardware to improve training throughput. Finally, we show how leveraging spot instance pricing enables a new cost-efficient way to train models with multiple cheap VMs, trumping both more centralized and powerful hardware and even on-demand cloud offerings at competitive prices.
翻訳日:2023-06-07 19:01:16 公開日:2023-06-05
# 学習における絡み合いと統計の役割について

On the Role of Entanglement and Statistics in Learning ( http://arxiv.org/abs/2306.03161v1 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Vojtech Havlicek, Louis Schatzki(参考訳) 本研究では,量子統計クエリ(QSQ)モデルにおいて,絡み合った,分離可能な,統計的に測定された学習モデル間の関係を理解する。 この目的のために、以下の結果を示す。 分離可能な測定値に対して$\textbf{entangled。 c\subseteq \{f:\{0,1\}^n\rightarrow [k]\}$ $\frac{1}{\sqrt{2^n}}\sum_x \vert x,f(x)\rangle$.} ここでの目標は、未知の$f$を、$\frac{1}{\sqrt{2^n}}\sum_x \vert x,f(x)\rangle$という概念クラスから学ぶことである。 もし$t$が、絡み合った測定値を使って$f$を学ぶのに十分であれば、$o(nt^2)$は、分離可能な測定値だけで$f$を学ぶのに十分である。 $\textbf{Entangled versus statistics Measurement} ここでのゴールは、分離可能な測定と統計測定へのアクセスを与えられた関数 $f \in C$ を学ぶことである。 qsq学習と(ノイズが存在する場合でも)絡み合った測定値を持つ量子学習を指数関数的に分離するクラス$c$を示す。 これはblum et alの独創的な結果の「量子アナログ」を証明している。 [BKW'03]。 これは古典的なSQとPAC学習を分類ノイズで分離する。 学習状態の上限は$\textbf{qsq である。 量子統計クエリーディメンション(QSD)を導入し、QSQ学習の下位境界を与える。 これにより、純度、シャドウトモグラフィ、アベリア隠れ部分群問題、次数2$の関数、植込み双斜め状態、深さ$\textsf{polylog}(n)$のクリフォード回路の出力状態をテストするための超多項式QSQの下界を証明できる。 $\textbf{Further アプリケーション。 弱いエラーと強いエラーの軽減を分離し、qsqモデルにおける学習分布の限界を低く証明します。 Quekらによる以前の作品。 qfk+'22] ヒンシュなどです [hin+'22] と nietner 等。 NIS+'23]は類似の結果を$\textit{assuming}$ 対角測定で証明し、我々の研究はこの仮定を取り除いた。

In this work we make progress in understanding the relationship between learning models with access to entangled, separable and statistical measurements in the quantum statistical query (QSQ) model. To this end, we show the following results. $\textbf{Entangled versus separable measurements.}$ The goal here is to learn an unknown $f$ from the concept class $C\subseteq \{f:\{0,1\}^n\rightarrow [k]\}$ given copies of $\frac{1}{\sqrt{2^n}}\sum_x \vert x,f(x)\rangle$. We show that, if $T$ copies suffice to learn $f$ using entangled measurements, then $O(nT^2)$ copies suffice to learn $f$ using just separable measurements. $\textbf{Entangled versus statistical measurements}$ The goal here is to learn a function $f \in C$ given access to separable measurements and statistical measurements. We exhibit a class $C$ that gives an exponential separation between QSQ learning and quantum learning with entangled measurements (even in the presence of noise). This proves the "quantum analogue" of the seminal result of Blum et al. [BKW'03]. that separates classical SQ and PAC learning with classification noise. $\textbf{QSQ lower bounds for learning states.}$ We introduce a quantum statistical query dimension (QSD), which we use to give lower bounds on the QSQ learning. With this we prove superpolynomial QSQ lower bounds for testing purity, shadow tomography, Abelian hidden subgroup problem, degree-$2$ functions, planted bi-clique states and output states of Clifford circuits of depth $\textsf{polylog}(n)$. $\textbf{Further applications.}$ We give and $\textit{unconditional}$ separation between weak and strong error mitigation and prove lower bounds for learning distributions in the QSQ model. Prior works by Quek et al. [QFK+'22], Hinsche et al. [HIN+'22], and Nietner et al. [NIS+'23] proved the analogous results $\textit{assuming}$ diagonal measurements and our work removes this assumption.
翻訳日:2023-06-07 19:00:53 公開日:2023-06-05
# DisCount: インテグレータベースのインポートサンプリングによる大規模なイメージコレクションのカウント

DISCount: Counting in Large Image Collections with Detector-Based Importance Sampling ( http://arxiv.org/abs/2306.03151v1 )

ライセンス: Link先を確認
Gustavo Perez, Subhransu Maji, Daniel Sheldon(参考訳) 現代の多くのアプリケーションはコンピュータビジョンを使って大量の画像コレクション中の物体を検出し、数えている。 しかし、検出タスクが非常に難しい場合や、ドメインシフトが存在する場合、トレーニングデータやモデル開発に多大な投資をしても、カウントは不正確である可能性がある。 DisCountは,不完全な検出器とループ内スクリーニングを統合した大規模な画像収集をカウントするための,検出に基づく重要度サンプリングフレームワークである。 少数のスクリーニングサンプルと推定信頼区間を用いて,複数の空間的・時間的領域にまたがる数え上げ問題の解法を提案する。 これにより、評価が十分に正確であれば、エンドユーザーがスクリーニングを止めることができる。 技術面では,制御変動に基づく分散低減手法を開発し,推定器の(条件付き)不偏性を証明する。 ディスカウントは、レーダー画像における鳥の計数や衛星画像における損傷した建物の推定など、私たちが検討するタスクのナイーブなスクリーニングよりも9〜12倍のラベリングコストを削減し、また、効率の面では、他の共変量に基づくスクリーニングアプローチを上回っている。

Many modern applications use computer vision to detect and count objects in massive image collections. However, when the detection task is very difficult or in the presence of domain shifts, the counts may be inaccurate even with significant investments in training data and model development. We propose DISCount -- a detector-based importance sampling framework for counting in large image collections that integrates an imperfect detector with human-in-the-loop screening to produce unbiased estimates of counts. We propose techniques for solving counting problems over multiple spatial or temporal regions using a small number of screened samples and estimate confidence intervals. This enables end-users to stop screening when estimates are sufficiently accurate, which is often the goal in a scientific study. On the technical side we develop variance reduction techniques based on control variates and prove the (conditional) unbiasedness of the estimators. DISCount leads to a 9-12x reduction in the labeling costs over naive screening for tasks we consider, such as counting birds in radar imagery or estimating damaged buildings in satellite imagery, and also surpasses alternative covariate-based screening approaches in efficiency.
翻訳日:2023-06-07 19:00:08 公開日:2023-06-05
# 自然のツールで自然をデコードする:遺伝的アルゴリズムと量子アニーリングによる粒子物理学のヘテロティックラインバンドルモデル

Decoding Nature with Nature's Tools: Heterotic Line Bundle Models of Particle Physics with Genetic Algorithms and Quantum Annealing ( http://arxiv.org/abs/2306.03147v1 )

ライセンス: Link先を確認
Steve Abel, Andrei Constantin, Thomas R. Harvey, Andre Lukas and Luca A. Nutricati(参考訳) 弦理論のランドスケープには、標準模型の多数の紫外線埋め込みが含まれているかもしれないが、利用可能な弦のコンパクト化が非常に多いため、これらを特定することは困難である。 遺伝的アルゴリズム(GAs)は、特に量子アニールからの入力によって強化された場合、文字列ランドスケープの減衰を効率的に扱うことのできる、離散最適化技術の強力なクラスである。 このレターでは、アーベル束を持つ滑らかなカラビ・ヤウ3次元多様体上でコンパクト化された$e_8\times e_8$ヘテロティック弦理論の幾何学的コンパクト化に焦点を当てる。 我々は、バンドル値コホモロジーに対する解析公式を用いて、これまで不可能だったスペクトル要求の範囲を全て課している。 比較的少ないカーラーパラメータを持つ多様体に対しては、GA検索結果と以前の体系的スキャンの結果を比較し、GAが解空間のごく一部しか訪れていない間、ほぼすべての実行可能な解を見つけることができることを示す。 さらに,体系的な探索が不可能な多数のケーラーパラメータを持つ多様体上でGA探索を行う。

The string theory landscape may include a multitude of ultraviolet embeddings of the Standard Model, but identifying these has proven difficult due to the enormous number of available string compactifications. Genetic Algorithms (GAs) represent a powerful class of discrete optimisation techniques that can efficiently deal with the immensity of the string landscape, especially when enhanced with input from quantum annealers. In this letter we focus on geometric compactifications of the $E_8\times E_8$ heterotic string theory compactified on smooth Calabi-Yau threefolds with Abelian bundles. We make use of analytic formulae for bundle-valued cohomology to impose the entire range of spectrum requirements, something that has not been possible so far. For manifolds with a relatively low number of Kahler parameters we compare the GA search results with results from previous systematic scans, showing that GAs can find nearly all the viable solutions while visiting only a tiny fraction of the solution space. Moreover, we carry out GA searches on manifolds with a larger numbers of Kahler parameters where systematic searches are not feasible.
翻訳日:2023-06-07 18:59:44 公開日:2023-06-05
# スピノンフェルミ表面の機械学習による特徴発見

Machine learning feature discovery of spinon Fermi surface ( http://arxiv.org/abs/2306.03143v1 )

ライセンス: Link先を確認
Kevin Zhang, Shi Feng, Yuri D. Lensky, Nandini Trivedi, Eun-Ah Kim(参考訳) 強い相互作用を持つ量子ハミルトニアンのシミュレーションの急速な進歩により、未知の位相を特徴づけることの課題は科学的な進歩のボトルネックとなる。 古典的機械学習を用いて投影的スナップショットをマイニングする量子古典的ハイブリッドアプローチ(qucl)が、一見無機能な量子状態の新しいシグネチャを提示できることを実証する。 結合依存的フラストレーション相互作用を持つハニカム格子上のキタエフ・ハイゼンベルク模型は、quclをテストするのに理想的な系を与える。 このモデルには、ギャップドとギャップレスの$\mathbb{Z}_2$スピン液体と、小さな外部磁場中のキラルスピン液体(CSL)相という、多くの量子スピン状態がある。 近年、様々なシミュレーションにより、CSLと部分偏極相の間に挟まれた新しい中間ギャップレス位相(IGP)が発見され、その解像の性質に関する議論が始まった。 解釈可能なニューラルネットワークであるコレレータ畳み込みニューラルネットワーク(CCNN)を用いて,2つの位相を相互に対比することにより,モデル内の位相のシグネチャを明らかにする。 我々はccnnをサンプル射影計測のラベル付きコレクションで訓練し,正規化経路解析により各位相のシグネチャを明らかにする。 quclは確立されたスピン液体相と秩序相の既知の特徴を再現する。 最も注目すべきは、磁場誘起igpの磁場方向と垂直なスピンチャネルにおけるシグネチャモチーフを同定することであり、これはフェルミ面を形成するギャップレススピノンのフリーデル振動のシグネチャと解釈する。 我々の予測は、将来のu(1)$スピン液体の実験的探索を導くことができる。

With rapid progress in simulation of strongly interacting quantum Hamiltonians, the challenge in characterizing unknown phases becomes a bottleneck for scientific progress. We demonstrate that a Quantum-Classical hybrid approach (QuCl) of mining the projective snapshots with interpretable classical machine learning, can unveil new signatures of seemingly featureless quantum states. The Kitaev-Heisenberg model on a honeycomb lattice with bond-dependent frustrated interactions presents an ideal system to test QuCl. The model hosts a wealth of quantum spin liquid states: gapped and gapless $\mathbb{Z}_2$ spin liquids, and a chiral spin liquid (CSL) phase in a small external magnetic field. Recently, various simulations have found a new intermediate gapless phase (IGP), sandwiched between the CSL and a partially polarized phase, launching a debate over its elusive nature. We reveal signatures of phases in the model by contrasting two phases pairwise using an interpretable neural network, the correlator convolutional neural network (CCNN). We train the CCNN with a labeled collection of sampled projective measurements and reveal signatures of each phase through regularization path analysis. We show that QuCl reproduces known features of established spin liquid phases and ordered phases. Most significantly, we identify a signature motif of the field-induced IGP in the spin channel perpendicular to the field direction, which we interpret as a signature of Friedel oscillations of gapless spinons forming a Fermi surface. Our predictions can guide future experimental searches for $U(1)$ spin liquids.
翻訳日:2023-06-07 18:59:25 公開日:2023-06-05
# テンソル、群、多項式の同型問題の複雑性III:古典群による作用について

On the complexity of isomorphism problems for tensors, groups, and polynomials III: actions by classical groups ( http://arxiv.org/abs/2306.03135v1 )

ライセンス: Link先を確認
Zhili Chen and Joshua A. Grochow and Youming Qiao and Gang Tang and Chuanqi Zhang(参考訳) 直交群、ユニタリ群、シンプレクティック群などの古典群による自然な作用の下で、d-ウェイアレイやテンソルの同型問題の複雑性について検討する。 このような問題は統計データ解析や量子情報において自然に発生する。 複雑性理論的な2つの質問について検討する。 まず、固定作用型(同型、共役等)に対して、古典群上の同型問題の複雑さと一般線型群上の同型問題を関連付ける。 第二に、固定群型(直交型、ユニタリ型、シンプレクティック型)では、異なる行動に対する決定問題の複雑さを比較する。 主な成果は以下の通りである。 まず、3方向配列に作用する直交群とシンプレクティック群に対して、同型問題は一般線型群上の対応する問題に還元される。 第二に、直交群とユニタリ群に対しては、三次元アレイ上の5つの自然な作用の同型問題は多項式時間同型であり、d-テンソル同型問題は任意の固定d>3の3つのテンソル同型問題に還元される。 ユニタリ群について、上記の結果は、三部分量子状態のLOCC分類が、少なくとも任意の d に対して d-分量子状態のLOCC分類と同じくらい難しいことを示唆している。 最後に、グラフ同型問題は直交群とユニタリ群上のテンソル同型問題に還元されることを示す。

We study the complexity of isomorphism problems for d-way arrays, or tensors, under natural actions by classical groups such as orthogonal, unitary, and symplectic groups. Such problems arise naturally in statistical data analysis and quantum information. We study two types of complexity-theoretic questions. First, for a fixed action type (isomorphism, conjugacy, etc.), we relate the complexity of the isomorphism problem over a classical group to that over the general linear group. Second, for a fixed group type (orthogonal, unitary, or symplectic), we compare the complexity of the decision problems for different actions. Our main results are as follows. First, for orthogonal and symplectic groups acting on 3-way arrays, the isomorphism problems reduce to the corresponding problem over the general linear group. Second, for orthogonal and unitary groups, the isomorphism problems of five natural actions on 3-way arrays are polynomial-time equivalent, and the d-tensor isomorphism problem reduces to the 3-tensor isomorphism problem for any fixed d>3. For unitary groups, the preceding result implies that LOCC classification of tripartite quantum states is at least as difficult as LOCC classification of d-partite quantum states for any d. Lastly, we also show that the graph isomorphism problem reduces to the tensor isomorphism problem over orthogonal and unitary groups.
翻訳日:2023-06-07 18:58:59 公開日:2023-06-05
# シュル=オディンガー代数の自然な基礎におけるクリロフ複雑性

Krylov complexity in a natural basis for the Schr\"odinger algebra ( http://arxiv.org/abs/2306.03133v1 )

ライセンス: Link先を確認
Dimitrios Patramanis and Watse Sybesma(参考訳) クリロフ複雑性の研究により、2次元シュリンガー群対称性を持つ量子系の作用素成長を研究する。 半単純リー代数では実現可能であるが、半直和構造によって特徴づけられるシュリンガー代数のようなケースは複雑である。 我々は、この代数のクリロフ複雑性を自然な正則基底で計算し、通常の三対角ランツォスアルゴリズムの結果とは対照的に、時間発展作用素の五対角構造を生成することを提案する。 結果として生じる複雑性は期待通りに振る舞う。 このアプローチは他の半単純でない代数に洞察を与えることができると我々は主張する。

We investigate operator growth in quantum systems with two-dimensional Schr\"odinger group symmetry by studying the Krylov complexity. While feasible for semi-simple Lie algebras, cases such as the Schr\"odinger algebra which is characterized by a semi-direct sum structure are complicated. We propose to compute Krylov complexity for this algebra in a natural orthonormal basis, which produces a pentadiagonal structure of the time evolution operator, contrasting the usual tridiagonal Lanczos algorithm outcome. The resulting complexity behaves as expected. We advocate that this approach can provide insights to other non-semisimple algebras.
翻訳日:2023-06-07 18:58:33 公開日:2023-06-05
# ナノスケール量子センサを用いた水素化物超伝導体のメガバール圧力下でのマイスナー効果とフラックストラップのイメージング

Imaging the Meissner effect and flux trapping in a hydride superconductor at megabar pressures using a nanoscale quantum sensor ( http://arxiv.org/abs/2306.03122v1 )

ライセンス: Link先を確認
Prabudhya Bhattacharyya, Wuhao Chen, Xiaoli Huang, Shubhayu Chatterjee, Benchen Huang, Bryce Kobrin, Yuanqi Lyu, Thomas J. Smart, Maxwell Block, Esther Wang, Zhipan Wang, Weijie Wu, Satcher Hsieh, He Ma, Srinivas Mandyam, Bijuan Chen, Emily Davis, Zachary M. Geballe, Chong Zu, Viktor Struzhkin, Raymond Jeanloz, Joel E. Moore, Tian Cui, Giulia Galli, Bertrand I. Halperin, Chris R. Laumann, Norman Y. Yao(参考訳) 微視的な相互作用を直接変化させることで、圧力は凝縮相や物理現象の探索に強力なチューニングノブを提供する。 メガバー構造はエキサイティングなフロンティアであり、近年の発見には、新しい高温超伝導体、構造および原子価相転移が含まれる。 しかし、そのような高圧では、多くの従来の計測技術が失敗する。 ここでは,ダイヤモンドアンビルセル内の局所磁力測定を,メガバール圧力でサブミクロン空間分解能で行う能力を示す。 提案手法では,窒素空白 (nv) カラーセンタの浅層をアンビル内に直接注入し, nvセンターの固有対称性に適合する結晶カットを選択し, メガバール圧力で機能性を実現する。 この手法を用いて最近発見された水素化物超伝導体ceh$_9$を特徴付ける。 同時磁力計と電気輸送測定により, マイスナー効果の局所磁気特性と, ほぼゼロに近い抵抗の急激な低下という, 超伝導の2つの特徴を観測した。 マイスナー効果とフラックストラップの局所マッピングにより、超伝導領域の幾何学を直接画像化し、ミクロンスケールで重要な不均一性を明らかにする。 我々の研究は、メガバールのフロンティアに量子センシングをもたらし、超ハイドライド材料合成の閉ループ最適化を可能にする。

By directly altering microscopic interactions, pressure provides a powerful tuning knob for the exploration of condensed phases and geophysical phenomena. The megabar regime represents an exciting frontier, where recent discoveries include novel high-temperature superconductors, as well as structural and valence phase transitions. However, at such high pressures, many conventional measurement techniques fail. Here, we demonstrate the ability to perform local magnetometry inside of a diamond anvil cell with sub-micron spatial resolution at megabar pressures. Our approach utilizes a shallow layer of Nitrogen-Vacancy (NV) color centers implanted directly within the anvil; crucially, we choose a crystal cut compatible with the intrinsic symmetries of the NV center to enable functionality at megabar pressures. We apply our technique to characterize a recently discovered hydride superconductor, CeH$_9$. By performing simultaneous magnetometry and electrical transport measurements, we observe the dual signatures of superconductivity: local diamagnetism characteristic of the Meissner effect and a sharp drop of the resistance to near zero. By locally mapping the Meissner effect and flux trapping, we directly image the geometry of superconducting regions, revealing significant inhomogeneities at the micron scale. Our work brings quantum sensing to the megabar frontier and enables the closed loop optimization of superhydride materials synthesis.
翻訳日:2023-06-07 18:58:23 公開日:2023-06-05
# タンパク質分子動力学のためのスコアベース強化サンプリング

Score-based Enhanced Sampling for Protein Molecular Dynamics ( http://arxiv.org/abs/2306.03117v1 )

ライセンス: Link先を確認
Jiarui Lu, Bozitao Zhong, Jian Tang(参考訳) タンパク質の動的性質はそれらの生物学的機能や性質を決定するのに不可欠であり、分子動力学(MD)シミュレーションはそのような現象を研究する主要なツールである。 経験的に導かれた力場を利用することで、MDシミュレーションはMD軌道に沿って系を数値的に進化させることによりコンフォメーション空間を探索する。 しかし、力場の高エネルギー障壁はMDの探索を妨げ、十分なサンプルアンサンブルが不十分となる。 本稿では,一般的なタンパク質構造を訓練したスコアベース生成モデル(sgms)を用いてタンパク質コンフォメーションサンプリングを行い,従来のmdシミュレーションを補完する手法を提案する。 我々は,SGMが多レベルスコア関数を学習し,多様性制御可能なコンフォーメーションのアンサンブルを直接サンプリングすることで,従来の拡張サンプリング手法に代わる新しいフレームワークを提供することができると論じる。 本稿では,mdトラジェクタと最先端生成構造予測モデルとの比較により,複数のベンチマークシステムにおける提案手法の有効性を実証する。 我々のフレームワークは、SGMがタンパク質の動態を研究するための効率的でシミュレーションのない方法として役立つ可能性があるという新たな洞察を提供する。

The dynamic nature of proteins is crucial for determining their biological functions and properties, and molecular dynamics (MD) simulations stand as a predominant tool to study such phenomena. By utilizing empirically derived force fields, MD simulations explore the conformational space through numerically evolving the system along MD trajectories. However, the high-energy barrier of the force fields can hamper the exploration of MD, resulting in inadequately sampled ensemble. In this paper, we propose leveraging score-based generative models (SGMs) trained on general protein structures to perform protein conformational sampling to complement traditional MD simulations. We argue that SGMs can provide a novel framework as an alternative to traditional enhanced sampling methods by learning multi-level score functions, which directly sample a diversity-controllable ensemble of conformations. We demonstrate the effectiveness of our approach on several benchmark systems by comparing the results with long MD trajectories and state-of-the-art generative structure prediction models. Our framework provides new insights that SGMs have the potential to serve as an efficient and simulation-free methods to study protein dynamics.
翻訳日:2023-06-07 18:57:59 公開日:2023-06-05
# 急速断熱通路を経由するディッキン状態の生成と極端スピンスクイージング

Dicke State Generation and Extreme Spin Squeezing via Rapid Adiabatic Passage ( http://arxiv.org/abs/2306.03190v1 )

ライセンス: Link先を確認
Sebastian C. Carrasco, Michael H. Goerz, Svetlana A. Malinovskaya, Vladan Vuletic, Wolfgang Schleich, and Vladimir S. Malinovsky(参考訳) 標準回転と組み合わせた一軸ねじりハミルトニアンの一意なエネルギー準位構造を考慮して,ディッケ状態に基づく急速断熱通路スキームの実装を提案する。 この方法では、多原子系のディッケ状態を最大量子フィッシャー情報を持つ絡み合った状態に導くことができる。 設計された状態は、量子計測とセンシングにおける位相感度の古典的限界を克服することができる。 ラムゼイ干渉計測のためのメトロロジーゲインを最大化するディッケ状態の重ね合わせを生成する方法を示す。 提案手法は, 駆動磁場と原子数の変化に非常に頑健である。

Considering the unique energy level structure of the one-axis twisting Hamiltonian in combination with standard rotations, we propose the implementation of a rapid adiabatic passage scheme on the Dicke state basis. The method permits to drive Dicke states of the many-atom system into entangled states with maximum quantum Fisher information. The designed states allow to overcome the classical limit of phase sensitivity in quantum metrology and sensing. We show how to generate superpositions of Dicke states, which maximize metrological gain for a Ramsey interferometric measurement. The proposed scheme is remarkably robust to variations of the driving field and the number of atoms.
翻訳日:2023-06-07 18:52:11 公開日:2023-06-05
# ドイツにおける読みやすさ:現状と利用可能な資源に関する調査

Easy-to-Read in Germany: A Survey on its Current State and Available Resources ( http://arxiv.org/abs/2306.03189v1 )

ライセンス: Link先を確認
Margot Madina, Itziar Gonzalez-Dios, Melanie Siegel(参考訳) Easy-to-Read Language (E2R) は、明瞭で直接的で単純な言語を使って、どんなテキストでもよりアクセスしやすいように制御された言語である。 主に、認知障害や知的障害を持つ人々、特にターゲットユーザーを対象としている。 一方、プレーン言語(pl)は与えられた言語の変種であり、情報を伝えるための単純な言語の使用を促進することを目的としている。 ドイツ語は、E2RのバージョンであるLeichte Sprache (LS)と、PLのバージョンであるEinfache Sprache (ES)を数えている。 近年,LS分野において重要な開発が進められている。 本稿では,既存の自然言語処理(NLP)ツールとLSのリソースについて概説する。 また、ドイツにおけるLSとESに関する状況の設定も目指している。

Easy-to-Read Language (E2R) is a controlled language variant that makes any written text more accessible through the use of clear, direct and simple language. It is mainly aimed at people with cognitive or intellectual disabilities, among other target users. Plain Language (PL), on the other hand, is a variant of a given language, which aims to promote the use of simple language to communicate information. German counts with Leichte Sprache (LS), its version of E2R, and Einfache Sprache (ES), its version of PL. In recent years, important developments have been conducted in the field of LS. This paper offers an updated overview of the existing Natural Language Processing (NLP) tools and resources for LS. Besides, it also aims to set out the situation with regard to LS and ES in Germany.
翻訳日:2023-06-07 18:51:59 公開日:2023-06-05
# 強化学習のための疑似数推定のためのコインの反転

Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement Learning ( http://arxiv.org/abs/2306.03186v1 )

ライセンス: Link先を確認
Sam Lobel and Akhil Bagaria and George Konidaris(参考訳) 本研究では,高次元状態空間におけるカウントベース探索法を提案する。 密度モデルに依存する以前の研究とは異なり、カウントはラデマッハ分布(またはコインフリップ)のサンプルの平均化によって導き出すことができる。 この洞察は、単純な教師付き学習目標を設定するために使用され、最適化されると、状態の訪問回数が生成される。 モデルレス強化学習アルゴリズムの探索ボーナスとして用いる場合,アタリゲーム「モンテズマ・リベンジ」を含む9つの探索課題において,既存のアプローチよりも優れていることを示す。

We propose a new method for count-based exploration in high-dimensional state spaces. Unlike previous work which relies on density models, we show that counts can be derived by averaging samples from the Rademacher distribution (or coin flips). This insight is used to set up a simple supervised learning objective which, when optimized, yields a state's visitation count. We show that our method is significantly more effective at deducing ground-truth visitation counts than previous work; when used as an exploration bonus for a model-free reinforcement learning algorithm, it outperforms existing approaches on most of 9 challenging exploration tasks, including the Atari game Montezuma's Revenge.
翻訳日:2023-06-07 18:51:44 公開日:2023-06-05
# 公正患者モデル(fair patient model) : 電子健康記録から学ぶ患者表現のバイアス緩和

Fair Patient Model: Mitigating Bias in the Patient Representation Learned from the Electronic Health Records ( http://arxiv.org/abs/2306.03179v1 )

ライセンス: Link先を確認
Sonish Sivarajkumar, Yufei Huang, Yanshan Wang(参考訳) 目的: 偏見を低減し, 深層表現学習モデルの公平性を向上する新たな重み付き損失関数を用いて, 電子健康記録(EHR)から, 公平で偏見のない患者表現を事前訓練する。 方法: 深部表現学習モデルでは, 患者と特徴の異なるグループの重要性のバランスをとるために, 重み付き損失関数と呼ばれる新たな損失関数を定義した。 提案モデルであるfair patient model (fpm) をmemmy-iiiデータセットから34,739例の患者に応用し, 4つの臨床結果予測タスクについて検討した。 結果: FPMは,3つのフェアネス指標(人口格差,機会差の平等,等化確率比)でベースラインモデルを上回った。 FPMはまた、平均精度0.7912のベースラインで同等の予測性能を達成した。 特徴分析の結果,FPMは臨床像からベースラインよりも多くの情報を得た。 結論: FPM は重み付き損失関数を用いた EHR データから, 公平で偏りのない患者表現を事前訓練するための新しい手法である。 学習された表現は、医療における様々な下流タスクに使用することができ、バイアスと公平性が重要である他の領域にも拡張できる。

Objective: To pre-train fair and unbiased patient representations from Electronic Health Records (EHRs) using a novel weighted loss function that reduces bias and improves fairness in deep representation learning models. Methods: We defined a new loss function, called weighted loss function, in the deep representation learning model to balance the importance of different groups of patients and features. We applied the proposed model, called Fair Patient Model (FPM), to a sample of 34,739 patients from the MIMIC-III dataset and learned patient representations for four clinical outcome prediction tasks. Results: FPM outperformed the baseline models in terms of three fairness metrics: demographic parity, equality of opportunity difference, and equalized odds ratio. FPM also achieved comparable predictive performance with the baselines, with an average accuracy of 0.7912. Feature analysis revealed that FPM captured more information from clinical features than the baselines. Conclusion: FPM is a novel method to pre-train fair and unbiased patient representations from EHR data using a weighted loss function. The learned representations can be used for various downstream tasks in healthcare and can be extended to other domains where bias and fairness are important.
翻訳日:2023-06-07 18:51:32 公開日:2023-06-05
# deepvqe:ジョイント音響エコーキャンセラ、ノイズ抑圧、残響除去のためのリアルタイム音声品質向上

DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic Echo Cancellation, Noise Suppression and Dereverberation ( http://arxiv.org/abs/2306.03177v1 )

ライセンス: Link先を確認
Evgenii Indenbom, Nicolae-Catalin Ristea, Ando Saabas, Tanel Parnamaa, Jegor Guzvin, Ross Cutler(参考訳) 音響エコーキャンセレーション(aec)、ノイズ抑圧(ns)、デバーバレーション(dr)は、現代の完全二重通信システムにおいて不可欠な部分である。 テレ会議システムの需要が増加するにつれて、これらのタスクに対処することは、効果的で効率的なオンラインミーティング体験のために必要となる。 従来のほとんどの研究では、これらのタスクをデジタル信号処理(DSP)ベースのコンポーネントと組み合わせて、現実のアプリケーションにデプロイするのに実用的でない複雑なパイプラインが提案されていた。 本稿では,AEC,NS,DRを同時に扱うために,残差畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)に基づいて,DeepVQEと呼ばれるリアルタイムのクロスアテンションディープモデルを提案する。 deepvqe は icassp 2023 acoustic echo cancel challenge と icassp 2023 deep noise suppression challenge テストセットの非パーソナルトラックでの最先端性能を実現し、単一のモデルで優れた性能で複数のタスクを処理できることを示した。 さらに、モデルはリアルタイムで実行され、Microsoft Teamsプラットフォームでテストに成功した。

Acoustic echo cancellation (AEC), noise suppression (NS) and dereverberation (DR) are an integral part of modern full-duplex communication systems. As the demand for teleconferencing systems increases, addressing these tasks is required for an effective and efficient online meeting experience. Most prior research proposes solutions for these tasks separately, combining them with digital signal processing (DSP) based components, resulting in complex pipelines that are often impractical to deploy in real-world applications. This paper proposes a real-time cross-attention deep model, named DeepVQE, based on residual convolutional neural networks (CNNs) and recurrent neural networks (RNNs) to simultaneously address AEC, NS, and DR. We conduct several ablation studies to analyze the contributions of different components of our model to the overall performance. DeepVQE achieves state-of-the-art performance on non-personalized tracks from the ICASSP 2023 Acoustic Echo Cancellation Challenge and ICASSP 2023 Deep Noise Suppression Challenge test sets, showing that a single model can handle multiple tasks with excellent performance. Moreover, the model runs in real-time and has been successfully tested for the Microsoft Teams platform.
翻訳日:2023-06-07 18:51:08 公開日:2023-06-05
# 高電荷hoおよびdyイオンの結合エネルギー差の計算

Calculations of the binding-energy differences for highly-charged Ho and Dy ions ( http://arxiv.org/abs/2306.03176v1 )

ライセンス: Link先を確認
I. M. Savelyev, M. Y. Kaygorodov, Y. S. Kozhedub, I. I. Tupitsyn, and V. M. Shabaev(参考訳) イオン化度が$q=38$、$39$、$40$の結合エネルギー差は$^{163}\mathrm{Ho}^{q+}$と$^{163}\mathrm{Dy}^{q+}$の結合エネルギー差を計算する。 計算は大規模相対論的構成相互作用と相対論的結合クラスタ法を用いて行われる。 量子電気力学、核反動、周波数依存性のブライト-相互作用効果の寄与を考慮する。 最終的な不確実性は1ドルeVを超えない。 得られた結果と[Savelyev et al., Phys. A 105, 012806 (2022)]で計算された中性原子の結合エネルギー差を組み合わせることで、イオン-原子結合エネルギーの二次的な違いが得られる。 これらの値は、高電荷イオン$^{163}\mathrm{Ho}^{q+}$と$^{163}\mathrm{Dy}^{q+}$の質量差が実験から知られているように、電子捕獲過程で放出されるエネルギーの量を評価するために用いられる。 Q$値はベータデカイ過程を研究することによって電子ニュートリノ質量の絶対スケールを決定する実験によって要求される。

The binding-energy differences for $^{163}\mathrm{Ho}^{q+}$ and $^{163}\mathrm{Dy}^{q+}$ ions with ionization degrees $q = 38$, $39$, and $40$ are calculated. The calculations are performed using the large-scale relativistic configuration-interaction and relativistic coupled-clusters methods. The contributions from quantum-electrodynamics, nuclear-recoil, and frequency-dependent Breit-interaction effects are taken into account. The final uncertainty does not exceed $1$ eV. Combining the obtained results with the binding-energy difference for neutral atoms calculated in [Savelyev et al., Phys. Rev. A 105, 012806 (2022)], we get the secondary differences of the ion-atom binding energies. These values can be used to evaluate the amount of energy released in the electron capture process in $^{163}\mathrm{Ho}$ atom (the $Q$ value), provided mass differences of highly charged ions $^{163}\mathrm{Ho}^{q+}$ and $^{163}\mathrm{Dy}^{q+}$ is known from experiment. The $Q$ value is required by experiments on the determination of the absolute scale of the electron neutrino mass by studying the beta-decay process.
翻訳日:2023-06-07 18:50:42 公開日:2023-06-05
# サンプル効率のよい抽象幾何推論のための注意機構における格子対称性の先行

Infusing Lattice Symmetry Priors in Attention Mechanisms for Sample-Efficient Abstract Geometric Reasoning ( http://arxiv.org/abs/2306.03175v1 )

ライセンス: Link先を確認
Mattia Atzeni, Mrinmaya Sachan, Andreas Loukas(参考訳) Abstraction and Reasoning Corpus (ARC) (Chollet, 2019)とその最新の言語完全インスタンス化(LARC)は、汎用AIへの重要なステップとして仮定されている。 しかし、最先端の機械学習モデルでさえ、これらの問題に対して有意義なパフォーマンスを達成するのに苦労し、非学習ベースのアプローチに遅れている。 これらの課題を解くには、コア知識の事前の適切な会計によってのみ達成できる極端に一般化が必要であると我々は主張する。 この目標に向けてのステップとして、幾何学的優先順位に注目し、注意マスクに格子対称性を組み込んだモデルlatformerを紹介します。 双立方格子の任意の変換に対して、その群作用を実装する二項注意マスクが存在することを示す。 そこで本研究では,畳み込みネットワークによって生成されるソフトマスクを用いて注意重みをスケールする標準注意機構の修正を行った。 合成幾何学的推論の実験は、LatFormerが標準の注意と変換器よりも2桁少ないデータを必要とすることを示している。 さらに,幾何的先行要素を組み込んだARCおよびLARCタスクの結果から,これらの複雑なデータセットが深層学習モデルの範囲外にあるという予備的な証拠が得られる。

The Abstraction and Reasoning Corpus (ARC) (Chollet, 2019) and its most recent language-complete instantiation (LARC) has been postulated as an important step towards general AI. Yet, even state-of-the-art machine learning models struggle to achieve meaningful performance on these problems, falling behind non-learning based approaches. We argue that solving these tasks requires extreme generalization that can only be achieved by proper accounting for core knowledge priors. As a step towards this goal, we focus on geometry priors and introduce LatFormer, a model that incorporates lattice symmetry priors in attention masks. We show that, for any transformation of the hypercubic lattice, there exists a binary attention mask that implements that group action. Hence, our study motivates a modification to the standard attention mechanism, where attention weights are scaled using soft masks generated by a convolutional network. Experiments on synthetic geometric reasoning show that LatFormer requires 2 orders of magnitude fewer data than standard attention and transformers. Moreover, our results on ARC and LARC tasks that incorporate geometric priors provide preliminary evidence that these complex datasets do not lie out of the reach of deep learning models.
翻訳日:2023-06-07 18:50:17 公開日:2023-06-05
# 線形距離距離学習

Linear Distance Metric Learning ( http://arxiv.org/abs/2306.03173v1 )

ライセンス: Link先を確認
Meysam Alishahi, Anna Little, and Jeff M. Phillips(参考訳) 線形距離距離学習では、あるユークリッド距離空間内のデータを与えられ、ある距離条件を可能な限り尊重する別のユークリッド距離空間への適切な線型写像を見つけることが目的である。 本稿では,一般連続凸損失最適化問題に還元する単純でエレガントな手法を定式化し,異なる雑音モデルに対して対応する損失関数を導出する。 その結果、データがノイズである場合でも、十分なサンプルへのアクセスを提供する精度で基底真理線形計量を学習できることを示し、対応するサンプル複雑性を限定する。 さらに,学習したモデルを低ランクモデルに切り離し,損失関数とパラメータの精度を良好に維持する効果的な手法を提案する。 合成および実データ集合に関するいくつかの実験的な観察は、我々の理論的結果を支持し、知らせる。

In linear distance metric learning, we are given data in one Euclidean metric space and the goal is to find an appropriate linear map to another Euclidean metric space which respects certain distance conditions as much as possible. In this paper, we formalize a simple and elegant method which reduces to a general continuous convex loss optimization problem, and for different noise models we derive the corresponding loss functions. We show that even if the data is noisy, the ground truth linear metric can be learned with any precision provided access to enough samples, and we provide a corresponding sample complexity bound. Moreover, we present an effective way to truncate the learned model to a low-rank model that can provably maintain the accuracy in loss function and in parameters -- the first such results of this type. Several experimental observations on synthetic and real data sets support and inform our theoretical results.
翻訳日:2023-06-07 18:49:55 公開日:2023-06-05
# 量子セルオートマトンと強い等価性について

Note on quantum cellular automata and strong equivalence ( http://arxiv.org/abs/2306.03171v1 )

ライセンス: Link先を確認
Carolyn Zhang(参考訳) 本稿では,1次元における量子セルオートマトン(qca)の安定同値よりも強い同値下での分類に関するいくつかの結果を示す。 強い同値性の下では、対称性の元のオンサイト表現を持つアンシラのみを追加することができるが、安定同値性の下では、対称性の表現を持つアンシラを追加することができる。 前者はより現実的で、特にAMO/量子コンピューティングの文脈における物理系では、対称性の任意の表現を含む追加スピンは存在しないだろう。 参照。 ~\onlinecite{mpu} は、強い同値の下で離散対称性を持つ QCA に対して、2種類の対称性保護指標 (SPIs) を提案した。 ここでは、より洗練されたこれらのSPIは、$N$が素数であるとき、$\mathbb{Z}_N$対称QCAの同値類と1対1の対応しか持たないことを示す。 対数例を n=4$ で示す。 所与のオンサイト表現に対して、強同値性の下で$\mathbb{Z}_2$対称性を持つ QCA は $\mathbb{Z}^{pq}$ で分類され、$p$ はオンサイトヒルベルト空間次元の素因子の個数であり、$q$ は非自明なオンサイト$\mathbb{Z}_2$要素のトレースの素因子の個数である。 最後に、GNVW指数は二重系における$\mathbb{Z}_2$SPIの定式化を持ち、GNVW指数のSPI定式化とGNVW指数の相互情報式の第2レニー版との直接接続を提供する。

In this note, we present some results on the classification of quantum cellular automata (QCA) in 1D under strong equivalence rather than stable equivalence. Under strong equivalence, we only allow adding ancillas carrying the original on-site representation of the symmetry, while under stable equivalence, we allow adding ancillas carrying any representation of the symmetry. The former may be more realistic, because in physical systems especially in AMO/quantum computing contexts, we would not expect additional spins carrying arbitrary representations of the symmetry to be present. Ref.~\onlinecite{mpu} proposed two kinds of symmetry-protected indices (SPIs) for QCA with discrete symmetries under strong equivalence. In this note, we show that the more refined of these SPIs still only has a one-to-one correspondence to equivalence classes of $\mathbb{Z}_N$ symmetric QCA when $N$ is prime. We show a counter-example for $N=4$. We show that QCA with $\mathbb{Z}_2$ symmetry under strong equivalence, for a given on-site representation, are classified by $\mathbb{Z}^{pq}$ where $p$ is the number of prime factors of the on-site Hilbert space dimension and $q$ is the number of prime factors of the trace of the nontrivial on-site $\mathbb{Z}_2$ element. Finally, we show that the GNVW index has a formulation in terms of a $\mathbb{Z}_2$ SPI in a doubled system, and we provide a direct connection between the SPI formulation of the GNVW index and a second Renyi version of the mutual information formula for the GNVW index.
翻訳日:2023-06-07 18:49:42 公開日:2023-06-05
# 合成と変形:テキストから画像へのモデルによる画像性の測定

Composition and Deformance: Measuring Imageability with a Text-to-Image Model ( http://arxiv.org/abs/2306.03168v1 )

ライセンス: Link先を確認
Si Wu, David A. Smith(参考訳) 精神言語学者や心理学者は長い間、聞き手や読み手の心的イメージを喚起する言語的ひもの傾向を研究してきたが、ほとんどの計算研究はこの概念を孤立した単語のみに適用している。 dalle mini などのテキスト対画像生成モデルにおける最近の進展を利用して,生成画像を用いて単一英単語と接続テキストの両方の可視性を測定する計算手法を提案する。 テキストプロンプトを3つのコーパスから抽出し,人間の生成した画像キャプション,ニュース記事の文章,詩行を抽出した。 これらのプロンプトを異なる変形に当てはめ、構成変化によって生じる可視性の変化を検出するモデルの能力を調べる。 提案手法と個人単語の人的判断との間には高い相関関係が認められた。 また,提案手法はベースラインアプローチよりも構成性の変化に一貫して対応している。 テキストから画像へのモデルの合成性研究におけるモデルトレーニングの効果と意義について考察する。

Although psycholinguists and psychologists have long studied the tendency of linguistic strings to evoke mental images in hearers or readers, most computational studies have applied this concept of imageability only to isolated words. Using recent developments in text-to-image generation models, such as DALLE mini, we propose computational methods that use generated images to measure the imageability of both single English words and connected text. We sample text prompts for image generation from three corpora: human-generated image captions, news article sentences, and poem lines. We subject these prompts to different deformances to examine the model's ability to detect changes in imageability caused by compositional change. We find high correlation between the proposed computational measures of imageability and human judgments of individual words. We also find the proposed measures more consistently respond to changes in compositionality than baseline approaches. We discuss possible effects of model training and implications for the study of compositionality in text-to-image models.
翻訳日:2023-06-07 18:49:09 公開日:2023-06-05
# コンテクスト性による誘発放出を伴わない誘導コヒーレンスの非古典性

Nonclassicality of induced coherence without induced emission witnessed by contextuality ( http://arxiv.org/abs/2306.03216v1 )

ライセンス: Link先を確認
F. Haji Shafiee, O. Mahmoudi, R. Nouroozi, and A. Asadian(参考訳) 経路同一性による量子不識別性は、幅広い意味を持つ近代量子実験において新たな概念である。 元々はゾウ、王、マンデルの実験によって発見された。 しかし、その真の量子の性質と結果が古典光でエミュレートできるかどうかについては議論がある。 本研究では,非文脈隠れ変数モデルを用いて古典的に記述できない量子予測を区別する条件を,設定が生成する条件を決定するための適切な文脈性試験を設計する。

Quantum indistinguishability by path identity is an emerging notion in modern quantum experiments with a wide range of implications. It was originally uncovered by Zou, Wang, and Mandel's experiment. However, there has been controversy over its true quantum nature and whether the result can be emulated with classical light. We design a suitable contextuality test that can determine the conditions under which the setting produces distinguishing quantum predictions that cannot be described classically, namely via noncontextual hidden variable model.
翻訳日:2023-06-07 18:41:39 公開日:2023-06-05
# 連想記憶を伴うエンドツーエンドの微分可能クラスタリング

End-to-end Differentiable Clustering with Associative Memories ( http://arxiv.org/abs/2306.03209v1 )

ライセンス: Link先を確認
Bishwajit Saha, Dmitry Krotov, Mohammed J. Zaki, Parikshit Ram(参考訳) クラスタリングは集中的な離散最適化問題を含む教師なし学習手法として広く使われている。 連想記憶モデル(Associative Memory Model)またはAMは、様々なディープラーニングアーキテクチャと統合された再帰的力学系を定義するニューラルネットワークである。 本稿では,クラスタリングにおけるAMダイナミクスと固有の離散的割り当てとの新たな関係を明らかにするとともに,離散クラスタリング問題に対する非拘束的連続緩和を提案する。 AMのパターン完備化機能を活用することで,新たな自己教師型クラスタリング損失が生まれる。 様々なデータセットに対する評価により,clamは自己スーパービジョンの利点を享受し,従来のロイドのk-meansアルゴリズムと,より最近の連続クラスタリング緩和(シルエット係数の最大60%向上)の両方を著しく改善した。

Clustering is a widely used unsupervised learning technique involving an intensive discrete optimization problem. Associative Memory models or AMs are differentiable neural networks defining a recursive dynamical system, which have been integrated with various deep learning architectures. We uncover a novel connection between the AM dynamics and the inherent discrete assignment necessary in clustering to propose a novel unconstrained continuous relaxation of the discrete clustering problem, enabling end-to-end differentiable clustering with AM, dubbed ClAM. Leveraging the pattern completion ability of AMs, we further develop a novel self-supervised clustering loss. Our evaluations on varied datasets demonstrate that ClAM benefits from the self-supervision, and significantly improves upon both the traditional Lloyd's k-means algorithm, and more recent continuous clustering relaxations (by upto 60% in terms of the Silhouette Coefficient).
翻訳日:2023-06-07 18:41:26 公開日:2023-06-05
# データダイエットに関するNLU:NLP分類タスクのための動的データサブセット選択

NLU on Data Diets: Dynamic Data Subset Selection for NLP Classification Tasks ( http://arxiv.org/abs/2306.03208v1 )

ライセンス: Link先を確認
Jean-Michel Attendu and Jean-Philippe Corbeil(参考訳) 大きな言語モデルの微調整は、nluアプリケーションのコストを膨らませ、開発サイクルのボトルネックのままである。 コンピュータビジョンにおける最近の研究は、トレーニング時間を短縮するためにデータプルーニングを使用している。 pruned data selection with static methodsは、重要な計算オーバーヘッドを伴う微調整の前に各トレーニング例で計算されたスコアに基づいている。 さらに、スコアは必ずしもトレーニング期間全体を通してサンプルの重要性を表わすものではない。 そこで本研究では, 微調整中の重要でない例を定期的にスコア付けし, 廃棄するカリキュラムであるdynamic data pruningの改訂版を提案する。 提案手法では,統合意図とスロット分類タスクに拡張したel2nメトリックと,全列車における初期微調整フェーズを活用する。 GLUEベンチマークと4つの共同NLUデータセットによる結果から,静的手法に比べて時間-精度のトレードオフが良好であった。 本手法は,データポイントの50%のトレーニング中に完全精度を保ち,最大41%の計算時間を短縮する。 代わりに1%の精度の小さな低下を許容すれば、微調整時間を66%まで短縮するためのトレーニング例の80%を経験することができます。

Finetuning large language models inflates the costs of NLU applications and remains the bottleneck of development cycles. Recent works in computer vision use data pruning to reduce training time. Pruned data selection with static methods is based on a score calculated for each training example prior to finetuning, which involves important computational overhead. Moreover, the score may not necessarily be representative of sample importance throughout the entire training duration. We propose to address these issues with a refined version of dynamic data pruning, a curriculum which periodically scores and discards unimportant examples during finetuning. Our method leverages an EL2N metric that we extend to the joint intent and slot classification task, and an initial finetuning phase on the full train set. Our results on the GLUE benchmark and four joint NLU datasets show a better time-accuracy trade-off compared to static methods. Our method preserves full accuracy while training on 50% of the data points and reduces computational times by up to 41%. If we tolerate instead a minor drop of accuracy of 1%, we can prune 80% of the training examples for a reduction in finetuning time reaching 66%.
翻訳日:2023-06-07 18:40:43 公開日:2023-06-05
# MoDAR:ポイントクラウドシーケンスにおける3次元物体検出のための動き予測

MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud Sequences ( http://arxiv.org/abs/2306.03206v1 )

ライセンス: Link先を確認
Yingwei Li, Charles R. Qi, Yin Zhou, Chenxi Liu, Dragomir Anguelov(参考訳) 集積オブジェクトと長距離オブジェクトはユビキタスであり、3Dオブジェクト検出には困難である。 点雲列データは、異なる視点から観測したり、時間とともに視認性が向上したりできるため、このようなケースを改善するユニークな機会を提供する。 しかし、長期的なシーケンスデータのエンコーディングの効率と有効性は改善できる。 本研究では,動き予測出力を仮想モードの一種として用いて,LiDAR点雲を増大させるMoDARを提案する。 MoDARモダリティは、予測された軌道上のウェイポイントから各オブジェクトに対して1組の仮想点として表される時間的コンテキストからターゲットフレームへのオブジェクト情報を伝搬する。 生のセンサーポイントと仮想ポイントの融合した点雲は、任意のオフザシェルフポイントクラウドベースの3Dオブジェクト検出器に供給される。 waymo open dataset上で評価し,超長シーケンス(例えば18秒)からの動作予測を用いて,計算オーバーヘッドをあまり増やさずに新しい状態のアートを実現することにより,先行技術検出精度を大幅に向上させる。

Occluded and long-range objects are ubiquitous and challenging for 3D object detection. Point cloud sequence data provide unique opportunities to improve such cases, as an occluded or distant object can be observed from different viewpoints or gets better visibility over time. However, the efficiency and effectiveness in encoding long-term sequence data can still be improved. In this work, we propose MoDAR, using motion forecasting outputs as a type of virtual modality, to augment LiDAR point clouds. The MoDAR modality propagates object information from temporal contexts to a target frame, represented as a set of virtual points, one for each object from a waypoint on a forecasted trajectory. A fused point cloud of both raw sensor points and the virtual points can then be fed to any off-the-shelf point-cloud based 3D object detector. Evaluated on the Waymo Open Dataset, our method significantly improves prior art detectors by using motion forecasting from extra-long sequences (e.g. 18 seconds), achieving new state of the arts, while not adding much computation overhead.
翻訳日:2023-06-07 18:40:12 公開日:2023-06-05
# マッピングアシスタントとしてのChatGPT:ストリートレベルの画像から得られた生成AIとコンテンツで地図を豊かにする新しい方法

ChatGPT as a mapping assistant: A novel method to enrich maps with generative AI and content derived from street-level photographs ( http://arxiv.org/abs/2306.03204v1 )

ライセンス: Link先を確認
Levente Juh\'asz and Peter Mooney and Hartwig H. Hochmair and Boyuan Guan(参考訳) 本稿では,コラボレーティブマッピングの効率を高めるために,生成AIをマッピングアシスタントとして活用するという概念について検討する。 本稿では,ボランティア地理情報(VGI)と大規模言語モデル(LLM)を組み合わせた実験結果について述べる。 3人のアナリストは、フロリダ州マイアミの小さなテストエリアで道路に沿って撮影されたクラウドソースのMapillaryストリートレベルの写真の内容について説明した。 GPT-3.5-turbo は OpenStreetMap (OSM) で各道路に最適なタグ付けを提案するように指示された。 この研究はまた、人間の分析に加えて、街頭写真の人工分析として最先端のマルチモーダル事前学習法であるblip-2の利用についても研究している。 その結果,(1)ソース画像のより詳細な記述を提供すること,(2)プロンプトエンジニアリングと追加のコンテキスト(道路沿いに検出された位置や物体など)を組み合わせることで,基礎となるaiモデルを変更することなく,地図提案の精度を効果的に向上させる方法が2つ示されている。 第1のアプローチでは提案精度を最大29%,第2のアプローチを最大20%向上させる。

This paper explores the concept of leveraging generative AI as a mapping assistant for enhancing the efficiency of collaborative mapping. We present results of an experiment that combines multiple sources of volunteered geographic information (VGI) and large language models (LLMs). Three analysts described the content of crowdsourced Mapillary street-level photographs taken along roads in a small test area in Miami, Florida. GPT-3.5-turbo was instructed to suggest the most appropriate tagging for each road in OpenStreetMap (OSM). The study also explores the utilization of BLIP-2, a state-of-the-art multimodal pre-training method as an artificial analyst of street-level photographs in addition to human analysts. Results demonstrate two ways to effectively increase the accuracy of mapping suggestions without modifying the underlying AI models: by (1) providing a more detailed description of source photographs, and (2) combining prompt engineering with additional context (e.g. location and objects detected along a road). The first approach increases the suggestion accuracy by up to 29%, and the second one by up to 20%.
翻訳日:2023-06-07 18:39:53 公開日:2023-06-05
# 大規模言語モデルによるコード補完の静的評価

A Static Evaluation of Code Completion by Large Language Models ( http://arxiv.org/abs/2306.03203v1 )

ライセンス: Link先を確認
Hantian Ding, Varun Kumar, Yuchen Tian, Zijian Wang, Rob Kwiatkowski, Xiaopeng Li, Murali Krishna Ramanathan, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang(参考訳) コードでトレーニングされた大規模な言語モデルは、ソフトウェア開発者の生産性を高める大きな可能性を示しています。 単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,いくつかの実行ベースベンチマークが提案されている。 それでも、実行コストを考慮すると、複雑な実世界のプロジェクトで同様の評価を行うのはコストがかかる。 それとは対照的に、プログラムを実行せずにエラーを検出できるlinterのような静的解析ツールは、コード生成モデルの評価にはあまり役に立たない。 本研究では,抽象構文木を利用して,Pythonコード補完における静的エラーを定量化する静的評価フレームワークを提案する。 実行ベース評価と比較すると,本手法はより効率的であるだけでなく,野生のコードにも適用可能である。 実験では,オープンソースリポジトリからコードコンテキストを収集し,公開モデルを用いて100万の関数体を生成する。 我々の静的解析によると、Undefined Name と Unuseed Variable は言語モデルで作られるものの中で最も一般的なエラーである。 広範な研究を通じて、コード補完における静的エラーに対するサンプリング温度、モデルサイズ、コンテキストの影響も示す。

Large language models trained on code have shown great potential to increase productivity of software developers. Several execution-based benchmarks have been proposed to evaluate functional correctness of model-generated code on simple programming problems. Nevertheless, it is expensive to perform the same evaluation on complex real-world projects considering the execution cost. On the contrary, static analysis tools such as linters, which can detect errors without running the program, haven't been well explored for evaluating code generation models. In this work, we propose a static evaluation framework to quantify static errors in Python code completions, by leveraging Abstract Syntax Trees. Compared with execution-based evaluation, our method is not only more efficient, but also applicable to code in the wild. For experiments, we collect code context from open source repos to generate one million function bodies using public models. Our static analysis reveals that Undefined Name and Unused Variable are the most common errors among others made by language models. Through extensive studies, we also show the impact of sampling temperature, model size, and context on static errors in code completions.
翻訳日:2023-06-07 18:39:33 公開日:2023-06-05
# 非線形分布ロバスト最適化

Nonlinear Distributionally Robust Optimization ( http://arxiv.org/abs/2306.03202v1 )

ライセンス: Link先を確認
Mohammed Rayyan Sheriff and Peyman Mohajerin Esfahani(参考訳) 本稿では,分散ロバストな最適化(DRO)問題に焦点をあてる。そこでは,文献の増大する体と異なり,目的関数は分布において非線形である可能性がある。 確率空間における非線形関数を最適化する既存の方法は、理論と計算の両方の課題を提示するフレシェ微分を用いる。 そこで本研究では,一般リスク対策としてガトー (g)-導出性に基づく微分と対応する滑らかさの代替概念を提案する。 これらの概念は、分散、エントロピーリスク、有限支持集合上のリスクの3つの実行リスク測定例を通して説明される。 次に、確率空間における一般非線形最適化問題に対するG-微分型Frank-Wolfe~(FW)アルゴリズムを提案し、完全にノルムに依存しない方法で滑らか性の概念に基づいて収束性を確立する。 我々はFWアルゴリズムのセットアップを用いて非線形DRO問題のサドル点を計算する手法を考案する。 最後に、最小分散ポートフォリオ選択問題に対して、規則性条件を分析し、様々な設定でFW軌道を計算し、理論的結果を数値的に検証する。

This article focuses on a class of distributionally robust optimization (DRO) problems where, unlike the growing body of the literature, the objective function is potentially non-linear in the distribution. Existing methods to optimize nonlinear functions in probability space use the Frechet derivatives, which present both theoretical and computational challenges. Motivated by this, we propose an alternative notion for the derivative and corresponding smoothness based on Gateaux (G)-derivative for generic risk measures. These concepts are explained via three running risk measure examples of variance, entropic risk, and risk on finite support sets. We then propose a G-derivative based Frank-Wolfe~(FW) algorithm for generic non-linear optimization problems in probability spaces and establish its convergence under the proposed notion of smoothness in a completely norm-independent manner. We use the set-up of the FW algorithm to devise a methodology to compute a saddle point of the non-linear DRO problem. Finally, for the minimum variance portfolio selection problem we analyze the regularity conditions and compute the FW-oracle in various settings, and validate the theoretical results numerically.
翻訳日:2023-06-07 18:39:16 公開日:2023-06-05
# AutoScrum: 大規模言語モデルによるプロジェクト計画の自動化

AutoScrum: Automating Project Planning Using Large Language Models ( http://arxiv.org/abs/2306.03197v1 )

ライセンス: Link先を確認
Martin Schroder(参考訳) 大規模言語モデルの分野での最近の進歩は、高度な推論に言語モデルを使用することを可能にした。 本稿では,現状と望ましい状態を知ることのみに基づいて,複雑なプロジェクト計画の設計にこの能力を利用する。 スクラムベースのアプローチと近道計画のアプローチの2つのアプローチが示されています。 スクラムベースのアプローチでは,要件収集,ユーザストーリマッピング,機能識別,タスク分解などの自動化プロセスを実行し,最終的に質問や検索語を生成して,タスク完了を支援するドメイン固有情報を探し出す。 ショートカットアプローチは、現在の状態と望ましい状態の最新のスナップショットを見て、できるだけ早く所望の状態に到達するために、次にすべき合理的なタスクを生成する。 本稿では,「言語プログラム」という新しい概念を用いて,全てを自動化する。 これらは、言語モデルを通じて入力データを処理するように設計された自然言語で書かれたプログラムである。 ガイダンス言語は全てのLLMプログラムで使用される。 この論文のすべてのデモソースコードはhttps://github.com/autoscrum/autoscrumで入手できる。

Recent advancements in the field of large language models have made it possible to use language models for advanced reasoning. In this paper we leverage this ability for designing complex project plans based only on knowing the current state and the desired state. Two approaches are demonstrated - a scrum based approach and a shortcut plan approach. The scrum based approach executes an automated process of requirements gathering, user story mapping, feature identification, task decomposition and finally generates questions and search terms for seeking out domain specific information to assist with task completion. The shortcut approach looks at most recent snapshot of the current and desired state and generates the next most reasonable task to do in order to get to the desired state as quickly as possible. In this paper we automate everything using a novel concept of "Language Programs". These are programs written in natural language designed to process input data through the language model. Guidance language is used for all LLM programs. All demo source code for this paper is available at https://github.com/autoscrum/autoscrum
翻訳日:2023-06-07 18:38:55 公開日:2023-06-05
# Lumos in the Night Sky: 夜間の光パターンを探索するAI対応ビジュアルツール

Lumos in the Night Sky: AI-enabled Visual Tool for Exploring Night-Time Light Patterns ( http://arxiv.org/abs/2306.03195v1 )

ライセンス: Link先を確認
Jakob Hederich, Shreya Ghosh, Zeyu He and Prasenjit Mitra(参考訳) 我々はNightPulseを紹介した。Night-time Light(NTL)データ可視化と分析のためのインタラクティブツールで、研究者や利害関係者がNTLデータをユーザフレンドリーなプラットフォームで探索し分析することができる。 効率的なシステムアーキテクチャにより、NightPulseは画像セグメンテーション、クラスタリング、変更パターン検出をサポートし、都市開発とスプロールパターンを識別する。 NTLの時間的傾向と都市のセマンティクスを捉え、人口統計要因、都市の境界、特異な違いに関する質問に答える。

We introduce NightPulse, an interactive tool for Night-time light (NTL) data visualization and analytics, which enables researchers and stakeholders to explore and analyze NTL data with a user-friendly platform. Powered by efficient system architecture, NightPulse supports image segmentation, clustering, and change pattern detection to identify urban development and sprawl patterns. It captures temporal trends of NTL and semantics of cities, answering questions about demographic factors, city boundaries, and unusual differences.
翻訳日:2023-06-07 18:38:41 公開日:2023-06-05
# 項目間推薦のための個人化フェデレーションドメイン適応

Personalized Federated Domain Adaptation for Item-to-Item Recommendation ( http://arxiv.org/abs/2306.03191v1 )

ライセンス: Link先を確認
Ziwei Fan, Hao Ding, Anoop Deoras, and Trong Nghia Hoang(参考訳) item-to-item(i2i)レコメンデーションは、多くのレコメンデーションシステムにおいて重要な機能であり、他のカタログアイテムとのセマンティックな類似性に基づいて、特定のアイテムに対するリプレースや補足の提案を生成する。 レコメンデーションシステム内の項目のサブセットが、同じ顧客セットによって相互に相互作用する可能性があることを考慮すれば、グラフニューラルネットワーク(GNN)のようなグラフベースのモデルが、カタログ化された項目間の高次の関係性相互作用とメタデータの特徴を結合、取り込み、抽出するための自然なフレームワークを提供する。 しかし、I2Iで効果的にGNNを学習するには、特に新興市場セグメントにおいて、常に利用できるとは限らない大量のリレーショナルデータを摂取する必要がある。 このデータのボトルネックを軽減するため、既存の成熟した市場セグメント(プライベートデータ)から学んだレコメンデーションパターンは、新興市場向けの効果的なウォームスタートモデルを構築するために適応できると仮定した。 そこで本研究では,GNNをベースとしたパーソナライズド・フェデレーション・モデリング・フレームワークを提案する。 我々の重要な貢献は、近年のGNNに関する文献と(非グラフ)パーソナライズされた学習のギャップを埋めるパーソナライズされたグラフ適応モデルである。

Item-to-Item (I2I) recommendation is an important function in most recommendation systems, which generates replacement or complement suggestions for a particular item based on its semantic similarities to other cataloged items. Given that subsets of items in a recommendation system might be co-interacted with by the same set of customers, graph-based models, such as graph neural networks (GNNs), provide a natural framework to combine, ingest and extract valuable insights from such high-order relational interactions between cataloged items, as well as their metadata features, as has been shown in many recent studies. However, learning GNNs effectively for I2I requires ingesting a large amount of relational data, which might not always be available, especially in new, emerging market segments. To mitigate this data bottleneck, we postulate that recommendation patterns learned from existing mature market segments (with private data) could be adapted to build effective warm-start models for emerging ones. To achieve this, we propose and investigate a personalized federated modeling framework based on GNNs to summarize, assemble and adapt recommendation patterns across market segments with heterogeneous customer behaviors into effective local models. Our key contribution is a personalized graph adaptation model that bridges the gap between recent literature on federated GNNs and (non-graph) personalized federated learning, which either does not optimize for the adaptability of the federated model or is restricted to local models with homogeneous parameterization, excluding GNNs with heterogeneous local graphs.
翻訳日:2023-06-07 18:38:29 公開日:2023-06-05
# NISQデバイスにおけるMAX$k$-SATの高損失QAOA

High-Round QAOA for MAX $k$-SAT on Trapped Ion NISQ Devices ( http://arxiv.org/abs/2306.03238v1 )

ライセンス: Link先を確認
Elijah Pelofske, Andreas B\"artschi, John Golden, Stephan Eidenbenz(参考訳) Quantum Alternating Operator Ansatz (QAOA) は、離散組合せ最適化問題の最適解(s)をサンプリングすることを目的としたハイブリッド古典量子アルゴリズムである。 MAX$k$-SAT問題,特に$k=3$と$k=4$に対して最適化されたQAOA回路構成を提案する。 現在提案する4ドルのQAOA回路構成は, 計測に基づく非計算と, 古典的なフィードフォワード条件演算を併用している。 QAOA回路のパラメータは、HPCリソースを使用して10量子ビットの20ラウンドまでの大きな回路をシミュレートすることで、古典的な(ノイズのない)シミュレーションによって最適化される。 現在のNISQ装置の限界を探索するため、11ビットと20ビットの量子コンピュータIonQ HarmonyとQuantinuum H1-1の2つの量子コンピュータ上で、節対可変比4ドルのランダムな3$SATテストインスタンスに対して最適化されたQAOA回路を実行する。 実行されるqaoa回路は、n=10$から20$のラウンド、n=20$の1ドルと2ドルのラウンドであり、高ラウンド回路は8000のゲート命令を使用しており、これらはnisqデバイス上で実行される最大のqaoa回路の1つとなっている。 我々の主な発見は、現在のNISQデバイスは、低ラウンドカウント(例えば、$p = 1,\ldots, 5$)で最善を尽くし、さらにラウンド数が増加するにつれて、徐々に、ランダムに選択されたソリューションに匹敵する満足度の高い真理の割り当てを返却する。

The Quantum Alternating Operator Ansatz (QAOA) is a hybrid classical-quantum algorithm that aims to sample the optimal solution(s) of discrete combinatorial optimization problems. We present optimized QAOA circuit constructions for sampling MAX $k$-SAT problems, specifically for $k=3$ and $k=4$. The novel $4$-SAT QAOA circuit construction we present makes use of measurement based uncomputation, followed by classical feed forward conditional operations. Parameters in the QAOA circuits are optimized via exact classical (noise-free) simulation, using HPC resources to simulate large circuits (up to 20 rounds on 10 qubits). In order to explore the limits of current NISQ devices, we execute these optimized QAOA circuits for random $3$-SAT test instances with clause-to-variable ratio $4$, on two ion-trapped quantum computers: IonQ Harmony and Quantinuum H1-1 which have 11 and 20 qubits respectively. The QAOA circuits that are executed include $n=10$ up to $20$ rounds, and $n=20$ for $1$ and $2$ rounds, the high round circuits using upwards of 8,000 gate instructions, making these some of the largest QAOA circuits executed on NISQ devices. Our main finding is that current NISQ devices perform best at low round counts (i.e., $p = 1,\ldots, 5$) and then -- as expected due to noise -- gradually start returning satisfiability truth assignments that are no better than randomly picked solutions as number of rounds are further increased.
翻訳日:2023-06-07 18:32:40 公開日:2023-06-05
# 文脈mdpにおける探索のためのグローバルおよびエピソディックボーナスに関する研究

A Study of Global and Episodic Bonuses for Exploration in Contextual MDPs ( http://arxiv.org/abs/2306.03236v1 )

ライセンス: Link先を確認
Mikael Henaff, Minqi Jiang, Roberta Raileanu(参考訳) 近年,エピソードによって異なる環境の探索が注目されている。 現在の方法は、エージェントのトレーニング経験全体を用いて計算されるグローバルノベルティボーナスと、現在のエピソードの経験のみを用いて計算される \textit{episodic novelty bonuses} の組み合わせを用いる。 しかし、これら2種類のボーナスの使用はアドホックであり、あまり理解されていない。 本研究では,これらの2種類のボーナスの挙動を,容易に解釈可能なタスクの制御実験や,ピクセルベースの設定の課題を通じて明らかにした。 エピソード間の共有構造がほとんどない場合には, エピソードボーナスが最も効果的であり, より多くの構造が共有される場合には, グローバルボーナスが有効である。 我々は,コンテキスト間の値関数の分散を考慮し,この共有構造の概念を正確化する概念的枠組みを開発し,実験結果の統一的な説明を提供する。 さらに,これら2つのボーナスを組み合わせることで,共有構造の異なる程度においてより堅牢な性能が得られ,関数近似に基づく大域ボーナスとエピソディックボーナスの定義と結合のためのアルゴリズム選択が異なっていた。 この結果、以前の作業で使われたミニハックスイートから16のタスクにまたがって新しい状態を設定するアルゴリズムが生まれ、また居住地とモンテズマの復讐に対して堅牢に機能する。

Exploration in environments which differ across episodes has received increasing attention in recent years. Current methods use some combination of global novelty bonuses, computed using the agent's entire training experience, and \textit{episodic novelty bonuses}, computed using only experience from the current episode. However, the use of these two types of bonuses has been ad-hoc and poorly understood. In this work, we shed light on the behavior of these two types of bonuses through controlled experiments on easily interpretable tasks as well as challenging pixel-based settings. We find that the two types of bonuses succeed in different settings, with episodic bonuses being most effective when there is little shared structure across episodes and global bonuses being effective when more structure is shared. We develop a conceptual framework which makes this notion of shared structure precise by considering the variance of the value function across contexts, and which provides a unifying explanation of our empirical results. We furthermore find that combining the two bonuses can lead to more robust performance across different degrees of shared structure, and investigate different algorithmic choices for defining and combining global and episodic bonuses based on function approximation. This results in an algorithm which sets a new state of the art across 16 tasks from the MiniHack suite used in prior work, and also performs robustly on Habitat and Montezuma's Revenge.
翻訳日:2023-06-07 18:32:05 公開日:2023-06-05
# モジュールモデルアーキテクチャによる機械学習における情報フロー制御

Information Flow Control in Machine Learning through Modular Model Architecture ( http://arxiv.org/abs/2306.03235v1 )

ライセンス: Link先を確認
Trishita Tiwari, Suchin Gururangan, Chuan Guo, Weizhe Hua, Sanjay Kariyappa, Udit Gupta, Wenjie Xiong, Kiwan Maeng, Hsien-Hsin S. Lee, G. Edward Suh(参考訳) 今日の機械学習(ML)モデルでは、トレーニングデータの任意の部分が出力に影響を与える可能性がある。 トレーニングデータからモデル出力への情報フローの制御の欠如は、個々のユーザがデータのサブセットにしかアクセスできない場合にのみ、センシティブなデータに対するトレーニングモデルの大きな障害となる。 アクセス制御データに対するセキュアな機械学習を実現するため,機械学習のための情報フロー制御の概念を提案し,Mixture-of-Experts (MoE)アーキテクチャに基づくセキュアなトランスフォーマーベース言語モデルを開発する。 セキュアmoeアーキテクチャは、各セキュリティドメインから単一のエキスパートモジュールへのトレーニングデータの影響を制限し、アクセス制御ポリシーに基づいて推論時に専門家のサブセットのみを許可することにより、情報フローを制御する。 大量のテキストデータを用いた評価では、提案したMoEアーキテクチャは性能オーバーヘッドが最小 (1.9%) であり、アクセス制御されたデータのトレーニングを可能にすることにより、モデル精度(最大37%)を著しく向上させることができる。

In today's machine learning (ML) models, any part of the training data can affect its output. This lack of control for information flow from training data to model output is a major obstacle in training models on sensitive data when access control only allows individual users to access a subset of data. To enable secure machine learning for access controlled data, we propose the notion of information flow control for machine learning, and develop a secure Transformer-based language model based on the Mixture-of-Experts (MoE) architecture. The secure MoE architecture controls information flow by limiting the influence of training data from each security domain to a single expert module, and only enabling a subset of experts at inference time based on an access control policy. The evaluation using a large corpus of text data shows that the proposed MoE architecture has minimal (1.9%) performance overhead and can significantly improve model accuracy (up to 37%) by enabling training on access-controlled data.
翻訳日:2023-06-07 18:31:42 公開日:2023-06-05
# 敵対的アライメント:攻撃の強さと人間の知覚との関係のトレードオフを打破する

Adversarial alignment: Breaking the trade-off between the strength of an attack and its relevance to human perception ( http://arxiv.org/abs/2306.03229v1 )

ライセンス: Link先を確認
Drew Linsley, Pinyuan Feng, Thibaut Boissin, Alekh Karkada Ashok, Thomas Fel, Stephanie Olaiya, Thomas Serre(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、敵の攻撃に対して根本的な感度を持つことが知られており、入力の摂動は、モデルの視覚的決定を変えるのに十分強力で、人間には受容できない。 敵対的攻撃は長年、ディープラーニングの「アキレスのヒール」と考えられてきたが、最終的にはモデリングパラダイムのシフトを強いる可能性がある。 それでも、現代の大規模DNNの強大な能力は、これらの初期の懸念を幾らか失っている。 敵の攻撃はDNNに脅威を与え続けるのか? 本稿では、ImageNetにおけるDNNの敵攻撃に対する堅牢性がどのように発展し、精度が向上し続けているかを検討する。 まず、モデルがオブジェクトの分類決定を変更するのに必要な最小の敵攻撃を測定する。 第2に,人間が物体認識の診断を発見できる機能と,攻撃がいかにうまく連携しているかを計測する。 我々は、DNNがImageNetでより良く成長するにつれて、敵対的攻撃が画像画素のより大きく、より容易に検出可能な変更を誘導していることを発見した。 このトレードオフの源泉をよりよく理解するために、我々はDNNトレーニングルーチンであるニューラル・ハーモニエーザ(Neural harmonizer)に目を向ける。 調和したDNNは、人間が認識のために診断する特徴に影響を与え、検知可能な世界と経験の両方の最高の攻撃を達成している。 以上の結果から, DNNの攻撃に対する感受性は, DNNスケール, データスケール, および生物知能とモデルを整合させる訓練ルーチンによって緩和できる可能性が示唆された。

Deep neural networks (DNNs) are known to have a fundamental sensitivity to adversarial attacks, perturbations of the input that are imperceptible to humans yet powerful enough to change the visual decision of a model. Adversarial attacks have long been considered the "Achilles' heel" of deep learning, which may eventually force a shift in modeling paradigms. Nevertheless, the formidable capabilities of modern large-scale DNNs have somewhat eclipsed these early concerns. Do adversarial attacks continue to pose a threat to DNNs? Here, we investigate how the robustness of DNNs to adversarial attacks has evolved as their accuracy on ImageNet has continued to improve. We measure adversarial robustness in two different ways: First, we measure the smallest adversarial attack needed to cause a model to change its object categorization decision. Second, we measure how aligned successful attacks are with the features that humans find diagnostic for object recognition. We find that adversarial attacks are inducing bigger and more easily detectable changes to image pixels as DNNs grow better on ImageNet, but these attacks are also becoming less aligned with features that humans find diagnostic for recognition. To better understand the source of this trade-off, we turn to the neural harmonizer, a DNN training routine that encourages models to leverage the same features as humans to solve tasks. Harmonized DNNs achieve the best of both worlds and experience attacks that are detectable and affect features that humans find diagnostic for recognition, meaning that attacks on these models are more likely to be rendered ineffective by inducing similar effects on human perception. Our findings suggest that the sensitivity of DNNs to adversarial attacks can be mitigated by DNN scale, data scale, and training routines that align models with biological intelligence.
翻訳日:2023-06-07 18:31:25 公開日:2023-06-05
# 系統誘導ニューラルネットワークを用いた画像からの新規生物学的特徴の発見

Discovering Novel Biological Traits From Images Using Phylogeny-Guided Neural Networks ( http://arxiv.org/abs/2306.03228v1 )

ライセンス: Link先を確認
Mohannad Elhamod, Mridul Khurana, Harish Babu Manogaran, Josef C. Uyeda, Meghan A. Balk, Wasila Dahdul, Yasin Bak{\i}\c{s}, Henry L. Bart Jr., Paula M. Mabee, Hilmar Lapp, James P. Balhoff, Caleb Charpentier, David Carlyn, Wei-Lun Chao, Charles V. Stewart, Daniel I. Rubenstein, Tanya Berger-Wolf, Anuj Karpatne(参考訳) 生物の多様性と進化を理解するために、生物の樹上の種(系統樹とも呼ばれる)にまたがる進化的な形質を発見することは、生物学者にとって大きな関心事である。 しかし、特性の測定はしばしば主観的かつ労働集約的なプロセスであり、特徴の発見は高いラベル・スカルス問題となる。 本稿では,特徴ラベルを頼らずに画像から進化的特徴を直接発見する新しい手法を提案する。 提案したアプローチであるPhylo-NNは、生物の画像を量子化された特徴ベクトル(またはコード)の配列にエンコードする。 本研究は,魚種を対象として,種画像生成や種間画像翻訳を含む下流作業において,生物学的に有意義な結果を生み出すためのアプローチの有効性を示す。

Discovering evolutionary traits that are heritable across species on the tree of life (also referred to as a phylogenetic tree) is of great interest to biologists to understand how organisms diversify and evolve. However, the measurement of traits is often a subjective and labor-intensive process, making trait discovery a highly label-scarce problem. We present a novel approach for discovering evolutionary traits directly from images without relying on trait labels. Our proposed approach, Phylo-NN, encodes the image of an organism into a sequence of quantized feature vectors -- or codes -- where different segments of the sequence capture evolutionary signals at varying ancestry levels in the phylogeny. We demonstrate the effectiveness of our approach in producing biologically meaningful results in a number of downstream tasks including species image generation and species-to-species image translation, using fish species as a target example.
翻訳日:2023-06-07 18:30:54 公開日:2023-06-05
# adapt-vqeにおける演算子勾配の実測方法

How to really measure operator gradients in ADAPT-VQE ( http://arxiv.org/abs/2306.03227v1 )

ライセンス: Link先を確認
Panagiotis G. Anastasiou, Nicholas J. Mayhall, Edwin Barnes, Sophia E. Economou(参考訳) adapt-vqe は、反復的にコンパクトに成長し、任意に正確な問題対応 ans\"atze を回避した、主要な vqe アルゴリズムの1つである。 しかし、ハードウェア効率のよいオペレータプールの場合、アルゴリズムの勾配測定ステップでは、実デバイス上の関連するシステムサイズのボトルネックを表す$o(n^8)$ observablesの推定が必要となる。 本稿では,同時計測に基づくプール勾配の効率的な計測手法を提案する。 我々のアプローチはショットノイズ効果に対して比較的堅牢であり、プール勾配の測定は、実際は単純VQEイテレーションのわずか$O(N)$倍の費用しかかからないことを示す。 提案する計測戦略はadapt-vqeの測定オーバーヘッドを大幅に軽減し,実デバイスにおける実用的な実装に一歩近づいた。

ADAPT-VQE is one of the leading VQE algorithms which circumvents the choice-of-ansatz conundrum by iteratively growing compact and arbitrarily accurate problem-tailored ans\"atze. However, for hardware-efficient operator pools, the gradient-measurement step of the algorithm requires the estimation of $O(N^8)$ observables, which may represent a bottleneck for relevant system sizes on real devices. We present an efficient strategy for measuring the pool gradients based on simultaneously measuring commuting observables. We argue that our approach is relatively robust to shot-noise effects, and show that measuring the pool gradients is in fact only $O(N)$ times as expensive as a naive VQE iteration. Our proposed measurement strategy significantly ameliorates the measurement overhead of ADAPT-VQE and brings us one step closer to practical implementations on real devices.
翻訳日:2023-06-07 18:30:37 公開日:2023-06-05
# ビジョンに基づくレーン中心化のための信頼に基づくフェデレーション蒸留

Confidence-based federated distillation for vision-based lane-centering ( http://arxiv.org/abs/2306.03222v1 )

ライセンス: Link先を確認
Yitao Chen, Dawei Chen, Haoxin Wang, Kyungtae Han, Ming Zhao(参考訳) 自律運転の基本的な課題は、操舵角度を調節して車線中央の車両を維持することである。 最近の進歩はディープニューラルネットワークを利用して、車載カメラが捉えた画像から直接ステアリング決定を予測する。 機械学習に基づく操舵角度予測は、モデルトレーニングのために大量のプライベートデータをアップロードする際の車両の制限を考慮する必要がある。 フェデレーション学習は、複数の車両がプライベートデータを共有せずにグローバルなモデルを協調的にトレーニングできるようにすることで、これらの制約に対処することができるが、車両間でのデータ分散が非i.i.d.であることが多いため、適切な精度を達成することは困難である。 本稿では, 操舵角度予測のためのフェデレーション学習性能を向上させるために, 信頼性に基づく新しいフェデレーション蒸留法を提案する。 具体的には,各局所モデルの予測信頼度を決定するために,新たなエントロピーの利用を提案し,その上で,教師として最も自信のある局所モデルを選択し,グローバルモデルの学習を指導する。 視覚に基づく車線センターの総合評価では、提案手法はFedAvgとFedDFをそれぞれ11.3%、FedDFを9%上回っている。

A fundamental challenge of autonomous driving is maintaining the vehicle in the center of the lane by adjusting the steering angle. Recent advances leverage deep neural networks to predict steering decisions directly from images captured by the car cameras. Machine learning-based steering angle prediction needs to consider the vehicle's limitation in uploading large amounts of potentially private data for model training. Federated learning can address these constraints by enabling multiple vehicles to collaboratively train a global model without sharing their private data, but it is difficult to achieve good accuracy as the data distribution is often non-i.i.d. across the vehicles. This paper presents a new confidence-based federated distillation method to improve the performance of federated learning for steering angle prediction. Specifically, it proposes the novel use of entropy to determine the predictive confidence of each local model, and then selects the most confident local model as the teacher to guide the learning of the global model. A comprehensive evaluation of vision-based lane centering shows that the proposed approach can outperform FedAvg and FedDF by 11.3% and 9%, respectively.
翻訳日:2023-06-07 18:30:19 公開日:2023-06-05
# 構造再重み付けによるグラフドメイン適応の改善

Structural Re-weighting Improves Graph Domain Adaptation ( http://arxiv.org/abs/2306.03221v1 )

ライセンス: Link先を確認
Shikun Liu, Tianchun Li, Yongbin Feng, Nhan Tran, Han Zhao, Qiu Qiang, Pan Li(参考訳) 実世界の多くのアプリケーションでは、トレーニングやテストに使用されるグラフ構造化データは、トレーニングに使用されるシミュレーションデータが実際の実験と一致しない高エネルギー物理学(hep)のように分布が異なる。 グラフドメイン適応(GDA)は、これらの違いに対処するために用いられる手法である。 しかしながら、現在のGDAは主に、トレーニングとテストドメイン間で共有される単一のグラフニューラルネットワークエンコーダによって出力されるノード表現の分布を調整することで機能する。 本研究は,グラフ構造やノード属性による分布シフトの異なる影響を検証し,現在のgdaアプローチが対応すべき副最適である条件構造シフト(css)と呼ばれる新しいタイプのシフトを同定する。 構造再重み付け(StruRW)と呼ばれる新しい手法がこの問題に対処するために提案され、合成グラフと4つのベンチマークデータセット、HEPの新しいアプリケーションでテストされている。 strurwは、大きなグラフ構造シフトを伴う設定のベースラインよりも大幅にパフォーマンスが向上し、ノード属性シフトが支配的な場合の合理的なパフォーマンス改善が示されている。

In many real-world applications, graph-structured data used for training and testing have differences in distribution, such as in high energy physics (HEP) where simulation data used for training may not match real experiments. Graph domain adaptation (GDA) is a method used to address these differences. However, current GDA primarily works by aligning the distributions of node representations output by a single graph neural network encoder shared across the training and testing domains, which may often yield sub-optimal solutions. This work examines different impacts of distribution shifts caused by either graph structure or node attributes and identifies a new type of shift, named conditional structure shift (CSS), which current GDA approaches are provably sub-optimal to deal with. A novel approach, called structural reweighting (StruRW), is proposed to address this issue and is tested on synthetic graphs, four benchmark datasets, and a new application in HEP. StruRW has shown significant performance improvement over the baselines in the settings with large graph structure shifts, and reasonable performance improvement when node attribute shift dominates.
翻訳日:2023-06-07 18:29:57 公開日:2023-06-05
# 自律運転のための強化学習エージェントのリスク対応リワード形成

Risk-Aware Reward Shaping of Reinforcement Learning Agents for Autonomous Driving ( http://arxiv.org/abs/2306.03220v1 )

ライセンス: Link先を確認
Lin-Chi Wu, Zengjie Zhang, Sofie Haesaert, Zhiqiang Ma, and Zhiyong Sun(参考訳) 強化学習(rl)は、環境との相互作用データを用いて最適な運転方針を自動的に学習できる自律走行における運動計画への効果的なアプローチである。 それにもかかわらず、その性能に重要なRLエージェントの報酬関数を決定することは困難である。 従来の研究は主に安全な運転状態の報奨に焦点を当てているが、車両の危険運転行動に対する認識を取り入れていない。 本稿では,自律運転におけるRLエージェントのトレーニングとテスト性能を活用するために,リスク認識型報酬形成手法について検討する。 本研究は,一般自動運転の安全性を規定する必須要件に基づいて,リスクのある運転行動の探索と罰を与える追加的な報酬条件を提案する。 OpenAI Gymのシミュレーション研究は、様々なRLエージェントに対するリスク認識報酬形成の利点を示している。 また,ppo (proximal policy optimization) はリスクを意識した報酬形成を行う最善の rl 手法である可能性が示唆された。

Reinforcement learning (RL) is an effective approach to motion planning in autonomous driving, where an optimal driving policy can be automatically learned using the interaction data with the environment. Nevertheless, the reward function for an RL agent, which is significant to its performance, is challenging to be determined. The conventional work mainly focuses on rewarding safe driving states but does not incorporate the awareness of risky driving behaviors of the vehicles. In this paper, we investigate how to use risk-aware reward shaping to leverage the training and test performance of RL agents in autonomous driving. Based on the essential requirements that prescribe the safety specifications for general autonomous driving in practice, we propose additional reshaped reward terms that encourage exploration and penalize risky driving behaviors. A simulation study in OpenAI Gym indicates the advantage of risk-aware reward shaping for various RL agents. Also, we point out that proximal policy optimization (PPO) is likely to be the best RL method that works with risk-aware reward shaping.
翻訳日:2023-06-07 18:29:37 公開日:2023-06-05
# 非標的メタボロミックデータの自動アライメントのための最適輸送法

Optimal transport for automatic alignment of untargeted metabolomic data ( http://arxiv.org/abs/2306.03218v1 )

ライセンス: Link先を確認
Marie Breeur, George Stepaniants, Pekka Keski-Rahkonen, Philippe Rigollet, and Vivian Viallon(参考訳) 液体クロマトグラフィー質量分析法(lc-ms)による非標的代謝物プロファイリングは、生物種数、薬物開発、疾患診断、リスク予測など幅広い代謝物を測定する。 しかし、LC-MSの低スループットは、バイオマーカー発見、アノテーション、実験的な比較において大きな課題となり、複数のデータセットのマージが必要になる。 現在のデータプーリング手法は、データバリエーションやハイパーパラメータ依存に対する脆弱性のため、実用的な制限に直面している。 本稿では,LC-MSデータセットを最適なトランスポートで自動的に組み合わせる,フレキシブルでユーザフレンドリなアルゴリズムであるGromovMatcherを紹介する。 特徴強度相関構造を利用することで、gromovmatcherは既存のアプローチよりも優れたアライメント精度と堅牢性を提供する。 このアルゴリズムは、最小限のハイパーパラメータチューニングを必要とする数千の機能にスケールする。 本手法を肝・膵癌の実験的研究に応用し,患者アルコール摂取に関連する代謝的特徴の共有を見出し,gromovmatcherが複数のがんタイプに関連するライフスタイルリスク因子に関連するバイオマーカーの探索をいかに促進するかを実証した。

Untargeted metabolomic profiling through liquid chromatography-mass spectrometry (LC-MS) measures a vast array of metabolites within biospecimens, advancing drug development, disease diagnosis, and risk prediction. However, the low throughput of LC-MS poses a major challenge for biomarker discovery, annotation, and experimental comparison, necessitating the merging of multiple datasets. Current data pooling methods encounter practical limitations due to their vulnerability to data variations and hyperparameter dependence. Here we introduce GromovMatcher, a flexible and user-friendly algorithm that automatically combines LC-MS datasets using optimal transport. By capitalizing on feature intensity correlation structures, GromovMatcher delivers superior alignment accuracy and robustness compared to existing approaches. This algorithm scales to thousands of features requiring minimal hyperparameter tuning. Applying our method to experimental patient studies of liver and pancreatic cancer, we discover shared metabolic features related to patient alcohol intake, demonstrating how GromovMatcher facilitates the search for biomarkers associated with lifestyle risk factors linked to several cancer types.
翻訳日:2023-06-07 18:29:22 公開日:2023-06-05
# ロボットの効率的な自動設計

Efficient automatic design of robots ( http://arxiv.org/abs/2306.03263v1 )

ライセンス: Link先を確認
David Matthews, Andrew Spielberg, Daniela Rus, Sam Kriegman, Josh Bongard(参考訳) ロボットは、物理的構造、感覚と運動のレイアウト、行動に複雑な相互依存性があるため、設計が難しいことで悪名高い。 それにもかかわらず、これまで作られた全てのロボットのほぼすべての詳細は、数ヶ月から数年の反復的なアイデア、プロトタイピング、テストを経て、人間のデザイナーによって手作業で決定された。 進化的アルゴリズムを用いたロボットの自動設計は、自然界における進化的設計に触発されて20年にわたって試みられてきましたが、これも非効率なままです。 ここでは,1台のコンシューマ級コンピュータで1秒以内で所望の動作を示すロボットの構造の非ノボ最適化と,その動作に対する製造されたロボットの保持を初めて示す。 他の勾配に基づくロボット設計法とは異なり、このアルゴリズムは特定の解剖学的形態を前提としない。 自動化された製造と、より困難なタスクにスケールアップすれば、この進歩は、医療、環境、車両、宇宙ベースのタスクのための、ユニークで有用な機械の設計、製造、展開に近いものになる。

Robots are notoriously difficult to design because of complex interdependencies between their physical structure, sensory and motor layouts, and behavior. Despite this, almost every detail of every robot built to date has been manually determined by a human designer after several months or years of iterative ideation, prototyping, and testing. Inspired by evolutionary design in nature, the automated design of robots using evolutionary algorithms has been attempted for two decades, but it too remains inefficient: days of supercomputing are required to design robots in simulation that, when manufactured, exhibit desired behavior. Here we show for the first time de-novo optimization of a robot's structure to exhibit a desired behavior, within seconds on a single consumer-grade computer, and the manufactured robot's retention of that behavior. Unlike other gradient-based robot design methods, this algorithm does not presuppose any particular anatomical form; starting instead from a randomly-generated apodous body plan, it consistently discovers legged locomotion, the most efficient known form of terrestrial movement. If combined with automated fabrication and scaled up to more challenging tasks, this advance promises near instantaneous design, manufacture, and deployment of unique and useful machines for medical, environmental, vehicular, and space-based tasks.
翻訳日:2023-06-07 18:21:45 公開日:2023-06-05
# 機械学習のレビュープロセスは、フィールドの成長に伴って任意になったか? neurips 2021の一貫性実験

Has the Machine Learning Review Process Become More Arbitrary as the Field Has Grown? The NeurIPS 2021 Consistency Experiment ( http://arxiv.org/abs/2306.03262v1 )

ライセンス: Link先を確認
Alina Beygelzimer, Yann N. Dauphin, Percy Liang, Jennifer Wortman Vaughan(参考訳) 我々は、2014年のNeurIPS実験の大規模版であるNeurIPS 2021整合性実験(NeurIPS 2021 consistency experiment)を2つの独立した委員会によってレビューし、レビュープロセスにおけるランダム性の定量化を行った。 我々は、2つの委員会が23%の論文の受理/取り消しの勧告に同意しないことと、2014年の結果と一致し、レビュープロセスがランダムに再実行された場合、受理された論文の約半分が変更されるであろうことを観察した。 分析から,カンファレンスをより選択的にすることで,プロセスの任意性が向上することが示唆された。 本研究は,従来の研究と合わせて,研究の質を客観的に測定することの難しさを浮き彫りにした。

We present the NeurIPS 2021 consistency experiment, a larger-scale variant of the 2014 NeurIPS experiment in which 10% of conference submissions were reviewed by two independent committees to quantify the randomness in the review process. We observe that the two committees disagree on their accept/reject recommendations for 23% of the papers and that, consistent with the results from 2014, approximately half of the list of accepted papers would change if the review process were randomly rerun. Our analysis suggests that making the conference more selective would increase the arbitrariness of the process. Taken together with previous research, our results highlight the inherent difficulty of objectively measuring the quality of research, and suggest that authors should not be excessively discouraged by rejected work.
翻訳日:2023-06-07 18:21:22 公開日:2023-06-05
# 遺伝的アルゴリズムを用いた個人合成データの生成

Generating Private Synthetic Data with Genetic Algorithms ( http://arxiv.org/abs/2306.03257v1 )

ライセンス: Link先を確認
Terrance Liu, Jingwu Tang, Giuseppe Vietri, Zhiwei Steven Wu(参考訳) 基礎となる機密データセットの統計的性質を近似する微分プライベートな合成データを効率的に生成する問題について検討する。 近年、一階最適化技術を用いてこの問題にアプローチする作業が増えている。 しかし、このような手法は微分可能な目的のみを最適化することに限定されており、実施可能な分析の種類を厳しく制限している。 例えば、一階のメカニズムは、統計クエリを離散データドメインのマージンの形で近似させることで、主に成功している。 差別性を維持するためにタスクの目的を緩めることで、そのような問題を回避できる場合もある。 しかし、可能であれば、これらのアプローチは、最小化問題の修正が追加のエラー源となるという根本的な制限を課す。 そこで本研究では,ゼロ次最適化ヒューリスティックに基づく遺伝的アルゴリズムであるprivate-gsdを提案する。 その結果、前述した一階最適化の制限を回避できる。 我々は,アメリカコミュニティ調査から得られたデータに対して,離散属性と実数値属性の両方に対して,統計クエリと呼ばれる様々な統計データに対して,プライベートgsdを実験的に評価する。 そこで,Private-GSDは,非微分クエリにおける最先端の手法よりも精度が優れていることを示す。

We study the problem of efficiently generating differentially private synthetic data that approximate the statistical properties of an underlying sensitive dataset. In recent years, there has been a growing line of work that approaches this problem using first-order optimization techniques. However, such techniques are restricted to optimizing differentiable objectives only, severely limiting the types of analyses that can be conducted. For example, first-order mechanisms have been primarily successful in approximating statistical queries only in the form of marginals for discrete data domains. In some cases, one can circumvent such issues by relaxing the task's objective to maintain differentiability. However, even when possible, these approaches impose a fundamental limitation in which modifications to the minimization problem become additional sources of error. Therefore, we propose Private-GSD, a private genetic algorithm based on zeroth-order optimization heuristics that do not require modifying the original objective. As a result, it avoids the aforementioned limitations of first-order optimization. We empirically evaluate Private-GSD against baseline algorithms on data derived from the American Community Survey across a variety of statistics--otherwise known as statistical queries--both for discrete and real-valued attributes. We show that Private-GSD outperforms the state-of-the-art methods on non-differential queries while matching accuracy in approximating differentiable ones.
翻訳日:2023-06-07 18:21:05 公開日:2023-06-05
# グラフ条件シフトの説明と適応

Explaining and Adapting Graph Conditional Shift ( http://arxiv.org/abs/2306.03256v1 )

ライセンス: Link先を確認
Qi Zhu, Yizhu Jiao, Natalia Ponomareva, Jiawei Han, Bryan Perozzi(参考訳) グラフニューラルネットワーク(GNN)はグラフ構造化データに対して顕著な性能を示した。 しかし、最近の実証研究により、GNNは分布シフトに非常に敏感であることが示唆されている。 グラフベースのモデルがこれらのシフトに対して脆弱に見える理由については、いまだに曖昧さがある。 本研究では,入力特徴量と出力ラベルとの条件シフトの程度を定量化することにより,その理論解析を行う。 その結果,グラフのヘテロフィリとモデルアーキテクチャは条件シフトを悪化させ,性能劣化を招いた。 そこで本稿では,教師なし領域適応のための条件シフトを推定し,最小化する手法を提案する。 制御された合成実験において,本アルゴリズムは分布シフトに対するロバスト性を示し,最大10%のROC AUCの改善を実現した。 さらに,ノード分類とグラフ分類の両方に関する包括的実験により,分布シフトによるロバストな性能を示す。

Graph Neural Networks (GNNs) have shown remarkable performance on graph-structured data. However, recent empirical studies suggest that GNNs are very susceptible to distribution shift. There is still significant ambiguity about why graph-based models seem more vulnerable to these shifts. In this work we provide a thorough theoretical analysis on it by quantifying the magnitude of conditional shift between the input features and the output label. Our findings show that both graph heterophily and model architecture exacerbate conditional shifts, leading to performance degradation. To address this, we propose an approach that involves estimating and minimizing the conditional shift for unsupervised domain adaptation on graphs. In our controlled synthetic experiments, our algorithm demonstrates robustness towards distribution shift, resulting in up to 10% absolute ROC AUC improvement versus the second-best algorithm. Furthermore, comprehensive experiments on both node classification and graph classification show its robust performance under various distribution shifts.
翻訳日:2023-06-07 18:20:49 公開日:2023-06-05
# ゼロショット3次元形状対応

Zero-Shot 3D Shape Correspondence ( http://arxiv.org/abs/2306.03253v1 )

ライセンス: Link先を確認
Ahmed Abdelreheem, Abdelrahman Eldesokey, Maks Ovsjanikov, Peter Wonka(参考訳) 3次元形状間の対応を計算するための新しいゼロショット法を提案する。 既存のアプローチは主に等尺形と近等尺形(例えば、人間対人間)に焦点を当てているが、非等尺型とクラス間(例えば、人間対牛)の形状マッチングにはあまり注意が払われていない。 そこで本研究では,近年の言語と視覚における基礎モデルの例外的推論機能を利用して,難解な形状対応問題に対処する完全自動手法を提案する。 我々のアプローチは複数の段階からなる。 まず、描画された形状ビューを言語ビジョンモデル(例えばblip2)に供給することにより、ゼロショット方式で3d形状を分類し、形状ごとのクラス提案のリストを生成する。 これらの提案は、ChatGPTの推論機能を利用することで、フォームごとに単一のクラスに統合される。 第2に,2つの形状をゼロショット方式で分割しようとするが,共セグメンテーション問題とは対照的に,意味領域の相互集合は不要である。 そこで本研究では,ChatGPTのコンテキスト内学習機能を利用して,各形状のセマンティック領域とそれらの間のセマンティックマッピングを生成する。 これにより,強い非等尺性形状と幾何学的構造の違いを一致させることができる。 最後に, 生成した意味マッピングを用いて, 関数マップフレームワークによりさらに洗練され, 密接な点対点写像を生成できる粗い対応を生成する。 我々のアプローチは、単純さにもかかわらず、特に非等尺形状の強い間において、ゼロショット方式で非常に妥当な結果をもたらす。

We propose a novel zero-shot approach to computing correspondences between 3D shapes. Existing approaches mainly focus on isometric and near-isometric shape pairs (e.g., human vs. human), but less attention has been given to strongly non-isometric and inter-class shape matching (e.g., human vs. cow). To this end, we introduce a fully automatic method that exploits the exceptional reasoning capabilities of recent foundation models in language and vision to tackle difficult shape correspondence problems. Our approach comprises multiple stages. First, we classify the 3D shapes in a zero-shot manner by feeding rendered shape views to a language-vision model (e.g., BLIP2) to generate a list of class proposals per shape. These proposals are unified into a single class per shape by employing the reasoning capabilities of ChatGPT. Second, we attempt to segment the two shapes in a zero-shot manner, but in contrast to the co-segmentation problem, we do not require a mutual set of semantic regions. Instead, we propose to exploit the in-context learning capabilities of ChatGPT to generate two different sets of semantic regions for each shape and a semantic mapping between them. This enables our approach to match strongly non-isometric shapes with significant differences in geometric structure. Finally, we employ the generated semantic mapping to produce coarse correspondences that can further be refined by the functional maps framework to produce dense point-to-point maps. Our approach, despite its simplicity, produces highly plausible results in a zero-shot manner, especially between strongly non-isometric shapes.
翻訳日:2023-06-07 18:20:33 公開日:2023-06-05
# 確率的解法:潜在ガウスモデルに対するスケーラブルで逆フリーな最大確率推定

Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood Estimation for Latent Gaussian Models ( http://arxiv.org/abs/2306.03249v1 )

ライセンス: Link先を確認
Alexander Lin, Bahareh Tolooshams, Yves Atchad\'e, Demba Ba(参考訳) 潜在ガウスモデルは統計学と機械学習の豊富な歴史を持ち、因子分析から圧縮センシング、時系列分析まで幅広い応用がある。 これらのモデルの可能性を最大化する古典的な方法は、期待最大化(EM)アルゴリズムである。 高次元の潜伏変数や大きなデータセットの問題に対して、EMはデータポイントの数と同じくらい大きな共分散行列を逆転する必要があるため、スケールが不十分である。 本稿では,モンテカルロサンプリングと反復線形解法を組み合わせて行列逆転を回避する確率的アンローリングを導入する。 理論的解析により,解法の反復によるロールングとバックプロパゲーションが最大確率推定のための勾配推定を高速化できることが判明した。 シミュレーションおよび実データを用いた実験において, 確率的解法が, モデル性能の損失を最小限に抑えつつ, 勾配emよりも最大1桁早く潜在ガウスモデルを学習できることを実証した。

Latent Gaussian models have a rich history in statistics and machine learning, with applications ranging from factor analysis to compressed sensing to time series analysis. The classical method for maximizing the likelihood of these models is the expectation-maximization (EM) algorithm. For problems with high-dimensional latent variables and large datasets, EM scales poorly because it needs to invert as many large covariance matrices as the number of data points. We introduce probabilistic unrolling, a method that combines Monte Carlo sampling with iterative linear solvers to circumvent matrix inversion. Our theoretical analyses reveal that unrolling and backpropagation through the iterations of the solver can accelerate gradient estimation for maximum likelihood estimation. In experiments on simulated and real data, we demonstrate that probabilistic unrolling learns latent Gaussian models up to an order of magnitude faster than gradient EM, with minimal losses in model performance.
翻訳日:2023-06-07 18:20:06 公開日:2023-06-05
# 量子ランダムアクセスメモリのためのシステムアーキテクチャ

Systems Architecture for Quantum Random Access Memory ( http://arxiv.org/abs/2306.03242v1 )

ライセンス: Link先を確認
Shifan Xu, Connor T. Hann, Ben Foxman, Steven M. Girvin, Yongshan Ding(参考訳) 量子力学の原理に基づいて動作する量子アルゴリズムは、最もよく利用可能な古典的アルゴリズムの到達範囲を超えている問題の解決を約束する。 このようなスピードアップを実現する上で不可欠な部分は、量子コンピュータが処理できる形式にデータを読み込む量子クエリの実装である。 量子ランダムアクセスメモリ(QRAM)は、量子クエリを実現するための有望なアーキテクチャである。 しかし、実際にQRAMを実装することは、クエリ待ち時間、メモリ容量、フォールトトレランスなど、大きな課題をもたらす。 本稿では,QRAMのためのエンドツーエンドシステムアーキテクチャを提案する。 まず,既存の2つの実装をハイブリッド化し,空間(量子数)と時間(深さ)の漸近的に優れたスケーリングを実現する新しいqramを提案する。 従来の仮想メモリと同様に、我々の構成はハードウェアで実際に利用可能なものよりも大きな仮想アドレス空間へのクエリを可能にする。 第2に,実ハードウェア上でQRAM回路を合成,マップ,スケジュールするコンパイルフレームワークを提案する。 グリッドレイアウトのような2次元ユークリッド空間に、最小限のルーティングオーバーヘッドで大規模qramを組み込む方法が、初めて実証された。 第3に,提案するQRAMの固有バイアスノイズレジリエンスを,ノイズ中規模量子 (NISQ) とフォールトトレラント量子コンピューティング (FTQC) のハードウェア上で実装する方法を示す。 最後に、これらの結果を古典的シミュレーションと量子ハードウェア実験の両方を通して数値的に検証する。 提案するfeynman-path-based simulatorは,従来よりも大規模でノイズの多いqram回路の効率的なシミュレーションを可能にする。 そこで本研究では,QRAMの実装に必要なソフトウェアおよびハードウェア制御の集合について概説した。

Operating on the principles of quantum mechanics, quantum algorithms hold the promise for solving problems that are beyond the reach of the best-available classical algorithms. An integral part of realizing such speedup is the implementation of quantum queries, which read data into forms that quantum computers can process. Quantum random access memory (QRAM) is a promising architecture for realizing quantum queries. However, implementing QRAM in practice poses significant challenges, including query latency, memory capacity and fault-tolerance. In this paper, we propose the first end-to-end system architecture for QRAM. First, we introduce a novel QRAM that hybridizes two existing implementations and achieves asymptotically superior scaling in space (qubit number) and time (circuit depth). Like in classical virtual memory, our construction enables queries to a virtual address space larger than what is actually available in hardware. Second, we present a compilation framework to synthesize, map, and schedule QRAM circuits on realistic hardware. For the first time, we demonstrate how to embed large-scale QRAM on a 2D Euclidean space, such as a grid layout, with minimal routing overhead. Third, we show how to leverage the intrinsic biased-noise resilience of the proposed QRAM for implementation on either Noisy Intermediate-Scale Quantum (NISQ) or Fault-Tolerant Quantum Computing (FTQC) hardware. Finally, we validate these results numerically via both classical simulation and quantum hardware experimentation. Our novel Feynman-path-based simulator allows for efficient simulation of noisy QRAM circuits at a larger scale than previously possible. Collectively, our results outline the set of software and hardware controls needed to implement practical QRAM.
翻訳日:2023-06-07 18:19:48 公開日:2023-06-05
# 大規模言語モデルの学習における早期平均化の有効性の理解

Understanding the Effectiveness of Early Weight Averaging for Training Large Language Models ( http://arxiv.org/abs/2306.03241v1 )

ライセンス: Link先を確認
Sunny Sanyal, Jean Kaddour, Abhishek Kumar and Sujay Sanghavi(参考訳) LLMのトレーニングは高価であり、最近の証拠は収束のためのトレーニングは非効率であることを示している。 本稿では, 簡単なアイデア, チェックポイント平均化をトレーニングランの軌道に沿って行うことによって, モデルの品質を向上する能力について検討する。 このアプローチでは、トレーニングや推論に余分なコストがかからない。 具体的には,Pythia LLMのトレーニング軌跡を10億から12億のパラメータで解析し,特にトレーニングの初期段階から中期にかけて,このアイデアが収束を加速し,テストとゼロショットの一般化の両方を改善することを示す。 LLMトレーニングにおいて損失スパイクはよく認識されている問題であり、我々の分析では、下層の軌道で2つのケースに遭遇した。 例えば6.9BパラメータのLSMでは、私たちの初期重量平均化レシピは最大4200時間のGPU時間を節約することができ、これはクラウド計算コストの大幅な削減に相当する。

Training LLMs is expensive, and recent evidence indicates training all the way to convergence is inefficient. In this paper, we investigate the ability of a simple idea, checkpoint averaging along the trajectory of a training run to improve the quality of models before they have converged. This approach incurs no extra cost during training or inference. Specifically, we analyze the training trajectories of Pythia LLMs with 1 to 12 billion parameters and demonstrate that, particularly during the early to mid stages of training, this idea accelerates convergence and improves both test and zero-shot generalization. Loss spikes are a well recognized problem in LLM training; in our analysis we encountered two instances of this in the underlying trajectories, and both instances were mitigated by our averaging. For a 6.9B parameter LLM, for example, our early weight averaging recipe can save upto 4200 hours of GPU time, which corresponds to significant savings in cloud compute costs.
翻訳日:2023-06-07 18:19:23 公開日:2023-06-05
# 圧縮と重要度サンプリングによる加速的フェデレーション学習の改善

Improving Accelerated Federated Learning with Compression and Importance Sampling ( http://arxiv.org/abs/2306.03240v1 )

ライセンス: Link先を確認
Micha{\l} Grudzie\'n, Grigory Malinovsky, Peter Richt\'arik(参考訳) Federated Learningは、多数のクライアントに分散した異種データを活用する共同トレーニングフレームワークである。 集約ステップ中にすべてのクライアントをリクエストして処理することは事実上不可能であるため、部分的な参加をサポートする必要がある。 この設定では、サーバとクライアント間の通信が大きなボトルネックとなる。 通信負荷を低減するため、圧縮と局所ステップの2つの主要なアプローチがある。 Mishchenkoらによる最近の作品。 2022] は, 局所ステップ法を用いて加速率を達成する新しい ProxSkip 法を導入した。 フォローアップ作業は,局所的なステップアクセラレーションと部分参加 [grudzie\'n et al., 2023, condat et al. 2023] と勾配圧縮 [condat et al. [2022] を組み合わせることに成功している。 本稿では, 地域学習, 圧縮, 部分参加など, 必要なすべての要素を取り入れたフェデレーション学習の完全な方法を提案する。 考慮された設定において、最先端の収束保証を得る。 さらに、部分参加のための一般的なサンプリングフレームワークを分析し、より優れたパフォーマンスをもたらす重要なサンプリングスキームを導出する。 提案手法の実際的利点を実験的に実証した。

Federated Learning is a collaborative training framework that leverages heterogeneous data distributed across a vast number of clients. Since it is practically infeasible to request and process all clients during the aggregation step, partial participation must be supported. In this setting, the communication between the server and clients poses a major bottleneck. To reduce communication loads, there are two main approaches: compression and local steps. Recent work by Mishchenko et al. [2022] introduced the new ProxSkip method, which achieves an accelerated rate using the local steps technique. Follow-up works successfully combined local steps acceleration with partial participation [Grudzie\'n et al., 2023, Condat et al. 2023] and gradient compression [Condat et al. [2022]. In this paper, we finally present a complete method for Federated Learning that incorporates all necessary ingredients: Local Training, Compression, and Partial Participation. We obtain state-of-the-art convergence guarantees in the considered setting. Moreover, we analyze the general sampling framework for partial participation and derive an importance sampling scheme, which leads to even better performance. We experimentally demonstrate the advantages of the proposed method in practice.
翻訳日:2023-06-07 18:19:04 公開日:2023-06-05
# 低エネルギー中性子-陽子散乱における絡み合い最大化

Entanglement Maximization in Low-Energy Neutron-Proton Scattering ( http://arxiv.org/abs/2306.03239v1 )

ライセンス: Link先を確認
Gerald A. Miller(参考訳) 中性子-陽子散乱の絡み合い特性を, 中性子-陽子状態に対する散乱作用素の作用によって生じる絡み合い対の数を数える尺度を用いて検討した。 350mevまでの実験室エネルギーの散乱に関連する全ての位相シフトが用いられる。 エンタングルメントは、非常に低いエネルギー散乱で最大化される。 そのようなエネルギーでは、ハミルトニアンはウィグナーSU(4)対称性に従い、絡み合いの最大度はその対称性の符号である。 高エネルギーでは、エンタングルメントの角度依存性は強く、エンタングルメントは多くの散乱角に対して大きい。 テンソル力は、約50MeV以上の実験室運動エネルギーで絡み合いを発生させる重要な役割を担っている。

The entanglement properties of neutron-proton scattering are investigated using a measure that counts the number of entangled pairs produced by the action of a scattering operator on a given initial neutron-proton state. All phase shifts relevant for scattering at laboratory energies up to 350 MeV are used. Entanglement is found to be maximized in very low energy scattering. At such energies the Hamiltonian obeys Wigner SU(4) symmetry, and an entanglement maximum is a sign of that symmetry. At higher energies the angular dependence of entanglement is strong and the entanglement is large for many scattering angles. The tensor force is shown to play a significant role in producing entanglement at lab kinetic energies greater than about 50 MeV.
翻訳日:2023-06-07 18:18:42 公開日:2023-06-05
# ICDAR 2023 ビジュアルリッチ文書画像からの構造化テキスト抽出に関するコンペティション

ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich Document Images ( http://arxiv.org/abs/2306.03287v1 )

ライセンス: Link先を確認
Wenwen Yu, Chengquan Zhang, Haoyu Cao, Wei Hua, Bohan Li, Huang Chen, Mingyu Liu, Mingrui Chen, Jianfeng Kuang, Mengjun Cheng, Yuning Du, Shikun Feng, Xiaoguang Hu, Pengyuan Lyu, Kun Yao, Yuechen Yu, Yuliang Liu, Wanxiang Che, Errui Ding, Cheng-Lin Liu, Jiebo Luo, Shuicheng Yan, Min Zhang, Dimosthenis Karatzas, Xing Sun, Jingdong Wang, and Xiang Bai(参考訳) 構造化テキスト抽出は、Document AIの分野で最も価値が高く、困難なアプリケーション方向の1つである。 しかし、過去のベンチマークのシナリオは限られており、対応する評価プロトコルは通常、構造化テキスト抽出スキームのサブモジュールに焦点を当てている。 これらの問題を解消するために、我々は、Visually-Rich Document Image (SVRD) から構造化テキストを抽出するICDAR 2023コンペティションを組織した。 Track 1: HUST-CELL と Track 2: Baidu-FEST では、HUST-CELL は複雑なエンティティリンクとラベルのエンドツーエンドのパフォーマンスを評価することを目的としており、Baidu-FEST は、Zero-shot / Few-shot Structured Text 抽出のパフォーマンスと一般化をエンドツーエンドの観点から評価することに焦点を当てている。 現在の文書ベンチマークと比較して、我々の2つの競合ベンチマークはシナリオを大幅に強化し、50種類以上の視覚的にリッチなドキュメントイメージ(主に実際のエンタープライズアプリケーションから)を含んでいる。 大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。 トラック1には35人の参加者と91人の応募があり、トラック2には15人の参加者と26人の応募がある。 本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提案要約について述べる。 提案の性能によると,複雑かつゼロショットのシナリオでは,期待情報抽出性能に依然として大きなギャップがあると考えています。 この競争はCVとNLPの分野で多くの研究者を惹きつけ、Document AIの分野に新たな考え方をもたらすことが期待されている。

Structured text extraction is one of the most valuable and challenging application directions in the field of Document AI. However, the scenarios of past benchmarks are limited, and the corresponding evaluation protocols usually focus on the submodules of the structured text extraction scheme. In order to eliminate these problems, we organized the ICDAR 2023 competition on Structured text extraction from Visually-Rich Document images (SVRD). We set up two tracks for SVRD including Track 1: HUST-CELL and Track 2: Baidu-FEST, where HUST-CELL aims to evaluate the end-to-end performance of Complex Entity Linking and Labeling, and Baidu-FEST focuses on evaluating the performance and generalization of Zero-shot / Few-shot Structured Text extraction from an end-to-end perspective. Compared to the current document benchmarks, our two tracks of competition benchmark enriches the scenarios greatly and contains more than 50 types of visually-rich document images (mainly from the actual enterprise applications). The competition opened on 30th December, 2022 and closed on 24th March, 2023. There are 35 participants and 91 valid submissions received for Track 1, and 15 participants and 26 valid submissions received for Track 2. In this report we will presents the motivation, competition datasets, task definition, evaluation protocol, and submission summaries. According to the performance of the submissions, we believe there is still a large gap on the expected information extraction performance for complex and zero-shot scenarios. It is hoped that this competition will attract many researchers in the field of CV and NLP, and bring some new thoughts to the field of Document AI.
翻訳日:2023-06-07 18:13:48 公開日:2023-06-05
# オフライン強化学習における生存意識

Survival Instinct in Offline Reinforcement Learning ( http://arxiv.org/abs/2306.03286v1 )

ライセンス: Link先を確認
Anqi Li, Dipendra Misra, Andrey Kolobov, Ching-An Cheng(参考訳) オフライン強化学習(RL)アルゴリズムの挙動に関する新しい観察結果を示す。多くのベンチマークデータセットにおいて、オフラインRLは、至るところでゼロであるものや真の報酬の負であるものなど、"間違った"報酬ラベルでトレーニングされた場合でも、良好なパフォーマンスと安全なポリシーを生成できる。 この現象はオフラインrlの戻り最大化目標では容易に説明できない。 さらに、オフラインrlには、報酬設計に敏感であることが知られているオンラインrlに特徴的な堅牢さの度合いを与えている。 この驚くべきロバスト性は、オフラインRLアルゴリズムにおける悲観的概念と、一般的なデータ収集の実践において暗黙的な偏見の相互作用に起因することを実証する。 この研究で証明されたように、悲観主義はエージェントを「生存本能(survival instinct)」、すなわち長期的なデータサポートに留まらせるインセンティブで内包し、限られたデータカバレッジと偏りのあるデータカバレッジはサバイバルポリシーのセットをさらに制限する。 形式的には、真の報酬すら含まない報酬クラスが与えられた場合、オフラインのRLがクラス内の報酬からほぼ最適で安全なポリシーを学ぶことができるトレーニングデータ配布の条件を特定します。 我々は、既存のオフラインRLベンチマークの結果を解釈し、将来の結果を作成する際に、生存本能を考慮するべきであると論じる。 我々の経験的および理論的な結果は、エージェントが不完全な報酬を伴う望ましい行動を学ぶために、不完全なデータカバレッジを意図的にバイアスするRLの新しいパラダイムを示唆している。

We present a novel observation about the behavior of offline reinforcement learning (RL) algorithms: on many benchmark datasets, offline RL can produce well-performing and safe policies even when trained with "wrong" reward labels, such as those that are zero everywhere or are negatives of the true rewards. This phenomenon cannot be easily explained by offline RL's return maximization objective. Moreover, it gives offline RL a degree of robustness that is uncharacteristic of its online RL counterparts, which are known to be sensitive to reward design. We demonstrate that this surprising robustness property is attributable to an interplay between the notion of pessimism in offline RL algorithms and a certain bias implicit in common data collection practices. As we prove in this work, pessimism endows the agent with a "survival instinct", i.e., an incentive to stay within the data support in the long term, while the limited and biased data coverage further constrains the set of survival policies. Formally, given a reward class -- which may not even contain the true reward -- we identify conditions on the training data distribution that enable offline RL to learn a near-optimal and safe policy from any reward within the class. We argue that the survival instinct should be taken into account when interpreting results from existing offline RL benchmarks and when creating future ones. Our empirical and theoretical results suggest a new paradigm for RL, whereby an agent is "nudged" to learn a desirable behavior with imperfect reward but purposely biased data coverage.
翻訳日:2023-06-07 18:13:18 公開日:2023-06-05
# 拡散生成モデルを用いた圧縮センシングMRIのサンプリングパターンの最適化

Optimizing Sampling Patterns for Compressed Sensing MRI with Diffusion Generative Models ( http://arxiv.org/abs/2306.03284v1 )

ライセンス: Link先を確認
Sriram Ravula, Brett Levac, Ajil Jalal, Jonathan I. Tamir, Alexandros G. Dimakis(参考訳) 拡散に基づく生成モデルは磁気共鳴画像再構成(MRI)の強力な先駆体として使われてきた。 プレトレーニング拡散生成モデルを利用した圧縮型マルチコイルMRIのサブサンプリングパターンを最適化する学習手法を提案する。 重要なことは,拡散モデルとMRIによる計測プロセスにより得られた後部平均推定値に基づいて,単段階の再構成を行う。 各種解剖学,加速度因子,パターンタイプにまたがる実験により,本手法で学習したサンプリング演算子が競合し,2次元パターンの場合,ベースラインパターンと比較して再構成が改善した。 本手法では,効果的なサンプリングパターンの学習には5つのトレーニング画像が必要である。

Diffusion-based generative models have been used as powerful priors for magnetic resonance imaging (MRI) reconstruction. We present a learning method to optimize sub-sampling patterns for compressed sensing multi-coil MRI that leverages pre-trained diffusion generative models. Crucially, during training we use a single-step reconstruction based on the posterior mean estimate given by the diffusion model and the MRI measurement process. Experiments across varying anatomies, acceleration factors, and pattern types show that sampling operators learned with our method lead to competitive, and in the case of 2D patterns, improved reconstructions compared to baseline patterns. Our method requires as few as five training images to learn effective sampling patterns.
翻訳日:2023-06-07 18:12:49 公開日:2023-06-05
# 電磁放射の遠距離零点周辺における非回折偏光特性

Non-Diffracting Polarisation Features around Far-Field Zeros of Electromagnetic Radiation ( http://arxiv.org/abs/2306.03278v1 )

ライセンス: Link先を確認
Alex J. Vernon, Andrew Kille, Francisco J. Rodr\'iguez-Fortu\~no, and Andrei Afanasev(参考訳) いかなる物理的源からの光も回折し、遠方界領域において偏光が仮想的に局所伝播方向を横切る準軸となる。 横磁場成分が消えない限り、縦偏光成分は残り、重要でない。 マクスウェルの方程式は、縦成分が支配する任意の逆場 0 が、微分しない非パラキシャルな特徴を発達させることを示している。 非回折構造は、ソースとの距離とは無関係に、ゼロエンクロージング強度比管と平行な非拡散分極特異点を含む。 顕著なことに、偏光の空間プロファイルは放射線の強度プロファイルから切り離されているように見える。 この強度は源から遠く離れた空間に広がるが、偏光プロファイルは一定の横方向の空間範囲を維持している。 多極放射と位相アンテナアレイを用いた数値実験の結果が得られた。

Light from any physical source diffracts and becomes paraxial in the far field region, where polarisation is virtually transverse to the local propagation direction. A longitudinal polarisation component remains and is insignificant unless the transverse field components vanish. Maxwell's equations show that any such transverse field zero, where the longitudinal component dominates, develops non-paraxial features which do not diffract. Non-diffracting structures, independent of the distance to the source, include a zero-enclosing intensity ratio tube, and parallel, non-diverging polarisation singularities. Remarkably, the polarisation's spatial profile appears to be detached from the radiation's intensity profile. While the intensity spreads out in space at larger distances from the source, the polarisation profile maintains a fixed transverse spatial extent. Numerical examples presented for multipole radiation and phased antenna arrays confirm our findings.
翻訳日:2023-06-07 18:12:40 公開日:2023-06-05
# 属性のニューラルインクルージョンによるアンダーカウンタテンソルコンプリート

Under-Counted Tensor Completion with Neural Incorporation of Attributes ( http://arxiv.org/abs/2306.03273v1 )

ライセンス: Link先を確認
Shahana Ibrahim, Xiao Fu, Rebecca Hutchinson, Eugene Seo(参考訳) 体系的なアンダーカウント効果は、疫学や生態学など、多くの分野にまたがるデータで観察される。 Under-counted tensor completion (UC-TC) は、多くのデータ分析タスク(例えば、近隣地域のUnder-counted case number から未観測の場所での感染症のケース数を推定するなど)において、うまく動機付けられている。 しかし、同様の問題に対する既存の手法は理論上の支援が欠如しており、経験的な成功以上の基本的な原理や条件を理解することは困難である。 本研究では, 正規化されていない非線形側情報抽出器を用いた低ランクポアソンテンソルモデルを提案する。 モデルを復元するために,低ランクテンソル補完とニューラルネットワーク学習の併用アルゴリズムが設計された。 さらに、UC-TCの定式化は、テンソルの完全カウントされたエントリと各エントリのアンダーカウント確率が、合理的な条件下で部分的な観測から確実に回復可能であることを示す理論的解析によって支持される。 我々の知る限りでは、この結果はまず、未集計マルチアスペクトデータ補完の理論的サポートを提供するものである。 シミュレーションと実データ実験は理論的な主張を裏付けるものである。

Systematic under-counting effects are observed in data collected across many disciplines, e.g., epidemiology and ecology. Under-counted tensor completion (UC-TC) is well-motivated for many data analytics tasks, e.g., inferring the case numbers of infectious diseases at unobserved locations from under-counted case numbers in neighboring regions. However, existing methods for similar problems often lack supports in theory, making it hard to understand the underlying principles and conditions beyond empirical successes. In this work, a low-rank Poisson tensor model with an expressive unknown nonlinear side information extractor is proposed for under-counted multi-aspect data. A joint low-rank tensor completion and neural network learning algorithm is designed to recover the model. Moreover, the UC-TC formulation is supported by theoretical analysis showing that the fully counted entries of the tensor and each entry's under-counting probability can be provably recovered from partial observations -- under reasonable conditions. To our best knowledge, the result is the first to offer theoretical supports for under-counted multi-aspect data completion. Simulations and real-data experiments corroborate the theoretical claims.
翻訳日:2023-06-07 18:12:27 公開日:2023-06-05
# 3次元医用画像分割のためのU字型ネットワークの二重自己蒸留

Dual self-distillation of U-shaped networks for 3D medical image segmentation ( http://arxiv.org/abs/2306.03271v1 )

ライセンス: Link先を確認
Soumyanil Banerjee, Ming Dong, Carri Glide-Hurst(参考訳) U字型ネットワークとその変種は、医療画像セグメンテーションにおいて例外的な結果を示した。 本稿では、3次元医用画像分割のためのU字型ネットワークのための新しい二重自己蒸留(DSD)フレームワークを提案する。 dsdは、地上のセグメンテーションラベルからデコーダ層、および1つのu字型ネットワークのエンコーダ層とデコーダ層の間の知識を蒸留する。 DSDは一般的なトレーニング戦略であり、任意のU字型ネットワークのバックボーンアーキテクチャにアタッチしてセグメンテーション性能をさらに改善することができる。 DSDを2つの最先端のU字型背骨に装着し、2つの公開3次元医用画像分割データセット(心部分構造と脳腫瘍)の広範な実験を行った。 平均して, 背骨にDSDを装着すると, 心臓下層および脳腫瘍の分節に対するDice類似度スコアが4.25%, 3.15%改善した。

U-shaped networks and its variants have demonstrated exceptional results for medical image segmentation. In this paper, we propose a novel dual self-distillation (DSD) framework for U-shaped networks for 3D medical image segmentation. DSD distills knowledge from the ground-truth segmentation labels to the decoder layers and also between the encoder and decoder layers of a single U-shaped network. DSD is a generalized training strategy that could be attached to the backbone architecture of any U-shaped network to further improve its segmentation performance. We attached DSD on two state-of-the-art U-shaped backbones, and extensive experiments on two public 3D medical image segmentation datasets (cardiac substructure and brain tumor) demonstrated significant improvement over those backbones. On average, after attaching DSD to the U-shaped backbones, we observed an improvement of 4.25% and 3.15% in Dice similarity score for cardiac substructure and brain tumor segmentation respectively.
翻訳日:2023-06-07 18:12:07 公開日:2023-06-05
# 脳腫瘍再発と放射線壊死の分類と予後予測

Brain Tumor Recurrence vs. Radiation Necrosis Classification and Patient Survivability Prediction ( http://arxiv.org/abs/2306.03270v1 )

ライセンス: Link先を確認
M. S. Sadique, W. Farzana, A. Temtam, E. Lappinen, A. Vossough, K. M. Iftekharuddin(参考訳) gbm (glioblastoma multiforme) は、手術や放射線治療によっても生存率が低い成人の脳腫瘍の中で最も攻撃的な型である。 放射線治療後のGBM患者のMRIの変化は、放射線誘発壊死(RN)または再発性脳腫瘍(rBT)のどちらかを示している。 早期のrBTおよびRNのスクリーニングは、より迅速な治療と患者のより良い結果を促進するために重要である。 RNとrBTの鑑別は,MRIで同様の放射線学的,臨床的特徴を示すため困難である。 さらに、MRIを用いた学習ベースのrBTとRNの分類は、患者のデータ不足によりクラス不均衡に陥る可能性がある。 生成モデルを用いた合成データ生成はクラス不均衡に対処することを約束する一方で、基礎となるデータ表現は合成データや拡張データでは異なる可能性がある。 本研究は,rbt と rn 分類のサブセットサンプルサイズをバランスさせるために,統計的に厳密なランダムサブサンプリングを用いた計算モデルを提案する。 提案するパイプラインは,マルチレゾリューション放射能特徴(mrf)抽出と,統計的意義試験(p<0.05)による特徴選択を含む。 5倍のクロスバリデーション結果から, RBT を曲線 (AUC) が 0.8920+-.055 の領域で RN から分類した MRF 特徴を持つモデルが得られた。 また、生存時間と検閲時間(患者が死まで追跡されない場合)の依存性を考慮すると、再発や放射線壊死のリスクが高い患者を特定するための非侵襲バイオマーカーとしてのmrfラジオマティックスの使用の可能性を示す。 クロスバリデーションの結果、MRFモデルはAUCの0.770+-.032で最高の全体的な性能を提供することが示された。

GBM (Glioblastoma multiforme) is the most aggressive type of brain tumor in adults that has a short survival rate even after aggressive treatment with surgery and radiation therapy. The changes on magnetic resonance imaging (MRI) for patients with GBM after radiotherapy are indicative of either radiation-induced necrosis (RN) or recurrent brain tumor (rBT). Screening for rBT and RN at an early stage is crucial for facilitating faster treatment and better outcomes for the patients. Differentiating rBT from RN is challenging as both may present with similar radiological and clinical characteristics on MRI. Moreover, learning-based rBT versus RN classification using MRI may suffer from class imbalance due to lack of patient data. While synthetic data generation using generative models has shown promise to address class imbalance, the underlying data representation may be different in synthetic or augmented data. This study proposes computational modeling with statistically rigorous repeated random sub-sampling to balance the subset sample size for rBT and RN classification. The proposed pipeline includes multiresolution radiomic feature (MRF) extraction followed by feature selection with statistical significance testing (p<0.05). The five-fold cross validation results show the proposed model with MRF features classifies rBT from RN with an area under the curve (AUC) of 0.8920+-.055. Moreover, considering the dependence between survival time and censor time (where patients are not followed up until death), we demonstrate the feasibility of using MRF radiomic features as a non-invasive biomarker to identify patients who are at higher risk of recurrence or radiation necrosis. The cross-validated results show that the MRF model provides the best overall performance with an AUC of 0.770+-.032.
翻訳日:2023-06-07 18:11:47 公開日:2023-06-05
# 結果を伴うスタックオーバーフロー: 1-size-fits-allモデル上でのドメイン固有事前トレーニングの場合

Stack Over-Flowing with Results: The Case for Domain-Specific Pre-Training Over One-Size-Fits-All Models ( http://arxiv.org/abs/2306.03268v1 )

ライセンス: Link先を確認
Manisha Mukherjee, Vincent J. Hellendoorn(参考訳) トレーニング済みの大規模ニューラルネットワークモデルは、NLPとソフトウェアエンジニアリングの両方に大きな進歩をもたらした。 openaiのgptシリーズのモデルは、以前幅広いnlpアプリケーションで新しいベンチマークを設定したgoogleのbertとmetaのrobertaの2倍になった。 これらのモデルは、webクローラから大量のヘテロジニアスなデータに基づいてトレーニングされ、一般的な言語パターンとセマンティックな関係を学べる。 しかしながら、最大のモデルはトレーニングとデプロイに費用がかかり、クローズドソースであることが多いため、データや設計上の決定にはアクセスできません。 大規模で汎用的なモデルへのこの傾向は、より穏やかに訓練された単一目的のモデルで補完されるべきである。 この作業では、stackoverflow(so)を、リッチアライメントされたコードとテキストデータを大量に利用できるドメインの例としています。 非常に大きなコンテキストサイズ(2,048トークン)、バッチサイズ(0.5Mトークン)、トレーニングセット(27Bトークン)、強力なツールキット(Megatron-LM)と組み合わせて、109Mパラメータを持つSOBertBaseと762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ187ドルと800ドルという予算でトレーニングする。 soデータのみにトレーニングされた以前のsomaモデルと,汎用bertモデルとopenaiのchatgptの4つのダウンストリームタスク – 質問品質予測,クローズド質問予測,名前付きエンティティ認識,排他的予測(新たなタスク)です。 私たちのモデルはすべてのベースラインを一貫して上回るだけでなく、小さなモデルは強い結果を得るためには十分です。 どちらのモデルも一般公開されている。 これらの結果は、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための強力で安価な代替手段が得られることを示している。

Large pre-trained neural language models have brought immense progress to both NLP and software engineering. Models in OpenAI's GPT series now dwarf Google's BERT and Meta's RoBERTa, which previously set new benchmarks on a wide range of NLP applications. These models are trained on massive corpora of heterogeneous data from web crawls, which enables them to learn general language patterns and semantic relationships. However, the largest models are both expensive to train and deploy and are often closed-source, so we lack access to their data and design decisions. We argue that this trend towards large, general-purpose models should be complemented with single-purpose, more modestly sized pre-trained models. In this work, we take StackOverflow (SO) as a domain example in which large volumes of rich aligned code and text data is available. We adopt standard practices for pre-training large language models, including using a very large context size (2,048 tokens), batch size (0.5M tokens) and training set (27B tokens), coupled with a powerful toolkit (Megatron-LM), to train two models: SOBertBase, with 109M parameters, and SOBertLarge with 762M parameters, at a budget of just $187 and $800 each. We compare the performance of our models with both the previous SOTA model trained on SO data exclusively as well general-purpose BERT models and OpenAI's ChatGPT on four SO-specific downstream tasks - question quality prediction, closed question prediction, named entity recognition and obsoletion prediction (a new task we introduce). Not only do our models consistently outperform all baselines, the smaller model is often sufficient for strong results. Both models are released to the public. These results demonstrate that pre-training both extensively and properly on in-domain data can yield a powerful and affordable alternative to leveraging closed-source general-purpose models.
翻訳日:2023-06-07 18:11:19 公開日:2023-06-05
# Folklore Weisfeiler-Lehmanを再考したO(n^2)$空間における任意表現型GNN

Towards Arbitrarily Expressive GNNs in $O(n^2)$ Space by Rethinking Folklore Weisfeiler-Lehman ( http://arxiv.org/abs/2306.03266v1 )

ライセンス: Link先を確認
Jiarui Feng, Lecheng Kong, Hao Liu, Dacheng Tao, Fuhai Li, Muhan Zhang, Yixin Chen(参考訳) 近年、グラフニューラルネットワーク(GNN)の最も人気のあるフレームワークとして、メッセージパッシングニューラルネットワーク(MPNN)が登場している。 しかし、その表現力は1次元のWeisfeiler-Lehman (1-WL) テストによって制限される。 いくつかの作品は$k$-WL/FWL(Folklore WL)にインスパイアされ、対応するニューラルバージョンを設計する。 表現力が高いにもかかわらず、この研究には深刻な制限がある。 特に、(1)$k$-WL/FWL は少なくとも$O(n^k)$空間複雑性を必要とし、これは$k=3$; (2)$k$-WL/FWL の設計空間は厳密であり、唯一の調整可能なハイパーパラメータは$k$である。 最初の制限に対処するために、$(k, t)$-FWLの拡張を提案する。 理論的には、空間複雑性を$O(n^2)$ in $(k, t)$-FWL に固定しても、グラフ同型問題を解くために表現性階層を構築することができる。 2つ目の問題に取り組むために、全てのノードの代わりに任意の同変集合を隣人として考える$k$-FWL+を提案し、その結果、設計空間を$k$-FWLに拡大する。 これら2つの修正を組み合わせると、柔軟性と強力なフレームワーク $(k, t)$-fwl+ が得られる。 例えば、$(k, t)$-FWL+は、表現性にマッチする既存のモデルの多くを実装できることを示す。 次に、(k,t)$-FWL+ である Neighborhood$^2$-FWL (N$^2$-FWL) の例を導入する。 N$^2$-FWL が 3WL に劣らず強力であることを証明し、O(n^2)$空間のみを必要としながら多くの部分構造を符号化できる。 最後に、N$^2$-GNNというニューラルバージョンを設計し、各種タスクの性能を評価する。 N$^2$-GNNは、ZINC-Subset (0.059) と ZINC-Full (0.013) でそれぞれ10.6%と40.9%と、ほぼ全てのタスクにおいて優れたパフォーマンスを実現している。

Message passing neural networks (MPNNs) have emerged as the most popular framework of graph neural networks (GNNs) in recent years. However, their expressive power is limited by the 1-dimensional Weisfeiler-Lehman (1-WL) test. Some works are inspired by $k$-WL/FWL (Folklore WL) and design the corresponding neural versions. Despite the high expressive power, there are serious limitations in this line of research. In particular, (1) $k$-WL/FWL requires at least $O(n^k)$ space complexity, which is impractical for large graphs even when $k=3$; (2) The design space of $k$-WL/FWL is rigid, with the only adjustable hyper-parameter being $k$. To tackle the first limitation, we propose an extension, $(k, t)$-FWL. We theoretically prove that even if we fix the space complexity to $O(n^2)$ in $(k, t)$-FWL, we can construct an expressiveness hierarchy up to solving the graph isomorphism problem. To tackle the second problem, we propose $k$-FWL+, which considers any equivariant set as neighbors instead of all nodes, thereby greatly expanding the design space of $k$-FWL. Combining these two modifications results in a flexible and powerful framework $(k, t)$-FWL+. We demonstrate $(k, t)$-FWL+ can implement most existing models with matching expressiveness. We then introduce an instance of $(k,t)$-FWL+ called Neighborhood$^2$-FWL (N$^2$-FWL), which is practically and theoretically sound. We prove that N$^2$-FWL is no less powerful than 3-WL, can encode many substructures while only requiring $O(n^2)$ space. Finally, we design its neural version named N$^2$-GNN and evaluate its performance on various tasks. N$^2$-GNN achieves superior performance on almost all tasks, with record-breaking results on ZINC-Subset (0.059) and ZINC-Full (0.013), outperforming previous state-of-the-art results by 10.6% and 40.9%, respectively.
翻訳日:2023-06-07 18:10:43 公開日:2023-06-05
# radsum23におけるshs-nlp : 放射線インプレッション生成のための命令調整llmのドメイン適応事前学習

shs-nlp at RadSum23: Domain-Adaptive Pre-training of Instruction-tuned LLMs for Radiology Report Impression Generation ( http://arxiv.org/abs/2306.03264v1 )

ライセンス: Link先を確認
Sanjeev Kumar Karn, Rikhiya Ghosh, Kusuma P and Oladimeji Farri(参考訳) ChatGPTやBloomzのような命令調整型大規模言語モデル(LLM)は、優れた一般化能力を持っているが、特にFINDINGSセクションからimpressionIONSセクションを生成するタスクにおいて、放射線学レポートの理解に制限に直面している。 主に訓練中の医療用テキストデータへの露出が不十分なため、冗長または不完全なimpressionionsを生成する傾向がある。 本稿では,医学的知識と特定の医療課題におけるパフォーマンスを高めるために,大規模医療用テキストデータを活用した指導用LDMのドメイン適応事前学習システムを提案する。 本システムでは,インプレッション生成タスクにおいて,多くの事前訓練と細かな適応手法よりもゼロショット設定で優れた性能を示し,第1bタスクの参加システムの中で第1位にランクする。

Instruction-tuned generative Large language models (LLMs) like ChatGPT and Bloomz possess excellent generalization abilities, but they face limitations in understanding radiology reports, particularly in the task of generating the IMPRESSIONS section from the FINDINGS section. They tend to generate either verbose or incomplete IMPRESSIONS, mainly due to insufficient exposure to medical text data during training. We present a system which leverages large-scale medical text data for domain-adaptive pre-training of instruction-tuned LLMs to enhance its medical knowledge and performance on specific medical tasks. We show that this system performs better in a zero-shot setting than a number of pretrain-and-finetune adaptation methods on the IMPRESSIONS generation task, and ranks 1st among participating systems in Task 1B: Radiology Report Summarization at the BioNLP 2023 workshop.
翻訳日:2023-06-07 18:10:01 公開日:2023-06-05
# マルチエージェントコラボレーション:知的llmエージェントのパワーを活用する

Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents ( http://arxiv.org/abs/2306.03314v1 )

ライセンス: Link先を確認
Yashar Talebirad and Amirhossein Nadiri(参考訳) 本稿では,マルチエージェントシステムのパワーを活用した大規模言語モデル(llms)の能力向上のための新しい枠組みを提案する。 本フレームワークでは,複数の知的エージェントコンポーネントがそれぞれ特徴と役割を持つ協調環境を導入し,複雑なタスクをより効率的に効率的に処理する。 本稿では,自動GPTモデルとBabyAGIモデルを中心に,人工知能(AGI)のケーススタディを通じて,我々のフレームワークの実用性と汎用性を実証する。 また、外部APIをLCMに統合する"Gorilla"モデルについても検討する。 当社のフレームワークでは,ループ問題やセキュリティリスク,スケーラビリティ,システム評価,倫理的考慮といった制限や課題に対処しています。 法廷シミュレーションやソフトウェア開発シナリオなどの様々なドメインをモデル化することにより,提案するマルチエージェントシステムの潜在的な応用とメリットを示す。 当社のフレームワークは,インテリジェントエージェント間のコラボレーションと知識交換を通じて,llmの能力とパフォーマンスを向上させる手段を提供します。

In this paper, we present a novel framework for enhancing the capabilities of large language models (LLMs) by leveraging the power of multi-agent systems. Our framework introduces a collaborative environment where multiple intelligent agent components, each with distinctive attributes and roles, work together to handle complex tasks more efficiently and effectively. We demonstrate the practicality and versatility of our framework through case studies in artificial general intelligence (AGI), specifically focusing on the Auto-GPT and BabyAGI models. We also examine the "Gorilla" model, which integrates external APIs into the LLM. Our framework addresses limitations and challenges such as looping issues, security risks, scalability, system evaluation, and ethical considerations. By modeling various domains such as courtroom simulations and software development scenarios, we showcase the potential applications and benefits of our proposed multi-agent system. Our framework provides an avenue for advancing the capabilities and performance of LLMs through collaboration and knowledge exchange among intelligent agents.
翻訳日:2023-06-07 18:02:16 公開日:2023-06-05
# 企業の産業セクターを推定するスケーラブルで適応的なシステム: 生成言語モデルのPrompt + Model Tuning

A Scalable and Adaptive System to Infer the Industry Sectors of Companies: Prompt + Model Tuning of Generative Language Models ( http://arxiv.org/abs/2306.03313v1 )

ライセンス: Link先を確認
Lele Cao, Vilhelm von Ehrenheim, Astrid Berghult, Cecilia Henje, Richard Anselmo Stahl, Joar Wandborg, Sebastian Stan, Armin Catovic, Erik Ferm, Hannes Ingelhag(参考訳) プライベートエクイティ(PE)企業は、高いリターンを達成するために企業を買収・管理することで投資資金を運用している。 多くのPEファンドはテーマであり、投資専門家はできるだけ多くの産業セクターをカバーし、これらのセクター内で有望な企業を選ぶことでトレンドを特定することを目指している。 したがって、PEファンドの成功には、企業のセクターを推測することが不可欠である。 本研究では,セクターの枠組みを標準化し,典型的な課題について議論し,これらの課題に対処するセクター推論システムを導入する。 具体的には,中規模の生成言語モデル上に構築され,プロンプト+モデルチューニング手順で微調整される。 デプロイされたモデルは、一般的なベースラインよりも優れたパフォーマンスを示している。 このシステムは、多くのPEプロフェッショナルに1年以上提供され、データボリュームへの優れたスケーラビリティとセクターフレームワークやアノテーションの変更への適応性を示している。

The Private Equity (PE) firms operate investment funds by acquiring and managing companies to achieve a high return upon selling. Many PE funds are thematic, meaning investment professionals aim to identify trends by covering as many industry sectors as possible, and picking promising companies within these sectors. So, inferring sectors for companies is critical to the success of thematic PE funds. In this work, we standardize the sector framework and discuss the typical challenges; we then introduce our sector inference system addressing these challenges. Specifically, our system is built on a medium-sized generative language model, finetuned with a prompt + model tuning procedure. The deployed model demonstrates a superior performance than the common baselines. The system has been serving many PE professionals for over a year, showing great scalability to data volume and adaptability to any change in sector framework and/or annotation.
翻訳日:2023-06-07 18:02:00 公開日:2023-06-05
# エージェント集団を用いた逐次タスクのための学習埋め込み

Learning Embeddings for Sequential Tasks Using Population of Agents ( http://arxiv.org/abs/2306.03311v1 )

ライセンス: Link先を確認
Mridul Mahajan, Georgios Tzannetos, Goran Radanovic, Adish Singla(参考訳) 強化学習におけるタスクの定次元埋め込みを学習するための情報理論フレームワークを提案する。 1つのタスクでエージェントのパフォーマンスを観察すると、2つのタスクが互いに類似しているという考え方を活用することで、そのパフォーマンスに関する不確実性を減らすことができる。 この直感は、様々なエージェント群を用いて、逐次的な意思決定設定におけるタスク間の類似性を測定する情報理論的な基準によって捉えられる。 定性評価に加えて,2つのアプリケーションシナリオにおける強基線に対する定量的比較によるタスク埋め込みに基づく手法の有効性を実証的に実証した。

We present an information-theoretic framework to learn fixed-dimensional embeddings for tasks in reinforcement learning. We leverage the idea that two tasks are similar to each other if observing an agent's performance on one task reduces our uncertainty about its performance on the other. This intuition is captured by our information-theoretic criterion which uses a diverse population of agents to measure similarity between tasks in sequential decision-making settings. In addition to qualitative assessment, we empirically demonstrate the effectiveness of our techniques based on task embeddings by quantitative comparisons against strong baselines on two application scenarios: predicting an agent's performance on a test task by observing its performance on a small quiz of tasks, and selecting tasks with desired characteristics from a given set of options.
翻訳日:2023-06-07 18:01:44 公開日:2023-06-05
# LIBERO:生涯ロボット学習のための知識伝達のベンチマーク

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning ( http://arxiv.org/abs/2306.03310v1 )

ライセンス: Link先を確認
Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, Peter Stone(参考訳) 生涯学習は、その寿命を学習し適応するジェネラリストエージェントを構築するという有望なパラダイムを提供する。 画像やテキスト領域における伝統的な生涯学習問題とは違い、主に実体や概念の宣言的知識の伝達を伴うが、意思決定における生涯学習は行動や行動などの手続き的知識の伝達も必要である。 LLDMの研究を進めるために,ロボット操作のための生涯学習のベンチマークであるLIBEROを紹介する。 特に、LIBEROはLLDMにおける5つの重要な研究トピックを強調している。 1) 宣言的知識,手続的知識又は両者の混在を効率的に伝達する方法 2 効果的な政策建築の設計方法及び方法 3) LLDMの有効なアルゴリズム 4)タスクの順序付けに関する生涯学習者の頑健性 5) lldmのモデル事前学習の効果について。 無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。 ベンチマークのために、上記の研究トピックを調査するために使用する4つのタスクスイート(合計130タスク)を作成します。 サンプル効率の学習を支援するため,全てのタスクに対して高品質な人間操作型実演データを提供する。 逐次微調整(Sequence Finetuning)は、既存の生涯学習法を前向きに上回り、単一の視覚エンコーダアーキテクチャは、あらゆる種類の知識伝達に優れず、教師付き事前学習は、その後のLLDMにおけるエージェントのパフォーマンスを阻害する。 コードとデータセットはhttps://libero-project.github.ioにある。

Lifelong learning offers a promising paradigm of building a generalist agent that learns and adapts over its lifespan. Unlike traditional lifelong learning problems in image and text domains, which primarily involve the transfer of declarative knowledge of entities and concepts, lifelong learning in decision-making (LLDM) also necessitates the transfer of procedural knowledge, such as actions and behaviors. To advance research in LLDM, we introduce LIBERO, a novel benchmark of lifelong learning for robot manipulation. Specifically, LIBERO highlights five key research topics in LLDM: 1) how to efficiently transfer declarative knowledge, procedural knowledge, or the mixture of both; 2) how to design effective policy architectures and 3) effective algorithms for LLDM; 4) the robustness of a lifelong learner with respect to task ordering; and 5) the effect of model pretraining for LLDM. We develop an extendible procedural generation pipeline that can in principle generate infinitely many tasks. For benchmarking purpose, we create four task suites (130 tasks in total) that we use to investigate the above-mentioned research topics. To support sample-efficient learning, we provide high-quality human-teleoperated demonstration data for all tasks. Our extensive experiments present several insightful or even unexpected discoveries: sequential finetuning outperforms existing lifelong learning methods in forward transfer, no single visual encoder architecture excels at all types of knowledge transfer, and naive supervised pretraining can hinder agents' performance in the subsequent LLDM. Check the website at https://libero-project.github.io for the code and the datasets.
翻訳日:2023-06-07 18:01:33 公開日:2023-06-05
# 重み付き空間上の関数入力写像の大域的普遍近似

Global universal approximation of functional input maps on weighted spaces ( http://arxiv.org/abs/2306.03303v1 )

ライセンス: Link先を確認
Christa Cuchiero, Philipp Schmocker, Josef Teichmann(参考訳) 無限次元の重み付き空間上で定義されたいわゆる関数型入力ニューラルネットワークを導入し、無限次元の出力空間にも値を導入する。 この目的のために,隠れ層マップとして加法ファミリと,各隠れ層に適用する非線形活性化関数を用いる。 重み付き空間上のストーン・ワイエルシュトラスの定理に頼ると、コンパクト集合上の通常の近似を超える連続函数の一般化に対する大域的普遍近似結果が証明できる。 これは特に関数型入力ニューラルネットワークによる(予測的でない)経路空間汎関数の近似に適用される。 重み付きストーン・ワイエルシュトラスの定理のさらなる応用として、シグネチャの線型関数に対する大域的普遍近似結果が証明される。 また、ガウス過程回帰の観点をこの設定で紹介し、署名核の再生核ヒルベルト空間がある種のガウス過程のキャメロン・マルティン空間であることを示す。 これはシグネチャカーネル回帰の不確実性定量化への道を開く。

We introduce so-called functional input neural networks defined on a possibly infinite dimensional weighted space with values also in a possibly infinite dimensional output space. To this end, we use an additive family as hidden layer maps and a non-linear activation function applied to each hidden layer. Relying on Stone-Weierstrass theorems on weighted spaces, we can prove a global universal approximation result for generalizations of continuous functions going beyond the usual approximation on compact sets. This then applies in particular to approximation of (non-anticipative) path space functionals via functional input neural networks. As a further application of the weighted Stone-Weierstrass theorem we prove a global universal approximation result for linear functions of the signature. We also introduce the viewpoint of Gaussian process regression in this setting and show that the reproducing kernel Hilbert space of the signature kernels are Cameron-Martin spaces of certain Gaussian processes. This paves the way towards uncertainty quantification for signature kernel regression.
翻訳日:2023-06-07 18:01:09 公開日:2023-06-05
# 制約分布シフトによる推論

Inference under constrained distribution shifts ( http://arxiv.org/abs/2306.03302v1 )

ライセンス: Link先を確認
Santiago Cortes-Gomez, Mateo Dulce, Bryan Wilder(参考訳) 大規模な管理データセットや観察データセットは、意思決定を知らせるためにますます使われています。 この取り組みは、現実の証拠にポリシーを基礎付けることを目的としているが、選択バイアスやその他の分布シフトが観察データに支障をきたすことが多いため、課題が発生する。 堅牢な推論を提供する以前の試みは、ユーザが指定した分布シフトの量(例えば、観測された分布と対象分布の最大KL分散)に応じて保証を与えていた。 しかしながら、意思決定者は、可能なシフトの種類を制限するターゲット分布に関する追加の知識を持つことが多い。 このような情報を活用するために,ターゲット分布下で期待が分かっている関数の形で,ユーザ指定制約に従う分布シフトの存在を統計的に推測できるフレームワークを提案する。 出力は、推定した目標分布の値に基づいて高確率境界となる。 そこで,本手法は,広い範囲の推定値を部分的に識別するために,ドメイン知識を活用する。 これらの境界を推定する手法の計算・統計特性を解析し,本手法が様々なシミュレーションおよび半合成タスクにおいて有意な境界を生成することを示す。

Large-scale administrative or observational datasets are increasingly used to inform decision making. While this effort aims to ground policy in real-world evidence, challenges have arise as that selection bias and other forms of distribution shift often plague observational data. Previous attempts to provide robust inferences have given guarantees depending on a user-specified amount of possible distribution shift (e.g., the maximum KL divergence between the observed and target distributions). However, decision makers will often have additional knowledge about the target distribution which constrains the kind of shifts which are possible. To leverage such information, we proposed a framework that enables statistical inference in the presence of distribution shifts which obey user-specified constraints in the form of functions whose expectation is known under the target distribution. The output is high-probability bounds on the value an estimand takes on the target distribution. Hence, our method leverages domain knowledge in order to partially identify a wide class of estimands. We analyze the computational and statistical properties of methods to estimate these bounds, and show that our method can produce informative bounds on a variety of simulated and semisynthetic tasks.
翻訳日:2023-06-07 18:00:54 公開日:2023-06-05
# 動的特徴選択のための条件付き相互情報の推定

Estimating Conditional Mutual Information for Dynamic Feature Selection ( http://arxiv.org/abs/2306.03301v1 )

ライセンス: Link先を確認
Soham Gadgil, Ian Covert, Su-In Lee(参考訳) 機能を順次クエリして、最小限の予算で正確な予測を行う動的な機能選択は、機能獲得コストを削減し、予測プロセスに透明性を提供する、有望なパラダイムです。 しかし、任意の特徴セットによる予測と、最も価値のある選択を特定するためのポリシーの学習の両方を必要とするため、この問題は難しい。 本稿では,情報理論的な視点を取り,応答変数との相互情報に基づいて特徴を優先順位付けする。 主な課題は、この選択ポリシーを学習することであり、生成的手法ではなく、差別的に相互情報を推定する、直接的な新しいモデリングアプローチを設計する。 サンプル間での多様な機能予算の実現、機能間の一様でないコストの実現、事前情報の導入、部分的な入力情報を扱うための現代的なアーキテクチャの探索などです。 提案手法は, 様々なデータセットを対象とした最近の最先端手法に対して一貫した利得を提供する。

Dynamic feature selection, where we sequentially query features to make accurate predictions with a minimal budget, is a promising paradigm to reduce feature acquisition costs and provide transparency into the prediction process. The problem is challenging, however, as it requires both making predictions with arbitrary feature sets and learning a policy to identify the most valuable selections. Here, we take an information-theoretic perspective and prioritize features based on their mutual information with the response variable. The main challenge is learning this selection policy, and we design a straightforward new modeling approach that estimates the mutual information in a discriminative rather than generative fashion. Building on our learning approach, we introduce several further improvements: allowing variable feature budgets across samples, enabling non-uniform costs between features, incorporating prior information, and exploring modern architectures to handle partial input information. We find that our method provides consistent gains over recent state-of-the-art methods across a variety of datasets.
翻訳日:2023-06-07 18:00:34 公開日:2023-06-05
# 印象分散を考慮した強化学習によるパーソナライズ広告の公平性

Towards Fairness in Personalized Ads Using Impression Variance Aware Reinforcement Learning ( http://arxiv.org/abs/2306.03293v1 )

ライセンス: Link先を確認
Aditya Srinivas Timmaraju, Mehdi Mashayekhi, Mingliang Chen, Qi Zeng, Quintin Fettes, Wesley Cheung, Yihan Xiao, Manojkumar Rangasamy Kannadasan, Pushkar Tripathi, Sean Gahagan, Miranda Boge, Rob Roudani(参考訳) グループ間での広告印象結果のばらつきは、パーソナライズされた広告システムにおけるアルゴリズムバイアスを示す可能性があると考えられている。 パーソナライズされたシステムのコンテキストに適用可能なフェアネスの定義は数多く存在するが,メタの広告システムにおいて,より公平な結果を達成するために,VRS(Variance Reduction System)と呼ばれるフレームワークを提案する。 VRSは、選択された保護されたクラス(PC)属性に対する印象の分配を目指しており、広告を閲覧する視聴者(広告主が基準をターゲティングする機能)の人口統計をプライバシー保護の方法でより緊密に調整している。 まず、性別や推定人種を含むpc属性に対する広告印象のばらつきの観点からフェアネスギャップを定量化するメトリクスを定義する。 次に、インプレッション分散を意識した方法で広告のランク付けを行うVRSを示す。 パラメータ選択に関する広範囲なシミュレーションによりVRSを評価し,VRSが選択した公正度測定値に与える影響を検討した。 最終的に、VRSをMetaの広告システムに適用したオンラインA/Bテスト結果を提示し、今後の作業について議論する。 われわれはこのVRSを米国の全ユーザーに対してハウジング広告のために展開し、フェアネスの指標を大幅に改善した。 VRSは、オンライン広告における複数のPC属性の公平性を追求する最初の大規模なデプロイフレームワークである。

Variances in ad impression outcomes across demographic groups are increasingly considered to be potentially indicative of algorithmic bias in personalized ads systems. While there are many definitions of fairness that could be applicable in the context of personalized systems, we present a framework which we call the Variance Reduction System (VRS) for achieving more equitable outcomes in Meta's ads systems. VRS seeks to achieve a distribution of impressions with respect to selected protected class (PC) attributes that more closely aligns the demographics of an ad's eligible audience (a function of advertiser targeting criteria) with the audience who sees that ad, in a privacy-preserving manner. We first define metrics to quantify fairness gaps in terms of ad impression variances with respect to PC attributes including gender and estimated race. We then present the VRS for re-ranking ads in an impression variance-aware manner. We evaluate VRS via extensive simulations over different parameter choices and study the effect of the VRS on the chosen fairness metric. We finally present online A/B testing results from applying VRS to Meta's ads systems, concluding with a discussion of future work. We have deployed the VRS to all users in the US for housing ads, resulting in significant improvement in our fairness metric. VRS is the first large-scale deployed framework for pursuing fairness for multiple PC attributes in online advertising.
翻訳日:2023-06-07 18:00:18 公開日:2023-06-05
# スイッチング自己回帰低ランクテンソルモデル

Switching Autoregressive Low-rank Tensor Models ( http://arxiv.org/abs/2306.03291v1 )

ライセンス: Link先を確認
Hyun Dong Lee, Andrew Warrington, Joshua I. Glaser, Scott W. Linderman(参考訳) 時系列解析における重要な問題は、時変ダイナミクスを持つモデリングシステムである。 連続的および離散的潜在状態を持つ確率モデルは、そのようなデータの解釈可能、効率的、実験的に有用な記述を提供する。 一般的に使われているモデルには、自己回帰隠れマルコフモデル(ARHMM)と線形力学系(SLDS)の切り替えがあり、それぞれ独自の利点と欠点がある。 arhmmは正確な推論と簡単なパラメータ推定を可能にするが、長い依存関係をモデル化する場合はパラメータが集中する。 対照的に、SLDSはマルコフの潜在力学を通してパラメータのパラメータ依存性を効率的に捉えることができるが、難解な可能性と挑戦的なパラメータ推定タスクを示す。 本稿では,両手法の利点を保ちながら弱点を改善した自己回帰型低ランクテンソル(SALT)モデルの変更を提案する。 SALTはARHMMのテンソルを低ランク因数分解でパラメータ化し、パラメータの数を制御し、オーバーフィットすることなく長い範囲依存を可能にする。 塩,線形力学系,slds間の実用的関係を理論的に検証し考察する。 我々は、行動や神経データセットを含む様々なシミュレーションおよび実際の予測タスクにおいて、塩モデルの定量的な利点を実証する。 さらに、学習された低ランクテンソルは、各離散状態における時間依存に対する新しい洞察を提供する。

An important problem in time-series analysis is modeling systems with time-varying dynamics. Probabilistic models with joint continuous and discrete latent states offer interpretable, efficient, and experimentally useful descriptions of such data. Commonly used models include autoregressive hidden Markov models (ARHMMs) and switching linear dynamical systems (SLDSs), each with its own advantages and disadvantages. ARHMMs permit exact inference and easy parameter estimation, but are parameter intensive when modeling long dependencies, and hence are prone to overfitting. In contrast, SLDSs can capture long-range dependencies in a parameter efficient way through Markovian latent dynamics, but present an intractable likelihood and a challenging parameter estimation task. In this paper, we propose switching autoregressive low-rank tensor (SALT) models, which retain the advantages of both approaches while ameliorating the weaknesses. SALT parameterizes the tensor of an ARHMM with a low-rank factorization to control the number of parameters and allow longer range dependencies without overfitting. We prove theoretical and discuss practical connections between SALT, linear dynamical systems, and SLDSs. We empirically demonstrate quantitative advantages of SALT models on a range of simulated and real prediction tasks, including behavioral and neural datasets. Furthermore, the learned low-rank tensor provides novel insights into temporal dependencies within each discrete state.
翻訳日:2023-06-07 17:59:54 公開日:2023-06-05
# クラウドソースラベルからの深層学習: 結合したクロスエントロピー最小化、識別可能性、正規化

Deep Learning From Crowdsourced Labels: Coupled Cross-entropy Minimization, Identifiability, and Regularization ( http://arxiv.org/abs/2306.03288v1 )

ライセンス: Link先を確認
Shahana Ibrahim, Tri Nguyen, Xiao Fu(参考訳) 複数の注釈子からのノイズの多いクラウドソーシングラベルを使用することで、ディープラーニングベースのエンドツーエンド(e2e)システムは、ラベル補正機構と神経分類器を同時に学習することを目指している。 この目的のために、多くのE2Eシステムは、ニューラル分類器を複数のアノテータ固有の ``label confusion'' 層に結合し、パラメータ結合された方法で2つの部分を協調訓練する。 定式化されたクロスエントロピー最小化(CCEM)型基準は直感的であり、実際はうまく機能する。 それでも、CCEM基準に関する理論的理解は限られている。 第一に、ccem基準のパフォーマンス保証が提示されます。 本解析により,ccemは,例えば不完全アノテーションラベリングや有限サンプルが利用可能である場合など,現実的条件下で,アノテータの混乱特性や所望の'接地-真実'の神経分類器を正しく識別できることが明らかとなった。 次に,本分析から得られた知見をもとに,CCEMの2つの正規化変種を提案する。 正規化項は、様々なより困難な場合において、対象モデルパラメータの識別性を高める。 提案手法の有効性を示すために, 一連の合成および実データ実験を行った。

Using noisy crowdsourced labels from multiple annotators, a deep learning-based end-to-end (E2E) system aims to learn the label correction mechanism and the neural classifier simultaneously. To this end, many E2E systems concatenate the neural classifier with multiple annotator-specific ``label confusion'' layers and co-train the two parts in a parameter-coupled manner. The formulated coupled cross-entropy minimization (CCEM)-type criteria are intuitive and work well in practice. Nonetheless, theoretical understanding of the CCEM criterion has been limited. The contribution of this work is twofold: First, performance guarantees of the CCEM criterion are presented. Our analysis reveals for the first time that the CCEM can indeed correctly identify the annotators' confusion characteristics and the desired ``ground-truth'' neural classifier under realistic conditions, e.g., when only incomplete annotator labeling and finite samples are available. Second, based on the insights learned from our analysis, two regularized variants of the CCEM are proposed. The regularization terms provably enhance the identifiability of the target model parameters in various more challenging cases. A series of synthetic and real data experiments are presented to showcase the effectiveness of our approach.
翻訳日:2023-06-07 17:59:33 公開日:2023-06-05
# CoSiNES: エンティティ標準化のための対照的なSameseネットワーク

CoSiNES: Contrastive Siamese Network for Entity Standardization ( http://arxiv.org/abs/2306.03316v1 )

ライセンス: Link先を確認
Jiaqing Yuan and Michele Merler and Mihir Choudhury and Raju Pavuluri and Munindar P. Singh and Maja Vukovic(参考訳) エンティティ標準化は、フリーフォームテキストから知識ベースにおける標準エンティティへの騒がしい言及をマップする。 他のエンティティ関連タスクと比較して、このタスクの独特な課題は、周辺コンテキストの欠如と言及の表面形態の多くのバリエーションであり、特にラベル付きデータが不足している領域をまたいで一般化する場合である。 これまでの研究は主に、コンテキストに大きく依存するか、特定のドメインにのみ依存するか、モデルの開発に重点を置いてきた。 対照的に、CoSiNESはContrastive Siamese Network for Entity Standardizationを備えた汎用的で適応可能なフレームワークで、事前訓練された言語モデルに効果的に適応して、新しいドメイン内のエンティティの構文とセマンティクスをキャプチャする。 産業コンテンツ管理システムから収集した640の技術的スタックエンティティと6,412の言及を含む技術領域に新たなデータセットを構築する。 cosinesは、このドメインのリードメソッドに由来するベースラインよりも、高い精度と高速なランタイムをもたらすことを実証する。 CoSiNESはまた、化学、医学、生体医学の4つの標準データセットの競争性能も達成し、そのクロスドメイン適用性を示している。

Entity standardization maps noisy mentions from free-form text to standard entities in a knowledge base. The unique challenge of this task relative to other entity-related tasks is the lack of surrounding context and numerous variations in the surface form of the mentions, especially when it comes to generalization across domains where labeled data is scarce. Previous research mostly focuses on developing models either heavily relying on context, or dedicated solely to a specific domain. In contrast, we propose CoSiNES, a generic and adaptable framework with Contrastive Siamese Network for Entity Standardization that effectively adapts a pretrained language model to capture the syntax and semantics of the entities in a new domain. We construct a new dataset in the technology domain, which contains 640 technical stack entities and 6,412 mentions collected from industrial content management systems. We demonstrate that CoSiNES yields higher accuracy and faster runtime than baselines derived from leading methods in this domain. CoSiNES also achieves competitive performance in four standard datasets from the chemistry, medicine, and biomedical domains, demonstrating its cross-domain applicability.
翻訳日:2023-06-07 17:52:13 公開日:2023-06-05
# 対人教師による自己学習によるショットレンタル生成

Few Shot Rationale Generation using Self-Training with Dual Teachers ( http://arxiv.org/abs/2306.03315v1 )

ライセンス: Link先を確認
Aditya Srikanth Veerubhotla, Lahari Poddar, Jun Yin, Gy\"orgy Szarvas, Sharanya Eswaran(参考訳) 予測ラベルのフリーテキスト説明も生成するセルフリレーゼーションモデルは、信頼できるAIアプリケーションを構築する上で重要なツールである。 注釈付きラベルの説明の作成は面倒で費用がかかるため、最近のモデルはバックボーンとして大きな事前学習された言語モデル(plm)に依存している。 本研究では,ラベル付きデータとラベル付きデータの両方を活用した自己学習アプローチを探求し,人間の記述された合理性もアノテーション付きタスクラベルも大規模に利用できないという前提の下で,マイナショットモデルをさらに改善する手法を提案する。 本稿では,タスク予測と合理化のための2つの専門的な教師モデルについて,自己学習を用いて学習し,タスクラベルと合理性を共同生成可能なマルチタスク学生モデルに抽出する。 さらに,新たな損失関数であるマスキングラベル正則化(mlr)を定式化し,予測ラベルに対して強く条件付けされる説明を促進する。 3つの公開データセットの評価は,提案手法がタスクラベルをモデル化し,忠実な合理性を生成するのに有効であることを示す。

Self-rationalizing models that also generate a free-text explanation for their predicted labels are an important tool to build trustworthy AI applications. Since generating explanations for annotated labels is a laborious and costly pro cess, recent models rely on large pretrained language models (PLMs) as their backbone and few-shot learning. In this work we explore a self-training approach leveraging both labeled and unlabeled data to further improve few-shot models, under the assumption that neither human written rationales nor annotated task labels are available at scale. We introduce a novel dual-teacher learning framework, which learns two specialized teacher models for task prediction and rationalization using self-training and distills their knowledge into a multi-tasking student model that can jointly generate the task label and rationale. Furthermore, we formulate a new loss function, Masked Label Regularization (MLR) which promotes explanations to be strongly conditioned on predicted labels. Evaluation on three public datasets demonstrate that the proposed methods are effective in modeling task labels and generating faithful rationales.
翻訳日:2023-06-07 17:51:38 公開日:2023-06-05
# 革新表現による非パラメトリック確率時系列予測

Non-parametric Probabilistic Time Series Forecasting via Innovations Representation ( http://arxiv.org/abs/2306.03782v1 )

ライセンス: Link先を確認
Xinyi Wang, Meijen Lee, Qing Zhao, Lang Tong(参考訳) 確率的時系列予測は、過去の実現後の時間における時系列の条件付き確率分布を予測する。 このような手法は、不確実性の下でのリスクベースの意思決定と計画において重要である。 既存のアプローチは主にパラメトリックまたは半パラメトリックの時系列モデルに基づいており、制限があり、検証が難しく、様々な条件に適応することが難しい。 本稿は,Norbert Wiener と Gopinath Kallianpur が提唱した,非パラメトリックランダム過程を独立で一様に分散した {\em イノベーションプロセスに因果的に変換する古典的な {\em イノベーションの概念に基づく非パラメトリック手法を提案する。 本稿では,wiener-kallianpurイノベーション表現の2つの制限を回避する機械学習アーキテクチャと学習アルゴリズムを提案する。 一 時系列の既知確率分布の必要性及び (ii)イノベーションの表現から元の時系列を再現する因果的デコーダの存在。 ウィナー・カリアンプル革新表現の弱い概念に基づく時系列の予測条件確率分布の生成モデルを得るため,深層学習手法とモンテカルロサンプリング手法を開発した。 確率予測手法の有効性を様々な電力価格データセットで示し、確率予測手法の先行ベンチマークよりも顕著に改善したことを示す。

Probabilistic time series forecasting predicts the conditional probability distributions of the time series at a future time given past realizations. Such techniques are critical in risk-based decision-making and planning under uncertainties. Existing approaches are primarily based on parametric or semi-parametric time-series models that are restrictive, difficult to validate, and challenging to adapt to varying conditions. This paper proposes a nonparametric method based on the classic notion of {\em innovations} pioneered by Norbert Wiener and Gopinath Kallianpur that causally transforms a nonparametric random process to an independent and identical uniformly distributed {\em innovations process}. We present a machine-learning architecture and a learning algorithm that circumvent two limitations of the original Wiener-Kallianpur innovations representation: (i) the need for known probability distributions of the time series and (ii) the existence of a causal decoder that reproduces the original time series from the innovations representation. We develop a deep-learning approach and a Monte Carlo sampling technique to obtain a generative model for the predicted conditional probability distribution of the time series based on a weak notion of Wiener-Kallianpur innovations representation. The efficacy of the proposed probabilistic forecasting technique is demonstrated on a variety of electricity price datasets, showing marked improvement over leading benchmarks of probabilistic forecasting techniques.
翻訳日:2023-06-07 14:45:09 公開日:2023-06-05
# 深い弱教師付き異常検出

Deep Weakly-supervised Anomaly Detection ( http://arxiv.org/abs/1910.13601v4 )

ライセンス: Link先を確認
Guansong Pang, Chunhua Shen, Huidong Jin, Anton van den Hengel(参考訳) 近年の半教師付き異常検出法では,小さなラベル付き異常例と大きなラベルなしデータ(大半は正規データ)を用いて訓練されている。 しかし、これらの手法は、与えられた異常例のみによって示される異常(例:異常)を適合させることに重点を置いていることが多く、その結果、訓練中に見つからない新しいタイプの異常を一般化することができない。 Pairwise Relation Prediction Network (PReNet) は,2つのランダムなトレーニングインスタンスの関係を予測することにより,ペアワイズ関係の特徴と異常スコアを学習し,ペアワイズ関係を異常,異常,未ラベル,未ラベルの2つに分類する。 ラベルなしの例はほとんど正常であるため、関係予測は、それぞれ異常異常、異常正常、正常なペア識別パターンの連関学習を強制する。 PReNetは、学習したペアの異常パターンに適合する、あるいは通常のパターンから逸脱する、見知らぬ異常を検出できる。 さらに、このペアワイズアプローチは、トレーニング異常データをシームレスかつ著しく増大させる。 12の実世界のデータセットに対する実証的な結果から、PReNetは目に見えない異常や異常を検知する9つの競合する手法を著しく上回っている。 また,非ラベルデータにおけるモデルw.r.t.異常汚染のロバスト性についても理論的および実証的に正当化する。 コードはhttps://github.com/mala-lab/prenetで入手できる。

Recent semi-supervised anomaly detection methods that are trained using small labeled anomaly examples and large unlabeled data (mostly normal data) have shown largely improved performance over unsupervised methods. However, these methods often focus on fitting abnormalities illustrated by the given anomaly examples only (i.e.,, seen anomalies), and consequently they fail to generalize to those that are not, i.e., new types/classes of anomaly unseen during training. To detect both seen and unseen anomalies, we introduce a novel deep weakly-supervised approach, namely Pairwise Relation prediction Network (PReNet), that learns pairwise relation features and anomaly scores by predicting the relation of any two randomly sampled training instances, in which the pairwise relation can be anomaly-anomaly, anomaly-unlabeled, or unlabeled-unlabeled. Since unlabeled instances are mostly normal, the relation prediction enforces a joint learning of anomaly-anomaly, anomaly-normal, and normal-normal pairwise discriminative patterns, respectively. PReNet can then detect any seen/unseen abnormalities that fit the learned pairwise abnormal patterns, or deviate from the normal patterns. Further, this pairwise approach also seamlessly and significantly augments the training anomaly data. Empirical results on 12 real-world datasets show that PReNet significantly outperforms nine competing methods in detecting seen and unseen anomalies. We also theoretically and empirically justify the robustness of our model w.r.t. anomaly contamination in the unlabeled data. The code is available at https://github.com/mala-lab/PReNet.
翻訳日:2023-06-07 06:30:56 公開日:2023-06-05
# 連続観測空間を有するPOMDPにおけるスパースツリー探索最適性保証

Sparse tree search optimality guarantees in POMDPs with continuous observation spaces ( http://arxiv.org/abs/1910.04332v4 )

ライセンス: Link先を確認
Michael H. Lim, Claire J. Tomlin, Zachary N. Sunberg(参考訳) 連続状態と観測空間を持つ部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題を表現できる強力な柔軟性を持つが、解決は極めて難しい。 観測可能性重み付けを用いた最近のオンラインサンプリングベースアルゴリズムは、連続的な観測空間を持つ領域において、前例のない効果を示した。 しかし、この技法の正式な理論的正当化は行われていない。 この研究は、単純化されたアルゴリズム、部分的に観測可能な重み付きスパースサンプリング(POWSS)が、高い確率でQ値を正確に推定し、計算能力を高めて最適解の近くで任意に実行できることを証明する。

Partially observable Markov decision processes (POMDPs) with continuous state and observation spaces have powerful flexibility for representing real-world decision and control problems but are notoriously difficult to solve. Recent online sampling-based algorithms that use observation likelihood weighting have shown unprecedented effectiveness in domains with continuous observation spaces. However there has been no formal theoretical justification for this technique. This work offers such a justification, proving that a simplified algorithm, partially observable weighted sparse sampling (POWSS), will estimate Q-values accurately with high probability and can be made to perform arbitrarily near the optimal solution by increasing computational power.
翻訳日:2023-06-07 06:30:07 公開日:2023-06-05
# reznick's positiveivstellensatzの改良と量子情報理論への応用

A refinement of Reznick's Positivstellensatz with applications to quantum information theory ( http://arxiv.org/abs/1909.01705v4 )

ライセンス: Link先を確認
Alexander M\"uller-Hermes and Ion Nechita and David Reeb(参考訳) ヒルベルトの17番目の問題の解において、アルティンはいくつかの変数の任意の正定値多項式を2つの平方和の商として記述できることを示した。 後にレズニックは、アルティンの結果の分母は常に変数の平方ノルムの$N$-番目のパワーとして選ばれ、$N$に明示的な境界を与えることを示した。 量子情報理論(部分的トレース、最適クローンマップ、チリベラによるアイデンティティなど)の概念を用いることで、この結果のより単純な証明と、実数と複素数の両方の微妙な改善を与える。 さらに、ガウス積分を用いたヒルベルト同一性の構成を議論し、複素球面設計を構成する基本手法について検討する。 最後に、実および複素集合における指数量子デファインッティの定理の境界を改良するために、この結果を適用する。

In his solution of Hilbert's 17th problem Artin showed that any positive definite polynomial in several variables can be written as the quotient of two sums of squares. Later Reznick showed that the denominator in Artin's result can always be chosen as an $N$-th power of the squared norm of the variables and gave explicit bounds on $N$. By using concepts from quantum information theory (such as partial traces, optimal cloning maps, and an identity due to Chiribella) we give simpler proofs and minor improvements of both real and complex versions of this result. Moreover, we discuss constructions of Hilbert identities using Gaussian integrals and we review an elementary method to construct complex spherical designs. Finally, we apply our results to give improved bounds for exponential quantum de Finetti theorems in the real and in the complex setting.
翻訳日:2023-06-07 06:29:53 公開日:2023-06-05
# 多ビットポテンシャルを持つ量子ニューラルネットワーク

Quantum neural networks with multi-qubit potentials ( http://arxiv.org/abs/2105.02756v2 )

ライセンス: Link先を確認
Yue Ban, E. Torrontegui and J. Casanova(参考訳) 我々は、近似パワーを失うことなく、ネットワーク深さの低減につながるニューラルネットワークの多ビット相互作用を含む量子ニューラルネットワークを提案する。 量子パーセプトロンにおけるマルチキュービットポテンシャルの存在は、XORゲートの実装や素数探索などのより効率的な情報処理タスクを可能にし、また、CNOT、Toffoli、Fredkinのような異なる絡み合う量子ゲートを構築するための深さ低減も提供する。 このネットワークアーキテクチャの単純化は、接続性の問題に対処し、トレーニングを促進しながら量子ニューラルネットワークをスケールアップする道を開く。

We propose quantum neural networks that include multi-qubit interactions in the neural potential leading to a reduction of the network depth without losing approximative power. We show that the presence of multi-qubit potentials in the quantum perceptrons enables more efficient information processing tasks such as XOR gate implementation and prime numbers search, while it also provides a depth reduction to construct distinct entangling quantum gates like CNOT, Toffoli, and Fredkin. This simplification in the network architecture paves the way to address the connectivity challenge to scale up a quantum neural network while facilitates its training.
翻訳日:2023-06-07 06:12:59 公開日:2023-06-05
# 密度量子ドットアレイにおけるゲート反射率

Gate reflectometry in dense quantum dot arrays ( http://arxiv.org/abs/2012.04791v2 )

ライセンス: Link先を確認
Fabio Ansaloni, Heorhii Bohuslavskyi, Federico Fedele, Torbj{\o}rn Rasmussen, Bertram Brovang, Fabrizio Berritta, Amber Heskes, Jing Li, Louis Hutin, Benjamin Venitucci, Benoit Bertrand, Maud Vinet, Yann-Michel Niquet, Anasua Chatterjee, Ferdinand Kuemmeth(参考訳) シリコン量子デバイスは、学術的な単一および2量子ビットデバイスから工業的にファブリックされた高密度量子ドット(QD)アレイへと成熟し、運用上の複雑さが増し、パルスゲートとリードアウト技術の改善が求められている。 我々は300mmウェーハファクトリーで作製した高密度2$\times$2のシリコン量子ドットに対して,ゲート電圧パルスとゲート電圧反射率の測定を行った。 アレイ内の強い静電容量結合を利用すると、高周波反射計で1つのゲート電極のみを監視し、4つのドットのそれぞれに単一電子占有を確立し、高帯域幅で単一電子移動を検出することができる。 グローバルトップゲート電極は全体のトンネル時間を調整し、サイドゲート電圧の線形結合は詳細な電荷安定性図を生成する。 スピン物理学とパウリスピン遮断を有限磁場でテストするために、対称ゲート電圧パルスを実装し、2つのドット間のデチューン関数として双方向の電荷緩和を直接明らかにする。 このような分割ゲートデバイスを2$\times$N配列にスケーリングするために重要な、隣接する電子貯水池を介さずにアレイ内の電荷感知を確立することができる。 我々の技術は、スピン量子ビットデバイスの大規模量子プロセッサへのスケールアップに応用できるかもしれない。

Silicon quantum devices are maturing from academic single- and two-qubit devices to industrially-fabricated dense quantum-dot (QD) arrays, increasing operational complexity and the need for better pulsed-gate and readout techniques. We perform gate-voltage pulsing and gate-based reflectometry measurements on a dense 2$\times$2 array of silicon quantum dots fabricated in a 300-mm-wafer foundry. Utilizing the strong capacitive couplings within the array, it is sufficient to monitor only one gate electrode via high-frequency reflectometry to establish single-electron occupation in each of the four dots and to detect single-electron movements with high bandwidth. A global top-gate electrode adjusts the overall tunneling times, while linear combinations of side-gate voltages yield detailed charge stability diagrams. To test for spin physics and Pauli spin blockade at finite magnetic fields, we implement symmetric gate-voltage pulses that directly reveal bidirectional interdot charge relaxation as a function of the detuning between two dots. Charge sensing within the array can be established without the involvement of adjacent electron reservoirs, important for scaling such split-gate devices towards longer 2$\times$N arrays. Our techniques may find use in the scaling of few-dot spin-qubit devices to large-scale quantum processors.
翻訳日:2023-06-07 06:11:38 公開日:2023-06-05
# 非可換加法観測による位相共存状態の統計的アンサンブル

Statistical ensembles for phase coexistence states specified by noncommutative additive observables ( http://arxiv.org/abs/2111.10532v4 )

ライセンス: Link先を確認
Yasushi Yoneta, Akira Shimizu(参考訳) 相共存状態は、すべての相が同じ値を取るため、温度や磁場などの集中的なパラメータによって一意に特定することはできない。 それは適切な加法観測器のセットによってのみ一意に指定できる。 したがって、位相共存を解析するために、添加物によって特定される統計アンサンブル(マイクロカノニカルや制限されたアンサンブルなど)が採用されている。 しかし、これらのアンサンブルは、いくつかの付加的な可観測性が相互に可換でない場合に不定義または非可換である。 本稿では、非可換加法的可観測性によって特定される位相共存状態に適用できるように一般化アンサンブルを拡張して、この基本問題を解く。 このアンサンブルにより、一般量子系の位相共存状態と熱力学的関数に対応する密度行列が正しく与えられることが証明される。 さらに、これらのアンサンブルは、優れた解析的性質と、加法観測器の期待値から温度やその他の集中パラメータを直接得られる有用な公式により、実用的な計算に有用である。 実演として、ハミルトニアンと可換でない加法的可観測(次数パラメータ)により位相共存状態が指定される2次元系に我々の定式化を適用する。

A phase coexistence state cannot be specified uniquely by any intensive parameters, such as the temperature and the magnetic field, because they take the same values over all coexisting phases. It can be specified uniquely only by an appropriate set of additive observables. Hence, to analyze phase coexistence states the statistical ensembles that are specified by additive observables have been employed, such as the microcanonical and restricted ensembles. However, such ensembles are ill-defined or ill-behaved when some of the additive observables do not commute with each other. Here, we solve this fundamental problem by extending a generalized ensemble in such a way that it is applicable to phase coexistence states which are specified by noncommutative additive observables. We prove that this ensemble correctly gives the density matrix corresponding to phase coexistence states of general quantum systems as well as the thermodynamic functions. Furthermore, these ensembles are convenient for practical calculations because of good analytic properties and useful formulas by which temperature and other intensive parameters are directly obtained from the expectation values of the additive observables. As a demonstration, we apply our formulation to a two-dimensional system whose phase coexistence states are specified by an additive observable (order parameter) that does not commute with the Hamiltonian.
翻訳日:2023-06-07 06:02:07 公開日:2023-06-05
# 多エージェント強化学習におけるエージェントの学習メタ表現

Learning Meta Representations for Agents in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2108.12988v3 )

ライセンス: Link先を確認
Shenao Zhang, Li Shen, Lei Han, Li Shen(参考訳) マルチエージェント強化学習では、エージェントが単一のマルコフゲーム(mg)で学習する行動は通常、与えられたエージェント番号に限定される。 個体数の変化によって引き起こされるすべてのmgは、異なる最適ジョイント戦略とゲーム固有の知識を持ち、それらは現代のマルチエージェント強化学習アルゴリズムで独立にモデル化される。 本研究では,人口変動型mgsを一般化するエージェントの開発に焦点をあてる。 各エージェントは、ユニモーダルポリシーを学ぶ代わりに、さまざまなゲームで効果的な戦略からなるポリシーセットを学習する。 これを実現するために,ゲーム共通およびゲーム固有の戦略知識を明示的にモデル化するエージェント(mra)のメタ表現を提案する。 ポリシーセットをマルチモーダル潜在ポリシーで表現することにより、ゲーム共通戦略知識と多様な戦略モードが反復最適化手順によって発見される。 結果の制約付き相互情報目標を概ね最大化することにより,潜在空間が十分大きい場合,評価mgごとにnash平衡に達することを実証する。 遅延空間サイズが制限された実用的な設定でMRAをデプロイする場合、一階勾配情報を活用することで高速適応を実現することができる。 広範囲な実験により,mraが評価ゲームにおけるトレーニング性能と一般化能力の向上に有効性を示す。

In multi-agent reinforcement learning, the behaviors that agents learn in a single Markov Game (MG) are typically confined to the given agent number. Every single MG induced by varying the population may possess distinct optimal joint strategies and game-specific knowledge, which are modeled independently in modern multi-agent reinforcement learning algorithms. In this work, our focus is on creating agents that can generalize across population-varying MGs. Instead of learning a unimodal policy, each agent learns a policy set comprising effective strategies across a variety of games. To achieve this, we propose Meta Representations for Agents (MRA) that explicitly models the game-common and game-specific strategic knowledge. By representing the policy sets with multi-modal latent policies, the game-common strategic knowledge and diverse strategic modes are discovered through an iterative optimization procedure. We prove that by approximately maximizing the resulting constrained mutual information objective, the policies can reach Nash Equilibrium in every evaluation MG when the latent space is sufficiently large. When deploying MRA in practical settings with limited latent space sizes, fast adaptation can be achieved by leveraging the first-order gradient information. Extensive experiments demonstrate the effectiveness of MRA in improving training performance and generalization ability in challenging evaluation games.
翻訳日:2023-06-07 06:01:18 公開日:2023-06-05
# 拡散写像に基づく多様体上の勾配計算とその応用

A diffusion-map-based algorithm for gradient computation on manifolds and applications ( http://arxiv.org/abs/2108.06988v5 )

ライセンス: Link先を確認
Alvaro Almeida Gomez, Ant\^onio J. Silva Neto, Jorge P. Zubelli(参考訳) ユークリッド空間内のリーマン部分多様体の内部点上で定義される与えられた函数のリーマン勾配を、部分多様体内の点における関数評価のサンプルに基づいて回復する。 このアプローチは拡散マップ理論で提案されたラプラス・ベルトラミ作用素の推定に基づいている。 リーマン勾配推定は微分項を含まない。 リーマン勾配展開の解析収束結果が証明された。 微分自由最適化法を提供する勾配に基づくアルゴリズムにリーマン勾配推定を適用する。 未知のランダム角分布からのトモグラフィー再構成や,次元2,3の球充填問題など,いくつかの応用を検証・検証する。

We recover the Riemannian gradient of a given function defined on interior points of a Riemannian submanifold in the Euclidean space based on a sample of function evaluations at points in the submanifold. This approach is based on the estimates of the Laplace-Beltrami operator proposed in the diffusion-maps theory. The Riemannian gradient estimates do not involve differential terms. Analytical convergence results of the Riemannian gradient expansion are proved. We apply the Riemannian gradient estimate in a gradient-based algorithm providing a derivative-free optimization method. We test and validate several applications, including tomographic reconstruction from an unknown random angle distribution, and the sphere packing problem in dimensions 2 and 3.
翻訳日:2023-06-07 06:00:57 公開日:2023-06-05
# Sequoia: 継続的な学習研究を統合するソフトウェアフレームワーク

Sequoia: A Software Framework to Unify Continual Learning Research ( http://arxiv.org/abs/2108.01005v4 )

ライセンス: Link先を確認
Fabrice Normandin, Florian Golemo, Oleksiy Ostapenko, Pau Rodriguez, Matthew D Riemer, Julio Hurtado, Khimya Khetarpal, Ryan Lindeborg, Lucas Cecchi, Timoth\'ee Lesort, Laurent Charlin, Irina Rish, Massimo Caccia(参考訳) 連続学習(cl)の分野は、非定常環境とのインタラクションを通じて、時間とともに知識とスキルを蓄積するアルゴリズムの開発を目指している。 実際には、評価手順(セット)とアルゴリズム解(メソッド)の多元性が存在し、それぞれが潜在的な仮定の集合を持つ。 この多様性はCLの進行を測定するのを難しくする。 本稿では,各設定を仮定の集合として記述する設定の分類法を提案する。 この視点から木のような階層が生まれ、より一般的な設定がより制限的な仮定を持つ人の親となる。 これにより、遺伝を利用して研究を共有、再利用することが可能となり、与えられた設定の方法を開発することで、子供にも直接適用することができる。 我々は、このアイデアをSequoiaと呼ばれる一般公開のソフトウェアフレームワークとしてインスタンス化し、CSL(Continuous Supervised Learning)ドメインとCRL(Continuous Reinforcement Learning)ドメインの両方から幅広い設定を特徴としている。 Sequoiaには、拡張やカスタマイズが容易なメソッドのスイートや、外部ライブラリからのより特殊なメソッドも含まれている。 この新しいパラダイムと最初の実装がclの研究の統一と加速に役立つことを願っている。 www.github.com/lebrice/Sequoia.comを訪問すれば、木を育てられる。

The field of Continual Learning (CL) seeks to develop algorithms that accumulate knowledge and skills over time through interaction with non-stationary environments. In practice, a plethora of evaluation procedures (settings) and algorithmic solutions (methods) exist, each with their own potentially disjoint set of assumptions. This variety makes measuring progress in CL difficult. We propose a taxonomy of settings, where each setting is described as a set of assumptions. A tree-shaped hierarchy emerges from this view, where more general settings become the parents of those with more restrictive assumptions. This makes it possible to use inheritance to share and reuse research, as developing a method for a given setting also makes it directly applicable onto any of its children. We instantiate this idea as a publicly available software framework called Sequoia, which features a wide variety of settings from both the Continual Supervised Learning (CSL) and Continual Reinforcement Learning (CRL) domains. Sequoia also includes a growing suite of methods which are easy to extend and customize, in addition to more specialized methods from external libraries. We hope that this new paradigm and its first implementation can help unify and accelerate research in CL. You can help us grow the tree by visiting www.github.com/lebrice/Sequoia.
翻訳日:2023-06-07 06:00:48 公開日:2023-06-05
# 確率シミュレーションの高速化を目的としたディープベイズアクティブラーニング

Deep Bayesian Active Learning for Accelerating Stochastic Simulation ( http://arxiv.org/abs/2106.02770v7 )

ライセンス: Link先を確認
Dongxia Wu, Ruijia Niu, Matteo Chinazzi, Alessandro Vespignani, Yi-An Ma, Rose Yu(参考訳) 大規模・時空間・年齢構成の疫病モデルのような確率シミュレーションは、きめ細かい解像度で計算的に高価である。 ディープサロゲートモデルはシミュレーションを高速化するが、確率的シミュレーションやアクティブな学習アプローチは未探索の分野である。 確率的シミュレーションを高速化するために,ディープサロゲートモデルを学習するためのディープベイズ能動学習フレームワークであるInteractive Neural Process (INP)を提案する。 INPは、ニューラルプロセス(NP)ファミリ上に構築された時空間代理モデルと、アクティブラーニングのための獲得関数の2つのコンポーネントから構成される。 本研究では,シミュレーションのダイナミクスを模倣する時空間神経プロセス(stnp)を開発した。 能動的学習のために,NPベースモデルの潜時空間で計算された新しい取得関数Latent Information Gain (LIG)を提案する。 理論的解析を行い、LIGは高次元のランダムサンプリングと比較してサンプルの複雑さを減少させることを示した。 また,反応拡散,熱流,感染症の3つの複合時空間シミュレータについて実験を行った。 その結果,snpはオフライン学習のベースラインよりも優れており,ligはベイズアクティブ学習の最先端を実現する。

Stochastic simulations such as large-scale, spatiotemporal, age-structured epidemic models are computationally expensive at fine-grained resolution. While deep surrogate models can speed up the simulations, doing so for stochastic simulations and with active learning approaches is an underexplored area. We propose Interactive Neural Process (INP), a deep Bayesian active learning framework for learning deep surrogate models to accelerate stochastic simulations. INP consists of two components, a spatiotemporal surrogate model built upon Neural Process (NP) family and an acquisition function for active learning. For surrogate modeling, we develop Spatiotemporal Neural Process (STNP) to mimic the simulator dynamics. For active learning, we propose a novel acquisition function, Latent Information Gain (LIG), calculated in the latent space of NP based models. We perform a theoretical analysis and demonstrate that LIG reduces sample complexity compared with random sampling in high dimensions. We also conduct empirical studies on three complex spatiotemporal simulators for reaction diffusion, heat flow, and infectious disease. The results demonstrate that STNP outperforms the baselines in the offline learning setting and LIG achieves the state-of-the-art for Bayesian active learning.
翻訳日:2023-06-07 06:00:00 公開日:2023-06-05
# マトリックス角根の低ランク更新

Low-Rank Updates of Matrix Square Roots ( http://arxiv.org/abs/2201.13156v3 )

ライセンス: Link先を確認
Shany Shumeli, Petros Drineas, Haim Avron(参考訳) 共分散行列がスパース行列と低ランク摂動の構造を持つモデルは、データサイエンスの応用においてユビキタスである。 このような構造を利用するアルゴリズムは、しばしば3次時間と二次記憶を必要とする高価な行列計算を避けることが望ましい。 これはしばしば、シャーマン・モリソン・ウッドベリーの公式を通した行列反転のような構造を維持する操作によって達成される。 本稿では,行列平方根および逆平方根演算について考察する。 行列に対する低階摂動が与えられたとき、(逆)平方根に対する低階近似補正が存在すると論じる。 我々は、真の補正の固有値に縛られる幾何学的減衰を確立することで、そうする。 次に、代数的リッカティ方程式の解として補正を枠組化し、その方程式に対する低ランク解をいかに計算できるかについて議論する。 代数リカティ方程式を解く際に生じる近似誤差を分析し、スペクトルとフロベニウスノルムを前方および後方誤差境界として提供する。 最後に,本アルゴリズムのいくつかの応用について述べるとともに,数値実験でその有用性を実証する。

Models in which the covariance matrix has the structure of a sparse matrix plus a low rank perturbation are ubiquitous in data science applications. It is often desirable for algorithms to take advantage of such structures, avoiding costly matrix computations that often require cubic time and quadratic storage. This is often accomplished by performing operations that maintain such structures, e.g. matrix inversion via the Sherman-Morrison-Woodbury formula. In this paper we consider the matrix square root and inverse square root operations. Given a low rank perturbation to a matrix, we argue that a low-rank approximate correction to the (inverse) square root exists. We do so by establishing a geometric decay bound on the true correction's eigenvalues. We then proceed to frame the correction as the solution of an algebraic Riccati equation, and discuss how a low-rank solution to that equation can be computed. We analyze the approximation error incurred when approximately solving the algebraic Riccati equation, providing spectral and Frobenius norm forward and backward error bounds. Finally, we describe several applications of our algorithms, and demonstrate their utility in numerical experiments.
翻訳日:2023-06-07 05:53:16 公開日:2023-06-05
# 2つの時間スケール更新ルールを持つ生成逆数ネットワークのトレーニングのための臨界バッチサイズの存在と推定

Existence and Estimation of Critical Batch Size for Training Generative Adversarial Networks with Two Time-Scale Update Rule ( http://arxiv.org/abs/2201.11989v6 )

ライセンス: Link先を確認
Naoki Sato and Hideaki Iiduka(参考訳) 従来,2つの時間スケール更新規則(TTUR)は,異なる学習率,あるいは異なる減衰率などの異なる学習速度を用いて,理論上,実際に生成的敵ネットワーク(GAN)を訓練するのに有用であった。 さらに, 学習速度だけでなく, バッチサイズも, TTURを用いたGANの訓練において重要であり, どちらも訓練に必要なステップ数に影響を与える。 本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。 理論的には、一定の学習率を持つTTURの場合、判別器とジェネレータの両方の損失関数の定常点を見つけるために必要なステップの数は、バッチサイズが大きくなるにつれて減少し、確率的一階オラクル(SFO)の複雑さを最小化する臨界バッチサイズが存在することを示す。 次に、Fr'echet開始距離(FID)をトレーニングのパフォーマンス指標とし、バッチサイズが大きくなるにつれて、低いFIDスコアを達成するために必要なステップの数が減少し、バッチサイズが測定されたクリティカルバッチサイズを超えると、SFOの複雑さが増加することを示す数値結果を提供する。 さらに, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。

Previous results have shown that a two time-scale update rule (TTUR) using different learning rates, such as different constant rates or different decaying rates, is useful for training generative adversarial networks (GANs) in theory and in practice. Moreover, not only the learning rate but also the batch size is important for training GANs with TTURs and they both affect the number of steps needed for training. This paper studies the relationship between batch size and the number of steps needed for training GANs with TTURs based on constant learning rates. We theoretically show that, for a TTUR with constant learning rates, the number of steps needed to find stationary points of the loss functions of both the discriminator and generator decreases as the batch size increases and that there exists a critical batch size minimizing the stochastic first-order oracle (SFO) complexity. Then, we use the Fr'echet inception distance (FID) as the performance measure for training and provide numerical results indicating that the number of steps needed to achieve a low FID score decreases as the batch size increases and that the SFO complexity increases once the batch size exceeds the measured critical batch size. Moreover, we show that measured critical batch sizes are close to the sizes estimated from our theoretical results.
翻訳日:2023-06-07 05:52:56 公開日:2023-06-05
# オンライン2部マッチングにおけるrawlsian fairness:2面,グループ,個人

Rawlsian Fairness in Online Bipartite Matching: Two-sided, Group, and Individual ( http://arxiv.org/abs/2201.06021v3 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Sharmila Duppala, Davidson Cheng, Vedant Nanda, Aravind Srinivasan, and John P. Dickerson(参考訳) オンラインの双方向マッチングプラットフォームはユビキタスであり、クラウドソーシングやライドシェアリングといった重要な分野のアプリケーションを見つける。 最も一般的な形式では、プラットフォームはマッチする2つの側面とマッチングを決定するプラットフォームオペレータの3つのエンティティで構成される。 このようなプラットフォームのためのアルゴリズムの設計は、伝統的にオペレーターの(予想される)利益に焦点を当ててきた。 既存のアルゴリズムで無視された公平性は重要な考慮事項となっているため、オペレータの利益の低下を犠牲にして市場の片側に対して公平な待遇を保証するオンラインマッチングアルゴリズムのコレクションが開発されている。 本稿では,既存の業務を一般化し,市場双方に公平な治療保証を同時に提供し,オペレーター利益への最悪の下降を計算した。 グループおよび個人Rawlsianの公正度基準を検討する。 さらに、我々のアルゴリズムは理論的な保証があり、三辺のユーティリティ間のトレードオフのバランスをとるために調整可能なパラメータを持つ。 また,任意のアルゴリズムの性能に対して高い上限を与える硬度結果も導出する。

Online bipartite-matching platforms are ubiquitous and find applications in important areas such as crowdsourcing and ridesharing. In the most general form, the platform consists of three entities: two sides to be matched and a platform operator that decides the matching. The design of algorithms for such platforms has traditionally focused on the operator's (expected) profit. Since fairness has become an important consideration that was ignored in the existing algorithms a collection of online matching algorithms have been developed that give a fair treatment guarantee for one side of the market at the expense of a drop in the operator's profit. In this paper, we generalize the existing work to offer fair treatment guarantees to both sides of the market simultaneously, at a calculated worst case drop to operator profit. We consider group and individual Rawlsian fairness criteria. Moreover, our algorithms have theoretical guarantees and have adjustable parameters that can be tuned as desired to balance the trade-off between the utilities of the three sides. We also derive hardness results that give clear upper bounds over the performance of any algorithm.
翻訳日:2023-06-07 05:51:57 公開日:2023-06-05
# SU(3)フェルミオンの有界状態のプローブと色分解

Probe for bound states of SU(3) fermions and colour deconfinement ( http://arxiv.org/abs/2112.06950v2 )

ライセンス: Link先を確認
Wayne J. Chetcuti, Juan Polo, Andreas Osterloh, Paolo Castorina and Luigi Amico(参考訳) コールド原子で実現されたフェルミオン人工物質は、操作条件の柔軟性を向上して高度な多体効果を前例のない程度に制御できる。 量子材料で発生する標準的なフェルミオンペアリングを超える性質を持つ複素境界状態の形成を研究するために、魅力的な相互作用を持つ3成分フェルミオンを考える。 このような系はクォーク物質と明確な類似性を示す。 ここでは,3成分フェルミオン系の持続電流によるリング状トラップにおける境界状態の性質について述べる。 このようにして、色超流動状態と三調バウンド状態とを区別できることが示される。 有限温度効果を解析することにより、有限温度が境界状態の分解につながることを示す。 弱い相互作用では、分解は散乱状態のため起こる。 この方法では、デコンビネーションは相互作用と熱揺らぎの温度のトレードオフに依存する。 強い相互作用のために、永続電流の特徴は、結合状態の適切な気体の性質から生じる。

Fermionic artificial matter realized with cold atoms grants access to an unprecedented degree of control on sophisticated many-body effects with an enhanced flexibility of the operating conditions. We consider three-component fermions with attractive interactions to study the formation of complex bound states whose nature goes beyond the standard fermion pairing occurring in quantum materials. Such systems display clear analogies with quark matter. Here, we address the nature of the bound states of a three-component fermionic system in a ring-shaped trap through the persistent current. In this way, we demonstrate that we can distinguish between color superfluid and trionic bound states. By analyzing finite temperature effects, we show how finite temperature can lead to the deconfinement of bound states. For weak interactions the deconfinement occurs because of scattering states. In this regime, the deconfinement depends on the trade-off between interactions and thermal fluctuations temperature. For strong interactions the features of the persistent current result from the properties of a suitable gas of bound states.
翻訳日:2023-06-07 05:51:41 公開日:2023-06-05
# 曖昧な動的治療規則:強化学習アプローチ

Ambiguous Dynamic Treatment Regimes: A Reinforcement Learning Approach ( http://arxiv.org/abs/2112.04571v4 )

ライセンス: Link先を確認
Soroush Saghafian(参考訳) 様々な研究における主要な研究目標は、観測データセットを使用して、因果改善をもたらす新しい反事実ガイドラインを提供することである。 動的処理レジーム(DTR)はこのプロセスの形式化のために広く研究されている。 しかし、最適なDTRを見つけるための有効な方法は、現実世界の応用(例えば医療意思決定や公共政策)に違反する仮定に依存することが多い。 (a)観察されていない共同創設者の存在を無視することができない。 (b)未観測の共同設立者は、時間的変化がある(例えば、以前の行動の影響)。 このような仮定が破られると、基礎となる因果モデルに関する曖昧さに直面することが多い。 この曖昧さは、観測されていない共同創設者のダイナミクスと、観測されたデータの一部に対する因果的影響が、観測されたデータから理解できないため、避けられない。 当院で移植を施行し,移植後新発症糖尿病(nodat)として知られる疾患に直面する患者に対して優れた治療体制を見いだした症例研究により,dtrsをadtrs(ambiguous dynamic treatment regimes)という新しい分類に拡張し,治療体制の因果影響を因果モデルの「クラウド」に基づいて評価した。 次に、ADTRをAmbiguous partial Observable Mark Decision Processs (APOMDPs)に接続し、観測データを用いて最適な治療体制を効率的に学習する強化学習法を開発する。 本研究では,(弱)一貫性と漸近正規性を含むこれらの学習方法に関する理論的結果を確立する。 ケーススタディとシミュレーション実験の両方において,これらの学習手法の性能を更に評価する。

A main research goal in various studies is to use an observational data set and provide a new set of counterfactual guidelines that can yield causal improvements. Dynamic Treatment Regimes (DTRs) are widely studied to formalize this process. However, available methods in finding optimal DTRs often rely on assumptions that are violated in real-world applications (e.g., medical decision-making or public policy), especially when (a) the existence of unobserved confounders cannot be ignored, and (b) the unobserved confounders are time-varying (e.g., affected by previous actions). When such assumptions are violated, one often faces ambiguity regarding the underlying causal model. This ambiguity is inevitable, since the dynamics of unobserved confounders and their causal impact on the observed part of the data cannot be understood from the observed data. Motivated by a case study of finding superior treatment regimes for patients who underwent transplantation in our partner hospital and faced a medical condition known as New Onset Diabetes After Transplantation (NODAT), we extend DTRs to a new class termed Ambiguous Dynamic Treatment Regimes (ADTRs), in which the causal impact of treatment regimes is evaluated based on a "cloud" of causal models. We then connect ADTRs to Ambiguous Partially Observable Mark Decision Processes (APOMDPs) and develop Reinforcement Learning methods, which enable using the observed data to efficiently learn an optimal treatment regime. We establish theoretical results for these learning methods, including (weak) consistency and asymptotic normality. We further evaluate the performance of these learning methods both in our case study and in simulation experiments.
翻訳日:2023-06-07 05:51:28 公開日:2023-06-05
# 学習意味ピラミッドを用いたフルコンテキスト認識画像のインペインティング

Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid ( http://arxiv.org/abs/2112.04107v2 )

ライセンス: Link先を確認
Wendong Zhang, Yunbo Wang, Bingbing Ni, Xiaokang Yang(参考訳) 画像中の任意の欠落領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。 最近の画像インパインティングモデルは、鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、より複雑なシーンを扱う際には、テクスチャのぼやけや構造的歪みが生じる可能性がある。 この問題に対処するために,特定のプレテキストタスクから複数スケールのセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・ネットワーク(SPN)を提案する。 SPNは2つのコンポーネントから構成される。 まず、プレテキストモデルからマルチスケールの特徴ピラミッドにセマンティック先行を蒸留し、グローバルコンテキストと局所構造を一貫した理解を達成する。 先行学習者の中では,様々な学習先行に駆動される確率的画像の着色を実現するために,変分推論のためのオプションモジュールを提案する。 SPNの第2のコンポーネントは、完全にコンテキスト対応の画像生成装置で、(確率的な)以前のピラミッドで複数のスケールで低レベルな視覚表現を適応的かつ漸進的に洗練する。 我々は,事前学習者および画像生成者を後処理なしで統一モデルとして訓練する。 当社のアプローチでは,Places2,Paris StreetView,CelebA,CelebA-HQといった複数のデータセット上で,決定論的および確率的インパインティング設定の下で,技術の現状を実現する。

Restoring reasonable and realistic content for arbitrary missing regions in images is an important yet challenging task. Although recent image inpainting models have made significant progress in generating vivid visual details, they can still lead to texture blurring or structural distortions due to contextual ambiguity when dealing with more complex scenes. To address this issue, we propose the Semantic Pyramid Network (SPN) motivated by the idea that learning multi-scale semantic priors from specific pretext tasks can greatly benefit the recovery of locally missing content in images. SPN consists of two components. First, it distills semantic priors from a pretext model into a multi-scale feature pyramid, achieving a consistent understanding of the global context and local structures. Within the prior learner, we present an optional module for variational inference to realize probabilistic image inpainting driven by various learned priors. The second component of SPN is a fully context-aware image generator, which adaptively and progressively refines low-level visual representations at multiple scales with the (stochastic) prior pyramid. We train the prior learner and the image generator as a unified model without any post-processing. Our approach achieves the state of the art on multiple datasets, including Places2, Paris StreetView, CelebA, and CelebA-HQ, under both deterministic and probabilistic inpainting setups.
翻訳日:2023-06-07 05:51:03 公開日:2023-06-05
# 深層ニューラルネットワークにおける解釈可能性と摂動アーティファクトの評価

Evaluation of Interpretability Methods and Perturbation Artifacts in Deep Neural Networks ( http://arxiv.org/abs/2203.02928v3 )

ライセンス: Link先を確認
Lennart Brocki, Neo Christopher Chung(参考訳) 画像分類、検出、予測においてディープニューラルネットワーク(DNN)の優れた性能にもかかわらず、DNNが与えられた決定をどう行うかは未解決の問題であり、多くの解釈可能性手法が生み出されている。 ポストホック解釈可能性法は主に、クラス確率に関する入力特徴の重要性の定量化を目的としている。 しかし, 基礎的事実の欠如, 多様な操作特性を持つ解釈可能性手法の存在などにより, これらの手法の評価は極めて重要な課題である。 解釈可能性評価手法の一般的なアプローチは、与えられた予測に重要な入力特徴を摂動させ、精度の低下を観測することである。 しかし、摂動自体が人工物をもたらすこともある。 そこで本研究では, 摂動入力特徴のモデル精度曲線をMIF(Mest Import First)とLIF(Least Import First)の順に求めることにより, これらのアーチファクトの忠実度推定への影響を推定する手法を提案する。 ImageNetでトレーニングされたResNet-50を用いて、4つの一般的なポストホック解釈可能性手法の忠実度推定を提案する。

Despite excellent performance of deep neural networks (DNNs) in image classification, detection, and prediction, characterizing how DNNs make a given decision remains an open problem, resulting in a number of interpretability methods. Post-hoc interpretability methods primarily aim to quantify the importance of input features with respect to the class probabilities. However, due to the lack of ground truth and the existence of interpretability methods with diverse operating characteristics, evaluating these methods is a crucial challenge. A popular approach to evaluate interpretability methods is to perturb input features deemed important for a given prediction and observe the decrease in accuracy. However, perturbation itself may introduce artifacts. We propose a method for estimating the impact of such artifacts on the fidelity estimation by utilizing model accuracy curves from perturbing input features according to the Most Import First (MIF) and Least Import First (LIF) orders. Using the ResNet-50 trained on the ImageNet, we demonstrate the proposed fidelity estimation of four popular post-hoc interpretability methods.
翻訳日:2023-06-07 05:42:45 公開日:2023-06-05
# ニューラルネットワークの正準剥離-ロバストネスへの応用

Canonical foliations of neural networks: application to robustness ( http://arxiv.org/abs/2203.00922v2 )

ライセンス: Link先を確認
Eliot Tron, Nicolas Couellan, St\'ephane Puechmorel(参考訳) ディープラーニングモデルは敵の攻撃に弱いことが知られている。 そのため、敵対的学習は重要な課題になりつつある。 リーマン幾何学と葉理論を用いたニューラルネットワークのロバスト性に関する新しいビジョンを提案する。 このアイデアは、データ空間の曲率を考慮した新しい敵の攻撃を作成することによって示される。 2段階のスペクトル攻撃と呼ばれるこの新たな敵攻撃は、データ空間における測地線の分別線形近似である。 データ空間は、ニューラルネットワークのFiher Information Metric(FIM)の引き戻しを備えた(退化)リーマン多様体として扱われる。 ほとんどの場合、この計量は半定値であり、その核は研究対象の中心となる。 標準葉は、このカーネルに由来する。 横葉の曲率は、測地線を2段階近似する適切な補正を与えるため、新しい効率的な逆襲となる。 この方法は、ニューラルネットワークの葉と対応する攻撃を視覚化するために、2dのおもちゃの例で最初に示される。 次に,提案手法を用いたMNISTデータセットとZhao et al. (2019)で提示されたアートアタックの状況について報告する。 その結果、提案手法は攻撃の予算(攻撃のノルム)のあらゆるレベルにおいてより効率的であり、横型ニューラルネットワークのfim葉の曲がり角がニューラルネットワークの頑健性において重要な役割を担っていることが確認された。

Deep learning models are known to be vulnerable to adversarial attacks. Adversarial learning is therefore becoming a crucial task. We propose a new vision on neural network robustness using Riemannian geometry and foliation theory. The idea is illustrated by creating a new adversarial attack that takes into account the curvature of the data space. This new adversarial attack called the two-step spectral attack is a piece-wise linear approximation of a geodesic in the data space. The data space is treated as a (degenerate) Riemannian manifold equipped with the pullback of the Fisher Information Metric (FIM) of the neural network. In most cases, this metric is only semi-definite and its kernel becomes a central object to study. A canonical foliation is derived from this kernel. The curvature of transverse leaves gives the appropriate correction to get a two-step approximation of the geodesic and hence a new efficient adversarial attack. The method is first illustrated on a 2D toy example in order to visualize the neural network foliation and the corresponding attacks. Next, experiments on the MNIST dataset with the proposed technique and a state of the art attack presented in Zhao et al. (2019) are reported. The result show that the proposed attack is more efficient at all levels of available budget for the attack (norm of the attack), confirming that the curvature of the transverse neural network FIM foliation plays an important role in the robustness of neural networks.
翻訳日:2023-06-07 05:42:05 公開日:2023-06-05
# 長期移動健康データに対する探索的隠れマルコフ因子モデル : 逆性外傷性神経精神科領域への応用

Exploratory Hidden Markov Factor Models for Longitudinal Mobile Health Data: Application to Adverse Posttraumatic Neuropsychiatric Sequelae ( http://arxiv.org/abs/2202.12819v2 )

ライセンス: Link先を確認
Lin Ge, Xinming An, Donglin Zeng, Samuel McLean, Ronald Kessler, and Rui Song(参考訳) 外傷性神経精神医学の後遺症(APNS)は、外傷による曝露後、退役軍人や数百万人のアメリカ人の間で一般的であり、外傷の生存者や社会に大きな負担がかかる。 過去数十年にわたってAPNSで多くの研究が行われてきたが、いくつかの独特な課題により、基礎となる神経生物学的メカニズムの理解は限られている。 これらの課題の1つは、APNSを評価するための主観的な自己申告手段に依存することである。 この問題を軽減するため, トラウマ曝露後のAPNSの動的遷移と潜在的な危険因子について検討し, 対象の縦型モバイルデバイスデータを利用して同種APNS状態を同定する可能性を検討する。 縦型モバイルデバイスデータから生じる特定の課題に対処するため,探索的隠れマルコフ因子モデルを開発し,パラメータ推定のための安定化期待最大化アルゴリズムを設計した。 パラメータ推定とモデル選択の性能を評価するためにシミュレーション研究を行った。 最後に,本手法の実用性を実証するために,RecOvery afteR traumA (AURORA) 研究から収集したモバイルデバイスデータに適用した。

Adverse posttraumatic neuropsychiatric sequelae (APNS) are common among veterans and millions of Americans after traumatic exposures, resulting in substantial burdens for trauma survivors and society. Despite numerous studies conducted on APNS over the past decades, there has been limited progress in understanding the underlying neurobiological mechanisms due to several unique challenges. One of these challenges is the reliance on subjective self-report measures to assess APNS, which can easily result in measurement errors and biases (e.g., recall bias). To mitigate this issue, in this paper, we investigate the potential of leveraging the objective longitudinal mobile device data to identify homogeneous APNS states and study the dynamic transitions and potential risk factors of APNS after trauma exposure. To handle specific challenges posed by longitudinal mobile device data, we developed exploratory hidden Markov factor models and designed a Stabilized Expectation-Maximization algorithm for parameter estimation. Simulation studies were conducted to evaluate the performance of parameter estimation and model selection. Finally, to demonstrate the practical utility of the method, we applied it to mobile device data collected from the Advancing Understanding of RecOvery afteR traumA (AURORA) study.
翻訳日:2023-06-07 05:40:56 公開日:2023-06-05
# 自然言語推論における帰属法評価のための多言語的視点

A Multilingual Perspective Towards the Evaluation of Attribution Methods in Natural Language Inference ( http://arxiv.org/abs/2204.05428v2 )

ライセンス: Link先を確認
Kerem Zaman, Yonatan Belinkov(参考訳) 帰属法のほとんどの評価は英語に焦点を当てている。 本研究では,自然言語推論(NLI)タスクに対する帰属手法を,忠実度と妥当性の観点から評価するための多言語的アプローチを提案する。 まず,単語アライメントに基づく忠実度を測定するための新しい言語間戦略を導入し,消去に基づく評価の欠点を解消し,異なる出力機構と集約手法を考慮した帰属法の包括的評価を行う。 最後に、XNLIデータセットをハイライトベースの説明で拡張し、ハイライト付き多言語NLIデータセットを提供し、将来のexNLP研究をサポートする。 以上の結果から,妥当性と忠実性に最適な属性法が異なることが明らかとなった。

Most evaluations of attribution methods focus on the English language. In this work, we present a multilingual approach for evaluating attribution methods for the Natural Language Inference (NLI) task in terms of faithfulness and plausibility. First, we introduce a novel cross-lingual strategy to measure faithfulness based on word alignments, which eliminates the drawbacks of erasure-based evaluations.We then perform a comprehensive evaluation of attribution methods, considering different output mechanisms and aggregation methods. Finally, we augment the XNLI dataset with highlight-based explanations, providing a multilingual NLI dataset with highlights, to support future exNLP studies. Our results show that attribution methods performing best for plausibility and faithfulness are different.
翻訳日:2023-06-07 05:34:09 公開日:2023-06-05
# 回転ディスク系における時空間熱フラックスのベイズ推定のためのディープサロゲート加速遅延受容HMC

Deep surrogate accelerated delayed-acceptance HMC for Bayesian inference of spatio-temporal heat fluxes in rotating disc systems ( http://arxiv.org/abs/2204.02272v2 )

ライセンス: Link先を確認
Teo Deveney, Eike Mueller, Tony Shardlow(参考訳) 本稿では,PDEに基づくベイズ逆問題に対して,精度が保証された深層学習高速化手法を提案する。 これは、温度データに与えられたバイオット数として知られる時空間熱流パラメータを推定する不適切な問題によって動機づけられるが、他の設定に一般化できる。 ベイズ推定を高速化するために,パラメトリックフォワードモデルをシミュレートするニューラルネットワークサロゲートを適応的にトレーニングするための新しいトレーニングスキームを開発した。 ビオット数上の近似後続分布を同時に同定し,それに従って物理インフォームドトレーニング損失を重み付けすることにより,外部解を必要とせずに前方および逆解を同時に近似する。 ランダムなチェビシェフ級数を用いて、ガウス過程を事前に近似する方法を概説し、サロゲートを用いて後方分布からのサンプルにハミルトニアンモンテカルロ(hmc)を適用する。 我々は、我々の適応損失がゼロに近づくにつれて、ヘリンガー計量の真の後方分布へのサロゲートの収束を導出する。 さらに,このサロゲート加速 HMC アプローチを従来の PDE ソルバと組み合わせて,a-priori による後部精度の制御を行う方法についても述べる。 これは、非凸トレーニングのために保証された精度のa-prioriを達成できないディープラーニングベースのサロゲートアプローチの大きな制限を克服する。 バイオト数計算は, 安全性が重要であり, 高度に制御されたターボ機械設計に関係しているため, このような数学的保証が重要である。 提案手法は,従来のPDEソルバの収束保証を維持しつつ,高次元での高速な混合を実現する。 実データとシミュレーションデータを用いて数値計算を行う。

We introduce a deep learning accelerated methodology to solve PDE-based Bayesian inverse problems with guaranteed accuracy. This is motivated by the ill-posed problem of inferring a spatio-temporal heat-flux parameter known as the Biot number given temperature data, however the methodology is generalisable to other settings. To accelerate Bayesian inference, we develop a novel training scheme that uses data to adaptively train a neural-network surrogate simulating the parametric forward model. By simultaneously identifying an approximate posterior distribution over the Biot number, and weighting a physics-informed training loss according to this, our approach approximates forward and inverse solution together without any need for external solves. Using a random Chebyshev series, we outline how to approximate a Gaussian process prior, and using the surrogate we apply Hamiltonian Monte Carlo (HMC) to sample from the posterior distribution. We derive convergence of the surrogate posterior to the true posterior distribution in the Hellinger metric as our adaptive loss approaches zero. Additionally, we describe how this surrogate-accelerated HMC approach can be combined with traditional PDE solvers in a delayed-acceptance scheme to a-priori control the posterior accuracy. This overcomes a major limitation of deep learning-based surrogate approaches, which do not achieve guaranteed accuracy a-priori due to their non-convex training. Biot number calculations are involved in turbo-machinery design, which is safety critical and highly regulated, therefore it is important that our results have such mathematical guarantees. Our approach achieves fast mixing in high dimensions whilst retaining the convergence guarantees of a traditional PDE solver, and without the burden of evaluating this solver for proposals that are likely to be rejected. Numerical results are given using real and simulated data.
翻訳日:2023-06-07 05:33:42 公開日:2023-06-05
# 確率整合性と公正保証を用いたレコメンダシステムのためのテンソル補完

Tensor Completion with Provable Consistency and Fairness Guarantees for Recommender Systems ( http://arxiv.org/abs/2204.01815v5 )

ライセンス: Link先を確認
Tung Nguyen and Jeffrey Uhlmann(参考訳) 非負・正の行列とテンソル完備問題を定義・解決するための新しい一貫性に基づくアプローチを導入する。 フレームワークの新規性は、問題をアプリケーション・任意最適化問題という形で、人工的に適切に配置する代わりにいる。 例えば 階数やノルムなどのバルク構造的測度を最小化することにより、単元的整合性を維持し、解の存在を保証し、比較的弱い支持仮定の下では、一意性を示す。 フレームワークと解アルゴリズムは任意の次元のテンソルに直接一般化し、固定次元に対して問題サイズで線形な計算複雑性を維持している。 d.レコメンデータ・システム(RS)アプリケーションのコンテキストにおいて,RS問題に対する解決を期待すべき2つの妥当な特性が,我々のフレームワーク内で一意性を保証するのに十分であることを示す。 主要な理論的貢献には、その性質の証明を持つ一般単位整合テンソル補完フレームワークが含まれる。 例えば コンセンサス順序と公正性、最適なランタイムと空間の複雑さを持つアルゴリズム。 例えば 行列/テンソルの既知の項の数で線形である前処理複雑性を伴うo(1)項補完。 現実的な見地から言えば、鍵状態変数間の高次元構造的関係を一般化するためのフレームワークのシームレスな能力である。 例えば ユーザと製品属性は、直接のユーザと製品の関係を超越して一般化できない代替手法において、可能以上の情報を抽出する手段を提供する。 最後に,提案するrs法の許容基準として,コンセンサス順序付け特性を提案する。

We introduce a new consistency-based approach for defining and solving nonnegative/positive matrix and tensor completion problems. The novelty of the framework is that instead of artificially making the problem well-posed in the form of an application-arbitrary optimization problem, e.g., minimizing a bulk structural measure such as rank or norm, we show that a single property/constraint: preserving unit-scale consistency, guarantees the existence of both a solution and, under relatively weak support assumptions, uniqueness. The framework and solution algorithms also generalize directly to tensors of arbitrary dimensions while maintaining computational complexity that is linear in problem size for fixed dimension d. In the context of recommender system (RS) applications, we prove that two reasonable properties that should be expected to hold for any solution to the RS problem are sufficient to permit uniqueness guarantees to be established within our framework. Key theoretical contributions include a general unit-consistent tensor-completion framework with proofs of its properties, e.g., consensus-order and fairness, and algorithms with optimal runtime and space complexities, e.g., O(1) term-completion with preprocessing complexity that is linear in the number of known terms of the matrix/tensor. From a practical perspective, the seamless ability of the framework to generalize to exploit high-dimensional structural relationships among key state variables, e.g., user and product attributes, offers a means for extracting significantly more information than is possible for alternative methods that cannot generalize beyond direct user-product relationships. Finally, we propose our consensus ordering property as an admissibility criterion for any proposed RS method.
翻訳日:2023-06-07 05:32:49 公開日:2023-06-05
# ダイヤモンド中の窒素空白中心を用いた量子分極による1つまたは2つのエミッタの全光決定

All-optical determination of one or two emitters using quantum polarization with nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2203.16101v2 )

ライセンス: Link先を確認
Davin Yue Ming Peng, Josef G. Worboys, Qiang Sun, Shuo Li, Marco Capelli, Shinobu Onoda, Takeshi Ohshima, Philipp Reineck, Brant C. Gibson, and Andrew D. Greentree(参考訳) ダイヤモンド中の窒素空白色中心を用いた量子ビット技術は、回折制限領域内のエミッタ数とその向きを含む、中心の正確な知識を必要とする。 しかし、エミッターの数は、量子プロトコルの精度に影響を与える背景が有限であるかどうかを決定するのが困難である。 ここでは光ルミネッセンス(PL)強度と量子相関(Hanbury Brown and Twiss)の測定を1と2のエミッター系の偏光関数として示す。 試料は低濃度のアデニン(C5H5N5)を低窒素化学気相沈着ダイヤモンドに注入した。 このアプローチは、窒素空洞中心がほとんどない十分な空間領域を生み出した。 PL強度と量子相関を偏光関数としてマッピングすることにより、2つのエミッタ系を背景を持つ単一エミッタと区別することができる。 このアプローチはまた、量子センシング、通信、計算タスクに有用な1つまたは2つのエミッタシステムを決定するための貴重な新しい全光学機構を提供する。

Qubit technologies using nitrogen-vacancy color centers in diamonds require precise knowledge of the centers, including the number of emitters within a diffraction-limited spot and their orientations. However, the number of emitters is challenging to determine when there is finite background, which affects the precision of resulting quantum protocols. Here we show the photoluminescence (PL) intensity and quantum correlation (Hanbury Brown and Twiss) measurements as a function of polarization for one- and two-emitter systems. The sample was made by implanting low concentrations of adenine (C5H5N5) into a low nitrogen chemical vapor deposition diamond. This approach yielded well-spaced regions with few nitrogen-vacancy centers. By mapping the PL intensity and quantum correlation as a function of polarization, we can distinguish two emitter systems from single emitters with background, providing a method to quantify the background signal at implanted sites, which might be different from off-site background levels. This approach also provides a valuable new all-optical mechanism for the determination of one or two emitter systems useful for quantum sensing, communication, and computation tasks.
翻訳日:2023-06-07 05:31:19 公開日:2023-06-05
# 言語異方性言語間モデル編集

Language Anisotropic Cross-Lingual Model Editing ( http://arxiv.org/abs/2205.12677v2 )

ライセンス: Link先を確認
Yang Xu, Yutai Hou, Wanxiang Che, Min Zhang(参考訳) 多言語事前学習された言語モデルは、タスク固有の能力や、複数の言語にまたがる事実を記憶することができるが、必然的に特定の入力で望ましくない予測を行う。 同様の観察の下で、モデル編集はモデルの生の振る舞いを保ちながら、特定の入力をターゲットとしたモデルのキャリブレーション後キャリブレーションを目的としている。 しかし、既存の研究は、言語間で同時に編集を行うクロスリンガルトランスファー性に欠ける単言語シナリオのみを研究している。 本稿では,言語間モデル編集に焦点をあてる。 まず、言語間モデル編集タスクと対応するメトリクスを定義し、ある言語での編集が他の言語に伝達されるようにします。 次に,並列コーパスを用いた単言語モデル編集手法を言語間シナリオに適用する枠組みを提案する。 さらに,言語毎に異なるパラメータのサブセットを増幅することにより,言語間編集を改善する言語異方性編集を提案する。 新たに定義された言語間モデル編集タスクにおいて,複数言語への編集の伝達における単言語ベースラインの失敗と,提案する言語異方性モデル編集の有効性を実証的に示す。 私たちのコードはhttps://github.com/franklear/limeで公開されています。

Multilingual pre-trained language models can learn task-specific abilities or memorize facts across multiple languages but inevitably make undesired predictions with specific inputs. Under similar observation, model editing aims to post-hoc calibrate a model targeted to specific inputs with keeping the model's raw behavior. However, existing work only studies the monolingual scenario, which lacks the cross-lingual transferability to perform editing simultaneously across languages. In this work, we focus on cross-lingual model editing. Firstly, we define the cross-lingual model editing task and corresponding metrics, where an edit in one language propagates to the others. Next, we propose a framework to naturally adapt monolingual model editing approaches to the cross-lingual scenario using parallel corpus. Further, we propose language anisotropic editing to improve cross-lingual editing by amplifying different subsets of parameters for each language. On the newly defined cross-lingual model editing task, we empirically demonstrate the failure of monolingual baselines in propagating the edit to multiple languages and the effectiveness of the proposed language anisotropic model editing. Our code is publicly available at https://github.com/franklear/LiME.
翻訳日:2023-06-07 05:22:57 公開日:2023-06-05
# 非古典性及び保全法の時限証人

Temporal witnesses of non-classicality and conservation laws ( http://arxiv.org/abs/2205.00198v3 )

ライセンス: Link先を確認
Giuseppe Di Pietra, Chiara Marletto(参考訳) 一般の絡み合いに基づく非古典性の目撃者が最近提案され、重力における量子効果のテストに応用できる。 この証人は、2つの量子プローブ間の絡み合いを媒介する。 本稿では, 媒体の非古典性を評価するために単一量子プローブを用いて, この証人の「時間的」変種を提案する。 量子論の形式論において、系 $m$ が、保存則の存在下で、量子系 $q$ のコヒーレントな力学進化を誘導できるならば、$m$ は非古典的でなければならない。 この議論は、特に量子重力や量子生物学において、多くのオープンな問題に適用できる単一の量子プローブに依存する非古典性の証人を支持する。

A general entanglement-based witness of non-classicality has recently been proposed, which can be applied to testing quantum effects in gravity. This witness is based on generating entanglement between two quantum probes via a mediator. In this paper we provide a "temporal" variant of this witness, using a single quantum probe to assess the non-classicality of the mediator. Within the formalism of quantum theory, we show that if a system $M$ is capable of inducing a coherent dynamical evolution of a quantum system $Q$, in the presence of a conservation law, then $M$ must be non-classical. This argument supports witnesses of non-classicality relying on a single quantum probe, which can be applied to a number of open issues, notably in quantum gravity or quantum biology.
翻訳日:2023-06-07 05:21:32 公開日:2023-06-05
# CLIP-Dissect:ディープビジョンネットワークにおけるニューロン表現の自動記述

CLIP-Dissect: Automatic Description of Neuron Representations in Deep Vision Networks ( http://arxiv.org/abs/2204.10965v5 )

ライセンス: Link先を確認
Tuomas Oikarinen, Tsui-Wei Weng(参考訳) 本稿では,視覚ネットワーク内の個々の隠れニューロンの機能を自動的に記述する新しい手法であるCLIP-Dissectを提案する。 CLIP-Dissectは、マルチモーダル視覚/言語モデルの最近の進歩を活用して、ラベル付きデータや人間の例を必要とせずに、内部ニューロンをオープンな概念でラベル付けする。 この結果から,CLIP-Dissectは最終層ニューロンに対する既存の方法よりも正確な記述と,隠れ層ニューロンに対する質的によい記述を提供することがわかった。 さらに,本手法は非常に柔軟であり,モデル非依存であり,新しい概念を容易に扱えるとともに,将来より優れたマルチモーダルモデルを活用するために拡張することができる。 最後にclip-dissectは計算効率が高く、resnet-50の5つの層からすべてのニューロンをわずか4分でラベル付けできる。 私たちのコードはhttps://github.com/Trustworthy-ML-Lab/CLIP-dissect.comで公開されています。 最後に,appendix bではクラウドソーシングによるユーザ調査の結果が得られ,提案手法の有効性をさらに支援する。

In this paper, we propose CLIP-Dissect, a new technique to automatically describe the function of individual hidden neurons inside vision networks. CLIP-Dissect leverages recent advances in multimodal vision/language models to label internal neurons with open-ended concepts without the need for any labeled data or human examples. We show that CLIP-Dissect provides more accurate descriptions than existing methods for last layer neurons where the ground-truth is available as well as qualitatively good descriptions for hidden layer neurons. In addition, our method is very flexible: it is model agnostic, can easily handle new concepts and can be extended to take advantage of better multimodal models in the future. Finally CLIP-Dissect is computationally efficient and can label all neurons from five layers of ResNet-50 in just 4 minutes, which is more than 10 times faster than existing methods. Our code is available at https://github.com/Trustworthy-ML-Lab/CLIP-dissect. Finally, crowdsourced user study results are available at Appendix B to further support the effectiveness of our method.
翻訳日:2023-06-07 05:21:19 公開日:2023-06-05
# XAudit : 説明を伴う監査に関する理論的考察

XAudit : A Theoretical Look at Auditing with Explanations ( http://arxiv.org/abs/2206.04740v3 )

ライセンス: Link先を確認
Chhavi Yadav, Michal Moshkovitz, Kamalika Chaudhuri(参考訳) 機械学習の責任ある利用には、望ましくないプロパティの監査が必要である。 監査のために説明を用いた研究が提案されているが、その方法と理由が比較的誤解されている。 この研究は、監査における説明の役割を形式化し、モデル説明が監査に役立つかどうかを調査する。 具体的には,線形分類器と決定木を特徴の感度のために監査するための説明に基づくアルゴリズムを提案する。 以上の結果から,反事実説明は監査に極めて有用であることが示された。 アンカーと意思決定パスは最悪のケースではそれほど役に立たないかもしれないが、平均的なケースでは大きな助けになる。

Responsible use of machine learning requires models to be audited for undesirable properties. While a body of work has proposed using explanations for auditing, how to do so and why has remained relatively ill-understood. This work formalizes the role of explanations in auditing and investigates if and how model explanations can help audits. Specifically, we propose explanation-based algorithms for auditing linear classifiers and decision trees for feature sensitivity. Our results illustrate that Counterfactual explanations are extremely helpful for auditing. While Anchors and decision paths may not be as beneficial in the worst-case, in the average-case they do aid a lot.
翻訳日:2023-06-07 05:14:53 公開日:2023-06-05
# オフポリティディープ強化学習におけるアクションノイズ:探索と性能への影響

Action Noise in Off-Policy Deep Reinforcement Learning: Impact on Exploration and Performance ( http://arxiv.org/abs/2206.03787v3 )

ライセンス: Link先を確認
Jakob Hollenstein, Sayantan Auddy, Matteo Saveriano, Erwan Renaudo, Justus Piater(参考訳) 多くのDeep Reinforcement Learning (D-RL)アルゴリズムは、連続制御ドメインでよく使われる付加的なアクションノイズのような単純な探索形式に依存している。 通常、この動作ノイズのスケーリング係数はハイパーパラメータとして選択され、トレーニング中に一定に保たれる。 本稿では,連続制御のためのオフポリシー深層強化学習における動作ノイズに着目した。 我々は,学習方針が騒音タイプ,騒音スケール,影響スケーリング要因低減スケジュールにどのように影響するかを分析する。 ガウスノイズとオルンシュタイン・ウレンベックノイズの2つの最も顕著なタイプの動作雑音を考察し,ノイズタイプとスケールパラメータを体系的に変化させ,探索中に期待される方針の回帰や状態空間のカバレッジといった興味のある変数を測定することによって,膨大な実験キャンペーンを行う。 後者では、前述した測度よりも、状態空間境界に近い点によって生じるアーティファクトを推定するために、より堅牢な新しい状態空間カバレッジ尺度 $\operatorname{X}_{\mathcal{U}\text{rel}}$を提案する。 大きなノイズスケールは一般に状態空間のカバレッジを増加させる。 しかし,大きな騒音スケールで空間範囲を増加させることは,しばしば有益ではないことがわかった。 一方、学習過程におけるノイズスケールの低減は、ばらつきを低減し、学習性能を全般的に向上させる。 提案手法では, 最適騒音タイプとスケールは環境依存であり, 以上の最適化のための出発点として行動騒音の選択を導くためのヒューリスティックルールを導出する。

Many Deep Reinforcement Learning (D-RL) algorithms rely on simple forms of exploration such as the additive action noise often used in continuous control domains. Typically, the scaling factor of this action noise is chosen as a hyper-parameter and is kept constant during training. In this paper, we focus on action noise in off-policy deep reinforcement learning for continuous control. We analyze how the learned policy is impacted by the noise type, noise scale, and impact scaling factor reduction schedule. We consider the two most prominent types of action noise, Gaussian and Ornstein-Uhlenbeck noise, and perform a vast experimental campaign by systematically varying the noise type and scale parameter, and by measuring variables of interest like the expected return of the policy and the state-space coverage during exploration. For the latter, we propose a novel state-space coverage measure $\operatorname{X}_{\mathcal{U}\text{rel}}$ that is more robust to estimation artifacts caused by points close to the state-space boundary than previously-proposed measures. Larger noise scales generally increase state-space coverage. However, we found that increasing the space coverage using a larger noise scale is often not beneficial. On the contrary, reducing the noise scale over the training process reduces the variance and generally improves the learning performance. We conclude that the best noise type and scale are environment dependent, and based on our observations derive heuristic rules for guiding the choice of the action noise as a starting point for further optimization.
翻訳日:2023-06-07 05:14:44 公開日:2023-06-05
# Tutel: スケールでの適応的な混合処理

Tutel: Adaptive Mixture-of-Experts at Scale ( http://arxiv.org/abs/2206.03382v2 )

ライセンス: Link先を確認
Changho Hwang, Wei Cui, Yifan Xiong, Ziyue Yang, Ze Liu, Han Hu, Zilong Wang, Rafael Salas, Jithin Jose, Prabhat Ram, Joe Chau, Peng Cheng, Fan Yang, Mao Yang, Yongqiang Xiong(参考訳) 深層学習モデルを数兆以上のパラメータに拡張するために、計算コストの固定化が広く行われている。 MoEのアルゴリズム性能は、それぞれの入力トークンを適切なサブモデルやエキスパートに転送するトークンルーティング機構に依存している。 トークンルーティングは実行時に専門家のワークロード量を動的に決定するが、既存のシステムは静的並列処理やパイプライニングといった静的実行による非効率な計算に苦しむ。 我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。 FlexはMoEモデルパラメータと入力データを分散するための同じレイアウトを設計しており、数学的に不等式やテンソルマイグレーションのオーバーヘッドを伴わずに、あらゆる可能な並列性やパイプライニングメソッドによって活用することができる。 これにより、アダプティブ並列処理/パイプライニングをランタイム中にゼロコストで最適化できる。 このキー設計に基づいて、flexは様々なmoeアクセラレーション技術も実装しています。 すべてのテクニックを集約し、Flexは最終的に16以上のMoE層と2,048 A100 GPUの任意のスケールの4.96倍と5.75倍のスピードアップを実現した。 我々はflexがswinv2-moeという実世界のmoeベースのモデルを効率的かつ効果的に実行することを示した。 効率性では、FlexはSwinV2-MoEを加速し、Fairseqでのトレーニングで最大1.55倍と2.11倍のスピードアップを達成する。 有効性について、swainv2-moeモデルは、cocoオブジェクト検出のような事前訓練とダウンストリームのコンピュータビジョンタスクの両方において、対応する高密度モデルよりも優れた精度を達成し、エンドツーエンドのモデルトレーニングと推論のためのflexの即応性を示している。

Sparsely-gated mixture-of-experts (MoE) has been widely adopted to scale deep learning models to trillion-plus parameters with fixed computational cost. The algorithmic performance of MoE relies on its token routing mechanism that forwards each input token to the right sub-models or experts. While token routing dynamically determines the amount of expert workload at runtime, existing systems suffer inefficient computation due to their static execution, namely static parallelism and pipelining, which does not adapt to the dynamic workload. We present Flex, a highly scalable stack design and implementation for MoE with dynamically adaptive parallelism and pipelining. Flex designs an identical layout for distributing MoE model parameters and input data, which can be leveraged by all possible parallelism or pipelining methods without any mathematical inequivalence or tensor migration overhead. This enables adaptive parallelism/pipelining optimization at zero cost during runtime. Based on this key design, Flex also implements various MoE acceleration techniques. Aggregating all techniques, Flex finally delivers huge speedup at any scale -- 4.96x and 5.75x speedup of a single MoE layer over 16 and 2,048 A100 GPUs, respectively, over the previous state-of-the-art. Our evaluation shows that Flex efficiently and effectively runs a real-world MoE-based model named SwinV2-MoE, built upon Swin Transformer V2, a state-of-the-art computer vision architecture. On efficiency, Flex accelerates SwinV2-MoE, achieving up to 1.55x and 2.11x speedup in training and inference over Fairseq, respectively. On effectiveness, the SwinV2-MoE model achieves superior accuracy in both pre-training and down-stream computer vision tasks such as COCO object detection than the counterpart dense model, indicating the readiness of Flex for end-to-end real-world model training and inference.
翻訳日:2023-06-07 05:14:11 公開日:2023-06-05
# 不完全画像データ応用のためのテンソル次元減少に基づく予測モデル

A Supervised Tensor Dimension Reduction-Based Prognostics Model for Applications with Incomplete Imaging Data ( http://arxiv.org/abs/2207.11353v2 )

ライセンス: Link先を確認
Chengyu Zhou and Xiaolei Fang(参考訳) 本稿では,画像に基づく予測モデルにおいて2つのアドバンテージを有するテンソルデータの教師付き次元縮小手法を提案する。 第一に、このモデルは、アプリケーションを不完全なデータに拡張するテンソルデータを完結させる必要がない。 第二に、TTF(Time-to-failure)を用いて低次元特徴の抽出を監督し、抽出した特徴をその後の予後に有効にする。 さらに,パラメータ推定のための最適化アルゴリズムを提案し,特定の分布の下で閉形式解を導出する。

This paper proposes a supervised dimension reduction methodology for tensor data which has two advantages over most image-based prognostic models. First, the model does not require tensor data to be complete which expands its application to incomplete data. Second, it utilizes time-to-failure (TTF) to supervise the extraction of low-dimensional features which makes the extracted features more effective for the subsequent prognostic. Besides, an optimization algorithm is proposed for parameter estimation and closed-form solutions are derived under certain distributions.
翻訳日:2023-06-07 05:03:43 公開日:2023-06-05
# 散逸結合系におけるホモダイン検出による非線形センサの感度向上

Enhancing the sensitivity of nonlinearity sensors through homodyne detection in dissipatively coupled systems ( http://arxiv.org/abs/2207.09261v2 )

ライセンス: Link先を確認
Dianzhen Cui, Jianning Li, Fude Li, Zhi-Cheng Shi, X. X. Yi(参考訳) 本稿では,キャビティ場の振幅次数を均質化することにより,非線形性に対する量子システムの感度を高める新しいセンシング機構を提案する。 このシステムは、2つの散逸結合キャビティモードから成り、1つは1光子と2光子駆動の対象となる。 2光子駆動強度の低い状態において、システムのスペクトルは実際のスペクトル特異点を取得する。 この特異性はシステムの2光子駆動と非線形性に非常に敏感であり、従来の非線形性センサと比較して、提案センサは特異性点周辺の前例のない感度を達成する。 また、このスキームは製造不完全に対して頑健である。 この研究は量子センサーの新たな道を開き、精密な測定や量子気象学など、多くの分野の応用を見出すことができる。

In this manuscript, we propose a new sensing mechanism to enhance the sensitivity of a quantum system to nonlinearities by homodyning the amplitude quadrature of the cavity field. The system consists of two dissipatively coupled cavity modes, one of which is subject to single- and two-photon drives. In the regime of low two-photon driving strength, the spectrum of the system acquires a real spectral singularity. We find that this singularity is very sensitive to the two-photon drive and nonlinearity of the system, and compared to the previous nonlinearity sensor, the proposed sensor achieves an unprecedented sensitivity around the singularity point. Moreover, the scheme is robust against fabrication imperfections. This work would open a new avenue for quantum sensors, which could find applications in many fields, such as the precise measurement and quantum metrology.
翻訳日:2023-06-07 05:03:14 公開日:2023-06-05
# パッシブ量子測定:到着時間、量子ゼノ効果、ギャンブラーの誤り

Passive quantum measurement: Arrival time, quantum Zeno effect and gambler's fallacy ( http://arxiv.org/abs/2207.09140v3 )

ライセンス: Link先を確認
Tajron Juri\'c, Hrvoje Nikoli\'c(参考訳) 古典的な測定は、測定されたシステムの物理的性質に影響を与えないという意味で、受動的である。 通常、量子測定はその意味で受動的ではない。 しかし、無限次元ヒルベルト空間において、量子射影計測は有限次元ヒルベルト空間では不可能であるような方法でパッシブであることが分かる。 具体的には、エルミート・ハミルトニアンの期待値は無限次元ヒルベルト空間の虚部を持つことができ、そのような虚部は量子ゼノ効果を避ける可能性を示唆しており、量子到達実験で物理的に実現することができる。 量子ゼノ効果の回避は、ギャンブラーの誤りの量子バージョンを避けることも理解でき、物理的性質に影響を与えずに物理系に関する情報を更新するパッシブ量子測定の概念へと繋がる。 粒子の到達時間確率分布は、その確率電流のフラックスによって与えられる。 可能な負のフラックスは、全く到着しない状態に対応し、物理的には粒子が到着するよりも出発する状態として理解される。

Classical measurements are passive, in the sense that they do not affect the physical properties of the measured system. Normally, quantum measurements are not passive in that sense. In the infinite dimensional Hilbert space, however, we find that quantum projective measurement can be passive in a way which is impossible in finite dimensional Hilbert spaces. Specifically, we find that expectation value of a hermitian Hamiltonian can have an imaginary part in the infinite dimensional Hilbert space and that such an imaginary part implies a possibility to avoid quantum Zeno effect, which can physically be realized in quantum arrival experiments. The avoidance of quantum Zeno effect can also be understood as avoidance of a quantum version of gambler's fallacy, leading to the notion of passive quantum measurement that updates information about the physical system without affecting its physical properties. The arrival time probability distribution of a particle is found to be given by the flux of the probability current. Possible negative fluxes correspond to regimes at which there is no arrival at all, physically understood as regimes at which the particle departs rather than arrives.
翻訳日:2023-06-07 05:03:00 公開日:2023-06-05
# swinトランスフォーマによる深部強化学習

Deep Reinforcement Learning with Swin Transformers ( http://arxiv.org/abs/2206.15269v2 )

ライセンス: Link先を確認
Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad(参考訳) トランスフォーマー(Transformer)は,複数レイヤの自己認識ヘッドを利用するニューラルネットワークモデルであり,自然言語処理タスクにおいて大きな可能性を秘めている。 一方、Vision TransformersやSwin Transformersなど、機械学習の視覚タスクにトランスフォーマーを適用する取り組みも行われている。 一部の研究者は強化学習タスクにVision Transformerを使用しているが、高い計算コストのために実験は小規模のままである。 一方、大規模な実験では、視覚トランスフォーマーのコストを削減する技術に頼らざるを得ず、その結果は劣る。 この課題に対処するために,本稿では,Swin Transformers: Swin DQNをベースとしたオンライン強化学習スキームについて紹介する。 Swin Transformersは、画像ピクセルのグループを小さなパッチに分割し、固定サイズの(シフトした)ウィンドウ内でローカルな自己注意操作を適用することで、ニューラルネットワークのバックボーンとして期待されている。 彼らはベンチマークで最先端のパフォーマンスを実証した。 既存の研究とは対照的に、我々の新しいアプローチは計算コストを削減し、性能を大幅に向上させる。 アーケード学習環境における49のゲーム実験において,優れた性能を示す。 その結果、ダブルdqnのswinトランスフォーマを用いて、49ゲーム中45ゲーム中92%、平均評価スコアが49ゲーム中40ゲーム中82%において、ベースライン法より有意に高い最大評価スコアが得られることがわかった。

Transformers are neural network models that utilize multiple layers of self-attention heads and have exhibited enormous potential in natural language processing tasks. Meanwhile, there have been efforts to adapt transformers to visual tasks of machine learning, including Vision Transformers and Swin Transformers. Although some researchers use Vision Transformers for reinforcement learning tasks, their experiments remain at a small scale due to the high computational cost. Experiments conducted at a large scale, on the other hand, have to rely on techniques to cut the costs of Vision Transformers, which also yield inferior results. To address this challenge, this article presents the first online reinforcement learning scheme that is based on Swin Transformers: Swin DQN. Swin Transformers are promising as a backbone in neural networks by splitting groups of image pixels into small patches and applying local self-attention operations inside the (shifted) windows of fixed sizes. They have demonstrated state-of-the-art performances in benchmarks. In contrast to existing research, our novel approach is reducing the computational costs, as well as significantly improving the performance. We demonstrate the superior performance with experiments on 49 games in the Arcade Learning Environment. The results show that our approach, using Swin Transformers with Double DQN, achieves significantly higher maximal evaluation scores than the baseline method in 45 of all the 49 games ~92%, and higher mean evaluation scores than the baseline method in 40 of all the 49 games ~82%.
翻訳日:2023-06-07 05:02:12 公開日:2023-06-05
# 生成的特許言語モデルの評価

Evaluating Generative Patent Language Models ( http://arxiv.org/abs/2206.14578v2 )

ライセンス: Link先を確認
Jieh-Sheng Lee(参考訳) 生成言語モデルは、さまざまなドメインにおける人間の記述を支援することを約束している。 本書は,特許ドメインに生成言語モデルを構築し,人間中心の観点からモデル性能を評価することを目的とする。 その視点は、生成的特許言語モデルに基づいて自動補完によって保存できるキーストロークの比率を測定することである。 高い比率は、より多くのキーストロークを節約できるより効果的なモデルを意味する。 このメトリックはモデルパフォーマンスのベンチマークに使用できる。 メトリックは、キーストロークベースではなくトークンベースの従来のマシン中心のメトリクスとは異なる。 モデルサイズに関しては、この写本で構築された最大のモデルは6Bであり、これは特許領域における最先端の技術である。 計量に基づいて、最大のモデルは必ずしも人間中心の計量にとって最善ではないことが分かる。 この発見は、オートコンプリートによる人間の筆記を支援することを目的としている場合、特許領域におけるモデルサイズの増加を維持することは不要であることを意味する。 この研究で、いくつかの特許言語モデルがスクラッチから事前学習されている。 事前訓練されたモデルは将来の研究者向けにリリースされている。 可視化ツールもいくつか用意されている。 特許領域で生成言語モデルを構築することの重要性は、将来の創造性とイノベーションを促進する可能性である。

Generative language models are promising for assisting human writing in various domains. This manuscript aims to build generative language models in the patent domain and evaluate model performance from a human-centric perspective. The perspective is to measure the ratio of keystrokes that can be saved by autocompletion based on generative patent language models. A higher ratio means a more effective model which can save more keystrokes. This metric can be used to benchmark model performance. The metric is different from conventional machine-centric metrics that are token-based instead of keystroke-based. In terms of model size, the largest model built in this manuscript is 6B, which is state-of-the-art in the patent domain. Based on the metric, it is found that the largest model is not necessarily the best for the human-centric metric. The finding means that keeping increasing model sizes in the patent domain might be unnecessary if the purpose is to assist human writing with autocompletion. Several patent language models are pre-trained from scratch in this research. The pre-trained models are released for future researchers. Several visualization tools are also provided. The importance of building a generative language model in the patent domain is the potential to facilitate creativity and innovations in the future.
翻訳日:2023-06-07 05:01:44 公開日:2023-06-05
# 言語記号:人間とロボットの相互作用の実証から取得する手話指

Signs of Language: Embodied Sign Language Fingerspelling Acquisition from Demonstrations for Human-Robot Interaction ( http://arxiv.org/abs/2209.05135v3 )

ライセンス: Link先を確認
Federico Tavella and Aphrodite Galata and Angelo Cangelosi(参考訳) 細かい動きを学習することは、ロボット工学、特にロボットハンドの文脈において難しいトピックである。 この課題の具体例の1つは、ロボットにおける手話の指先獲得である。 本稿では,追加情報なしで映像からデクスタースモータの模倣を学習する手法を提案する。 これを実現するために,まずロボットハンドのurdfモデルを構築し,各関節に1つのアクチュエータを装着した。 トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。 次に,運動模倣のための最先端強化学習アルゴリズム(すなわち近位政策最適化とソフトアクタ-クリティック)を用いて,実演から抽出した動きを再現する方針を訓練する。 基準運動に基づく模倣のための最適ハイパーパラメータ集合を同定する。 最後に,手書き文字に対応する6つのタスクでテストすることで,手法の一般化可能性を示す。 提案手法は,ロボット工学における実世界の応用の可能性を明らかにするとともに,これらの微細な動きを追加情報なしで再現できることを示す。

Learning fine-grained movements is a challenging topic in robotics, particularly in the context of robotic hands. One specific instance of this challenge is the acquisition of fingerspelling sign language in robots. In this paper, we propose an approach for learning dexterous motor imitation from video examples without additional information. To achieve this, we first build a URDF model of a robotic hand with a single actuator for each joint. We then leverage pre-trained deep vision models to extract the 3D pose of the hand from RGB videos. Next, using state-of-the-art reinforcement learning algorithms for motion imitation (namely, proximal policy optimization and soft actor-critic), we train a policy to reproduce the movement extracted from the demonstrations. We identify the optimal set of hyperparameters for imitation based on a reference motion. Finally, we demonstrate the generalizability of our approach by testing it on six different tasks, corresponding to fingerspelled letters. Our results show that our approach is able to successfully imitate these fine-grained movements without additional information, highlighting its potential for real-world applications in robotics.
翻訳日:2023-06-07 04:56:28 公開日:2023-06-05
# 臨床試験における治療効果のある集団の適応的同定:機械学習の課題と解決策

Adaptive Identification of Populations with Treatment Benefit in Clinical Trials: Machine Learning Challenges and Solutions ( http://arxiv.org/abs/2208.05844v2 )

ライセンス: Link先を確認
Alicia Curth and Alihan H\"uy\"uk and Mihaela van der Schaar(参考訳) 確定的臨床試験において,特定の治療の恩恵を受ける患者サブポピュレーションを適応的に同定する問題について検討した。 この種の適応型臨床試験は、バイオ統計学において徹底的に研究されてきたが、今のところ適応性は限定的である。 本稿では,このような設計に関する古典的制約を緩和し,最近の機械学習文献の適応的およびオンライン実験のアイデアを取り入れて,試行をより柔軟かつ効率的にする方法について検討する。 最も重要なのは、亜集団選択問題に特有の特徴があるということです。 (i)通常、予算が限られている場合において、治療効果のあるサブグループ(かつ必ずしも最大の効果を有する単一のサブグループではない)の発見に関心があるもの (ii) 有効性は、平均してサブポピュレーション全体に対してのみ示さなければなりません -- アルゴリズムソリューションを設計する際の興味深い課題と新たなデシデラタを生み出します。 そこで本研究では,AdaGGIとAdaGCPIの2つのメタアルゴリズムを提案する。 我々は、様々なシミュレーションシナリオにおけるパフォーマンスを実証的に調査し、異なる設定の(dis)アドバンタグに対する洞察を導出する。

We study the problem of adaptively identifying patient subpopulations that benefit from a given treatment during a confirmatory clinical trial. This type of adaptive clinical trial has been thoroughly studied in biostatistics, but has been allowed only limited adaptivity so far. Here, we aim to relax classical restrictions on such designs and investigate how to incorporate ideas from the recent machine learning literature on adaptive and online experimentation to make trials more flexible and efficient. We find that the unique characteristics of the subpopulation selection problem -- most importantly that (i) one is usually interested in finding subpopulations with any treatment benefit (and not necessarily the single subgroup with largest effect) given a limited budget and that (ii) effectiveness only has to be demonstrated across the subpopulation on average -- give rise to interesting challenges and new desiderata when designing algorithmic solutions. Building on these findings, we propose AdaGGI and AdaGCPI, two meta-algorithms for subpopulation construction. We empirically investigate their performance across a range of simulation scenarios and derive insights into their (dis)advantages across different settings.
翻訳日:2023-06-07 04:54:52 公開日:2023-06-05
# ワンステップQ-ラーニングによるアクタークリティカルメソッドにおけるオフポリシィバイアスの緩和:新しい補正手法

Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step Q-learning: A Novel Correction Approach ( http://arxiv.org/abs/2208.00755v3 )

ライセンス: Link先を確認
Baturay Saglam, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat(参考訳) オンポリシーと比べ、オフポリシーモデルフリーのディープ強化学習は、予め収集したデータを繰り返し使用することで、データ効率を向上させることができる。 しかし,エージェントの方針の下位分布と収集データとの差が大きくなると,オフ・ポリティカル・ラーニングが困難になる。 この相違を補うために、よく研究された重要度サンプリングと非政治政策勾配技術が提案されたが、通常は長い軌跡の収集を必要とし、勾配の消滅や多くの有用な経験の破棄といった追加の問題を誘発し、最終的には計算複雑性を増大させる。 さらに、連続的なアクションドメインや決定論的ディープニューラルネットワークによって近似されるポリシーへの一般化は厳密に制限されている。 これらの制約を克服するため,我々は,連続制御における不一致の影響を軽減するための新しい政策類似性尺度を提案する。 本手法は,決定論的政策ネットワークに適用可能な適切な一段階オフポリシー補正を提供する。 理論的および実証的研究は、Q-ラーニングと政策最適化における学習率の効果的なスケジュールにより、競合する手法よりも少ないステップで高いリターンを達成し、安全なオフ・ポリシー学習を実現し、最先端の技術を改善することを実証している。

Compared to on-policy counterparts, off-policy model-free deep reinforcement learning can improve data efficiency by repeatedly using the previously gathered data. However, off-policy learning becomes challenging when the discrepancy between the underlying distributions of the agent's policy and collected data increases. Although the well-studied importance sampling and off-policy policy gradient techniques were proposed to compensate for this discrepancy, they usually require a collection of long trajectories and induce additional problems such as vanishing/exploding gradients or discarding many useful experiences, which eventually increases the computational complexity. Moreover, their generalization to either continuous action domains or policies approximated by deterministic deep neural networks is strictly limited. To overcome these limitations, we introduce a novel policy similarity measure to mitigate the effects of such discrepancy in continuous control. Our method offers an adequate single-step off-policy correction that is applicable to deterministic policy networks. Theoretical and empirical studies demonstrate that it can achieve a "safe" off-policy learning and substantially improve the state-of-the-art by attaining higher returns in fewer steps than the competing methods through an effective schedule of the learning rate in Q-learning and policy optimization.
翻訳日:2023-06-07 04:53:34 公開日:2023-06-05
# 量子計測による帯電

Charging by quantum measurement ( http://arxiv.org/abs/2209.13868v2 )

ライセンス: Link先を確認
Jia-shun Yan and Jun Jing(参考訳) 本稿では,使い捨て充電器として機能する補助量子ビットの測定により,量子帯電方式を提案する。 同一の量子ビットのストリームは、最適化間隔の合同ユニタリ進化の後、N+1$レベルの量子電池に順次結合され、射影演算によって測定される。 チャージャー量子ビットが励起状態で準備され、地上で測定された場合、最適化された測定間隔を反復的に更新することにより、その励起(エネルギー)をほぼ完璧にバッテリに転送することができる。 基底状態からすると、バッテリーはより高いエネルギーレベルまで常に充電することができる。 熱状態から始まったバッテリーは、人口反転が測定によって実現された場合、エルゴトロピーとエネルギーのほぼ単位比を、n$以下の測定で達成することもできる。 チャージャー量子ビットが基底状態で準備され励起状態で測定された場合、測定によって抽出された有用な作業は、成功確率がなくなる前に、電池を熱状態から高エルゴトロピー状態に変換することができる。 当社の充電作業は測定値のないものよりも効率的であり、バッテリと充電器の両方で初期コヒーレンスを起動しません。 特に,非平衡系の形成における量子計測が特徴である。

We propose a quantum charging scheme fueled by measurements on ancillary qubits serving as disposable chargers. A stream of identical qubits are sequentially coupled to a quantum battery of $N+1$ levels and measured by projective operations after joint unitary evolutions of optimized intervals. If charger qubits are prepared in excited state and measured on ground state, then their excitations (energy) can be near-perfectly transferred to battery by iteratively updating the optimized measurement intervals. Starting from its ground state, the battery could be constantly charged to an even higher energy level. Starting from a thermal state, the battery could also achieve a near-unit ratio of ergotropy and energy through less than $N$ measurements, when a population inversion is realized by measurements. If charger qubits are prepared in ground state and measured on excited state, useful work extracted by measurements alone could transform the battery from a thermal state to a high-ergotropy state before the success probability vanishes. Our operations in charging are more efficient than those without measurements and do not invoke the initial coherence in both battery and chargers. Particularly, our finding features quantum measurement in shaping nonequilibrium systems.
翻訳日:2023-06-07 04:44:41 公開日:2023-06-05
# 可変キャビティを用いた光子を用いたカスケード逆変換の増幅

Amplification of cascaded downconversion by reusing photons with a switchable cavity ( http://arxiv.org/abs/2209.11668v2 )

ライセンス: Link先を確認
Alexandre Z. Leger, Samridhi Gambhir, Julien L\'eg\`ere and Deny R. Hamel(参考訳) 非古典的な光の状態を効率的に生成し、操作できる能力は、量子光学技術の発展にとって重要な要件である。 近年、カスケード型自然パラメトリックダウンコンバージョンは、量子通信における光子伝達損失を克服し、絡み合った3光子状態と隠蔽されたベルペアを直接生成する方法として、光子前兆を実装するための有望なアプローチであることを示した。 しかし、このプロセスの効率の低さは、基本的な実験以上の適用性には限界がある。 そこで本研究では, 高速スイッチと遅延ループを用いて, カスケードの第2非線形結晶を経由する第1パスで変換できない光子を再利用する手法を提案する。 我々は,増幅率を予測し,実験により検証する理論モデルを構築した。 概念実証装置は、検出された光子三重項の速度を予測通り増加させ、デバイス非依存の量子通信と絡み合った状態生成においてカスケードダウン変換の有用性を劇的に向上させる可能性を実証する。

The ability to efficiently produce and manipulate nonclassical states of light is a critical requirement for the development of quantum optical technologies. In recent years, experiments have demonstrated that cascaded spontaneous parametric down-conversion is a promising approach to implement photon precertification, providing a way to overcome photon transmission losses for quantum communication, as well as to directly produce entangled three-photon states and heralded Bell pairs. However, the low efficiency of this process has so far limited its applicability beyond basic experiments. Here, we propose a scheme to amplify triplet production rates by using a fast switch and a delay loop to reuse photons that fail to convert on the first pass through the cascade's second nonlinear crystal. We construct a theoretical model to predict amplification rates and verify them in an experimental implementation. Our proof-of-concept device increases the rate of detected photon triplets as predicted, demonstrating that the method has the potential to dramatically improve the usefulness of cascaded down-conversion for device-independent quantum communication and entangled state generation.
翻訳日:2023-06-07 04:43:38 公開日:2023-06-05
# PaLI: 共同スケール多言語画像モデル

PaLI: A Jointly-Scaled Multilingual Language-Image Model ( http://arxiv.org/abs/2209.06794v4 )

ライセンス: Link先を確認
Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut(参考訳) 効率的なスケーリングとフレキシブルなタスクインターフェースにより、大きな言語モデルが多くのタスクで優れている。 本稿では,この手法を言語と視覚の融合モデリングに拡張するPaLI(Pathways Language and Image Model)を提案する。 paliは視覚とテキストの入力に基づいてテキストを生成し、このインターフェイスは多くの言語で多くの視覚、言語、マルチモーダルタスクを実行する。 PaLIのトレーニングには、大きなトレーニング済みエンコーダデコーダ言語モデルと視覚変換器(ViT)を利用する。 これにより、既存の能力を活用し、トレーニングのかなりのコストを活用できます。 ビジョンと言語コンポーネントのジョイントスケーリングが重要であることが分かりました。 既存の言語用トランスフォーマーはビジョンモデルよりもはるかに大きいため、4ビリオンパラメータのViT(ViT-e)をトレーニングし、さらに大きな容量のビジョンモデルの利点を定量化する。 PaLIをトレーニングするために、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。 PaLIは、複数の視覚と言語タスク(キャプション、視覚的質問応答、シーンテキスト理解など)において最先端を達成しつつ、シンプルでモジュラーでスケーラブルな設計を維持している。

Effective scaling and a flexible task interface enable large language models to excel at many tasks. We present PaLI (Pathways Language and Image model), a model that extends this approach to the joint modeling of language and vision. PaLI generates text based on visual and textual inputs, and with this interface performs many vision, language, and multimodal tasks, in many languages. To train PaLI, we make use of large pre-trained encoder-decoder language models and Vision Transformers (ViTs). This allows us to capitalize on their existing capabilities and leverage the substantial cost of training them. We find that joint scaling of the vision and language components is important. Since existing Transformers for language are much larger than their vision counterparts, we train a large, 4-billion parameter ViT (ViT-e) to quantify the benefits from even larger-capacity vision models. To train PaLI, we create a large multilingual mix of pretraining tasks, based on a new image-text training set containing 10B images and texts in over 100 languages. PaLI achieves state-of-the-art in multiple vision and language tasks (such as captioning, visual question-answering, scene-text understanding), while retaining a simple, modular, and scalable design.
翻訳日:2023-06-07 04:42:09 公開日:2023-06-05
# 重み付き非対称損失関数を用いたニューラルネットワークモデルの予測間隔

Prediction intervals for neural network models using weighted asymmetric loss functions ( http://arxiv.org/abs/2210.04318v3 )

ライセンス: Link先を確認
Milo Grillo, Yunpeng Han and Agnieszka Werpachowska(参考訳) 本稿では,近似および予測傾向の予測区間(PI)を簡易かつ効率的に生成する手法を提案する。 提案手法は, 重み付き非対称損失関数を用いて, PIの上下境界を, 間隔幅によって決定される重みで推定する。 本稿では,パラメトリド関数に対するPIの導出にどのように拡張できるかを示し,従属変数のPIの予測になぜ有効なのかを論じる。 ニューラルネットワークモデルを用いた実世界の予測タスクにおける提案手法のテストにより,複雑な機械学習シナリオにおいて信頼性の高いpiを生成できることが示された。

We propose a simple and efficient approach to generate prediction intervals (PIs) for approximated and forecasted trends. Our method leverages a weighted asymmetric loss function to estimate the lower and upper bounds of the PIs, with the weights determined by the interval width. We provide a concise mathematical proof of the method, show how it can be extended to derive PIs for parametrised functions and argue why the method works for predicting PIs of dependent variables. The presented tests of the method on a real-world forecasting task using a neural network-based model show that it can produce reliable PIs in complex machine learning scenarios.
翻訳日:2023-06-07 04:35:24 公開日:2023-06-05
# MAMO:細粒度視覚言語表現学習のためのマスク付きマルチモーダルモデリング

MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning ( http://arxiv.org/abs/2210.04183v2 )

ライセンス: Link先を確認
Zijia Zhao, Longteng Guo, Xingjian He, Shuai Shao, Zehuan Yuan, Jing Liu(参考訳) マルチモーダル表現学習は様々な視覚言語タスクにおいて有望な改善を示している。 既存のほとんどの手法は、視覚と言語の間のグローバルレベルのアライメントを構築するのに優れ、効果的なきめ細かい画像とテキストの相互作用を欠いている。 本稿では,細粒度マルチモーダル表現を学習するための複合マスク型マルチモーダルモデリング手法を提案する。 本手法は,画像テキスト入力の共用マスキングを行い,マスキング信号の暗黙的および明示的ターゲットを統合して復元する。 暗黙のターゲットは視覚と言語に対する統一的で不偏の目的を与え、そこでモデルは非マスキーク入力の潜在マルチモーダル表現を予測する。 明示的なターゲットは、画像パッチの運動量視覚的特徴や単語トークンの概念といった高レベルで意味のある情報を復元することで、マルチモーダル表現をさらに強化する。 このようなマスク付きモデリングプロセスを通じて、我々のモデルは微細なマルチモーダル相互作用を学習するだけでなく、高レベルの表現と低レベルの予測ターゲット(画像画素など)のセマンティックギャップを回避し、ゼロショットと微調整の両方でうまく機能するセマンティックにリッチなマルチモーダル表現を生成する。 先行学習モデル(mamo)は,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚接地など,下流の視覚言語タスクにおいて最先端のパフォーマンスを実現する。

Multimodal representation learning has shown promising improvements on various vision-language tasks. Most existing methods excel at building global-level alignment between vision and language while lacking effective fine-grained image-text interaction. In this paper, we propose a jointly masked multimodal modeling method to learn fine-grained multimodal representations. Our method performs joint masking on image-text input and integrates both implicit and explicit targets for the masked signals to recover. The implicit target provides a unified and debiased objective for vision and language, where the model predicts latent multimodal representations of the unmasked input. The explicit target further enriches the multimodal representations by recovering high-level and semantically meaningful information: momentum visual features of image patches and concepts of word tokens. Through such a masked modeling process, our model not only learns fine-grained multimodal interaction, but also avoids the semantic gap between high-level representations and low- or mid-level prediction targets (e.g. image pixels), thus producing semantically rich multimodal representations that perform well on both zero-shot and fine-tuned settings. Our pre-trained model (named MAMO) achieves state-of-the-art performance on various downstream vision-language tasks, including image-text retrieval, visual question answering, visual reasoning, and weakly-supervised visual grounding.
翻訳日:2023-06-07 04:35:12 公開日:2023-06-05
# \textit{spred}:$L_1$ PenaltyをSGDで解決する

\textit{spred}: Solving $L_1$ Penalty with SGD ( http://arxiv.org/abs/2210.01212v3 )

ライセンス: Link先を確認
Liu Ziyin, Zihao Wang(参考訳) 簡単な再パラメータ化と簡単な確率勾配勾配を用いて,$L_1$制約で一般化可能な目的を最小化することを提案する。 我々の提案は、l_1$ペナルティが、重量減衰を伴う微分可能再パラメータ化と同値になるかもしれないという以前のアイデアの直接の一般化である。 提案手法である \textit{spred} が $l_1$ の完全微分可能解法であること、および再パラメータ化トリックが一般の非凸関数に対して完全に ``benign" であることを証明する。 本手法は,(1)高次元空間における関連特徴の探索を含む遺伝子選択タスクを行うためにスパースニューラルネットワークを訓練すること,(2)従来の$l_1$-penalty適用の試みが失敗しているニューラルネットワーク圧縮タスクにおいて有用であることを示す。 概念的には,深層学習と従来の統計学習とのギャップを橋渡しする。

We propose to minimize a generic differentiable objective with $L_1$ constraint using a simple reparametrization and straightforward stochastic gradient descent. Our proposal is the direct generalization of previous ideas that the $L_1$ penalty may be equivalent to a differentiable reparametrization with weight decay. We prove that the proposed method, \textit{spred}, is an exact differentiable solver of $L_1$ and that the reparametrization trick is completely ``benign" for a generic nonconvex function. Practically, we demonstrate the usefulness of the method in (1) training sparse neural networks to perform gene selection tasks, which involves finding relevant features in a very high dimensional space, and (2) neural network compression task, to which previous attempts at applying the $L_1$-penalty have been unsuccessful. Conceptually, our result bridges the gap between the sparsity in deep learning and conventional statistical learning.
翻訳日:2023-06-07 04:33:30 公開日:2023-06-05
# CBLab: スケーラブル交通シミュレーションによる大規模交通制御政策のトレーニング支援

CBLab: Supporting the Training of Large-scale Traffic Control Policies with Scalable Traffic Simulation ( http://arxiv.org/abs/2210.00896v2 )

ライセンス: Link先を確認
Chumeng Liang, Zherui Huang, Yicheng Liu, Zhanyu Liu, Guanjie Zheng, Hanyuan Shi, Kan Wu, Yuhao Du, Fuliang Li, Zhenhui Li(参考訳) トラフィックシミュレーションは、トラフィック制御ポリシーの最適化のためのインタラクティブなデータを提供する。 しかし、既存の交通シミュレータは、スケーラビリティの欠如と入力データの不足により制限されており、実際の大都市道路網のシナリオにおいて、交通シミュレーションから対話的なデータを生成できない。 本稿では,スケーラブルなトラフィックシミュレーションのためのツールキットであるtextbf{C}ity \textbf{B}rain \textbf{Lab}を提案する。 CBLabはCBEngine、CBData、CBScenarioの3つのコンポーネントで構成されている。 CBEngineは大規模交通シミュレーションをサポートする高効率シミュレータである。 CBDataには、世界中の100都市の道路ネットワークデータを含むトラフィックデータセットが含まれている。 また,生の道路網から交通シミュレーションの入力データへのワンクリック変換を行うパイプラインを開発した。 CBEngineとCBDataを組み合わせることで、研究者は実際の大規模都市の道路ネットワークでスケーラブルなトラフィックシミュレーションを実行できる。 そこでCBScenarioは,大規模都市交通に適応可能な交通制御ポリシーをトレーニングし,調整可能な2つのシナリオを対象とした,対話型環境とベンチマークを実装した。 我々の知る限りでは、CBLabは大規模な都市シナリオにおける交通制御ポリシー最適化をサポートする最初のインフラである。 CBLabはCity Brain Challenge @ KDD CUP 2021をサポートしている。 プロジェクトはgithubで入手できる:~\url{https://github.com/citybrainlab/citybrainlab.git}

Traffic simulation provides interactive data for the optimization of traffic control policies. However, existing traffic simulators are limited by their lack of scalability and shortage in input data, which prevents them from generating interactive data from traffic simulation in the scenarios of real large-scale city road networks. In this paper, we present \textbf{C}ity \textbf{B}rain \textbf{Lab}, a toolkit for scalable traffic simulation. CBLab consists of three components: CBEngine, CBData, and CBScenario. CBEngine is a highly efficient simulator supporting large-scale traffic simulation. CBData includes a traffic dataset with road network data of 100 cities all around the world. We also develop a pipeline to conduct a one-click transformation from raw road networks to input data of our traffic simulation. Combining CBEngine and CBData allows researchers to run scalable traffic simulations in the road network of real large-scale cities. Based on that, CBScenario implements an interactive environment and a benchmark for two scenarios of traffic control policies respectively, with which traffic control policies adaptable for large-scale urban traffic can be trained and tuned. To the best of our knowledge, CBLab is the first infrastructure supporting traffic control policy optimization in large-scale urban scenarios. CBLab has supported the City Brain Challenge @ KDD CUP 2021. The project is available on GitHub:~\url{https://github.com/CityBrainLab/CityBrainLab.git}.
翻訳日:2023-06-07 04:33:11 公開日:2023-06-05
# マルチモーダルエンコーダに対するデータ中毒攻撃

Data Poisoning Attacks Against Multimodal Encoders ( http://arxiv.org/abs/2209.15266v2 )

ライセンス: Link先を確認
Ziqing Yang and Xinlei He and Zheng Li and Michael Backes and Mathias Humbert and Pascal Berrang and Yang Zhang(参考訳) 近年、視覚と言語の両方のモダリティを利用して強力なエンコーダを訓練するマルチモーダルモデルが注目されている。 しかし、大規模なラベルのないデータセットから学習することで、モデルが潜在的な中毒攻撃のリスクに晒される可能性があるため、敵はモデルのトレーニングデータを混乱させ、悪意のある行動を引き起こすことを目指している。 これまでの研究とは対照的に, 視覚的モダリティに限って, 視覚的モダリティと言語的モダリティの両方において, マルチモーダルモデルに対する中毒攻撃を研究するための第一歩を踏み出した。 具体的には,(1) 言語的モダリティは毒殺攻撃にも弱いか,という2つの問いに答えることに焦点を当てる。 そして、(2)どのモダリティが最も脆弱か? そこで本研究では,マルチモーダルモデルに対する3種類の毒殺攻撃を提案する。 さまざまなデータセットとモデルアーキテクチャに関する広範な評価は、視覚と言語の両方でモデルユーティリティを維持しながら、すべての3つの攻撃が重要な攻撃性能を達成できることを示している。 さらに, 中毒効果は, 異なる形態によって異なることが観察された。 攻撃を緩和するため,前訓練と後訓練の両方の防御策を提案する。 いずれの防御も,モデルの実用性を維持しつつ攻撃性能を著しく低下させることを実証的に示す。

Recently, the newly emerged multimodal models, which leverage both visual and linguistic modalities to train powerful encoders, have gained increasing attention. However, learning from a large-scale unlabeled dataset also exposes the model to the risk of potential poisoning attacks, whereby the adversary aims to perturb the model's training data to trigger malicious behaviors in it. In contrast to previous work, only poisoning visual modality, in this work, we take the first step to studying poisoning attacks against multimodal models in both visual and linguistic modalities. Specially, we focus on answering two questions: (1) Is the linguistic modality also vulnerable to poisoning attacks? and (2) Which modality is most vulnerable? To answer the two questions, we propose three types of poisoning attacks against multimodal models. Extensive evaluations on different datasets and model architectures show that all three attacks can achieve significant attack performance while maintaining model utility in both visual and linguistic modalities. Furthermore, we observe that the poisoning effect differs between different modalities. To mitigate the attacks, we propose both pre-training and post-training defenses. We empirically show that both defenses can significantly reduce the attack performance while preserving the model's utility.
翻訳日:2023-06-07 04:32:52 公開日:2023-06-05
# 3次元視覚接地のためのポイント言語階層アライメントの学習

Learning Point-Language Hierarchical Alignment for 3D Visual Grounding ( http://arxiv.org/abs/2210.12513v3 )

ライセンス: Link先を確認
Jiaming Chen, Weixin Luo, Ran Song, Xiaolin Wei, Lin Ma, Wei Zhang(参考訳) 本稿では,多粒度視覚および言語表現をエンドツーエンドに学習する階層アライメントモデル(HAM)を提案する。 そこで我々は,3次元コンテキストとインスタンスをモデル化するためのキーポイントと提案ポイントを抽出し,単語レベルと文レベルの言語埋め込みを視覚的表現に徐々に整合させることを学習する,文脈変調(PLACM)機構によるポイント言語アライメントを提案する。 本研究では,グローバルフィールドとローカルフィールドの両方にPLACMを適用した空間的多粒性モデリング手法を提案する。 実験結果はHAMの優位性を示し, 視覚的および言語的表現を動的にモデル化できることを示す。 HAMは既存の手法をかなりの差で上回り、2つの公開データセットで最先端のパフォーマンスを達成し、ECCV 2022 ScanReferチャレンジで優勝した。 コードは~\url{https://github.com/PPjmchen/HAM}で入手できる。

This paper presents a novel hierarchical alignment model (HAM) that learns multi-granularity visual and linguistic representations in an end-to-end manner. We extract key points and proposal points to model 3D contexts and instances, and propose point-language alignment with context modulation (PLACM) mechanism, which learns to gradually align word-level and sentence-level linguistic embeddings with visual representations, while the modulation with the visual context captures latent informative relationships. To further capture both global and local relationships, we propose a spatially multi-granular modeling scheme that applies PLACM to both global and local fields. Experimental results demonstrate the superiority of HAM, with visualized results showing that it can dynamically model fine-grained visual and linguistic representations. HAM outperforms existing methods by a significant margin and achieves state-of-the-art performance on two publicly available datasets, and won the championship in ECCV 2022 ScanRefer challenge. Code is available at~\url{https://github.com/PPjmchen/HAM}.
翻訳日:2023-06-07 04:25:57 公開日:2023-06-05
# 機械学習とディープラーニングによるトポロジー最適化: レビュー

Topology Optimization via Machine Learning and Deep Learning: A Review ( http://arxiv.org/abs/2210.10782v2 )

ライセンス: Link先を確認
Seungyeon Shin, Dongju Shin, Namwoo Kang(参考訳) トポロジー最適化(TO)は、設計領域内の与えられた負荷と境界条件を満たす最適な設計を導出する手法である。 この方法は初期設計なしで効果的な設計を可能にするが、計算コストが高いため使用が制限されている。 同時に、ディープラーニングを含む機械学習(ML)手法は21世紀に大きく進歩し、TOにMLを適用することで効果的かつ迅速な最適化を実現するために多くの研究がなされている。 そこで本研究では,MLベースのTO(MLTO)に関する過去の研究をレビューし,分析する。 MLTOの2つの異なる視点は、(1)TOと(2)MLの視点をレビューするために使用される。 TOパースペクティブは、なぜToのためにMLを使用するのか、MLパースペクティブは、TOにMLを適用するための"ハウ"に対処する。 また,現在のMLTO研究の限界と今後の研究方向性についても検討した。

Topology optimization (TO) is a method of deriving an optimal design that satisfies a given load and boundary conditions within a design domain. This method enables effective design without initial design, but has been limited in use due to high computational costs. At the same time, machine learning (ML) methodology including deep learning has made great progress in the 21st century, and accordingly, many studies have been conducted to enable effective and rapid optimization by applying ML to TO. Therefore, this study reviews and analyzes previous research on ML-based TO (MLTO). Two different perspectives of MLTO are used to review studies: (1) TO and (2) ML perspectives. The TO perspective addresses "why" to use ML for TO, while the ML perspective addresses "how" to apply ML to TO. In addition, the limitations of current MLTO research and future research directions are examined.
翻訳日:2023-06-07 04:25:11 公開日:2023-06-05
# マルチエージェント強化学習におけるハイブリッド演習による集中訓練

Centralized Training with Hybrid Execution in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.06274v2 )

ライセンス: Link先を確認
Pedro P. Santos, Diogo S. Carvalho, Miguel Vasco, Alberto Sardinha, Pedro A. Santos, Ana Paiva, Francisco S. Melo(参考訳) 本稿では,エージェント間の情報共有を生かして,任意のコミュニケーションレベルを持つ協調作業を実行時に達成することを目的とした,マルチエージェント強化学習(MARL)におけるハイブリッド実行を提案する。 ハイブリッド実行下では、コミュニケーションレベルはエージェント間の通信を許可しない(完全に分散化)設定から、完全な通信を特徴とする(完全に集中化)設定まで様々であるが、エージェントは実行時にどの通信レベルに遭遇するかを事前に知らない。 我々の設定を定式化するために、エージェント間の通信プロセスを明示的にモデル化するハイブリッドPOMDPと呼ばれるマルチエージェント部分観測可能なマルコフ決定プロセス(POMDP)を新たに定義する。 我々は,自動回帰予測モデルを用いて,集中的に訓練したMAROを用いて,実行時の行方不明者の観察を推定する手法を提案する。 我々は、MARLにおける部分観測可能性の負の影響を強調するために、以前のベンチマークの標準シナリオと拡張についてMAROを評価する。 実験の結果,提案手法はベースラインを一貫して上回っており,エージェントが情報共有をうまく活用しながら,通信の誤りを回避できることがわかった。

We introduce hybrid execution in multi-agent reinforcement learning (MARL), a new paradigm in which agents aim to successfully complete cooperative tasks with arbitrary communication levels at execution time by taking advantage of information-sharing among the agents. Under hybrid execution, the communication level can range from a setting in which no communication is allowed between agents (fully decentralized), to a setting featuring full communication (fully centralized), but the agents do not know beforehand which communication level they will encounter at execution time. To formalize our setting, we define a new class of multi-agent partially observable Markov decision processes (POMDPs) that we name hybrid-POMDPs, which explicitly model a communication process between the agents. We contribute MARO, an approach that makes use of an auto-regressive predictive model, trained in a centralized manner, to estimate missing agents' observations at execution time. We evaluate MARO on standard scenarios and extensions of previous benchmarks tailored to emphasize the negative impact of partial observability in MARL. Experimental results show that our method consistently outperforms relevant baselines, allowing agents to act with faulty communication while successfully exploiting shared information.
翻訳日:2023-06-07 04:23:58 公開日:2023-06-05
# リレーショナル蒸留によるリンクレスリンク予測

Linkless Link Prediction via Relational Distillation ( http://arxiv.org/abs/2210.05801v3 )

ライセンス: Link先を確認
Zhichun Guo, William Shiao, Shichang Zhang, Yozen Liu, Nitesh V. Chawla, Neil Shah, Tong Zhao(参考訳) グラフニューラルネットワーク(GNN)はリンク予測のタスクにおいて例外的な性能を示した。 有効性にもかかわらず、非自明な近傍データ依存性によってもたらされる高いレイテンシは、実用的なデプロイメントにおいてGNNを制限する。 逆に、既知の効率的なMLPは、リレーショナル知識の欠如により、GNNよりもはるかに効果が低い。 本稿では,GNN と MLP の利点を組み合わせるために,リンク予測のための直接知識蒸留(KD)手法,すなわち,予測ロジットベースのマッチングとノード表現ベースのマッチングについて検討する。 直接的なKDアナログがリンク予測にうまく機能しないのを観察すると、リンク予測のための知識をMLPで抽出するリレーショナルKDフレームワーク、リンクレスリンク予測(LLP)を提案する。 独立したリンクロジットやノード表現にマッチする単純なKDメソッドとは異なり、LPPは学生のMLPに対する各(アンカー)ノードを中心とした関係知識を蒸留する。 具体的には,相互補完するランクベースマッチングと分布ベースのマッチング戦略を提案する。 大規模な実験では、LPPはMLPのリンク予測性能を著しく向上させ、8ベンチマーク中7ベンチマークにおいて教師のGNNよりも優れていた。 llpはまた、大規模ogbデータセットのgnnと比較してリンク予測の70.68倍のスピードアップを達成している。

Graph Neural Networks (GNNs) have shown exceptional performance in the task of link prediction. Despite their effectiveness, the high latency brought by non-trivial neighborhood data dependency limits GNNs in practical deployments. Conversely, the known efficient MLPs are much less effective than GNNs due to the lack of relational knowledge. In this work, to combine the advantages of GNNs and MLPs, we start with exploring direct knowledge distillation (KD) methods for link prediction, i.e., predicted logit-based matching and node representation-based matching. Upon observing direct KD analogs do not perform well for link prediction, we propose a relational KD framework, Linkless Link Prediction (LLP), to distill knowledge for link prediction with MLPs. Unlike simple KD methods that match independent link logits or node representations, LLP distills relational knowledge that is centered around each (anchor) node to the student MLP. Specifically, we propose rank-based matching and distribution-based matching strategies that complement each other. Extensive experiments demonstrate that LLP boosts the link prediction performance of MLPs with significant margins, and even outperforms the teacher GNNs on 7 out of 8 benchmarks. LLP also achieves a 70.68x speedup in link prediction inference compared to GNNs on the large-scale OGB dataset.
翻訳日:2023-06-07 04:23:01 公開日:2023-06-05
# POMDPの粒子信念近似のための最適保証

Optimality Guarantees for Particle Belief Approximation of POMDPs ( http://arxiv.org/abs/2210.05015v3 )

ライセンス: Link先を確認
Michael H. Lim, Tyler J. Becker, Mykel J. Kochenderfer, Claire J. Tomlin, Zachary N. Sunberg(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。 しかし、POMDPは、特に状態空間と観測空間が連続的またはハイブリッドである場合、特に物理的システムでは解決が困難である。 観測可能性重み付けを計画した最近のオンラインサンプリングベースPOMDPアルゴリズムは実用的効果を示したが、これらのアルゴリズムが以前提案しなかった粒子フィルタリング手法の近似誤差を特徴付ける一般理論が提案されている。 我々の主な貢献は、任意のPOMDPとその対応する有限サンプル粒子信念 MDP (PB-MDP) 近似の誤差の境界である。 PB-MDP と POMDP の基本的なブリッジにより,対応する粒子信念 MDP を解くことで,サンプリングベースの MDP アルゴリズムを POMDP に適用し,MDP アルゴリズムの収束保証を POMDP に拡張することができる。 実際に, MDPソルバの生成モデルとして, 粒子フィルタの信念遷移モデルを用いてこれを実装した。 これは pomdp からの観測密度モデルへのアクセスを必要とするが、mdp ソルバの遷移サンプリング複雑性を $\mathcal{o}(c)$ で増加させるだけであり、ここで $c$ は粒子の数である。 したがって、スパースサンプリングMDPアルゴリズムと組み合わせることで、状態と観測空間のサイズに直接的な理論的依存を持たないPOMDPのアルゴリズムが得られる。 pb-mdp近似を用いた単純なmdpアルゴリズムであるsparse-pftが,他の有望な連続観測型pomdpソルバと性能的に競合することを実証するために,ベンチマーク pomdp における5つの数値実験を行った。

Partially observable Markov decision processes (POMDPs) provide a flexible representation for real-world decision and control problems. However, POMDPs are notoriously difficult to solve, especially when the state and observation spaces are continuous or hybrid, which is often the case for physical systems. While recent online sampling-based POMDP algorithms that plan with observation likelihood weighting have shown practical effectiveness, a general theory characterizing the approximation error of the particle filtering techniques that these algorithms use has not previously been proposed. Our main contribution is bounding the error between any POMDP and its corresponding finite sample particle belief MDP (PB-MDP) approximation. This fundamental bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP algorithm to a POMDP by solving the corresponding particle belief MDP, thereby extending the convergence guarantees of the MDP algorithm to the POMDP. Practically, this is implemented by using the particle filter belief transition model as the generative model for the MDP solver. While this requires access to the observation density model from the POMDP, it only increases the transition sampling complexity of the MDP solver by a factor of $\mathcal{O}(C)$, where $C$ is the number of particles. Thus, when combined with sparse sampling MDP algorithms, this approach can yield algorithms for POMDPs that have no direct theoretical dependence on the size of the state and observation spaces. In addition to our theoretical contribution, we perform five numerical experiments on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using PB-MDP approximation, Sparse-PFT, achieves performance competitive with other leading continuous observation POMDP solvers.
翻訳日:2023-06-07 04:22:40 公開日:2023-06-05
# 文脈自由文法に基づく階層型ニューラルネットワーク探索空間の構築

Construction of Hierarchical Neural Architecture Search Spaces based on Context-free Grammars ( http://arxiv.org/abs/2211.01842v2 )

ライセンス: Link先を確認
Simon Schrodi, Danny Stoll, Binxin Ru, Rhea Sukthanker, Thomas Brox, Frank Hutter(参考訳) 単純なビルディングブロックからニューラルアーキテクチャを発見することは、Neural Architecture Search(NAS)の長年の目標である。 階層型検索空間は、この目標に向けて有望なステップであるが、統一型検索空間設計フレームワークがなく、アーキテクチャの限られた側面のみを検索する。 本研究では,文脈自由文法に基づく統一的な探索空間設計フレームワークを提案する。このフレームワークは,文献から得られる共通空間よりも100桁大きい表現的階層的探索空間を自然かつコンパクトに生成することができる。 それらの特性の強化と利用により、アーキテクチャ全体の検索を効果的に可能とし、規則性を育むことができる。 さらに,このような巨大な空間を効率的に探索するためのベイズ最適化探索戦略のための効率的な階層的カーネル設計を提案する。 我々は,検索空間設計フレームワークの汎用性を実証し,検索戦略が既存のnasアプローチよりも優れていることを示す。 コードはhttps://github.com/automl/hierarchical_nas_constructionで入手できる。

The discovery of neural architectures from simple building blocks is a long-standing goal of Neural Architecture Search (NAS). Hierarchical search spaces are a promising step towards this goal but lack a unifying search space design framework and typically only search over some limited aspect of architectures. In this work, we introduce a unifying search space design framework based on context-free grammars that can naturally and compactly generate expressive hierarchical search spaces that are 100s of orders of magnitude larger than common spaces from the literature. By enhancing and using their properties, we effectively enable search over the complete architecture and can foster regularity. Further, we propose an efficient hierarchical kernel design for a Bayesian Optimization search strategy to efficiently search over such huge spaces. We demonstrate the versatility of our search space design framework and show that our search strategy can be superior to existing NAS approaches. Code is available at https://github.com/automl/hierarchical_nas_construction.
翻訳日:2023-06-07 04:16:06 公開日:2023-06-05
# ポストプロセッシングによる公平かつ最適分類

Fair and Optimal Classification via Post-Processing ( http://arxiv.org/abs/2211.01528v3 )

ライセンス: Link先を確認
Ruicheng Xian, Lang Yin, Han Zhao(参考訳) 機械学習モデルによって示されるバイアスを軽減するために、公正度基準をトレーニングプロセスに統合して、すべての人口層で公平な待遇を確保することができるが、モデルのパフォーマンスを犠牲にすることが多い。 このようなトレードオフを理解することは、公正なアルゴリズムの設計の基礎となる。 そこで,本稿では,分類問題における階層的パリティの固有のトレードオフを,最も一般的なマルチグループ,マルチクラス,騒がしい設定下で完全に特徴づける。 具体的には、ランダム化および属性認識フェア分類器によって達成可能な最小誤差率は、ワッサーシュタイン・バリセンタ問題の最適値によって与えられることを示す。 実用面では,スコア関数から公正分類器を導出する単純な後処理アルゴリズムを導出し,そのスコアがベイズ最適である場合には最適フェア分類器を得る。 アルゴリズムの最適性解析とサンプル複雑性を提供し,ベンチマークデータセット上での有効性を実証する。

To mitigate the bias exhibited by machine learning models, fairness criteria can be integrated into the training process to ensure fair treatment across all demographics, but it often comes at the expense of model performance. Understanding such tradeoffs, therefore, underlies the design of fair algorithms. To this end, this paper provides a complete characterization of the inherent tradeoff of demographic parity on classification problems, under the most general multi-group, multi-class, and noisy setting. Specifically, we show that the minimum error rate achievable by randomized and attribute-aware fair classifiers is given by the optimal value of a Wasserstein-barycenter problem. On the practical side, our findings lead to a simple post-processing algorithm that derives fair classifiers from score functions, which yields the optimal fair classifier when the score is Bayes optimal. We provide suboptimality analysis and sample complexity for our algorithm, and demonstrate its effectiveness on benchmark datasets.
翻訳日:2023-06-07 04:15:50 公開日:2023-06-05
# 歯科用CBCTデータを用いた視覚変換器を用いたインプラント位置回帰

ImplantFormer: Vision Transformer based Implant Position Regression Using Dental CBCT Data ( http://arxiv.org/abs/2210.16467v2 )

ライセンス: Link先を確認
Xinquan Yang and Xuguang Li and Xuechen Li and Peixi Wu and Linlin Shen and Yongqiang Deng(参考訳) インプラント補綴は歯列欠損や歯列喪失の最も適切な治療であり、通常インプラント位置を決定するための外科的ガイド設計プロセスを必要とする。 しかし、そのようなデザインは歯科医の主観的な経験に大きく依存している。 本稿では, 経口CBCTデータに基づいてインプラント位置の自動予測を行うために, トランスフォーマを用いたインプラント位置回帰ネットワーク, implantFormerを提案する。 歯冠面積の2次元軸方向ビューを用いてインプラント位置を予測し,インプラントの中心線を適合させて実際のインプラント位置を歯根に求めることを創造的に提案する。 畳み込みstemとデコーダはそれぞれ、パッチ埋め込み操作前に画像特徴を粗く抽出し、ロバストな予測のためにマルチレベル特徴マップを統合するように設計されている。 長距離関係とローカル機能の両方が関与しているため、我々のアプローチはグローバルな情報をより良く表現し、より良い位置性能を達成することができる。 5倍のクロスバリデーションにより歯科用インプラントデータセットを広範囲に実験した結果,既存の方法よりも優れた性能が得られた。

Implant prosthesis is the most appropriate treatment for dentition defect or dentition loss, which usually involves a surgical guide design process to decide the implant position. However, such design heavily relies on the subjective experiences of dentists. In this paper, a transformer-based Implant Position Regression Network, ImplantFormer, is proposed to automatically predict the implant position based on the oral CBCT data. We creatively propose to predict the implant position using the 2D axial view of the tooth crown area and fit a centerline of the implant to obtain the actual implant position at the tooth root. Convolutional stem and decoder are designed to coarsely extract image features before the operation of patch embedding and integrate multi-level feature maps for robust prediction, respectively. As both long-range relationship and local features are involved, our approach can better represent global information and achieves better location performance. Extensive experiments on a dental implant dataset through five-fold cross-validation demonstrated that the proposed ImplantFormer achieves superior performance than existing methods.
翻訳日:2023-06-07 04:15:15 公開日:2023-06-05
# ソフトウェア定義ネットワークをテストする失敗モデル学習

Learning Failure-Inducing Models for Testing Software-Defined Networks ( http://arxiv.org/abs/2210.15469v2 )

ライセンス: Link先を確認
Rapha\"el Ollando, Seung Yeob Shin, Lionel C. Briand(参考訳) ソフトウェア定義ネットワーク(SDN)は、集中型ソフトウェアコントローラによって管理される柔軟で効果的な通信システムを実現する。 しかし、そのようなコントローラはSDNベースのシステムの基盤となる通信ネットワークを損なう可能性があるため、慎重にテストする必要がある。 SDNベースのシステムが失敗した場合、そのような障害に対処するためには、エンジニアはそれが起こる条件を正確に理解する必要がある。 本稿では,(1)sdn系システムにおける障害につながる効果的なテストデータの生成,(2)システムが故障した条件を特徴付ける正確な障害誘発モデルの学習を目標とする,fuzzsdnという機械学習誘導ファジング手法を提案する。 我々の知る限り、FuzzSDNはSDNの2つの目的に同時に対処する最初の試みである。 2つのオープンソースSDNコントローラで制御されるシステムにFizzSDNを適用して評価する。 さらに,sdnsをファジングする2つの最先端手法と,障害誘発モデルを学ぶための2つのベースラインと比較した。 その結果,(1)最先端の手法と比較して,FazSDNはファジィングにかなり頑健なコントローラと,(2)故障発生モデルでは平均98%の精度と86%のリコールで,少なくとも12倍の故障を発生し,ベースラインを著しく上回っていることがわかった。

Software-defined networks (SDN) enable flexible and effective communication systems that are managed by centralized software controllers. However, such a controller can undermine the underlying communication network of an SDN-based system and thus must be carefully tested. When an SDN-based system fails, in order to address such a failure, engineers need to precisely understand the conditions under which it occurs. In this article, we introduce a machine learning-guided fuzzing method, named FuzzSDN, aiming at both (1) generating effective test data leading to failures in SDN-based systems and (2) learning accurate failure-inducing models that characterize conditions under which such system fails. To our knowledge, FuzzSDN is the first attempt to simultaneously address these two objectives for SDNs. We evaluate FuzzSDN by applying it to systems controlled by two open-source SDN controllers. Further, we compare FuzzSDN with two state-of-the-art methods for fuzzing SDNs and two baselines for learning failure-inducing models. Our results show that (1) compared to the state-of-the-art methods, FuzzSDN generates at least 12 times more failures, within the same time budget, with a controller that is fairly robust to fuzzing and (2) our failure-inducing models have, on average, a precision of 98% and a recall of 86%, significantly outperforming the baselines.
翻訳日:2023-06-07 04:14:56 公開日:2023-06-05
# スライディング置換不変トレーニングによる各種音源の位置追跡

Position tracking of a varying number of sound sources with sliding permutation invariant training ( http://arxiv.org/abs/2210.14536v2 )

ライセンス: Link先を確認
David Diaz-Guerra, Archontis Politis and Tuomas Virtanen(参考訳) 近年,データおよび学習に基づく音源定位法 (SSL) は,難解な音響シナリオにおいて高い性能を示した。 しかし、このような手法を適用して、実際に起こるような、連続して現れる複数のソースを追跡できるような作業はほとんど行われていない。 本稿では,前回の時間フレームにおける推定位置と参照位置の最適関係の平均2乗誤差に基づいて,簡単な実装による深層学習型SSLモデルのトレーニング戦略を提案する。 トラッキングシステムの望ましい特性を最適化する: 時間変化したソースの処理と、その軌跡に応じて位置推定を順序付けし、IDS(IDS)を最小化する。 複数の残響移動源と2つのモデルアーキテクチャのシミュレーションデータの評価は、フレームワイドのローカライゼーション精度を損なうことなく、アイデンティティスイッチの低減に有効であることを示す。

Recent data- and learning-based sound source localization (SSL) methods have shown strong performance in challenging acoustic scenarios. However, little work has been done on adapting such methods to track consistently multiple sources appearing and disappearing, as would occur in reality. In this paper, we present a new training strategy for deep learning SSL models with a straightforward implementation based on the mean squared error of the optimal association between estimated and reference positions in the preceding time frames. It optimizes the desired properties of a tracking system: handling a time-varying number of sources and ordering localization estimates according to their trajectories, minimizing identity switches (IDSs). Evaluation on simulated data of multiple reverberant moving sources and on two model architectures proves its effectiveness on reducing identity switches without compromising frame-wise localization accuracy.
翻訳日:2023-06-07 04:14:32 公開日:2023-06-05
# 非射影測定による最大絡み合い状態の証明

Certification of the maximally entangled state using non-projective measurements ( http://arxiv.org/abs/2210.14099v2 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 近年、量子状態のデバイスに依存しない認証は、量子情報において集中的に研究されている分野の1つである。 しかし、これら全てのスキームは、実質的に生成が難しい射影計測を利用する。 本研究では,一方のデバイス非依存 (1SDI) シナリオを考察し,非射影測定,特に3つの極端POVMを用いた2ビットの最大絡み合い状態の自己検証手法を提案する。 ホワイトノイズに対する我々の計画の堅牢性も分析する。

In recent times, device-independent certification of quantum states has been one of the intensively studied areas in quantum information. However, all such schemes utilise projective measurements which are practically difficult to generate. In this work, we consider the one-sided device-independent (1SDI) scenario, and propose a self-testing scheme for the two-qubit maximally entangled state using non-projective measurements, in particular, three three-outcome extremal POVM's. We also analyse the robustness of our scheme against white noise.
翻訳日:2023-06-07 04:13:33 公開日:2023-06-05
# スペクトルエンタングル光子における非直交符号化

Nonorthogonal coding in spectrally-entangled photons ( http://arxiv.org/abs/2211.11539v2 )

ライセンス: Link先を確認
N.-Y Tsai and H. H. Jen(参考訳) 絡み合った光子の連続スペクトルモードの制御と工学は、セキュアな量子通信への有望なアプローチの1つである。 原子アンサンブル中のカスケード励起双光子から発生する通信帯域を利用することで、伝送損失が少ないため、繊維ベースの長距離量子通信が可能となる。 多重光子対を用いて、スペクトルモードに非直交符号化方式を実装し、符号ワードの高容量転送を可能にする多重チャネルのアーキテクチャを提案する。 2次相関と関連する可視性およびコントラストの測定値を用いて、提案した非直交符号化方式の性能をさらに定量化する。 本研究は,直交符号化方式を超えて量子情報をエンコード・デコードする能力を示す。 提案手法は大規模かつ多ユーザな量子通信に適用可能であり,効率的な量子情報処理への道を開くことができる。

Controlling and engineering continuous spectral modes of entangled photons represents one of the promising approaches toward secure quantum communications. By using the telecom bandwidth generated from a cascade-emitted biphoton in atomic ensembles, a fiber-based long-distance quantum communication can be feasible owing to its low transmission loss. With multiplexed photon pairs, we propose to implement a nonorthogonal coding scheme in their spectral modes and present an architecture of multiple channels enabling a high-capacity transfer of codewords. Using the measures of the second-order correlations and associated visibility and contrast, we further quantify the performance of the proposed nonorthogonal coding scheme. Our results demonstrate the capability to encode and decode quantum information beyond the orthogonal coding scheme. The proposed scheme here can be applicable to a large-scale and multiuser quantum communication and pave the way toward an efficient and functional quantum information processing.
翻訳日:2023-06-07 04:06:16 公開日:2023-06-05
# パウリ演算子の期待値に基づく量子エンタングルメント測定の導入

Introduction Of Quantum Entanglement Measure Based On The Expectation Values Of Pauli Operators ( http://arxiv.org/abs/2211.08981v3 )

ライセンス: Link先を確認
Mahmood Zeheiry(参考訳) 本稿では, 粒子の分離状態において, 1粒子の計測が第2粒子の測定に影響を与えないことを考えると, アリスとボブは粒子のスピンにおける測定結果が常に最大になる方向を見つけることができることを示す。 言い換えると、粒子の状態は、その方向に適用される作用素の固有状態であり、2つの粒子のスピンの和が最大値を持つことができる。 エンタングル状態において、粒子測定結果が互いに影響するため、アリスとボブは所望の作用素を見つけることができないと論じる。 したがって、測定では、粒子の総スピンは常に上記の最大値よりも小さいが、最も価値の高い方向に測定するように要求する。 この値は分離可能な状態に対して最大であり、完全絡み合い状態においては最小であり、他の州では2つの最大値と最小値の間の絡み合いの程度に比例するので、このパラメータを「分離可能性指数」と呼ぶように設定する。 そして、この指標に基づいて、絡み合いの尺度を導入し、より高い次元の状態に拡張した。 最後に, 量子状態の例, 量子状態の例, 量子状態の例, 量子状態の例を調査し, 測定の効率性を確認した。

In this paper, firstly considering that in separable states, the measurement on one particle has no effect on the measurement of the second particle, we show that Alice and Bob can find directions in which the result of their measurement on the spin of the particle is always maximized. In other word, the state of the particle is a eigenstate for the operator that is applied in that direction, so the sum of the spins of two particles can have a maximum value. We will argue that in entangled states, due to the effect of particle measurement results on each other, Alice and Bob cannot find the desired operators. Therefore, in the measurement, the total spin of the particles will always be less than the mentioned maximum But we ask them to try and measure in directions that will get the most value. Because this value is maximum for separable states and minimum for fully entangled states, and for the rest of the states, it will be proportional to the degree of entanglement between the two maximum and minimum values, we set this parameter as We called it "separability index". Then, based on this index, the measure of entanglement was introduced and extended to states with higher dimensions. In the end, examples of qubit states and di-qubit states and di-qubit states were investigated and the efficiency of the measure was confirmed by the results of the examples.
翻訳日:2023-06-07 04:05:10 公開日:2023-06-05
# 強化学習のロバスト性向上のための因果対策

Causal Counterfactuals for Improving the Robustness of Reinforcement Learning ( http://arxiv.org/abs/2211.05551v3 )

ライセンス: Link先を確認
Tom He, Jasmina Gajcin and Ivana Dusparic(参考訳) 強化学習(rl)は様々なロボットアプリケーションで使われている。 RLにより、エージェントは環境と対話することでタスクを自律的に学習することができる。 タスクがより重要になるほど、rlシステムの堅牢性に対する要求が高まる。 因果RLはRLと因果推論を組み合わせてRLをより堅牢にする。 因果RLエージェントは因果表現を用いて、あるタスクから別のタスクに転送される不変因果機構をキャプチャする。 現在、因果rlの研究は限られており、既存のソリューションは通常、現実のアプリケーションでは完全あるいは実現不可能である。 本稿ではCausal CuriosityとCoPhyのアイデアを取り入れたCausal RLの最初の完全解であるCausalCFを提案する。 Causal Curiosityは介入のアプローチを提供し、CoPhyはRLエージェントが反ファクト処理を実行できるように修正されている。 Causal CuriosityはCausalWorldにおけるロボットの把握と操作に応用されている。 CausalWorldは、TriFingerロボットに基づく現実的なシミュレーション環境を提供する。 複雑なロボットタスクにCausalCFを適用し,CausalWorldを用いてRLエージェントの堅牢性を向上させることを示す。

Reinforcement learning (RL) is used in various robotic applications. RL enables agents to learn tasks autonomously by interacting with the environment. The more critical the tasks are, the higher the demand for the robustness of the RL systems. Causal RL combines RL and causal inference to make RL more robust. Causal RL agents use a causal representation to capture the invariant causal mechanisms that can be transferred from one task to another. Currently, there is limited research in Causal RL, and existing solutions are usually not complete or feasible for real-world applications. In this work, we propose CausalCF, the first complete Causal RL solution incorporating ideas from Causal Curiosity and CoPhy. Causal Curiosity provides an approach for using interventions, and CoPhy is modified to enable the RL agent to perform counterfactuals. Causal Curiosity has been applied to robotic grasping and manipulation tasks in CausalWorld. CausalWorld provides a realistic simulation environment based on the TriFinger robot. We apply CausalCF to complex robotic tasks and show that it improves the RL agent's robustness using CausalWorld.
翻訳日:2023-06-07 04:03:38 公開日:2023-06-05
# 量子カオスと時間の矢印

Quantum chaos and the arrow of time ( http://arxiv.org/abs/2212.03914v5 )

ライセンス: Link先を確認
Nilakash Sorokhaibam(参考訳) 私たちの周りの世界は明らかに時間の矢を持っている。 古典的な熱力学は、美しい統計解釈を持つ熱力学の第2法則の形で時間の矢印を与える。 しかし、時空の矢印の量子的起源の明確な写真は今のところ不足している。 ここでは、量子カオス系において時間矢印が生じることを示す。 カオス的でもある孤立量子系の場合、エントロピーの変化は、系が全般的に摂動しているときに非負であることを示す。 物理系は一般に高度に相互作用し、カオスシステムの良い例である。 我々は,システムの摂動時のエネルギー変化を追跡することで,この結果を示す。 非常に微調整された摂動を用いて、エントロピーを下げることができる。 しかし、摂動を微調整するには、システムの高精度なエネルギー準位を測定する必要がある。 これは古典的熱力学におけるマクスウェルのデーモン問題とそのその後の解法を想起させる。

The world around us distinctly possesses an arrow of time. Classical thermodynamics provides an arrow of time in the form of the second law of thermodynamics which has a beautiful statistical interpretation. But a clear picture of the quantum origin of the arrow of time has been lacking so far. Here we show that an arrow of time arises in quantum chaotic systems. We show that, for an isolated quantum system which is also chaotic, the change in entropy is non-negative when the system is generically perturbed. Physical systems are, in general, highly interacting and are good examples of chaotic systems. We show our result by keeping track of the change in energy when the system is perturbed. Using an extremely fine-tuned perturbation, we can still lower the entropy. But fine-tuning the perturbation requires measurement of highly precise energy levels of the system. This is reminiscent of the Maxwell's demon problem in classical thermodynamics and its subsequent resolution.
翻訳日:2023-06-07 03:57:18 公開日:2023-06-05
# 統計的深層学習による極端地中海山火事の要因と時空間的傾向

Insights into the drivers and spatio-temporal trends of extreme Mediterranean wildfires with statistical deep-learning ( http://arxiv.org/abs/2212.01796v3 )

ライセンス: Link先を確認
Jordan Richards, Rapha\"el Huser, Emanuele Bevacqua, Jakob Zscheischler(参考訳) 極度の山火事は地中海盆地を含む国々における人命と生物多様性の破壊の重要な原因である。 近年の山火事(すなわち発生と拡散)の動向から、山火事は気候変動の影響を強く受けている可能性が示唆されている。 適切なリスク緩和を図るために,地球温暖化が火災活動に与える影響を理解するために,極端に山火事の主な原因を特定し,その時空間的傾向を評価する必要がある。 2001年から2020年にかけて、ヨーロッパと地中海盆地の大半を包含する地域での山火事による毎月の火災地域を分析し、アルジェリア、イタリア、ポルトガルで高い火災活動が確認された。 気象条件,土地被覆利用,オーログラフィーを記述した高次元予測器を用いた極端量子回帰モデルを構築した。 予測変数と山火事の複雑な関係をモデル化するために,水蒸気圧不足(vpd),気温,干ばつが山火事活動に及ぼす影響を解消できるハイブリッド統計ディープラーニングフレームワークを用いた。 以上の結果から,vdd,気温,干ばつは野火発生に大きく影響するが,vddのみが野火散布に影響を及ぼすことが明らかとなった。 近未来の山火事に対する気候トレンドの影響について考察するため,2001年8月と観測された傾向(ヨーロッパ中年:+0.04k/年)による摂動温度に着目した。 これらの傾向は,2001年8月の山火事では, 平均して17.1\%, 1.6\%の増加につながり, 両面とも空間的に不均一な変化がみられた。

Extreme wildfires are a significant cause of human death and biodiversity destruction within countries that encompass the Mediterranean Basin. Recent worrying trends in wildfire activity (i.e., occurrence and spread) suggest that wildfires are likely to be highly impacted by climate change. In order to facilitate appropriate risk mitigation, we must identify the main drivers of extreme wildfires and assess their spatio-temporal trends, with a view to understanding the impacts of global warming on fire activity. We analyse the monthly burnt area due to wildfires over a region encompassing most of Europe and the Mediterranean Basin from 2001 to 2020, and identify high fire activity during this period in Algeria, Italy and Portugal. We build an extreme quantile regression model with a high-dimensional predictor set describing meteorological conditions, land cover usage, and orography. To model the complex relationships between the predictor variables and wildfires, we use a hybrid statistical deep-learning framework that can disentangle the effects of vapour-pressure deficit (VPD), air temperature, and drought on wildfire activity. Our results highlight that whilst VPD, air temperature, and drought significantly affect wildfire occurrence, only VPD affects wildfire spread. To gain insights into the effect of climate trends on wildfires in the near future, we focus on August 2001 and perturb temperature according to its observed trends (median over Europe: +0.04K per year). We find that, on average over Europe, these trends lead to a relative increase of 17.1\% and 1.6\% in the expected frequency and severity, respectively, of wildfires in August 2001, with spatially non-uniform changes in both aspects.
翻訳日:2023-06-07 03:56:34 公開日:2023-06-05
# FDD大規模MIMOにおけるCSIフィードバックのための軽量で柔軟な深度平衡学習

Lightweight and Flexible Deep Equilibrium Learning for CSI Feedback in FDD Massive MIMO ( http://arxiv.org/abs/2211.15079v2 )

ライセンス: Link先を確認
Yifan Ma, Wentao Yu, Xianghao Yu, Jun Zhang, Shenghui Song, Khaled B. Letaief(参考訳) 周波数分割多重化 (fdd) システムでは、ダウンリンクチャネル状態情報 (csi) をユーザによってベースステーション (bs) に送信する必要があるため、制限的なフィードバックオーバーヘッドが発生する。 本稿では,深層平衡モデルを用いて,軽量でフレキシブルな深層学習に基づくcsiフィードバック手法を提案する。 複数の明示的な層を積み重ねる既存のディープラーニング手法と異なり、無限深層ニューラルネットワークの振る舞いを模倣する暗黙の平衡ブロックを提案する。 特に、暗黙の平衡ブロックは固定点反復によって定義され、異なる反復における訓練可能なパラメータは共有され、結果として軽量モデルとなる。 さらに、ユーザの計算能力に応じて前方イテレーションの数を調整できるため、柔軟な精度と効率のトレードオフが可能になる。 シミュレーションの結果,提案手法はベンチマークに匹敵する性能が得られるが,複雑性は少なく,実行時に精度と効率のトレードオフが得られることがわかった。

In frequency-division duplexing (FDD) massive multiple-input multiple-output (MIMO) systems, downlink channel state information (CSI) needs to be sent back to the base station (BS) by the users, which causes prohibitive feedback overhead. In this paper, we propose a lightweight and flexible deep learning-based CSI feedback approach by capitalizing on deep equilibrium models. Different from existing deep learning-based methods that stack multiple explicit layers, we propose an implicit equilibrium block to mimic the behavior of an infinite-depth neural network. In particular, the implicit equilibrium block is defined by a fixed-point iteration and the trainable parameters in different iterations are shared, which results in a lightweight model. Furthermore, the number of forward iterations can be adjusted according to users' computation capability, enabling a flexible accuracy-efficiency trade-off. Simulation results will show that the proposed design obtains a comparable performance as the benchmarks but with much-reduced complexity and permits an accuracy-efficiency trade-off at runtime.
翻訳日:2023-06-07 03:55:23 公開日:2023-06-05
# SU($N$)フェルミオン性物質-波の強い反発極限における励起一粒子密度行列

Exact one-particle density matrix for SU($N$) fermionic matter-waves in the strong repulsive limit ( http://arxiv.org/abs/2211.13553v2 )

ライセンス: Link先を確認
Andreas Osterloh, Juan Polo, Wayne J. Chetcuti and Luigi Amico(参考訳) 我々は、実効磁場を受けるリング型ポテンシャルに閉じ込められた反発的n$-component fermionの気体を考える。 大きな反発強度を得るために,2点相関行列と1粒子密度行列を計算するためのBetheアンザッツスキームを提案する。 その結果,有限だが十分多数の粒子のメソスコピックな配置と,数値ではアクセスできないシステムサイズが得られた。 我々は、システムの運動量分布にアクセスし、その相互作用、磁場、成分数に対する特定の依存性を解析する。 冷間原子の文脈では、リングトラップから冷間原子を放出することによって生じる干渉パターンを決定するための相関行列の正確な計算を行う。

We consider a gas of repulsive $N$-component fermions confined in a ring-shaped potential, subject to an effective magnetic field. For large repulsion strengths, we work out a Bethe ansatz scheme to compute the two-point correlation matrix and then the one-particle density matrix. Our results holds in the mesoscopic regime of finite but sufficiently large number of particles and system size that are not accessible by numerics. We access the momentum distribution of the system and analyse its specific dependence of interaction, magnetic field and number of components $N$. In the context of cold atoms, the exact computation of the correlation matrix to determine the interference patterns that are produced by releasing cold atoms from ring traps is carried out.
翻訳日:2023-06-07 03:54:39 公開日:2023-06-05
# OpenFE: 専門家レベルのパフォーマンスを備えた自動機能生成

OpenFE: Automated Feature Generation with Expert-level Performance ( http://arxiv.org/abs/2211.12507v3 )

ライセンス: Link先を確認
Tianping Zhang, Zheyu Zhang, Zhiyuan Fan, Haoyan Luo, Fengyuan Liu, Qian Liu, Wei Cao, Jian Li(参考訳) 自動機能生成の目標は、手動機能生成の面倒なタスクから機械学習の専門家を解放することにある。 自動機能生成の最大の課題は、多数の候補機能から有効機能を効率よく正確に識別することである。 本稿では、機械学習の専門家と競合する結果を提供する自動機能生成ツールであるopenfeを提案する。 OpenFEは2つのコンポーネントで高い効率と精度を達成する。 1)候補特徴のインクリメンタルパフォーマンスを精度良く評価する新規特徴促進法とその評価 2) 2段階の刈り込みアルゴリズムは,細部まで粗い刈り込みを行う。 10のベンチマークデータセットに対する大規模な実験は、OpenFEが既存のベースラインメソッドを大きなマージンで上回っていることを示している。 さらに、何千ものデータサイエンスチームが参加する2つのKaggleコンペティションでOpenFEを評価します。 2つの競争において、単純なベースラインモデルでOpenFEが生成した機能は、それぞれ99.3%と99.6%のデータサイエンスチームを上回っている。 経験的な結果に加えて、機能生成は単純だが代表的な設定で有益であることを示す理論的視点を提供する。 コードはhttps://github.com/ZhangTP 1996/OpenFEで公開されている。

The goal of automated feature generation is to liberate machine learning experts from the laborious task of manual feature generation, which is crucial for improving the learning performance of tabular data. The major challenge in automated feature generation is to efficiently and accurately identify effective features from a vast pool of candidate features. In this paper, we present OpenFE, an automated feature generation tool that provides competitive results against machine learning experts. OpenFE achieves high efficiency and accuracy with two components: 1) a novel feature boosting method for accurately evaluating the incremental performance of candidate features and 2) a two-stage pruning algorithm that performs feature pruning in a coarse-to-fine manner. Extensive experiments on ten benchmark datasets show that OpenFE outperforms existing baseline methods by a large margin. We further evaluate OpenFE in two Kaggle competitions with thousands of data science teams participating. In the two competitions, features generated by OpenFE with a simple baseline model can beat 99.3% and 99.6% data science teams respectively. In addition to the empirical results, we provide a theoretical perspective to show that feature generation can be beneficial in a simple yet representative setting. The code is available at https://github.com/ZhangTP1996/OpenFE.
翻訳日:2023-06-07 03:54:27 公開日:2023-06-05
# 心房細動に対するカテーテルアブレーション治療後の予後予測

Predicting adverse outcomes following catheter ablation treatment for atrial fibrillation ( http://arxiv.org/abs/2211.11965v2 )

ライセンス: Link先を確認
Juan C. Quiroz, David Brieger, Louisa Jorm, Raymond W Sy, Benjumin Hsu, Blanca Gallego(参考訳) 目的:非弁膜性心房細動(af)に対するカテーテルアブレーション療法後の予後予測のための予後予測モデルの開発。 方法: オーストラリア, ニューサウスウェールズ州において, 病院の診療データ, 処方薬の請求書, 救急部でのプレゼンテーション, 死亡登録などの関連データセットを用いた。 AFのカテーテルアブレーションを受けた患者もコホートに含まれていた。 伝統的および深層生存モデルは、大きな出血、心不全、脳卒中、心停止、死の複合を予測するために訓練された。 結果: 総計3285例中, 177例 (5.3%) が複合出血(心不全, 脳卒中, 心停止, 死亡)、167例 (5.1%) がカテーテルアブレーション治療後に大出血を経験した。 複合結果を予測するモデルはリスク判別精度が高く, 評価時間帯に一致指数 > 0.79 を持つモデルが最適であった。 主要な出血イベントを予測するモデルではリスク識別性能が低かったが,concordance index < 0.66。 リスクを高く予測するモデルで最も影響の大きい特徴は、心不全やafの治療に病気患者で一般的に用いられる健康不良、高齢者、治療の指標となる共生性であった。 結論: 診断と治療歴は, 大出血のリスク予測に十分な情報を含んでいなかった。 複合結果を予測するためのモデルは、カテーテル・アブレーションを積極的に行ったハイリスク患者を臨床医が特定し、管理できる可能性を持っている。 臨床におけるこれらのモデルの有用性を検証するためには,今後の研究が必要である。

Objective: To develop prognostic survival models for predicting adverse outcomes after catheter ablation treatment for non-valvular atrial fibrillation (AF). Methods: We used a linked dataset including hospital administrative data, prescription medicine claims, emergency department presentations, and death registrations of patients in New South Wales, Australia. The cohort included patients who received catheter ablation for AF. Traditional and deep survival models were trained to predict major bleeding events and a composite of heart failure, stroke, cardiac arrest, and death. Results: Out of a total of 3285 patients in the cohort, 177 (5.3%) experienced the composite outcome (heart failure, stroke, cardiac arrest, death) and 167 (5.1%) experienced major bleeding events after catheter ablation treatment. Models predicting the composite outcome had high risk discrimination accuracy, with the best model having a concordance index > 0.79 at the evaluated time horizons. Models for predicting major bleeding events had poor risk discrimination performance, with all models having a concordance index < 0.66. The most impactful features for the models predicting higher risk were comorbidities indicative of poor health, older age, and therapies commonly used in sicker patients to treat heart failure and AF. Conclusions: Diagnosis and medication history did not contain sufficient information for precise risk prediction of experiencing major bleeding events. The models for predicting the composite outcome have the potential to enable clinicians to identify and manage high-risk patients following catheter ablation proactively. Future research is needed to validate the usefulness of these models in clinical practice.
翻訳日:2023-06-07 03:54:12 公開日:2023-06-05
# 言語モデルの重み付けによるデータレス知識融合

Dataless Knowledge Fusion by Merging Weights of Language Models ( http://arxiv.org/abs/2212.09849v4 )

ライセンス: Link先を確認
Xisen Jin, Xiang Ren, Daniel Preotiuc-Pietro, Pengxiang Cheng(参考訳) 微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。 多くの場合、微調整されたモデルは簡単に利用できるが、データのプライバシーや知的財産の懸念からトレーニングデータは利用できない。 これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。 本稿では、異なるトレーニングデータセット上に構築された個別モデルをマージして、すべてのデータセットドメインでよく機能し、ドメイン外のデータで一般化できる単一モデルを得るという課題について考察する。 本稿では,モデルと各モデルとの予測差を最小化する重み付けにより,パラメータ空間でモデルをマージするデータレス知識融合手法を提案する。 評価設定のバッテリ上では,提案手法がフィッシャー重み付け平均化やモデルアンサンブルなどのベースラインを著しく上回ることを示す。 さらに,本手法は,学習データにアクセスせずに個々のモデルを保存・改善できるマルチタスク学習に代わる有望な方法であることがわかった。 最後に、モデルマージはマルチタスクモデルのトレーニングよりも効率的であるため、より広範なシナリオに適用できる。

Fine-tuning pre-trained language models has become the prevalent paradigm for building downstream NLP models. Oftentimes fine-tuned models are readily available but their training data is not, due to data privacy or intellectual property concerns. This creates a barrier to fusing knowledge across individual models to yield a better single model. In this paper, we study the problem of merging individual models built on different training data sets to obtain a single model that performs well both across all data set domains and can generalize on out-of-domain data. We propose a dataless knowledge fusion method that merges models in their parameter space, guided by weights that minimize prediction differences between the merged model and the individual models. Over a battery of evaluation settings, we show that the proposed method significantly outperforms baselines such as Fisher-weighted averaging or model ensembling. Further, we find that our method is a promising alternative to multi-task learning that can preserve or sometimes improve over the individual models without access to the training data. Finally, model merging is more efficient than training a multi-task model, thus making it applicable to a wider set of scenarios.
翻訳日:2023-06-07 03:46:22 公開日:2023-06-05
# NusaCrowd: インドネシアのNLPリソースのためのオープンソースイニシアティブ

NusaCrowd: Open Source Initiative for Indonesian NLP Resources ( http://arxiv.org/abs/2212.09648v3 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Alham Fikri Aji, Genta Indra Winata, Bryan Wilie, Rahmad Mahendra, Christian Wibisono, Ade Romadhony, Karissa Vincentio, Fajri Koto, Jennifer Santoso, David Moeljadi, Cahya Wirawan, Frederikus Hudi, Ivan Halim Parmonangan, Ika Alfina, Muhammad Satrio Wicaksono, Ilham Firdausi Putra, Samsul Rahmadani, Yulianti Oenang, Ali Akbar Septiandri, James Jaya, Kaustubh D. Dhole, Arie Ardiyanti Suryani, Rifki Afina Putri, Dan Su, Keith Stevens, Made Nindyatama Nityasya, Muhammad Farid Adilazuarda, Ryan Ignatius, Ryandito Diandaru, Tiezheng Yu, Vito Ghifari, Wenliang Dai, Yan Xu, Dyah Damapuspita, Cuk Tho, Ichwanul Muslim Karo Karo, Tirana Noor Fatyanosa, Ziwei Ji, Pascale Fung, Graham Neubig, Timothy Baldwin, Sebastian Ruder, Herry Sujaini, Sakriani Sakti, Ayu Purwarianti(参考訳) 我々は,インドネシア語の既存の資源を収集し,統一するための協力的イニシアティブであるnusacrowdを提案する。 このイニシアティブを通じて、127のデータセットと118の標準化データローダをまとめました。 データセットの品質は手動および自動で評価され、その値は複数の実験を通じて実証されている。 nusacrowdのデータ収集は、インドネシアおよびインドネシアのローカル言語における自然言語理解と生成のための最初のゼロショットベンチマークの作成を可能にする。 さらに、NusaCrowdはインドネシアとインドネシアの地方言語で最初の多言語自動音声認識ベンチマークを作成した。 我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。

We present NusaCrowd, a collaborative initiative to collect and unify existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have brought together 137 datasets and 118 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their value is demonstrated through multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and the local languages of Indonesia. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and the local languages of Indonesia. Our work strives to advance natural language processing (NLP) research for languages that are under-represented despite being widely spoken.
翻訳日:2023-06-07 03:46:03 公開日:2023-06-05
# APOLLO:論理推論のための言語モデルの適応事前学習のための簡単なアプローチ

APOLLO: A Simple Approach for Adaptive Pretraining of Language Models for Logical Reasoning ( http://arxiv.org/abs/2212.09282v2 )

ライセンス: Link先を確認
Soumya Sanyal, Yichong Xu, Shuohang Wang, Ziyi Yang, Reid Pryzant, Wenhao Yu, Chenguang Zhu, Xiang Ren(参考訳) テキストの論理的推論は、テキストに含まれる情報とその相互関係を理解し、それらを推論して新たな結論を推測する必要がある重要な能力である。 言語モデルの論理的推論能力を改善するには、トレーニングデータの複雑な処理(例えば、記号的知識をテキストに合わせる)が必要であり、一般的な論理推論スキルの学習を制限するタスク固有のデータ拡張ソリューションを提供する。 本研究では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。 言語モデルの事前学習を継続するために、論理推論キーワードのセットに基づいてwikipediaのサブセットを選択する。 2つの自己教師付き損失関数を用いており、基本的言語理解よりも推論を必要とする可能性のある特定の部分のみを修飾したマスク付き言語モデリング損失と、関連する文と矛盾する文の区別をモデルに教える文レベル分類損失である。 提案するトレーニングパラダイムは単純かつタスク形式に依存しない。 本稿では,2つの論理的推論データセットのベースラインと比較し,APOLLOの有効性を示す。 APOLLOはReClorで互換性があり、LogiQAでベースラインを上回っている。 コードベースは公開されています。

Logical reasoning of text is an important ability that requires understanding the information present in the text, their interconnections, and then reasoning through them to infer new conclusions. Prior works on improving the logical reasoning ability of language models require complex processing of training data (e.g., aligning symbolic knowledge to text), yielding task-specific data augmentation solutions that restrict the learning of general logical reasoning skills. In this work, we propose APOLLO, an adaptively pretrained language model that has improved logical reasoning abilities. We select a subset of Wikipedia, based on a set of logical inference keywords, for continued pretraining of a language model. We use two self-supervised loss functions: a modified masked language modeling loss where only specific parts-of-speech words, that would likely require more reasoning than basic language understanding, are masked, and a sentence-level classification loss that teaches the model to distinguish between entailment and contradiction types of sentences. The proposed training paradigm is both simple and independent of task formats. We demonstrate the effectiveness of APOLLO by comparing it with prior baselines on two logical reasoning datasets. APOLLO performs comparably on ReClor and outperforms baselines on LogiQA. The code base has been made publicly available.
翻訳日:2023-06-07 03:45:52 公開日:2023-06-05
# グラフニューラルネットワークは本質的に優れた一般化器である:GNNとMPPのブリッジによる洞察

Graph Neural Networks are Inherently Good Generalizers: Insights by Bridging GNNs and MLPs ( http://arxiv.org/abs/2212.09034v3 )

ライセンス: Link先を確認
Chenxiao Yang, Qitian Wu, Jiahua Wang, Junchi Yan(参考訳) グラフ上の表現学習のためのデファクトモデルクラスとして、グラフニューラルネットワーク(gnns)は、多層パーセプトロン(mlp)アーキテクチャ上に構築されており、ノードを横断する機能を可能にする追加のメッセージパッシング層を備えている。 従来の知恵はGNNの成功をその高度な表現性によるものとするのが一般的であるが、ノードレベルの予測タスクにおけるGNNの優位性の主な原因ではないと推測する。 本稿では,P(ropagational)MLPと呼ばれる中間モデルクラスを導入することにより,GNNの性能向上を本質的な一般化能力に向ける。 興味深いことに、PMLPはトレーニングにおいてはるかに効率的でありながら、GNNと同等(あるいはそれ以上)に動作している。 この発見は、GNNの学習行動を理解するための新しい洞察を隠蔽し、様々なGNN関連の研究問題を分離するための分析ツールとして使用できる。 GNNの固有一般化性を分析するための最初のステップとして、無限幅極限におけるMLPとPMLPの主な違いは、訓練後のNTK特徴写像にあることを示す。 さらに,その外挿挙動を調べた結果,多くのGNNとそのPMLPは,極端に分布しないサンプルに対して非線形関数を外挿することはできないが,GNNアーキテクチャの自然な利点として,トレーニングデータ域近傍のサンプルに一般化する可能性が示唆された。

Graph neural networks (GNNs), as the de-facto model class for representation learning on graphs, are built upon the multi-layer perceptrons (MLP) architecture with additional message passing layers to allow features to flow across nodes. While conventional wisdom commonly attributes the success of GNNs to their advanced expressivity, we conjecture that this is not the main cause of GNNs' superiority in node-level prediction tasks. This paper pinpoints the major source of GNNs' performance gain to their intrinsic generalization capability, by introducing an intermediate model class dubbed as P(ropagational)MLP, which is identical to standard MLP in training, but then adopts GNN's architecture in testing. Intriguingly, we observe that PMLPs consistently perform on par with (or even exceed) their GNN counterparts, while being much more efficient in training. This finding sheds new insights into understanding the learning behavior of GNNs, and can be used as an analytic tool for dissecting various GNN-related research problems. As an initial step to analyze the inherent generalizability of GNNs, we show the essential difference between MLP and PMLP at infinite-width limit lies in the NTK feature map in the post-training stage. Moreover, by examining their extrapolation behavior, we find that though many GNNs and their PMLP counterparts cannot extrapolate non-linear functions for extremely out-of-distribution samples, they have greater potential to generalize to testing samples near the training data range as natural advantages of GNN architectures.
翻訳日:2023-06-07 03:45:31 公開日:2023-06-05
# ドメイン固有のNLPタスクの強化のための知識グラフ統合サービス

A Unified Knowledge Graph Augmentation Service for Boosting Domain-specific NLP Tasks ( http://arxiv.org/abs/2212.05251v2 )

ライセンス: Link先を確認
Ruiqing Ding, Xiao Han, Leye Wang(参考訳) 事前学習過程をドメイン固有コーパスに焦点を合わせることで、いくつかのドメイン固有事前学習言語モデル(PLM)は最先端の結果を得た。 しかし、PLMの微調整段階において、ドメイン知識を注入するための統一パラダイムを設計することは、未検討である。 ドメイン知識グラフを用いてタスク固有のトレーニング手順を強化するための統合型ドメイン言語モデル開発サービスであるknowledancedaを提案する。 ドメイン固有のタスクテキストが入力されると、knowledgedaは以下の3ステップでドメイン固有の言語モデルを自動的に生成できる。 (i)埋め込み類似性アプローチによるテキスト中のドメイン知識エンティティのローカライズ (ii)知識グラフとトレーニングデータの2つのビューから置換可能なドメインエンティティペアを検索することにより、拡張されたサンプルを生成する。 (iii)信頼度に基づく評価による微調整のための高品質拡張現実サンプルを選択する。 我々は、医療とソフトウェア開発という2つの分野の言語モデルを学ぶために、KnowledgeDAのプロトタイプを実装します。 ドメイン固有のテキスト分類とQAタスクの実験は、知識DAの有効性と一般化性を検証する。

By focusing the pre-training process on domain-specific corpora, some domain-specific pre-trained language models (PLMs) have achieved state-of-the-art results. However, it is under-investigated to design a unified paradigm to inject domain knowledge in the PLM fine-tuning stage. We propose KnowledgeDA, a unified domain language model development service to enhance the task-specific training procedure with domain knowledge graphs. Given domain-specific task texts input, KnowledgeDA can automatically generate a domain-specific language model following three steps: (i) localize domain knowledge entities in texts via an embedding-similarity approach; (ii) generate augmented samples by retrieving replaceable domain entity pairs from two views of both knowledge graph and training data; (iii) select high-quality augmented samples for fine-tuning via confidence-based assessment. We implement a prototype of KnowledgeDA to learn language models for two domains, healthcare and software development. Experiments on domain-specific text classification and QA tasks verify the effectiveness and generalizability of KnowledgeDA.
翻訳日:2023-06-07 03:43:46 公開日:2023-06-05
# 自己指導型学習における類似損失とクラスタリング損失の関係の学習

Learning the Relation between Similarity Loss and Clustering Loss in Self-Supervised Learning ( http://arxiv.org/abs/2301.03041v2 )

ライセンス: Link先を確認
Jidong Ge, Yuxiang Liu, Jie Gui, Lanting Fang, Ming Lin, James Tin-Yau Kwok, LiGuo Huang, Bin Luo(参考訳) 自己教師付き学習は、ネットワークが大量のデータから識別的特徴を学習することを可能にする。 ほとんどの最先端手法は、コントラスト学習に基づく1つの画像の2つの増補間の類似性を最大化する。 2つの追加の一貫性を利用することで、手動アノテーションの負担を解放することができる。 対照的な学習は、インスタンスレベルの情報を利用して堅牢な特徴を学習する。 しかし、学習した情報はおそらく同じインスタンスの異なるビューに限られている。 本稿では,2つの異なる画像間の類似性を活用し,自己教師付き学習における表現の促進を図る。 インスタンスレベルの情報とは対照的に、2つの異なる画像間の類似性はより有用な情報を提供する。 さらに,類似度損失と特徴量クロスエントロピー損失の関係を分析する。 この2つの損失は、ほとんどのディープラーニング手法に不可欠です。 しかし、この2つの損失の関係は明らかではない。 類似度損失はインスタンスレベルの表現を得るのに役立ち、特徴レベルのクロスエントロピー損失は2つの異なる画像間の類似性を調べるのに役立ちます。 これら2つの損失の適切な組み合わせが最先端の結果を得ることができることを示すために、理論的解析と実験を提供する。 コードはhttps://github.com/guijiejie/ICCLで入手できる。

Self-supervised learning enables networks to learn discriminative features from massive data itself. Most state-of-the-art methods maximize the similarity between two augmentations of one image based on contrastive learning. By utilizing the consistency of two augmentations, the burden of manual annotations can be freed. Contrastive learning exploits instance-level information to learn robust features. However, the learned information is probably confined to different views of the same instance. In this paper, we attempt to leverage the similarity between two distinct images to boost representation in self-supervised learning. In contrast to instance-level information, the similarity between two distinct images may provide more useful information. Besides, we analyze the relation between similarity loss and feature-level cross-entropy loss. These two losses are essential for most deep learning methods. However, the relation between these two losses is not clear. Similarity loss helps obtain instance-level representation, while feature-level cross-entropy loss helps mine the similarity between two distinct images. We provide theoretical analyses and experiments to show that a suitable combination of these two losses can get state-of-the-art results. Code is available at https://github.com/guijiejie/ICCL.
翻訳日:2023-06-07 03:37:31 公開日:2023-06-05
# object as query: 任意の2dオブジェクト検出器を3d検出へ持ち上げる

Object as Query: Lifting any 2D Object Detector to 3D Detection ( http://arxiv.org/abs/2301.02364v2 )

ライセンス: Link先を確認
Zitian Wang, Zehao Huang, Jiahui Fu, Naiyan Wang, Si Liu(参考訳) マルチビュー画像からの3Dオブジェクト検出は、ここ数年で注目されている。 既存の方法は、主に多視点画像から3D表現を確立し、オブジェクト検出に高密度な検出ヘッドを採用するか、オブジェクトをローカライズするために3D空間に分散されたオブジェクトクエリを使用する。 本稿では,多視点3次元物体検出装置(MV2D)を設計し,任意の2次元物体検出器を多視点3次元物体検出へ持ち上げる。 MV2Dは2D検出器を利用して、リッチな画像意味論に基づくオブジェクトクエリを生成する。 これらの動的に生成されたクエリはmv2dが視野内のオブジェクトをリコールし、3dオブジェクトをローカライズする強力な能力を示すのに役立つ。 生成したクエリに対しては、ノイズからの干渉を抑制する特定のオブジェクトの特徴に焦点を合わせるように、スパースクロスアテンションモジュールを設計します。 nuscenesデータセットの評価結果は動的オブジェクトクエリを示し、スパース特徴集約は3次元検出能力を促進することができる。 MV2Dは既存の手法の中でも最先端の性能を示している。 MV2Dが将来の研究の新たなベースラインになることを期待している。

3D object detection from multi-view images has drawn much attention over the past few years. Existing methods mainly establish 3D representations from multi-view images and adopt a dense detection head for object detection, or employ object queries distributed in 3D space to localize objects. In this paper, we design Multi-View 2D Objects guided 3D Object Detector (MV2D), which can lift any 2D object detector to multi-view 3D object detection. Since 2D detections can provide valuable priors for object existence, MV2D exploits 2D detectors to generate object queries conditioned on the rich image semantics. These dynamically generated queries help MV2D to recall objects in the field of view and show a strong capability of localizing 3D objects. For the generated queries, we design a sparse cross attention module to force them to focus on the features of specific objects, which suppresses interference from noises. The evaluation results on the nuScenes dataset demonstrate the dynamic object queries and sparse feature aggregation can promote 3D detection capability. MV2D also exhibits a state-of-the-art performance among existing methods. We hope MV2D can serve as a new baseline for future research.
翻訳日:2023-06-07 03:37:14 公開日:2023-06-05
# クロスドキュメント関係抽出のためのマルチホップエビデンス検索

Multi-hop Evidence Retrieval for Cross-document Relation Extraction ( http://arxiv.org/abs/2212.10786v2 )

ライセンス: Link先を確認
Keming Lu, I-Hung Hsu, Wenxuan Zhou, Mingyu Derek Ma and Muhao Chen(参考訳) 関係抽出(re)は、多くの関係が単に単一のドキュメントに記述されないため、クロスドキュメントシナリオに拡張されている。 このことは、クロスドキュメント関係の推論を支援するための効率的なオープンスペースエビデンス検索の課題と、オープンな文書群に散在するエンティティやエビデンスの上にマルチホップ推論の課題をもたらす。 これらの課題に対処するため,我々は,証拠パスマイニングとランク付けに基づくマルチホップエビデンス検索手法であるmr.cod(multi-hop evidence retrieval for cross-document relation extraction)を提案する。 本稿では,クロスドキュメントREにおいてエビデンス検索が不可欠であることを示すために,複数種類のレトリバーを探索する。 また,この設定に対する文脈的高密度検索手法を提案する。 CodREDの実験では、MR.CODによるエビデンス検索はクロスドキュメントのエビデンスを効果的に取得し、クローズドとオープンの両方でエンドツーエンドのREパフォーマンスを向上させる。

Relation Extraction (RE) has been extended to cross-document scenarios because many relations are not simply described in a single document. This inevitably brings the challenge of efficient open-space evidence retrieval to support the inference of cross-document relations, along with the challenge of multi-hop reasoning on top of entities and evidence scattered in an open set of documents. To combat these challenges, we propose MR.COD (Multi-hop evidence retrieval for Cross-document relation extraction), which is a multi-hop evidence retrieval method based on evidence path mining and ranking. We explore multiple variants of retrievers to show evidence retrieval is essential in cross-document RE. We also propose a contextual dense retriever for this setting. Experiments on CodRED show that evidence retrieval with MR.COD effectively acquires crossdocument evidence and boosts end-to-end RE performance in both closed and open settings.
翻訳日:2023-06-07 03:35:40 公開日:2023-06-05
# BUMP: 信心度メタ評価のための不信心最小ペアのベンチマーク

BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of Faithfulness Metrics ( http://arxiv.org/abs/2212.09955v2 )

ライセンス: Link先を確認
Liang Ma, Shuyang Cao, Robert L. Logan IV, Di Lu, Shihao Ran, Ke Zhang, Joel Tetreault, Alejandro Jaimes(参考訳) 要約のための自動忠実度指標の拡散は、それらを評価するためのベンチマークの必要性を生み出した。 既存のベンチマークでは、モデル生成サマリーの忠実性判定との相関が測定されているが、メトリクスかどうかの診断には不十分である。 1) 一貫性、すなわち、エラーが要約に導入されたとき、より低い忠実さを示す。 2)人文テキストの有効利用,及び 3)異なるエラータイプに敏感(要約には複数のエラーが含まれている)。 これらのニーズに対処するため,我々は,cnn/dailymailデータセットから要約文に1つのエラーを導入することで不適切な要約を生成する,859の人間が記述した,最小限の要約ペアのデータセットであるunfaithful minimal pairs (bump)のベンチマークを示す。 BUMPはいくつかの方法で既存のベンチマークを補完する。 1) バンプの要約は, sota要約モデルでは判別が困難であり, 可能性も低い。 2)非ペア型データセットとは異なり、bumpはメトリクスの一貫性を測定するために使用することができ、最も差別的なメトリクスが最も一貫性がない傾向があることを明らかにする。 3) 複数のエラーを含む生成されたサマリーを含むデータセットとは異なり、bumpは個々のエラータイプに対するメトリクスのパフォーマンスを測定することができる。

The proliferation of automatic faithfulness metrics for summarization has produced a need for benchmarks to evaluate them. While existing benchmarks measure the correlation with human judgements of faithfulness on model-generated summaries, they are insufficient for diagnosing whether metrics are: 1) consistent, i.e., indicate lower faithfulness as errors are introduced into a summary, 2) effective on human-written texts, and 3) sensitive to different error types (as summaries can contain multiple errors). To address these needs, we present a benchmark of unfaithful minimal pairs (BUMP), a dataset of 889 human-written, minimally different summary pairs, where a single error is introduced to a summary from the CNN/DailyMail dataset to produce an unfaithful summary. We find BUMP complements existing benchmarks in a number of ways: 1) the summaries in BUMP are harder to discriminate and less probable under SOTA summarization models, 2) unlike non-pair-based datasets, BUMP can be used to measure the consistency of metrics, and reveals that the most discriminative metrics tend not to be the most consistent, and 3) unlike datasets containing generated summaries with multiple errors, BUMP enables the measurement of metrics' performance on individual error types.
翻訳日:2023-06-07 03:35:01 公開日:2023-06-05
# 音声翻訳のための事前学習:CTCが最適な交通手段に

Pre-training for Speech Translation: CTC Meets Optimal Transport ( http://arxiv.org/abs/2301.11716v3 )

ライセンス: Link先を確認
Phuong-Hang Le, Hongyu Gong, Changhan Wang, Juan Pino, Benjamin Lecouteux, Didier Schwab(参考訳) 音声とテキストのモダリティのギャップは、音声からテキストへの翻訳(ST)において大きな課題である。 このギャップを減らすために異なる方法が提案されているが、そのほとんどはstトレーニングのアーキテクチャ変更を必要とする。 本稿では,STモデルの変更を必要とせず,事前学習段階でこの問題を軽減することを提案する。 まず,コネクショニスト時間分類(ctc)の損失は,設計によってモダリティギャップを低減できることを示す。 より一般的なクロスエントロピー損失と定量的に比較し,CTCによる事前学習が常に最終ST精度を向上させることを示す。 それにもかかわらず、CTCは部分解であり、第2の貢献として、CTCと最適輸送を組み合わせた新しい事前学習法を提案する。 本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。 標準のCoVoST-2およびMuST-Cデータセットに対する大規模な実験により、バニラエンコーダデコーダ変換器に適用した事前学習手法が、外部データ設定下での最先端性能を実現し、最近の強力なマルチタスク学習システムに匹敵する性能を示した。 最後に、この手法はマルチタスクシステム上でも適用可能であり、これらのモデルをさらに改善することができる。 コードと事前訓練されたモデルはhttps://github.com/formiel/fairseq.comで入手できる。

The gap between speech and text modalities is a major challenge in speech-to-text translation (ST). Different methods have been proposed to reduce this gap, but most of them require architectural changes in ST training. In this work, we propose to mitigate this issue at the pre-training stage, requiring no change in the ST model. First, we show that the connectionist temporal classification (CTC) loss can reduce the modality gap by design. We provide a quantitative comparison with the more common cross-entropy loss, showing that pre-training with CTC consistently achieves better final ST accuracy. Nevertheless, CTC is only a partial solution and thus, in our second contribution, we propose a novel pre-training method combining CTC and optimal transport to further reduce this gap. Our method pre-trains a Siamese-like model composed of two encoders, one for acoustic inputs and the other for textual inputs, such that they produce representations that are close to each other in the Wasserstein space. Extensive experiments on the standard CoVoST-2 and MuST-C datasets show that our pre-training method applied to the vanilla encoder-decoder Transformer achieves state-of-the-art performance under the no-external-data setting, and performs on par with recent strong multi-task learning systems trained with external data. Finally, our method can also be applied on top of these multi-task systems, leading to further improvements for these models. Code and pre-trained models are available at https://github.com/formiel/fairseq.
翻訳日:2023-06-07 03:27:37 公開日:2023-06-05
# ニューラルネットワークの反例誘導修復におけるロバスト最適化の視点

A Robust Optimisation Perspective on Counterexample-Guided Repair of Neural Networks ( http://arxiv.org/abs/2301.11342v2 )

ライセンス: Link先を確認
David Boetius, Stefan Leue, Tobias Sutter(参考訳) Counterexample-Guided repairは、数学的安全性を保証するニューラルネットワークの作成を目標とし、安全クリティカルドメインへのニューラルネットワークの適用を容易にする。 しかし、反例による修理が終了を保証されるかどうかは、まだ未解決の問題である。 我々は,反例誘導修復を頑健な最適化アルゴリズムとして捉えることにより,この問題にアプローチする。 ニューラルネットワークの修復自体の終了保証は到達範囲を超えていますが、より抑制された機械学習モデルの終了を証明し、一般的な環境での終了を論じます。 我々は, 理論結果の実用的意義を実証的に研究し, 不利な理論結果にもかかわらず, 共通検証器とファルシファイアの修理適性を示す。 さらに,2次計画法に基づく線形回帰モデルに対する新しいアルゴリズムを考案し,既存の手法を超越した理論的考察を行った。

Counterexample-guided repair aims at creating neural networks with mathematical safety guarantees, facilitating the application of neural networks in safety-critical domains. However, whether counterexample-guided repair is guaranteed to terminate remains an open question. We approach this question by showing that counterexample-guided repair can be viewed as a robust optimisation algorithm. While termination guarantees for neural network repair itself remain beyond our reach, we prove termination for more restrained machine learning models and disprove termination in a general setting. We empirically study the practical implications of our theoretical results, demonstrating the suitability of common verifiers and falsifiers for repair despite a disadvantageous theoretical result. Additionally, we use our theoretical insights to devise a novel algorithm for repairing linear regression models based on quadratic programming, surpassing existing approaches.
翻訳日:2023-06-07 03:27:06 公開日:2023-06-05
# 動的障害物を有する未知トンネル建設現場における視覚に基づく自律型UAV検査フレームワーク

A vision-based autonomous UAV inspection framework for unknown tunnel construction sites with dynamic obstacles ( http://arxiv.org/abs/2301.08422v2 )

ライセンス: Link先を確認
Zhefan Xu, Baihan Chen, Xiaoyang Zhan, Yumeng Xiu, Christopher Suzuki, Kenji Shimada(参考訳) ドリル・アンド・ブラスト工法によるトンネル建設には,地下破壊箇所を3次元的に計測する必要がある。 検査・測定作業の安全性・コスト・効率を考えると、無人航空機(UAV)のような軽量自律ロボットの配備はより必要で普及している。 以前の作品の多くは、検査視点の決定に事前の地図を使用し、動的な障害を考慮しない。 自律性の最大化を図るため,従来の地図を使わずに動的トンネル環境に対する視覚に基づくUAV検査フレームワークを提案する。 本手法は階層的計画手法を用いて,検査問題を異なるレベルに分解する。 高レベル意思決定者はまず、ロボットのタスクを決定し、目標点を生成する。 そして、中間レベルパスプランナーがウェイポイントパスを見つけ、衝突のない静的軌道を最適化する。 最後に、静的な軌道は、動的障害を避け、ターゲットポイントにナビゲートするために、低レベルのローカルプランナーに送られる。 さらに,我々のフレームワークには,動的障害物を同時に追跡し,RGB-Dカメラに基づく静的障害物を表現できる新しい動的マップモジュールが含まれている。 検査後、ターゲットの3次元形状を生成するためにStructure-from-Motion (SfM)パイプラインを適用する。 私たちの知る限り、未知の動的トンネル環境で自律的な検査が実現されたのはこれが初めてです。 実際のトンネルでの飛行実験は, トンネル掘削面を自律的に検査できることを示すものである。

Tunnel construction using the drill-and-blast method requires the 3D measurement of the excavation front to evaluate underbreak locations. Considering the inspection and measurement task's safety, cost, and efficiency, deploying lightweight autonomous robots, such as unmanned aerial vehicles (UAV), becomes more necessary and popular. Most of the previous works use a prior map for inspection viewpoint determination and do not consider dynamic obstacles. To maximally increase the level of autonomy, this paper proposes a vision-based UAV inspection framework for dynamic tunnel environments without using a prior map. Our approach utilizes a hierarchical planning scheme, decomposing the inspection problem into different levels. The high-level decision maker first determines the task for the robot and generates the target point. Then, the mid-level path planner finds the waypoint path and optimizes the collision-free static trajectory. Finally, the static trajectory will be fed into the low-level local planner to avoid dynamic obstacles and navigate to the target point. Besides, our framework contains a novel dynamic map module that can simultaneously track dynamic obstacles and represent static obstacles based on an RGB-D camera. After inspection, the Structure-from-Motion (SfM) pipeline is applied to generate the 3D shape of the target. To our best knowledge, this is the first time autonomous inspection has been realized in unknown and dynamic tunnel environments. Our flight experiments in a real tunnel prove that our method can autonomously inspect the tunnel excavation front surface.
翻訳日:2023-06-07 03:25:00 公開日:2023-06-05
# 長期音声認識のための学習プロトタイプ分類器

Learning Prototype Classifiers for Long-Tailed Recognition ( http://arxiv.org/abs/2302.00491v2 )

ライセンス: Link先を確認
Saurabh Sharma, Yongqin Xian, Ning Yu, Ambuj Singh(参考訳) ロングテール認識(ltr、long-tailed recognition)の問題は、現実の世界における物体の基本的なパワーロー分布のために近年注目を集めている。 LTRの最近の研究は、あるクラスに対するトレーニングデータの量と分類器ノルムを関連付ける傾向にあるソフトマックス分類器を使用している。 一方、プロトタイプ分類器は、この欠点に悩まされず、プロトタイプが経験的なセントロイドである特別なケースであるNearest-Class-Mean (NCM)を用いて、有望な結果を提供できる。 しかし、LTRにおけるソフトマックスの代替としてプロトタイプ分類器のポテンシャルは比較的過小評価されている。 本研究では,距離からプロトタイプまでの確率スコアに基づいて,平均エントロピー損失を最小化するプロトタイプを共同学習するプロトタイプ分類器を提案する。 ユークリッド距離に基づくプロトタイプ分類器の特性を理論的に解析し、安定な勾配に基づく最適化を実現する。 さらに,チャネルに依存した温度パラメータを学習することにより,各チャネルに沿った独立した距離スケールを実現する。 本分析は,プロトタイプ分類器で学習したプロトタイプが経験的セントロイドよりも分離されていることを示す。 4つの長尾認識ベンチマークの結果、プロトタイプ分類器は最先端の手法に匹敵する性能を示した。

The problem of long-tailed recognition (LTR) has received attention in recent years due to the fundamental power-law distribution of objects in the real-world. Most recent works in LTR use softmax classifiers that have a tendency to correlate classifier norm with the amount of training data for a given class. On the other hand, Prototype classifiers do not suffer from this shortcoming and can deliver promising results simply using Nearest-Class-Mean (NCM), a special case where prototypes are empirical centroids. However, the potential of Prototype classifiers as an alternative to softmax in LTR is relatively underexplored. In this work, we propose Prototype classifiers, which jointly learn prototypes that minimize average cross-entropy loss based on probability scores from distances to prototypes. We theoretically analyze the properties of Euclidean distance based prototype classifiers that leads to stable gradient-based optimization which is robust to outliers. We further enhance Prototype classifiers by learning channel-dependent temperature parameters to enable independent distance scales along each channel. Our analysis shows that prototypes learned by Prototype classifiers are better separated than empirical centroids. Results on four long-tailed recognition benchmarks show that Prototype classifier outperforms or is comparable to the state-of-the-art methods.
翻訳日:2023-06-07 03:18:11 公開日:2023-06-05
# 非対称交渉ゲームとしての補助学習

Auxiliary Learning as an Asymmetric Bargaining Game ( http://arxiv.org/abs/2301.13501v2 )

ライセンス: Link先を確認
Aviv Shamsian, Aviv Navon, Neta Glazer, Kenji Kawaguchi, Gal Chechik, Ethan Fetaya(参考訳) 補助学習は、特に小さなデータセットを扱う場合、訓練されたモデルの一般化能力を高める効果的な方法である。 しかし、このアプローチにはいくつかの困難がある。 (i)複数の目的を最適化することがより困難になり、 (II)メインタスクを最大限に支援するために補助タスクのバランスをとる方法は不明である。 本研究では,非対称なタスク交渉力を持つ汎用交渉ゲームとして問題を定式化し,補助学習におけるタスクのバランスをとるための新しいアプローチであるオーキナッシュを提案する。 さらに、主タスクの性能に対する貢献度に基づいてタスクの交渉力を学習するための効率的な手順について述べ、その収束に関する理論的保証を導出する。 最後に、複数のマルチタスクベンチマークで auxinash を評価し、競合するメソッドを一貫して上回っています。

Auxiliary learning is an effective method for enhancing the generalization capabilities of trained models, particularly when dealing with small datasets. However, this approach may present several difficulties: (i) optimizing multiple objectives can be more challenging, and (ii) how to balance the auxiliary tasks to best assist the main task is unclear. In this work, we propose a novel approach, named AuxiNash, for balancing tasks in auxiliary learning by formalizing the problem as generalized bargaining game with asymmetric task bargaining power. Furthermore, we describe an efficient procedure for learning the bargaining power of tasks based on their contribution to the performance of the main task and derive theoretical guarantees for its convergence. Finally, we evaluate AuxiNash on multiple multi-task benchmarks and find that it consistently outperforms competing methods.
翻訳日:2023-06-07 03:17:22 公開日:2023-06-05
# clusterfug: マルチカットによる完全連結グラフのクラスタリング

ClusterFuG: Clustering Fully connected Graphs by Multicut ( http://arxiv.org/abs/2301.12159v2 )

ライセンス: Link先を確認
Ahmed Abbas and Paul Swoboda(参考訳) 完全グラフ上のマルチカット(重み付き相関クラスタリング)に基づくグラフクラスタリングの定式化を提案する。 我々の定式化は、もともとのマルチカットのスパースな定式化のようにグラフトポロジーの仕様を必要とせず、我々のアプローチをシンプルにし、性能を向上させる。 非重み付き相関クラスタリングとは対照的に、より表現力のある重み付きコスト構造を実現する。 密マルチカットでは、クラスタリングの対象はノード特徴ベクトルの内部積として分解形式で与えられる。 これにより、完全なグラフを扱う際に少なくとも二次表現と計算複雑性を持つマルチカット/重み付き相関クラスタリングとは対照的に、効率的な定式化と推論が可能になる。 我々は、密集した環境でのマルチカットのための古典的欲求アルゴリズムの書き直し方法と、それらをより効率よく解品質に修正する方法を示す。 特に、我々のアルゴリズムは数万のノードを持つグラフにスケールする。 CityscapesのインスタンスセグメンテーションとImageNetデータセットのクラスタリングに関する実証的な証拠は、我々のアプローチの利点を示している。

We propose a graph clustering formulation based on multicut (a.k.a. weighted correlation clustering) on the complete graph. Our formulation does not need specification of the graph topology as in the original sparse formulation of multicut, making our approach simpler and potentially better performing. In contrast to unweighted correlation clustering we allow for a more expressive weighted cost structure. In dense multicut, the clustering objective is given in a factorized form as inner products of node feature vectors. This allows for an efficient formulation and inference in contrast to multicut/weighted correlation clustering, which has at least quadratic representation and computation complexity when working on the complete graph. We show how to rewrite classical greedy algorithms for multicut in our dense setting and how to modify them for greater efficiency and solution quality. In particular, our algorithms scale to graphs with tens of thousands of nodes. Empirical evidence on instance segmentation on Cityscapes and clustering of ImageNet datasets shows the merits of our approach.
翻訳日:2023-06-07 03:16:48 公開日:2023-06-05
# 情報処理・推論・最適化のためのアナログフォトニクスコンピューティング

Analog Photonics Computing for Information Processing, Inference and Optimisation ( http://arxiv.org/abs/2301.11760v2 )

ライセンス: Link先を確認
Nikita Stroev and Natalia G. Berloff(参考訳) 本稿では,光子,光子,物質と結合した光子,光学関連技術を有効かつ効率的な計算目的で活用するフォトニクスコンピューティングの現状について概説する。 フォトニクスコンピューティングと現代のアナログコンピューティングプラットフォームとアーキテクチャの歴史と開発をカバーし、最適化タスクとニューラルネットワークの実装に焦点を当てている。 著者らは、特殊目的オプティマイザ、フォトニクスオプティマイザの数学的記述、およびそれらの相互接続について検討した。 直接符号化、ロジスティクス、ファイナンス、フェーズ検索、機械学習、ニューラルネットワーク、確率的グラフィカルモデル、画像処理など、さまざまな応用が議論されている。 フォトニクス計算における技術進歩と関連する課題について,その効率性の評価とともに検討した。 最後に、光量子コンピューティングの展望と分野について論じ、この技術の潜在的な応用に関する洞察を提供する。

This review presents an overview of the current state-of-the-art in photonics computing, which leverages photons, photons coupled with matter, and optics-related technologies for effective and efficient computational purposes. It covers the history and development of photonics computing and modern analogue computing platforms and architectures, focusing on optimization tasks and neural network implementations. The authors examine special-purpose optimizers, mathematical descriptions of photonics optimizers, and their various interconnections. Disparate applications are discussed, including direct encoding, logistics, finance, phase retrieval, machine learning, neural networks, probabilistic graphical models, and image processing, among many others. The main directions of technological advancement and associated challenges in photonics computing are explored, along with an assessment of its efficiency. Finally, the paper discusses prospects and the field of optical quantum computing, providing insights into the potential applications of this technology.
翻訳日:2023-06-07 03:15:40 公開日:2023-06-05
# ゼロショット協調のための協調学習フレームワーク

Cooperative Open-ended Learning Framework for Zero-shot Coordination ( http://arxiv.org/abs/2302.04831v3 )

ライセンス: Link先を確認
Yang Li, Shao Zhang, Jichen Sun, Yali Du, Ying Wen, Xinbing Wang, Wei Pan(参考訳) 協調型人工知能(ai)におけるゼロショットコーディネーションは依然として大きな課題であり、幅広い未知のパートナーと効果的に協調することを意味する。 以前のアルゴリズムは、戦略や行動の多様性を改善するために集団内の固定目標を最適化することで、この問題に対処しようとした。 しかし、これらのアプローチは学習の喪失と集団内の特定の戦略、すなわち協調的非互換性の欠如に繋がる可能性がある。 そこで本稿では,各戦略の協調能力を評価するために,グラフ理論の観点から2人のプレイヤーと協調ゲームにおけるオープンエンド目標を構築する協調オープンエンド学習(cole)フレームワークを提案する。 さらに,ゲーム理論とグラフ理論の知識を活用した実用的なアルゴリズムを提案する。 さらに,アルゴリズムの学習過程の解析により,協調的不整合を効率的に克服できることを示した。 オーバークッキングゲーム環境における実験結果から,本手法は,異なるレベルのパートナとのコーディネートにおいて,現在の最先端手法よりも優れていることが示された。 デモはhttps://sites.google.com/view/cole-2023で公開しています。

Zero-shot coordination in cooperative artificial intelligence (AI) remains a significant challenge, which means effectively coordinating with a wide range of unseen partners. Previous algorithms have attempted to address this challenge by optimizing fixed objectives within a population to improve strategy or behaviour diversity. However, these approaches can result in a loss of learning and an inability to cooperate with certain strategies within the population, known as cooperative incompatibility. To address this issue, we propose the Cooperative Open-ended LEarning (COLE) framework, which constructs open-ended objectives in cooperative games with two players from the perspective of graph theory to assess and identify the cooperative ability of each strategy. We further specify the framework and propose a practical algorithm that leverages knowledge from game theory and graph theory. Furthermore, an analysis of the learning process of the algorithm shows that it can efficiently overcome cooperative incompatibility. The experimental results in the Overcooked game environment demonstrate that our method outperforms current state-of-the-art methods when coordinating with different-level partners. Our demo is available at https://sites.google.com/view/cole-2023.
翻訳日:2023-06-07 03:08:06 公開日:2023-06-05
# 量子クエンチ後の対称性回復の欠如:絡み合い非対称性の研究

Lack of symmetry restoration after a quantum quench: an entanglement asymmetry study ( http://arxiv.org/abs/2302.03330v3 )

ライセンス: Link先を確認
Filiberto Ares, Sara Murciano, Eric Vernier, Pasquale Calabrese(参考訳) 我々は、傾いた N'eel 状態から始まるXXスピン鎖の量子クエンチを、ポストクエンチハミルトニアンの$U(1)$対称性を明示的に破ると考える。 非常に驚くべきことに、u(1)$対称性は、すべての電荷が壊れる非可換な集合を活性化するため、大々的に復元されない。 対称性の破れは、最近導入された絡み合い非対称性によって効果的に定量的に特徴づけられる。 正確な計算と準粒子画像の議論を組み合わせることで、クエンチ後いつでも非対称性の挙動を正確に記述することができる。 さらに、定常動作は非アベリア一般化ギブスアンサンブルによって完全に捉えられていることを示す。 相互作用しないスピンチェーンの計算は行われているが、この場合も非アベリア電荷が存在するため、積分可能な相互作用ケースについても同様の結果が得られると期待している。

We consider the quantum quench in the XX spin chain starting from a tilted N\'eel state which explicitly breaks the $U(1)$ symmetry of the post-quench Hamiltonian. Very surprisingly, the $U(1)$ symmetry is not restored at large time because of the activation of a non-Abelian set of charges which all break it. The breaking of the symmetry can be effectively and quantitatively characterised by the recently introduced entanglement asymmetry. By a combination of exact calculations and quasi-particle picture arguments, we are able to exactly describe the behaviour of the asymmetry at any time after the quench. Furthermore we show that the stationary behaviour is completely captured by a non-Abelian generalised Gibbs ensemble. While our computations have been performed for a non-interacting spin chain, we expect similar results to hold for the integrable interacting case as well because of the presence of non-Abelian charges also in that case.
翻訳日:2023-06-07 03:06:44 公開日:2023-06-05
# RLSbench: 緩和ラベルシフトによるドメイン適応

RLSbench: Domain Adaptation Under Relaxed Label Shift ( http://arxiv.org/abs/2302.03020v2 )

ライセンス: Link先を確認
Saurabh Garg, Nick Erickson, James Sharpnack, Alex Smola, Sivaraman Balakrishnan, Zachary C. Lipton(参考訳) ラベルシフトの下でのドメイン適応の原則的手法の出現にもかかわらず、クラス条件分布のシフトに対する感度は明らかに調査中である。 一方、人気のある深層ドメイン適応ヒューリスティックスは、ラベルの比率の変動に直面した時に混乱する傾向にある。 いくつかの論文では、ラベル比率のシフトを扱うためにこれらのヒューリスティックを修正しているが、評価基準、データセット、ベースラインの不整合は、現在のベストプラクティスを評価するのを難しくしている。 本稿では,視覚,表,言語モダリティにまたがる500ドル以上の分散シフトペアと,ラベル比率の異なるラベルシフトの大規模ベンチマークであるRSbenchを紹介する。 クラス条件の$p(x|y)$のシフトに主にフォーカスする既存のベンチマークとは異なり、我々のベンチマークはラベルの限界シフトにもフォーカスする。 まず,13の一般的なドメイン適応手法を評価し,ラベル比率シフト下では従来よりも広範囲にわたる障害を示す。 次に、ほとんどのドメイン適応ヒューリスティックと互換性のある効果的な2段階メタアルゴリズムを開発する。 (i)各時代におけるデータの擬似バランス (ii)最終分類器を目標ラベル分布推定値で調整する。 メタアルゴリズムは、ラベル比が変化しない場合の最小効果($0.5 %)を提示しながら、しばしば2~10 %の精度ポイントで、大きなラベル比のシフトの下で既存のドメイン適応ヒューリスティックを改善する。 これらの知見と RLSbench の利用可能性により、研究者は緩和ラベルシフト設定における提案手法を厳格に評価できることを期待している。 コードはhttps://github.com/acmi-lab/rlsbenchで公開されている。

Despite the emergence of principled methods for domain adaptation under label shift, their sensitivity to shifts in class conditional distributions is precariously under explored. Meanwhile, popular deep domain adaptation heuristics tend to falter when faced with label proportions shifts. While several papers modify these heuristics in attempts to handle label proportions shifts, inconsistencies in evaluation standards, datasets, and baselines make it difficult to gauge the current best practices. In this paper, we introduce RLSbench, a large-scale benchmark for relaxed label shift, consisting of $>$500 distribution shift pairs spanning vision, tabular, and language modalities, with varying label proportions. Unlike existing benchmarks, which primarily focus on shifts in class-conditional $p(x|y)$, our benchmark also focuses on label marginal shifts. First, we assess 13 popular domain adaptation methods, demonstrating more widespread failures under label proportion shifts than were previously known. Next, we develop an effective two-step meta-algorithm that is compatible with most domain adaptation heuristics: (i) pseudo-balance the data at each epoch; and (ii) adjust the final classifier with target label distribution estimate. The meta-algorithm improves existing domain adaptation heuristics under large label proportion shifts, often by 2--10\% accuracy points, while conferring minimal effect ($<$0.5\%) when label proportions do not shift. We hope that these findings and the availability of RLSbench will encourage researchers to rigorously evaluate proposed methods in relaxed label shift settings. Code is publicly available at https://github.com/acmi-lab/RLSbench.
翻訳日:2023-06-07 03:06:14 公開日:2023-06-05
# 過パラメータモデル学習のためのガウスニュートンの再考

Rethinking Gauss-Newton for learning over-parameterized models ( http://arxiv.org/abs/2302.02904v2 )

ライセンス: Link先を確認
Michael Arbel and Romain Menegaux and Pierre Wolinski(参考訳) 本研究は,オーバーパラメータ化法において1層ネットワークを最適化する際のガウス・ニュートン(gn)の大域収束と一般化特性について検討する。 まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。 次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。 その結果、GNはグローバルな最適度を求める際にGDよりも一貫して高速であるが、テストデータセット上での学習モデルの性能は学習率とランダムに初期化されたネットワークの重みのばらつきに大きく影響していることがわかった。 具体的には、より小さな分散で初期化することでより一般化され、GDに対しても挙動が観察される。 しかし,より学習率の高いGDとは対照的に,より学習率の低いGNでは,収束の遅いコストではあるものの,GNはより優れた一般化を実現する。 本研究では,GNの最適化速度と学習解の一般化能力のバランスをとる際の学習速度の重要性を強調する。

This work studies the global convergence and generalization properties of Gauss Newton's (GN) when optimizing one-hidden layer networks in the over-parameterized regime. We first establish a global convergence result for GN in the continuous-time limit exhibiting a faster convergence rate compared to GD due to improved conditioning. We then perform an empirical study on a synthetic regression task to investigate the implicit bias of GN's method. We find that, while GN is consistently faster than GD in finding a global optimum, the performance of the learned model on a test dataset is heavily influenced by both the learning rate and the variance of the randomly initialized network's weights. Specifically, we find that initializing with a smaller variance results in a better generalization, a behavior also observed for GD. However, in contrast to GD where larger learning rates lead to the best generalization, we find that GN achieves an improved generalization when using smaller learning rates, albeit at the cost of slower convergence. This study emphasizes the significance of the learning rate in balancing the optimization speed of GN with the generalization ability of the learned solution.
翻訳日:2023-06-07 03:05:46 公開日:2023-06-05
# 個人化フェデレーション学習の再考: バックドア攻撃に対するロバスト性

Revisiting Personalized Federated Learning: Robustness Against Backdoor Attacks ( http://arxiv.org/abs/2302.01677v2 )

ライセンス: Link先を確認
Zeyu Qin, Liuyi Yao, Daoyuan Chen, Yaliang Li, Bolin Ding, Minhao Cheng(参考訳) 本研究では,予測精度の向上に加えて,パーソナライゼーションがバックドア攻撃にロバスト性をもたらすかどうかを検討する。 ベンチマークデータセットfemnistとcifar-10における6つのpflメソッドに対する4つの広く使用されているバックドア攻撃をテストし,合計600の実験を行った。 この研究は、部分的なモデル共有を伴うpFL法がバックドア攻撃に対するロバスト性を著しく向上させることを示した。 対照的に、完全なモデル共有を持つpfl法は堅牢性を示しない。 異なるロバスト性性能の理由を分析するため,pfl法における包括的アブレーション研究を行った。 そこで本研究では,バックドア攻撃に対する防御性能を実証的に向上する軽量防御手法Simple-Tuningを提案する。 私たちは、pFLアプリケーションの堅牢性の観点からガイダンスを提供し、将来より堅牢なFLメソッドを設計するための貴重な洞察を提供することができると考えています。 我々は、pflでブラックボックスバックドア攻撃の最初のベンチマークを確立するためにコードをオープンソース化した。

In this work, besides improving prediction accuracy, we study whether personalization could bring robustness benefits to backdoor attacks. We conduct the first study of backdoor attacks in the pFL framework, testing 4 widely used backdoor attacks against 6 pFL methods on benchmark datasets FEMNIST and CIFAR-10, a total of 600 experiments. The study shows that pFL methods with partial model-sharing can significantly boost robustness against backdoor attacks. In contrast, pFL methods with full model-sharing do not show robustness. To analyze the reasons for varying robustness performances, we provide comprehensive ablation studies on different pFL methods. Based on our findings, we further propose a lightweight defense method, Simple-Tuning, which empirically improves defense performance against backdoor attacks. We believe that our work could provide both guidance for pFL application in terms of its robustness and offer valuable insights to design more robust FL methods in the future. We open-source our code to establish the first benchmark for black-box backdoor attacks in pFL: https://github.com/alibaba/FederatedScope/tree/backdoor-bench.
翻訳日:2023-06-07 03:05:25 公開日:2023-06-05
# グラフ学習における永続ホモロジーの表現性について

On the Expressivity of Persistent Homology in Graph Learning ( http://arxiv.org/abs/2302.09826v2 )

ライセンス: Link先を確認
Bastian Rieck(参考訳) 計算トポロジのテクニックである永続化ホモロジーは、最近、グラフ分類の文脈で強い経験的性能を示した。 任意の長さのサイクルや多スケールのトポロジ記述子といった高次のトポロジ的特徴により、長い範囲のグラフ特性をキャプチャできるようになり、分子のような顕著なトポロジ的構造を持つデータセットの予測性能が向上した。 同時に、永続ホモロジーの理論的性質はこの文脈で公式に評価されていない。 本稿では、グラフの文脈における持続的ホモロジーの簡単な紹介と、グラフ学習タスクにおけるその表現性に関する理論的議論と経験的分析を提供することにより、計算トポロジーとグラフ機械学習のギャップを埋めることを目的としている。

Persistent homology, a technique from computational topology, has recently shown strong empirical performance in the context of graph classification. Being able to capture long range graph properties via higher-order topological features, such as cycles of arbitrary length, in combination with multi-scale topological descriptors, has improved predictive performance for data sets with prominent topological structures, such as molecules. At the same time, the theoretical properties of persistent homology have not been formally assessed in this context. This paper intends to bridge the gap between computational topology and graph machine learning by providing a brief introduction to persistent homology in the context of graphs, as well as a theoretical discussion and empirical analysis of its expressivity for graph learning tasks.
翻訳日:2023-06-07 02:58:35 公開日:2023-06-05
# midi:分子生成のための混合グラフと3次元分極拡散

MiDi: Mixed Graph and 3D Denoising Diffusion for Molecule Generation ( http://arxiv.org/abs/2302.09048v2 )

ライセンス: Link先を確認
Clement Vignac, Nagham Osman, Laura Toni, Pascal Frossard(参考訳) この研究は、分子グラフとそれに対応する原子の3次元配置を共同生成する新しい拡散モデルであるMiDiを紹介する。 3Dコンホメーションに基づいて分子結合を決定するための事前定義された規則に依存する既存の方法とは異なり、MiDiは分子生成過程を合理化するエンドツーエンドの微分可能なアプローチを提供する。 実験の結果,本手法の有効性が示された。 挑戦的なgeom-drugsデータセットでは、midiは安定分子の92%を生成し、以前のedmモデルではボンド予測に原子間距離を用いる6%、edmを使用して40%、そして結合順序を正当性のために直接最適化するアルゴリズムに対している。 私たちのコードはgithub.com/cvignac/MiDiで利用可能です。

This work introduces MiDi, a novel diffusion model for jointly generating molecular graphs and their corresponding 3D arrangement of atoms. Unlike existing methods that rely on predefined rules to determine molecular bonds based on the 3D conformation, MiDi offers an end-to-end differentiable approach that streamlines the molecule generation process. Our experimental results demonstrate the effectiveness of this approach. On the challenging GEOM-DRUGS dataset, MiDi generates 92% of stable molecules, against 6% for the previous EDM model that uses interatomic distances for bond prediction, and 40% using EDM followed by an algorithm that directly optimize bond orders for validity. Our code is available at github.com/cvignac/MiDi.
翻訳日:2023-06-07 02:57:53 公開日:2023-06-05
# FilFL:フェデレートラーニングにおけるクライアント参加最適化のためのクライアントフィルタリング

FilFL: Client Filtering for Optimized Client Participation in Federated Learning ( http://arxiv.org/abs/2302.06599v2 )

ライセンス: Link先を確認
Fares Fourati, Salma Kharrat, Vaneet Aggarwal, Mohamed-Slim Alouini, Marco Canini(参考訳) フェデレートラーニング(Federated Learning)は、クライアントがローカルデータを交換することなく協調的にトレーニングできる、新たな機械学習パラダイムである。 学習プロセスに参加しているクライアントは、収束率、学習効率、モデル一般化に重大な影響を与える。 本稿では,filflを提案する。filflは,クライアントのフィルタリングを導入することで,クライアントの参加とトレーニングを最適化する新しい手法である。 FilFLは利用可能なクライアントを定期的にフィルタリングし、効率的なグリーディフィルタリングアルゴリズムを用いて組合せ目的関数を最大化するサブセットを特定する。 このフィルタインサブセットから、クライアントはトレーニングプロセスのために選択される。 異種環境におけるFilFL収束の徹底的な解析を行い、その性能を様々なビジョンや言語タスク、および時間変化のあるクライアント可用性を備えた現実的なフェデレーションシナリオで評価する。 学習効率の向上,収束の高速化,最大10ポイントまでのテスト精度向上など,クライアントフィルタリングを使用しないシナリオと比較して,このアプローチのメリットを実証した。

Federated learning is an emerging machine learning paradigm that enables clients to train collaboratively without exchanging local data. The clients participating in the training process have a crucial impact on the convergence rate, learning efficiency, and model generalization. In this work, we propose FilFL, a new approach to optimizing client participation and training by introducing client filtering. FilFL periodically filters the available clients to identify a subset that maximizes a combinatorial objective function using an efficient greedy filtering algorithm. From this filtered-in subset, clients are then selected for the training process. We provide a thorough analysis of FilFL convergence in a heterogeneous setting and evaluate its performance across diverse vision and language tasks and realistic federated scenarios with time-varying client availability. Our empirical results demonstrate several benefits of our approach, including improved learning efficiency, faster convergence, and up to 10 percentage points higher test accuracy compared to scenarios where client filtering is not utilized.
翻訳日:2023-06-07 02:57:23 公開日:2023-06-05
# 水素および水素様イオン結合状態と超微粒分裂:有限核サイズ効果

Hydrogen and hydrogen-like-ion bound states and hyperfine splittings: finite nuclear size effects} ( http://arxiv.org/abs/2302.06288v2 )

ライセンス: Link先を確認
Igor Kuzmenko, Tetyana Kuzmenko, Y. Avishai, Y. B. Band(参考訳) ディラック方程式を用いて, 有限核サイズ(FNS)効果, 相対論的QED放射補正, 核再コイル補正による水素および水素様イオンの電子結合エネルギーと超微細分裂の補正について検討した。 電荷分布と核内の磁気モーメント分布の3つのモデルを検討した。 計算は、光原子(H、He、K)と重原子(Rb、Cs、Pb、Bi、U)に対して行われる。 基底状態エネルギーに対するFNS補正は、電子核還元質量補正よりも小さく、光核に対する相対論的QED放射補正に匹敵するが、重核に対するどちらの補正よりもはるかに大きい。 水素の遷移周波数を1ドルから2ドルの実験で比較する。 基底状態超微細分裂に対するFNS補正は、光核に対する相対論的QED放射補正に匹敵する大きさであるが、重核に対しては大きい。

Using the Dirac equation, we study corrections to electron binding energies and hyperfine splittings of atomic hydrogen and hydrogen-like ions due to finite nuclear size (FNS) effects, relativistic QED radiative corrections and nuclear recoil corrections. Three models for the charge distribution and the magnetic moment distribution within the nucleus are considered. Calculations are carried for light atoms (H, He and K) and heavy atoms (Rb, Cs, Pb, Bi, U). The FNS corrections to the ground-state energy are shown to be smaller than the electron-nucleus reduced mass corrections, and comparable to the relativistic QED radiative corrections for the light nuclei, but much larger than both these corrections for heavy nuclei. Comparison is made with an experiment on the $1s$-$2s$ transition frequency for hydrogen. FNS corrections to the ground state hyperfine splitting are comparable in size to the relativistic QED radiative corrections for light nuclei, but are larger for heavy nuclei.
翻訳日:2023-06-07 02:56:47 公開日:2023-06-05
# 概念ボトルネックモデルの干渉手順のより綿密な考察

A Closer Look at the Intervention Procedure of Concept Bottleneck Models ( http://arxiv.org/abs/2302.14260v2 )

ライセンス: Link先を確認
Sungbin Shin, Yohan Jo, Sungsoo Ahn, Namhoon Lee(参考訳) 概念ボトルネックモデル(cbms)は、そのハイレベルな概念に基づいて与えられた入力のターゲット応答を予測する、解釈可能なニューラルネットワークモデルのクラスである。 標準のエンドツーエンドモデルとは異なり、CBMはドメインの専門家が予測された概念に介入し、テスト時に間違いを修正できるので、最後にもっと正確なタスク予測ができる。 このような対話性は強力な制御手段を提供するが、介入手順の多くの側面は未調査のままである。 本研究では,介入効果を改善するために介入概念を選択する様々な方法を開発し,異なる状況下でどのように進化するかを詳細に分析する。 具体的には、情報的介入戦略は、実際の介入数と同じ量の介入数で現在のベースラインと比較して10倍以上のタスクエラーを低減できるが、異なる介入粒度を考慮すると、かなり大きな違いがある。 我々は, 標準実データ集合だけでなく, 異なる因果グラフの集合に基づいて生成する合成データセットについても, 総合的な評価を行い, 検証を行った。 適切な対応がなければ、介入手続きの信頼性と公平性に対する懸念が高まる現在のプラクティスのいくつかの大きな落とし穴をさらに発見する。

Concept bottleneck models (CBMs) are a class of interpretable neural network models that predict the target response of a given input based on its high-level concepts. Unlike the standard end-to-end models, CBMs enable domain experts to intervene on the predicted concepts and rectify any mistakes at test time, so that more accurate task predictions can be made at the end. While such intervenability provides a powerful avenue of control, many aspects of the intervention procedure remain rather unexplored. In this work, we develop various ways of selecting intervening concepts to improve the intervention effectiveness and conduct an array of in-depth analyses as to how they evolve under different circumstances. Specifically, we find that an informed intervention strategy can reduce the task error more than ten times compared to the current baseline under the same amount of intervention counts in realistic settings, and yet, this can vary quite significantly when taking into account different intervention granularity. We verify our findings through comprehensive evaluations, not only on the standard real datasets, but also on synthetic datasets that we generate based on a set of different causal graphs. We further discover some major pitfalls of the current practices which, without a proper addressing, raise concerns on reliability and fairness of the intervention procedure.
翻訳日:2023-06-07 02:48:15 公開日:2023-06-05
# 構造分布シフト下におけるグラフモデルのロバスト性と不確かさの評価

Evaluating Robustness and Uncertainty of Graph Models Under Structural Distributional Shifts ( http://arxiv.org/abs/2302.13875v2 )

ライセンス: Link先を確認
Gleb Bazhenov, Denis Kuznedelev, Andrey Malinin, Artem Babenko, Liudmila Prokhorenkova(参考訳) 機械学習に基づく信頼できる意思決定システムでは、モデルは分散シフトに頑健であるか、予測の不確実性を提供する必要がある。 グラフ学習のノードレベルの問題では、サンプルが相互依存であるため、分布シフトは特に複雑になる。 グラフモデルの性能を評価するためには,多様かつ有意義な分布シフトで評価することが重要である。 しかし、ノードレベルの問題に対する分布シフトを考慮に入れたグラフベンチマークのほとんどは、主にノードの特徴に焦点を当てている。 本研究では,グラフ構造に基づく多様な分布シフトを誘導する一般的な手法を提案する。 このアプローチは、人気、局所性、密度といったいくつかの構造ノードプロパティに従ってデータ分割を作成するために使用します。 実験では,提案した分布シフトを徹底的に評価し,既存のグラフモデルでは極めて困難であることを示す。 単純なモデルは、これらの困難なシフトに対して、より洗練された手法をしばしば上回っていることも明らかにしています。 最後に,本実験は,構造分布シフト下でのベース分類タスクの学習表現の品質と,これらの表現を用いてノードを異なる分布から分離する能力との間にトレードオフがあることを実証する。

In reliable decision-making systems based on machine learning, models have to be robust to distributional shifts or provide the uncertainty of their predictions. In node-level problems of graph learning, distributional shifts can be especially complex since the samples are interdependent. To evaluate the performance of graph models, it is important to test them on diverse and meaningful distributional shifts. However, most graph benchmarks considering distributional shifts for node-level problems focus mainly on node features, while structural properties are also essential for graph problems. In this work, we propose a general approach for inducing diverse distributional shifts based on graph structure. We use this approach to create data splits according to several structural node properties: popularity, locality, and density. In our experiments, we thoroughly evaluate the proposed distributional shifts and show that they can be quite challenging for existing graph models. We also reveal that simple models often outperform more sophisticated methods on these challenging shifts. Finally, our experiments provide evidence that there is a trade-off between the quality of learned representations for the base classification task under structural distributional shift and the ability to separate the nodes from different distributions using these representations.
翻訳日:2023-06-07 02:47:45 公開日:2023-06-05
# 拡散モデルによる行動クローニング

Diffusion Model-Augmented Behavioral Cloning ( http://arxiv.org/abs/2302.13335v2 )

ライセンス: Link先を確認
Hsiang-Chun Wang, Shang-Fu Chen, Ming-Hao Hsu, Chun-Mao Lai, Shao-Hua Sun(参考訳) 模倣学習は、環境からの報奨信号にアクセスせずに専門家のデモンストレーションを観察して学習の課題に対処する。 環境との相互作用を必要としない既存の模倣学習法の多くは、専門家分布を条件付き確率 p(a|s) または合同確率 p(s, a) としてモデル化する(例えば、暗黙的行動的クローニング)。 その単純さにもかかわらず、条件付き確率のモデル化は通常一般化に苦しむ。 結合確率をモデル化すると一般化性能が向上するが、推論手順は時間がかかり、しばしば多様体オーバーフィッティングに悩まされる。 本研究は,専門家分布の条件付き確率と合同確率の両方をモデル化することで得られる模倣学習フレームワークを提案する。 提案する拡散モデル提示行動クローニング(dbc)は,専門家の行動のモデル化を訓練した拡散モデルを採用し,bc損失(条件)と提案拡散モデル損失(joint)の両方を最適化する方針を学習する。 dbcはナビゲーション、ロボットアーム操作、デクスタース操作、ロコモーションといった様々な連続制御タスクにおいてベースラインを上回る。 我々は,条件付き確率と専門家分布のジョイント確率のどちらかをモデル化する限界を検証するための追加実験を設計し,異なる生成モデルと比較する。

Imitation learning addresses the challenge of learning by observing an expert's demonstrations without access to reward signals from environments. Most existing imitation learning methods that do not require interacting with environments either model the expert distribution as the conditional probability p(a|s) (e.g., behavioral cloning, BC) or the joint probability p(s, a) (e.g., implicit behavioral cloning). Despite its simplicity, modeling the conditional probability with BC usually struggles with generalization. While modeling the joint probability can lead to improved generalization performance, the inference procedure can be time-consuming and it often suffers from manifold overfitting. This work proposes an imitation learning framework that benefits from modeling both the conditional and joint probability of the expert distribution. Our proposed diffusion model-augmented behavioral cloning (DBC) employs a diffusion model trained to model expert behaviors and learns a policy to optimize both the BC loss (conditional) and our proposed diffusion model loss (joint). DBC outperforms baselines in various continuous control tasks in navigation, robot arm manipulation, dexterous manipulation, and locomotion. We design additional experiments to verify the limitations of modeling either the conditional probability or the joint probability of the expert distribution as well as compare different generative models.
翻訳日:2023-06-07 02:47:26 公開日:2023-06-05
# トランスベース3次元物体検出への奥行きの導入

Introducing Depth into Transformer-based 3D Object Detection ( http://arxiv.org/abs/2302.13002v2 )

ライセンス: Link先を確認
Hao Zhang, Hongyang Li, Ailing Zeng, Feng Li, Shilong Liu, Xingyu Liao, Lei Zhang(参考訳) 本稿では,カメラベースの3d検出用に設計された奥行き認識トランスフォーマフレームワークdatを提案する。 本モデルは,既存手法における2つの大きな問題,すなわち深度変換誤差と深度軸に沿った重複予測を考察した。 これらの問題を緩和するため、我々はDAT内の2つの重要な解決策を提案する。 まず,3次元空間に画像特徴を持ち上げる際に,奥行き情報を空間横断に組み込むDA-SCA(Depth-Aware Space Cross-Attention)モジュールを提案する。 2つ目の課題に対処するために,Depth-aware Negative Suppression lossという補助学習タスクを導入する。 まず、それらの参照ポイントに基づいて、Bird's-Eye-View (BEV)機能マップとして機能を整理する。 次に、対象物とカメラを接続する各オブジェクト線に沿って正および負の特徴をサンプリングし、それらの区別のためにモデルを訓練する。 提案するda-scaおよびdnsメソッドは、これらの2つの問題を効果的に緩和する。 DATはBEVFormer, DETR3D, PETRの3モデルすべての性能を向上させる汎用的手法であることを示す。 BEVFormer の評価では,同一設定下での nuScenes val 上で DAT が +2.8 NDS を大幅に向上することを示す。 さらに、トレーニング済みのVoVNet-99をバックボーンとして使用すると、nuScenesテストでは60.0 NDSと51.5 mAPの強い結果が得られる。 私達のコードはすぐに終わるわ

In this paper, we present DAT, a Depth-Aware Transformer framework designed for camera-based 3D detection. Our model is based on observing two major issues in existing methods: large depth translation errors and duplicate predictions along depth axes. To mitigate these issues, we propose two key solutions within DAT. To address the first issue, we introduce a Depth-Aware Spatial Cross-Attention (DA-SCA) module that incorporates depth information into spatial cross-attention when lifting image features to 3D space. To address the second issue, we introduce an auxiliary learning task called Depth-aware Negative Suppression loss. First, based on their reference points, we organize features as a Bird's-Eye-View (BEV) feature map. Then, we sample positive and negative features along each object ray that connects an object and a camera and train the model to distinguish between them. The proposed DA-SCA and DNS methods effectively alleviate these two problems. We show that DAT is a versatile method that enhances the performance of all three popular models, BEVFormer, DETR3D, and PETR. Our evaluation on BEVFormer demonstrates that DAT achieves a significant improvement of +2.8 NDS on nuScenes val under the same settings. Moreover, when using pre-trained VoVNet-99 as the backbone, DAT achieves strong results of 60.0 NDS and 51.5 mAP on nuScenes test. Our code will be soon.
翻訳日:2023-06-07 02:47:01 公開日:2023-06-05
# ゲーム業界の専門家によるテキスト・画像生成AIの認識・採用・利用

"An Adapt-or-Die Type of Situation": Perception, Adoption, and Use of Text-To-Image-Generation AI by Game Industry Professionals ( http://arxiv.org/abs/2302.12601v4 )

ライセンス: Link先を確認
Veera Vimpari, Annakaisa Kultima, Perttu H\"am\"al\"ainen, Christian Guckelsberger(参考訳) クリエイティブAIに最近追加されたTTIG(Text-to-image Generation)モデルは、テキスト記述に基づいて画像を生成することができる。 これらのモデルは、プロのクリエイティブな作品に匹敵し始め、創造的な仕事の未来、失業、著作権問題など、重要な意味を持つ議論を巻き起こした。 TTIGの持続可能な採用を支援するためには、専門家がTTIGをどのように認識し、採用し、利用しているかについて、豊かで信頼性が高く透明な洞察を提供する必要がある。 しかし、公共の議論は浅く、狭く、透明性を欠いている一方で、学術的な研究は一般の芸術家におけるティグの使用についての研究に焦点をあてているが、特定の産業における専門家の認識や態度には焦点を当てていない。 本稿では,フィンランドのビデオゲーム産業におけるTTIGに関する質的,探索的なインタビュー研究に貢献する。 14人のゲーム専門家による半構造化インタビューのテンプレート分析により,専門家の認識,ttigシステムの採用,利用に関する49のサブテーマからなる12のオーバーアーキシングテーマが明らかにされた。 役割や創造的プロセスの変化を経験して、私たちの参加者のリフレクションは、業界内での議論を伝え、政策立案者によって緊急に必要な法律を通知し、ゲームやHCI、AIの研究者を支援し、TTIGの持続可能なプロフェッショナルな使用を支援し、文化的な成果物として人々やゲームに恩恵を与えることができます。

Text-to-image generation (TTIG) models, a recent addition to creative AI, can generate images based on a text description. These models have begun to rival the work of professional creatives, and sparked discussions on the future of creative work, loss of jobs, and copyright issues, amongst other important implications. To support the sustainable adoption of TTIG, we must provide rich, reliable and transparent insights into how professionals perceive, adopt and use TTIG. Crucially though, the public debate is shallow, narrow and lacking transparency, while academic work has focused on studying the use of TTIG in a general artist population, but not on the perceptions and attitudes of professionals in a specific industry. In this paper, we contribute a qualitative, exploratory interview study on TTIG in the Finnish videogame industry. Through a Template Analysis on semi-structured interviews with 14 game professionals, we reveal 12 overarching themes, structured into 49 sub-themes on professionals' perception, adoption and use of TTIG systems in games industry practice. Experiencing (yet another) change of roles and creative processes, our participants' reflections can inform discussions within the industry, be used by policymakers to inform urgently needed legislation, and support researchers in games, HCI and AI to support the sustainable, professional use of TTIG to benefit people and games as cultural artefacts.
翻訳日:2023-06-07 02:46:25 公開日:2023-06-05
# 省エネルギー・再利用・リサイクル:エネルギー拡散モデルとMCMCによる構成生成

Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC ( http://arxiv.org/abs/2302.11552v2 )

ライセンス: Link先を確認
Yilun Du, Conor Durkan, Robin Strudel, Joshua B. Tenenbaum, Sander Dieleman, Rob Fergus, Jascha Sohl-Dickstein, Arnaud Doucet, Will Grathwohl(参考訳) 導入以来、拡散モデルは急速に多くの領域における生成モデリングへの一般的なアプローチとなっている。 これらは、ログ確率密度関数の時間変化列の勾配を学ぶと解釈できる。 この解釈は、拡散モデルのポストホック制御方法として、分類器ベースおよび分類器フリーガイダンスを動機付けている。 本研究は, 拡散モデルのスコアに基づく解釈を用いてこれらの概念を構築し, 構成生成と指導を伴うタスクの拡散モデルを条件づけ, 修正, 再利用する方法を検討する。 特に, 現状の技術を用いて, ある種の構成が失敗する理由を考察し, 多数の解を提示する。 この失敗の原因はサンプル(モデルではない)であり,MCMCにインスパイアされた新しいサンプルの提案である。 さらに,新しい構成演算子と,より洗練されたメトロポリス補正試料を用いた拡散モデルのエネルギーベースパラメータ化を提案する。 興味深いことに、これらのサンプルは、分類器誘導画像ネットモデリングや合成テキスト・画像生成など、幅広い問題において、構成生成の顕著な改善につながっている。

Since their introduction, diffusion models have quickly become the prevailing approach to generative modeling in many domains. They can be interpreted as learning the gradients of a time-varying sequence of log-probability density functions. This interpretation has motivated classifier-based and classifier-free guidance as methods for post-hoc control of diffusion models. In this work, we build upon these ideas using the score-based interpretation of diffusion models, and explore alternative ways to condition, modify, and reuse diffusion models for tasks involving compositional generation and guidance. In particular, we investigate why certain types of composition fail using current techniques and present a number of solutions. We conclude that the sampler (not the model) is responsible for this failure and propose new samplers, inspired by MCMC, which enable successful compositional generation. Further, we propose an energy-based parameterization of diffusion models which enables the use of new compositional operators and more sophisticated, Metropolis-corrected samplers. Intriguingly we find these samplers lead to notable improvements in compositional generation across a wide set of problems such as classifier-guided ImageNet modeling and compositional text-to-image generation.
翻訳日:2023-06-07 02:45:34 公開日:2023-06-05
# 影響のある文脈内サンプル選択

In-context Example Selection with Influences ( http://arxiv.org/abs/2302.11042v2 )

ライセンス: Link先を確認
Tai Nguyen and Eric Wong(参考訳) In-context Learning(ICL)は、大規模言語モデル(LLM)から生まれた強力なパラダイムである。 その約束にもかかわらず、iclのパフォーマンスは入力例に非常に敏感であることが知られている。 この作業では、$\textit{in-context influences}$を使用して、in-context例から直接、少数のiclパフォーマンスを分析します。 提案手法は,9つのSuperGLUEタスクで評価した場合に,正と負の両方のサンプルを抽出し,いくつかのベースラインを達成できる。 私たちの分析では、最もネガティブなインコンテキストの例と最もポジティブな例とのパフォーマンスギャップが16.3 %まで明らかになった。 ケーススタディでは,数発のiclの注文などにおいて,直交バイアスの現象を定量化するために,影響に基づく枠組みを適用した。

In-context learning (ICL) is a powerful paradigm emerged from large language models (LLMs). Despite its promises, ICL performance is known to be highly sensitive to input examples. In this work, we use $\textit{in-context influences}$ to analyze few-shot ICL performance directly from the in-context examples. Our proposed influence-based example selection method can identify both positive and negative examples, outperforming several baselines when evaluated on 9 SuperGLUE tasks. Our analysis uncovers up to a $16.3\%$ performance gap between using the most negative in-context examples compared to the most positive. In a case study, we apply our influence-based framework to quantify the phenomena of recency bias in example ordering for few-shot ICL.
翻訳日:2023-06-07 02:45:15 公開日:2023-06-05
# 深部画像先行部分空間による画像再構成

Image Reconstruction via Deep Image Prior Subspaces ( http://arxiv.org/abs/2302.10279v2 )

ライセンス: Link先を確認
Riccardo Barbano, Javier Antor\'an, Johannes Leuschner, Jos\'e Miguel Hern\'andez-Lobato, Bangti Jin, \v{Z}eljko Kereta(参考訳) ディープラーニングは画像再構成タスクの解法として広く利用されているが,高品質なトレーニングデータの不足のため,そのデプロイ性は保たれている。 深層画像事前学習(DIP)のような教師なし学習手法は、このギャップを自然に埋めるが、堅牢な早期停止戦略の欠如と不安定な収束による過度適合への感受性という、多くの新しい問題をもたらす。 本稿では,ディップ最適化をパラメータのスパース線形部分空間に制限し,次元低減法と2次最適化法を組み合わせた新しい手法を提案する。 部分空間の低次元化はディップのノイズに適合する傾向を減少させ、例えば自然勾配降下やl-bfgのような安定な第二次最適化法を使うことができる。 低次元部分空間における2階の最適化は、忠実度トレードオフを復元するための最適化安定性の観点から、画像復元とトモグラフィーの両課題にまたがる実験が好ましいことを示している。

Deep learning has been widely used for solving image reconstruction tasks but its deployability has been held back due to the shortage of high-quality training data. Unsupervised learning methods, such as the deep image prior (DIP), naturally fill this gap, but bring a host of new issues: the susceptibility to overfitting due to a lack of robust early stopping strategies and unstable convergence. We present a novel approach to tackle these issues by restricting DIP optimisation to a sparse linear subspace of its parameters, employing a synergy of dimensionality reduction techniques and second order optimisation methods. The low-dimensionality of the subspace reduces DIP's tendency to fit noise and allows the use of stable second order optimisation methods, e.g., natural gradient descent or L-BFGS. Experiments across both image restoration and tomographic tasks of different geometry and ill-posedness show that second order optimisation within a low-dimensional subspace is favourable in terms of optimisation stability to reconstruction fidelity trade-off.
翻訳日:2023-06-07 02:45:03 公開日:2023-06-05
# 触覚フィルター:部分交配のための対話的触覚

Tactile-Filter: Interactive Tactile Perception for Part Mating ( http://arxiv.org/abs/2303.06034v2 )

ライセンス: Link先を確認
Kei Ota, Devesh K. Jha, Hsiao-Yu Tung, Joshua B. Tenenbaum(参考訳) 人間はタッチと触覚のセンシングを、巧妙な操作に頼りにしている。 私たちの触覚センシングは、接触形成に関する多くの情報と、対話中の物体に関する幾何学的情報を提供します。 このモチベーションにより、視覚ベースの触覚センサーは様々なロボット認識や制御タスクに広く利用されている。 本稿では,ロボットが触覚センサと粒子フィルタを用いたフィードバック機構を用いて,協調した物体(ペグやホール)の推定を漸進的に改善できる,視覚ベースの触覚センサを用いた部品交尾作業のための対話的知覚手法を提案する。 これを実現するために,我々はまず触覚画像を用いて任意の形状の物体間の確率的対応を予測するディープニューラルネットワークを訓練する。 トレーニングされたモデルは、2倍の粒子フィルタの設計に使用される。 まず、ホールの1つの部分的な(または非特異な)観測が与えられた場合、より触覚的な観察をサンプリングすることで、正しいペグの推定を徐々に改善する。 第2に、ロボットが次のタッチ(つまり画像)をサンプリングする次のアクションを選択し、その結果、最大不確実性が減少し、知覚タスク中の相互作用の数を最小限に抑える。 視覚に基づく触覚センサを備えたロボットを用いて,新しい物体を用いた複数部分マッチングタスクについて評価を行った。 また,本提案手法の有効性を示す。 補足ビデオはhttps://www.youtube.com/watch? v=jMVBg_e3gLw。

Humans rely on touch and tactile sensing for a lot of dexterous manipulation tasks. Our tactile sensing provides us with a lot of information regarding contact formations as well as geometric information about objects during any interaction. With this motivation, vision-based tactile sensors are being widely used for various robotic perception and control tasks. In this paper, we present a method for interactive perception using vision-based tactile sensors for a part mating task, where a robot can use tactile sensors and a feedback mechanism using a particle filter to incrementally improve its estimate of objects (pegs and holes) that fit together. To do this, we first train a deep neural network that makes use of tactile images to predict the probabilistic correspondence between arbitrarily shaped objects that fit together. The trained model is used to design a particle filter which is used twofold. First, given one partial (or non-unique) observation of the hole, it incrementally improves the estimate of the correct peg by sampling more tactile observations. Second, it selects the next action for the robot to sample the next touch (and thus image) which results in maximum uncertainty reduction to minimize the number of interactions during the perception task. We evaluate our method on several part-mating tasks with novel objects using a robot equipped with a vision-based tactile sensor. We also show the efficiency of the proposed action selection method against a naive method. See supplementary video at https://www.youtube.com/watch?v=jMVBg_e3gLw .
翻訳日:2023-06-07 02:40:43 公開日:2023-06-05
# x-pruner:視覚トランスフォーマーのための説明可能なpruning

X-Pruner: eXplainable Pruning for Vision Transformers ( http://arxiv.org/abs/2303.04935v2 )

ライセンス: Link先を確認
Lu Yu, Wei Xiang(参考訳) 近年、視覚トランスフォーマーモデルは様々なタスクの顕著なモデルとなっている。 しかし、これらのモデルは通常、集中的な計算コストと重いメモリ要求に苦しめられ、エッジプラットフォームへのデプロイには実用的でない。 近年の研究では、モデルの内部ユニットと対象クラスとの関係を見落とし、性能を低下させる、説明不能な方法で変圧器をプルーピングすることを提案している。 この問題を軽減するために, プルーニング基準の妥当性を考慮し, X-Prunerと呼ばれる新しい説明可能なプルーニングフレームワークを提案する。 具体的には,各照準器の目標クラス予測への寄与を測定するために,新しい説明可能性を考慮したマスクを提案し,エンドツーエンドで学習する。 そして、最も情報性の高い単位を保存し、レイヤーワイズプルーニング率を学習するために、説明可能性を考慮したマスク値に基づいて、未切断単位とプルーニング単位を区別する階層ワイズ閾値を適応的に探索する。 本手法の検証と評価のために,DiT や Swin Transformer などの代表変圧器モデルに X-Pruner を適用した。 総合シミュレーションの結果,提案したX-Prunerは,計算コストを著しく低減し,性能劣化の少ない最先端のブラックボックス法よりも優れていた。

Recently vision transformer models have become prominent models for a range of tasks. These models, however, usually suffer from intensive computational costs and heavy memory requirements, making them impractical for deployment on edge platforms. Recent studies have proposed to prune transformers in an unexplainable manner, which overlook the relationship between internal units of the model and the target class, thereby leading to inferior performance. To alleviate this problem, we propose a novel explainable pruning framework dubbed X-Pruner, which is designed by considering the explainability of the pruning criterion. Specifically, to measure each prunable unit's contribution to predicting each target class, a novel explainability-aware mask is proposed and learned in an end-to-end manner. Then, to preserve the most informative units and learn the layer-wise pruning rate, we adaptively search the layer-wise threshold that differentiates between unpruned and pruned units based on their explainability-aware mask values. To verify and evaluate our method, we apply the X-Pruner on representative transformer models including the DeiT and Swin Transformer. Comprehensive simulation results demonstrate that the proposed X-Pruner outperforms the state-of-the-art black-box methods with significantly reduced computational costs and slight performance degradation.
翻訳日:2023-06-07 02:39:59 公開日:2023-06-05
# PINNの誤差収束とエンジニアリング誘導型ハイパーパラメータ探索:最適化I-FENN性能に向けて

Error convergence and engineering-guided hyperparameter search of PINNs: towards optimized I-FENN performance ( http://arxiv.org/abs/2303.03918v2 )

ライセンス: Link先を確認
Panos Pantidis, Habiba Eldababy, Christopher Miguel Tagle, Mostafa E. Mobasher(参考訳) 最近提案している統合有限要素ニューラルネットワーク(i-fenn)フレームワーク(pantidis and mobasher, 2023)では、ピンを有限要素レベルで展開して、興味のある状態変数を迅速に近似する方法を紹介し、非局所勾配損傷力学の文脈に適用した。 本稿では、PINNコンポーネントの2つの重要な側面に着目し、I-FENNの厳格さと性能を向上させる。 a) 誤り収束分析及び誤り収束解析 b) ハイパーパラメータと性能の関係 この分野で利用可能な理論定式化を参考に、両目的に答える新しい総合的なパフォーマンス指標のセットに基づく体系的な数値的アプローチを導入する。 第1の目的は,ネットワークサイズとトレーニングサンプルサイズに対するpinnトレーニングエラーとグローバルエラーの収束について詳細に検討することである。 本稿では,ネットワークの複雑性,データセットサイズ,ハイパーパラメータの選択の組み合わせについて検討した2つの誤りタイプの一貫した収束挙動を実証し,pinn設定の適合性を実証し,利用可能な収束理論への実装を示す。 第2の目的は, 予測精度, 計算労力の低減, 自明な解に到達する可能性の少ないハイパーパラメータのa-priori知識を確立することである。 この分析は、I-FENNの性能向上に寄与するいくつかの結果をもたらし、一般的に使用される最適化器(AdamとL-BFGS)を考慮しつつ、ネットワークエラーの数値収束に関するPINN文献の長年のギャップを埋める。 提案手法は科学・工学における他のMLアプリケーションに直接拡張することができる。 分析で使用されるコードとデータは、この研究の再現と拡張を支援するために公開されている。

In our recently proposed Integrated Finite Element Neural Network (I-FENN) framework (Pantidis and Mobasher, 2023) we showcased how PINNs can be deployed on a finite element-level basis to swiftly approximate a state variable of interest, and we applied it in the context of non-local gradient-enhanced damage mechanics. In this paper, we enhance the rigour and performance of I-FENN by focusing on two crucial aspects of its PINN component: a) the error convergence analysis and b) the hyperparameter-performance relationship. Guided by the available theoretical formulations in the field, we introduce a systematic numerical approach based on a novel set of holistic performance metrics to answer both objectives. In the first objective, we explore in detail the convergence of the PINN training error and the global error against the network size and the training sample size. We demonstrate a consistent converging behavior of the two error types for any investigated combination of network complexity, dataset size and choice of hyperparameters, which empirically proves the conformance of the PINN setup and implementation to the available convergence theories. In the second objective, we establish an a-priori knowledge of the hyperparameters which favor higher predictive accuracy, lower computational effort, and the least chances of arriving at trivial solutions. The analysis leads to several outcomes that contribute to the better performance of I-FENN, and fills a long-standing gap in the PINN literature with regards to the numerical convergence of the network errors while accounting for commonly used optimizers (Adam and L-BFGS). The proposed analysis method can be directly extended to other ML applications in science and engineering. The code and data utilized in the analysis are posted publicly to aid the reproduction and extension of this research.
翻訳日:2023-06-07 02:37:53 公開日:2023-06-05
# 補助材料を用いたL0規則化最小二乗の安全ピーリング

Safe Peeling for L0-Regularized Least-Squares with supplementary material ( http://arxiv.org/abs/2302.14471v3 )

ライセンス: Link先を確認
Th\'eo Guyard, Gilles Monnoyer, Cl\'ement Elvira, C\'edric Herzet(参考訳) 分岐境界(BnB)アルゴリズムを用いてL0正規化最小二乗問題の解法を高速化する「安全剥離」と呼ばれる新しい手法を提案する。 提案手法により,BnB決定木の各ノードで考慮される凸緩和を緩和し,より積極的な刈り取りが可能となる。 数値シミュレーションにより,提案手法が探索対象ノード数,全解時間において有意な向上をもたらし,提案手法が探索対象ノード数,全解時間において有意な向上をもたらすことが示された。

We introduce a new methodology dubbed ``safe peeling'' to accelerate the resolution of L0-regularized least-squares problems via a Branch-and-Bound (BnB) algorithm. Our procedure enables to tighten the convex relaxation considered at each node of the BnB decision tree and therefore potentially allows for more aggressive pruning. Numerical simulations show that our proposed methodology leads to significant gains in terms of number of nodes explored and overall solving time.s show that our proposed methodology leads to significant gains in terms of number of nodes explored and overall solving time.
翻訳日:2023-06-07 02:36:05 公開日:2023-06-05
# 分布シフトを伴う時間表型データセットのためのロバストな漸進学習パイプライン

Robust incremental learning pipelines for temporal tabular datasets with distribution shifts ( http://arxiv.org/abs/2303.07925v5 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) 本稿では,時間表データセット上での回帰タスクに対する頑健な逐次学習モデルを提案する。 一般的な利用可能な表型および時系列予測モデルをビルディングブロックとして使用すると、データの分散シフトに対応するために、マシンラーニングモデルがインクリメンタルに構築される。 自己相似性(self-similarity)の概念を用いることで、このモデルは2つの基本的な機械学習モデルの構築ブロック、グラデーション強化決定木、ニューラルネットワークを使用して、複雑なモデルを構築する。 モデルは、特殊なニューラルアーキテクチャを使用しず、各モデル構築ブロックを独立して並列にトレーニングできるため、効率的である。 本モデルは,レジーム変化,脂肪尾分布,低信号対雑音比などの悪条件下でのロバストな性能を示すことが実証された。 モデルロバスト性は、異なるハイパーパラメータと複雑さの下で研究される。

In this paper, we present a robust incremental learning model for regression tasks on temporal tabular datasets. Using commonly available tabular and time-series prediction models as building blocks, a machine-learning model is built incrementally to adapt to distributional shifts in data. Using the concept of self-similarity, the model uses only two basic building blocks of machine learning models, gradient boosting decision trees and neural networks to build models for any required complexity. The model is efficient as no specialised neural architectures are used and each model building block can be independently trained in parallel. The model is demonstrated to have robust performances under adverse situations such as regime changes, fat-tailed distributions and low signal-to-noise ratios. Model robustness are studied under different hyper-parameters and complexities.
翻訳日:2023-06-07 02:26:47 公開日:2023-06-05
# パノラマX線解析のための拡散型階層型多層物体検出

Diffusion-Based Hierarchical Multi-Label Object Detection to Analyze Panoramic Dental X-rays ( http://arxiv.org/abs/2303.06500v3 )

ライセンス: Link先を確認
Ibrahim Ethem Hamamci and Sezgin Er and Enis Simsar and Anjany Sekuboyina and Mustafa Gundogar and Bernd Stadlinger and Albert Mehl and Bjoern Menze(参考訳) 正確な治療計画の必要性から、異なる歯科疾患を識別するためのパノラマX線の使用は著しく増加した。 パノラマX線を解釈するために多くのMLモデルが開発されているが、歯列と関連する診断を同時に行う問題歯を識別できるエンドツーエンドモデルが開発されていない。 このようなモデルを開発するために、FDIシステムに後続する3種類の注釈付きデータを階層的に構築し、第1は4次列挙でラベル付けし、第2は4次列挙でラベル付けし、第3は4次列挙でラベル付けする。 これら3つの階層から共同で学習するために,オブジェクト検出をノイズボックスからオブジェクトボックスへのデノナイズ拡散プロセスとして定式化することにより,新しい拡散に基づく階層型多言語オブジェクト検出フレームワークを導入する。 具体的には, 階層的アノテートデータを活用するために, 拡散ネットワークにおけるデノナイズ処理を, 事前学習したモデルから階層的に推論することで, 新たなノイズボックス操作手法を用いる。 また, 部分的アノテーションから効率的に学習し, 処置計画に各異常歯について必要な情報を全て提供するために, マルチラベル物体検出法を用いる。 提案手法は,パノラマx線分析においてretinanet,高速なr-cnn,detr,distributeddetなどの最先端の物体検出手法を著しく上回っており,階層的および部分的な注釈付きデータセットの可能性を実証している。 コードとデータは、https://github.com/ibrahimethemhamamci/HierarchicalDetで入手できる。

Due to the necessity for precise treatment planning, the use of panoramic X-rays to identify different dental diseases has tremendously increased. Although numerous ML models have been developed for the interpretation of panoramic X-rays, there has not been an end-to-end model developed that can identify problematic teeth with dental enumeration and associated diagnoses at the same time. To develop such a model, we structure the three distinct types of annotated data hierarchically following the FDI system, the first labeled with only quadrant, the second labeled with quadrant-enumeration, and the third fully labeled with quadrant-enumeration-diagnosis. To learn from all three hierarchies jointly, we introduce a novel diffusion-based hierarchical multi-label object detection framework by adapting a diffusion-based method that formulates object detection as a denoising diffusion process from noisy boxes to object boxes. Specifically, to take advantage of the hierarchically annotated data, our method utilizes a novel noisy box manipulation technique by adapting the denoising process in the diffusion network with the inference from the previously trained model in hierarchical order. We also utilize a multi-label object detection method to learn efficiently from partial annotations and to give all the needed information about each abnormal tooth for treatment planning. Experimental results show that our method significantly outperforms state-of-the-art object detection methods, including RetinaNet, Faster R-CNN, DETR, and DiffusionDet for the analysis of panoramic X-rays, demonstrating the great potential of our method for hierarchically and partially annotated datasets. The code and the data are available at: https://github.com/ibrahimethemhamamci/HierarchicalDet.
翻訳日:2023-06-07 02:26:20 公開日:2023-06-05
# 自由視点照明とシーン構成のための物体中心神経散乱関数の学習

Learning Object-Centric Neural Scattering Functions for Free-viewpoint Relighting and Scene Composition ( http://arxiv.org/abs/2303.06138v2 )

ライセンス: Link先を確認
Hong-Xing Yu, Michelle Guo, Alireza Fathi, Yen-Yu Chang, Eric Ryan Chan, Ruohan Gao, Thomas Funkhouser, Jiajun Wu(参考訳) 2次元画像からのフォトリアリスティックオブジェクトの外観モデリングは、視覚とグラフィックスにおいて一定のトピックである。 ニューラルネットワークの暗黙的手法(ニューラルネットワークの放射場など)は高忠実度なビュー合成結果を示しているが、捕獲されたオブジェクトをリフレッシュすることはできない。 より最近のニューラルネットワークの逆レンダリング手法は、物体の照準を可能にするが、表面特性を単純なBRDFとして表すため、半透明物体を扱えない。 画像のみからオブジェクトの外観を再構築する学習のためのオブジェクト指向ニューラル散乱関数(OSF)を提案する。 OSFは、自由視点オブジェクトのリライトだけでなく、不透明なオブジェクトと半透明なオブジェクトの両方をモデル化できる。 半透明物体の地下光輸送を正確にモデル化することは、非常に複雑で、神経学的手法でも難解であるが、OSFは、遠方の光から任意の空間的位置における出射方向への放射移動を近似することを学ぶ。 この近似は、複雑な地下散乱を明示的にモデル化することを避け、ニューラルネットワークの暗黙モデルを学ぶことができる。 実データと合成データの実験により、OSFは不透明な物体と半透明な物体の両方の外観を正確に再構成し、忠実な自由視点のリライティングとシーン構成を可能にした。 プロジェクトウェブサイト: https://kovenyu.com/osf/

Photorealistic object appearance modeling from 2D images is a constant topic in vision and graphics. While neural implicit methods (such as Neural Radiance Fields) have shown high-fidelity view synthesis results, they cannot relight the captured objects. More recent neural inverse rendering approaches have enabled object relighting, but they represent surface properties as simple BRDFs, and therefore cannot handle translucent objects. We propose Object-Centric Neural Scattering Functions (OSFs) for learning to reconstruct object appearance from only images. OSFs not only support free-viewpoint object relighting, but also can model both opaque and translucent objects. While accurately modeling subsurface light transport for translucent objects can be highly complex and even intractable for neural methods, OSFs learn to approximate the radiance transfer from a distant light to an outgoing direction at any spatial location. This approximation avoids explicitly modeling complex subsurface scattering, making learning a neural implicit model tractable. Experiments on real and synthetic data show that OSFs accurately reconstruct appearances for both opaque and translucent objects, allowing faithful free-viewpoint relighting as well as scene composition. Project website: https://kovenyu.com/osf/
翻訳日:2023-06-07 02:25:38 公開日:2023-06-05
# トークン勾配正規化を用いた視覚トランスフォーマの転送可能逆攻撃

Transferable Adversarial Attacks on Vision Transformers with Token Gradient Regularization ( http://arxiv.org/abs/2303.15754v2 )

ライセンス: Link先を確認
Jianping Zhang, Yizhan Huang, Weibin Wu, Michael R. Lyu(参考訳) ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。 転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。 転送ベースの攻撃の効率が高いため、ViTベースのアプリケーションにとって深刻なセキュリティ上の脅威となる。 したがって、セキュリティに敏感なシナリオにおいて、ViTの欠陥を事前に識別するために、効果的な転送ベースの攻撃を設計することが不可欠である。 既存の取り組みは一般的に、反対サンプルの更新方向を安定させるために入力勾配の規則化に重点を置いている。 しかし、ViTsの中間ブロックにおけるバックプロパゲート勾配のばらつきは依然として大きいため、生成した逆数サンプルはいくつかのモデル固有の特徴に焦点を合わせ、局所的最適度が劣る可能性がある。 既存のアプローチの欠点を克服するため,Token Gradient Regularization (TGR)法を提案する。 ViTsの構造的特性により、TGRはViTsの各内部ブロックにおけるバックプロパゲート勾配の分散をトークン的に低減し、正則化勾配を用いて反対サンプルを生成する。 ViTとCNNの両方を攻撃するための大規模な実験により、我々のアプローチの優位性が確認された。 特に、最先端の転送ベースの攻撃と比較して、私たちのTGRは平均8.8%のパフォーマンス改善を提供します。

Vision transformers (ViTs) have been successfully deployed in a variety of computer vision tasks, but they are still vulnerable to adversarial samples. Transfer-based attacks use a local model to generate adversarial samples and directly transfer them to attack a target black-box model. The high efficiency of transfer-based attacks makes it a severe security threat to ViT-based applications. Therefore, it is vital to design effective transfer-based attacks to identify the deficiencies of ViTs beforehand in security-sensitive scenarios. Existing efforts generally focus on regularizing the input gradients to stabilize the updated direction of adversarial samples. However, the variance of the back-propagated gradients in intermediate blocks of ViTs may still be large, which may make the generated adversarial samples focus on some model-specific features and get stuck in poor local optima. To overcome the shortcomings of existing approaches, we propose the Token Gradient Regularization (TGR) method. According to the structural characteristics of ViTs, TGR reduces the variance of the back-propagated gradient in each internal block of ViTs in a token-wise manner and utilizes the regularized gradient to generate adversarial samples. Extensive experiments on attacking both ViTs and CNNs confirm the superiority of our approach. Notably, compared to the state-of-the-art transfer-based attacks, our TGR offers a performance improvement of 8.8% on average.
翻訳日:2023-06-07 02:20:11 公開日:2023-06-05
# スピノリアル球:スピン1/2の巨視的対象

The spinorial ball: a macroscopic object of spin-1/2 ( http://arxiv.org/abs/2303.15215v2 )

ライセンス: Link先を確認
Samuel Bernard-Bernardet, David Dumas, Benjamin Apffel(参考訳) 歴史的に、半スピン粒子の観測は量子力学の最も驚くべき特徴の1つであった。 これらはしばしば「1ターン後に最初の状態に戻るのではなく、2ターン後に行うオブジェクト」と表現される。 同様の振る舞いを示すためにベルトやリボンを挟むといった制約を使ったマクロな実装がある(「ディラックベルトトリック」)。 しかし、半スピンの挙動を持つ無拘束の巨視的物体のデモンストレーションはいまだに解明されていない。 本稿では,この隙間を埋め,スピノリアル球を導入することを提案する。 内部led照明を備えた半透明のプラスチックボールで、自由に動くマクロな半スピン物体として振る舞う。 半整数スピンを導入して視覚化する新しいツールと SU(2) から SO(3) への被覆群準同型を提供し、特に SO(3) の異なるホモトピー類をはっきりと視覚化する。 本稿では, 量子計測と波動関数の崩壊を, スピノリアル球を用いて再現する手法について考察する。 システム全体がオープンソースハードウェアであり、ビルドの詳細、モデル、3dプリンティングファイルなどがオープンソースライセンスで提供されている。

Historically, the observation of half-spin particles was one of the most surprising features of quantum mechanics. They are often described as "objects that do not come back to their initial state after one turn but do after two turns". There are macroscopic implementations using constraints such as clamping a belt or ribbon that purport to show similar behavior (the "Dirac belt trick"). However, a demonstration of an unconstrained macroscopic object with half-spin behavior remains elusive. In this article, we propose to fill this gap and introduce the spinorial ball. It consists of a translucent plastic ball with internal LED illumination that behaves as a freely movable macroscopic half-spin object. It provides a new tool to introduce and visualize half-integer spins as well as the covering group homomorphism from SU(2) to SO(3), and offers in particular a clear visualization of the different homotopy classes of SO(3). We discuss its development and function, and how one can mimic quantum measurement and wave function collapse using this the spinorial ball. The entire system is open source hardware, with build details, models, 3d printing files, etc., provided under an open source license.
翻訳日:2023-06-07 02:19:44 公開日:2023-06-05
# 潜在埋め込みアライメントを用いた関節fmriデコードとエンコード

Joint fMRI Decoding and Encoding with Latent Embedding Alignment ( http://arxiv.org/abs/2303.14730v2 )

ライセンス: Link先を確認
Xuelin Qian, Yikai Wang, Yanwei Fu, Xinwei Sun, Xiangyang Xue, Jianfeng Feng(参考訳) 脳の活動と対応する視覚刺激の関係は、人間の脳を理解する上で重要である。 深部生成モデルではfMRI信号に条件付き画像を生成することで脳記録の回復が進んでいるが、一貫性のあるセマンティクスによる高品質な生成は引き続き課題を呈している。 さらに、視覚刺激による脳活動の予測は、依然として大きな課題である。 本稿では,fMRIデコーディングと符号化の両方に対処する統合フレームワークを提案する。 fmri信号と視覚画像の表現と再構成が可能な2つの潜在空間の確立に着手し、潜在空間内のfmri信号と視覚画像の整合を進め、2つの領域間の双方向変換を可能にした。 我々の潜在埋め込みアライメント(LEA)モデルは、fMRI信号から視覚刺激を同時に回復し、統合されたフレームワーク内の画像から脳活動を予測する。 LEAの性能は、複数のベンチマークfMRIデコードおよびデータセットの符号化における既存の手法を上回る。 fMRIデコーディングと符号化を統合することで、LEAは脳の活動と視覚刺激の複雑な関係をモデル化するための包括的なソリューションを提供する。

The connection between brain activity and corresponding visual stimuli is crucial in comprehending the human brain. While deep generative models have exhibited advancement in recovering brain recordings by generating images conditioned on fMRI signals, accomplishing high-quality generation with consistent semantics continues to pose challenges. Moreover, the prediction of brain activity from visual stimuli remains a formidable undertaking. In this paper, we introduce a unified framework that addresses both fMRI decoding and encoding. Commencing with the establishment of two latent spaces capable of representing and reconstructing fMRI signals and visual images, respectively, we proceed to align the fMRI signals and visual images within the latent space, thereby enabling a bidirectional transformation between the two domains. Our Latent Embedding Alignment (LEA) model concurrently recovers visual stimuli from fMRI signals and predicts brain activity from images within a unified framework. The performance of LEA surpasses that of existing methods on multiple benchmark fMRI decoding and encoding datasets. By integrating fMRI decoding and encoding, LEA offers a comprehensive solution for modeling the intricate relationship between brain activity and visual stimuli.
翻訳日:2023-06-07 02:19:26 公開日:2023-06-05
# ニューラルネットワーク学習のためのメモリ最適化手法の評価

An Evaluation of Memory Optimization Methods for Training Neural Networks ( http://arxiv.org/abs/2303.14633v2 )

ライセンス: Link先を確認
Xiaoxuan Liu, Siddharth Jha, Alvin Cheung(参考訳) モデルのサイズが拡大するにつれて、大規模なモデルをトレーニングする際に発生するメモリボトルネックを解決するソリューションとして、メモリ最適化手法(MOM)の開発が出現している。 各種MOMの実用的価値を総合的に検討するため,システムの観点から既存の文献を徹底的に分析した。 研究コミュニティでは,母親の有効性を効果的に評価するための標準指標が存在しないという,注目すべき課題が明らかにされている。 情報的な評価指標の不足は、研究者や実践者が異なるアプローチを比較してベンチマークする能力を妨げる。 その結果、決定的な結論を導き、母親の選択と応用に関するインフォームドな意思決定を行うことが困難な課題となる。 本論文は,MOMがモデルトレーニングに有利であることを示すシナリオを要約する。 異なるシナリオ下での異なる評価指標の使用を提案する。 これらの指標を用いることで、一般的なMOMを評価し、それらの利点が普遍的でないことを発見する。 実験から得られた知見を提示し,その有利な状況について議論する。

As models continue to grow in size, the development of memory optimization methods (MOMs) has emerged as a solution to address the memory bottleneck encountered when training large models. To comprehensively examine the practical value of various MOMs, we have conducted a thorough analysis of existing literature from a systems perspective. Our analysis has revealed a notable challenge within the research community: the absence of standardized metrics for effectively evaluating the efficacy of MOMs. The scarcity of informative evaluation metrics hinders the ability of researchers and practitioners to compare and benchmark different approaches reliably. Consequently, drawing definitive conclusions and making informed decisions regarding the selection and application of MOMs becomes a challenging endeavor. To address the challenge, this paper summarizes the scenarios in which MOMs prove advantageous for model training. We propose the use of distinct evaluation metrics under different scenarios. By employing these metrics, we evaluate the prevailing MOMs and find that their benefits are not universal. We present insights derived from experiments and discuss the circumstances in which they can be advantageous.
翻訳日:2023-06-07 02:19:08 公開日:2023-06-05
# バイオメトリック品質評価アルゴリズムの評価に関する一考察

Considerations on the Evaluation of Biometric Quality Assessment Algorithms ( http://arxiv.org/abs/2303.13294v3 )

ライセンス: Link先を確認
Torsten Schlett, Christian Rathgeb, Juan Tapia, Christoph Busch(参考訳) 品質評価アルゴリズムを用いて生体認証のための生体試料の有用性を推定することができる。 曲線の「誤差対ディスク特性」(EDC)プロットと「部分曲線」(pAUC)値は、一般に研究者によってそのような品質評価アルゴリズムの予測性能を評価するために用いられる。 EDC曲線は、"False Non Match Rate"(FNMR)、品質評価アルゴリズム、生体認証システム、生体サンプルペアに対応する比較セット、開始誤差に対応するスコア閾値などのエラータイプに依存する。 EDC曲線を計算するために、関連するサンプルの最低品質スコアに基づいて段階的に比較を破棄し、残りの比較に対して誤差を算出する。 さらに、pAUC値を計算するために、廃棄分数制限または範囲を選択する必要があり、それによって品質評価アルゴリズムを定量的にランク付けすることができる。 本稿では,この品質評価アルゴリズムの評価について,一般edc特性,難解な誤差限度とソフトアッパー誤差限度に基づくpauc値の解釈性の向上,離散ランキングではなく相対値の使用,ステップワイズ対線形曲線補間,[0,100]整数領域における品質スコアの正規化など,様々な詳細を考察し,解析する。 また, pAUC の分数制限と開始誤差にまたがる pAUC の値に基づいて, pAUC の量的品質評価アルゴリズムのランク付けの安定性を解析し, より高い分数制限が望ましいと結論付けた。 顔画像品質評価シナリオにおける合成データと実データの両方を用いて分析を行い,edc評価における一般モダリティ非依存的な結論に注目した。

Quality assessment algorithms can be used to estimate the utility of a biometric sample for the purpose of biometric recognition. "Error versus Discard Characteristic" (EDC) plots, and "partial Area Under Curve" (pAUC) values of curves therein, are generally used by researchers to evaluate the predictive performance of such quality assessment algorithms. An EDC curve depends on an error type such as the "False Non Match Rate" (FNMR), a quality assessment algorithm, a biometric recognition system, a set of comparisons each corresponding to a biometric sample pair, and a comparison score threshold corresponding to a starting error. To compute an EDC curve, comparisons are progressively discarded based on the associated samples' lowest quality scores, and the error is computed for the remaining comparisons. Additionally, a discard fraction limit or range must be selected to compute pAUC values, which can then be used to quantitatively rank quality assessment algorithms. This paper discusses and analyses various details for this kind of quality assessment algorithm evaluation, including general EDC properties, interpretability improvements for pAUC values based on a hard lower error limit and a soft upper error limit, the use of relative instead of discrete rankings, stepwise vs. linear curve interpolation, and normalisation of quality scores to a [0, 100] integer range. We also analyse the stability of quantitative quality assessment algorithm rankings based on pAUC values across varying pAUC discard fraction limits and starting errors, concluding that higher pAUC discard fraction limits should be preferred. The analyses are conducted both with synthetic data and with real data for a face image quality assessment scenario, with a focus on general modality-independent conclusions for EDC evaluations.
翻訳日:2023-06-07 02:18:27 公開日:2023-06-05
# 生成的半教師付き学習と生成的オープンセット認識のリンク

Linking generative semi-supervised learning and generative open-set recognition ( http://arxiv.org/abs/2303.11702v2 )

ライセンス: Link先を確認
Emile Reyn Engelbrecht, Johan du Preez(参考訳) 本研究では,GANにおける半教師付き学習(SSL)とオープンセット認識(OSR)の関係について検討した。 SSLとOSRを公式にリンクした以前の研究はないが、それぞれの手法は大きな類似点を共有している。 具体的には、SSL-GANとOSR-GANは、相補的な空間でサンプルを生成するためにジェネレータを必要とする。 その後、生成されたサンプルでネットワークを正規化することで、sslとosrの分類器がオープンスペースを一般化する。 SSL-GAN法とOSR-GAN法を理論的,実験的に比較した。 文献の基盤が強いSSL-GANは,SSL-OSRタスクの新たな標準を設定し,特定の一般OSR実験において新たな最先端技術を実現する。 しかし、osrは、他のosr実験において、逆向点 (arp)-gans を最適化した。 この結果はSSL-OSRの最適化タスクの組み合わせに対するユニークな洞察を示している。

This study investigates the relationship between semi-supervised learning (SSL) and open-set recognition (OSR) in the context of generative adversarial networks (GANs). Although no previous study has formally linked SSL and OSR, their respective methods share striking similarities. Specifically, SSL-GANs and OSR-GANs require their generators to produce samples in the complementary space. Subsequently, by regularising networks with generated samples, both SSL and OSR classifiers generalize the open space. To demonstrate the connection between SSL and OSR, we theoretically and experimentally compare state-of-the-art SSL-GAN methods with state-of-the-art OSR-GAN methods. Our results indicate that the SSL optimised margin-GANs, which have a stronger foundation in literature, set the new standard for the combined SSL-OSR task and achieves new state-of-other art results in certain general OSR experiments. However, the OSR optimised adversarial reciprocal point (ARP)-GANs still slightly out-performed margin-GANs at other OSR experiments. This result indicates unique insights for the combined optimisation task of SSL-OSR.
翻訳日:2023-06-07 02:17:41 公開日:2023-06-05
# 顔行動単位検出のための時空間AU関係グラフ表現学習

Spatio-Temporal AU Relational Graph Representation Learning For Facial Action Units Detection ( http://arxiv.org/abs/2303.10644v3 )

ライセンス: Link先を確認
Zihan Wang, Siyang Song, Cheng Luo, Yuzhi Zhou, Shiling Wu, Weicheng Xie, Linlin Shen(参考訳) 本稿では,第5回ABAW(Affective Behavior Analysis in-the-wild Competition)へのAU(Facial Action Units)検出提案について述べる。 私たちのアプローチは3つの主要なモジュールで構成されています。 (i)入力シーケンスの各入力顔画像から強い顔表現を生成する予め訓練された顔表現エンコーダ (ii)顔表現からAU特徴の集合を特に学習するAU特有特徴生成装置、及び (iii)時空間グラフ表現を構成する時空間グラフ学習モジュール。 このグラフ表現は、すべてのフレームに含まれるAUを記述し、対応する顔内のモデル化された空間情報とフレーム間の学習時間ダイナミクスの両方に基づいて、各AUの発生を予測する。 実験の結果,提案手法がベースラインを上回り,時空間グラフ表現学習により,すべてのアブレーションシステムにおいて最良結果を生成することができた。 私たちのモデルは、第5回ABAWコンペティションのAU認識トラックで4位です。 私たちのコードはhttps://github.com/wzh125/abaw-5で公開されています。

This paper presents our Facial Action Units (AUs) detection submission to the fifth Affective Behavior Analysis in-the-wild Competition (ABAW). Our approach consists of three main modules: (i) a pre-trained facial representation encoder which produce a strong facial representation from each input face image in the input sequence; (ii) an AU-specific feature generator that specifically learns a set of AU features from each facial representation; and (iii) a spatio-temporal graph learning module that constructs a spatio-temporal graph representation. This graph representation describes AUs contained in all frames and predicts the occurrence of each AU based on both the modeled spatial information within the corresponding face and the learned temporal dynamics among frames. The experimental results show that our approach outperformed the baseline and the spatio-temporal graph representation learning allows our model to generate the best results among all ablated systems. Our model ranks at the 4th place in the AU recognition track at the 5th ABAW Competition. Our code is publicly available at https://github.com/wzh125/ABAW-5.
翻訳日:2023-06-07 02:16:39 公開日:2023-06-05
# オートRLハイパーパラメータの景観

AutoRL Hyperparameter Landscapes ( http://arxiv.org/abs/2304.02396v4 )

ライセンス: Link先を確認
Aditya Mohan, Carolin Benjamins, Konrad Wienecke, Alexander Dockhorn, Marius Lindauer(参考訳) 強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その性能に対するハイパーパラメータの影響によって制限されている。 これはしばしば、実践において良い結果を得るのを難しくする。 オートRL(Automated RL)はこの問題に対処するが、ハイパーパラメータ最適化(HPO)手法が最適構成を探索する際のハイパーパラメータランドスケープのダイナミクスについてはほとんど知られていない。 ハイパーパラメータの設定を動的に調整する既存のautorlアプローチの観点から,ハイパーパラメータのランドスケープを1つのポイントだけではなく,トレーニングを通じて複数のポイントで構築・解析する手法を提案する。 Addressing an important open question on the legitimacy of such dynamic AutoRL approaches, we provide thorough empirical evidence that the hyperparameter landscapes strongly vary over time across representative algorithms from RL literature (DQN, PPO, and SAC) in different kinds of environments (Cartpole, Bipedal Walker, and Hopper) This supports the theory that hyperparameters should be dynamically adjusted during training and shows the potential for more insights on AutoRL problems that can be gained through landscape analyses. 私たちのコードはhttps://github.com/automl/AutoRL-Landscapeにある。

Although Reinforcement Learning (RL) has shown to be capable of producing impressive results, its use is limited by the impact of its hyperparameters on performance. This often makes it difficult to achieve good results in practice. Automated RL (AutoRL) addresses this difficulty, yet little is known about the dynamics of the hyperparameter landscapes that hyperparameter optimization (HPO) methods traverse in search of optimal configurations. In view of existing AutoRL approaches dynamically adjusting hyperparameter configurations, we propose an approach to build and analyze these hyperparameter landscapes not just for one point in time but at multiple points in time throughout training. Addressing an important open question on the legitimacy of such dynamic AutoRL approaches, we provide thorough empirical evidence that the hyperparameter landscapes strongly vary over time across representative algorithms from RL literature (DQN, PPO, and SAC) in different kinds of environments (Cartpole, Bipedal Walker, and Hopper) This supports the theory that hyperparameters should be dynamically adjusted during training and shows the potential for more insights on AutoRL problems that can be gained through landscape analyses. Our code can be found at https://github.com/automl/AutoRL-Landscape
翻訳日:2023-06-07 02:08:42 公開日:2023-06-05
# q2atransformer: answer querying decoderによる医療vqaの改善

Q2ATransformer: Improving Medical VQA via an Answer Querying Decoder ( http://arxiv.org/abs/2304.01611v2 )

ライセンス: Link先を確認
Yunyi Liu, Zhanyu Wang, Dong Xu, and Luping Zhou(参考訳) 医用視覚質問応答システム(VQA)は,医用画像による診療関連情報の理解を支援する役割を担っている。 医療画像に対する質問には、クローズドエンド(Yes/No questionなど)とオープンエンドの2つのカテゴリが含まれる。 回答を得るためには、既存の医療用VQA法の大部分は分類手法に依存しており、いくつかの研究は世代アプローチや両者の混合を試みている。 分類アプローチは比較的単純だが、長いオープンエンドの質問ではうまく機能しない。 このギャップを埋めるために,本論文では,医療用VQA(Q2A Transformer)のためのトランスフォーマーベースのフレームワークを提案する。 具体的には,各応答クラスの存在を与えられた画像問合せペアに問合せするために,学習可能な解組の組を持つ追加のトランスフォーマデコーダを導入する。 Transformerの注意を通じて、候補回答の埋め込みは、画像検索ペアの融合した特徴と相互作用して決定を行う。 このように、分類に基づくアプローチであるにもかかわらず、本手法は、生成に基づくアプローチのような予測のための回答情報と対話するメカニズムを提供する。 一方,分類により,回答の探索空間を小さくすることで課題の難易度を軽減できる。 本手法は,2つの医用VQAベンチマークにおいて,新しい最先端性能を実現する。 特に、オープンエンドの質問では、VQA-RADが79.19%、PathVQAが54.85%、それぞれ16.09%、絶対的な改善が41.45%である。

Medical Visual Question Answering (VQA) systems play a supporting role to understand clinic-relevant information carried by medical images. The questions to a medical image include two categories: close-end (such as Yes/No question) and open-end. To obtain answers, the majority of the existing medical VQA methods relies on classification approaches, while a few works attempt to use generation approaches or a mixture of the two. The classification approaches are relatively simple but perform poorly on long open-end questions. To bridge this gap, in this paper, we propose a new Transformer based framework for medical VQA (named as Q2ATransformer), which integrates the advantages of both the classification and the generation approaches and provides a unified treatment for the close-end and open-end questions. Specifically, we introduce an additional Transformer decoder with a set of learnable candidate answer embeddings to query the existence of each answer class to a given image-question pair. Through the Transformer attention, the candidate answer embeddings interact with the fused features of the image-question pair to make the decision. In this way, despite being a classification-based approach, our method provides a mechanism to interact with the answer information for prediction like the generation-based approaches. On the other hand, by classification, we mitigate the task difficulty by reducing the search space of answers. Our method achieves new state-of-the-art performance on two medical VQA benchmarks. Especially, for the open-end questions, we achieve 79.19% on VQA-RAD and 54.85% on PathVQA, with 16.09% and 41.45% absolute improvements, respectively.
翻訳日:2023-06-07 02:08:24 公開日:2023-06-05
# 脳機能ネットワーク分類のためのトランスフォーマーと雪玉グラフ畳み込み学習

Transformer and Snowball Graph Convolution Learning for Brain functional network Classification ( http://arxiv.org/abs/2303.16132v2 )

ライセンス: Link先を確認
Jinlong Hu, Yangmin Huang, Shoubin Dong(参考訳) 高度なディープラーニング手法、特にグラフニューラルネットワーク(gnns)は、脳機能ネットワークデータから学習し、脳障害と健康の間の機能的関連を特定することが期待されている。 本稿では,脳機能ネットワーク分類のための新しいトランスフォーマーと雪玉符号化ネットワーク(TSEN)を提案し,グラフ雪玉接続を用いたトランスフォーマーアーキテクチャをGNNに導入し,グラフ全体の表現を学習する。 TSENは、雪玉エンコーディング層によるグラフ雪玉接続とグラフトランスフォーマーを組み合わせることで、マルチスケール情報と脳機能ネットワークのグローバルパターンをキャプチャする能力を高めた。 TSENはまた、局所パターンを自然にキャプチャするための単純かつ効果的な方法であるTransformer構造に位置埋め込みとして、雪玉グラフ畳み込みを導入した。 提案モデルを2つの大規模脳機能ネットワークデータセットを用いて評価し,TSENが最先端のGNNモデルとグラフ変換器ベースのGNNモデルより優れていることを示した。

Advanced deep learning methods, especially graph neural networks (GNNs), are increasingly expected to learn from brain functional network data and identify the functional connections between brain disorder and health. In this paper, we proposed a novel Transformer and snowball encoding networks (TSEN) for brain functional network classification, which introduced Transformer architecture with graph snowball connection into GNNs for learning whole-graph representation. TSEN combined graph snowball connection with graph Transformer by snowball encoding layers, which enhanced the power to capture multi-scale information and global patterns of brain functional networks. TSEN also introduced snowball graph convolution as position embedding in Transformer structure, which was a simple yet effective method for capturing local patterns naturally. We evaluated the proposed model by two large-scale brain functional network datasets, and the results demonstrated that TSEN outperformed the state-of-the-art GNN models and the graph-transformer based GNN models.
翻訳日:2023-06-07 02:06:08 公開日:2023-06-05
# 空間離散化に基づく進化探索による多目的セキュリティゲームのスケーリング

Scaling Multi-Objective Security Games Provably via Space Discretization Based Evolutionary Search ( http://arxiv.org/abs/2303.15821v2 )

ライセンス: Link先を確認
Yu-Peng Wu, Hong Qian, Rong-Jun Qin, Yi Chen, Aimin Zhou(参考訳) セキュリティの分野では、マルチオブジェクトセキュリティゲーム(MOSG)により、ディフェンダーは複数の異種攻撃者からターゲットを同時に保護することができる。 MOSGは、不均一な攻撃者をマージすることなく、生命、金、犯罪率などの不均一な支払いを同時に最大化する。 現実のシナリオでは、保護される異種攻撃者や標的の数は、既存の最先端手法の能力を超え、すなわち、MOSGはスケーラビリティの問題によって制限される。 そこで本稿では,MOSGを大規模ターゲットや異種攻撃にスケールアップする多目的進化探索に基づくSDESと呼ばれる汎用フレームワークを提案する。 SDESは4つのキーコンポーネント、すなわち離散化、最適化、評価、改善から構成される。 具体的には、SDES はゲーム理論における最大差分性により、元々の高次元連続解空間を低次元離散空間に初めて離散化する。 この性質は、進化アルゴリズム(EA)が高次元ステップ関数をバイパスし、よく収束したパレートフロントを確保するのに役立つ。 次に、多目的EAを用いて低次元離散解空間の最適化を行い、よく空間化されたパレートフロントを得る。 解を評価するために、SDESは、新しい発散測定を鮮やかに最適化することで、解を元の空間に戻す。 最後に、SDESの改良により、最適化性能が許容コストで向上する。 理論的には、SDESの最適化一貫性と収束性を証明する。 実験結果から,SDESは大規模攻撃者および標的双方にとって初めての線形時間MOSGアルゴリズムであることがわかった。 SDESは最大で20人のアタッカーと100人のターゲットMOSGの問題を解決することができるが、最先端のSOTA(State-of-the-art)メソッドは最大8人のアタッカーと25人のターゲットしか解決できない。 アブレーション研究はSDESにおける全てのコンポーネントの必要性を検証する。

In the field of security, multi-objective security games (MOSGs) allow defenders to simultaneously protect targets from multiple heterogeneous attackers. MOSGs aim to simultaneously maximize all the heterogeneous payoffs, e.g., life, money, and crime rate, without merging heterogeneous attackers. In real-world scenarios, the number of heterogeneous attackers and targets to be protected may exceed the capability of most existing state-of-the-art methods, i.e., MOSGs are limited by the issue of scalability. To this end, this paper proposes a general framework called SDES based on many-objective evolutionary search to scale up MOSGs to large-scale targets and heterogeneous attackers. SDES consists of four consecutive key components, i.e., discretization, optimization, evaluation, and refinement. Specifically, SDES first discretizes the originally high-dimensional continuous solution space to the low-dimensional discrete one by the maximal indifference property in game theory. This property helps evolutionary algorithms (EAs) bypass the high-dimensional step function and ensure a well-convergent Pareto front. Then, a many-objective EA is used for optimization in the low-dimensional discrete solution space to obtain a well-spaced Pareto front. To evaluate solutions, SDES restores solutions back to the original space via greedily optimizing a novel divergence measurement. Finally, the refinement in SDES boosts the optimization performance with acceptable cost. Theoretically, we prove the optimization consistency and convergence of SDES. Experiment results show that SDES is the first linear-time MOSG algorithm for both large-scale attackers and targets. SDES is able to solve up to 20 attackers and 100 targets MOSG problems, while the state-of-the-art (SOTA) methods can only solve up to 8 attackers and 25 targets ones. Ablation study verifies the necessity of all components in SDES.
翻訳日:2023-06-07 02:05:49 公開日:2023-06-05
# 多エネルギー管理システムにおける安全強化学習のためのハード制約付き適応安全層

An adaptive safety layer with hard constraints for safe reinforcement learning in multi-energy management systems ( http://arxiv.org/abs/2304.08897v2 )

ライセンス: Link先を確認
Glenn Ceusters, Muhammad Andy Putratama, R\"udiger Franke, Ann Now\'e, Maarten Messagie(参考訳) ハード制約付き安全強化学習(rl)は、マルチエネルギ管理システムの最適制御方向として有望である。 環境固有の制約関数自体を、完全なモデル(植物、乱れ、騒音モデル、プラントモデルに含まれない状態(需要予測、天気予報、価格予測など)の予測モデル)ではなく、事前の制約関数のみを必要とする。 それゆえ、プロジェクト固有の事前および進行中のエンジニアリング努力は依然として削減され、基盤となるシステムダイナミクスのより良い表現は依然として学習でき、モデリングバイアスは最小限(モデルベースの客観的関数なし)に保たれます。 しかし、制約関数だけであっても、事前に正確に提供することは必ずしも簡単ではないため、潜在的に安全でない振る舞いにつながる。 本稿では, (I) Optlayer と SafeFallback を併用した OptLayerPolicy という新しい手法を提案する。 (ii)より多くのデータが利用可能になるにつれて、制約関数の精度を高めるために、自己改善的な制約を導入すること。 どちらの進歩も制約の定式化をRL定式化から切り離すことを保ち、新しい(おそらくより良い)RLアルゴリズムがドロップイン置換として機能できるようにしている。 シミュレーションによるマルチエネルギーシステムのケーススタディでは,初期効用は86.1% (OptLayerPolicy) に対して92.4% (OptLayerPolicy) に増加し,訓練後の政策は104.9% (GreyOptLayerPolicy) に,バニラRLベンチマークと比較して103.4% (OptLayer) に増加した。 最適化問題にサロゲート関数を導入するには特に注意が必要であるが,新たに提示したgreyoptlayerpolicy法が最も有利であると結論する。

Safe reinforcement learning (RL) with hard constraint guarantees is a promising optimal control direction for multi-energy management systems. It only requires the environment-specific constraint functions itself a priori and not a complete model (i.e. plant, disturbance and noise models, and prediction models for states not included in the plant model - e.g. demand forecasts, weather forecasts, price forecasts). The project-specific upfront and ongoing engineering efforts are therefore still reduced, better representations of the underlying system dynamics can still be learned and modelling bias is kept to a minimum (no model-based objective function). However, even the constraint functions alone are not always trivial to accurately provide in advance, leading to potentially unsafe behaviour. In this paper, we present two novel advancements: (I) combining the Optlayer and SafeFallback method, named OptLayerPolicy, to increase the initial utility while keeping a high sample efficiency. (II) introducing self-improving hard constraints, to increase the accuracy of the constraint functions as more data becomes available so that better policies can be learned. Both advancements keep the constraint formulation decoupled from the RL formulation, so that new (presumably better) RL algorithms can act as drop-in replacements. We have shown that, in a simulated multi-energy system case study, the initial utility is increased to 92.4% (OptLayerPolicy) compared to 86.1% (OptLayer) and that the policy after training is increased to 104.9% (GreyOptLayerPolicy) compared to 103.4% (OptLayer) - all relative to a vanilla RL benchmark. While introducing surrogate functions into the optimization problem requires special attention, we do conclude that the newly presented GreyOptLayerPolicy method is the most advantageous.
翻訳日:2023-06-07 02:00:02 公開日:2023-06-05
# 古典量子確率過程の客観性

Objectivity of classical quantum stochastic processes ( http://arxiv.org/abs/2304.07110v2 )

ライセンス: Link先を確認
Piotr Sza\'nkowski and {\L}ukasz Cywi\'nski(参考訳) 量子確率過程(英語版)(quantum stochastic process)と呼ばれる、観測可能な量子の逐次測定がコルモゴロフの一貫性条件を満たし、従って観測者が古典軌道のサンプリングとして現れるとき、量子系について何が結論づけられるかを調べる。 システム力学に課される物理条件の集合を同定し, 満足すると, 上記の測定結果の軌道解釈に導かれる。 そして、別の量子系が可観測性に結合されたとき、それを表わす演算子を外部ノイズに置き換えることができることを示す。 重要なことに、このサロゲート(古典的)確率過程の実現は、観測者によって測定されたものと同じ軌道に従っている。 したがって、コルモゴロフの一貫した測定によって示唆される軌道解釈は、逐次測定以外の文脈にも適用できると言える。

We investigate what can be concluded about the quantum system when the sequential quantum measurements of its observable -- a prominent example of the so-called quantum stochastic process -- fulfill the Kolmogorov consistency condition, and thus, appear to an observer as a sampling of classical trajectory. We identify a set of physical conditions imposed on the system dynamics, that when satisfied lead to the aforementioned trajectory interpretation of the measurement results. Then, we show that when another quantum system is coupled to the observable, the operator representing it can be replaced by an external noise. Crucially, the realizations of this surrogate (classical) stochastic process are following the same trajectories as those measured by the observer. Therefore, it can be said that the trajectory interpretation suggested by the Kolmogorov consistent measurements also applies in contexts other than sequential measurements.
翻訳日:2023-06-07 01:59:04 公開日:2023-06-05
# ラベルフリー概念ボトルネックモデル

Label-Free Concept Bottleneck Models ( http://arxiv.org/abs/2304.06129v2 )

ライセンス: Link先を確認
Tuomas Oikarinen, Subhro Das, Lam M. Nguyen, Tsui-Wei Weng(参考訳) 概念ボトルネックモデル(CBM)は、隠れた層ニューロンが人間の理解可能な概念に対応することによって、より解釈可能なニューラルネットワークを作成する一般的な方法である。 しかし、既存のCBMとその変種には2つの重要な制限がある: まず、事前に定義された概念のそれぞれについてラベル付きデータを収集する必要がある。 この貧弱なパフォーマンスは、現実のアプリケーションでCBMを採用するための障壁を生み出します。 これらの課題に動機づけられて,ニューラルネットワークを概念データをラベル付けすることなく解釈可能なcbmに変換するための新しいフレームワークであるラベルフリーcbmを提案する。 スケーラブル - イメージネットにスケールした最初のcbmを表示し、効率的 - cbmを作成するには、非常に大きなデータセットであっても数時間しかかからず、自動化 - 新たなデータセットのためにトレーニングするには、最小限の人的労力が必要です。 私たちのコードはhttps://github.com/Trustworthy-ML-Lab/Label-free-CBMで利用可能です。 最後に,Appendix Bでは,提案手法の解釈可能性に関する大規模なユーザ評価を行う。

Concept bottleneck models (CBM) are a popular way of creating more interpretable neural networks by having hidden layer neurons correspond to human-understandable concepts. However, existing CBMs and their variants have two crucial limitations: first, they need to collect labeled data for each of the predefined concepts, which is time consuming and labor intensive; second, the accuracy of a CBM is often significantly lower than that of a standard neural network, especially on more complex datasets. This poor performance creates a barrier for adopting CBMs in practical real world applications. Motivated by these challenges, we propose Label-free CBM which is a novel framework to transform any neural network into an interpretable CBM without labeled concept data, while retaining a high accuracy. Our Label-free CBM has many advantages, it is: scalable - we present the first CBM scaled to ImageNet, efficient - creating a CBM takes only a few hours even for very large datasets, and automated - training it for a new dataset requires minimal human effort. Our code is available at https://github.com/Trustworthy-ML-Lab/Label-free-CBM. Finally, in Appendix B we conduct a large scale user evaluation of the interpretability of our method.
翻訳日:2023-06-07 01:58:48 公開日:2023-06-05
# ロバストと生成モデルとのつながりを探る

Exploring the Connection between Robust and Generative Models ( http://arxiv.org/abs/2304.04033v4 )

ライセンス: Link先を確認
Senad Beadini and Iacopo Masi(参考訳) 我々は,敵対的訓練(AT)で訓練された頑健な識別的分類器と,エネルギーベースモデル(EBM)の形で生成的モデリングを結びつける研究を提案する。 我々は、識別的分類器の損失を分解し、識別的モデルが入力データ密度も認識していることを示す。 一般的な仮定は、逆数点が入力データの多様体を残していることであるが、我々の研究は、驚くほど、入力空間の未ターゲットの逆数点が、識別型分類器の内部に隠された生成モデルの下では、EMMのエネルギーが低いことを発見した。 非標的攻撃は、自然データよりもさらに可能性が高く、攻撃強度が増大するにつれてその可能性が増加する。 これにより、それらを簡単に検出し、分類器を騙してデータセットに似たエネルギーを持つ、High-Energy PGDと呼ばれる新しい攻撃を作れます。 コードはgithub.com/senad96/Robust-Generativeで入手できる。

We offer a study that connects robust discriminative classifiers trained with adversarial training (AT) with generative modeling in the form of Energy-based Models (EBM). We do so by decomposing the loss of a discriminative classifier and showing that the discriminative model is also aware of the input data density. Though a common assumption is that adversarial points leave the manifold of the input data, our study finds out that, surprisingly, untargeted adversarial points in the input space are very likely under the generative model hidden inside the discriminative classifier -- have low energy in the EBM. We present two evidence: untargeted attacks are even more likely than the natural data and their likelihood increases as the attack strength increases. This allows us to easily detect them and craft a novel attack called High-Energy PGD that fools the classifier yet has energy similar to the data set. The code is available at github.com/senad96/Robust-Generative
翻訳日:2023-06-07 01:57:24 公開日:2023-06-05
# Discover and Cure: Spurious correlation の概念を意識した緩和

Discover and Cure: Concept-aware Mitigation of Spurious Correlation ( http://arxiv.org/abs/2305.00650v2 )

ライセンス: Link先を確認
Shirley Wu, Mert Yuksekgonul, Linjun Zhang, James Zou(参考訳) ディープニューラルネットワークは、しばしば、トレーニング環境を超えて一般化を妨げる予測を行うために、急激な相関に依存する。 例えば、猫とベッドの背景を関連付けるモデルは、ベッドなしで他の環境における猫の存在を予測することができない。 信頼に値するモデルを構築するには、スプリアス相関の緩和が不可欠である。 しかしながら、既存の作業には緩和プロセスに関する洞察を提供するための透明性がない。 本稿では,この問題に取り組むための解釈可能なフレームワーク,discover and cure (disc)を提案する。 人間の解釈可能な概念, DISC を反復的に 1)異なる環境にまたがる不安定な概念をスプリアス属性として発見する。 2)スプリアス相関を低減すべく,発見概念を用いたトレーニングデータへの介入を行う。 体系的な実験を通じて、ディスクは既存のアプローチよりも優れた一般化能力と解釈性を提供する。 具体的には、オブジェクト認識タスクにおける最先端の手法とスキン配列分類タスクをそれぞれ7.5%、9.6%上回る。 さらに,ディスクでトレーニングされたモデルの利点を理解するための理論的解析と保証を提供する。 コードとデータはhttps://github.com/wuyxin/discで入手できる。

Deep neural networks often rely on spurious correlations to make predictions, which hinders generalization beyond training environments. For instance, models that associate cats with bed backgrounds can fail to predict the existence of cats in other environments without beds. Mitigating spurious correlations is crucial in building trustworthy models. However, the existing works lack transparency to offer insights into the mitigation process. In this work, we propose an interpretable framework, Discover and Cure (DISC), to tackle the issue. With human-interpretable concepts, DISC iteratively 1) discovers unstable concepts across different environments as spurious attributes, then 2) intervenes on the training data using the discovered concepts to reduce spurious correlation. Across systematic experiments, DISC provides superior generalization ability and interpretability than the existing approaches. Specifically, it outperforms the state-of-the-art methods on an object recognition task and a skin-lesion classification task by 7.5% and 9.6%, respectively. Additionally, we offer theoretical analysis and guarantees to understand the benefits of models trained by DISC. Code and data are available at https://github.com/Wuyxin/DISC.
翻訳日:2023-06-07 01:49:02 公開日:2023-06-05
# 緩和仮定によるアダムの収束

Convergence of Adam under Relaxed Assumptions ( http://arxiv.org/abs/2304.13972v2 )

ライセンス: Link先を確認
Haochuan Li, Alexander Rakhlin, Ali Jadbabaie(参考訳) 本稿では,適応モーメント推定(adam)アルゴリズムの幅広い最適化対象に対する収束の厳密な証明を提案する。 ディープニューラルネットワークのトレーニングにおけるアダムアルゴリズムの人気と効率性にもかかわらず、その理論的性質はまだ完全には理解されておらず、既存の収束証明は静止点への収束を示すために、グローバル境界勾配のような非現実的に強い仮定を必要とする。 本稿では、Adamがより現実的な条件下で、$\epsilon$-stationary points と $\mathcal{O}(\epsilon^{-4})$ gradient complexity に確実に収束することを示す。 解析の鍵となるのは、アダムの最適化軌道に沿った勾配の有界性(英語版)(boundedness)の新たな証明であり、局所滑らか性(すなわち、それが存在するときのヘッセンノルム)が勾配ノルムの部分二次函数によって有界となる一般化された滑らか性仮定の下でである。 さらに、Adamの分散還元版を$\mathcal{O}(\epsilon^{-3})$の加速勾配複雑性で提案する。

In this paper, we provide a rigorous proof of convergence of the Adaptive Moment Estimate (Adam) algorithm for a wide class of optimization objectives. Despite the popularity and efficiency of the Adam algorithm in training deep neural networks, its theoretical properties are not yet fully understood, and existing convergence proofs require unrealistically strong assumptions, such as globally bounded gradients, to show the convergence to stationary points. In this paper, we show that Adam provably converges to $\epsilon$-stationary points with $\mathcal{O}(\epsilon^{-4})$ gradient complexity under far more realistic conditions. The key to our analysis is a new proof of boundedness of gradients along the optimization trajectory of Adam, under a generalized smoothness assumption according to which the local smoothness (i.e., Hessian norm when it exists) is bounded by a sub-quadratic function of the gradient norm. Moreover, we propose a variance-reduced version of Adam with an accelerated gradient complexity of $\mathcal{O}(\epsilon^{-3})$.
翻訳日:2023-06-07 01:48:14 公開日:2023-06-05
# インド言語におけるバイリンガル・セマンティック・パーシングの評価

Evaluating Inter-Bilingual Semantic Parsing for Indian Languages ( http://arxiv.org/abs/2304.13005v2 )

ライセンス: Link先を確認
Divyanshu Aggarwal, Vivek Gupta, Anoop Kunchukuttan(参考訳) インド語の自然言語生成(IndicNLP)の進歩にもかかわらず、意味解析のような複雑な構造化タスクに関するデータセットが不足している。 この差し迫ったギャップの1つは論理形式の複雑さであり、英語から多言語への翻訳が難しい。 このプロセスでは、論理形式、意図、スロットを翻訳された非構造的発話とアライメントする。 そこで本研究では,11の異なるインド言語を対象としたセマンティック解析データセットIE-SEMPARSEを提案する。 本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。 実験の結果,mTOP, Multilingual TOP, multiATIS++ など) と提案した IE-SEMPARSE スイートの性能に高い相関関係が認められた。

Despite significant progress in Natural Language Generation for Indian languages (IndicNLP), there is a lack of datasets around complex structured tasks such as semantic parsing. One reason for this imminent gap is the complexity of the logical form, which makes English to multilingual translation difficult. The process involves alignment of logical forms, intents and slots with translated unstructured utterance. To address this, we propose an Inter-bilingual Seq2seq Semantic parsing dataset IE-SEMPARSE for 11 distinct Indian languages. We highlight the proposed task's practicality, and evaluate existing multilingual seq2seq models across several train-test strategies. Our experiment reveals a high correlation across performance of original multilingual semantic parsing datasets (such as mTOP, multilingual TOP and multiATIS++) and our proposed IE-SEMPARSE suite.
翻訳日:2023-06-07 01:47:27 公開日:2023-06-05
# 医用画像のためのジェネリストビジョン基礎モデル:ゼロショット・メディカル・セグメンテーションにおけるセグメンテーションモデルの一事例

Generalist Vision Foundation Models for Medical Imaging: A Case Study of Segment Anything Model on Zero-Shot Medical Segmentation ( http://arxiv.org/abs/2304.12637v2 )

ライセンス: Link先を確認
Peilun Shi, Jianing Qiu, Sai Mu Dalike Abaxi, Hao Wei, Frank P.-W. Lo, Wu Yuan(参考訳) 本稿では,最近の医学画像におけるsegment anything model(sam)について検討し,光コヒーレンス断層撮影(oct),磁気共鳴画像(mri),ct(ct)など,9つの医用画像セグメンテーションベンチマークの定量的・定性的ゼロショットセグメンテーション結果と,皮膚科,眼科,放射線学の異なる応用について報告する。 これらのベンチマークは代表的であり、モデル開発でよく使われる。 実験の結果,SAMは一般領域の画像に対して顕著なセグメンテーション性能を示すが,そのゼロショットセグメンテーション能力は,医用画像などの分布外画像に制限されている。 さらにSAMは、異なる未知の医療領域にわたる一貫性のないゼロショットセグメンテーション性能を示す。 血管などの特定の構造的標的に対して、SAMのゼロショットセグメンテーションは完全に失敗した。 対照的に、少量のデータで簡単な微調整を行うことで、セグメンテーションの品質が著しく向上し、精密診断のための正確な医用画像セグメンテーションを実現するために微調整SAMを使用することの大きな可能性と実現可能性を示す。 本研究は, 医用画像における汎用的ビジョン基盤モデルの有用性と, 臨床診断支援のため, 大規模・多種多様な医療データセットへのアクセスに関わる課題に対処する上で, 望まれるパフォーマンスを実現する大きな可能性を示すものである。

In this paper, we examine the recent Segment Anything Model (SAM) on medical images, and report both quantitative and qualitative zero-shot segmentation results on nine medical image segmentation benchmarks, covering various imaging modalities, such as optical coherence tomography (OCT), magnetic resonance imaging (MRI), and computed tomography (CT), as well as different applications including dermatology, ophthalmology, and radiology. Those benchmarks are representative and commonly used in model development. Our experimental results indicate that while SAM presents remarkable segmentation performance on images from the general domain, its zero-shot segmentation ability remains restricted for out-of-distribution images, e.g., medical images. In addition, SAM exhibits inconsistent zero-shot segmentation performance across different unseen medical domains. For certain structured targets, e.g., blood vessels, the zero-shot segmentation of SAM completely failed. In contrast, a simple fine-tuning of it with a small amount of data could lead to remarkable improvement of the segmentation quality, showing the great potential and feasibility of using fine-tuned SAM to achieve accurate medical image segmentation for a precision diagnostics. Our study indicates the versatility of generalist vision foundation models on medical imaging, and their great potential to achieve desired performance through fine-turning and eventually address the challenges associated with accessing large and diverse medical datasets in support of clinical diagnostics.
翻訳日:2023-06-07 01:47:12 公開日:2023-06-05
# LiDAR2Map:オンラインカメラ蒸留によるLiDARに基づく意味マップ構築の防御

LiDAR2Map: In Defense of LiDAR-Based Semantic Map Construction Using Online Camera Distillation ( http://arxiv.org/abs/2304.11379v2 )

ライセンス: Link先を確認
Song Wang and Wentong Li and Wenyu Liu and Xiaolu Liu and Jianke Zhu(参考訳) 鳥眼ビュー(BEV)に基づくセマンティックマップの構築は、自律運転において重要な役割を果たす。 カメラ画像とは対照的に、LiDARは捉えた3D機能を本質的にBEV空間に投影する正確な3D観察を提供する。 しかしながら、バニラLiDARベースのBEV機能は、空間的特徴がほとんどテクスチャとセマンティックな手がかりを持たない多くの不確定ノイズを含むことが多い。 本稿では,LiDARを用いたセマンティックマップ構築手法を提案する。 具体的には、セマンティックマップ構築のための堅牢なマルチスケールBEV特徴を学習するBEV機能ピラミッドデコーダを導入し、LiDAR方式の精度を大幅に向上させる。 LiDARデータにおける意味的手がかりの欠如による欠陥を軽減するために,画像からポイントクラウドへのセマンティック学習を容易にするオンラインカメラ対LiDAR蒸留方式を提案する。 我々の蒸留方式は,BEVのカメラからの意味情報を吸収する特徴レベルおよびロジットレベル蒸留からなる。 提案したLiDAR2Mapのセマンティックマップ構築に対する有効性は,27.9% mIoU以上の従来のLiDARベースの手法よりも優れ,最先端のカメラベースアプローチよりも優れていた。 ソースコードはhttps://github.com/songw-zju/lidar2map。

Semantic map construction under bird's-eye view (BEV) plays an essential role in autonomous driving. In contrast to camera image, LiDAR provides the accurate 3D observations to project the captured 3D features onto BEV space inherently. However, the vanilla LiDAR-based BEV feature often contains many indefinite noises, where the spatial features have little texture and semantic cues. In this paper, we propose an effective LiDAR-based method to build semantic map. Specifically, we introduce a BEV feature pyramid decoder that learns the robust multi-scale BEV features for semantic map construction, which greatly boosts the accuracy of the LiDAR-based method. To mitigate the defects caused by lacking semantic cues in LiDAR data, we present an online Camera-to-LiDAR distillation scheme to facilitate the semantic learning from image to point cloud. Our distillation scheme consists of feature-level and logit-level distillation to absorb the semantic information from camera in BEV. The experimental results on challenging nuScenes dataset demonstrate the efficacy of our proposed LiDAR2Map on semantic map construction, which significantly outperforms the previous LiDAR-based methods over 27.9% mIoU and even performs better than the state-of-the-art camera-based approaches. Source code is available at: https://github.com/songw-zju/LiDAR2Map.
翻訳日:2023-06-07 01:46:23 公開日:2023-06-05
# 自己編集:コード生成のためのフォールトアウェアコードエディタ

Self-Edit: Fault-Aware Code Editor for Code Generation ( http://arxiv.org/abs/2305.04087v3 )

ライセンス: Link先を確認
Kechi Zhang, Zhuo Li, Jia Li, Ge Li, Zhi Jin(参考訳) 大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。 しかし、サンプル数が限られているため、LLMは依然として精度が低い。 人間のプログラミングのプロセスにインスパイアされた自己編集手法であるSelf-Editを提案し,LLMから生成されたコードの実行結果を利用して,競合するプログラミングタスクにおけるコード品質を向上させる。 質問に含まれるサンプルテストケースで生成されたコードを実行し、実行結果を補足コメントにラップします。 このコメントをガイダンスとして利用し,フォールトアウェアコードエディタを用いて生成したコードのエラーを訂正する。 我々は、9つの異なるLLMを持つ2つの競合プログラミングデータセットに対して広範な評価を行う。 LLMの直接生成と比較すると、パラメータサイズが110Mから175Bの9つの人気のあるコード生成LLMに対して、APPS-devでは89倍、APPS-testでは31倍、HumanEvalでは48倍の改善が可能である。 本手法は他の後処理法と比較して精度と効率が優れる。

Large language models (LLMs) have demonstrated an impressive ability to generate codes on competitive programming tasks. However, with limited sample numbers, LLMs still suffer from poor accuracy. Inspired by the process of human programming, we propose a generate-and-edit approach named Self-Edit that utilizes execution results of the generated code from LLMs to improve the code quality on the competitive programming task. We execute the generated code on the example test case provided in the question and wrap execution results into a supplementary comment. Utilizing this comment as guidance, our fault-aware code editor is employed to correct errors in the generated code. We perform extensive evaluations across two competitive programming datasets with nine different LLMs. Compared to directly generating from LLMs, our approach can improve the average of pass@1 by 89\% on APPS-dev, 31\% on APPS-test, and 48\% on HumanEval over nine popular code generation LLMs with parameter sizes ranging from 110M to 175B. Compared to other post-processing methods, our method demonstrates superior accuracy and efficiency.
翻訳日:2023-06-07 01:40:22 公開日:2023-06-05
# DSPDet3D:3次元小物体検出のための動的空間プラニング

DSPDet3D: Dynamic Spatial Pruning for 3D Small Object Detection ( http://arxiv.org/abs/2305.03716v2 )

ライセンス: Link先を確認
Xiuwei Xu, Zhihao Sun, Ziwei Wang, Hongmin Liu, Jie Zhou, Jiwen Lu(参考訳) きめ細かい3dオブジェクト検出は、エージェントが3d環境を理解し、周囲のオブジェクトとやり取りできるコア機能である。 しかしながら、現在のメソッドとベンチマークは主に比較的大きなものに焦点を当てています。 3dオブジェクト検出器は、弱い幾何学的情報のためにまだ小さなオブジェクトで苦労している。 詳細な研究により,特徴マップの空間分解能の増大は3次元小物体検出の性能を著しく向上させることがわかった。 さらに興味深いことに、計算オーバーヘッドは解像度とともに劇的に増加するが、主にデコーダのアップサンプリング操作によって増大する。 そこで本研究では,DSPDet3Dという動的空間プルーニングを用いた高解像度マルチレベル検出器を提案する。 ScanNetとTO-SCENEデータセットの2つのベンチマークを編成し,DSPDet3Dは既存の3Dオブジェクト検出法と比較して推論速度を向上しつつ,小型オブジェクトの検出性能を新たなレベルに向上させる。 さらに、ScanNetルームのみで訓練されたDSPDet3Dは、大規模にシーンを一般化することができる。 dspdet3dは、1つのrtx 3090 gpuで、ボトルからベッドまで、ほぼすべてのオブジェクトを検出しながら、数十の部屋からなる家や建物全体を直接処理するのに2秒以下かかる。 プロジェクトページ: https://xuxw98.github.io/DSPDet3D/。

Fine-grained 3D object detection is a core ability for agents to understand their 3D environment and interact with surrounding objects. However, current methods and benchmarks mainly focus on relatively large stuff. 3D object detectors still struggle on small objects due to weak geometric information. With in-depth study, we find increasing the spatial resolution of the feature maps significantly boosts the performance of 3D small object detection. And more interestingly, though the computational overhead increases dramatically with resolution, the growth mainly comes from the upsampling operation of the decoder. Inspired by this, we present a high-resolution multi-level detector with dynamic spatial pruning named DSPDet3D, which detects objects from large to small by iterative upsampling and meanwhile prunes the spatial representation of the scene at regions where there is no smaller object to be detected in higher resolution. We organize two benchmarks on ScanNet and TO-SCENE dataset to evaluate the ability of fine-grained 3D object detection, where our DSPDet3D improves the detection performance of small objects to a new level while achieving leading inference speed compared with existing 3D object detection methods. Moreover, DSPDet3D trained with only ScanNet rooms can generalize well to scenes in larger scale. It takes less than 2s for DSPDet3D to directly process a whole house or building consisting of dozens of rooms while detecting out almost all objects, ranging from bottles to beds, on a single RTX 3090 GPU. Project page: https://xuxw98.github.io/DSPDet3D/.
翻訳日:2023-06-07 01:40:01 公開日:2023-06-05
# テキストからのドメイン適応型視覚融合イベント検出

Few-shot Domain-Adaptive Visually-fused Event Detection from Text ( http://arxiv.org/abs/2305.03517v2 )

ライセンス: Link先を確認
Farhad Moghimifar, Fatemeh Shiri, Van Nguyen, Reza Haffari, Yuan-Fang Li(参考訳) 画像などの補助的なモダリティをイベント検出モデルに組み込むことは、ここ数年で注目を集めている。 状況記述における自然言語の複雑さにより、研究者は関連する視覚的コンテキストを利用してイベント検出性能を向上させるようになった。 しかし、この領域における現在のアプローチは、モデルトレーニングのために大量のラベル付きテキスト画像ペアが必要となるデータ不足に苦しむ。 さらに、推論時の視覚的コンテキストへの限られたアクセスは、そのようなモデルの性能に悪影響を及ぼし、現実のシナリオでは事実上効果がない。 本稿では,いくつかのラベル付き画像テキストペアデータポイントでトレーニング可能な,ドメイン適応型視覚融合イベント検出手法を提案する。 具体的には、視覚的文脈のないテキストから画像を生成する視覚的想像法を提案する。 さらに、イマジネータを特定のドメインにカスタマイズすることもできる。 これにより、事前訓練された視覚言語モデルの能力を活用でき、数ショットで訓練することができる。 これにより、単一のモダリティデータ(すなわちテキスト)のみが利用できるような効果的な推論が可能になる。 ベンチマークM2E2データセットの実験結果から,我々のモデルは既存の最先端モデルよりも最大11ポイント優れていた。

Incorporating auxiliary modalities such as images into event detection models has attracted increasing interest over the last few years. The complexity of natural language in describing situations has motivated researchers to leverage the related visual context to improve event detection performance. However, current approaches in this area suffer from data scarcity, where a large amount of labelled text-image pairs are required for model training. Furthermore, limited access to the visual context at inference time negatively impacts the performance of such models, which makes them practically ineffective in real-world scenarios. In this paper, we present a novel domain-adaptive visually-fused event detection approach that can be trained on a few labelled image-text paired data points. Specifically, we introduce a visual imaginator method that synthesises images from text in the absence of visual context. Moreover, the imaginator can be customised to a specific domain. In doing so, our model can leverage the capabilities of pre-trained vision-language models and can be trained in a few-shot setting. This also allows for effective inference where only single-modality data (i.e. text) is available. The experimental evaluation on the benchmark M2E2 dataset shows that our model outperforms existing state-of-the-art models, by up to 11 points.
翻訳日:2023-06-07 01:39:35 公開日:2023-06-05
# ACTC:コールドスタート知識グラフ補完のためのアクティブ閾値校正

ACTC: Active Threshold Calibration for Cold-Start Knowledge Graph Completion ( http://arxiv.org/abs/2305.06395v2 )

ライセンス: Link先を確認
Anastasiia Sedova, Benjamin Roth(参考訳) 自己教師付き知識グラフ補完(KGC)は、例えば初期知識グラフを埋め込むことで、スコアリングモデル(エンタリティ、関係性、実体)-タプルを推定することに依存する。 評価モデルの校正により予測品質を向上させることができ、通常は手動で注釈付き例を用いて予測しきい値を調整する。 本稿では,KGCの冷間開始校正を初めて試みるが,最初は校正のための注記例は存在せず,注釈のためのタプルは限られている。 提案手法は, 注釈付きタプルの限られたセットに基づいて, 良好な相関しきい値を求める。 いくつかの注釈付きタプルに加えて、ACTCはロジスティック回帰やガウスプロセスの分類器でその正しさを推定することで、ラベルのないタプルも活用している。 また、アノテーションの候補タプルを選択する方法として、密度ベースとランダム選択がある。 5つのスコアリングモデルと1つのオラクルアノテータを用いた実験では,10タプルの注釈予算による挑戦的な設定でACTCを使用する場合,7%のポイントが改善され,平均4%のポイントが異なる予算で改善された。

Self-supervised knowledge-graph completion (KGC) relies on estimating a scoring model over (entity, relation, entity)-tuples, for example, by embedding an initial knowledge graph. Prediction quality can be improved by calibrating the scoring model, typically by adjusting the prediction thresholds using manually annotated examples. In this paper, we attempt for the first time cold-start calibration for KGC, where no annotated examples exist initially for calibration, and only a limited number of tuples can be selected for annotation. Our new method ACTC finds good per-relation thresholds efficiently based on a limited set of annotated tuples. Additionally to a few annotated tuples, ACTC also leverages unlabeled tuples by estimating their correctness with Logistic Regression or Gaussian Process classifiers. We also experiment with different methods for selecting candidate tuples for annotation: density-based and random selection. Experiments with five scoring models and an oracle annotator show an improvement of 7% points when using ACTC in the challenging setting with an annotation budget of only 10 tuples, and an average improvement of 4% points over different budgets.
翻訳日:2023-06-07 01:29:07 公開日:2023-06-05
# 比較前倒しによる放射線被ばく発生の促進

Boosting Radiology Report Generation by Infusing Comparison Prior ( http://arxiv.org/abs/2305.04561v2 )

ライセンス: Link先を確認
Sanghwan Kim, Farhad Nooralahzadeh, Morteza Rohanian, Koji Fujimoto, Mizuho Nishio, Ryo Sakamoto, Fabio Rinaldi, and Michael Krauthammer(参考訳) 近年の変圧器を用いたモデルでは胸部X線画像から放射線学レポートを生成するために大きな進歩を遂げている。 これらのモデルはしばしば事前の知識を欠いており、その結果、存在しない事前試験を誤って参照する合成報告が生成される。 この相違は、放射線科医と生成モデルの間の知識のギャップに起因する可能性がある。 放射線医は患者固有の事前情報を持っているが、X線画像のみを特定のタイミングで受信する。 この問題に対処するために,ルールベースラベルを用いた新しい手法を提案し,放射線学レポートから先行情報を抽出する。 この抽出された比較は、最先端のトランスフォーマーベースモデルにシームレスに統合され、よりリアルで包括的なレポートを生成することができる。 本手法はIU X線やMIMIC-CXRなどの英語のレポートデータセットを用いて評価する。 その結果,本手法は自然言語生成指標でベースラインモデルを上回ることがわかった。 特に、我々のモデルは、既存の試験に対する偽の参照のないレポートを生成し、それを以前のモデルと区別する。 この限界に対処することで,医療報告生成分野における放射線技師と世代モデルとのギャップを埋める大きな一歩となる。

Recent transformer-based models have made significant strides in generating radiology reports from chest X-ray images. However, a prominent challenge remains: these models often lack prior knowledge, resulting in the generation of synthetic reports that mistakenly reference non-existent prior exams. This discrepancy can be attributed to a knowledge gap between radiologists and the generation models. While radiologists possess patient-specific prior information, the models solely receive X-ray images at a specific time point. To tackle this issue, we propose a novel approach that leverages a rule-based labeler to extract comparison prior information from radiology reports. This extracted comparison prior is then seamlessly integrated into state-of-the-art transformer-based models, enabling them to produce more realistic and comprehensive reports. Our method is evaluated on English report datasets, such as IU X-ray and MIMIC-CXR. The results demonstrate that our approach surpasses baseline models in terms of natural language generation metrics. Notably, our model generates reports that are free from false references to non-existent prior exams, setting it apart from previous models. By addressing this limitation, our approach represents a significant step towards bridging the gap between radiologists and generation models in the domain of medical report generation.
翻訳日:2023-06-07 01:27:48 公開日:2023-06-05
# MGR:マルチジェネレータに基づく合理化

MGR: Multi-generator Based Rationalization ( http://arxiv.org/abs/2305.04492v5 )

ライセンス: Link先を確認
Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Xinyang Li, Yuankai Zhang, Yang Qiu(参考訳) 合理化は、ジェネレータと予測器を用いて、ジェネレータが入力テキストの人間の知性の部分集合を次の予測器に選択する自己説明型NLPモデルを構築することである。 しかし、合理化には2つの重要な課題、すなわち、スプリアス相関とデジェネレーションがあり、予測器は、未熟な訓練済みジェネレータによって選択されたスプリアスまたは無意味なピースを過剰に適合させ、ジェネレータを劣化させる。 2つの課題に対処するために多くの研究が提案されているが、通常は個別に設計されており、どちらも考慮していない。 本稿では,この2つの問題を同時に解くために,MGRというシンプルな手法を提案する。 MGRの鍵となる考え方は、実際の部品の発生安定性を改善し、より有意義な部品を予測者に届けるように複数の発電機を採用することである。 実験により,MGRは最先端手法と比較してF1スコアを最大20.9%改善することがわかった。 コードはhttps://github.com/jugechengzi/Rationalization-MGRで公開されている。

Rationalization is to employ a generator and a predictor to construct a self-explaining NLP model in which the generator selects a subset of human-intelligible pieces of the input text to the following predictor. However, rationalization suffers from two key challenges, i.e., spurious correlation and degeneration, where the predictor overfits the spurious or meaningless pieces solely selected by the not-yet well-trained generator and in turn deteriorates the generator. Although many studies have been proposed to address the two challenges, they are usually designed separately and do not take both of them into account. In this paper, we propose a simple yet effective method named MGR to simultaneously solve the two problems. The key idea of MGR is to employ multiple generators such that the occurrence stability of real pieces is improved and more meaningful pieces are delivered to the predictor. Empirically, we show that MGR improves the F1 score by up to 20.9% as compared to state-of-the-art methods. Codes are available at https://github.com/jugechengzi/Rationalization-MGR .
翻訳日:2023-06-07 01:27:08 公開日:2023-06-05
# バイアスのエコー: 言語のスティグマティクスがAIのパフォーマンスに与える影響

Echoes of Biases: How Stigmatizing Language Affects AI Performance ( http://arxiv.org/abs/2305.10201v3 )

ライセンス: Link先を確認
Yizhi Liu, Weiguang Wang, Guodong Gordon Gao, Ritu Agarwal(参考訳) EHR(Electronic Health Record)は、医療におけるAI(AI)主導の変革に必要なデータソースとして機能する。 しかし、EHRノートに反映された臨床バイアスは、これらのバイアスを継承し増幅し、健康格差を持続させるAIモデルにつながる可能性がある。 本研究では,変圧器を用いた深層学習モデルと説明可能なAI(XAI)技術を用いた死亡予測における音声合成言語(SL)の影響について検討した。 以上の結果から,臨床医が作成したSLは,特に黒人患者に対して,AIモデル開発における人種格差の源泉として,AIのパフォーマンスに悪影響を及ぼすことが明らかとなった。 SLの効果を緩和するための運用的に効率的な方法を探るため,臨床医の協調ネットワークを通じてSLの生成パターンを調査し,AIモデルにおける人種格差に強い影響を与えると認識した。 中央臨床医によるSLの除去は,全データのSLを除去するよりも,より効率的なバイアス低減戦略であることがわかった。 本研究は,責任あるai開発に有効な洞察を提供し,臨床行動の理解と,ehr note writing in healthcareに寄与する。

Electronic health records (EHRs) serve as an essential data source for the envisioned artificial intelligence (AI)-driven transformation in healthcare. However, clinician biases reflected in EHR notes can lead to AI models inheriting and amplifying these biases, perpetuating health disparities. This study investigates the impact of stigmatizing language (SL) in EHR notes on mortality prediction using a Transformer-based deep learning model and explainable AI (XAI) techniques. Our findings demonstrate that SL written by clinicians adversely affects AI performance, particularly so for black patients, highlighting SL as a source of racial disparity in AI model development. To explore an operationally efficient way to mitigate SL's impact, we investigate patterns in the generation of SL through a clinicians' collaborative network, identifying central clinicians as having a stronger impact on racial disparity in the AI model. We find that removing SL written by central clinicians is a more efficient bias reduction strategy than eliminating all SL in the entire corpus of data. This study provides actionable insights for responsible AI development and contributes to understanding clinician behavior and EHR note writing in healthcare.
翻訳日:2023-06-07 01:20:38 公開日:2023-06-05
# lingo3dmol:言語モデルを用いたポケット型3d分子の生成

Lingo3DMol: Generation of a Pocket-based 3D Molecule using a Language Model ( http://arxiv.org/abs/2305.10133v2 )

ライセンス: Link先を確認
Lvwei Wang (1), Zaiyun Lin (1), Yanhao Zhu (1), Rong Bai (1), Wei Feng (1), Huting Wang (1), Jielong Zhou (1), Wei Peng (2), Bo Huang (1), Wenbiao Zhou (1) ((1) Beijing StoneWise Technology Co Ltd (2) Innovation Center for Pathogen Research Guangzhou Laboratory)(参考訳) 近年, 深部生成モデルによる構造的薬物設計が研究の関心を集めている。 言語モデルは2次元構造において有効な分子を生成するための堅牢な能力を示し、幾何学的深層学習に基づく手法は正確な3次元座標を持つ分子を直接生成することができる。 本稿では,両手法に着想を得て,言語モデルを利用して3次元座標を生成可能なポケット型3次元分子生成法を提案する。 高品質なタンパク質リガンド複合体データは不十分であるため、大量の小分子データを活用できる摂動・修復事前訓練タスクが設計されている。 局所的および大域的な座標を持つフラグメントに基づく新しい分子表現も提示され、言語モデルが分子トポロジー構造と空間的位置情報を効果的に学習することができる。 最終的に、CrossDockedとDUD-Eデータセットが評価に使用され、追加のメトリクスが導入される。 この手法は, 結合パターン, 薬物様特性, 合理的なコンフォーメーション, 推論速度など, ほぼすべての指標において最先端のパフォーマンスを実現する。 我々のモデルは sw3dmg.stonewise.cn を通じて学術ユーザー向けのオンラインサービスとして利用可能である。

Structure-based drug design powered by deep generative models have attracted increasing research interest in recent years. Language models have demonstrated a robust capacity for generating valid molecules in 2D structures, while methods based on geometric deep learning can directly produce molecules with accurate 3D coordinates. Inspired by both methods, this article proposes a pocket-based 3D molecule generation method that leverages the language model with the ability to generate 3D coordinates. High quality protein-ligand complex data are insufficient; hence, a perturbation and restoration pre-training task is designed that can utilize vast amounts of small-molecule data. A new molecular representation, a fragment-based SMILES with local and global coordinates, is also presented, enabling the language model to learn molecular topological structures and spatial position information effectively. Ultimately, CrossDocked and DUD-E dataset is employed for evaluation and additional metrics are introduced. This method achieves state-of-the-art performance in nearly all metrics, notably in terms of binding patterns, drug-like properties, rational conformations, and inference speed. Our model is available as an online service to academic users via sw3dmg.stonewise.cn
翻訳日:2023-06-07 01:20:16 公開日:2023-06-05
# ナノダイアモンド回転とNV中心スピンの高絡み合い状態の準備

Preparing highly entangled states of nanodiamond rotation and NV center spin ( http://arxiv.org/abs/2305.08008v2 )

ライセンス: Link先を確認
Wen-Liang Li, D. L. Zhou(参考訳) nv(embedd nitrogen-vacancy)センターを備えたナノダイアモンドは、現在の技術でコヒーレントに操作できる実験システムの1つである。 nv中心電子スピンとナノダイヤモンドの機械的回転の絡み合いは、これらの微視的およびメソスコピックな動きを繋ぐ量子ネットワークを構築する上で重要な役割を果たす。 本稿では,外部磁場を漸近的に上昇させることで,量子角運動量と電子スピンの高度に絡み合った状態を漸近的に生成するプロトコルを提案する。

A nanodiamond with an embedded nitrogen-vacancy (NV) center is one of the experimental systems that can be coherently manipulated within current technologies. Entanglement between NV center electron spin and mechanical rotation of the nanodiamond plays a fundamental role in building a quantum network connecting these microscopic and mesoscopic degrees of motions. Here we present a protocol to asymptotically prepare a highly entangled state of the total quantum angular momentum and electron spin by adiabatically boosting the external magnetic field.
翻訳日:2023-06-07 01:17:50 公開日:2023-06-05
# パノコンテクストフォーマ:変圧器を用いたパノラマ全景理解

PanoContext-Former: Panoramic Total Scene Understanding with a Transformer ( http://arxiv.org/abs/2305.12497v2 )

ライセンス: Link先を確認
Yuan Dong, Chuan Fang, Liefeng Bo, Zilong Dong, Ping Tan(参考訳) パノラマ画像は、360^\circ$の周囲の環境をより深く理解し、より総合的な認識を可能にする。 これまでの作業では,ボトムアップ形式でのシーン理解タスクの解決に多くの努力を払ってきたため,各サブタスクは別々に処理され,この手順では相関関係がほとんどない。 本論文では,1つのパノラマからオブジェクトの形状,配向箱,3次元部屋レイアウトを同時に復元する,総合的な屋内シーン理解のための奥行き事前を用いた新しい手法を提案する。 豊かなコンテキスト情報を完全に活用するために,シーンの各コンポーネント間の表現と関係を予測するトランスフォーマティブベースのコンテキストモジュールを設計した。 さらに,写真リアルパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。 合成データと実世界のデータを用いた実験により,従来のパノラマシーン理解手法よりもレイアウト推定と3次元物体検出の両面で優れていることが示された。

Panoramic image enables deeper understanding and more holistic perception of $360^\circ$ surrounding environment, which can naturally encode enriched scene context information compared to standard perspective image. Previous work has made lots of effort to solve the scene understanding task in a bottom-up form, thus each sub-task is processed separately and few correlations are explored in this procedure. In this paper, we propose a novel method using depth prior for holistic indoor scene understanding which recovers the objects' shapes, oriented bounding boxes and the 3D room layout simultaneously from a single panorama. In order to fully utilize the rich context information, we design a transformer-based context module to predict the representation and relationship among each component of the scene. In addition, we introduce a real-world dataset for scene understanding, including photo-realistic panoramas, high-fidelity depth images, accurately annotated room layouts, and oriented object bounding boxes and shapes. Experiments on the synthetic and real-world datasets demonstrate that our method outperforms previous panoramic scene understanding methods in terms of both layout estimation and 3D object detection.
翻訳日:2023-06-07 01:10:42 公開日:2023-06-05
# スパースニューラルネットワークのための学習活性化関数

Learning Activation Functions for Sparse Neural Networks ( http://arxiv.org/abs/2305.10964v2 )

ライセンス: Link先を確認
Mohammad Loni, Aditya Mohan, Mehdi Asadi, Marius Lindauer(参考訳) スパースニューラルネットワーク(SNN)は、推論時にかなりのエネルギーとメモリを節約しながら、密度の高いニューラルネットワークと同じような性能を示す可能性がある。 しかし、SNNによる精度低下、特に高い刈り込み比は、重要な配置条件において問題となる可能性がある。 最近の研究では、高度な刈り取り技術によってこの問題を緩和していますが、私たちは、ハイパーパラメータとアクティベーション関数という見過ごされた要因に焦点を移します。 分析の結果,精度低下は付加的な原因であることがわかった。 (i)全会一致でアクティベーション関数のデフォルト選択としてreluを使用すること (II)密度の強いSNNと同じハイパーパラメータを持つ微調整SNN。 そこで我々は,スパースネットワークの活性化関数を調整し,それらをスパースネットワークの分離したハイパーパラメータ最適化(HPO)システムと組み合わせることに集中する。 一般的なDNNモデル(LeNet-5, VGG-16, ResNet-18, EfficientNet-B0)をMNIST, CIFAR-10, ImageNet-16データセットでトレーニングした結果,Sparse Activation Function Searchと呼ばれる2つの手法の新たな組み合わせにより,LeNet-5, VG-16, ResNet-18の精度を最大15.53%, 8.88%, 6.33%向上した。 私たちのコードはhttps://github.com/automl/SAFSで参照できます。

Sparse Neural Networks (SNNs) can potentially demonstrate similar performance to their dense counterparts while saving significant energy and memory at inference. However, the accuracy drop incurred by SNNs, especially at high pruning ratios, can be an issue in critical deployment conditions. While recent works mitigate this issue through sophisticated pruning techniques, we shift our focus to an overlooked factor: hyperparameters and activation functions. Our analyses have shown that the accuracy drop can additionally be attributed to (i) Using ReLU as the default choice for activation functions unanimously, and (ii) Fine-tuning SNNs with the same hyperparameters as dense counterparts. Thus, we focus on learning a novel way to tune activation functions for sparse networks and combining these with a separate hyperparameter optimization (HPO) regime for sparse networks. By conducting experiments on popular DNN models (LeNet-5, VGG-16, ResNet-18, and EfficientNet-B0) trained on MNIST, CIFAR-10, and ImageNet-16 datasets, we show that the novel combination of these two approaches, dubbed Sparse Activation Function Search, short: SAFS, results in up to 15.53%, 8.88%, and 6.33% absolute improvement in the accuracy for LeNet-5, VGG-16, and ResNet-18 over the default training protocols, especially at high pruning ratios. Our code can be found at https://github.com/automl/SAFS
翻訳日:2023-06-07 01:08:53 公開日:2023-06-05
# 大規模言語モデルによるAI生成テキスト検出の回避

Large Language Models can be Guided to Evade AI-Generated Text Detection ( http://arxiv.org/abs/2305.10847v3 )

ライセンス: Link先を確認
Ning Lu, Shengcai Liu, Rui He, Qi Wang, Ke Tang(参考訳) 大規模言語モデル(llm)は,エッセイ執筆や質問応答など,さまざまなタスクにおいて例外的なパフォーマンスを示している。 しかし、これらのモデルの潜在的な誤用に対処することが重要であるため、盗作やスパムなどの有害な結果につながる可能性がある。 近年、微調整分類器や様々な統計手法を含むいくつかの検出器が提案されている。 本研究では,注意深いプロンプトの支援により,これらの検出システムを効果的に回避できることを示す。 このようなプロンプトを自動的に生成する新しい置換型in-context example optimization method(sico)を提案する。 LLMを誤用できる3つの現実世界のタスクにおいて、SICOはChatGPTを6つの既存の検出器から回避することができ、平均して0.54AUCの低下を引き起こした。 驚くべきことに、ほとんどの場合、これらの検出器はランダムな分類器よりもさらに悪い性能を発揮する。 これらの結果は、既存の検出器の脆弱性を明確に示している。 最後に、SICOの強い性能は、この分野の新しい検出器に対する信頼性の高い評価プロトコルであることを示唆している。

Large Language Models (LLMs) have demonstrated exceptional performance in a variety of tasks, including essay writing and question answering. However, it is crucial to address the potential misuse of these models, which can lead to detrimental outcomes such as plagiarism and spamming. Recently, several detectors have been proposed, including fine-tuned classifiers and various statistical methods. In this study, we reveal that with the aid of carefully crafted prompts, LLMs can effectively evade these detection systems. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically generate such prompts. On three real-world tasks where LLMs can be misused, SICO successfully enables ChatGPT to evade six existing detectors, causing a significant 0.54 AUC drop on average. Surprisingly, in most cases these detectors perform even worse than random classifiers. These results firmly reveal the vulnerability of existing detectors. Finally, the strong performance of SICO suggests itself as a reliable evaluation protocol for any new detector in this field.
翻訳日:2023-06-07 01:08:23 公開日:2023-06-05
# dc-net: サルエント物体検出のための分割・変換

DC-Net: Divide-and-Conquer for Salient Object Detection ( http://arxiv.org/abs/2305.14955v2 )

ライセンス: Link先を確認
Jiayi Zhu, Xuebin Qin, Abdulmotaleb Elsaddik(参考訳) 本稿では,有意なオブジェクト検出(SOD)タスクにDivide-and-Conquerを導入し,そのモデルが有意性マップを予測するための事前知識を学習できるようにする。 そこで本研究では,2つのエンコーダを用いて最終給与マップを予測可能な異なるサブタスクを解く,新たなネットワークdc-netを設計し,エッジマップを幅4とサルエントオブジェクトの位置マップで予測し,特徴マップをデコーダに集約して最終給与マップを予測した。 DC-Netのデコーダは、新しく設計された2段階のResidual nested-ASPP(ResASPP$^{2}$)モジュールで構成されており、多数のコンボリューション操作で多数の異なる特徴をキャプチャでき、高解像度を常に維持でき、大かつコンパクトな有効受容場(ERF)を得ることができるという利点がある。 並列計算の利点を活かして,dc-netの高速化に並列加速度を応用し,高効率(60 fps,55 fps)で6つのlr-sodと5つのhr-sodデータセットの競合性能を実現する。 コードと結果は、https://github.com/PiggyJerry/DC-Net.comで公開されている。

In this paper, we introduce Divide-and-Conquer into the salient object detection (SOD) task to enable the model to learn prior knowledge that is for predicting the saliency map. We design a novel network, Divide-and-Conquer Network (DC-Net) which uses two encoders to solve different subtasks that are conducive to predicting the final saliency map, here is to predict the edge maps with width 4 and location maps of salient objects and then aggregate the feature maps with different semantic information into the decoder to predict the final saliency map. The decoder of DC-Net consists of our newly designed two-level Residual nested-ASPP (ResASPP$^{2}$) modules, which have the ability to capture a large number of different scale features with a small number of convolution operations and have the advantages of maintaining high resolution all the time and being able to obtain a large and compact effective receptive field (ERF). Based on the advantage of Divide-and-Conquer's parallel computing, we use Parallel Acceleration to speed up DC-Net, allowing it to achieve competitive performance on six LR-SOD and five HR-SOD datasets under high efficiency (60 FPS and 55 FPS). Codes and results are available: https://github.com/PiggyJerry/DC-Net.
翻訳日:2023-06-07 01:01:59 公開日:2023-06-05
# chatface: 拡散潜在空間操作によるチャット誘導実顔編集

ChatFace: Chat-Guided Real Face Editing via Diffusion Latent Space Manipulation ( http://arxiv.org/abs/2305.14742v2 )

ライセンス: Link先を確認
Dongxu Yue, Qin Guo, Munan Ning, Jiaxi Cui, Yuesheng Zhu, Li Yuan(参考訳) 実際の顔画像の編集はコンピュータビジョンにおいて重要な課題であり、様々な現実世界のアプリケーションにかなりの需要がある。 GANベースの手法は、特にCLIPと組み合わせた場合、画像を操作する可能性を示しているが、これらの手法は、GAN反転能力の挑戦により、実際の画像を再構成する能力に制限されている。 拡散法によって達成された画像再構成は成功したものの,これらの課題に対処し,実際の顔画像の操作を容易にするために,拡散モデルのセマンティック潜在空間でテキスト駆動画像編集を行う新しいアプローチを提案する。 生成過程における拡散モデルの時間的特徴と意味的条件を整合させることにより,正確なゼロショット操作を効果的に行う安定した操作戦略を提案する。 さらに,大言語モデルのゼロショット推論機能を組み合わせたChatFaceという対話型システムを開発し,拡散意味潜在空間における効率的な操作を行う。 本システムにより,対話による複雑な複数属性操作が可能となり,インタラクティブな画像編集が可能となる。 大規模な実験により,本手法は従来の手法よりも優れており,実際の顔画像の正確な編集が可能であることが確認された。 プロジェクトページ: https://dongxuyue.github.io/chatface/

Editing real facial images is a crucial task in computer vision with significant demand in various real-world applications. While GAN-based methods have showed potential in manipulating images especially when combined with CLIP, these methods are limited in their ability to reconstruct real images due to challenging GAN inversion capability. Despite the successful image reconstruction achieved by diffusion-based methods, there are still challenges in effectively manipulating fine-gained facial attributes with textual instructions.To address these issues and facilitate convenient manipulation of real facial images, we propose a novel approach that conduct text-driven image editing in the semantic latent space of diffusion model. By aligning the temporal feature of the diffusion model with the semantic condition at generative process, we introduce a stable manipulation strategy, which perform precise zero-shot manipulation effectively. Furthermore, we develop an interactive system named ChatFace, which combines the zero-shot reasoning ability of large language models to perform efficient manipulations in diffusion semantic latent space. This system enables users to perform complex multi-attribute manipulations through dialogue, opening up new possibilities for interactive image editing. Extensive experiments confirmed that our approach outperforms previous methods and enables precise editing of real facial images, making it a promising candidate for real-world applications. Project page: https://dongxuyue.github.io/chatface/
翻訳日:2023-06-07 01:01:29 公開日:2023-06-05
# 識別的Render-and-Compareによるロバスト3次元物体分類

Robust 3D-aware Object Classification via Discriminative Render-and-Compare ( http://arxiv.org/abs/2305.14668v2 )

ライセンス: Link先を確認
Artur Jesslen, Guofeng Zhang, Angtian Wang, Alan Yuille, Adam Kortylewski(参考訳) 実世界のアプリケーションでは、3dオブジェクトのポーズとクラスラベル、すなわち3dアウェア分類を行うのが不可欠であるが、現在の画像分類やポーズ推定のアプローチは3dアウェア分類に拡張できるが、それらは本質的に限定されている。 1)それぞれのシングルタスクモデルに比べて性能がはるかに低い。 2) アウト・オブ・ディストリビューション(OOD)のシナリオでは堅牢ではない。 私たちの主な貢献は、3D対応分類のための新しいアーキテクチャであり、これは最近の研究に基づいており、非常に堅牢でありながらシングルタスクモデルと互換性のある性能を実現しています。 本手法では,オブジェクトカテゴリを,各メッシュ頂点の特徴ベクトルからなる3次元立方体メッシュとして表現する。 本研究では,メッシュ間の再構成誤差と対象画像の特徴表現を最小化することにより,3次元オブジェクトのポーズを推定する。 オブジェクト分類は、オブジェクトカテゴリ間の再構成損失を比較することによって行われる。 特に、メッシュの神経テクスチャを識別的に訓練して分類性能を高めるとともに、復元損失の局所的最適性を回避する。 さらに,本手法とフィードフォワードニューラルネットワークを組み合わせることで,より多数のカテゴリにレンダリング・アンド・コンプリートアプローチをスケールできることを示す。 PASCAL3D+,occluded-PASCAL3D+,およびOOD-CVを用いた実験により,本手法は3D-Aware分類において,性能とロバスト性の観点から広いマージンで,すべてのベースラインを上回ることを示した。

In real-world applications, it is essential to jointly estimate the 3D object pose and class label of objects, i.e., to perform 3D-aware classification.While current approaches for either image classification or pose estimation can be extended to 3D-aware classification, we observe that they are inherently limited: 1) Their performance is much lower compared to the respective single-task models, and 2) they are not robust in out-of-distribution (OOD) scenarios. Our main contribution is a novel architecture for 3D-aware classification, which builds upon a recent work and performs comparably to single-task models while being highly robust. In our method, an object category is represented as a 3D cuboid mesh composed of feature vectors at each mesh vertex. Using differentiable rendering, we estimate the 3D object pose by minimizing the reconstruction error between the mesh and the feature representation of the target image. Object classification is then performed by comparing the reconstruction losses across object categories. Notably, the neural texture of the mesh is trained in a discriminative manner to enhance the classification performance while also avoiding local optima in the reconstruction loss. Furthermore, we show how our method and feed-forward neural networks can be combined to scale the render-and-compare approach to larger numbers of categories. Our experiments on PASCAL3D+, occluded-PASCAL3D+, and OOD-CV show that our method outperforms all baselines at 3D-aware classification by a wide margin in terms of performance and robustness.
翻訳日:2023-06-07 01:01:06 公開日:2023-06-05
# XRoute Environment: ルーティングのための新しい強化学習環境

XRoute Environment: A Novel Reinforcement Learning Environment for Routing ( http://arxiv.org/abs/2305.13823v2 )

ライセンス: Link先を確認
Zhanwen Zhou, Hankz Hankui Zhuo, Xiaowu Zhang, Qiyuan Deng(参考訳) ルーティングは、先進技術ノードのための現代的な設計自動化フローにおいて重要かつ時間のかかる段階である。 強化学習の分野での大きな進歩は、これらのアプローチを使ってルーティングの品質と効率を改善することができる。 しかし,最近の研究で強化学習法が解決した経路問題の規模は小さすぎて,商用のedaツールでは利用できない。 我々はXRoute環境を紹介した。XRoute環境は、エージェントが高度なエンドツーエンドのルーティングフレームワークにおいて、ネットの選択とルーティングを訓練する新しい強化学習環境である。 新たなアルゴリズムやアイデアは、安全かつ再現可能な方法で迅速にテストすることができる。 結果として生じる環境は難しく、使いやすく、カスタマイズし、追加のシナリオを追加し、寛容なオープンソースライセンスの下で利用できる。 さらに、分散デプロイメントとマルチインスタンス実験のサポートも提供する。 本稿では,各地域規模のベンチマークをルーティングするフルチップテストベッドを構築するための2つのタスクを提案する。 また,ピン密度やネット数が異なる静的ルーティング領域を事前定義することで,学習やテストが容易になる。 ネットオーダリングタスクでは,広く使用されている強化学習アルゴリズム(ppoとdqn)と検索ベースアルゴリズム(tritonroute)のベースライン結果について報告する。 XRoute Environmentはhttps://github.com/xplanlab/xroute_env.comから入手できる。

Routing is a crucial and time-consuming stage in modern design automation flow for advanced technology nodes. Great progress in the field of reinforcement learning makes it possible to use those approaches to improve the routing quality and efficiency. However, the scale of the routing problems solved by reinforcement learning-based methods in recent studies is too small for these methods to be used in commercial EDA tools. We introduce the XRoute Environment, a new reinforcement learning environment where agents are trained to select and route nets in an advanced, end-to-end routing framework. Novel algorithms and ideas can be quickly tested in a safe and reproducible manner in it. The resulting environment is challenging, easy to use, customize and add additional scenarios, and it is available under a permissive open-source license. In addition, it provides support for distributed deployment and multi-instance experiments. We propose two tasks for learning and build a full-chip test bed with routing benchmarks of various region sizes. We also pre-define several static routing regions with different pin density and number of nets for easier learning and testing. For net ordering task, we report baseline results for two widely used reinforcement learning algorithms (PPO and DQN) and one searching-based algorithm (TritonRoute). The XRoute Environment will be available at https://github.com/xplanlab/xroute_env.
翻訳日:2023-06-07 01:00:08 公開日:2023-06-05
# INVICTUS: 相乗学習と探索によるブール論理回路合成の最適化

INVICTUS: Optimizing Boolean Logic Circuit Synthesis via Synergistic Learning and Search ( http://arxiv.org/abs/2305.13164v3 )

ライセンス: Link先を確認
Animesh Basak Chowdhury, Marco Romanelli, Benjamin Tan, Ramesh Karri, Siddharth Garg(参考訳) 論理合成はチップ設計における最初の、そして最も重要なステップである。 このステップは、ハードウェア記述言語(verilogなど)で記述されたチップ仕様をブール論理ゲートを使用して最適化された実装に変換する。 最先端論理合成アルゴリズムは多くの論理最小化ヒューリスティックを持ち、一般に人間の経験と直観に基づいて順次適用される。 順序の選択は、合成回路の品質(例えば、面積と遅延)に大きな影響を与える。 本稿では,以前に見られた設計のトレーニングデータセットに基づいて,論理最小化ヒューリスティックス(合成レシピ)のシーケンスを自動的に生成するモデルベースオフライン強化学習(RL)ソリューションであるINVICTUSを提案する。 鍵となる課題は、新しい設計が過去の設計(加算器や乗算器など)と非常によく似たものから、全く新しい(新しいプロセッサ命令など)ものまで様々である。 従来の研究と比較すると、invictusはrlと検索法を組み合わせてオンラインのアウトオブディストリビューション検出器と組み合わせて、幅広いベンチマークで合成レシピを生成する最初のソリューションである。 その結果, 合成回路の領域分解生成物(adp)は, 最先端技術よりも最大30%向上した。 さらに、INVICTUSは最先端と比較して最大6.3\times$ランタイム削減(so-ADP)を達成する。

Logic synthesis is the first and most vital step in chip design. This steps converts a chip specification written in a hardware description language (such as Verilog) into an optimized implementation using Boolean logic gates. State-of-the-art logic synthesis algorithms have a large number of logic minimization heuristics, typically applied sequentially based on human experience and intuition. The choice of the order greatly impacts the quality (e.g., area and delay) of the synthesized circuit. In this paper, we propose INVICTUS, a model-based offline reinforcement learning (RL) solution that automatically generates a sequence of logic minimization heuristics ("synthesis recipe") based on a training dataset of previously seen designs. A key challenge is that new designs can range from being very similar to past designs (e.g., adders and multipliers) to being completely novel (e.g., new processor instructions). %Compared to prior work, INVICTUS is the first solution that uses a mix of RL and search methods joint with an online out-of-distribution detector to generate synthesis recipes over a wide range of benchmarks. Our results demonstrate significant improvement in area-delay product (ADP) of synthesized circuits with up to 30\% improvement over state-of-the-art techniques. Moreover, INVICTUS achieves up to $6.3\times$ runtime reduction (iso-ADP) compared to the state-of-the-art.
翻訳日:2023-06-07 00:59:04 公開日:2023-06-05
# デュアルマルチモーダルエンコーダを用いた合成画像検索のための候補セット再ランク付け

Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder ( http://arxiv.org/abs/2305.16304v2 )

ライセンス: Link先を確認
Zheyuan Liu, Weixuan Sun, Damien Teney, Stephen Gould(参考訳) 合成画像検索は、参照画像とテキストペアからなる所定のマルチモーダルユーザクエリに最もよく一致する画像を見つけることを目的としている。 既存の手法では、コーパス全体に画像埋め込みをプリコンプリートし、これらをテスト時にクエリテキストによって修正された参照画像埋め込みと比較する。 このようなパイプラインはテスト時に非常に効率的であり、高速なベクトル距離を使って候補を評価することができるが、短いテキスト記述のみでガイドされた参照画像の埋め込みを変更することは、特に候補とは無関係に難しい。 別のアプローチとして、クエリと可能なすべての候補、すなわち参照-テキスト-候補トリプレット間のインタラクションを許可し、セット全体からベストを選択する方法がある。 このアプローチはより差別的であるが、大規模データセットでは、候補埋め込みの事前計算がもはや不可能であるため、計算コストは禁じられている。 二段階モデルを用いて,両スキームのメリットを組み合わせることを提案する。 第1段階では, 従来のベクトル分散メトリックを採用し, 候補間の高速刈り取りを行う。 一方,第2段階では,参照テキスト候補の入力三重項に効果的に対応し,候補を再ランク付けするデュアルエンコーダアーキテクチャを採用している。 どちらの段階も視覚と言語による事前学習ネットワークを利用しており、様々な下流タスクに有益であることが証明されている。 我々の手法はタスクの標準ベンチマークにおける最先端のアプローチよりも一貫して優れている。

Composed image retrieval aims to find an image that best matches a given multi-modal user query consisting of a reference image and text pair. Existing methods commonly pre-compute image embeddings over the entire corpus and compare these to a reference image embedding modified by the query text at test time. Such a pipeline is very efficient at test time since fast vector distances can be used to evaluate candidates, but modifying the reference image embedding guided only by a short textual description can be difficult, especially independent of potential candidates. An alternative approach is to allow interactions between the query and every possible candidate, i.e., reference-text-candidate triplets, and pick the best from the entire set. Though this approach is more discriminative, for large-scale datasets the computational cost is prohibitive since pre-computation of candidate embeddings is no longer possible. We propose to combine the merits of both schemes using a two-stage model. Our first stage adopts the conventional vector distancing metric and performs a fast pruning among candidates. Meanwhile, our second stage employs a dual-encoder architecture, which effectively attends to the input triplet of reference-text-candidate and re-ranks the candidates. Both stages utilize a vision-and-language pre-trained network, which has proven beneficial for various downstream tasks. Our method consistently outperforms state-of-the-art approaches on standard benchmarks for the task.
翻訳日:2023-06-07 00:48:56 公開日:2023-06-05
# スパイクニューラルネットワークにおける計算と学習のための資源としてのノイズの利用

Exploiting Noise as a Resource for Computation and Learning in Spiking Neural Networks ( http://arxiv.org/abs/2305.16044v3 )

ライセンス: Link先を確認
Gehua Ma, Rui Yan, Huajin Tang(参考訳) スパイクニューロンのネットワークは、脳の異常な情報処理能力の基盤となり、ニューロモルフィックインテリジェンスにおける柱モデルとして登場した。 スパイキングニューラルネットワーク(SNN)に関する広範な研究にもかかわらず、ほとんどが決定論的モデルに基づいている。 SNNにノイズを組み込むことは、生物物理学的により現実的なニューラルダイナミクスをもたらし、モデル性能の恩恵を受ける可能性がある。 本稿では,雑音ニューロンのダイナミクスを組み込んだスパイキングニューロンモデルを導入することにより,ノイズスパイキングニューラルネットワーク(nsnn)とノイズ駆動学習ルール(ndl)を提案する。 提案手法は,雑音が計算と学習の資源としてどのように機能するかを示し,理論的には一般的なsnsの枠組みを提供する。 さらに、NDLは代理勾配に対する洞察力のある生物学的根拠を提供する。 様々なSNNアーキテクチャとアルゴリズムを組み込むことにより,本手法は,決定論的SNNよりも競合性能と,困難な摂動に対する堅牢性を向上することを示した。 さらに,ニューラルコーディング研究におけるNSNNモデルの有用性を示す。 NSNNは、機械学習の実践者や計算神経科学研究者のために、強力で柔軟で使いやすいツールを提供している。

Networks of spiking neurons underpin the extraordinary information-processing capabilities of the brain and have emerged as pillar models in neuromorphic intelligence. Despite extensive research on spiking neural networks (SNNs), most are established on deterministic models. Integrating noise into SNNs leads to biophysically more realistic neural dynamics and may benefit model performance. This work presents the noisy spiking neural network (NSNN) and the noise-driven learning rule (NDL) by introducing a spiking neuron model incorporating noisy neuronal dynamics. Our approach shows how noise may act as a resource for computation and learning and theoretically provides a framework for general SNNs. Moreover, NDL provides an insightful biological rationale for surrogate gradients. By incorporating various SNN architectures and algorithms, we show that our approach exhibits competitive performance and improved robustness against challenging perturbations than deterministic SNNs. Additionally, we demonstrate the utility of the NSNN model for neural coding studies. Overall, NSNN offers a powerful, flexible, and easy-to-use tool for machine learning practitioners and computational neuroscience researchers.
翻訳日:2023-06-07 00:48:33 公開日:2023-06-05
# オフポリシー学習のための指数的平滑化

Exponential Smoothing for Off-Policy Learning ( http://arxiv.org/abs/2305.15877v2 )

ライセンス: Link先を確認
Imad Aouali, Victor-Emmanuel Brunel, David Rohde, Anna Korba(参考訳) off-policy learning (opl) は、リスクを推定するips(inverse propensity scoring)を最小化することで、ログ付きバンディットデータからより良いポリシーを見つけることを目的としている。 本研究では,ips に対する滑らかな正規化について検討し,二面pac-bayes一般化を導出する。 境界は扱いやすく、スケーラブルで、解釈可能で、学習証明書を提供する。 特に、重要度重み付けが有界であると仮定することなく、標準ipsでも有効である。 我々は,学習課題の組を通して,アプローチの妥当性と,その望ましい性能を示す。 標準IPSには限界があるので、IPSの正規化がいつ役に立つか、洞察することができます。 すなわち、正規化が不要な場合を特定する。 これは、実際には、クリップされたIPSはOPLの標準IPSよりも良いパフォーマンスを享受している、という信念に反する。

Off-policy learning (OPL) aims at finding improved policies from logged bandit data, often by minimizing the inverse propensity scoring (IPS) estimator of the risk. In this work, we investigate a smooth regularization for IPS, for which we derive a two-sided PAC-Bayes generalization bound. The bound is tractable, scalable, interpretable and provides learning certificates. In particular, it is also valid for standard IPS without making the assumption that the importance weights are bounded. We demonstrate the relevance of our approach and its favorable performance through a set of learning tasks. Since our bound holds for standard IPS, we are able to provide insight into when regularizing IPS is useful. Namely, we identify cases where regularization might not be needed. This goes against the belief that, in practice, clipped IPS often enjoys favorable performance than standard IPS in OPL.
翻訳日:2023-06-07 00:48:15 公開日:2023-06-05
# FSD:ニューラルアーキテクチャサーチによる完全特殊化検出器

FSD: Fully-Specialized Detector via Neural Architecture Search ( http://arxiv.org/abs/2305.16649v2 )

ライセンス: Link先を確認
Zhe Huang and Yudian Li(参考訳) ほとんどのジェネリックオブジェクト検出器は、COCOやPASCAL VOCのような標準オブジェクト検出タスクのために構築されている。 標準的なデータセットと視覚的に異なるイメージからなる他のドメインのタスクでは、うまく動作せず、効率的に動作しないかもしれない。 この目的のために、ドメイン固有の設計に制限のある汎用オブジェクト検出器の適応に多くの進歩が注がれている。 しかし、成功したタスク特異的検出器の設計には、試行錯誤による余計な手動実験とパラメータチューニングが必要となる。 本稿では,バックボーンとタスク固有頭部上の理想的なネットワーク構造を探索することにより,主に神経構造探索モデルを含む完全特殊化検出器(FSD)を設計するための完全自動パイプラインを提案し,検討する。 DeepLesionデータセットでは、FSDは2次病変検出タスクのパラメータを約40%削減しつつ3.1mAPのゲインを達成でき、既存の汎用医学的病変検出ネットワークと比較して、領域認識グラフモデリングによる多型病変検出タスクでは約10%改善した。

Most generic object detectors are mainly built for standard object detection tasks such as COCO and PASCAL VOC. They might not work well and/or efficiently on tasks of other domains consisting of images that are visually different from standard datasets. To this end, many advances have been focused on adapting a general-purposed object detector with limited domain-specific designs. However, designing a successful task-specific detector requires extraneous manual experiments and parameter tuning through trial and error. In this paper, we first propose and examine a fully-automatic pipeline to design a fully-specialized detector (FSD) which mainly incorporates a neural-architectural-searched model by exploring ideal network structures over the backbone and task-specific head. On the DeepLesion dataset, extensive results show that FSD can achieve 3.1 mAP gain while using approximately 40% fewer parameters on binary lesion detection task and improved the mAP by around 10% on multi-type lesion detection task via our region-aware graph modeling compared with existing general-purposed medical lesion detection networks.
翻訳日:2023-06-07 00:38:51 公開日:2023-06-05
# 分散協調の集中リハーサル:マルチエージェント強化学習による住宅エネルギー柔軟性のスケーラブルな協調

Centralised rehearsal of decentralised cooperation: Multi-agent reinforcement learning for the scalable coordination of residential energy flexibility ( http://arxiv.org/abs/2305.18875v2 )

ライセンス: Link先を確認
Flora Charbonnier, Bei Peng, Thomas Morstyn, Malcolm McCulloch(参考訳) 本稿では,多エージェント強化学習が住宅エネルギーの柔軟性のスケーラブルかつプライバシ保護的協調をいかに実現するかを検討する。 電気自動車や暖房といった分散資源の調整は、我々の電力網における再生可能エネルギーの大規模な共有をうまく統合し、気候変動を緩和する上で非常に重要である。 個別の強化学習ポリシーの事前学習は、実行中に個人データの共有が不要な分散制御を可能にする。 しかしながら、マルチエージェント強化学習に基づく分散エネルギー資源調整に対する以前のアプローチは、システムのサイズが大きくなるにつれて、計算負荷を増大させる。 そこで我々は,実行前にコーディネーションをリハーサルするために,emph{centralized but factored critic} を用いた深層マルチエージェントアクター批判手法を採用した。 その結果、調整は、最小限の情報と通信インフラの要件、日々の活動への干渉なし、プライバシー保護など、大規模に達成されている。 エネルギー使用者、配電網、温室効果ガス排出に対する重要な貯蓄が得られている。 さらに、30世帯の批判を伴わない最先端の強化学習アプローチでは、トレーニング時間は40倍近く短縮されている。

This paper investigates how deep multi-agent reinforcement learning can enable the scalable and privacy-preserving coordination of residential energy flexibility. The coordination of distributed resources such as electric vehicles and heating will be critical to the successful integration of large shares of renewable energy in our electricity grid and, thus, to help mitigate climate change. The pre-learning of individual reinforcement learning policies can enable distributed control with no sharing of personal data required during execution. However, previous approaches for multi-agent reinforcement learning-based distributed energy resources coordination impose an ever greater training computational burden as the size of the system increases. We therefore adopt a deep multi-agent actor-critic method which uses a \emph{centralised but factored critic} to rehearse coordination ahead of execution. Results show that coordination is achieved at scale, with minimal information and communication infrastructure requirements, no interference with daily activities, and privacy protection. Significant savings are obtained for energy users, the distribution network and greenhouse gas emissions. Moreover, training times are nearly 40 times shorter than with a previous state-of-the-art reinforcement learning approach without the factored critic for 30 homes.
翻訳日:2023-06-07 00:30:57 公開日:2023-06-05
# ベンチマークデータセットにおけるChatGPTの体系的研究と総合評価

A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets ( http://arxiv.org/abs/2305.18486v2 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, M Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, Jimmy Xiangji Huang(参考訳) ChatGPTのような大規模言語モデル(LLM)の開発は、最近多くの注目を集めている。 しかし,本モデルが生み出す生成的アウトプットを根底から評価することの難しさから,その評価は未検討のままである。 本稿では,問合せ,テキスト要約,コード生成,コモンセンス推論,数学的問題解決,機械翻訳,バイアス検出,倫理的考察など,さまざまな学術データセットにおけるchatgptの性能を徹底的に評価することを目的とする。 具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。 これにより、NLPベンチマークにおけるChatGPTの最大の評価が得られます。 本研究の目的は,様々なタスクにおけるChatGPTの強みと弱みを検証し,LCMを用いた今後の研究への洞察を提供することである。 また、ChatGPTや他の命令調整モデルでよく見られるマルチクエリ命令に従う新しい創発的能力についても報告する。 我々の広範な評価によると、ChatGPTは様々なタスクを実行でき、いくつかのベンチマークデータセットで印象的なパフォーマンスを得ることができるが、多くの課題を確実に解決する能力を達成するには程遠い。 多様なNLPタスクに対してChatGPTの性能を徹底的に評価することにより、現実のアプリケーションにChatGPTライクなLLMをターゲットとして配置するためのステージを設定する。

The development of large language models (LLMs) such as ChatGPT has brought a lot of attention recently. However, their evaluation in the benchmark academic datasets remains under-explored due to the difficulty of evaluating the generative outputs produced by this model against the ground truth. In this paper, we aim to present a thorough evaluation of ChatGPT's performance on diverse academic datasets, covering tasks like question-answering, text summarization, code generation, commonsense reasoning, mathematical problem-solving, machine translation, bias detection, and ethical considerations. Specifically, we evaluate ChatGPT across 140 tasks and analyze 255K responses it generates in these datasets. This makes our work the largest evaluation of ChatGPT in NLP benchmarks. In short, our study aims to validate the strengths and weaknesses of ChatGPT in various tasks and provide insights for future research using LLMs. We also report a new emergent ability to follow multi-query instructions that we mostly found in ChatGPT and other instruction-tuned models. Our extensive evaluation shows that even though ChatGPT is capable of performing a wide variety of tasks, and may obtain impressive performance in several benchmark datasets, it is still far from achieving the ability to reliably solve many challenging tasks. By providing a thorough assessment of ChatGPT's performance across diverse NLP tasks, this paper sets the stage for a targeted deployment of ChatGPT-like LLMs in real-world applications.
翻訳日:2023-06-07 00:30:37 公開日:2023-06-05
# beyond the meta: パッチ非依存のeスポーツ分析にゲーム設計パラメータを活用する

Beyond the Meta: Leveraging Game Design Parameters for Patch-Agnostic Esport Analytics ( http://arxiv.org/abs/2305.18477v2 )

ライセンス: Link先を確認
Alan Pedrassoli Chitayat, Florian Block, James Walker, Anders Drachen(参考訳) スポーツゲームは世界のゲーム市場の相当な割合を占めており、ゲームの中では最速の成長セグメントである。 これは、ゲームからのテレメトリデータを使用してプレイヤー、コーチ、ブロードキャスター、その他の利害関係者に通知するesports analyticsの領域を生み出した。 伝統的なスポーツと比較すると、eスポーツのタイトルはメカニックとルールの点で急速に変化する。 ゲームのパラメータの頻繁な変更により、エスポート分析モデルは短い寿命しか持たないが、これは文献ではほとんど無視されている問題である。 本稿では,ゲーム設計から情報(パッチノート)を抽出し,クラスタリング技術を用いて新たな文字表現方式を提案する。 ケーススタディでは、ニューラルネットワークモデルを用いて、この新しいキャラクタ表現技術を利用して、Dota 2マッチにおける殺人数を予測する。 このモデルの性能は、従来の手法を含む2つの異なるベースラインに対して評価される。 このモデルは精度の点でベースラインを著しく上回っていた(85% auc)だけでなく、新しいキャラクタと全く新しいキャラクタタイプを導入したゲームの2つの新しいイテレーションで精度を維持している。 ゲームの設計に導入されたこれらの変更は、通常、文学で一般的に使用される従来のテクニックを破ることになる。 したがって,提案手法は,従来の文学的手法と比較して,機械学習モデルの寿命を増加させるだけでなく,高い性能をもたらすことができる。

Esport games comprise a sizeable fraction of the global games market, and is the fastest growing segment in games. This has given rise to the domain of esports analytics, which uses telemetry data from games to inform players, coaches, broadcasters and other stakeholders. Compared to traditional sports, esport titles change rapidly, in terms of mechanics as well as rules. Due to these frequent changes to the parameters of the game, esport analytics models can have a short life-spam, a problem which is largely ignored within the literature. This paper extracts information from game design (i.e. patch notes) and utilises clustering techniques to propose a new form of character representation. As a case study, a neural network model is trained to predict the number of kills in a Dota 2 match utilising this novel character representation technique. The performance of this model is then evaluated against two distinct baselines, including conventional techniques. Not only did the model significantly outperform the baselines in terms of accuracy (85% AUC), but the model also maintains the accuracy in two newer iterations of the game that introduced one new character and a brand new character type. These changes introduced to the design of the game would typically break conventional techniques that are commonly used within the literature. Therefore, the proposed methodology for representing characters can increase the life-spam of machine learning models as well as contribute to a higher performance when compared to traditional techniques typically employed within the literature.
翻訳日:2023-06-07 00:30:13 公開日:2023-06-05
# 事前学習言語モデルを用いた文脈分析

In-Context Analogical Reasoning with Pre-Trained Language Models ( http://arxiv.org/abs/2305.17626v2 )

ライセンス: Link先を確認
Xiaoyang Hu, Shane Storks, Richard L. Lewis, Joyce Chai(参考訳) アナロジカル推論は人間の認知の基本的な能力であり、過去の経験に関連付けて、新しい状況を抽象的に推論することができる。 aiシステムのロバストな推論には不可欠と考えられているが、従来のアプローチでは、ベンチマークタスクに適用するには、重要なトレーニングとドメイン知識のハードコーディングが必要となる。 人間の言語とアナロジー作成の関連を見出した認知科学の研究に触発され、aiシステムにおけるアナロジーをサポートするために直感的な言語ベースの抽象化の使用を探求する。 具体的には、一般的な関係推論テストである visual raven's progressive matrices (rpm) に、大きな事前学習言語モデル (plm) を適用する。 問題の知覚的特徴を言語形式に符号化することで、PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。 タスク特徴よりも抽象化のレベルが異なる異なるエンコーディングを探索し、より高いレベルの抽象化がPLMのアナログ推論をさらに強化することを発見した。 詳細な分析により,rpmタスク解決におけるモデル複雑性,インコンテキスト学習,事前知識の役割に関する知見が明らかになった。

Analogical reasoning is a fundamental capacity of human cognition that allows us to reason abstractly about novel situations by relating them to past experiences. While it is thought to be essential for robust reasoning in AI systems, conventional approaches require significant training and/or hard-coding of domain knowledge to be applied to benchmark tasks. Inspired by cognitive science research that has found connections between human language and analogy-making, we explore the use of intuitive language-based abstractions to support analogy in AI systems. Specifically, we apply large pre-trained language models (PLMs) to visual Raven's Progressive Matrices (RPM), a common relational reasoning test. By simply encoding the perceptual features of the problem into language form, we find that PLMs exhibit a striking capacity for zero-shot relational reasoning, exceeding human performance and nearing supervised vision-based methods. We explore different encodings that vary the level of abstraction over task features, finding that higher-level abstractions further strengthen PLMs' analogical reasoning. Our detailed analysis reveals insights on the role of model complexity, in-context learning, and prior knowledge in solving RPM tasks.
翻訳日:2023-06-07 00:28:48 公開日:2023-06-05
# PFNs4BO:ベイズ最適化のための文脈学習

PFNs4BO: In-Context Learning for Bayesian Optimization ( http://arxiv.org/abs/2305.17535v2 )

ライセンス: Link先を確認
Samuel M\"uller, Matthias Feurer, Noah Hollmann, Frank Hutter(参考訳) 本稿では,ベイズ最適化(BO)のためのフレキシブルサロゲートとして,PFN(Presideed Data Fitted Networks)を用いる。 PFNは、効率的にサンプリングできる任意の事前分布のコンテキスト内学習を通じて、後部予測分布(PPD)を近似するように訓練された神経プロセスである。 BOにおけるサロゲートモデリングにおいて,この柔軟性をどのように活用できるかを述べる。 我々はPFNを用いて、単純なガウス過程(GP)、高度なGP、ベイズニューラルネットワーク(BNN)を模倣する。 また,オプティマの位置に関するヒントを許容したり,無関係次元を無視したり,取得関数を学習して非オプティマボを実行したりするなど,さらに情報を前もって組み込む方法を示す。 これらの拡張の基盤となる柔軟性は、BOにPFNを使用する大きな可能性を開く。 人工GP試料と3種類のハイパーパラメータ最適化テストベッド(HPO-B, Bayesmark, PD1)の大規模評価において, BOに対するPFNの有用性を示す。 トレーニングされたモデルをhttps://github.com/automl/PFNs4BOで公開しています。

In this paper, we use Prior-data Fitted Networks (PFNs) as a flexible surrogate for Bayesian Optimization (BO). PFNs are neural processes that are trained to approximate the posterior predictive distribution (PPD) through in-context learning on any prior distribution that can be efficiently sampled from. We describe how this flexibility can be exploited for surrogate modeling in BO. We use PFNs to mimic a naive Gaussian process (GP), an advanced GP, and a Bayesian Neural Network (BNN). In addition, we show how to incorporate further information into the prior, such as allowing hints about the position of optima (user priors), ignoring irrelevant dimensions, and performing non-myopic BO by learning the acquisition function. The flexibility underlying these extensions opens up vast possibilities for using PFNs for BO. We demonstrate the usefulness of PFNs for BO in a large-scale evaluation on artificial GP samples and three different hyperparameter optimization testbeds: HPO-B, Bayesmark, and PD1. We publish code alongside trained models at https://github.com/automl/PFNs4BO.
翻訳日:2023-06-07 00:27:52 公開日:2023-06-05
# Vandermonde ニューラル演算子

Vandermonde Neural Operators ( http://arxiv.org/abs/2305.19663v2 )

ライセンス: Link先を確認
Levi Lingsch and Mike Michelis and Sirani M. Perera and Robert K. Katzschmann and Siddartha Mishra(参考訳) Fourier Neural Operators (FNO)は、特にPDEで発生する、学習オペレータのための非常に人気のある機械学習アーキテクチャとして登場した。 しかし、FNOは高速フーリエ変換を計算効率に頼っているため、このアーキテクチャは等間隔のカルテシアン格子上の入力データに限定される。 ここでは、FNOを一般化して、等価でない点分布の入力データを処理する。 提案モデルはvandermonde neural operator (vno) と呼ばれ,vandermonde-structured matricesを用いて任意に分布した点においても,前方および逆フーリエ変換を効率的に計算する。 数値実験により、VNOsはFNOsよりもはるかに高速でありながら、同等の精度を維持し、Geo-FNOのような非等価な手法の精度を向上させることを示す。

Fourier Neural Operators (FNOs) have emerged as very popular machine learning architectures for learning operators, particularly those arising in PDEs. However, as FNOs rely on the fast Fourier transform for computational efficiency, the architecture can be limited to input data on equispaced Cartesian grids. Here, we generalize FNOs to handle input data on non-equispaced point distributions. Our proposed model, termed as Vandermonde Neural Operator (VNO), utilizes Vandermonde-structured matrices to efficiently compute forward and inverse Fourier transforms, even on arbitrarily distributed points. We present numerical experiments to demonstrate that VNOs can be significantly faster than FNOs, while retaining comparable accuracy, and improve upon accuracy of comparable non-equispaced methods such as the Geo-FNO.
翻訳日:2023-06-07 00:19:16 公開日:2023-06-05
# 実験的に実現可能な連続可変量子ニューラルネットワーク

Experimentally Realizable Continuous-variable Quantum Neural Networks ( http://arxiv.org/abs/2306.02525v1 )

ライセンス: Link先を確認
Shikha Bangar, Leanto Sunny, Kubra Yeter-Aydeniz, George Siopsis(参考訳) 連続可変(CV)量子コンピューティングは、ニューラルネットワークモデルを構築する大きな可能性を示している。 これらのニューラルネットワークは、問題の複雑さに応じて、量子古典的ハイブリダイゼーションの異なるレベルを持つことができる。 cvニューラルネットワークプロトコルの以前の作業では、ネットワーク内の非ガウス演算子の実装が必要だった。 これらの演算子は、ニューラルネットワークの重要な特徴である非線形性を導入するのに使われた。 しかし、これらのプロトコルを実験的に実行するのは難しい。 現在のフォトニック量子ハードウェアで実験的に実現可能なcvハイブリッド量子古典ニューラルネットワークプロトコルを構築した。 我々のプロトコルは、補助クォーモットの追加だけでガウス門を使用する。 漸近量子モード上で繰り返しアンティルサクセス測定を行い,非線形性を実装した。 ニューラルネットワークをテストするために、教師付き学習環境(状態準備、カーブフィッティング、分類問題)において、標準機械学習と量子コンピュータの問題を研究した。 単一光子 (99.9%), 猫 (99.8%), ゴッテマン・キタエフ・プレスキル (93.9%) の状態の合成において高い忠実性を達成し, 雑音の存在下では1%未満のコストで十分に適合する曲線, 分類問題において95%以上の精度を得た。 これらの結果は、CV量子ニューラルネットワークの現実的な応用に有効である。

Continuous-variable (CV) quantum computing has shown great potential for building neural network models. These neural networks can have different levels of quantum-classical hybridization depending on the complexity of the problem. Previous work on CV neural network protocols required the implementation of non-Gaussian operators in the network. These operators were used to introduce non-linearity, an essential feature of neural networks. However, these protocols are hard to execute experimentally. We built a CV hybrid quantum-classical neural network protocol that can be realized experimentally with current photonic quantum hardware. Our protocol uses Gaussian gates only with the addition of ancillary qumodes. We implemented non-linearity through repeat-until-success measurements on ancillary qumodes. To test our neural network, we studied canonical machine learning and quantum computer problems in a supervised learning setting -- state preparation, curve fitting, and classification problems. We achieved high fidelity in state preparation of single-photon (99.9%), cat (99.8%), and Gottesman-Kitaev-Preskill (93.9%) states, a well-fitted curve in the presence of noise at a cost of less than 1%, and more than 95% accuracy in classification problems. These results bode well for real-world applications of CV quantum neural networks.
翻訳日:2023-06-06 17:29:44 公開日:2023-06-05
# 証明理論と知識表現をつなぐ--実存則によるシークエント計算とチェイス

Connecting Proof Theory and Knowledge Representation: Sequent Calculi and the Chase with Existential Rules ( http://arxiv.org/abs/2306.02521v1 )

ライセンス: Link先を確認
Tim S. Lyon and Piotr Ostropolski-Nalewaja(参考訳) カオスアルゴリズムは知識ベースクエリの領域では不可欠であり、与えられたオントロジーからのルールの適用を通じて、あるデータベースから暗黙の知識を抽出することができる。 このようなアルゴリズムは、決定可能なクエリを包含する論理言語を特定するのに有用であることが証明されている。 証明論の分野において、シークエント計算は論理の識別可能なクラスを識別するために証明探索アルゴリズムを記述および設計するために用いられる。 本稿では,存在規則の文脈におけるチェイス機構が,一階述語論理に対するゲンツェンのシークエント計算の拡張における証明探索と本質的に同じであることを示す。 さらに,証明探索が知識基盤の普遍的モデルを生成することを示し,その特徴を追究した。 そこで,我々は知識表現の文脈において,決定可能性証明を理論的に中心決定可能性ツールと結びつける。

Chase algorithms are indispensable in the domain of knowledge base querying, which enable the extraction of implicit knowledge from a given database via applications of rules from a given ontology. Such algorithms have proved beneficial in identifying logical languages which admit decidable query entailment. Within the discipline of proof theory, sequent calculi have been used to write and design proof-search algorithms to identify decidable classes of logics. In this paper, we show that the chase mechanism in the context of existential rules is in essence the same as proof-search in an extension of Gentzen's sequent calculus for first-order logic. Moreover, we show that proof-search generates universal models of knowledge bases, a feature also exhibited by the chase. Thus, we formally connect a central tool for establishing decidability proof-theoretically with a central decidability tool in the context of knowledge representation.
翻訳日:2023-06-06 17:29:23 公開日:2023-06-05
# 交通理解のための状況推論に関する研究

A Study of Situational Reasoning for Traffic Understanding ( http://arxiv.org/abs/2306.02520v1 )

ライセンス: Link先を確認
Jiarui Zhang, Filip Ilievski, Kaixin Ma, Aravinda Kollaa, Jonathan Francis, Alessandro Oltramari(参考訳) itmo(intelligent traffic monitoring)技術は、道路の安全とセキュリティを改善し、スマートシティインフラストラクチャを実現する可能性を秘めている。 交通状況を理解するには、知覚情報とドメイン固有および因果共通認識知識の複雑な融合が必要である。 以前の作業はトラフィック監視のためのベンチマークとメソッドを提供してきたが、モデルがこれらの情報ソースと新しいシナリオにおける理由を効果的に調整できるかどうかは不明だ。 この評価のギャップに対処するために、交通ドメインにおける状況推論のための3つの新しいテキストベースのタスクを考案する。 一 状況的意思決定を行うための言語モデル(lms)の能力を評価するbdd-qa 二 複雑な事象因果関係を推論するLMの能力を評価するテレビQA及び 三 人間の運転試験を解決するためのモデルの能力を評価するHDT-QA 我々は,自然言語推論,コモンセンス知識グラフ自己スーパービジョン,マルチqa合同トレーニング,ドメイン情報の高密度検索に基づく,事前作業における言語推論タスク間の一般化能力を示す4つの知識強化手法を採用する。 各メソッドを,知識グラフや関連するベンチマーク,マニュアルの操作など,関連する知識ソースと関連付ける。 我々は,データ分割におけるモデル性能の詳細な分析を行い,モデル予測をカテゴリー別に検討し,異なる背景知識と推論戦略を与えられたトラヒック理解に有用な洞察を与える。

Intelligent Traffic Monitoring (ITMo) technologies hold the potential for improving road safety/security and for enabling smart city infrastructure. Understanding traffic situations requires a complex fusion of perceptual information with domain-specific and causal commonsense knowledge. Whereas prior work has provided benchmarks and methods for traffic monitoring, it remains unclear whether models can effectively align these information sources and reason in novel scenarios. To address this assessment gap, we devise three novel text-based tasks for situational reasoning in the traffic domain: i) BDD-QA, which evaluates the ability of Language Models (LMs) to perform situational decision-making, ii) TV-QA, which assesses LMs' abilities to reason about complex event causality, and iii) HDT-QA, which evaluates the ability of models to solve human driving exams. We adopt four knowledge-enhanced methods that have shown generalization capability across language reasoning tasks in prior work, based on natural language inference, commonsense knowledge-graph self-supervision, multi-QA joint training, and dense retrieval of domain information. We associate each method with a relevant knowledge source, including knowledge graphs, relevant benchmarks, and driving manuals. In extensive experiments, we benchmark various knowledge-aware methods against the three datasets, under zero-shot evaluation; we provide in-depth analyses of model performance on data partitions and examine model predictions categorically, to yield useful insights on traffic understanding, given different background knowledge and reasoning strategies.
翻訳日:2023-06-06 17:29:08 公開日:2023-06-05
# 2043年までにトランスフォーマティブAGIは<1%の確率である

Transformative AGI by 2043 is <1% likely ( http://arxiv.org/abs/2306.02519v1 )

ライセンス: Link先を確認
Ari Allyn-Feuer and Ted Sanders(参考訳) この論文は、Open Philanthropy AI Worldviews Contestへの提出である。 そこで我々は,2043年までにAGI(Transformative Artificial General Intelligence)の確率を推定し,その確率を1%とした。 コンテストによって定義されたAGI - 人的コスト以下でほぼすべての価値のあるタスクを実行できるAIのようなもの - トランスフォーメーションAGIは、単なるAIの大規模な進歩よりもはるかに高いバー、あるいは高価な超人的AGIや、安価で不均一なAGIの明確な達成さえも。 2043年までにagiが変化する確率は、ソフトウェア、ハードウェア、社会政治の要素のカテゴリに分類される多くの必要なステップの合同確率として分解することができる。 ステップは保証されない: 各ステップについて、私たちは2043年までに成功の確率を見積もる。 多くのステップは短いタイムラインによってかなり制約されており、見積もりは16%から95%の範囲です。 したがって, 2043 年までに変換可能な agi が 0.4% の確率で, カスケード条件付き確率を掛け合わせた場合, 確率は低い。 10%は不当に高く感じる確率を必要としているようで、3%でさえありそうにない。 この問題にカスケード条件付き確率アプローチを適用すると、しばしば想定されるよりも低い確率値が得られる。 この枠組みは人類がトランスフォーメーションAGIに向けて部分的だが不完全な進歩を行う多くの未来のシナリオを列挙するのに役立つ。

This paper is a submission to the Open Philanthropy AI Worldviews Contest. In it, we estimate the likelihood of transformative artificial general intelligence (AGI) by 2043 and find it to be <1%. Specifically, we argue: The bar is high: AGI as defined by the contest - something like AI that can perform nearly all valuable tasks at human cost or less - which we will call transformative AGI is a much higher bar than merely massive progress in AI, or even the unambiguous attainment of expensive superhuman AGI or cheap but uneven AGI. Many steps are needed: The probability of transformative AGI by 2043 can be decomposed as the joint probability of a number of necessary steps, which we group into categories of software, hardware, and sociopolitical factors. No step is guaranteed: For each step, we estimate a probability of success by 2043, conditional on prior steps being achieved. Many steps are quite constrained by the short timeline, and our estimates range from 16% to 95%. Therefore, the odds are low: Multiplying the cascading conditional probabilities together, we estimate that transformative AGI by 2043 is 0.4% likely. Reaching >10% seems to require probabilities that feel unreasonably high, and even 3% seems unlikely. Thoughtfully applying the cascading conditional probability approach to this question yields lower probability values than is often supposed. This framework helps enumerate the many future scenarios where humanity makes partial but incomplete progress toward transformative AGI.
翻訳日:2023-06-06 17:28:45 公開日:2023-06-05
# グラフ状態を用いた量子マルチパラメータ推定

Quantum multiparameter estimation with graph states ( http://arxiv.org/abs/2306.02518v1 )

ライセンス: Link先を確認
Hong Tao(参考訳) SU(2)力学では、最適な最適マルチパラメータ推定を実現することは特に重要であるが、非常に難しい。 SU(N)ダイナミクスの進化は、量子ネットワークを用いた同時マルチパラメータ推定の研究手法である。 高度に絡み合った状態であるグラフ状態は、量子力学の本質的な量子資源である。 n-qubit グラフ状態に対して,SU(N) ダイナミクスの進化を研究する同時マルチパラメータ推定法を提案する。 単パラメータ推定では、SU(2) の高次元スピンにおけるハイゼンベルク極限を超える精度限界が与えられる。 ハミルトニアン作用素がそれぞれ可換かつ非可換である2つのシナリオを考察し、大域的推定精度が局所的推定精度よりも高いことを検証する。 パラメータ限界条件では、各パラメータの同時推定のためのパラメータ推定の精度は、単パラメータ推定の精度と等しい。 さらに、ダイナミクス SU(N) に依存する精度向上スキームが見つかる。 動力学進化の n が小さくなればなるほど、パラメータ推定の精度は高まる。 最後に、グラフ状態が量子計量学の最適状態であることを証明し、最適な測定基準のセットを見つけることができ、マルチパラメータ推定の精度限界は量子Cram\'er-Rao境界に達することができる。

In the SU(2) dynamics, it is especially significant to achieve a simultaneous optimal multiparameter estimation but it is very difficult. Evolution on SU(N) dynamics is a research method to explore simultaneous multiparameter estimation with the quantum network. As the highly entangled states, graph state, is an intrinsical quantum resource for quantum metrology. For n-qubit graph state, we propose a simultaneous multiparameter estimation scheme that investigates evolution in SU(N) dynamics. For single-parameter estimation, the precision limit beyond the Heisenberg limit in the higher dimension spin of SU(2). We consider two scenarios where the Hamiltonian operator is commutation and non-commutation respectively and verify that the global estimation precision is higher than the local estimation precision. In the parameter limit condition, the precision of parameter estimation for the simultaneous estimation of each parameter is equal to the precision of the singleparameter estimation. In addition, we find a precision-enhancement scheme that depends on the dynamics SU(N). The smaller the N for the dynamics evolution, the higher the precision of the parameter estimation. Finally, we prove that the graph state is the optimal state of quantum metrology, a set of optimal measurement basic can be found, and the precision limit of multiparameter estimation can attain the quantum Cram\'er-Rao bound.
翻訳日:2023-06-06 17:28:17 公開日:2023-06-05
# 説明可能な初期応答のための深部FCDDによる災害異常検出装置

Disaster Anomaly Detector via Deeper FCDDs for Explainable Initial Responses ( http://arxiv.org/abs/2306.02517v1 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano and Junichiro Fujii(参考訳) 都市部や農村部は、しばしば極度の自然災害によって荒廃する。 どんな災害でも、初期応答は72時間以内に救助し、迅速に回復するための鍵です。 初期対応の段階では,広範囲にわたる災害被害を迅速に認識し,最優先領域を決定することが重要である。 機械学習アルゴリズムのうち、深部異常検出は通常の視覚と異なる破壊的な特徴を検出するのに有効である。 さらに、説明可能なコンピュータビジョンアプリケーションは初期応答を正当化することが期待されている。 本稿では, 破壊的特徴の局所化と損傷マーク付きヒートマップの可視化を可能にする, 完全畳み込みデータ記述(FCDD)を用いた異常検出アプリケーションを提案する。 より具体的には、崩壊した建物、交通事故、火災、洪水地域という4つの災害カテゴリーを持つデータセットAIDERに対して、多数のトレーニングとテスト結果を示す。 また,異常クラス不均衡と正規クラスと競合するデータスケールのアブレーション研究も実施する。 最後に、より堅牢で説明可能な、効果的な初期応答アプリケーションを改善するための今後の取り組みについて論じる。

Urban and rural areas can often be devastated by extreme natural disasters. Towards any disaster event, an initial response is the key to rescuing within 72 hours and prompt recovery. For the stage of initial responses, it is important to quickly recognize the disaster damage over a wide area and determine priority areas. Among machine learning algorithms, deep anomaly detection is effective in detecting devastated features that are different from ordinary vision everyday life. In addition, explainable computer vision applications have been expected to justify the initial responses. In this paper, we propose an anomaly detection application utilizing the deeper fully-convolutional data descriptions (FCDDs), that enables to localize devastated features and visualize damage-marked heatmaps. More concretely, we show numerous training and test results to a dataset AIDER with the four disaster categories: collapsed buildings, traffic accidents, fires, and flooding areas. We also implement ablation studies of anomalous class imbalance and the data scale competing against the normal class. Finally, we discuss future works to improve more robust, explainable applications for effective initial responses.
翻訳日:2023-06-06 17:27:59 公開日:2023-06-05
# samtone: 同じタワー負のデュアルエンコーダ検索モデルにおけるコントラスト損失の改善

SamToNe: Improving Contrastive Loss for Dual Encoder Retrieval Models with Same Tower Negatives ( http://arxiv.org/abs/2306.02516v1 )

ライセンス: Link先を確認
Fedor Moiseev, Gustavo Hernandez Abrego, Peter Dornbach, Imed Zitouni, Enrique Alfonseca, Zhe Dong(参考訳) 二重エンコーダは検索タスクや表現学習に用いられており、結果も良好である。 デュアルエンコーダをトレーニングする標準的な方法は、バッチ内の負のコントラスト損失を使用することである。 本研究では,同一のエンコーダタワーからの問合せや文書を負数に加えることで,コントラスト学習の目標を改良し,その目的を「同一のタワー負数を持つ矛盾的損失(contrastive loss with same tower negatives)」と呼ぶ。 ms marco と multireqa の質問応答検索ベンチマークと異種ゼロショット情報検索ベンチマーク (beir) の評価により,samtone は対称および非対称デュアルエンコーダの検索品質を効果的に向上できることを実証した。 t-SNEアルゴリズム(van der Maaten and Hinton, 2008)を介して、2つのエンコーダ塔の埋め込み空間を直接探索することにより、SamToNeは2つのエンコーダ塔の埋め込み空間間のアライメントを保証する。 上位1ドルの検索結果の埋め込み距離分布の解析に基づいて,正規化の観点から,本手法の有効性をさらに説明する。

Dual encoders have been used for retrieval tasks and representation learning with good results. A standard way to train dual encoders is using a contrastive loss with in-batch negatives. In this work, we propose an improved contrastive learning objective by adding queries or documents from the same encoder towers to the negatives, for which we name it as "contrastive loss with SAMe TOwer NEgatives" (SamToNe). By evaluating on question answering retrieval benchmarks from MS MARCO and MultiReQA, and heterogenous zero-shot information retrieval benchmarks (BEIR), we demonstrate that SamToNe can effectively improve the retrieval quality for both symmetric and asymmetric dual encoders. By directly probing the embedding spaces of the two encoding towers via the t-SNE algorithm (van der Maaten and Hinton, 2008), we observe that SamToNe ensures the alignment between the embedding spaces from the two encoder towers. Based on the analysis of the embedding distance distributions of the top-$1$ retrieved results, we further explain the efficacy of the method from the perspective of regularisation.
翻訳日:2023-06-06 17:27:43 公開日:2023-06-05
# Jambu: 南アジアの言語に関する歴史的言語データベース

Jambu: A historical linguistic database for South Asian languages ( http://arxiv.org/abs/2306.02514v1 )

ライセンス: Link先を確認
Aryaman Arora, Adam Farris, Samopriya Basu, Suresh Kolichala(参考訳) Jambuは、数十の過去のソースを構造化され、アクセス可能なフォーマットで統合した、南アジアの言語の共用データベースである。 データベースには602 lectsの287kレマタが含まれ、23kのコニャートのセットにまとめられている。 データセットのコンパイルとニューラルネットワークモデルのトレーニングに必要なデータラングリングについて,indo-aryanサブセット上で反射予測を行うために概説する。 ジャムブはすべての歴史的言語学者やインド学者にとって貴重な資源であり、データベースのさらなる改善と拡張を目指しています。

We introduce Jambu, a cognate database of South Asian languages which unifies dozens of previous sources in a structured and accessible format. The database includes 287k lemmata from 602 lects, grouped together in 23k sets of cognates. We outline the data wrangling necessary to compile the dataset and train neural models for reflex prediction on the Indo-Aryan subset of the data. We hope that Jambu is an invaluable resource for all historical linguists and Indologists, and look towards further improvement and expansion of the database.
翻訳日:2023-06-06 17:27:22 公開日:2023-06-05
# グラフ上の信号のためのグラフフーリエMD

Graph Fourier MMD for Signals on Graphs ( http://arxiv.org/abs/2306.02508v1 )

ライセンス: Link先を確認
Samuel Leone, Aarthi Venkat, Guillaume Huguet, Alexander Tong, Guy Wolf, Smita Krishnaswamy(参考訳) ユークリッド空間における確率分布間の距離を計算するための多くの方法が提案されているが、グラフ上の分布に対する距離を計算することには比較的注意が払われていない。 しかし、グラフ(タンパク質相互作用ネットワークなど)上に存在するか、グラフ(単一細胞データ)としてモデル化されるデータ(特に生物医学)が著しく増加している。 したがって、そのようなグラフ上で定義された信号を比較する方法を見つけることが重要である。 本稿では,グラフ上の分布と信号の新たな距離であるグラフフーリエMD(GFMMD)を提案する。 gfmmdはグラフ上で滑らかであり、グラフ上の分布の対間の期待差を最大化する最適な証人関数によって定義される。 この最適化問題に対する解析的解法と,本手法から得られる分布の埋め込みを求める。 また,この手法は,スケール不変性と断続グラフへの適用性など,いくつかの特性を証明した。 グラフベンチマークのデータセットや、単一セルRNAシークエンシングデータ解析について紹介する。 後者では、gfmmdベースの遺伝子組込みを用いて有意義な遺伝子クラスターを探索する。 また、遺伝子選択のための新しいタイプのスコア「遺伝子局在スコア」を提案し、細胞状態の空間的特徴付けのための遺伝子選択を支援する。

While numerous methods have been proposed for computing distances between probability distributions in Euclidean space, relatively little attention has been given to computing such distances for distributions on graphs. However, there has been a marked increase in data that either lies on graph (such as protein interaction networks) or can be modeled as a graph (single cell data), particularly in the biomedical sciences. Thus, it becomes important to find ways to compare signals defined on such graphs. Here, we propose Graph Fourier MMD (GFMMD), a novel distance between distributions and signals on graphs. GFMMD is defined via an optimal witness function that is both smooth on the graph and maximizes difference in expectation between the pair of distributions on the graph. We find an analytical solution to this optimization problem as well as an embedding of distributions that results from this method. We also prove several properties of this method including scale invariance and applicability to disconnected graphs. We showcase it on graph benchmark datasets as well on single cell RNA-sequencing data analysis. In the latter, we use the GFMMD-based gene embeddings to find meaningful gene clusters. We also propose a novel type of score for gene selection called "gene localization score" which helps select genes for cellular state space characterization.
翻訳日:2023-06-06 17:27:13 公開日:2023-06-05
# 患者特有のEHR質問に対するAIチャットボットの評価

Evaluation of AI Chatbots for Patient-Specific EHR Questions ( http://arxiv.org/abs/2306.02549v1 )

ライセンス: Link先を確認
Alaleh Hamidi and Kirk Roberts(参考訳) 本稿では,患者固有の質問応答(QA)に対する人工知能チャットボットの使用について,いくつかの大規模言語モデル(LLM)ベースのシステムであるChatGPT(バージョン3.5,4),Google Bard,Claudeを用いて検討する。 患者固有の質問に対する5点類似尺度を用いて,各モデルが生成した回答の正確性,妥当性,包括性,コヒーレンスを評価する。

This paper investigates the use of artificial intelligence chatbots for patient-specific question answering (QA) from clinical notes using several large language model (LLM) based systems: ChatGPT (versions 3.5 and 4), Google Bard, and Claude. We evaluate the accuracy, relevance, comprehensiveness, and coherence of the answers generated by each model using a 5-point Likert scale on a set of patient-specific questions.
翻訳日:2023-06-06 17:18:52 公開日:2023-06-05
# 超音波画像による頸動脈狭窄の3次元インフレーション変換

Inflated 3D Convolution-Transformer for Weakly-supervised Carotid Stenosis Grading with Ultrasound Videos ( http://arxiv.org/abs/2306.02548v1 )

ライセンス: Link先を確認
Xinrui Zhou, Yuhao Huang, Wufeng Xue, Xin Yang, Yuxin Zou, Qilong Ying, Yuanji Zhang, Jia Liu, Jie Ren, Dong Ni(参考訳) 臨床における頸動脈狭窄度(CSG)の診断には, 血管の最も狭い位置とそれに対応する血管と残存血管の脱線が不可欠である。 しかし、パイプラインは、プラークと時間的変動のあいまいな境界のため、時間がかかり、難しい。 この手順を自動化するには、多くの手作業による記述が必要になるが、これは手間がかかるだけでなく、アノテーションの難しさから信頼性も低い。 本研究では,CSGの自動分類のための最初のビデオ分類フレームワークを提案する。 私たちの貢献は3倍です。 まず, 冗長で信頼できないアノテーションの要求を避けるために, 弱教師付きcsgのための新しい効果的なビデオ分類ネットワークを提案する。 第二に、モデルのトレーニングを容易にするために、トレーニング済みの2D畳み込み重みをネットワーク内の3Dに適合させることができるネットワークのインフレーション戦略を採用する。 このように、既存の事前学習された大規模モデルは、ネットワークの効果的なウォームスタートとして使用できる。 第3に,2つの軽量な多次元アテンション機構を設計した空間的・時間的空間的・空間的相互依存をモデル化・統合するための,新しい注意誘導多次元フュージョン(AMDF)トランスフォーマエンコーダを提案する。 提案手法は,大容量の頸動脈ビデオデータセットで広く検証され,競合相手と比較して最先端の性能が示された。

Localization of the narrowest position of the vessel and corresponding vessel and remnant vessel delineation in carotid ultrasound (US) are essential for carotid stenosis grading (CSG) in clinical practice. However, the pipeline is time-consuming and tough due to the ambiguous boundaries of plaque and temporal variation. To automatize this procedure, a large number of manual delineations are usually required, which is not only laborious but also not reliable given the annotation difficulty. In this study, we present the first video classification framework for automatic CSG. Our contribution is three-fold. First, to avoid the requirement of laborious and unreliable annotation, we propose a novel and effective video classification network for weakly-supervised CSG. Second, to ease the model training, we adopt an inflation strategy for the network, where pre-trained 2D convolution weights can be adapted into the 3D counterpart in our network. In this way, the existing pre-trained large model can be used as an effective warm start for our network. Third, to enhance the feature discrimination of the video, we propose a novel attention-guided multi-dimension fusion (AMDF) transformer encoder to model and integrate global dependencies within and across spatial and temporal dimensions, where two lightweight cross-dimensional attention mechanisms are designed. Our approach is extensively validated on a large clinically collected carotid US video dataset, demonstrating state-of-the-art performance compared with strong competitors.
翻訳日:2023-06-06 17:18:44 公開日:2023-06-05
# ロバスト分類のためのマルチレベル一貫性を持つフーリエテスト時間適応

Fourier Test-time Adaptation with Multi-level Consistency for Robust Classification ( http://arxiv.org/abs/2306.02544v1 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Xiaoqiong Huang, Xinrui Zhou, Haozhe Chi, Haoran Dou, Xindi Hu, Jian Wang, Xuedong Deng, Dong Ni(参考訳) 深層分類器は、様々なセンター、ベンダー、プロトコルから見当たらないテストデータを処理する場合、大幅なパフォーマンス低下に遭遇する可能性がある。 これらのドメインシフトに対する深層モデルの堅牢性を保証することは、その広範な臨床応用に不可欠である。 本研究では,入力とモデルのチューニングを統合するために,デュアル適応設計を用いるフーリエテストタイム適応(ftta)と呼ばれる新しい手法を提案する。 FTTAの主な考え方は、予測の自己補正を達成するためにペア入力の信頼性の高い多レベル整合性測定を構築することである。 私たちの貢献は2倍です。 まず、グローバル特徴の一貫性と、同じ入力の2つの変換画像間のローカルアテンションマップを奨励する。 ここで、変換はフーリエベースの入力適応を参照し、1つの未認識の画像をソーススタイルに転送し、ドメイン間のギャップを減らすことができる。 さらに,スタイル補間画像を利用して,学習可能なパラメータによるグローバル・ローカル機能を強化し,一貫性測定の円滑化と収束の促進を可能にした。 次に、周波数空間におけるスタイル補間一貫性を利用して、モデル出力のロジット空間における自己整合性を促進する正規化手法を提案する。 この正規化はロバスト性向上のための強い自己教師付き信号を提供する。 FTTAは3つの大きな分類データセットにおいて、異なるモダリティとオルガンで広範囲に検証された。 実験の結果、FTTAは一般的な手法であり、他の強力な最先端手法よりも優れていた。

Deep classifiers may encounter significant performance degradation when processing unseen testing data from varying centers, vendors, and protocols. Ensuring the robustness of deep models against these domain shifts is crucial for their widespread clinical application. In this study, we propose a novel approach called Fourier Test-time Adaptation (FTTA), which employs a dual-adaptation design to integrate input and model tuning, thereby jointly improving the model robustness. The main idea of FTTA is to build a reliable multi-level consistency measurement of paired inputs for achieving self-correction of prediction. Our contribution is two-fold. First, we encourage consistency in global features and local attention maps between the two transformed images of the same input. Here, the transformation refers to Fourier-based input adaptation, which can transfer one unseen image into source style to reduce the domain gap. Furthermore, we leverage style-interpolated images to enhance the global and local features with learnable parameters, which can smooth the consistency measurement and accelerate convergence. Second, we introduce a regularization technique that utilizes style interpolation consistency in the frequency space to encourage self-consistency in the logit space of the model output. This regularization provides strong self-supervised signals for robustness enhancement. FTTA was extensively validated on three large classification datasets with different modalities and organs. Experimental results show that FTTA is general and outperforms other strong state-of-the-art methods.
翻訳日:2023-06-06 17:18:20 公開日:2023-06-05
# 適応サンプリングアルゴリズムを用いたデータ市場環境における予算配分と収益配分

Addressing Budget Allocation and Revenue Allocation in Data Market Environments Using an Adaptive Sampling Algorithm ( http://arxiv.org/abs/2306.02543v1 )

ライセンス: Link先を確認
Boxin Zhao, Boxiang Lyu, Raul Castro Fernandez, Mladen Kolar(参考訳) 高品質な機械学習モデルは、高品質なトレーニングデータへのアクセスに依存する。 データが利用できない場合、それらを取得するのは退屈で費用がかかる。 データ市場は貴重なトレーニングデータを特定するのに役立ちます: モデル消費者はモデルをトレーニングするために支払い、その予算を使ってデータを識別し、モデルをトレーニングします(予算割り当ての問題)。 例えば、銀行はデータ市場を支払い、他の金融機関のデータにアクセスして不正検出モデルを訓練することができる。 データコントリビュータを補償するには、モデルへのデータの貢献を理解する必要があるが、shapley値に基づくこの収益配分問題を解決する最近の取り組みは、実用的なデータ市場につながるには非効率である。 本稿では,予算割当問題と収益割当問題を線形時間に同時に解く新しいアルゴリズムを提案する。 新しいアルゴリズムでは、モデルに最も貢献しているプロバイダからデータを選択するアダプティブサンプリングプロセスを採用している。 より良いデータとは、アルゴリズムがそれらのプロバイダに頻繁にアクセスし、より頻繁なアクセスはより高い補償に対応することを意味する。 さらに、アルゴリズムは集中型と連合型の両方のシナリオにデプロイでき、適用性を高めることができる。 予算を効率的に利用し,収益配分特性がShapleyに類似していることを示すアルゴリズムを理論的に保証する。 最後に,実際のシナリオおよび他のベースラインと比較した場合に,アルゴリズムの性能を示すための経験的評価を行う。 全体として、新しいアルゴリズムは実用的なデータ市場の実現の道を開くと信じています。

High-quality machine learning models are dependent on access to high-quality training data. When the data are not already available, it is tedious and costly to obtain them. Data markets help with identifying valuable training data: model consumers pay to train a model, the market uses that budget to identify data and train the model (the budget allocation problem), and finally the market compensates data providers according to their data contribution (revenue allocation problem). For example, a bank could pay the data market to access data from other financial institutions to train a fraud detection model. Compensating data contributors requires understanding data's contribution to the model; recent efforts to solve this revenue allocation problem based on the Shapley value are inefficient to lead to practical data markets. In this paper, we introduce a new algorithm to solve budget allocation and revenue allocation problems simultaneously in linear time. The new algorithm employs an adaptive sampling process that selects data from those providers who are contributing the most to the model. Better data means that the algorithm accesses those providers more often, and more frequent accesses corresponds to higher compensation. Furthermore, the algorithm can be deployed in both centralized and federated scenarios, boosting its applicability. We provide theoretical guarantees for the algorithm that show the budget is used efficiently and the properties of revenue allocation are similar to Shapley's. Finally, we conduct an empirical evaluation to show the performance of the algorithm in practical scenarios and when compared to other baselines. Overall, we believe that the new algorithm paves the way for the implementation of practical data markets.
翻訳日:2023-06-06 17:17:57 公開日:2023-06-05
# ロバスト音声認識のための調音特徴を用いたL2音素の組み込み

Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition ( http://arxiv.org/abs/2306.02534v1 )

ライセンス: Link先を確認
Jisung Wang, Haram Lee, Myungwoo Oh(参考訳) 非ネイティブな音声認識データセットの可用性の制限は、ネイティブ話者と非ネイティブ話者のパフォーマンスギャップを狭めるために、自動音声認識(ASR)において大きな課題となる。 そこで本研究では,l2音素の効率的な組み入れに焦点をあて,韓国語音素について,調音的特徴分析を行った。 これは発音変化の正確なモデリングを可能にするだけでなく、韓国語と英語両方の音声データセットの利用を可能にする。 格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。 実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。 さらに,L2音声の微調整により,L1音声とL2音声の音声認識精度が向上する。

The limited availability of non-native speech datasets presents a major challenge in automatic speech recognition (ASR) to narrow the performance gap between native and non-native speakers. To address this, the focus of this study is on the efficient incorporation of the L2 phonemes, which in this work refer to Korean phonemes, through articulatory feature analysis. This not only enables accurate modeling of pronunciation variants but also allows for the utilization of both native Korean and English speech datasets. We employ the lattice-free maximum mutual information (LF-MMI) objective in an end-to-end manner, to train the acoustic model to align and predict one of multiple pronunciation candidates. Experimental results show that the proposed method improves ASR accuracy for Korean L2 speech by training solely on L1 speech data. Furthermore, fine-tuning on L2 speech improves recognition accuracy for both L1 and L2 speech without performance trade-offs.
翻訳日:2023-06-06 17:17:32 公開日:2023-06-05
# 早期停止ニューラルネットワークにおけるクリーンプライオリティ学習の創発について

On Emergence of Clean-Priority Learning in Early Stopped Neural Networks ( http://arxiv.org/abs/2306.02533v1 )

ライセンス: Link先を確認
Chaoyue Liu, Amirhesam Abedsoltan, Mikhail Belkin(参考訳) トレーニングデータセットにランダムラベルノイズを加えると、ラベルノイズのないテストデータセット上のニューラルネットワークの予測誤差は、初期トレーニング中に改善するが、トレーニング時間に対するu字型依存性により最終的に低下する。 この動作は、まずクリーンデータのパターンをニューラルネットワークが学習し、トレーニングの後にノイズを適合させることによるものだと考えられている。 本研究では,この現象の根底にある学習ダイナミクスを探ることを目的とする。 理論上, 学習の初期段階において, 勾配降下の更新方向は, 学習データのクリーンサブセットによって決定され, ノイズのある部分集合にはほとんど影響がなく, クリーン学習の優先順位付けが行われることを実証する。 さらに, クリーン・プライオリティ・ラーニングが進むにつれて, クリーン・サンプルのグラデーションがノイズのサンプルよりも優位になり, 最終的にクリーン・プライオリティ・ラーニングが終了し, ノイズ・サンプルの適合性が低下することを示した。

When random label noise is added to a training dataset, the prediction error of a neural network on a label-noise-free test dataset initially improves during early training but eventually deteriorates, following a U-shaped dependence on training time. This behaviour is believed to be a result of neural networks learning the pattern of clean data first and fitting the noise later in the training, a phenomenon that we refer to as clean-priority learning. In this study, we aim to explore the learning dynamics underlying this phenomenon. We theoretically demonstrate that, in the early stage of training, the update direction of gradient descent is determined by the clean subset of training data, leaving the noisy subset has minimal to no impact, resulting in a prioritization of clean learning. Moreover, we show both theoretically and experimentally, as the clean-priority learning goes on, the dominance of the gradients of clean samples over those of noisy samples diminishes, and finally results in a termination of the clean-priority learning and fitting of the noisy samples.
翻訳日:2023-06-06 17:17:15 公開日:2023-06-05
# r-mixup:生物ネットワークのためのリーマン混合

R-Mixup: Riemannian Mixup for Biological Networks ( http://arxiv.org/abs/2306.02532v1 )

ライセンス: Link先を確認
Xuan Kan, Zimu Li, Hejie Cui, Yue Yu, Ran Xu, Shaojun Yu, Zilong Zhang, Ying Guo, Carl Yang(参考訳) 生体ネットワークは、生物学的実体を関連付ける相互作用を伴う複雑な生体システムの構造を効果的にモデル化するために、生体医学および医療領域で一般的に使用される。 しかし, 生体ネットワーク上での深層学習モデルの適用は, 高次元と低サンプルサイズの特徴から, 過度なオーバーフィットに直面していることが多い。 本研究では,生物ネットワークからの隣接行列の対称正定値(SPD)特性に適応し,学習効率を最適化したR-MIXUPを提案する。 r-ミックスアップの補間過程はリーマン多様体からの対ユークリッド距離メトリクスを活用し、膨潤効果とバニラミックスアップのラベル問題に効果的に対応している。 実世界の5つの生物ネットワークデータセットを用いたR-MIXUPの有効性を示す。 さらに,生物ネットワークのSPD行列を同定し,そのモデル性能への影響を実証的に研究するために必要な条件を概ね無視する。 コードの実装はAppendix Eで見ることができる。

Biological networks are commonly used in biomedical and healthcare domains to effectively model the structure of complex biological systems with interactions linking biological entities. However, due to their characteristics of high dimensionality and low sample size, directly applying deep learning models on biological networks usually faces severe overfitting. In this work, we propose R-MIXUP, a Mixup-based data augmentation technique that suits the symmetric positive definite (SPD) property of adjacency matrices from biological networks with optimized training efficiency. The interpolation process in R-MIXUP leverages the log-Euclidean distance metrics from the Riemannian manifold, effectively addressing the swelling effect and arbitrarily incorrect label issues of vanilla Mixup. We demonstrate the effectiveness of R-MIXUP with five real-world biological network datasets on both regression and classification tasks. Besides, we derive a commonly ignored necessary condition for identifying the SPD matrices of biological networks and empirically study its influence on the model performance. The code implementation can be found in Appendix E.
翻訳日:2023-06-06 17:16:56 公開日:2023-06-05
# PLANNER:潜時言語拡散モデルによる分散パラグラフの生成

PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model ( http://arxiv.org/abs/2306.02531v1 )

ライセンス: Link先を確認
Yizhe Zhang, Jiatao Gu, Zhuofeng Wu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly(参考訳) テキストの自動回帰モデルは、生成ステップ中にエラーが蓄積されるため、繰り返し、低品質の出力を生成することがある。 この問題は、しばしば露出バイアス(モデルがどのようにトレーニングされているか、そして推論中にどのように使用されるかの違い)に起因する。 デノイジング拡散モデルは、モデルが出力を再検討し、修正できる別のアプローチを提供する。 しかし、これらは計算コストが高く、テキストに対する以前の取り組みは、特に長いテキストや段落に対して、自己回帰モデルに比べて、より流動性の低い出力を生み出すモデルに導かれる。 本稿では,潜在意味拡散と自己回帰生成を組み合わせたモデルであるPLANNERを提案する。 このモデルでは、自己回帰的なデコーディングモジュールと、遅延拡散を用いた「計画」モジュールを組み合わせることで、セマンティックな段落の埋め込みを粗い方法で生成する。 提案手法は, 各種条件生成タスクに基づいて評価し, セマンティック生成, テキスト補完, 要約の結果から, 高品質な長文を効率よく生成できることを示す。

Autoregressive models for text sometimes generate repetitive and low-quality output because errors accumulate during the steps of generation. This issue is often attributed to exposure bias - the difference between how a model is trained, and how it is used during inference. Denoising diffusion models provide an alternative approach in which a model can revisit and revise its output. However, they can be computationally expensive and prior efforts on text have led to models that produce less fluent output compared to autoregressive models, especially for longer text and paragraphs. In this paper, we propose PLANNER, a model that combines latent semantic diffusion with autoregressive generation, to generate fluent text while exercising global control over paragraphs. The model achieves this by combining an autoregressive "decoding" module with a "planning" module that uses latent diffusion to generate semantic paragraph embeddings in a coarse-to-fine manner. The proposed method is evaluated on various conditional generation tasks, and results on semantic generation, text completion and summarization show its effectiveness in generating high-quality long-form text in an efficient manner.
翻訳日:2023-06-06 17:16:37 公開日:2023-06-05
# 機械学習を用いた解析的物理問題に対する正確な解析解の探索

Using machine learning to find exact analytic solutions to analytically posed physics problems ( http://arxiv.org/abs/2306.02528v1 )

ライセンス: Link先を確認
Sahel Ashhab(参考訳) 理論物理学における解析問題に対する機械学習の利用について検討する。 特にシンボリック回帰は、全体形が事前に分かっていない関数を用いてデータを適合させるツールとして、近年急速に進歩している。 例えば、方程式を通じて解析的に仮定されるが、任意の入力変数値の集合に対する解の簡単な数値評価を可能にする数学的問題があると仮定すると、数値的にデータを生成し、そのような関数が存在すると仮定して、データを記述した閉形式関数を記号回帰を用いて識別することができる。 問題の解を簡潔に表現する方法を提供することに加え、得られた関数は洞察を与える上で重要な役割を担い、研究された現象の直感的な説明を見つけることができる。 我々は,最先端の記号回帰パッケージを用いて,厳密な解を見つける方法を示し,未解決の物理問題を解く試みを行う。 ランダウ・ツェナー問題とその一般化のいくつかを例に、我々のアプローチを動機付け、問題の難しさを増すにつれて計算がますます複雑になることを示す。 その結果,現在利用可能なシンボリック回帰パッケージの機能と限界を浮き彫りにした上で,適切な近似ではなく,厳密な解を求める目的に適したパッケージの修正が可能であることを指摘した。 また,理論物理学における解析的問題に機械学習が取り組む可能性を示す。

We investigate the use of machine learning for solving analytic problems in theoretical physics. In particular, symbolic regression is making rapid progress in recent years as a tool to fit data using functions whose overall form is not known in advance. Assuming that we have a mathematical problem that is posed analytically, e.g. through equations, but allows easy numerical evaluation of the solution for any given set of input variable values, one can generate data numerically and then use symbolic regression to identify the closed-form function that describes the data, assuming that such a function exists. In addition to providing a concise way to represent the solution of the problem, such an obtained function can play a key role in providing insight and allow us to find an intuitive explanation for the studied phenomenon. We use a state-of-the-art symbolic regression package to demonstrate how an exact solution can be found and make an attempt at solving an unsolved physics problem. We use the Landau-Zener problem and a few of its generalizations as examples to motivate our approach and illustrate how the calculations become increasingly complicated with increasing problem difficulty. Our results highlight the capabilities and limitations of the presently available symbolic regression packages, and they point to possible modifications of these packages to make them better suited for the purpose of finding exact solutions as opposed to good approximations. Our results also demonstrate the potential for machine learning to tackle analytically posed problems in theoretical physics.
翻訳日:2023-06-06 17:16:17 公開日:2023-06-05
# 多次元バックトラッキングを用いた最適冷媒ステップサイズ探索

Searching for Optimal Per-Coordinate Step-sizes with Multidimensional Backtracking ( http://arxiv.org/abs/2306.02527v1 )

ライセンス: Link先を確認
Frederik Kunstner, Victor S. Portella, Mark Schmidt and Nick Harvey(参考訳) バックトラックライン探索は、スムーズな最適化においてステップサイズを自動的に調整する効果的な手法である。 理論上最適なステップサイズの使用と同等の性能を保証する。 代わりに、対角的プレコンディショナー (diagonal preconditioners) としても知られるステップサイズを調整するために多くのアプローチが開発されているが、既存の手法は最適のステップサイズと確実に競合するものではない。 本研究では,滑らかな凸問題に対して,逆追跡線探索の拡張として多次元バックトラックを提案する。 私たちの重要な洞察は、ステップサイズに関する勾配(hypergradientsとしても知られる)は、切り取り平面法を用いて良い前提条件子を探索できる超平面を分離する。 楕円体法のようなブラックボックス切断面アプローチは計算が禁じられているため、我々は設定に合わせて効率的なアルゴリズムを開発する。 多次元バックトラッキングは最高の対角プレコンディショナーと競合し、手動チューニングを必要としない。

The backtracking line-search is an effective technique to automatically tune the step-size in smooth optimization. It guarantees similar performance to using the theoretically optimal step-size. Many approaches have been developed to instead tune per-coordinate step-sizes, also known as diagonal preconditioners, but none of the existing methods are provably competitive with the optimal per-coordinate stepsizes. We propose multidimensional backtracking, an extension of the backtracking line-search to find good diagonal preconditioners for smooth convex problems. Our key insight is that the gradient with respect to the step-sizes, also known as hypergradients, yields separating hyperplanes that let us search for good preconditioners using cutting-plane methods. As black-box cutting-plane approaches like the ellipsoid method are computationally prohibitive, we develop an efficient algorithm tailored to our setting. Multidimensional backtracking is provably competitive with the best diagonal preconditioner and requires no manual tuning.
翻訳日:2023-06-06 17:15:52 公開日:2023-06-05
# デバイス上での大規模分散学習

Large-Scale Distributed Learning via Private On-Device Locality-Sensitive Hashing ( http://arxiv.org/abs/2306.02563v1 )

ライセンス: Link先を確認
Tahseen Rabbani, Marco Bornstein, Furong Huang(参考訳) 局所性に敏感なハッシュ(LSH)ベースのフレームワークは、入力とコサインの類似性の高い密閉層内の重みベクトルを効率的に選択するために使われ、動的プルーニングを可能にする。 この種のスキームは計算のトレーニング効率を改善することが示されているが、既存のアルゴリズムでは全層重みのランダムな投影を繰り返す必要がある。 分散環境では、LSH解析を集中ホストに遅延させる。 (i)デバイスクラスタが大きくて遅い場合 (ii)フェデレーションされた文脈で禁止される入力データへのアクセスを必要とする。 新しいハッシュ関数群を用いて、デバイス上で最初にプライベートでパーソナライズされ、メモリ効率のよいLSHフレームワークを開発する。 このフレームワークは、デバイス固有のハッシュハイパーパラメータ(ハッシュテーブルの数やハッシュ長など)を使用して、中央ホストの助けなしに各デバイスがハッシュテーブルを生成できるように、プライバシとパーソナライズを可能にします。 ハッシュテーブルは全重みの圧縮セットで生成され、プロセスがメモリ集約であればシリアルに生成および破棄することができる。 これにより 装置のメンテナンスを (i)完全サイズのモデル、及び (II)LSH解析のためのローカルメモリにおける大量のハッシュテーブル。 ハッシュ関数のいくつかの統計的・感度特性を実証し,非制限オンデバイスキャパシティを想定する他のlshフレームワークと比較して,大規模レコメンデータネットワークのトレーニングにおいて,我々のフレームワークが競争力があることを実験的に証明した。

Locality-sensitive hashing (LSH) based frameworks have been used efficiently to select weight vectors in a dense hidden layer with high cosine similarity to an input, enabling dynamic pruning. While this type of scheme has been shown to improve computational training efficiency, existing algorithms require repeated randomized projection of the full layer weight, which is impractical for computational- and memory-constrained devices. In a distributed setting, deferring LSH analysis to a centralized host is (i) slow if the device cluster is large and (ii) requires access to input data which is forbidden in a federated context. Using a new family of hash functions, we develop one of the first private, personalized, and memory-efficient on-device LSH frameworks. Our framework enables privacy and personalization by allowing each device to generate hash tables, without the help of a central host, using device-specific hashing hyper-parameters (e.g. number of hash tables or hash length). Hash tables are generated with a compressed set of the full weights, and can be serially generated and discarded if the process is memory-intensive. This allows devices to avoid maintaining (i) the fully-sized model and (ii) large amounts of hash tables in local memory for LSH analysis. We prove several statistical and sensitivity properties of our hash functions, and experimentally demonstrate that our framework is competitive in training large-scale recommender networks compared to other LSH frameworks which assume unrestricted on-device capacity.
翻訳日:2023-06-06 17:11:09 公開日:2023-06-05
# 局所的文脈誘導によるビデオ拡散モデル

Video Diffusion Models with Local-Global Context Guidance ( http://arxiv.org/abs/2306.02562v1 )

ライセンス: Link先を確認
Siyuan Yang, Lu Zhang, Yu Liu, Zhizhuo Jiang and You He(参考訳) 拡散モデルは、予測、生成、補間を含むビデオ合成タスクにおいて強力なパラダイムとして登場した。 計算予算の制限のため、既存の手法は通常、隣接する過去のフレームの分布に基づいて将来のフラグメントを予測する自己回帰推論パイプラインを備えた条件拡散モデルを実装している。 しかし、いくつかの前のフレームの条件だけが地球規模の時間的コヒーレンスを捉えることができないため、長期的なビデオ予測には一貫性のない、あるいは不条理な結果につながる。 本稿では,高品質な映像を条件付き・非条件の両方で生成するためのマルチパーセプション条件を抽出するローカル・グローバル・コンテキスト誘導ビデオ拡散モデル(LGC-VD)を提案する。 LGC-VD では、UNet は 3D Conv における望ましくない計算コストを回避するために、自己注意ユニットを積んだ残差ブロックで実装されている。 我々は,過去のフラグメントのマルチパーセプティブな埋め込みを捉え,将来予測の一貫性を高めるために,ローカル・グローバルなコンテキストガイダンス戦略を構築した。 さらに,より安定した予測のために,騒音フレームの効果を緩和する2段階学習戦略を提案する。 提案手法は,映像予測,補間,非条件映像生成において良好な性能を発揮することを示す。 コードをhttps://github.com/exisas/LGC-VDでリリースします。

Diffusion models have emerged as a powerful paradigm in video synthesis tasks including prediction, generation, and interpolation. Due to the limitation of the computational budget, existing methods usually implement conditional diffusion models with an autoregressive inference pipeline, in which the future fragment is predicted based on the distribution of adjacent past frames. However, only the conditions from a few previous frames can't capture the global temporal coherence, leading to inconsistent or even outrageous results in long-term video prediction. In this paper, we propose a Local-Global Context guided Video Diffusion model (LGC-VD) to capture multi-perception conditions for producing high-quality videos in both conditional/unconditional settings. In LGC-VD, the UNet is implemented with stacked residual blocks with self-attention units, avoiding the undesirable computational cost in 3D Conv. We construct a local-global context guidance strategy to capture the multi-perceptual embedding of the past fragment to boost the consistency of future prediction. Furthermore, we propose a two-stage training strategy to alleviate the effect of noisy frames for more stable predictions. Our experiments demonstrate that the proposed method achieves favorable performance on video prediction, interpolation, and unconditional video generation. We release code at https://github.com/exisas/LGC-VD.
翻訳日:2023-06-06 17:10:40 公開日:2023-06-05
# LLM-Blender: Pairwise RankingとGenerative Fusionを備えた大規模言語モデルの構築

LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion ( http://arxiv.org/abs/2306.02561v1 )

ライセンス: Link先を確認
Dongfu Jiang, Xiang Ren, Bill Yuchen Lin(参考訳) llm-blenderは,複数のオープンソース大規模言語モデル(llm)の多様な強みを活用して,一貫して優れたパフォーマンスを実現するためのフレームワークである。 pairranker と genfuser という2つのモジュールで構成されており、異なる例に対する最適な llm の観測に対処しています。 PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。 入力テキストと候補のペアを共同でエンコードし、クロスアテンションエンコーダを使用して上位のテキストを決定する。 以上の結果から,PairRankerはChatGPTによるランキングよりも高い相関を示した。 そしてGenFuserは、上位候補をマージし、その強みを活かして弱点を緩和することで、改善されたアウトプットを生成する。 大規模評価を容易にするために,オラクル対比較を特徴とする複数の命令データセットを混合したベンチマークデータセットMixInstructを導入する。 我々のLLM-Blenderは、様々な指標で個々のLLMとベースラインメソッドを著しく上回り、大きなパフォーマンスギャップを確立しました。

We present LLM-Blender, an ensembling framework designed to attain consistently superior performance by leveraging the diverse strengths of multiple open-source large language models (LLMs). Our framework consists of two modules: PairRanker and GenFuser, addressing the observation that optimal LLMs for different examples can significantly vary. PairRanker employs a specialized pairwise comparison method to distinguish subtle differences between candidate outputs. It jointly encodes the input text and a pair of candidates, using cross-attention encoders to determine the superior one. Our results demonstrate that PairRanker exhibits the highest correlation with ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates, generating an improved output by capitalizing on their strengths and mitigating their weaknesses. To facilitate large-scale evaluation, we introduce a benchmark dataset, MixInstruct, which is a mixture of multiple instruction datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly outperform individual LLMs and baseline methods across various metrics, establishing a substantial performance gap.
翻訳日:2023-06-06 17:10:17 公開日:2023-06-05
# テンソル化ハイパーグラフニューラルネットワーク

Tensorized Hypergraph Neural Networks ( http://arxiv.org/abs/2306.02560v1 )

ライセンス: Link先を確認
Maolin Wang, Yaoming Zhen, Yu Pan, Zenglin Xu, Ruocheng Guo, Xiangyu Zhao(参考訳) ハイパーグラフニューラルネットワーク(HGNN)は近年,様々な領域で優れた性能を発揮し,注目を浴びている。 しかし、既存のHGNNの多くは、重要な高次情報を無視したハイパーグラフ接続パターンの1次近似に依存している。 この問題に対処するために,新しいアジャクティクスに基づくテンソル化ハイパーグラフニューラルネットワーク(THNN)を提案する。 THNNは高次外積特徴メッセージパッシングによる忠実なハイパーグラフモデリングフレームワークであり、隣接行列ベースのグラフニューラルネットワークの自然なテンソル拡張である。 提案したTHNNは高次多項式回帰スキームと等価であり,均一なハイパーグラフから高次情報を効率的に抽出することができる。 さらに,高次外積特徴を直接処理する指数関数的複雑性を考慮して,モデル複雑性を線形次数に還元する部分対称cp分解法を提案する。 さらに,実世界のアプリケーションでよく見られる非一様ハイパーグラフに対して,本手法の2つの単純かつ効果的な拡張法を提案する。 3次元視覚オブジェクト分類のための2つの広く使われているハイパーグラフデータセットの実験結果から,提案したTHNNの性能を示す。

Hypergraph neural networks (HGNN) have recently become attractive and received significant attention due to their excellent performance in various domains. However, most existing HGNNs rely on first-order approximations of hypergraph connectivity patterns, which ignores important high-order information. To address this issue, we propose a novel adjacency-tensor-based Tensorized Hypergraph Neural Network (THNN). THNN is a faithful hypergraph modeling framework through high-order outer product feature message passing and is a natural tensor extension of the adjacency-matrix-based graph neural networks. The proposed THNN is equivalent to an high-order polynomial regression scheme, which enable THNN with the ability to efficiently extract high-order information from uniform hypergraphs. Moreover, in consideration of the exponential complexity of directly processing high-order outer product features, we propose using a partially symmetric CP decomposition approach to reduce model complexity to a linear degree. Additionally, we propose two simple yet effective extensions of our method for non-uniform hypergraphs commonly found in real-world applications. Results from experiments on two widely used hypergraph datasets for 3-D visual object classification show the promising performance of the proposed THNN.
翻訳日:2023-06-06 17:09:57 公開日:2023-06-05
# ポイントクラウド事前学習のためのマルチビュー表現からの学習

Learning from Multi-View Representation for Point-Cloud Pre-Training ( http://arxiv.org/abs/2306.02558v1 )

ライセンス: Link先を確認
Siming Yan, Chen Song, Youkang Kong, Qixing Huang(参考訳) 3Dポイントクラウドの事前トレーニングにおける重要な問題は、巨大な2Dデータを活用することだ。 根本的な課題は、2D-3Dドメインギャップに対処することだ。 本稿では,事前学習した2次元ネットワークを活用して3次元表現を学習できるポイントクラウド事前学習手法を提案する。 特に、2D表現への過度な適合を回避し、3D認識タスクの重要な3D機能を捨てる可能性がある。 提案手法の鍵となるのは,複数の2次元カメラビューから抽出した深い特徴と一致した共有3次元特徴量を学習する,新しいマルチビュー表現である。 2Dの深い特徴は、2Dの知識伝達損失を通じて事前訓練された2Dネットワークを用いて正規化される。 得られた3D特徴表現が3D信号を捨てるのを防ぐために、投影された2D特徴表現に異なるビューにわたる画素ワイド対応をキャプチャさせる多視点整合損失を導入する。 このような対応は3次元幾何学を誘導し、投影された2次元特徴の3次元特徴を効果的に保持する。 実験の結果,事前学習したモデルは,3次元検出やセマンティックセグメンテーションなど,様々な下流タスクにうまく移行でき,最先端の性能を達成できることがわかった。

A critical problem in the pre-training of 3D point clouds is leveraging massive 2D data. A fundamental challenge is to address the 2D-3D domain gap. This paper proposes a novel approach to point-cloud pre-training that enables learning 3D representations by leveraging pre-trained 2D-based networks. In particular, it avoids overfitting to 2D representations and potentially discarding critical 3D features for 3D recognition tasks. The key to our approach is a novel multi-view representation, which learns a shared 3D feature volume consistent with deep features extracted from multiple 2D camera views. The 2D deep features are regularized using pre-trained 2D networks through the 2D knowledge transfer loss. To prevent the resulting 3D feature representations from discarding 3D signals, we introduce the multi-view consistency loss that forces the projected 2D feature representations to capture pixel-wise correspondences across different views. Such correspondences induce 3D geometry and effectively retain 3D features in the projected 2D features. Experimental results demonstrate that our pre-trained model can be successfully transferred to various downstream tasks, including 3D detection and semantic segmentation, and achieve state-of-the-art performance.
翻訳日:2023-06-06 17:09:41 公開日:2023-06-05
# グラフ結合型隠れマルコフモデルによるスパースグループ検査による個人レベルの感染の検出

Detecting individual-level infections using sparse group-testing through graph-coupled hidden Markov models ( http://arxiv.org/abs/2306.02557v1 )

ライセンス: Link先を確認
Zahra Gholamalian, Zeinab Maleki, MasoudReza Hashemi, Pouria Ramazi(参考訳) 感染症における各個人の感染状況の特定は、公衆衛生管理に寄与する。 しかし、頻繁な個別レベルのテストの実行は不可能かもしれない。 代わりにスパーステストやグループレベルのテストが行われる。 少人数のグループレベルのテストによる個人の感染状況の決定は、まだ未解決の問題である。 我々は,グラフ結合型隠れマルコフモデルを拡張し,個人感染状態を隠蔽状態とし,グループ検査結果を観察した。 このモデルをgibbsサンプリング法を用いたシミュレーションデータセットに適用した。 このモデルは低試験周波数で約0.55 AUCを実行し、グループを毎日テストする場合は0.80 AUCに増加した。 このモデルは、拡散開始から15日後に状況を予測するために、毎日のケースで別々にテストされ、16日目に0.98 AUCとなり、128日目まで0.80 AUCを超えていた。 したがって、スパーステストの扱いは未解決のままであるが、パンデミック時にグループスクリーニングを用いて個人感染状況を正確に推定する可能性が開けている。

Identifying the infection status of each individual during infectious diseases informs public health management. However, performing frequent individual-level tests may not be feasible. Instead, sparse and sometimes group-level tests are performed. Determining the infection status of individuals using sparse group-level tests remains an open problem. We have tackled this problem by extending graph-coupled hidden Markov models with individuals infection statuses as the hidden states and the group test results as the observations. We fitted the model to simulation datasets using the Gibbs sampling method. The model performed about 0.55 AUC for low testing frequencies and increased to 0.80 AUC in the case where the groups were tested every day. The model was separately tested on a daily basis case to predict the statuses over time and after 15 days of the beginning of the spread, which resulted in 0.98 AUC at day 16 and remained above 0.80 AUC until day 128. Therefore, although dealing with sparse tests remains unsolved, the results open the possibility of using initial group screenings during pandemics to accurately estimate individuals infection statuses.
翻訳日:2023-06-06 17:09:23 公開日:2023-06-05
# Lassoによるアクティブマルチタスク表現学習の改善

Improved Active Multi-Task Representation Learning via Lasso ( http://arxiv.org/abs/2306.02556v1 )

ライセンス: Link先を確認
Yiping Wang, Yifang Chen, Kevin Jamieson, Simon S. Du(参考訳) ソースタスクからの膨大なデータを活用し,対象タスクサンプルの不足を克服するために,マルチタスク事前学習に基づく表現学習は多くのアプリケーションにおいて標準的アプローチとなっている。 しかしながら、これまでのほとんどの既存の作業は、純粋に経験的な観点からソースタスク選択戦略を設計する。 最近, \citet{chen2022active} は, L2-regularized-target-source-relevance parameter $\nu^2$ を用いて, ソースタスクから適応的にサンプルをサンプリングし, サンプル全体の複雑性を確実に低減できる,最初のアクティブマルチタスク表現学習アルゴリズム (A-MTRL) を提供した。 しかし、それらの研究は、全ソースサンプルの複雑さの観点からは理論的に最適であり、スパーストレーニングソースタスクの選択が望まれる現実のシナリオでは実用的ではない。 本稿では,両問題に対処する。 具体的には、l1-regularized-relevance-based ($\nu^1$-based)戦略に対して、$\nu^2$-based戦略の上限を低くすることで厳格に支配することを示す。 $\nu^1$が未知の場合、LASSOプログラムを用いて$\nu^1$を推定する実用的なアルゴリズムを提案する。 本アルゴリズムは既知の場合の最適結果の回復に成功している。 サンプル複雑性の結果に加えて、サンプルコストに敏感な設定において、$\nu^1$ベースの戦略の可能性も特徴付ける。 最後に,提案手法の有効性を示す実世界のコンピュータビジョンデータセットについて実験を行った。

To leverage the copious amount of data from source tasks and overcome the scarcity of the target task samples, representation learning based on multi-task pretraining has become a standard approach in many applications. However, up until now, most existing works design a source task selection strategy from a purely empirical perspective. Recently, \citet{chen2022active} gave the first active multi-task representation learning (A-MTRL) algorithm which adaptively samples from source tasks and can provably reduce the total sample complexity using the L2-regularized-target-source-relevance parameter $\nu^2$. But their work is theoretically suboptimal in terms of total source sample complexity and is less practical in some real-world scenarios where sparse training source task selection is desired. In this paper, we address both issues. Specifically, we show the strict dominance of the L1-regularized-relevance-based ($\nu^1$-based) strategy by giving a lower bound for the $\nu^2$-based strategy. When $\nu^1$ is unknown, we propose a practical algorithm that uses the LASSO program to estimate $\nu^1$. Our algorithm successfully recovers the optimal result in the known case. In addition to our sample complexity results, we also characterize the potential of our $\nu^1$-based strategy in sample-cost-sensitive settings. Finally, we provide experiments on real-world computer vision datasets to illustrate the effectiveness of our proposed method.
翻訳日:2023-06-06 17:09:08 公開日:2023-06-05
# 離散ランダム構造におけるグラフニューラルネットワーク(GNN)の性能の障壁 an comment on~\cite{schuetz2022combinatorial},\cite{angelini2023modern},\cite{schuetz2023reply}

Barriers for the performance of graph neural networks (GNN) in discrete random structures. A comment on~\cite{schuetz2022combinatorial},\cite{angelini2023modern},\cite{schuetz2023reply} ( http://arxiv.org/abs/2306.02555v1 )

ライセンス: Link先を確認
David Gamarnik(参考訳) 近年,グラフニューラルネットワーク(gnn)に基づくアルゴリズムが提案され,最大カット問題,最大独立集合問題,および同様の問題である----cite{schuetz2022combinatorial},-cite{schuetz2022graph} など,様々な組合せ最適化問題を解く。 The publication~\cite{schuetz2022combinatorial} は、GNN ベースの手法が最高の先行手法に対して適切にベンチマークされているかどうかの議論を巻き起こした。 特に、批判的なコメンタリー~\cite{angelini2023 Modern} と~\cite{boettcher2023inability} は、単純なグレディアルゴリズムはランダムグラフの設定においてGNNよりも優れた性能を示し、実際より洗練された手法でより強いアルゴリズム性能に到達することができる。 著者たちの反応は~\cite{schuetz2023reply}は、パラメータをチューニングすることでgnnのパフォーマンスをさらに改善できると指摘した。 議論と反論のメリットを論じるつもりはありません。~\cite{schuetz2022combinatorial},\cite{angelini2023 Modern},\cite{boettcher2023inability},\cite{schuetz2023reply}。 むしろ、これらの参照で考慮されたランダムグラフ上でGNNを実行するための基本的な制限を、GNNアーキテクチャの幅広い選択のために確立する。 これらの制限は、古典的および量子的な多くのアルゴリズムにとって障壁となるオーバーラップギャップ特性(ogp)相転移の存在から生じる。 本稿では,gnnの局所的な構造から,gnnへの障壁でもあることを示す。 我々は、単純な欲望アルゴリズムから、メッセージパッシングに基づくより洗練されたアルゴリズムまで、既知のアルゴリズムが、これらの問題に対して、ogp位相遷移の最良の結果をもたらすことに注意する。 このことは、GNNが既知のアルゴリズムより優れる余地をほとんど残さず、この結果に基づいて、~\cite{angelini2023 Modern} と~\cite{boettcher2023inability} の結論に沿う。

Recently graph neural network (GNN) based algorithms were proposed to solve a variety of combinatorial optimization problems, including Maximum Cut problem, Maximum Independent Set problem and similar other problems~\cite{schuetz2022combinatorial},\cite{schuetz2022graph}. The publication~\cite{schuetz2022combinatorial} stirred a debate whether GNN based method was adequately benchmarked against best prior methods. In particular, critical commentaries~\cite{angelini2023modern} and~\cite{boettcher2023inability} point out that simple greedy algorithm performs better than GNN in the setting of random graphs, and in fact stronger algorithmic performance can be reached with more sophisticated methods. A response from the authors~\cite{schuetz2023reply} pointed out that GNN performance can be improved further by tuning up the parameters better. We do not intend to discuss the merits of arguments and counter-arguments in~\cite{schuetz2022combinatorial},\cite{angelini2023modern},\cite{boettcher2023inability},\cite{schuetz2023reply}. Rather in this note we establish a fundamental limitation for running GNN on random graphs considered in these references, for a broad range of choices of GNN architecture. These limitations arise from the presence of the Overlap Gap Property (OGP) phase transition, which is a barrier for many algorithms, both classical and quantum. As we demonstrate in this paper, it is also a barrier to GNN due to its local structure. We note that at the same time known algorithms ranging from simple greedy algorithms to more sophisticated algorithms based on message passing, provide best results for these problems \emph{up to} the OGP phase transition. This leaves very little space for GNN to outperform the known algorithms, and based on this we side with the conclusions made in~\cite{angelini2023modern} and~\cite{boettcher2023inability}.
翻訳日:2023-06-06 17:08:38 公開日:2023-06-05
# 会話検索における前向き転倒関係の学習

Learning to Relate to Previous Turns in Conversational Search ( http://arxiv.org/abs/2306.02553v1 )

ライセンス: Link先を確認
Fengran Mo, Jian-Yun Nie, Kaiyu Huang, Kelong Mao, Yutao Zhu, Peng Li, Yang Liu(参考訳) 会話検索により、ユーザは複数のターンで検索システムと対話できる。 クエリは会話コンテキストに大きく依存します。 検索効率を改善する効果的な方法は、現在のクエリを履歴クエリで拡張することである。 しかし、以前のクエリがすべて関連しているわけではなく、現在のクエリを拡張するのに役立つ。 本稿では,現在のクエリに有用な履歴クエリを選択するための新しい手法を提案する。 ラベル付きトレーニングデータの欠如に対処するために,検索結果への影響に基づいて有用な履歴クエリを注釈付けする擬似ラベル手法を用いる。 擬似ラベルデータは、選択モデルをトレーニングするために使用される。 さらに,微調整中にセレクタとレトリバーを共同で学習するマルチタスク学習フレームワークを提案し,擬似ラベルと変更レトリバーとの一貫性を緩和する。 4つの対話型検索データセットに対する広範囲な実験により,提案手法の有効性と適用性を示した。

Conversational search allows a user to interact with a search system in multiple turns. A query is strongly dependent on the conversation context. An effective way to improve retrieval effectiveness is to expand the current query with historical queries. However, not all the previous queries are related to, and useful for expanding the current query. In this paper, we propose a new method to select relevant historical queries that are useful for the current query. To cope with the lack of labeled training data, we use a pseudo-labeling approach to annotate useful historical queries based on their impact on the retrieval results. The pseudo-labeled data are used to train a selection model. We further propose a multi-task learning framework to jointly train the selector and the retriever during fine-tuning, allowing us to mitigate the possible inconsistency between the pseudo labels and the changed retriever. Extensive experiments on four conversational search datasets demonstrate the effectiveness and broad applicability of our method compared with several strong baselines.
翻訳日:2023-06-06 17:07:30 公開日:2023-06-05
# RecAgent: Recommenderシステムのための新しいシミュレーションパラダイム

RecAgent: A Novel Simulation Paradigm for Recommender Systems ( http://arxiv.org/abs/2306.02552v1 )

ライセンス: Link先を確認
Lei Wang and Jingsen Zhang and Xu Chen and Yankai Lin and Ruihua Song and Wayne Xin Zhao and Ji-Rong Wen(参考訳) レコメンダシステムは人々の日常生活と生産に深く革命をもたらし、多くのビジネス価値をもたらしました。 推奨領域では、シミュレーションと実際のデータベースの研究は2つの典型的な研究パラダイムであり、それぞれ異なる利点がある。 これまでは、ユーザの好みを正確にシミュレートすることは極めて難しいため、実際のデータに基づく研究の方が、より重要な位置を占めていた。 近年,大規模言語モデル (LLM) は,シミュレーションに基づく研究の欠点を克服する新たな機会を提供するとともに,アプリケーションシナリオの増大やデータ取得戦略の低さなど,そのメリットを浮き彫りにしている。 そこで本稿では,この方向を照らし出すため,llmベースのレコメンダシミュレータrecagentを提案する。 シミュレータは,(1)ユーザモジュール,(2)レコメンダモジュールという2つのモジュールで構成されている。 ユーザーモジュールはレコメンデーションウェブサイトを閲覧し、他のユーザーと通信し、ソーシャルメディアでメッセージをブロードキャストすることができる。 推奨モジュールは、ユーザに検索またはレコメンデーションリストを提供するように設計されており、推奨モジュールを実装するために異なるモデルを設計することができる。 すべてのユーザーはllmに基づいてアクションを取り、現実世界のように自由に進化することができる。 我々は,シミュレータの利用者が期待どおりに行動できることを実証するために,いくつかのケーススタディを提示する。 私たちのプロジェクトはhttps://github.com/RUC-GSAI/YuLan-Rec.comでリリースされました。

Recommender system has deeply revolutionized people's daily life and production, bringing a large amount of business value. In the recommendation domain, simulation and real data-based studies are two typical research paradigms, with each having different advantages. Previously, real data-based studies occupy more important positions, since accurately simulating the user preference is quite difficult. Recently, large language models (LLM) have shown great potential to achieve human-like intelligence, which provides new opportunities to overcome the shortcomings of simulation-based studies and thus highlight their advantages, such as much more application scenarios and cheaper data acquisition strategies. To shed lights on this direction, in this paper, we introduce an LLM-based recommender simulator called RecAgent. Our simulator is composed of two modules: (1) the user module and (2) the recommender module. The user module can browse the recommendation website, communicate with other users and broadcast messages on the social media. The recommender module is designed to provide search or recommendation lists to the users, and one can design different models to implement the recommender. All the users take actions based on LLMs, and can freely evolve like in the real world. We present several case studies to demonstrate that the users in our simulator can indeed behave in a reasonable manner as expected. Our project has been released at https://github.com/RUC-GSAI/YuLan-Rec.
翻訳日:2023-06-06 17:07:10 公開日:2023-06-05
# 多言語言語モデルを用いたフレーズブレーク予測のための言語間伝達学習

Cross-Lingual Transfer Learning for Phrase Break Prediction with Multilingual Language Model ( http://arxiv.org/abs/2306.02579v1 )

ライセンス: Link先を確認
Hoyeon Lee, Hyun-Wook Yoon, Jong-Hwan Kim, Jae-Min Kim(参考訳) テキスト音声(TTS)システムの韻律的自然性を改善するためには,フレーズブレーク予測が重要な課題である。 しかし、ほとんどのフレーズブレーク予測モデルはモノリンガルであり、大量のラベル付きデータにのみ訓練されている。 本稿では,言語間転送を用いたラベル付きデータ制限のある低リソース言語について,この問題に対処する。 事前学習した多言語言語モデルを用いたフレーズブレーク予測におけるゼロショットと少数ショットのクロスランガル転送の有効性について検討する。 私たちは、Indo-Europeanの4つの言語で手作業で収集したデータセットを使用します。 本研究は,低リソース言語の性能向上のために,多言語間移動学習が特に有効であることを示すものである。 このことは,ttsフロントエンドの開発において,言語間伝達が安価で効果的であることを示唆している。

Phrase break prediction is a crucial task for improving the prosody naturalness of a text-to-speech (TTS) system. However, most proposed phrase break prediction models are monolingual, trained exclusively on a large amount of labeled data. In this paper, we address this issue for low-resource languages with limited labeled data using cross-lingual transfer. We investigate the effectiveness of zero-shot and few-shot cross-lingual transfer for phrase break prediction using a pre-trained multilingual language model. We use manually collected datasets in four Indo-European languages: one high-resource language and three with limited resources. Our findings demonstrate that cross-lingual transfer learning can be a particularly effective approach, especially in the few-shot setting, for improving performance in low-resource languages. This suggests that cross-lingual transfer can be inexpensive and effective for developing TTS front-end in resource-poor languages.
翻訳日:2023-06-06 16:58:42 公開日:2023-06-05
# 共分散規則化によるスロットモデルにおけるボトルネックの役割の探索

Exploring the Role of the Bottleneck in Slot-Based Models Through Covariance Regularization ( http://arxiv.org/abs/2306.02577v1 )

ライセンス: Link先を確認
Andrew Stange, Robert Lo, Abishek Sridhar, Kousik Rajesh(参考訳) 本研究では,実世界のデータセットにおける特徴再現目的と競合するような,画像再構成目的のスロットベースモデルの構築を試みる。 本稿では、スロットベースモデルのボトルネックを縮小するロスベースアプローチを提案し、大容量エンコーダネットワークを、縮退したストライプ形状のマスクを発生させることなく、スロットアテンションで使用できるようにする。 提案手法はベースラインSlot Attentionモデルよりも改善されているが,COCO2017データセット上での\dinosaurのパフォーマンスには達していない。 本プロジェクトを通して,画像再構成目標よりも特徴復元目標が優れていることを確認し,スロットベースモデルにおけるアーキテクチャボトルネックの役割について検討する。

In this project we attempt to make slot-based models with an image reconstruction objective competitive with those that use a feature reconstruction objective on real world datasets. We propose a loss-based approach to constricting the bottleneck of slot-based models, allowing larger-capacity encoder networks to be used with Slot Attention without producing degenerate stripe-shaped masks. We find that our proposed method offers an improvement over the baseline Slot Attention model but does not reach the performance of \dinosaur on the COCO2017 dataset. Throughout this project, we confirm the superiority of a feature reconstruction objective over an image reconstruction objective and explore the role of the architectural bottleneck in slot-based models.
翻訳日:2023-06-06 16:58:30 公開日:2023-06-05
# 可算無限状態空間を持つマルコフ決定過程における最適政策のベイズ学習

Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space ( http://arxiv.org/abs/2306.02574v1 )

ライセンス: Link先を確認
Saghar Adler, Vijay Subramanian(参考訳) 通信ネットワークやコンピュータシステムのキューイングモデルなど、多くの実世界のアプリケーションモデルは、数え切れないほど無限の状態空間を持つ。 最適ポリシーを生成するために開発されたアルゴリズムおよび学習手順は、主に有限状態設定に焦点を当てており、これらのモデルに直接適用しない。 そこで本研究では,未知のパラメータ $\theta\in\theta$ によって制御される離散時間可算状態空間マルコフ決定過程(mdps)の群を最適制御し,有限作用空間 $\mathcal a$ と非有界コスト関数を持つ可算無限状態空間 $\mathcal x=\mathbb{z}_+^d$ 上で定義される問題について検討する。 与えられた固定事前分布で生成されるランダムな未知パラメータ $\boldsymbol{\theta}^*$ でベイズ的視点を取る。 未知のMDPを最適に制御するため,各エピソードの冒頭にベイズの規則によって形成された後続分布を用いてパラメータ推定を行い,そのエピソード中に適用されるポリシーを決定する。 各パラメータに選択されたポリシーに従って得られるマルコフ連鎖の安定性を確保するため、エルゴディシティ仮定を課す。 この条件と平均コストベルマン方程式の解を用いて、我々のアルゴリズムのベイズ的後悔の上に$\tilde O(\sqrt{|\mathcal A|T})$上界を確立し、そこでは$T$が時間水平である。 最後に, 本アルゴリズムの適用性を明らかにするために, 未知ダイナミクスを持つ2つの異なるキューモデルを検討し, 最適制御アルゴリズムの開発に本アルゴリズムが適用可能であることを示す。

Models of many real-life applications, such as queuing models of communication networks or computing systems, have a countably infinite state-space. Algorithmic and learning procedures that have been developed to produce optimal policies mainly focus on finite state settings, and do not directly apply to these models. To overcome this lacuna, in this work we study the problem of optimal control of a family of discrete-time countable state-space Markov Decision Processes (MDPs) governed by an unknown parameter $\theta\in\Theta$, and defined on a countably-infinite state space $\mathcal X=\mathbb{Z}_+^d$, with finite action space $\mathcal A$, and an unbounded cost function. We take a Bayesian perspective with the random unknown parameter $\boldsymbol{\theta}^*$ generated via a given fixed prior distribution on $\Theta$. To optimally control the unknown MDP, we propose an algorithm based on Thompson sampling with dynamically-sized episodes: at the beginning of each episode, the posterior distribution formed via Bayes' rule is used to produce a parameter estimate, which then decides the policy applied during the episode. To ensure the stability of the Markov chain obtained by following the policy chosen for each parameter, we impose ergodicity assumptions. From this condition and using the solution of the average cost Bellman equation, we establish an $\tilde O(\sqrt{|\mathcal A|T})$ upper bound on the Bayesian regret of our algorithm, where $T$ is the time-horizon. Finally, to elucidate the applicability of our algorithm, we consider two different queuing models with unknown dynamics, and show that our algorithm can be applied to develop approximately optimal control algorithms.
翻訳日:2023-06-06 16:58:17 公開日:2023-06-05
# 潜時変動エネルギーベースモデル入門:自律型マシンインテリジェンスへの道

Introduction to Latent Variable Energy-Based Models: A Path Towards Autonomous Machine Intelligence ( http://arxiv.org/abs/2306.02572v1 )

ライセンス: Link先を確認
Anna Dawid, Yann LeCun(参考訳) 現在の自動化システムには、人工知能が人間のようなレベルに達し、新しい技術革命をもたらす前に対処すべき重要な制限がある。 私たちの社会には、信頼できる世界モデル、理性、複雑なアクションシーケンスを学習するレベル5の自動運転車、家庭用ロボット、バーチャルアシスタントがまだ欠けている。 これらのノートでは、Yann LeCun氏の提案する未来の自律知能アーキテクチャの背景にある主要なアイデアを要約する。 特に,エネルギーベースおよび潜在変数モデルを導入し,lecunの提案,すなわち階層型ジョイント埋め込み予測アーキテクチャ(h-jepa)の構成ブロックにそれらの利点を組み合わせる。

Current automated systems have crucial limitations that need to be addressed before artificial intelligence can reach human-like levels and bring new technological revolutions. Among others, our societies still lack Level 5 self-driving cars, domestic robots, and virtual assistants that learn reliable world models, reason, and plan complex action sequences. In these notes, we summarize the main ideas behind the architecture of autonomous intelligence of the future proposed by Yann LeCun. In particular, we introduce energy-based and latent variable models and combine their advantages in the building block of LeCun's proposal, that is, in the hierarchical joint embedding predictive architecture (H-JEPA).
翻訳日:2023-06-06 16:57:40 公開日:2023-06-05
# 硬質コアbose-hubbard格子のエネルギースペクトルの絡み合いの検出

Probing entanglement across the energy spectrum of a hard-core Bose-Hubbard lattice ( http://arxiv.org/abs/2306.02571v1 )

ライセンス: Link先を確認
Amir H. Karamlou, Ilan T. Rosen, Sarah E. Muschinske, Cora N. Barrett, Agustin Di Paolo, Leon Ding, Patrick M. Harrington, Max Hays, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Simon Gustavsson, Yariv Yanay, Jeffrey A. Grover, and William D. Oliver(参考訳) 絡み合いとその伝播は、量子系の様々な物理的性質を理解する中心である。 特に、閉量子多体系では、絡み合いは創発的な熱力学的挙動をもたらすと考えられているが、多くの大規模量子系の非可積分性と計算の難解性のため、普遍的な理解は依然として困難である。 量子ハードウェアプラットフォームは、相互作用する多体システムにおける絡み合いの形成とスケーリングを研究する手段を提供する。 ここでは、制御可能な4 \times 4$の超伝導量子ビット配列を用いて、2次元ハードコアボース・ハバード格子をエミュレートする。 我々は、全ての格子サイトを同時に駆動して重畳状態を生成し、その多体エネルギースペクトルの相関長と絡み合いエントロピーを抽出する。 スペクトルの中心にある状態の体積則絡み合いスケーリングと、その辺付近での面積則スケーリングの開始へのクロスオーバーを観察した。

Entanglement and its propagation are central to understanding a multitude of physical properties of quantum systems. Notably, within closed quantum many-body systems, entanglement is believed to yield emergent thermodynamic behavior, yet a universal understanding remains challenging due to the non-integrability and computational intractability of most large-scale quantum systems. Quantum hardware platforms provide a means to study the formation and scaling of entanglement in interacting many-body systems. Here, we use a controllable $4 \times 4$ array of superconducting qubits to emulate a two-dimensional hard-core Bose-Hubbard lattice. We generate superposition states by simultaneously driving all lattice sites and extract correlation lengths and entanglement entropy across its many-body energy spectrum. We observe volume-law entanglement scaling for states at the center of the spectrum and a crossover to the onset of area-law scaling near its edges.
翻訳日:2023-06-06 16:57:28 公開日:2023-06-05
# 分散最適化が連合学習を満たすとき

When Decentralized Optimization Meets Federated Learning ( http://arxiv.org/abs/2306.02570v1 )

ライセンス: Link先を確認
Hongchang Gao, My T. Thai, Jie Wu(参考訳) フェデレーション学習は、分散データから知識を抽出するための新しい学習パラダイムである。 プライバシの保存と通信コストの節約に有利な性質のため、多くのデータ分析アプリケーションに広く研究され、広く応用されている。 しかし、既存のフェデレーション学習アプローチのほとんどは、単一ポイント障害に弱い集中的な設定に集中している。 この問題に対処する別の戦略として、分散通信トポロジがある。 本稿では,連合学習における分散最適化の革新における課題と機会を体系的に検討する。 特に,これらをモデル,データ,コミュニケーションの両面から論じ,分散化されたフェデレーション学習に対する理解を深めることができた。

Federated learning is a new learning paradigm for extracting knowledge from distributed data. Due to its favorable properties in preserving privacy and saving communication costs, it has been extensively studied and widely applied to numerous data analysis applications. However, most existing federated learning approaches concentrate on the centralized setting, which is vulnerable to a single-point failure. An alternative strategy for addressing this issue is the decentralized communication topology. In this article, we systematically investigate the challenges and opportunities when renovating decentralized optimization for federated learning. In particular, we discussed them from the model, data, and communication sides, respectively, which can deepen our understanding about decentralized federated learning.
翻訳日:2023-06-06 16:57:09 公開日:2023-06-05
# 一貫性は自己整合性より優れているか? 事前学習型言語モデルを用いたFew-ShotとZero-Shot Factの検証

Prompt to be Consistent is Better than Self-Consistent? Few-Shot and Zero-Shot Fact Verification with Pre-trained Language Models ( http://arxiv.org/abs/2306.02569v1 )

ライセンス: Link先を確認
Fengzhu Zeng and Wei Gao(参考訳) ほとんどショットやゼロショットの事実検証は、ラベル付きトレーニング例にのみ依存する。 本稿では,protocoと呼ばれる新しい手法を提案する。protocoは事前学習された言語モデル (plms) \underline{to} be \underline{co}nsistent であり,小ショットおよびゼロショット設定におけるplmの事実性評価能力を向上させる。 クレーム・エビデンス対が与えられると、protocoは異なる関係を持つクレームの複数の変種を生成し、これらの変種間で互換性のある予測を行うための制約として単純な一貫性メカニズムを組み込む。 パラメータ係数ファインチューニング (PEFT) を用いてPLMを更新し, ショット数およびゼロショットの事実検証タスクにおいて, より正確な予測を行う。 3つの公開検証データセットに関する実験では,protocoが最先端のマイナショットファクト検証ベースラインを大きく上回っていることが分かりました。 ラベルなしのインスタンスが少数存在するため、ProToCoはゼロショット検証において強力なゼロショット学習者T0を上回っている。 In-context Learning (ICL) 法を用いた大規模 PLM と比較して,ProToCo は OPT-30B と Self-Consistency 対応 OPT-6.7B モデルに勝っている。

Few-shot or zero-shot fact verification only relies on a few or no labeled training examples. In this paper, we propose a novel method called ProToCo, to \underline{Pro}mpt pre-trained language models (PLMs) \underline{To} be \underline{Co}nsistent, for improving the factuality assessment capability of PLMs in the few-shot and zero-shot settings. Given a claim-evidence pair, ProToCo generates multiple variants of the claim with different relations and frames a simple consistency mechanism as constraints for making compatible predictions across these variants. We update PLMs by using parameter-efficient fine-tuning (PEFT), leading to more accurate predictions in few-shot and zero-shot fact verification tasks. Our experiments on three public verification datasets show that ProToCo significantly outperforms state-of-the-art few-shot fact verification baselines. With a small number of unlabeled instances, ProToCo also outperforms the strong zero-shot learner T0 on zero-shot verification. Compared to large PLMs using in-context learning (ICL) method, ProToCo outperforms OPT-30B and the Self-Consistency-enabled OPT-6.7B model in both few- and zero-shot settings.
翻訳日:2023-06-06 16:56:59 公開日:2023-06-05
# 変分ベイズ動的計画のためのガムベル伝搬による潜在最適経路

Latent Optimal Paths by Gumbel Propagation for Variational Bayesian Dynamic Programming ( http://arxiv.org/abs/2306.02568v1 )

ライセンス: Link先を確認
Xinlei Niu, Christian Walder, Jing Zhang, Charles Patrick Martin(参考訳) 本稿では,動的プログラミングとガムベル伝搬を用いて,変分オートエンコーダ(VAE)の潜時空間における構造的スパース最適経路を求める統一的手法を提案する。 確率的最適経路(英語版)と呼ばれる確率軟化解を用いて古典的最適経路問題を解き、幅広いdp問題から全ての可能な経路がギブス分布に従う有向非巡回グラフへと変換する。 ガムベル分布の特性によるメッセージパスアルゴリズムにおけるギブズ分布の等価性を示し、変分ベイズ推論に必要なすべての成分を与える。 提案手法は,モデルが観測不能な構造的特徴の情報に依存する生成タスクのエンドツーエンドトレーニングを可能にする。 提案手法の動作を検証し,テキスト音声合成と歌唱音声合成の2つの実世界応用における適用可能性を示す。

We propose a unified approach to obtain structured sparse optimal paths in the latent space of a variational autoencoder (VAE) using dynamic programming and Gumbel propagation. We solve the classical optimal path problem by a probability softening solution, called the stochastic optimal path, and transform a wide range of DP problems into directed acyclic graphs in which all possible paths follow a Gibbs distribution. We show the equivalence of the Gibbs distribution to a message-passing algorithm by the properties of the Gumbel distribution and give all the ingredients required for variational Bayesian inference. Our approach obtaining latent optimal paths enables end-to-end training for generative tasks in which models rely on the information of unobserved structural features. We validate the behavior of our approach and showcase its applicability in two real-world applications: text-to-speech and singing voice synthesis.
翻訳日:2023-06-06 16:56:32 公開日:2023-06-05
# 結合型変分オートエンコーダ

Coupled Variational Autoencoder ( http://arxiv.org/abs/2306.02565v1 )

ライセンス: Link先を確認
Xiaoran Hao, Patrick Shafto(参考訳) 変分オートエンコーダは生成タスクにおいて強力な確率モデルであるが、前の穴によって引き起こされる低品質のサンプルを生成するのに苦しむ。 本稿では,VAE問題を事前分布とデータ分布間の最適輸送(OT)の1つとして定式化する結合変分自動エンコーダ(C-VAE)を提案する。 c-vaeは、先行とデータ分布の結合を強制することにより、先行ホール問題の事前の柔軟性と自然な解決を可能にし、エントロピーotの原始的、双対的、半双対的な定式化を通じて柔軟な最適化を可能にする。 合成および実データに関するシミュレーションにより、C-VAEはVAE、WAE、InfoVAEなどの代替品よりもデータの忠実性、潜伏表現の品質、生成したサンプルの品質に優れていた。

Variational auto-encoders are powerful probabilistic models in generative tasks but suffer from generating low-quality samples which are caused by the holes in the prior. We propose the Coupled Variational Auto-Encoder (C-VAE), which formulates the VAE problem as one of Optimal Transport (OT) between the prior and data distributions. The C-VAE allows greater flexibility in priors and natural resolution of the prior hole problem by enforcing coupling between the prior and the data distribution and enables flexible optimization through the primal, dual, and semi-dual formulations of entropic OT. Simulations on synthetic and real data show that the C-VAE outperforms alternatives including VAE, WAE, and InfoVAE in fidelity to the data, quality of the latent representation, and in quality of generated samples.
翻訳日:2023-06-06 16:56:17 公開日:2023-06-05
# 地球規模の種数マッピングのための空間的暗黙的ニューラル表現

Spatial Implicit Neural Representations for Global-Scale Species Mapping ( http://arxiv.org/abs/2306.02564v1 )

ライセンス: Link先を確認
Elijah Cole, Grant Van Horn, Christian Lange, Alexander Shepard, Patrick Leary, Pietro Perona, Scott Loarie, Oisin Mac Aodha(参考訳) スパース観測から種の地理的範囲を推定することは、挑戦的で重要な地理空間予測問題である。 種が観察された場所の集合を考えると、その種がどこにいても存在しないかを予測するモデルを構築することが目的である。 この問題には生態学における長い歴史があるが、従来の手法は、数十万の種に対して数千万のレコードを含む、大規模なクラウドソーシングデータセットの活用に苦慮している。 本研究では,Spatial Implicit Neural Representations (SINR) を用いて47k種の地理的範囲を同時に推定する。 われわれのアプローチは優雅にスケールし、訓練の際の種数と種毎のデータ量を増やすにつれて、予測がより良くなる。 この問題を機械学習研究者に公開するために、種の範囲推定と空間表現学習の異なる側面を計測する4つの新しいベンチマークを提供する。 これらのベンチマークを用いて,うるさく偏りのあるクラウドソースデータと暗黙のニューラル表現を組み合わせることで,多くの種についてエキスパートが作成した距離マップを近似できることを実証した。

Estimating the geographical range of a species from sparse observations is a challenging and important geospatial prediction problem. Given a set of locations where a species has been observed, the goal is to build a model to predict whether the species is present or absent at any location. This problem has a long history in ecology, but traditional methods struggle to take advantage of emerging large-scale crowdsourced datasets which can include tens of millions of records for hundreds of thousands of species. In this work, we use Spatial Implicit Neural Representations (SINRs) to jointly estimate the geographical range of 47k species simultaneously. We find that our approach scales gracefully, making increasingly better predictions as we increase the number of species and the amount of data per species when training. To make this problem accessible to machine learning researchers, we provide four new benchmarks that measure different aspects of species range estimation and spatial representation learning. Using these benchmarks, we demonstrate that noisy and biased crowdsourced data can be combined with implicit neural representations to approximate expert-developed range maps for many species.
翻訳日:2023-06-06 16:55:59 公開日:2023-06-05
# マルチキュアコーパスに基づくキュート音声の新たな解釈可能で一般化された再同期モデル

A Novel Interpretable and Generalizable Re-synchronization Model for Cued Speech based on a Multi-Cuer Corpus ( http://arxiv.org/abs/2306.02596v1 )

ライセンス: Link先を確認
Lufei Gao, Shan Huang and Li Liu(参考訳) cued speech (cs) は、唇の読みと複数の手の動きを音韻レベルで組み合わせ、音声言語を聴覚障害者に見せるマルチモーダル視覚符号化システムである。 以前の研究では、唇と手の動きの非同期な問題をcuer\footnote{the people who performing cued speech is called the cuer" によって解決した。 英語とフランス語のcsに対する区分的線形モデル 本研究では,手前の時間(HPT)を予測するための解釈可能な一般化可能なモデルを構築するために,リフストリーム上の3つの統計的尺度を革新的に提案する。 特に,正常者3名と難聴者2名を含む5人の話者の注釈付きビデオを含む最初のマンダリンCSコーパスを構築した。 その結果,マンダリンCS生産において,正常者と聴覚障害者の間に有意な差が認められた。 広範な実験により,本モデルがベースラインと先行する最先端メソッドを上回っていることが証明された。

Cued Speech (CS) is a multi-modal visual coding system combining lip reading with several hand cues at the phonetic level to make the spoken language visible to the hearing impaired. Previous studies solved asynchronous problems between lip and hand movements by a cuer\footnote{The people who perform Cued Speech are called the cuer.}-dependent piecewise linear model for English and French CS. In this work, we innovatively propose three statistical measure on the lip stream to build an interpretable and generalizable model for predicting hand preceding time (HPT), which achieves cuer-independent by a proper normalization. Particularly, we build the first Mandarin CS corpus comprising annotated videos from five speakers including three normal and two hearing impaired individuals. Consequently, we show that the hand preceding phenomenon exists in Mandarin CS production with significant differences between normal and hearing impaired people. Extensive experiments demonstrate that our model outperforms the baseline and the previous state-of-the-art methods.
翻訳日:2023-06-06 16:50:19 公開日:2023-06-05
# ドメイン一般化のためのモデル動物園における多様な知識の探索と展開

Explore and Exploit the Diverse Knowledge in Model Zoo for Domain Generalization ( http://arxiv.org/abs/2306.02595v1 )

ライセンス: Link先を確認
Yimeng Chen, Tianyang Hu, Fengwei Zhou, Zhenguo Li, Zhiming Ma(参考訳) 事前訓練されたモデルの増加は、事前訓練技術の進歩の結果であり、公に入手可能なモデルの広大な動物園が出現した。 これらの資源を効果的に活用して、下流タスクのロバストな分散汎化能力を持つモデルを得るのが重要な研究分野となっている。 これまでの研究は主に、モデル動物園内の最も強力なモデルを特定することに焦点を当ててきた。 本稿では,弱いモデルに含まれる知識は有用であり,分散一般化能力を向上させるためにモデル動物園内の多様性を活用する方法を提案する。 具体的には,エンコード表現の変化を2次元の多様性シフトと相関シフトという観点から特徴付けることにより,下流タスクの異なる領域にまたがる様々な事前学習モデルの挙動について検討する。 この特徴付けにより,最強モデルに限らず,多様な事前学習モデルを統合するアルゴリズムが提案され,分散外分布一般化性能の向上が期待できる。 提案手法は,様々なデータセットに対する最先端の実証結果を示し,多様な知識を活用するメリットを検証した。

The proliferation of pretrained models, as a result of advancements in pretraining techniques, has led to the emergence of a vast zoo of publicly available models. Effectively utilizing these resources to obtain models with robust out-of-distribution generalization capabilities for downstream tasks has become a crucial area of research. Previous research has primarily focused on identifying the most powerful models within the model zoo, neglecting to fully leverage the diverse inductive biases contained within. This paper argues that the knowledge contained in weaker models is valuable and presents a method for leveraging the diversity within the model zoo to improve out-of-distribution generalization capabilities. Specifically, we investigate the behaviors of various pretrained models across different domains of downstream tasks by characterizing the variations in their encoded representations in terms of two dimensions: diversity shift and correlation shift. This characterization enables us to propose a new algorithm for integrating diverse pretrained models, not limited to the strongest models, in order to achieve enhanced out-of-distribution generalization performance. Our proposed method demonstrates state-of-the-art empirical results on a variety of datasets, thus validating the benefits of utilizing diverse knowledge.
翻訳日:2023-06-06 16:49:53 公開日:2023-06-05
# 長文音声合成のためのロバスト度の高いリズム制御可能な注意

Rhythm-controllable Attention with High Robustness for Long Sentence Speech Synthesis ( http://arxiv.org/abs/2306.02593v1 )

ライセンス: Link先を確認
Dengfeng Ke, Yayue Deng, Yukang Jia, Jinlong Xue, Qi Luo, Ya Li, Jianqing Sun, Jiaen Liang, Binghuai Lin(参考訳) Reressive Text-to-Speech (TTS) システムは注意機構を利用してテキストと音響特徴系列のアライメントを生成する。 アライメントは合成のロバスト性(例えば、スキップ、繰り返し、崩壊)とリズムを持続時間制御によって決定する。 しかし、音声合成における現在の注意アルゴリズムは、外部持続時間情報を用いてリズムを制御できず、ロバスト性を確保しつつ自然音声を生成する。 本研究では,トラコトロン2に基づくリズム制御可能な注意(rc-attention)を提案し,ロバスト性と自然性を同時に向上させる。 4種類の情報から学習した訓練可能なスカラーを採用してリズム制御を実現し、合成文がトレーニングコーパスよりも非常に長い場合でもリズム制御をより堅牢で自然なものにする。 提案手法のロバスト性および合成音声の自然性を測定するために,単語誤り計数とab選好テストを用いた。 その結果,rc-attentionの単語誤り率は0.6%近く,ベースラインシステムでは11.8%であった。 さらに,60%近い被験者は,前者の方が自然なリズムが強いため,rc-attentionで合成した音声を好む。

Regressive Text-to-Speech (TTS) system utilizes attention mechanism to generate alignment between text and acoustic feature sequence. Alignment determines synthesis robustness (e.g, the occurence of skipping, repeating, and collapse) and rhythm via duration control. However, current attention algorithms used in speech synthesis cannot control rhythm using external duration information to generate natural speech while ensuring robustness. In this study, we propose Rhythm-controllable Attention (RC-Attention) based on Tracotron2, which improves robustness and naturalness simultaneously. Proposed attention adopts a trainable scalar learned from four kinds of information to achieve rhythm control, which makes rhythm control more robust and natural, even when synthesized sentences are extremely longer than training corpus. We use word errors counting and AB preference test to measure robustness of proposed method and naturalness of synthesized speech, respectively. Results shows that RC-Attention has the lowest word error rate of nearly 0.6%, compared with 11.8% for baseline system. Moreover, nearly 60% subjects prefer to the speech synthesized with RC-Attention to that with Forward Attention, because the former has more natural rhythm.
翻訳日:2023-06-06 16:49:32 公開日:2023-06-05
# グラフ対応言語モデルによる大規模グラフコーパスの事前学習は、複数のグラフアプリケーションに役立つ

Graph-Aware Language Model Pre-Training on a Large Graph Corpus Can Help Multiple Graph Applications ( http://arxiv.org/abs/2306.02592v1 )

ライセンス: Link先を確認
Han Xie, Da Zheng, Jun Ma, Houyu Zhang, Vassilis N. Ioannidis, Xiang Song, Qing Ping, Sheng Wang, Carl Yang, Yi Xu, Belinda Zeng, Trishul Chilimbi(参考訳) 大規模テキストコーパスでのモデル事前学習は、nlpドメインの様々な下流アプリケーションに対して有効であることが示されている。 グラフマイニングの領域では、ダウンストリームグラフアプリケーションへのメリットを期待して、大規模なグラフ上で事前学習するグラフモデルにも、同様のアナロジーを描画することができる。 しかし、既存の研究では、豊富なテキスト情報(例えば、大きなグラフコーパス)を持つ大きな不均一グラフ上のテキストプラスグラフモデルの事前学習を研究せず、異なるグラフスキーマを持つ異なる下流アプリケーション上でモデルを微調整している。 そこで本研究では,大規模言語モデルとグラフニューラルネットワークを組み込んだ大規模グラフコーパス上でのグラフ認識型言語モデル事前学習(galm)の枠組みと,下流アプリケーションにおける様々な微調整手法を提案する。 Amazonの実際の内部データセットと大規模な公開データセットに関する広範な実験を行っています。 実験結果の包括的分析と詳細な分析により,提案手法の有効性が実証された。

Model pre-training on large text corpora has been demonstrated effective for various downstream applications in the NLP domain. In the graph mining domain, a similar analogy can be drawn for pre-training graph models on large graphs in the hope of benefiting downstream graph applications, which has also been explored by several recent studies. However, no existing study has ever investigated the pre-training of text plus graph models on large heterogeneous graphs with abundant textual information (a.k.a. large graph corpora) and then fine-tuning the model on different related downstream applications with different graph schemas. To address this problem, we propose a framework of graph-aware language model pre-training (GALM) on a large graph corpus, which incorporates large language models and graph neural networks, and a variety of fine-tuning methods on downstream applications. We conduct extensive experiments on Amazon's real internal datasets and large public datasets. Comprehensive empirical results and in-depth analysis demonstrate the effectiveness of our proposed methods along with lessons learned.
翻訳日:2023-06-06 16:49:11 公開日:2023-06-05
# dagrid: 指示型アキュムレータグリッド

DAGrid: Directed Accumulator Grid ( http://arxiv.org/abs/2306.02589v1 )

ライセンス: Link先を確認
Hang Zhang, Renjiu Hu, Xiang Chen, Rongguang Wang, Jinwei Zhang, and Jiahao Li(参考訳) 最近の研究では、指向型アキュムレータ(da)は、幾何学的前駆体をニューラルネットワークにパラメトリゼーションすることで、医療画像認識の性能、特に小規模で不均衡なデータセットのパフォーマンスを著しく向上させた。 しかし、ピクセル単位の密度予測におけるDAのポテンシャルは未解明である。 このギャップを埋めるために,ニューラルネットワークにおける幾何保存フィルタリングを可能にする指向型アキュムレータグリッド(dagrid)を提案する。 DAGridは、設計されたサンプリンググリッドとともに均一なデータ型を使用して、幾何学的に変換された表現を構築し、複雑な幾何学的情報を保持し、ニューラルネットワーク内での長距離情報伝播を促進する。 対称的なグリッドサンプリングとは対照的に、DAGridは全てのピクセルを集約し、変換された空間における包括的な表現を保証する。 最新のGPU上でのDAGridの並列化はCUDAプログラミングによって促進され、バック伝搬はディープニューラルネットワークトレーニングに有効である。 実験の結果, dagrid-enhanced neural networksは, 皮膚病変セグメント化と非教師付き心画像登録に優れていることがわかった。 具体的には、dagridを組み込んだネットワークは、ネットワークパラメータサイズが70.8%減少し、フロップが96.8%減少すると同時に、最先端トランスフォーマーに比べて皮膚病変分割のサイススコアが1.0%向上している。 また、左室重量の平均diceスコアとdiceスコアの4.4%と8.2%の改善を達成しており、心画像の登録精度が向上していることを示している。 ソースコードはhttps://github.com/tinymilky/dedaで入手できる。

Recent research highlights that the Directed Accumulator (DA), through its parametrization of geometric priors into neural networks, has notably improved the performance of medical image recognition, particularly with small and imbalanced datasets. However, DA's potential in pixel-wise dense predictions is unexplored. To bridge this gap, we present the Directed Accumulator Grid (DAGrid), which allows geometric-preserving filtering in neural networks, thus broadening the scope of DA's applications to include pixel-level dense prediction tasks. DAGrid utilizes homogeneous data types in conjunction with designed sampling grids to construct geometrically transformed representations, retaining intricate geometric information and promoting long-range information propagation within the neural networks. Contrary to its symmetric counterpart, grid sampling, which might lose information in the sampling process, DAGrid aggregates all pixels, ensuring a comprehensive representation in the transformed space. The parallelization of DAGrid on modern GPUs is facilitated using CUDA programming, and also back propagation is enabled for deep neural network training. Empirical results show DAGrid-enhanced neural networks excel in supervised skin lesion segmentation and unsupervised cardiac image registration. Specifically, the network incorporating DAGrid has realized a 70.8% reduction in network parameter size and a 96.8% decrease in FLOPs, while concurrently improving the Dice score for skin lesion segmentation by 1.0% compared to state-of-the-art transformers. Furthermore, it has achieved improvements of 4.4% and 8.2% in the average Dice score and Dice score of the left ventricular mass, respectively, indicating an increase in registration accuracy for cardiac images. The source code is available at https://github.com/tinymilky/DeDA.
翻訳日:2023-06-06 16:48:55 公開日:2023-06-05
# 文学に基づく景観計画の発見

Literature-based Discovery for Landscape Planning ( http://arxiv.org/abs/2306.02588v1 )

ライセンス: Link先を確認
David Marasco, Ilya Tyagin, Justin Sybrandt, James H. Spencer, Ilya Safro(参考訳) このプロジェクトは、aiの知識発見分野である医療コーパス仮説生成が、ランドスケープや都市プランナーの新しい研究角度を導出する方法を示しています。 この仮説生成アプローチは、深層学習とトピックモデリングを組み合わせた自然言語解析の確率論的アプローチであり、それらの主題の共通性に基づいてグループ化できる単語に対して集約された研究データベースをスキャンし、それに従って単語群は2つの一般的な研究用語間の暗黙的なつながりを提供するトピックを形成する。 仮説生成システムagathaは, 新たな感染症 (eids) と森林破壊 (deforestation) の間の概念的関係を明らかにするために用いられ, 森林破壊とeidsを中心とした研究仮説を定式化するために, 生産的研究指導のためのランドスケーププランナーガイドラインを提供することが目的であった。 この研究は、医学データベース仮説生成を医学的随伴仮説発見に適用する部分的概念実証にも役立っている。

This project demonstrates how medical corpus hypothesis generation, a knowledge discovery field of AI, can be used to derive new research angles for landscape and urban planners. The hypothesis generation approach herein consists of a combination of deep learning with topic modeling, a probabilistic approach to natural language analysis that scans aggregated research databases for words that can be grouped together based on their subject matter commonalities; the word groups accordingly form topics that can provide implicit connections between two general research terms. The hypothesis generation system AGATHA was used to identify likely conceptual relationships between emerging infectious diseases (EIDs) and deforestation, with the objective of providing landscape planners guidelines for productive research directions to help them formulate research hypotheses centered on deforestation and EIDs that will contribute to the broader health field that asserts causal roles of landscape-level issues. This research also serves as a partial proof-of-concept for the application of medical database hypothesis generation to medicine-adjacent hypothesis discovery.
翻訳日:2023-06-06 16:48:24 公開日:2023-06-05
# フェデレーション学習によるジャマー分類

Jammer classification with Federated Learning ( http://arxiv.org/abs/2306.02587v1 )

ライセンス: Link先を確認
Peng Wu, Helena Calatrava, Tales Imbiriba, Pau Closas(参考訳) ジャミング信号は、その操作を拒否するまで、GNSS受信機の動作を妨害することができる。 その普遍性を考えると、ジャミング緩和とローカライズ技術が重要であり、ジャマー分類が役に立つ。 データ駆動モデルはこれらの脅威を検出するのに有用であることが証明されている。 本稿では,モデル更新を集約し,中央サーバで平均化することで,各デバイス上で信号分類器をローカルに訓練するためのフェデレーション学習の利用について検討する。 これにより、集中データストレージやクライアントローカルデータへのアクセスを必要としない、プライバシ保護のトレーニング手順が可能になる。 使用済みフレームワークfedavgは、シミュレーション干渉gnss信号のスペクトログラム画像からなるデータセット上で評価される。 6つの異なるジャムマータイプは、大量のデータ通信を必要とし、プライバシ保護の懸念を伴う完全な集中型ソリューションに匹敵する結果を効果的に分類する。

Jamming signals can jeopardize the operation of GNSS receivers until denying its operation. Given their ubiquity, jamming mitigation and localization techniques are of crucial importance, for which jammer classification is of help. Data-driven models have been proven useful in detecting these threats, while their training using crowdsourced data still poses challenges when it comes to private data sharing. This article investigates the use of federated learning to train jamming signal classifiers locally on each device, with model updates aggregated and averaged at the central server. This allows for privacy-preserving training procedures that do not require centralized data storage or access to client local data. The used framework FedAvg is assessed on a dataset consisting of spectrogram images of simulated interfered GNSS signal. Six different jammer types are effectively classified with comparable results to a fully centralized solution that requires vast amounts of data communication and involves privacy-preserving concerns.
翻訳日:2023-06-06 16:48:04 公開日:2023-06-05
# motiontrack: 複数物体追跡のための学習動作予測器

MotionTrack: Learning Motion Predictor for Multiple Object Tracking ( http://arxiv.org/abs/2306.02585v1 )

ライセンス: Link先を確認
Changcheng Xiao, Qiong Cao, Yujie Zhong, Long Lan, Xiang Zhang, Huayue Cai, Zhigang Luo, Dacheng Tao(参考訳) 検出・再識別技術(ReID)の発展に伴い,多対象追跡(MOT)において重要な進歩が見られた。 これらの発展にもかかわらず、ReID特徴の識別性の不十分さとMOTにおける線形運動モデルの主な使用により、均質な外観と異質な動きを持つシナリオにおけるオブジェクトを正確に追跡する作業は依然として困難である。 本研究では,運動特性の2段階の粒度を包括的に組み込んだ新しい学習可能な運動予測器motiontrackを提案する。 具体的には,トークンレベルの情報をキャプチャするセルフアテンション機構と,チャネルレベルの機能をモデル化する動的mlp層を採用する。 MotionTrackはシンプルなオンライントラッキング方式だ。 本研究では,sportsmot や dancetrack などの高度に非線形な物体の動きを特徴とするデータセットに対して,motiontrack が最先端のパフォーマンスをもたらすことを示す。 特に、ターゲットデータセットを微調整することなく、MotionTrackは、MOT17やMOT20といった従来のベンチマークで競合するパフォーマンスを示す。

Significant advancements have been made in multi-object tracking (MOT) with the development of detection and re-identification (ReID) techniques. Despite these developments, the task of accurately tracking objects in scenarios with homogeneous appearance and heterogeneous motion remains challenging due to the insufficient discriminability of ReID features and the predominant use of linear motion models in MOT. In this context, we present a novel learnable motion predictor, named MotionTrack, which comprehensively incorporates two levels of granularity of motion features to enhance the modeling of temporal dynamics and facilitate accurate future motion prediction of individual objects. Specifically, the proposed approach adopts a self-attention mechanism to capture token-level information and a Dynamic MLP layer to model channel-level features. MotionTrack is a simple, online tracking approach. Our experimental results demonstrate that MotionTrack yields state-of-the-art performance on demanding datasets such as SportsMOT and Dancetrack, which feature highly nonlinear object motion. Notably, without fine-tuning on target datasets, MotionTrack also exhibits competitive performance on conventional benchmarks including MOT17 and MOT20.
翻訳日:2023-06-06 16:47:48 公開日:2023-06-05
# 安定拡散は不安定である

Stable Diffusion is Untable ( http://arxiv.org/abs/2306.02583v1 )

ライセンス: Link先を確認
Chengbin Du, Yanxi Li, Zhongwei Qiu, Chang Xu(参考訳) 近年,テキスト対画像モデルが盛んである。 その強力な生成能力にもかかわらず、我々の研究は、この世代のプロセスにおける堅牢さの欠如を明らかにしました。 具体的には、テキストプロンプトに小さな摂動を導入することで、他のカテゴリと主主題が混ざり合ったり、生成された画像に完全に消えたりする可能性がある。 本稿では,このような摂動を効果的かつ効率的に生成するために,勾配に基づく手法であるテキスト・ツー・イメージモデル(atm)の自動攻撃を提案する。 Gumbel Softmax分布を学習することにより、単語置換や拡張の離散的な過程を連続的に行うことができ、摂動生成の微分可能性を確保することができる。 配信が学習されると、ATMは複数の攻撃サンプルを同時にサンプリングできる。 これらの攻撃サンプルは、画像の品質を損なうことなく、生成モデルが所望の被写体を生成するのを防ぐことができる。 ATMは短文攻撃で91.1%の成功率、長文攻撃で81.2%の成功率を達成した。 さらなる実証分析により、以下の4つの攻撃パターンが明らかになった。 1) 発生速度の変動性。 2)粗粒度特性の類似性 3)言葉の多義性,及び 4) 単語の位置決め。

Recently, text-to-image models have been thriving. Despite their powerful generative capacity, our research has uncovered a lack of robustness in this generation process. Specifically, the introduction of small perturbations to the text prompts can result in the blending of primary subjects with other categories or their complete disappearance in the generated images. In this paper, we propose Auto-attack on Text-to-image Models (ATM), a gradient-based approach, to effectively and efficiently generate such perturbations. By learning a Gumbel Softmax distribution, we can make the discrete process of word replacement or extension continuous, thus ensuring the differentiability of the perturbation generation. Once the distribution is learned, ATM can sample multiple attack samples simultaneously. These attack samples can prevent the generative model from generating the desired subjects without compromising image quality. ATM has achieved a 91.1% success rate in short-text attacks and an 81.2% success rate in long-text attacks. Further empirical analysis revealed four attack patterns based on: 1) the variability in generation speed, 2) the similarity of coarse-grained characteristics, 3) the polysemy of words, and 4) the positioning of words.
翻訳日:2023-06-06 16:47:28 公開日:2023-06-05
# oct流体セグメンテーションのための極端点アノテーションによる雑音ラベルからの学習

Learning from Noisy Labels Generated by Extremely Point Annotations for OCT Fluid Segmentation ( http://arxiv.org/abs/2306.02582v1 )

ライセンス: Link先を確認
Tengjin Weng, Yang Shen, Kai Jin, Zhiming Cheng, Yunxiang Li, Gewen Zhang, and Shuai Wang(参考訳) OCT(Optical Coherence Tomography)画像における液体の自動分画は眼科医が正確な診断に有用である。 現在、データ駆動畳み込みニューラルネットワーク(CNN)はOCT流体セグメンテーションにおいて大きな成功を収めている。 しかし,OCT画像のピクセルレベルのマスクの取得には時間がかかり,専門知識が必要である。 一般的な弱い教師付き戦略は、弱いアノテーションからノイズの多い擬似ラベルを生成することであるが、導入されるノイズ情報はモデルのトレーニングを誤解させる可能性がある。 この問題に対処する。 (i)低信頼度を疑わしいラベル画素に割り当てることにより、ネットワークが過度に収まるノイズを抑える、PNS(Point to Noisy by Superpixel)と呼ばれる弱い点アノテーションからノイズラベルを生成するスーパーピクセル誘導方式を提案する。 (II) MTCLのリアルタイム評価ノイズによる不確実性と計算電力消費を軽減するため, MTCLをベースとした2段階平均教師支援信頼学習法(2SMTCL)を提案する。 評価のために2次元CT流体セグメンテーションデータセットを構築した。 他の最先端ラベルデノゲーション法と比較して,本手法がOCT流体セグメンテーションおよびラベルデノゲーションにおいて優れた性能を発揮することを示す。 本研究は,眼科領域における患者の診断と治療に肯定的な影響を与えると考えられたCT画像の流体分画に対する,効率的で正確かつ実用的な解決策を提供する。

Automatic segmentation of fluid in OCT (Optical Coherence Tomography) images is beneficial for ophthalmologists to make an accurate diagnosis. Currently, data-driven convolutional neural networks (CNNs) have achieved great success in OCT fluid segmentation. However, obtaining pixel-level masks of OCT images is time-consuming and requires expertise. The popular weakly-supervised strategy is to generate noisy pseudo-labels from weak annotations, but the noise information introduced may mislead the model training. To address this issue, (i) we propose a superpixel-guided method for generating noisy labels from weak point annotations, called Point to Noisy by Superpixel (PNS), which limits the network from over-fitting noise by assigning low confidence to suspiciously noisy label pixels, and (ii) we propose a Two-Stage Mean-Teacher-assisted Confident Learning (2SMTCL) method based on MTCL for multi-category OCT fluid segmentation, which alleviates the uncertainty and computing power consumption introduced by the real-time characterization noise of MTCL. For evaluation, we have constructed a 2D OCT fluid segmentation dataset. Compared with other state-of-art label-denoising methods, comprehensive experimental results demonstrate that the proposed method can achieve excellent performance in OCT fluid segmentation as well as label denoising. Our study provides an efficient, accurate, and practical solution for fluid segmentation of OCT images, which is expected to have a positive impact on the diagnosis and treatment of patients in the field of ophthalmology.
翻訳日:2023-06-06 16:47:12 公開日:2023-06-05
# 量子コンピュータ上での量子化学計算のGo-No Go基準

Go-No go criteria for performing quantum chemistry calculations on quantum computers ( http://arxiv.org/abs/2306.02620v1 )

ライセンス: Link先を確認
Thibaud Louvet, Thomas Ayral, Xavier Waintal(参考訳) 量子化学は、純粋に古典的なアプローチに対して真に有利な量子コンピュータを提供する早期かつ破壊的な応用として考えられている。 本研究では,この問題に対する2つの主要な量子アプローチの可能性を評価するための2つの基準を提案する。 第1の基準は変分量子固有ソルバ(vqe)アルゴリズムに適用され、ターゲットの精度と問題サイズの関数として量子ハードウェアで許容されるノイズレベルに上限を設定する。 我々は,従来のアルゴリズムよりも汎用的にあまり好ましくない精度の全体的なスケーリングによるノイズの抑制効果を見出した。 これは、研究された分子がハードウェアのダイナミクスとは無関係であるため、そのノイズは、逆に、研究された分子の任意のエネルギーの状態を発生させるためである。 第2の基準は量子位相推定(QPE)アルゴリズムに適用され、(ノイズのない)フォールトトレラント量子コンピュータが利用可能になったときにVQEの代替としてしばしば提示される。 qpeは、問題の大きさが大きくなると指数関数的に小さい成功確率をもたらす直交性大惨事として知られる現象に苦しむ。 我々の基準は、計算に使用される入力状態のエネルギーの分散に関する知識から、この現象の重要性を定量的に推定することができる。

Quantum chemistry is envisioned as an early and disruptive application where quantum computers would provide a genuine advantage with respect to purely classical approaches. In this work, we propose two criteria for evaluating the potential of the two leading quantum approaches for this class of problems. The first criterion applies to the Variational Quantum Eigensolver (VQE) algorithm and sets an upper bound to the level of noise that can be tolerated in quantum hardware as a function of the target precision and problem size. We find a crippling effect of noise with an overall scaling of the precision that is generically less favourable than in the corresponding classical algorithms. This is due to the studied molecule being unrelated to the hardware dynamics, hence its noise; conversely the hardware noise populates states of arbitrary energy of the studied molecule. The second criterion applies to the Quantum Phase Estimation (QPE) algorithm that is often presented as the go-to replacement of VQE upon availability of (noiseless) fault-tolerant quantum computers. QPE suffers from the phenomenon known as the orthogonality catastrophe that generically leads to an exponentially small success probability when the size of the problem grows. Our criterion allows one to estimate quantitatively the importance of this phenomenon from the knowledge of the variance of the energy of the input state used in the calculation.
翻訳日:2023-06-06 16:40:10 公開日:2023-06-05
# ロバスト一般化を改善するエンハンス拡散

Enhance Diffusion to Improve Robust Generalization ( http://arxiv.org/abs/2306.02618v1 )

ライセンス: Link先を確認
Jianhui Sun and Sanchit Sinha and Aidong Zhang(参考訳) ディープニューラルネットワークは、人間の知覚できない逆行性摂動に影響を受けやすい。 最も強力な防御機構の1つは \emph{adversarial training} (at)である。 本稿では,atの主な2つの問題に対処することを目的とする。 まず、AT研究における性能保証を伴うハイパーパラメータの設定方法に関するコンセンサスはほとんどなく、カスタマイズされた設定は、AT研究における異なるモデル設計間の公正な比較を妨げる。 第二に、堅牢に訓練されたニューラルネットワークは、うまく一般化するのに苦労し、非常に過度なオーバーフィッティングに苦しむ。 本稿は, 第一のATフレームワークである PGD-AT (Projected Gradient Descent Adversarial Training) に焦点を当てる。 連続時間確率微分方程式(SDE)によりPGD-ATの力学を近似し、このSDEの拡散項がロバストな一般化を決定することを示す。 この理論的な発見の直接的な意味は、堅牢な一般化は学習率とバッチサイズとの比と正に相関しているということである。 さらに, 拡散項を操作し, ほとんど計算量を持たず, 頑健な一般化を実現するための新しい手法, \emph{diffusion enhanced adversarial training} (deat)を提案する。 理論上, DEAT は PGD-AT よりも厳密な一般化が得られることを示す。 当社の実験的な調査は、pgd-atを圧倒的に上回っていることを十分に証明しています。

Deep neural networks are susceptible to human imperceptible adversarial perturbations. One of the strongest defense mechanisms is \emph{Adversarial Training} (AT). In this paper, we aim to address two predominant problems in AT. First, there is still little consensus on how to set hyperparameters with a performance guarantee for AT research, and customized settings impede a fair comparison between different model designs in AT research. Second, the robustly trained neural networks struggle to generalize well and suffer from tremendous overfitting. This paper focuses on the primary AT framework - Projected Gradient Descent Adversarial Training (PGD-AT). We approximate the dynamic of PGD-AT by a continuous-time Stochastic Differential Equation (SDE), and show that the diffusion term of this SDE determines the robust generalization. An immediate implication of this theoretical finding is that robust generalization is positively correlated with the ratio between learning rate and batch size. We further propose a novel approach, \emph{Diffusion Enhanced Adversarial Training} (DEAT), to manipulate the diffusion term to improve robust generalization with virtually no extra computational burden. We theoretically show that DEAT obtains a tighter generalization bound than PGD-AT. Our empirical investigation is extensive and firmly attests that DEAT universally outperforms PGD-AT by a significant margin.
翻訳日:2023-06-06 16:39:50 公開日:2023-06-05
# 置換決定木

Permutation Decision Trees ( http://arxiv.org/abs/2306.02617v1 )

ライセンス: Link先を確認
Harikrishnan N B and Nithin Nagaraj(参考訳) decision treeは、内部ノードの不純物を最小化することに基づく、よく知られた機械学習モデルである。 最も一般的な不純物対策はシャノンエントロピーとジーニ不純物である。 これらの不純物対策はトレーニングデータの順序に敏感であるため、得られた最終木はデータの任意の置換に不変である。 これにより、順序依存性を持つデータインスタンスのモデリングに深刻な制限が生じる。 本研究では, 初めて, 不純物測定として, 圧縮努力(etc)を用いる方法を提案する。 シャノンエントロピーやジーニの不純物とは異なり、ETCに基づく構造的不純物はデータ内の順序依存をキャプチャし、同じデータインスタンスの異なる置換に対する潜在的に異なる決定木を取得することができる(置換決定木)。 次に,無作為な特徴選択やサブサンプリングを必要とせず,順列決定木を用いた順列バッキングの概念を導入する。 提案した変分木決定木の性能をランダムフォレストと比較した。 当社のモデルは、データインスタンスが独立かつ同一分散であることを想定していません。 潜在的なアプリケーションには、データインスタンスに存在する一時的な順序を尊重するシナリオが含まれる。

Decision Tree is a well understood Machine Learning model that is based on minimizing impurities in the internal nodes. The most common impurity measures are Shannon entropy and Gini impurity. These impurity measures are insensitive to the order of training data and hence the final tree obtained is invariant to any permutation of the data. This leads to a serious limitation in modeling data instances that have order dependencies. In this work, we propose the use of Effort-To-Compress (ETC) - a complexity measure, for the first time, as an impurity measure. Unlike Shannon entropy and Gini impurity, structural impurity based on ETC is able to capture order dependencies in the data, thus obtaining potentially different decision trees for different permutations of the same data instances (Permutation Decision Trees). We then introduce the notion of Permutation Bagging achieved using permutation decision trees without the need for random feature selection and sub-sampling. We compare the performance of the proposed permutation bagged decision trees with Random Forests. Our model does not assume that the data instances are independent and identically distributed. Potential applications include scenarios where a temporal order present in the data instances is to be respected.
翻訳日:2023-06-06 16:39:29 公開日:2023-06-05
# 制御可能な歌詞からメロディ生成

Controllable Lyrics-to-Melody Generation ( http://arxiv.org/abs/2306.02613v1 )

ライセンス: Link先を確認
Zhe Zhang, Yi Yu, Atsuhiro Takasu(参考訳) 歌詞からメロディーへの生成は、AI音楽研究分野において興味深く挑戦的なトピックである。 歌詞とメロディの相関関係の学習が困難であったため、従来の手法は低品質で制御性に欠けていた。 生成モデルの制御性は、人間と人間の相互作用によって望ましいコンテンツを生成することを可能にする。 そこで本研究では,ユーザ好みの音楽スタイルで歌詞から現実的なメロディを生成できる,制御可能な歌詞対メロディ生成ネットワークconl2mを提案する。 私たちの作品には3つの主な小説が含まれています 1)複数シーケンス間の音楽属性の依存関係をモデル化するために,マルチブランチスタック型LSTMアーキテクチャ間の情報フローを実現するために,マルチブランチメモリ融合(Memofu)を提案する。 2)レファレンス・スタイル・埋め込み(RSE)は,生成するメロディの音楽的スタイルを制御し,生成の質を向上させるために提案される。 3)旋律レベルの統計的損失 (SeqLoss) は, モデルが与えられた歌詞のシーケンスレベルの特徴を学習するのに役立つ。 音楽の質と可制御性の評価指標によって検証され、制御可能な歌詞からメロディ生成の初期の研究は、より優れた生成品質とユーザとの対話性を示し、歌詞が与えられたときに所望の音楽スタイルでメロディを生成することが可能である。

Lyrics-to-melody generation is an interesting and challenging topic in AI music research field. Due to the difficulty of learning the correlations between lyrics and melody, previous methods suffer from low generation quality and lack of controllability. Controllability of generative models enables human interaction with models to generate desired contents, which is especially important in music generation tasks towards human-centered AI that can facilitate musicians in creative activities. To address these issues, we propose a controllable lyrics-to-melody generation network, ConL2M, which is able to generate realistic melodies from lyrics in user-desired musical style. Our work contains three main novelties: 1) To model the dependencies of music attributes cross multiple sequences, inter-branch memory fusion (Memofu) is proposed to enable information flow between multi-branch stacked LSTM architecture; 2) Reference style embedding (RSE) is proposed to improve the quality of generation as well as control the musical style of generated melodies; 3) Sequence-level statistical loss (SeqLoss) is proposed to help the model learn sequence-level features of melodies given lyrics. Verified by evaluation metrics for music quality and controllability, initial study of controllable lyrics-to-melody generation shows better generation quality and the feasibility of interacting with users to generate the melodies in desired musical styles when given lyrics.
翻訳日:2023-06-06 16:39:10 公開日:2023-06-05
# レジリエントな中小企業の構築 - オーストラリアのサイバーセキュリティのための大規模言語モデルの構築

Building Resilient SMEs: Harnessing Large Language Models for Cyber Security in Australia ( http://arxiv.org/abs/2306.02612v1 )

ライセンス: Link先を確認
Benjamin Kereopa-Yorke(参考訳) 私たちの生活と企業のデジタル化は、サイバー攻撃の複雑さと頻度の同時成長に繋がった。 中小企業、特にオーストラリアでは、サイバーの脅威に対する脆弱性が増加しており、国のサイバーセキュリティの状況にとって大きな課題となっている。 人工知能(AI)や機械学習(ML)、Large Language Models(LLM)といった変革的技術を採用することで、オーストラリアの中小企業のサイバーセキュリティポリシーを強化する可能性がある。 しかし、その実用的応用、利点、限界は未解明のままであり、先行研究は主に大企業に焦点をあてている。 本研究は, オーストラリアの中小企業におけるサイバーセキュリティ政策の強化において, LLMの潜在的な役割を包括的に理解することで, このギャップに対処することを目的とする。 本研究は, 複合メソッド研究設計を用いて, 文献レビュー, 中小企業事例研究の質的分析, サイバーセキュリティアプリケーションにおけるLCMパフォーマンス指標の定量的評価を含む。 この結果は, 信頼性, 正確性, 適用性など, 様々な性能基準にまたがるLCMの有望な可能性を示しているが, 完全性や明確性などの領域にはギャップが残っている。 この研究は、人間の専門知識をllm技術に統合し、これらの制限に対処するためにモデル開発を洗練することの重要性を強調している。 本研究は, LLMを効果的に採用するための堅牢な概念的枠組みを提案することにより, オーストラリアの中小企業にとってより安全でレジリエントなサイバー環境に寄与し, デジタル時代の持続的な成長と競争性を実現することを目的とする。

The escalating digitalisation of our lives and enterprises has led to a parallel growth in the complexity and frequency of cyber-attacks. Small and medium-sized enterprises (SMEs), particularly in Australia, are experiencing increased vulnerability to cyber threats, posing a significant challenge to the nation's cyber security landscape. Embracing transformative technologies such as Artificial Intelligence (AI), Machine Learning (ML) and Large Language Models (LLMs) can potentially strengthen cyber security policies for Australian SMEs. However, their practical application, advantages, and limitations remain underexplored, with prior research mainly focusing on large corporations. This study aims to address this gap by providing a comprehensive understanding of the potential role of LLMs in enhancing cyber security policies for Australian SMEs. Employing a mixed-methods study design, this research includes a literature review, qualitative analysis of SME case studies, and a quantitative assessment of LLM performance metrics in cyber security applications. The findings highlight the promising potential of LLMs across various performance criteria, including relevance, accuracy, and applicability, though gaps remain in areas such as completeness and clarity. The study underlines the importance of integrating human expertise with LLM technology and refining model development to address these limitations. By proposing a robust conceptual framework guiding the effective adoption of LLMs, this research aims to contribute to a safer and more resilient cyber environment for Australian SMEs, enabling sustainable growth and competitiveness in the digital era.
翻訳日:2023-06-06 16:38:44 公開日:2023-06-05
# 確率的集団更新は多目的進化アルゴリズムにおいて有益である

Stochastic Population Update Can Provably Be Helpful in Multi-Objective Evolutionary Algorithms ( http://arxiv.org/abs/2306.02611v1 )

ライセンス: Link先を確認
Chao Bian, Yawen Zhou, Miqing Li, Chao Qian(参考訳) 進化的アルゴリズム(EA)は,集団探索の性質から,多目的最適化問題に広く応用されている。 人口更新は多目的EA(MOEA)において重要な要素であり、欲求的、決定論的に行われる。 すなわち、次世代人口は、現在の人口と新しく生成されたソリューションのコレクションから、最初の人口規模のランク付けされたソリューション(例えば、非支配的なソート、密集度、指標など)を選択して形成される。 本稿では,この実践に疑問を呈する。 我々は,MOEAにおける集団更新手順にランダム性を導入することは,探索に有用であることを示す。 より具体的には、一般に研究されている二目的問題であるOneJumpZeroJumpを解決するためのよく確立されたMOEA(SMS-EMOA)のランニング時間が、決定論的集団更新機構を確率的に置き換えれば指数関数的に減少することを示した。 また,確率的集団更新手法の有効性を実証研究により検証した。 この研究は、MOEAにおける人口更新の共通の実践に挑戦する試みである。 そのポジティブな成果は、より一般的なものとなり得るが、この地域で新しいmoeaの開発を奨励するであろう。

Evolutionary algorithms (EAs) have been widely and successfully applied to solve multi-objective optimization problems, due to their nature of population-based search. Population update is a key component in multi-objective EAs (MOEAs), and it is performed in a greedy, deterministic manner. That is, the next-generation population is formed by selecting the first population-size ranked solutions (based on some selection criteria, e.g., non-dominated sorting, crowdedness and indicators) from the collections of the current population and newly-generated solutions. In this paper, we question this practice. We analytically present that introducing randomness into the population update procedure in MOEAs can be beneficial for the search. More specifically, we prove that the expected running time of a well-established MOEA (SMS-EMOA) for solving a commonly studied bi-objective problem, OneJumpZeroJump, can be exponentially decreased if replacing its deterministic population update mechanism by a stochastic one. Empirical studies also verify the effectiveness of the proposed stochastic population update method. This work is an attempt to challenge a common practice for the population update in MOEAs. Its positive results, which might hold more generally, should encourage the exploration of developing new MOEAs in the area.
翻訳日:2023-06-06 16:38:16 公開日:2023-06-05
# 生成型ai時代のコンピュータ教育

Computing Education in the Era of Generative AI ( http://arxiv.org/abs/2306.02608v1 )

ライセンス: Link先を確認
Paul Denny and James Prather and Brett A. Becker and James Finnie-Ansley and Arto Hellas and Juho Leinonen and Andrew Luxton-Reilly and Brent N. Reeves and Eddie Antonio Santos and Sami Sarsa(参考訳) コンピューティング教育コミュニティは、導入コースの学生を支援するためにデザインされた教育革新の豊かな歴史を持ち、学生の学習を促進する教師を支援している。 最近の人工知能の進歩により、自然言語の問題記述からソースコードを生成できるコード生成モデルが生まれました。 これらのモデルの広範な利用と使いやすさは、コンピューティング教育の将来を含む社会の多くの側面に潜在的な影響を懸念している。 本稿では,このようなモデルがコンピュータ教育者に与える課題と機会について論じ,導入プログラミング教室に焦点をあてる。 本稿では,2つの最近の論文の結果を要約する。まず,典型的な入門レベルのプログラミング問題に対するコード生成モデルの性能評価を行い,次に,これらのモデルによって生成された学習資源の品質と新規性について考察する。 このようなモデルが、執筆時の最新の進歩の文脈において、教育実践に与える影響を考える。

The computing education community has a rich history of pedagogical innovation designed to support students in introductory courses, and to support teachers in facilitating student learning. Very recent advances in artificial intelligence have resulted in code generation models that can produce source code from natural language problem descriptions -- with impressive accuracy in many cases. The wide availability of these models and their ease of use has raised concerns about potential impacts on many aspects of society, including the future of computing education. In this paper, we discuss the challenges and opportunities such models present to computing educators, with a focus on introductory programming classrooms. We summarize the results of two recent articles, the first evaluating the performance of code generation models on typical introductory-level programming problems, and the second exploring the quality and novelty of learning resources generated by these models. We consider likely impacts of such models upon pedagogical practice in the context of the most recent advances at the time of writing.
翻訳日:2023-06-06 16:37:53 公開日:2023-06-05
# ReContrast: コントラスト再構成によるドメイン特異的異常検出

ReContrast: Domain-Specific Anomaly Detection via Contrastive Reconstruction ( http://arxiv.org/abs/2306.02602v1 )

ライセンス: Link先を確認
Jia Guo, Shuai Lu, Lize Jia, Weihang Zhang, Huiqi Li(参考訳) 殆どの高度な教師なし異常検出(UAD)手法は、例えばImageNetのような大規模データセットで事前訓練された冷凍エンコーダネットワークの特徴表現をモデル化することに依存している。 しかし, 自然画像領域から借用したエンコーダから抽出した特徴は, 産業検査や医用画像などのUAD領域で要求される特徴とほとんど一致しない。 本稿では,ネットワーク全体を最適化し,事前学習した画像領域に対するバイアスを低減し,対象領域におけるネットワークの向き付けを行う,新たな認識論的uad法であるrecontrastを提案する。 まず、エラーから異常を検出する機能再構築アプローチから始める。 本質的に、コントラスト学習の要素を特徴再構成にエレガントに組み込んで、ネットワークが不安定、パターン崩壊、および同一のショートカットをトレーニングし、同時にターゲットドメイン上のエンコーダとデコーダの両方を最適化する。 様々な画像領域における転写能力を実証するために,2つの一般的な産業欠陥検出ベンチマークと3つの医療画像UADタスクにまたがる広範な実験を行った。

Most advanced unsupervised anomaly detection (UAD) methods rely on modeling feature representations of frozen encoder networks pre-trained on large-scale datasets, e.g. ImageNet. However, the features extracted from the encoders that are borrowed from natural image domains coincide little with the features required in the target UAD domain, such as industrial inspection and medical imaging. In this paper, we propose a novel epistemic UAD method, namely ReContrast, which optimizes the entire network to reduce biases towards the pre-trained image domain and orients the network in the target domain. We start with a feature reconstruction approach that detects anomalies from errors. Essentially, the elements of contrastive learning are elegantly embedded in feature reconstruction to prevent the network from training instability, pattern collapse, and identical shortcut, while simultaneously optimizing both the encoder and decoder on the target domain. To demonstrate our transfer ability on various image domains, we conduct extensive experiments across two popular industrial defect detection benchmarks and three medical image UAD tasks, which shows our superiority over current state-of-the-art methods.
翻訳日:2023-06-06 16:37:37 公開日:2023-06-05
# 極小化に向けて:過パラメータ問題に対するSGDの高速収束

Aiming towards the minimizers: fast convergence of SGD for overparametrized problems ( http://arxiv.org/abs/2306.02601v1 )

ライセンス: Link先を確認
Chaoyue Liu, Dmitriy Drusvyatskiy, Mikhail Belkin, Damek Davis, Yi-An Ma(参考訳) ディープラーニングのような現代の機械学習パラダイムは、モデルパラメータの数がデータサンプルの数よりもはるかに大きい補間レジーム内またはその近くで発生する。 本研究では, 補間系内の規則性条件を提案し, 各繰り返しに1つのサンプル勾配(またはミニバッチ)のみを用いながら, 決定論的勾配法と同一の最悪の繰り返しの複雑性を持つ確率勾配法を提案する。 対照的に、既存のすべての保証は、小さなステップを取るために確率勾配法を必要とし、結果として収束のより遅い線形速度をもたらす。 最後に,線形出力層で十分に広いフィードフォワードニューラルネットワークをトレーニングする場合に,条件が成立することを示す。

Modern machine learning paradigms, such as deep learning, occur in or close to the interpolation regime, wherein the number of model parameters is much larger than the number of data samples. In this work, we propose a regularity condition within the interpolation regime which endows the stochastic gradient method with the same worst-case iteration complexity as the deterministic gradient method, while using only a single sampled gradient (or a minibatch) in each iteration. In contrast, all existing guarantees require the stochastic gradient method to take small steps, thereby resulting in a much slower linear rate of convergence. Finally, we demonstrate that our condition holds when training sufficiently wide feedforward neural networks with a linear output layer.
翻訳日:2023-06-06 16:37:16 公開日:2023-06-05
# 新しいベンチマークデータセットを用いたニューラルホークプロセスによる早期噂検出

Early Rumor Detection Using Neural Hawkes Process with a New Benchmark Dataset ( http://arxiv.org/abs/2306.02597v1 )

ライセンス: Link先を確認
Fengzhu Zeng and Wei Gao(参考訳) ダーライン{EA}rly \underline{R}umor \underline{D}etection (EARD)にはほとんど注意が払われておらず、EARDのパフォーマンスは実際のアーリーステージ情報がほとんど欠落しているいくつかのデータセットで不適切に評価された。 このような状況を逆転させるため,ファクトチェックサイトからのクレームに基づいて,できるだけ多くの早期投稿を収集し,新しい‘underline{B}enchmark dataset for \underline{EARD} を構築した。 また,ニューラル・アンダーライン{h}awkes法に基づくニューラル・アンダーライン{eard}法に基づく新しいモデルであるhearを提案する。 実験により、HEARDは2つの一般的な噂検出データセットとBEARDデータセットに対して有効なEARD性能を実現することが示された。

Little attention has been paid on \underline{EA}rly \underline{R}umor \underline{D}etection (EARD), and EARD performance was evaluated inappropriately on a few datasets where the actual early-stage information is largely missing. To reverse such situation, we construct BEARD, a new \underline{B}enchmark dataset for \underline{EARD}, based on claims from fact-checking websites by trying to gather as many early relevant posts as possible. We also propose HEARD, a novel model based on neural \underline{H}awkes process for \underline{EARD}, which can guide a generic rumor detection model to make timely, accurate and stable predictions. Experiments show that HEARD achieves effective EARD performance on two commonly used general rumor detection datasets and our BEARD dataset.
翻訳日:2023-06-06 16:37:01 公開日:2023-06-05
# ロボット手術レポート生成のためのシーングラフ学習による動的インタラクティブリレーションキャプチャ

Dynamic Interactive Relation Capturing via Scene Graph Learning for Robotic Surgical Report Generation ( http://arxiv.org/abs/2306.02651v1 )

ライセンス: Link先を確認
Hongqiu Wang, Yueming Jin, Lei Zhu(参考訳) ロボット補助手術の場合、正確な手術報告は手術中の臨床手術を反映し、文書化作業、術後分析、追跡治療を支援する。 手術現場で器と組織の間に複雑で多様な相互作用があるため、これは難しい課題である。 既存の深層学習に基づく手術レポート生成手法は大きな成功を収めているが,組織とインストゥルメンタルツールの相互関係を無視してレポート生成性能を低下させることが多い。 本稿では,組織と手術器具の相互関係を明らかにすることで,手術報告生成を促進するニューラルネットワークを提案する。 提案手法の有効性をロボット手術ベンチマークデータセットで検証し,既存の最先端の手術報告生成手法(BLEU-1およびROUGEでは7.48%,5.43%)より有意に優れていることを示す実験結果を得た。

For robot-assisted surgery, an accurate surgical report reflects clinical operations during surgery and helps document entry tasks, post-operative analysis and follow-up treatment. It is a challenging task due to many complex and diverse interactions between instruments and tissues in the surgical scene. Although existing surgical report generation methods based on deep learning have achieved large success, they often ignore the interactive relation between tissues and instrumental tools, thereby degrading the report generation performance. This paper presents a neural network to boost surgical report generation by explicitly exploring the interactive relation between tissues and surgical instruments. We validate the effectiveness of our method on a widely-used robotic surgery benchmark dataset, and experimental results show that our network can significantly outperform existing state-of-the-art surgical report generation methods (e.g., 7.48% and 5.43% higher for BLEU-1 and ROUGE).
翻訳日:2023-06-06 16:31:03 公開日:2023-06-05
# 多目的ニューラルアーキテクチャ探索のための連続カルテ型遺伝的プログラミングに基づく表現

Continuous Cartesian Genetic Programming based representation for Multi-Objective Neural Architecture Search ( http://arxiv.org/abs/2306.02648v1 )

ライセンス: Link先を確認
Cosijopii Garcia-Garcia and Alicia Morales-Reyes and Hugo Jair Escalante(参考訳) 本稿では,ニューラルネットワーク探索(nas)にカルテジアン遺伝的プログラミング(cgp)を応用し,より複雑で高効率な畳み込みニューラルネットワーク(cnns)を設計するための新しいアプローチを提案する。 提案手法は,マルチオブジェクト進化アルゴリズム(MOEA)を用いた連続領域における最適化のために,CGPに基づく実ベースおよびブロックチェーンCNN表現を組み合わせたものである。 彼らが考える探索空間の粒度が異なる2つの変種が導入された。 提案する cgp-nasv1 および cgp-nasv2 アルゴリズムは、cifar-10 および cifar-100 データセット上の非支配的ソート遺伝アルゴリズム ii (nsga-ii) を用いて評価された。 差分進化(DE)、分解(MOEA/D)に基づく多目的進化アルゴリズム、および同じ表現を用いたSメトリック選択多目的進化アルゴリズム(SMS-EMOA)からクロスオーバー演算子を評価するために、実験分析を拡張した。 実験により,本手法は分類性能とモデル複雑性の観点から,最先端の提案と競合することを示した。

We propose a novel approach for the challenge of designing less complex yet highly effective convolutional neural networks (CNNs) through the use of cartesian genetic programming (CGP) for neural architecture search (NAS). Our approach combines real-based and block-chained CNNs representations based on CGP for optimization in the continuous domain using multi-objective evolutionary algorithms (MOEAs). Two variants are introduced that differ in the granularity of the search space they consider. The proposed CGP-NASV1 and CGP-NASV2 algorithms were evaluated using the non-dominated sorting genetic algorithm II (NSGA-II) on the CIFAR-10 and CIFAR-100 datasets. The empirical analysis was extended to assess the crossover operator from differential evolution (DE), the multi-objective evolutionary algorithm based on decomposition (MOEA/D) and S metric selection evolutionary multi-objective algorithm (SMS-EMOA) using the same representation. Experimental results demonstrate that our approach is competitive with state-of-the-art proposals in terms of classification performance and model complexity.
翻訳日:2023-06-06 16:30:47 公開日:2023-06-05
# 言語間データセットのブートストラップ化のためのコレキシフィケーション--音韻論, 具体性, 影響の事例から

Colexifications for Bootstrapping Cross-lingual Datasets: The Case of Phonology, Concreteness, and Affectiveness ( http://arxiv.org/abs/2306.02646v1 )

ライセンス: Link先を確認
Yiyi Chen, Johannes Bjerva(参考訳) コレキシフィケーション(英: Colexification)とは、複数の意味を伝えるために単一の語彙形式を用いる言語現象である。 言語間コレクサフィケーションを研究することによって、研究者は精神言語学や認知科学(jackson et al., 2019])といった分野に貴重な洞察を得た。 複数の多言語共語彙データセットが存在するが、そのような意味的特徴にまたがってデータセットをブートストラップするためにこの情報を使用する可能性は未解決である。 本稿では,このような言語間データセットを作成するためにコレキシフィケーションをどのように活用できるかを示す。 世界中の21の言語ファミリーにまたがる142の言語をカバーするデータセットのキュレーション手順を紹介する。 データセットには、音素と音韻的特徴でマッピングされた、具体性と情緒性の格付けが含まれている。 さらに,提案手法の可能性を実証するために,異なる次元に沿ってデータセットを解析し,心理学,認知科学,多言語自然言語処理(nlp)の分野間研究を促進する。 初期の調査から ご覧の通り 一 具体性又は効力性に近づいた混同は、より混同し易いもの 二 特定の初期/最後の音素は、トゥルク語及びタイカダイ語における初期音素である/k/や、ドラビダ語及びシナ・チベット語における/p/が価数と相関するなど、言語内における具体性及び影響性に有意な相関がある。 三 音素のタイプ・ツー・ケン比(TTR)は、複数の語族にまたがる具体性と正の相関を持ち、音素の分節の長さは、具体性と負の相関がある。 iv)特定の音韻的特徴は、言語間の具体性と負の相関がある。 データセットは、さらなる研究のためにオンラインで公開されている。

Colexification refers to the linguistic phenomenon where a single lexical form is used to convey multiple meanings. By studying cross-lingual colexifications, researchers have gained valuable insights into fields such as psycholinguistics and cognitive sciences [Jackson et al.,2019]. While several multilingual colexification datasets exist, there is untapped potential in using this information to bootstrap datasets across such semantic features. In this paper, we aim to demonstrate how colexifications can be leveraged to create such cross-lingual datasets. We showcase curation procedures which result in a dataset covering 142 languages across 21 language families across the world. The dataset includes ratings of concreteness and affectiveness, mapped with phonemes and phonological features. We further analyze the dataset along different dimensions to demonstrate potential of the proposed procedures in facilitating further interdisciplinary research in psychology, cognitive science, and multilingual natural language processing (NLP). Based on initial investigations, we observe that i) colexifications that are closer in concreteness/affectiveness are more likely to colexify; ii) certain initial/last phonemes are significantly correlated with concreteness/affectiveness intra language families, such as /k/ as the initial phoneme in both Turkic and Tai-Kadai correlated with concreteness, and /p/ in Dravidian and Sino-Tibetan correlated with Valence; iii) the type-to-token ratio (TTR) of phonemes are positively correlated with concreteness across several language families, while the length of phoneme segments are negatively correlated with concreteness; iv) certain phonological features are negatively correlated with concreteness across languages. The dataset is made public online for further research.
翻訳日:2023-06-06 16:30:31 公開日:2023-06-05
# デュアルドメインスパースCT再構成のための学習置換最小化アルゴリズム

Learned Alternating Minimization Algorithm for Dual-domain Sparse-View CT Reconstruction ( http://arxiv.org/abs/2306.02644v1 )

ライセンス: Link先を確認
Chi Ding, Qingchao Zhang, Ge Wang, Xiaojing Ye and Yunmei Chen(参考訳) 両領域のスパース・ビューCT画像再構成のためのLearned Alternating Minimization Algorithm (LAMA)を提案する。 lamaは、画像領域とシンノグラム領域の両方のディープネットワークの複合関数としてパラメータ化される学習可能な非スムース非凸正規化子を用いたct再構成のための変分モデルによって自然に誘導される。 モデルの目的を最小化するために,スムース化手法と残差学習アーキテクチャをlamaの設計に取り入れる。 LAMAはネットワークの複雑さを大幅に減らし、メモリ効率と再構築精度を向上し、信頼性の高い再構築に確実に収束していることを示す。 大規模な数値実験により、LAMAは、複数のベンチマークCTデータセットにおいて、既存の手法よりも広いマージンで優れていることが示された。

We propose a novel Learned Alternating Minimization Algorithm (LAMA) for dual-domain sparse-view CT image reconstruction. LAMA is naturally induced by a variational model for CT reconstruction with learnable nonsmooth nonconvex regularizers, which are parameterized as composite functions of deep networks in both image and sinogram domains. To minimize the objective of the model, we incorporate the smoothing technique and residual learning architecture into the design of LAMA. We show that LAMA substantially reduces network complexity, improves memory efficiency and reconstruction accuracy, and is provably convergent for reliable reconstructions. Extensive numerical experiments demonstrate that LAMA outperforms existing methods by a wide margin on multiple benchmark CT datasets.
翻訳日:2023-06-06 16:29:58 公開日:2023-06-05
# ラグランジアン双対アプローチによる支持ベクトルマシンのロバスト性評価

Evaluating robustness of support vector machines with the Lagrangian dual approach ( http://arxiv.org/abs/2306.02639v1 )

ライセンス: Link先を確認
Yuting Liu, Hong Gu, Pan Qin(参考訳) 敵対的な例としては、ベクターマシン(svm)のサポート、特に安全クリティカルなアプリケーションで使用されるものに対する相当なセキュリティ上の脅威がある。 したがって、堅牢性検証はSVMにとって不可欠な問題であり、様々な種類の敵攻撃に対して証明可能な堅牢性を提供することができる。 堅牢性検証により得られた評価結果は、SVMの使用を確実に保証することができる。 既存の検証手法は、非線形カーネルを用いたSVMの検証ではよく機能しない。 そこで本研究では非線形カーネルを用いたsvmの検証性能を向上させる手法を提案する。 まず,SVMの逆ロバスト性評価を最適化問題として定式化する。 そして、原問題のラグランジアン双対問題を解くことにより、原問題の下位境界を求める。 最後に、下界に関してSVMの対向ロバスト性を評価する。 我々は,MNISTおよびFashion-MNISTデータセット上で線形および非線形カーネルを持つSVMの対角的ロバスト性を評価する。 実験結果から,テストセット上で得られた証明可能なロバスト性の割合は,最先端技術よりも高いことがわかった。

Adversarial examples bring a considerable security threat to support vector machines (SVMs), especially those used in safety-critical applications. Thus, robustness verification is an essential issue for SVMs, which can provide provable robustness against various kinds of adversary attacks. The evaluation results obtained through the robustness verification can provide a safe guarantee for the use of SVMs. The existing verification method does not often perform well in verifying SVMs with nonlinear kernels. To this end, we propose a method to improve the verification performance for SVMs with nonlinear kernels. We first formalize the adversarial robustness evaluation of SVMs as an optimization problem. Then a lower bound of the original problem is obtained by solving the Lagrangian dual problem of the original problem. Finally, the adversarial robustness of SVMs is evaluated concerning the lower bound. We evaluate the adversarial robustness of SVMs with linear and nonlinear kernels on the MNIST and Fashion-MNIST datasets. The experimental results show that the percentage of provable robustness obtained by our method on the test set is better than that of the state-of-the-art.
翻訳日:2023-06-06 16:29:44 公開日:2023-06-05
# 1サンプルあたりのテラバイトデータからの3Dトポグラフィー

Computational 3D topographic microscopy from terabytes of data per sample ( http://arxiv.org/abs/2306.02634v1 )

ライセンス: Link先を確認
Kevin C. Zhou, Mark Harfouche, Maxwell Zheng, Joakim J\"onsson, Kyung Chul Lee, Ron Appel, Paul Reamey, Thomas Doman, Veton Saliu, Gregor Horstmeyer, and Roarke Horstmeyer(参考訳) 6ギガピクセルのプロファイログラフィー3Dイメージングを,110 cm$^2$領域のマイクロスケール解像度で実現した大規模3Dトポグラフィー顕微鏡を提案する。 STARCAM (Scanning Topographic All-in-focus Reconstruction with a Computational Array Microscope) と呼ばれる計算顕微鏡は、54カメラアーキテクチャを並列化して3軸変換を行い、興味のあるサンプル毎に2.1テラバイト(TB)データセットを224,6409.4メガピクセルの画像を合成する。 本研究では,多視点ステレオ情報と画像シャープネスを焦点指標として,全焦点測光複合材料と3次元高さマップを共同で推定する,自己教師付きニューラルネットワークを用いた3次元再構成・縫い付けアルゴリズムを開発した。 ニューラルネットワークによって提供されるメモリ効率が高く圧縮された微分可能表現は、再構成プロセス中にマルチTBデータセット全体のジョイント参加を効果的に実現する。 新しい計算顕微鏡の幅広い有用性を示すため,STARCAMをさまざまなデシメータスケールの物体に適用し,文化遺産から産業検査まで応用した。

We present a large-scale computational 3D topographic microscope that enables 6-gigapixel profilometric 3D imaging at micron-scale resolution across $>$110 cm$^2$ areas over multi-millimeter axial ranges. Our computational microscope, termed STARCAM (Scanning Topographic All-in-focus Reconstruction with a Computational Array Microscope), features a parallelized, 54-camera architecture with 3-axis translation to capture, for each sample of interest, a multi-dimensional, 2.1-terabyte (TB) dataset, consisting of a total of 224,640 9.4-megapixel images. We developed a self-supervised neural network-based algorithm for 3D reconstruction and stitching that jointly estimates an all-in-focus photometric composite and 3D height map across the entire field of view, using multi-view stereo information and image sharpness as a focal metric. The memory-efficient, compressed differentiable representation offered by the neural network effectively enables joint participation of the entire multi-TB dataset during the reconstruction process. To demonstrate the broad utility of our new computational microscope, we applied STARCAM to a variety of decimeter-scale objects, with applications ranging from cultural heritage to industrial inspection.
翻訳日:2023-06-06 16:29:30 公開日:2023-06-05
# 共分散適応型ベストアーム同定

Covariance Adaptive Best Arm Identification ( http://arxiv.org/abs/2306.02630v1 )

ライセンス: Link先を確認
El Mehdi Saad (MISTEA), Gilles Blanchard (LMO, DATASHAPE), Nicolas Verzelen (MISTEA)(参考訳) 我々は、固定信頼の下で、マルチアームバンディットモデルにおける最適な腕識別の問題を考える。 信頼度$\delta$が与えられた場合、ゴールは、腕のプル数を最小化しながら、少なくとも1-$\delta$の確率で、最も高い平均報酬を持つ腕を特定することである。 独立アーム分布を仮定して,この問題に対する文献は解決するが,本論文では,アームが依存し,報酬が同時にサンプリングできる,より柔軟なシナリオを提案する。 この枠組みにより、学習者は腕の分布の共分散を推定でき、最良の腕をより効率的に識別することができる。 本研究は,患者と薬剤の類似性から,その結果の相関関係が示唆される臨床試験など,様々な応用に関係している。 我々は、未知の腕の共分散に適応する新しいアルゴリズムを導入し、理論的な保証を通じて、標準設定よりも大幅に改善できることを示す。 さらに、緩和された設定に対する新しい下限と、それらの理論的結果を支持する数値シミュレーションを提案する。

We consider the problem of best arm identification in the multi-armed bandit model, under fixed confidence. Given a confidence input $\delta$, the goal is to identify the arm with the highest mean reward with a probability of at least 1 -- $\delta$, while minimizing the number of arm pulls. While the literature provides solutions to this problem under the assumption of independent arms distributions, we propose a more flexible scenario where arms can be dependent and rewards can be sampled simultaneously. This framework allows the learner to estimate the covariance among the arms distributions, enabling a more efficient identification of the best arm. The relaxed setting we propose is relevant in various applications, such as clinical trials, where similarities between patients or drugs suggest underlying correlations in the outcomes. We introduce new algorithms that adapt to the unknown covariance of the arms and demonstrate through theoretical guarantees that substantial improvement can be achieved over the standard setting. Additionally, we provide new lower bounds for the relaxed setting and present numerical simulations that support their theoretical findings.
翻訳日:2023-06-06 16:29:08 公開日:2023-06-05
# 各種業務における実績に基づく専門家の能動的ランキング

Active Ranking of Experts Based on their Performances in Many Tasks ( http://arxiv.org/abs/2306.02628v1 )

ライセンス: Link先を確認
El Mehdi Saad (MISTEA), Nicolas Verzelen (MISTEA), Alexandra Carpentier(参考訳) 我々は、dタスクのパフォーマンスに基づいて、n名のエキスパートをランク付けする問題を考察する。 それぞれの専門家に対して、各タスクにおいて他方よりも優れているという単調な仮定を立てる。 我々は,各ラウンドの学習者が,実際のラウンドまでの情報を考慮し,アクティブに選択された一対のエキスパート・タスクのノイズ評価にアクセスできるようなシーケンシャルな設定を考える。 信頼度パラメータ $\delta$$$\in$ (0, 1) が与えられると、我々は専門家の正しいランキングを回復し、少なくとも1 -- $\delta$という確率で保持するアルゴリズムによってなされるクエリの総数に制限を付ける戦略を提供する。 我々の戦略は問題の複雑さに適応し(我々の境界はインスタンスに依存している)、対応する下界を多対数因子まで発展させることが示される。 最後に, 最適専門家識別の緩和問題に戦略を適応させ, 理論的結果に整合した数値シミュレーションを行う。

We consider the problem of ranking n experts based on their performances on d tasks. We make a monotonicity assumption stating that for each pair of experts, one outperforms the other on all tasks. We consider the sequential setting where in each round, the learner has access to noisy evaluations of actively chosen pair of expert-task, given the information available up to the actual round. Given a confidence parameter $\delta$ $\in$ (0, 1), we provide strategies allowing to recover the correct ranking of experts and develop a bound on the total number of queries made by our algorithm that hold with probability at least 1 -- $\delta$. We show that our strategy is adaptive to the complexity of the problem (our bounds are instance dependent), and develop matching lower bounds up to a poly-logarithmic factor. Finally, we adapt our strategy to the relaxed problem of best expert identification and provide numerical simulation consistent with our theoretical results.
翻訳日:2023-06-06 16:28:49 公開日:2023-06-05
# Do-GOOD: 事前学習型ビジュアル文書理解モデルの分散シフト評価に向けて

Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models ( http://arxiv.org/abs/2306.02623v1 )

ライセンス: Link先を確認
Jiabang He, Yi Hu, Lei Wang, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen(参考訳) 視覚的文書理解(VDU)のための多くの事前学習技術は、最近、幅広い文書タスクにおけるパフォーマンスを大幅に改善した。 しかし、これらの事前学習VDUモデルは、テストデータの分布とトレーニングデータの分布が異なる場合、継続的な成功を保証できない。 本稿では,既存のVDUモデルが様々な分散シフトに対していかに頑健であるかを検討するために,文書画像関連タスクの微粒化解析のためのDo-GOOD(out-of-distriion, OOD)ベンチマークを開発した。 Do-GOODベンチマークは、分散シフトが異なるメカニズムを定義し、ドキュメント情報抽出、分類、質問応答などの3つのVDU関連タスクをカバーする9つのOODデータセットを含む。 次に、ロバスト性を評価し、これらのOODデータセット上で、5つの最新のVDU事前訓練モデルと2つの典型的なOOD一般化アルゴリズムのきめ細かい解析を行う。 実験の結果, 文書画像の分散化(ID)とOOD設定の間には顕著な性能差があり, 分散シフトのきめ細かい解析により, 既存の訓練済みVDUモデルとOOD一般化アルゴリズムの脆さが明らかになることがわかった。 Do-GOODベンチマークのコードとデータセットはhttps://github.com/MAEHCM/Do-GOODにある。

Numerous pre-training techniques for visual document understanding (VDU) have recently shown substantial improvements in performance across a wide range of document tasks. However, these pre-trained VDU models cannot guarantee continued success when the distribution of test data differs from the distribution of training data. In this paper, to investigate how robust existing pre-trained VDU models are to various distribution shifts, we first develop an out-of-distribution (OOD) benchmark termed Do-GOOD for the fine-Grained analysis on Document image-related tasks specifically. The Do-GOOD benchmark defines the underlying mechanisms that result in different distribution shifts and contains 9 OOD datasets covering 3 VDU related tasks, e.g., document information extraction, classification and question answering. We then evaluate the robustness and perform a fine-grained analysis of 5 latest VDU pre-trained models and 2 typical OOD generalization algorithms on these OOD datasets. Results from the experiments demonstrate that there is a significant performance gap between the in-distribution (ID) and OOD settings for document images, and that fine-grained analysis of distribution shifts can reveal the brittle nature of existing pre-trained VDU models and OOD generalization algorithms. The code and datasets for our Do-GOOD benchmark can be found at https://github.com/MAEHCM/Do-GOOD.
翻訳日:2023-06-06 16:28:30 公開日:2023-06-05
# エンティティはどのようなものか? 多元的知識グラフ埋め込みのための類似性フラッディング視点

What Makes Entities Similar? A Similarity Flooding Perspective for Multi-sourced Knowledge Graph Embeddings ( http://arxiv.org/abs/2306.02622v1 )

ライセンス: Link先を確認
Zequn Sun and Jiacheng Huang and Xiaozhou Xu and Qijin Chen and Weijun Ren and Wei Hu(参考訳) マルチソース知識グラフ(KG)上の共同表現学習は、下流タスクを改善するための伝達可能で表現豊かな埋め込みをもたらす。 エンティティアライメント(EA)はこのプロセスにおける重要なステップです。 近年の埋め込み型EAの研究の進展にもかかわらず、その動作方法はまだ検討されていない。 本稿では,既存の翻訳ベースおよび集約ベースEAモデルを説明するために,類似性洪水の視点を提供する。 これらのモデルの埋め込み学習プロセスは、実際にエンティティ間のペアの類似性の固定点を求める。 理論分析を支援する実験的な証拠も提供します。 類似度フラッディングにおける固定点計算に着想を得た2つの簡易かつ効果的な手法を提案し,その効果をベンチマークデータセットで示す。 我々の研究は、最近の埋め込みモデルと従来の類似性洪水アルゴリズムのギャップを埋めるものである。 埋め込みベースのEAに対する私たちの理解を改善し、信頼を高めるでしょう。

Joint representation learning over multi-sourced knowledge graphs (KGs) yields transferable and expressive embeddings that improve downstream tasks. Entity alignment (EA) is a critical step in this process. Despite recent considerable research progress in embedding-based EA, how it works remains to be explored. In this paper, we provide a similarity flooding perspective to explain existing translation-based and aggregation-based EA models. We prove that the embedding learning process of these models actually seeks a fixpoint of pairwise similarities between entities. We also provide experimental evidence to support our theoretical analysis. We propose two simple but effective methods inspired by the fixpoint computation in similarity flooding, and demonstrate their effectiveness on benchmark datasets. Our work bridges the gap between recent embedding-based models and the conventional similarity flooding algorithm. It would improve our understanding of and increase our faith in embedding-based EA.
翻訳日:2023-06-06 16:28:05 公開日:2023-06-05
# 同時事前学習と局所再学習--多元知識グラフを用いた転送可能表現学習

Joint Pre-training and Local Re-training: Transferable Representation Learning on Multi-source Knowledge Graphs ( http://arxiv.org/abs/2306.02679v1 )

ライセンス: Link先を確認
Zequn Sun and Jiacheng Huang and Jinghao Lin and Xiaozhou Xu and Qijin Chen and Wei Hu(参考訳) 本稿では,多元知識グラフ(kg)組込みの学習と適用のための ‘joint pre-training and local re-training'' フレームワークを提案する。 我々は,KGの埋め込みや下流タスクを改善するために,異なるKGが相補的な情報を含んでいるという事実を動機としている。 リンクされた多元kg上に大きな教師kg埋め込みモデルを事前学習し,タスク特化kgの学習モデルを構築するための知識を蒸留する。 異なるKG間の知識伝達を可能にするため、事前学習されたKGと対象KGを接続するためのリンクされたサブグラフを構築するためにエンティティアライメントを使用する。 リンクされたサブグラフは、教師から生徒への3段階の知識蒸留、すなわち特徴知識蒸留、ネットワーク知識蒸留、予測知識蒸留のために再訓練され、より表現力のある埋め込みを生成する。 教師モデルは、スクラッチからトレーニングすることなく、異なるターゲットKGやタスクに対して再利用することができる。 フレームワークの有効性と効率を実証するための広範な実験を行う。

In this paper, we present the ``joint pre-training and local re-training'' framework for learning and applying multi-source knowledge graph (KG) embeddings. We are motivated by the fact that different KGs contain complementary information to improve KG embeddings and downstream tasks. We pre-train a large teacher KG embedding model over linked multi-source KGs and distill knowledge to train a student model for a task-specific KG. To enable knowledge transfer across different KGs, we use entity alignment to build a linked subgraph for connecting the pre-trained KGs and the target KG. The linked subgraph is re-trained for three-level knowledge distillation from the teacher to the student, i.e., feature knowledge distillation, network knowledge distillation, and prediction knowledge distillation, to generate more expressive embeddings. The teacher model can be reused for different target KGs and tasks without having to train from scratch. We conduct extensive experiments to demonstrate the effectiveness and efficiency of our framework.
翻訳日:2023-06-06 16:21:07 公開日:2023-06-05
# カーネル手法のためのプライバシ保護フェデレーション学習手法

A Privacy-Preserving Federated Learning Approach for Kernel methods ( http://arxiv.org/abs/2306.02677v1 )

ライセンス: Link先を確認
Anika Hannemann, Ali Burak \"Unal, Arjhun Swaminathan, Erik Buchmann, Mete Akg\"un(参考訳) データソースが分散しており、プライバシ上の理由から信頼できるサードパーティに結合できない場合、Kernelメソッドを実装するのは難しい。 さらに難しいのは、ケースがノイズをもたらすプライバシー保護アプローチを規定している場合です。 そのようなユースケースの例として、臨床データの機械学習がある。 カーネルメソッドの正確なプライバシー保存計算を実現するために,水平分散データに対するカーネルメソッドのフェデレーション学習手法であるflakeを提案する。 flakeでは、データソースがデータを隠して、集中型インスタンスがプライバシを損なうことなくグラムマトリックスを計算できるようにします。 Gram行列は多数のカーネル行列を計算し、Support Vector Machinesのようなカーネルベースの機械学習アルゴリズムのトレーニングに使用できる。 FLAKEは、敵が半正直な脅威モデルの下で入力データや入力特徴数を学ぶのを防ぐ。 臨床および合成データの実験では、FLAKEが同等の手法の精度と効率を上回っていることを確認した。 データを隠蔽し、グラム行列を計算するのに必要な時間は、サポートベクトルマシンをトレーニングする必要がある時間よりも桁違いに少ない。 したがって、FLAKEは多くのユースケースに適用できる。

It is challenging to implement Kernel methods, if the data sources are distributed and cannot be joined at a trusted third party for privacy reasons. It is even more challenging, if the use case rules out privacy-preserving approaches that introduce noise. An example for such a use case is machine learning on clinical data. To realize exact privacy preserving computation of kernel methods, we propose FLAKE, a Federated Learning Approach for KErnel methods on horizontally distributed data. With FLAKE, the data sources mask their data so that a centralized instance can compute a Gram matrix without compromising privacy. The Gram matrix allows to calculate many kernel matrices, which can be used to train kernel-based machine learning algorithms such as Support Vector Machines. We prove that FLAKE prevents an adversary from learning the input data or the number of input features under a semi-honest threat model. Experiments on clinical and synthetic data confirm that FLAKE is outperforming the accuracy and efficiency of comparable methods. The time needed to mask the data and to compute the Gram matrix is several orders of magnitude less than the time a Support Vector Machine needs to be trained. Thus, FLAKE can be applied to many use cases.
翻訳日:2023-06-06 16:20:49 公開日:2023-06-05
# MRI再建のための経時的縦断的学習

Cross-Modal Vertical Federated Learning for MRI Reconstruction ( http://arxiv.org/abs/2306.02673v1 )

ライセンス: Link先を確認
Yunlu Yan, Hong Wang, Yawen Huang, Nanjun He, Lei Zhu, Yuexiang Li, Yong Xu, Yefeng Zheng(参考訳) フェデレート・ラーニング(Federated Learning)は、複数の病院がプライバシー開示なしに共有モデルを共同で学習できるようにする。 既存の方法は、異なる病院のデータが同じモダリティを持つという共通の仮定をとることが多い。 しかし, イメージングガイドラインが病院によって異なる場合があり, 同じモダリティの個体数に制限があるため, 現実的な用途ではそのような設定を十分に満たすことは困難である。 そこで本研究では,複数の病院の形状データを同一個人から収集した少量のマルチモーダルデータと異なるモダリティを持つような,実用的でカオス的な垂直フェデレーション学習タスクを定式化する。 このような状況に対処するために,重なり合ったサンプル(多変量を持つ個体)を効果的に探索し,異なるモダリティによるドメインシフト問題を解くことでmri再構成を促進する,federated consistent regularization restricteded feature disentanglement(fed-crfd)という新しい枠組みを開発した。 特に、我々のFed-CRFDでは、データからモダリティ不変およびモダリティ固有の特徴を分離する、クライアント内特徴不整合方式を採用しています。 さらに、重なり合うサンプルに対して、異なるモダリティから抽出されたモジュラリティ不変の特徴を更に整合させるために、クロスクリエントな潜在表現整合性制約を提案する。 したがって,本手法は,ドメインシフト問題を緩和しつつ,病院からのマルチソースデータを完全に活用することができる。 2つの典型的なMRIデータセットに対する大規模な実験により、我々のネットワークは明らかに最先端のMRI再構成方法より優れていることが示された。 ソースコードは、この作品の公開と同時に公開される予定だ。

Federated learning enables multiple hospitals to cooperatively learn a shared model without privacy disclosure. Existing methods often take a common assumption that the data from different hospitals have the same modalities. However, such a setting is difficult to fully satisfy in practical applications, since the imaging guidelines may be different between hospitals, which makes the number of individuals with the same set of modalities limited. To this end, we formulate this practical-yet-challenging cross-modal vertical federated learning task, in which shape data from multiple hospitals have different modalities with a small amount of multi-modality data collected from the same individuals. To tackle such a situation, we develop a novel framework, namely Federated Consistent Regularization constrained Feature Disentanglement (Fed-CRFD), for boosting MRI reconstruction by effectively exploring the overlapping samples (individuals with multi-modalities) and solving the domain shift problem caused by different modalities. Particularly, our Fed-CRFD involves an intra-client feature disentangle scheme to decouple data into modality-invariant and modality-specific features, where the modality-invariant features are leveraged to mitigate the domain shift problem. In addition, a cross-client latent representation consistency constraint is proposed specifically for the overlapping samples to further align the modality-invariant features extracted from different modalities. Hence, our method can fully exploit the multi-source data from hospitals while alleviating the domain shift problem. Extensive experiments on two typical MRI datasets demonstrate that our network clearly outperforms state-of-the-art MRI reconstruction methods. The source code will be publicly released upon the publication of this work.
翻訳日:2023-06-06 16:20:28 公開日:2023-06-05
# 分解と制約による文法に基づく系列列間モデリングの改善

Improving Grammar-based Sequence-to-Sequence Modeling with Decomposition and Constraints ( http://arxiv.org/abs/2306.02671v1 )

ライセンス: Link先を確認
Chao Lou, Kewei Tu(参考訳) ニューラルQCFGは、階層構造に強い帰納バイアスを持つ文法に基づくシーケンス列列列列(seq2seq)モデルである。 解釈と一般化に優れるが、高価な推論に苦しむ。 本稿では,効率と表現性のトレードオフの異なる高速な推論のための2種類の低ランクなニューラルネットワークQCFGについて検討する。 さらに,文法によって提供されるシンボリックインターフェースを利用して,木階層とソースカバレッジに関する2つのソフト制約を導入する。 我々は様々なデータセットを実験し、我々のモデルがほとんどの設定でバニラニューラルQCFGより優れていることを発見した。

Neural QCFG is a grammar-based sequence-tosequence (seq2seq) model with strong inductive biases on hierarchical structures. It excels in interpretability and generalization but suffers from expensive inference. In this paper, we study two low-rank variants of Neural QCFG for faster inference with different trade-offs between efficiency and expressiveness. Furthermore, utilizing the symbolic interface provided by the grammar, we introduce two soft constraints over tree hierarchy and source coverage. We experiment with various datasets and find that our models outperform vanilla Neural QCFG in most settings.
翻訳日:2023-06-06 16:19:55 公開日:2023-06-05
# スパースReLUネットワークトレーニング問題は、常に最適か?

Does a sparse ReLU network training problem always admit an optimum? ( http://arxiv.org/abs/2306.02666v1 )

ライセンス: Link先を確認
Quoc-Tung Le (DANTE, LIP), Elisa Riccietti (DANTE, OCKHAM), R\'emi Gribonval (PANAMA)(参考訳) トレーニングセット、損失関数、ニューラルネットワークアーキテクチャが与えられた場合、最適ネットワークパラメータが存在することは当然のことであり、それらの探索に利用可能な最適化アルゴリズムを適用するのが一般的である。 本研究では,特にreluニューラルネットワークの文脈において,最適解が存在することは必ずしも保証されないことを示す。 特に,特定のスパーシティパターンを持つディープネットワークを含む最適化問題は,必ずしも最適パラメータを持ち得ず,最適化アルゴリズムが分岐する可能性があることを示す。 スパースReLUニューラルネットワークとリニアニューラルネットワークの新たなトポロジカルな関係により、既存のツールを実際の代数幾何学から利用し、与えられた空間パターンがこの問題に直面することを検証するアルゴリズムを導出します。 そして、出力次元1の浅いスパースreluニューラルネットワークを含む各具体的最適化問題に対して、大域的最適性の存在が証明される。 全体として、解析はスパースReLUニューラルネットワークとして実装可能な関数空間の2つのトポロジカルな特性、すなわち最適な近似特性と閉性(英語版)性(英語版)についての研究に基づいている。 これは有限訓練集合の実際訓練に対応する(有限)領域と単位立方体のようなより一般的な領域の両方について研究される。 これにより、スパーシティパターンが与えられた最適の存在を保証する条件を提供することができる。 この結果は、近年のネットワークプルーニング/スパーシフィケーションの研究で提案されているいくつかのスパーシティパターンだけでなく、従来のニューラルネットワークにも当てはまる。

Given a training set, a loss function, and a neural network architecture, it is often taken for granted that optimal network parameters exist, and a common practice is to apply available optimization algorithms to search for them. In this work, we show that the existence of an optimal solution is not always guaranteed, especially in the context of {\em sparse} ReLU neural networks. In particular, we first show that optimization problems involving deep networks with certain sparsity patterns do not always have optimal parameters, and that optimization algorithms may then diverge. Via a new topological relation between sparse ReLU neural networks and their linear counterparts, we derive -- using existing tools from real algebraic geometry -- an algorithm to verify that a given sparsity pattern suffers from this issue. Then, the existence of a global optimum is proved for every concrete optimization problem involving a shallow sparse ReLU neural network of output dimension one. Overall, the analysis is based on the investigation of two topological properties of the space of functions implementable as sparse ReLU neural networks: a best approximation property, and a closedness property, both in the uniform norm. This is studied both for (finite) domains corresponding to practical training on finite training sets, and for more general domains such as the unit cube. This allows us to provide conditions for the guaranteed existence of an optimum given a sparsity pattern. The results apply not only to several sparsity patterns proposed in recent works on network pruning/sparsification, but also to classical dense neural networks, including architectures not covered by existing results.
翻訳日:2023-06-06 16:19:47 公開日:2023-06-05
# Quantum Brownian Motion: A Review

Quantum Brownian Motion: A Review ( http://arxiv.org/abs/2306.02665v1 )

ライセンス: Link先を確認
Aritra Ghosh, Malay Bandyopadhyay, Sushanta Dattagupta, Shamik Gupta(参考訳) 我々は,量子ブラウン運動の主題を教育的手法で検討し,その熱力学的な側面を強調した。 完全性のために、まず1次元ブラウン運動を古典的に扱い、相関関数とゆらぎ散逸関係について論じる。 ランゲヴィン方程式に基づく運動方程式のアプローチは、主に論文全体を通して従う。 一般化ランゲヴィン方程式の顕微鏡的導出は、多数の独立した古典的高調波発振器の集合として熱浴の顕微鏡モデルに基づいて概説する。 次に、この入浴を独立した量子調和振動子の集合としてモデル化した量子ランゲヴィン方程式に基づくブラウン運動の完全量子力学的処理を考える。 定常状態では、近年の文献でかなりの関心を集めているエネルギー分配定理の量子対の解析を行う。 調和井戸内の1次元量子ブラウン運動について熱力学の自由エネルギー、エントロピー、第三法則について論じる。 次に, 2次元量子ブラウン運動の文脈における散逸性反磁性のいくつかの側面を考察する。 外部磁場の役割と閉じ込め電位について考察した。 次に、量子ブラウン粒子の熱力学に対する経路積分的アプローチを概説する。 最後に、古典および量子ランゲヴィン方程式の文脈における確率的熱力学とゆらぎ定理について議論するために、レビューのかなりの部分を費やした。

We review in a pedagogic manner the topic of quantum Brownian motion, with an emphasis on its thermodynamic aspects. For the sake of completeness, we begin with the classical treatment of one-dimensional Brownian motion, discussing correlation functions and fluctuation-dissipation relations. The equation-of-motion approach, based on the Langevin equation, is mostly followed throughout the paper. A microscopic derivation of the generalized Langevin equation is outlined, based on the microscopic model of a heat bath as a collection of a large number of independent classical harmonic oscillators. We then consider a fully quantum-mechanical treatment of Brownian motion based on the quantum Langevin equation, where the bath is modelled as a collection of independent quantum harmonic oscillators. In the stationary state, we analyze the quantum counterpart of energy equipartition theorem, which has generated a considerable amount of interest in recent literature. The free energy, entropy and third law of thermodynamics are discussed for the one-dimensional quantum Brownian motion in a harmonic well. Following this, we explore some aspects of dissipative diamagnetism in the context of two-dimensional quantum Brownian motion. The role of an external magnetic field and confining potentials is discussed. We then briefly outline the path-integral approach to thermodynamics of a quantum Brownian particle. Finally, we devote a substantial part of the review to discussing stochastic thermodynamics and fluctuation theorems in the context of classical and quantum Langevin equation.
翻訳日:2023-06-06 16:19:20 公開日:2023-06-05
# 構造自由グラフ凝縮:大規模グラフから凝縮グラフ自由データへ

Structure-free Graph Condensation: From Large-scale Graphs to Condensed Graph-free Data ( http://arxiv.org/abs/2306.02664v1 )

ライセンス: Link先を確認
Xin Zheng, Miao Zhang, Chunyang Chen, Quoc Viet Hung Nguyen, Xingquan Zhu, Shirui Pan(参考訳) グラフ凝縮は、その置換として小さな凝縮グラフを合成することにより、大規模グラフのサイズを小さくするが、様々なグラフ学習タスクに即時利益をもたらす。 しかし、既存のグラフ凝縮法は、凝縮グラフにおけるノードと構造の合同最適化に依存しており、有効性と一般化能力の重大な問題を見落としている。 本稿では,大規模グラフを明示的なグラフ構造,すなわちグラフフリーなデータを持たない小さなグラフノードに抽出する,SFGCと呼ばれる新しい構造自由グラフ凝縮パラダイムを提案する。 我々の考え方は、トポロジー構造情報を合成されたグラフフリーデータ内のノード属性に暗黙的にエンコードすることであり、トポロジーは同一性行列に還元される。 具体的には,(1)小規模グラフフリーデータを効果的に合成する訓練軌道メタマッチングスキーム,(2)凝縮データの品質を動的に評価するグラフニューラルネットワーク特徴点スコアメトリックの2つの協調成分を含む。 SFGCはトラジェクトリメタマッチングのトレーニングを通じて、大規模グラフと縮合した小規模グラフフリーデータの間の長期GNN学習挙動を整合させ、グラフフリーデータへの情報的知識の包括的かつコンパクトな伝達を保証する。 その後、基礎となる凝縮グラフ自由データは、凝縮グラフ自由データの優れた表現性を保証するための閉形式計量であるグラフ神経特徴スコアを用いて動的に評価される。 拡張実験は、異なる凝縮比におけるSFGCの優越性を検証した。

Graph condensation, which reduces the size of a large-scale graph by synthesizing a small-scale condensed graph as its substitution, has immediate benefits for various graph learning tasks. However, existing graph condensation methods rely on the joint optimization of nodes and structures in the condensed graph, and overlook critical issues in effectiveness and generalization ability. In this paper, we advocate a new Structure-Free Graph Condensation paradigm, named SFGC, to distill a large-scale graph into a small-scale graph node set without explicit graph structures, i.e., graph-free data. Our idea is to implicitly encode topology structure information into the node attributes in the synthesized graph-free data, whose topology is reduced to an identity matrix. Specifically, SFGC contains two collaborative components: (1) a training trajectory meta-matching scheme for effectively synthesizing small-scale graph-free data; (2) a graph neural feature score metric for dynamically evaluating the quality of the condensed data. Through training trajectory meta-matching, SFGC aligns the long-term GNN learning behaviors between the large-scale graph and the condensed small-scale graph-free data, ensuring comprehensive and compact transfer of informative knowledge to the graph-free data. Afterward, the underlying condensed graph-free data would be dynamically evaluated with the graph neural feature score, which is a closed-form metric for ensuring the excellent expressiveness of the condensed graph-free data. Extensive experiments verify the superiority of SFGC across different condensation ratios.
翻訳日:2023-06-06 16:19:01 公開日:2023-06-05
# 並列スコアマッチングによる拡散モデルの高速学習と密度推定の改善

Faster Training of Diffusion Models and Improved Density Estimation via Parallel Score Matching ( http://arxiv.org/abs/2306.02658v1 )

ライセンス: Link先を確認
Etrit Haxholli, Marco Lorenzi(参考訳) Diffusion Probabilistic Models (DPM)では、単一の時間依存ニューラルネットワークを介してスコアの進化をモデル化するタスクは、トレーニング期間を延長し、モデリングの柔軟性とキャパシティを阻害する可能性がある。 これらの課題に対処するために、DPM固有の異なる時点における学習課題の独立性を活用することを提案する。 より具体的には、独立ネットワークを利用して学習課題を分割し、それぞれ特定の時間サブインターバル内でスコアの進化を学習する。 さらに, 残差流に触発されて, この戦略を論理的な結論へと拡張し, 各時点のスコアを独立にモデル化するネットワークを用いた。 合成データと画像データセットで実証されたように,本手法は,データ並列化上に追加の並列化層を導入することで,トレーニングプロセスを著しく高速化するだけでなく,従来のdpmのトレーニング手法と比較して密度推定性能を向上させる。

In Diffusion Probabilistic Models (DPMs), the task of modeling the score evolution via a single time-dependent neural network necessitates extended training periods and may potentially impede modeling flexibility and capacity. To counteract these challenges, we propose leveraging the independence of learning tasks at different time points inherent to DPMs. More specifically, we partition the learning task by utilizing independent networks, each dedicated to learning the evolution of scores within a specific time sub-interval. Further, inspired by residual flows, we extend this strategy to its logical conclusion by employing separate networks to independently model the score at each individual time point. As empirically demonstrated on synthetic and image datasets, our approach not only significantly accelerates the training process by introducing an additional layer of parallelization atop data parallelization, but it also enhances density estimation performance when compared to the conventional training methodology for DPMs.
翻訳日:2023-06-06 16:18:34 公開日:2023-06-05
# calib-anything:segment anythingを用いた無訓練lidarカメラ極端校正法

Calib-Anything: Zero-training LiDAR-Camera Extrinsic Calibration Method Using Segment Anything ( http://arxiv.org/abs/2306.02656v1 )

ライセンス: Link先を確認
Zhaotong Luo, Guohang Yan and Yikang Li(参考訳) 光検出と測位(lidar)とカメラの余分なキャリブレーションに関する研究は、より正確で自動化され、汎用的に進められている。 キャリブレーションにディープラーニングが使われているため、シーンの制限は大幅に削減されている。 しかし、データ駆動方式は転送性が低いという欠点がある。 追加のトレーニングを受けない限り、データセットのバリエーションに適応できない。 基礎モデルの出現により、この問題は大幅に軽減することができる。 そこで本研究では,Segment Anything Model(SAM)を用いて,新たなLiDARカメラキャリブレーション手法を提案する。 まず,各画像マスクの内部に投影される点の一貫性を最大化することにより,外部パラメータを最適化する。 整合性は点雲の3つの性質を含む: 強度、正規ベクトル、あるセグメンテーション法に由来する圏。 異なるデータセットに対する実験により,本手法の汎用性と同等の精度が示された。 コードはhttps://github.com/opencalib/calibanythingで入手できる。

The research on extrinsic calibration between Light Detection and Ranging(LiDAR) and camera are being promoted to a more accurate, automatic and generic manner. Since deep learning has been employed in calibration, the restrictions on the scene are greatly reduced. However, data driven method has the drawback of low transfer-ability. It cannot adapt to dataset variations unless additional training is taken. With the advent of foundation model, this problem can be significantly mitigated. By using the Segment Anything Model(SAM), we propose a novel LiDAR-camera calibration method, which requires zero extra training and adapts to common scenes. With an initial guess, we opimize the extrinsic parameter by maximizing the consistency of points that are projected inside each image mask. The consistency includes three properties of the point cloud: the intensity, normal vector and categories derived from some segmentation methods. The experiments on different dataset have demonstrated the generality and comparable accuracy of our method. The code is available at https://github.com/OpenCalib/CalibAnything.
翻訳日:2023-06-06 16:18:04 公開日:2023-06-05
# 条件付き単調性強制による初期itアーキテクチャの時限分類に向けて

Towards Anytime Classification in Early-Exit Architectures by Enforcing Conditional Monotonicity ( http://arxiv.org/abs/2306.02652v1 )

ライセンス: Link先を確認
Metod Jazbec, James Urquhart Allingham, Dan Zhang, Eric Nalisnick(参考訳) 現代の予測モデルは、しばしば計算予算が動的である環境に展開される。 アルゴリズムは、計算中の任意の時点において、計算時間の関数である品質の予測を出力できるような環境に適している。 ニューラルネットワークは、ネットワークのさまざまな段階で中間的な予測を提供する能力のために、任意の時間計算の文脈で注目を集めている。 しかし,各データポイントの予測の質は,計算時間を長くすれば改善することが保証されていないため,現在のアーリーエクイットネットワークはいつでも適用できないことを示す。 この欠点に対処するため,我々は,アーリーエクイティネットワークが徐々に自信を持つようになるように促す,専門家の製品に基づくエレガントなポストホックな修正を提案する。 これにより、私たちの深層モデルには、予測品質における条件付き単調性の性質が与えられます。 画像分類タスクにおける実験結果から, 平均精度を保ちながら, このような動作を実現できることを示す。

Modern predictive models are often deployed to environments in which computational budgets are dynamic. Anytime algorithms are well-suited to such environments as, at any point during computation, they can output a prediction whose quality is a function of computation time. Early-exit neural networks have garnered attention in the context of anytime computation due to their capability to provide intermediate predictions at various stages throughout the network. However, we demonstrate that current early-exit networks are not directly applicable to anytime settings, as the quality of predictions for individual data points is not guaranteed to improve with longer computation. To address this shortcoming, we propose an elegant post-hoc modification, based on the Product-of-Experts, that encourages an early-exit network to become gradually confident. This gives our deep models the property of conditional monotonicity in the prediction quality -- an essential stepping stone towards truly anytime predictive modeling using early-exit architectures. Our empirical results on standard image-classification tasks demonstrate that such behaviors can be achieved while preserving competitive accuracy on average.
翻訳日:2023-06-06 16:17:37 公開日:2023-06-05
# テンソルトレイン行列表現を用いた効率的なGPTモデル事前学習

Efficient GPT Model Pre-training using Tensor Train Matrix Representation ( http://arxiv.org/abs/2306.02697v1 )

ライセンス: Link先を確認
Viktoriia Chekalina, Georgii Novikov, Julia Gusak, Ivan Oseledets, Alexander Panchenko(参考訳) 大規模トランスモデルは言語モデリングタスクにおいて顕著な性能を示した。 しかし、こうしたモデルは何十億というパラメータを特徴としており、配置の困難とトレーニングコストの削減に繋がる。 GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTensor Train Matrix~(TTM)構造に置き換える。 最後に,ttmベースの層を通して前方および後方の操作をカスタマイズし,単純化とさらなるトレーニングの安定性を確認した。 % GPT-2ベースのモデルでは最大40%のパラメータを格納し,元のモデルに匹敵するパープレキシティを示した。 言語理解やテキスト要約を含む下流タスクでは、モデルは元のGPT-2モデルと同様に機能する。 提案するテンソル化層は、他のトランスフォーマーモデルを効率的に事前学習するために使用できる。

Large-scale transformer models have shown remarkable performance in language modelling tasks. However, such models feature billions of parameters, leading to difficulties in their deployment and prohibitive training costs from scratch. To reduce the number of the parameters in the GPT-2 architecture, we replace the matrices of fully-connected layers with the corresponding Tensor Train Matrix~(TTM) structure. Finally, we customize forward and backward operations through the TTM-based layer for simplicity and the stableness of further training. % The resulting GPT-2-based model stores up to 40% fewer parameters, showing the perplexity comparable to the original model. On the downstream tasks, including language understanding and text summarization, the model performs similarly to the original GPT-2 model. The proposed tensorized layers could be used to efficiently pre-training other Transformer models.
翻訳日:2023-06-06 16:12:01 公開日:2023-06-05
# CELDA:ラベルなしの強化分類器としてブラックボックス言語モデルを活用する

CELDA: Leveraging Black-box Language Model as Enhanced Classifier without Labels ( http://arxiv.org/abs/2306.02693v1 )

ライセンス: Link先を確認
Hyunsoo Cho, Youna Kim, Sang-goo Lee(参考訳) 言語モデル(LM)を内部アクセスなしで利用することは、多くの最先端のLMがAPIを通じてリリースされ、大規模であるため、NLPの分野で魅力的なパラダイムになりつつある。 このタイプのブラックボックスシナリオにおけるデファクトメソッドはプロンプトと呼ばれ、データラベルが不足あるいは利用できない状況において、段階的なパフォーマンス向上を示す。 効果はあるものの、完全に監督されたものと比べれば依然として不足しており、概して若干の修正に弱い。 本稿では,非常に弱いスーパービジョン信号(すなわちラベル名)を用いて,テキスト分類精度を向上させる新しい手法であるクラスタリングエンハンスド線形判別解析を提案する。 我々のフレームワークは、LMモデルやデータラベルの重みや勾配にアクセスすることなく、正確な決定境界を描画する。 CELDAの中核となる考え方は2つある: 1) ラベルなしデータセットから洗練された擬似ラベル付きデータセットを抽出し、(2) LMの上部に軽量で堅牢なモデルを訓練し、抽出されたノイズのあるデータセットから正確な決定境界を学習する。 各種データセットの詳細な調査を通じて、弱い教師付きテキスト分類においてCELDAが新たな最先端に達し、完全に教師付きモデルでギャップを狭めることを示した。 さらに,提案手法は任意のLMに対して普遍的に適用可能であり,大規模モデルにスケールできる可能性があり,大規模なLMを利用するための選択肢として有効である。

Utilizing language models (LMs) without internal access is becoming an attractive paradigm in the field of NLP as many cutting-edge LMs are released through APIs and boast a massive scale. The de-facto method in this type of black-box scenario is known as prompting, which has shown progressive performance enhancements in situations where data labels are scarce or unavailable. Despite their efficacy, they still fall short in comparison to fully supervised counterparts and are generally brittle to slight modifications. In this paper, we propose Clustering-enhanced Linear Discriminative Analysis, a novel approach that improves the text classification accuracy with a very weak-supervision signal (i.e., name of the labels). Our framework draws a precise decision boundary without accessing weights or gradients of the LM model or data labels. The core ideas of CELDA are twofold: (1) extracting a refined pseudo-labeled dataset from an unlabeled dataset, and (2) training a lightweight and robust model on the top of LM, which learns an accurate decision boundary from an extracted noisy dataset. Throughout in-depth investigations on various datasets, we demonstrated that CELDA reaches new state-of-the-art in weakly-supervised text classification and narrows the gap with a fully-supervised model. Additionally, our proposed methodology can be applied universally to any LM and has the potential to scale to larger models, making it a more viable option for utilizing large LMs.
翻訳日:2023-06-06 16:11:48 公開日:2023-06-05
# サイクリック学習:画像レベルラベルのブリッジと核インスタンスセグメンテーション

Cyclic Learning: Bridging Image-level Labels and Nuclei Instance Segmentation ( http://arxiv.org/abs/2306.02691v1 )

ライセンス: Link先を確認
Yang Zhou, Yongjian Wu, Zihua Wang, Bingzheng Wei, Maode Lai, Jianzhong Shou, Yubo Fan, Yan Xu(参考訳) 病理組織像上の核サンプル分割は疾患解析に非常に有用である。 一般に、このタスクの完全な教師付きアルゴリズムは、特に高核密度のために時間と労力を要するピクセル単位の手動アノテーションを必要とする。 アノテーションの負担を軽減するため,核インスタンスのセグメンテーションに未熟な画像レベルの弱教師付き学習を用いてこの問題を解決する。 核のインスタンスセグメンテーションに他の弱いアノテーション(スクリブル、ポイントなど)を用いるほとんどの既存手法と比較して、我々の方法はより省力化されている。 核のインスタンスセグメンテーションで画像レベルのアノテーションを使うことの障害は、適切な位置情報の欠如であり、重度の核の欠落や重複につながる。 本稿では,この問題を解決するために,循環学習と呼ばれる画像レベルの弱教師付き手法を提案する。 循環学習は、フロントエンド分類タスクと、マルチタスク学習(mtl)の恩恵を受けるバックエンドの半教師付きインスタンス分割タスクを含む。 画像レベルのラベルを高信頼擬似マスクのセットに変換するフロントエンドとして解釈可能なディープラーニング分類器を使用し,これら擬似マスクの監督下で核インスタンスセグメンテーションを行うバックエンドとして,半教師付きアーキテクチャを確立する。 最も重要なことは、巡回学習はフロントエンドの分類器とバックエンドの半教師付き部分の間で知識を循環的に共有するように設計されており、それによってシステム全体が画像レベルのラベルから基礎となる情報を抽出し、より良い最適化に収束させることができる。 3つのデータセットを用いた実験では,他の画像レベルの弱教師付き手法よりも優れ,完全教師付き手法に匹敵する性能を実現している。

Nuclei instance segmentation on histopathology images is of great clinical value for disease analysis. Generally, fully-supervised algorithms for this task require pixel-wise manual annotations, which is especially time-consuming and laborious for the high nuclei density. To alleviate the annotation burden, we seek to solve the problem through image-level weakly supervised learning, which is underexplored for nuclei instance segmentation. Compared with most existing methods using other weak annotations (scribble, point, etc.) for nuclei instance segmentation, our method is more labor-saving. The obstacle to using image-level annotations in nuclei instance segmentation is the lack of adequate location information, leading to severe nuclei omission or overlaps. In this paper, we propose a novel image-level weakly supervised method, called cyclic learning, to solve this problem. Cyclic learning comprises a front-end classification task and a back-end semi-supervised instance segmentation task to benefit from multi-task learning (MTL). We utilize a deep learning classifier with interpretability as the front-end to convert image-level labels to sets of high-confidence pseudo masks and establish a semi-supervised architecture as the back-end to conduct nuclei instance segmentation under the supervision of these pseudo masks. Most importantly, cyclic learning is designed to circularly share knowledge between the front-end classifier and the back-end semi-supervised part, which allows the whole system to fully extract the underlying information from image-level labels and converge to a better optimum. Experiments on three datasets demonstrate the good generality of our method, which outperforms other image-level weakly supervised methods for nuclei instance segmentation, and achieves comparable performance to fully-supervised methods.
翻訳日:2023-06-06 16:11:21 公開日:2023-06-05
# 周期的空間状態バンドに埋め込まれた量子状態の減衰と再生ダイナミクス

Decay and revival dynamics of a quantum state embedded in regularly spaced band of states ( http://arxiv.org/abs/2306.02690v1 )

ライセンス: Link先を確認
Jan Petter Hansen, Konrad Tywoniuk(参考訳) 1つまたは複数の(準)コンチナに埋め込まれた単一の量子状態のダイナミクスは、量子力学において最も研究されている現象の1つである。 本研究では,schr\"odinger方程式の数値解と解析解に基づいて,その離散的類似性を調べ,短時間および長時間のダイナミクスを考える。 このクラス(Phys. Rev. A 95, 053821, (2017)]の最近のモデルでは、エネルギー依存的な結合パラメータを持つフォノン貯水池に結合した量子ビットは、有限個の平行に間隔を保った状態のバンドと相互作用する量子ビットと同一であることが示されている。 結果として、周期的初期状態の復活に関する特性は、回復する初期状態を通じて異なる連続体間の確率の遷移と見なすことができる。 さらに、リバイバルピークの多項式崩壊の観測は、一定かつ十分に強い結合を持つ任意の系に存在する。

The dynamics of a single quantum state embedded in one or several (quasi-)continua is one of the most studied phenomena in quantum mechanics. In this work we investigate its discrete analogue and consider short and long time dynamics based on numerical and analytical solutions of the Schr\"odinger equation. In addition to derivation of explicit conditions for initial exponential decay, it is shown that a recent model of this class [Phys. Rev. A 95, 053821, (2017)], describing a qubit coupled to a phonon reservoir with energy dependent coupling parameters is identical to a qubit interacting with a finite number of parallel regularly spaced band of states via constant couplings. As a consequence, the characteristic near periodic initial state revivals can be viewed as a transition of probability between different continua via the reviving initial state. Furthermore, the observation of polynomial decay of the reviving peaks is present in any system with constant and sufficiently strong coupling.
翻訳日:2023-06-06 16:10:48 公開日:2023-06-05
# 列生成におけるNP-hard Min-maxルーティング問題の解法

Solving NP-hard Min-max Routing Problems as Sequential Generation with Equity Context ( http://arxiv.org/abs/2306.02689v1 )

ライセンス: Link先を確認
Jiwoo Son, Minsu Kim, Sanghyeok Choi, Jinkyoo Park(参考訳) ミニマックスルーティング問題は、各エージェントがすべての都市、すなわち完了時刻を共同で訪問する際に、最大ツアー期間を最小化することを目的としている。 これらの問題には影響のある実世界の応用が含まれるが、NPハードとして知られている。 既存の手法は、特に数千の都市をカバーするために多数のエージェントの調整を必要とする大規模な問題に直面している。 本稿では,大規模min-maxルーティング問題を解決するための新しいディープラーニングフレームワークを提案する。 我々は,複数のエージェントの同時意思決定を逐次生成プロセスとしてモデル化し,スケーラブルなディープラーニングモデルを逐次決定に活用する。 逐次近似問題では、他のエージェントの作業負荷を考慮した逐次動作を生成するスケーラブルな文脈変換器モデルEquity-Transformerを提案する。 Equity-Transformerの有効性は、min-max多重走行セールスマン問題(min-max mTSP)とmin-max多重ピックアップ・デリバリ問題(min-max mPDP)の2つの代表的なmin-maxルーティングタスクにおいて、優れた性能で実証されている。 特に,mTSP1000都市100台において,競争的ヒューリスティック(LKH3)と比較して,約335倍,コストが約53%のランタイムの大幅な削減を実現している。 再現可能なソースコードはhttps://github.com/kaist-silab/equity-transformerです。

Min-max routing problems aim to minimize the maximum tour length among agents as they collaboratively visit all cities, i.e., the completion time. These problems include impactful real-world applications but are known as NP-hard. Existing methods are facing challenges, particularly in large-scale problems that require the coordination of numerous agents to cover thousands of cities. This paper proposes a new deep-learning framework to solve large-scale min-max routing problems. We model the simultaneous decision-making of multiple agents as a sequential generation process, allowing the utilization of scalable deep-learning models for sequential decision-making. In the sequentially approximated problem, we propose a scalable contextual Transformer model, Equity-Transformer, which generates sequential actions considering an equitable workload among other agents. The effectiveness of Equity-Transformer is demonstrated through its superior performance in two representative min-max routing tasks: the min-max multiple traveling salesman problem (min-max mTSP) and the min-max multiple pick-up and delivery problem (min-max mPDP). Notably, our method achieves significant reductions of runtime, approximately 335 times, and cost values of about 53% compared to a competitive heuristic (LKH3) in the case of 100 vehicles with 1,000 cities of mTSP. We provide reproducible source code: https://github.com/kaist-silab/equity-transformer
翻訳日:2023-06-06 16:10:30 公開日:2023-06-05
# meta-sage: 組合せ最適化のスケールシフトを緩和するためのガイド探索によるスケールメタラーニングスケジュール適応

Meta-SAGE: Scale Meta-Learning Scheduled Adaptation with Guided Exploration for Mitigating Scale Shift on Combinatorial Optimization ( http://arxiv.org/abs/2306.02688v1 )

ライセンス: Link先を確認
Jiwoo Son, Minsu Kim, Hyeonah Kim, Jinkyoo Park(参考訳) 本稿では,組合せ最適化(CO)タスクのための深層強化学習モデルのスケーラビリティ向上のためのメタSAGEを提案する。 提案手法は,SML (Scale Meta-Learner) とSAGE ( Guided Exploring) の2つのコンポーネントを提案することによって,事前学習したモデルに大規模に適応する。 まず、SMLは、SAGEのその後の適応のためのコンテキスト埋め込みをスケール情報に基づいて変換する。 次に、SAGEは特定のインスタンスに対するコンテキスト埋め込み専用のモデルパラメータを調整する。 SAGEは局所バイアスを導入し、近くの場所を選択して次の場所を決定する。 モデルが対象のインスタンスに適応されると、局所バイアスは徐々に減少する。 その結果,メタセージは従来の適応手法よりも優れており,代表的coタスクのスケーラビリティが著しく向上した。 私たちのソースコードはhttps://github.com/kaist-silab/meta-sageで利用可能です。

This paper proposes Meta-SAGE, a novel approach for improving the scalability of deep reinforcement learning models for combinatorial optimization (CO) tasks. Our method adapts pre-trained models to larger-scale problems in test time by suggesting two components: a scale meta-learner (SML) and scheduled adaptation with guided exploration (SAGE). First, SML transforms the context embedding for subsequent adaptation of SAGE based on scale information. Then, SAGE adjusts the model parameters dedicated to the context embedding for a specific instance. SAGE introduces locality bias, which encourages selecting nearby locations to determine the next location. The locality bias gradually decays as the model is adapted to the target instance. Results show that Meta-SAGE outperforms previous adaptation methods and significantly improves scalability in representative CO tasks. Our source code is available at https://github.com/kaist-silab/meta-sage
翻訳日:2023-06-06 16:10:05 公開日:2023-06-05
# 深層学習モデルを用いたブルンジのマラリア動態予測

Predicting malaria dynamics in Burundi using deep Learning Models ( http://arxiv.org/abs/2306.02685v1 )

ライセンス: Link先を確認
Daxelle Sakubu, Kelly Joelle Gatore Sinigirira, David Niyukuri(参考訳) マラリアはアフリカ大陸、特にサハラ以南のアフリカにおける主要な公衆衛生問題であり続けている。 それでも努力は進行中であり、大きな進歩を遂げている。 ブルンジでは、マラリアが主要な公衆衛生上の懸念事項である。 文献ではブルンジの予測モデルが限定されている。 このようなツールは、介入設計にとても必要です。 本研究では,ブルンジのマラリアを推定する機械学習モデルを構築した。 この予測は県レベルで実施され,全国規模でマラリア感染者の推計が可能となった。 長期記憶モデル(LSTM)は、マラリアの歴史的データやヒトの人口とともに、気温、雨水、相対湿度といった気候変動に関連する要因を用いて、最良の学習結果を得るために用いられてきた。 その結果、国レベルでのパラメータの調整は、最小限と最大限のマラリアを決定するために利用できることがわかった。

Malaria continues to be a major public health problem on the African continent, particularly in Sub-Saharan Africa. Nonetheless, efforts are ongoing, and significant progress has been made. In Burundi, malaria is among the main public health concerns. In the literature, there are limited prediction models for Burundi. We know that such tools are much needed for interventions design. In our study, we built machine-learning based models to estimates malaria cases in Burundi. The forecast was carried out at province level, allowing us to estimate malaria cases on a national scale as well. Long short term memory (LSTM) model, a type of deep learning model has been used to achieve best results using climate-change related factors such as temperature, rainfal, and relative humidity, together with malaria historical data and human population. The results showed that at country level different tuning of parameters can be used in order to determine the minimum and maximum expected malaria
翻訳日:2023-06-06 16:09:51 公開日:2023-06-05
# 交通信号制御のための新しいマルチエージェント深層rl法

A Novel Multi-Agent Deep RL Approach for Traffic Signal Control ( http://arxiv.org/abs/2306.02684v1 )

ライセンス: Link先を確認
Shijie Wang and Shangbo Wang(参考訳) 交通需要の増加と都市交通条件の複雑化に伴い,交通信号制御にマルチエージェント深部強化学習(MARL)を適用することが話題となっている。 強化学習(RL)の台頭は、複雑な都市交通ネットワークにおける適応的交通信号制御(ATSC)を解決する機会を開き、深層ニューラルネットワークは複雑なデータを扱う能力をさらに強化した。 トラヒック信号制御の伝統的な研究は集中強化学習技術に基づいている。 しかし、大規模道路網では、連立状態-作用空間の指数的な成長のため、集中RLは実現不可能である。 本稿では, エージェント協調方式に基づく, 都市ネットワークにおける複数トラフィック信号制御のための Friend-Deep Q-network (Friend-DQN) アプローチを提案する。 特に、複数のエージェント間の協調は状態-作用空間を減少させ、収束を加速させる。 我々はSUMO(Simulation of Urban Transport)プラットフォームを用いて、Friend-DQNモデルの性能を評価し、他の既存手法よりも実現可能性と優位性を示す。

As travel demand increases and urban traffic condition becomes more complicated, applying multi-agent deep reinforcement learning (MARL) to traffic signal control becomes one of the hot topics. The rise of Reinforcement Learning (RL) has opened up opportunities for solving Adaptive Traffic Signal Control (ATSC) in complex urban traffic networks, and deep neural networks have further enhanced their ability to handle complex data. Traditional research in traffic signal control is based on the centralized Reinforcement Learning technique. However, in a large-scale road network, centralized RL is infeasible because of an exponential growth of joint state-action space. In this paper, we propose a Friend-Deep Q-network (Friend-DQN) approach for multiple traffic signal control in urban networks, which is based on an agent-cooperation scheme. In particular, the cooperation between multiple agents can reduce the state-action space and thus speed up the convergence. We use SUMO (Simulation of Urban Transport) platform to evaluate the performance of Friend-DQN model, and show its feasibility and superiority over other existing methods.
翻訳日:2023-06-06 16:09:38 公開日:2023-06-05
# MASK事前学習によるエンド・ツー・エンド単語発音評価

End-to-End Word-Level Pronunciation Assessment with MASK Pre-training ( http://arxiv.org/abs/2306.02682v1 )

ライセンス: Link先を確認
Yukang Liang, Kaitao Song, Shaoguang Mao, Huiqiang Jiang, Luna Qiu, Yuqing Yang, Dongsheng Li, Linli Xu, Lili Qiu(参考訳) 発音評価は、コンピュータ支援の発音訓練システムにおいて、特に単語(音素)レベルで大きな課題である。 単語(音素)レベルのスコアを得るために、現在の手法では、各単語(音素)の音響的特徴を得るために、アライメントの精度に評価の性能を制限するために、アライメント成分に依存することが多い。 そこで本研究では,この問題に対処するために, 単純かつ効果的な手法,すなわち, underline{m}asked pre-training for \underline{p}ronunciation \underline{a}ssessment (mpa)を提案する。 具体的には,マスク予測戦略を取り入れることで,整合性コンポーネントを活用せずにエンドツーエンドのトレーニングを支援し,予測時に誤調整問題を広範囲に解決する。 さらに,モデルが教師なしと教師なしの両方の設定で評価を行うことができるように,評価戦略を2つ設計した。 SpeechOcean762データセットの実験結果は、MPAが明示的なアライメントを伴わずに、以前の方法よりも優れたパフォーマンスを実現できることを示した。 それにもかかわらず、MPAには推論時間や参照テキストなど、いくつかの制限がある。 彼らは将来の仕事で対処されることを期待している。

Pronunciation assessment is a major challenge in the computer-aided pronunciation training system, especially at the word (phoneme)-level. To obtain word (phoneme)-level scores, current methods usually rely on aligning components to obtain acoustic features of each word (phoneme), which limits the performance of assessment to the accuracy of alignments. Therefore, to address this problem, we propose a simple yet effective method, namely \underline{M}asked pre-training for \underline{P}ronunciation \underline{A}ssessment (MPA). Specifically, by incorporating a mask-predict strategy, our MPA supports end-to-end training without leveraging any aligning components and can solve misalignment issues to a large extent during prediction. Furthermore, we design two evaluation strategies to enable our model to conduct assessments in both unsupervised and supervised settings. Experimental results on SpeechOcean762 dataset demonstrate that MPA could achieve better performance than previous methods, without any explicit alignment. In spite of this, MPA still has some limitations, such as requiring more inference time and reference text. They expect to be addressed in future work.
翻訳日:2023-06-06 16:09:18 公開日:2023-06-05
# BeAts:マルチモーダルアテンション融合を用いたベンガル音声認識

BeAts: Bengali Speech Acts Recognition using Multimodal Attention Fusion ( http://arxiv.org/abs/2306.02680v1 )

ライセンス: Link先を確認
Ahana Deb, Sayan Nag, Ayan Mahapatra, Soumitri Chattopadhyay, Aritra Marik, Pijush Kanti Gayen, Shankha Sanyal, Archi Banerjee, Samir Karmakar(参考訳) 音声言語は、意図を伝えるためにイントネーション、リズム、強度、構造を利用することが多いが、発話のリズムによって異なる解釈ができる。 これらの音声行為はコミュニケーションの基礎を提供し、言語に特有の表現である。 近年の注目モデルの発展により、多言語データセットから強力な表現を学習する能力が示され、音声タスクではうまく機能し、低リソース言語での特定のタスクをモデル化するのに理想的である。 本稿では,音声のwav2vec2.0とテキスト翻訳のMarianMTの2つのモデルを組み合わせた新しいマルチモーダルアプローチを提案する。 また、我々のモデルであるBeAts ($\underline{\textbf{Be}}$ngali speech act recognition using Multimodal $\underline{\textbf{At}}$tention Fu$\underline{\textbf{s}}$ion) は、音声データのみを用いて、また、音声データとテキストデータの両方を用いたより単純なバイモーダルフュージョンの両方を著しく上回ることを示す。 プロジェクトページ: https://soumitri2001.github.io/beats

Spoken languages often utilise intonation, rhythm, intensity, and structure, to communicate intention, which can be interpreted differently depending on the rhythm of speech of their utterance. These speech acts provide the foundation of communication and are unique in expression to the language. Recent advancements in attention-based models, demonstrating their ability to learn powerful representations from multilingual datasets, have performed well in speech tasks and are ideal to model specific tasks in low resource languages. Here, we develop a novel multimodal approach combining two models, wav2vec2.0 for audio and MarianMT for text translation, by using multimodal attention fusion to predict speech acts in our prepared Bengali speech corpus. We also show that our model BeAts ($\underline{\textbf{Be}}$ngali speech acts recognition using Multimodal $\underline{\textbf{At}}$tention Fu$\underline{\textbf{s}}$ion) significantly outperforms both the unimodal baseline using only speech data and a simpler bimodal fusion using both speech and text data. Project page: https://soumitri2001.github.io/BeAts
翻訳日:2023-06-06 16:08:56 公開日:2023-06-05
# ニューラルネットワークの後部をサンプリングするギブズ

Gibbs Sampling the Posterior of Neural Networks ( http://arxiv.org/abs/2306.02729v1 )

ライセンス: Link先を確認
Giovanni Piccioli, Emanuele Troiani and Lenka Zdeborov\'a(参考訳) 本稿では,ニューラルネットワークから得られた後頭部からのサンプリングについて検討する。 そこで本研究では,ネットワークの動作前後にノイズを付加し,効率的なgibbsサンプリング器を用いて後頭部をサンプリングできる新しい確率モデルを提案する。 ギブスサンプリング器は、ハミルトニアンのモンテカルロやメトロポリスの調整されたランゲヴィンアルゴリズムのような最先端のモンテカルロマルコフ連鎖法と同様に、実データと合成データの両方で同様の性能が得られる。 教師の学習環境において解析をフレーミングすることにより,アルゴリズムが合成ラベルを用いたデータを実行した場合,後頭部からサンプルを採取できないことを検出できる熱化基準を導入する。 この基準は、教師-学生設定でアルゴリズムを直接平衡で初期化できるという事実に基づいている。

In this paper, we study sampling from a posterior derived from a neural network. We propose a new probabilistic model consisting of adding noise at every pre- and post-activation in the network, arguing that the resulting posterior can be sampled using an efficient Gibbs sampler. The Gibbs sampler attains similar performances as the state-of-the-art Monte Carlo Markov chain methods, such as the Hamiltonian Monte Carlo or the Metropolis adjusted Langevin algorithm, both on real and synthetic data. By framing our analysis in the teacher-student setting, we introduce a thermalization criterion that allows us to detect when an algorithm, when run on data with synthetic labels, fails to sample from the posterior. The criterion is based on the fact that in the teacher-student setting we can initialize an algorithm directly at equilibrium.
翻訳日:2023-06-06 16:01:40 公開日:2023-06-05
# 映像モーメント検索における弱視テキストアライメントの克服

Overcoming Weak Visual-Textual Alignment for Video Moment Retrieval ( http://arxiv.org/abs/2306.02728v1 )

ライセンス: Link先を確認
Minjoon Jung, Youwon Jang, Seongho Choi, Joochan Kim, Jin-Hwa Kim, Byoung-Tak Zhang(参考訳) video moment retrieval (vmr) は、特定の自然言語クエリの未検索ビデオ内の特定のモーメントを識別することを目的としている。 しかし、このタスクはクエリのあいまいさから、視覚とテキストのアライメントの弱い問題に苦しむ傾向にあり、さらなるパフォーマンス向上と一般化能力を制限する可能性がある。 ビデオにおける複雑なマルチモーダル相互作用のため、クエリは対応するモーメントの関連する詳細を完全にカバーすることができず、モーメントには不整合および無関係なフレームが含まれる。 そこで本研究では,背景認識型モーメント検出TRansformer (BM-DETR) という,単純かつ効果的なモデルを提案する。 ターゲットクエリとその瞬間が与えられた場合、BM-DETRは異なるモーメントに対応する負のクエリも取る。 具体的には,与えられた問合せの確率と候補フレーム毎の負の問合せの補足から目標モーメントを予測することを学ぶ。 このように、周囲の背景を活用して相対的な重要性を考慮し、モーメント感度を向上させる。 Charades-STAとQVHighlightsの大規模な実験は、我々のモデルの有効性を実証している。 さらに, BM-DETRは, 3つの難解なVMRシナリオにおいて, いくつかのアウト・オブ・ディストリビューションテストケースにおいて, より優れた一般化能力を示すことができることを示す。

Video moment retrieval (VMR) aims to identify the specific moment in an untrimmed video for a given natural language query. However, this task is prone to suffer the weak visual-textual alignment problem from query ambiguity, potentially limiting further performance gains and generalization capability. Due to the complex multimodal interactions in videos, a query may not fully cover the relevant details of the corresponding moment, and the moment may contain misaligned and irrelevant frames. To tackle this problem, we propose a straightforward yet effective model, called Background-aware Moment DEtection TRansformer (BM-DETR). Given a target query and its moment, BM-DETR also takes negative queries corresponding to different moments. Specifically, our model learns to predict the target moment from the joint probability of the given query and the complement of negative queries for each candidate frame. In this way, it leverages the surrounding background to consider relative importance, improving moment sensitivity. Extensive experiments on Charades-STA and QVHighlights demonstrate the effectiveness of our model. Moreover, we show that BM-DETR can perform robustly in three challenging VMR scenarios, such as several out-of-distribution test cases, demonstrating superior generalization ability.
翻訳日:2023-06-06 16:01:24 公開日:2023-06-05
# 単一出力ガウス過程における入力毎の複数の出力サンプル

Multiple output samples for each input in a single-output Gaussian process ( http://arxiv.org/abs/2306.02719v1 )

ライセンス: Link先を確認
Jeremy H. M. Wong, Huayun Zhang, and Nancy F. Chen(参考訳) 標準ガウス過程(GP)は、トレーニングセット内の入力ごとに1つの出力サンプルしか考慮しない。 音声言語評価のような主観的なタスクのためのデータセットは、入力毎に複数の人間のレーダから出力ラベルを付加することができる。 本稿では, gp を一般化し, トレーニングセット内の複数の出力サンプルを利用可能とし, 利用可能な出力不確実性情報を活用することを提案する。 これはマルチ出力gpと異なり、すべての出力サンプルはここで同じタスクからのものである。 出力密度関数は、すべての出力サンプルを観測する共同可能性として定式化され、潜在変数を繰り返すことなく計算コストを削減できる。 テストセットの予測は、最適化されたハイパーパラメータに差がある標準GPと同様に推測される。 このことは speechocean762 で評価され、GP が複数の人間のレーダからの参照出力の収集に類似したテストセット出力分布を計算できることが示されている。

The standard Gaussian Process (GP) only considers a single output sample per input in the training set. Datasets for subjective tasks, such as spoken language assessment, may be annotated with output labels from multiple human raters per input. This paper proposes to generalise the GP to allow for these multiple output samples in the training set, and thus make use of available output uncertainty information. This differs from a multi-output GP, as all output samples are from the same task here. The output density function is formulated to be the joint likelihood of observing all output samples, and latent variables are not repeated to reduce computation cost. The test set predictions are inferred similarly to a standard GP, with a difference being in the optimised hyper-parameters. This is evaluated on speechocean762, showing that it allows the GP to compute a test set output distribution that is more similar to the collection of reference outputs from the multiple human raters.
翻訳日:2023-06-06 16:01:01 公開日:2023-06-05
# 最小テキスト入力によるユーザフレンドリーな画像編集:キャプションとインジェクションの活用

User-friendly Image Editing with Minimal Text Input: Leveraging Captioning and Injection Techniques ( http://arxiv.org/abs/2306.02717v1 )

ライセンス: Link先を確認
Sunwoo Kim, Wooseok Jang, Hyunsu Kim, Junho Kim, Yunjey Choi, Seungryong Kim, Gayeong Lee(参考訳) 最近の拡散モデルにおけるテキスト駆動画像編集は顕著な成功を示している。 しかし,既存の手法では,オブジェクトや背景,スタイル,それらの関係など,ユーザの記述がソースイメージのコンテキストを十分に理解していると仮定している。 この仮定は、ユーザがテキストプロンプトを手作業で設計し、異なる画像の最適な記述を見つける必要があるため、現実のアプリケーションには適さない。 ユーザの観点からは、プロンプトエンジニアリングは労働集約的なプロセスであり、ユーザは全文ではなく、編集対象語の提供を好む。 この問題に対処するために,まず,意味的詳細度に基づいてプロンプトを3つのカテゴリに分割することで,ソース画像の詳細なテキスト記述の重要性を実証する。 そこで本研究では,プロンプト生成フレームワークを組み合わせることで,ユーザフレンドリなプロンプトエンジニアリングプロセスを実現する手法を提案する。 テキスト駆動画像編集におけるプロンプトの重要性を質的・定量的に検証し,本手法は地中プロンプトに匹敵する。

Recent text-driven image editing in diffusion models has shown remarkable success. However, the existing methods assume that the user's description sufficiently grounds the contexts in the source image, such as objects, background, style, and their relations. This assumption is unsuitable for real-world applications because users have to manually engineer text prompts to find optimal descriptions for different images. From the users' standpoint, prompt engineering is a labor-intensive process, and users prefer to provide a target word for editing instead of a full sentence. To address this problem, we first demonstrate the importance of a detailed text description of the source image, by dividing prompts into three categories based on the level of semantic details. Then, we propose simple yet effective methods by combining prompt generation frameworks, thereby making the prompt engineering process more user-friendly. Extensive qualitative and quantitative experiments demonstrate the importance of prompts in text-driven image editing and our method is comparable to ground-truth prompts.
翻訳日:2023-06-06 16:00:45 公開日:2023-06-05
# 深層信念ネットワークに基づく連系侵入検知システム

Federated Intrusion Detection System based on Deep Belief Networks ( http://arxiv.org/abs/2306.02715v1 )

ライセンス: Link先を確認
Othmane Belarbi, Theodoros Spyridopoulos, Eirini Anthi, Ioannis Mavromatis, Pietro Carnelli, Aftab Khan(参考訳) IoTテクノロジの大幅な増加と、進化を続ける攻撃ベクターと脅威アクターは、サイバーセキュリティのリスクを劇的に高めた。 新たな攻撃は、IoTデバイスを妥協して機密データにアクセスしたり、さらに悪意のあるアクティビティをデプロイするためにそれらを制御する。 新たな攻撃の検出は、しばしばAIソリューションに依存する。 分散IoTシステムにAIベースのIDSを実装するための一般的なアプローチは、集中的な方法である。 しかし、このアプローチはデータのプライバシーと秘密を侵害する可能性がある。 さらに、集中データ収集はIDSのスケールアップを禁止している。 したがって、IoTエコシステムの侵入検出ソリューションは、分散された方向に進む必要がある。 flはデータの機密性と局所性を保ちながら協調学習を行う能力から近年大きな関心を集めている。 それでも、ほとんどのFLベースのIoTシステム用IDSは非現実的なデータ分散条件下で設計されている。 そこで本研究では,実世界の実験代表者を設計し,DNNとDBNに関する以前の研究に基づくFL IDS実装の性能評価を行った。 実験では、実際のIoTネットワークトラフィックデータセットであるTON-IoTを使用して、各IPアドレスをひとつのFLクライアントに関連付ける。 さらに,データ不均質性の影響を軽減するために,事前学習と各種集計手法の検討を行った。 最後に、集中型ソリューションに対するアプローチをベンチマークします。 比較の結果,データの不均一性は,分散的にトレーニングされた場合のモデル性能にかなりの悪影響を及ぼすことがわかった。 しかし、事前訓練された初期グローバルFLモデルの場合、ランダムに開始されたグローバルモデルと比較して20%以上の性能向上(F1スコア)を示す。

The vast increase of IoT technologies and the ever-evolving attack vectors and threat actors have increased cyber-security risks dramatically. Novel attacks can compromise IoT devices to gain access to sensitive data or control them to deploy further malicious activities. The detection of novel attacks often relies upon AI solutions. A common approach to implementing AI-based IDS in distributed IoT systems is in a centralised manner. However, this approach may violate data privacy and secrecy. In addition, centralised data collection prohibits the scale-up of IDSs. Therefore, intrusion detection solutions in IoT ecosystems need to move towards a decentralised direction. FL has attracted significant interest in recent years due to its ability to perform collaborative learning while preserving data confidentiality and locality. Nevertheless, most FL-based IDS for IoT systems are designed under unrealistic data distribution conditions. To that end, we design an experiment representative of the real world and evaluate the performance of two FL IDS implementations, one based on DNNs and another on our previous work on DBNs. For our experiments, we rely on TON-IoT, a realistic IoT network traffic dataset, associating each IP address with a single FL client. Additionally, we explore pre-training and investigate various aggregation methods to mitigate the impact of data heterogeneity. Lastly, we benchmark our approach against a centralised solution. The comparison shows that the heterogeneous nature of the data has a considerable negative impact on the model performance when trained in a distributed manner. However, in the case of a pre-trained initial global FL model, we demonstrate a performance improvement of over 20% (F1-score) when compared against a randomly initiated global model.
翻訳日:2023-06-06 16:00:26 公開日:2023-06-05
# NFTVis: NFTパフォーマンスのビジュアル分析

NFTVis: Visual Analysis of NFT Performance ( http://arxiv.org/abs/2306.02712v1 )

ライセンス: Link先を確認
Fan Yan, Xumeng Wang, Ketian Mao, Wei Zhang, and Wei Chen(参考訳) 非偽造トークン(NFT)はブロックチェーンに格納されたデータユニットである。 現在、NFTの取引に参加する投資家やコレクター(NFT)が増えているため、NFTのパフォーマンスを評価する必要がある。 しかし、NFTの性能を分析する際には、NFTトレーダーには2つの課題がある。 まず、現在の希少なモデルは欠陥があり、時には説得力がない。 さらに、NFTのパフォーマンスは、画像(高次元データ)、履歴トランザクション(ネットワーク)、市場進化(時系列)など、複数の要因に依存する。 包括的考察とNFT性能の効率的な分析は困難である。 これらの課題に対処するために,個々のNFT性能の評価を容易にする視覚解析システムであるNFTVisを提案する。 画像とNFTを定量化する新しいNFTラリティモデルを提案する。 NFTの性能に影響を及ぼす様々な要因を表現するために、4つのよく協調したビューが設計されている。 最後に,2つのケーススタディとユーザスタディを用いて,システムの有用性と有効性を評価する。

A non-fungible token (NFT) is a data unit stored on the blockchain. Nowadays, more and more investors and collectors (NFT traders), who participate in transactions of NFTs, have an urgent need to assess the performance of NFTs. However, there are two challenges for NFT traders when analyzing the performance of NFT. First, the current rarity models have flaws and are sometimes not convincing. In addition, NFT performance is dependent on multiple factors, such as images (high-dimensional data), history transactions (network), and market evolution (time series). It is difficult to take comprehensive consideration and analyze NFT performance efficiently. To address these challenges, we propose NFTVis, a visual analysis system that facilitates assessing individual NFT performance. A new NFT rarity model is proposed to quantify NFTs with images. Four well-coordinated views are designed to represent the various factors affecting the performance of the NFT. Finally, we evaluate the usefulness and effectiveness of our system using two case studies and user studies.
翻訳日:2023-06-06 16:00:03 公開日:2023-06-05
# 油圧モニタリングシステムにおける異常検出のための半教師付き学習の比較検討

Comparative Study on Semi-supervised Learning Applied for Anomaly Detection in Hydraulic Condition Monitoring System ( http://arxiv.org/abs/2306.02709v1 )

ライセンス: Link先を確認
Yongqi Dong, Kejia Chen, Zhiyuan Ma(参考訳) 油圧システムでは条件ベースのメンテナンスがますます重要になっている。 しかし,異常データが少なく,ラベル付けが面倒で危険であるため,異常検出は依然として困難である。 したがって、教師なしあるいは半教師なしの手法、特に少数のラベルが利用可能である場合に、教師なし学習を特徴抽出機構として活用する半教師なし学習に利用することが望ましい。 本研究では,油圧モニタリングシステムにおける異常検出に応用した半教師付き学習手法を系統的に比較した。 まず、オープンソースの水理条件モニタリングデータセットを理解するために、詳細なデータ分析と特徴学習を行った。 次に,従来のスタンドアロン半教師付き学習モデル(一級svm,ロバスト共分散など),アンサンブルモデル(孤立フォレストなど),ディープニューラルネットワークに基づくモデル(オートエンコーダ,階層型極端学習マシン(helm)など)など,様々な手法の実装と評価を行った。 典型的には、この研究は、極端な学習マシンに基づく半教師付きHELMモデルをカスタマイズし、実装し、他の半教師付き手法よりもその優位性を検証した。 広範囲な実験により、カスタマイズされたヘルムモデルは、最も高い精度(99.5%)、最も低い偽陽性率(0.015)、そして最も優れたf1-score(0.985)で他の半教師あり法を上回った。

Condition-based maintenance is becoming increasingly important in hydraulic systems. However, anomaly detection for these systems remains challenging, especially since that anomalous data is scarce and labeling such data is tedious and even dangerous. Therefore, it is advisable to make use of unsupervised or semi-supervised methods, especially for semi-supervised learning which utilizes unsupervised learning as a feature extraction mechanism to aid the supervised part when only a small number of labels are available. This study systematically compares semi-supervised learning methods applied for anomaly detection in hydraulic condition monitoring systems. Firstly, thorough data analysis and feature learning were carried out to understand the open-sourced hydraulic condition monitoring dataset. Then, various methods were implemented and evaluated including traditional stand-alone semi-supervised learning models (e.g., one-class SVM, Robust Covariance), ensemble models (e.g., Isolation Forest), and deep neural network based models (e.g., autoencoder, Hierarchical Extreme Learning Machine (HELM)). Typically, this study customized and implemented an extreme learning machine based semi-supervised HELM model and verified its superiority over other semi-supervised methods. Extensive experiments show that the customized HELM model obtained state-of-the-art performance with the highest accuracy (99.5%), the lowest false positive rate (0.015), and the best F1-score (0.985) beating other semi-supervised methods.
翻訳日:2023-06-06 15:59:48 公開日:2023-06-05
# orca:gpt-4の複雑な説明跡から学ぶプログレッシブ学習

Orca: Progressive Learning from Complex Explanation Traces of GPT-4 ( http://arxiv.org/abs/2306.02707v1 )

ライセンス: Link先を確認
Subhabrata Mukherjee, Arindam Mitra, Ganesh Jawahar, Sahaj Agarwal, Hamid Palangi, Ahmed Awadallah(参考訳) 近年の研究では、大きな基礎モデル(lfms)によって生成された結果をもとに、模倣学習を通じて、より小さなモデルの能力を高めることに焦点を当てている。 浅いlpm出力からの限られた模倣信号、小規模の均質なトレーニングデータ、そして特に厳密な評価の欠如から、lfmsの推論プロセスではなく、スタイルを模倣するために学習する傾向があるため、小規模モデルの能力は過大評価される。 これらの課題に対処するため、私たちはOrca(LLaMAのリリースポリシーに従ってモデル重量の差分を公開するために、法務チームと協力して、LFMの推論プロセスを模倣することを学ぶ13ビリオンのパラメータモデルであるhttps://aka.ms/orca-lm)を開発しています。 Orcaは、説明トレース、ステップバイステップの思考プロセス、ChatGPTの教師支援によって導かれる他の複雑な指示を含む、GPT-4からの豊富な信号から学習する。 このプログレッシブラーニングを促進するために,大規模かつ多種多様な模倣データを用いて,偏見的なサンプリングと選択を行う。 Orcaは、Big-Bench Hard (BBH)のような複雑なゼロショット推論ベンチマークにおいて、Vicuna-13Bのような最先端の命令チューニングモデルを100%以上上回り、AGIEvalでは42%である。 さらに、OrcaはBBHベンチマークでChatGPTと同等に到達し、SAT、LSAT、GRE、GMATといった専門的および学術的試験における競争性能(最適化されたシステムメッセージと4ptsの差)を、CoTなしでゼロショット設定で示す。 我々の研究は、ステップバイステップの説明から学ぶことは、それらが人間かより高度なAIモデルによって生成されるかに関わらず、モデル能力とスキルを改善するための有望な方向であることを示唆している。

Recent research has focused on enhancing the capability of smaller models through imitation learning, drawing on the outputs generated by large foundation models (LFMs). A number of issues impact the quality of these models, ranging from limited imitation signals from shallow LFM outputs; small scale homogeneous training data; and most notably a lack of rigorous evaluation resulting in overestimating the small model's capability as they tend to learn to imitate the style, but not the reasoning process of LFMs. To address these challenges, we develop Orca (We are working with our legal team to publicly release a diff of the model weights in accordance with LLaMA's release policy to be published at https://aka.ms/orca-lm), a 13-billion parameter model that learns to imitate the reasoning process of LFMs. Orca learns from rich signals from GPT-4 including explanation traces; step-by-step thought processes; and other complex instructions, guided by teacher assistance from ChatGPT. To promote this progressive learning, we tap into large-scale and diverse imitation data with judicious sampling and selection. Orca surpasses conventional state-of-the-art instruction-tuned models such as Vicuna-13B by more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard (BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH benchmark and shows competitive performance (4 pts gap with optimized system message) in professional and academic examinations like the SAT, LSAT, GRE, and GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our research indicates that learning from step-by-step explanations, whether these are generated by humans or more advanced AI models, is a promising direction to improve model capabilities and skills.
翻訳日:2023-06-06 15:59:19 公開日:2023-06-05
# 単元ビームスプリッタを用いたベルコヒーレント状態重畳における干渉位相推定と量子資源ダイナミクス

Interferometric phase estimation and quantum resources dynamics in Bell coherent-states superpositions generated via a unitary beam splitter ( http://arxiv.org/abs/2306.02702v1 )

ライセンス: Link先を確認
Abdallah Slaoui, Brahim Amghar and Rachid Ahl Laamara(参考訳) ビームスプリッター(英: beam splitters)は、初期の光ビームを必要な数のビームに分割するために現代の技術で広く用いられている光学素子であり、絡み合った光状態を生成するのに非常に有望な役割を果たす。 これにより、一方の入力モードにグラウバーコヒーレント状態が注入され、他方のモードに真空状態が入射した場合、ビームスプリッタの作用によりベルコヒーレント状態が重なり合う可能性がある。 異なる量子化器は、共起エンタングルメント、エントロピー量子不協和、量子コヒーレンス、量子不協和の幾何測度、局所量子不確実性(LQU)、局所量子フィッシャー情報などの出力状態の量子性を測定するために用いられる。 そこで, 解析式を導出し, それぞれの測定値の振る舞いと境界にもっと焦点をあてる。 また,標準射影計測のために定義された標準lquの一般化として弱測定により捕捉される弱測定誘起lquの概念を導入し,生成したベルキャット状態が量子計測におけるプローブ状態である場合,測定強度が推定位相強調に与える影響について検討した。 この結果から, 干渉位相推定の感度は, プローブ状態の摂動が強いこと, 弱測定が必ずしも複合系の量子性を捉えるとは限らないことが示唆された。

Beam splitters are optical elements widely used in modern technological applications to split the initial light beam into a required number of beams and they play a very promising role for generating entangled optical states. Here, a potential scheme is proposed to generate Bell coherent-states superpositions through the action of a beam splitter when a Glauber coherent state is injected on one input mode and vacuum state is incident on the other one. Different quantifiers are used to measure the quantumness in the output state such as concurrence entanglement, entropic quantum discord, quantum coherence, geometric measure of quantum discord, local quantum uncertainty (LQU) and local quantum Fisher information. Thereby, we derive their analytical formulas and focus more on the behavior and bounds of each measure. Besides, we have introduced the notion of "weak measurement-induced LQU" captured by weak measurements as the generalization of normal LQU defined for standard projective measurement, and we investigate the effect of the measurement strength on the estimated phase enhancement if the generated Bell cat states are the probe states in quantum metrology. Our results suggest that the sensitivity of the interferometric phase estimation depends on how strongly one perturbs the probe state and that a weak measurement does not necessarily capture more quantumness in composite system.
翻訳日:2023-06-06 15:58:41 公開日:2023-06-05
# 深層モデルにおける連合学習の可能性の解明

Unlocking the Potential of Federated Learning for Deeper Models ( http://arxiv.org/abs/2306.02701v1 )

ライセンス: Link先を確認
Haolin Wang, Xuefeng Liu, Jianwei Niu, Shaojie Tang, Jiaxing Shen(参考訳) フェデレートラーニング(FL)は、分散機械学習の新しいパラダイムであり、グローバルモデルが複数のクライアントにわたってトレーニングされ、プライバシを損なうことなく利用できる。 FLは様々なシナリオで顕著な成功を収めてきたが、近年の研究は主に浅いニューラルネットワークと小さなニューラルネットワークを利用している。 本研究では,クライアントデータが独立して同一に分散されている場合でも,既存のFLフレームワークをより深いニューラルネットワークに適用した場合,性能低下が顕著であることを示す。 さらに, この減少は, 層間バックプロパゲーションプロセスにおいて, クライアントモデル間の相似性の連続的な蓄積に起因することが示唆された。 より深いモデルでは、より長い分岐の連鎖が伴うため、より分散する傾向があり、結果として性能が低下する。 理論的導出と経験的証拠の両方が、より深いモデルにおける発散蓄積の存在とその増幅効果を支持するために提案されている。 この問題に対処するため,我々は,より広いモデルの使用や受容野の低減など,分岐の低減に基づくいくつかの技術的ガイドラインを提案する。 これらの手法はより深いモデルにおけるFLの精度を大幅に向上させることができる。 例えば、これらのガイドラインの適用により、resnet101モデルのパフォーマンスは、tiny-imagenetデータセット上で最大43\%向上する。

Federated learning (FL) is a new paradigm for distributed machine learning that allows a global model to be trained across multiple clients without compromising their privacy. Although FL has demonstrated remarkable success in various scenarios, recent studies mainly utilize shallow and small neural networks. In our research, we discover a significant performance decline when applying the existing FL framework to deeper neural networks, even when client data are independently and identically distributed (i.i.d.). Our further investigation shows that the decline is due to the continuous accumulation of dissimilarities among client models during the layer-by-layer back-propagation process, which we refer to as "divergence accumulation." As deeper models involve a longer chain of divergence accumulation, they tend to manifest greater divergence, subsequently leading to performance decline. Both theoretical derivations and empirical evidence are proposed to support the existence of divergence accumulation and its amplified effects in deeper models. To address this issue, we propose several technical guidelines based on reducing divergence, such as using wider models and reducing the receptive field. These approaches can greatly improve the accuracy of FL on deeper models. For example, the application of these guidelines can boost the ResNet101 model's performance by as much as 43\% on the Tiny-ImageNet dataset.
翻訳日:2023-06-06 15:58:12 公開日:2023-06-05
# 小学校デジタル教育カリキュラム改革のスケール化と教員養成プログラムのための適応型カスケードモデル

An Adapted Cascade Model to Scale Primary School Digital Education Curricular Reforms and Teacher Professional Development Programs ( http://arxiv.org/abs/2306.02751v1 )

ライセンス: Link先を確認
Laila El-Hamamsy, Emilie-Charlotte Monnier, Sunny Avry, Fr\'ed\'erique Chessel-Lazzarotto, Gr\'egory Li\'egeois, Barbara Bruno, Jessica Dehler Zufferey, Francesco Mondada(参考訳) 多くの国は、十分な訓練を受けた教師がいないため、すべてのK-12学生にデジタル教育(DE)を効果的に導入するのに苦労している。 pd(in-service teacher-professional development)のカスケードモデルは、複数のレベルのトレーナーにpdプログラムを迅速に展開して、すべての教師にリーチすることができるが、多くの制限があり、しばしば非効率である。 そこで本稿では,小学校のDEC-PDプログラムを管理領域全体に展開するカスケードモデルを提案する。 モデルは教師と研修生に頼り (i)この地域で活動的な教師である。 (二)教員養成課程を修了し、成年研修及びD関連能力の取得を図った専門職の研修生。 (iii) デプロイメント全体を通じて専門家がサポートします。 デプロイモデルを検証するために、14人の教師訓練者、700人の教師、350人の教師を専門家によって訓練した。 教師訓練者の知見は,適応型カスケードモデルがほとんどのカスケードモデルの限界に効果的に対応していることを示している。 教師関係の知見は、適応されたカスケードモデルを、少なくとも専門家によって得られたものと同等の知覚、モチベーション、導入の観点からさらに検証する。 結論として、適応型カスケードモデルは小学校のde pdプログラムを大規模に広める効果的な手段であり、他のde改革にも利用できる。

Many countries struggle to effectively introduce Digital Education (DE) to all K-12 students as they lack adequately trained teachers. While cascade models of in-service teacher-professional development (PD) can rapidly deploy PD-programs through multiple levels of trainers to reach all teachers, they suffer from many limitations and are often ineffective. We therefore propose an adapted cascade model to deploy a primary school DE teacher-PD program throughout an administrative region. The model relies on teacher-trainers who (i) are active teachers in the region, (ii) have a prolonged trainer-PD with experts who piloted the teacher-PD program to acquire adult-trainer and DE-related competences, and (iii) are supported by the experts throughout the deployment. To validate the deployment model we used data from 14 teacher-trainers, the 700 teachers they trained, and 350 teachers trained by experts. The teacher-trainer findings demonstrate that the adapted cascade model effectively addresses most cascade models' limitations. The teacher-related findings further validate the adapted cascade model in terms of perception, motivation and adoption which are at least equivalent to those obtained with the experts. To conclude, the adapted cascade model is an effective means of spreading primary school DE PD-programs at a large scale and can be used in other DE reforms.
翻訳日:2023-06-06 15:52:16 公開日:2023-06-05
# Causal-Origin表現による強化学習における非定常処理

Tackling Non-Stationarity in Reinforcement Learning via Causal-Origin Representation ( http://arxiv.org/abs/2306.02747v1 )

ライセンス: Link先を確認
Wanpeng Zhang, Yilin Li, Boyu Yang, Zongqing Lu(参考訳) 現実のシナリオでは、強化学習の応用は複雑な非定常性によって著しく挑戦される。 既存の手法の多くは環境の変化を明示的にモデル化し、しばしば非実用的な事前知識を必要とする。 本稿では,非定常性は状態遷移中の複雑な因果関係を通じて伝播・蓄積し,その高度化と政策学習に影響を与える新しい視点を提案する。 非定常性の因果関係をトレースすることで、この課題をより効果的に解決できると考えている。 そこで我々はCausal-Origin RePresentation (COREP)アルゴリズムを提案する。 COREPは主に、因果オリジン表現と呼ばれる状態の安定グラフ表現を学ぶためのガイド付き更新機構を使用している。 この表現を利用することで、学習されたポリシーは非定常性に対する印象的なレジリエンスを示す。 本研究は,非定常強化学習の因果的解釈に基づく理論的解析で補足し,因果-オリジン表現の妥当性を提唱する。 実験により,非定常性に対処する既存手法よりもCOREPの方が優れた性能を示した。

In real-world scenarios, the application of reinforcement learning is significantly challenged by complex non-stationarity. Most existing methods attempt to model the changes of the environment explicitly, often requiring impractical prior knowledge. In this paper, we propose a new perspective, positing that non-stationarity can propagate and accumulate through complex causal relationships during state transitions, thereby compounding its sophistication and affecting policy learning. We believe that this challenge can be more effectively addressed by tracing the causal origin of non-stationarity. To this end, we introduce the Causal-Origin REPresentation (COREP) algorithm. COREP primarily employs a guided updating mechanism to learn a stable graph representation for states termed as causal-origin representation. By leveraging this representation, the learned policy exhibits impressive resilience to non-stationarity. We supplement our approach with a theoretical analysis grounded in the causal interpretation for non-stationary reinforcement learning, advocating for the validity of the causal-origin representation. Experimental results further demonstrate the superior performance of COREP over existing methods in tackling non-stationarity.
翻訳日:2023-06-06 15:51:50 公開日:2023-06-05
# オブジェクト検出のためのより良い説明に向けて

Towards Better Explanations for Object Detection ( http://arxiv.org/abs/2306.02744v1 )

ライセンス: Link先を確認
Van Binh Truong, Truong Thanh Hung Nguyen, Vo Thanh Khang Nguyen, Quoc Khanh Nguyen, Quoc Hung Cao(参考訳) 人工知能(AI)技術の最近の進歩は、ほぼすべての分野における利用を促進している。 ディープニューラルネットワーク(DNN)の複雑さの増大により、ネットワークの内部動作と決定を説明することがますます難しく、重要になる。 しかし、近年のDNNの説明技術のほとんどは、主に分類タスクの解釈に重点を置いている。 本稿では,d-closeと呼ばれる任意の物体検出モデルの決定を説明する手法を提案する。 モデルの振る舞いを密に追跡するために、画像上の複数のレベルのセグメンテーションとそれらを組み合わせるプロセスを使いました。 我々は,YOLOXモデルを用いてMS-COCOデータセットの試験を行い,提案手法がD-RISEより優れ,品質が向上し,ノイズ説明が低くなることを示した。

Recent advances in Artificial Intelligence (AI) technology have promoted their use in almost every field. The growing complexity of deep neural networks (DNNs) makes it increasingly difficult and important to explain the inner workings and decisions of the network. However, most current techniques for explaining DNNs focus mainly on interpreting classification tasks. This paper proposes a method to explain the decision for any object detection model called D-CLOSE. To closely track the model's behavior, we used multiple levels of segmentation on the image and a process to combine them. We performed tests on the MS-COCO dataset with the YOLOX model, which shows that our method outperforms D-RISE and can give a better quality and less noise explanation.
翻訳日:2023-06-06 15:51:35 公開日:2023-06-05
# ZIGNeRF: 可逆生成ニューラルラジアンス場を用いたゼロショット3次元シーン表現

ZIGNeRF: Zero-shot 3D Scene Representation with Invertible Generative Neural Radiance Fields ( http://arxiv.org/abs/2306.02741v1 )

ライセンス: Link先を確認
Kanghyeok Ko, Minhyeok Lee(参考訳) 生成型ニューラルラジアンス場(NeRF)は,非ポーズ画像の分布を学習することにより,多視点画像の合成に顕著な熟練性を示した。 データ分布内における3D一貫性の高い高品質なランダムサンプルの生成における既存の生成型NeRFの適性にもかかわらず、特異な入力画像の3D表現の作成は、依然として困難な課題である。 本稿では,ZIGNeRFについて紹介する。ZIGNeRFは,ゼロショット生成逆数ネットワーク(GAN)のインバージョンを,単一領域外画像から多視点画像を生成する革新的なモデルである。 このモデルは、ドメイン外の画像をジェネレータ多様体の潜在コードにマッピングする新しいインバータによって支えられている。 特にZIGNeRFは、オブジェクトを背景から切り離し、360度回転や深度、水平変換といった3D操作を実行することができる。 モデルの有効性は、キャット、AFHQ、CelebA、CelebA-HQ、CompCarsという複数の実画像データセットを用いて検証される。

Generative Neural Radiance Fields (NeRFs) have demonstrated remarkable proficiency in synthesizing multi-view images by learning the distribution of a set of unposed images. Despite the aptitude of existing generative NeRFs in generating 3D-consistent high-quality random samples within data distribution, the creation of a 3D representation of a singular input image remains a formidable challenge. In this manuscript, we introduce ZIGNeRF, an innovative model that executes zero-shot Generative Adversarial Network (GAN) inversion for the generation of multi-view images from a single out-of-domain image. The model is underpinned by a novel inverter that maps out-of-domain images into the latent code of the generator manifold. Notably, ZIGNeRF is capable of disentangling the object from the background and executing 3D operations such as 360-degree rotation or depth and horizontal translation. The efficacy of our model is validated using multiple real-image datasets: Cats, AFHQ, CelebA, CelebA-HQ, and CompCars.
翻訳日:2023-06-06 15:51:23 公開日:2023-06-05
# 人間のvrデモによる知識駆動型ロボットプログラム合成

Knowledge-Driven Robot Program Synthesis from Human VR Demonstrations ( http://arxiv.org/abs/2306.02739v1 )

ライセンス: Link先を確認
Benjamin Alt, Franklin Kenghagho Kenfack, Andrei Haidu, Darko Katic, Rainer J\"akel, Michael Beetz(参考訳) 高齢化社会、労働力不足、賃金の上昇は、様々な現実世界のタスクを自律的に遂行できる支援ロボットを呼び起こす。 このようなオープンなロボット操作には、強力な知識表現と推論(KR&R)アルゴリズムだけでなく、ロボットに実行すべきタスクと実行方法を教える方法も必要です。 本稿では,仮想現実(VR)におけるヒューマンタスクの実演から実行可能なロボット制御プログラムを自動生成するシステムを提案する。 私たちは、常識的な知識とゲームエンジンベースの物理を利用して、人間のvrデモを意味的に解釈し、表現力と一般的なタスク表現と自動パス計画とコード生成を最先端の認知アーキテクチャに組み込む。 ロボットショッピングアシスタントにおける力覚的フェッチ・アンド・プレイスという文脈でのアプローチを実証する。 ソースコードはhttps://github.com/ease-crc/vr-program- synthesisで入手できる。

Aging societies, labor shortages and increasing wage costs call for assistance robots capable of autonomously performing a wide array of real-world tasks. Such open-ended robotic manipulation requires not only powerful knowledge representations and reasoning (KR&R) algorithms, but also methods for humans to instruct robots what tasks to perform and how to perform them. In this paper, we present a system for automatically generating executable robot control programs from human task demonstrations in virtual reality (VR). We leverage common-sense knowledge and game engine-based physics to semantically interpret human VR demonstrations, as well as an expressive and general task representation and automatic path planning and code generation, embedded into a state-of-the-art cognitive architecture. We demonstrate our approach in the context of force-sensitive fetch-and-place for a robotic shopping assistant. The source code is available at https://github.com/ease-crc/vr-program-synthesis.
翻訳日:2023-06-06 15:51:04 公開日:2023-06-05
# ニューラルネットワーク回帰における確率的校正の大規模研究

A Large-Scale Study of Probabilistic Calibration in Neural Network Regression ( http://arxiv.org/abs/2306.02738v1 )

ライセンス: Link先を確認
Victor Dheur and Souhaib Ben Taieb(参考訳) 正確な確率予測は最適な意思決定に不可欠である。 ニューラルネットワークのミスカバリレーションは主に分類で研究されているが、より探索の少ない回帰領域で研究している。 我々は、ニューラルネットワークの確率的キャリブレーションを評価するために、これまでで最大の実証研究を行っている。 また,リカバリ法,コンフォメーション法,正則化法の性能を解析し,確率的キャリブレーションについて検討した。 さらに,新たな識別可能な再校正手法を導入し,その有効性に関する新たな知見を明らかにした。 その結果,正則化法はキャリブレーションとシャープネスの間に良好なトレードオフをもたらすことがわかった。 ポストホック法は高い確率的キャリブレーションを示し,共形予測の有限サンプルカバレッジを保証する。 さらに, 量子化を共形予測の特定の場合とみなすことができることを示す。 我々の研究は完全に再現可能で、公正な比較のために共通のコードベースで実装されています。

Accurate probabilistic predictions are essential for optimal decision making. While neural network miscalibration has been studied primarily in classification, we investigate this in the less-explored domain of regression. We conduct the largest empirical study to date to assess the probabilistic calibration of neural networks. We also analyze the performance of recalibration, conformal, and regularization methods to enhance probabilistic calibration. Additionally, we introduce novel differentiable recalibration and regularization methods, uncovering new insights into their effectiveness. Our findings reveal that regularization methods offer a favorable tradeoff between calibration and sharpness. Post-hoc methods exhibit superior probabilistic calibration, which we attribute to the finite-sample coverage guarantee of conformal prediction. Furthermore, we demonstrate that quantile recalibration can be considered as a specific case of conformal prediction. Our study is fully reproducible and implemented in a common code base for fair comparisons.
翻訳日:2023-06-06 15:50:48 公開日:2023-06-05
# 共鳴相互作用を持つ質量不均衡フェルミ混合物

Mass-imbalanced Fermi mixtures with resonant interactions ( http://arxiv.org/abs/2306.02736v1 )

ライセンス: Link先を確認
Matteo Zaccanti(参考訳) 本稿では,2種のフェルミオン種からなる超低温原子混合物に関する理論的および実験的研究の概要を紹介する。 まず,このようなシステムに関連付けられた多体多体現象とその多体レベルでの影響を,専門家でない読者でも理解できるような,汎用的でシンプルなフレームワークについて述べる。 次に、現在我々の研究室で研究されているフェルミイオンリチウム(^6$li)とクロム(^{53}$cr)の特定の組み合わせについて議論し、現在利用可能な他のフェルミ混合物に対する特異な性質を強調した。 最後に,本システムの構築と特徴付けで得られた最近の研究成果を要約し,超低温^6$li-$^{53}$cr fermi混合系に基づく今後の研究の展望を提供する。

In these notes I provide an overview of ongoing theoretical and experimental research on ultracold atomic mixtures composed by two different fermionic species. First, I describe a general and simple framework that should allow also a non-expert reader to understand the rich few-body phenomena connected with such systems, and their possible impact at the many-body level. I then move to discuss the specific combination of fermionic lithium ($^6$Li) and chromium ($^{53}$Cr) atoms, currently investigated in our lab, highlighting its peculiar properties with respect to other Fermi mixtures nowadays available. Finally, I summarize recent experimental progress achieved in producing and characterizing this novel system, providing an outlook for future studies based on ultracold $^6$Li-$^{53}$Cr Fermi mixtures.
翻訳日:2023-06-06 15:50:33 公開日:2023-06-05
# 合成能動推論エージェントの実現, その2: 変動型メッセージ更新

Realising Synthetic Active Inference Agents, Part II: Variational Message Updates ( http://arxiv.org/abs/2306.02733v1 )

ライセンス: Link先を確認
Thijs van de Laar, Magnus Koudahl and Bert de Vries(参考訳) 自由エネルギー原則(FEP)は、(生物学的)エージェントを、環境の生成モデルに関する変動自由エネルギー(FE)を最小化するものとして記述している。 アクティブ推論(英: Active Inference、AIF)は、エージェントが期待されるFE目標を最小化することによって環境を探索し、活用する方法を記述するFEPのまとめである。 2つの関連論文において、自由形Forney-style Factor Graphs (FFGs) 上のメッセージパッシングによるAIFエージェントのスケーラブルでエピステマティックなアプローチについて述べる。 共用紙(第1部)は、AFFのFE目標を視覚的に(一般化)する制約付きFFG(CFFG)表記法を導入する。 現在の論文(パートII)は、変分法によりCFFG上のFE目的を最小化(一般化)するメッセージパッシングアルゴリズムを導出する。 シミュレーションBetheと一般化FEエージェントの比較は、人工AIFがT迷路ナビゲーションタスクにおいてどのようにててんかん行動を引き起こすかを示している。 合成AIFエージェントの完全なメッセージパッシングアカウントにより、モデル間でのメッセージ更新を導出し再利用し、合成AIFの産業的応用に近づくことができる。

The Free Energy Principle (FEP) describes (biological) agents as minimising a variational Free Energy (FE) with respect to a generative model of their environment. Active Inference (AIF) is a corollary of the FEP that describes how agents explore and exploit their environment by minimising an expected FE objective. In two related papers, we describe a scalable, epistemic approach to synthetic AIF agents, by message passing on free-form Forney-style Factor Graphs (FFGs). A companion paper (part I) introduces a Constrained FFG (CFFG) notation that visually represents (generalised) FE objectives for AIF. The current paper (part II) derives message passing algorithms that minimise (generalised) FE objectives on a CFFG by variational calculus. A comparison between simulated Bethe and generalised FE agents illustrates how synthetic AIF induces epistemic behaviour on a T-maze navigation task. With a full message passing account of synthetic AIF agents, it becomes possible to derive and reuse message updates across models and move closer to industrial applications of synthetic AIF.
翻訳日:2023-06-06 15:50:17 公開日:2023-06-05
# 欠測値による等角予測

Conformal Prediction with Missing Values ( http://arxiv.org/abs/2306.02732v1 )

ライセンス: Link先を確認
Margaux Zaffran, Aymeric Dieuleveut, Julie Josse, Yaniv Romano(参考訳) コンフォーマル予測は、予測間隔を構築するための理論上の基盤となるフレームワークである。 我々は、不確実性定量化に新たな課題をもたらす、共変項の値の欠如を伴う共形予測について研究する。 まず,共形予測の限界カバレッジ保証が,不一致分布とほぼすべての計算関数のインプットデータに当てはまることを示す。 しかし、平均カバレッジは、欠落した値のパターンによって異なることに留意する: 共形手法は、ある欠落したパターンに対する応答条件を過小評価する予測間隔を構築する傾向がある。 これは、指数数にもかかわらず、欠落した値のパターンに条件付きで妥当な予測間隔を生じる、データ拡張の欠如である一般化された量子化回帰フレームワークを動機付けます。 次に、インプットされたデータに基づいてトレーニングされた普遍的に一貫した量子レグレッションアルゴリズムが、ピンボールリスクに対してベイズ最適であることを示し、任意のデータポイントに対して有効なカバレッジを実現する。 さらに,本提案手法が欠落値に起因したヘテロケキシュティリティを克服する上で重要であることを示す線形モデルの場合について検討する。 批判的ケアからの合成とデータを用いて,我々の理論を裏付け,提案手法の性能改善を報告した。

Conformal prediction is a theoretically grounded framework for constructing predictive intervals. We study conformal prediction with missing values in the covariates -- a setting that brings new challenges to uncertainty quantification. We first show that the marginal coverage guarantee of conformal prediction holds on imputed data for any missingness distribution and almost all imputation functions. However, we emphasize that the average coverage varies depending on the pattern of missing values: conformal methods tend to construct prediction intervals that under-cover the response conditionally to some missing patterns. This motivates our novel generalized conformalized quantile regression framework, missing data augmentation, which yields prediction intervals that are valid conditionally to the patterns of missing values, despite their exponential number. We then show that a universally consistent quantile regression algorithm trained on the imputed data is Bayes optimal for the pinball risk, thus achieving valid coverage conditionally to any given data point. Moreover, we examine the case of a linear model, which demonstrates the importance of our proposal in overcoming the heteroskedasticity induced by missing values. Using synthetic and data from critical care, we corroborate our theory and report improved performance of our methods.
翻訳日:2023-06-06 15:49:53 公開日:2023-06-05
# ニューラルODEフローのための拡張アーキテクチャによる分散モデリング

Enhanced Distribution Modelling via Augmented Architectures For Neural ODE Flows ( http://arxiv.org/abs/2306.02731v1 )

ライセンス: Link先を確認
Etrit Haxholli, Marco Lorenzi(参考訳) FFJORDのような正規化フローのニューラルODEの定式化により自由形ヤコビ行列式をO(D)時間で計算できるが、ニューラルODEの変換の柔軟性は準最適であることが示されている。 本稿では,AFFJORDについて,空間のトポロジを保存する特別な拡張変換ダイナミクスを用いて,ニューラルODEを定義することにより,FFJORDの表現力を高めるニューラルODEベースの正規化フローを提案する。 さらに、連続的な意味で鎖則を一般化して一般的な拡張形式のヤコビ行列式を導出し、その初期条件に対するODEの前方感度を表現するケーブル規則を導出する。 ケーブル規則は、神経ode変換のジャコビアンに対する明示的な表現を与え、変数の瞬時変化のエレガントな証明を提供する。 MNIST, CIFAR-10, CelebA 32x32などの合成・高次元データの密度推定実験の結果, AFFJORDは基礎となるベクトル場の柔軟性の向上により, FFJORDよりも優れていることが示された。

While the neural ODE formulation of normalizing flows such as in FFJORD enables us to calculate the determinants of free form Jacobians in O(D) time, the flexibility of the transformation underlying neural ODEs has been shown to be suboptimal. In this paper, we present AFFJORD, a neural ODE-based normalizing flow which enhances the representation power of FFJORD by defining the neural ODE through special augmented transformation dynamics which preserve the topology of the space. Furthermore, we derive the Jacobian determinant of the general augmented form by generalizing the chain rule in the continuous sense into the Cable Rule, which expresses the forward sensitivity of ODEs with respect to their initial conditions. The cable rule gives an explicit expression for the Jacobian of a neural ODE transformation, and provides an elegant proof of the instantaneous change of variable. Our experimental results on density estimation in synthetic and high dimensional data, such as MNIST, CIFAR-10 and CelebA 32x32, show that AFFJORD outperforms the baseline FFJORD through the improved flexibility of the underlying vector field.
翻訳日:2023-06-06 15:49:33 公開日:2023-06-05
# ニューラルネットワークアンサンブルに対する入力勾配の多様性

Input gradient diversity for neural network ensembles ( http://arxiv.org/abs/2306.02775v1 )

ライセンス: Link先を確認
Trung Trinh, Markus Heinonen, Luigi Acerbi, Samuel Kaski(参考訳) ディープ・アンサンブル(Deep Ensembles, DE)は、単一ニューラルネットワーク上の摂動に対する精度の向上、校正、堅牢性を示す。 パーティクルベース変分推論(ParVI)法は,ネットワーク類似性カーネルに基づく反発項を形式化し,多様性を高める。 しかし, 過パラメータ化により重量空間反発は非効率であり, 直接関数空間反発はdesよりもほとんど改善しないことがわかった。 そこで本研究では,1次入力勾配の空間で反発を行うparviに基づくアンサンブル学習法であるfordeを提案する。 入力勾配は、翻訳までの関数を特徴付け、重みよりも寸法がはるかに小さいため、アンサンブル部材が機能的に異なることが保証される。 直感的には、入力勾配の多様化は各ネットワークに異なる特徴を学習させ、アンサンブルの堅牢性を改善することが期待されている。 画像分類データセットの実験により、FORDEは入力摂動による共変量シフトの精度とキャリブレーションにおいて、金標準のDESや他のアンサンブル法を著しく上回っていることが示された。

Deep Ensembles (DEs) demonstrate improved accuracy, calibration and robustness to perturbations over single neural networks partly due to their functional diversity. Particle-based variational inference (ParVI) methods enhance diversity by formalizing a repulsion term based on a network similarity kernel. However, weight-space repulsion is inefficient due to over-parameterization, while direct function-space repulsion has been found to produce little improvement over DEs. To sidestep these difficulties, we propose First-order Repulsive Deep Ensemble (FoRDE), an ensemble learning method based on ParVI, which performs repulsion in the space of first-order input gradients. As input gradients uniquely characterize a function up to translation and are much smaller in dimension than the weights, this method guarantees that ensemble members are functionally different. Intuitively, diversifying the input gradients encourages each network to learn different features, which is expected to improve the robustness of an ensemble. Experiments on image classification datasets show that FoRDE significantly outperforms the gold-standard DEs and other ensemble methods in accuracy and calibration under covariate shift due to input perturbations.
翻訳日:2023-06-06 15:41:55 公開日:2023-06-05
# 生成した詩の短い断片に適格な読み手によってスタイルを識別する

Identifying the style by a qualified reader on a short fragment of generated poetry ( http://arxiv.org/abs/2306.02771v1 )

ライセンス: Link先を確認
Boris Orekhov(参考訳) スタイルは、今日の自然言語生成における課題において重要な概念である。 画像スタイル転送の分野での成功の後、テキストスタイル転送のタスクは現実的で魅力的になった。 研究者は詩文の生成におけるスタイル再現のタスクにも興味を持っている。 自然詩生成におけるスタイル再現の評価は問題となっている。 私は3つの文字ベースのLSTMモデルをスタイル再現評価に使用しました。 3つのモデルはいずれも有名なロシア語を話す詩人によってテキストのコーパスで訓練された。 評価者にサンプルが示され、4つの回答オプションが提供され、このサンプルを再現する詩人のスタイルが提示された。 さらに、評価官は、自分が名付けた詩人の作品にどの程度精通しているかを尋ねられた。 文献史を学ぶ学生が評価者であり,94回答が得られた。 評価者が詩人を心から引用できれば、スタイル定義の正確さが増すように思われる。 各モデルは少なくとも0.7マクロ平均精度を示した。 実験の結果,lstmモデルは限定的な学習コーパスでもロシア詩人のスタイルを再現するのが得意であるのに対し,詩生成のタスクにおけるスタイルの評価において,素直な読者というよりも,プロを巻き込む方がよいことがわかった。

Style is an important concept in today's challenges in natural language generating. After the success in the field of image style transfer, the task of text style transfer became actual and attractive. Researchers are also interested in the tasks of style reproducing in generation of the poetic text. Evaluation of style reproducing in natural poetry generation remains a problem. I used 3 character-based LSTM-models to work with style reproducing assessment. All three models were trained on the corpus of texts by famous Russian-speaking poets. Samples were shown to the assessors and 4 answer options were offered, the style of which poet this sample reproduces. In addition, the assessors were asked how well they were familiar with the work of the poet they had named. Students studying history of literature were the assessors, 94 answers were received. It has appeared that accuracy of definition of style increases if the assessor can quote the poet by heart. Each model showed at least 0.7 macro-average accuracy. The experiment showed that it is better to involve a professional rather than a naive reader in the evaluation of style in the tasks of poetry generation, while lstm models are good at reproducing the style of Russian poets even on a limited training corpus.
翻訳日:2023-06-06 15:41:35 公開日:2023-06-05
# 知的エージェントの単純な期待と観察について:複雑性研究

On simple expectations and observations of intelligent agents: A complexity study ( http://arxiv.org/abs/2306.02769v1 )

ライセンス: Link先を確認
Sourav Chakraborty, Avijeet Ghosh, Sujata Ghosh and Fran\c{c}ois Schwarzentruber(参考訳) POL(Public Observation logic)は、様々な現実世界におけるエージェントの期待とエージェントの観察に関する理由である。 エージェントの期待は、周りの世界の特定のプロトコルに基づいて形成され、期待と観察が一致しないようなシナリオを取り除く。 このことは、これらの薬剤の疫学的推論に影響を及ぼす。 本研究では, POLの種々の断片の満足度問題の計算複雑性について検討する。 その過程では、これらのフラグメントがよく研究されている公開発表ロジックと必然的に結びついている点を強調します。

Public observation logic (POL) reasons about agent expectations and agent observations in various real world situations. The expectations of agents take shape based on certain protocols about the world around and they remove those possible scenarios where their expectations and observations do not match. This in turn influences the epistemic reasoning of these agents. In this work, we study the computational complexity of the satisfaction problems of various fragments of POL. In the process, we also highlight the inevitable link that these fragments have with the well-studied Public announcement logic.
翻訳日:2023-06-06 15:41:16 公開日:2023-06-05
# 対象言語対応タスクアダプタによる言語間転送

Cross-Lingual Transfer with Target Language-Ready Task Adapters ( http://arxiv.org/abs/2306.02767v1 )

ライセンス: Link先を確認
Marinela Parovi\'c, Alan Ansell, Ivan Vuli\'c, Anna Korhonen(参考訳) アダプタは(ゼロショット)言語間転送に対するモジュラーでパラメータ効率の良いアプローチとして登場した。 確立されたMAD-Xフレームワークは、任意のタスクを任意のターゲット言語に転送するために任意に結合できる言語とタスクアダプタを別々に採用している。 その後、MAD-Xフレームワークの拡張であるBAD-Xは、ソースとターゲットの言語ペアに固有の"ビルディングアル"アダプタを作成することにより、MAD-Xのモジュラリティを犠牲にして転送を改善する。 この作品では 両方の世界を最大限に活用し (i)目標言語に適応した微調整タスクアダプタ(いわゆる「ターゲット言語対応(TLR)」アダプタ)は、高い転送性能を維持するが、 (II)MAD-Xの高度にモジュール化された設計を犠牲にすることなく。 ターゲット言語対応"アダプタの主なアイデアは、mad-xのトレーニングvs参照の不一致を解決することだ。タスクアダプタは、推論中に初めてターゲット言語アダプタを"見る"ため、それと完全に互換性がない可能性がある。 このミスマッチに対処するために、トレーニング中にターゲット言語アダプタにタスクアダプタを公開し、最も単純な形式では、タスクアダプタトレーニング中にソースとターゲット言語アダプタを交互に使用し、任意の言語アダプタをサイクリングするために一般化することができる。 我々は、標準言語間ベンチマークのスイートにおいて、様々なTLRベースの転送構成を評価し、最も一般的な(そして最もモジュール化された)構成が、ほとんどのタスクや言語においてMAD-XとBAD-Xより一貫して優れていることを発見した。

Adapters have emerged as a modular and parameter-efficient approach to (zero-shot) cross-lingual transfer. The established MAD-X framework employs separate language and task adapters which can be arbitrarily combined to perform the transfer of any task to any target language. Subsequently, BAD-X, an extension of the MAD-X framework, achieves improved transfer at the cost of MAD-X's modularity by creating "bilingual" adapters specific to the source-target language pair. In this work, we aim to take the best of both worlds by (i) fine-tuning task adapters adapted to the target language(s) (so-called "target language-ready" (TLR) adapters) to maintain high transfer performance, but (ii) without sacrificing the highly modular design of MAD-X. The main idea of "target language-ready" adapters is to resolve the training-vs-inference discrepancy of MAD-X: the task adapter "sees" the target language adapter for the very first time during inference, and thus might not be fully compatible with it. We address this mismatch by exposing the task adapter to the target language adapter during training, and empirically validate several variants of the idea: in the simplest form, we alternate between using the source and target language adapters during task adapter training, which can be generalized to cycling over any set of language adapters. We evaluate different TLR-based transfer configurations with varying degrees of generality across a suite of standard cross-lingual benchmarks, and find that the most general (and thus most modular) configuration consistently outperforms MAD-X and BAD-X on most tasks and languages.
翻訳日:2023-06-06 15:41:08 公開日:2023-06-05
# 平均フィールドゲームにおける分散エージェントのためのネットワーク通信

Networked Communication for Decentralised Agents in Mean-Field Games ( http://arxiv.org/abs/2306.02766v1 )

ライセンス: Link先を確認
Patrick Benjamin and Alessandro Abate(参考訳) 平均フィールドゲームフレームワークにネットワーク通信を導入する。 特に私たちは,実世界の多エージェント連携問題に遭遇する可能性のある,経験的システムの単一の非正規進化経路に沿って,n$の分散エージェントが学習する,oracleフリーの設定に注目しています。 ネットワークを通じて改良されたポリシーを分散的に広めることによって、サンプルの保証が純粋に独立した学習事例によって上限に達するという理論的証拠を提供する。 さらに,本手法は,集中型コントローラへの依存を取り除きながら,より高速に収束できることを実証的に示す。 また、分散化されたコミュニケーションアーキテクチャは、予期せぬ学習障害や人口規模の変化に対する堅牢性と柔軟性の観点から、中央集権的および独立的な選択肢よりも大きなメリットをもたらします。 新しいアーキテクチャと比較するために、我々は、集中型および独立型のケースの最近のアルゴリズムを変更して、その実用的な収束を可能にする。我々は、これらのアルゴリズムの最初の実証的なデモンストレーションを、ローカルな状態の可観測性しか持たない単一のシステム進化に沿って学習する$N$エージェントの設定で提供しながら、新しいネットワーク化されたアプローチの実証的な利点を提示する。

We introduce networked communication to the mean-field game framework. In particular, we look at oracle-free settings where $N$ decentralised agents learn along a single, non-episodic evolution path of the empirical system, such as we may encounter for a large range of many-agent cooperation problems in the real-world. We provide theoretical evidence that by spreading improved policies through the network in a decentralised fashion, our sample guarantees are upper-bounded by those of the purely independent-learning case. Moreover, we show empirically that our networked method can give faster convergence in practice, while removing the reliance on a centralised controller. We also demonstrate that our decentralised communication architecture brings significant benefits over both the centralised and independent alternatives in terms of robustness and flexibility to unexpected learning failures and changes in population size. For comparison purposes with our new architecture, we modify recent algorithms for the centralised and independent cases to make their practical convergence feasible: while contributing the first empirical demonstrations of these algorithms in our setting of $N$ agents learning along a single system evolution with only local state observability, we additionally display the empirical benefits of our new, networked approach.
翻訳日:2023-06-06 15:40:37 公開日:2023-06-05
# 個人用クロスカメラの人物識別

Differentially Private Cross-camera Person Re-identification ( http://arxiv.org/abs/2306.02765v1 )

ライセンス: Link先を確認
Lucas Maris, Yuki Matsuda, Keiichi Yasumoto(参考訳) カメラベースの人物再識別は、さまざまなカメラにまたがる人物表現をマッチングするために、リッチなビジュアルデータから恩恵を受ける、プライバシーを侵害するタスクである。 この高次元データは、他の、おそらくは望ましくないアプリケーションに簡単に使用できる。 本稿では,対象とする再識別タスク以外の用途に対して,画像データを保護する可能性を検討するとともに,画素化と色定量化を両立した差分プライバシー機構を導入する。 画像の歪みは,高い再同定性能を維持しつつ,悪質なタスク性能を著しく低下させる効果を示す。

Camera-based person re-identification is a heavily privacy-invading task by design, benefiting from rich visual data to match together person representations across different cameras. This high-dimensional data can then easily be used for other, perhaps less desirable, applications. We here investigate the possibility of protecting such image data against uses outside of the intended re-identification task, and introduce a differential privacy mechanism leveraging both pixelisation and colour quantisation for this purpose. We show its ability to distort images in such a way that adverse task performances are significantly reduced, while retaining high re-identification performances.
翻訳日:2023-06-06 15:40:16 公開日:2023-06-05
# STAR損失:顔のランドマーク検出における意味的曖昧さの低減

STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection ( http://arxiv.org/abs/2306.02763v1 )

ライセンス: Link先を確認
Zhenglin Zhou and Huaxia Li and Hong Liu and Nanyang Wang and Gang Yu and Rongrong Ji(参考訳) 近年,ディープラーニングに基づく顔のランドマーク検出が大幅に改善されている。 しかし、意味曖昧性問題は検出性能を低下させる。 具体的には、意味的曖昧さは矛盾するアノテーションを引き起こし、モデルの収束に悪影響を及ぼし、精度と不安定性を予測する。 この問題を解決するために,意味あいまいさの特性を利用した自己適応型あいまいさ低減(STAR)の損失を提案する。 意味的あいまいさは異方性予測分布をもたらすことが分かり、予測分布を用いて意味的あいまいさを表現する。 これに基づいて予測分布の異方性を測定するSTAR損失を設計する。 標準回帰損失と比較して、予測分布が異方性であるときにSTAR損失は小さくなり、したがって意味的曖昧性の影響を適応的に緩和する。 さらに,分布の異常変化とモデルの早期収束を回避できる2種類の固有値制限法を提案する。 最後に、包括的実験により、スターロスは3つのベンチマーク(cofw、300w、wflw)において最先端の手法を上回っており、計算オーバーヘッドが無視できることを示した。 コードはhttps://github.com/ZhenglinZhou/STARにある。

Recently, deep learning-based facial landmark detection has achieved significant improvement. However, the semantic ambiguity problem degrades detection performance. Specifically, the semantic ambiguity causes inconsistent annotation and negatively affects the model's convergence, leading to worse accuracy and instability prediction. To solve this problem, we propose a Self-adapTive Ambiguity Reduction (STAR) loss by exploiting the properties of semantic ambiguity. We find that semantic ambiguity results in the anisotropic predicted distribution, which inspires us to use predicted distribution to represent semantic ambiguity. Based on this, we design the STAR loss that measures the anisotropism of the predicted distribution. Compared with the standard regression loss, STAR loss is encouraged to be small when the predicted distribution is anisotropic and thus adaptively mitigates the impact of semantic ambiguity. Moreover, we propose two kinds of eigenvalue restriction methods that could avoid both distribution's abnormal change and the model's premature convergence. Finally, the comprehensive experiments demonstrate that STAR loss outperforms the state-of-the-art methods on three benchmarks, i.e., COFW, 300W, and WFLW, with negligible computation overhead. Code is at https://github.com/ZhenglinZhou/STAR.
翻訳日:2023-06-06 15:40:05 公開日:2023-06-05
# A2B:ロバスト対応のためのBarycentric Coordinateへのアンカー

A2B: Anchor to Barycentric Coordinate for Robust Correspondence ( http://arxiv.org/abs/2306.02760v1 )

ライセンス: Link先を確認
Weiyue Zhao, Hao Lu, Zhiguo Cao, Xin Li(参考訳) 対応問題の繰り返しパターンには長年の問題があり、不一致は固有のあいまいさのため頻繁に発生する。 繰り返しパターンに関連するユニークな位置情報により、座標表現は特徴対応を改善するための外観表現の補助となる。 しかし、適切な座標表現の問題はまだ解決されていない。 本研究では,偏心座標などの幾何学的不変座標表現が特徴間のミスマッチを著しく低減できることを示す。 最初のステップは幾何学的不変座標の理論的基礎を確立することである。 本稿では,特徴マッチングと一貫性フィルタリングと粗さから細かなマッチング戦略を組み合わせたシードマッチング・フィルタリングネットワーク(smfnet)を提案する。 次に、ペア画像から複数のアフィン不変対応座標を生成する新しいアンカーからバリセントリック(a2b)座標符号化手法であるdegreeを導入する。 DEGREEは標準のディスクリプタ、機能マーカ、整合性フィルタを備えたプラグインとして使用して、マッチング品質を改善することができる。 合成された屋内および屋外データセットの大規模な実験により、DECREEは繰り返しパターンの問題を緩和し、最先端のパフォーマンスを達成することができる。 さらに、DeGREEはCVPR 2021の第3回画像マッチングチャレンジの競争性能も報告している。 このアプローチは、繰り返しパターンの問題を軽減する新しい視点を提供し、特徴対応のための座標表現を選択することの重要性を強調する。

There is a long-standing problem of repeated patterns in correspondence problems, where mismatches frequently occur because of inherent ambiguity. The unique position information associated with repeated patterns makes coordinate representations a useful supplement to appearance representations for improving feature correspondences. However, the issue of appropriate coordinate representation has remained unresolved. In this study, we demonstrate that geometric-invariant coordinate representations, such as barycentric coordinates, can significantly reduce mismatches between features. The first step is to establish a theoretical foundation for geometrically invariant coordinates. We present a seed matching and filtering network (SMFNet) that combines feature matching and consistency filtering with a coarse-to-fine matching strategy in order to acquire reliable sparse correspondences. We then introduce DEGREE, a novel anchor-to-barycentric (A2B) coordinate encoding approach, which generates multiple affine-invariant correspondence coordinates from paired images. DEGREE can be used as a plug-in with standard descriptors, feature matchers, and consistency filters to improve the matching quality. Extensive experiments in synthesized indoor and outdoor datasets demonstrate that DEGREE alleviates the problem of repeated patterns and helps achieve state-of-the-art performance. Furthermore, DEGREE also reports competitive performance in the third Image Matching Challenge at CVPR 2021. This approach offers a new perspective to alleviate the problem of repeated patterns and emphasizes the importance of choosing coordinate representations for feature correspondences.
翻訳日:2023-06-06 15:39:43 公開日:2023-06-05
# 重ね合わせ方向の時間軸を持つ量子演算

Quantum operations with the time axis in a superposed direction ( http://arxiv.org/abs/2306.02755v1 )

ライセンス: Link先を確認
Seok Hyung Lie, M.S. Kim(参考訳) 量子論において、ある過程が行列転位を適用して時間反転対称性を持つかどうかを確かめ、それが物理的に残るかどうかを調べることが示されている。 しかし、量子過程の不定因果順序に関する最近の発見は、完全な反転以外に、より一般的な時間の対称性変換が存在することを示唆している。 本研究では,行列変換という一般化された転置の概念を導入し,量子演算の未来と過去のヒルベルト空間の一般二部一元変換を考慮し,時間軸を重畳方向に確実に横たわらせ,従来研究されていた「時間の不定方向」、すなわち前方の重畳と後方の時間進化を一般化する。 この枠組みは、時空構造が量子力学から現れると説明される量子重力と同様に時間と空間を等しく扱うアプローチに応用することができる。 この一般化された転位法を用いて、完全テンソルの連続的一般化、サブシステムのトレースの動的バージョン、二成分量子相互作用における多重時間軸の互換性を調べる。 特に,両部間相互作用がより異なる時間軸と一致している場合,因果的違反を防止するため,両者間の情報交換の費用が削減されることを示す。

In the quantum theory, it has been shown that one can see if a process has the time reversal symmetry by applying the matrix transposition and examine if it remains physical. However, recent discoveries regarding the indefinite causal order of quantum processes suggest that there may be other, more general symmetry transformations of time besides the complete reversal. In this work, we introduce an expanded concept of matrix transposition, the generalized transposition, that takes into account general bipartite unitary transformations of a quantum operation's future and past Hilbert spaces, allowing for making the time axis definitely lie in a superposed direction, which generalizes the previously studied `indefinite direction of time', i.e., superposition of the forward and the backward time evolution. This framework may have applications in approaches that treat time and space equally like quantum gravity, where the spatio-temporal structure is explained to emerge from quantum mechanics. We apply this generalized transposition to investigate a continuous generalization of perfect tensors, a dynamic version of tracing out a subsystem, and the compatibility of multiple time axes in bipartite quantum interactions. Notably, we demonstrate that when a bipartite interaction is consistent with more distinct local temporal axes, there is a reduced allowance for information exchange between the two parties in order to prevent causality violations.
翻訳日:2023-06-06 15:39:22 公開日:2023-06-05
# PULSAR:ブラックボックス大言語モデルによる患者の問題点とデータ拡張を要約した医療用語の事前学習

PULSAR: Pre-training with Extracted Healthcare Terms for Summarising Patients' Problems and Data Augmentation with Black-box Large Language Models ( http://arxiv.org/abs/2306.02754v1 )

ライセンス: Link先を確認
Hao Li, Yuping Wu, Viktor Schlegel, Riza Batista-Navarro, Thanh-Tung Nguyen, Abhinav Ramesh Kashyap, Xiaojun Zeng, Daniel Beck, Stefan Winkler, Goran Nenadic(参考訳) 医療進歩ノートは、患者の病状、治療計画、医療提供者の更新など、患者の病院旅行を文書化する上で重要な役割を担っている。 問題リストの形で患者の問題を自動的に要約することで、ステークホルダーが患者の状態を理解し、作業負荷と認知バイアスを減らすのに役立つ。 BioNLP 2023 共有タスク1Aは、入院中の提供者の進捗状況から診断と問題のリストを作成することに焦点を当てている。 本稿では,この課題に対して提案する2つの補完コンポーネントを統合する手法を提案する。 1つのコンポーネントは、データ拡張のために大きな言語モデル(LLM)を使用し、もう1つは、リストとして要約された患者の問題を生成するための、新しいトレーニング済みの目標を持つ抽象的な要約 LLM である。 私たちのアプローチは、共有タスクへの全提出のうち、第2位でした。 モデルの開発とテストデータセットのパフォーマンスは、我々のアプローチが未知のデータに対してより堅牢であることを示し、より大きなモデルと同じサイズで最大3.1ポイント改善されている。

Medical progress notes play a crucial role in documenting a patient's hospital journey, including his or her condition, treatment plan, and any updates for healthcare providers. Automatic summarisation of a patient's problems in the form of a problem list can aid stakeholders in understanding a patient's condition, reducing workload and cognitive bias. BioNLP 2023 Shared Task 1A focuses on generating a list of diagnoses and problems from the provider's progress notes during hospitalisation. In this paper, we introduce our proposed approach to this task, which integrates two complementary components. One component employs large language models (LLMs) for data augmentation; the other is an abstractive summarisation LLM with a novel pre-training objective for generating the patients' problems summarised as a list. Our approach was ranked second among all submissions to the shared task. The performance of our model on the development and test datasets shows that our approach is more robust on unknown data, with an improvement of up to 3.1 points over the same size of the larger model.
翻訳日:2023-06-06 15:39:00 公開日:2023-06-05
# 深層学習によるメラノーマ分類を改善する1病変の多発皮膚内視鏡写真 : 予後診断精度の検討

Using Multiple Dermoscopic Photographs of One Lesion Improves Melanoma Classification via Deep Learning: A Prognostic Diagnostic Accuracy Study ( http://arxiv.org/abs/2306.02800v1 )

ライセンス: Link先を確認
Achim Hekler, Roman C. Maron, Sarah Haggenm\"uller, Max Schmitt, Christoph Wies, Jochen S. Utikal, Friedegund Meier, Sarah Hobelsberger, Frank F. Gellrich, Mildred Sergon, Axel Hauschild, Lars E. French, Lucie Heinzerling, Justin G. Schlager, Kamran Ghoreschi, Max Schlaak, Franz J. Hilke, Gabriela Poch, S\"oren Korsing, Carola Berking, Markus V. Heppt, Michael Erdmann, Sebastian Haferkamp, Konstantin Drexler, Dirk Schadendorf, Wiebke Sondermann, Matthias Goebeler, Bastian Schilling, Jakob N. Kather, Eva Krieghoff-Henning, Titus J. Brinker(参考訳) 背景: 畳み込みニューラルネットワーク(CNN)ベースのメラノーマ分類器は、臨床実践における有用性を制限するいくつかの課題に直面している。 目的: cnnベースのメラノーマ分類器に対する1つの関心病変の複数の実世界の皮膚内視鏡的観察の影響を検討する。 方法: 悪性黒色腫656例について検討した。 AUROC, 予測校正誤差 (ECE) および最大信頼度変化 (MCC) を用いて, (I) 単一視野シナリオ, (II) 複数の人工的修正画像を用いたマルチビューシナリオ, (III) 複数実世界の画像を用いたマルチビューシナリオを用いて, 分類器の性能を測定した。 結果: 実画像を用いたマルチビュー手法では, AUROC が 0.905 (95% CI, 0.879-0.929) から 0.930 (95% CI, 0.909-0.951) に有意に増加した。 ECEとMCCはそれぞれ0.131(95% CI, 0.105-0.159)から0.072(95% CI: 0.052-0.093)、0.149(95% CI, 0.125-0.171)から0.115(95% CI: 0.099-0.131)に改善した。 多視点実世界と人工修正画像を比較すると、診断精度と不確実性は同等であったが、後者のロバスト性は著しく悪化した。 結論:複数の実世界の画像を使用することで,CNNに基づくメラノーマ分類器の性能に肯定的な影響を与える。

Background: Convolutional neural network (CNN)-based melanoma classifiers face several challenges that limit their usefulness in clinical practice. Objective: To investigate the impact of multiple real-world dermoscopic views of a single lesion of interest on a CNN-based melanoma classifier. Methods: This study evaluated 656 suspected melanoma lesions. Classifier performance was measured using area under the receiver operating characteristic curve (AUROC), expected calibration error (ECE) and maximum confidence change (MCC) for (I) a single-view scenario, (II) a multiview scenario using multiple artificially modified images per lesion and (III) a multiview scenario with multiple real-world images per lesion. Results: The multiview approach with real-world images significantly increased the AUROC from 0.905 (95% CI, 0.879-0.929) in the single-view approach to 0.930 (95% CI, 0.909-0.951). ECE and MCC also improved significantly from 0.131 (95% CI, 0.105-0.159) to 0.072 (95% CI: 0.052-0.093) and from 0.149 (95% CI, 0.125-0.171) to 0.115 (95% CI: 0.099-0.131), respectively. Comparing multiview real-world to artificially modified images showed comparable diagnostic accuracy and uncertainty estimation, but significantly worse robustness for the latter. Conclusion: Using multiple real-world images is an inexpensive method to positively impact the performance of a CNN-based melanoma classifier.
翻訳日:2023-06-06 15:32:49 公開日:2023-06-05
# ロジスティック回帰アプローチに基づく正のラベルなしデータに対するナイーブ分類器の強化

Enhancing naive classifier for positive unlabeled data based on logistic regression approach ( http://arxiv.org/abs/2306.02798v1 )

ライセンス: Link先を確認
Mateusz P{\l}atek and Jan Mielniczuk(参考訳) 我々は、Selected Completely At Random (SCAR) 仮定の下での正の未ラベルデータの解析において、問題をデータに対する不特定モデルの適合とみなすことは有益であると主張している。 すなわち、不特定化の結果は、応答の後方確率がロジスティック回帰によってモデル化された場合、このモデルに従わない観測可能なpuデータにロジスティック回帰が当てはまる場合、パラメータの真のベクトルとほぼ同線形な推定パラメータのベクトルが得られることを示している。 この観察と、f1測度の類似の最適化に基づく分類器のインターセプトの選択は、いくつかの実データ集合において競合よりも同等以上の性能を持つ分類器を得る。

We argue that for analysis of Positive Unlabeled (PU) data under Selected Completely At Random (SCAR) assumption it is fruitful to view the problem as fitting of misspecified model to the data. Namely, we show that the results on misspecified fit imply that in the case when posterior probability of the response is modelled by logistic regression, fitting the logistic regression to the observable PU data which {\it does not} follow this model, still yields the vector of estimated parameters approximately colinear with the true vector of parameters. This observation together with choosing the intercept of the classifier based on optimisation of analogue of F1 measure yields a classifier which performs on par or better than its competitors on several real data sets considered.
翻訳日:2023-06-06 15:32:17 公開日:2023-06-05
# 自然言語によるベイズ推論を用いた人間的な概念学習のモデル化

Modeling Human-like Concept Learning with Bayesian Inference over Natural Language ( http://arxiv.org/abs/2306.02797v1 )

ライセンス: Link先を確認
Kevin Ellis(参考訳) 自然言語における発話上でベイズ推論を行うことで抽象的記号概念の学習をモデル化する。 効率的な推論には、提案分布として大きな言語モデルを用いる。 人間のデータに先行して人間の学習者をモデル化し、生成的概念と論理的概念の両方を評価する。

We model learning of abstract symbolic concepts by performing Bayesian inference over utterances in natural language. For efficient inference, we use a large language model as a proposal distribution. We fit a prior to human data to better model human learners, and evaluate on both generative and logical concepts.
翻訳日:2023-06-06 15:32:02 公開日:2023-06-05
# MCTS: マルチリファレンス中国語テキスト簡易化データセット

MCTS: A Multi-Reference Chinese Text Simplification Dataset ( http://arxiv.org/abs/2306.02796v1 )

ライセンス: Link先を確認
Ruining Chong, Luming Lu, Liner Yang, Jinran Nie, Shuhan Zhou, Yaoxin Li, Erhong Yang(参考訳) text simplificationは、書き換え変換を適用することで、テキストをより理解しやすくすることを目的としている。 漢文の簡略化に関する研究は、長い間ほとんど行われていない。 一般的な評価データがないことが、この現象の重要な理由である。 本稿では,マルチ参照中国語テキスト単純化データセットであるMCTSを紹介する。 本稿では,データセットのアノテーションプロセスについて記述し,詳細な分析を行う。 さらに,教師なし手法と高度な大規模言語モデルの性能評価を行った。 基礎研究を通じて漢文の簡易化に関する基本的な理解を構築し,今後の研究への参考資料の提供を期待する。 私たちはデータをhttps://github.com/blcuicall/mctsでリリースします。

Text simplification aims to make the text easier to understand by applying rewriting transformations. There has been very little research on Chinese text simplification for a long time. The lack of generic evaluation data is an essential reason for this phenomenon. In this paper, we introduce MCTS, a multi-reference Chinese text simplification dataset. We describe the annotation process of the dataset and provide a detailed analysis of it. Furthermore, we evaluate the performance of some unsupervised methods and advanced large language models. We hope to build a basic understanding of Chinese text simplification through the foundational work and provide references for future research. We release our data at https://github.com/blcuicall/mcts.
翻訳日:2023-06-06 15:31:56 公開日:2023-06-05
# 多言語変換器におけるアライメントと言語間移動の関係の探索

Exploring the Relationship between Alignment and Cross-lingual Transfer in Multilingual Transformers ( http://arxiv.org/abs/2306.02790v1 )

ライセンス: Link先を確認
F\'elix Gaschi, Patricio Cerda, Parisa Rastin and Yannick Toussaint(参考訳) 明示的な言語間トレーニングデータがないと、多言語言語モデルは言語間転送を実現できる。 この変換を改善する一般的な方法の1つは、微調整前、すなわち翻訳文から一対の単語に類似した表現を構築するようモデルを訓練することである。 しかし、このような再編成手法は、言語やタスク間で結果が常に改善されるとは限らないため、アライメント表現が言語間転送に真に有益であるかどうかという疑問が提起された。 我々は、アライメントが言語、モデル、ランダムシード間の言語間移動と著しく相関していることを示す。 その結果,下流タスクとモデルに主に依存し,微調整がアライメントに大きな影響を与えることが分かった。 最後に,リグメンテーションが言語間伝達を改善できる例を示し,リグメンテーション法が著しい改善をもたらす条件を同定する。 すなわち、遠い言語やより小さなモデルに一般化する場合や、FastAlignではなくバイリンガル辞書を使って、アライメントペアを抽出する場合に、アライメントが言語間移動と相関するタスクにおいて、よりうまく機能することがわかった。 例えば、POSタグ付けでは、英語とアラビア語の区別により、 distilmBERT の精度は +15.8 向上し、XLM-R Large を 1.7 で上回る。 そこで我々は,スケーリングの代替として,より小型の多言語モデルに対する階層化手法のさらなる研究を提唱する。

Without any explicit cross-lingual training data, multilingual language models can achieve cross-lingual transfer. One common way to improve this transfer is to perform realignment steps before fine-tuning, i.e., to train the model to build similar representations for pairs of words from translated sentences. But such realignment methods were found to not always improve results across languages and tasks, which raises the question of whether aligned representations are truly beneficial for cross-lingual transfer. We provide evidence that alignment is actually significantly correlated with cross-lingual transfer across languages, models and random seeds. We show that fine-tuning can have a significant impact on alignment, depending mainly on the downstream task and the model. Finally, we show that realignment can, in some instances, improve cross-lingual transfer, and we identify conditions in which realignment methods provide significant improvements. Namely, we find that realignment works better on tasks for which alignment is correlated with cross-lingual transfer when generalizing to a distant language and with smaller models, as well as when using a bilingual dictionary rather than FastAlign to extract realignment pairs. For example, for POS-tagging, between English and Arabic, realignment can bring a +15.8 accuracy improvement on distilmBERT, even outperforming XLM-R Large by 1.7. We thus advocate for further research on realignment methods for smaller multilingual models as an alternative to scaling.
翻訳日:2023-06-06 15:31:50 公開日:2023-06-05
# 擬似経路幾何学による説明多元宇宙の探索

Navigating Explanatory Multiverse Through Counterfactual Path Geometry ( http://arxiv.org/abs/2306.02786v1 )

ライセンス: Link先を確認
Kacper Sokol and Edward Small and Yueqing Xuan(参考訳) 反事実的説明は、(オパクな)予測モデルの決定を解釈するときにデファクトスタンダードとなる。 それらの生成はアルゴリズムやドメイン固有の制約、例えば前者の密度に基づく実現可能性、後者の属性(不変性)や変更の方向性など、現実のユーティリティを最大化することを目的としている。 デシデラタ(desiderata, desiderata)の逆のインスタンスそのものに加えて、それとアルゴリズム的リコース( algorithmic recourse)と呼ばれる事実データポイントを結ぶ実行可能なパスの存在が重要な技術的考察となっている。 これらの要件はどちらも、旅の歩数と目的地が許容可能であることを保証しているが、現在の文献は、そのような反現実的な経路の重複を無視している。 この欠点に対処するために、説明的多元宇宙という新しい概念を導入し、これらの経路の幾何 – それらの親和性、分岐性、発散性、および将来の収束 -- をベクトル空間とグラフの2つの方法でナビゲートし、推論し、比較する方法を示します。 この(対話的な)説明プロセスを実装することで、説明者は絶対的な違いに加えて、旅の属性に基づいて反事実を選択することができる。

Counterfactual explanations are the de facto standard when tasked with interpreting decisions of (opaque) predictive models. Their generation is often subject to algorithmic and domain-specific constraints -- such as density-based feasibility for the former and attribute (im)mutability or directionality of change for the latter -- that aim to maximise their real-life utility. In addition to desiderata with respect to the counterfactual instance itself, the existence of a viable path connecting it with the factual data point, known as algorithmic recourse, has become an important technical consideration. While both of these requirements ensure that the steps of the journey as well as its destination are admissible, current literature neglects the multiplicity of such counterfactual paths. To address this shortcoming we introduce the novel concept of explanatory multiverse that encompasses all the possible counterfactual journeys and shows how to navigate, reason about and compare the geometry of these paths -- their affinity, branching, divergence and possible future convergence -- with two methods: vector spaces and graphs. Implementing this (interactive) explanatory process grants explainees more agency by allowing them to select counterfactuals based on the properties of the journey leading to them in addition to their absolute differences.
翻訳日:2023-06-06 15:31:16 公開日:2023-06-05
# 破砕曲線を用いた破砕物体の再集合

Reassembling Broken Objects using Breaking Curves ( http://arxiv.org/abs/2306.02782v1 )

ライセンス: Link先を確認
Ali Alagrami, Luca Palmieri, Sinem Aslan, Marcello Pelillo, Sebastiano Vascon(参考訳) 3Dの壊れたオブジェクトを再組み立てするのは難しい作業です。 うまく一般化する堅牢なソリューションは、さまざまなタイプの壊れたオブジェクトに関連する多様なパターンを扱う必要があります。 本研究では,物体の種類に依存しない3次元点雲の対の組立に取り組み,その形状に関する事前情報を持たない幾何学的情報にのみ依存する手法を提案する。 この方法は入力として2点の雲を受信し、検出された閉境界輪郭を用いて領域に分割する。 各壊れたオブジェクトの領域の可能なアライメントの組み合わせを評価し、最善のアライメントを最終アライメントとして選択する。 利用可能な3dスキャンされたオブジェクトと、最近の合成破壊オブジェクトのベンチマークの両方で実験が行われた。 その結果, 異なる種類の壊れたオブジェクトの再集合において, ソリューションは良好に動作することがわかった。

Reassembling 3D broken objects is a challenging task. A robust solution that generalizes well must deal with diverse patterns associated with different types of broken objects. We propose a method that tackles the pairwise assembly of 3D point clouds, that is agnostic on the type of object, and that relies solely on their geometrical information, without any prior information on the shape of the reconstructed object. The method receives two point clouds as input and segments them into regions using detected closed boundary contours, known as breaking curves. Possible alignment combinations of the regions of each broken object are evaluated and the best one is selected as the final alignment. Experiments were carried out both on available 3D scanned objects and on a recent benchmark for synthetic broken objects. Results show that our solution performs well in reassembling different kinds of broken objects.
翻訳日:2023-06-06 15:30:53 公開日:2023-06-05
# 生成型AI応用に関する調査

A survey of Generative AI Applications ( http://arxiv.org/abs/2306.02781v1 )

ライセンス: Link先を確認
Roberto Gozalo-Brizuela, Eduardo C. Garrido-Merch\'an(参考訳) ジェネレーティブAIは近年顕著な成長を遂げており、多様なドメインにまたがる幅広いアプリケーションを生み出している。 本稿では,350以上の生成ai応用に関する包括的調査を行い,様々な単様および多様生成aiの構造化分類と簡潔な記述について述べる。 この調査は、テキスト、画像、ビデオ、ゲーム、脳情報など、幅広いユニモーダルな生成aiアプリケーションをカバーするセクションに分割されている。 我々の調査は、研究者や実践者が、急速に拡大する生成AIの風景をナビゲートし、現在の最先端の理解を深め、この分野におけるさらなるイノベーションを促進するための貴重なリソースとなることを目的としています。

Generative AI has experienced remarkable growth in recent years, leading to a wide array of applications across diverse domains. In this paper, we present a comprehensive survey of more than 350 generative AI applications, providing a structured taxonomy and concise descriptions of various unimodal and even multimodal generative AIs. The survey is organized into sections, covering a wide range of unimodal generative AI applications such as text, images, video, gaming and brain information. Our survey aims to serve as a valuable resource for researchers and practitioners to navigate the rapidly expanding landscape of generative AI, facilitating a better understanding of the current state-of-the-art and fostering further innovation in the field.
翻訳日:2023-06-06 15:30:42 公開日:2023-06-05
# ドイツのCheXpert胸部X線撮影レポート

German CheXpert Chest X-ray Radiology Report Labeler ( http://arxiv.org/abs/2306.02777v1 )

ライセンス: Link先を確認
Alessandro Wollek, Sardi Hyska, Thomas Sedlmeyr, Philip Haitzer, Johannes Rueckel, Bastian O. Sabel, Michael Ingrisch, Tobias Lasser(参考訳) 本研究の目的は,胸部X線分類モデルのアノテーションを自動的に抽出するアルゴリズムを開発することである。 自動ラベル抽出モデルはCheXpertアーキテクチャに基づいて設計され、反復的な改善のためにWebベースのアノテーションインタフェースが作成された。 その結果、自動ラベル抽出は手動ラベリングに費やす時間を削減し、全体的なモデリング性能を向上させることが判明した。 自動的に抽出されたラベルでトレーニングされたモデルは、手動でラベル付けされたデータと競合して実行され、公開データでトレーニングされたモデルよりも優れている。

This study aimed to develop an algorithm to automatically extract annotations for chest X-ray classification models from German thoracic radiology reports. An automatic label extraction model was designed based on the CheXpert architecture, and a web-based annotation interface was created for iterative improvements. Results showed that automated label extraction can reduce time spent on manual labeling and improve overall modeling performance. The model trained on automatically extracted labels performed competitively to manually labeled data and strongly outperformed the model trained on publicly available data.
翻訳日:2023-06-06 15:30:28 公開日:2023-06-05
# プロンプトエンジニアリングを用いたllmによる安価フェイク検出

Cheap-fake Detection with LLM using Prompt Engineering ( http://arxiv.org/abs/2306.02776v1 )

ライセンス: Link先を確認
Guangyang Wu, Weijie Wu, Xiaohong Liu, Kele Xu, Tianjiao Wan, Wenyi Wang(参考訳) 実際の写真と矛盾する画像キャプションとの誤用は、メディアのアウト・オブ・コンテクスト(OOC)誤用の一例である。 OOCメディアを検出するには、個人が文の正確性を決定し、三重項(~\textit{i.e.}、画像と2つのキャプション)が同じ事象に関連するかどうかを評価する必要がある。 本稿では,ICME'23 Grand Challenge on Detecting CheapfakesにおけるOOCメディア検出のための新しい学習可能なアプローチを提案する。 提案手法は,画像とキャプション間のコヒーレンスと2つのキャプション間のコヒーレンスを評価するCOSMOS構造に基づく。 本稿では,Large Language Model (LLM), GPT3.5を特徴抽出器として組み込むことで,ベースラインアルゴリズムを強化する。 具体的には,gpt3.5モデルを用いたロバストで信頼性の高い特徴抽出器を開発するために,プロンプトエンジニアリングを用いた特徴抽出手法を提案する。 提案手法は2つのキャプション間の相関を捕捉し,このモジュールをCOSMOSベースラインモデルに効果的に統合することにより,キャプション間の関係をより深く理解することができる。 このモジュールを組み込むことにより,低コスト検出性能の大幅な向上の可能性を示す。 提案手法は,自然言語処理,画像キャプション,テキスト・ツー・イメージ合成など,様々な応用に有望な意味を持つ。 Docker for submitはhttps://hub.docker.com/repository/docker/mulns/ acmmmcheapfakesで利用可能だ。

The misuse of real photographs with conflicting image captions in news items is an example of the out-of-context (OOC) misuse of media. In order to detect OOC media, individuals must determine the accuracy of the statement and evaluate whether the triplet (~\textit{i.e.}, the image and two captions) relates to the same event. This paper presents a novel learnable approach for detecting OOC media in ICME'23 Grand Challenge on Detecting Cheapfakes. The proposed method is based on the COSMOS structure, which assesses the coherence between an image and captions, as well as between two captions. We enhance the baseline algorithm by incorporating a Large Language Model (LLM), GPT3.5, as a feature extractor. Specifically, we propose an innovative approach to feature extraction utilizing prompt engineering to develop a robust and reliable feature extractor with GPT3.5 model. The proposed method captures the correlation between two captions and effectively integrates this module into the COSMOS baseline model, which allows for a deeper understanding of the relationship between captions. By incorporating this module, we demonstrate the potential for significant improvements in cheap-fakes detection performance. The proposed methodology holds promising implications for various applications such as natural language processing, image captioning, and text-to-image synthesis. Docker for submission is available at https://hub.docker.com/repository/docker/mulns/ acmmmcheapfakes.
翻訳日:2023-06-06 15:30:18 公開日:2023-06-05
# クラスタリングのための近似量子コア構成アルゴリズム

Near-Optimal Quantum Coreset Construction Algorithms for Clustering ( http://arxiv.org/abs/2306.02826v1 )

ライセンス: Link先を確認
Yecheng Xue, Xiaoyu Chen, Tongyang Li, Shaofeng H.-C. Jiang(参考訳) k$-clustering in $\mathbb{r}^d$(例えば、$k$-medianと$k$-means)は、基本的な機械学習の問題である。 準線形時間近似アルゴリズムは古典的な設定で、基数$n$のデータセットとして知られていたが、準線形時間量子アルゴリズムを見つけることは、依然として明らかである。 我々は、$k$-clusteringのコアセットを見つける量子アルゴリズムを$\tilde{o}(\sqrt{nk}d^{3/2})$クエリ複雑さで$\mathbb{r}^d$で与える。 私たちのコアセットは入力サイズを$n$から$\mathrm{poly}(k\epsilon^{-1}d)$に下げているので、クラスタリングのための既存の$\alpha$-approximationアルゴリズムがその上で実行でき、$(1 + \epsilon)\alpha$-approximationを出力します。 これにより、様々な$k$クラスタリング近似アルゴリズムの二次的なスピードアップが得られる。 我々は、量子アルゴリズムが$O(1)$-approximation for $k$-clusteringを達成するために$\Omega(\sqrt{nk})$クエリを作らなければならないという、ほぼ一致する下界のアルゴリズムを補完する。

$k$-Clustering in $\mathbb{R}^d$ (e.g., $k$-median and $k$-means) is a fundamental machine learning problem. While near-linear time approximation algorithms were known in the classical setting for a dataset with cardinality $n$, it remains open to find sublinear-time quantum algorithms. We give quantum algorithms that find coresets for $k$-clustering in $\mathbb{R}^d$ with $\tilde{O}(\sqrt{nk}d^{3/2})$ query complexity. Our coreset reduces the input size from $n$ to $\mathrm{poly}(k\epsilon^{-1}d)$, so that existing $\alpha$-approximation algorithms for clustering can run on top of it and yield $(1 + \epsilon)\alpha$-approximation. This eventually yields a quadratic speedup for various $k$-clustering approximation algorithms. We complement our algorithm with a nearly matching lower bound, that any quantum algorithm must make $\Omega(\sqrt{nk})$ queries in order to achieve even $O(1)$-approximation for $k$-clustering.
翻訳日:2023-06-06 15:23:18 公開日:2023-06-05
# COMET: 木と局所探索の専門知識の心的制約を学習する

COMET: Learning Cardinality Constrained Mixture of Experts with Trees and Local Search ( http://arxiv.org/abs/2306.02824v1 )

ライセンス: Link先を確認
Shibal Ibrahim, Wenyu Chen, Hussein Hazimeh, Natalia Ponomareva, Zhe Zhao, Rahul Mazumder(参考訳) Sparse Mixture-of-Experts (Sparse-MoE)フレームワークは、自然言語処理やビジョンなど、さまざまな領域のモデルキャパシティを効率的にスケールアップする。 sparse-moesは、スパースで訓練可能なゲートを使用して、各入力サンプルの"experts"(ネットワーク全体の部分のみ)のサブセットを選択する。 既存のスパースゲートは、一階最適化法で訓練する際、収束と性能の問題を引き起こす。 本稿では,現在のMoE手法の2つの改良点を紹介する。 まず、新しいツリーベースのメカニズムに依存する新しいスパースゲートcometを提案する。 COMETは微分可能で、計算を高速化するためにスパーシティを利用することができ、最先端のゲートよりも優れている。 第二に、スパース専門家選択の難解な組み合わせの性質のため、一階法は典型的には低品質な解の傾向にある。 この課題に対処するために,Hashルーティング,Top-k,DSelect-k,COMETなどのスパースゲートのトレーニングにおいて,一階法を補完する新しい局所探索手法を提案する。 ローカル検索は、ネットワークが悪質な初期化や解決を逃れるのに役立つ。 我々は,推薦システム,ビジョン,自然言語処理など,様々な領域で大規模な実験を行った。 標準的なビジョンとレコメンダシステムベンチマークでは、COMET+ (COMET with local search) は、一般的なゲート(例えばHashルーティングやTop-k)よりも最大13%改善され、DSelect-kのような以前の異なるゲートよりも9%向上した。 Top-kとHashのゲートがローカル検索と組み合わせられると、ハイパーパラメータチューニングに必要な予算を最大100\times$で削減できる。 さらに,言語モデリングにおいては,5/7 GLUEベンチマークおよびSQuADデータセット上でBERTを蒸留するためのMoEBERTモデルを改良した。

The sparse Mixture-of-Experts (Sparse-MoE) framework efficiently scales up model capacity in various domains, such as natural language processing and vision. Sparse-MoEs select a subset of the "experts" (thus, only a portion of the overall network) for each input sample using a sparse, trainable gate. Existing sparse gates are prone to convergence and performance issues when training with first-order optimization methods. In this paper, we introduce two improvements to current MoE approaches. First, we propose a new sparse gate: COMET, which relies on a novel tree-based mechanism. COMET is differentiable, can exploit sparsity to speed up computation, and outperforms state-of-the-art gates. Second, due to the challenging combinatorial nature of sparse expert selection, first-order methods are typically prone to low-quality solutions. To deal with this challenge, we propose a novel, permutation-based local search method that can complement first-order methods in training any sparse gate, e.g., Hash routing, Top-k, DSelect-k, and COMET. We show that local search can help networks escape bad initializations or solutions. We performed large-scale experiments on various domains, including recommender systems, vision, and natural language processing. On standard vision and recommender systems benchmarks, COMET+ (COMET with local search) achieves up to 13% improvement in ROC AUC over popular gates, e.g., Hash routing and Top-k, and up to 9% over prior differentiable gates e.g., DSelect-k. When Top-k and Hash gates are combined with local search, we see up to $100\times$ reduction in the budget needed for hyperparameter tuning. Moreover, for language modeling, our approach improves over the state-of-the-art MoEBERT model for distilling BERT on 5/7 GLUE benchmarks as well as SQuAD dataset.
翻訳日:2023-06-06 15:22:52 公開日:2023-06-05
# DAG構造学習のための動的因果空間の探索

Discovering Dynamic Causal Space for DAG Structure Learning ( http://arxiv.org/abs/2306.02822v1 )

ライセンス: Link先を確認
Fangfu Liu, Wenchang Ma, An Zhang, Xiang Wang, Yueqi Duan, Tat-Seng Chua(参考訳) 変数間の因果関係の同定を目的とした純粋観測データ(因果発見)から因果構造を発見することは、機械学習の基本的な課題である。 近年の微分可能なスコアベースDAG学習器の発明は、組合せ最適化問題を有向グラフ空間上のDAG制約で微分可能な最適化に再構成する重要なイネーブルである。 その成功にもかかわらず、これらの最先端DAG学習者は、グラフ構造を考慮せず、有向グラフ候補を評価するためにDAGの独立スコア関数を組み込んでいる。 その結果,DAGによらずデータ適合度を計測することは,必然的に,最適なDAGとモデル脆弱性の発見につながる。 そこで本研究では,DAG構造学習のための動的因果空間であるCASPERを提案し,このグラフ構造をスコア関数に統合することで,推定された真理と地上のDAGの因果距離を忠実に反映する。 CASPERは、DAG-nessへの適応的注意によるDAG構造学習の強化とともに、学習プロセスの見直しを行う。 経験的可視化により、CASPERは空間として、構造認識やノイズ堅牢性といった一連の望ましい特性を満たす。 合成と実世界の両方のデータセットに対する大規模な実験は、精度と堅牢性の観点から、最先端の因果発見法よりもCASPERの方が優れていることを明確に証明している。

Discovering causal structure from purely observational data (i.e., causal discovery), aiming to identify causal relationships among variables, is a fundamental task in machine learning. The recent invention of differentiable score-based DAG learners is a crucial enabler, which reframes the combinatorial optimization problem into a differentiable optimization with a DAG constraint over directed graph space. Despite their great success, these cutting-edge DAG learners incorporate DAG-ness independent score functions to evaluate the directed graph candidates, lacking in considering graph structure. As a result, measuring the data fitness alone regardless of DAG-ness inevitably leads to discovering suboptimal DAGs and model vulnerabilities. Towards this end, we propose a dynamic causal space for DAG structure learning, coined CASPER, that integrates the graph structure into the score function as a new measure in the causal space to faithfully reflect the causal distance between estimated and ground truth DAG. CASPER revises the learning process as well as enhances the DAG structure learning via adaptive attention to DAG-ness. Grounded by empirical visualization, CASPER, as a space, satisfies a series of desired properties, such as structure awareness and noise robustness. Extensive experiments on both synthetic and real-world datasets clearly validate the superiority of our CASPER over the state-of-the-art causal discovery methods in terms of accuracy and robustness.
翻訳日:2023-06-06 15:22:18 公開日:2023-06-05
# 自然言語理解のための構築情報を用いた言語表現の強化

Enhancing Language Representation with Constructional Information for Natural Language Understanding ( http://arxiv.org/abs/2306.02819v1 )

ライセンス: Link先を確認
Lvxiaowei Xu, Jianwang Wu, Jiawei Peng, Zhilin Gong, Ming Cai, Tianxiang Wang(参考訳) 自然言語理解(NLU)は、事前訓練された言語モデル(PLM)によって生成された表現に依存する自然言語処理の重要な分野である。 しかしながら, PLM は主に, 構文情報の取得に重点を置いているが, 構造の意味を適切に扱えない可能性がある。 この問題に対処するために,造形文法(cxg)を導入し,形式と意味のペアリングを強調し,言語表現の充実を図る。 PLMのような統計モデルと高度に互換性のある,使用法に基づく構成文法を本研究の基盤として採用する。 次に、3段階の解法を通じて言語表現を強化するためにhycxgフレームワークを提案する。 まず、すべての構成はスロット制約アプローチによって文から抽出される。 構造が重複し、冗長性と不均衡をもたらすため、識別構成を選択するための条件付き最大被覆問題を定式化する。 最後に,構築物間の高次単語相互作用を捉えることで,構築情報から表現を得るための関係ハイパーグラフアテンションネットワークを提案する。 広範囲な実験は、様々なNLUタスクにおいて提案されたモデルの優越性を実証している。

Natural language understanding (NLU) is an essential branch of natural language processing, which relies on representations generated by pre-trained language models (PLMs). However, PLMs primarily focus on acquiring lexico-semantic information, while they may be unable to adequately handle the meaning of constructions. To address this issue, we introduce construction grammar (CxG), which highlights the pairings of form and meaning, to enrich language representation. We adopt usage-based construction grammar as the basis of our work, which is highly compatible with statistical models such as PLMs. Then a HyCxG framework is proposed to enhance language representation through a three-stage solution. First, all constructions are extracted from sentences via a slot-constraints approach. As constructions can overlap with each other, bringing redundancy and imbalance, we formulate the conditional max coverage problem for selecting the discriminative constructions. Finally, we propose a relational hypergraph attention network to acquire representation from constructional information by capturing high-order word interactions among constructions. Extensive experiments demonstrate the superiority of the proposed model on a variety of NLU tasks.
翻訳日:2023-06-06 15:21:54 公開日:2023-06-05
# multiadam: 物理形ニューラルネットワークのマルチスケールトレーニングのためのパラメータワイズスケール不変最適化器

MultiAdam: Parameter-wise Scale-invariant Optimizer for Multiscale Training of Physics-informed Neural Networks ( http://arxiv.org/abs/2306.02816v1 )

ライセンス: Link先を確認
Jiachen Yao, Chang Su, Zhongkai Hao, Songming Liu, Hang Su, Jun Zhu(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、最近、PDE損失と境界損失の重み付けを最小化し、様々な分野における部分微分方程式(PDE)の解法において顕著な進歩を遂げた。 しかし、理論的な枠組みの欠如やPDE損失と境界損失の不均衡など、PINNのトレーニングにはいくつかの重要な課題がある。 本稿では,3つのカテゴリに分類され,様々な共通問題に適用可能な2次非均一PDEの解析を行う。 また,訓練損失と実際の誤差との関係を特徴づけ,軽度条件下での収束を保証する。 この理論解析により,パラメータ的に損失項のバランスをとるために,勾配運動量を利用するスケール不変オプティマイザであるmultiadamがさらに提案される。 異なる物理領域の複数の問題に対する広範囲な実験結果から,我々のマルチアダムソルバは,強いベースラインと比較して,予測精度を1~2桁向上できることが示された。

Physics-informed Neural Networks (PINNs) have recently achieved remarkable progress in solving Partial Differential Equations (PDEs) in various fields by minimizing a weighted sum of PDE loss and boundary loss. However, there are several critical challenges in the training of PINNs, including the lack of theoretical frameworks and the imbalance between PDE loss and boundary loss. In this paper, we present an analysis of second-order non-homogeneous PDEs, which are classified into three categories and applicable to various common problems. We also characterize the connections between the training loss and actual error, guaranteeing convergence under mild conditions. The theoretical analysis inspires us to further propose MultiAdam, a scale-invariant optimizer that leverages gradient momentum to parameter-wisely balance the loss terms. Extensive experiment results on multiple problems from different physical domains demonstrate that our MultiAdam solver can improve the predictive accuracy by 1-2 orders of magnitude compared with strong baselines.
翻訳日:2023-06-06 15:21:37 公開日:2023-06-05
# マルチヘッドクロスアテンション・スキップ接続を用いたトランスフォーマーベースUNetによる文書のアーティファクト除去

Transformer-Based UNet with Multi-Headed Cross-Attention Skip Connections to Eliminate Artifacts in Scanned Documents ( http://arxiv.org/abs/2306.02815v1 )

ライセンス: Link先を確認
David Kreuzer and Michael Munz(参考訳) 文書分類や名前付きエンティティ認識といったテキストベースの文書分析タスクには,高品質なテキスト抽出が不可欠である。 残念なことに、スキャン品質と結果のアーティファクトが光学文字認識(OCR)プロセスのエラーにつながるため、これは必ずしも確実ではない。 畳み込みニューラルネットワークを用いた現在のアプローチは、背景除去タスクに有望な結果を示すが、ピクセル化や圧縮エラーなどのアーティファクトの修正に失敗する。 一般的な画像の場合、Transformerのバックボーンはタスクを認知するためのよく知られたニューラルネットワーク構造に頻繁に統合されている。 本研究では,Swin Transformerのバックボーンを用いたUNet構造の修正を行い,スキャンした文書の典型的アーティファクトを除去する。 マルチヘッド・クロスアテンション・スキップ接続は、各抽象化レベルの機能をより選択的に学習するために使用される。 本手法の性能は,圧縮誤差,画素化,ランダムノイズについて検討した。 合成データ上でのエラー率を53.9%まで低減したテキスト抽出品質の向上をアーカイブする。 事前訓練されたベースモデルは、新しいアーティファクトに容易に適応できる。 クロスアテンションスキップ接続は、エンコーダから抽出されたテキスト情報やコマンド形式で統合することで、モデル結果をより選択的に制御することができる。 後者はサンプルアプリケーションによって示されます。

The extraction of text in high quality is essential for text-based document analysis tasks like Document Classification or Named Entity Recognition. Unfortunately, this is not always ensured, as poor scan quality and the resulting artifacts lead to errors in the Optical Character Recognition (OCR) process. Current approaches using Convolutional Neural Networks show promising results for background removal tasks but fail correcting artifacts like pixelation or compression errors. For general images, Transformer backbones are getting integrated more frequently in well-known neural network structures for denoising tasks. In this work, a modified UNet structure using a Swin Transformer backbone is presented to remove typical artifacts in scanned documents. Multi-headed cross-attention skip connections are used to more selectively learn features in respective levels of abstraction. The performance of this approach is examined regarding compression errors, pixelation and random noise. An improvement in text extraction quality with a reduced error rate of up to 53.9% on the synthetic data is archived. The pretrained base-model can be easily adapted to new artifacts. The cross-attention skip connections allow to integrate textual information extracted from the encoder or in form of commands to more selectively control the models outcome. The latter is shown by means of an example application.
翻訳日:2023-06-06 15:21:18 公開日:2023-06-05
# 構造化ニューラル深さ探索による深層能動学習

Deep Active Learning with Structured Neural Depth Search ( http://arxiv.org/abs/2306.02808v1 )

ライセンス: Link先を確認
Xiaoyun Zhang, Xieyi Ping and Jianwei Zhang(参考訳) これまでの研究は、データ複雑性の変化に基づいて、インクリメンタルニューラルネットワークアーキテクチャ検索(active-inas)を使用して、従来のアクティブラーニング(al)プロセスを最適化し、精度と学習効率を向上させる。 しかし、Active-iNASは複数のモデルを訓練し、各アクティブラーニングサイクルの後に次のサンプルをクエリする最適な一般化性能でモデルを選択する。 独立したトレーニングプロセスは、非効率で検索の柔軟性と最終的なパフォーマンスを制限し、補充不可能な計算予算につながる。 そこで我々は, ニューラルネットワーク深度探索において, ニューラルネットワーク深度探索に勾配降下法を用いることで, SVI (Structured Variational Inference) あるいはSNDS (Structured Neural Deep depth Search) と呼ばれる手法を用いて, 新たなアクティブ戦略を提案する。 同時に, 平均場推定に基づく現在のviベース手法が, 性能低下につながる可能性を理論的に証明した。 3つのクエリ技術と3つのデータセットを使って戦略を適用し、我々の戦略が現在の手法より優れていることを示す。

Previous work optimizes traditional active learning (AL) processes with incremental neural network architecture search (Active-iNAS) based on data complexity change, which improves the accuracy and learning efficiency. However, Active-iNAS trains several models and selects the model with the best generalization performance for querying the subsequent samples after each active learning cycle. The independent training processes lead to an insufferable computational budget, which is significantly inefficient and limits search flexibility and final performance. To address this issue, we propose a novel active strategy with the method called structured variational inference (SVI) or structured neural depth search (SNDS) whereby we could use the gradient descent method in neural network depth search during AL processes. At the same time, we theoretically demonstrate that the current VI-based methods based on the mean-field assumption could lead to poor performance. We apply our strategy using three querying techniques and three datasets and show that our strategy outperforms current methods.
翻訳日:2023-06-06 15:20:58 公開日:2023-06-05
# 損失関数分布のテール減衰率推定について

On Tail Decay Rate Estimation of Loss Function Distributions ( http://arxiv.org/abs/2306.02807v1 )

ライセンス: Link先を確認
Etrit Haxholli, Marco Lorenzi(参考訳) 損失関数分布の研究は、与えられた機械学習問題に対するモデルの振る舞いを特徴付けるのに不可欠である。 例えば、モデルの品質はテストセットで評価された平均損失によって一般的に決定されるが、この量は損失分布の真の平均の存在を反映していない。 実際、損失分布の統計モーメントの有限性は、一般的には知られていない尾の厚さと関連している。 典型的なクロスバリデーションスキームは、トレーニングサンプルに条件付きテスト損失分布の族を決定するため、トレーニングセットの空間を余剰化することにより、全体の損失分布を復元する必要がある。 この研究で示すように、サンプリング手順の有限性は、ピークス・オーヴァー・サースホールド法のようなエクストリーム値理論からの古典的テール推定手法の信頼性と効率に悪影響を及ぼす。 本研究は,各条件分布の位置間の大きなばらつきが存在する場合に,境界分布の尾部を推定するための新しい一般理論を開発することにより,この問題に対処する。 そこで本研究では,いくつかの正規性条件下では,辺縁分布の形状パラメータが条件分布の最大テール形状パラメータであることを示す。 この推定手法をCTE(Cross Tail Estimation)と呼ぶ。 シミュレーションデータと実データを用いたクロステール推定実験を行い,古典的手法と比較して高剛性と品質が向上したことを示すとともに,オーバーフィットと損失分布のテール厚みの関係を示す。

The study of loss function distributions is critical to characterize a model's behaviour on a given machine learning problem. For example, while the quality of a model is commonly determined by the average loss assessed on a testing set, this quantity does not reflect the existence of the true mean of the loss distribution. Indeed, the finiteness of the statistical moments of the loss distribution is related to the thickness of its tails, which are generally unknown. Since typical cross-validation schemes determine a family of testing loss distributions conditioned on the training samples, the total loss distribution must be recovered by marginalizing over the space of training sets. As we show in this work, the finiteness of the sampling procedure negatively affects the reliability and efficiency of classical tail estimation methods from the Extreme Value Theory, such as the Peaks-Over-Threshold approach. In this work we tackle this issue by developing a novel general theory for estimating the tails of marginal distributions, when there exists a large variability between locations of the individual conditional distributions underlying the marginal. To this end, we demonstrate that under some regularity conditions, the shape parameter of the marginal distribution is the maximum tail shape parameter of the family of conditional distributions. We term this estimation approach as Cross Tail Estimation (CTE). We test cross-tail estimation in a series of experiments on simulated and real data, showing the improved robustness and quality of tail estimation as compared to classical approaches, and providing evidence for the relationship between overfitting and loss distribution tail thickness.
翻訳日:2023-06-06 15:20:37 公開日:2023-06-05
# 時空間交通サービス管理のためのデータ駆動地域生成フレームワーク

A Data-driven Region Generation Framework for Spatiotemporal Transportation Service Management ( http://arxiv.org/abs/2306.02806v1 )

ライセンス: Link先を確認
Liyue Chen, Jiangyi Fang, Zhe Yu, Yongxin Tong, Shaosheng Cao, Leye Wang(参考訳) MAUP (modably isal unit problem) は空間データ管理と解析の基本的な問題である。 オンライン輸送プラットフォームにおけるMAUPのインスタンス化として、地域創出(サービス運用のアダル・ユニットの指定)は、配車や貨物輸送といった時空間輸送サービスを支援するための第1かつ重要なステップである。 既存の領域生成手法のほとんどは手動で指定されている(固定サイズのグリッドなど)。 本稿では,領域生成を多目的最適化問題としてモデル化することで,重要な特徴(例えば,空間意味と予測可能性)を持つ領域を特定できるデータ駆動型領域生成フレームワークであるRereaGenを提案する。 まず、良好な空間意味を得るために、RereaGenは都市全体を道路網や障害物(川など)に基づいて原子空間要素に分割する。 そして、多目的最適化問題として定式化された様々な動作特性を最大化することにより、原子空間要素を領域に集約する。 この最適化問題に対して,多目的共最適化アルゴリズムを提案する。 大規模な実験では、RereaGenは時空間サービス管理の従来の方法よりも適切なリージョンを生成することができる。

MAUP (modifiable areal unit problem) is a fundamental problem for spatial data management and analysis. As an instantiation of MAUP in online transportation platforms, region generation (i.e., specifying the areal unit for service operations) is the first and vital step for supporting spatiotemporal transportation services such as ride-sharing and freight transport. Most existing region generation methods are manually specified (e.g., fixed-size grids), suffering from poor spatial semantic meaning and inflexibility to meet service operation requirements. In this paper, we propose RegionGen, a data-driven region generation framework that can specify regions with key characteristics (e.g., good spatial semantic meaning and predictability) by modeling region generation as a multi-objective optimization problem. First, to obtain good spatial semantic meaning, RegionGen segments the whole city into atomic spatial elements based on road networks and obstacles (e.g., rivers). Then, it clusters the atomic spatial elements into regions by maximizing various operation characteristics, which is formulated as a multi-objective optimization problem. For this optimization problem, we propose a multi-objective co-optimization algorithm. Extensive experiments verify that RegionGen can generate more suitable regions than traditional methods for spatiotemporal service management.
翻訳日:2023-06-06 15:20:12 公開日:2023-06-05
# 三次元メタマテリアルの例外点近傍における超非対称吸収と反射

Extremely asymmetric absorption and reflection near the exceptional point of three-dimensional metamaterial ( http://arxiv.org/abs/2306.02804v1 )

ライセンス: Link先を確認
Yanjie Wu, Ding Zhang, Qiuyu Li, Hai Lin, Xintong Shi, Jie Xiong, Haoquan Hu, Jing Tian, Bian Wu, Y. Liu(参考訳) 近年、非エルミート系における例外点(EP)によって引き起こされる特定の物理的現象は、大きな研究関心を集めている。 本稿では,ep近傍に極めて非対称な吸収と反射を有する非エルミート3次元メタマテリアルを提案する。 従来の非エルミート系とは異なり、このメタマテリアルシステムは損失支援のユニークな設計で構築されている。 メタ原子中のスプリットリング共振器(srr)間の異方性放射損失をチューニングすることにより、eps特有の極端に非対称な吸収と反射が観察される。 この現象は理論的および実験的に証明され、非エルミート物理学の理論的枠組みを用いてシステムにおけるEPの形成を説明する。 等価回路モデル(ECM)とハミルトン量子物理モデルとを結びつけることにより、非エルミート伝送行列を構築する。 最後に、ECMに基づく分析方法を確立する。 合成次元において、従来の等価回路理論が非エルミート系の構築に利用できることが示されている。 我々の研究は、3DメタマテリアルプラットフォームにおけるEPの完全な吸収、センシング、その他の応用を開発するための道筋をたどっている。

In recent years, particular physical phenomena caused by exceptional points (EPs) in non-Hermitian systems have attracted significant research interests. In this paper, a non-Hermitian three-dimensional metamaterial near the EP with extremely asymmetric absorption and reflection is proposed. Unlike the conventional non-Hermitian system, this metamaterial system is constructed with a loss-assisted unique design. By tuning the anisotropic radiation loss between split ring resonator (SRR) in the meta-atoms, extremely asymmetric absorption and reflection unique to EPs are observed. This phenomenon is verified theoretically and experimentally where the theoretical framework of non-Hermitian physics is utilized to explain the formation of EP in the system. By linking the equivalent circuit model (ECM) with the Hamiltonian quantum physical model, a non-Hermitian transmission matrix is constructed. Finally, an analysis method based on the ECM is established. It is demonstrated in a synthetic dimension that the conventional equivalent circuit theory can be utilized to construct non-Hermitian systems. Our work lays down the way for the manipulation of EP to develop perfect absorption, sensing and other applications in the 3D metamaterial platform.
翻訳日:2023-06-06 15:19:50 公開日:2023-06-05
# hirevae:階層型およびレジームスイッチ型vaeに基づくオンラインおよび適応型ファクタモデル

HireVAE: An Online and Adaptive Factor Model Based on Hierarchical and Regime-Switch VAE ( http://arxiv.org/abs/2306.02848v1 )

ライセンス: Link先を確認
Zikai Wei, Anyi Rao, Bo Dai, Dahua Lin(参考訳) ファクターモデルは量的投資の基本的な投資ツールであり、複雑な投資状況において、より柔軟で効率的になるためにディープラーニングによって強化することができる。 しかし、オンライン・アダプティブな環境で株価予測を行うことができる要因モデルを構築するには、ポイント・イン・タイムの市場情報のみに基づいて、現在の市場体制に適合するようにモデルを適応させる必要がある。 この問題に対処するために,ヒレバエは,オンライン・適応型因子モデルとして初めて,市場状況と株価関連因子の関係を埋め込んだ階層型潜伏空間であるヒレバエを提案し,ヒレバエは歴史的市場情報のみを付加した有用な潜伏因子を効果的に推定し,その結果の正確なストックリターンを予測する。 4つの一般的な実市場ベンチマークにおいて、提案されたHireVAEは、従来の手法よりもアクティブリターンの点で優れたパフォーマンスを示し、そのようなオンラインおよび適応係数モデルの可能性を検証する。

Factor model is a fundamental investment tool in quantitative investment, which can be empowered by deep learning to become more flexible and efficient in practical complicated investing situations. However, it is still an open question to build a factor model that can conduct stock prediction in an online and adaptive setting, where the model can adapt itself to match the current market regime identified based on only point-in-time market information. To tackle this problem, we propose the first deep learning based online and adaptive factor model, HireVAE, at the core of which is a hierarchical latent space that embeds the underlying relationship between the market situation and stock-wise latent factors, so that HireVAE can effectively estimate useful latent factors given only historical market information and subsequently predict accurate stock returns. Across four commonly used real stock market benchmarks, the proposed HireVAE demonstrate superior performance in terms of active returns over previous methods, verifying the potential of such online and adaptive factor model.
翻訳日:2023-06-06 15:14:12 公開日:2023-06-05
# 顔の特徴と生理的信号を用いた解釈可能なマルチモーダル感情認識

Interpretable Multimodal Emotion Recognition using Facial Features and Physiological Signals ( http://arxiv.org/abs/2306.02845v1 )

ライセンス: Link先を確認
Puneet Kumar and Xiaobai Li(参考訳) 本稿では,感情認識のためのマルチモーダル情報の融合の重要性と実現可能性を示す。 入力映像から抽出した視覚特徴とrppg信号からの情報を用いて感情理解のためのマルチモーダルフレームワークを導入する。 また、ある入力ビデオから特定の感情クラスに分類するためのrPPGと視覚的モダリティの寄与を計算するために、置換特徴重要度分析に基づく解釈可能性技術も実装されている。 IEMOCAPデータセットの実験では、複数のモーダルからの相補的な情報を組み合わせることにより、感情分類性能が向上することを示した。

This paper aims to demonstrate the importance and feasibility of fusing multimodal information for emotion recognition. It introduces a multimodal framework for emotion understanding by fusing the information from visual facial features and rPPG signals extracted from the input videos. An interpretability technique based on permutation feature importance analysis has also been implemented to compute the contributions of rPPG and visual modalities toward classifying a given input video into a particular emotion class. The experiments on IEMOCAP dataset demonstrate that the emotion classification performance improves by combining the complementary information from multiple modalities.
翻訳日:2023-06-06 15:13:50 公開日:2023-06-05
# ロボットパトロール:クラウドソーシングとロボットシステムを使って視覚障害者に屋内ナビゲーションガイドを提供する

Robot Patrol: Using Crowdsourcing and Robotic Systems to Provide Indoor Navigation Guidance to The Visually Impaired ( http://arxiv.org/abs/2306.02843v1 )

ライセンス: Link先を確認
Ike Obi, Ruiqi Wang, Prakash Shukla, Byung-Cheol Min(参考訳) 室内ナビゲーションは障害のある人、特に視力の低い人や視覚障害者にとって困難な活動である。 研究者はこれらの課題を解決するために多くの解決策を探求してきたが、特に屋内環境における潜在的な障害に関する動的かつ文脈的な情報の提供に関して、いくつかの問題は未解決のままである。 本研究では,クラウドソーシングとコンピュータビジョンとロボットフレームワークを組み合わせて,視覚障害者にコンテキスト情報を提供するシステムであるrobot patrolを開発した。 特に、システムは視覚障害者に情報を提供するように設計されている。 1) 屋内行き先への経路上の潜在的な障害 2 回避又は出席を希望する経路上の屋内行事に関する情報及び 3) 屋内の目的地まで安全かつ効果的に移動できるように支援するその他の状況情報。 デモシステムのWizard of Oz実験から得られた発見は、システムのメリットと限界に関する洞察を提供する。 我々はこの発見の意義について簡潔に議論する。

Indoor navigation is a challenging activity for persons with disabilities, particularly, for those with low vision and visual impairment. Researchers have explored numerous solutions to resolve these challenges; however, several issues remain unsolved, particularly around providing dynamic and contextual information about potential obstacles in indoor environments. In this paper, we developed Robot Patrol, an integrated system that employs a combination of crowdsourcing, computer vision, and robotic frameworks to provide contextual information to the visually impaired to empower them to navigate indoor spaces safely. In particular, the system is designed to provide information to the visually impaired about 1) potential obstacles on the route to their indoor destination, 2) information about indoor events on their route which they may wish to avoid or attend, and 3) any other contextual information that might support them to navigate to their indoor destinations safely and effectively. Findings from the Wizard of Oz experiment of our demo system provide insights into the benefits and limitations of the system. We provide a concise discussion on the implications of our findings.
翻訳日:2023-06-06 15:13:38 公開日:2023-06-05
# 反事実データシミュレーションによる会話レコメンデーションシステムの改善

Improving Conversational Recommendation Systems via Counterfactual Data Simulation ( http://arxiv.org/abs/2306.02842v1 )

ライセンス: Link先を確認
Xiaolei Wang, Kun Zhou, Xinyu Tang, Wayne Xin Zhao, Fan Pan, Zhao Cao, Ji-Rong Wen(参考訳) conversational recommender systems(crss)は、自然言語による会話を通じてレコメンデーションサービスを提供する。 有能なCRSの開発にはいくつかのアプローチが提案されているが、訓練に十分なトレーニングデータに頼るのが一般的である。 推薦指向の対話データセットの注釈付けが難しいため、既存のCRSアプローチはトレーニングデータの不足によるトレーニング不足の問題に悩まされることが多い。 本稿では,CFCRS と呼ばれる CRS におけるデータ不足問題を軽減するために,CFCRS と命名された CRS のカウンタファクチュアルデータシミュレーション手法を提案する。 提案手法は,会話のフロー全体に干渉することなく,実際の対話からユーザの好みへの書き直しを徐々に取り入れる,対実データ拡張の枠組みに基づいて開発されている。 提案手法を開発するために,対話に関わるエンティティによってユーザの好みを識別し,会話フローを整理し,対話フロー言語モデルに基づく多段階のレコメンデーション対話シミュレータを設計する。 学習したユーザの好みと対話スキーマの指導の下、フロー言語モデルは合理的で一貫性のある会話フローを生成でき、完全な対話にさらに実現することができる。 シミュレーションに基づいて,対象ユーザの相互作用するエンティティの表現における介入を行い,データ拡張戦略を段階的に最適化可能なカリキュラムスケジュールで,敵対的トレーニング手法を設計する。 広範な実験により,本手法は,複数の競合crsの性能を一貫して向上させ,特にトレーニングデータに制限のある場合には,他のデータ拡張手法よりも優れることが示された。 私たちのコードはhttps://github.com/RUCAIBox/CFCRS.comで公開されています。

Conversational recommender systems (CRSs) aim to provide recommendation services via natural language conversations. Although a number of approaches have been proposed for developing capable CRSs, they typically rely on sufficient training data for training. Since it is difficult to annotate recommendation-oriented dialogue datasets, existing CRS approaches often suffer from the issue of insufficient training due to the scarcity of training data. To address this issue, in this paper, we propose a CounterFactual data simulation approach for CRS, named CFCRS, to alleviate the issue of data scarcity in CRSs. Our approach is developed based on the framework of counterfactual data augmentation, which gradually incorporates the rewriting to the user preference from a real dialogue without interfering with the entire conversation flow. To develop our approach, we characterize user preference and organize the conversation flow by the entities involved in the dialogue, and design a multi-stage recommendation dialogue simulator based on a conversation flow language model. Under the guidance of the learned user preference and dialogue schema, the flow language model can produce reasonable, coherent conversation flows, which can be further realized into complete dialogues. Based on the simulator, we perform the intervention at the representations of the interacted entities of target users, and design an adversarial training method with a curriculum schedule that can gradually optimize the data augmentation strategy. Extensive experiments show that our approach can consistently boost the performance of several competitive CRSs, and outperform other data augmentation methods, especially when the training data is limited. Our code is publicly available at https://github.com/RUCAIBox/CFCRS.
翻訳日:2023-06-06 15:13:24 公開日:2023-06-05
# 合成一般化改善のためのスパン置換学習

Learning to Substitute Spans towards Improving Compositional Generalization ( http://arxiv.org/abs/2306.02840v1 )

ライセンス: Link先を確認
Zhaoyi Li, Ying Wei and Defu Lian(参考訳) 神経配列モデルの増加にもかかわらず、最近の実証的証拠は合成一般化の欠如を示唆している。 この問題に対する現在のデファクトソリューションの1つは合成データ拡張であり、追加の合成帰納的バイアスを引き起こすことを目的としている。 それにもかかわらず、既存の手作りの強化戦略による改善は、神経配列モデルの体系的な一般化が成功した場合、多結晶構成バイアス(例えば、語彙バイアスまたは構造バイアスのみに限定されない)や、不均衡な難易度分布におけるトレーニングシーケンスの分化を必要とする場合に限られる。 この2つの課題に対処するために,我々はまず,トレーニングセット全体における実質的な部分構造の多面的構成を可能にする,新しい構成拡張戦略であるspansubを提案する。 その上で、spansubにおけるスパン置換確率の学習をエンドツーエンドで促進し、神経シーケンスモデルの損失を最大化することにより、難解な構成を不可解な概念や新しい環境に置き換えることのできる、 \textbf{l}earning \textbf{to} \textbf{s}ubstitute \textbf{s}pan (l2s2)フレームワークを紹介する。 SCAN, COGS, GeoQueryの3つの標準構成一般化ベンチマーク(それぞれ66.5\%, 10.3\%, 1.2\%)における実験結果から, SpanSub, %学習フレームワークL2S2およびそれらの組み合わせの優位性が示された。

Despite the rising prevalence of neural sequence models, recent empirical evidences suggest their deficiency in compositional generalization. One of the current de-facto solutions to this problem is compositional data augmentation, aiming to incur additional compositional inductive bias. Nonetheless, the improvement offered by existing handcrafted augmentation strategies is limited when successful systematic generalization of neural sequence models requires multi-grained compositional bias (i.e., not limited to either lexical or structural biases only) or differentiation of training sequences in an imbalanced difficulty distribution. To address the two challenges, we first propose a novel compositional augmentation strategy dubbed \textbf{Span} \textbf{Sub}stitution (SpanSub) that enables multi-grained composition of substantial substructures in the whole training set. Over and above that, we introduce the \textbf{L}earning \textbf{to} \textbf{S}ubstitute \textbf{S}pan (L2S2) framework which empowers the learning of span substitution probabilities in SpanSub in an end-to-end manner by maximizing the loss of neural sequence models, so as to outweigh those challenging compositions with elusive concepts and novel surroundings. Our empirical results on three standard compositional generalization benchmarks, including SCAN, COGS and GeoQuery (with an improvement of at most 66.5\%, 10.3\%, 1.2\%, respectively), demonstrate the superiority of SpanSub, %the learning framework L2S2 and their combination.
翻訳日:2023-06-06 15:12:58 公開日:2023-06-05
# 計算・絡み合いパワーにおける雑音量子デバイスの限界

Limitations of Noisy Quantum Devices in Computational and Entangling Power ( http://arxiv.org/abs/2306.02836v1 )

ライセンス: Link先を確認
Yuxuan Yan, Zhenyu Du, Junjie Chen, Xiongfeng Ma(参考訳) 量子コンピューティングデバイスはこの10年で急速に発展してきた。 誤り訂正のない現在の雑音量子デバイスを介して、有用だが古典的に難解な問題に対する量子の利点を見つけることに多大な努力が払われている。 古典コンピュータの助けを借りてノイズの多い量子デバイスの基本的限界を知ることが重要である。 一般的な古典処理を用いた計算では、回路深さが$O(\log n)$以上のノイズ量子デバイスは、いかなる量子アルゴリズムにも利点がないことを示す。 これはshor's、grover's、harrow-hassidim-lloyd、線形深さ変分アルゴリズムなど、よく知られた量子アルゴリズムを実装する可能性を厳密に無視する。 次に、ノイズ量子デバイスが1次元および2次元量子ビット接続下で生成できる最大絡み合いについて検討する。 特に、1次元の立方体鎖に対して、上界の$O(\log n)$を示す。 この発見は、量子シミュレーションとエンタングメント成長に関するスケーラビリティの抑制を強調している。 さらに,実例では古典的シミュラビリティに光を当てている。

Quantum computing devices have been rapidly developed in the past decade. Tremendous efforts have been devoted to finding quantum advantages for useful but classically intractable problems via current noisy quantum devices without error correction. It is important to know the fundamental limitations of noisy quantum devices with the help of classical computers. For computation with general classical processing, we show that noisy quantum devices with a circuit depth of more than $O(\log n)$ provide no advantages in any quantum algorithms. This rigorously rules out the possibility of implementing well-known quantum algorithms, including Shor's, Grover's, Harrow-Hassidim-Lloyd, and linear-depth variational algorithms. Then, we study the maximal entanglement that noisy quantum devices can produce under one- and two-dimensional qubit connections. In particular, for a one-dimensional qubit chain, we show an upper bound of $O(\log n)$. This finding highlights the restraints for quantum simulation and scalability regarding entanglement growth. Additionally, our result sheds light on the classical simulatability in practical cases.
翻訳日:2023-06-06 15:12:23 公開日:2023-06-05
# ロスレス圧縮性ニューラルネットワークパラメータの近接検出の計算複雑性

Computational Complexity of Detecting Proximity to Losslessly Compressible Neural Network Parameters ( http://arxiv.org/abs/2306.02834v1 )

ライセンス: Link先を確認
Matthew Farrugia-Roberts (The University of Melbourne)(参考訳) ニューラルネットワークの複雑性をよりよく理解するために、損失のないネットワーク圧縮の理想的な現象を理論的に検討し、より小さなネットワークで同じ機能を実装できる。 単層双曲型ネットワークの設定において、最適ロスレス圧縮のための効率的な形式的アルゴリズムを与える。 損失のない圧縮性を測定するために、パラメータのランクを同じ関数を実装するのに必要な隠れ単位の最小数と定義する。 ロスレス圧縮可能なパラメータは非典型的であるが、その存在は近隣のパラメータに影響を及ぼす。 パラメータの近位階を、小さな$l^\infty$近傍における最も圧縮可能なパラメータのランクとして定義する。 残念なことに、近傍の非圧縮的パラメータの検出はそれほど簡単ではない: 近似ランクの有界化はNP完全問題であり、小さな正方形を持つ平面の被覆点を含む幾何学的問題によってブール満足度から減少することを示した。 これらの結果は、ニューラルネットワークの複雑さを測定することの計算複雑性を強調し、この方向への将来の理論的かつ実証的な研究の基礎を築いた。

To better understand complexity in neural networks, we theoretically investigate the idealised phenomenon of lossless network compressibility, whereby an identical function can be implemented with a smaller network. We give an efficient formal algorithm for optimal lossless compression in the setting of single-hidden-layer hyperbolic tangent networks. To measure lossless compressibility, we define the rank of a parameter as the minimum number of hidden units required to implement the same function. Losslessly compressible parameters are atypical, but their existence has implications for nearby parameters. We define the proximate rank of a parameter as the rank of the most compressible parameter within a small $L^\infty$ neighbourhood. Unfortunately, detecting nearby losslessly compressible parameters is not so easy: we show that bounding the proximate rank is an NP-complete problem, using a reduction from Boolean satisfiability via a geometric problem involving covering points in the plane with small squares. These results underscore the computational complexity of measuring neural network complexity, laying a foundation for future theoretical and empirical work in this direction.
翻訳日:2023-06-06 15:12:06 公開日:2023-06-05
# L^\infty$のカーネルヒルベルト空間の学習性

The $L^\infty$ Learnability of Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2306.02833v1 )

ライセンス: Link先を確認
Hongrui Chen, Jihao Long, Lei Wu(参考訳) 本研究では,安全およびセキュリティクリティカルなアプリケーションにおいて,カーネルメソッドとランダム特徴モデルの性能を理解する上で重要である$l^\infty$ノルムの下で,カーネルヒルベルト空間(rkhs)を再現することの学習可能性を分析する。 具体的には、rkhs の $l^\infty$ 学習可能性と対応する核のスペクトル減衰を関連付け、サンプル複雑性の下限と上限の両方が確立される。 特に、球面上のドット積核に対して、$L^\infty$学習が多項式サンプルで達成できる条件を特定する。 d$ が入力次元を示し、カーネルスペクトルが大まかに$\lambda_k\sim k^{-1-\beta}$ で$\beta>0$と仮定する。 我々は、$\beta$が入力次元$d$とは独立であれば、RKHSの関数は$L^\infty$ノルムの下で効率的に学習できることを証明している。 対照的に、$\beta=1/\mathrm{poly}(d)$ の場合、$L^\infty$ 学習は指数的に多くのサンプルを必要とする。

In this work, we analyze the learnability of reproducing kernel Hilbert spaces (RKHS) under the $L^\infty$ norm, which is critical for understanding the performance of kernel methods and random feature models in safety- and security-critical applications. Specifically, we relate the $L^\infty$ learnability of a RKHS to the spectrum decay of the associate kernel and both lower bounds and upper bounds of the sample complexity are established. In particular, for dot-product kernels on the sphere, we identify conditions when the $L^\infty$ learning can be achieved with polynomial samples. Let $d$ denote the input dimension and assume the kernel spectrum roughly decays as $\lambda_k\sim k^{-1-\beta}$ with $\beta>0$. We prove that if $\beta$ is independent of the input dimension $d$, then functions in the RKHS can be learned efficiently under the $L^\infty$ norm, i.e., the sample complexity depends polynomially on $d$. In contrast, if $\beta=1/\mathrm{poly}(d)$, then the $L^\infty$ learning requires exponentially many samples.
翻訳日:2023-06-06 15:11:48 公開日:2023-06-05
# MM-DAG:マルチモーダルデータのためのマルチタスクDAG学習と交通渋滞解析への応用

MM-DAG: Multi-task DAG Learning for Multi-modal Data -- with Application for Traffic Congestion Analysis ( http://arxiv.org/abs/2306.02831v1 )

ライセンス: Link先を確認
Tian Lan, Ziyue Li, Zhishuai Li, Lei Bai, Man Li, Fugee Tsung, Wolfgang Ketter, Rui Zhao, Chen Zhang(参考訳) 本稿では,複雑なシステム,例えば交通システム,製造システム,気象システムにおいてよく観測されるマルチタスク,マルチモーダル直接非循環グラフ(mm-dag)を学習することを提案する。 本稿では,交通渋滞解析を具体例とし,通常,交通交差点をDAGとみなす。 複数の交差点からなる道路網では、異なる交差点は重なり合い、異なる変数しか観測できない。 例えば、信号化交叉は信号光に関連する変数を持つが、信号化交叉はそうではない。 タスクとして各DAGを使用すれば、MM-DAGは複数のDAGを共同で学習し、コンセンサスと一貫性を最大化する。 そこで本稿では,変数の線形因果関係記述のためのマルチモーダル回帰法を提案する。 次に、新しい因果差(CD)尺度とその微分可能近似器を開発する。 既存のSOTA測度と比較すると、CDは異なるノードを持つDAG間の因果構造の違いを罰し、因果順序の不確実性を考慮することができる。 設計のトポロジ的解釈と一貫性特性を厳密に証明する。 我々は,MM-DAGの有効性を示すため,徹底的なシミュレーションと一事例研究を行った。 コードはhttps://github.com/Lantian72/MM-DAGで入手できる。

This paper proposes to learn Multi-task, Multi-modal Direct Acyclic Graphs (MM-DAGs), which are commonly observed in complex systems, e.g., traffic, manufacturing, and weather systems, whose variables are multi-modal with scalars, vectors, and functions. This paper takes the traffic congestion analysis as a concrete case, where a traffic intersection is usually regarded as a DAG. In a road network of multiple intersections, different intersections can only have some overlapping and distinct variables observed. For example, a signalized intersection has traffic light-related variables, whereas unsignalized ones do not. This encourages the multi-task design: with each DAG as a task, the MM-DAG tries to learn the multiple DAGs jointly so that their consensus and consistency are maximized. To this end, we innovatively propose a multi-modal regression for linear causal relationship description of different variables. Then we develop a novel Causality Difference (CD) measure and its differentiable approximator. Compared with existing SOTA measures, CD can penalize the causal structural difference among DAGs with distinct nodes and can better consider the uncertainty of causal orders. We rigidly prove our design's topological interpretation and consistency properties. We conduct thorough simulations and one case study to show the effectiveness of our MM-DAG. The code is available under https://github.com/Lantian72/MM-DAG
翻訳日:2023-06-06 15:11:27 公開日:2023-06-05
# UNIDECOR:クロスコルプス偽装検出用統一偽装コーパス

UNIDECOR: A Unified Deception Corpus for Cross-Corpus Deception Detection ( http://arxiv.org/abs/2306.02827v1 )

ライセンス: Link先を確認
Aswathy Velutharambath and Roman Klinger(参考訳) 心理学、法医学、計算言語学において、行動パターンの理解、偽証の特定、オンラインコミュニケーションにおける偽証の検出など、様々な理由で研究されている。 研究分野にまたがるモチベーションの変化は、学習するドメインの選択と、デセプションの概念化の違いにつながり、モデルの比較や、与えられた言語に対する堅牢なデセプション検出システムの構築が困難になる。 本稿では,ソーシャルメディアレビュー,裁判所証言,特定の話題に対する意見陳述,オンライン戦略ゲームからの偽装対話などのドメインを含む,利用可能な英語の偽装データセットを調査し,この状況を改善する。 これらのデータセットを単一の統一コーパスに統合する。 この資料に基づいて,データセット間での誤認の言語的方法の相関解析を行い,その違いを理解し,クロスドメインの一般化が困難であることを示すクロスコーパスモデリング実験を行う。 統一偽装コーパス(UNIDECOR)はhttps://www.ims.uni-stuttgart.de/data/unidecorから得ることができる。

Verbal deception has been studied in psychology, forensics, and computational linguistics for a variety of reasons, like understanding behaviour patterns, identifying false testimonies, and detecting deception in online communication. Varying motivations across research fields lead to differences in the domain choices to study and in the conceptualization of deception, making it hard to compare models and build robust deception detection systems for a given language. With this paper, we improve this situation by surveying available English deception datasets which include domains like social media reviews, court testimonials, opinion statements on specific topics, and deceptive dialogues from online strategy games. We consolidate these datasets into a single unified corpus. Based on this resource, we conduct a correlation analysis of linguistic cues of deception across datasets to understand the differences and perform cross-corpus modeling experiments which show that a cross-domain generalization is challenging to achieve. The unified deception corpus (UNIDECOR) can be obtained from https://www.ims.uni-stuttgart.de/data/unidecor.
翻訳日:2023-06-06 15:11:06 公開日:2023-06-05
# アーキテクチャ非依存等分散に対する確率的対称性の学習

Learning Probabilistic Symmetrization for Architecture Agnostic Equivariance ( http://arxiv.org/abs/2306.02866v1 )

ライセンス: Link先を確認
Jinwoo Kim, Tien Dat Nguyen, Ayhan Suleymanzade, Hyeokjun An, Seunghoon Hong(参考訳) 群対称性を持つ学習関数における同変アーキテクチャの限界を克服する新しい枠組みを提案する。 等変アーキテクチャとは対照的に、任意の基底モデル(MPPや変圧器など)を用い、対称性化の根底にある確率分布をパラメータ化する小さな同変ネットワークを用いることで、与えられた群に同変であるようにシンメトリゼーションする。 分布は、対称性のサンプル複雑性を減らしながら、性能を最大化できるベースモデルで、エンドツーエンドで訓練される。 このアプローチは、与えられた群に同値なだけでなく、予想における普遍近似能力も確保できることを示す。 本手法は,事前学習した視覚変換器から初期化可能な単純なパッチベーストランスフォーマに実装し,置換群とユークリッド群,それらの組合せを含む幅広い対称性群に対してテストを行う。 経験的テストは、調整された同変アーキテクチャに対する競合結果を示し、非等変ユニバーサルベースアーキテクチャを用いて多様な群に対する同変関数を学習する可能性を示している。 さらに,視覚などの非対称モダリティから事前学習した場合,グラフのような対称モダリティにおける強化学習の証拠を示す。 実装はhttps://github.com/jw9730/lpsでオープンソース化します。

We present a novel framework to overcome the limitations of equivariant architectures in learning functions with group symmetries. In contrary to equivariant architectures, we use an arbitrary base model (such as an MLP or a transformer) and symmetrize it to be equivariant to the given group by employing a small equivariant network that parameterizes the probabilistic distribution underlying the symmetrization. The distribution is end-to-end trained with the base model which can maximize performance while reducing sample complexity of symmetrization. We show that this approach ensures not only equivariance to given group but also universal approximation capability in expectation. We implement our method on a simple patch-based transformer that can be initialized from pretrained vision transformers, and test it for a wide range of symmetry groups including permutation and Euclidean groups and their combinations. Empirical tests show competitive results against tailored equivariant architectures, suggesting the potential for learning equivariant functions for diverse groups using a non-equivariant universal base architecture. We further show evidence of enhanced learning in symmetric modalities, like graphs, when pretrained from non-symmetric modalities, like vision. Our implementation will be open-sourced at https://github.com/jw9730/lps.
翻訳日:2023-06-06 15:04:54 公開日:2023-06-05
# セレンディピティーの獲得:オフポリティアクター批判における過去の成功価値の爆発

Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic ( http://arxiv.org/abs/2306.02865v1 )

ライセンス: Link先を確認
Tianying Ji, Yu Luo, Fuchun Sun, Xianyuan Zhan, Jianwei Zhang, Huazhe Xu(参考訳) 高品質なQ値関数の学習は、多くの現代のオフポリティ深い強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。 これまでの研究では、価値の過大評価問題、関数近似子の採用とオフポリティミー学習の成果に焦点が当てられている。 共通視点から考えると、RLトレーニングプロセスの後半段階では、Q値が実際に過小評価され、主にリプレイバッファのより最適なアクションサンプルと比較して、ベルマン更新における現在のポリシーからの劣るアクションの使用に関連している。 この長期にわたる現象が政策学習を妨げる可能性があり、サンプル効率を低下させるという仮説を立てる。 この問題に対処するための私たちの洞察は、探索の楽観性を維持しながら、過去の成功の十分な活用を組み込むことです。 我々は,過去のベストパフォーマンスアクションと現在のポリシの両方を使用してq値を更新する,単純かつ効果的なアプローチであるmixed exploitation and exploration (bee)オペレータを提案する。 モデルフリーとモデルベースの両方の設定における本手法のインスタンス化は, 各種連続制御タスクにおける最先端の手法よりも優れ, 障害発生シナリオや実世界のロボットタスクにおいて高い性能を実現する。

Learning high-quality Q-value functions plays a key role in the success of many modern off-policy deep reinforcement learning (RL) algorithms. Previous works focus on addressing the value overestimation issue, an outcome of adopting function approximators and off-policy learning. Deviating from the common viewpoint, we observe that Q-values are indeed underestimated in the latter stage of the RL training process, primarily related to the use of inferior actions from the current policy in Bellman updates as compared to the more optimal action samples in the replay buffer. We hypothesize that this long-neglected phenomenon potentially hinders policy learning and reduces sample efficiency. Our insight to address this issue is to incorporate sufficient exploitation of past successes while maintaining exploration optimism. We propose the Blended Exploitation and Exploration (BEE) operator, a simple yet effective approach that updates Q-value using both historical best-performing actions and the current policy. The instantiations of our method in both model-free and model-based settings outperform state-of-the-art methods in various continuous control tasks and achieve strong performance in failure-prone scenarios and real-world robot tasks.
翻訳日:2023-06-06 15:04:22 公開日:2023-06-05
# 公務分野における話題分類のための大規模言語モデル活用

Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs ( http://arxiv.org/abs/2306.02864v1 )

ライセンス: Link先を確認
Alejandro Pe\~na, Aythami Morales, Julian Fierrez, Ignacio Serna, Javier Ortega-Garcia, I\~nigo Puente, Jorge Cordova, Gonzalo Cordova(参考訳) 行政文書の分析は、透明性、説明責任、情報的意思決定を促進するため、市民にとって不可欠である。 市民は政府の政策を理解し、公的な議論に参加し、代表者が責任を負うことができる。 特定の規制に依存している企業にとって、これは重要なことであり、時には命または死の問題である。 大規模言語モデル(LLM)は、そのような文書で使用される複雑な言語を効果的に処理し理解することで、公務文書の分析を大幅に強化する可能性がある。 本研究では,公務文書の分類におけるLCMの性能分析を行う。 自然なマルチラベルタスクとして、これらの文書の分類は重要な課題である。 本研究では,33K以上のサンプルと22.5Mトークンを持つ公開事務文書のデータベース収集に,Regexを利用したツールを使用する。 実験では,スペインにおける4つの異なるllmの性能を評価し,最大30のトピックを異なる構成で分類した。 その結果, LLM は公務分野の文書など, ドメイン固有の文書の処理に有効であることが示唆された。

The analysis of public affairs documents is crucial for citizens as it promotes transparency, accountability, and informed decision-making. It allows citizens to understand government policies, participate in public discourse, and hold representatives accountable. This is crucial, and sometimes a matter of life or death, for companies whose operation depend on certain regulations. Large Language Models (LLMs) have the potential to greatly enhance the analysis of public affairs documents by effectively processing and understanding the complex language used in such documents. In this work, we analyze the performance of LLMs in classifying public affairs documents. As a natural multi-label task, the classification of these documents presents important challenges. In this work, we use a regex-powered tool to collect a database of public affairs documents with more than 33K samples and 22.5M tokens. Our experiments assess the performance of 4 different Spanish LLMs to classify up to 30 different topics in the data in different configurations. The results shows that LLMs can be of great use to process domain-specific documents, such as those in the domain of public affairs.
翻訳日:2023-06-06 15:03:45 公開日:2023-06-05
# drive-bath interplayのデコード:超伝導向上のための指針

Decoding the drive-bath interplay: A guideline to enhance superconductivity ( http://arxiv.org/abs/2306.02861v1 )

ライセンス: Link先を確認
Rui Lin, Aline Ramires, R. Chitra(参考訳) 駆動散逸物理学は量子光学の核にある。 しかし、駆動量子多体系とその環境との完全な相互作用は、固体領域では比較的解明されていない。 本研究では, 駆動型超伝導体の具体例に基づいて, 一般に採用されているストロボスコピック・ハミルトニアン・ピクチャーを超えて, この相互作用を検証した。 シャーリー・フロケットとケルディッシュの定式化と、駆動されたケースに対する超伝導適合性の概念の一般化を用いて、超伝導ギャップ演算子と反共役する駆動が、熱浴の観点からスペクトル関数の異常な粒子ホール構造を一般化することを示した。 基礎となる相互作用の固有遮断周波数とほぼ共振する駆動周波数と相まって、このスペクトル構造を利用して超伝導遷移温度を高めることができる。 我々の研究は、固体系における物質のエキゾチック相の駆動散逸工学のさらなる研究の道を開く。

Driven-dissipative physics lie at the core of quantum optics. However, the full interplay between a driven quantum many-body system and its environment remains relatively unexplored in the solid state realm. In this work, we inspect this interplay beyond the commonly employed stroboscopic Hamiltonian picture based on the specific example of a driven superconductor. Using the Shirley-Floquet and Keldysh formalisms as well as a generalization of the notion of superconducting fitness to the driven case, we show how a drive which anti-commutes with the superconducting gap operator generically induces an unusual particle-hole structure in the spectral functions from the perspective of the thermal bath. Concomitant with a driving frequency which is near resonant with the intrinsic cutoff frequency of the underlying interaction, this spectral structure can be harnessed to enhance the superconducting transition temperature. Our work paves the way for further studies for driven-dissipative engineering of exotic phases of matter in solid-state systems.
翻訳日:2023-06-06 15:03:05 公開日:2023-06-05
# 弱教師付き学習のための局所ブースティング

Local Boosting for Weakly-Supervised Learning ( http://arxiv.org/abs/2306.02859v1 )

ライセンス: Link先を確認
Rongzhi Zhang, Yue Yu, Jiaming Shen, Xiquan Cui, Chao Zhang(参考訳) ブースティングは、ベースモデルのセットを強力なアンサンブルモデルに組み合わせることで、パフォーマンスを向上させるために一般的に使用されるテクニックである。 広く採用されているが、boostingは通常、データが正確にラベル付けされた教師付き学習で使用される。 しかしながら、ほとんどのデータが弱くノイズの多いソースを通じてラベル付けされている弱い教師付き学習では、効果的なブースティングアプローチを設計することは非自明である。 本研究では,基本学習者の凸結合の標準的な実装は,ノイズのあるラベルが存在するため,ほとんど動作しないことを示す。 代わりに、弱教師付きブースティングのための新しいフレームワークである$\textit{LocalBoost}$を提案する。 LocalBoostは、アンサンブルモデルをイントラソースとイントラソースの2次元から反復的に強化する。 ソース内ブースティングは、ベース学習者に局所性を導入し、新しいベース学習者を粒度変動エラー領域で訓練することにより、ベース学習者が特定の特徴体系に集中できるようにする。 ソース間ブーピングでは、条件関数を利用して、サンプルがより出現しやすい弱いソースを示す。 弱いラベルを考慮し,モデル重みを計算するための推定量修正手法をさらに設計する。 7つのデータセットに対する実験により,本手法はバニラブースティング法や他の弱教師付き手法よりも優れていた。

Boosting is a commonly used technique to enhance the performance of a set of base models by combining them into a strong ensemble model. Though widely adopted, boosting is typically used in supervised learning where the data is labeled accurately. However, in weakly supervised learning, where most of the data is labeled through weak and noisy sources, it remains nontrivial to design effective boosting approaches. In this work, we show that the standard implementation of the convex combination of base learners can hardly work due to the presence of noisy labels. Instead, we propose $\textit{LocalBoost}$, a novel framework for weakly-supervised boosting. LocalBoost iteratively boosts the ensemble model from two dimensions, i.e., intra-source and inter-source. The intra-source boosting introduces locality to the base learners and enables each base learner to focus on a particular feature regime by training new base learners on granularity-varying error regions. For the inter-source boosting, we leverage a conditional function to indicate the weak source where the sample is more likely to appear. To account for the weak labels, we further design an estimate-then-modify approach to compute the model weights. Experiments on seven datasets show that our method significantly outperforms vanilla boosting methods and other weakly-supervised methods.
翻訳日:2023-06-06 15:02:32 公開日:2023-06-05
# Video-LLaMA: 映像理解のための命令調整型オーディオ・ビジュアル言語モデル

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding ( http://arxiv.org/abs/2306.02858v1 )

ライセンス: Link先を確認
Hang Zhang, Xin Li, Lidong Bing(参考訳) 本稿では,ビデオ内の視覚的・聴覚的コンテンツの両方を理解する能力を備えた大規模言語モデル(LLM)を実現するマルチモーダルフレームワークであるVideo-LLaMAを提案する。 Video-LLaMAは、凍結事前訓練されたビジュアル \&オーディオエンコーダと凍結LDMからのクロスモーダルトレーニングを行う。 MiniGPT-4~\citep{zhu2023minigpt} や LLaVA~\citep{liu2023visualit} のような静的画像理解に焦点を当てた従来のビジョン-LLMとは異なり、Video-LLaMAはビデオ理解における2つの課題に対処している。 最初の課題として,事前学習した画像エンコーダをビデオエンコーダに拡張するビデオQ-formerを提案し,ビデオ言語対応学習のためのビデオ-テキスト生成タスクを提案する。 第2の課題として、imagebind~\citep{girdhar2023imagebind}を事前学習したオーディオエンコーダとして活用し、異なるモダリティを共通の埋め込み空間に整列させる。 そして、聴覚クエリトークンを学ぶためのAudio Q-formerを導入する。 映像と音声のエンコーダの出力をLLMの埋め込み空間と整合させるため,大規模視覚キャプションデータセットとハイクオリティ視覚インストラクションチューニングデータセットでVideo-LLaMAを訓練する。 ビデオ-LLaMAは,映像内容の知覚と理解能力を示し,映像に含まれる視覚情報や聴覚情報に基づく有意義な応答を生成する。 このことは、オーディオ視覚AIアシスタントの有望なプロトタイプとしてのVideo-LLaMAの可能性を強調している。 私たちのコード、事前トレーニングされたモデル、デモは、 \url{https://github.com/DAMO-NLP-SG/Video-LLaMA}で公開されています。

We present Video-LLaMA, a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike previous vision- LLMs that focus on static image comprehensions such as MiniGPT-4~\citep{zhu2023minigpt} and LLaVA~\citep{liu2023visualit}, Video-LLaMA tackles two challenges in video understanding: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. For the first challenge, we propose Video Q-former to extend the pre-trained image encoder to a video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind~\citep{girdhar2023imagebind} as the pre-trained audio encoder which performs exceptionally well in aligning different modalities to a common embedding space. And then introduce an Audio Q-former to learn auditory query tokens. To align the output of both visual \& audio encoder with LLM's embedding space, we train Video-LLaMA on a large-scale vision caption dataset and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA showcases the ability to perceive and comprehend video content, generating meaningful responses that are grounded in the visual and auditory information present in the videos. This highlights the potential of Video-LLaMA as a promising prototype for audio-visual AI assistants. Our code, pre-trained model, and demo are available at \url{https://github.com/DAMO-NLP-SG/Video-LLaMA}.
翻訳日:2023-06-06 15:02:11 公開日:2023-06-05
# 2次元材料における全光スイッチング

All-Optical Ultrafast Valley Switching in Two-Dimensional Materials ( http://arxiv.org/abs/2306.02856v1 )

ライセンス: Link先を確認
Navdeep Rana and Gopal Dixit(参考訳) 2次元材料の電子は、スピンアップとスピンダウンに類似した、$\mathbf{K}$と$\mathbf{K}^{\prime}$とラベルされた追加の量子属性であるバレー擬スピンを持つ。 バレートロニクスにおける谷選択的励起を達成する研究の大部分は、所定のヘリシティを持つ共鳴円偏光に依存する。 谷選択電子励起を得るだけでなく、ある谷から別の谷へ励起を切り替えることも、バレートロニクスに基づく技術の実現に不可欠である。 本研究は,何万秒かのフェムト秒以内に,ある谷から別の谷へ励起を切り替える,バレー選択的な励起を開始するためのコヒーレント制御プロトコルを導入している。 我々のプロトコルは、ガッピングおよびギャップのない二次元材料にも等しく適用できる。 単層グラフェンとモリブデンジスルフィドは普遍性をテストするために用いられる。 さらに、このプロトコルは、レーザーパルスの劣化時間、波長、時間遅延などのプロトコルの重要なパラメータに敏感であるため、堅牢である。 現在の研究は既存のバレートロニクスのパラダイムを超えており、ペタヘルツ速度でバレースイッチの新しい領域を開く。

Electrons in two-dimensional materials possess an additional quantum attribute, the valley pseudospin, labelled as $\mathbf{K}$ and $\mathbf{K}^{\prime}$ -- analogous to the spin up and spin down. The majority of research to achieve valley-selective excitations in valleytronics depends on resonant circularly-polarised light with a given helicity. Not only acquiring valley-selective electron excitation but also switching the excitation from one valley to another is quintessential for bringing valleytronics-based technologies in reality. Present work introduces a coherent control protocol to initiate valley-selective excitation, de-excitation, and switch the excitation from one valley to another on the fly within tens of femtoseconds -- a timescale faster than any valley decoherence time. Our protocol is equally applicable to {\it both} gapped and gapless two-dimensional materials. Monolayer graphene and molybdenum disulfide are used to test the universality. Moreover, the protocol is robust as it is insensitive to significant parameters of the protocol, such as dephasing times, wavelengths, and time delays of the laser pulses. Present work goes beyond the existing paradigm of valleytronics, and opens a new realm of valley switch at PetaHertz rate.
翻訳日:2023-06-06 15:01:31 公開日:2023-06-05
# コントラスト学習のための非対称パッチサンプリング

Asymmetric Patch Sampling for Contrastive Learning ( http://arxiv.org/abs/2306.02854v1 )

ライセンス: Link先を確認
Chengchao Shen, Jianzhong Chen, Shu Wang, Hulin Kuang, Jin Liu, Jianxin Wang(参考訳) 正のペア間の非対称な外観は、コントラスト学習における表現劣化のリスクを効果的に低減する。 しかし、既存の手法によって構成された正の対の間には相似点が多数存在し、さらなる表現改善を阻害する。 本稿では,コントラスト学習のための新しい非対称パッチサンプリング戦略を提案する。 具体的には、与えられた画像にデュアルパッチサンプリング戦略を適用し、非対称な正対を得る。 まず、スパースパッチサンプリングを行い、画像の空間的冗長性を低減し、より非対称なビューを可能にする第1のビューを得る。 第2に,選択的なパッチサンプリングを提案し,第1のパッチに比べて外観の相違が大きい別のビューを構築する。 正のペア間の相似性が理解できないため、訓練されたモデルは、低レベルのペアではなく、意味論の相似性を捉えることが推奨される。 実験結果から,提案手法はImageNet-1KとCIFARデータセットの両方において,既存の自己教師手法よりも優れていることがわかった。 さらに,本手法は, ダウンストリームタスク, オブジェクト検出, COCO のインスタンスセグメンテーション, その他の自己管理手法と比較して, トレーニング中のメモリと計算の両面において, より効率的である。 ソースコードはhttps://github.com/visresearch/apsで入手できる。

Asymmetric appearance between positive pair effectively reduces the risk of representation degradation in contrastive learning. However, there are still a mass of appearance similarities between positive pair constructed by the existing methods, which inhibits the further representation improvement. In this paper, we propose a novel asymmetric patch sampling strategy for contrastive learning, to further boost the appearance asymmetry for better representations. Specifically, dual patch sampling strategies are applied to the given image, to obtain asymmetric positive pairs. First, sparse patch sampling is conducted to obtain the first view, which reduces spatial redundancy of image and allows a more asymmetric view. Second, a selective patch sampling is proposed to construct another view with large appearance discrepancy relative to the first one. Due to the inappreciable appearance similarity between positive pair, the trained model is encouraged to capture the similarity on semantics, instead of low-level ones. Experimental results demonstrate that our proposed method significantly outperforms the existing self-supervised methods on both ImageNet-1K and CIFAR dataset, e.g., 2.5% finetune accuracy improvement on CIFAR100. Furthermore, our method achieves state-of-the-art performance on downstream tasks, object detection and instance segmentation on COCO.Additionally, compared to other self-supervised methods, our method is more efficient on both memory and computation during training. The source code is available at https://github.com/visresearch/aps.
翻訳日:2023-06-06 15:01:12 公開日:2023-06-05
# 居所としての場面

Scene as Occupancy ( http://arxiv.org/abs/2306.02851v1 )

ライセンス: Link先を確認
Wenwen Tong, Chonghao Sima, Tai Wang, Silei Wu, Hanming Deng, Li Chen, Yi Gu, Lewei Lu, Ping Luo, Dahua Lin, Hongyang Li(参考訳) 人間ドライバーは、視覚システムによって複雑な交通シーンを簡単に記述できる。 このような正確な認識能力はドライバーの計画に不可欠である。 これを実現するには、物理的3dシーンを3d占有と呼ばれるセルごとの意味ラベルを持つ構造化グリッドマップに定量化する幾何認識表現が望ましい。 拘束箱の形式と比較すると、占領の背景にある重要な洞察は、シーン内の重要な障害物のきめ細かい詳細を捉え、その後の作業を容易にすることである。 先行的あるいは同時的な文献は、主に単一のシーン完了タスクに集中しており、この占有率表現の可能性は、より広範な影響を過小評価するかもしれない。 本稿では,3次元空間を再現するためのカスケードとテンポラリボクセルデコーダを備えた多視点視覚中心パイプラインであるoccnetを提案する。 OccNetの中核には3D物理世界を表す汎用の占有層がある。 このような記述子は、検出、セグメンテーション、計画を含む幅広い運転タスクに適用できる。 この表現の有効性と提案アルゴリズムの有効性を検証するため,我々はnuScenes上に構築された初の高品位3D占有率ベンチマークOpenOccを提案する。 実験の結果,複数のタスクにまたがる性能向上が確認できた。例えば,動作計画では衝突速度が15%~58%低下し,提案手法の優位性が示された。

Human driver can easily describe the complex traffic scene by visual system. Such an ability of precise perception is essential for driver's planning. To achieve this, a geometry-aware representation that quantizes the physical 3D scene into structured grid map with semantic labels per cell, termed as 3D Occupancy, would be desirable. Compared to the form of bounding box, a key insight behind occupancy is that it could capture the fine-grained details of critical obstacles in the scene, and thereby facilitate subsequent tasks. Prior or concurrent literature mainly concentrate on a single scene completion task, where we might argue that the potential of this occupancy representation might obsess broader impact. In this paper, we propose OccNet, a multi-view vision-centric pipeline with a cascade and temporal voxel decoder to reconstruct 3D occupancy. At the core of OccNet is a general occupancy embedding to represent 3D physical world. Such a descriptor could be applied towards a wide span of driving tasks, including detection, segmentation and planning. To validate the effectiveness of this new representation and our proposed algorithm, we propose OpenOcc, the first dense high-quality 3D occupancy benchmark built on top of nuScenes. Empirical experiments show that there are evident performance gain across multiple tasks, e.g., motion planning could witness a collision rate reduction by 15%-58%, demonstrating the superiority of our method.
翻訳日:2023-06-06 15:00:47 公開日:2023-06-05
# 動的カメラを用いた3次元環境におけるアバターの5次元時間回帰

TRACE: 5D Temporal Regression of Avatars with Dynamic Cameras in 3D Environments ( http://arxiv.org/abs/2306.02850v1 )

ライセンス: Link先を確認
Yu Sun, Qian Bao, Wu Liu, Tao Mei, Michael J. Black(参考訳) 人間の3次元ポーズと形状(HPS)の推定は急速に進んでいるが、現在の方法では、多くのアプリケーションにとって重要なグローバル座標における人間の移動を確実に推定することはできない。 カメラが動き、人間とカメラの動きが絡み合っている場合、これは特に難しい。 これらの問題に対処するために、私たちは、シーン内の人々に関するエンドツーエンドの推論を可能にする新しい5D表現(空間、時間、アイデンティティ)を採用する。 TRACEと呼ばれるこの手法は,いくつかの新しいアーキテクチャ要素を導入している。 一番重要なのは、カメラと世界座標で3Dの軌跡を判断するために2つの新しい「マップ」を使っていることです。 追加のメモリユニットは、長時間の閉塞時にも、人々の継続的な追跡を可能にする。 TRACEは、ダイナミックカメラからグローバル座標における3D人間の共同回収と追跡を行う最初のワンステージ手法である。 エンドツーエンドにトレーニングし、フルイメージ情報を使用することで、TRACEはトラッキングとHPSベンチマークの最先端のパフォーマンスを達成する。 コードとデータセットは研究目的でリリースされている。

Although the estimation of 3D human pose and shape (HPS) is rapidly progressing, current methods still cannot reliably estimate moving humans in global coordinates, which is critical for many applications. This is particularly challenging when the camera is also moving, entangling human and camera motion. To address these issues, we adopt a novel 5D representation (space, time, and identity) that enables end-to-end reasoning about people in scenes. Our method, called TRACE, introduces several novel architectural components. Most importantly, it uses two new "maps" to reason about the 3D trajectory of people over time in camera, and world, coordinates. An additional memory unit enables persistent tracking of people even during long occlusions. TRACE is the first one-stage method to jointly recover and track 3D humans in global coordinates from dynamic cameras. By training it end-to-end, and using full image information, TRACE achieves state-of-the-art performance on tracking and HPS benchmarks. The code and dataset are released for research purposes.
翻訳日:2023-06-06 15:00:24 公開日:2023-06-05
# 低照度化のための教師なしネットワーク

Unsupervised network for low-light enhancement ( http://arxiv.org/abs/2306.02883v1 )

ライセンス: Link先を確認
Praveen Kandula, Maitreya Suin, and A. N. Rajagopalan(参考訳) 監視ネットワークは、ペア画像を用いた低照度化の課題に対処する。 しかし、シーンが静止している必要があるため、様々な低照度/クリーンなペア画像の収集は面倒である。 本稿では,コンテキスト誘導照明適応ノルム(cin)を用いた教師なし低光度ネットワークを提案する。 そこで本研究では,この課題を2段階に分けて解決することを提案する。 ステージIでは、ピクセル増幅モジュール(PAM)を使用して、視認性と美的品質の全体的な改善を伴う粗い推定値を生成する。 ステージIIは、CINを用いた画像の飽和暗いピクセルとシーン特性をさらに強化する。 異なるアブレーション研究は、画像の可視性を改善するためにPAMとCINが重要であることを示している。 次に,低照度画像から複数の強調画像を生成することができる領域適応型単一入力多重出力(SIMO)モデルを提案する。 SIMOの目的は、拡張された画像のプールからユーザーが好きな画像を選択することである。 ヒトによるSIMO結果の主観的分析は、SIMO型モデルの重要性を裏付ける、好ましい画像の分布が異なることを示している。 最後に,低照度かつクリーンなシーンの集合体を有する低照度道路シーン(llrs)データセットを提案する。 既存のデータセットとは異なり、LLRSのクリーンで低照度なシーンはリアルで、固定カメラ設定を使用してキャプチャされる。 公開データセットの探索的比較と提案データセットは,我々のモデルの結果が先行技術よりも定量的に,質的に優れていることを示した。

Supervised networks address the task of low-light enhancement using paired images. However, collecting a wide variety of low-light/clean paired images is tedious as the scene needs to remain static during imaging. In this paper, we propose an unsupervised low-light enhancement network using contextguided illumination-adaptive norm (CIN). Inspired by coarse to fine methods, we propose to address this task in two stages. In stage-I, a pixel amplifier module (PAM) is used to generate a coarse estimate with an overall improvement in visibility and aesthetic quality. Stage-II further enhances the saturated dark pixels and scene properties of the image using CIN. Different ablation studies show the importance of PAM and CIN in improving the visible quality of the image. Next, we propose a region-adaptive single input multiple output (SIMO) model that can generate multiple enhanced images from a single lowlight image. The objective of SIMO is to let users choose the image of their liking from a pool of enhanced images. Human subjective analysis of SIMO results shows that the distribution of preferred images varies, endorsing the importance of SIMO-type models. Lastly, we propose a low-light road scene (LLRS) dataset having an unpaired collection of low-light and clean scenes. Unlike existing datasets, the clean and low-light scenes in LLRS are real and captured using fixed camera settings. Exhaustive comparisons on publicly available datasets, and the proposed dataset reveal that the results of our model outperform prior art quantitatively and qualitatively.
翻訳日:2023-06-06 14:55:21 公開日:2023-06-05
# ニューロン活性化被覆 : 分布外検出と一般化の再考

Neuron Activation Coverage: Rethinking Out-of-distribution Detection and Generalization ( http://arxiv.org/abs/2306.02879v1 )

ライセンス: Link先を確認
Yibing Liu, Chris Xing Tian, Haoliang Li, Lei Ma, Shiqi Wang(参考訳) アウト・オブ・ディストリビューション(OOD)問題は、ニューラルネットワークがトレーニングデータ分布である \ie, in-distribution (InD) から著しく逸脱したデータに遭遇したときに発生する。 本稿では,ニューロン活性化の観点からOOD問題を考察する。 まず、ニューロンの出力とモデル決定への影響を考慮し、ニューロンの活性化状態を定式化する。 次に、InDおよびOODデータに基づくニューロンの挙動を特徴付ける「textit{neuron activation coverage} (NAC)」の概念を提案する。 NACを活用することで、私たちはそれを示します。 1) InD及びOOD入力は、ニューロンの挙動に基づいて自然に分離することができ、OOD検出問題を著しく緩和し、ResNet-50上では0.03%のFPR95を記録的性能で達成し、前回のベストメソッドを20.67%上回る。 2)NACとモデル一般化能力の正の相関関係はアーキテクチャやデータセット間で一貫して保持され,NACに基づくモデルロバスト性の評価基準を実現する。 従来の検証基準と比較すると,NACに基づく基準はより堅牢なモデルを選択するだけでなく,OODテスト性能との相関性も強いことがわかった。

The out-of-distribution (OOD) problem generally arises when neural networks encounter data that significantly deviates from the training data distribution, \ie, in-distribution (InD). In this paper, we study the OOD problem from a neuron activation view. We first formulate neuron activation states by considering both the neuron output and its influence on model decisions. Then, we propose the concept of \textit{neuron activation coverage} (NAC), which characterizes the neuron behaviors under InD and OOD data. Leveraging our NAC, we show that 1) InD and OOD inputs can be naturally separated based on the neuron behavior, which significantly eases the OOD detection problem and achieves a record-breaking performance of 0.03% FPR95 on ResNet-50, outperforming the previous best method by 20.67%; 2) a positive correlation between NAC and model generalization ability consistently holds across architectures and datasets, which enables a NAC-based criterion for evaluating model robustness. By comparison with the traditional validation criterion, we show that NAC-based criterion not only can select more robust models, but also has a stronger correlation with OOD test performance.
翻訳日:2023-06-06 14:54:58 公開日:2023-06-05
# ステレオデータとデータセット混合による単段3次元形状保存深度推定モデル学習

Single-Stage 3D Geometry-Preserving Depth Estimation Model Training on Dataset Mixtures with Uncalibrated Stereo Data ( http://arxiv.org/abs/2306.02878v1 )

ライセンス: Link先を確認
Nikolay Patakin, Mikhail Romanov, Anna Vorontsova, Mikhail Artemyev, Anton Konushin(参考訳) 現在、ロボット工学、AR、および3Dモデリングアプリケーションは、単一のRGB画像からシーン形状を推定できるため、単視点深度推定(SVDE)に大きな注目を集めている。 近年の研究では,SVDE法の精度がトレーニングデータの多様性と容積に大きく依存していることが示されている。 しかし、深度キャプチャや3D再構成によって得られたRGB-Dデータセットは通常小さく、合成データセットはフォトリアリスティックではない。 大規模で多様なデータは、web上のステレオ画像やステレオビデオから得られる。 典型的には、ステレオデータは未知のシフト(幾何学的に不完全なデータ)まで格差を与えるため、ステレオトレーニングされたSVDE法は3次元形状を復元できない。 近年,立体訓練されたSVDE法により得られた歪み点雲を,幾何学的に完全なデータに基づいて個別に学習した追加点雲モジュール(PCM)で補正できることが示されている。 そこで,本研究ではgp$^{2}$,汎用および幾何学保存トレーニングスキームを提案し,従来のsvdeモデルでは,幾何学保存環境においてもステレオデータを利用することで,後処理なしで正しいシフトを学習できることを示す。 実験により, GP$^{2}$-trained model はPCMに依存した手法よりも精度と速度で優れており, 汎用的幾何保存 SVDE に最先端の結果を報告する。 さらに,SVDEモデルでは,幾何的完全データがトレーニングセットのごく一部を構成する場合でも,幾何学的に正確な深度を予測できることを示す。

Nowadays, robotics, AR, and 3D modeling applications attract considerable attention to single-view depth estimation (SVDE) as it allows estimating scene geometry from a single RGB image. Recent works have demonstrated that the accuracy of an SVDE method hugely depends on the diversity and volume of the training data. However, RGB-D datasets obtained via depth capturing or 3D reconstruction are typically small, synthetic datasets are not photorealistic enough, and all these datasets lack diversity. The large-scale and diverse data can be sourced from stereo images or stereo videos from the web. Typically being uncalibrated, stereo data provides disparities up to unknown shift (geometrically incomplete data), so stereo-trained SVDE methods cannot recover 3D geometry. It was recently shown that the distorted point clouds obtained with a stereo-trained SVDE method can be corrected with additional point cloud modules (PCM) separately trained on the geometrically complete data. On the contrary, we propose GP$^{2}$, General-Purpose and Geometry-Preserving training scheme, and show that conventional SVDE models can learn correct shifts themselves without any post-processing, benefiting from using stereo data even in the geometry-preserving setting. Through experiments on different dataset mixtures, we prove that GP$^{2}$-trained models outperform methods relying on PCM in both accuracy and speed, and report the state-of-the-art results in the general-purpose geometry-preserving SVDE. Moreover, we show that SVDE models can learn to predict geometrically correct depth even when geometrically complete data comprises the minor part of the training set.
翻訳日:2023-06-06 14:54:33 公開日:2023-06-05
# インターネット免疫の再起動

Rebooting Internet Immunity ( http://arxiv.org/abs/2306.02876v1 )

ライセンス: Link先を確認
Gregory M. Dickinson(参考訳) 私たちはすべてオンラインで行います。 私たちは買い物、旅行、投資、社交、そしてガレージの販売さえする。 しかし、ある企業がオンラインまたは物理的な世界で運営するかどうかは気にしていないかもしれないが、この問題は会社自身に劇的な影響をもたらす。 オンラインおよびオフラインのエンティティは、異なるルールによって管理される。 通信規制法第230条では、オンラインのエンティティは、ユーザーや顧客によるコンテンツに関する訴訟に無関心である。 結果として、オンラインエンティティは、オンライン運用のためだけに、その怠慢さと欠陥のある製品デザインによって引き起こされる損害の主張を避けることができた。 この異なる治療の理由は、過去20年間にインターネットが劇的な進化を遂げたからである。 1996年のインターネットは情報レポジトリとコミュニケーションのチャンネルとして機能し、インターネットの実体をメディアの別の形態として扱う第230節によって管理されていた。 しかし、コンテンツ配信はインターネットの唯一の機能ではなく、1996年よりも今の方が少ない。 インターネットは現実世界の商品やサービスを届けるためのプラットフォームとしても機能し、それに対応する多様な免疫の教義を必要とする。 本条では,インターネット被告にコンテンツモデレーション負担を課す恐れのある主張に限定して,オンライン免疫の精製を提案する。 例えば、アプリやウェブサイトを再設計することによって、コンテンツモデレーション以外のクレームが防止される場合、原告は物理的な世界と同じように、自由に救済を求めることができる。 このアプローチにより、裁判所は仮想世界のカルパブル・アクタを特定し、その発生時にも同じように振る舞うことができる。

We do everything online. We shop, travel, invest, socialize, and even hold garage sales. Even though we may not care whether a company operates online or in the physical world, however, the question has dramatic consequences for the companies themselves. Online and offline entities are governed by different rules. Under Section 230 of the Communications Decency Act, online entities -- but not physical-world entities -- are immune from lawsuits related to content authored by their users or customers. As a result, online entities have been able to avoid claims for harms caused by their negligence and defective product designs simply because they operate online. The reason for the disparate treatment is the internet's dramatic evolution over the last two decades. The internet of 1996 served as an information repository and communications channel and was well governed by Section 230, which treats internet entities as another form of mass media: Because Facebook, Twitter and other online companies could not possibly review the mass of content that flows through their systems, Section 230 immunizes them from claims related to user content. But content distribution is not the internet's only function, and it is even less so now than it was in 1996. The internet also operates as a platform for the delivery of real-world goods and services and requires a correspondingly diverse immunity doctrine. This Article proposes refining online immunity by limiting it to claims that threaten to impose a content-moderation burden on internet defendants. Where a claim is preventable other than by content moderation -- for example, by redesigning an app or website -- a plaintiff could freely seek relief, just as in the physical world. This approach empowers courts to identify culpable actors in the virtual world and treat like conduct alike wherever it occurs.
翻訳日:2023-06-06 14:54:04 公開日:2023-06-05
# テキストによるインターネット免疫を目指して

Toward Textual Internet Immunity ( http://arxiv.org/abs/2306.02875v1 )

ライセンス: Link先を確認
Gregory M. Dickinson(参考訳) インターネット免疫の原則が破られている。 1996年通信規制法第230条に基づき、オンライン団体は、第三者によるコンテンツに関する訴訟に対して絶対的に無害である。 この法律は、過去20年間、インターネットの発展に不可欠だったが、時代と歩調を合わせておらず、現在は深刻な欠陥を抱えている。 民主党はオンライン誤報の責任を要求している。 共和党は検閲を政治的に動機づけた。 そして、議会、ビデン大統領、司法省、および連邦通信委員会は、それぞれ独自の改革計画を持っている。 しかし、この訴訟を棄却することは(これまで)最高裁判所であり、230条を解釈する決定を下すことはなかった。 しかし、トマス判事が『Malwarebytes v. Enigma』で述べたように、裁判所は何十年にもわたって下級裁判所の判例を復活させ、より限定的な免疫主義を創出するよう促した。 このエッセイは、裁判所が初期のインターネットの自由情報倫理を熱心に実施することで、広範な免疫原理が誕生し、改革の潜在的な落とし穴を警告し、テクノロジー産業にとってより狭義のテキスト中心の教義がどんな意味を持つかを探求する。

Internet immunity doctrine is broken. Under Section 230 of the Communications Decency Act of 1996, online entities are absolutely immune from lawsuits related to content authored by third parties. The law has been essential to the internet's development over the last twenty years, but it has not kept pace with the times and is now deeply flawed. Democrats demand accountability for online misinformation. Republicans decry politically motivated censorship. And Congress, President Biden, the Department of Justice, and the Federal Communications Commission all have their own plans for reform. Absent from the fray, however -- until now -- has been the Supreme Court, which has never issued a decision interpreting Section 230. That appears poised to change, however, following Justice Thomas's statement in Malwarebytes v. Enigma in which he urges the Court to prune back decades of lower-court precedent to craft a more limited immunity doctrine. This Essay discusses how courts' zealous enforcement of the early internet's free-information ethos gave birth to an expansive immunity doctrine, warns of potential pitfalls to reform, and explores what a narrower, text-focused doctrine might mean for the tech industry.
翻訳日:2023-06-06 14:53:37 公開日:2023-06-05
# ビッグテックがインターネットの会話に不満を抱く

Big Tech's Tightening Grip on Internet Speech ( http://arxiv.org/abs/2306.02874v1 )

ライセンス: Link先を確認
Gregory M. Dickinson(参考訳) オンラインプラットフォームはアメリカの社会生活を完全に変えた。 彼らは出版物を民主化し、古い門番を倒し、普通のアメリカ人に政治の新しい声を与えた。 しかし、システムは混乱し始めている。 オンラインスピーチのコントロールは、一部のfacebook、google、twitterの手に委ねられている。 それは不可能な仕事です。 アメリカ人はどの演説が許されるべきか、自分達で合意さえできない。 さらに重要なのは、プラットフォームが独自の関心を抱いていることだ。 モデレーションはビジネスに適しています。 しかし、プラットフォーム・ビューティフィケーションは、不人気なメンバーに結果をもたらし、その過程で不気味な声が沈黙される。 オンラインスピーチのコントロールが集中化しているため、オンラインアウトキャストには表現のための道がほとんどない。 重要なリソースに対する集中的なプライベートコントロールは古い問題です。 例えば、前世紀には鉄道や電話網が盛んになった。 アクセスを確保するために、このようなエンティティは共通のキャリアとして扱われ、すべてのコミューターに等しくサービスを提供する必要がある。 おそらくソーシャルメディアでも同じことが言えるはずだ。 このエッセイは、議会、最高裁判所、および学界からの最近の電話に反応し、一般的なキャリアと同様に、オンラインプラットフォームはすべての合法的なコンテンツを運ぶ必要があると主張した。 エッセイは、利用者やプラットフォームが競合する表現的利益を研究し、プラットフォーム検閲の慣行における問題的傾向を分析し、共通キャリア規制のコストを調査し、最終的に共通キャリア規制の経済的・社会的コストを回避する代替経路として市場拡大とセグメンテーションを提案している。

Online platforms have completely transformed American social life. They have democratized publication, overthrown old gatekeepers, and given ordinary Americans a fresh voice in politics. But the system is beginning to falter. Control over online speech lies in the hands of a select few -- Facebook, Google, and Twitter -- who moderate content for the entire nation. It is an impossible task. Americans cannot even agree among themselves what speech should be permitted. And, more importantly, platforms have their own interests at stake: Fringe theories and ugly name-calling drive away users. Moderation is good for business. But platform beautification has consequences for society's unpopular members, whose unsightly voices are silenced in the process. With control over online speech so centralized, online outcasts are left with few avenues for expression. Concentrated private control over important resources is an old problem. Last century, for example, saw the rise of railroads and telephone networks. To ensure access, such entities are treated as common carriers and required to provide equal service to all comers. Perhaps the same should be true for social media. This Essay responds to recent calls from Congress, the Supreme Court, and academia arguing that, like common carriers, online platforms should be required to carry all lawful content. The Essay studies users' and platforms' competing expressive interests, analyzes problematic trends in platforms' censorship practices, and explores the costs of common-carrier regulation before ultimately proposing market expansion and segmentation as an alternate pathway to avoid the economic and social costs of common-carrier regulation.
翻訳日:2023-06-06 14:53:17 公開日:2023-06-05
# DecompX: トークン分解の伝播によるトランスフォーマー決定の説明

DecompX: Explaining Transformers Decisions by Propagating Token Decomposition ( http://arxiv.org/abs/2306.02873v1 )

ライセンス: Link先を確認
Ali Modarressi, Mohsen Fayyaz, Ehsan Aghazadeh, Yadollah Yaghoobzadeh, Mohammad Taher Pilehvar(参考訳) Transformerベースのモデルを説明するための新たなソリューションは、表現の生成方法に関するベクトルベースの分析を使用することだ。 しかし,多層モデルに対する忠実なベクトルベースの説明を提供することは,(1)全ての要素を解析に組み込むこと,(2)階層のダイナミクスを集約してモデル全体の情報フローと混合を決定すること,(3)ベクトルベースの分析とモデルの予測との関係を同定すること,の3つの側面において困難である。 本稿では,これらの課題に取り組むためにDecompXを提案する。 decompx は分解されたトークン表現の構築と、それらをレイヤ間で混ぜることなくモデル全体に連続する伝播に基づいている。 さらに,提案手法は,すべてのエンコーダコンポーネント(特に非線形フィードフォワードネットワーク)と分類ヘッドを含む既存のソリューションよりも,複数の利点を提供する。 前者は正確なベクトルを得ることができ、後者は分解を有意義な予測に基づく値に変換する。 標準忠実性評価によれば、decompxは既存の勾配ベースおよびベクトルベースアプローチを様々なデータセットで一貫して上回っている。 私たちのコードはhttps://github.com/mohsenfayyaz/decompxで利用可能です。

An emerging solution for explaining Transformer-based models is to use vector-based analysis on how the representations are formed. However, providing a faithful vector-based explanation for a multi-layer model could be challenging in three aspects: (1) Incorporating all components into the analysis, (2) Aggregating the layer dynamics to determine the information flow and mixture throughout the entire model, and (3) Identifying the connection between the vector-based analysis and the model's predictions. In this paper, we present DecompX to tackle these challenges. DecompX is based on the construction of decomposed token representations and their successive propagation throughout the model without mixing them in between layers. Additionally, our proposal provides multiple advantages over existing solutions for its inclusion of all encoder components (especially nonlinear feed-forward networks) and the classification head. The former allows acquiring precise vectors while the latter transforms the decomposition into meaningful prediction-based values, eliminating the need for norm- or summation-based vector aggregation. According to the standard faithfulness evaluations, DecompX consistently outperforms existing gradient-based and vector-based approaches on various datasets. Our code is available at https://github.com/mohsenfayyaz/DecompX.
翻訳日:2023-06-06 14:52:52 公開日:2023-06-05
# テキストとKGのアライメント: 分類課題における現在の方法の比較

Text-To-KG Alignment: Comparing Current Methods on Classification Tasks ( http://arxiv.org/abs/2306.02871v1 )

ライセンス: Link先を確認
Sondre Wold and Lilja {\O}vrelid and Erik Velldal(参考訳) 大きなテキストコーパスとは対照的に、知識グラフ(KG)は事実情報の密度と構造化された表現を提供する。 これにより、トレーニング済みの言語モデルで見つかった知識を、外部の知識ソースで補ったり基礎づけたりするシステムにとって魅力的なものとなる。 これは特に分類タスクの場合であり、最近の作業では、追加のコンテキストとしてconceptnetのようなkgから情報を取得するパイプラインモデルの作成に焦点が当てられている。 これらのモデルの多くは複数のコンポーネントで構成されており、それらのパーツの数や性質は異なるが、ある特定のテキストクエリでは、kgから関連するサブグラフを識別し、取得しようとするという共通点がある。 KGsでよく見られるノイズや慣用性のため、現在の手法がクエリと完全に関係しているシナリオとどのように比較されているかは分かっていない。 本研究は,手作業によるグラフ作成が可能な2つのデータセット上で,テキストとKGのアライメントに対する現在のアプローチをレビューし,評価することで,この知識ギャップを埋めようとしている。

In contrast to large text corpora, knowledge graphs (KG) provide dense and structured representations of factual information. This makes them attractive for systems that supplement or ground the knowledge found in pre-trained language models with an external knowledge source. This has especially been the case for classification tasks, where recent work has focused on creating pipeline models that retrieve information from KGs like ConceptNet as additional context. Many of these models consist of multiple components, and although they differ in the number and nature of these parts, they all have in common that for some given text query, they attempt to identify and retrieve a relevant subgraph from the KG. Due to the noise and idiosyncrasies often found in KGs, it is not known how current methods compare to a scenario where the aligned subgraph is completely relevant to the query. In this work, we try to bridge this knowledge gap by reviewing current approaches to text-to-KG alignment and evaluating them on two datasets where manually created graphs are available, providing insights into the effectiveness of current methods.
翻訳日:2023-06-06 14:52:31 公開日:2023-06-05
# nlpにおける「科学的負債」について : 言語モデル事前学習研究におけるより厳密な事例

On "Scientific Debt" in NLP: A Case for More Rigour in Language Model Pre-Training Research ( http://arxiv.org/abs/2306.02870v1 )

ライセンス: Link先を確認
Made Nindyatama Nityasya, Haryo Akbarianto Wibowo, Alham Fikri Aji, Genta Indra Winata, Radityo Eko Prasojo, Phil Blunsom, Adhiguna Kuncoro(参考訳) このエビデンスに基づくポジショニングペーパーは、言語モデルの事前学習文学における現在の研究慣行を批判する。 事前学習された言語モデル(plm)による最近の急速な進歩にもかかわらず、現在のplm研究は、適切なアブレーション研究や、同等の条件下での異なるモデル間の原則的な比較を行わずに、異なるモデル改善のソースを共用することが多い。 これらの実践 (i)どのような状況下において、どのような事前訓練アプローチを使うべきかを理解するのに不適当である。 (ii)再現性及び信用譲渡を妨げ、 (iii)「それぞれの要因は今日の進歩にどのように貢献するのか」を理解するのが困難です。 ELMo と GPT-1 のベースライン上でのBERT の成功を再考し、ベースラインが同じ程度チューニングされた条件下では、これらのベースライン(および、そのより単純な変種)が、実際、BERT よりも競争力あるいは優れたパフォーマンスを達成することができることを示す。 これらの結果は、モデル改善の異なる要因がいかにして価値ある新しい洞察をもたらすかを示している。 私たちは最後に、この一連の作業の奨励とインセンティブの方法、そして現在の基盤モデルの進歩を駆動する要因をより良く、より体系的に理解するための進捗を加速する方法を推奨します。

This evidence-based position paper critiques current research practices within the language model pre-training literature. Despite rapid recent progress afforded by increasingly better pre-trained language models (PLMs), current PLM research practices often conflate different possible sources of model improvement, without conducting proper ablation studies and principled comparisons between different models under comparable conditions. These practices (i) leave us ill-equipped to understand which pre-training approaches should be used under what circumstances; (ii) impede reproducibility and credit assignment; and (iii) render it difficult to understand: "How exactly does each factor contribute to the progress that we have today?" We provide a case in point by revisiting the success of BERT over its baselines, ELMo and GPT-1, and demonstrate how -- under comparable conditions where the baselines are tuned to a similar extent -- these baselines (and even-simpler variants thereof) can, in fact, achieve competitive or better performance than BERT. These findings demonstrate how disentangling different factors of model improvements can lead to valuable new insights. We conclude with recommendations for how to encourage and incentivize this line of work, and accelerate progress towards a better and more systematic understanding of what factors drive the progress of our foundation models today.
翻訳日:2023-06-06 14:52:11 公開日:2023-06-05
# 帯域におけるオンラインモデル選択のためのデータ駆動レグレストバランシング

Data-Driven Regret Balancing for Online Model Selection in Bandits ( http://arxiv.org/abs/2306.02869v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Christoph Dann, Claudio Gentile(参考訳) メタリアナーがベース学習者のプールを処分し,各ベース学習者が推奨する方針に基づいてどの行動を取るか判断する,バンディットフィードバックを伴う確率的環境における逐次意思決定のためのモデル選択を検討する。 モデル選択は, 後悔のバランスによって行われるが, この主題に関する最近の文献とは違って, 基本学習者に関する事前知識を, 候補者の後悔の保証のように想定しない。 したがって、メタ学習者は、(期待された後悔とは対照的に)学習環境において各基礎学習者が生み出した達成された後悔を活用でき、最高の後悔を一つにまとめることができる。 2つのモデル選択アルゴリズムをこの野心的な後悔の概念で設計し,モデル選択の保証を後悔のバランスで証明すると同時に,実際の後悔を扱うという説得力のある実用的メリットを実験的に実証する。

We consider model selection for sequential decision making in stochastic environments with bandit feedback, where a meta-learner has at its disposal a pool of base learners, and decides on the fly which action to take based on the policies recommended by each base learner. Model selection is performed by regret balancing but, unlike the recent literature on this subject, we do not assume any prior knowledge about the base learners like candidate regret guarantees; instead, we uncover these quantities in a data-driven manner. The meta-learner is therefore able to leverage the realized regret incurred by each base learner for the learning environment at hand (as opposed to the expected regret), and single out the best such regret. We design two model selection algorithms operating with this more ambitious notion of regret and, besides proving model selection guarantees via regret balancing, we experimentally demonstrate the compelling practical benefits of dealing with actual regrets instead of candidate regret bounds.
翻訳日:2023-06-06 14:51:46 公開日:2023-06-05
# 血管分離型多モード網膜画像合成用サイクロンGAN

A Vessel-Segmentation-Based CycleGAN for Unpaired Multi-modal Retinal Image Synthesis ( http://arxiv.org/abs/2306.02901v1 )

ライセンス: Link先を確認
Aline Sindel, Andreas Maier, Vincent Christlein(参考訳) 深層学習に基づくマルチモーダル網膜登録手法のトレーニングデータセットを効率よく向上させることができる。 提案手法は,CycleGANフレームワークを拡張して,画像から画像への変換タスクにコンテナセグメンテーションネットワークを統合する。 セグメンテーションネットワークは、unet vision transformer generator networkの前に挿入され、両方のドメイン間で共有表現として機能する。 本研究は,血管分割と実画像との直接マッピングを学習するために,元のアイデンティティ損失を再構成する。 さらに,偽画像と実画像との容器位置の共有を保証するセグメンテーション損失項を追加する。 実験では,画像登録のためのマルチモーダルトレーニングデータを生成するための前提条件である容器構造を視覚的にリアルに表現し,保存する。

Unpaired image-to-image translation of retinal images can efficiently increase the training dataset for deep-learning-based multi-modal retinal registration methods. Our method integrates a vessel segmentation network into the image-to-image translation task by extending the CycleGAN framework. The segmentation network is inserted prior to a UNet vision transformer generator network and serves as a shared representation between both domains. We reformulate the original identity loss to learn the direct mapping between the vessel segmentation and the real image. Additionally, we add a segmentation loss term to ensure shared vessel locations between fake and real images. In the experiments, our method shows a visually realistic look and preserves the vessel structures, which is a prerequisite for generating multi-modal training data for image registration.
翻訳日:2023-06-06 14:44:40 公開日:2023-06-05
# 拡散MRIにおける深部拘束球面デコンボリューションを用いたロバストファイバDF推定

Robust Fiber ODF Estimation Using Deep Constrained Spherical Deconvolution for Diffusion MRI ( http://arxiv.org/abs/2306.02900v1 )

ライセンス: Link先を確認
Tianyuan Yao, Francois Rheault, Leon Y Cai, Vishwesh nath, Zuhayr Asad, Nancy Newlin, Can Cui, Ruining Deng, Karthik Ramadass, Andrea Shafer, Susan Resnick, Kurt Schilling, Bennett A. Landman, Yuankai Huo(参考訳) 拡散強調磁気共鳴イメージング(dw-mri)は、組織マイクロアーキテクチャをミリメートルスケールで捉えてモデリングするための重要なイメージング手法である。 測定したDW-MRI信号をモデル化するための一般的なプラクティスは、繊維配向分布関数(fODF)である。 この機能は下流のトラクトグラフィーと接続解析に不可欠な第一歩である。 近年、データ共有の利点により、大規模マルチサイトDW-MRIデータセットがマルチサイト研究に利用できるようになった。 しかし、DW-MRIの取得において、測定変数(サイト内およびサイト内変動、ハードウェア性能、シーケンス設計など)は避けられない。 既存のモデルベース手法(例えば、制約付き球面デコンボリューション(CSD))や学習ベース手法(例えば、ディープラーニング(DL))は、fODFモデリングにおけるそのような変動を明示的に考慮していないため、多地点および/または長手拡散研究では性能が劣る。 本稿では,DW-MRIの繰り返しスキャンから脳の微細構造を再現可能で頑健に推定するために,スキャン-スキャンの変動を明示的に制約する,データ駆動深部制約付き球面デコンボリューション法を提案する。 具体的には,fodf推定中に新たな3次元体積スキャナ不変正則化法を提案する。 本研究では,ヒトコネクトームプロジェクト(hcp)の若年層を対象に,masivarデータセット(サイト内およびサイト内スキャン/スキャンデータ)の検証を行った。 Baltimore Longitudinal Study of Aging (BLSA)データセットは、外部検証に使用される。 実験結果から,提案フレームワークは,fodfの繰り返し推定において,既存のベンチマークを上回っている。 提案手法は下流の接続解析を評価し,異なるバイオマーカーを有する被験者の識別性能の向上を示す。

Diffusion-weighted magnetic resonance imaging (DW-MRI) is a critical imaging method for capturing and modeling tissue microarchitecture at a millimeter scale. A common practice to model the measured DW-MRI signal is via fiber orientation distribution function (fODF). This function is the essential first step for the downstream tractography and connectivity analyses. With recent advantages in data sharing, large-scale multi-site DW-MRI datasets are being made available for multi-site studies. However, measurement variabilities (e.g., inter- and intra-site variability, hardware performance, and sequence design) are inevitable during the acquisition of DW-MRI. Most existing model-based methods (e.g., constrained spherical deconvolution (CSD)) and learning based methods (e.g., deep learning (DL)) do not explicitly consider such variabilities in fODF modeling, which consequently leads to inferior performance on multi-site and/or longitudinal diffusion studies. In this paper, we propose a novel data-driven deep constrained spherical deconvolution method to explicitly constrain the scan-rescan variabilities for a more reproducible and robust estimation of brain microstructure from repeated DW-MRI scans. Specifically, the proposed method introduces a new 3D volumetric scanner-invariant regularization scheme during the fODF estimation. We study the Human Connectome Project (HCP) young adults test-retest group as well as the MASiVar dataset (with inter- and intra-site scan/rescan data). The Baltimore Longitudinal Study of Aging (BLSA) dataset is employed for external validation. From the experimental results, the proposed data-driven framework outperforms the existing benchmarks in repeated fODF estimation. The proposed method is assessing the downstream connectivity analysis and shows increased performance in distinguishing subjects with different biomarkers.
翻訳日:2023-06-06 14:44:28 公開日:2023-06-05
# 未知の介入による非パラメトリック潜在因果グラフの学習

Learning nonparametric latent causal graphs with unknown interventions ( http://arxiv.org/abs/2306.02899v1 )

ライセンス: Link先を確認
Yibo Jiang, Bryon Aragam(参考訳) 潜在因果グラフが非パラメトリック同定可能であり、潜在空間における未知の介入から再構成できる条件を確立する。 我々の主な焦点は測定モデルにおける潜在構造、すなわち観測変数間の依存性が、線形性やガウス性といったパラメトリックな仮定をすることなく、潜在表現間の依存性よりも重要でない因果的グラフィカルモデルである。 さらに,隠れ変数の数が分かっているとは仮定せず,隠れ変数毎に未知の介入が少なくとも1つ必要であることを示す。 これは、観察と介入から因果表現を学ぶ最近の作業のラインを拡張します。 証明は構成的で、想像上のサブセットと孤立したエッジという2つの新しいグラフィカルな概念を導入している。 独立した関心事として、証明は未知の介入によって誘導されるDAGの同値類におけるエッジ配向の限界の新たな特徴も含む。 実験により,データから潜在グラフを復元できることを確認した。 これらは、未知の介入を伴う一般的な条件においてパラメトリックな仮定を行わずに、因果表現が識別可能である条件を特徴づける最初の結果である。

We establish conditions under which latent causal graphs are nonparametrically identifiable and can be reconstructed from unknown interventions in the latent space. Our primary focus is the identification of the latent structure in a measurement model, i.e. causal graphical models where dependence between observed variables is insignificant compared to dependence between latent representations, without making parametric assumptions such as linearity or Gaussianity. Moreover, we do not assume the number of hidden variables is known, and we show that at most one unknown intervention per hidden variable is needed. This extends a recent line of work on learning causal representations from observations and interventions. The proofs are constructive and introduce two new graphical concepts -- imaginary subsets and isolated edges -- that may be useful in their own right. As a matter of independent interest, the proofs also involve a novel characterization of the limits of edge orientations within the equivalence class of DAGs induced by unknown interventions. Experiments confirm that the latent graph can be recovered from data using our theoretical results. These are the first results to characterize the conditions under which causal representations are identifiable without making any parametric assumptions in a general setting with unknown interventions and without faithfulness.
翻訳日:2023-06-06 14:44:01 公開日:2023-06-05
# 統一テキスト型人物検索に向けて:大規模マルチ属性と言語検索ベンチマーク

Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark ( http://arxiv.org/abs/2306.02898v1 )

ライセンス: Link先を確認
Shuyu Yang, Yinan Zhou, Yaxiong Wang, Yujiao Wu, Li Zhu, Zhedong Zheng(参考訳) 本稿では,テキストベース人物検索のための大規模多属性・言語検索データセットmalsを紹介し,属性認識と画像テキストマッチングタスクの両方で事前学習を行う可能性について検討する。 特にMALSには1,510,330のイメージテキストペアがあり、CUHK-PEDESの約37.5倍の大きさで、すべてのイメージに27の属性が付加されている。 プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。 生成されたデータから学習する可能性を検証するため,属性とテキストの共有知識を考慮し,新たにaptm(joint attribute prompt learning and text matching learning)フレームワークを開発した。 名前が示すように、APTMには属性プロンプト学習ストリームとテキストマッチング学習ストリームが含まれている。 1)属性プロンプト学習は属性プロンプトを利用して画像-属性アライメントを行い,テキストマッチング学習を強化する。 2) テキストマッチング学習は, きめ細かな細部での表現学習を促進するとともに, 属性のプロンプト学習を促進させる。 大規模な実験により、MALSの事前学習の有効性が検証され、3つの挑戦的な実世界のベンチマーク上でAPTMによる最先端の検索性能が達成された。 特にAPTMは、CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットをそれぞれ明確なマージンで、+6.60%、+7.39%、+15.90%のリコール@1精度で一貫した改善を実現している。

In this paper, we introduce a large Multi-Attribute and Language Search dataset for text-based person retrieval, called MALS, and explore the feasibility of performing pre-training on both attribute recognition and image-text matching tasks in one stone. In particular, MALS contains 1,510,330 image-text pairs, which is about 37.5 times larger than prevailing CUHK-PEDES, and all images are annotated with 27 attributes. Considering the privacy concerns and annotation costs, we leverage the off-the-shelf diffusion models to generate the dataset. To verify the feasibility of learning from the generated data, we develop a new joint Attribute Prompt Learning and Text Matching Learning (APTM) framework, considering the shared knowledge between attribute and text. As the name implies, APTM contains an attribute prompt learning stream and a text matching learning stream. (1) The attribute prompt learning leverages the attribute prompts for image-attribute alignment, which enhances the text matching learning. (2) The text matching learning facilitates the representation learning on fine-grained details, and in turn, boosts the attribute prompt learning. Extensive experiments validate the effectiveness of the pre-training on MALS, achieving state-of-the-art retrieval performance via APTM on three challenging real-world benchmarks. In particular, APTM achieves a consistent improvement of +6.60%, +7.39%, and +15.90% Recall@1 accuracy on CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets by a clear margin, respectively.
翻訳日:2023-06-06 14:43:42 公開日:2023-06-05
# 変圧器の表現強度と限界

Representational Strengths and Limitations of Transformers ( http://arxiv.org/abs/2306.02896v1 )

ライセンス: Link先を確認
Clayton Sanford, Daniel Hsu, Matus Telgarsky(参考訳) トランスフォーマーで一般的に使用されるアテンション層は、現代のディープラーニングのバックボーンを形成するが、他のアーキテクチャと比較してそのメリットや欠点を数学的に記述していない。 本研究では,注意層の表現力について,幅,深さ,埋め込み次元といった本質的複雑性パラメータに着目し,正と負の両方の結果を定式化する。 正の面では、再帰ネットワークとフィードフォワードネットワークがすべて入力サイズで多項式的にスケーリングする複雑さを持つ疎平均化タスクを示す一方、トランスフォーマーは入力サイズで対数的にスケールするだけであり、さらにトランスフォーマーにおける大きな埋め込み次元の必要性と役割を示すために同じ構成を用いる。 負の場合、注意層が入力サイズで線形にスケーリングする三重項検出タスクを示す。このシナリオは実際には稀に思えるが、注意層によって効率的に解くことができる自然な変種も提示する。 証明技術は、トランスフォーマおよび関連するモデルの分析における通信複雑性の価値と、三重検出の分析にさえ使われる原型的注意課題としてのスパース平均化の役割を強調している。

Attention layers, as commonly used in transformers, form the backbone of modern deep learning, yet there is no mathematical description of their benefits and deficiencies as compared with other architectures. In this work we establish both positive and negative results on the representation power of attention layers, with a focus on intrinsic complexity parameters such as width, depth, and embedding dimension. On the positive side, we present a sparse averaging task, where recurrent networks and feedforward networks all have complexity scaling polynomially in the input size, whereas transformers scale merely logarithmically in the input size; furthermore, we use the same construction to show the necessity and role of a large embedding dimension in a transformer. On the negative side, we present a triple detection task, where attention layers in turn have complexity scaling linearly in the input size; as this scenario seems rare in practice, we also present natural variants that can be efficiently solved by attention layers. The proof techniques emphasize the value of communication complexity in the analysis of transformers and related models, and the role of sparse averaging as a prototypical attention task, which even finds use in the analysis of triple detection.
翻訳日:2023-06-06 14:43:10 公開日:2023-06-05
# 卵を割らないブラックボックス分類器の回避

Evading Black-box Classifiers Without Breaking Eggs ( http://arxiv.org/abs/2306.02895v1 )

ライセンス: Link先を確認
Edoardo Debenedetti, Nicholas Carlini and Florian Tram\`er(参考訳) 決定に基づく回避攻撃は、ブラックボックス分類器に繰り返し問い合わせて敵の例を生成する。 先行作業は、分類器に対するクエリの総数によって、そのような攻撃のコストを測定する。 私たちはこの指標に欠陥があると主張している。 ほとんどのセキュリティクリティカルな機械学習システムは、"悪い"データ(マルウェア、有害コンテンツなど)の排除を目指している。 このようなシステムへのクエリには、基本的に非対称なコストがかかる:"悪い"として検出されたクエリは、追加のセキュリティフィルタをトリガーする(例えば、使用制限やアカウントサスペンションなど)ため、より高いコストがかかる。 しかし、既存の決定に基づく攻撃は多数の"悪い"クエリを発行しており、セキュリティクリティカルなシステムに対して効果が低い可能性が高い。 次に、悪質なクエリの数を$1.5$~$7.3\times$で減らす新しい攻撃をデザインします。 したがって、現実的なコストメトリクスの下でより効果的であるブラックボックス攻撃を構築するためのオープンな問題であると考えています。

Decision-based evasion attacks repeatedly query a black-box classifier to generate adversarial examples. Prior work measures the cost of such attacks by the total number of queries made to the classifier. We argue this metric is flawed. Most security-critical machine learning systems aim to weed out "bad" data (e.g., malware, harmful content, etc). Queries to such systems carry a fundamentally asymmetric cost: queries detected as "bad" come at a higher cost because they trigger additional security filters, e.g., usage throttling or account suspension. Yet, we find that existing decision-based attacks issue a large number of "bad" queries, which likely renders them ineffective against security-critical systems. We then design new attacks that reduce the number of bad queries by $1.5$-$7.3\times$, but often at a significant increase in total (non-bad) queries. We thus pose it as an open problem to build black-box attacks that are more effective under realistic cost metrics.
翻訳日:2023-06-06 14:42:49 公開日:2023-06-05
# 希薄不規則寒冷原子試料の超高次および亜光度:観測と解釈

Super- and subradiance in dilute disordered cold atomic samples: observations and interpretations ( http://arxiv.org/abs/2306.02891v1 )

ライセンス: Link先を確認
William Guerin(参考訳) 光子が原子アンサンブルに送られると、サンプルのN$原子と相互作用し、その中の1つだけと相互作用する。 この結果、散乱速度、放出ダイアグラム、時間力学の計測可能な変化が生じる。 これらの集団効果のうち,本研究では駆動レーザのスイッチオフ後の散乱光の減衰の時間的ダイナミクスを詳細に研究する。 スイッチオフ直後には、崩壊は単一の原子よりも速くなり、その後、崩壊は遅くなる。 我々は、この挙動を、それぞれ超放射能とサブ放射能と呼ぶ。 本章では、低密度試料(希薄な状態)と弱い励起(線形光学的状態)を主成分とする非秩序な冷間原子アンサンブルの超放射能とサブ放射能について検討するが、これらの制限事例を超えた最初の補正も検討した。 本稿では,これらの現象の様々な解釈,特にこれらの現象の光学的記述の提示を強調し,この現象は,乱れたサンプルの協調散乱に新たな光を放ち,遊びの物理機構をより直感的に理解する。

When a photon is sent onto an atomic ensemble, it interacts collectively with the $N$ atoms of the sample and not simply with one of them. This results in measurable modifications in the scattering rate, the emission diagram or the temporal dynamics. Among these collective effects, here, we study in detail the temporal dynamics of the decay of the scattered light after switching off the driving laser. Right after the switch-off, the decay can be faster than for a single atom, whereas at later time, the decay becomes slower. We refer to this behavior as superradiance and subradiance, respectively. We present in this Chapter our investigations of super- and subradiance in disordered cold atomic ensembles, mainly with low-density samples (dilute regime) and a weak excitation (linear-optics regime), but we also studied the first corrections beyond these limiting cases. We emphasize the different possible interpretations of these phenomena, with in particular the presentation of an optical description of these effects, which sheds a new light on cooperative scattering in disordered samples and provides a more intuitive understanding of the physical mechanisms at play.
翻訳日:2023-06-06 14:42:31 公開日:2023-06-05
# 汎用AIシステムの定義の運用:4つのアプローチの評価

Operationalising the Definition of General Purpose AI Systems: Assessing Four Approaches ( http://arxiv.org/abs/2306.02889v1 )

ライセンス: Link先を確認
Risto Uuk, Carlos Ignacio Gutierrez, Alex Tamkin(参考訳) 欧州連合(EU)の人工知能(AI)法は、AI技術を規制するための画期的な法的手段である。 ステークホルダーは、主に固定目的AIアプリケーション(狭義AIとも呼ばれる)のガバナンスに焦点を当ててきたが、高度で幅広い能力を持つシステムの性質を理解するためには、より多くの注意が必要である。 2023年初頭時点で、汎用aiシステム(gpais)の定義は、ai法に関連していくつか存在し、特定の目的と目的の区別を試みている。 本稿では、これらの違いを「個別タスク」の概念を通じて運用し、AIシステムがGPAISに分類されるべきかどうかを判断する4つのアプローチ(量、性能、適応性、出現)を検討する。 我々は、EUの利害関係者が4つのアプローチを、固定目的とGPAISを区別するための出発点として使うことを示唆する。

The European Union's Artificial Intelligence (AI) Act is set to be a landmark legal instrument for regulating AI technology. While stakeholders have primarily focused on the governance of fixed purpose AI applications (also known as narrow AI), more attention is required to understand the nature of highly and broadly capable systems. As of the beginning of 2023, several definitions for General Purpose AI Systems (GPAIS) exist in relation to the AI Act, attempting to distinguish between systems with and without a fixed purpose. In this article, we operationalise these differences through the concept of "distinct tasks" and examine four approaches (quantity, performance, adaptability, and emergence) to determine whether an AI system should be classified as a GPAIS. We suggest that EU stakeholders use the four approaches as a starting point to discriminate between fixed-purpose and GPAIS.
翻訳日:2023-06-06 14:42:10 公開日:2023-06-05
# Gen-IR @ SIGIR 2023: The First Workshop on Generative Information Retrieval

Gen-IR @ SIGIR 2023: The First Workshop on Generative Information Retrieval ( http://arxiv.org/abs/2306.02887v1 )

ライセンス: Link先を確認
Gabriel B\'en\'edict, Ruqing Zhang, Donald Metzler(参考訳) 生成的情報検索(ir)は、複数の研究コミュニティ(情報検索、コンピュータビジョン、自然言語処理、機械学習など)でかなりの成長を遂げており、大衆の報道で注目されている。 理論的、実証的、実際のユーザ向け製品がリリースされ、(生成を介して)文書を検索したり、入力要求に応じて直接回答を生成する。 エンド・ツー・エンドの生成モデルが単なるトレンドなのか、それともIRのパラダイム変更なのかを調査したい。 これは新しいメトリクス、理論的基盤、評価方法、タスク定義、モデル、ユーザーインターフェイスなどを必要とする。 このワークショップ(https://coda.io/@sigir/gen-ir)の目標は、ドキュメント検索や直接グラウンドドアンサージェネレーションのような、以前に検討されたジェネレーティブIR技術に焦点を当てると同時に、レコメンデーションシステムや要約システムといった新しいドメインに対して、ジェネレーティブIRをどのように適用できるかに関する議論と調査の場を提供することである。 ワークショップの形式は、ラウンドテーブルや基調講演を含むインタラクティブで、ミニ会議の一方的な対話を避ける傾向がある。

Generative information retrieval (IR) has experienced substantial growth across multiple research communities (e.g., information retrieval, computer vision, natural language processing, and machine learning), and has been highly visible in the popular press. Theoretical, empirical, and actual user-facing products have been released that retrieve documents (via generation) or directly generate answers given an input request. We would like to investigate whether end-to-end generative models are just another trend or, as some claim, a paradigm change for IR. This necessitates new metrics, theoretical grounding, evaluation methods, task definitions, models, user interfaces, etc. The goal of this workshop (https://coda.io/@sigir/gen-ir) is to focus on previously explored Generative IR techniques like document retrieval and direct Grounded Answer Generation, while also offering a venue for the discussion and exploration of how Generative IR can be applied to new domains like recommendation systems, summarization, etc. The format of the workshop is interactive, including roundtable and keynote sessions and tends to avoid the one-sided dialogue of a mini-conference.
翻訳日:2023-06-06 14:41:54 公開日:2023-06-05
# 高速フーリエ畳み込みニューラルネットワークを用いた加速MRスキャンの画像再構成

Image Reconstruction for Accelerated MR Scan with Faster Fourier Convolutional Neural Networks ( http://arxiv.org/abs/2306.02886v1 )

ライセンス: Link先を確認
Xiaohan Liu, Yanwei Pang, Xuebin Sun, Yiming Liu, Yonghong Hou, Zhenchang Wang, Xuelong Li(参考訳) 部分走査は、磁気共鳴イメージング(MRI)データ取得を2次元および3次元の両方で加速する一般的な手法である。 しかしながら、部分走査データ(すなわち不完全k空間行列)からの正確な画像再構成は、空間領域とk空間領域の両方において効果的な大域的受容場が欠如しているため、依然として困難である。 この問題を解決するために,(1)高速フーリエ畳み込み(FasterFC)と呼ばれる新しい畳み込み演算子を提案し,畳み込みニューラルネットワーク(U-Net,ResNetなど)で一般的に使用される2つの連続畳み込み演算を置き換える。 フーリエ理論のスペクトル畳み込み定理に基づいて、FasterFCは異なる領域でサイズ1の交互核(3次元の場合)を用いて、二重領域の受容場を大域に拡張し、従来の高速フーリエ畳み込み(FFC)よりも高速な計算速度を達成する。 2) FasterFC-End-to-End-VarNetを用いた2次元加速MRI法により,感度マップと再構成品質が向上した。 (3)FasterFC-based Single-to-group Network (FAS-Net) と呼ばれる,k-spaceドメイン再構成を誘導する単一グループアルゴリズムを用いて,FasterFC-based cascaded convolutional Neural Network というマルチステージ3DアクセラレーションMRI手法により,デュアルドメインの効果的な受容場を拡大する。 fastMRIとStanford MRIデータデータセットの実験結果から、FasterFCは2Dと3Dの両方の再構成の品質を改善することが示された。 さらに、FAS-Netは3次元高分解能マルチコイル(8)加速MRI法であり、最先端の2D法と3D法と比較して定性的かつ定量的に再現性能が高い。

Partial scan is a common approach to accelerate Magnetic Resonance Imaging (MRI) data acquisition in both 2D and 3D settings. However, accurately reconstructing images from partial scan data (i.e., incomplete k-space matrices) remains challenging due to lack of an effectively global receptive field in both spatial and k-space domains. To address this problem, we propose the following: (1) a novel convolutional operator called Faster Fourier Convolution (FasterFC) to replace the two consecutive convolution operations typically used in convolutional neural networks (e.g., U-Net, ResNet). Based on the spectral convolution theorem in Fourier theory, FasterFC employs alternating kernels of size 1 in 3D case) in different domains to extend the dual-domain receptive field to the global and achieves faster calculation speed than traditional Fast Fourier Convolution (FFC). (2) A 2D accelerated MRI method, FasterFC-End-to-End-VarNet, which uses FasterFC to improve the sensitivity maps and reconstruction quality. (3) A multi-stage 3D accelerated MRI method called FasterFC-based Single-to-group Network (FAS-Net) that utilizes a single-to-group algorithm to guide k-space domain reconstruction, followed by FasterFC-based cascaded convolutional neural networks to expand the effective receptive field in the dual-domain. Experimental results on the fastMRI and Stanford MRI Data datasets demonstrate that FasterFC improves the quality of both 2D and 3D reconstruction. Moreover, FAS-Net, as a 3D high-resolution multi-coil (eight) accelerated MRI method, achieves superior reconstruction performance in both qualitative and quantitative results compared with state-of-the-art 2D and 3D methods.
翻訳日:2023-06-06 14:41:30 公開日:2023-06-05
# midmed:医療相談のための混合型対話に向けて

MidMed: Towards Mixed-Type Dialogues for Medical Consultation ( http://arxiv.org/abs/2306.02923v1 )

ライセンス: Link先を確認
Xiaoming Shi, Zeming Liu, Chuan Wang, Haitao Leng, Kui Xue, Xiaofan Zhang, Shaoting Zhang(参考訳) ほとんどの医療対話システムは、患者が医療相談の前に明確な目標(医療問合せ、外科手術問合せなど)を持っていると仮定している。 しかし、多くの現実シナリオでは、医学的な知識が不足しているため、患者が必要な全てのスロットで明確な目標を決定することは通常困難である。 本稿では,この課題を,患者の目標を明確にするための医療相談対話システムの構築方法として認識する。 そこで本研究では,この課題を軽減すべく,タスク指向対話,レコメンデーション,知識基盤対話,qa,chitchatの5つの対話タイプをカバーする「midmed」と呼ばれるヒューマン・ツー・ヒューマン混合型医療相談対話コーパスを提案する。 MidMedは4つの部門(耳鼻咽喉科、眼科、皮膚、消化器科)と8,175の対話をカバーしている。 さらに,この課題に対処するため,MidMed上にベースラインを構築し,InsMedと呼ばれる指導指導型医療対話生成フレームワークを提案する。 実験の結果,InsMedの有効性が示された。

Most medical dialogue systems assume that patients have clear goals (medicine querying, surgical operation querying, etc.) before medical consultation. However, in many real scenarios, due to the lack of medical knowledge, it is usually difficult for patients to determine clear goals with all necessary slots. In this paper, we identify this challenge as how to construct medical consultation dialogue systems to help patients clarify their goals. To mitigate this challenge, we propose a novel task and create a human-to-human mixed-type medical consultation dialogue corpus, termed MidMed, covering five dialogue types: task-oriented dialogue for diagnosis, recommendation, knowledge-grounded dialogue, QA, and chitchat. MidMed covers four departments (otorhinolaryngology, ophthalmology, skin, and digestive system), with 8,175 dialogues. Furthermore, we build baselines on MidMed and propose an instruction-guiding medical dialogue generation framework, termed InsMed, to address this task. Experimental results show the effectiveness of InsMed.
翻訳日:2023-06-06 14:35:21 公開日:2023-06-05
# 衛星画像復元のためのゼロショットフレームワーク

Zero shot framework for satellite image restoration ( http://arxiv.org/abs/2306.02921v1 )

ライセンス: Link先を確認
Praveen Kandula and A. N. Rajagopalan(参考訳) 衛星画像は通常、複数の歪みを受ける。 異なる要因は、大気の変化、表面反射率、太陽の照度、測地線などの衛星画像の品質に影響し、下流タスクへの応用を制限する。 教師付きネットワークでは、ペアデータセットの可用性が強い仮定である。 その結果、この問題に対処するために多くの教師なしアルゴリズムが提案されている。 これらの手法は画像形成モデルを用いて分解画像の大規模なデータセットを合成的に生成する。 ニューラルネットワークは、歪んだドメインとクリーンなドメインからイメージを区別するために、敵対的損失で訓練される。 しかし、これらの手法は生成機構に必ずしも適合しない実画像上でテストした場合に最適でない性能をもたらす。 また、大量のトレーニングデータが必要であり、数枚の画像しか利用できない場合、不適当にレンダリングされる。 これらの課題に対処するために,衛星画像復元のための歪み分散と知識蒸留の枠組みを提案する。 我々のアルゴリズムは2つの画像のみを必要とする:歪んだ衛星画像の復元と類似した意味を持つ参照画像。 具体的には、まず歪みを歪めるメカニズムを提案する。 これにより、歪みや基準画像を用いて、歪みの度合いの異なる画像を生成することができる。 次に, 生成画像対を用いた復元ネットワークの訓練における知識蒸留の利用を提案する。 最後のステップとして、歪んだ画像が復元ネットワークを通過して最終的な出力を得る。 アブレーション研究により,提案機構は歪みを歪めることに成功した。

Satellite images are typically subject to multiple distortions. Different factors affect the quality of satellite images, including changes in atmosphere, surface reflectance, sun illumination, viewing geometries etc., limiting its application to downstream tasks. In supervised networks, the availability of paired datasets is a strong assumption. Consequently, many unsupervised algorithms have been proposed to address this problem. These methods synthetically generate a large dataset of degraded images using image formation models. A neural network is then trained with an adversarial loss to discriminate between images from distorted and clean domains. However, these methods yield suboptimal performance when tested on real images that do not necessarily conform to the generation mechanism. Also, they require a large amount of training data and are rendered unsuitable when only a few images are available. We propose a distortion disentanglement and knowledge distillation framework for satellite image restoration to address these important issues. Our algorithm requires only two images: the distorted satellite image to be restored and a reference image with similar semantics. Specifically, we first propose a mechanism to disentangle distortion. This enables us to generate images with varying degrees of distortion using the disentangled distortion and the reference image. We then propose the use of knowledge distillation to train a restoration network using the generated image pairs. As a final step, the distorted image is passed through the restoration network to get the final output. Ablation studies show that our proposed mechanism successfully disentangles distortion.
翻訳日:2023-06-06 14:35:03 公開日:2023-06-05
# ニューラル言語モデルの第二言語獲得

Second Language Acquisition of Neural Language Models ( http://arxiv.org/abs/2306.02920v1 )

ライセンス: Link先を確認
Miyu Oba, Tatsuki Kuribayashi, Hiroki Ouchi, Taro Watanabe(参考訳) ニューラル言語モデル(LM)の成功により、言語習得に大きな注目を集めている。 この研究は、LMの第二言語(L2)の獲得に光を当て、以前の研究は、通常、彼らの第一言語(L1)の獲得を探求してきた。 具体的には,人間のL2獲得に類似したシナリオでバイリンガルLMを訓練し,言語学的視点から言語間移動の分析を行った。 我々の探索実験は、L1事前学習がL2における言語一般化を加速し、言語伝達構成(例えば、L1の選択と平行テキストの存在)がそれらの一般化に大きく影響したことを示した。 これらは、(非)人間的なL2の獲得を特に明らかにしている。

With the success of neural language models (LMs), their language acquisition has gained much attention. This work sheds light on the second language (L2) acquisition of LMs, while previous work has typically explored their first language (L1) acquisition. Specifically, we trained bilingual LMs with a scenario similar to human L2 acquisition and analyzed their cross-lingual transfer from linguistic perspectives. Our exploratory experiments demonstrated that the L1 pretraining accelerated their linguistic generalization in L2, and language transfer configurations (e.g., the L1 choice, and presence of parallel texts) substantially affected their generalizations. These clarify their (non-)human-like L2 acquisition in particular aspects.
翻訳日:2023-06-06 14:34:44 公開日:2023-06-05
# 逆インク: 深層学習における成分的に後方誤差攻撃

Adversarial Ink: Componentwise Backward Error Attacks on Deep Learning ( http://arxiv.org/abs/2306.02918v1 )

ライセンス: Link先を確認
Lucas Beerens and Desmond J. Higham(参考訳) ディープニューラルネットワークは、多くの分類タスクにおいて最先端のパフォーマンスを実現できる。 しかし、それらは、分類の変更につながる入力に対する小さな摂動である敵の攻撃に弱いことが知られている。 本稿では,数値解析に有用な概念である逆誤差と条件数の観点から,この問題に対処する。 これを実現するために、我々はbeuzeville et al. (2021) の作業に基づいて構築する。 特に,コンポーネント別相対摂動を用いた新たな攻撃アルゴリズムを開発した。 このような攻撃は、手書きの文書や印刷されたテキストの場合、例えば署名、郵便番号、日付、数字の分類が、背景ではなくインクの一貫性だけを変えることで変更される可能性がある。 これにより、摂動画像は裸眼で自然に見えます。 このような「敵のインク」攻撃は、安全性とセキュリティに深刻な影響を及ぼす可能性のある弱点を露呈する。 実データに対する新たな攻撃を説明し,既存のアルゴリズムと対比する。 また,脆弱性の定量化にコンポーネント単位の条件数を用いることも検討した。

Deep neural networks are capable of state-of-the-art performance in many classification tasks. However, they are known to be vulnerable to adversarial attacks -- small perturbations to the input that lead to a change in classification. We address this issue from the perspective of backward error and condition number, concepts that have proved useful in numerical analysis. To do this, we build on the work of Beuzeville et al. (2021). In particular, we develop a new class of attack algorithms that use componentwise relative perturbations. Such attacks are highly relevant in the case of handwritten documents or printed texts where, for example, the classification of signatures, postcodes, dates or numerical quantities may be altered by changing only the ink consistency and not the background. This makes the perturbed images look natural to the naked eye. Such ``adversarial ink'' attacks therefore reveal a weakness that can have a serious impact on safety and security. We illustrate the new attacks on real data and contrast them with existing algorithms. We also study the use of a componentwise condition number to quantify vulnerability.
翻訳日:2023-06-06 14:34:32 公開日:2023-06-05
# 分散SGDと平均方向SAMは漸近的に等価である

Decentralized SGD and Average-direction SAM are Asymptotically Equivalent ( http://arxiv.org/abs/2306.02913v1 )

ライセンス: Link先を確認
Tongtian Zhu, Fengxiang He, Kaixuan Chen, Mingli Song, Dacheng Tao(参考訳) 分散確率勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。 しかし、既存の理論では、分散化が一般化を弱めている。 本稿では,従来の信念に挑戦し,分散学習を理解するための全く新しい視点を提案する。 d-sgdは一般の非凸非$-\beta$-smooth設定下で平均指向シャープネス認識最小化(sam)アルゴリズムの損失関数を暗黙的に最小化する。 This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios.

Decentralized stochastic gradient descent (D-SGD) allows collaborative learning on massive devices simultaneously without the control of a central server. However, existing theories claim that decentralization invariably undermines generalization. In this paper, we challenge the conventional belief and present a completely new perspective for understanding decentralized learning. We prove that D-SGD implicitly minimizes the loss function of an average-direction Sharpness-aware minimization (SAM) algorithm under general non-convex non-$\beta$-smooth settings. This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios.
翻訳日:2023-06-06 14:34:16 公開日:2023-06-05
# 水中画像からの無監督ヘイズ除去

Unsupervised haze removal from underwater images ( http://arxiv.org/abs/2306.02912v1 )

ライセンス: Link先を確認
Praveen Kandula and A. N. Rajagopalan(参考訳) 複数の教師付きネットワークがあり、ペアのデータセットとピクセル単位の損失関数を使って水中画像からヘイズ情報を除去している。 しかし、これらのネットワークをトレーニングするには大量のペアデータが必要である。 また, 教師なし学習において, 逆・周期整合損失関数を直接用いた場合, クリーン画像から水中画像へのマッピングが一対多であるため, サイクル整合損失に不正確な制約が生じる。 これらの課題に対処するために,未ペアデータを用いた水中画像からのヘイズ除去手法を提案する。 本モデルでは,Haz Disentanglement Network (HDN) を用いて,水中画像からヘイズとコンテンツ情報を抽出する。 歪んだコンテンツを復元ネットワークで使用し、敵の損失を利用してクリーンな画像を生成する。 この異方性ヘイズを水中画像再生のためのガイドとして使用し、サイクル一貫性の損失とパフォーマンス向上に強い制約を課す。 異なるアブレーション研究により、水中画像からのヘイズと内容物が効果的に分離されていることが示されている。 探索実験により, 正確なサイクル整合性制約と提案したネットワークアーキテクチャが, 性能向上に重要な役割を果たすことが明らかになった。 ufo-120, uwnet, uwscenes, uiebの水中データセットを用いた実験から, 本手法は, 視覚的および定量的に先行技術よりも優れていた。

Several supervised networks exist that remove haze information from underwater images using paired datasets and pixel-wise loss functions. However, training these networks requires large amounts of paired data which is cumbersome, complex and time-consuming. Also, directly using adversarial and cycle consistency loss functions for unsupervised learning is inaccurate as the underlying mapping from clean to underwater images is one-to-many, resulting in an inaccurate constraint on the cycle consistency loss. To address these issues, we propose a new method to remove haze from underwater images using unpaired data. Our model disentangles haze and content information from underwater images using a Haze Disentanglement Network (HDN). The disentangled content is used by a restoration network to generate a clean image using adversarial losses. The disentangled haze is then used as a guide for underwater image regeneration resulting in a strong constraint on cycle consistency loss and improved performance gains. Different ablation studies show that the haze and content from underwater images are effectively separated. Exhaustive experiments reveal that accurate cycle consistency constraint and the proposed network architecture play an important role in yielding enhanced results. Experiments on UFO-120, UWNet, UWScenes, and UIEB underwater datasets indicate that the results of our method outperform prior art both visually and quantitatively.
翻訳日:2023-06-06 14:34:02 公開日:2023-06-05
# Action-Evolution Petri Nets: 動的タスク割り当て問題のモデル化と解決のためのフレームワーク

Action-Evolution Petri Nets: a Framework for Modeling and Solving Dynamic Task Assignment Problems ( http://arxiv.org/abs/2306.02910v1 )

ライセンス: Link先を確認
Riccardo Lo Bianco, Remco Dijkman, Wim Nuijten, Willem van Jaarsveld(参考訳) 動的タスク割り当ては、割り当ての全体的なコストを最小化するために、到着するタスクを限られた数のリソースに割り当てることを伴う。 最適なタスク割り当てを実現するためには,まず課題をモデル化する必要がある。 マルコフ決定過程や(色)ペトリネットといった、問題の異なる側面をモデル化し、実行し、解決する独立した形式が存在するが、統合モデリング技術は存在しない。 本稿では,動的タスク割り当て問題のモデル化と解決のためのフレームワークとして,アクション進化ペトリネット(A-E PN)を提案する。 A-E PNは動的タスク割り当て問題のすべての要素を表現できる統一モデリング技術を提供する。 さらに、a-e pnモデルは実行可能であり、追加のモデリング作業なしに強化学習(rl)を通じて最適に近い割り当てポリシーを学ぶことができる。 この枠組みを評価するために,古型代入問題の分類を定義した。 a-e pnが最適の割り当てポリシーを学ぶために使用できる3つの事例を示す。 本研究は,a-e pnを用いて幅広い動的タスク割り当て問題をモデル化し,解決できることを示唆する。

Dynamic task assignment involves assigning arriving tasks to a limited number of resources in order to minimize the overall cost of the assignments. To achieve optimal task assignment, it is necessary to model the assignment problem first. While there exist separate formalisms, specifically Markov Decision Processes and (Colored) Petri Nets, to model, execute, and solve different aspects of the problem, there is no integrated modeling technique. To address this gap, this paper proposes Action-Evolution Petri Nets (A-E PN) as a framework for modeling and solving dynamic task assignment problems. A-E PN provides a unified modeling technique that can represent all elements of dynamic task assignment problems. Moreover, A-E PN models are executable, which means they can be used to learn close-to-optimal assignment policies through Reinforcement Learning (RL) without additional modeling effort. To evaluate the framework, we define a taxonomy of archetypical assignment problems. We show for three cases that A-E PN can be used to learn close-to-optimal assignment policies. Our results suggest that A-E PN can be used to model and solve a broad range of dynamic task assignment problems.
翻訳日:2023-06-06 14:33:34 公開日:2023-06-05
# SelfEvolve: 大規模言語モデルによるコード進化フレームワーク

SelfEvolve: A Code Evolution Framework via Large Language Models ( http://arxiv.org/abs/2306.02907v1 )

ライセンス: Link先を確認
Shuyang Jiang, Yuhao Wang, Yu Wang(参考訳) 大きな言語モデル(LLM)は、公開コードデータで事前訓練された後、コード生成に革命をもたらした。 しかし、検索した知識でLLMを増強し、コード生成の質を高めるための様々な手法が提案されているが、これらの検索手法の性能は、使用する検索器の強度によって制限されている。 加えて、LLMは素晴らしい創発的な能力を示しているが、正しいコードを1ターンで作るのに苦労している。 これらの課題に対処するため,我々は,知識提供者と自己反射型プログラマの両方としてllmを活用する2段階パイプラインである \autoknowを提案する。 検索ベースの方法とは異なり、Autoknow~は入力プロンプトから知識を取得し、生成された知識に基づいて中間コードを生成する。 その後、‘autoknow~ass’ は LLM をエキスパートプログラマとして動作させ、生成されたコードのデバッグを実行する。 これは、修正性検証のために特別なテストケースを必要とせずに、インタプリタからエラーメッセージを受信することで実現される。 データサイエンスコードのDS-1000、ソフトウェアエンジニアリングコードのHumanEval、C++からPythonへの変換のためのTransCoderを含む3つのコード生成データセットで‘autoknow~’を評価する。 実験により、‘autoknow~outperforms strong baselines by a significant margin on all datasets。 また,オートノウの2段階の有効性を検証するために,徹底的な解析実験を行い,両者が他のプロンプトベース手法よりも優れていることを発見した。 さらなるスケーラビリティ分析により、'autoknow~'はGPT-4のような他の高度なモデルに適応できることが示され、一貫した有効性向上をもたらす。

Large language models (LLMs) have already revolutionized code generation, after being pretrained on publicly available code data. However, while various methods have been proposed to augment LLMs with retrieved knowledge and enhance the quality of code generation, the performance of these retrieval-based methods is limited by the strength of the retrievers used. In addition, while LLMs show great emergent ability, they still struggle to produce the correct code in one turn. To address these challenges, we propose a novel two-step pipeline, called \autoknow, that leverages LLMs as both knowledge providers and self-reflective programmers. Unlike retrieval-based methods, \autoknow~obtains the knowledge from input prompts and generates intermediate code based on the generated knowledge. After that, \autoknow~asks LLM to act as an expert programmer to perform debugging for the generated code. This is achieved by receiving the error message from the interpreter, without requiring special test cases for correctness verification. We evaluate \autoknow~on three code generation datasets, including DS-1000 for data science code, HumanEval for software engineering code, and TransCoder for C++-to-Python translation. Our empirical experiments show that \autoknow~outperforms strong baselines by a significant margin on all datasets. We also conduct exhaustive analytical experiments to validate the effectiveness of the two stages of \autoknow, and find that both are superior to other prompting-based methods. Further scalability analysis demonstrates that \autoknow~can be adapted to other more advanced models, such as GPT-4, and bring consistent efficacy improvement.
翻訳日:2023-06-06 14:33:11 公開日:2023-06-05
# Instruct-Video2Avatar:インストラクション付きビデオ-アバター生成

Instruct-Video2Avatar: Video-to-Avatar Generation with Instructions ( http://arxiv.org/abs/2306.02903v1 )

ライセンス: Link先を確認
Shaoxu Li(参考訳) 本稿では,テキスト指示による編集されたフォトリアリスティックディジタルアバターの合成手法を提案する。 短い単眼rgbビデオとテキスト命令を与えられた場合,1つの頭部画像の編集には画像条件拡散モデルを使用し,他の頭部画像の編集にはビデオスタイライゼーション法を用いる。 反復的なトレーニングと更新(3回以上)により、編集されたフォトリアリスティックな3dニューラルヘッドアバターを変形可能なニューラルラミアンスフィールドヘッド合成法で合成する。 様々な対象の定量的・定性的研究において,本手法は最先端手法を上回っている。

We propose a method for synthesizing edited photo-realistic digital avatars with text instructions. Given a short monocular RGB video and text instructions, our method uses an image-conditioned diffusion model to edit one head image and uses the video stylization method to accomplish the editing of other head images. Through iterative training and update (three times or more), our method synthesizes edited photo-realistic animatable 3D neural head avatars with a deformable neural radiance field head synthesis method. In quantitative and qualitative studies on various subjects, our method outperforms state-of-the-art methods.
翻訳日:2023-06-06 14:32:40 公開日:2023-06-05
# 逆アラビア音声認識におけるWhisperのNショットベンチマーク

N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition ( http://arxiv.org/abs/2306.02902v1 )

ライセンス: Link先を確認
Bashar Talafha, Abdul Waheed, Muhammad Abdul-Mageed(参考訳) 最近開発された多言語弱い教師付きモデルであるwhisperは、単言語と多言語の両方で複数の音声認識ベンチマークでうまく機能していると報告されている。 しかし、アラビア語などの言語で評価された場合でも、様々な条件下でどのようにささやくかは明らかではない。 本研究では、このギャップに対処するため、ASRタスクのための様々なアラビア語音声に対して、Whisperを包括的に評価する。 本評価は, アラビア語音声データの大部分を網羅し, n-shot (0-, few-, full) ファインタニングで行う。 また, 方言アクセント標準アラビア語や未熟方言など, 全く新しい条件下でのささやき声の頑健性についても検討し, 評価データを開発した。 実験の結果、Whisperのゼロショットは全データセットでXLS-Rモデルよりも優れていたが、その性能は5つの未知の方言(アルジェリア、ヨルダン、パレスチナ、アラブ首長国連邦、イエメン)のゼロショット設定で著しく低下した。

Whisper, the recently developed multilingual weakly supervised model, is reported to perform well on multiple speech recognition benchmarks in both monolingual and multilingual settings. However, it is not clear how Whisper would fare under diverse conditions even on languages it was evaluated on such as Arabic. In this work, we address this gap by comprehensively evaluating Whisper on several varieties of Arabic speech for the ASR task. Our evaluation covers most publicly available Arabic speech data and is performed under n-shot (zero-, few-, and full) finetuning. We also investigate the robustness of Whisper under completely novel conditions, such as in dialect-accented standard Arabic and in unseen dialects for which we develop evaluation data. Our experiments show that although Whisper zero-shot outperforms fully finetuned XLS-R models on all datasets, its performance deteriorates significantly in the zero-shot setting for five unseen dialects (i.e., Algeria, Jordan, Palestine, UAE, and Yemen).
翻訳日:2023-06-06 14:32:27 公開日:2023-06-05
# 明示的な神経表面:変形場を用いた連続幾何学の学習

Explicit Neural Surfaces: Learning Continuous Geometry With Deformation Fields ( http://arxiv.org/abs/2306.02956v1 )

ライセンス: Link先を確認
Thomas Walker, Octave Mariotti, Amir Vaxman, Hakan Bilen(参考訳) 複数のビューから明確に定義された連続表面を学習する効率的な表面再構成法であるExplicit Neural Surfaces (ENS)を導入する。 連続入力面を目標形状に漸進的に変換するために,一連の神経変形場を用いる。 メッシュを離散曲面プロキシとしてサンプリングすることにより、効率的な微分ラスタ化により変形場を訓練し、メッシュ非依存かつ滑らかな表面表現を実現する。 laplace-beltrami固有関数を標準の極端フーリエ特徴と並行して本質的な位置符号化として用いることで,詳細な表面詳細を捉えることができる。 ENSは1桁から2桁の速度で走行し、暗黙の表現よりも高い品質のメッシュを抽出できる一方で、競合する表面再構成性能とリアルタイム能力を維持している。 最後に, 物体の集合を1つのモデルで学習し, 異なる形状, 表面の細部, テクスチャ間の乱れを補間する手法を提案する。

We introduce Explicit Neural Surfaces (ENS), an efficient surface reconstruction method that learns an explicitly defined continuous surface from multiple views. We use a series of neural deformation fields to progressively transform a continuous input surface to a target shape. By sampling meshes as discrete surface proxies, we train the deformation fields through efficient differentiable rasterization, and attain a mesh-independent and smooth surface representation. By using Laplace-Beltrami eigenfunctions as an intrinsic positional encoding alongside standard extrinsic Fourier features, our approach can capture fine surface details. ENS trains 1 to 2 orders of magnitude faster and can extract meshes of higher quality compared to implicit representations, whilst maintaining competitive surface reconstruction performance and real-time capabilities. Finally, we apply our approach to learn a collection of objects in a single model, and achieve disentangled interpolations between different shapes, their surface details, and textures.
翻訳日:2023-06-06 14:24:11 公開日:2023-06-05
# 臨床アンケートからの学習による精神障害検出のための簡便で柔軟なモデリング

A Simple and Flexible Modeling for Mental Disorder Detection by Learning from Clinical Questionnaires ( http://arxiv.org/abs/2306.02955v1 )

ライセンス: Link先を確認
Hoyun Song, Jisu Shin, Huije Lee, Jong C. Park(参考訳) ソーシャルメディアは、ユーザーによって言語の特徴を分析するために最も求められているリソースの1つである。 特に、多くの研究者がソーシャルメディアからメンタルヘルス問題の言語的特徴を利用した。 しかし、既存の精神障害検出アプローチでは、高品質なデータの不足やモデルの複雑さへの対処と、専門家のドメイン知識に基づく解釈可能な結果の提示のトレードオフといった重要な課題に直面している。 これらの課題に対処するため、我々はドメインベースの解釈性を保持するシンプルで柔軟なモデルを設計します。 そこで本研究では,テキストから直接意味を抽出し,症状に関連する記述と比較する手法を提案する。 実験の結果,本モデルは種々の精神障害検出タスクにおいて,関連するベースラインよりも優れていた。 詳細な分析により,提案モデルがドメイン知識の活用,他の精神疾患への伝達,解釈可能な検出結果の提供に有効であることが示唆された。

Social media is one of the most highly sought resources for analyzing characteristics of the language by its users. In particular, many researchers utilized various linguistic features of mental health problems from social media. However, existing approaches to detecting mental disorders face critical challenges, such as the scarcity of high-quality data or the trade-off between addressing the complexity of models and presenting interpretable results grounded in expert domain knowledge. To address these challenges, we design a simple but flexible model that preserves domain-based interpretability. We propose a novel approach that captures the semantic meanings directly from the text and compares them to symptom-related descriptions. Experimental results demonstrate that our model outperforms relevant baselines on various mental disorder detection tasks. Our detailed analysis shows that the proposed model is effective at leveraging domain knowledge, transferable to other mental disorders, and providing interpretable detection results.
翻訳日:2023-06-06 14:23:53 公開日:2023-06-05
# カラーアウェア深部時間背景二重マットリングシステム

Color-aware Deep Temporal Backdrop Duplex Matting System ( http://arxiv.org/abs/2306.02954v1 )

ライセンス: Link先を確認
Hendrik Hachmann and Bodo Rosenhahn(参考訳) 深層学習ベースのアルファマッティングは近年大幅に改善されているが、映画製作スタジオはコストのかかるポストプロダクションステップを含む古典的なクロマキーに依存している。 この不一致は、現在アルファマッティングコミュニティで適切に対処されていない生産に必要ないくつかの欠落リンク、特に前景の色推定や色こぼれ補償によって説明できる。 そこで我々は,クロマキーとアルファマッティングの利点を組み合わせ,ニューラルネットワークに基づく時間的マルチ背景生成システムを提案する。 背景色が異なる2つの連続フレームが与えられると、ワンエンコーダ・ダイアルデコーダネットワークはパッチベースのオーバーラップブレンドアプローチで前景色とアルファ値を予測する。 このシステムは、不正確な背景、ダイナミックカメラ、ダイナミックフォアグラウンドを処理でき、フォアグラウンドカラーに制限がない。 本手法を,ベンチマークデータセットとデモンストレータ設定でキャプチャしたビデオシーケンスを用いて,最先端アルゴリズムと比較する。 二重背景入力が通常適用されるトリマップ方式よりも優れていることを検証する。 さらに、提案するスタジオセットはアクターフレンドリーであり、高品質で時間的整合性のあるアルファと色推定を行い、優れた色引き補正を含む。

Deep learning-based alpha matting showed tremendous improvements in recent years, yet, feature film production studios still rely on classical chroma keying including costly post-production steps. This perceived discrepancy can be explained by some missing links necessary for production which are currently not adequately addressed in the alpha matting community, in particular foreground color estimation or color spill compensation. We propose a neural network-based temporal multi-backdrop production system that combines beneficial features from chroma keying and alpha matting. Given two consecutive frames with different background colors, our one-encoder-dual-decoder network predicts foreground colors and alpha values using a patch-based overlap-blend approach. The system is able to handle imprecise backdrops, dynamic cameras, and dynamic foregrounds and has no restrictions on foreground colors. We compare our method to state-of-the-art algorithms using benchmark datasets and a video sequence captured by a demonstrator setup. We verify that a dual backdrop input is superior to the usually applied trimap-based approach. In addition, the proposed studio set is actor friendly, and produces high-quality, temporal consistent alpha and color estimations that include a superior color spill compensation.
翻訳日:2023-06-06 14:23:39 公開日:2023-06-05
# INDigo:逆問題に対する INN-Guided Probabilistic Diffusion Algorithm

INDigo: An INN-Guided Probabilistic Diffusion Algorithm for Inverse Problems ( http://arxiv.org/abs/2306.02949v1 )

ライセンス: Link先を確認
Di You, Andreas Floros, Pier Luigi Dragotti(参考訳) 近年,逆問題に対する拡散モデルの利用は顕著な結果をもたらすことが示されている。 しかし、これらのアプローチは分解モデルの閉形式表現を必要とし、複雑な分解をサポートできない。 この制限を克服するために、一般的な逆問題に対する可逆ニューラルネットワーク(INN)と拡散モデルを組み合わせた手法(INDigo)を提案する。 具体的には,innの進行過程を訓練し,任意の劣化過程をシミュレートし,その逆過程を再構成過程として用いる。 拡散サンプリングプロセスでは, 中間結果と INN 最適化結果の距離を最小化するデータ一貫性を付加し, INN 最適化画像は, 観測された劣化画像から得られた粗い情報と拡散過程によって生成された詳細とから構成される。 INNの助けを借りて、我々のアルゴリズムは、劣化過程で失われた詳細を効果的に推定し、劣化モデルのクローズドフォーム表現を知る必要性により、もはや制限されない。 実験により,最近の先行手法と定量的および視覚的に比較して,アルゴリズムが競争結果を得ることが示された。 さらに, このアルゴリズムは, より複雑な劣化モデルと実世界の低品質画像でよく機能する。

Recently it has been shown that using diffusion models for inverse problems can lead to remarkable results. However, these approaches require a closed-form expression of the degradation model and can not support complex degradations. To overcome this limitation, we propose a method (INDigo) that combines invertible neural networks (INN) and diffusion models for general inverse problems. Specifically, we train the forward process of INN to simulate an arbitrary degradation process and use the inverse as a reconstruction process. During the diffusion sampling process, we impose an additional data-consistency step that minimizes the distance between the intermediate result and the INN-optimized result at every iteration, where the INN-optimized image is composed of the coarse information given by the observed degraded image and the details generated by the diffusion process. With the help of INN, our algorithm effectively estimates the details lost in the degradation process and is no longer limited by the requirement of knowing the closed-form expression of the degradation model. Experiments demonstrate that our algorithm obtains competitive results compared with recently leading methods both quantitatively and visually. Moreover, our algorithm performs well on more complex degradation models and real-world low-quality images.
翻訳日:2023-06-06 14:23:16 公開日:2023-06-05
# 難民配置におけるランダム分布変化:ロバストモデル構築戦略

Random Distribution Shift in Refugee Placement: Strategies for Building Robust Models ( http://arxiv.org/abs/2306.02948v1 )

ライセンス: Link先を確認
Kirk Bansak, Elisabeth Paulson, Dominik Rothenh\"ausler(参考訳) 近年,米国やスイスでは,難民や亡命希望者をホスト国内の場所へ配置するアルゴリズムが注目されている。 これらのアプローチでは、過去の到着時のデータを使用して、家族と場所をマッチングするために(代入アルゴリズムとともに)使用できる機械学習モデルを生成する。 既存の実装と研究モデルは、政策結果を直接予測し、これらの予測を課題手順で使用する。 しかしながら、このアプローチのメリット、特に非定常設定については、これまで検討されていなかった。 本研究は,上述の標準アプローチ,新たなデータとプロキシ結果を用いたアプローチ,ハイブリッドアプローチの3つの異なるモデリング戦略を提案し,比較する。 ハイブリッドアプローチは分散シフトと弱いプロキシの関係 -- 他の2つの方法の障害点 -- の両方に対して堅牢であることを示す。 オランダの亡命希望者のデータを用いて,これらのアプローチを実証的に比較した。 驚くべきことに、プロキシとハイブリッドの両方のアプローチが、現実の標準アプローチよりも優れています。 これらの洞察は、現在NGOや政府機関が使用している現実世界のレコメンデーションツールの開発を支援する。

Algorithmic assignment of refugees and asylum seekers to locations within host countries has gained attention in recent years, with implementations in the US and Switzerland. These approaches use data on past arrivals to generate machine learning models that can be used (along with assignment algorithms) to match families to locations, with the goal of maximizing a policy-relevant integration outcome such as employment status after a certain duration. Existing implementations and research train models to predict the policy outcome directly, and use these predictions in the assignment procedure. However, the merits of this approach, particularly in non-stationary settings, has not been previously explored. This study proposes and compares three different modeling strategies: the standard approach described above, an approach that uses newer data and proxy outcomes, and a hybrid approach. We show that the hybrid approach is robust to both distribution shift and weak proxy relationships -- the failure points of the other two methods, respectively. We compare these approaches empirically using data on asylum seekers in the Netherlands. Surprisingly, we find that both the proxy and hybrid approaches out-perform the standard approach in practice. These insights support the development of a real-world recommendation tool currently used by NGOs and government agencies.
翻訳日:2023-06-06 14:22:56 公開日:2023-06-05
# 入力空間におけるチューニングによる事前学習されたバックボーンによる連続学習

Continual Learning with Pretrained Backbones by Tuning in the Input Space ( http://arxiv.org/abs/2306.02947v1 )

ライセンス: Link先を確認
Simone Marullo and Matteo Tiezzi and Marco Gori and Stefano Melacci and Tinne Tuytelaars(参考訳) ディープラーニングモデルを非定常環境に適用することの本質的な困難さは、ニューラルネットワークの実際のタスクへの適用性を制限している。 この問題は、事前訓練されたモデルが、異なるタスク予測器が時間とともに順次学習される潜在空間への投影を計算するような、実践的な教師付き学習設定において重要である。 実のところ、新しいタスクに適応するためにモデルを段階的に微調整すると、たいていは破滅的な忘れがちになり、過去の経験よりもパフォーマンスが低下し、トレーニング前の段階から貴重な知識を失う。 本稿では,ネットワークの事前学習部分の更新を回避し,通常の分類ヘッドだけでなく,入力データの変換に責任を持つ新たな学習可能なパラメータのセットも学習することで,微調整手順をより効果的にするための新しい手法を提案する。 このプロセスにより、ネットワークは事前学習した知識を効果的に活用し、可塑性と安定性の間の良いトレードオフを見つけることができる。 連続学習環境における4つの画像分類問題に関する実験は,複数の微調整手順と一般的な連続学習手法と比較して,提案手法の品質を確認する。

The intrinsic difficulty in adapting deep learning models to non-stationary environments limits the applicability of neural networks to real-world tasks. This issue is critical in practical supervised learning settings, such as the ones in which a pre-trained model computes projections toward a latent space where different task predictors are sequentially learned over time. As a matter of fact, incrementally fine-tuning the whole model to better adapt to new tasks usually results in catastrophic forgetting, with decreasing performance over the past experiences and losing valuable knowledge from the pre-training stage. In this paper, we propose a novel strategy to make the fine-tuning procedure more effective, by avoiding to update the pre-trained part of the network and learning not only the usual classification head, but also a set of newly-introduced learnable parameters that are responsible for transforming the input data. This process allows the network to effectively leverage the pre-training knowledge and find a good trade-off between plasticity and stability with modest computational efforts, thus especially suitable for on-the-edge settings. Our experiments on four image classification problems in a continual learning setting confirm the quality of the proposed approach when compared to several fine-tuning procedures and to popular continual learning methods.
翻訳日:2023-06-06 14:22:39 公開日:2023-06-05
# 分散SGDアルゴリズムの安定性と一般化解析の改善

Improved Stability and Generalization Analysis of the Decentralized SGD Algorithm ( http://arxiv.org/abs/2306.02939v1 )

ライセンス: Link先を確認
Batiste Le Bars, Aur\'elien Bellet, Marc Tommasi(参考訳) 本稿では,分散確率勾配 Descent (D-SGD) アルゴリズムのアルゴリズム安定性に基づく新しい一般化誤差解析法を提案する。 得られた結果は、最先端の結果を大きく改善し、通信グラフが一般化に有害な影響を与えるという主張を無効にする。 例えば、凸設定では、D-SGDはグラフの選択にかかわらず、古典的なSGDアルゴリズムと同じ一般化境界を持つことを示す。 この反直感的な結果は、分散化シナリオと互換性のない最後のグローバル平均化ステップを隠蔽する局所パラメータの平均を考えることから生じる。 この観察を踏まえて,局所パラメータ上の超越性解析を提唱し,この場合,グラフが一般化に影響を与えていることを示す。 先行結果とは異なり,本解析は非連結グラフにおいても空でない境界を与える。

This paper presents a new generalization error analysis for the Decentralized Stochastic Gradient Descent (D-SGD) algorithm based on algorithmic stability. The obtained results largely improve upon state-of-the-art results, and even invalidate their claims that the communication graph has a detrimental effect on generalization. For instance, we show that in convex settings, D-SGD has the same generalization bounds as the classical SGD algorithm, no matter the choice of graph. We exhibit that this counter-intuitive result comes from considering the average of local parameters, which hides a final global averaging step incompatible with the decentralized scenario. In light of this observation, we advocate to analyze the supremum over local parameters and show that in this case, the graph does have an impact on the generalization. Unlike prior results, our analysis yields non-vacuous bounds even for non-connected graphs.
翻訳日:2023-06-06 14:22:18 公開日:2023-06-05
# ベイズモデル選択を用いた因果発見

Causal Discovery using Bayesian Model Selection ( http://arxiv.org/abs/2306.02931v1 )

ライセンス: Link先を確認
Anish Dhir and Mark van der Wilk(参考訳) 2つの変数に関する観測データだけで、他の仮定がなければ、一方が他方の原因を推測することはできない。 因果文献の多くは、加算雑音やパラメータ数制限といった強い仮定が持たれるデータセットの統計モデルにおける因果方向の識別性を保証することに重点を置いている。 これらの手法はその後、現実的なデータセット上でテストされる。 これまでの試みに基づいて,ベイズフレームワークにおける因果仮定の使用方法を示す。 これにより、現実的な仮定を持つモデルを指定すると同時に、独立因果メカニズムを符号化し、因果方向の間に非対称性をもたらすことができる。 因果方向を特定することはベイズモデル選択問題となる。 ベイズモデル選択が既知の識別可能なケースやフレキシブルモデルクラスに対して機能する理由を分析し、その振る舞いに関する正当性を保証する。 提案手法を実証するため,ジョイントを柔軟にモデル化できるベイズ非パラメトリックモデルを構築した。 そして,提案手法の有用性を示すデータ生成仮定を多岐にわたるベンチマークデータセットにおいて,従来の手法を上回った。

With only observational data on two variables, and without other assumptions, it is not possible to infer which one causes the other. Much of the causal literature has focused on guaranteeing identifiability of causal direction in statistical models for datasets where strong assumptions hold, such as additive noise or restrictions on parameter count. These methods are then subsequently tested on realistic datasets, most of which violate their assumptions. Building on previous attempts, we show how to use causal assumptions within the Bayesian framework. This allows us to specify models with realistic assumptions, while also encoding independent causal mechanisms, leading to an asymmetry between the causal directions. Identifying causal direction then becomes a Bayesian model selection problem. We analyse why Bayesian model selection works for known identifiable cases and flexible model classes, while also providing correctness guarantees about its behaviour. To demonstrate our approach, we construct a Bayesian non-parametric model that can flexibly model the joint. We then outperform previous methods on a wide range of benchmark datasets with varying data generating assumptions showing the usefulness of our method.
翻訳日:2023-06-06 14:22:05 公開日:2023-06-05
# Perforated Kinesiology Tape を用いた脊髄運動計測

Human Spine Motion Capture using Perforated Kinesiology Tape ( http://arxiv.org/abs/2306.02930v1 )

ライセンス: Link先を確認
Hendrik Hachmann and Bodo Rosenhahn(参考訳) 本研究では,スポーツにおける運動の要求に特異的に適応したマーカーに基づくマルチビュー・スピントラッキング手法を提案する。 最大の焦点は、マーカーの正確な検出とシステムの迅速な利用である。 本課題は, 孔状キネシオロジーテープにおけるドット配置の事前知識を活用することである。 テープとそのドットをMask R-CNNとブロブ検出器を用いて検出する。 ここでは、画像ベースの機能のエンコーディングやマッチングをスキップしながらのみ検出に焦点を当てます。 線形プログラムとマルコフ確率場を用いて3dの推論を行い,キネシオロジーテープの構造をモデル化し,背骨形状を最適化した。 最先端システムと比較して,本システムは高精度かつマーカー密度を実現し,閉塞に対して頑健であり,高速な動きを捉えることができることを示す。

In this work, we present a marker-based multi-view spine tracking method that is specifically adjusted to the requirements for movements in sports. A maximal focus is on the accurate detection of markers and fast usage of the system. For this task, we take advantage of the prior knowledge of the arrangement of dots in perforated kinesiology tape. We detect the tape and its dots using a Mask R-CNN and a blob detector. Here, we can focus on detection only while skipping any image-based feature encoding or matching. We conduct a reasoning in 3D by a linear program and Markov random fields, in which the structure of the kinesiology tape is modeled and the shape of the spine is optimized. In comparison to state-of-the-art systems, we demonstrate that our system achieves high precision and marker density, is robust against occlusions, and capable of capturing fast movements.
翻訳日:2023-06-06 14:21:46 公開日:2023-06-05
# 参照ビジュアル検索のための弱改良条件付き埋め込み

Weakly-Supervised Conditional Embedding for Referred Visual Search ( http://arxiv.org/abs/2306.02928v1 )

ライセンス: Link先を確認
Simon Lepage, J\'er\'emie Mary, David Picard(参考訳) 本稿では,ファッションの文脈における画像類似性探索の新たなアプローチを提案する。 本稿では、ユーザが望む類似性を定義するための追加情報を提供するReferred Visual Search(RVS)の概念を紹介する。 LAION-RVS-Fashionという新たなデータセットを,LAIONから抽出した842K画像を含む272Kのファッション製品から作成する。 そこで本研究では, 2mの注意とフィルタリングに基づく古典的アプローチと比較して, 1回 (r@1) のリコール率を6%向上させる, 弱教師訓練を用いた条件埋め込み学習法を提案する。 提案手法はロバスト性を示し、ベースラインメソッドの2.5倍の邪魔者を扱う場合に類似のr@1を保持する。 これは、アクセス可能なデータとアプローチの両方の観点から、Referred Visual Searchの新興分野における一歩だと思います。 コード、データ、モデルはhttps://www.github.com/Simon-Lepage/CondViT-LRVSFで入手できる。

This paper presents a new approach to image similarity search in the context of fashion, a domain with inherent ambiguity due to the multiple ways in which images can be considered similar. We introduce the concept of Referred Visual Search (RVS), where users provide additional information to define the desired similarity. We present a new dataset, LAION-RVS-Fashion, consisting of 272K fashion products with 842K images extracted from LAION, designed explicitly for this task. We then propose an innovative method for learning conditional embeddings using weakly-supervised training, achieving a 6% increase in Recall at one (R@1) against a gallery with 2M distractors, compared to classical approaches based on explicit attention and filtering. The proposed method demonstrates robustness, maintaining similar R@1 when dealing with 2.5 times as many distractors as the baseline methods. We believe this is a step forward in the emerging field of Referred Visual Search both in terms of accessible data and approach. Code, data and models are available at https://www.github.com/Simon-Lepage/CondViT-LRVSF .
翻訳日:2023-06-06 14:21:32 公開日:2023-06-05
# PolyVoice:音声から音声への翻訳のための言語モデル

PolyVoice: Language Models for Speech to Speech Translation ( http://arxiv.org/abs/2306.02982v1 )

ライセンス: Link先を確認
Qianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang(参考訳) 音声合成システム(S2ST)のための言語モデルに基づくフレームワークであるPolyVoiceを提案する。 本フレームワークは,翻訳言語モデルと音声合成言語モデルという2つの言語モデルから構成される。 私たちは、完全に教師なしの方法で生成された離散化された音声ユニットを使用し、このフレームワークは、未記述言語に使用できる。 音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。 これにより、我々のフレームワークは、原音声の音声特性と話し方を保存することができる。 我々は中国語の$\rightarrow$ Englishと英語の$\rightarrow$ Spanish pairsについて検討する。 実験の結果,本システムは高い翻訳品質と音声品質を持つ音声を生成することができた。 音声サンプルはhttps://speechtranslation.github.io/polyvoiceで入手できる。

We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese $\rightarrow$ English and English $\rightarrow$ Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice.
翻訳日:2023-06-06 14:16:25 公開日:2023-06-05
# 決心の仕方を知っておけ! 自然言語説明における不整合の検出と緩和

KNOW How to Make Up Your Mind! Adversarially Detecting and Alleviating Inconsistencies in Natural Language Explanations ( http://arxiv.org/abs/2306.02980v1 )

ライセンス: Link先を確認
Myeongjun Jang, Bodhisattwa Prasad Majumder, Julian McAuley, Thomas Lukasiewicz, Oana-Maria Camburu(参考訳) 近年,その予測を正当化するためにモデルが生成した自然言語説明(NLE)の品質を著しく向上させているが,生成したNLE間の矛盾を検出し緩和する研究は極めて限られている。 本研究では,既存のNLEの検出において,既存の敵攻撃を著しく改善するために,外部知識ベースを活用する。 我々は高い性能のNLEモデルに適用し、高いNLE品質のモデルが必ずしも矛盾を生じないことを示す。 さらに,モデルから外部の背景知識を抽出することで不整合を緩和するオフザシェルフ緩和手法を提案する。 攻撃によって検出された従来の高性能NLEモデルの矛盾を低減させる。

While recent works have been considerably improving the quality of the natural language explanations (NLEs) generated by a model to justify its predictions, there is very limited research in detecting and alleviating inconsistencies among generated NLEs. In this work, we leverage external knowledge bases to significantly improve on an existing adversarial attack for detecting inconsistent NLEs. We apply our attack to high-performing NLE models and show that models with higher NLE quality do not necessarily generate fewer inconsistencies. Moreover, we propose an off-the-shelf mitigation method to alleviate inconsistencies by grounding the model into external background knowledge. Our method decreases the inconsistencies of previous high-performing NLE models as detected by our attack.
翻訳日:2023-06-06 14:16:13 公開日:2023-06-05
# Chai PlatformのAI安全性フレームワーク

The Chai Platform's AI Safety Framework ( http://arxiv.org/abs/2306.02979v1 )

ライセンス: Link先を確認
Xiaoding Lu, Aleksey Korshuk, Zongyi Liu, William Beauchamp(参考訳) Chaiはユーザーがカスタマイズされたチャットボットを作成、操作できるようにする。 エキサイティングな見通しにもかかわらず、この作品は現代の安全基準へのコミットメントの本質的な挑戦を認識している。 そこで本稿では,ユーザの安全,データ保護,倫理的技術利用を優先するai安全原則をchaiに統合する。 この論文は、AI安全研究の多次元領域を特に探求し、Chaiの会話チャットボットプラットフォームにおけるその応用を実証している。 ChaiのAI安全性原則を提示し、確立されたAI研究センターから通知され、チャットAIに適合する。 コンテンツ保護、安定性と堅牢性、運用上の透明性とトレーサビリティだ。 これらの原則のその後の実装を概説し、chaiのai安全フレームワークの実世界への影響を実験的に分析する。 我々は、AI安全原則と堅牢な安全対策の良心的な適用の重要性を強調した。 chaiにおけるsafe aiフレームワークの実装の成功は、ai技術の責任と倫理的利用に対する潜在的なリスクを軽減する実用性を示している。 究極のビジョンは、ユーザの安全と倫理基準を優先しながら、進歩とイノベーションを促進する変革的AIツールである。

Chai empowers users to create and interact with customized chatbots, offering unique and engaging experiences. Despite the exciting prospects, the work recognizes the inherent challenges of a commitment to modern safety standards. Therefore, this paper presents the integrated AI safety principles into Chai to prioritize user safety, data protection, and ethical technology use. The paper specifically explores the multidimensional domain of AI safety research, demonstrating its application in Chai's conversational chatbot platform. It presents Chai's AI safety principles, informed by well-established AI research centres and adapted for chat AI. This work proposes the following safety framework: Content Safeguarding; Stability and Robustness; and Operational Transparency and Traceability. The subsequent implementation of these principles is outlined, followed by an experimental analysis of Chai's AI safety framework's real-world impact. We emphasise the significance of conscientious application of AI safety principles and robust safety measures. The successful implementation of the safe AI framework in Chai indicates the practicality of mitigating potential risks for responsible and ethical use of AI technologies. The ultimate vision is a transformative AI tool fostering progress and innovation while prioritizing user safety and ethical standards.
翻訳日:2023-06-06 14:15:59 公開日:2023-06-05
# ソーシャルメディアにおけるヘイトスピーチのどの論点を確実に特定できるのか?

Which Argumentative Aspects of Hate Speech in Social Media can be reliably identified? ( http://arxiv.org/abs/2306.02978v1 )

ライセンス: Link先を確認
Dami\'an Furman, Pablo Torres, Jos\'e A. Rodr\'iguez, Diego Letzen, Vanina Mart\'inez, Laura Alonso Alemany(参考訳) 大規模言語モデルのユースケースの多様性が増すにつれ、テキストのより情報的な扱いが求められている。 議論的な分析は、チャットボット、テキスト補完機構、その他のアプリケーションのより合理的な利用を促進する可能性がある。 しかし、議論のどの側面が言語モデルに確実に識別され、統合できるかは明らかでない。 本稿では,ソーシャルメディアにおけるヘイトスピーチにおいて,異なる議論的側面を自動的に識別できる信頼性を実証的に評価する。 我々は、hatvalコーパス(basile et al. 2019)を、watmans(2016)の周期的議論表から適応したいくつかの議論的要素の手動アノテーションで強化した。 いくつかのコンポーネントは妥当な信頼性で識別できることを示す。 高エラー率を示す人に対しては、専門家のアノテータと自動手順におけるエラーの相違パターンを分析し、より確実に再現可能なカテゴリの適応を提案する。

With the increasing diversity of use cases of large language models, a more informative treatment of texts seems necessary. An argumentative analysis could foster a more reasoned usage of chatbots, text completion mechanisms or other applications. However, it is unclear which aspects of argumentation can be reliably identified and integrated in language models. In this paper, we present an empirical assessment of the reliability with which different argumentative aspects can be automatically identified in hate speech in social media. We have enriched the Hateval corpus (Basile et al. 2019) with a manual annotation of some argumentative components, adapted from Wagemans (2016)'s Periodic Table of Arguments. We show that some components can be identified with reasonable reliability. For those that present a high error ratio, we analyze the patterns of disagreement between expert annotators and errors in automatic procedures, and we propose adaptations of those categories that can be more reliably reproduced.
翻訳日:2023-06-06 14:15:41 公開日:2023-06-05
# 同時または連続の訓練? マルチタスク自己監督学習システムにおける音声表現の協調方法

Simultaneous or Sequential Training? How Speech Representations Cooperate in a Multi-Task Self-Supervised Learning System ( http://arxiv.org/abs/2306.02972v1 )

ライセンス: Link先を確認
Khazar Khorrami, Mar\'ia Andrea Cruz Bland\'on, Tuomas Virtanen, Okko R\"as\"anen(参考訳) 自己教師付きアルゴリズムによる音声表現学習は、多くの下流タスクで顕著なパフォーマンス向上をもたらした。 最近の研究は、表現学習のための自己教師付き学習(SSL)と視覚接地音声(VGS)処理機構を組み合わせたものである。 SSLとVGSとの共同トレーニングは、データ可用性に基づいたラベルなし音声と音声関連視覚情報の両方を利用する機会を提供する。 これは、特に意味論的および語彙的レベルの知識のエンコーディングにおいて、学習された表現の品質を高めることが示されている。 本稿では,マルチタスク学習システムとして,wav2vec 2.0ベースのSSLとトランスフォーマーベースのVGSの協調最適化について検討する。 本研究では,2つのタスク間での音声表現の共有や伝達の仕方と,モーダルな意味検索と音素識別性能の最適トレーニング戦略について検討する。 その結果、wav2vec 2.0 と vgs next による逐次学習は、両学習機構の同時最適化と比較して、視聴覚検索において高いパフォーマンスを提供することがわかった。 しかし、SSL-VGS並列トレーニングは、最適化基準を切り替える際の破滅的忘れの影響を低減する。 さらに,vgs 機構で学習した音素表現は,ssl で学習した表現よりもデータセットをまたいでより一般化する可能性が示唆された。

Speech representation learning with self-supervised algorithms has resulted in notable performance boosts in many downstream tasks. Recent work combined self-supervised learning (SSL) and visually grounded speech (VGS) processing mechanisms for representation learning. The joint training with SSL and VGS mechanisms provides the opportunity to utilize both unlabeled speech and speech-related visual information based on data availability. This has shown to enhance the quality of learned representations, especially at encoding semantic- and lexical-level knowledge. In this work, we further study the joint optimization of wav2vec 2.0-based SSL and transformer-based VGS as a multi-task learning system. We explore a set of training scenarios to understand how speech representations are shared or transferred between the two tasks, and what is the optimal training strategy for cross-modal semantic retrieval and phoneme discrimination performance. As a result, we find that sequential training with wav2vec 2.0 first and VGS next provides higher performance on audio-visual retrieval compared to simultaneous optimization of both learning mechanisms. However, the parallel SSL-VGS training reduces the effects of catastrophic forgetting when switching between optimization criteria. Moreover, the results suggest that phonemic representations learned through the VGS mechanism may generalize better across datasets compared to those learned with SSL.
翻訳日:2023-06-06 14:15:24 公開日:2023-06-05
# フィードバックグラフによるオンライン学習: 後悔の真の形

Online Learning with Feedback Graphs: The True Shape of Regret ( http://arxiv.org/abs/2306.02971v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Koc\'ak and Alexandra Carpentier(参考訳) フィードバックグラフを用いた逐次学習は、問題が追加情報を提供する基礎となるグラフ構造を備えているマルチアームバンディット問題の自然な拡張である。 この問題は \citet{mannor2011} によって導入され、近年かなりの注目を集めている。 文献では、この問題のミニマックス後悔率は階数$\sqrt{\alpha T}$であり、$\alpha$はグラフの独立数、$T$は時間地平線である。 しかし、これは$t$のラウンド数が$\alpha^3$よりも大きい場合にのみ証明される。 本稿では,新しい量 $r^*$ を定義する。これは \emph{problem complexity} と呼ばれ,任意のグラフと時間軸 $t$ に対して,minimax の後悔が $r^*$ に比例していることを証明する。 複雑な探索戦略を導入することで,$t$ が$\alpha^3$ よりも小さい場合でも,minimax の最適後悔条件を満たし,この設定で証明可能な最初の最適アルゴリズムとなる \mainalgorithm アルゴリズムを定義する。

Sequential learning with feedback graphs is a natural extension of the multi-armed bandit problem where the problem is equipped with an underlying graph structure that provides additional information - playing an action reveals the losses of all the neighbors of the action. This problem was introduced by \citet{mannor2011} and received considerable attention in recent years. It is generally stated in the literature that the minimax regret rate for this problem is of order $\sqrt{\alpha T}$, where $\alpha$ is the independence number of the graph, and $T$ is the time horizon. However, this is proven only when the number of rounds $T$ is larger than $\alpha^3$, which poses a significant restriction for the usability of this result in large graphs. In this paper, we define a new quantity $R^*$, called the \emph{problem complexity}, and prove that the minimax regret is proportional to $R^*$ for any graph and time horizon $T$. Introducing an intricate exploration strategy, we define the \mainAlgorithm algorithm that achieves the minimax optimal regret bound and becomes the first provably optimal algorithm for this setting, even if $T$ is smaller than $\alpha^3$.
翻訳日:2023-06-06 14:15:03 公開日:2023-06-05
# Time Interpret: 時系列のための統一モデル解釈可能性ライブラリ

Time Interpret: a Unified Model Interpretability Library for Time Series ( http://arxiv.org/abs/2306.02968v1 )

ライセンス: Link先を確認
Joseph Enguehard(参考訳) Captumの拡張として設計されたライブラリである$\texttt{time_interpret}$を紹介します。 そのため、このライブラリは、任意のpytorchモデルによる予測を説明するために使用できるいくつかの機能帰属メソッドを実装している。 さらに$\texttt{time_interpret}$は、いくつかの合成および実世界の時系列データセット、様々なpytorchモデル、機能属性を評価する一連のメソッドを提供する。 さらに、時間的データに基づく予測を説明するために主に開発されたが、いくつかのコンポーネントは、例えば、言語モデルによる予測を説明するメソッドなど、異なるアプリケーションを持っている。 本稿では,本図書館の概要を紹介する。 以前未発表の機能属性メソッドもいくつか紹介し、$\texttt{time_interpret}$とともに開発されています。

We introduce $\texttt{time_interpret}$, a library designed as an extension of Captum, with a specific focus on temporal data. As such, this library implements several feature attribution methods that can be used to explain predictions made by any Pytorch model. $\texttt{time_interpret}$ also provides several synthetic and real world time series datasets, various PyTorch models, as well as a set of methods to evaluate feature attributions. Moreover, while being primarily developed to explain predictions based on temporal data, some of its components have a different application, including for instance methods explaining predictions made by language models. In this paper, we give a general introduction of this library. We also present several previously unpublished feature attribution methods, which have been developed along with $\texttt{time_interpret}$.
翻訳日:2023-06-06 14:14:33 公開日:2023-06-05
# ナノスケール量子センシング用多円錐ダイヤモンド導波路

Multicone Diamond Waveguides for Nanoscale Quantum Sensing ( http://arxiv.org/abs/2306.02966v1 )

ライセンス: Link先を確認
Tianqi Zhu, Jan Rhensius, Viraj Damle, Konstantin Herb, Gabriel Puebla-Hellmann, Christian L. Degen and Erika Janitz(参考訳) ダイヤモンド中の窒素空孔(nv)中心の長寿命電子スピンは、様々な実験条件でナノ磁気および電界を検出するための有望な量子センサーである。 それでも、測定感度を向上させる上での顕著な課題は、一般的な光スピン読み出し技術の信号対雑音比(SNR)が低いことである。 ここでは、個々のNV中心を最適化されたダイヤモンドナノピラー構造に結合することにより、この制限に対処し、蛍光の光学的収集効率を向上させる。 まず, テーパー付き側壁を有する高さ (5$\mu$m) の柱の収集効率の向上を観察し, シミュレーションにおける構造を最適化する。 次に, 信頼性と再現性を有するナノファブリケーションプロセスを用いて, 代表的な構造群を作製し, キャラクタリゼーションすることにより, これらの予測を検証した。 最適化された装置は、コリメーションの改善とエミッションの方向性の改善により、SNRを増加させる。 これらのデバイスは、低照度で長時間動作可能な集光光学と互換性があり、また、先端半径が減少し、走査アプリケーションのための空間分解能が向上する。

The long-lived electronic spin of the nitrogen-vacancy (NV) center in diamond is a promising quantum sensor for detecting nanoscopic magnetic and electric fields in a variety of experimental conditions. Nevertheless, an outstanding challenge in improving measurement sensitivity is the poor signal-to-noise ratio (SNR) of prevalent optical spin-readout techniques. Here, we address this limitation by coupling individual NV centers to optimized diamond nanopillar structures, thereby improving optical collection efficiency of fluorescence. First, we optimize the structure in simulation, observing an increase in collection efficiency for tall ($\geq$ 5 $\mu$m) pillars with tapered sidewalls. We subsequently verify these predictions by fabricating and characterizing a representative set of structures using a reliable and reproducible nanofabrication process. An optimized device yields increased SNR, owing to improvements in collimation and directionality of emission. Promisingly, these devices are compatible with low-numerical-aperture, long-working-distance collection optics, as well as reduced tip radius, facilitating improved spatial resolution for scanning applications.
翻訳日:2023-06-06 14:14:10 公開日:2023-06-05
# 両世界のベスト:イベントベース光フロー推定のためのハイブリッドSNN-ANNアーキテクチャ

Best of Both Worlds: Hybrid SNN-ANN Architecture for Event-based Optical Flow Estimation ( http://arxiv.org/abs/2306.02960v1 )

ライセンス: Link先を確認
Shubham Negi, Deepika Sharma, Adarsh Kumar Kosta and Kaushik Roy(参考訳) イベントベースのカメラはフレームベースのカメラに代わり、高速モーションとダイナミックレンジのシーンを撮影する。 スパースイベントの非同期ストリームを提供する。 非同期イベント駆動型計算でニューラルネットワーク(SNN)をスパイクすることは、これらのイベントストリームから時空間的特徴を抽出する大きな可能性を示す。 対照的に、標準的なアナログニューラルネットワーク(ANN)は、イベントデータを効率的に処理できない。 しかし、トレーニング可能なパラメータ(閾値とリーク)の追加、深い層でのスパイクの消滅、微分不可能なバイナリアクティベーション関数などにより、SNNのトレーニングは困難である。 さらに、時間的情報の追跡に責任を持つ追加のデータ構造"membrane potential"をsnsの時間ステップ毎にフェッチして更新する必要がある。 これらを克服するために,両者の強みを組み合わせた新しいSNN-ANNハイブリッドアーキテクチャを提案する。 具体的には、SNN層の非同期計算機能を活用して、入力時間情報を効果的に抽出する。 ANNレイヤは、GPUのような標準的な機械学習ハードウェア上で、トラブルのないトレーニングと実装を提供する。 そこで本研究では,各層をスパイクやアナログに割り当てる実験を行い,性能とトレーニングの容易性に最適化されたネットワーク構成を実現する。 DSEC-flowとMutli-Vehicle Stereo Event-Camera(MVSEC)データセットのイベントデータを用いた光フロー推定のためのハイブリッドアーキテクチャの評価を行った。 その結果,我々の構成したハイブリッドアーキテクチャは,精度と効率の両面で,最先端のannのみ,snnのみ,過去のハイブリッドアーキテクチャを上回っていることがわかった。 具体的には、DSECおよびMVSECデータセット上のSNNのみアーキテクチャと比較して、我々のハイブリッドアーキテクチャは平均エンドポイントエラー(AEE)が2.1倍、エネルギーが3.1倍、平均エンドポイントエラー(AEE)が24.8%低い。

Event-based cameras offer a low-power alternative to frame-based cameras for capturing high-speed motion and high dynamic range scenes. They provide asynchronous streams of sparse events. Spiking Neural Networks (SNNs) with their asynchronous event-driven compute, show great potential for extracting the spatio-temporal features from these event streams. In contrast, the standard Analog Neural Networks (ANNs1) fail to process event data effectively. However, training SNNs is difficult due to additional trainable parameters (thresholds and leaks), vanishing spikes at deeper layers, non-differentiable binary activation function etc. Moreover, an additional data structure "membrane potential" responsible for keeping track of temporal information, must be fetched and updated at every timestep in SNNs. To overcome these, we propose a novel SNN-ANN hybrid architecture that combines the strengths of both. Specifically, we leverage the asynchronous compute capabilities of SNN layers to effectively extract the input temporal information. While the ANN layers offer trouble-free training and implementation on standard machine learning hardware such as GPUs. We provide extensive experimental analysis for assigning each layer to be spiking or analog in nature, leading to a network configuration optimized for performance and ease of training. We evaluate our hybrid architectures for optical flow estimation using event-data on DSEC-flow and Mutli-Vehicle Stereo Event-Camera (MVSEC) datasets. The results indicate that our configured hybrid architectures outperform the state-of-the-art ANN-only, SNN-only and past hybrid architectures both in terms of accuracy and efficiency. Specifically, our hybrid architecture exhibit a 31% and 24.8% lower average endpoint error (AEE) at 2.1x and 3.1x lower energy, compared to an SNN-only architecture on DSEC and MVSEC datasets, respectively.
翻訳日:2023-06-06 14:13:20 公開日:2023-06-05
# 離散グラフ拡散における異なる収束前駆体の複素選好

Complex Preferences for Different Convergent Priors in Discrete Graph Diffusion ( http://arxiv.org/abs/2306.02957v1 )

ライセンス: Link先を確認
Alex M. Tseng, Nathaniel Diamant, Tommaso Biancalani, Gabriele Scalia(参考訳) 拡散モデルは、画像、テキスト、ビデオなど、さまざまな種類のデータを生成することで、最先端のパフォーマンスを達成した。 それらの成功にもかかわらず、基礎となる拡散過程と最終収束前の収束が生成性能に与える影響についての研究は限られており、この研究は連続データ型やスコアベースの拡散フレームワークにも制限されている。 このギャップを埋めるために、異なる離散拡散核(先行分布に収束する)がグラフの拡散モデルの性能にどのように影響するかを考察する。 そこで我々は,異なるベルヌーイ前駆体に収束し易い離散拡散核群を新規に定式化し,これら異なる核群が生成性能に及ぼす影響について検討した。 生成したグラフの品質は、以前使用したグラフに敏感であり、その最適な選択は、過去の研究が示唆した直観に挑戦する明らかな統計やメトリクスによって説明できないことを示す。

Diffusion models have achieved state-of-the-art performance in generating many different kinds of data, including images, text, and videos. Despite their success, there has been limited research on how the underlying diffusion process and the final convergent prior can affect generative performance; this research has also been limited to continuous data types and a score-based diffusion framework. To fill this gap, we explore how different discrete diffusion kernels (which converge to different prior distributions) affect the performance of diffusion models for graphs. To this end, we developed a novel formulation of a family of discrete diffusion kernels which are easily adjustable to converge to different Bernoulli priors, and we study the effect of these different kernels on generative performance. We show that the quality of generated graphs is sensitive to the prior used, and that the optimal choice cannot be explained by obvious statistics or metrics, which challenges the intuitions which previous works have suggested.
翻訳日:2023-06-06 14:12:44 公開日:2023-06-05
# ライフイベントの時系列を用いたヒトの生活予測

Using Sequences of Life-events to Predict Human Lives ( http://arxiv.org/abs/2306.03009v1 )

ライセンス: Link先を確認
Germans Savcisens, Tina Eliassi-Rad, Lars Kai Hansen, Laust Mortensen, Lau Lilleholt, Anna Rogers, Ingo Zettler, Sune Lehmann(参考訳) 過去10年間、機械学習は柔軟な計算モデルを通じてコンピュータがテキストを分析する能力に革命をもたらした。 書き言葉と構造的な類似性から、トランスフォーマーベースのアーキテクチャはタンパク質構造、音楽、電子健康記録、天気予報などの多変量配列を理解するツールとしても期待されている。 私たちはまた、言語と構造的な類似性を共有する方法で人間の生活を表現できる。 人々が生まれ、小児科に通い、学校を始め、新しい場所に移動し、結婚するなど、人生は単なる一連の出来事である。 ここでは、この類似性を利用して自然言語処理からの革新を適応し、詳細なイベントシーケンスに基づいて人間の生活の進化と予測可能性を調べる。 何十年にもわたって600万人以上の個人が利用できる、おそらく最も包括的な登録データを提供することで、これを実現しています。 我々のデータには、健康、教育、職業、所得、住所、労働時間に関連するライフイベントに関する情報が含まれています。 我々は、この埋め込み空間が堅牢で高度に構造化されていることを示す1つのベクトル空間に、ライフイベントの埋め込みを作成する。 我々のモデルは、早期死亡からパーソナリティニュアンスまで多様な結果を予測することができ、最先端のモデルよりも広いマージンで優れています。 ディープラーニングモデルを解釈する手法を用いて,予測を可能にする因子を理解するアルゴリズムを探索する。 我々のフレームワークは、研究者が生活結果に影響を及ぼす新たなメカニズムと、パーソナライズされた介入の可能性を特定することを可能にする。

Over the past decade, machine learning has revolutionized computers' ability to analyze text through flexible computational models. Due to their structural similarity to written language, transformer-based architectures have also shown promise as tools to make sense of a range of multi-variate sequences from protein-structures, music, electronic health records to weather-forecasts. We can also represent human lives in a way that shares this structural similarity to language. From one perspective, lives are simply sequences of events: People are born, visit the pediatrician, start school, move to a new location, get married, and so on. Here, we exploit this similarity to adapt innovations from natural language processing to examine the evolution and predictability of human lives based on detailed event sequences. We do this by drawing on arguably the most comprehensive registry data in existence, available for an entire nation of more than six million individuals across decades. Our data include information about life-events related to health, education, occupation, income, address, and working hours, recorded with day-to-day resolution. We create embeddings of life-events in a single vector space showing that this embedding space is robust and highly structured. Our models allow us to predict diverse outcomes ranging from early mortality to personality nuances, outperforming state-of-the-art models by a wide margin. Using methods for interpreting deep learning models, we probe the algorithm to understand the factors that enable our predictions. Our framework allows researchers to identify new potential mechanisms that impact life outcomes and associated possibilities for personalized interventions.
翻訳日:2023-06-06 14:04:34 公開日:2023-06-05
# 非パラメトリック反復機械教育

Nonparametric Iterative Machine Teaching ( http://arxiv.org/abs/2306.03007v1 )

ライセンス: Link先を確認
Chen Zhang, Xiaofeng Cao, Weiyang Liu, Ivor Tsang, James Kwok(参考訳) 本稿では、教師が学習者に反復的に例を提示し、学習者が目標モデルに迅速に収束できるというイテレーティブ・マシン・トレーニング(IMT)の問題について考察する。 しかし、既存のIMTアルゴリズムは対象モデルのパラメータ化された族のみに基づいている。 それらは主にパラメータ空間の収束にフォーカスしており、対象モデルがパラメータに依存しない関数として定義されると困難になる。 このような制限に対処するために,非パラメトリック反復機械教育 (nimt) は,非パラメトリック対象モデルを反復的に学習者に教えることを目的としている。 パラメータ空間でのみ動作するパラメトリックIMTとは異なり、NIMTを関数空間の関数最適化問題として用いた。 そこで本研究では,ランダムな機能指導アルゴリズムと無欲な機能指導アルゴリズムの両方を提案する。 適切な仮定の下でのランダム指導アルゴリズムの反復指導次元(itd)を求め,nimt における itd の均一な上界として機能する。 さらに、欲深い指導アルゴリズムは、nimtにおけるitdのより強固な上限に達する、かなり低いitdを有する。 最後に,非パラメトリックシナリオにおける広範囲な実験を行い,理論的知見の正確性を検証する。

In this paper, we consider the problem of Iterative Machine Teaching (IMT), where the teacher provides examples to the learner iteratively such that the learner can achieve fast convergence to a target model. However, existing IMT algorithms are solely based on parameterized families of target models. They mainly focus on convergence in the parameter space, resulting in difficulty when the target models are defined to be functions without dependency on parameters. To address such a limitation, we study a more general task -- Nonparametric Iterative Machine Teaching (NIMT), which aims to teach nonparametric target models to learners in an iterative fashion. Unlike parametric IMT that merely operates in the parameter space, we cast NIMT as a functional optimization problem in the function space. To solve it, we propose both random and greedy functional teaching algorithms. We obtain the iterative teaching dimension (ITD) of the random teaching algorithm under proper assumptions, which serves as a uniform upper bound of ITD in NIMT. Further, the greedy teaching algorithm has a significantly lower ITD, which reaches a tighter upper bound of ITD in NIMT. Finally, we verify the correctness of our theoretical findings with extensive experiments in nonparametric scenarios.
翻訳日:2023-06-06 14:04:08 公開日:2023-06-05
# 両面真理の解き方:顔形態検出のための遠近法型不確かさ

Unveiling the Two-Faced Truth: Disentangling Morphed Identities for Face Morphing Detection ( http://arxiv.org/abs/2306.03002v1 )

ライセンス: Link先を確認
Eduarda Caldeira, Pedro C. Neto, Tiago Gon\c{c}alves, Naser Damer, Ana F. Sequeira, Jaime S. Cardoso(参考訳) モルフィング攻撃は生体認証システム、特に顔認識システムを脅かす。 時間が経つにつれて、より実行しやすくなり、より現実的になったため、これらの攻撃を検出するためのディープラーニングシステムの使用が増えている。 同時に、ディープラーニングモデルの解釈可能性の欠如については常に懸念されている。 性能と解釈性のバランスは科学者にとって難しい課題だった。 しかし、ドメイン情報を利用していくつかの制約を証明することで、モーフサンプルのアイデンティティ分離と最終的な予測への貢献の両方に関する情報を提供する、最先端のパフォーマンスを持つ解釈可能なメソッドであるidistillの開発に成功しました。 ドメイン情報は、オートエンコーダによって学習され、識別情報を分離するために分類器システムに蒸留される。 文献の他の方法と比較すると、5つのデータベースのうち3つで上回っており、残りは競争力がある。

Morphing attacks keep threatening biometric systems, especially face recognition systems. Over time they have become simpler to perform and more realistic, as such, the usage of deep learning systems to detect these attacks has grown. At the same time, there is a constant concern regarding the lack of interpretability of deep learning models. Balancing performance and interpretability has been a difficult task for scientists. However, by leveraging domain information and proving some constraints, we have been able to develop IDistill, an interpretable method with state-of-the-art performance that provides information on both the identity separation on morph samples and their contribution to the final prediction. The domain information is learnt by an autoencoder and distilled to a classifier system in order to teach it to separate identity information. When compared to other methods in the literature it outperforms them in three out of five databases and is competitive in the remaining.
翻訳日:2023-06-06 14:03:51 公開日:2023-06-05
# beyondpixels: 神経放射領域の進化に関する包括的レビュー

BeyondPixels: A Comprehensive Review of the Evolution of Neural Radiance Fields ( http://arxiv.org/abs/2306.03000v1 )

ライセンス: Link先を確認
AKM Shahariar Azad Rabby, Chengcui Zhang(参考訳) ニューラルレンダリングは、古典的なコンピュータグラフィックスと機械学習のアイデアを組み合わせて、現実世界の観察から画像を合成する。 NeRF(Neural Radiance Fieldsの略)は、AIアルゴリズムを使用して2D画像から3Dオブジェクトを生成する最近のイノベーションである。 補間アプローチを活用することで、NeRFは複雑なシーンの新しい3D再構成ビューを生成することができる。 3Dシーンの形状を直接復元する代わりに、NeRFは「放射場」と呼ばれる体積表現を生成し、関連する3D空間内のすべての点について色と密度を生成できる。 NeRFの幅広い魅力と不明瞭さは、このトピックに関する既存の研究を包括的に調査することが不可欠である。 3Dレンダリングに関する以前の調査は、主に従来のコンピュータビジョンベースまたはディープラーニングベースのアプローチに焦点を当てていたが、NeRFの可能性について議論する人はごくわずかである。 しかし、これらの調査は主にNeRFの初期の貢献に焦点を合わせており、その潜在能力を探求していない。 NeRFは、その能力と限界について継続的に研究されている比較的新しい技術である。 この調査は最近のNeRFの進歩を概観し、特に新規なビュー合成の分野において、それらのアーキテクチャ設計に従って分類する。

Neural rendering combines ideas from classical computer graphics and machine learning to synthesize images from real-world observations. NeRF, short for Neural Radiance Fields, is a recent innovation that uses AI algorithms to create 3D objects from 2D images. By leveraging an interpolation approach, NeRF can produce new 3D reconstructed views of complicated scenes. Rather than directly restoring the whole 3D scene geometry, NeRF generates a volumetric representation called a ``radiance field,'' which is capable of creating color and density for every point within the relevant 3D space. The broad appeal and notoriety of NeRF make it imperative to examine the existing research on the topic comprehensively. While previous surveys on 3D rendering have primarily focused on traditional computer vision-based or deep learning-based approaches, only a handful of them discuss the potential of NeRF. However, such surveys have predominantly focused on NeRF's early contributions and have not explored its full potential. NeRF is a relatively new technique continuously being investigated for its capabilities and limitations. This survey reviews recent advances in NeRF and categorizes them according to their architectural designs, especially in the field of novel view synthesis.
翻訳日:2023-06-06 14:03:36 公開日:2023-06-05
# 衛星システムにおけるオーバーザ・エアフェデレート学習

Over-the-Air Federated Learning in Satellite systems ( http://arxiv.org/abs/2306.02996v1 )

ライセンス: Link先を確認
Edward Akito Carlos, Raphael Pinard, Mitra Hassani(参考訳) 衛星でのフェデレーション学習にはいくつかの利点がある。 まず、衛星上に機密データが残っており、中央に送信されないため、データのプライバシとセキュリティを確保する。 これは機密情報や機密情報を扱う際に特に重要である。 第2に、フェデレートされた学習は、衛星ネットワーク全体の分散知識の恩恵を受けながら、衛星がさまざまなデータソースから集合的に学習することを可能にする。 最後に、連合学習を使用することで、生データの代わりにモデル更新のみを交換するため、衛星と中央サーバ間の通信帯域幅の要件が削減される。 フェデレートされた学習を活用することで、衛星はデータのプライバシを保持し、通信オーバーヘッドを最小限に抑えながら、協調して機械学習モデルを改善し続けることができる。 これにより、地球観測、気象予報、宇宙探査など、様々な用途のためのよりインテリジェントで効率的な衛星システムの開発が可能になる。

Federated learning in satellites offers several advantages. Firstly, it ensures data privacy and security, as sensitive data remains on the satellites and is not transmitted to a central location. This is particularly important when dealing with sensitive or classified information. Secondly, federated learning allows satellites to collectively learn from a diverse set of data sources, benefiting from the distributed knowledge across the satellite network. Lastly, the use of federated learning reduces the communication bandwidth requirements between satellites and the central server, as only model updates are exchanged instead of raw data. By leveraging federated learning, satellites can collaborate and continuously improve their machine learning models while preserving data privacy and minimizing communication overhead. This enables the development of more intelligent and efficient satellite systems for various applications, such as Earth observation, weather forecasting, and space exploration.
翻訳日:2023-06-06 14:03:16 公開日:2023-06-05
# 衛星画像を用いた長距離UAV熱測地

Long-range UAV Thermal Geo-localization with Satellite Imagery ( http://arxiv.org/abs/2306.02994v1 )

ライセンス: Link先を確認
Jiuhong Xiao, Daniel Tortei, Eloy Roura, Giuseppe Loianno(参考訳) カメラやサーマルセンサーなどの搭載センサーは、無人航空機(uav)ナビゲーションにおけるgps(global positioning system)の効果的な代替手段として登場した。 GPSは信号損失やスプーフィングの問題に悩まされるため、研究者は衛星画像を用いたビジュアルジオローカライゼーション(VG)のようなカメラベースの手法を探索してきた。 さらに、TGは低照度環境下での長距離UAV飛行において重要である。 本稿では,衛星画像を用いた熱的局所化の枠組みを提案する。 実験結果は, 自己相似的特徴を有する熱画像においても, 熱的局所化性能の信頼性を実現するための提案手法の有効性を示す。 UAVで収集した実データに対する我々のアプローチを評価する。 また,衛星画像と熱的局所化のための熱熱画像と非対の衛星画像のデータセットである \textit{boson-nighttime} も公開する。 我々の知る限り、この研究は、長距離飛行における衛星画像を用いた熱的ジオローカライズ法を最初に提案したものである。

Onboard sensors, such as cameras and thermal sensors, have emerged as effective alternatives to Global Positioning System (GPS) for geo-localization in Unmanned Aerial Vehicle (UAV) navigation. Since GPS can suffer from signal loss and spoofing problems, researchers have explored camera-based techniques such as Visual Geo-localization (VG) using satellite imagery. Additionally, thermal geo-localization (TG) has become crucial for long-range UAV flights in low-illumination environments. This paper proposes a novel thermal geo-localization framework using satellite imagery, which includes multiple domain adaptation methods to address the limited availability of paired thermal and satellite images. The experimental results demonstrate the effectiveness of the proposed approach in achieving reliable thermal geo-localization performance, even in thermal images with indistinct self-similar features. We evaluate our approach on real data collected onboard a UAV. We also release the code and \textit{Boson-nighttime}, a dataset of paired satellite-thermal and unpaired satellite images for thermal geo-localization with satellite imagery. To the best of our knowledge, this work is the first to propose a thermal geo-localization method using satellite imagery in long-range flights.
翻訳日:2023-06-06 14:03:03 公開日:2023-06-05
# UAV支援フェデレーションエッジ学習のための統合センシング, 計算, 通信

Integrated Sensing, Computation, and Communication for UAV-assisted Federated Edge Learning ( http://arxiv.org/abs/2306.02990v1 )

ライセンス: Link先を確認
Yao Tang, Guangxu Zhu, Wei Xu, Man Hon Cheung, Tat-Ming Lok, Shuguang Cui(参考訳) Federated Edge Learning(FEEL)は、エッジデバイスとサーバ間の定期的な通信を通じて、プライバシ保護モデルトレーニングを可能にする。 無人航空機(UAV)搭載エッジデバイスは、効率的なデータ収集における柔軟性と移動性のため、FEELにとって特に有利である。 UAV支援FEELでは、センシング、計算、通信が結合され、限られたオンボードリソースと競合する。 したがって、最適な訓練性能を達成するためには、UAV配置と資源配分の合同設計が不可欠である。 本稿では,ワイヤレスセンシングに基づく人間の動作認識の具体的ケーススタディを通じて,uavの協調配置設計と感情に対するリソース割り当ての問題に対処する。 まず、UAVの展開が検知品質に与える影響を分析し、データサンプルの良好な品質を保証できるセンシング高度角の閾値を同定する。 非理想的検知チャネルにより、各UAVの検知確率が位置によって決定される確率論的センシングモデルを考える。 次に, FEELトレーニング損失の上限を検知確率の関数として導出する。 理論的には、UAVが均一な検知確率を持つ場合、収束率を改善することができる。 この分析に基づいて,UAV配置,統合センシング,計算,通信(ISCC)リソースを最適な最適性ギャップ制約の下で共同最適化することにより,トレーニング時間最小化問題を定式化する。 この課題を解決するために、交互最適化手法を適用し、これらの3つの決定変数を交互に最適化するための帯域幅、バッチサイズ、位置最適化(BBPO)方式を提案する。

Federated edge learning (FEEL) enables privacy-preserving model training through periodic communication between edge devices and the server. Unmanned Aerial Vehicle (UAV)-mounted edge devices are particularly advantageous for FEEL due to their flexibility and mobility in efficient data collection. In UAV-assisted FEEL, sensing, computation, and communication are coupled and compete for limited onboard resources, and UAV deployment also affects sensing and communication performance. Therefore, the joint design of UAV deployment and resource allocation is crucial to achieving the optimal training performance. In this paper, we address the problem of joint UAV deployment design and resource allocation for FEEL via a concrete case study of human motion recognition based on wireless sensing. We first analyze the impact of UAV deployment on the sensing quality and identify a threshold value for the sensing elevation angle that guarantees a satisfactory quality of data samples. Due to the non-ideal sensing channels, we consider the probabilistic sensing model, where the successful sensing probability of each UAV is determined by its position. Then, we derive the upper bound of the FEEL training loss as a function of the sensing probability. Theoretical results suggest that the convergence rate can be improved if UAVs have a uniform successful sensing probability. Based on this analysis, we formulate a training time minimization problem by jointly optimizing UAV deployment, integrated sensing, computation, and communication (ISCC) resources under a desirable optimality gap constraint. To solve this challenging mixed-integer non-convex problem, we apply the alternating optimization technique, and propose the bandwidth, batch size, and position optimization (BBPO) scheme to optimize these three decision variables alternately.
翻訳日:2023-06-06 14:02:44 公開日:2023-06-05
# 合成MR画像を用いた脳腫瘍のセグメンテーション --GANと拡散モデルの比較-

Brain tumor segmentation using synthetic MR images -- A comparison of GANs and diffusion models ( http://arxiv.org/abs/2306.02986v1 )

ライセンス: Link先を確認
Muhammad Usman Akbar, M{\aa}ns Larsson, Anders Eklund(参考訳) ディープラーニングモデルのトレーニングには大規模な注釈付きデータセットが必要であるが、医療画像データ共有は倫理、匿名化、データ保護法(GDPRなど)によって複雑になることが多い。 GAN(Generative Adversarial Network)や拡散モデルなどの生成AIモデルは、今日では非常に現実的な合成画像を生成することが可能であり、GDPRが特定の人に属しない医療画像に適用すべきではないため、データ共有を促進する可能性がある。 しかし、合成画像を共有するためには、まず異なるネットワークのトレーニングに、許容性能で使用できることを示す必要がある。 そこで我々は4つのGAN(プログレッシブGAN,StyleGAN 1-3)と脳腫瘍セグメンテーションのための拡散モデルについて総合的に評価した。 その結果,合成画像上で訓練されたセグメンテーションネットワークは,実画像でのトレーニング時のサイコロスコアの80\% - 90\%のサイコロスコアに達するが,元のデータセットが小さすぎると拡散モデルでは,トレーニング画像の記憶が問題となる。 さらに,合成画像評価のための一般的な指標であるFr'echet inception distance (FID) とinception score (IS) が,合成画像を用いてセグメンテーションネットワークを訓練する際に得られた性能とよく相関しないことを示した。

Large annotated datasets are required for training deep learning models, but in medical imaging data sharing is often complicated due to ethics, anonymization and data protection legislation (e.g. the general data protection regulation (GDPR)). Generative AI models, such as generative adversarial networks (GANs) and diffusion models, can today produce very realistic synthetic images, and can potentially facilitate data sharing as GDPR should not apply for medical images which do not belong to a specific person. However, in order to share synthetic images it must first be demonstrated that they can be used for training different networks with acceptable performance. Here, we therefore comprehensively evaluate four GANs (progressive GAN, StyleGAN 1-3) and a diffusion model for the task of brain tumor segmentation. Our results show that segmentation networks trained on synthetic images reach Dice scores that are 80\% - 90\% of Dice scores when training with real images, but that memorization of the training images can be a problem for diffusion models if the original dataset is too small. Furthermore, we demonstrate that common metrics for evaluating synthetic images, Fr\'echet inception distance (FID) and inception score (IS), do not correlate well with the obtained performance when using the synthetic images for training segmentation networks.
翻訳日:2023-06-06 14:02:19 公開日:2023-06-05
# 問題最適化のための表現非依存距離駆動摂動

Representation-agnostic distance-driven perturbation for optimizing ill-conditioned problems ( http://arxiv.org/abs/2306.02985v1 )

ライセンス: Link先を確認
Kirill Antonov, Anna V. Kononova, Thomas B\"ack, Niki van Stein(参考訳) 局所性はランダムな探索ヒューリスティックスを用いてブラックボックス問題を効率的に最適化するための重要な特性である。 しかし, 実用的応用においては, この性質がハミング距離に関して維持されるような, 候補解の遺伝子型エンコーディングを常に見つけることは不可能である。 同時に、局所性特性を持つ計量を定義するためにドメイン固有の知識を使用することもできる。 このような最適化問題をより効率的に解くために、2つの突然変異演算子を提案する。 第1のオペレータは距離に関する事前の知識を仮定し、第2のオペレータは距離をブラックボックスとして使用する。 これらの演算子は、与えられた距離を用いる紙関数で定義された最良のミュータントを見つけるために分布アルゴリズムの推定を適用する。 擬似ブール問題と整数最適化問題に対して, 2つの突然変異演算子が, 進化的アルゴリズムやランダム局所探索に適用した場合のほとんどの関数の探索を高速化することを示した。 さらに、これらの演算子は摂動を用いた任意のランダムな探索ヒューリスティックに適用できる。 しかし、変異演算子は壁時計時間を増やすため、実際の目的関数よりも距離が(かなり)安価である場合に有用である。

Locality is a crucial property for efficiently optimising black-box problems with randomized search heuristics. However, in practical applications, it is not likely to always find such a genotype encoding of candidate solutions that this property is upheld with respect to the Hamming distance. At the same time, it may be possible to use domain-specific knowledge to define a metric with locality property. We propose two mutation operators to solve such optimization problems more efficiently using the metric. The first operator assumes prior knowledge about the distance, the second operator uses the distance as a black box. Those operators apply an estimation of distribution algorithm to find the best mutant according to the defined in the paper function, which employs the given distance. For pseudo-boolean and integer optimization problems, we experimentally show that both mutation operators speed up the search on most of the functions when applied in considered evolutionary algorithms and random local search. Moreover, those operators can be applied in any randomized search heuristic which uses perturbations. However, our mutation operators increase wall-clock time and so are helpful in practice when distance is (much) cheaper to compute than the real objective function.
翻訳日:2023-06-06 14:01:54 公開日:2023-06-05
# ISBI編集MSS再構築のための共分散行列解析を用いた深層学習手法

A Deep Learning Approach Utilizing Covariance Matrix Analysis for the ISBI Edited MRS Reconstruction Challenge ( http://arxiv.org/abs/2306.02984v1 )

ライセンス: Link先を確認
Julian P. Merkofer, Dennis M. J. van de Sande, Sina Amirrajab, Gerhard S. Drenthen, Mitko Veta, Jacobus F. A. Jansen, Marcel Breeuwer, and Ruud J. G. van Sloun(参考訳) 本研究では, サンプル共分散行列を入力とした機械学習モデルを用いて, 高品質なMRSスキャンの取得を高速化する手法を提案する。 この方法はトランジェント数に不変であり、合成とin-vivoシナリオの両方でノイズ入力データに頑健である。

This work proposes a method to accelerate the acquisition of high-quality edited magnetic resonance spectroscopy (MRS) scans using machine learning models taking the sample covariance matrix as input. The method is invariant to the number of transients and robust to noisy input data for both synthetic as well as in-vivo scenarios.
翻訳日:2023-06-06 14:01:35 公開日:2023-06-05
# cmexamによる大規模言語モデルのベンチマーク - 総合的な中国医学試験データセット

Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset ( http://arxiv.org/abs/2306.03030v1 )

ライセンス: Link先を確認
Junling Liu, Peilin Zhou, Yining Hua, Dading Chong, Zhongyu Tian, Andrew Liu, Helin Wang, Chenyu You, Zhenhua Guo, Lei Zhu, Michael Lingzhi Li(参考訳) 大規模言語モデル(LLM)の最近の進歩は、質問応答(QA)の分野を変えている。 しかし、標準化された包括的なデータセットがないため、医療分野におけるLCMの評価は困難である。 このギャップに対処するため,中国国立医学ライセンス試験から得られたCMExamを紹介する。 CMExamは、標準化および客観的評価のための60K以上の多重選択質問と、オープンエンドなモデル推論評価のためのソリューション説明で構成されている。 llmsの詳細な分析のために、我々は医療専門家に、疾患グループ、臨床部門、医学分野、能力領域、質問難易度レベルを含む5つの追加の質問項目をラベル付けするよう求めた。 データセットとともに,CMExam上で,代表LLMとQAアルゴリズムを用いた徹底的な実験を行った。 その結果、GPT-4は61.5%、重み付きF1スコアは0.616であった。 これらの結果は、人的精度が71.6%であったのに対して、大きな違いを示している。 説明タスクでは、LCMは関連する推論を生成し、微調整後の性能向上を示すが、望ましい標準には達せず、改善の余地が十分にある。 私たちの知る限り、CMExamは、包括的な医療アノテーションを提供する最初の中国の医学試験データセットです。 LLM評価の実験と結果はまた、中国の医療用QAシステムとLLM評価パイプラインの開発における課題と潜在的な解決策に関する貴重な知見を提供する。 データセットと関連するコードはhttps://github.com/williamliujl/cmexamで入手できる。

Recent advancements in large language models (LLMs) have transformed the field of question answering (QA). However, evaluating LLMs in the medical field is challenging due to the lack of standardized and comprehensive datasets. To address this gap, we introduce CMExam, sourced from the Chinese National Medical Licensing Examination. CMExam consists of 60K+ multiple-choice questions for standardized and objective evaluations, as well as solution explanations for model reasoning evaluation in an open-ended manner. For in-depth analyses of LLMs, we invited medical professionals to label five additional question-wise annotations, including disease groups, clinical departments, medical disciplines, areas of competency, and question difficulty levels. Alongside the dataset, we further conducted thorough experiments with representative LLMs and QA algorithms on CMExam. The results show that GPT-4 had the best accuracy of 61.5% and a weighted F1 score of 0.616. These results highlight a great disparity when compared to human accuracy, which stood at 71.6%. For explanation tasks, while LLMs could generate relevant reasoning and demonstrate improved performance after finetuning, they fall short of a desired standard, indicating ample room for improvement. To the best of our knowledge, CMExam is the first Chinese medical exam dataset to provide comprehensive medical annotations. The experiments and findings of LLM evaluation also provide valuable insights into the challenges and potential solutions in developing Chinese medical QA systems and LLM evaluation pipelines. The dataset and relevant code are available at https://github.com/williamliujl/CMExam.
翻訳日:2023-06-06 13:55:47 公開日:2023-06-05
# 歯科におけるコーンビームctのためのai技術:その動向と実践

AI Techniques for Cone Beam Computed Tomography in Dentistry: Trends and Practices ( http://arxiv.org/abs/2306.03025v1 )

ライセンス: Link先を確認
Saba Sarwar, Suraiya Jabin(参考訳) コーンビームCT (CBCT) は, 歯, 顎骨, 周辺構造物の詳細な3次元画像を作成する能力を備えた, 各種口腔疾患の診断と治療計画のための歯科治療において, 一般的な画像モダリティである。 cbctイメージングは歯科医療における必須診断ツールである。 CBCTイメージングは、最新の人工知能(AI)技術の発展とともに、診断値、精度と効率の面で大幅に改善されている。 本稿では歯科用CBCT画像における最近のAIの動向と実践について述べる。 cbct画像を用いた病変の検出、咬合分類、頬骨厚の測定、歯、歯槽骨、下顎骨、ランドマーク、輪郭、咽頭気道の分類と分割にaiが用いられてきた。 主に機械学習アルゴリズム、ディープラーニングアルゴリズム、および超解像技術がこれらのタスクに使用される。 本稿では,歯科におけるCBCT画像の変換におけるAI技術の可能性に注目し,診断と治療計画の改善を図る。 最後に,歯科およびCBCT画像における人工知能の課題と限界について論じる。

Cone-beam computed tomography (CBCT) is a popular imaging modality in dentistry for diagnosing and planning treatment for a variety of oral diseases with the ability to produce detailed, three-dimensional images of the teeth, jawbones, and surrounding structures. CBCT imaging has emerged as an essential diagnostic tool in dentistry. CBCT imaging has seen significant improvements in terms of its diagnostic value, as well as its accuracy and efficiency, with the most recent development of artificial intelligence (AI) techniques. This paper reviews recent AI trends and practices in dental CBCT imaging. AI has been used for lesion detection, malocclusion classification, measurement of buccal bone thickness, and classification and segmentation of teeth, alveolar bones, mandibles, landmarks, contours, and pharyngeal airways using CBCT images. Mainly machine learning algorithms, deep learning algorithms, and super-resolution techniques are used for these tasks. This review focuses on the potential of AI techniques to transform CBCT imaging in dentistry, which would improve both diagnosis and treatment planning. Finally, we discuss the challenges and limitations of artificial intelligence in dentistry and CBCT imaging.
翻訳日:2023-06-06 13:55:21 公開日:2023-06-05
# PokemonChat: Pok\'emon Universe知識のためのChatGPTの監査

PokemonChat: Auditing ChatGPT for Pok\'emon Universe Knowledge ( http://arxiv.org/abs/2306.03024v1 )

ライセンス: Link先を確認
Laura Cabello, Jiaang Li, Ilias Chalkidis(参考訳) 最近リリースされたChatGPTモデルは、ゼロショット質問応答における前例のない機能を示している。 本稿では,チャットgptの会話理解に関する調査を行い,今後の研究で活用可能な会話フレームワーク(protocol)を提案する。 ポクモン宇宙は、閉世界仮定のためにChatGPTの推論能力を監査するための理想的な試験場として機能する。 ChatGPTの背景知識(Pok\'emonの宇宙)を光に放った後、これらの概念を戦闘シナリオで使用する際の推論プロセスをテストする。 そして、新たな知識を習得し、推論プロセスに含める能力を評価する。 我々の究極のゴールは、ChatGPTの機能を一般化し、組み合わせ、人間のフィードバックから新しく導入された知識を習得し、推論する能力を評価することである。 chatgptにはポケモンの世界に関する事前の知識があり、新たな情報が導入されても、戦闘のシナリオでは大いに理にかなっている。 このモデルは、協調的なフィードバックと、情報検索の初期フェーズがある場合、より良く機能するが、時折幻覚を生じ、敵の攻撃を受けやすい。

The recently released ChatGPT model demonstrates unprecedented capabilities in zero-shot question-answering. In this work, we probe ChatGPT for its conversational understanding and introduce a conversational framework (protocol) that can be adopted in future studies. The Pok\'emon universe serves as an ideal testing ground for auditing ChatGPT's reasoning capabilities due to its closed world assumption. After bringing ChatGPT's background knowledge (on the Pok\'emon universe) to light, we test its reasoning process when using these concepts in battle scenarios. We then evaluate its ability to acquire new knowledge and include it in its reasoning process. Our ultimate goal is to assess ChatGPT's ability to generalize, combine features, and to acquire and reason over newly introduced knowledge from human feedback. We find that ChatGPT has prior knowledge of the Pokemon universe, which can reason upon in battle scenarios to a great extent, even when new information is introduced. The model performs better with collaborative feedback and if there is an initial phase of information retrieval, but also hallucinates occasionally and is susceptible to adversarial attacks.
翻訳日:2023-06-06 13:55:02 公開日:2023-06-05
# コントラスト拡散オートエンコーダを用いた解釈型アルツハイマー病分類

Interpretable Alzheimer's Disease Classification Via a Contrastive Diffusion Autoencoder ( http://arxiv.org/abs/2306.03022v1 )

ライセンス: Link先を確認
Ayodeji Ijishakin, Ahmed Abdulaal, Adamos Hadjivasiliou, Sophie Martin, James Cole(参考訳) 視覚オブジェクトの分類において、人間はしばしば、そのクラス内の原型的な例と比較することで、その選択を正当化する。 したがって,類似の推論スタイルを付与することで,深層学習モデルの解釈可能性を高めることができる。 本研究では,画像の類似性に基づくアルツハイマー病の分類を潜在空間での訓練例に適用する。 コントラスト損失と拡散オートエンコーダバックボーンを併用して意味的に有意味な潜在空間を作り、近傍の潜在者が類似した画像レベルの特徴を持つようにする。 2次元mri画像のデータセット上でブラックボックスアプローチに匹敵する分類精度を実現し,人間の解釈可能なモデル記述を生成する。 したがって、この研究は、医用画像における正確かつ解釈可能な深層学習の発展に寄与するものである。

In visual object classification, humans often justify their choices by comparing objects to prototypical examples within that class. We may therefore increase the interpretability of deep learning models by imbuing them with a similar style of reasoning. In this work, we apply this principle by classifying Alzheimer's Disease based on the similarity of images to training examples within the latent space. We use a contrastive loss combined with a diffusion autoencoder backbone, to produce a semantically meaningful latent space, such that neighbouring latents have similar image-level features. We achieve a classification accuracy comparable to black box approaches on a dataset of 2D MRI images, whilst producing human interpretable model explanations. Therefore, this work stands as a contribution to the pertinent development of accurate and interpretable deep learning within medical imaging.
翻訳日:2023-06-06 13:54:43 公開日:2023-06-05
# 説明可能なAIによるスタイル分析と可視化 - ブランド認識のケーススタディ

Automating Style Analysis and Visualization With Explainable AI -- Case Studies on Brand Recognition ( http://arxiv.org/abs/2306.03021v1 )

ライセンス: Link先を確認
Yu-hsuan Chen, Levent Burak Kara, Jonathan Cagan(参考訳) 形状設計にスタイル関連の目的を組み込むことは, 製品の魅力を最大化するために重要である。 しかし、美学や意味属性のような様式的特徴は、専門家にとっても体系化が難しい。 このように、アルゴリズムスタイルのキャプチャと再利用は、設計記述性の難しい性質のため、自動データ駆動手法の恩恵を受けていない。 本稿では,ブランド関連機能の発見を完全に自動化するAI駆動手法を提案する。 提案手法では,スカラーベクトルグラフィックス(SVG)の分類と解析を行う2層ブランド識別グラフニューラルネットワーク(GNN)であるBIGNetを導入する。 まず、ベクトル化製品画像の不足に対処するため、本研究では、小さな曲線に基づくデータセットからのパラメトリックモデリングと、大きなピクセルベースのデータセットからのベクトル化という2つのデータ取得ワークフローを提案する。 第2に,SVGの曲線レベルおよびチャンクレベルパラメータから学習するための,新しい階層型GNNアーキテクチャを構築する。 最初のケーススタディでは、BIGNetは電話ブランドを分類するだけでなく、レンズの位置、高さ幅比、スクリーンフレームギャップなど、複数のスケールでブランド関連の特徴を捉え、AI評価によって確認された。 本稿では,ベクトル化カーイメージデータセットからのBIGNet学習の一般化可能性を示すとともに,その予測の一貫性と堅牢性を4つのシナリオで検証する。 その結果は、自動車市場における高級車と経済ブランドでよく見られる違いと一致する。 最後に、畳み込みニューラルネットワークから生成された活性化マップを可視化し、BIGNetがより人間フレンドリで説明しやすい明示的なスタイルキャプチャーエージェントであることの利点を示す。 コードとデータセットはgithubにある。 1. phone case study: github.com/parksandrecfan/bignet-phone 2.カーケーススタディ:github.com/parksandrecfan/bignet-car

Incorporating style-related objectives into shape design has been centrally important to maximize product appeal. However, stylistic features such as aesthetics and semantic attributes are hard to codify even for experts. As such, algorithmic style capture and reuse have not fully benefited from automated data-driven methodologies due to the challenging nature of design describability. This paper proposes an AI-driven method to fully automate the discovery of brand-related features. Our approach introduces BIGNet, a two-tier Brand Identification Graph Neural Network (GNN) to classify and analyze scalar vector graphics (SVG). First, to tackle the scarcity of vectorized product images, this research proposes two data acquisition workflows: parametric modeling from small curve-based datasets, and vectorization from large pixel-based datasets. Secondly, this study constructs a novel hierarchical GNN architecture to learn from both SVG's curve-level and chunk-level parameters. In the first case study, BIGNet not only classifies phone brands but also captures brand-related features across multiple scales, such as the location of the lens, the height-width ratio, and the screen-frame gap, as confirmed by AI evaluation. In the second study, this paper showcases the generalizability of BIGNet learning from a vectorized car image dataset and validates the consistency and robustness of its predictions given four scenarios. The results match the difference commonly observed in luxury vs. economy brands in the automobile market. Finally, this paper also visualizes the activation maps generated from a convolutional neural network and shows BIGNet's advantage of being a more human-friendly, explainable, and explicit style-capturing agent. Code and dataset can be found on Github: 1. Phone case study: github.com/parksandrecfan/bignet-phone 2. Car case study: github.com/parksandrecfan/bignet-car
翻訳日:2023-06-06 13:54:30 公開日:2023-06-05
# プログラム可能なツイーザアレイに対するハバードパラメータ

Hubbard parameters for programmable tweezer arrays ( http://arxiv.org/abs/2306.03019v1 )

ライセンス: Link先を確認
Hao-Tian Wei, Eduardo Ibarra-Garc\'ia-Padilla, Michael L. Wall, and Kaden R. A. Hazzard(参考訳) フェルミ・ハバード・トウィーザーアレイの実験的な実現は、プログラマブル・格子幾何学とハバードモデルパラメータを単一サイトイメージングと組み合わせたフェルミイオン物質工学の新しい段階を開く。 これらの多用途なフェルミ・ハバード模型を量子シミュレータとして用いるためには、ハバードパラメータを記述することが重要である。 ここでは、任意の2次元格子ジオメトリのハバードモデルパラメータを計算する方法を開発し、複数のバンドとフェルミオンとボソンの両方に対して、トンネリング$t$、オンサイトポテンシャル$V$、相互作用$U$。 いくつかの例を示す。 1つの注目すべき発見は、同じ深さと分離されたツイーザが空間的に一様でないハバードパラメータを実際に与え、これらのパラメータを等しくするトラップ構成を見つける手順を示すことである。 より一般に、これらの手順はハバードパラメータを計算する逆問題を解く: 所望のハバードパラメータが与えられたとき、それらを実現するためのトラップ構成を見つける。 これらの手法はトンネル結合tweezer配列を使用するための重要なツールとなる。

The experimental realization of Fermi-Hubbard tweezer arrays opens a new stage for engineering fermionic matter, where programmable lattice geometries and Hubbard model parameters are combined with single-site imaging. In order to use these versatile experimental Fermi-Hubbard models as quantum simulators, it is crucial to know the Hubbard parameters describing them. Here we develop methods to calculate the Hubbard model parameters of arbitrary two-dimensional lattice geometries: the tunneling $t$, on-site potential $V$, and interaction $U$, for multiple bands and for both fermions and bosons. We show several examples. One notable finding is that equally deep and separated tweezers actually give spatially non-uniform Hubbard parameters, and we demonstrate procedures to find trap configurations that equalize these parameters. More generally, these procedures solve the inverse problem of calculating Hubbard parameters: given desired Hubbard parameters, find trap configurations to realize them. These methods will be critical tools for using tunnel-coupled tweezer arrays.
翻訳日:2023-06-06 13:54:03 公開日:2023-06-05
# 深層学習に基づく環境知覚における不確かさの定量化

Quantification of Uncertainties in Deep Learning-based Environment Perception ( http://arxiv.org/abs/2306.03018v1 )

ライセンス: Link先を確認
Marco Braun, Moritz Luszek, Jan Siegemund, Kevin Kollek, Anton Kummert(参考訳) 本研究では,レーダスキャンに基づいて車両の環境を知覚し,その予測の不確実性を考慮した深層学習手法を提案する。 ホスト車両の環境は、個別に分類される等サイズのグリッドセルに区分される。 このセグメンテーションアウトプットを補完することにより,本アルゴリズムは,予測の不確実性を不適切なモデル(固有不確実性)や雑音データ(有意不確実性)と区別することができる。 この目的のために、重みはモデルパラメータの不確実性を考慮した確率分布として記述される。 分布は勾配降下法を用いて教師付き方式で学習される。 モデル出力の不確実性はその予測精度と相関していることを示す。 従来の概念と比較して,車両の環境を確実に知覚するアプローチの優れた性能を示す。

In this work, we introduce a novel Deep Learning-based method to perceive the environment of a vehicle based on radar scans while accounting for uncertainties in its predictions. The environment of the host vehicle is segmented into equally sized grid cells which are classified individually. Complementary to the segmentation output, our Deep Learning-based algorithm is capable of differentiating uncertainties in its predictions as being related to an inadequate model (epistemic uncertainty) or noisy data (aleatoric uncertainty). To this end, weights are described as probability distributions accounting for uncertainties in the model parameters. Distributions are learned in a supervised fashion using gradient descent. We prove that uncertainties in the model output correlate with the precision of its predictions. Compared to previous concepts, we show superior performance of our approach to reliably perceive the environment of a vehicle.
翻訳日:2023-06-06 13:53:43 公開日:2023-06-05
# 予測的・生成的設定における侵入的・非侵入的音声強調尺度の挙動について

On the Behavior of Intrusive and Non-intrusive Speech Enhancement Metrics in Predictive and Generative Settings ( http://arxiv.org/abs/2306.03014v1 )

ライセンス: Link先を確認
Danilo de Oliveira, Julius Richter, Jean-Marie Lemercier, Tal Peer, Timo Gerkmann(参考訳) 発声以来、深層音声強調の分野はスペクトルマッピングやマスキングといった予測的(差別的な)アプローチによって支配されてきた。 しかし近年, 音声強調に新たな生成手法が適用され, 高い主観的品質スコアが得られた。 同時に、ディープラーニングの進歩により、(非侵襲的に)参照なしで動作できるなど、望ましい特性を持つニューラルネットワークベースのメトリクスの作成も可能になった。 生成的強化音声は、大きく異なる残留歪みを示す傾向があるため、その評価は予測的強化音声と異なる振る舞いをする可能性がある。 本稿では,予測的および生成的パラダイムの下で訓練された同一音声強調バックボーンの性能を,様々な指標で評価し,侵入的および非侵入的尺度が各パラダイムに異なる相関性を示す。 この分析は、モデルのトレーニングプロセスに関係なく、音声強調性能の完全かつ偏りのない図を一緒に描くことができるメトリクスの探索を動機付ける。

Since its inception, the field of deep speech enhancement has been dominated by predictive (discriminative) approaches, such as spectral mapping or masking. Recently, however, novel generative approaches have been applied to speech enhancement, attaining good denoising performance with high subjective quality scores. At the same time, advances in deep learning also allowed for the creation of neural network-based metrics, which have desirable traits such as being able to work without a reference (non-intrusively). Since generatively enhanced speech tends to exhibit radically different residual distortions, its evaluation using instrumental speech metrics may behave differently compared to predictively enhanced speech. In this paper, we evaluate the performance of the same speech enhancement backbone trained under predictive and generative paradigms on a variety of metrics and show that intrusive and non-intrusive measures correlate differently for each paradigm. This analysis motivates the search for metrics that can together paint a complete and unbiased picture of speech enhancement performance, irrespective of the model's training process.
翻訳日:2023-06-06 13:53:30 公開日:2023-06-05
# 素直に隠れる: 連合学習におけるデータ盗み攻撃

Hiding in Plain Sight: Disguising Data Stealing Attacks in Federated Learning ( http://arxiv.org/abs/2306.03013v1 )

ライセンス: Link先を確認
Kostadin Garov, Dimitar I. Dimitrov, Nikola Jovanovi\'c, Martin Vechev(参考訳) 悪意のあるサーバ(ms)攻撃は、フェデレーション学習におけるデータの盗みのスケーリングを可能にし、大規模なバッチサイズとセキュアアグリゲーションを可能にした。 しかし、MS攻撃のクライアント側検出性に関する多くの懸念が提起され、公開後にその実用性に疑問が呈された。 本研究では,クライアントサイド検出可能性の問題を初めて徹底的に検討し,従来のms攻撃のほとんどが,基本的に2つの重要な原則の1つに依存しており,クライアントサイドチェックの原則によって検出可能であることを実証する。 さらに,現実的なネットワークの勾配からユーザデータを盗むと同時に,大規模なバッチサイズ(実験では最大512個まで)やセキュアなアグリゲーションの下でも,すべてのデシダータを満足する新たな攻撃フレームワークであるSEERを提案する。 SEERの重要な洞察は、共有モデルと共同でトレーニングされたシークレットデコーダを使用することである。 私たちの作業は、MS攻撃をより原則的に扱うための、有望な第一歩であり、現実のデプロイメントにおけるユーザのプライバシを損なうような、現実的なデータ盗難への道を開くものです。

Malicious server (MS) attacks have enabled the scaling of data stealing in federated learning to large batch sizes and secure aggregation, settings previously considered private. However, many concerns regarding client-side detectability of MS attacks were raised, questioning their practicality once they are publicly known. In this work, for the first time, we thoroughly study the problem of client-side detectability.We demonstrate that most prior MS attacks, which fundamentally rely on one of two key principles, are detectable by principled client-side checks. Further, we formulate desiderata for practical MS attacks and propose SEER, a novel attack framework that satisfies all desiderata, while stealing user data from gradients of realistic networks, even for large batch sizes (up to 512 in our experiments) and under secure aggregation. The key insight of SEER is the use of a secret decoder, which is jointly trained with the shared model. Our work represents a promising first step towards more principled treatment of MS attacks, paving the way for realistic data stealing that can compromise user privacy in real-world deployments.
翻訳日:2023-06-06 13:53:13 公開日:2023-06-05
# 電気自動車充電における個人世帯のインターバル負荷予測

Interval Load Forecasting for Individual Households in the Presence of Electric Vehicle Charging ( http://arxiv.org/abs/2306.03010v1 )

ライセンス: Link先を確認
Raiden Skala, Mohamed Ahmed T. A. Elgalhud, Katarina Grolinger, and Syed Mir(参考訳) 従来の内燃機関に代わる電気自動車(EV)への移行は、電気に対する社会的需要を増大させている。 電力需要予測にev充電からの追加需要を統合することは、発電と配電の信頼性を維持する上で重要である。 負荷予測研究は通常、オフィス、学校、公共充電ステーションに焦点をあてた家庭用EV充電の家庭を除外する。 さらに、予測の不確実性に関する情報を提供しないポイント予測を提供する。 そこで本稿では,EV充電の有無を考慮した家庭用負荷予測のためのLong Short-Term Memory Bayesian Neural Networks (LSTM-BNNs)を提案する。 このアプローチはLSTMモデルを利用して時間依存をキャプチャし、ベイズ推論でドロップアウト層を使用して予測間隔を生成する。 その結果,提案するLSTM-BNNは,予測間隔の利点を生かして,点予測と類似した精度が得られた。 さらに、新型コロナウイルスのパンデミックに関連するロックダウンが負荷予測モデルに与える影響について検討し、検討した家庭では、EV充電のランダム性がパンデミックによる変化を上回っているため、モデル性能に大きな変化はないことを示した。

The transition to Electric Vehicles (EV) in place of traditional internal combustion engines is increasing societal demand for electricity. The ability to integrate the additional demand from EV charging into forecasting electricity demand is critical for maintaining the reliability of electricity generation and distribution. Load forecasting studies typically exclude households with home EV charging, focusing on offices, schools, and public charging stations. Moreover, they provide point forecasts which do not offer information about prediction uncertainty. Consequently, this paper proposes the Long Short-Term Memory Bayesian Neural Networks (LSTM-BNNs) for household load forecasting in presence of EV charging. The approach takes advantage of the LSTM model to capture the time dependencies and uses the dropout layer with Bayesian inference to generate prediction intervals. Results show that the proposed LSTM-BNNs achieve accuracy similar to point forecasts with the advantage of prediction intervals. Moreover, the impact of lockdowns related to the COVID-19 pandemic on the load forecasting model is examined, and the analysis shows that there is no major change in the model performance as, for the considered households, the randomness of the EV charging outweighs the change due to pandemic.
翻訳日:2023-06-06 13:52:49 公開日:2023-06-05
# 日本語の名誉変換に基づく事前学習言語モデルの構文一般化能力の解析

Analyzing Syntactic Generalization Capacity of Pre-trained Language Models on Japanese Honorific Conversion ( http://arxiv.org/abs/2306.03055v1 )

ライセンス: Link先を確認
Ryo Sekizawa and Hitomi Yanaka(参考訳) 日本語の敬語の使用は、文法規則の知識だけでなく、社会関係などの文脈情報も必要とするため、難しい。 事前訓練された大規模言語モデル(LLM)が人間のような日本人の名誉を柔軟に扱えるかどうかは不明である。 これを分析するために,会話で言及された人々の社会的関係を考慮した名誉変換タスクを導入する。 本研究では,様々な文構造の課題テンプレートから日本語の敬称データセットを構築し,主要なLLMの一つであるGPT-3の構文的一般化能力について,微調整と迅速な学習という2つの設定で検討する。 以上の結果より, 微調整GPT-3は, プロンプトベースよりも, 文脈対応の名誉変換作業において優れていた。 微調整モデルでは、直接音声を含むデータを用いてテストした場合を除いて、複合敬語に対する全体的な統語的一般化性を示した。

Using Japanese honorifics is challenging because it requires not only knowledge of the grammatical rules but also contextual information, such as social relationships. It remains unclear whether pre-trained large language models (LLMs) can flexibly handle Japanese honorifics like humans. To analyze this, we introduce an honorific conversion task that considers social relationships among people mentioned in a conversation. We construct a Japanese honorifics dataset from problem templates of various sentence structures to investigate the syntactic generalization capacity of GPT-3, one of the leading LLMs, on this task under two settings: fine-tuning and prompt learning. Our results showed that the fine-tuned GPT-3 performed better in a context-aware honorific conversion task than the prompt-based one. The fine-tuned model demonstrated overall syntactic generalizability towards compound honorific sentences, except when tested with the data involving direct speech.
翻訳日:2023-06-06 13:45:27 公開日:2023-06-05
# 識別的敵プライバシ:ニューラルネットワークにおける正確性とメンバシッププライバシのバランス

Discriminative Adversarial Privacy: Balancing Accuracy and Membership Privacy in Neural Networks ( http://arxiv.org/abs/2306.03054v1 )

ライセンス: Link先を確認
Eugenio Lomurno, Alberto Archetti, Francesca Ausonio, Matteo Matteucci(参考訳) さまざまな産業におけるディープラーニングの普及は、AIパイプラインにおけるデータプライバシとセキュリティの重要性を強調している。 高度なメンバーシップ推論攻撃(MIAs)の進化は、深層学習モデルの訓練に使用される個人固有の情報の機密性を脅かすので、差分プライバシー(DP)は、悪意ある攻撃からモデルを保護するために最も利用される手法の1つである。 しかし、その理論的性質が証明されているにもかかわらず、DPはモデルの性能を著しく阻害し、トレーニング時間を短縮し、現実のシナリオでは非現実的になる。 この問題に取り組むため,我々は,モデル性能と速度,プライバシのバランスをとることにより,dpの限界に対処できる新しい学習手法であるdap(discriminative adversarial privacy)を提案する。 DAPは、MIAの誤差を最大化しながら予測誤差を最小化できる新しい損失関数に基づく敵の訓練に依存する。 さらに、パフォーマンスプライバシのトレードオフを捉えるために、AOP(Acuracy Over Privacy)と呼ばれる新しいメトリクスを紹介します。 最後に、我々の主張を検証するために、DAPとDPシナリオを比較し、パフォーマンス、時間、プライバシ保護の観点からの結果を分析します。

The remarkable proliferation of deep learning across various industries has underscored the importance of data privacy and security in AI pipelines. As the evolution of sophisticated Membership Inference Attacks (MIAs) threatens the secrecy of individual-specific information used for training deep learning models, Differential Privacy (DP) raises as one of the most utilized techniques to protect models against malicious attacks. However, despite its proven theoretical properties, DP can significantly hamper model performance and increase training time, turning its use impractical in real-world scenarios. Tackling this issue, we present Discriminative Adversarial Privacy (DAP), a novel learning technique designed to address the limitations of DP by achieving a balance between model performance, speed, and privacy. DAP relies on adversarial training based on a novel loss function able to minimise the prediction error while maximising the MIA's error. In addition, we introduce a novel metric named Accuracy Over Privacy (AOP) to capture the performance-privacy trade-off. Finally, to validate our claims, we compare DAP with diverse DP scenarios, providing an analysis of the results from performance, time, and privacy preservation perspectives.
翻訳日:2023-06-06 13:45:13 公開日:2023-06-05
# 貯留層計算モデルを用いた原油価格予測

Forecasting Crude Oil Prices Using Reservoir Computing Models ( http://arxiv.org/abs/2306.03052v1 )

ライセンス: Link先を確認
Kaushal Kumar(参考訳) 原油価格の正確な予測は金融決定に不可欠だ。 原油価格予測のための新しい貯留層計算モデルを提案する。 主要株式市場指標の日替わり価格データを用いた厳密な評価によって示されるように、ほとんどのシナリオで一般的なディープラーニング手法よりも優れている。 我々のモデルの競争上の優位性は、最近のディープラーニングアプローチと比較することでさらに検証される。 本研究では,石油価格予測のための革新的な貯水池計算モデルを導入する。 高度な技術を活用することで、市場参加者は意思決定を強化し、原油市場のダイナミクスに関する貴重な洞察を得ることができる。

Accurate crude oil price prediction is crucial for financial decision-making. We propose a novel reservoir computing model for forecasting crude oil prices. It outperforms popular deep learning methods in most scenarios, as demonstrated through rigorous evaluation using daily closing price data from major stock market indices. Our model's competitive advantage is further validated by comparing it with recent deep-learning approaches. This study introduces innovative reservoir computing models for predicting crude oil prices, with practical implications for financial practitioners. By leveraging advanced techniques, market participants can enhance decision-making and gain valuable insights into crude oil market dynamics.
翻訳日:2023-06-06 13:44:50 公開日:2023-06-05
# ELEV-VISION:Segmenting Street View Imagesによる最低床標高自動推定

ELEV-VISION: Automated Lowest Floor Elevation Estimation from Segmenting Street View Images ( http://arxiv.org/abs/2306.03050v1 )

ライセンス: Link先を確認
Yu-Hsuan Ho, Cheng-Chun Lee, Nicholas D. Diaz, Samuel D. Brody, and Ali Mostafavi(参考訳) 街路ビュー画像の潜伏情報を活用するために,コンピュータビジョン技術に基づくLFE推定アルゴリズムを提案する。 洪水深度損傷モデルでは、LFEと洪水深度の組み合わせを用いて、洪水のリスクと被害の程度を決定する。 Googleストリートビューの画像からドアボトムと道路側縁を検出するために,画像セグメントを用いた。 水平および垂直の角度の間隔が一定である等角射影の特徴は、カメラからドア底へのピッチ角の抽出を可能にする。 カメラからドアの底までの距離は、googleストリートビュー画像と組み合わせた深度マップから得られた。 LFEはピッチ角と深さから算出した。 提案手法の適用試験台はメイヤーランド(テキサス州ハリス郡)である。 その結果,LFE推定における絶対誤差は0.190 m (1.18 %) であった。 道路と最下階(HDSL)の高さ差を推定し,洪水被害推定のための情報を提供した。 ストリートビュー画像と画像セグメンテーションを用いた自動LFE推定アルゴリズムは,全局テオドライトおよび無人航空システムを用いた調査と比較して,LFE推定の迅速かつ費用対効果の高い手法を提供する。 提案手法を用いて, より正確かつ最新のLFEデータを得ることにより, 都市プランナー, 緊急プランナー, 保険会社がより正確な洪水被害推定を行うことができる。

We propose an automated lowest floor elevation (LFE) estimation algorithm based on computer vision techniques to leverage the latent information in street view images. Flood depth-damage models use a combination of LFE and flood depth for determining flood risk and extent of damage to properties. We used image segmentation for detecting door bottoms and roadside edges from Google Street View images. The characteristic of equirectangular projection with constant spacing representation of horizontal and vertical angles allows extraction of the pitch angle from the camera to the door bottom. The depth from the camera to the door bottom was obtained from the depthmap paired with the Google Street View image. LFEs were calculated from the pitch angle and the depth. The testbed for application of the proposed method is Meyerland (Harris County, Texas). The results show that the proposed method achieved mean absolute error of 0.190 m (1.18 %) in estimating LFE. The height difference between the street and the lowest floor (HDSL) was estimated to provide information for flood damage estimation. The proposed automatic LFE estimation algorithm using Street View images and image segmentation provides a rapid and cost-effective method for LFE estimation compared with the surveys using total station theodolite and unmanned aerial systems. By obtaining more accurate and up-to-date LFE data using the proposed method, city planners, emergency planners and insurance companies could make a more precise estimation of flood damage.
翻訳日:2023-06-06 13:44:41 公開日:2023-06-05
# ロバストネスから説明可能性へ、そして再び戻る

From Robustness to Explainability and Back Again ( http://arxiv.org/abs/2306.03048v1 )

ライセンス: Link先を確認
Xuanxiang Huang, Joao Marques-Silva(参考訳) eXplainable Artificial Intelligence (XAI)のアドホックな手法とは対照的に、形式的な説明責任は厳密さの重要な保証を提供する。 しかし、形式的な説明可能性はいくつかの分類器のスケーラビリティの低下によって妨げられ、最も重要なのはニューラルネットワークである。 結果として、信頼できるaiを提供するための他のアプローチを補完するために、形式的な説明が役立つかどうかの懸念がある。 本稿では,形式的説明可能性のスケーラビリティの限界に対処し,形式的説明を計算するための新しいアルゴリズムを提案する。 斬新なアルゴリズムは、代わりに多数のロバストネスクエリに答えて説明を計算し、そのようなクエリの数は、機能数に対して最も線形である。 その結果,提案アルゴリズムは形式的説明可能性の実践的複雑さと頑健さの直接的な関係を確立する。 より重要なことに、本論文は形式的説明の定義を一般化し、異なる距離ノルムに基づくロバストネスツールの使用を可能にするとともに、目標となるロバストネスの程度を推論することを可能にする。 提案手法の有効性を検証する実験を行った。

In contrast with ad-hoc methods for eXplainable Artificial Intelligence (XAI), formal explainability offers important guarantees of rigor. However, formal explainability is hindered by poor scalability for some families of classifiers, the most significant being neural networks. As a result, there are concerns as to whether formal explainability might serve to complement other approaches in delivering trustworthy AI. This paper addresses the limitation of scalability of formal explainability, and proposes novel algorithms for computing formal explanations. The novel algorithm computes explanations by answering instead a number of robustness queries, and such that the number of such queries is at most linear on the number of features. Consequently, the proposed algorithm establishes a direct relationship between the practical complexity of formal explainability and that of robustness. More importantly, the paper generalizes the definition of formal explanation, thereby allowing the use of robustness tools that are based on different distance norms, and also by reasoning in terms of some target degree of robustness. The experiments validate the practical efficiency of the proposed approach.
翻訳日:2023-06-06 13:44:22 公開日:2023-06-05
# sert: 環境モニタリングの欠如を考慮した時空間センサデータのためのトランスフォマーモデル

SERT: A Transfomer Based Model for Spatio-Temporal Sensor Data with Missing Values for Environmental Monitoring ( http://arxiv.org/abs/2306.03042v1 )

ライセンス: Link先を確認
Amin Shoari Nejad, Roc\'io Alaiz-Rodr\'iguez, Gerard D. McCarthy, Brian Kelleher, Anthony Grey, Andrew Parnell(参考訳) 環境モニタリングは気候変動、生物多様性の喪失、汚染の理解に不可欠である。 センサや衛星などのソースからの大規模な時空間データを利用することで、キードライバの予測と理解のための高度なモデルを開発することができる。 しかしながら、センサから収集されたデータは、機器の故障やメンテナンス上の問題により、欠落した値を含むことが多い。 欠落した値が同時に発生することはめったになく、多変量不一致のスパース時系列データにつながる。 計算を必要とせず,データ不足を自然に処理しながら,多変量時空間予測が可能な2つのモデルを提案する。 最初のモデルはトランスモデルであり、SERT (Spatio-temporal Encoder Representations from Transformers) と呼ぶ。 2つ目はSST-ANN(Sparse Spatio-Temporal Neural Neural Network)と呼ばれるシンプルなモデルで、解釈可能な結果を提供することができる。 我々は多変量時空間予測のための2つの異なるデータセットについて広範な実験を行い、我々のモデルが最先端のモデルよりも競争力または優れた性能を持つことを示す。

Environmental monitoring is crucial to our understanding of climate change, biodiversity loss and pollution. The availability of large-scale spatio-temporal data from sources such as sensors and satellites allows us to develop sophisticated models for forecasting and understanding key drivers. However, the data collected from sensors often contain missing values due to faulty equipment or maintenance issues. The missing values rarely occur simultaneously leading to data that are multivariate misaligned sparse time series. We propose two models that are capable of performing multivariate spatio-temporal forecasting while handling missing data naturally without the need for imputation. The first model is a transformer-based model, which we name SERT (Spatio-temporal Encoder Representations from Transformers). The second is a simpler model named SST-ANN (Sparse Spatio-Temporal Artificial Neural Network) which is capable of providing interpretable results. We conduct extensive experiments on two different datasets for multivariate spatio-temporal forecasting and show that our models have competitive or superior performance to those at the state-of-the-art.
翻訳日:2023-06-06 13:44:02 公開日:2023-06-05
# ユーザセッション項目の階層構造からパーソナライズされたセッションベースレコメンデーションのためのユーザ間の類似性学習

Learning Similarity among Users for Personalized Session-Based Recommendation from hierarchical structure of User-Session-Item ( http://arxiv.org/abs/2306.03040v1 )

ライセンス: Link先を確認
Jisoo Cha, Haemin Jeong, Wooju Kim(参考訳) セッションベースの推薦のタスクは、匿名化されたユーザの行動パターンに基づいて、ユーザの次のインタラクションを予測することである。 このシステムのパーソナライズされたバージョンは、ユーザ情報を扱うことができるため、有望な研究分野である。 しかし,ユーザの好みや過去のセッションは,ユーザとイテムのインタラクションのみに集中しているため,典型的なセッションベースのレコメンデーションでは考慮されなかった。 さらに、既存のパーソナライズされたセッションベースのレコメンデーションモデルには、類似ユーザを考慮せずに現在のユーザの好みを考慮できる機能に制限がある。 つまり、ユーザセッションイテムの階層的なデータ構造に含まれる情報を失う可能性があるということです。 この問題に対処するため,USP-SBR (Abr. of User similarity Powered - Session Based Recommender)を提案する。 ユーザのグローバルな歴史的なセッションをモデル化するために、ItemNodeとUserNodeの2種類のノードを持つUserGraphを提案する。 次にノードを3種類のエッジで接続します。 第1のエッジはItemNodeを時系列順に、第2のエッジはItemNodeをUserNodeに、第2のエッジはUserNodeをItemNodeに接続する。 これらのユーザ埋め込みにより、類似の意図を持つユーザ同士をベクトル空間内で近接させる、追加のコントラスト損失が提案される。 これらのユーザグラフと更新ノードにグラフニューラルネットワークを適用する。 2つの実世界のデータセットに対する実験結果から,本手法は最先端の手法よりも優れていることが示された。

The task of the session-based recommendation is to predict the next interaction of the user based on the anonymized user's behavior pattern. And personalized version of this system is a promising research field due to its availability to deal with user information. However, there's a problem that the user's preferences and historical sessions were not considered in the typical session-based recommendation since it concentrates only on user-item interaction. In addition, the existing personalized session-based recommendation model has a limited capability in that it only considers the preference of the current user without considering those of similar users. It means there can be the loss of information included within the hierarchical data structure of the user-session-item. To tackle with this problem, we propose USP-SBR(abbr. of User Similarity Powered - Session Based Recommender). To model global historical sessions of users, we propose UserGraph that has two types of nodes - ItemNode and UserNode. We then connect the nodes with three types of edges. The first type of edges connects ItemNode as chronological order, and the second connects ItemNode to UserNode, and the last connects UserNode to ItemNode. With these user embeddings, we propose additional contrastive loss, that makes users with similar intention be close to each other in the vector space. we apply graph neural network on these UserGraph and update nodes. Experimental results on two real-world datasets demonstrate that our method outperforms some state-of-the-art approaches.
翻訳日:2023-06-06 13:43:43 公開日:2023-06-05
# HeadSculpt:テキストで3Dヘッドアバターを作る

HeadSculpt: Crafting 3D Head Avatars with Text ( http://arxiv.org/abs/2306.03038v1 )

ライセンス: Link先を確認
Xiao Han, Yukang Cao, Kai Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, Tao Xiang, Kwan-Yee K. Wong(参考訳) 近年,テキストガイドによる3次元生成手法は,視覚言語モデルや画像拡散モデルの普及を活かし,高品質なテクスチャや形状の生成に飛躍的な進歩を遂げている。 しかし, 既存の手法では, 高忠実度な3Dヘッドアバターの製作に苦慮している。(1) 必要な3D認識と頭部前兆を欠きながら, トレーニング済みのテキスト・ツー・イメージ拡散モデルに大きく依存している。 これにより、生成されたアバターの矛盾や幾何学的な歪みが生じる。 2)微粒化編集では不足する。 これは主に、事前訓練された2D画像拡散モデルから引き継がれた制限のためであり、これは3Dヘッドアバターに関してより顕著になる。 本研究では,テキストプロンプトから3Dヘッドアバターを作成・編集するためのHeadSculptと呼ばれる多目的粗いパイプラインを導入することで,これらの課題に対処する。 具体的には,ランドマークベースの制御と,頭部のバックビューの出現を表す学習テキスト埋め込みを活用し,3d一貫性のある頭部アバター世代を実現することで,拡散モデルと3d認識を具備する。 さらに,高分解能な微分可能レンダリング技術を用いてテクスチャメッシュを最適化する,新しいアイデンティティ対応編集スコア蒸留手法を提案する。 これにより、編集命令に従ってアイデンティティを保存できる。 包括的実験と既存手法との比較を通して,headsculptの優れた忠実性と編集能力を紹介する。

Recently, text-guided 3D generative methods have made remarkable advancements in producing high-quality textures and geometry, capitalizing on the proliferation of large vision-language and image diffusion models. However, existing methods still struggle to create high-fidelity 3D head avatars in two aspects: (1) They rely mostly on a pre-trained text-to-image diffusion model whilst missing the necessary 3D awareness and head priors. This makes them prone to inconsistency and geometric distortions in the generated avatars. (2) They fall short in fine-grained editing. This is primarily due to the inherited limitations from the pre-trained 2D image diffusion models, which become more pronounced when it comes to 3D head avatars. In this work, we address these challenges by introducing a versatile coarse-to-fine pipeline dubbed HeadSculpt for crafting (i.e., generating and editing) 3D head avatars from textual prompts. Specifically, we first equip the diffusion model with 3D awareness by leveraging landmark-based control and a learned textual embedding representing the back view appearance of heads, enabling 3D-consistent head avatar generations. We further propose a novel identity-aware editing score distillation strategy to optimize a textured mesh with a high-resolution differentiable rendering technique. This enables identity preservation while following the editing instruction. We showcase HeadSculpt's superior fidelity and editing capabilities through comprehensive experiments and comparisons with existing methods.
翻訳日:2023-06-06 13:43:19 公開日:2023-06-05
# ゼロショットHuman-AIコーディネーションのための協調的不整合処理

Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination ( http://arxiv.org/abs/2306.03034v1 )

ライセンス: Link先を確認
Yang Li, Shao Zhang, Jichen Sun, Wenhao Zhang, Yali Du, Ying Wen, Xinbing Wang, Wei Pan(参考訳) 人間と人工知能の協調を実現することは、これまで知られていなかったチームメイトと効率的に連携できるAIエージェントを開発することを目的としたゼロショットヒューマンAIコーディネーションにおいて、依然として大きな障害となっている。 従来のアルゴリズムは、集団内の固定された目的を最適化し、戦略や行動の多様性を育み、人間と協調することを目的としていた。 しかし、これらの技術は、学習の損失と、集団内の特定の戦略に協力できないことにつながる可能性がある。 この問題を緩和するために、グラフ理論の観点を用いて2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価する協調オープンエンドラーニング(COLE)フレームワークを導入する。 ゲーム理論やグラフ理論、例えばシェープ価値や中心性から洞察を取り入れた実用的なアルゴリズムを考案した。 また,COLEは理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。 続いて,質問票やモデル重み付け,その他の面を簡単にカスタマイズ可能な,人間-ai実験プラットフォームであるcole platformを開発した。 coleプラットフォームを利用して,130名の参加者を人間実験に参加させる。 本研究は,種々の主観的指標を用いた最先端手法に対するアプローチの好みを明らかにする。 さらに,オーバークッキングゲーム環境における客観的な実験結果から,従来のAIエージェントやヒューマンプロキシモデルとの協調作業において,本手法が既存手法を上回ることが示唆された。 私たちのコードとデモはhttps://sites.google.com/view/cole-2023で公開されている。

Achieving coordination between humans and artificial intelligence in scenarios involving previously unencountered humans remains a substantial obstacle within Zero-Shot Human-AI Coordination, which aims to develop AI agents capable of efficiently working alongside previously unknown human teammates. Traditional algorithms have aimed to collaborate with humans by optimizing fixed objectives within a population, fostering diversity in strategies and behaviors. However, these techniques may lead to learning loss and an inability to cooperate with specific strategies within the population, a phenomenon named cooperative incompatibility. To mitigate this issue, we introduce the Cooperative Open-ended LEarning (COLE) framework, which formulates open-ended objectives in cooperative games with two players using perspectives of graph theory to evaluate and pinpoint the cooperative capacity of each strategy. We put forth a practical algorithm incorporating insights from game theory and graph theory, e.g., Shapley Value and Centrality. We also show that COLE could effectively overcome the cooperative incompatibility from theoretical and empirical analysis. Subsequently, we created an online Overcooked human-AI experiment platform, the COLE platform, which enables easy customization of questionnaires, model weights, and other aspects. Utilizing the COLE platform, we enlist 130 participants for human experiments. Our findings reveal a preference for our approach over state-of-the-art methods using a variety of subjective metrics. Moreover, objective experimental outcomes in the Overcooked game environment indicate that our method surpasses existing ones when coordinating with previously unencountered AI agents and the human proxy model. Our code and demo are publicly available at https://sites.google.com/view/cole-2023.
翻訳日:2023-06-06 13:42:56 公開日:2023-06-05
# ハイパーグラフにおけるノードのエッジ依存ラベルの分類

Classification of Edge-dependent Labels of Nodes in Hypergraphs ( http://arxiv.org/abs/2306.03032v1 )

ライセンス: Link先を確認
Minyoung Choe, Sunwoo Kim, Jaemin Yoo, Kijung Shin(参考訳) ハイパーグラフはノードとハイパーエッジで構成されるデータ構造であり、各ハイパーエッジはノードの任意のサイズのサブセットである。 ハイパーエッジサイズの柔軟性のため、ハイパーグラフは通常のグラフよりも自然かつ正確にグループインタラクション(例えば2人以上の著者による共著者)を表現する。 興味深いことに、ハイパーグラフとしてモデル化された現実世界の多くのシステムは、エッジ依存ノードラベル、すなわちハイパーエッジに依存するノードラベルを含んでいる。 例えば、共著者データセットでは、同じ著者(すなわちノード)が、論文(すなわちハイパーエッジ)では第一著者となるが、別の論文(すなわち別のハイパーエッジ)では対応する著者となることができる。 本稿では,エッジ依存ノードラベルの分類を新しい問題として紹介する。 この問題はハイパーグラフニューラルネットワークのベンチマークタスクとして使用できるが、近年は注目を浴びており、エッジに依存したノードラベルの有用性が様々なアプリケーションで検証されている。 この問題に対処するため,我々は,ハイパーエッジにおけるその重要性を反映することにより,その関与するハイパーエッジによって異なるノードを表現する,新しいハイパーグラフニューラルネットワークであるwhatsnetを提案する。 この目的のために、WHATsNetは各ハイパーエッジ内のノード間の関係をモデル化し、相対集中性を位置エンコーディングとして利用する。 我々の実験では、WHATsNetは6つの実世界のハイパーグラフにおいて10の競合相手よりも大きく、一貫して優れており、またWHATsNetの応用が成功することを示す。 (a)ランキング集計 (b)ノードクラスタリング、および (c)製品リターン予測。

A hypergraph is a data structure composed of nodes and hyperedges, where each hyperedge is an any-sized subset of nodes. Due to the flexibility in hyperedge size, hypergraphs represent group interactions (e.g., co-authorship by more than two authors) more naturally and accurately than ordinary graphs. Interestingly, many real-world systems modeled as hypergraphs contain edge-dependent node labels, i.e., node labels that vary depending on hyperedges. For example, on co-authorship datasets, the same author (i.e., a node) can be the primary author in a paper (i.e., a hyperedge) but the corresponding author in another paper (i.e., another hyperedge). In this work, we introduce a classification of edge-dependent node labels as a new problem. This problem can be used as a benchmark task for hypergraph neural networks, which recently have attracted great attention, and also the usefulness of edge-dependent node labels has been verified in various applications. To tackle this problem, we propose WHATsNet, a novel hypergraph neural network that represents the same node differently depending on the hyperedges it participates in by reflecting its varying importance in the hyperedges. To this end, WHATsNet models the relations between nodes within each hyperedge, using their relative centrality as positional encodings. In our experiments, we demonstrate that WHATsNet significantly and consistently outperforms ten competitors on six real-world hypergraphs, and we also show successful applications of WHATsNet to (a) ranking aggregation, (b) node clustering, and (c) product return prediction.
翻訳日:2023-06-06 13:42:25 公開日:2023-06-05
# SpQR: LLM重み圧縮のためのスパース量子表現

SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression ( http://arxiv.org/abs/2306.03078v1 )

ライセンス: Link先を確認
Tim Dettmers, Ruslan Svirschevski, Vage Egiazarian, Denis Kuznedelev, Elias Frantar, Saleh Ashkboos, Alexander Borzunov, Torsten Hoefler, Dan Alistarh(参考訳) 大規模言語モデル(LLM)の事前学習の進歩は、優れた能力を持つ高品質のLLMを生み出している。 パラメータごとに3〜4ビットに量子化することで、ラップトップや携帯電話などのメモリ制限されたデバイスに適合し、パーソナライズされた使用を可能にする。 しかし、パラメータごとに3〜4ビットまで量子化すると、特にエッジ展開に適した1-10Bパラメータ範囲の小さなモデルでは、中程度から高い精度の損失が生じる。 sparse-quantized representation (spqr) という新しい圧縮フォーマットと量子化手法を導入することで,モデルスケール間でllmのロスレス圧縮を初めて可能とし,従来手法と同様の圧縮レベルに達する。 SpQRは、特に大きな量子化エラーを引き起こし、それらを高い精度で保存すると共に、他の全ての重みを3-4ビットに圧縮し、高い精度のLLaMAとファルコンLLMに対して1%未満のパープレキシティの相対的精度損失を達成する。 これにより、1つの24GBのコンシューマGPU上で33BパラメータのLSMを15%のスピードアップでパフォーマンスの低下なく実行することが可能になり、強力なLSMをマイナス面のないコンシューマで利用できるようになる。 SpQRは、そのフォーマットに重みをエンコードするだけでなく、実行時にそれらを効率的にデコードする効率的なアルゴリズムを備えている。 具体的には、spqrの効率的なgpu推論アルゴリズムを提供し、同様の精度で16ビットベースラインよりも高速な推論を実現し、メモリ圧縮を4倍以上向上させる。

Recent advances in large language model (LLM) pretraining have led to high-quality LLMs with impressive abilities. By compressing such LLMs via quantization to 3-4 bits per parameter, they can fit into memory-limited devices such as laptops and mobile phones, enabling personalized use. However, quantization down to 3-4 bits per parameter usually leads to moderate-to-high accuracy losses, especially for smaller models in the 1-10B parameter range, which are well-suited for edge deployments. To address this accuracy issue, we introduce the Sparse-Quantized Representation (SpQR), a new compressed format and quantization technique which enables for the first time near-lossless compression of LLMs across model scales, while reaching similar compression levels to previous methods. SpQR works by identifying and isolating outlier weights, which cause particularly-large quantization errors, and storing them in higher precision, while compressing all other weights to 3-4 bits, and achieves relative accuracy losses of less than 1% in perplexity for highly-accurate LLaMA and Falcon LLMs. This makes it possible to run 33B parameter LLM on a single 24 GB consumer GPU without any performance degradation at 15% speedup thus making powerful LLMs available to consumer without any downsides. SpQR comes with efficient algorithms for both encoding weights into its format, as well as decoding them efficiently at runtime. Specifically, we provide an efficient GPU inference algorithm for SpQR which yields faster inference than 16-bit baselines at similar accuracy, while enabling memory compression gains of more than 4x.
翻訳日:2023-06-06 13:36:40 公開日:2023-06-05
# 深層学習ハードウェアにおける精度回復のための感度・アウェア微調整

Sensitivity-Aware Finetuning for Accuracy Recovery on Deep Learning Hardware ( http://arxiv.org/abs/2306.03076v1 )

ライセンス: Link先を確認
Lakshmi Nair and Darius Bunandar(参考訳) 量子化やアナログノイズの存在下でのアナログデジタルハードウェア上でのモデル精度回復には,ノイズ注入訓練が含まれる。 しかし、訓練済みモデルから始めると高い計算コストが発生するため、実際は遅くなる可能性がある。 本稿では、モデル内のノイズ感度層を識別し、その情報を用いて特定の層を凍結してノイズ注入訓練を行うSAFT手法を提案する。 その結果,SAFTはノイズ注入訓練と同等の精度で,2倍から8倍高速であることがわかった。

Existing methods to recover model accuracy on analog-digital hardware in the presence of quantization and analog noise include noise-injection training. However, it can be slow in practice, incurring high computational costs, even when starting from pretrained models. We introduce the Sensitivity-Aware Finetuning (SAFT) approach that identifies noise sensitive layers in a model, and uses the information to freeze specific layers for noise-injection training. Our results show that SAFT achieves comparable accuracy to noise-injection training and is 2x to 8x faster.
翻訳日:2023-06-06 13:36:11 公開日:2023-06-05
# 数マイクロメートル距離での隣接測定における量子ビットの保存

Preserving a qubit during adjacent measurements at a few micrometers distance ( http://arxiv.org/abs/2306.03075v1 )

ライセンス: Link先を確認
Sainath Motlakunta, Nikhil Kotibhaskar, Chung-You Shih, Anthony Vogliano, Darian Mclaren, Lewis Hahn, Jingwen Zhu, Roland Habl\"utzel, and Rajibul Islam(参考訳) 制御された量子演算には、不可逆的な偶発的測定から量子オブジェクトを保護する必要がある。 これは、量子エラー補正のように、近くの物体の量子状態を同時に測定またはリセットする必要がある場合、特に困難または不可能になる。 最も確立された量子情報処理プラットフォームの一つである原子システムでは、共鳴レーザー駆動の隣接測定値に対する量子ビットの保存は、コヒーレンス時間や余分な量子ビットのような貴重な実験資源を無駄にし、追加のエラーをもたらす。 本稿では,隣の「プロセス」キュービットを数ミクロン距離でリセットまたは測定している間に,アセットイオンキュービットの高忠実性保存を示す。 プロセスキュービットがリセットされている間に、アセットキュービットの偶発的な測定の確率が$<1\times 10^{-3}$確率が$<4\times 10^{-3}$確率が同じ隣人に検出ビームを印加し、実験的に高速検出時間を6\\rm{\mu m}$の6倍、もしくは4倍の距離でガウスビームウエストを検出できる。 これらの低い確率は、99.9\%$ (状態のリセット) と99.6\%$ (状態測定) 以上のフィデリティを持つ資産量子ビットの量子状態の保存に対応する。 本研究は,光収差の量子センサとして単一イオンを用いながら,光ビームの正確な波面制御により実現した。 我々の研究は、状態リセットと測定操作の実現可能性を示し、測定駆動型量子位相のシミュレーションや量子エラー補正の実現など、量子プロセッサの速度と能力の向上に向けて構築する。

Protecting a quantum object against irreversible accidental measurements from its surroundings is necessary for controlled quantum operations. This becomes especially challenging or unfeasible if one must simultaneously measure or reset a nearby object's quantum state, such as in quantum error correction. In atomic systems - among the most established quantum information processing platforms - current attempts to preserve qubits against resonant laser-driven adjacent measurements waste valuable experimental resources such as coherence time or extra qubits and introduce additional errors. Here, we demonstrate high-fidelity preservation of an `asset' ion qubit while a neighboring `process' qubit is reset or measured at a few microns distance. We achieve $< 1\times 10^{-3}$ probability of accidental measurement of the asset qubit while the process qubit is reset, and $< 4\times 10^{-3}$ probability while applying a detection beam on the same neighbor for experimentally demonstrated fast detection times, at a distance of $6\ \rm{\mu m}$ or four times the addressing Gaussian beam waist. These low probabilities correspond to the preservation of the quantum state of the asset qubit with fidelities above $99.9\%$ (state reset) and $99.6\%$ (state measurement). Our results are enabled by precise wavefront control of the addressing optical beams while utilizing a single ion as a quantum sensor of optical aberrations. Our work demonstrates the feasibility of in-situ state reset and measurement operations, building towards enhancements in the speed and capabilities of quantum processors, such as in simulating measurement-driven quantum phases and realizing quantum error correction.
翻訳日:2023-06-06 13:35:58 公開日:2023-06-05
# 強化学習の目的に関する総合的展望

A General Perspective on Objectives of Reinforcement Learning ( http://arxiv.org/abs/2306.03074v1 )

ライセンス: Link先を確認
Long Yang(参考訳) 本稿では,強化学習(rl)目標に関する一般的な視点を示し,目的の3つのバージョンを示す。 最初のバージョンは rl literature における objective の標準定義である。 その後、標準定義を$\lambda$-returnバージョンに拡張し、objectiveの標準定義を統一します。 最後に,これまでの2つのバージョンを統一する汎用目的を提案する。 最後のバージョンはRLの目的を理解するための高いレベルを提供し、そこでは広く使われているRLの技法(例えば、TD$(\lambda)$とGAE)を接続する基本的な定式化を示し、この目的は広範なRLアルゴリズムに適用できる可能性がある。

In this lecture, we present a general perspective on reinforcement learning (RL) objectives, where we show three versions of objectives. The first version is the standard definition of objective in RL literature. Then we extend the standard definition to the $\lambda$-return version, which unifies the standard definition of objective. Finally, we propose a general objective that unifies the previous two versions. The last version provides a high level to understand of RL's objective, where it shows a fundamental formulation that connects some widely used RL techniques (e.g., TD$(\lambda)$ and GAE), and this objective can be potentially applied to extensive RL algorithms.
翻訳日:2023-06-06 13:35:21 公開日:2023-06-05
# ゼロショットrlの一般化を探求する

Explore to Generalize in Zero-Shot RL ( http://arxiv.org/abs/2306.03072v1 )

ライセンス: Link先を確認
Ev Zisselman, Itai Lavie, Daniel Soudry, Aviv Tamar(参考訳) 我々は、強化学習におけるゼロショット一般化について研究し、同様のが見えないテストタスクでうまく機能するように、一連のトレーニングタスクに対するポリシーを最適化する。 オーバーフィッティングを軽減するために、以前の研究はタスクへの不変性の異なる概念を探求した。 しかし、progen mazeのような問題では、タスクの可視化に不変な適切な解は存在しないため、不変性に基づくアプローチは失敗する。 我々の見識では、$\textit{explores}$ the domain effectiveというポリシーを学ぶことは、特定のタスクに対する報酬を最大化するポリシーよりも記憶が難しいので、そのような学習された振る舞いがうまく一般化することを期待しています。 私たちの$\textit{Explore to Generalize}$ algorithm (ExpGen)は、この洞察に基づいています。 テスト時には、アンサンブルがアクションについて合意し、うまく一般化するか、あるいは、アンサンブルが再び同意する可能性のある状態空間の新たな部分への一般化と推進を保証される探索的なアクションを取るかのいずれかです。 提案手法は,ProcGen課題におけるいくつかの課題の最先端技術であることを示す。 例えば、mazeタスクで$82\%、トレーニングレベルが$200のheistで$74\%という成功率を示しています。

We study zero-shot generalization in reinforcement learning - optimizing a policy on a set of training tasks such that it will perform well on a similar but unseen test task. To mitigate overfitting, previous work explored different notions of invariance to the task. However, on problems such as the ProcGen Maze, an adequate solution that is invariant to the task visualization does not exist, and therefore invariance-based approaches fail. Our insight is that learning a policy that $\textit{explores}$ the domain effectively is harder to memorize than a policy that maximizes reward for a specific task, and therefore we expect such learned behavior to generalize well; we indeed demonstrate this empirically on several domains that are difficult for invariance-based approaches. Our $\textit{Explore to Generalize}$ algorithm (ExpGen) builds on this insight: We train an additional ensemble of agents that optimize reward. At test time, either the ensemble agrees on an action, and we generalize well, or we take exploratory actions, which are guaranteed to generalize and drive us to a novel part of the state space, where the ensemble may potentially agree again. We show that our approach is the state-of-the-art on several tasks in the ProcGen challenge that have so far eluded effective generalization. For example, we demonstrate a success rate of $82\%$ on the Maze task and $74\%$ on Heist with $200$ training levels.
翻訳日:2023-06-06 13:35:08 公開日:2023-06-05
# テキスト要約のためのインタラクティブ編集

Interactive Editing for Text Summarization ( http://arxiv.org/abs/2306.03067v1 )

ライセンス: Link先を確認
Yujia Xie, Xun Wang, Si-Qing Chen, Wayne Xiong, Pengcheng He(参考訳) 長いドキュメントの要約は、私たちの日常生活において一般的で不可欠なタスクです。 最近の神経要約モデルの進歩は汎用要約を作成するのに役立つが、人間の作家はよりカスタマイズされたアプローチを求める特定の要件を持っている。 このニーズに対処するために,人間作家による草稿要約の反復編集と洗練を容易にする革新的なフレームワークであるrevisionise(refinement and editing via iterative summarization enhancement)を紹介する。 私たちのフレームワークでは、ライタは任意の場所や長さで不十分なセグメントを手軽に修正し、オプションのスタートフレーズを提供できます。 中心となるREVISEは、エンコーダ・デコーダアーキテクチャに中間モデルの修正を加え、要約タスクに適した新しい評価指標を開発した。 本質的には、私たちのフレームワークは、人間の専門知識とai能力の両方を効果的に活用することで、ユーザに高品質でパーソナライズされた要約を作成する権限を与えます。

Summarizing lengthy documents is a common and essential task in our daily lives. Although recent advancements in neural summarization models can assist in crafting general-purpose summaries, human writers often have specific requirements that call for a more customized approach. To address this need, we introduce REVISE (Refinement and Editing via Iterative Summarization Enhancement), an innovative framework designed to facilitate iterative editing and refinement of draft summaries by human writers. Within our framework, writers can effortlessly modify unsatisfactory segments at any location or length and provide optional starting phrases -- our system will generate coherent alternatives that seamlessly integrate with the existing summary. At its core, REVISE incorporates a modified fill-in-the-middle model with the encoder-decoder architecture while developing novel evaluation metrics tailored for the summarization task. In essence, our framework empowers users to create high-quality, personalized summaries by effectively harnessing both human expertise and AI capabilities, ultimately transforming the summarization process into a truly collaborative and adaptive experience.
翻訳日:2023-06-06 13:34:44 公開日:2023-06-05
# マウスと交尾動物:ケージを横断する単一モデルを用いた群におけるマウスの行動の自動分類とモデリング

Of Mice and Mates: Automated Classification and Modelling of Mouse Behaviour in Groups using a Single Model across Cages ( http://arxiv.org/abs/2306.03066v1 )

ライセンス: Link先を確認
Michael P. J. Camilleri and Rasneer S. Bains and Christopher K. I. Williams(参考訳) 行動実験は専門のアリーナでしばしば行われるが、これは分析を混乱させる可能性がある。 この問題に対処するため,我々は,ヒトの介入が最小限であるケージメイト間の相互作用と相互依存性をモデル化し,個人の行動の時間的側面を捉えて,生物学者に提供する。 本研究では,映像からマウスの行動を自動的に分類するアクティビティ・ラベリング・モジュール (ALM) と,各ケージ内のマウスの身元をモデルに合わせるために置換行列を用いて,ケージ間の共同行動の要約を行うグループ行動モデル (GBM) を開発した。 トレーニング行動分類器のabodeと,モデリング行動のiddgeの2つのデータセットもリリースしています。

Behavioural experiments often happen in specialised arenas, but this may confound the analysis. To address this issue, we provide tools to study mice in the homecage environment, equipping biologists with the possibility to capture the temporal aspect of the individual's behaviour and model the interaction and interdependence between cage-mates with minimal human intervention. We develop the Activity Labelling Module (ALM) to automatically classify mouse behaviour from video, and a novel Group Behaviour Model (GBM) for summarising their joint behaviour across cages, using a permutation matrix to match the mouse identities in each cage to the model. We also release two datasets, ABODe for training behaviour classifiers and IMADGE for modelling behaviour.
翻訳日:2023-06-06 13:34:23 公開日:2023-06-05
# LibAUC: X-Risk最適化のためのディープラーニングライブラリ

LibAUC: A Deep Learning Library for X-Risk Optimization ( http://arxiv.org/abs/2306.03065v1 )

ライセンス: Link先を確認
Zhuoning Yuan, Dixian Zhu, Zi-Hao Qiu, Gang Li, Xuanhui Wang, Tianbao Yang(参考訳) 本稿では,リスク関数のファミリーを最適化するための最先端アルゴリズムを実装したLibAUCというライブラリについて紹介する。 x-リスク(x-risk)とは、各データポイントの損失関数が、他の多くのデータポイントと対照的な方法で定義される合成関数の族を指す。 それらは古典的および新興的な問題を解決するためのAIの幅広い応用があり、その中には不均衡データ(CID)の分類、ランク付け学習(LTR)、表現の対照的な学習(CLR)などが含まれる。 LibAUCを開発する動機は、これらの問題を解決するために既存のライブラリの収束問題に取り組むことである。 特に、既存のライブラリは、経験的リスク最小化(ERM)フレームワークで標準のミニバッチ技術を使用するため、これらの問題に対して優れたパフォーマンスを達成するために、非常に大きなミニバッチサイズを収束または必要としない可能性がある。 我々のライブラリは深層Xリスク最適化(DXO)のためのもので、CID、LTR、CLRの様々なタスクを解くことに成功した。 本論文のコントリビューションは,(1) DXOアルゴリズムを実装するための新しいミニバッチベースのパイプラインを導入し, 制御されたデータサンプリング器の設計と動的ミニバッチ損失において, 既存のDLパイプラインと異なり, 2) アブレーション研究と既存ライブラリとの比較のための広範なベンチマーク実験を提供する。 libaucライブラリは,x-riskの最適化やシームレスなpytorchデプロイメント,さまざまな損失最適化のための汎用apiなど,既存のライブラリよりも高速かつ優れたコンバージェンスを実現するために,数百万の項目に対してスケーラブルなパフォーマンスを提供する。 当社のライブラリはオープンソースコミュニティのhttps://github.com/Optimization-AI/LibAUCで公開されています。

This paper introduces the award-winning deep learning (DL) library called LibAUC for implementing state-of-the-art algorithms towards optimizing a family of risk functions named X-risks. X-risks refer to a family of compositional functions in which the loss function of each data point is defined in a way that contrasts the data point with a large number of others. They have broad applications in AI for solving classical and emerging problems, including but not limited to classification for imbalanced data (CID), learning to rank (LTR), and contrastive learning of representations (CLR). The motivation of developing LibAUC is to address the convergence issues of existing libraries for solving these problems. In particular, existing libraries may not converge or require very large mini-batch sizes in order to attain good performance for these problems, due to the usage of the standard mini-batch technique in the empirical risk minimization (ERM) framework. Our library is for deep X-risk optimization (DXO) that has achieved great success in solving a variety of tasks for CID, LTR and CLR. The contributions of this paper include: (1) It introduces a new mini-batch based pipeline for implementing DXO algorithms, which differs from existing DL pipeline in the design of controlled data samplers and dynamic mini-batch losses; (2) It provides extensive benchmarking experiments for ablation studies and comparison with existing libraries. The LibAUC library features scalable performance for millions of items to be contrasted, faster and better convergence than existing libraries for optimizing X-risks, seamless PyTorch deployment and versatile APIs for various loss optimization. Our library is available to the open source community at https://github.com/Optimization-AI/LibAUC, to facilitate further academic research and industrial applications.
翻訳日:2023-06-06 13:34:07 公開日:2023-06-05
# 構造化ボロノイサンプリング

Structured Voronoi Sampling ( http://arxiv.org/abs/2306.03061v1 )

ライセンス: Link先を確認
Afra Amini, Li Du, Ryan Cotterell(参考訳) 近年,テキスト生成のための勾配に基づくサンプリングアルゴリズムの開発,特に制御された生成の文脈における関心が高まっている。 しかし、この課題には理論的に根ざした原則的なアプローチが欠如している。 本稿では,勾配法を用いて言語モデルから抽出する原理的アプローチの構築に向けて重要な一歩を踏み出す。 言語モデルによって与えられる離散分布を用いて密度を定義し、ハミルトンモンテカルロに基づくアルゴリズムを開発してそれらからサンプリングする。 グラデーションベース手法であるstructured voronoi sampling (svs) と命名する。 基準分布が知られている実験では,svsサンプルの実験的分布は,代替サンプリング方式と比較して基準分布に近いことが示されている。 さらに、制御された生成タスクでは、SVSは他の方法よりもはるかに優れた制御対象に従いながら、流動的で多様なサンプルを生成することができる。

Recently, there has been a growing interest in the development of gradient-based sampling algorithms for text generation, especially in the context of controlled generation. However, there exists a lack of theoretically grounded and principled approaches for this task. In this paper, we take an important step toward building a principled approach for sampling from language models with gradient-based methods. We use discrete distributions given by language models to define densities and develop an algorithm based on Hamiltonian Monte Carlo to sample from them. We name our gradient-based technique Structured Voronoi Sampling (SVS). In an experimental setup where the reference distribution is known, we show that the empirical distribution of SVS samples is closer to the reference distribution compared to alternative sampling schemes. Furthermore, in a controlled generation task, SVS is able to generate fluent and diverse samples while following the control targets significantly better than other methods.
翻訳日:2023-06-06 13:33:31 公開日:2023-06-05
# アナログ量子シミュレータの認定

Accreditation of Analogue Quantum Simulators ( http://arxiv.org/abs/2306.03060v1 )

ライセンス: Link先を確認
Andrew Jackson, Theodoros Kapourniotis, Animesh Datta(参考訳) 本稿では,アナログ,すなわち連続時間量子シミュレータの認証プロトコルを提案する。 与えられたシミュレーションタスクでは、誤った、エラーのないアナログ量子シミュレータの出力における確率分布間の変動距離の上界を提供する。 オーバヘッドはシミュレーションのサイズと性質から独立しているため、このプロトコルは短期的に使用でき、長期的には実用的である。 強普遍的ハミルトニアンと量子認定の最近の理論的な進歩と、プログラマブルなアナログデジタル量子シミュレータの実現に向けた実験的進歩に基づいている。

We present an accreditation protocol for analogue, i.e., continuous-time, quantum simulators. For a given simulation task, it provides an upper bound on the variation distance between the probability distributions at the output of an erroneous and error-free analogue quantum simulator. As its overheads are independent of the size and nature of the simulation, the protocol is ready for immediate usage and practical for the long term. It builds on the recent theoretical advances of strongly universal Hamiltonians and quantum accreditation as well as experimental progress towards the realisation of programmable hybrid analogue-digital quantum simulators.
翻訳日:2023-06-06 13:33:18 公開日:2023-06-05
# neuralangelo: 高忠実な神経表面再構成

Neuralangelo: High-Fidelity Neural Surface Reconstruction ( http://arxiv.org/abs/2306.03092v1 )

ライセンス: Link先を確認
Zhaoshuo Li, Thomas M\"uller, Alex Evans, Russell H. Taylor, Mathias Unberath, Ming-Yu Liu, Chen-Hsuan Lin(参考訳) 神経表面の再構成は、画像ベースのニューラルネットワークによる高密度な3d表面の復元に有効であることが示されている。 しかし、現在の手法は現実世界のシーンの詳細な構造を復元するのに苦労している。 そこで本研究では,マルチレゾリューション3次元ハッシュグリッドの表現力とニューラルネットワーク表面レンダリングを組み合わせたneuralangeloを提案する。 1)高次微分をスムーズな演算として計算するための数値勾配と,2)詳細の異なるレベルを制御するハッシュグリッド上での粗大な最適化である。 深度などの補助的な入力がなくても、ニューラルランジェロは従来の手法をはるかに上回り、多視点画像から高密度な3次元表面構造を効果的に復元することができる。

Neural surface reconstruction has been shown to be powerful for recovering dense 3D surfaces via image-based neural rendering. However, current methods struggle to recover detailed structures of real-world scenes. To address the issue, we present Neuralangelo, which combines the representation power of multi-resolution 3D hash grids with neural surface rendering. Two key ingredients enable our approach: (1) numerical gradients for computing higher-order derivatives as a smoothing operation and (2) coarse-to-fine optimization on the hash grids controlling different levels of details. Even without auxiliary inputs such as depth, Neuralangelo can effectively recover dense 3D surface structures from multi-view images with fidelity significantly surpassing previous methods, enabling detailed large-scale scene reconstruction from RGB video captures.
翻訳日:2023-06-06 13:26:27 公開日:2023-06-05
# repobench: リポジトリレベルのコード自動補完システム

RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems ( http://arxiv.org/abs/2306.03091v1 )

ライセンス: Link先を確認
Tianyang Liu, Canwen Xu, Julian McAuley(参考訳) 大規模言語モデル(LLM)はコードの自動補完システムが大きく進歩しており、開発者の生産性が大幅に向上する可能性がある。 しかし、現在のベンチマークは主に単一ファイルタスクに焦点を当てており、より複雑な実世界のマルチファイルプログラミングシナリオに対する評価ギャップを残している。 このギャップを埋めるために、リポジトリレベルのコード自動補完システムを評価するために特別に設計された新しいベンチマークであるRepoBenchを紹介します。 RepoBenchはRepoBench-R(Retrieval)、RepoBench-C(Code Completion)、RepoBench-P(Pipeline)の3つの相互接続評価タスクで構成される。 それぞれのタスクは、他のファイルから最も関連するコードスニペットをクロスファイルコンテキストとして取得し、クロスファイルとインファイルコンテキストで次のコードの行を予測し、検索と次行の予測の両方を必要とする複雑なタスクを処理するシステムの能力を測定する。 RepoBenchは、パフォーマンスのより完全な比較を促進し、自動補完システムの継続的改善を促進することを目的としている。 RepoBenchはhttps://github.com/Leolty/repobench.comで公開されている。

Large Language Models (LLMs) have greatly advanced code auto-completion systems, with a potential for substantial productivity enhancements for developers. However, current benchmarks mainly focus on single-file tasks, leaving an assessment gap for more complex, real-world, multi-file programming scenarios. To fill this gap, we introduce RepoBench, a new benchmark specifically designed for evaluating repository-level code auto-completion systems. RepoBench consists of three interconnected evaluation tasks: RepoBench-R (Retrieval), RepoBench-C (Code Completion), and RepoBench-P (Pipeline). Each task respectively measures the system's ability to retrieve the most relevant code snippets from other files as cross-file context, predict the next line of code with cross-file and in-file context, and handle complex tasks that require a combination of both retrieval and next-line prediction. RepoBench aims to facilitate a more complete comparison of performance and encouraging continuous improvement in auto-completion systems. RepoBench is publicly available at https://github.com/Leolty/repobench.
翻訳日:2023-06-06 13:26:10 公開日:2023-06-05
# ChatGPTは良い教師コーチか? 授業指導における得点と行動的洞察のためのゼロショットパフォーマンスの測定

Is ChatGPT a Good Teacher Coach? Measuring Zero-Shot Performance For Scoring and Providing Actionable Insights on Classroom Instruction ( http://arxiv.org/abs/2306.03090v1 )

ライセンス: Link先を確認
Rose E. Wang, Dorottya Demszky(参考訳) 教室の観察と専門家のフィードバックを含むコーチングは、教師のトレーニングの広範かつ基本的な部分である。 しかし、教師の大半は、限られたリソースと専門知識へのアクセスのため、一貫性のある高品質のコーチングにアクセスできない。 自動教師として機能することで、生成AIが専門家のフィードバックを補うコスト効率が向上するかどうかを検討する。 そこで,教師の指導課題として,(a)教室観察機器に基づく書き起こしセグメントのスコア付け,(b)優れた指導戦略のためのハイライトと見逃した機会の特定,(c)より多くの生徒の推論を引き出すための行動可能な提案の提供という3つの教師指導課題を提案する。 本研究は,初等数学教室書写におけるChatGPTのゼロショット性能を評価するために,専門家の数学教師を募集する。 以上の結果から,ChatGPTは授業改善に関連する応答を生成するが,新規で洞察に富むものではないことが判明した。 例えば、モデルの提案の82%は、教師がすでにその提案を実行している書き起こしにある場所を指し示している。 我々の研究は、教師に対する洞察に富んだ、斬新で、真実に満ちたフィードバックを生み出すことの課題を強調しながら、将来の研究がこれらの障害に対処し、教師をコーチするための生成AIの能力を向上させるための道を開く。

Coaching, which involves classroom observation and expert feedback, is a widespread and fundamental part of teacher training. However, the majority of teachers do not have access to consistent, high quality coaching due to limited resources and access to expertise. We explore whether generative AI could become a cost-effective complement to expert feedback by serving as an automated teacher coach. In doing so, we propose three teacher coaching tasks for generative AI: (A) scoring transcript segments based on classroom observation instruments, (B) identifying highlights and missed opportunities for good instructional strategies, and (C) providing actionable suggestions for eliciting more student reasoning. We recruit expert math teachers to evaluate the zero-shot performance of ChatGPT on each of these tasks for elementary math classroom transcripts. Our results reveal that ChatGPT generates responses that are relevant to improving instruction, but they are often not novel or insightful. For example, 82% of the model's suggestions point to places in the transcript where the teacher is already implementing that suggestion. Our work highlights the challenges of producing insightful, novel and truthful feedback for teachers while paving the way for future research to address these obstacles and improve the capacity of generative AI to coach teachers.
翻訳日:2023-06-06 13:25:50 公開日:2023-06-05
# 視覚探索のための脳拡散:大規模生成モデルを用いた皮質発見

Brain Diffusion for Visual Exploration: Cortical Discovery using Large Scale Generative Models ( http://arxiv.org/abs/2306.03089v1 )

ライセンス: Link先を確認
Andrew F. Luo, Margaret M. Henderson, Leila Wehbe, Michael J. Tarr(参考訳) 神経科学における長年の目標は、脳の機能的組織を解明することであった。 高度な視覚野の中では、機能的説明は比較的粗いままであり、関心領域(ROI)に焦点を当て、顔、場所、体、食べ物、言葉など幅広いカテゴリーの選択の形式を採っている。 このようなROIの同定は、通常、非生態的な文脈で孤立した物体からなる手作業による刺激セットに依存しているため、先験仮説を頑健にしない機能的な組織を探索することは困難である。 これらの限界を克服するために, カテゴリー特異的な刺激を必要とせず, 自然画像とfmri記録を組み合わせることで, 所定の脳領域を活性化させると予測される画像を合成するデータ駆動手法を提案する。 脳拡散(Brain Diffusion for Visual Exploration)は、脳誘導画像合成と大規模拡散モデルを組み合わせることで、最近の生成法に基づいている。 本手法の有効性を検証し,カテゴリ選択型roisに対して,適切な意味特異性を持つ好適画像を合成する能力を示す。 次に、BrainDiVEは、同じハイレベルカテゴリに選択されたROIの違いを特徴付けることができることを示す。 最後に,これらのrois内の新たな機能的部分区分を同定し,行動データを用いて検証する。 これらの結果は、人間の視覚野の細粒度機能構造の理解を前進させ、仮説駆動法を用いて皮質組織のさらなる検討のための明確な制約を与える。

A long standing goal in neuroscience has been to elucidate the functional organization of the brain. Within higher visual cortex, functional accounts have remained relatively coarse, focusing on regions of interest (ROIs) and taking the form of selectivity for broad categories such as faces, places, bodies, food, or words. Because the identification of such ROIs has typically relied on manually assembled stimulus sets consisting of isolated objects in non-ecological contexts, exploring functional organization without robust a priori hypotheses has been challenging. To overcome these limitations, we introduce a data-driven approach in which we synthesize images predicted to activate a given brain region using paired natural images and fMRI recordings, bypassing the need for category-specific stimuli. Our approach -- Brain Diffusion for Visual Exploration ("BrainDiVE") -- builds on recent generative methods by combining large-scale diffusion models with brain-guided image synthesis. Validating our method, we demonstrate the ability to synthesize preferred images with appropriate semantic specificity for well-characterized category-selective ROIs. We then show that BrainDiVE can characterize differences between ROIs selective for the same high-level category. Finally we identify novel functional subdivisions within these ROIs, validated with behavioral data. These results advance our understanding of the fine-grained functional organization of human visual cortex, and provide well-specified constraints for further examination of cortical organization using hypothesis-driven methods.
翻訳日:2023-06-06 13:25:27 公開日:2023-06-05
# DeepGraphDMD:非線形機能脳ネットワークダイナミクスの解釈可能な時空間分解

DeepGraphDMD: Interpretable Spatio-Temporal Decomposition of Non-linear Functional Brain Network Dynamics ( http://arxiv.org/abs/2306.03088v1 )

ライセンス: Link先を確認
Md Asadullah Turja, Martin Styner and Guorong Wu(参考訳) 機能的脳力学は、特定の神経回路に関連付けられた並列および重なり合う機能的ネットワークモードによって支持される。 これらのネットワークモードをfMRIデータから分解し、その時間的特性を見つけることは、その時間的特性と機能力学の非線形性のために困難である。 動的モード分解(DMD)アルゴリズムは近年,この分解問題を解くために広く利用されている。 本研究では,ネットワークデータに対するDMDの拡張であるGraphDMDを適用し,fMRI時系列から動的ネットワークモードとその時間特性を解釈可能な方法で抽出する。 しかし、GraphDMDは、基礎となるシステムを非線形関数データからネットワークモードを抽出するためのサブ最適化である線形力学系とみなしている。 本研究では,グラフDMDアルゴリズムの一般化版であるDeepGraphDMDを開発し,任意の非線形グラフ力学系に適用する。 DeepGraphDMDは、自動エンコーダに基づくディープラーニングモデルであり、グラフデータのクープマン固有関数を学習し、非線形グラフダイナミクスを潜在線形空間に埋め込む。 シミュレーションデータとHCP静止状態fMRIデータの両方において,本手法の有効性を示す。 HCPデータにおいて、DeepGraphDMDは、流体と結晶化インテリジェンスに関連する2つの主要なネットワークモードを発見することによって、認知脳機能に関する新たな洞察を提供する。

Functional brain dynamics is supported by parallel and overlapping functional network modes that are associated with specific neural circuits. Decomposing these network modes from fMRI data and finding their temporal characteristics is challenging due to their time-varying nature and the non-linearity of the functional dynamics. Dynamic Mode Decomposition (DMD) algorithms have been quite popular for solving this decomposition problem in recent years. In this work, we apply GraphDMD -- an extension of the DMD for network data -- to extract the dynamic network modes and their temporal characteristics from the fMRI time series in an interpretable manner. GraphDMD, however, regards the underlying system as a linear dynamical system that is sub-optimal for extracting the network modes from non-linear functional data. In this work, we develop a generalized version of the GraphDMD algorithm -- DeepGraphDMD -- applicable to arbitrary non-linear graph dynamical systems. DeepGraphDMD is an autoencoder-based deep learning model that learns Koopman eigenfunctions for graph data and embeds the non-linear graph dynamics into a latent linear space. We show the effectiveness of our method in both simulated data and the HCP resting-state fMRI data. In the HCP data, DeepGraphDMD provides novel insights into cognitive brain functions by discovering two major network modes related to fluid and crystallized intelligence.
翻訳日:2023-06-06 13:25:02 公開日:2023-06-05
# MotionDiffuser:拡散を用いた制御可能なマルチエージェント動作予測

MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion ( http://arxiv.org/abs/2306.03083v1 )

ライセンス: Link先を確認
Chiyu Max Jiang, Andre Cornman, Cheolho Park, Ben Sapp, Yin Zhou, Dragomir Anguelov(参考訳) 複数のエージェント上での将来の軌跡の連成分布の拡散に基づく表現であるMotionDiffuserを提案する。 第一に、我々のモデルは、さまざまな将来の成果を捉えた高度にマルチモーダルな分布を学習します。 第二に、単純な予測器の設計は単一のL2損失訓練目標のみを必要とし、軌道アンカーに依存しない。 第3に, 本モデルは, 複数のエージェントの運動に対する結合分布を置換不変な方法で学習することができる。 さらに,PCAによる圧縮軌道表現を用い,モデル性能を改善し,正確なサンプルログ確率の効率的な計算を可能にする。 続いて, 可微分コスト関数に基づく軌道サンプリング制御を実現する, 一般的な制約付きサンプリングフレームワークを提案する。 この戦略により、ルールや物理プライオリティの実施や、カスタマイズされたシミュレーションシナリオの作成など、多数のアプリケーションが可能になる。 MotionDiffuserは既存のバックボーンアーキテクチャと組み合わせてトップモーション予測結果を達成することができる。 Waymo Open Motion Dataset上でのマルチエージェント動作予測の最先端結果を得る。

We present MotionDiffuser, a diffusion based representation for the joint distribution of future trajectories over multiple agents. Such representation has several key advantages: first, our model learns a highly multimodal distribution that captures diverse future outcomes. Second, the simple predictor design requires only a single L2 loss training objective, and does not depend on trajectory anchors. Third, our model is capable of learning the joint distribution for the motion of multiple agents in a permutation-invariant manner. Furthermore, we utilize a compressed trajectory representation via PCA, which improves model performance and allows for efficient computation of the exact sample log probability. Subsequently, we propose a general constrained sampling framework that enables controlled trajectory sampling based on differentiable cost functions. This strategy enables a host of applications such as enforcing rules and physical priors, or creating tailored simulation scenarios. MotionDiffuser can be combined with existing backbone architectures to achieve top motion forecasting results. We obtain state-of-the-art results for multi-agent motion prediction on the Waymo Open Motion Dataset.
翻訳日:2023-06-06 13:24:42 公開日:2023-06-05
# InstructZero: ブラックボックス大言語モデルの効率的な命令最適化

InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models ( http://arxiv.org/abs/2306.03082v1 )

ライセンス: Link先を確認
Lichang Chen, Jiuhai Chen, Tom Goldstein, Heng Huang, Tianyi Zhou(参考訳) 大規模言語モデル~(llms)は命令フォロワであるが、異なる状況、特にバックプロパゲーションが禁止されているブラックボックスllmに対して最適な命令を見つけることは困難である。 離散命令を直接最適化する代わりに,オープンソースLLMに適用した低次元ソフトプロンプトを最適化し,ブラックボックスLLMの命令を生成する。 InstructZero と呼ぶ提案手法の各イテレーションにおいて,ソフトプロンプトをオープンソース LLM を用いて命令に変換し,ゼロショット評価のためにブラックボックス LLM に送信し,その性能をベイズ最適化に送信し,ゼロショット性能を向上させるソフトプロンプトを新たに生成する。 Vicuna や ChatGPT など,オープンソースの LLM と API の組み合わせによる InstructZero の評価を行った。 InstructZero は,様々な下流タスクにおいて SOTA 自動命令手法より優れていることを示す。 私たちのコードとデータはhttps://github.com/Lichang-Chen/InstructZero.comで公開されています。

Large language models~(LLMs) are instruction followers, but it can be challenging to find the best instruction for different situations, especially for black-box LLMs on which backpropagation is forbidden. Instead of directly optimizing the discrete instruction, we optimize a low-dimensional soft prompt applied to an open-source LLM to generate the instruction for the black-box LLM. On each iteration of the proposed method, which we call InstructZero, a soft prompt is converted into an instruction using the open-source LLM, which is then submitted to the black-box LLM for zero-shot evaluation, and the performance is sent to Bayesian optimization to produce new soft prompts improving the zero-shot performance. We evaluate InstructZero on different combinations of open-source LLMs and APIs including Vicuna and ChatGPT. Our results show that InstructZero outperforms SOTA auto-instruction methods across a variety of downstream tasks. Our code and data are publicly available at https://github.com/Lichang-Chen/InstructZero.
翻訳日:2023-06-06 13:24:07 公開日:2023-06-05
# 確率的プログラムを用いた大規模言語モデルの逐次モンテカルロステアリング

Sequential Monte Carlo Steering of Large Language Models using Probabilistic Programs ( http://arxiv.org/abs/2306.03081v1 )

ライセンス: Link先を確認
Alexander K. Lew, Tan Zhi-Xuan, Gabriel Grand, and Vikash K. Mansinghka(参考訳) 微調整と強化学習の後でも、大きな言語モデル(llm)は不可能ではないが、プロンプトだけで確実に制御することは困難である。 連続モンテカルロステアリング(SMC)と呼ばれるLCMの出力に構文的および意味的制約を強制する新しい推論時手法を提案する。 鍵となるアイデアは、言語生成タスクを離散確率系列モデルにおける後続推論問題として指定し、標準復号を逐次モンテカルロ推論に置き換えることである。 ビームサーチと同様の計算コストのために、SMC は LLM を操り、埋め込み、構文制約による生成、交差点の促進など様々なタスクを解くことができる。 smcステアリングの実験を容易にするために、新しい世代のタスクを言語モデル確率プログラムとして簡潔に指定し、llamaファミリートランスフォーマーのステアリングを自動化する、確率的プログラミングライブラリllamppl(https://github.com/probcomp/llamppl)を提案する。

Even after fine-tuning and reinforcement learning, large language models (LLMs) can be difficult, if not impossible, to control reliably with prompts alone. We propose a new inference-time approach to enforcing syntactic and semantic constraints on the outputs of LLMs, called sequential Monte Carlo (SMC) steering. The key idea is to specify language generation tasks as posterior inference problems in a class of discrete probabilistic sequence models, and replace standard decoding with sequential Monte Carlo inference. For a computational cost similar to that of beam search, SMC can steer LLMs to solve diverse tasks, including infilling, generation under syntactic constraints, and prompt intersection. To facilitate experimentation with SMC steering, we present a probabilistic programming library, LLaMPPL (https://github.com/probcomp/LLaMPPL), for concisely specifying new generation tasks as language model probabilistic programs, and automating steering of LLaMA-family Transformers.
翻訳日:2023-06-06 13:23:28 公開日:2023-06-05
# ディラック予想に対する反例の量子化

Quantization of counterexamples to Dirac's conjecture ( http://arxiv.org/abs/2306.03080v1 )

ライセンス: Link先を確認
Mauricio Valenzuela(参考訳) 二次第一級の制約が物理系の状態を変えない変換を生成するというディラックの予想は、様々な反例を持つ。 一致するゲージ条件を課すことができないため、ディラックブラケットは定義できず、まず位相空間を制限し、次に量子化は矛盾する手続きである。 後者の観測は、ディラックの予想が一般に有効であると仮定される一方で、この種のシステムの研究をより深く妨げている。 しかし、二次第一級制約はポアソンのブラケット修正を含まない初期条件であり、波動関数の初期状態に対してこれらの制約を課すことで量子化を成功させるものであることを指摘した。 この方法は、コーリーの象徴的システムを含む2つのディラック予想の反例に適用する。

Dirac's conjecture, that secondary first-class constraints generate transformations that do not change the physical system's state, has various counterexamples. Since no matching gauge conditions can be imposed, the Dirac bracket cannot be defined, and restricting the phase space first and then quantizing is an inconsistent procedure. The latter observation has discouraged the study of systems of this kind more profoundly, while Dirac's conjecture is assumed generally valid. We point out, however, that secondary first-class constraints are just initial conditions that do not imply Poisson's bracket modification, and we carry out the quantization successfully by imposing these constraints on the initial state of the wave function. We apply the method to two Dirac's conjecture counterexamples, including Cawley's iconical system.
翻訳日:2023-06-06 13:23:05 公開日:2023-06-05
# 機械学習と政党の類似度測定への統計的アプローチ

Machine Learning and Statistical Approaches to Measuring Similarity of Political Parties ( http://arxiv.org/abs/2306.03079v1 )

ライセンス: Link先を確認
Daria Boratyn, Damian Brzyski, Beata Kosowska-G\k{a}sto{\l}, Jan Rybicki, Wojciech S{\l}omczy\'nski, Dariusz Stolicki(参考訳) 政党システムを計量政策空間にマッピングすることは、政治科学における主要な方法論的問題の一つである。 現在、ほとんどの政治科学プロジェクトでは、このタスクは純粋に質的評価に頼り、主観性と労働集約性の全ての問題に依存するドメインの専門家によって行われる。 我々は,この問題を解決するために,大きなトランスフォーマーベース言語モデルを含む自然言語処理の進歩をどのように適用できるかを検討する。 我々は、政党の政治プログラムに多くのテキスト類似度尺度を適用し、それらをどのように相互に関連づけるかを分析し、満足のいくベンチマークがなければ、専門家の調査、投票記録、選挙パターン、候補者ネットワークなどに基づく他の指標に対して評価する。 最後に、専門家の判断を訂正し、補足し、最終的に置き換える方法について考察する。

Mapping political party systems to metric policy spaces is one of the major methodological problems in political science. At present, in most political science project this task is performed by domain experts relying on purely qualitative assessments, with all the attendant problems of subjectivity and labor intensiveness. We consider how advances in natural language processing, including large transformer-based language models, can be applied to solve that issue. We apply a number of texts similarity measures to party political programs, analyze how they correlate with each other, and -- in the absence of a satisfactory benchmark -- evaluate them against other measures, including those based on expert surveys, voting records, electoral patterns, and candidate networks. Finally, we consider the prospects of relying on those methods to correct, supplement, and eventually replace expert judgments.
翻訳日:2023-06-06 13:22:51 公開日:2023-06-05
# 遠絡多要素深ベイズ能動学習

Disentangled Multi-Fidelity Deep Bayesian Active Learning ( http://arxiv.org/abs/2305.04392v3 )

ライセンス: Link先を確認
Dongxia Wu, Ruijia Niu, Matteo Chinazzi, Yian Ma, Rose Yu(参考訳) 品質とコストのバランスをとるため、様々な領域の科学と工学が様々なレベルの洗練度でシミュレーションを実行する。 複数の忠実度レベルからデータを積極的に取得することにより、入力パラメータからシミュレーション出力への直接マッピングを最も高い忠実度で学習することを目的とする。 しかし、ガウス過程に基づく既存のアプローチは高次元データに対してはほとんどスケーラブルではない。 深層学習に基づく手法は、しばしば隠れ表現に階層構造を課し、低忠実度から高忠実度への情報伝達のみをサポートする。 これらのアプローチは、低い忠実度表現から高い忠実度表現への誤りの望ましくない伝播につながる可能性がある。 本稿では,多次元関数の分布を前提としたサロゲートモデルを学ぶために,d-mfdal(disentangled multi-fidelity deep bayesian active learning)という新しいフレームワークを提案する。 熱方程式,ポアソン方程式,流体シミュレーションといった偏微分方程式の深いサロゲートを学習するベンチマークタスクにおいて,予測精度とサンプル効率の面では,本手法が有意な差を及ぼしている。

To balance quality and cost, various domain areas of science and engineering run simulations at multiple levels of sophistication. Multi-fidelity active learning aims to learn a direct mapping from input parameters to simulation outputs at the highest fidelity by actively acquiring data from multiple fidelity levels. However, existing approaches based on Gaussian processes are hardly scalable to high-dimensional data. Deep learning-based methods often impose a hierarchical structure in hidden representations, which only supports passing information from low-fidelity to high-fidelity. These approaches can lead to the undesirable propagation of errors from low-fidelity representations to high-fidelity ones. We propose a novel framework called Disentangled Multi-fidelity Deep Bayesian Active Learning (D-MFDAL), which learns the surrogate models conditioned on the distribution of functions at multiple fidelities. On benchmark tasks of learning deep surrogates of partial differential equations including heat equation, Poisson's equation and fluid simulations, our approach significantly outperforms state-of-the-art in prediction accuracy and sample efficiency.
翻訳日:2023-06-06 11:33:00 公開日:2023-06-05
# AI信仰の倫理へ向けて

Toward an Ethics of AI Belief ( http://arxiv.org/abs/2304.14577v3 )

ライセンス: Link先を確認
Winnie Ma, Vincent Valton(参考訳) AIにおける哲学研究は、主にAIの倫理に焦点を当てている。 本稿では, 信念の倫理学者であり, 機械学習科学者である我々は, AIの認識論, 特にAIの信念の倫理において, 哲学研究の新たな領域を追求する必要があることを示唆する。 ここでは,様々な方法で定義されてきた信念の倫理を,認識論におけるサブフィールドと呼ぶ。 このサブフィールドは、道徳的、実践的、その他の非倫理的信念の研究に関係している。 本論では、特定の信念が真である、正当化される、保証される、知識を構成するなど、様々な評価基準を満たしているかどうかに関する記述的疑問よりも、人間と人工的に信じるべきエージェントについて、信念の倫理における規範的疑問を主に扱う。 我々は、AI信念の倫理に応用できる(人間)信念の倫理における現在研究における4つのトピックについて提案する:AI信念のドクサスティックな誤り、道徳的に義務づけられた信念、AI信念に対する実践的および道徳的エンクローメント、AI信念に対する道徳的責任。 我々はまた、AI信仰研究の倫理として一般に認識されていない比較的初期段階の2つの哲学研究分野を示すが、それは様々な信念の道徳的・実践的な側面、すなわちAIの疫学的・倫理的非植民地化、そしてAIにおける疫学的不正を調査することによって、この分野に該当する。

Philosophical research in AI has hitherto largely focused on the ethics of AI. In this paper we, an ethicist of belief and a machine learning scientist, suggest that we need to pursue a novel area of philosophical research in AI - the epistemology of AI, and in particular an ethics of belief for AI. Here we take the ethics of belief, a field that has been defined in various ways, to refer to a sub-field within epistemology. This subfield is concerned with the study of possible moral, practical, and other non-alethic dimensions of belief. And in this paper, we will primarily be concerned with the normative question within the ethics of belief regarding what agents - both human and artificial - ought to believe, rather than with descriptive questions concerning whether certain beliefs meet various evaluative standards such as being true, being justified or warranted, constituting knowledge, and so on. We suggest four topics in extant work in the ethics of (human) belief that can be applied to an ethics of AI belief: doxastic wronging by AI; morally owed beliefs; pragmatic and moral encroachment on AI beliefs; and moral responsibility for AI beliefs. We also indicate two relatively nascent areas of philosophical research that haven't yet been generally recognized as ethics of AI belief research, but that do fall within this field of research in virtue of investigating various moral and practical dimensions of belief: the epistemic and ethical decolonization of AI; and epistemic injustice in AI.
翻訳日:2023-06-06 11:32:42 公開日:2023-06-05
# 霧環境における予測複製のための運動の時間的側面の予測

Predicting Temporal Aspects of Movement for Predictive Replication in Fog Environments ( http://arxiv.org/abs/2306.00575v2 )

ライセンス: Link先を確認
Emil Balitzki and Tobias Pfandzelter and David Bermbach(参考訳) フォグ環境の利点を十分に活用するには,データローカリティの効率的な管理が不可欠である。 ブラインドあるいはリアクティブなデータレプリケーションは、フォグコンピューティングの可能性を生かし、クライアントが接続する場所とタイミングを予測するためのより高度なテクニックを必要とする。 空間的予測はかなり注目されているが、時間的予測は未定である。 本稿では,既存の空間予測モデルに時間的予測を組み込むことの利点を検討することで,このギャップに対処する。 また,予測レプリケーションの文脈において,ディープニューラルネットワークやマルコフモデルといった時空間予測モデルの包括的解析を行う。 本稿では,逐次および周期的ユーザ移動パターンを活用した時間予測のためのholt-winterの指数的平滑化を用いた新しいモデルを提案する。 実際のユーザトラジェクトリによるフォグネットワークシミュレーションでは,データ利用率を1%に抑えながら,過剰データの15%削減を実現している。

To fully exploit the benefits of the fog environment, efficient management of data locality is crucial. Blind or reactive data replication falls short in harnessing the potential of fog computing, necessitating more advanced techniques for predicting where and when clients will connect. While spatial prediction has received considerable attention, temporal prediction remains understudied. Our paper addresses this gap by examining the advantages of incorporating temporal prediction into existing spatial prediction models. We also provide a comprehensive analysis of spatio-temporal prediction models, such as Deep Neural Networks and Markov models, in the context of predictive replication. We propose a novel model using Holt-Winter's Exponential Smoothing for temporal prediction, leveraging sequential and periodical user movement patterns. In a fog network simulation with real user trajectories our model achieves a 15% reduction in excess data with a marginal 1% decrease in data availability.
翻訳日:2023-06-06 11:23:53 公開日:2023-06-05
# スケーラブル最適マージン分配機

Scalable Optimal Margin Distribution Machine ( http://arxiv.org/abs/2305.04837v3 )

ライセンス: Link先を確認
Yilin Wang, Nan Cao, Teng Zhang, Xuanhua Shi and Hai Jin(参考訳) 最適マージン分布マシン(optimize margin distribution machine、odm)は、新しいマージン理論に根ざした新しく提案された統計学習フレームワークである。 それにもかかわらず、他のカーネルメソッドと同様に計算時間とメモリの両方に関するユビキタスなスケーラビリティの問題に悩まされている。 本稿では,従来のODMトレーニング手法に比べて10倍近い高速化を実現するスケーラブルなODMを提案する。 非線形カーネルに対しては,各パーティションで訓練されたローカルODMを,グローバルカーネルに高速に収束させる分散対応パーティション法を提案する。 線形カーネルを適用すると、通信効率のよいSVRG法を拡張してトレーニングをさらに加速する。 大規模な実証研究により,提案手法は計算効率が高く,一般化をほとんど悪化させることはなかった。

Optimal margin Distribution Machine (ODM) is a newly proposed statistical learning framework rooting in the novel margin theory, which demonstrates better generalization performance than the traditional large margin based counterparts. Nonetheless, it suffers from the ubiquitous scalability problem regarding both computation time and memory as other kernel methods. This paper proposes a scalable ODM, which can achieve nearly ten times speedup compared to the original ODM training method. For nonlinear kernels, we propose a novel distribution-aware partition method to make the local ODM trained on each partition be close and converge fast to the global one. When linear kernel is applied, we extend a communication efficient SVRG method to accelerate the training further. Extensive empirical studies validate that our proposed method is highly computational efficient and almost never worsen the generalization.
翻訳日:2023-06-06 11:21:17 公開日:2023-06-05
# 行列多様体上のニューラルネットワークの構築:ジャイロビクター空間アプローチ

Building Neural Networks on Matrix Manifolds: A Gyrovector Space Approach ( http://arxiv.org/abs/2305.04560v3 )

ライセンス: Link先を確認
Xuan Son Nguyen, Shuo Yang(参考訳) 対称正定値(spd)行列やグラスマン多様体のような行列多様体は、多くの応用において現れる。 近年、双曲幾何学研究の強力な枠組みであるジャイロ群とジャイロベクトル空間の理論を適用することで、行列多様体上のユークリッドニューラルネットワークの原理的一般化を構築しようとする研究もある。 しかし、ジャイロビクター空間(例えば内積やジャイロ角形)の多くの概念が欠けているため、これらの作品によって提供される技法や数学的道具は双曲幾何学を研究するために開発されたものと比べてまだ限られている。 本稿では、SPDおよびグラスマン多様体のジャイロベクトル空間におけるいくつかの概念を一般化し、これらの多様体上にニューラルネットワークを構築するための新しいモデルと層を提案する。 本稿では,人間の行動認識と知識グラフ補完という2つの応用にアプローチの有効性を示す。

Matrix manifolds, such as manifolds of Symmetric Positive Definite (SPD) matrices and Grassmann manifolds, appear in many applications. Recently, by applying the theory of gyrogroups and gyrovector spaces that is a powerful framework for studying hyperbolic geometry, some works have attempted to build principled generalizations of Euclidean neural networks on matrix manifolds. However, due to the lack of many concepts in gyrovector spaces for the considered manifolds, e.g., the inner product and gyroangles, techniques and mathematical tools provided by these works are still limited compared to those developed for studying hyperbolic geometry. In this paper, we generalize some notions in gyrovector spaces for SPD and Grassmann manifolds, and propose new models and layers for building neural networks on these manifolds. We show the effectiveness of our approach in two applications, i.e., human action recognition and knowledge graph completion.
翻訳日:2023-06-06 11:21:01 公開日:2023-06-05
# 生体画像分類のための自己注意型視覚変換器の開発

A Novel Vision Transformer with Residual in Self-attention for Biomedical Image Classification ( http://arxiv.org/abs/2306.01594v2 )

ライセンス: Link先を確認
Arun K. Sharma and Nishchal K. Verma(参考訳) 生物医学的画像分類は、特定の特徴分布に基づくバイオインフォマティクスのキャプチャを必要とする。 このようなアプリケーションのほとんどは、病気の患者に対するサンプルの可用性の制限とデータセットのバランスのとれた性質のため、主に課題がある。 本稿では,視覚トランスフォーマー (vit) のための多頭部セルフアテンション(multi-head self-attention) の枠組みについて述べる。 提案手法では,複数頭部注意のブロック毎に最適な注意出力を蓄積するために残留接続の概念を用いる。 提案するフレームワークは2つの小さなデータセットで評価されている。 (i)血液細胞分類データセット及び (ii)脳MRI画像による脳腫瘍の検出。 その結果、従来のViTや他の畳み込みに基づく最先端分類モデルよりも顕著な改善が見られた。

Biomedical image classification requires capturing of bio-informatics based on specific feature distribution. In most of such applications, there are mainly challenges due to limited availability of samples for diseased cases and imbalanced nature of dataset. This article presents the novel framework of multi-head self-attention for vision transformer (ViT) which makes capable of capturing the specific image features for classification and analysis. The proposed method uses the concept of residual connection for accumulating the best attention output in each block of multi-head attention. The proposed framework has been evaluated on two small datasets: (i) blood cell classification dataset and (ii) brain tumor detection using brain MRI images. The results show the significant improvement over traditional ViT and other convolution based state-of-the-art classification models.
翻訳日:2023-06-06 11:14:21 公開日:2023-06-05
# 3次元分子相互作用学習に向けたジェネラリスト同変トランスフォーマー

Generalist Equivariant Transformer Towards 3D Molecular Interaction Learning ( http://arxiv.org/abs/2306.01474v2 )

ライセンス: Link先を確認
Xiangzhe Kong, Wenbing Huang, Yang Liu(参考訳) 生物学や薬物発見における多くのプロセスは、タンパク質やタンパク質、タンパク質や小さな分子など、様々な分子間の様々な3D相互作用を含んでいる。 普遍的な分子相互作用を学ぶための一般モデルの設計は、異なる分子が通常異なる粒度で表されるため、非常に難しい。 本稿では,従来の1次元表現とは対照的に,まず3次元分子を集合の幾何グラフとして普遍的に表現することを提案する。 提案する統一表現に基づき, スパースブロックレベルと高密度原子準位の両方の相互作用を効果的に捉えるためのジェネラリスト同変トランスフォーマー(get)を提案する。 具体的には、getは2レベルアテンションモジュール、フィードフォワードモジュール、および層正規化モジュールで構成されており、特に、各モジュールは3d世界の対称性を満たすようにe(3)同値である。 タンパク質親和性予測,リガンド結合親和性予測,リガンド有効性予測に関する広範な実験により,提案手法が既存手法に対して有効であることを検証し,異なる領域と異なるタスク間で伝達可能な知識を学ぶ可能性を明らかにする。

Many processes in biology and drug discovery involve various 3D interactions between different molecules, such as protein and protein, protein and small molecule, etc. Designing a generalist model to learn universal molecular interactions is valuable yet challenging, given that different molecules are usually represented in different granularity. In this paper, we first propose to universally represent a 3D molecule as a geometric graph of sets, in contrast to conventional single-level representations. Upon the proposed unified representation, we then propose a Generalist Equivariant Transformer (GET) to effectively capture both sparse block-level and dense atom-level interactions. To be specific, GET consists of a bilevel attention module, a feed-forward module and a layer normalization module, where, notably, each module is E(3) equivariant to meet the symmetry of 3D world. Extensive experiments on the prediction of protein-protein affinity, ligand binding affinity, and ligand efficacy prediction verify the effectiveness of our proposed method against existing methods, and reveal its potential to learn transferable knowledge across different domains and different tasks.
翻訳日:2023-06-06 11:14:11 公開日:2023-06-05
# NMTにおけるサブワードベーストークン化における周波数と構成性の重要性の評価

Assessing the Importance of Frequency versus Compositionality for Subword-based Tokenization in NMT ( http://arxiv.org/abs/2306.01393v2 )

ライセンス: Link先を確認
Benoist Wolleb, Romain Silvestri, Giorgos Vernikos, Ljiljana Dolamic, Andrei Popescu-Belis(参考訳) サブワードトークン化は、ニューラルネットワークモデルと機械翻訳システムにおけるトークン化のデファクトスタンダードである。 サブワードには、頻繁なトークンの短いエンコーディング、サブワードの構成性、未知語を扱う能力という3つの利点がある。 相対的な重要性は明らかになっていないため、コンポジション性から周波数(第一の利点)を分離できるトークン化手法を提案する。 このアプローチでは、Huffmanコーディングを使用して、一定量のシンボルを使用して、単語を周波数順にトークン化する。 CS-DE, EN-FR, EN-DE NMTによる実験では、BPEが到達したスコアの90%-95%は周波数だけで占めることがわかった。

Subword tokenization is the de facto standard for tokenization in neural language models and machine translation systems. Three advantages are frequently cited in favor of subwords: shorter encoding of frequent tokens, compositionality of subwords, and ability to deal with unknown words. As their relative importance is not entirely clear yet, we propose a tokenization approach that enables us to separate frequency (the first advantage) from compositionality. The approach uses Huffman coding to tokenize words, by order of frequency, using a fixed amount of symbols. Experiments with CS-DE, EN-FR and EN-DE NMT show that frequency alone accounts for 90%-95% of the scores reached by BPE, hence compositionality has less importance than previously thought.
翻訳日:2023-06-06 11:13:50 公開日:2023-06-05
# 部分てんかん性病変のロバストおよび包括的切除 : グラフ畳み込みアプローチ

Robust and Generalisable Segmentation of Subtle Epilepsy-causing Lesions: a Graph Convolutional Approach ( http://arxiv.org/abs/2306.01375v2 )

ライセンス: Link先を確認
Hannah Spitzer, Mathilde Ripart, Abdulah Fawaz, Logan Z. J. Williams, MELD project, Emma Robinson, Juan Eugenio Iglesias, Sophie Adler, Konrad Wagstyl(参考訳) focal cortical dysplasia (fcd) は薬剤耐性の焦点てんかんの主要な原因であり、手術によって治療することができる。 これらの病変は極めて微妙であり、専門の神経放射線学者にも見逃されることが多い。 そのため、手動の傷口マスクは高価で、限定的であり、器間変動が大きい。 既存のFCD検出方法は、主に全脳コンテキストを欠いた頂点またはパッチベースのアプローチによって、多数の偽陽性予測によって制限される。 本稿では,脳領域間の空間関係を学習できるグラフ畳み込みネットワーク(gcn)を用いた意味セグメンテーションとしてこの問題にアプローチする。 FCD識別の具体的な課題に対処するため,提案モデルでは,偽陽性を減少させるために病変からの距離を予測する補助的損失と,不確実な病変マスクからの学習を容易にするための監督的分類損失を含む。 構造的mriデータから, 表面的特徴と手動病変を有する1015名からなるマルチセンタデータセットにおいて, 提案するgcnは0.74のaucを達成し, 従来使用されていた多層パーセプトロン (mlp) 分類器 (auc 0.64) に対して有意な改善が得られた。 感度は67%であり, mlp使用時の49%に比べ, gcnの特異度は71%であった。 この特異性の改善は、ai放射線補助薬の使用に対する臨床信頼を高め、専門家レビューを必要とする領域の数を減らすことによって、病変検出ツールの放射線ワークフローへの臨床統合に不可欠である。

Focal cortical dysplasia (FCD) is a leading cause of drug-resistant focal epilepsy, which can be cured by surgery. These lesions are extremely subtle and often missed even by expert neuroradiologists. "Ground truth" manual lesion masks are therefore expensive, limited and have large inter-rater variability. Existing FCD detection methods are limited by high numbers of false positive predictions, primarily due to vertex- or patch-based approaches that lack whole-brain context. Here, we propose to approach the problem as semantic segmentation using graph convolutional networks (GCN), which allows our model to learn spatial relationships between brain regions. To address the specific challenges of FCD identification, our proposed model includes an auxiliary loss to predict distance from the lesion to reduce false positives and a weak supervision classification loss to facilitate learning from uncertain lesion masks. On a multi-centre dataset of 1015 participants with surface-based features and manual lesion masks from structural MRI data, the proposed GCN achieved an AUC of 0.74, a significant improvement against a previously used vertex-wise multi-layer perceptron (MLP) classifier (AUC 0.64). With sensitivity thresholded at 67%, the GCN had a specificity of 71% in comparison to 49% when using the MLP. This improvement in specificity is vital for clinical integration of lesion-detection tools into the radiological workflow, through increasing clinical confidence in the use of AI radiological adjuncts and reducing the number of areas requiring expert review.
翻訳日:2023-06-06 11:13:35 公開日:2023-06-05
# SelFLoc: 大規模クラウドによる位置認識のための選択的特徴融合

SelFLoc: Selective Feature Fusion for Large-scale Point Cloud-based Place Recognition ( http://arxiv.org/abs/2306.01205v2 )

ライセンス: Link先を確認
Qibo Qiu, Haiming Gao, Wenxiao Wang, Zhiyi Su, Tian Xie, Wei Hua, and Xiaofei He(参考訳) ポイントクラウドベースの位置認識は、特にグローバル位置センサがアクセスできない場合、モバイルロボットや自動運転車にとって不可欠である。 物体や建物の表面にはLiDARの点が散在しており、異なる軸に沿って強い形状の先行している。 特定の軸に沿ったメッセージパッシングを改善するために,本論文の主なコントリビューションの一つであるSACB(Stacked Asymmetric Convolution Block)が設計されている。 包括的な実験により、非対称畳み込みとそのsacbが採用する戦略が、ポイントクラウド機能のより効果的な表現に寄与できることが示されている。 そこで本研究では,特定のキー領域における局所的特徴を選択的に高め,融合前の特徴を整列するために,ポイント・チャネル・ワイズ・ゲーティング層を予め定義された配列に積み重ねて形成した選択的特徴融合ブロック(sffb)を提案する。 SACBとSFFBは、SelFLocと呼ばれるポイントクラウドベースの位置認識のための堅牢で正確なアーキテクチャを構築するために結合される。 比較実験の結果、selflocはoxfordや他の3つの社内ベンチマークにおいて、平均リコール@1で1.6の絶対パーセンテージの改善で最先端(sota)のパフォーマンスを達成していることがわかった。

Point cloud-based place recognition is crucial for mobile robots and autonomous vehicles, especially when the global positioning sensor is not accessible. LiDAR points are scattered on the surface of objects and buildings, which have strong shape priors along different axes. To enhance message passing along particular axes, Stacked Asymmetric Convolution Block (SACB) is designed, which is one of the main contributions in this paper. Comprehensive experiments demonstrate that asymmetric convolution and its corresponding strategies employed by SACB can contribute to the more effective representation of point cloud feature. On this basis, Selective Feature Fusion Block (SFFB), which is formed by stacking point- and channel-wise gating layers in a predefined sequence, is proposed to selectively boost salient local features in certain key regions, as well as to align the features before fusion phase. SACBs and SFFBs are combined to construct a robust and accurate architecture for point cloud-based place recognition, which is termed SelFLoc. Comparative experimental results show that SelFLoc achieves the state-of-the-art (SOTA) performance on the Oxford and other three in-house benchmarks with an improvement of 1.6 absolute percentages on mean average recall@1.
翻訳日:2023-06-06 11:12:47 公開日:2023-06-05
# 重み付きリワードを用いた個人用強調学習

Differentially Private Episodic Reinforcement Learning with Heavy-tailed Rewards ( http://arxiv.org/abs/2306.01121v2 )

ライセンス: Link先を確認
Yulian Wu, Xingyu Zhou, Sayak Ray Chowdhury and Di Wang(参考訳) 本稿では,差分プライバシ(DP)の制約の下で,重み付き報酬を伴う(有限地平線表型)マルコフ決定プロセス(MDP)の問題について検討する。 DPを確保するために、通常、報酬を仮定する私的強化学習の以前の研究と比較すると、報酬分布が有限の$(1+v)$-第モーメントと約$v \in (0,1]$を持つ設定を考える。 報酬に対するロバスト平均推定器を利用することで、まず重み付きMDPのための2つのフレームワーク、すなわち価値反復のためのフレームワークとポリシー最適化のためのフレームワークを提案する。 各フレームワークでは,共同微分プライバシ(JDP)モデルと局所微分プライバシ(LDP)モデルの両方を検討する。 当社の枠組みに基づいて,JDP と LDP の双方のケースに対して,残念な上限を設け,配布時期とプライバシ予算の両方が後悔に重大な影響を及ぼすことを示す。 最後に,JDPモデルにおける重装マルチアームバンディットのインスタンス非依存な下限に減らして,重装マルチアームバンディットに対する最小限の最小限の最小化を実現する。 また,いくつかのプライベート minimax メソッドを採用することで,ldp の問題に対する下限を示す。 その結果,サブガウシアンによるプライベートrl問題と,重み付き報酬問題との間には,根本的な違いがあることが判明した。

In this paper, we study the problem of (finite horizon tabular) Markov decision processes (MDPs) with heavy-tailed rewards under the constraint of differential privacy (DP). Compared with the previous studies for private reinforcement learning that typically assume rewards are sampled from some bounded or sub-Gaussian distributions to ensure DP, we consider the setting where reward distributions have only finite $(1+v)$-th moments with some $v \in (0,1]$. By resorting to robust mean estimators for rewards, we first propose two frameworks for heavy-tailed MDPs, i.e., one is for value iteration and another is for policy optimization. Under each framework, we consider both joint differential privacy (JDP) and local differential privacy (LDP) models. Based on our frameworks, we provide regret upper bounds for both JDP and LDP cases and show that the moment of distribution and privacy budget both have significant impacts on regrets. Finally, we establish a lower bound of regret minimization for heavy-tailed MDPs in JDP model by reducing it to the instance-independent lower bound of heavy-tailed multi-armed bandits in DP model. We also show the lower bound for the problem in LDP by adopting some private minimax methods. Our results reveal that there are fundamental differences between the problem of private RL with sub-Gaussian and that with heavy-tailed rewards.
翻訳日:2023-06-06 11:12:23 公開日:2023-06-05
# 監視量子イジング鎖における偽真空崩壊に対するモンテカルロ行列生成状態のアプローチ

Monte Carlo matrix-product-state approach to the false vacuum decay in the monitored quantum Ising chain ( http://arxiv.org/abs/2306.01067v2 )

ライセンス: Link先を確認
Jeff Maki, Anna Berti, Iacopo Carusotto, Alberto Biella(参考訳) 本研究では, 強磁性量子イジング鎖の局所磁化の連続的なモニタリングにより, 弱長手磁場下での真空崩壊を特徴付ける。 準安定状態, 偽真空でシステムを初期化することにより, 真真空の共鳴気泡を生成するコヒーレントダイナミクスと, 熱を誘導し量子相関の量を減少させる測定との競合について検討する。 この目的のために, 行列積状態と確率的量子軌道との組合せに基づく数値的手法を応用し, 連続的測定の存在下で相互作用する多体系の軌道分解非平衡ダイナミクスのシミュレーションを可能にする。 測定値の存在が真空崩壊にどのように影響するかを示す。短時間で局所的な最小値からの離脱が加速され、長い時間でシステムは無限温度の非コヒーレント混合物に熱化する。 大きな測定レートでは、システムは量子ゼノレジームに入る。 擬似真空崩壊と熱化物理学は、磁化、連結相関関数、軌道分解エントロピーによって特徴づけられる。

In this work we characterize the false vacuum decay in the ferromagnetic quantum Ising chain with a weak longitudinal field subject to continuous monitoring of the local magnetization. Initializing the system in a metastable state, the false vacuum, we study the competition between coherent dynamics, which tends to create resonant bubbles of the true vacuum, and measurements which induce heating and reduce the amount of quantum correlations. To this end we exploit a numerical approach based on the combination of matrix product states with stochastic quantum trajectories which allows for the simulation of the trajectory-resolved non-equilibrium dynamics of interacting many-body systems in the presence of continuous measurements. We show how the presence of measurements affects the false vacuum decay: at short times the departure from the local minimum is accelerated while at long times the system thermalizes to an infinite-temperature incoherent mixture. For large measurement rates the system enters a quantum Zeno regime. The false vacuum decay and the thermalization physics are characterized in terms of the magnetization, connected correlation function, and the trajectory-resolved entanglement entropy.
翻訳日:2023-06-06 11:11:54 公開日:2023-06-05
# STEVE-1:Minecraftにおけるテキスト・ツー・ビヘイビア生成モデル

STEVE-1: A Generative Model for Text-to-Behavior in Minecraft ( http://arxiv.org/abs/2306.00937v2 )

ライセンス: Link先を確認
Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila McIlraith(参考訳) テキスト命令に応答するAIモデルの構築は、特にシーケンシャルな意思決定タスクでは難しい。 本研究では,DALL-E 2 で使用される unCLIP アプローチが命令追従型意思決定エージェントの創出にも有効であることを示す,Minecraft 用の命令追従型 Video Pretraining (VPT) モデルである STEVE-1 を導入する。 STEVE-1は、事前訓練されたVPTモデルをMineCLIPの潜伏空間のコマンドに従うように適応させ、テキストから潜伏コードを予測するために事前訓練する。 これにより、コストのかかる人的テキストアノテーションの必要性を回避し、自己管理された行動クローニングと後向きのレザベリングを通じてVPTを微調整することができます。 VPTやMineCLIPのような事前訓練されたモデルを活用し、テキスト条件の画像生成のベストプラクティスを採用することで、STEVE-1はトレーニングに60ドルしかかからず、マインクラフトで幅広い短距離のオープンエンドテキストとビジュアルインストラクションをフォローできる。 STEVE-1はMinecraftに続き、低レベルなコントロール(マウスとキーボード)と生のピクセル入力を備えたオープンエンド命令のための新しいバーを設定。 我々は,事前学習,分類子なし指導,データスケーリングなど,下流のパフォーマンスの重要な要因を明らかにする実験的なエビデンスを提供する。 モデルウェイト、トレーニングスクリプト、評価ツールを含むすべてのリソースが、さらなる研究のために利用可能です。

Constructing AI models that respond to text instructions is challenging, especially for sequential decision-making tasks. This work introduces an instruction-tuned Video Pretraining (VPT) model for Minecraft called STEVE-1, demonstrating that the unCLIP approach, utilized in DALL-E 2, is also effective for creating instruction-following sequential decision-making agents. STEVE-1 is trained in two steps: adapting the pretrained VPT model to follow commands in MineCLIP's latent space, then training a prior to predict latent codes from text. This allows us to finetune VPT through self-supervised behavioral cloning and hindsight relabeling, bypassing the need for costly human text annotations. By leveraging pretrained models like VPT and MineCLIP and employing best practices from text-conditioned image generation, STEVE-1 costs just $60 to train and can follow a wide range of short-horizon open-ended text and visual instructions in Minecraft. STEVE-1 sets a new bar for open-ended instruction following in Minecraft with low-level controls (mouse and keyboard) and raw pixel inputs, far outperforming previous baselines. We provide experimental evidence highlighting key factors for downstream performance, including pretraining, classifier-free guidance, and data scaling. All resources, including our model weights, training scripts, and evaluation tools are made available for further research.
翻訳日:2023-06-06 11:10:46 公開日:2023-06-05